4.2 Kirjeldavad statistikud

Nagu eelnevalt mainitud, sõltub tunnuse tüübist väga palju, mil moel andmeid kirjeldada ja analüüsida.

Binaarset tunnust sobib kõige paremini kirjeldada osakaalu ehk protsendiga ning sagedusena (nn tükkide arvuna). Tihti piisab vaid ühe väärtuse osakaalu mainimisest, sest kaks väärtust kokku annavad 100% (nt: 2. kursusel on mehi 34% – järelikult naisi on 66%).

Sagedustabelit pelgalt selle ühe binaarse tunnuse jaotumise kohta ei ole mõtet teha, sest see võtab palju rohkem ruumi, kui pool lehekülge samasisulist lauset. Samal põhjusel ei ole vääri lehekülje ruumi ka binaarse tunnuse kohta tehtavad joonised. Kui aga mingis ettekandes või esitluses on ilmtingimata väga-väga vältimatult vaja binaarse tunnuse jaotust esitada, siis on soovitatav kasutada selleks tulpasid (nt tulpdiagramm), mitte aga jooniseid, mille tõlgendamisel tuleb lähtuda pindalast või nurgast. Nimelt on teaduslikult tõestatud, et inimslim suudab lihtsamini eristada kauguseid/pikkuseid kui nurkade suuruseid või alade pindalasid14.

Ka teisi mittearvulisi tunnuseid sobib eelkõige kirjeldada osakaalude abil; tihti kasutatakse selleks jaotustabeleid – tabeleid, kus lahtrites on vastavate kategooriate osakaalud. Tabeleid, kus protsentida asemel on objektide arvud ehk sagedused, nimetatakse sagedustabeliteks. Tihti on sagedus- ja jaotustabel kombineeritud.

Tabel 4.1: Seltskondlikest üritustest osavõtmise suhtelise sageduse hinnang 2020. a 2. kursuse arstitudengite hulgas
Vastajaid Osakaal (%)
Palju harvem kui enamik eakaaslasi 12 8.96
Harviemini kui enamik eakaaslasi 50 37.31
Umbes sama tihti kui enamik eakaaslasi 56 41.79
Sagedamini kui enamik eakaaslasi 13 9.70
Palju sagedamini kui enamik eakaaslasi 3 2.24

Mittearvulise tunnuse jaotuseks on sobilik kasutada ka tulpdiagrammi (barplot) – joonist, kus ühel teljel on kategooriad ning teisel teljel kas sagedused või osakaalud. Rõhutamaks, et tegemist ei ole pideva tunnusega, on tulpdiagrammil tulpade vahel vahed.

Mõnikord kasutatakse mittearvuliste tunnuste kirjeldamiseks ka muid jooniseid, näiteks sektordiagrammi. Nagu eelpool mainitud, siis inimese silm oskab kõige paremini eristada pikkuseid, märksa vähem nurki või pindalu. Näiteks sektordiagrammi, kus ei ole täiendavat annotatsiooni, põhjal mingi kategooria osakaalu hinnates on hinnangud palju ebatäpsemad, kui tupldiagrammi põhjal.

Ja mitmesugused muud eksootilisemad joonistused on pahatihti veelgi eksitavamad, vt nt https://stat24.ee/2015/02/kuidas-statistika-abil-valetada-valimiste-eri/


Arvuliste tunnuste kirjeldamiseks leidub terve plejaad statistikuid.

Miinimum ja maksimum on kasvavalt järjestatud arvrea vastavalt kõige esimene arv ja kõige viimane arv. Näiteks arvrida 73.86, 63.89, 83.81, 12.59, 52.13 on kasvavalt järjestatuna selline: 12.59, 52.13, 63.89, 73.86, 83.81. Miinimum on 12.59 ning maksimum 83.81.

Haare \(=\text{maksimum} - \text{miinimum}\). Nende viie arvu puhul on haare 71.22. Haare kirjeldab, seda kui suures vahemikus arvud esinevad / varieeruvad.

Kvantiilid ehk protsentiilid – järjestatud arvrea 0,2-kvantiil ehk 20. protsentiil on selline koht selles reas, millest väiksemad arvud moodustavad 20% selle arvrea arvudest. Nende arvude näites on 0,2-kvantiil = 32.36. Tasub märgata, et kvantiil ei pruugi ise üldse selle arvrea arv olla – ja ei peagi: kvantiili eesmärk on jaotada arvrida. Samuti tasub teada, et kvantiilide arvutamise meetodeid on küllalt palju ning erinevad tarkvarad kasutavad erinevaid lähenemisi15. Seepärast ei maksa ehmuda, kui teadlasest kolleegi artikli käsikirjas on näiteks 0,25-kvantiili väärtus õige natuke teistsugune, kui sinul endal oli arvutatud. Lisaks võimalikule arvutusveale tasub üle kontrollida ka see, et on sama meetodit kasutatud. See on ka üks põhjustest, miks tänapäeval aina rohkem on teadusartiklites ka mainitud, millist tarkvara on andmete analüüsimiseks kasutatud.

Kvartiilid: 1. 2. ja 3. kvartiil on 0,25-, 0,50- ja 0,75-kvantiilid – need jaotavad järjestatud arvrea neljaks võrdse suurusega (arvude hulgaga) osaks. Viie arvuga näites on need vastavalt 52.13, 63.89 ja 73.86. Kvartiilid ei ole kuigivõrd tundlikud selle suhtes, kui arvritta mõni üksik arv juurde lisandub või muutub.

Mediaan on 2. kvartiil ehk 0,5-kvantiil ehk 50. protsentiil.

Kvartiilide haare (IQR, interquartile range) \(= \text{3. kvartiil} - \text{1. kvartiil}\). Näidet jätkates on see eelmainitud 5 arvu põhjal 21.73. Kvartiilide haare näitab, millises vahemikus paikneb keskmine osa vaadeldavatest väärtustest.

Mood on selline arv, mida arvrea esineb kõige sagedamini. Jooksvas viie arvuga näites on kõik arvud kõige sagedasemad (sagedus = 1), seega on tegemist nn multimodaalse (mitme moodiga) arvreaga.

Aritmeetiline keskmine (arithmetic mean) on statistikas kõige rohkem kasutatav statistik, enamasti jäetakse täiend “aritmeetiline” eest ära. Valimi põhjal arvutatud aritmeetilist keskmist tähistatakse enamasti \(\bar{x}\): kui on mingid arvud \(x_1, x_2, x_3, \dots, x_n\) (näiteks needsamad 5 arvu: \(x_1=73.86, x_2=63.89, x_3=83.81, x_4=12.59, x_5=52.13\)), siis nende aritmeetiline keskmine on nende arvude summa jagatud nende koguarvuga: \[\bar{x} = \frac{x_1 + x_2 + \dots + x_n}{n}\] ehk summa märki (suur kreeka sigma täht) kasutades (valemi järel olev punkt on lauset lõpetav punkt): \[\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_i\;\;.\] Dispersioon (variation) iseloomustab keskmist üksikute arvude ruutkaugust valimi keskmisest ja arvutatakse nii:
\[\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2\;\;.\] Kui tunnus on mõõdetud mingi ühikuga (nt cm), siis dispersiooni puhul on ühikuks vastav ruut (nt cm2).

Standardhälve (standard deviation) on ruutjuur dispersioonist, valimi põhjal arvutatud standardhälvet tähistatakse sageli tähega \(s\): \[s = \sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2}\]

Üks põhjustest, miks teadusartiklites esitatakse sagedamini standardhälvet kui dispersiooni on see, et standardhälbe ühik on sama, mis uuritaval tunnusel (nt cm).

Nii dispersioon kui ka standardhälve iseloomustavad, kui hajusalt paiknevad andmed (tunnuse üksikud väärtused) aritmeetilise keskmise ümber. Kui standardhälve on (mõõtmisskaalaga võrreldes) väike, on mõõdetud väärtused kontsentreerunud keskväärtuse lähedale. Kui standardhälve on suur, siis mõõdetud väärtused on väga erinevad (vähemalt üks on teistest väga erinev)

Standardhälbe ja aritmeetilise keskmise suhet nimetatakse suhteliseks standardveaks ehk variatsioonikordajaks (coefficient of variation). Variatsioonikordaja iseloomustab, kas kesväärtuse hinnang on pigem täpne või ebatäpne. Nt elevantide keskmise kaalu arvutamisel võib standardhälve olla \(s = 120 \text{ kg}\), laborihiirte keskmise kaalu puhul aga \(s = 1,5 \text{ g}\). Ent kui elevantide keskmine kaal on \(x = 7000 \text{kg}\) ja laborihiirte keskmine kaal on 20 g, siis elevantide keskmise kaalu hinnang on täpsem (suhtelises mõttes): \(\frac{120}{7000} \approx 0,017 < 0,75 = \frac{1,5}{20}\). Variatsioonikordaja omab mõtet, kui uuritav keskmine ei saa olla 0.

Arvuliste tunnuste jaotuse kirjeldamiseks on mitu sobivat joonist. Üks informatiivsemaid nendest on histogramm. Selle joonistamiseks tuleb pidev tunnus jaotada võrdsete laiustega kategooriatesse ja joonistada tulpadega diagramm, kus y-teljel on vastava kategooria sagedus. Rõhutamaks, et tegemist on arvulise tunnusega, ei jäeta tulpade vahele vahesid ning x-teljele pannakse sildid hoopis tulpade vahele.

Teine sagedane joonis arvuliste tunnuste jaoks on karpdiagramm (boxplot). Karpdiagrammi tuum on karp, mille üks serv kujutab 1. kvartiili ning teine serv 3. kvartiili, karbi keskel olev joon kujutab mediaani (2. kvartiili). Teisisõnu, karbi sisse jääb 50% andmetest, mis paiknevad mediaani ümber. Lisaks sellele lähtuvad karbist nn vurrud, mis iseloomustavad seda, kui kaugele mediaanist jäävad natuke ekstreemsemad väärtused; enamasti ei ole vurru pikkus suurem kui poolteist korda karbi pikkus (võib tarkvarati erineda). Üksikute punktidega kujutatakse selliseid väärtuseid valimis, mis jäävad mediaanist veelgi kaugemale.

Tihti on kasulik arvulise tunnuse jaotust ka jaotustabeli abil iseloomustada. Sel juhul tuleb tunnus kategoriseerida (muuta järjestustunnuseks) ning kasutada sama lähenemist, mida mittearvuliste tunnuste puhul.