1 Sissejuhatus

Statistika on uute empiiriliste teadmiste saamise teadus. Statististika hõlmab kõike andmete kogumise, kirjeldamise, analüüsimise ja tõlgendamisega seonduvat2; tänapäeval on populaarne seda sama nimetada andmeteaduseks.

Statistika v.s. andmeteadus TODO

Mõnikord eristatakse kirjeldavat statistikat – andmete kokkuvõtlikku esitamist (nt: insulti haigestunute hulgas oli 37% naisi ja 63% mehi) – ja analüütilist statistikat – andmete põhjal järelduste tegemist üldiste seaduspärasuste kohta (nt: insulti haigestunute hulgas on oluliset rohkem mehi kui naisi (p = 0;01)). Biostatistikaks nimetatakse statistikat eluteadustes.

Klassikaliselt peetakse statistika ülesandeks valimi põhjal järelduste tegemist üldkogumi kohta.

Definitsioon 1.1 Üldkogum ehk populatsioon (i.k population) – objektid, kellele või millele üldistatakse uurimuse tulemusi.
Definitsioon 1.2 Objekt (i.k statistical unit) – uurimisalune ühik.

Üldkogum võib olla näiteks kogu Eesti rahvastik täna, või hoopis teatud osa sellest (nt 0–18-aastased); mõnikord on üldkogum ka üldistus ajas: näiteks kõik insuldi diagnoosiga isikud möödunud 10 ja eesoleva 10 aasta jooksul. Inimestest rääkides sobib mõnikord “üldkogumi” asemel kasutada sõna “rahvastik”.

Objektiks, kelle/mille kohta andmeid kogutakse/mõõdetakse, võib näiteks olla üksikindiviid, mingi kehaosa, mingi perearstipraksis, mingi riik.

Definitsioon 1.3 Valim (i.k sample) – uurija käsutuses olevate objektide hulk. Kui valimisse kuuluvad kõik üldkogumi objektid, nimetatakse seda kõikseks valimiks.

Tavaliselt on andmed kogutud/olemas ainult osa üldkogumi objektide kohta. Kui valim on piisavalt esinduslik, siis võib eeldada, et valimis esinevad seaduspärasused on ka üldkogumis enam-vähem sarnasel kujul. Esindusliku valimi saamiseks on levinuim meetod lihtne juhuvalim – üldkogumi objektide täielikust loetelust ehk freimist (nt rahvastikuregistrist) valitatakse soovitav hulk inimesi, nii et iga objekti valimisse sattumise tõenäosus on ühesugune (näiteks võib iga isiku puhul visata virtuaalset münti, millel “kulli” saamise tõenäosus on 0,01% ning “kulli” tulemisel kaasatakse inimene valimisse). Mugavusvalimiks nimetatakse sellist valimit, keda/mida on mugav uuringusse kaasata, näiteks sõbrad, juhuslikud vastutulijad tänaval, järjestikused 100 patsienti, kes pimesoolelõikust vajavad.

Valimi võtmise meetodeid on mitmeid3, kvantitatiivseks analüüsiks sobivad eelkõige tõenäosuslikud valimid.

Kliinilistes katsetes pahatihti pole võimalik tõenäosuslikke valimeid kasutada, vaid kaasatakse nt terveid vabatahtlikke või siis nõusoleku andnud patsiente kuskil haiglas mingi ajaperioodi jooksul. Kindlasti ei ole taolised valimid esinduslikud vastava rahvastiku (inimeste) suhtes (nt kõik terved inimesed, kõik selle haigusega patsiendid.) Kui aga on usutav (ja see vajab põhjendamist!), et taolises mugavusvalimis nähtavad bioloogilised protsessid (nt ravimolekuli farmakokineetika, antibiootikumi mõju kehas olevatele bakteritele jne) on üldistatavad ka sellistele inimestele, keda valim muude näitajate poolest ei esinda (nt tihti on ravimuuringutes välistamiskriteeriumiks rasestumisvõimelisus), siis sellises olukorras on tegemist (bioloogilise) põhjusliku mehhanismi üldistusega ja mugavusvalimis nähtud tulemust (nt ravim töötab) saab üldistada teatud määral ka teistele inimestele. Teisalt: kui taolist bioloogilist eeldust väga kindlalt teha ei saa, siis ka mugavusvalimiga tehtud katse üldistamine muutub küsitavaks. Vt ka äärmiselt põnevat ja teravat diskussiooni Int J Epidem 2013-2014. aasta numbrites4

Näiteid:
Näide 1.1 * Levimusuuring: üldkogum - uuritava piirkonna rahvastik, valim – juhuvalim rahvastikust * Ökoloogiline uuring: valim – piirkonna rahvastik / piirkondade rahvastikud, üldkogum – samades tingimustes olev rahvastik (üldistused ajas jaruumis) * Epidemioloogiline uuring: valim – teatud riskigrupp rahvastikus, üldkogum – identsetes tingimustes (riskitegur) olev rahvastik või * Kliiniline katse: teatud diagnoosiga haiged, kes kaasamiskriteeriumitele vastavad, valim – sama diagnoosiga samades tingimustes olevad haiged

Eriti katsetes/mõjutusuuringutes ei üldistata absoluutnäitajaid, vaid leitud seoseid.

Definitsioon 1.4 Tunnus (i.k variable) – objektil mõõdetav omadus või näitaja.

Tunnused on näiteks nimi, sugu, vererõhk; haigla eelarve, töötajate arv. Mõnikord nimetatakse (eelkõige andmete sisestamisel) tunnust ka (andme)väljaks.

Andmestikuks nimetatakse uuritavate tunnuste väärtuseid kõikidel objektidel.

Analüüsida on lihtsam sellist andmestikku, mis on struktureeritud kujul. Kui valikuuringus iga inimene kirjutab vaba tekstiga, mis on tema omadused, siis sellist andmestikku on väga keeruline analüüsida. Mõni inimene võib näiteks oma kaalu kohta kirjutada midagi ebamäärast (parajalt paks, parimais aastais) samal ajal kui teine avaldab täpse kaalu, aga alles pärast seda, kui ta on kirja pannud kõik oma mõtted maailma, riigikorra ja käimasoleva uuringu kohta. Käesoleval ajal on Eestis tervisevaldkonnas heaks/halvaks näiteks raskestianalüüsitavaks andmestikuks epikriisid (need on vabatekstilised).

Andmed saadakse andmete kogumise kaudu. Et neid analüüsida, on vaja andmeid eelnevalt töödelda ja enamasti ka puhastadad: näiteks tekstikaevega otsida epikriisidest teatud märksõnu (eesti keeles ja teistes aglutineerivates keeltes on see eriti piinarikas), moodustada olemasolevate tunnuste alusel uusi tunnuseid (nt: kas oled viimase 6 kuu jooksul seksinud ilma kondoomita + millal sa viimati juhupartneriga ilma kondoomita seksisid + millal sa viimati püsipartneriga ilma kondoomita seksisid –> kas objekt on viimase 6 kuu jooksul ilma kondoomita seksinud).

Tavaliselt on mugava analüüsida sellist andmestikku, mis on tabeli ehk maatriksi kujul, kus iga tunnus on omaette veerus ehk tulbas, iga rida kirjeldab ühte objekti.

Nr Sugu Vanus Haridustase Maakond Lapsi Pulss
1 M 19 kesk Saare 0 90
2 N 36 kõrg Ida-Viru 2 75
3 N 20 kesk Tartu 1 72
4 M 13 alg Harju 0 69
5 M 87 põhi Tartu 4 74

Andmete edastamiseks on kasutusel ka teised formaadid, nt XLM, JSON (neist viimane võimaldab jooksvalt täienevale andmestikust saada ühe päringuga infot ka jooksvalt lisanduvate objektide kohta) ja mõned veel. Analüüsimise jaoks on aga kõige efektiivsem taolised andmed siiski koondada andmetabelisse.