6 Statistiline hüpoteeside testimine
Hüpoteese üldiste seaduspärasuste kohta (mis ei ole formaalse loogika tulemused), mis on empiiriliselt kontrollitavad, ei saa tõestada; neid saab ainult ümber lükata. Erandiks on olukord, kus on kasutada andmed kogu üldkogumi kohta.
Oletame, et meil on teaduslik hüpotees arstitudengite keskmise kehamassiindeksi kohta. Näiteks hüpoteesiks on, et see keskmine KMI = 21,0 kg/m2.
Teeme uuringu ja valime 60 tudengit. Saime valimi keskmiseks 21,6. Erinevus hüpoteesi ja valimist saadud tulemuse vahel on märgatav. Kuna aga meil oli valimis vaid 60 inimest, kas äkki pole tegemist lihtsalt niisama juhusega?
Oleks väga tore, kui me teaks, milline on tudengite KMI standardhälve tegelikult. Seda me aga ei tea, kui täiendavaid eeldusi ei tee (nt et see on sama, mis sama vanadel inimestel Eestis üldiselt – ja siis oleks vaja, et see Eesti üldine sama vanade inimeste KMI standardhälve oleks kuskil avaldatud). Kõige lihtsam eeldus, mida võiks teha, on see, et valimis saadud standardhälve \(s\) (praegu tuli 2,51) on hea hinnang tegelikule KMI varieeruvusele üldkogumis.
Järelikult: kui üldkogumis on keskmine KMI = 21,0 ning KMI-de standardhälve 2,51, siis üldkogumist võetud juhuslikud valimites suurusega 60 arvutatud keskväärtuse hinnangud alluksid normaaljaotusele keskväärtusega 21,0 ning standardhälbega, mis võrdub hinnangu standardveaga (keskväärtuse hinnangu standardviga on \(s/\sqrt{n}\), praeguses näites 0,32).
Joonistame sellise normaaljaotuse välja ja vaatame, kuhu langeb meie uuringus saadud hinnang sellel jaotusel.
Väljajoonistatud jaotus iseloomustab seda, kuhu võiksid langeda üksikutes samasugustes uuringutes saadud tulemused (KMI hinnangud). Kõige rohkem oleks oodata tulemusi, mis jäävad 21 lähedale; kaugemalejäävaid tulemusi ootaks vähem sagedamini.
Meie uuringus saadud tulemus 21,62 ei ole hüpoteesis oletatud üldkogumi tegelikule keskmisele 21,0 kuigi lähedal. Normaaljaotusel, millel keskväärtus oleks 21,0 ning standardhälve 0,32, oleks meie saadud hinnangu näol tegemist 0,972-nda kvantiiliga. See tähendab, et kui sama uuringut väga palju kordi korrata, siis 97,2 protsendil uuringutest tuleks tulemus väiksem, kui meie uuringus saadud tulemus.
Üsna tüütu oleks iga teadusuuringu puhul, kus mingit keskväärtust hinnatakse, hakata vastavat normaaljaotust välja joonistama ja vaatama, kuhu hinnang sellel paigutub. Õnneks on nii, et iga normaaljaotust saab teisendada standardnormaaljaotuseks.
Nimelt kui mingi juhuslik suurus \(Y\) on normaaljaotusega keskväärtusega \(\mu\) ja standardhälbega \(\sigma\), siis kui teisendame arvu \(Y\) järgnevalt: \[\frac{Y - \mu}{\sigma}\]
saame uue juhusliku suuruse, mis allub standardnormaaljaotusele (st normaaljaotusele keskväärtusega 0 ja standardhälbega 1). Tähistame seda teisendatud arvu praegu tähega \(z\).
Praegu on meil selle juhusliku suuruse rollis juhuvalimist saadud keskväärtuse hinnang \(\bar{x}\) (valimi aritmeetiline keskmine), jaotuse tegeliku keskväärtuse rollis meie hüpotees keskmise KMI kohta üldkogumis (21) ning standardhälbe rollis standardviga (keskväärtuse hinnangu standardhälve).
Niisiis, teeme elu lihtsamaks. Teeme tehte \[z=\frac{21,62-21,0}{2,51/\sqrt{60}}\approx1,91\]
ja vaatame, kuhu langeb tulemus standardnormaaljaotuse peal:
Kas see meie saadud tulemus on ootuspärane?
Teame, et 95% kõigist väärtustest võiks jääda vahemikku -1,96…+1,96. See tähendab, et kui juhuslikult valida üks väärtus kõigist võmalikest väärtustest sellest jaotusest, siis tõenäosus tulemuseks on arv, mis on \(\geqslant\) 1,96, on 2,5% ning tõenäosus, et tulemuseks tuleb arv, mis on \(\leqslant\) -1,96, on samuti 2,5%. Meie saadud \(z\) oli 1,905 mille näol on tegemist standardnormaaljaotuse 0,972-nda kvantiiliga. Seega tõenäosus saada sama suurt või veelgi suuremat arvu, kui sellest jaotusest juhuslkult arve valida, on 2,8%
Selles nn z-teisenduses, kus võrdlesime valimis saadud keskväärtust hüpoteesis väidetud keskväärtusega, oleksime lahutamistehte võinud teha vabalt ka teistpidi: \(z = \frac{\mu-\bar{x}}{SE}\). Sel juhul oleksime saanud sama arvu, aga vastupidise märgiga. Seega peaksime vaatama standardnormaaljaotusel ka seda punkti, mis asub x-teljel vastupidise märgiga.
Vastupidise märgiga arv -1,905 oleks standardnormaaljaotuse 0,028. kvantiil. Teisisõnu: sellise või hüpoteesis väidetust veelgi kaugema z-teisenduse väärtuse saamise tõenoäsus oleks 2,8%.
Kokkuvõttes oleks nii ekstreemse või veel ekstreemsema z-teisenduse tulemuse saamise tõenäosus olnud 5,7% (sõltumata z-teisenduses oleva lahutustehte järjekorrast).
Kas see on väga ebatõenäoline? Millisest piirist alates võiks saadud tulemust lugeda väga ebatõenäoliseks, kui me eeldame, et meie hüpotees tegelikult peab paika? Oletame, et meie jaoks on ebatõenäolised ainuld sellised sündmused, mille toimumise tõenäosus on 1%. Kui nii, siis meie uuringus saadud tulemus ei ole väga ebatõenäoline, kui meie esitatud hüpotees tegelikult kehtib. Ehk siis meie saadud andmed/valim ei olnud meie hüpoteesiga väga suures vastuolus.
Praegu vaatasime, kui tõenäoline oleks saada nii ekstreemset või veelgi ekstreemsemat z-teisenduse tulemust, kui meie hüpotees peaks paika. Vaatasime seda nii ühes kui ka teises suunas; statistikažargoonis: kontrollisime kahepoolset nullhüpoteesi.
Kliinilistes uuringutes on enamasti nullhüpoteesi väiteks mingisuguse seose või erinevuse puudumine. Näiteks üldkogumis meeste ja naiste keskmiste pikkuse võrdsus. Sellises olukorras on üldkogumi parameetriks meeste keskmiste pikkuste ja naiste keskmiste pikkuse vahe.
Nagu peatüki alguses demonstreeritud, siis mingi väite kehtivust on raske konstruktiivselt tõestada, kõige lihtsam on hoopis tõestada väite mittekehtivust.
Ülalolevas näites oli teststatistikuks \(z\).
Ülalolevas näites oli kriitiliseks piirkonnaks kõik reaalarvud, mis jäid väljapoole vahemikku -1,96 kuni +1,96 (st kriitiline piirkond oli \((-\infty, -1,96)\) ja \((1,96,+\infty)\) ühend).
Ülalolevas näites oli p-väärtuseks 5,7.
Ülaolevas näites oli olulisusnivooks 1% ehk 0,01.
Ülapool kirjeldatud arvutusi, kus teisendasime keskväärtust z-teisendusega ja võrdlesime saadud tulemust standardnormaaljaotusega, nimetatakse z-testiks.
Praegu võrdlesime valimis saadud ühte keskmist nullhüpoteesis väidetud keskmisega; me ei võrrelnud omavahel kahte gruppi vms. Seepärast nimetatakse taolist testi täpsemini ühe valimi z-testiks.
Kuna tegelikult me õiget üldkogumi standardhälvet ei tea, vaid võtsime julge eelduse, et valimis hinnatud standardhälve on üldkogumi suhtes esinduslik, siis peame ka selles standardhälbe hinnangus olevat juhuslikkust arvesse võtma. Mida väiksem on valim, seda suurem on juhuse roll. Seepärast väiksemate valimite puhul tuleks z-teisenduse tulemust hoopis võrrelda vastava t-jaotusega, millel vabadusastmete arv = valimi suurus - 1. Taolist võrdlust nimetatakse t-testiks.
6.1 Ühe valimi z-testi ja t-testi eeldused
Üks olulisemaid eeldusi kõigi lihtsamate statistiliste meetodite puhul on see, et valimis olevad objektid (ehk vaatlused) on üksteisest sõltumatud. See tähendab seda, et kui üldkogumist juhuslikult valida üks objekt, siis selle ühe objekti valimise järel ei ole võimalik prognoosida, milline on järgmine juhuslikult valitud objekt.
Teine oluline eeldus taoliste meetodite puhul on see, et vaatlused on sama jaotusega. See tähendab seda, et nad on valitud samast üldkogumist (nt kui uurime vaid arstitudengeid, siis me ei soovi, et valimisse satuks ka mõni ajaloolane).
z-testi saab kasutada siis, kui me teame, milline on uuritava tunnuse (nt KMI) standardhälve üldkogumis. Kui meil valim on suur, siis suures valimis saadud hinnangu puhul võime usaldada, et see on enam-vähem võrdne tegeliku standardhälbega üldkogumis.
Kui meil on valim väike (< 200 vaatluse), siis z-testi kasutada ei tohiks ning selle asemel tuleks kasutada t-testi. t-testi teoreetiliseks eelduseks on see, et uuritav tunnus on normaaljaotusega, ent tihti on ta ka suhteliselt robustne ka selle eelduse mittevastavuse suhtes (kui valim on piisavalt suur).
6.2 z-test protsendi võrdlemiseks konstandiga
Kuna tegelikult on protsendi hinnang arvude 0 ja 1 aritmeetiline keskmine, siis ka protsendi hinnangu puhul saab kasutada Waldi usaldusvahemikku \[p \pm 1,96 SE\;\;,\] kus standardviga avaldub kujul \(SE = \sqrt{\frac{p(1-p)}{n}}\) (\(p\) on protsendi hinnang ning \(n\) on valimi suurus). Järelikult sobib hästi ka z-teisendus ning z-test: \[z = \frac{p - H_0}{SE}\] Jällegi: kui nullhüpotees \(H_0\) kehtib, siis peaks see jagatis järgima standardnormaaljaotust (ehk siis suure tõenäosusega (95%lise tõenäosusega) jääma vahemikku -1,96…+1,96).
Seda juhul, kui valim on piisavalt suur. Kuna protsendi puhul standardviga SE ei vaja täiendavat parameetrit, vaid piisab protsendi enda hinnangust, siis see lähenemine töötab juba üsna väikse valimimahu puhul (n = 30+).
6.3 I ja II liiki viga
Ülalolevas näites kehamassiindeksiga, kus nullühpotees väitis, et \(H_0: \mu = 21,0\), me saime olulisustõenäosuseks p = 0,057; kuna see oli suurem kui meie poolt seatud olulisusnivoo \(\alpha = 0,01\), siis me ei pidanud oma tulemust väga ebatõenäoliseks ning seepärast me nullhüpoteesi ei kummutanud (me jäime nullhüpoteesi juurde).
Tegime eksliku järelduse – tegelikult oli selles üldkogumis keskmine KMI = 21,8.
Olukorda, kus nullhüpotees tegelikkuses ei kehti, aga uuringus jääb nullhüpotees kummutamata, nimetatakse II liiki veaks. Analoogia diagnostiliste testide maailmast oleks valenegatiivne tulemus.
Mõnikord juhtub vastupidi: nullhüpotees tegelikult kehtib, ent uuringus on pelgalt valimi või mõõtmiste juhuslikkusest tingituna nii ekstreemsed tulemused, et oleme sunnitud nullhüpoteesi kummutama. Sellist eksimust nimetatakse I liiki veaks.
Esimest liiki vea tegemise tõenäosust saame reguleerida olulisusnivooga – kui me seame selle hästi pisikeseks, siis me peaaegu mitte kunagi nullhüpoteesi ei kummuta, sealjuures ka sellistes olukordades kus see tegelikult peab paika (aga ka sellistes olukordades, kus H0 paika ei pea).
Teist liiki vea tegemise tõenäosus = 1 - tõenäosus mitte teha teist liiki viga (ehk siis olukorras, kus nullhüpotees ei kehti, see ka kummutada). Tõenäosust mitte teha II liiki viga nimetatakse võimsuseks. Peamine moodus, kuidas seda tõenäosust suurendada saab, on valimi suuruse kaudu: mida suurem valim, seda suurem on statistilise testi võimsus. Analoogia diagnostiliste testide maailmas on tundlikkus.
6.4 Mõned lihtsamad statistilised testid
Üldiselt on kõigi statistiliste testide toimimise põhimõte sama:
- arvutatakse teststatistik, mis \(H_0\) kehtimisel peaks teatud jaotust järgima;
- kontrollitakse, kas selle teststatistiku väärtus on ootuspärane või mitte (st kas p-väärtus/olulisustõenäosus on liiga väike).
Neid statistilisi teste, mis eeldavad, et uuritav tunnus on teatud jaotusega (nt t-test eeldab, et uuritav tunnus on normaaljaotusega), nimetatakse parameetrilisteks testideks. Neid teste, kus ei eeldata, et uuritav tunnus mingi konkreetse jaotusega oleks, nimetatakse mitte-parameetrilisteks testideks.
Parameetriliste testide puhul tuleks lisaks p-väärtusele raporteerida teststatistiku väärtus kui ka parameetrid, mis statistiku jaotust nullhüpoteesi kehtides määravad (nt t-testi puhul teststatistiku väärtus ning vabadusastmete arv).
Mitteparameetriliste testide puhul peetakse sobivaks, kui ainult p-väärtus on kirja pandud.
See, millist statistilist testi sobib parasjagu kasutada, sõltub uuritava(te)st tunnus(t)est ning sellest, kas testi eeldused on täidetud.
Järgenvalt on esitatud mõningate tüüpilisemate statistiliste testide lühikirjeldused.
6.4.1 Ühe valimi z-test (1 keskväärtus või 1 protsent)
Nullhüpotees: \(H_0: \mu_0 = \text{mingi arv ,}\) kus \(\mu_0\) tähistab oletatavat üldkogumi keskväärtust.
Nagu eelpool kirjeldatud, sobib z-testi kasutada siis, kui valim on piisavalt suur. Sel juhul teststatistik \[\frac{ \bar{x} - \mu_0 }{SE}\;\;,\] kus \(\bar{x}\) on valimi keskmine ja \(SE\) on standardviga, on standardnormaaljaotusega, kui nullhüpotees \(H_0: \text{üldkogumi keskväärtus} = \mu_0\) kehtib (ehk 95% tõenäosusega peaks teststatistik sel juhul langema vahemikku -1,96 kuni +1,96).
Kui tegemist on arvulise tunnusega, siis standardviga avaldub \[SE = \frac{s}{\sqrt{n}}\;\;,\] kus \(s\) on valimi põhjal arvutatud uuritava tunnuse standardhälve ning \(n\) on valimi suurus.
Kui aga tegemist on binaarse tunnusega (mille puhul ju aritmeetiline keskmine omab igati hästi tõlgendatavat mõtet), siis standardviga avaldub kujul \[SE = \sqrt{\frac{p(1-p)}{n}}\;\;,\] kus \(p\) on valimi põhjal hinnatud protsent.
“Piisavalt suur” on kriteerium, millest statistikakursustel väga palju ei räägita (mõningas olukorras võib see tähendada valimi suurust 20, teises olukorras aga valimi suurust 20.000.000 – koondumiskiirus sõltub statistiku matemaatilisest konstruktsioonist). Üldiselt peetakse sobivaks z-testi kasutamist konstandiga võrdlemiseks, kui arvulise tunnuse puhul on valimi suurus vähemalt > 100, veel parem, kui > 200, protsendi võrdlemiseks konstandiga aga valimi suurus vähemalt > 30.
Eeldused:
- vaatlused on sõltumatud ja pärinevad samast üldkogumist
- uuritav tunnus on arvuline (või binaarne)
- valim on suur
6.4.2 Ühe valimi t-test (1 keskväärtus)
Nullhüpotees: \(H_0: \mu_0 = \text{mingi arv ,}\) kus \(\mu_0\) tähistab oletatavat üldkogumi keskväärtust.
Sobib, kui soovime kontrollida, kas arvulise tunnuse keskväärtus vastab meie hüpoteesile. Nullhüpoteesi kehtides on teststatistik \[\frac{\bar{x} - \mu_0}{s/\sqrt{n}}\] t-jaotusega vabadusastmete arvuga \(\text{d.f.}=n-1\) (mida väiksem on valim, seda n-ö lapikum on vastav t-jaotus). Mida suurem on valim, seda rohkem sarnaneb selle teststatistiku jaotus standardnormaaljaotusele.
Sobib kasutada, siis kui valim on väike (< 200).
Eeldused:
- vaatlused on sõltumatud ja pärinevad samast üldkogumist
- uuritav tunnus on pidev
- uuritav tunnus on normaaljaotusega
6.4.3 Märgitest (1 protsent)
Kui on soov võrrelda valimis nähtud protsenti mingi eeldatava protsendiga (nullhüpoteesiga), aga valim on tilluke, siis z-testi kasutada ei tohiks. Tänu valimi väiksusele on võimalik simuleerida kõiki situatsioone ning nende esinemissagedusi / tõenäosuseid olukorras, kus \(H_0\) kehtiks. Nendes arvutustes võetakse aluseks binoomjaotus – gümnaasiumi kombinatoorikakursusest on ju tuttav: \(P(X = k) = C_n^k \cdot p^k \cdot(1 - p)^{n - k}\) – siin \(p\) tähistab nullhüpoteesi väidet, \(n\) valimi suurust ning \(k\) igat erinevat realisatsiooni. Näiteks kui valimi suurus on \(n = 2\) ning nullhüpotees \(H_0: p = 0,5\), siis saab iga variandi \(k = 0, 1, 2\) jaoks välja arvutada vastava tõenäosuse. Kui valmis nähtud protsent on sellises piirkonnas, mis on väga ebatõenäoline, võiks nullhüpoteesi kummutada.
Märgitest on mitteparameetriline test.
Eeldused:
- vaatlused on sõltumatud ja pärinevad samast üldkogumist
- uuritav tunnus on binaarne
6.4.4 Kahe sõltumatu valimi z-test (2 keskväärtust või 2 protsenti)
Kaks sõltumatut valimit = kaks erinevat gruppi. Sobib, kui mõlemad grupid on piisavalt suured.
Teststatistik \[\frac{\bar{x_a} - \bar{x_b}}{SE}\] allub standardnormaaljaotusele, kui nullhüpoteesi \(\mu_a = \mu_b\) ehk \(\mu_a - \mu_b = 0\) peab paika.
Kuna tegemist on kahe sõltumatu grupiga, siis \[SE = \sqrt{SE_a^2 + SE_n^2}\;\;.\] Kui tegemist on arvulise tunnusega, siis \(SE_a = s_a/\sqrt{n_a},\) kus \(s_a\) on tunnuse standardhälve grupis a ning \(n_a\) on grupi a suurus; ja analoogselt ka \(SE_b = s_b/\sqrt{n_b}.\)
Kui tegemist on binaarse tunnusega, siis \(SE_a = \sqrt{p_a(1-p_a)/n_a}\;,\) kus \(p_a\) on grupis a hinnatud protsendiga; analoogselt avaldub ka \(SE_b.\)
Eeldused:
- vaatlused on sõltumatud ja sama grupi vaatlused pärinevad samast vastavast üldkogumist (ühe grupi vaatlused on on sama jaotusega)
- uuritav tunnus on arvuline või binaarne
6.4.5 Kahe sõltumatu valmi t-test (2 keskväärtust)
6.4.6 Wilcoxoni astaksumma test (2 mediaani*)
6.4.7 Paarisvaatluste t-test (keskväärtus enne ja pärast)
Sisuliselt on tegemist ühe valimi t-testiga: uuritavaks tunnuseks on kahes mõõtmispunktis saadud tulemuste vahe. Näiteks kui vererõhku mõõdeti enne kontrolltööd (inimesel nr i on see \(x_i\) ) ja pärast kontrolltööd (\(y_i\)), siis uuritavaks tunnuseks on vahe (\(d_i = x_i - y_i\)). Enamasti pakub huvi, kas keskmine muutus on 0 või mitte.