Tänased teemad:
Kasutame jätkuvalt andmestikku kysimustik_2020.RData
.
Populatsiooni ehk üldkogumi moodustavad uurimisobjekti kõik esindajad. Enamasti on populatsioon nii suur ja raskesti kättesaadav, et ei ole võimalik uurida kogu populatsiooni. Valim on mingite kriteeriumite alusel tehtud valik uurimisobjektidest, mis uuringus vaatluse alla võetakse ja mille omadusi kogu populatsioonile laiendatakse.
Kõikne uuring: mõõdetakse kõik objektid üldkogumis (nt rahvaloendus).
Üldkogum ehk populatsioon: objektide hulk, kelle/mille kohta soovitakse järeldusi teha.
Plussid:
Miinused:
Valikuuring: vaadeldakse osa (valimit) üldkogumi objektidest, järeldus terviku kohta tehakse selle osa põhjal.
Valimi põhjal saadud tulemused peaksid olema võimalikult lähedased neile, mida võiksime saada kogu üldkogumit mõõtes.
Valimi suuruse määrab ülesanne, mida tahetakse lahendada.
Lihtne juhuvalim: igal üldkogumi objektil on võrdne tõenäosus sattuda valimisse.
Kihtvalim: üldkogum jagatakse mingi tunnuse alusel kihtideks, igas kihis rakendadakse mingit valikumeetodit (nt juhuvalikut). Valim vastab selle valitud tunnuse alusel üldkogumis valitsevale proportsioonile.
Esindusvalim: valim koostatakse nii, et erinevate võimalike tunnuste proportsioonid on võrdsed.
Mugavusvalim: valimisse kaasatakse need objektid, mida on lihtne küsitleda/mõõta.
Kirjeldavas andmeanalüüsis kasutatakse meetodeid valimi kirjeldamiseks ja näitlikustamiseks. Kirjeldava statistikana võib valimi kohta välja tuua näiteks keskmised väärtused või andmetes esinenud väärtuste sagedused.
Järeldavas (tõestavas) andmeanalüüsis on meetodid, mis kasutavad valimist saadud tulemusi üldkogumi kohta käivate otsuste ja prognooside tegemiseks. Enamasti kasutatakse tõenäosuslikke teste, et hinnata valimi kuulumist mingisse populatsiooni.
Sageli ei ole uurija huvitatud keskmise taseme arvulisest väärtusest, vaid pigem sellest, kas üldkogumi keskväärtus rahuldab mingit teatud tingimust.
Selleks tuleb sõnastada statistiline hüpotees.
Statistiline hüpotees esitatakse alati hüpoteeside paarina.
Need hüpoteesid on üksteist välistavad, st üks neist peab alati kehtima.
Nullhüpotees väidab tavaliselt üldkogumi vastavust teatud standardile. See on väide üldkogumi parameetri kohta ja kehtib nii kaua kuni seda pole ümber lükatud. Parameeter tähendab siinjuures mingit populatsiooni iseloomustavad näitajat (nt Eesti meeste keskmine pikkus), mille väärtust me sageli ei tea.
Nullhüpoteesi ei saa tõestada!
Sisukas hüpotees on väide üldkogumi parameetri kohta, mis on tõene siis, kui nullhüpotees osutub valeks.
H0: väide, mida eeldatakse üldkogumis kehtivat
H1: tõestamist vajav hüpotees
Uurime enamasti populatsiooni, ent mõõdame üldjuhul valimit. Mingi parameetri hinnang valimis on statistik. Statistikameetodite abil ei saa väiteid tõestada absoluutselt kindlasti, alati jääb teatav eksimise võimalus ja juhuslikkusest tulenev eksimus.
H0 on tõene | H0 on vale | |
---|---|---|
Lükkad H0 tagasi | I tüüpi viga | Kõik hästi |
Võtad H0 vastu | Kõik hästi | II tüüpi viga |
p-väärtus ehk olulisuse tõenäosus on see, mida statistilistes testides otsuse langetamiseks kasutatakse. Olulisuse tõenäosus on eksimise risk nullhüpoteesi kummutamisel ja sisuka hüpoteesi vastuvõtmisel.
α (alfa) ehk olulisuse nivoo on maksimaalne lubatud eksimise tõenäosus sisuka hüpoteesi tõestamisel. Maksimaalse vea valib otsustaja, tavaline on α = 0,05, aga olenevalt andmetest ja testist võib see olla ka 0,1 või 0,01.
Alternatiivne definitsioon: olulisuse tõenäosus on tõenäosus, et nullhüpoteesi korral saab saadud tulemuse juhuslikult.
Reegel:
Näiteks kujutame ette, et uurime, kas eesti keele sõnade keskmine pikkus erineb ingliskeelsete sõnade pikkusest (sest nt eesti keeles on rohkem morfoloogiat, ulatuslik sõnamoodustussüsteem jne). Nullhüpotees oleks sel juhul, et mingit erinevust kahe keele sõnade pikkuses ei ole, ning sisukas hüpotees, et erinevus on olemas (ega ole juhuslik).
Võtame selle teadasaamiseks mõlema keele tekstikorpustest välja kõikide nendes esinevate unikaalsete sõnavormide nimekirjad ning leiame kummagi keele kohta sõnade keskmise pikkuse (tähemärkides). Oletame, et lepiksime sellega, kui 5-s juhuslikus valimis 100st (antud juhul sõnade nimekirjade paaris) oleks eesti- ja ingliskeelsete sõnade keskmise pikkuse erinevus oluliselt teistugune kui meie nimekirjade põhjal, aga samas 95-s valimis oleks see meie omale sarnane. α on seega 0,05.
Kui nüüd kahe grupi keskmisi võrdleva testi p-väärtus oleks 0,03, siis tõenäosus, et statistiline test eksib ja valimist saadud keskmiste erinevuse statistik ei kehti üldkogumis ehk populatsioonis (ehk ka kõikide nende vaatluste kohta, mis meie valimisse ei sattunud), on 3%. Kuna p < α, võtame vastu sisuka ehk alternatiivse hüpoteesi selle kohta, et eestikeelsete ja ingliskeelsete sõnade pikkused on keskmiselt erinevad, ning hülgame nullhüpoteesi, mille kohaselt kahe keele sõnade keskmised pikkused on samasugused.
Kahepoolne hüpotees: uurijad tahavad näidata lihtsalt keskmise erinevust nende valitud konstandist/teisest keskmisest.
Kui aga teooriast on teada, milline see erinevus peaks olema, siis saab kontrollida ühepoolset hüpoteesi.
Meil on küsimustikule vastanute seas nii kohvi- kui teejoojaid. Testime, kas nad kuuluvad samasse üliõpilaste populatsiooni näiteks õppimisaja poolest. Hüpoteesid on järgnevad:
H0: kohvijoojate õppimisaeg = teejoojate õppimisaeg
H1: kohvijoojate õppimisaeg ≠ teejoojate õppimisaeg
Kas need hüpoteesid on ühe- või kahepoolsed?
t.test(kaua_opid ~ lemmikjook, data = kysimustik)
##
## Welch Two Sample t-test
##
## data: kaua_opid by lemmikjook
## t = 0.097591, df = 25.994, p-value = 0.923
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
## -3.184598 3.502058
## sample estimates:
## mean in group Kohv mean in group Tee
## 6.444444 6.285714
Vaatame esialgu lihtsalt p-väärtust, mis on 0.923. Nagu kiri testis ütleb, siis on alternatiivne hüpotees ehk H1 see, et keskmiste erinevus populatsioonis ei ole 0. Kuna vaikimisi on α väärtus enamasti 0.05 ja seega p > α, siis me alternatiivset hüpoteesi vastu võtta ei saa ja peame jääma nullhüpoteesi juurde, mille kohaselt kohvijoojate õppimisaeg ei erine teejoojate õppimisajast.
Sama näeme ka karpdiagrammilt.
Teine näide: kas üliõpilased, kellel on varasemaid kogemusi kvantitatiivsete meetoditega, on keskmiselt kauem ülikoolis õppinud kui need, kellel kogemusi ei ole?
H0: kogemuseGA õppimisaeg = kogemuseTA õppimisaeg
H1: kogemuseGA õppimisaeg > kogemuseTA õppimisaeg
t.test(kaua_opid ~ kogemused_kvant, data = kysimustik, alternative = "less")
boxplot(kaua_opid ~ kogemused_kvant, data = kysimustik)
##
## Welch Two Sample t-test
##
## data: kaua_opid by kogemused_kvant
## t = -3.6417, df = 35.468, p-value = 0.0004286
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
## -Inf -2.33176
## sample estimates:
## mean in group Ei mean in group Jah
## 3.571429 7.920000
NB! Ühepoolse hüpoteesi testimiseks peaksime me eelnevalt konkreetsest valimist sõltumatult teadma, et kvantitatiivsete meetodite kogemustega üliõpilased ei saa olla vähem aega ülikoolis õppinud kui ilma kogemusteta üliõpilased, sest ühepoolse testiga me seda võimalust üldse ei testi. Peale selle peab ühepoolse testi puhul y~x
süntaksit kasutades teadma, mis on faktori x
tasemed. Argument alternative = "less"
tähendab, et järjekorras 1. tase ehk baastase < alternatiivtase. Vaatame igaks juhuks üle, mis on tasemete järjekord:
Kuna “Ei” on baastase, võrdleb test argumendiga alternative = "less"
seda, kas “Ei” grupis ehk kvantmeetodite kogemuseTA üliõpilaste seas oleks keskmine õpinguaeg lühem kui “Jah” grupis. Kuna p-väärtus on 0.0004286, siis saame vastu võtta alternatiivse ehk sisuka hüpoteesi ning tõdeda, et kvantmeetodite kogemuseta üliõpilaste ülikoolis õpitud aeg on keskmiselt lühem kui kogemustega üliõpilastel.
Kui seame oma hüpoteesid valesti, siis ühepoolse testiga võime teha valesid järeldusi:
t.test(kaua_opid ~ kogemused_kvant, data = kysimustik, alternative = "greater")
##
## Welch Two Sample t-test
##
## data: kaua_opid by kogemused_kvant
## t = -3.6417, df = 35.468, p-value = 0.9996
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -6.365383 Inf
## sample estimates:
## mean in group Ei mean in group Jah
## 3.571429 7.920000
Sellise ühepoolse testi tulemus, et kogemusteTA rühma õppimiseg ei ole pikem kui kogemusteGA rühmal ei tähenda, et rühmad ei oleks erinevad, et nad kuuluvad samasse populatsiooni. Seega, kui meil ei ole kindlat põhjust kasutada ühepoolset testi, siis peaks alati valima kahepoolse.
Joonise kood Keith Johnson 2008, Quantitative methods in linguistics, lk 14-15.
Normaaljaotus iseloomustab tunnust, mille puhul suur hulk väärtusi koonduvad keskmise ümber, keskmisest oluliselt erinevaid väärtusi on vähe ning need jaotuvad keskmisest ühtlaselt mõlemale poole. Vt Galtoni seemnesorteerija, mis genereerib normaaljaotusega hunnikuid: https://en.wikipedia.org/wiki/Bean_machine
Miks normaaljaotus nii hea on?
…sest see on kirjeldatav kahe arvuga
Kui me teame teame keskmist ja standardhälvet, siis me võime tuletada kõigi teiste punktide väärtused.
Näiteks kui meil on (hüpoteetiliselt) klassitäis lapsi (ütleme nt 32 last), kelle keskmine pikkus on 150 cm ja standardhälve on 10 cm,
Näiteks: genereerime vektori 32 väärtusega, mis on normaaljaotusega, keskmine 1.5 ja standardhälve 0.1
pikkus <- rnorm(n=32, mean=1.5, sd=0.1)
summary(pikkus)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 1.266 1.447 1.497 1.498 1.561 1.702
NB! Kuna rnorm() genereerib väärtused juhuslikult, siis on tulemus iga kord erinev!
Juhuslik valim ei pruugi alati ideaalselt normaaljaotusega olla
aga mida suurem valim, seda rohkem läheneb normaaljaotusele:
Kuna paljud statistilised testid (t-test, anova, lineaarne regressioon) eeldavad, et andmed on normaaljaotusega, siis peaks enne testi kasutamist veenduma, et eeldus on täidetud.
Jaotuse normaalsuse testimiseks on võimalik:
hist()
)qqnorm()
ja qqline()
)Histogrammi vaadates näeb (enam-vähem), kas jaotus on sümmeetriline. See ei ole mingi lollikindel test, aga annab esmase ülevaate.
Üks võimalus on võrrelda andmete kvantiiljaotust. Kas teoreetiline ja tegelik jaotus lähevad kokku?
Shapiro testi nullhüpotees on et valim on pärit normaaljaotusega populatsioonist. Tulemus on p-väärtus, mis on tõenäosuslik hinnang. Kuna pikkus on juhuslikult genereeritud, siis on väärtused iga kord erinevad, aga näiteks kui p = 0.5863, siis võib öelda, et 58% tõenäosusega on tegu normaaljaotusega. Tulemuse tõlgendamisel on tavaliselt α = 0.05 ehk et kui on p > 0.05, võib otsustada, et on normaaljaotus, kui on p < 0.05, siis ei ole. p-väärtuse tõlgendamine selles testis käib seega teistpidi kui teistes testides.
##
## Shapiro-Wilk normality test
##
## data: pikkus
## W = 0.97697, p-value = 0.7078
Proovime sama kursuse kysimustik
andmestiku peal:
Gruppidevaheliste erinevuste hindamine (arvuline sõltuv tunnus ~ kategoriaalne seletav tunnus):