Tänases praktikumis

Tänased teemad:

  • Valim ja populatsioon
  • Kirjeldav ja järeldav statistika
  • Hüpoteesid ja tõenäosus
  • Jaotused: normaaljaotus
  • Hüpoteeside testimine: parameetrilised testid

Kasutame jätkuvalt andmestikku kysimustik_2020.RData.

Valim ja populatsioon

Populatsioon vs. valim

Populatsiooni ehk üldkogumi moodustavad uurimisobjekti kõik esindajad. Enamasti on populatsioon nii suur ja raskesti kättesaadav, et ei ole võimalik uurida kogu populatsiooni. Valim on mingite kriteeriumite alusel tehtud valik uurimisobjektidest, mis uuringus vaatluse alla võetakse ja mille omadusi kogu populatsioonile laiendatakse.

Kõikne uuring: mõõdetakse kõik objektid üldkogumis (nt rahvaloendus).

  • Üldkogum ehk populatsioon: objektide hulk, kelle/mille kohta soovitakse järeldusi teha.

  • Plussid:

    • täpne info.
  • Miinused:

    • töömahukas,
    • kallis,
    • mahukuse tõttu võivad kumuleeruda vead,
    • piiratud sisu.

Valikuuring: vaadeldakse osa (valimit) üldkogumi objektidest, järeldus terviku kohta tehakse selle osa põhjal.

  • Valim: osa üldkogumist, mida uuritakse/mõõdetakse.
  • Plussid:
    • väiksem maksumus,
    • suurem kiirus,
    • operatiivsus (saab korraldada vastavalt vajadustele),
    • suurem täpsus.
  • Miinused:
  • jääb sisse juhuslik viga, mis on tingitud valimi juhuslikkusest.

Valimi moodustamine

Valimi põhjal saadud tulemused peaksid olema võimalikult lähedased neile, mida võiksime saada kogu üldkogumit mõõtes.

  • Näiteks kui uurida leibkondade elujärge, peavad olema valimisse kaasatud kõik leibkonnatüübid.

Valimi suuruse määrab ülesanne, mida tahetakse lahendada.

Lihtne juhuvalim: igal üldkogumi objektil on võrdne tõenäosus sattuda valimisse.

  • Parim variant, aga võib olla liiga töömahukas.

Kihtvalim: üldkogum jagatakse mingi tunnuse alusel kihtideks, igas kihis rakendadakse mingit valikumeetodit (nt juhuvalikut). Valim vastab selle valitud tunnuse alusel üldkogumis valitsevale proportsioonile.

Esindusvalim: valim koostatakse nii, et erinevate võimalike tunnuste proportsioonid on võrdsed.

  • Näiteks inimese pikkust uurides võetakse valimisse sama arv mehi ja naisi, noortest vanadeni, igast uuritava üldkogumi piirkonnast jne;
  • lihtsam kui juhuvalik;
  • on oht, et mingid olulised tunnused jäävad arvestamata.

Mugavusvalim: valimisse kaasatakse need objektid, mida on lihtne küsitleda/mõõta.

  • Kõige halvem variant;
  • kõige kergemini saadav;
  • mõnikord ainuke võimalik variant.

Hüpoteeside testimine

Kirjeldav vs. järeldav statistika

Kirjeldavas andmeanalüüsis kasutatakse meetodeid valimi kirjeldamiseks ja näitlikustamiseks. Kirjeldava statistikana võib valimi kohta välja tuua näiteks keskmised väärtused või andmetes esinenud väärtuste sagedused.
Järeldavas (tõestavas) andmeanalüüsis on meetodid, mis kasutavad valimist saadud tulemusi üldkogumi kohta käivate otsuste ja prognooside tegemiseks. Enamasti kasutatakse tõenäosuslikke teste, et hinnata valimi kuulumist mingisse populatsiooni.

Sageli ei ole uurija huvitatud keskmise taseme arvulisest väärtusest, vaid pigem sellest, kas üldkogumi keskväärtus rahuldab mingit teatud tingimust.

Statistiline hüpotees

Selleks tuleb sõnastada statistiline hüpotees.

  • Väide: naised ja mehed on tööturul ebavõrdses olukorras.
  • Statistiline hüpotees: naiste ja meeste keskmine palk ei ole võrdne.

  • Väide: mahlapakkides ei ole nii palju mahla kui lubatud.
  • Statistiline hüpotees: keskmine mahla kogus pakendis erineb lubatust.

Statistiline hüpotees esitatakse alati hüpoteeside paarina.

  • keskmine mahla kogus pakis = 1 liiter (nullhüpotees)
  • keskmine mahla kogus pakis ≠ 1 liiter (sisukas/alternatiivne hüpotees)

  • naiste keskmine palk = meeste keskmine palk
  • naiste keskmine palk ≠ meeste keskmine palk

Need hüpoteesid on üksteist välistavad, st üks neist peab alati kehtima.

Nullhüpotees H0 ja sisukas hüpotees H1

Nullhüpotees väidab tavaliselt üldkogumi vastavust teatud standardile. See on väide üldkogumi parameetri kohta ja kehtib nii kaua kuni seda pole ümber lükatud. Parameeter tähendab siinjuures mingit populatsiooni iseloomustavad näitajat (nt Eesti meeste keskmine pikkus), mille väärtust me sageli ei tea.
Nullhüpoteesi ei saa tõestada!

Sisukas hüpotees on väide üldkogumi parameetri kohta, mis on tõene siis, kui nullhüpotees osutub valeks.

H0: väide, mida eeldatakse üldkogumis kehtivat
H1: tõestamist vajav hüpotees

Tõenäosus hüpoteeside vastuvõtmisel ja vead

Uurime enamasti populatsiooni, ent mõõdame üldjuhul valimit. Mingi parameetri hinnang valimis on statistik. Statistikameetodite abil ei saa väiteid tõestada absoluutselt kindlasti, alati jääb teatav eksimise võimalus ja juhuslikkusest tulenev eksimus.

H0 on tõene H0 on vale
Lükkad H0 tagasi I tüüpi viga Kõik hästi
Võtad H0 vastu Kõik hästi II tüüpi viga

p-väärtus ehk olulisuse tõenäosus on see, mida statistilistes testides otsuse langetamiseks kasutatakse. Olulisuse tõenäosus on eksimise risk nullhüpoteesi kummutamisel ja sisuka hüpoteesi vastuvõtmisel.

α (alfa) ehk olulisuse nivoo on maksimaalne lubatud eksimise tõenäosus sisuka hüpoteesi tõestamisel. Maksimaalse vea valib otsustaja, tavaline on α = 0,05, aga olenevalt andmetest ja testist võib see olla ka 0,1 või 0,01.

Alternatiivne definitsioon: olulisuse tõenäosus on tõenäosus, et nullhüpoteesi korral saab saadud tulemuse juhuslikult.

Reegel:

  • kui p < α, siis on tõestatud sisukas hüpotees H1;
  • kui p > α, siis jäädakse nullhüpoteesi juurde, pole võimalik midagi muud tõestada.

Näiteks kujutame ette, et uurime, kas eesti keele sõnade keskmine pikkus erineb ingliskeelsete sõnade pikkusest (sest nt eesti keeles on rohkem morfoloogiat, ulatuslik sõnamoodustussüsteem jne). Nullhüpotees oleks sel juhul, et mingit erinevust kahe keele sõnade pikkuses ei ole, ning sisukas hüpotees, et erinevus on olemas (ega ole juhuslik).
Võtame selle teadasaamiseks mõlema keele tekstikorpustest välja kõikide nendes esinevate unikaalsete sõnavormide nimekirjad ning leiame kummagi keele kohta sõnade keskmise pikkuse (tähemärkides). Oletame, et lepiksime sellega, kui 5-s juhuslikus valimis 100st (antud juhul sõnade nimekirjade paaris) oleks eesti- ja ingliskeelsete sõnade keskmise pikkuse erinevus oluliselt teistugune kui meie nimekirjade põhjal, aga samas 95-s valimis oleks see meie omale sarnane. α on seega 0,05.
Kui nüüd kahe grupi keskmisi võrdleva testi p-väärtus oleks 0,03, siis tõenäosus, et statistiline test eksib ja valimist saadud keskmiste erinevuse statistik ei kehti üldkogumis ehk populatsioonis (ehk ka kõikide nende vaatluste kohta, mis meie valimisse ei sattunud), on 3%. Kuna p < α, võtame vastu sisuka ehk alternatiivse hüpoteesi selle kohta, et eestikeelsete ja ingliskeelsete sõnade pikkused on keskmiselt erinevad, ning hülgame nullhüpoteesi, mille kohaselt kahe keele sõnade keskmised pikkused on samasugused.

Ühe- ja kahepoolsed hüpoteesid

Kahepoolne hüpotees: uurijad tahavad näidata lihtsalt keskmise erinevust nende valitud konstandist/teisest keskmisest.

  • H0: keskmine = a VÕI keskmine1 = keskmine2
  • H1: keskmine ≠ a VÕI keskmine1 ≠ keskmine2

Kui aga teooriast on teada, milline see erinevus peaks olema, siis saab kontrollida ühepoolset hüpoteesi.

  • H0: keskmine > a VÕI keskmine1 > keskmine2
  • H1: keskmine < a VÕI keskmine1 < keskmine2

Näiteid: t-test (keskmiste võrdlemine)

Meil on küsimustikule vastanute seas nii kohvi- kui teejoojaid. Testime, kas nad kuuluvad samasse üliõpilaste populatsiooni näiteks õppimisaja poolest. Hüpoteesid on järgnevad:

H0: kohvijoojate õppimisaeg = teejoojate õppimisaeg
H1: kohvijoojate õppimisaeg ≠ teejoojate õppimisaeg

Kas need hüpoteesid on ühe- või kahepoolsed?

Vaatame esialgu lihtsalt p-väärtust, mis on 0.923. Nagu kiri testis ütleb, siis on alternatiivne hüpotees ehk H1 see, et keskmiste erinevus populatsioonis ei ole 0. Kuna vaikimisi on α väärtus enamasti 0.05 ja seega p > α, siis me alternatiivset hüpoteesi vastu võtta ei saa ja peame jääma nullhüpoteesi juurde, mille kohaselt kohvijoojate õppimisaeg ei erine teejoojate õppimisajast.

Sama näeme ka karpdiagrammilt.

Teine näide: kas üliõpilased, kellel on varasemaid kogemusi kvantitatiivsete meetoditega, on keskmiselt kauem ülikoolis õppinud kui need, kellel kogemusi ei ole?

H0: kogemuseGA õppimisaeg = kogemuseTA õppimisaeg
H1: kogemuseGA õppimisaeg > kogemuseTA õppimisaeg

## 
##  Welch Two Sample t-test
## 
## data:  kaua_opid by kogemused_kvant
## t = -3.6417, df = 35.468, p-value = 0.0004286
## alternative hypothesis: true difference in means is less than 0
## 95 percent confidence interval:
##      -Inf -2.33176
## sample estimates:
##  mean in group Ei mean in group Jah 
##          3.571429          7.920000

NB! Ühepoolse hüpoteesi testimiseks peaksime me eelnevalt konkreetsest valimist sõltumatult teadma, et kvantitatiivsete meetodite kogemustega üliõpilased ei saa olla vähem aega ülikoolis õppinud kui ilma kogemusteta üliõpilased, sest ühepoolse testiga me seda võimalust üldse ei testi. Peale selle peab ühepoolse testi puhul y~x süntaksit kasutades teadma, mis on faktori x tasemed. Argument alternative = "less" tähendab, et järjekorras 1. tase ehk baastase < alternatiivtase. Vaatame igaks juhuks üle, mis on tasemete järjekord:

Kuna “Ei” on baastase, võrdleb test argumendiga alternative = "less" seda, kas “Ei” grupis ehk kvantmeetodite kogemuseTA üliõpilaste seas oleks keskmine õpinguaeg lühem kui “Jah” grupis. Kuna p-väärtus on 0.0004286, siis saame vastu võtta alternatiivse ehk sisuka hüpoteesi ning tõdeda, et kvantmeetodite kogemuseta üliõpilaste ülikoolis õpitud aeg on keskmiselt lühem kui kogemustega üliõpilastel.

Kui seame oma hüpoteesid valesti, siis ühepoolse testiga võime teha valesid järeldusi:

Sellise ühepoolse testi tulemus, et kogemusteTA rühma õppimiseg ei ole pikem kui kogemusteGA rühmal ei tähenda, et rühmad ei oleks erinevad, et nad kuuluvad samasse populatsiooni. Seega, kui meil ei ole kindlat põhjust kasutada ühepoolset testi, siis peaks alati valima kahepoolse.

Jaotused, normaaljaotus

Joonise kood Keith Johnson 2008, Quantitative methods in linguistics, lk 14-15.

Normaaljaotus

Normaaljaotus iseloomustab tunnust, mille puhul suur hulk väärtusi koonduvad keskmise ümber, keskmisest oluliselt erinevaid väärtusi on vähe ning need jaotuvad keskmisest ühtlaselt mõlemale poole. Vt Galtoni seemnesorteerija, mis genereerib normaaljaotusega hunnikuid: https://en.wikipedia.org/wiki/Bean_machine

Miks normaaljaotus nii hea on?

  • Langevad kokku keskmine ja mediaan.
  • Keskmisest ühe standardhälbe kaugusel on 68% vaatlustest, kahe standardhälbe kaugusel 95% vaatlustest ja kolme standardhälbe kaugusel 99% vaatlustest.

…sest see on kirjeldatav kahe arvuga

Kui me teame teame keskmist ja standardhälvet, siis me võime tuletada kõigi teiste punktide väärtused.

Näiteks kui meil on (hüpoteetiliselt) klassitäis lapsi (ütleme nt 32 last), kelle keskmine pikkus on 150 cm ja standardhälve on 10 cm,

  • siis on üsna tõenäone, et nad jäävad vahemikku 120-180 cm (st 3 standardhälvet kummalegi poole keskmist)
  • ja tõenäoselt mitte rohkem kui 5 last on lühemad kui 140 cm ja mitte rohkem kui 5 last pikemad kui 160 cm (68% jäävad ±1 standardhälbe piiresse, seega 100-68=32% jäävad sellest välja, sellest pooled ehk 16% jäävad sellest allapoole ning sama palju sellest ülespoole, 32-st 16% on 5.12).

Näiteks: genereerime vektori 32 väärtusega, mis on normaaljaotusega, keskmine 1.5 ja standardhälve 0.1

NB! Kuna rnorm() genereerib väärtused juhuslikult, siis on tulemus iga kord erinev!

Juhuslik valim ei pruugi alati ideaalselt normaaljaotusega olla

aga mida suurem valim, seda rohkem läheneb normaaljaotusele:

Normaaljaotuse testimine

Kuna paljud statistilised testid (t-test, anova, lineaarne regressioon) eeldavad, et andmed on normaaljaotusega, siis peaks enne testi kasutamist veenduma, et eeldus on täidetud.

Jaotuse normaalsuse testimiseks on võimalik:

  • vaadata histogrammi ja visuaalselt hinnata (hist())
  • võrrelda tegelikku ja teoreetilist kvantiilide jaotust (qqnorm() ja qqline())
  • kasutada normaaljaotuse testi (Shapiro-Wilk’i, Kolmogorovi–Smirnovi test)

Histogramm

Histogrammi vaadates näeb (enam-vähem), kas jaotus on sümmeetriline. See ei ole mingi lollikindel test, aga annab esmase ülevaate.

Kvantiilide võrdlemine

Üks võimalus on võrrelda andmete kvantiiljaotust. Kas teoreetiline ja tegelik jaotus lähevad kokku?

Shapiro-Wilk’i test

Shapiro testi nullhüpotees on et valim on pärit normaaljaotusega populatsioonist. Tulemus on p-väärtus, mis on tõenäosuslik hinnang. Kuna pikkus on juhuslikult genereeritud, siis on väärtused iga kord erinevad, aga näiteks kui p = 0.5863, siis võib öelda, et 58% tõenäosusega on tegu normaaljaotusega. Tulemuse tõlgendamisel on tavaliselt α = 0.05 ehk et kui on p > 0.05, võib otsustada, et on normaaljaotus, kui on p < 0.05, siis ei ole. p-väärtuse tõlgendamine selles testis käib seega teistpidi kui teistes testides.

## 
##  Shapiro-Wilk normality test
## 
## data:  pikkus
## W = 0.97697, p-value = 0.7078

Veel näiteid

Proovime sama kursuse kysimustik andmestiku peal:

  • Millistelt tunnustelt võiks üldse normaaljaotust eeldada?
  • Vaata nende tunnuste histogrammi, qq-graafikut ja tee Shapiro test.
  • Kas andmed on normaaljaotusega?

Järgmisel korral

Gruppidevaheliste erinevuste hindamine (arvuline sõltuv tunnus ~ kategoriaalne seletav tunnus):

  • parameetrilised testid (kui eeldused on täidetud)
    • t-test (kaks rühma)
  • mida teha, kui ei ole normaaljaotus? (logaritmimine)
  • mitteparameetrilised testid (kui pole normaaljaotus)
    • Wilcoxoni test (kaks rühma)