Tänases praktikumis

Eelmise praktikumi teemad:

  • R-i objektid (muutujad, objektitüübid, objektiklassid)
  • Arvuliste andmete kirjeldamine ja visualiseerimine (1)
    • aritmeetiline keskmine

Tänased teemad:

1. Arvuliste andmete kirjeldamine ja visualiseerimine (2)

  • paiknemise karakteristikud:
    • mood
    • mediaan
  • hajuvuse karakteristikud:
    • kvantiilid
    • haare
    • standardhälve
    • dispersioon
  • visualiseerimine
    • karpdiagramm
    • histogramm
    • hajuvusdiagramm

2. Kategoriaalsete andmete kirjeldamine ja visualiseerimine

  • sagedustabelid
  • paiknemise karakteristikud:
    • mood
    • mediaan
  • hajuvuse karakteristikud:
    • variatsioonisuhe
    • hälve moodist
  • visualiseerimine
    • pirukad
    • tulpdiagramm

Kasutame andmestikku kysimustik_2020.RData, mis sisaldab ka mõnd 2020. aastal kursusel osaleja vastust.

Mood

Kõige populaarsema väärtuse sageduse saame leida funktsiooniga max(), kõige ebapopulaarsema väärtuse sageduse funktsiooniga min().

Kõige populaarsema väärtuse enda ehk moodi indeksi saame leida funktsiooniga which.max() ning kõige ebapopulaarsema väärtuse indeksi funktsiooniga which.min().

Sellele kursusele tulijad on kõige tüüpilisemalt käinud ülikoolis 4 aastat (või käivad 4. aastat?) ehk on tõenäoliselt magistrandid.

Tunnusel võib olla ka mitu moodi või hoopis mitte ühtegi moodi.

Mediaan

Mediaan on variatsioonirea keskmine: kui kõik vaatlused panna kasvavasse järjekorda, siis mediaan on keskmiseks jääv vaatlus (paarisarvu vaatluste korral kahe keskmise arvu aritmeetiline keskmine).

Plussid:

  • pole erinditest mõjutatud;
  • saab kasutada ka siis, kui kõiki andmeid pole (veel) teada, aga teatakse seda, kas puuduvad vaatlused on teistest suuremad või väiksemad.

Miinused:

  • ei arvesta kõiki vaatlusi;
  • ei arvesta tunnuse jaotust: nt gruppidel [1, 1, 50, 100, 100] ja [50, 50, 50, 50, 50] on sama mediaan.

Kvantiilid

Kui mediaan on see keskmine punkt andmete jaotusest, millest nii suuremaid kui ka väiksemaid väärtusi on sama palju, siis samamoodi võib andmestikku vaadelda ka muudest punktidest. Need punktid, mis andmestikku sel viisil võrdseteks osadeks jagavad, on kvantiilid.

25%, 50% ja 75% kvantiile nimetatakse kvartiilideks selle järgi, et need jagavad andmestiku neljaks võrdseks osaks. Kvartiile kokku on 3. Mediaan on 50% kvantiil ehk 2. kvartiil.

Andmestikku võib jagada aga ka vähemateks või enamateks osadeks.

1. ja 3. kvartiili (ehk 25% ja 75% kvantiili) vahe saab leida funktsiooniga IQR().

Haare

Haare on arvulise tunnuse maksimaalse ja minimaalse väärtuse vahe (max() - min()). See on mõjutatav erinditest ehk üldiste andmete suhtes mingis mõttes erandlikest vaatlustest. R-is väljastab haarde funktsioon range() vaid suurima ja vähima väärtuse, mitte nende vahe.

Standardhälve ja dispersioon

Standardhälve iseloomustab vaatluste mingi arvulise tunnuse hajuvust selle tunnuse keskmise väärtuse ümber. Väike standardhälve näitab, et tunnuse väärtused on keskmisele üldiselt üsna sarnased, suur standardhälve näitab, et väärtuste erinevus keskmisest on suur (nt haare on hästi suur). Standardhälbe funktsioon R-is on sd() (standard deviation).

See, kas jagatises, millega ruutude summat korrutatakse, on nimetajas vaatluste arv või tuleb vaatluste arvust lahutada 1 (nagu meie näites), sõltub sellest, kas meil on tegu kõikse valimiga (st meie valim ammendab kõik võimalikud vaatlused) või mitte (meie valimis on juhuslik hulk kõikidest võimalikest). Kui meil oleks kõikide sellel kursusel osalenute vastused, siis võiksime öelda, et meil on kõikne valim (saame selle abil kirjeldada ära iga viimsegi kursusel osaleja), ent kuna meil kõikide vastuseid ei ole, siis peame eeldama, et meil on juhuslik väiksem valim üldisest populatsioonist.


Dispersioon ehk hajuvus on hälvete ruutude aritmeetiline keskmine ehk teisisõnu keskmine vaatluste erinevus keskmisest väärtusest. Mida suurem on dispersioon, seda suurem on hajuvus. Sagedamini raporteeritakse uurimustes standardhälvet, kuna ruutjuure võtmine võimaldab vaadelda hajuvust originaalühikutes (antud juhul nt aastates).

Karpdiagramm

Karpdiagramm ehk kastdiagramm (boxplot) esitab arvulise tunnuse kvartiiljaotuse (vt Kvantiilid).

Paks joon on mediaan, kasti sisse jäävad vaatlused, mille väärtused langevad 25% ja 75% kvantiili (ehk vastavalt Q1 ja Q3) vahele, st kast sisaldab 50% kõikidest andmetest. Vurrud joonistatakse väärtuste juurde, mis jäävad kastist pooleteisekordse kvartiilivahe kaugusele. Kvartiilivahe on kasti ülemise ja alumise piiri väärtuste vahe. Ülemisel joonisel on kvartiilivahe 1994.5 (Q3 e 75% kvantiili) ja 1987.5 (Q1 e 25% kvantiili) vahe ehk 7 aastat, st kasti vasaku ja parema külje pikkus on 7. Pooleteisekordne kvartiilivahe on seega 7*1.5 ehk 10.5.

Ülemise vurru jaoks võetakse esimene andmestikus esinev väärtus, mis on väiksem kui Q3 + 1.5*IQR.

Alumise vurru jaoks võetakse esimene andmestikus esinev väärtus, mis on suurem kui Q1 - 1.5*IQR.

Väärtused, mis vurrude vahele ei mahu, sest nad on teiste andmetega võrreldes erandlikult suured/väikesed, on erindid (outliers). Saame ka erindid kätte funktsioonist boxplot.

Erindid võivad tekkida mõõtmis- või andmekogumisvigade tõttu, ent võivad olla ka osa andmestiku tõelisest varieeruvusest. Sellele, mida erinditega pihta hakata, on mitmesuguseid lähenemisi. Kuna väga suured erindid hakkavad oluliselt mõjutama mudelite hinnanguid parameetritele, mis on seotud aritmeetilise keskmisega, jäetakse need vahel lihtsalt analüüsist välja. Seda tehes võime aga eirata mingit erinditega seotud väärtuslikku informatsiooni. Teinekord kasutatakse hoopis tunnuse transformeerimist (nt logaritmimist), mis suuri erinevusi tasandaks. Mõnikord aga on mõistlik määrata erinditele hoopis mingi muu väärtus, nt aritmeetilise keskmise ja kahekordse standardhälbe summa või vahe.

Kast-vurrud diagramm sobib hästi rühmade võrdlemiseks. Näiteks vaatame vastajate sünniaastat vastavalt sellele, millise looma nad valisid.

Histogramm

Histogramm ehk astmikdiagramm sobib arvuliste andmete visualiseerimiseks ning esitab mingi tunnuse sageduste jaotumise teatud intervallide kaupa. R-is saab baasgraafika paketis kasutada funktsiooni hist().

Jooniselt näeme, et kõige enam (20) on neid tudengeid, kes on sündinud 90ndate esimesel poolel, ainult üks tudeng on sündinud vahemikus 1965-1970 ja üks 1970-1975. R arvestab piiripealsed väärtused enamasti sellele eelnenud klassi (nt aastal 1990 sündinud on klassis 1985-1990, mitte 1990-1995).

Funktsioonis saab erinevate argumentidega täpsustada mh ka seda, mitmes sagedusklassis andmed peaksid olema esitatud (R võtab seda siiski kui soovitust ning pakub selle põhjal enda lahenduse), klasside värvi jne.

Kuidas kirjeldada kategoriaalseid andmeid?

pilt Levshina 2015: 18

Meeldetuletuseks: kvalitatiivsed/kategoriaalsed tunnused on (sisuliselt) mittearvulised tunnused, mis jagunevad nominaalskaala ja ordinaal- ehk järjestusskaala tunnusteks. Sisuliselt mittearvulised tähendab siinjuures seda, et ehkki ka järjestusskaalat võib esitada arvuliste väärtuste abil (nt hinnanguskaala 1st 5ni), ei ole need enamasti käsitletavad päris arvuliste tunnustena. Näiteks ei arvutata üldiselt hinnanguskaalade keskmist, sest kuidas peaks täpselt tõlgendama keskmist 3.6, kui 3 tähistab skaalal “Nii ja naa” ja 4 “Pigem nõustun”? Samas on hinnangute arvuline käsitlemine võimalik juhul, kui vastajal näiteks lastakse vabalt määrata mingi sobiv väärtus skaalal, millel ainult algus- ja lõpp-punkti väärtused on määratletud. Samas peab ka sel juhul tulemuste tõlgendamisel alati arvestama sellega, kui laialt skaala on määratud (nt hakkab mängima rolli see, kas skaala on 1st 5ni või 1st 20ni).

Kategoriaalseid andmeid saab kirjeldada eelkõige sagedustabelite ja moodi abil, järjestusskaala tunnuste puhul saab teatavate mööndustega leida ka mediaani.

Vaatame korraks veel küsimustiku tunnuseid.

Sagedustabelid

table()
_______________
Sagedustabeli saab teha funktsiooniga table(). Kui kasutada funktsiooni table() argumendina ainult üht tunnust, siis saame ühemõõtmelise sagedustabeli, milles esitatakse selle tunnuse tasemete esinemise sagedused.

Kui kasutame funktsioonis kaht argumenti, saame kahemõõtmelise sagedustabeli ehk risttabeli ehk jaotustabeli. See esitab kahe tunnuse ühisjaotuse.

prop.table()
_______________
Sagedustabeli põhjal võime leida ka suhtelised sagedused ehk osakaalud ehk proportsioonid, mida saab teisendada protsentideks. Suhtelisi sagedusi on vaja selleks, et võrrelda eri suuruses valimeid.

Vaatame ka risttabeli suhtelisi sagedusi.

addmargins()
_______________
Nii absoluutsete kui ka suhteliste sagedustega tabelitele saab lisada marginaalsed sagedused (margins) ehk ridade ja tulpade summeeritud sagedused.

Mood

Samamoodi, nagu leidsime moodi arvuliste tunnuste puhul, võime leida selle ka kategoriaalsete tunnuste puhul.

Mediaan järjestustunnuste kirjeldamiseks

Järjestustunnuste kirjeldamiseks saab kasutada kõiki neid samu meetodeid, mida ka nominaaltunnuste puhul.

Lisaks võime järjestustunnuste puhul leida ka mediaani ehk kõige keskmise väärtuse, kui järjestada kõik vaatlused tunnuse alusel väiksemast suuremani.

Mis juhtus?

Kuna tegemist on järjestatud faktoriga, ei suuda R ise selle mediaani kohe leida ja ütleb, et mediaani leidmiseks on vaja arvulisi andmeid.

Mäletatavasti oli mediaan paaritu arvu vaatluste korral variatsioonirea keskmine. Kui meil on aga paarisarv vaatlusi, on mediaan kahe keskmise vaatluse aritmeetiline keskmine. Kui meil oleks nüüd näiteks paarisarv vaatlusi, mille mediaan jääks täpselt 3 ja 4 vahele, siis kuidas tõlgendada mediaani 3.5, kui 3 tähistab vastust “Võin läbi saada, aga võin ka põruda” ja 4 tähistab vastust “Tõenäoliselt saan läbi”?

Aga aritmeetiline keskmine ise?

Kuidas seda tulemust tõlgendada?

Statistikud ei pea järjestustunnuste aritmeetilise keskmise arvutamist reeglina mõistlikuks, ent on ka teistsuguseid arvamusi, vt nt https://measuringu.com/mean-ordinal/.

Variatsioonisuhe ja hälve moodist

Arvuliste tunnuste hajuvust ehk seda, kui palju väärtused üldiselt mingist keskmisest väärtusest erinevad, kirjeldavad suurused nagu dispersioon ja standardhälve.

Ka kategoriaalsete tunnuste hajuvust on võimalik erinevate suuruste abil kirjeldada. Vt nt


Käsitleme siin kaht hajuvusnäitajat:

  • variatsioonisuhe (variation ratio)
  • hälve moodist (deviation from the mode)

Variatsioonisuhe

Variatsioonisuhte leidmiseks lahutatakse 1st moodi sageduse ja kõikide vaatluste hulga jagatis. Variatsioonisuhe näitab, kui suure osa andmetest jätab kõige sagedasem väärtus kirjeldamata.

Mida lähemal v on 0-le, seda homogeensem on andmestik (kõige sagedasem väärtus kirjeldab üksi suurema osa andmestikust ära). Mida lähemal v on 1-le, seda heterogeensem/hajuvam on andmestik (palju erinevaid kategooriaid).

Hälve moodist

Selle näitaja puhul on tegu nominaaltunnuste analoogiga dispersioonile. Siinjuures kasutatakse ära ka variatsioonisuhet. Sisuliselt näitab hälve moodist kõikide klasside/kategooriate moodist hälbimiste summat, mis on korrigeeritud vaatluste ja klasside koguarvu suhtes nii, et statistiku väärtus jääb 0 ja 1 vahele.

Mida suurem on DM, seda rohkem on andmetes varieerumist ja seda ühtlasema sagedusega kategooriad esinevad. Mida väiksem on DM, seda vähem on varieerumist ja seda suurema osa andmetest kirjeldab ära mood. Kui kõikides kategooriates on ühe palju vaatlusi, on DM 1. Kui kõik vaatlused on ühes kategoorias, on DM 0.

Ülesanne
Võrdle lemmiklooma ja lemmikjoogi hälbeid moodist. Mida järeldad?

Kategoriaalsete tunnuste visualiseerimine

Kategoriaalsete andmete visualiseerimiseks kasutatakse enamasti sektordiagramme (nn pirukaid) ja tulpdiagramme. Tegeleme selles aines põhiliselt tulpdiagrammidega, sest

  • sektordiagramme on keeruline tõlgendada, väiksemad erinevused ei tule selgelt esile;
  • sektordiagramme on kerge väärkasutada (“valetada”);
  • kui lisada protsentide sildid loetavuse parandamiseks, kaotab sektordiagramm ise kogu oma mõtte;
  • sektordiagrammid on kasulikud ainult siis, kui võrrelda maksimaalselt 3 gruppi, mille sageduserinevused on suured.

https://www.businessinsider.com/pie-charts-are-the-worst-2013-6

Võrdle:


Kas A ajahetkel on 3. kandidaadi toetus suurem kui 5nda oma?
Kas võrreldes A-ga kasvas B ajahetkel rohkem 2. või 4. kandidaadi toetus?
Kes viimase küsitluse järgi võidab?



Sektordiagrammi funktsioon R-is on pie().

Tulpdiagramm

Tulpdiagramm (bar chart) kuvab tulpades kategoriaalse tunnuse tasemete sagedused. R-is on tulpdiagrammi funktsiooniks baasgraafika paketis barplot().

Mis juhtus?

Funktsioon barplot() eeldab, et tal on võtta kohe kuskilt ka kategooriate sagedusandmed. Seepärast saab seda kasutada tabelobjektidega.

Tulpdiagramme võib ka teha kahe tunnuse alusel. Vaatame näiteks, kas osaleja hinnang oma kursuse läbimise tõenäosusele võiks olla kuidagi seotud sellega, kas tal on eelnevalt kvantitatiivsete meetoditega kogemusi või mitte.
Visualiseerime kategooriaid üksteise kõrval, näitame tulpasid horisontaalselt, lisame kategooriaid eristavad värvid, telgede pealkirjad ja legendi.

Vaatleme nüüd absoluutsageduste asemel proportsioone: kui suurel osal mingi hinnangu valinutest on eelnevaid kogemusi kvantitatiivsete meetoditega ja kui suurel osal mitte?

Kordamiseks

  • Arvuliste tunnuste jaotumist mingite keskväärtuste ümber saab iseloomustada kõige paremini aritmeetilise keskmise, mediaani ja moodi abil.
  • Arvulise tunnuse hajuvust iseloomustavad haare, kvantiilid, standardhälve ja dispersioon.
  • Arvulise tunnuse visualiseerimiseks sobivad hästi histogrammid (histogram), karpdiagrammid (boxplot) ja hajuvusdiagrammid (scatterplot).
  • Kategoriaalsete tunnuste jaotumist saab iseloomustada sagedustabelitega ning moodi kaudu, järjestustunnustele sobib ka mediaan.
  • Kategoriaalsete tunnuste hajuvust iseloomustavad nt variatsioonisuhe ja hälve moodist.
  • Katgeoriaalsete tunnuste visualiseerimiseks sobivad hästi tulpdiagrammid.