Kursuse korraldusest

  • T 10.15-11.45, K 10.15-11.45
  • 22 praktikumi
  • Toimumisnädalad 24-26, 28-32, 34-35, 38
  • See tähendab, et praktikume EI toimu 3. ja 4. märtsil, 14. ja 15. aprillil ning 5., 6., 12. ja 13. mail.
  • Lossi 3-406
  • Kohalkäimine ei ole kohustuslik (küll aga rangelt soovituslik)
  • Loeng + praktiline osa (+ kodutöö)
  • Kursus on arvestuslik (arvestatud/mittearvestatud)
  • Kõik õppematerjalid Moodle’is
  • Arvestuse saamiseks vajalik esitada kõik kursuse jooksul antud kodutööd ja lõpuprojekt
  • 4 kodutööd:
    • Andmetüübid - ggplot2, tähtaeg 23.02.2020
    • Valim ja populatsioon - Mittearvuliste tunnuste vahelised seosed, tähtaeg 15.03.2020
    • Lineaarse regressiooni mudelid - Segamudelid (2), tähtaeg 12.04.2020
    • Otsustuspuud ja juhumetsad - Klasterdamine (2), tähtaeg 03.05.2020
  • Lõpuprojekt: iseseisev töö, milles kasutatakse mõnd kursusel käsitletud meetodit mõnel kursusel mitte käsitletud andmestikul. Peab sisaldama nii koodi, analüüsi kui ka järeldusi. Kokku u 5 lk. Kursuse viimasel nädalal saab enda projektist, sellega kaasnenud probleemidest jms-st lühidalt (u 5 minutit) ka teistele rääkida.
  • Oluline tähtaegadest kinni pidada!

Mida see kvantitatiivne andmeanalüüs tähendab?

  • Empiirilisus
  • Suurtes andmehulkades orienteerumine
  • Nähtuste kirjeldamine, koosesinemise mustrid ja põhjuslikud seosed
  • Sagedused, tõenäosused, varieerumise modelleerimine
  • Kvantitatiivsete meetodite abil saab jõuda läbipaistvate ja korratavate tulemusteni. See võimaldab teadlaste vahel hõlpsamat dialoogi.


Kvantitatiivsete meetodite kasutamine ei vastandu teooriale ega asenda kvalitatiivseid.


Kvantitatiivsed meetodid humanitaarteadustes?

Every softer discipline these days seems to feel inadequate unless it becomes harder, more quantifiable, more scientific, more precise. That, it seems, would confer some sort of missing legitimacy in our computerized, digitized, number-happy world. But does it really? Or is it actually undermining the very heart of each discipline that falls into the trap of data, numbers, statistics, and charts? Because here’s the truth: most of these disciplines aren’t quantifiable, scientific, or precise. They are messy and complicated. And when you try to straighten out the tangle, you may find that you lose far more than you gain.

But at the end, no matter how meticulous you’ve been, history is not a hard science. Nor is literature. Or political science. Or ethics. Or linguistics. Or psychology. Or any other number of disciplines. They don’t care about your highly involved quantitative analysis. They behave by their own rules.

https://blogs.scientificamerican.com/literally-psyched/humanities-arent-a-science-stop-treating-them-like-one/


_________________________________________

A common predjudice, to be sure, divides the social world into phenomena that are suitable for quantification (population distributions, social mobility, etc.) and those that are irreducibly qualitative: conversation, narratives, biography, ethnography, and history often serve as examples. Formalisms clearly can and do apply, however, to these phenomena as well. (Tilly 2004)

Although history is not an exact science, counting, comparing, classifying, and modeling are nevertheless useful methods for measuring our degree of doubt or certainty, making our hypotheses explicit, and evaluating the influence of a phenomenon. (Lemercier, Zalc 2019)

Lugemismaterjal

Selle kursuse aluseks on põhiliselt õpikud Natalia Levshina (2015) “How to do Linguistics with R” ja Richard McElreath (2015) “Statistical Rethinking”. Nendest johtub suuresti ka käsitletavate meetodite valik.


Õpikuid ja ülevaateid humanitaar- ja sotsiaalteaduste meetodite kohta aga ilmub üha enam. Springeri kirjastusel näiteks on terve sari Quantitative Methods in the Humanities and Social Sciences, mille alt on hetkeseisuga ilmunud juba tervelt 14 raamatut.

Ajaloolasi võib huvitada ka näiteks Claire Lemercier & Claire Zalc (2019) Quantitative Methods in the Humanities: An Introduction, millega on seotud ka pidevalt täienev kodulehekülg.

Miks R?

  • Koodid taaskasutatavad ja jagatavad
  • Vabavaraline
  • Võrdlemisi lihtne süntaks
  • Spetsialiseerunud pigem andmeanalüüsile
  • Palju erinevaid pakette ja abimaterjale
  • Andmeid saab koguda, puhastada, analüüsida ja visualiseerida ühes keskkonnas (RStudio abil ka ühes programmiaknas)
  • Palju lisavõimalusi (slaidid, dokumendid, interaktiivsed rakendused)

RStudio ja selle kohandamine. Nipid ja trikid

  • R-i (3.6.2) ja RStudio (1.2.5033) viimased versioonid
  • Tools -> Global Options -> Pane Layout
  • Tools -> Global Options -> Code -> Editing -> Soft-wrap R source files
  • Tools -> Global Options -> Code -> Saving -> Default text encoding: UTF-8
  • update.packages()
  • Korda skriptis tervet rida/valikut: Alt+Shift+Up/Down
  • Klaviatuuriklahvid Home, End, Tab (!!!)
  • Puhasta konsool: Ctrl+l
  • Leia konsoolis viimati kasutatud käsud: Ctrl+Up/Down
  • Korrasta skriptis koodi taanded: Ctrl+i

Küsimustik

Täida ära küsimustik, mis asub lehel https://www.surveymonkey.com/r/W85HNXK
(aega u 5 minutit).

Kust ja kuidas andmeid saada?

  • Introspektsioon
  • Intervjuu
  • Küsitlused
  • (Teksti)kogud, korpused, andmebaasid jne
  • Katsed

Sellel kursusel tegeleme põhiliselt küsitlus-, korpus- ja andmebaaside andmetega, mida hoitakse tabelkujul ning mille ridadel olevaid vaatlusi iseloomustatakse teatud tulpades asuvate tunnuste abil.

Tunnused ja nende tüübid

  • tunnused/variaablid/muutujad aitavad niisiis andmeid kirjeldada ja jagunevad
    • uuritavateks/sõltuv tunnusteks (see, mida uurime ja mille kohta tahame midagi väita)
    • seletavateks/sõltumatuteks tunnusteks (need, mille kaudu uuritavat tunnust iseloomustame)
  • Kuidas mõjutab unetundide arv päeva jooksul söödud kalorite hulka?
  • Kuidas mõjutavad sugu ja vanus poliitilise partei eelistust?
  • Kuidas sõltub hinnang oma söögitegemisoskusele programmeerimisoskusest?

Tunnused ja nende tüübid

  • tunnused/variaablid/muutujad aitavad niisiis andmeid kirjeldada ja jagunevad
    • uuritavateks/sõltuv tunnusteks (see, mida uurime ja mille kohta tahame midagi väita)
    • seletavateks/sõltumatuteks tunnusteks (need, mille kaudu uuritavat tunnust iseloomustame)
  • Kuidas mõjutab unetundide arv päeva jooksul söödud kalorite hulka?
  • Kuidas mõjutavad sugu ja vanus poliitilise partei eelistust?
  • Kuidas sõltub hinnang oma söögitegemisoskusele programmeerimisoskusest?

Tunnuste jagunemine

  • See, et andmeanalüüs on kvantitatiivne, ei tähenda, et andmed ise peaksid tingimata olema arvulised.
  • Laiemalt jagunevadki tunnused kvalitatiivseteks ja kvantitatiivseteks.
  • kvalitatiivsed/mittearvulised:
    • nominaalsel skaalal: kaks või enam kategooriat, mis teineteist välistavad. Peetakse kõige ebatäpsemaks ja vähem informatiivseks tunnusetüübiks.
      Nt mees/naine, transitiivne/intransitiivne, nominatiiv/genitiiv/partitiiv, nimi, kogumispunkt, teema jne.
    • ordinaalsel e järjestusskaalal: kategooriad on mingil alusel järjestatud, aga väärtuste vahe ei pruugi olla ühesugune.
      Nt alg-/põhi-/kesk-/kõrgharidus, ei nõustu üldse / pigem ei nõustu / pigem nõustun / nõustun täielikult.
  • kvantitatiivsed/arvulised:
    • intervalli- e vahemikskaalal: esitab võrdseid erinevusi skaala punktide vahel.
      Nt temperatuur.
    • suhteskaalal: nagu intervalliskaala, aga tähendusliku nullpunktiga.
      Nt sõnasagedused, sõnade graafilised/silbilised/foneetilised pikkused, reaktsiooniaeg.
    • kvantitatiivsed tunnuseid võib jagada ka:
      • pidevateks e mõõdetavateks (temperatuur kraadides, pikkus sentimeetrites, reaktsioon millisekundites, valuutakurss dollarites, vanus aastates)
      • diskreetseteks e loendatavateks (sõnasagedused korpuses, laste arv peres, külastajate arv etendusel)

Eri skaalal tunnused võimaldavad erineval hulgal tehteid.

  • Kõige piiratumalt saab opereerida nominaalsel skaalal tunnustega: nende väärtusi saab võrrelda ainult kvalitatiivselt (nt kass ei ole koer).
  • Järjestusskaala tunnuste väärtuseid saab lisaks võrrelda ka sellel alusel, et mingi väärtus on suurem/rohkem kui mingi teine (nt keskharidus tähendab rohkem haridust kui põhiharidus, pigem nõustun tähendab rohkem nõustumist kui pigem ei nõustu).
  • Intervallskaalal tunnustega saab teha kõiki neid võrdlusi, mida nominaalsel ja järjestusskaalal tunnustega (nt 3 kraadi ei ole 2 kraadi ja 3 kraadi on rohkem kui 2 kraadi), ent lisaks saab öelda ka, kui palju (ehk kui mitme intervalli võrra) üks väärtus teisest suurem/väiksem on (nt 3 kraadi on 1 kraadi võrra rohkem kui 2 kraadi).
  • Suhteskaala tunnused võimaldavad kõige rohkem tehteid. Lisaks kõikidele eelnimetatutele saab neid tunnuseid võrrelda ka sellel alusel, kui mitu korda on mingi väärtus teisest väärtusest suurem või väiksem (nt 80-aastane on 4 korda vanem kui 20-aastane, aga 80 kraadi ei ole 4 korda rohkem kui 20 kraadi).

pilt
Levshina 2015: 18


Tunnuseid on võimalik teisendada ühest klassist teise, ent ainult suunal suhteskaala -> nominaalskaala ehk ratio -> nominal!

Küsitluses, millele äsja vastasid, olid järgmised küsimused. Millised neist on kvalitatiivsed ja millised kvantitatiivsed? Millisel skaalal tunnused on?

##                                                                    
## Q2  "Mis on sinu sünniaasta?"                                      
## Q3  "Millisel õppekaval õpid?"                                     
## Q4  "Mitu aastat oled käinud ülikoolis?"                           
## Q5  "Kas sul on varasemaid kogemusi kvantitatiivsete meetoditega? "
## Q6  "Kirjelda oma programmeerimisoskusi (ükskõik mis keeles)"      
## Q7  "Kui tõenäoline on, et läbid selle kursuse?"                   
## Q8  "Kohv või tee?"                                                
## Q9  "Hinda oma söögitegemisoskusi"                                 
## Q10 "Vali loom"

Nominaalskaalal tunnused

Nominaalskaalal tunnused?

Ordinaalskaalal tunnused

Intervalliskaalal tunnused

Suhteskaalal tunnused

R-i test

Tee Moodle’is R-i baasoskusi puudutav test. Test ei ole hindeline ega mõjuta kuidagi lõpparvestuse saamist!

Kordamiseks

  • Kvantitatiivne andmeanalüüs võimaldab humanitaarteadlasel lisada oma uurimusele rohkem üldistusvõimet, esitada uusi uurimisküsimusi, kasutada ära rohkem infot ja muuta oma uurimus korratavaks.
  • Formaalsel kujul võivad andmed olla kvalitatiivsed (nominaalsel v ordinaalsel skaalal) või kvantitatiivsed (intervalli- v suhteskaalal).