2 Tõenäosus

Mis asi on teadus?5

Mis asi on arstiTEADUS?

Mis asi on tõenäosus?

Matemaatilises mõttes on tõenäosus teatud tüüpi mõõt, mille puhul mõõtmistulemust saab väljendada arvuga vahemikust 0–1. Mida aga me mõõdame? Näiteks kui tahame teada, mis on tõenäosus, et täringu veeretamisel tuleb viis silma. Kas me mõõdame täringu mingit olemuslikku, objektiivset omadust (isegi ideaalselt katse algseisu – asendid, jõuvektorid jne – teades on tulemus alati juhuslik)? Või hoopis mõõdame oma teadmatust (ideaalses füüsikalises katses, kus on kõik jõuvektorid jne teada – kas seal üldse on täringuviske tulemuses juhuslikkust või on algseisu teadmisel kõik deterministlikult prognoositav)?

Laias laastus ongi tõenäosusel kaks erinevat filosoofilist interpretatsiooni: objektivistlik (mõõdame tegelikku omadust) ja subjektivistlik (mõõdame enda teadmatust). Mõlemal tõlgendusviisil on omad voorused ja puudused, seepärast neid kasutataksegi tihti lähtuvalt situatsioonist – kumb on sobivam. Lähemalt neist tõlgendusest ja nende allliikidest võib lugeda M. C. Galavotti raamatust “A philosophical introduction to probability”6 ja ka Stanfordi filosoofialeksikonist7

Gümnaasiumi matemaatika õppekavas on kasutusel objektivistlik lähenemine (tõenäosuse mõõtmiseks: jaga soodsate sündmuste arv kõigi sündmuste arvuga). Nii ka käesolevas konspektis.

2.1 Näited

Näide 2.1 Sally Clark oli jurist, kellel kaks last surid imikuna oletatavasti väikelapse äkksurma sündroomi tõttu. Kohtus oli eksperdina tunnistusi andmas selle sündroomi ekspert, dr Meadow, kes väitis, et tõenäosus, et selle pere kaks last äkksurma surid, on \(\frac{1}{8543}\times\frac{1}{8543}\) ehk ligikaudu 1 : 73 mln. See väide veenas vandekohtunikke uskuma versiooni, et vähemalt üks neist lastest tapeti. Clark mõisteti 1999 süüdi.

Otsus sattus üsna kohe kriitikatule alla – need kaks surma ei pruugi olla sõltumatud: kui äkksurma sündroom on pärilik, siis need surmad võivad mõlemad olla tingitud geenidest. Kui tegemist on kahe üksteisest sõltuva tõenäosusega, siis ei saa neid niisama lihtsalt kokku korrutada.

Samuti ei olnud kaalutud võimalust, et kahe lapse tapmise tõenäosus võib olla väkisem kui kahe äkksurma tõenäosus. 2003. aastal kohtuotsus tühistati.

Järgnev näide pärineb Nobeli laureaadi D. Kahnemanni bestsellersist “Thinking, Fast and Slow”8 (eesti keeles ilmunud 20179).

Näide 2.2 Linda on kolmekümne ühe aastane, vallaline, otsekohene ja väga tark. Ta õppis ülikoolis peaainena filosoofiat. Tudengina huvitus ta elavalt diskrimineerimise ja sotsiaalse õiglusega seotud teemadest ning osales tuumavastastel meeleavaldustel. Kui tõenäoline on, et:

  1. Linda on algkooliõpetaja
  2. Linda töötab raamatukaupluses ja käib joogatrennis
  3. Linda osaleb aktiivselt naisliikumises
  4. Linda on vaimse tervise valdkonna sotsiaaltöötaja
  5. Linda on pangateller
  6. Linda on kindlustusagent
  7. Linda on pangateller ja osaleb aktiivselt naisliikumises
Milline nendest variantidest tundub kõige tõenäolisem?

Mõtle natuke! Mida Sina arvad? Kui oled läbi mõelnud, klõpsa siin

Tegemist on 1970ndatel tehtud uuringuga (nagu näite sõnastusest läbi kumab), milles osalejad valisid kõige enam 7. variandi kõige tõenäolisemaks, 5. variant oli vähem populaarne. See on aga vale.

Vaadelgem hulka, mis koosneb kõigist naistest. Nende hulgas teatud osa töötavad pangatellerina. Samuti osaleb osa naistest naisliikumises. Taoliste naiste ühisosa – kes töötavad tellerina JA osalevad naisliikumises – ei saa olla suurem, kui kõigi naiste hulk, kes tellerina töötavad.

Järelikult: kui juhuslikult valida üks naine kõigi naiste hulgast, siis mõnikord satub valituks selline, kes tellerina töötab. Palju harvem satub valituks selline, kes töötab tellerina JA osaleb naisliikumises.

Kasutades gümnaasiumis õpitud lähenemist tõenäosuse hindamiseks (soodsad võimalused jagatud kõigi võimalustega): tõenäosus, et juhuslikult valitud naine on teller > tõenäosus, et juhuslikult valitud naine on teller ja osaleb naisliikumises.

Nende näidete põhjal nägime, et tõenäosuse arvutamisel/hindamisel tasub vähem kasutada intuitsiooni ning rohkem kasutada formaalsemat lähenemist.

2.2 Tõenäosuse definitsioon ja tähistused

Definitsioon 2.1 Tõenäosus (probability) on meid huvitava sündmuse toimumise võimalikkuse mõõt skaalal 0 kuni 1.
Väide 2.1 Võimatu sündmuse toimumise tõenäosus on 0.
Väide 2.2 Kindla sündmuse toimumise tõenäosus on 1.

Klassikalises tõlgenduses iseloomustab tõenäosus meid huvitava sündmuse osakaalu kõikvõimalikest sündmustest. Näiteks täringu veeretamisel on 5 silma saamise tõenäosus 1/6: meid huvitav sündmus – “tuleb 6 silma” –- on ainult üks võimalus kõigist võimalikest tulemustest, kõiki võimalikke tulemusi on aga kuus.

Tõenäosust võib tihti vaadata kui osakaalu või protsenti. Näiteks kui uuritavas rahvastikus on haiguse levimus 5%, siis tõenäosus, et sellest rahvastikust juhuslikult valitud inimesel on antud haigus, on 0,05 ehk 5%.

Sündmuse mõiste on tõenäosusest rääkides väga üldine/abstraktne, sõltub kontekstist. Näiteks

  • Mündivise: sündmus on visketulemus (“kull” või “kiri”).
  • Kaardi tõmbamine kaardipakist: sündmuseks on saadud kaardi nimi (\(\heartsuit 2, \diamondsuit 2, \clubsuit 2, \spadesuit 2, \heartsuit 3, ..., \spadesuit \text{A}\))
  • Mingi haiguse diagnoosimine: sündmuseks on diagnoosimise tulemus (haige või terve).
  • Mõõtmistulemus: sündmuseks on HIV RNA kontsentratsioon 1 ml seerumis (0, 1, 2, 3, 4, … osakest milliliitris).
  • Küsitlus: sündmuseks on vastaja sugu (mees, naine).

Mõõtmistulemust tavaliselt ette ei tea. Saab aga küsida, kui suur on tõenäosus ühe või teise mõõtmis-/katsetulemuse saamiseks:

  • Kui tõenäoliselt tuleb mündiviskel “kull”?
  • Kui tõenäoliselt tuleb punasest mastist kaart?
  • Kui tõenäoliselt on inimene haige?
  • Kui tõenäoliselt on HIV RNA kontsentratsioon > 100 osakest milliliitris?
  • Kui tõenäoliselt on auditooriumist juhuslikult valitud isik mees?

Arutluskäikude lühemaks kirjapanemiseks on matemaatikas kombeks kasutada lühendeid ja sümboleid.

Lauset “Tõenäosus, et … .” tähistatakse sageli nii: \(P(...)\). Siin kolme punkti asemel tuleks kirjutada konkreetselt meile huvi pakkuv sündmus. Näiteks \(P(\text{juhuslikult valitud 2. kursuse arstitudeng on SARS-CoV-2-positiivne})\). Loomulikult on taoline kirjutis liiga pikk, et sellega saaks arutlust edasi teha, ilma et lause lugemist lõpetades oleks juba lause algus meelest läinud. Seepärast võiks selle sündmuse mingi endale meeldiva sümboliga tähistada. Näiteks võiks \(X\) tähistada sündmust “juhuslikult valitud 2. kursuse arstitudeng on …”. Siis saab juba lühemalt kirjutada: \(P(X = \text{SARS-CoV-2-positiivne})\). Et veelgi vähem kirjutamisvaeva oleks, võiks ka sündmuse tulemuse/väärtuse mingi endale meelepärase sümboliga tähistada (näiteks väike \(x\) täht). Kuna järgmises peatükis on juttu diagnostilistest testidest, siis praeguses näites võiks “SARS-CoV-2-positiivne” olla tähistatud sümboliga \(+\) ja “SARS-CoV-2-negatiivne” sümboliga \(-\).

Niisiis, leppides kokku tähistused, saab lause \[\text{Tõenäosus, et juhuslikult valitud 2. kursuse arstitudeng on SARS-CoV-2-positiivne}\] kirjutada märksa lühemalt: \[P(X=+).\] Ja kui me oskame öelda, kui suur siis see tõenäosus ikkagi on (nt 0,01% ehk 0,0001), saab kirjutada nii: \[P(X=+) = 0,0001.\] Selles näites \(X\) kannab tõenäosusteooriažargoonis nimetust juhuslik suurus ning konkreetset väärtust (mõõtmise tulemust) \(+\) nimetatakse selle juhusliku suuruse realisatsiooniks. Rakenduslikuma statistikas nimetatakse neid ka vastavalt tunnus ning väärtus. Mõnikord, kui konkreetne väärtus huvi ei paku, või kui kontekstist on selge, millist väärtust silmas peetakse, siis jäetakse see ka välja kirjutamata ning kirjutatakse lihtsalt \(P(X).\)

2.3 Tõenäosuse omadused

Et mitte teha taolist viga, nagu eelnevalt mainitud lastearst S. Clarke’i kohtuprotsessis, võiks teada mis on sõltumatud sündmused ja mis on üksteist välistavad sündmused.

Definitsioon 2.2 Üksteist välistavateks sündmusteks nimetatakse sündmusi, mille üheaegse toimumise tõenäosus on 0.
Näide 2.3 Näiteks ühe täringu viskamisel tuleb kindlasti 1, 2, 3, 4, 5 või 6 silma (kui täring kaotsi ei lähe). Need sündmused kõik on üksteist välistavad: kui tuleb 3 silma, siis samal ajal ei saa tulla 1, 2, 4, 5 või 6 silma.

Kui on tegemist täiesti tavalise 6-tahulise täringuga, mis veeretamise ajal mingeid trikke ei tee (nt katki ei lähe või siis terava tipu peale seisma ei jää), siis kindlasti tuleb veeretamise järel mingi silmade arv: 1, 2, 3, 4, 5 või 6. Kui on tegemist nn ausa täringuga, on kõigi tulemuste saamine ühesuguse tõenäosusega: 1/6. Kuna rohkem võimalusi ei ole, siis nende võimaluste tõenäosuste summa on \(1/6 + 1/6 + 1/6 + 1/6 + 1/6 + 1/6 = 1.\)

Silmade arv 1 2 3 4 5 6 Kokku
Tõenäosus 1/6 1/6 1/6 1/6 1/6 1/6 1

Ka siis, kui tegemist oleks mitteausa täringuga, on kõigi võimaluste summa 1.

Silmade arv 1 2 3 4 5 6 Kokku
Tõenäosus 0,093 0,201 0,050 0,181 0,253 0,222 1

Kokku on täringuviske erinevaid võimalikke tulemusi 6 ning nad kõik on üksteist välistavad.

Väide 2.3 Kõikvõimalike üksteist välistavate sündmuste toimumise tõenäosuste summa on 1.

See on oluline teadmine. Kui patsientide hulgas on vaid mehed ja naised ning me teame naiste osakaalu patsientide hulgas (näiteks 65%), siis selle järgi oskame arvutada ka meeste osakaalu patsientide hulgas: \(1 - 0,65 = 0,35.\)

Sündmuse \(A\) mittetoimumist ehk eitust ehk vastandsündmust tähistatakse sageli \(\neg A\) või \(\bar A\). Sündmus ja tema vastandsündmus on üksteist välistavad, seega saab üldisemalt öelda, et \[P(A) + P(\bar A) = 1.\] Üksteist välistavate sündmuste puhul võib kasutada nn liitmisreeglit. Näiteks kui pakub huvi, kui suur on tõenäosus, et täringuviskega saadakse vähemalt 5 silma (st 5 silma või 6 silma), saab vastavate võimaluste tõenäosused lihtsalt kokku liita.


Näide 2.4 Kui kõik anatoomiaõpikud maailmas oleks eranditult punast värvi kaantega, siis sündmused \(\text{juhuslikult valitud raamat (tähistame: A) on anatoomiaõpik (täh: a)}\) ja \(\text{juhuslikult valitud raamatu kaaned on sinist värvi}\) (\(B=b\)) on üksteist välistavad.

Sõna “ja” (konjuktsioon) tähistatakse tihti \(\&\) või \(\cap\) sümboliga.

Väide 2.4 Üksteist välistavate sündmuste üheaegse toimumise tõenäosus on 0.

Niisiis saab selle näite puhul lühidalt öelda, et \(P(A=a \& B=b) = 0\).


Võtame teise näite: üks sündmus – järgmine patsient on mees (XY), ja teine sündmus – järgmine patsient on AB veregrupga. Kuna AB0-süsteemi veregruppi määrav geen on 9. kromosoomil, siis on veregrupp soost sõltumatu.

Seega \(\text{patsient on mees}\) (tähistame: \(X = \text{mees}\)) ja \(\text{patsient on AB veregrupiga}\) (tähistame: \(B = \text{'AB'}\)) on üksteisest sõltumatud sündmused.

Väide 2.5 Üksteisest sõltumatute sündmuste üheaegse toimumise tõenäosus on nende sündmuste tõenäosuste korrutis.

Niisiis, kui pakub huvi, kui suur on tõenäosus, et järgmine patsient, kes kabinetti siseneb, on AB veregrupiga mees, saame seda rehkendada, kui teame meeste osakaalu rahvastikus ning veregruppide jaotust rahvastikus. AB grupi verd on umbes 7,2% Eesti elanikest10 ning mehi 47,4%11. Seega \[P(A=\text{mees } \& B=\text{'AB'}) = 0,474 \times 0,072=0,0034\;\;\text{ehk 0,34}\%\]

Seega kui arstilkäimise sagedus ei sõltuks soost ega veregrupist, siis umbes iga 300 patsiendi kohta satuks visiidile 1 värvipime mees.


Sündmused \(\text{patsient on mees}\) ja \(\text{patsient on värvipime}\) on sõltuvad sündmused, sest värvipimedust määrav geen asub X-kromosoomil (kui räägime daltonismist). Sõltuvate sündmuste puhul nende tõenäosust niisama lihtsalt kokku korrutada ei tohi.


Võtame mõne juhusliku inimese. Kui suure tõenäosusega on ta SARS-CoV-2 positiivne? Mitte midagi enamat selle inimese kohta teades võiks oletada, et see tõenäosus on võrdne viiruse levimusega. Kui me aga teame lisaks, et inimesel on just tehtud vastav test, mis on osutunud positiivseks – siis on see tõenäosus ilmselt suurem.

Definitsioon 2.3 Tinglik tõenäosus on meid huvitava sündmuse toimumise tõenäosus teatud lisainfo korral.

Rääkides inimesel esinevate omaduste esinemise tinglikust tõenäosusest, mõtleme enamasti selle all tõenäosust teatud omaduste (soo, vanuse vm) poolt määratletud inimeste grupis.

Sündmuse \(A\) toimumise tõenäosust tingimusel \(B\) tähistatakse \(P(A | B)\):

\[P(\text{on värvipime } | \text{ on mees}) = 0,05\] \[P(\text{on värvipime } | \text{ on naine}) = 0,0025\]


  1. Chalmers A. What is this thing called science?. 4th edition. Indooroopilly: University of Queensland Press; 2013. Eesti keeles on ilmunud 2. trükk aastal 1998↩︎

  2. Galavotti MC. A Philosophical Introduction to Probability (Lecture Notes). Stanford: Centre for the Study of Language & Information; 2005↩︎

  3. https://plato.stanford.edu/entries/probability-interpret/↩︎

  4. Kahneman D. Thinking, Fast and Slow. New York: Farrar, Straus and Giroux; 2013↩︎

  5. Kahnemann D. Kiire ja aeglane mõtlemine. Tallinn: Tänapäev; 2017↩︎

  6. https://verekeskus.ee/verest/veregruppidest/↩︎

  7. https://www.stat.ee/et/avasta-statistikat/valdkonnad/rahvastik/rahvaarv↩︎