Peatükk 7 Kõne märgendamine TextGrid objektis

TextGrid on Praati failitüüp, mis joondab kõne transkriptsiooni ja märgendust helifaili ajateljega. Märgendada saab mitmel tasandil ja saab märkida intervalle (tekst on seotud mingi ajavahemikuga) või punkte (tekst on seotud ühe kindla ajahektega). Nii saab helifailis märkida ära mingid olulised sündmused: kus on lausete, sõnade, silpide või häälikute piirid, millal algab hääliku helilisus, millal räägib üks või teine kõneleja, ja palju muud.

Esmalt tuleb juttu sellest, kuidas TextGridi kasutada oma enda otsuste põhjal, kust häälikute, sõnade ja lausete piirid jooksevad. Järgmistes peatükides teeme tutvust ka autosegmenteerijaga, mis sõnade ja häälikute piirid automaatselt märgendab.

Kuna TextGrid objekt tugineb ajateljega Sound objektile, siis ava esmalt mõni helifail. Ava näiteks Read from file... käsuga POHJA_006-006_M.wav.

Objektiaknas Sound objekti dünaamiliste menüüde hulgas on menüüs Annotate käsk To TextGrid.... See käsk tekitab selle Sound objektiga seotud TextGrid objekti. Kõigepealt aga on vaja määrata, mitut tasandit märgenduskihti (inglise keeles tier) soovid kasutada. Seetõttu avaneb dialoogiaken, kus küsitakse märgenduskihtide nimesid (inglise keeles tier name. Iga tühikutega eraldatud sõna vastab ühele kihile. Teiseks küsitakse, millistele neist kihtidest märgitakse punktid (punktikihtide nimesid tuleb korrata alumisel väljal). Kui ei soovi punktikihte (point tier) teha, jäta see väli dialoogiaknas tühjaks.

Näiteks on vaikimisiväärtustena ette antud, et märgenduskihid on “John”, “Mary” ja “bell”, millest kiht “bell” on punktikiht, “John” ja “Mary” intervallikihid. Kui nüüd vajutad OK, tekib objektiaknasse uus TextGrid objekt, millel on sama nimi, mis Sound objektil. Ava tekkinud TextGrid objekti käsuga View & Edit alone, avaneb umbes selline aken:

TextGrid Editori vaade.

Joonis 7.1: TextGrid Editori vaade.

Siin on kolm märgenduskihti, millest esimese nimi on John, teise nimi Mary ja kolmanda nimi bell. Esimene kiht on hetkel aktiivne, seda näitab kollane taustavärv, punased kirjad ja punane osutav sõrm vasakul kihinumbri ees. Kui nüüd mingit teksti tippida, ilmub see kollase ala keskele. Aga ainult TextGrid objektil iseenesest ei ole suurt mõtet. Kasulik on ta ainult koos mingi Sound objektiga. Seepärast pane see TextGridEditori aken kinni ja mine objektiaknasse.

Märgenduskihtide nimed ei pea olema tingimata “John”, “Mary” ja “bell”, see on ainult näide, kus on mõeldud, et on dialoog kahe inimese vahel ja kummagi kõneleja kõnevoorud on märgitud eraldi kihile, ning taustal heliseb vahel mingi kell, mille helisemise kohale on vaja tähelepanu pöörata.

Suure osa ekraanist võtab enda alla ka paremal pool IPA sümbolite tabel, mille kaudu on mugav IPA transkriptsiooni sümboleid sisestada, sest enamikku neist ei ole tavaklaviatuuril. Aga kui IPA transkriptsiooni parasjagu vaja ei ole, siis võtab see ilmaaegu ruumi ja selle saab ära koristada, kui vajutada tabeli kohal paremas nurgas roosa taustaga ristikesel. Kui IPA tabelit ei ole, saab selle roosale noolekujulisele nupule vajutades jälle esile tuua. Ilma IPA tabelita on ekraanil rohkem ruumi helilainele ja spektrogrammile, nii et esialgu paneme IPA tabeli kinni.

Ja nüüd kustuta see TextGrid objekt ära (käsuga Remove) ja tee uus, kus oleks kaks intervallikihti, kuhu ühte märgid sõnad ja sõnade piirid, teise häälikud ja häälikute piirid. Selleks vali menüüst Annotate käsk To TextGrid... ja dialoogiakna ülemisele väljale kirjuta sõnad „sõnad” ja „häälikud”, alumine väli jäta tühjaks:

Uue TextGridi loomise dialoogiaken.

Joonis 7.2: Uue TextGridi loomise dialoogiaken.

Vali mõlemad objektid (Sound ja TextGrid): klõpsa hiirega ühe peal ja vea teise peale klahvi all hoides, või klõpsa ühe peal, vajuta alla CTRL-klahv ja klõpsa teise peal, ja vajuta View & Edit. Nüüd avanes TextGridEditor, mille ekraan on jagatud neljaks: helilaine, spektrogramm ja kaks märgenduskihti. Lisaks sellele on ekraani ülemises osas tekstikast, kus saab toimetada teksti, mis parajasti aktiivses intervallis on.

Aktiivse märgenduskihi juurde tuleb kihi numbri ette osutav sõrm ja vasakul-paremal muutuvad kirjad punaseks. Valitud intervall muutub kollaseks.

Valitud kihile saab intervallipiire või punkte märkida. Selleks pane kursor helilainel või spektrogrammil kuhugi kohta, kus arvad midagi märkimisväärset toimuvat ning vajuta klaviatuuril klahvi Enter (või vali menüüst Boundary > Add on selected tier). Niimoodi tekib valitud kihile valitud kohta piir. Valesse kohta läinud piiri saad eemaldada, kui valid selle ning vajutad klaviatuuril [Alt]+[Backspace] või menüüst Boundary > Remove.

Lõpuks tuleb välja midagi sellist:

TextGrid ja Sound Editor.

Joonis 7.3: TextGrid ja Sound Editor.

Piire saab märkida ka nii: pane kursor õigesse kohta (klõpsa hiirega kas helilainel või spektrogrammil). Kursori küljes on igal märgenduskihil üks mullike. Kui mullikese sees hiirega klõpsata, tekib selle koha peale piir. Kui tahad piiri mitmel tasandil täpselt samale kohale saada (näiteks sõnatasandil sõnaalguse piir peaks kattuma häälikutasandi sõna esimese hääliku alguse piiriga), klõpsa olemasoleva piiri peal ja klõpsa mullikesele kursori küljes teistel märgenduskihtidel. Kui mitmel tasandil on piirid sama koha peal, aga mitte päris kohakuti, võta hiirega piirist kinni ja vea teise märgenduskihi piiri peale ja lase lahti. Nüüd hüppab piir täpselt sama koha peale.

Ja piire saab ka märkida nii: pane kursor õigesse kohta (klõpsa helilainel või spektrogrammil) ning vajuta klahvikombinatsiooni Control ja kihi number. Näiteks Crtl+1 lisab piiri 1. märgenduskihile, Ctrl+2 teisele jne.

Menüüst Tier saab märgenduskihte lisada, paljundada, ümber nimetada ja kustutada.

Märgenduskihtide arv ei ole piiratud. Ka ei ole piiratud ühel märgenduskihil olevate piiride arv ega ühe intervalli sisuks olevate tähemärkide arv.

Menüüs Boundary on käsk Move to nearist zero crossing, mis liigutab valitud piiri helilaine lähimasse nullpunkti. See on kasulik siis, kui helifailist märgendatud intervalle välja lõigata, et lõigatud helilõik ei algaks või lõppeks ebameeldiva klõpsatusega.

Menüüst TextGrid > TextGrid settings... saab muuta mõningaid ekraanivaate seadeid, nt märgistada rohelise taustaga kõik intervallid mis sisaldavad mingit sümbolit, muuta teksti suurust jm.

NB! Nagu kõik teisedki Praati objektid, ei salvestu TextGrid objektid ise. Et TextGrid objekt ei läheks kaduma, kui Praat kinni panna, tuleb enne salvestada. Seda saab teha kahest kohast: TextGridEditoris menüüst File käsuga Save whole TextGrid as text file... (klahvikombinatsioon Ctrl-S) või Objektiaknas menüüst Save käsuga Save as text file...

Kasuta kindlasti kvaliteetseid kõrvaklappe. Selleks, et häälduse pisidetaile kuulda, peaks täpselt ja palju kuulama.

SALVESTA! Praat ei salvesta automaatselt ise ühtegi faili ega tee varukoopiaid. Iga natukese aja tagant salvesta oma tehtud töö menüüst File käsuga Save whole TextGrid as text file..., või veel parem, harjuta omale sisse klahvikombinatsioon Ctrl+S. Kui Praat või kogu arvuti mingil põhjusel kokku peaks jooksma, kaotad kõik salvestamata töö! Samuti oleks mõistlik varunda aegajalt TextGrid faili kuhugi mälupulgale või võrgukettale.

7.2 TextGridi piiride märkimine ja liigutamine

  • Olemasolevaid piire saab nihutada kursoriga kinni võttes edasi ja tagasi.
  • Piiri lisamiseks pane kursor soovitud kohale ja vajuta Enter.
  • Olemasoleva piiri eemaldamiseks on käsk Boundary > Remove või klahvikombinatsioon Alt+Backspace.

Kui ühel märgendamiskihil piirid on paigas ja (osaliselt) kattuvate piiridega segmendid on vaja märkida ka teisele kihile, siis saab ühelt kihilt teisele piire kopeerida. On kasulik tähele panna, et eri tasanditel olevad kattuvad piirid oleksid ka tegelikult täpselt kohakuti. Näiteks kui märgid ühele kihile sõnad ja teisele häälikud, siis sõna algus- ja lõpupiirid peaksid olema mõlemal kihil täpselt kohakuti.

  • Sõnatasandilt saad piirid kopeerida häälikutasandile nii, et valid kursoriga sõnatasandi segmendi (klõpsa segmendi keskele, tekst läheb punaseks ja taust kollaseks, punase katkendjoonega on üle spektrogrammi ja helilaine algus- ja lõpupiirid) ja vali menüüst Boundary > Add on tier 2.
  • Veel lihtsam on harjutada kätte klahvikombinatsioon Ctrl+2.
  • Teine võimalus on aktiveerida kursoriga üks sõnatasandi piir ning vajutada selle alla häälikutasandil tekkiva mullikese peale.
  • Kolmas võimalus on lisada Enteriga piirid enam-vähem õige koha peale ja siis lohistada kursoriga kinni hoides häälikutasandi piir sõnatasandi piiri peale (või vastupidi, sõltuvalt sellest, kumb paremini paika sai).

Kui kahel tasandil on piirid kohakuti, aga tahaksid nende asukohta natuke korrigeerida, saad mõlemat piiri korraga liigutada, kui hoiad Shift-klahvi all ja vead hiirega.

7.3 Erimärgid ja foneetiline transkriptsioon

Intervalli või punkti sisu võib olla mis tahes tekst. Märkida võib üksikuid häälikuid, sõnu, lauseid või hoopis lisada kommentaare.

Tänapäeval toetab Praat Unicode’i sümboleid ja neid võib TextGridile lisada näiteks eriklaviatuuri abil või kopeerida mõnest välisest allikast. Rahvusvahelise foneetilise transkriptsiooni IPA sümbolite sisestamiseks kasutada sisseehitatud tabelit, mille aktiveerimiseks on TextGridEditori parempoolses ülemises nurgas roosa nooleke ja sulgemiseks ristike.

Juhul, kui mingil põhjusel ei saa Unicode’i sümboleid kasutada ja peab piirduma ASCII sümbolitega, saab erisümboleid tähistada Praati trigraafidena. Koodid algavad kõik tagurpidi kaldkriipsuga (backslash, eesti klaviatuuril AltGr +).

  • Proovi näiteks, mida teeb kood \co või \|| või \SS.
  • Proovi TextGridile kirjutada tekst e\:fsti v\asp\asri\:fk.
  • Vaata lisaks Help > Phonetic symbols ja About special symbols.

IPA transkriptsioonist veel: et IPA sümbolid paremad välja näeksid, on mõistlik muretseda oma arvutisse Unicode’il põhinevad IPA fondid. Need (Charis SIL ja Doulos SIL) leiad Praati kodulehelt (www.praat.org) rubriigist Download Praat. Kui neid fonte pole installeeritud, aga tahta IPA sümboleid kasutada joonisel, näitab Praat neid ebaproportsionaalselt suurtena. Ka saab neid fonte kasutada Wordis jm programmides foneetilise transkriptsiooni märkimiseks. Kuigi tänapäeval põhineb enamik fonte Unicode’il ja foneetilised sümbolid on olemas nii Times New Romanis kui Arialis jpm tavalisemates fontides, on fondid Charis ja Doulos disainitud just IPA transkripsiooni tarvis ja see on nendega paremini loetav.

7.4 Teksti kodeering

Praat salvestab TextGrid faili tekstifailina ja tekstifailide puhul on võimalik kasutada mitut erinevat kodeeringut. Praati vaikimisi seadistus on “ASCII või UTF-16” ehk kui tekstis on kasutatud ainult ASCII sümboleid, siis salvestatakse ASCII kodeeringus ja kui on mõni mitte-ASCII sümbol (nt täpitähed, IPA sümbolid vms), siis on kodeeringuks UTF-16.

See tähendab, et kui fail sisaldab eestikeelset teksti, siis on seal tõenäoselt mõni täpitäht ja faili kodeering UTF-16. See valik on selles mõttes väga hea, et UTF-16 on kõik täpitähesümbolid olemas, aga halb selle pärast, et mitte kõik muud programmid ei oska selle kodeeringuga tekstifaile lugeda.

Parema ühilduvuse nimel oleks parem kasutada UTF-8 kodeeringut, mis on palju levinum. Salvestuskodeeringu muutmiseks mine Objektiaknasse, vali menüüst Praat > Preferences > Text writing preferences > UTF-8. Kuna TextGrid failid on oma olemuselt tekstifailid, siis neid saab ka muude programmidega lugeda ja paljudes muudes programmides võib kodeering UTF-16 tekitada probleeme.

UTF-8 kodeeringu eelis on ka see, et kui UTF-16 puhul on iga tähemärgi kodeerimiseks kasutusel 16 bitti, siis UTF-8 puhul poole vähem ehk 8 bitti, mis tähendab, et sama sisuga fail on UTF-8 kodeeringus poole väiksem.

Kui oled TextGridil erisümbolite sisestamiseks kasutanud Praati trigraafe, siis need saad ka Unicode’i sümboliteks teisendada: Objektiaknas dünaamiline menüü Modify > Convert to Unicode või TextGridEditori menüü TextGrid > Convert entire TextGrid to backslash trigraphs