Peatükk 7 Kõne märgendamine TextGrid-objektis

TextGrid on Praati failitüüp, mis joondab kõne transkriptsiooni ja märgendust helifaili ajateljega. Märgendada saab mitmel tasandil ja saab märkida intervalle (tekst on seotud mingi ajavahemikuga) või punkte (tekst on seotud ühe kindla ajahetkega). Nii saab helifailis märkida ära mingid olulised sündmused: kus on lausungite, sõnade, silpide või häälikute piirid, millal algab hääliku helilisus, millal räägib üks või teine kõneleja, ja palju muud.

Esmalt tuleb juttu sellest, kuidas TextGrid’i kasutada oma enda otsuste põhjal, kust häälikute, sõnade ja lausungite piirid jooksevad. Järgmistes peatükkides teeme tutvust ka autosegmenteerijaga, mis sõnade ja häälikute piirid automaatselt märgendab.

Kuna TextGrid-objekt tugineb ajateljega Sound-objektile, siis ava esmalt mõni helifail. Ava näiteks Read from file... käsuga POHJA_006-006_M.wav.27

Objektiaknas Sound-objekti dünaamiliste menüüde hulgas on menüüs Annotate käsk To TextGrid.... See käsk tekitab selle Sound-objektiga seotud TextGrid-objekti. Kõigepealt aga on vaja määrata, mitut tasandit ehk märgenduskihti (ingl tier) soovid kasutada. Seetõttu avaneb dialoogiaken, kus küsitakse märgenduskihtide nimesid (tier name). Iga tühikutega eraldatud sõna vastab ühele kihile. Teiseks küsitakse, millistele neist kihtidest märgitakse punktid (punktikihtide nimesid tuleb korrata alumisel väljal). Kui ei soovi punktikihte (point tier) teha, jäta see väli dialoogiaknas tühjaks.

Näiteks on vaikimisiväärtustena ette antud, et märgenduskihid on „John“, „Mary“ ja „bell“, millest kiht „bell“ on punktikiht, „John“ ja „Mary“ intervallikihid. Kui nüüd vajutad OK, tekib Objektiaknasse uus TextGrid-objekt, millel on sama nimi, mis Sound-objektil. Ava tekkinud TextGrid-objekti käsuga View & Edit alone, avaneb umbes selline aken nagu joonisel 7.1.

TextGridEditor’i vaade.

Joonis 7.1. TextGridEditor’i vaade.

Suure osa ekraanist võtab enda alla ka paremal pool IPA sümbolite tabel, mille kaudu on mugav IPA transkriptsiooni sümboleid sisestada, sest enamikku neist ei ole tavaklaviatuuril. Kui aga IPA transkriptsiooni parasjagu vaja ei ole, siis võtab see ilmaaegu ruumi ja selle saab ära koristada, kui vajutada tabeli kohal paremas nurgas roosa taustaga ristikesel. Kui IPA tabelit ei ole, saab selle roosale noolekujulisele nupule vajutades jälle esile tuua. Ilma IPA tabelita on ekraanil rohkem ruumi helilainele ja spektrogrammile, nii et esialgu paneme IPA tabeli kinni.

TextGridEditor’is on näha kolm märgenduskihti, millest esimese nimi on John, teise nimi Mary ja kolmanda nimi bell. Esimene kiht on hetkel aktiivne, seda näitab kollane taustavärv, punased kirjad ja punane osutav sõrm vasakul kihinumbri ees. Kui nüüd mingit teksti tippida, ilmub see kollase ala keskele. Ainult TextGrid-objektil üksinda ei ole aga suurt mõtet. Kasulikum on see koos Sound-objektiga, mille juurde see loodi. Seepärast pane see TextGridEditor’i aken kinni ja mine objektiaknasse.

Märgenduskihtide nimed ei pea olema tingimata „John“, „Mary“ ja „bell“ – see on ainult näide, kus on mõeldud, et on dialoog kahe inimese vahel ja kummagi kõneleja kõnevoorud on märgitud eraldi kihile, ning taustal heliseb vahel mingi kell, mille helisemise kohale on vaja tähelepanu pöörata.

Kustuta nüüd see TextGrid-objekt ära (käsuga Remove) ja tee uus, kus oleks kaks intervallikihti, millest ühte märgid sõnad ja sõnade piirid, teise häälikud ja häälikute piirid. Selleks vali menüüst Annotate käsk To TextGrid... ja dialoogiakna ülemisele väljale kirjuta sõnad „sõnad“ ja „häälikud“, alumine väli jäta tühjaks (vt joonis 7.2).

Uue TextGrid-objekti loomise dialoogiaken.

Joonis 7.2. Uue TextGrid-objekti loomise dialoogiaken.

Vali mõlemad objektid (Sound ja TextGrid): klõpsa hiirega ühe peal ja vea teise peale klahvi all hoides, või klõpsa ühe peal, vajuta alla [Ctrl]-klahv ja klõpsa teise peal, ja vajuta View & Edit. Nüüd avaneb TextGridEditor, mille ekraan on jagatud neljaks: helilaine, spektrogramm ja kaks märgenduskihti. Lisaks sellele on ekraani ülemises osas tekstikast, kus saab toimetada teksti, mis parajasti aktiivses intervallis on.

Aktiivse märgenduskihi juurde tuleb kihi numbri ette osutav sõrm ja vasakul-paremal muutuvad kirjad punaseks. Valitud intervall muutub kollaseks.

Valitud kihile saab intervallipiire või punkte märkida. Selleks pane kursor helilainel või spektrogrammil kuhugi kohta, kus arvad midagi märkimisväärset toimuvat, ning vajuta klaviatuuril klahvi Enter (või vali menüüst Boundary > Add on selected tier). Niimoodi tekib valitud kihile valitud kohta piir. Valesse kohta läinud piiri saad eemaldada, kui valid selle ning vajutad klaviatuuril [Alt]+[Backspace] või menüüst Boundary > Remove.

Piire saab märkida ka nii: pane kursor õigesse kohta (klõpsa hiirega kas helilainel või spektrogrammil). Kursori küljes on igal märgenduskihil üks mullike. Kui mullikese sees hiirega klõpsata, tekib selle koha peale piir. Kui tahad piiri mitmel tasandil täpselt samale kohale saada (näiteks sõnatasandil sõnaalguse piir peaks kattuma häälikutasandi sõna esimese hääliku alguse piiriga), klõpsa olemasoleva piiri peal ja klõpsa mullikesele kursori küljes teistel märgenduskihtidel. Kui mitmel tasandil on piirid sama koha peal, aga mitte päris kohakuti, võta hiirega piirist kinni ja vea teise märgenduskihi piiri peale ja lase lahti. Nüüd hüppab piir täpselt sama koha peale.

Piire saab märkida ka nii: pane kursor õigesse kohta (klõpsa helilainel või spektrogrammil) ning vajuta klahvikombinatsiooni Control ja kihi number. Näiteks [Ctrl] + [1] lisab piiri 1. märgenduskihile, [Ctrl] + [2] teisele jne. Lõpuks tuleb välja midagi sellist nagu joonisel 7.3.

TextGridEditor koos Sound-objektiga.

Joonis 7.3. TextGridEditor koos Sound-objektiga.

Menüüst Tier saab märgenduskihte lisada, paljundada, ümber nimetada ja kustutada. Märgenduskihtide arv ei ole piiratud. Ka ei ole piiratud ühel märgenduskihil olevate piiride arv ega ühe intervalli sisuks olevate tähemärkide arv.

Menüüs Boundary on käsk Move to nearist zero crossing, mis liigutab valitud piiri helilaine lähimasse nullpunkti. See on kasulik siis, kui helifailist märgendatud intervalle välja lõigata, et lõigatud helilõik ei algaks või lõppeks ebameeldiva klõpsatusega.

Menüüst TextGrid > TextGrid settings... saab muuta mõningaid ekraanivaate seadeid, nt märgistada rohelise taustaga kõik intervallid, mis sisaldavad mingit sümbolit, muuta teksti suurust jm.

NB! Praat ei salvesta ega varunda faile automaatselt. Et TextGrid-objekt ei läheks kaduma, kui Praat kinni panna, tuleb see enne salvestada. Seda saab teha kahest kohast: TextGridEditor’is menüüst File käsuga Save whole TextGrid as text file... (klahvikombinatsioon [Ctrl] + [S]) või Objektiaknas menüüst Save käsuga Save as text file.... Ka töö käigus pea meeles regulaarselt salvestada! Kui Praat või kogu arvuti mingil põhjusel kokku peaks jooksma (mida ikka vahel juhtub), kaotad kõik salvestamata töö! Samuti oleks mõistlik varunda TextGrid-faili aeg-ajalt kuhugi mälupulgale või võrgukettale.

Kõne märgendamise on soovitatav kasutada kvaliteetseid kõrvaklappe, kuna häälduse pisidetailide märkamiseks peaks täpselt ja palju kuulama.

7.1 TextGrid’i piiride märkimine ja liigutamine

  • Olemasolevaid piire saab nihutada kursoriga kinni võttes ja vasakut hiireklahvi all hoides edasi ja tagasi liigutades.
  • Piiri lisamiseks pane kursor soovitud kohale ja vajuta [Enter].
  • Olemasoleva piiri eemaldamiseks on käsk Boundary > Remove või klahvikombinatsioon [Alt] + [Backspace].

Kui ühel märgendamiskihil on piirid paigas ja (osaliselt) kattuvate piiridega segmendid on vaja märkida ka teisele kihile, siis saab ühelt kihilt teisele piire kopeerida. On kasulik tähele panna, et eri tasanditel olevad kattuvad piirid oleksid ka tegelikult täpselt kohakuti. Näiteks kui märgid ühele kihile sõnad ja teisele häälikud, siis sõna algus- ja lõpupiirid peaksid olema mõlemal kihil täpselt kohakuti.

  • Sõnatasandilt saad piirid kopeerida häälikutasandile nii, et valid kursoriga sõnatasandi segmendi (klõpsa segmendi keskele, tekst läheb punaseks ja taust kollaseks, punase katkendjoonega on üle spektrogrammi ja helilaine algus- ja lõpupiirid) ja vali menüüst Boundary > Add on tier 2.
  • Veel lihtsam on harjutada kätte klahvikombinatsioon [Ctrl] + [2].
  • Teine võimalus on aktiveerida kursoriga üks sõnatasandi piir ning vajutada selle alla häälikutasandil tekkiva mullikese peale.
  • Kolmas võimalus on lisada [Enter] klahviga piirid enam-vähem õige koha peale ja siis lohistada kursoriga kinni hoides häälikutasandi piir sõnatasandi piiri peale (või vastupidi, sõltuvalt sellest, kumb paremini paika sai).

Kui kahel tasandil on piirid kohakuti, aga tahaksid nende asukohta natuke korrigeerida, saad mõlemat piiri korraga liigutada, kui hoiad [Shift] klahvi all ja vead hiirega.

7.2 Erimärgid ja foneetiline transkriptsioon

Intervalli või punkti sisu võib olla mis tahes tekst. Märkida võib üksikuid häälikuid, sõnu, lausungeid või hoopis lisada kommentaare.

Tänapäeval toetab Praat Unicode’i sümboleid ja neid võib TextGrid’ile lisada näiteks eriklaviatuuri abil või kopeerida mõnest välisest allikast. Rahvusvahelise foneetilise transkriptsiooni (IPA) sümbolite sisestamiseks saab kasutada sisseehitatud tabelit, mille aktiveerimiseks on TextGridEditor’i parempoolses ülemises nurgas roosa nooleke ja sulgemiseks ristike.

Juhul, kui mingil põhjusel ei saa Unicode’i sümboleid kasutada ja peab piirduma ASCII sümbolitega, saab erisümboleid kodeerida Praati trigraafidena. Koodid algavad kõik tagurpidi kaldkriipsuga (backslash, eesti klaviatuuril [AltGr] + [+]).

  • Proovi näiteks, mida teeb kood \co või \|| või \SS.
  • Proovi TextGridile kirjutada tekst e\:fsti v\asp\asri\:fk.
  • Vaata lisaks Help > Phonetic symbols ja About special symbols.

IPA transkriptsioonist veel: et IPA sümbolid paremad välja näeksid, on mõistlik muretseda oma arvutisse Unicode’il põhinevad IPA fondid. Need (Charis SIL ja Doulos SIL) leiad Praati kodulehelt (www.praat.org) rubriigist Download Praat. Kui neid fonte pole installitud, aga tahta IPA sümboleid kasutada joonisel, näitab Praat neid ebaproportsionaalselt suurtena. Ka saab neid fonte kasutada Wordis jm programmides foneetilise transkriptsiooni märkimiseks. Kuigi tänapäeval põhineb enamik fonte Unicode’il ja foneetilised sümbolid on olemas nii Times New Romanis kui Arialis jpm tavalisemates fontides, on fondid Charis ja Doulos disainitud just IPA transkriptsiooni tarvis ja see on nendega paremini loetavad.

7.3 Teksti kodeering

Praat salvestab TextGrid-faili tekstifailina ja tekstifailide puhul on võimalik kasutada mitut erinevat kodeeringut. Praati vaikimisi seadistus on „proovi ASCII’d ja seejärel UTF-16“ ehk kui tekstis on kasutatud ainult ASCII sümboleid, siis salvestatakse ASCII kodeeringus, aga kui on mõni mitte-ASCII sümbol (nt täpitähed, IPA sümbolid vms), siis on kodeeringuks UTF-16.

See tähendab, et kui fail sisaldab eestikeelset teksti, siis on seal tõenäoselt mõni täpitäht ja faili kodeering UTF-16. See valik on selles mõttes väga hea, et UTF-16 kodeeringus on kõik täpitähesümbolid olemas, aga halb selle pärast, et mitte kõik muud programmid ei oska selle kodeeringuga tekstifaile lugeda.

Parema ühilduvuse nimel oleks parem kasutada UTF-8 kodeeringut, mis on palju levinum. Salvestuskodeeringu muutmiseks mine objektiaknasse, vali menüüst Praat > Preferences > Text writing preferences > UTF-8. Kuna TextGrid-failid on oma olemuselt tekstifailid, siis neid saab ka muude programmidega lugeda ja paljudes muudes programmides võib kodeering UTF-16 tekitada probleeme. UTF-8 kodeeringu eelis on ka see, et kui UTF-16 puhul on iga tähemärgi kodeerimiseks kasutusel 16 bitti, siis UTF-8 puhul poole vähem ehk 8 bitti, mis tähendab, et sama sisuga fail on UTF-8 kodeeringus kaks korda väiksem.

Kui oled TextGrid’il erisümbolite sisestamiseks kasutanud Praati trigraafe, siis need saad ka Unicode’i sümboliteks teisendada: Objektiaknas dünaamiline menüü Modify > Convert to Unicode või TextGridEditor’i menüü TextGrid > Convert entire TextGrid to backslash trigraphs.