Loomulike keelte arvutitöötluse formalismide ja efektiivsete algoritmide väljatöötamine ning eesti keelele rakendamine

Sihtfinantseeritav teadusteema SF0180078s08 (2008-2013)
Vastutav täitja: Mare Koit

Vt ka projektid.


Uurimisprobleemid

1. Leksikonitasandi keelemuutused

Eesmärk: keelde sisenevate uute sõnade ja paradigmat vahetavate sõnade äratundmise ja muuttüübi tuvastamise algoritmide väljatöötamine. Algoritmide väljatöötamine, mis eraldavad suurtes tekstimassiivides mitte-eestikeelsed osad, aga jätavad alles eesti keele mittestandardsed osad (nt ingliskeelsed spammikirjad postiloendites). Eesti keele automaattöötluse tarkvara parema toimetuleku tagamine (nende jaoks) tundmatute sõnadega.

Keel ja eriti keele leksikon on pidevas muutumises. Esiteks lisandub keelde pidevalt uusi sõnu, mida hakatakse mingil kindlal moel muutma. Need keelde tulevad uued sõnad tuleks lisada ka sõnastikesse ja leksikonidesse, kus lisaks sõna algvormile peaks olema registreeritud ka tema sõnaliik ja muuttüüp. Teiseks võivad keeles juba olemas olevad sõnad hakata muutuma uuel moel, st nad võivad vahetada muuttüüpi. Näiteks käänab enamik eesti keele kõnelejaid tänapäeval sõna pune sõna kõne eeskujul, st omastav pune ja osastav punet, kuigi ÕS 2006 järgi oleksid õiged vormid omastav puneme ja osastav punet. Püüame selliseid uusi või muuttüüpi vahetavaid sõnu ka automaatselt tuvastada. Kolmandaks võib ühe sõna muutevormide seast mõni vorm grammatiseerumise teel iseseisvuda ja muutuda omaette leksikaalseks üksuseks. Näiteks on verbi vaatama mata-vorm muutunud iseseisvaks kaassõnaks (nt võistlus toimus halvale ilmale vaatamata), mille tähendus pole enam seotud algse verbi tähendusega. Oletame, et selliseid grammatiseerunud või grammatiseerumas olevaid sõnavorme on võimalik tuvastada sagedushälvete abil. Nimelt on grammatilistel vormidel, nt käändsõna käändevormidel oma sagedushierarhia. Kui ühe käändsõna (nt alus) kindel muutevorm (nt ainsuse alalütleva vorm alusel) on selle sõna käändevormide hierarhias kõrgemal kohal kui alalütleva käände vormidele tüüpiliselt omane, siis on põhjust selle vormi funktsiooni ja lausedistributsiooni lähemalt uurida - äkki on tegemist grammatiseerumise teel tekkiva uue sõnaga.


2. Püsiühendid

Eesmärk: uurida püsiühendi rektsiooni ja argumendistruktuuri ning tema tuumaks oleva lihtverbi rektsiooni ja argumendistruktuuri seoseid ja suhteid. Selgitada rektsiooni automaatse tuvastamise võimalusi.

Püsiühendid on kahe või enama sõna(vormi) ühendid, mida on mingi tähenduse väljendamiseks tavaks koos kasutada; keelendid, mida inimese mälus arvatavasti, aga hea keeletehnoloogilise rakenduse leksikonis kindlasti talletatakse tervikuna. Sellised "pooltooted" on lingvistide ja arvutilingvistide huvi objektiks, sest moodustavad olulise osa nii keele mentaalsest leksikonist kui ka jooksvast tekstist. Arvutilingvistika uurimisrühmas on koostatud verbikesksete püsiühendite andmebaas ning katsetatud nende püsiühendite märgendamist tekstis. Tegeldakse püsiühendi tähenduse, rektsiooni ja argumendistruktuuri ning sellesama püsiühendi keskmeks oleva lihtverbi tähenduse, rektsiooni ja argumendistruktuuri seoste ja regulaarsete vastavuste uurimisega.


3. Lause süvasüntaktiline analüüs

Eesmärk: leida eestikeelse lause süvastruktuuri esitamiseks sobiv formalism ning efektiivsed meetodid nii morfoloogiliseks ühestamiseks kui ka üleminekuks siiani kasutatud kitsenduste grammatika lamestruktuurilt puukujulisele struktuurile. Kohandada morfoloogilise ühestamise reeglid suulise eesti keele korpuse automaatseks märgendamiseks. Mittesoravuste automaatne tuvastamine, et elimineerida grammatikareeglitele mittealluvad fraasid süntaktilisest analüüsist.
Vt eesti keele süntaksi ressursid ja vahendid.


4. Lause semantiline analüüs

Eesmärk: eesti keele lausete ja sidustekstide semantilise esituse konstrueerimiseks vajalike kontseptuaalsete ja formaalsete vahendite väljatöötamine.
Vt arvutisemantika.


5. Dialoogi modelleerimine ja inimestevaheline suhtlus

Eesmärk: luua dialoogi formaalne mudel, mis arvestaks nii inimestevahelise suhtluse üldisi reegleid kui ka eesti keele ja kultuuri omapära.
Vt suulise ja arvutisuhtluse labor.


6. Masintõlge

Eesmärk: rikka morfoloogia ja vaba sõnajärjega keele masintõlke-alaste erivajaduste selgitamine ning formalismide ja meetodite väljatöötamine edukaks masintõlkeks sellisest keelest ja sellisesse keelde.
Vt masintõlge.