Eesti keele automaatse süntaktilise analüüsi grammatikad

muudetud 27.04.11

Eesti keele automaatseks süntaktiliseks analüüsiks kasutatakse vabavaralist VISL kitsenduste grammatika parserit, mis on välja töötatud Lõuna-Taani ülikoolis.

Automaatse analüüsi käigus toimub nii morfoloogiline ühestamine, pindmine süntaktiline analüüs kui ka sügavam sõltuvusanalüüs.

Eesti keele süntaksianalüsaator eeldab, et sisendtekst on morfoloogiliselt analüüsitud.

Grammatikate väljatöötamise käigus on kasutatud Filosofti morfoloogiaanalüsaatorit ja märgendatud korpuse tekste, mis on teisendatud sobivale kujule.

Sellel lehel toodud automaattöötluse grammatikad on binaarsel kujul ja vabad kõigile kasutamiseks. Mahukama projekti korral andke siiski teada, kes, kus ja miks neid kasutab kaili.muurisep(ät)ut.ee Samuti ootan küsimusi, ettepanekuid, kriitikat samale meiliaadressile.

1. Eeltöötlus

Kui kasutada veebis olevat morfoloogiaanalüsaatorit, on vaja tekst kõigepealt lausestada, teisendada morfoloogilised märgendid fs-kujult kym-kujule, lisada asesõnade liigitus ja kaassõnade ning verbide rektsioonid.

Veebiliidest kasutavad teisendusskriptid on mõeldud pigem üksikute lausete analüüsi katsetamiseks kui reaalseks tööks tekstidega. Vaja on muuta programmide asukoha rada failides estmorf.sh ja tolkija.pl (muutuja RADA shelli skriptis)

Kui teisendada morfoloogiliselt ühestatud korpuse faile, siis piisab asesõnaliikide ja kaassõna- ning verbirektsioonide lisamisest.

Kasutatud märgendid on kirjeldatud pindsüntaktiliselt analüüsitud korpuse lehel.

EstCG kujult VISLCG3 kujule teisendamine:

$RADA/estmorf.sh|$RADA/kms2cg3.pl|vislcg3 --grammar $GRAMMAR/trivial.rle| 
skript kms2cg3.pl ja teisenduse käigus tekkinud agrammatiliste mitmesuste eemaldamise reeglid.

Kõik skriptid ja grammatikafailid on allalaaditavad ühtse arhiveeritud failina

2. Morfoloogiline ühestamine

Morfoloogilise ühestamise reeglid töötas algselt välja Tiina Puolakainen oma doktoritöös (Tiina Puolakainen. Eesti keele arvutigrammatika: morfoloogiline ühestamine. Tartu, 2001, 138 p.) ning need olid mõeldud eesti keele kitsenduste grammatika parseri jaoks. Riikliku programmi "Eesti keele keeletehnoloogiline tugi (2006-2010)" projekti Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid käigus teisendas Kaili Müürisep need käsitsi VISL parseri jaoks sobivale kujule. Teisendus ei olnud alati üks-ühene.


3. Pindsüntaktiline analüüs

Pindsüntaktilise analüüsi reeglid on algselt välja töötatud doktoritöös K. Müürisep. Eesti keele arvutigrammatika: süntaks. Dissertationes Mathematicae Universitatis Tartuensis 22. Tartu 2000. ning sama projekti käigus teisendatud uuele kujule.


4. Sõltuvusanalüüs


5. Fraasistruktuurianalüüs

Pindsüntaktiliselt analüüsitud teksti üritati analüüsida ka fraasistruktuurigrammatikaga, kuid osutus, et VISL fraasistruktuurigrammatika formalismis on piisava katvusega eesti keele grammatikat väga raske kirjutada.