Puudepank

Selle sajandi alguses alustati eesti keele puudepanga loomist. Puudepanka on püütud esitada mitmel kujul: Penni puudepanga eeskujul, VISL Arboretum formaadis, TIGER XML kujul ja puhtakujulise sõltuvussüntaksina.

Hetkel käib töö sõltuvusesituses teksti märgendamisel.

Penni puudepanga kuju

4. november 2011 | Autor: Kaili Müürisep

Sofie Penni puudepank

2003-2004. a osales Tartu Ülikool Põhjamaade puudepanga võrgustiku töös. Selle käigus loodi Penni puudepanga stiilis märgendatud Sofie Parallel Treebank (süntaktiliselt märgendatud 1. peatükk J. Gaarderi romaanist "Sofie maailm" rootsi, norra, taani, saksa, eesti ja islandi keeles).

Märgendustööd tegid Heli Uibo ja Kadri Muischnek.

Arborest

4. november 2011 | Autor: Kaili Müürisep

Arborest

Arborest on VISL-formaadis eesti keele puudepank. See ühendab endast fraasistruktuuri- ja sõltuvussüntaksit. Korpus koosneb 149 käsitsi märgendatud lausest ja umbes 2000 automaatselt genereeritud puust, mille korrektsus jääb alla 50%. Töö käigust saab ülevaate artiklitest:

Eesti TIGER XML kujul olevad korpused

4. november 2011 | Autor: Kaili Müürisep

TIGER XML

Riikliku programmi "Eesti keele keeletehnoloogiline tugi (2006-2010)" projekti Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid käigus käsitsi loodud puudepangad on loodud VISL formaadis ja teisendatud siis TIGER XML formaati. Puudepank on saadud pindmiselt märgendatud korpusest, sellele on rakendatud fraasistruktuurianalüsaatorit, seejärel on puid käsitsi parandatud ja teisendatud xml-formaati.

Puudepank sisaldab:

XML-formaadis puude vaatamiseks laadige alla TIGER Searchi lehelt programmid TigerRegistry ja TigerSearch, registreerige korpused TigerRegistry abil ning seejärel saab neid lehitseda ja päringuid esitada TigerSearchi abil.

Teksti kujul sõltuvussüntaks

4. november 2011 | Autor: Kaili Müürisep

Tekstiline sõltuvussüntaks

Projektis Vahendid teksti mitmekihiliseks märgendamiseks (rakendatuna Koondkorpusele) märgendatakse tekstid süvasüntaksi analüsaatoriga automaatselt ning seejärel parandatakse need käsitsi.

Hetkel on plaanis märgendada G. Orwelli "1984" ja osa J. Gaarderi romaanist "Sofie maailm", et oleks võimalik nende tekstide baasil luua paralleelset puudepanka.

Morfoloogiline ja süntaktiline märgendus on peaaegu sama kui pindsüntaktilisel korpusel. Kõik #-ga algavad rektsioonimärgendid on asetatud nurksulgudesse (näiteks <Intr> intransitiivsete verbide jaoks). Muutunud on "+" ja "-" märke ning alakriipse sisaldanud süntaktilised märgendid, vt märgendite dokumentatsioon. Sõltuvusseosed esitatakse kujul #jrk_nr->ülemuse_jrk_nr. Pealause finiitne verb on puu juurtipuks ja viitab 0-le.

Viidatud korpused, puudepangad ja grammatikad on vabaks kasutamiseks. Siiski palume suurema projekti korral kasutamisest teada anda meiliaadressile kaili.muurisep@ut.ee.