Süntaktiliselt märgendatud korpused

Sofie puudepank

Eesti keele süntaktiliselt märgendatud korpuste loomine algas juba 1995. aastal koos süntaksianalüsaatori arendamisega. Esimeste korpuste märgendus arvestas morfoloogia-analüsaatori väljundit, jälgis väga rangelt "Eesti keele grammatika" (Tallinn, 1993) põhimõtteid ja oli äärmiselt pindmine. Tekstideks olid ilukirjanduskorpusest 5 erineva autori tekstidest 2000-sõnalised passaazhid (tkt0085-tkt0090).

Hiljem muudeti nii morfoloogilist kui ka süntaktilist märgendust ja korpuste mahtu suurendati. Süntaktiline märgendus jäi ikkagi pindmiseks, s.t märgend näitab, mis on antud sõna funktsioon lauses, kuid ilmutatult ei öelda, millise sõna juurde miline sõna kuulub, samuti puudub pea- ja kõrvallausete analüüs.

Selle sajandi alguses alustati eesti keele puudepanga loomist. Puudepanka on püütud esitada mitmel kujul: Penni puudepanga eeskujul, VISL Arboretum formaadis, TIGER XML kujul ja puhtakujulise sõltuvussüntaksina.

Pindsüntaktiliselt märgendatud korpused

4. november 2011 | Author: Kaili Müürisep

Pindsüntaktiliselt märgendatud korpuste maht on hetkel ca 500000 sõna. Korpus koosneb eesti ilukirjanduse, tõlkekirjanduse, ajakirjanduse, seaduse ja suulise keele tekstidest. Osade tekstide märgendus on veel ühtlustamata.

Puudepank

4. november 2011 | Author: Kaili Müürisep

Eesti keele puudepangad on nii Penni, VISL Arboretum , TIGER XML kui ka tekstilises sõltuvussüntaksi formaadis. Hetkel on TIGER XML formaadis puudepangas ligikaudu 1400 lauset.

Viidatud korpused, puudepangad ja grammatikad on vabaks kasutamiseks. Siiski palume suurema projekti korral kasutamisest teada anda meiliaadressile kaili.muurisep@ut.ee.