Pindsüntaktiliselt märgendatud korpused

Eesti keele süntaktiliselt märgendatud korpuste loomine algas juba 1995. aastal koos süntaksianalüsaatori arendamisega. Esimeste korpuste märgendus arvestas morfoloogia-analüsaatori väljundit, jälgis väga rangelt "Eesti keele grammatika" (Tallinn, 1993) põhimõtteid ja oli äärmiselt pindmine. Tekstideks olid ilukirjanduskorpusest 5 erineva autori tekstidest 2000-sõnalised passaazhid (tkt0085-tkt0090).

Hiljem muudeti nii morfoloogilist kui ka süntaktilist märgendust ja korpuste mahtu suurendati. Süntaktiline märgendus jäi ikkagi pindmiseks, s.t märgend näitab, mis on antud sõna funktsioon lauses, kuid ilmutatult ei öelda, millise sõna juurde miline sõna kuulub, samuti puudub pea- ja kõrvallausete analüüs.

Pindsüntaktiliselt märgendatud korpuste maht on hetkel ca 500000 sõna. Korpus koosneb eesti ilukirjanduse, tõlkekirjanduse, ajakirjanduse, seaduse ja suulise keele tekstidest. Osade tekstide märgendus on veel ühtlustamata.

Märgenduse dokumentatioon

4. november 2011 | Autor: Kaili Müürisep

Pindsüntaktiliselt märgendatud korpused

4. november 2011 | Autor: Kaili Müürisep

Hetkel on kättesaadavad järgmised tekstid:

1. Ühtlustatud ilukirjanduskorpus.

2. Tõlkekorpus (G. Orwelli "1984").

3. Fragmendid suulise keele korpusest

4. H. Rätsepa lihtlausete korpus

5. murdekorpus

Nimekiri täieneb.

Viidatud korpused, puudepangad ja grammatikad on vabaks kasutamiseks. Siiski palume suurema projekti korral kasutamisest teada anda meiliaadressile kaili.muurisep@ut.ee.