Pindsüntaktiliselt märgendatud eesti keele korpus


Korpus on ligi 500000-sõnaline, koosneb eesti ilukirjanduse, tõlkekirjanduse, ajakirjanduse, seaduse ja suulise keele tekstidest. Osade tekstide märgendus on veel ühtlustamta.


Dokumentatsioon märgenduse kohta:


Küsimused, kommentaarid, mõtted saatke

kaili ät ut.ee


Hetkel on kättesaadavad järgmised tekstid:

1. Ühtlustatud ilukirjanduskorpus.

2. Tõlkekorpus (G. Orwelli "1984").

3. Fragmendid suulise keele korpusest

4. H. Rätsepa lihtlausete korpus

5. murdekorpus

Nimekiri täieneb.