Eesti keele puudepank


Puudepangaks nimetatakse süntaktiliselt märgendatud tekstikorpust, milles teksti iga lause jaoks on leitud selle lause (puukujuline) struktuur.

Puud võivad olla märgendatud fraasistruktuuridena (nt inglise keele Penn Treebank), sõltuvusstruktuuridena (The Prague Dependency Treebank) või kombineeritult (saksa keele Tiger).


Olemasolevad puudepangad

  1. Penni puudepanga stiilis märgendatud Sofie Parallel Treebank (süntaktiliselt märgendatud 1. peatükk J. Gaarderi romaanist "Sofie maailm" rootsi, norra, taani, saksa, eesti ja islandi keeles).

  2. VISLi kuuluv kombineeritud märgendusega Arborest

Riikliku programmi "Eesti keele keeletehnoloogiline tugi (2006-2010)" projekti Süntaksianalüüsil põhinev keeletarkvara ning selle arendamiseks vajalikud keeleressursid käigus käsitsi loodud puudepangad on loodud VISL formaadis ja teisendatud siis TIGER XML formaati.

XML-formaadis puude vaatamiseks laadige alla TIGER Searchi lehelt programmid TigerRegistry ja TigerSearch, registreerige korpused TigerRegistry abil ning seejärel saab neid lehitseda ja päringuid esitada TigerSearchi abil.

Tagasiside: kaili.muurisep(ät)ut.ee

Viimati muudetud: 26.03.09

Uuendused 2010

Arboresti korpuse uus versioon (08.12.10, maht sama, märgendus parandatud): arborest.xml

Parseri väljundi stiilinäide(Ingnoreeri märgendeid!)