Bakalaureuse- ja magistritööde teemasid

Viimati muudetud 16.10.2014


Teema valikuks palun saatke e-kiri juhendajale.

Keeletehnoloogial on mitmeid silmapaistvaid rakendusi, nagu masintõlge ühest keelest teise, elektroonilisest tekstist kõne sünteesimine (näiteks e-kirjade või ajalehtede ettelugemine, kui silmad on muu tegevusega hõivatud, või teksti ettelugemine pimedatele); vastupidine rakendus - kõnest elektroonilise teksti moodustamine, mida kasutatakse automaatses diktofonis (näiteks autoga koosolekule sõites loete oma eelseisva kõne diktofoni ja saate selle salvestada elektroonilise tekstina, mida hiljem on võimalik töödelda mingi tekstitoimetiga).
Eesti keele jaoks on mõned ülesanded lahendatud (näiteks suudab arvuti sünteesida üsnagi talutavat eestikeelset kõnet), paljud aga lahendamata (näiteks masintõlge eesti keelest ja eesti keelde).
Keeletehnoloogiaga tegeleb Tartu ülikoolis mitteformaalne üksus -
arvutilingvistika uurimisrühm, kuhu kuuluvad ühelt poolt arvutiteaduse instituudi töötajad (s.t matemaatikud-informaatikud) ning teiselt poolt filosoofiateaduskonna eesti ja üldkeeleteaduse instituudi töötajad (keeleteadlased-arvutilingvistid). Me tegeleme eeskätt eesti keele automaattöötluse probleemidega.
Teemasid pakuvad nii arvutiteaduse instituudi kui ka eesti ja üldkeeleteaduse instituudi õppejõud ja teadurid.

 

1. Juhendajad arvutiteaduse instituudist (MTAT)

 

Mark Fišel phishel ätt gmail.com (praegu veel Zürichis)

----------

Teema #1: Osavõtt statistlise masintõlke võistlusest

----------

 

Tase: pädev üksik bakalaureuse- või magistritöö / tiim kahest-kolmest inimesest, kus igaüks teeb bakalaureuse- või magistritööd sarnasel teemal aga keskendudes erinevate aspektide peale.

 

Masintõlge tegeleb tõlkimisega loomulike keelte vahel. Statististiline masintõlge on selle alamliik, kus tõlketeadmisi (sõna- ja fraasisõnastiku kirjeid, ümberpaigutamise reegleid, ja muid parameetreid) arvutatakse automaatselt suure tõlkenäidete hulga peal -- sellise lähenemise peal on ehitatud Google Translate, Bing Translator ning üldiselt suur hulk kaasaegseid tõlkesüsteeme. Suurt hulga tõlkenäiteid nimetatakse treenimiskorpuseks.

 

Et võrrelda erinevaid mudeleid ja lähenemisviise statistilisele masintõlkele, korraldatakse järgmisel 2015. aastal juba 10. korda statistilise masintõlke võistlust -- the WMT Shared Task on Machine Translation. Osalejatele antakse ühte ja sama treenimiskorpust, ning lõpuks hinnatakse süsteemi väljundi tõlkekvaliteeti eraldi tehtud test-korpuse peal, millest osalejad saavad alguses ainult sisend-osa. Võrdlemiseks vt. eelmiste aastate üritusi: http://statmt.org/wmt13/http://statmt.org/wmt14/

 

Osavõtt võistlusest ja antud teemal töö kirjutamine tähendaks:

- tavalise statistilise masintõlge tehnoloogiast aru saamine

- baassüsteemide loomine tõlkimiseks võistluses antud keeltepaaride jaoks

- tõlkesüsteemile muutuste kavandamine ja rakendamine. Muutused peaksid olema keelepaaridest sõltumatud -- nii on nii lihtsam kui ka lõbusam ja üldisemini rakendatavam.

 

Enamik tarkvarast baassüsteemi loomiseks on olemas; nõutud oleks pigem skriptide kirjutamine ning terve protsessi käima saamine.

 

Ajakava antakse hiljem korraldajate poolt, aga orienteeruvalt saab treeningandmeid kätte detsembris 2014 - jaanuaris 2015. Test-hulka avaldatakse reeglina märtsis. Pärast saab rahulikult baka-/magistritööd kirjutada.

 

----------

Teema #2: Eesti <-> Inglise masintõlke parandamine

----------

 

Katsetage TÜ ATI tõlkemootorit aadressil http://masintolge.ut.ee/. Kindlasti on sellel puudusi -- kas mingi korrapärasus jääb silma? Näiteks:

- liitsõnu tõlgitakse valesti

- valdkonna-spetsiifilisi fraase tõlgitakse valesti

- väljundi sõnade ja/või fraaside järjekord on vale

- süsteem on AEGLANE

- jne.

 

Antud baka-/magistritöö eesmärk on valida selle tõlkesüsteemi ühte puudujääki ning parandada selle. Puudujääk võib olla seotud nii tõlkekvaliteediga kui ka effektiivsusega.

 

Seega teema on sarnane esimesega, aga ajakava ei ole nii range ning tegu on eesti-inglise keelepaariga. 

 

Töö sisaldab:

- tavalise statistilise masintõlge tehnoloogiast aru saamine

- kerget tõlkeväljundi veaanalüüsi ning mõne korrapärase puudujääki parandamine

 

Tarkvara tõlkesüsteemi loomiseks on olemas, ning tõlkekvaliteedi puhul oleks tõenäoliselt nõutud pigem skriptide kirjutamine ning terve protsessi tööle saamine. Teisest küljest, effektiivsuse parandamise puhul oleks töö rohkem tehniline, ning nõuaks C++ ja linux'i üldist kogemust.

 

Töö tase: olenevalt parandatavast puudujäägist võib saada nii baka- kui magistritööd

----------------------------------------------------------------------------------

Päivi Kristiina Jokinen (Helsingi ülikool, Tartu Ülikooli külalisprofessor)
kjokinen at ut.ee
(Juhendab kas inglise või soome keeles.)

Seotud projekt (vt Eesti Teaduse Infosüsteem ETIS):
ETF8958 Multimodaalne suhtlus - videoandmete kogumise, analüüsi ja kasutamise kultuuridevahelised ja tehnoloogilised aspektid.

Thesis topics

All work related to the MINT project and the collected video corpus will be used as the data source. The method consists of analysis and model building, using either an automatic analysis engine or hands-on annotations, and producing rule-based or machine-learning models which have potentials for integration on an intelligent agent. On Bachelor level, the thesis will mostly focus on background reading and a small experiment / implementation, while on Master's level, the thesis should contain more substantial part of one's own contribution either as analysis or programming.

1. Face-tracking in video conversations: Improve an exisiting one and compare results with human annotations

2. Hand-tracking in video conversations: Implement one and compare results with human annotations

3. Gesture and speech correlations: Study time alignment between speech spurts and hand/head gestures

4. Visual speech and understanding: Study the use of facial expressions to enhance spoken meaning

5. Visual interaction managment: Study the use of hand or head gestures in managing turn-taking

6. Emotion and activity state in conversational interactions: Study recognition of the speakers' activity state/emotions in conversations

7. Automatic activity measures for conversational engagement: Explore how to automatically extract information from video conversations and evaluate how involved the partners are

8. Evaluation of interaction engagement: Study different measures to assess how successful the interaction is between the speakers, compare to self-evaluation

9. Information representation and presentation: Study representation formalisms for linguistic and multimodal information (e.g. EMMA)

10. Architectures and methods for multimodal interaction

Please come to talk to me about various possibilities to use the data for experimentation on bio-cognitive methods to explore synchrony  between the speakers

Kaili Müürisep kaili.muurisep at ut.ee
http://math.ut.ee/~kaili/

Krista Liin krista.liin at ut.ee

Arvutisüntaks

1. Lausepiiride tuvastamine

Jagada automaatselt tekst lauseteks – sisendiks võib olla kõnetuvastaja väljund, veebikorpus (kus ehk ei ole soovitud/viitsitud piire kirjakeele reeglite kohaselt väljendada), õppijatekst (kus ehk ei ole osatud piire seada) jne

2. Võimalus rakendada statistilisi meetodeid või näiteks kasutada statistilisi andmeid edasise analüüsi (morfoloogia -, süntaksi- jne moodulid) ühe osana.

3. Kvantorfraasi analüüs EstCG-s (eesti keele kitsenduste grammatikas), sobib sügavama keele ja keeleteaduse huviga üliõpilasele

EstCG kohta vt http://math.ut.ee/~kaili/thesis/

4. Ühestada EstCG-s käänded nom-gen-part-adit – mis seni morfoloogilises ühestajas mitmeseks jäävad. Ehk teisisõnu: koostada reeglistik otsustamaks, kas sõna kana lausetes Mul on üks kana, Isa tappis kana, Värvisin kana kollaseks on nimetavas, omastavas või osastavas käändes.

5. Nimega üksuste tuvastamise (named entity recognition) moodul EstCG-s

6. Anafooride lahendamise moodul EstCG-s. Anafoor on (tavaliselt asesõnaline) viide millelegi, mida (selles või mõnes eelnevas) lauses varem on mainitud. Näiteks lausetes Mari ostis ajalehe. Ta/see maksis 10 krooni – on vaja otsustada, millele viitab ta/see.

Näide 2: vastaspooli esindavaid poliitikuid käsitlevas ajaleheartiklis on vaja otsustada, kellele viitab „ta “.

7. Sisukokkuvõtja edasiarendamine On olemas EstSum (http://math.ut.ee/~kaili/estsum/2009/estsumframe.cgi) mis kasutab väga lihtsaid meetodeid ja töötab (sisuliselt) vaid Postimehe artiklitel. Võimalikud tegevusliinid:

- üldistada EstSumi sisendformaati, et olemasolevat kokkuvõtjat saaks rakendada ka teistele tekstidele

- rakendada keerulisemaid meetodeid sisukokkuvõtete tegemiseks – nt osalausete väljajätmist, teksti

sidususe huvides anafooride kontroll ja vajadusel ümbersõnastamine jne

8. Koostada ülevaade vabavaralistest grammatikakorrektori realiseerimise formaatidest (nt OpenOffice’isse integreerimiseks) – mis võimalused neis on, mis kujul reegleid neisse lisada saab jne

9. Keeleõppeprogrammid - edutainment

On olemas enam-vähem hea ideega, kuid mitte kõige parema ja aegunud teostusega VISL programmist pärit mängud (http://beta.visl.sdu.dk/games_gym.html). Tuleks paremini teha - luua eesti keele õppeks eri tasemel atraktiivseid ja kasulikke õpiprogramme. Koolitunni vaatepunktist oleks hea, kui programmi sisendi saaks õpetaja ette anda ja väljundit talle saata (veebis või ekspordina).

Näiteks: Algklassidele – tähestiku õppimiseks, täishäälikute-kaashäälikute vahel vahe tegemine, õigekiri (nt. 'kärbse’ ja ’kärpse’ vahel õige valimine)

Erinevaid võimalusi – ideede alguseks:

- tahvli applet, veebiprogramm, facebooki mäng, ...

- emakeeletunnid, eesti keele õpe venekeelsetele, inglisekeelsetele kasutajatel

- erinevad õppetasemed – eelkooliealisest keskkooli

-kasutada ära vanu tuntud mänge : poomismäng, flash cards, ....

- keskenduda mänguidee (sh filoloogilise/pedagoogilise põhja) või programmeerimise aspektile

- töö võib sisaldada ka inimkatseid õpilastel

Heiki-Jaan Kaalep heiki-jaan.kaalep at ut.ee
http://www.cl.ut.ee/inimesed/hkaalep/

Bakalaureusetöö teemad:
1. Emotikonide tuvastamine tekstis: Emotikon on kirjavahemärkidest ja tähtedest moodustatud pilditaoline üksus. Näiteks :) ja :D
Netikeeles on emotikonid väga tavalised. Teksti elementidena on nad sama tähtsad kui tavalised sõnad ja kirjavahemärgid. Et teksti adekvaatselt töödelda, oleks vaja emotikonid tuvastada. Probleemiks on esiteks see, et emotikonid võivad olla väga erineva kujuga (s.t. ei saa ette anda lõplikku emotikonide loendit) ja teiseks see, et emotikonid ei pruugi olla muust tekstist tühikute abil eraldatud, mistõttu osutub keeruliseks emotikoni koosseisu kuuluva märgi eristamine üheltpoolt kirjavahemärgist ja teiselt poolt sõnasse kuuluvast tähest. Näiteks: tsau mammu;)mis teed? vs. (sini)tihane
Tavaline emotikonide tuvastamisviis kasutab regulaaravaldisi (nt.
http://sentiment.christopherpotts.net/code-data/happyfuntokenizing.py, https://github.com/zahanm/emote-cat/blob/master/scripts/emoticons.py).
Ülesanne on kirjutada parem tuvastaja kui need ülalviidatud.
Testmaterjaliks on eestikeelsed netikeele korpused (kokku u. 20 miljonit sõna), milles on kokku u 500 erinevat emotikonitüüpi.

2. Anagrammide genereerija eesti keele jaoks: Sõna või väljendi anagramm on teine sõna või väljend, mis koosneb samadest tähtedest, millest algne. Hulk näiteid on siin: http://www.physic.ut.ee/~larry/jamad/anagramm.html
Ingliskeelne lähtepunkt on siin (inimkeskne lähenemine):
http://www.anagrammy.com/anagrams/index.html
Anagrammide leidmiseks kasutatakse tavaliselt sõnastikku, selle indekseerimiseks D. Knuthi algoritmi. Eesti keele spetsiifika (käänamine, sõnatuletus) tingib vajaduse pöörata sõnastikule rohkem või teistsugust tähelepanu kui inglise keele puhul.
Töö tulemuseks peaks olema avalikult kasutatav veebikülg.

Magistritööde teemad

1. Teksti ortograafilise esitusviisi automaatne tuvastamine: Teksti võib ortograafiliselt esitada mitmel eri viisil. Lõike võib eristada taandrea abil, aga ka tühja reaga; lauseid võib eristada alguses olev suurtäht ja lõpus olev punkt, aga võib teha ka nii, et iga lause on omaette real ja suurtähti ei kasutatagi. Ka täpitähti võib esitada mitmel eri moel.

Tavaliselt järgib üks autor oma tekstis üht esitusviisi. Teksti töötlemiseks oleks hea teada, millist ortograafiat autor kasutab. Kui autor ei kasuta suurtähti, siis nimede tuvastamiseks tuleb kasutada mingit muud võtet kui suure algustähe kontroll; kui autor ei kasuta täpitähti, siis oleks hea teada, kuidas ta ä-d ja õ-d sisaldavaid sõnu kirjutab.

Eesmärgiks on luua programm, mis tuvastaks ortograafilised konventsioonid, millele tekst vastab: kuidas eristatakse lõike ja lauseid; kuidas kasutatakse kirjavahemärke ja tühikuid; kas ja kuidas kasutatakse suurtähti; kas ja kuidas kasutatakse täpitähti; kas ja kuidas kasutatakse emotikone; kas ja kuidas kasutatakse tähekordusi millegi rõhutamiseks.

Inimesele, kes keelt oskab, on ortograafia mõistmine triviaalne, kuid arvutil puudub keeleoskus... Formaalselt on tegemist klassifitseerimisülesandega, kusjuures parimad tunnused ja statistiline meetod tuleb alles valida.

2. Kas ja kuidas on netikeel muutunud?

Sellele küsimusele saab igal juhul vastata „mingis mõttes on, ja mingis mõttes pole muutunud“. Tahaks veidi huvitavamat vastust.

Tegelikult on see teema seotud ka sellega, et kui homogeenne netikeel üldse on: kas kõikumised, mida me näeme, on osa mingist suundumusest, või ongi nad lihtsalt kõikumised?

Esimeseks tuleb siis rõhutada, et netikeel on ise halb termin: keel, mis liigub netis... E-mailides on nii kirju sõpradele kui ametlikke dokumente. Samas, me tunneme kohe ära, kui mingi lause või lõik on netikeeles. Kuidas? Esiteks metagraafika (suurtähe puudumine; emotikon, ...), teiseks täheortograafia (x, c ks ja ts asemel, tähekordused), kolmandaks erilised sõnad ja lühendid (tegelt, irw, lol); veel mingid tunnused? Nii et on midagi, mille järgi me tunneme ära, et see on netikeel.

Minu küsimus ongi õigupoolest: kas selles äratuntavas netikeeles on midagi muutunud-muutumas? Näiteks mõned lühendid kadumas ja teised asemele tulemas? Näiteks irw ja icc kadumas (kadunud?) ja lol nende asemel? (Nad on minu meelest sünonüümid.) Muutused metagraafias? Täheortograafias?

Ma oletan, et seda saaks uurida sel moel, et teha eri perioodide korpustest sagedusloendid ja neid omavahel võrrelda. Ma loodan, et sagedusloendi tegemine ei ole Teile ületamatult raske? Nimelt tuleb neid teha kohe palju: niikui tekib mingi mõte, et mida vaadata-võrrelda, tuleb kohe teha paar sagedusloendit ja neile otsa vaadata. S.t. sagedusloendi tegemine on midagi sama rutiinset nagu tekstile peale vaatamine.

Tiit Hennoste avaldas hiljuti Sirbis ühe artikli: kuule ma eemale nüüd
http://www.sirp.ee/index.php?2-05-17-05-50&catid=9:
Selles on terve hulk väiteid ja arvamusi, millest nii mõnigi ei pruugi tõene olla. Aga on hea, et need asjad on sõnastatud, saab millegi üle vaielda. Näiteks väide, et interneti-keel muutub väga kiiresti; sellega seoses tekib küsimus, et mis asi õigupoolest muutub (kui üldse): kui ilmub uus netis käimise tarkvara, nt. eesti tähelaotusega klaviatuurid, utf-8 toega linux,
MS Outlook, mis automaatselt parandab kirjavigu ja muudab sõnu suurtäheliseks, siis võib ju näida, et keelekasutus on muutunud, aga tegelikult on muutunud ainult tarkvara. Või et saame tagantjärele aru, et varasemad muutused polnudki seotud keelega, vaid lihtsalt tarkvaraga.

3. Netikeele metagraafiareeglid (kirja- ja vahemärgistusreeglid):

Eesti standard-kirjakeelt iseloomustab selgelt normitud kirja- ja vahemärkide kasutus. Kirjutatud neti-keele puhul näeme aga, et seda normkasutust ei järgita kaugeltki alati. Kõrvalekalded võivad olla tingitud lohakusest ja kiirustamisest, aga võivad olla ka sihilikud. Näiteks võib sõna alguse täht olla kirjutatud väikesena kogemata, aga võib ka olla, et kirjutaja jätab teadlikult kõik suurtähed kasutamata; võib olla, et lauselõpu punkti järele ununeb tühik löömata, aga võib ka olla, et lausevaheks kasutataksegi kaht punkti, ilma neid sõnadest tühikute abil eraldamata. Ehk teiste sõnadega, neti-keeles võib kohata kirja- ja vahemärgistustavasid, mis erinevad kirjakeele vastavast tavast, moodustades seejuures omaette süsteemi.

See ei ole imekspandav, sest teksti ülesmärkimise tavad ongi aja jooksul muutunud; isegi sõnavahe tähistamine pole olnud alati tavaks.

Neti-keele puhul on huvitav, et teksti ülesmärkimise tavad on ise-enesest tekkinud („spontaanne ortograafia“): neid ei ole kujundanud toimetajad, vaid kasutajate enda loomingulisus ja tagasiside.

Teema pakub huvi ka eesti keele automaattöötlemise aspektist. Normeeritud kirjakeele töötlemisel võib eeldada teatud tavasid, nt. et nimi algab suure tähega, ja selle tava poolt pakutavat informatsiooni saab ära kasutada. Kui programm teab, et teatud juhtudel algab nimi väikese tähega, ja et käesolev tekst kuulub selliste hulka, siis võib ta oma käitumist vastavalt olukorrale kohandada; aga selleks peaks ta teadma, millised üldse on võimalikud „olukorrad“.

Võimalikud alateemad/alamosad:

1. Kirja- ja vahemärgistusreeglite ajalugu; funktsionaalne tingitus (milleks üldse vaja?); tehniline võimalus (trükkimine, arvutid); rahvusvaheline levik e. laenamine; kohalikud omapärad (nt. jutumärkide kuju).---- see osa on tehtud, Kristiina Toots „Netikeele metagraafia“, bakatöö 2013 http://www.murre.ut.ee/arhiiv/naita.php?t=kasikiri&id=5736

2.Eesti neti-keele kirja- ja vahemärgistusreeglite süsteemid: mille poolest nad üksteisest erinevad; levik; sarnasus inglis- vm keelsetega.

Allikmaterjal pärineb eesti interneti-keele korpustest.

Kirjandus (peale wikipedia): Vt K. Tootsi bakatööd

Järgnevaid teemasid ühendab üks meetod: kasutada tekstikorpuste peal tehtavat statistikat, s.h. üldistatud kategooriate (nt. moodustusmalli, häälikulise malli, sõnaliigi vms.) tekstisageduse ja sõnastikusageduse erinevust, et vastata lingvistilistele küsimustele. Küsimus võiks olla nt. selle kohta, et millistel tingimustel kasutatakse teatud väljendusviisi (liitmisviisi, tuletusviisi) või millised tingimused välistavad mingi väljendusviisi.

4. Liitsõnad: Liitsõnamoodustus on eesti keeles vaba ja produktiivne; aga esineb muidugi ka leksikaliseerunud liitsõnu (eriti vana näide: maantee). Magistritöö peaks vastama küsimusele, millised on liitsõnade moodustamise produktiivsed mallid, kas on mingeid selgeid või kergesti leitavaid sõnagruppe, mis osalevad/ei osale liitsõnamoodustuses? Oluline on siinkohal produktiivsuse mõiste ja produktiivsuse käsitlemine mõõdetava nähtusena, guugeldaBaayen productivity

5. Tuletised: Tuletamine on eesti keeles vaba ja produktiivne; aga esineb ka tuletisi, mis on juba leksikaliseerunud (nt. maastik). Millised on tuletiste moodustamise produktiivsed mallid, nt. kas s-i lisamine (vaatajaskond) on produktiivne või mitte? Millised on tingimused, mis määravad valiku samatähenduslike tuletusviiside vahel, nt. –nna ja –tar liite puhul (fännitar, kolhoositar, ehitajanna) või välistavad tuletamise üldse, nt. mootorrattur – mootorrattutar? mootorratturinna? naismootorrattur?

Tegelikus tekstis luuakse tuletisi väga loovalt, nt linnaplane – Peeter Linnapi järgija. Paneme tähele, et linnaplane on mõistetav ainult juhul, kui Linnap on lugejal teadvuses olemas, nt. sellest, et sõna on lähedases kontekstis varem esinenud. Kas õnnestub luua algoritm, mis oskab öelda, millest linnaplase-taoline uus sõna on loodud?

6. Rahvusarhiivi säilikute pealkirjade/kirjelduste kvaliteedi automaatne analüüsimine erinevate võtete ja algoritmide abil: pealkirja keele tuvastamine ja  võimalike kirjavigade leidmine.

Juhised töö tegemiseks: Keele tuvastamiseks on soovitatav lähtuda algoritmist, mis on kirjeldatud A. Paju bakalaureusetöös (http://dspace.utlib.ee/dspace/handle/10062/32848). Kirjavigade leidmisel tuleks kasutada eesti keele morfoloogilist analüsaatorit (https://github.com/Filosoft/vabamorf), mille järel peaks haruldasemaid tähejadasid (kirjavigu maksab otsida eelkõige nende seast) filtreerima ja grupeerima, et eristada oletatavaid vigu lihtsalt haruldastest sõnadest.

7. Pealkirjadest nimeüksuste (named entity) tuvastamine - isikunimed, kohanimed jms.

Juhised töö tegemiseks: Katsetada, kui hästi on praegused nimetuvastajad kasutatavad Rahvusarhiivi säilikute pealkirjade peal. Eeldatavasti tuleb nimetuvastaja(d) tekstitüübi jaoks spetsiaalselt kohandada.

Kadri Muischnek kadri.muischnek at ut.ee
http://www.cl.ut.ee/inimesed/kmuis/

Tekstide klassifitseerimise teemad

Taust: Kirjutatud tekstid kuuluvad erinevatesse tekstiliikidesse (kasutatud ka termineid tekstiklass, žanr). Tekstiliigid võivad olla nn laiad, nt ajalehed vs ilukirjandustekstid vs seadusetekstid vs teadustekstid, või kitsamad, nt ajalehes võib olla arvamusi, uudiseid, persoonilugusid jm.

Nende tekstiliikide keelekasutus erineb – aga mille poolest? Lihtsaimad eristajad on sõnavara ja lausepikkus, aga kindlasti ka tekstides esinevad grammatilised kategooriad. Viimaste kohta paar lihtsat näidet: nt teadustekstides kasutatakse rohkem impersonaali (Meie poolt tehti suur avastus) ja rohkem nominalisatsioone (Meie poolt suure avastuse tegemine toimus ...) kui teistes tekstiklassides. Tekstide liigitamine tekstiliigi või žanri järgi ei ole seesama, mis liigitamine teema (topic) järgi.

Vt ka Steven Bird, Ewan Klein, and Edward Loper. Natural Language Processing with Python ptk 6. Learning to Classify Text

1. Tekstiliigi tuvastamine: klassifitseerimiseks oluliste tunnuste otsimine

Materjal: Eesti keele Tasakaalus korpus, st tekstide kogu, mis sisaldab 15 miljonit sõna, võrdses koguses ajakirjanduse, ilukirjanduse ja teaduse tekste. Korpusest on olemas morfoloogiliselt märgendatud versioon, kus igale tekstisõnale on lisatud tema algvorm, sõnaliik, grammatilised kategooriad ja esialgne sõltuvussüntaktiliselt märgendatud versioon, kus iga sõna kohta on lisaks morfoloogilisele infole teada ka tema süntaktiline funktsioon (alus, öeldis ja need teised) ning on teada tema ülemus sõltuvuspuus. Süntaktiline märgendus on paraku üsna vigane.

Ülesanne: Leida nende kolme tekstiklassi eristamiseks relevantsed tunnused.

2. Tekstiliigi tuvastamine: märgendamata teksti klassifitseerimine

Materjal: eesti keele veebist korjatud korpus enTenTen mahuga 270 miljonit sõna, selle kohta vthttp://www2.keeleveeb.ee/dict/corpus/ettenten/about.html

Kui nn klassikalise kirjaliku keelekasutuse põhilised tekstiliigid on laias laastus teada, siis internetikeele või nn kasutaja loodud sisu tekstiliigiline või žanriline jagunemine on udune.

Korpus on jagatud kuude tekstiklassi + seitsmes, mis sisaldab neid tekste, mida ei õnnestunud klassifitseerida. Korpus on morfoloogiliselt märgendatud, st igale tekstisõnale on lisatud tema algvorm, sõnaliik, grammatilised kategooriad, kuid märgenduse kvaliteet on teadmata, oletada võib, et mida mitteformaalsem on tekst, seda rohkem on seal mitte-kirjakeelseid sõnavorme, mille morfoloogiline analüüs pole õnnestunud.

Ülesanne 2. 1: Klassifitseerida enTenTeni liigitamata tekstid teadmata hulgaks tekstiklassideks.

Ülesanne 2. 2: Klassifitseerida kõik enTenTeni tekstid teadmata hulgaks tekstiklassideks ja võrrelda tulemust varemtehtud klassifikatsiooniga.

3. Tekstiliigi tuvastamine: juhendatud klassifitseerimine

Taust ja materjal samad, mis eelmisel kahel teemal.

Ülesanne 3. 1: Õppida Tasakaalus korpuse peal ja klassifitseerida enTenTen, lisades Tasakaalus korpuse kolmele tekstiliigile neljas tekstiliik „muu”. Lisaks eelnevale võib proovida klassifitseerimisülesannet, kus iga tekst võib kuuluda mitmesse tekstiliiki (multi-class classification)

Ülesanne 3. 2:  õppida Tasakaalus korpuse pealt nii, et ajalehed jaotatakse rubriigiinfo järgi eraldi tekstiliikideks (uudised, arvamus, sport, kultuur jne) ja klassifitseerida siis enTenTen. Lisaks võib proovida klassifitseerimisülesannet, kus iga tekst võib kuuluda mitmesse tekstiliiki (multi-class classification)

Heili Orav heili.orav at ut.ee
http://www.cl.ut.ee/inimesed/horav/

1. Eesti Wordnetti (vt http://www.cl.ut.ee/ressursid/teksaurus/) liidete genereerimine (näit: omadussõna muutmine määrsõnaks, kaunis->kaunilt; -us liited nimisõnadel vm).

2. (koos Neeme Kahuskiga) Eesti Wordneti kasutajaliidese tegemine. Põhjendus: praeguse päringu tulemus näidatakse kastidena ja mõistete vahelised erinevad seosed ei tule piisavalt hästi nähtavale. Uue kasutajaliidese puhul võiks tulemus olla sarnane WordTide'le (http://wordties.cst.dk/)

Neeme Kahusk neeme.kahusk at ut.ee
http://www.cl.ut.ee/inimesed/nkahusk/

1. Tarkvara lokaliseerimine

2. Piiratud eesti keelega seotud teemad: Piiratud keel (controlled natural language) on saadud loomuliku keele sõnavara ja grammatika piiramise teel, eesmärgiga vähendada keerukust ja mitmesust, kas keele õppimise lihtsustamise eesmärgil või vaheastmena teisendamiseks formaalsesse keelde. Vt ka Kaarel Kaljuranna doktoritöö (http://hdl.handle.net/10062/4876)

3. Eesti keeles suhtlev arvuti kasutajaliides: Siin võib olla mitu teemat, idee on selles, et kasutaja saaks anda arvutile eestikeelseid käske, kas suuliselt või kirjalikult

4. Viidete grammatika eesti keele jaoks : Viidete grammatika (Link grammar, http://www.link.cs.cmu.edu/link/) on originaalne süntaksiteooria loodud algselt inglise keele jaoks. Süsteem annab igale sisestatud lausele süntaktilise struktuuri, mis koosneb erinevatest viidetest, mis seovad omavahel sõnade paare. Seda grammatikat on katsetatud ka saksa, hiina ja vene keele puhul. Süsteemi kasutatakse ka AbiWordi grammatikakontrollijas.

Rahvusarhiivi ontoloogiate / märksõnastikega seonduv:

5. Rahvusarhiivi kohanimede ontoloogia rikastamine viidetega rahvusvahelistele ontoloogiatele (DBPedia, GeoNames). Tuleks analüüsida meie olemasolevat ontoloogiat, mis eristab kohad ka ajastute kaupa ning vaadata kas ja kuidas oleks seda võimalik väljapoole vaatavaks teha. See teema seostub mõneti eelmisega kuid toimuks tase kõrgemal - rikastataks ontoloogiat mitte kirjeldusi endid.

6. Rahvusarhiivi märksõnastike tõlkimine teistesse keeltesse. Selle töö raames võetaks ette meie põhiline märksõnastik (mis nimetab erinevad ainese liigid, dokumentide tüübid ja teemad) ning vaadataks kuidas oleks võimalik seda automaatselt tõlkida ning näiteks otsingutes kasutada. Mõtteks oleks, et kui kasutaja tuleb ja tahab otsida "kohtutoimik" siis otsitaks ka vastavate saksa- ja venekeelsete otsisõnade järgi. Põhimõtteliselt on meil uues AISis vastava mitmekeelse otsingu tugi juba olemas kuid vajaduseks oleks märksõnastike tõlkimine võimalikult efektiivselt (automaatselt)

Siim Orasmaa siim.orasmaa at gmail.com]

1. Automaatne sisukokkuvõtete tegemine ajaseoste märgenduste põhjal: automaatse sisukokkuvõtete tegemise eesmärgiks on luua tekstist lühendatud versioon, mis sisaldab vaid kasutajale tarvilikku informatsiooni. Lühendatud ja informatiivsed ülevaated on väga olulised suure hulga tekstiliste andmete organiseerimisel ja hõlpsamalt loetavamaks muutmisel, nt leiavad need rakendust interneti otsingumootorites, mobiiltelefonide või pihuarvutite ekraanidel (Müürisep, 2006).

Käesoleva töö eesmärgiks on uurida, kuidas saab rakendada ajaseoste märgendust automaatsel sisukokkuvõtete tegemisel. Selleks tuleks kasutada ajasemantiliselt märgendatud tekstikorpust ( http://keeleressursid.ee/et/keeleressursid-cl-ut/korpused/83-sample-data-articles/clutee-lehed/276-ajasemantiliste-margendustega-tekstikorpus ) ning luua programm, mis oskab teha ajasemantilise märgenduse põhjal ajaleheartiklitest sisukokkuvõtteid. Keskenduda võiks just ekstraheerivale sisukokkuvõtete tegemisele, inspiratsiooniks võib olla näiteks töö (Liu jt. 2009). Vt ka varasemaid töid eesti keeles automaatse sisukokkuvõtete tegemise vallas: Müürisep (2006) ja Sellik (2008).

   Kirjandus

Maofu Liu, Wenjie Li, Huijun Hu. Extractive Summarization Based on Event Term Temporal Relation Graph and Critical Chain. Information Retrieval Technology. Springer Berlin Heidelberg, 2009. 87-99.

Kaili Müürisep. Eestikeelsete tekstide sisukokkuvõtjast EstSum. Keel ja arvuti. Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 6.(Toim. M. Koit, R. Pajusalu, H. Õim) Tartu 2006. lk 115-125.

        http://uuslepo.it.da.ut.ee/~kaili/papers/myyrisepsisukokku.pdf

Keili Sellik. Automaatse sisukokkuvõtja töö hindamine. Bakalaureusetöö. 2008.

        http://lepo.it.da.ut.ee/~kaili/juhendamised/Baka_Sellik.pdf  

2. Automaatne tekstide lihtsustamine lingvistilise märgenduse põhjal.

      Tekstide lihtsustamine on oluline nii keelt võõrkeelena õppijatele, võimaldades neil tekstist paremini aru saada, kui ka lugemispuudega inimestele, kel on raskusi süntaktiliselt keeruliste ja pikkade lausete lugemisega. Lisaks on teema oluline ka automaatses keeletöötluses, kus pikkade ja keeruliste lausete töötlemine on komistuskiviks paljudele rakendustele (automaatne süntaktiline analüüs, masintõlge, sisukokkuvõtete tegemine).

      Antud töö eesmärgiks on uurida, kuidas saab lingvistilise märgenduse alusel uudistekstide lauseid automaatselt lühemaks ja lihtsamini loetavamaks teha, nii, et säiliksid ainult faktilist laadi sündmuskirjeldused. Uurimisel tuleks aluseks võtta sündmusstruktuuri, ajasemantika ja süntaksimärgendustega tekstikorpus ( http://keeleressursid.ee/et/keeleressursid-cl-ut/korpused/83-sample-data-articles/clutee-lehed/276-ajasemantiliste-margendustega-tekstikorpus ), millele tuleks uurimise tarbeks lisada täiendav faktiliste andmete märgendus - nimeüksuste märgendus (isiku-, koha-, ja organisatsiooninimed). Ning seejärel tuleks luua programm, mis muudab tekstis olevad sündmuskirjeldused olemasoleva märgenduse põhjal lihtsamaks, säilitades ainult olulise faktilise informatsiooni. Eeskujuks võivad olla näiteks tööd (Glavaš, Štajner 2013) ja (Klebanov jt 2004).

   Kirjandus

   *) Goran Glavaš; Sanja Štajner. Event-Centered Simplification of News Stories. Proceedings of the Student Workshop held in conjunction with RANLP. 2013.

        http://www.aclweb.org/anthology/R13-2#page=81

   *) Beata Beigman Klebanov, Kevin Knight, and Daniel Marcu. Text Simplification for Information-Seeking Applications. On the Move to Meaningful Internet Systems 2004: CoopIS, DOA, and ODBASE. Springer Berlin Heidelberg, 2004. 735-747.

Erkki Luuk erkkil at gmail.com (Stockholmi ülikool, Tartu ülikool)

1. Tavakeele süntaksi ja semantika formaalloogiline modelleerimine (nii teoreetiline töö kui implementatsioon)

2. Keele evolutsioon (nii teoreetiline töö kui implementatsioon)

Sven Aller sven.aller at ut.ee

Ülevaade (vabavaralistest) API-dest, mis on seotud tõlkimisega eesti keelde või eesti keelest (koos näidisrakendustega, mis neid kasutavad).

Margus Treumuth margus.treumuth at ut.ee

1. Meetodite võrdlus automaatses õigekirjavigade paranduses (Jaro-Winkler vs Noisy-Channel).
Töö eesmärk on võrrelda kahte meetodit õigekirjavigade paranduses: Jaro-Winkler vs Noisy-Channel. Testide tegemisel on võimalik kasutada kirjavigadega dialoogikorpust. Jaro-Winkleri osas on olemas toimiv realisatsioon, mida on rakendatud dialoogsüsteemis. Tudeng saab seda realisatsiooni kasutada. Vajadusel saab tudeng kasutada dialoogide kogumise vahendit. Lisaks saab tudeng vajadusel rakendada mõlemaid meetodeid dialoogsüsteemis.

2. Kõnetuvastusega dialoogsüsteemi prototüüp. Teha katse, kus proovitakse ühendada kaks olemasolevat rakendust: Tanel Alumäe poolt loodud kõnetuvastusliides ja Margus Treumuthi poolt loodud dialoogsüsteem.

Indrek Jentson indrek.jentson at ut.ee

1. Eesti tekstikorpuste andmeformaadi unifitseerimine. Olemasolevate failikujul hoitavate eestikeelsete korpuste struktuuri analüüs, ühtse ja kõigi korpuste aspekte arvestava XML-struktuuri (standardi) väljatöötamine ning korpuste failide teisendamine uuele formaadile.

Vt http://www.cl.ut.ee/korpused/

2. Teadmusbaasi Wordnet andmete täiendamine automaatselt genereeritud küsimustike abil. Probleemiks on olemasolevate andmete vahel puuduvad 'horisontaalsed' seosed, mille leidmiseks tuleks sõnastada küsimusi ja püüda leida vastuseid kas infootsingu (Information Retrieval) abil või kasutades veebirakendust ja kasutajate/vastajate abi.

Vt http://www.cl.ut.ee/ressursid/teksaurus/

Kadri Vider kadri.vider at ut.ee
http://www.cl.ut.ee/inimesed/kvider/

1. Pärisnimede semantiline ühestamine

2. Tundmatute liitsõnade semantiline ühestamine

3. Modulaarse sõnatähenduste ühestamise süsteemi projekteerimine.

Magistritöö teemapakkumine: Modulaarse sõnatähenduste ühestamise süsteemi projekteerimine

Sõnatähenduste ühestamine (STÜ, ingl.k. word sense disambiguation) on keeletehnoloogias semantika ehk tähenduse valdkonda kuuluv probleem, mille eesmärgiks on mitmetähenduslikule sõnale kontekstis sobivaima tähenduse valimine.

Töö eesmärgiks on projekteerida voodiagrammi põhimõttel asendatavate moodulitega sõnatähenduste ühestamise süsteem, kirjeldades erinevate moodulite sisendit ja väljundit ning esitades vajalike parameetrite loetelu. Tegelikus ühestamisprotsessis peavad moodulid olema osaliselt ümberjärjestatavad ja ärajäetavad.

Igasse moodulisse saab suunata analüüsitava sisendteksti ja peaaegu igast väljundist võib saada mõne teise mooduli sisend. Igas moodulis peaks olema kaalude arvutamise ja nende väärtuse väljundile lisamise võimalus.

Moodulite sisulisi tegevusalgoritme projekteerida pole vaja, kuid ühe juhtmoodulina peab süsteem kasutama olemasolevat programmi semyhe (autor Kaarel Kaljurand), mille sisend ja väljund peavad sobima ülejäänud moodulitega. Soovi korral võib semyhe Perlist mõnda muusse keelde ümber kirjutada.

Sõnatähendusi ühestatakse mingi etaloni alusel. Etalonis on eristatud sõnade tähendused teatud tunnuste võrdlemise ja välistamise teel. Sel moel piiritletud sõnatähenduste kogum on sõnatähenduste ühestamise alusleksikoniks, millest tekstisõna kontekstiga parimini sobivat tähendust otsitakse. Meie uurimistöös on alusleksikonina kasutatud eesti keele wordnet-tüüpi tesaurust - TEKsaurus (vt. http://www.cl.ut.ee/ressursid/teksaurus/).

Lisaks sisendtekstile kasutavad erinevad moodulid erinevad (lisa)ressursse:

a) TEKsauruse andmebaasi;

b) osad moodulid kasutavad (lisaks) eraldi lisatavaid reegleid;

c) osad moodulid kasutavad (lisaks) lihtsaid leksikaalseid seoseid sisaldavaid liste.

2. Juhendajad eesti ja üldkeeleteaduse instituudist (FLEE)

Sulev Iva sulev.iva at ut.ee ja Meelis Mihkla meelis.mihkla at eki.ee (Eesti Keele Instituut)

1. Võru keele kõnesüntees.

2. Eesti-võru masintõlge.

 

3. Juhendajad väljastpoolt

Inari Listenmaa inari.listenmaa ätt gmail.com Göteborgi Ülikooli arvutilingvistika doktorant

Eesti keele GF-grammatika testimine ja hindamine

Selle teema projekti(de) eesmärk on testida uut eesti keele grammatikaressurssi, mis on implementeeritud GF-raamistikus, vt projekti https://github.com/GF-Estonian/GF-Estonian. Peamiselt tuleks hinnata selle kasutusmugavust, eesti keele sagedasemate süntaktiliste struktuuride toetust, olemasoleva sõnastiku kasulikkust ning uute sõnastike lisamise lihtsust. Võimalikud teemad:

-          välja pakkuda ning implementeerida erinevaid väiksemaid rakendusi, mis selle grammatika morfoloogia ja süntaksimooduleid kasutaksid;

-          kasutada seda grammatikat erinevate eesti keele korpuste (sh nt lihtlausete korpus) süntaktiliseks analüüsiks;

-          kasutada seda grammatikat eesti keele lisamiseks masintõlkesüsteemi, mis sisaldab praegu 11 keelt.

Tausta vt ka http://www.cs.ut.ee/~koit/KT/topics_kaljurand_2013_utf8.html

Tanel Alumäe tanel.alumae ätt phon.ioc.ee

TTÜ Küberneetika Instituut, foneetika ja kõnetehnoloogia labor.

http://phon.ioc.ee/dokuwiki/doku.php?id=studying:topics.et

Anto Veldre anto.veldre at cert.ee (Riigi Infosüsteemide Arenduskeskus, infoturbeintsidentide käsitlemise osakond)

Automated analysis of malware related internet domain names.

Ülesande sisu: domeeninimede analüüs sellisel viisil, mis võimaldaks tuvastada nn halbu (viiruste levitamiseks kasutatavaid) saite. Ülesanne jääb kuhugi logianalüüsi ja lauseparsimise vahepeale, peaks ühendama kummagi võtted ja elemendid.

Vt ka imc104-yadav.pdf