Sntaksianalsaatori kursus
"nltk-toolkit" kodut
14.05.2010

Harri Kirik
harri35@gmail.com

1) Mis on?
NLTK abil loodud HMM POS mrgendaja Python keeles.

2) Kivitamine
2.1) Peab olema installitud nltk toolkit, Python ja vajalikud abivahendid
	Lehelt: http://www.nltk.org/download
	Tmmata:
		* Python (kui pole veel)
		* PyYAML
		* NLTK
		* Numpy (seda on HMM'i jaoks vaja)

2.2) Pakkida lahti hmm_tagger.zip, seal sees kaustastruktuur:
	* LOEMIND.txt - kasutuspetus (see fail, mida hetkel loete)
	
	* generateTrainAndTest.py - korpuse puhastamise ja kaheks alamkorpuseks tkeldamise skript. 
		Selle skripti eesmrgiks on:
			1) vtta ks suur korpusefail (tagged.est)
			2) seda puhastada
			3) juhuslikkuse alusel valida sealt N lauset testimiskorpusesse (test.est)
			4) lejnud laused panna treenimiskorpusesse (train.est)		
	
	* NLTKTagger.py - HMM mrgendaja. Treenib treenimiskorpusel mrgendajat ja hindab tulemust testimiskorpusel
		See skript tahab sisendiks faile:
			1) train.est - treenimiskorpus
			2) test.est - testimiskorpus
	
	* alamkaust "corpora" -sisaldab korpusefaile
		1) tagged.est - suur korpusefail, nende orw*.est falide cat'iga liitmisel tekkinud fail.
		2) train.est - treenimiskorpus, loodud generateTrainAndTest.py abil tagged.est failist
		3) test.est - testimiskorpus suurusega N lauset, loodud generateTrainAndTest.py abil tagged.est failist
		

2.3) Kivitamine (nite alusel, Windows'i kasutastruktuuri puhul)
	1) Kivitada eelttlusskript generateTrainAndTest.py (selle sammu vib ra jtta):
		"generateTrainAndTest.py corpora\tagged.est 500 corpora\train.est corpora\test.est"
	2) Kivitada tagger skriptist NLTKTagger.py
		"NLTKTagger.py corpora\"

(1. sammu vib ra jtta, kui alamkaustas (corpora) juba on train.est ja test.est)