Automatické určení jazyka dokumentu založené na zpracování slabik – Bc. Jan Hegr
Bc. Jan Hegr
Master's thesis
Automatické určení jazyka dokumentu založené na zpracování slabik
Syllable based automatic language identification of documents
Anotácia:
V teoretické části práce jsou diskutovány metody určení jazyka dokumentu, dále pak jsou detailně vysvětleny dva přístupy k tomuto problému. První spočívá v porovnávání profilů frekvencí výskytů N-gramů znaků, druhý využívá aproximaci Markovského řetězu k určení pravděpodobnosti výskytů N-gramů slabik. Proto je zde věnován prostor i problému dělení slov na slabiky. V praktické části je pak popsána implementace …viacAbstract:
First part of this thesis focuses on methods of automatic language identification, especially those using N-gram statistics and Markov chain models. Language independent syllabification algorithms are also discussed. The next part deals with an implementation of the secondly mentioned algorithm for language identification. On top of that, the algorithm was extended to be able to decide that the language …viac
Jazyk práce: Czech
Datum vytvoření / odevzdání či podání práce: 10. 1. 2011
Identifikátor:
https://is.muni.cz/th/a8yts/
Obhajoba závěrečné práce
- Obhajoba proběhla 8. 2. 2011
- Vedúci: doc. Mgr. Pavel Rychlý, Ph.D.
- Oponent: RNDr. Radim Řehůřek, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsMaster programme / odbor:
Informatics / Informatics
Práce na příbuzné téma
- Žádné práce na příbuzné téma.