Automatické určení jazyka dokumentu založené na zpracování slabik – Bc. Jan Hegr
Bc. Jan Hegr
Master's thesis
Automatické určení jazyka dokumentu založené na zpracování slabik
Syllable based automatic language identification of documents
Abstract:
V teoretické části práce jsou diskutovány metody určení jazyka dokumentu, dále pak jsou detailně vysvětleny dva přístupy k tomuto problému. První spočívá v porovnávání profilů frekvencí výskytů N-gramů znaků, druhý využívá aproximaci Markovského řetězu k určení pravděpodobnosti výskytů N-gramů slabik. Proto je zde věnován prostor i problému dělení slov na slabiky. V praktické části je pak popsána implementace …moreAbstract:
First part of this thesis focuses on methods of automatic language identification, especially those using N-gram statistics and Markov chain models. Language independent syllabification algorithms are also discussed. The next part deals with an implementation of the secondly mentioned algorithm for language identification. On top of that, the algorithm was extended to be able to decide that the language …more
Language used: Czech
Date on which the thesis was submitted / produced: 10. 1. 2011
Identifier:
https://is.muni.cz/th/a8yts/
Thesis defence
- Date of defence: 8. 2. 2011
- Supervisor: doc. Mgr. Pavel Rychlý, Ph.D.
- Reader: RNDr. Radim Řehůřek, Ph.D.
Citation record
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsMaster programme / field:
Informatics / Informatics
Theses on a related topic
- No theses on a related topic available.