Bc. Jan Hegr

Diplomová práce

Automatické určení jazyka dokumentu založené na zpracování slabik

Syllable based automatic language identification of documents
Anotace:
V teoretické části práce jsou diskutovány metody určení jazyka dokumentu, dále pak jsou detailně vysvětleny dva přístupy k tomuto problému. První spočívá v porovnávání profilů frekvencí výskytů N-gramů znaků, druhý využívá aproximaci Markovského řetězu k určení pravděpodobnosti výskytů N-gramů slabik. Proto je zde věnován prostor i problému dělení slov na slabiky. V praktické části je pak popsána implementace …více
Abstract:
First part of this thesis focuses on methods of automatic language identification, especially those using N-gram statistics and Markov chain models. Language independent syllabification algorithms are also discussed. The next part deals with an implementation of the secondly mentioned algorithm for language identification. On top of that, the algorithm was extended to be able to decide that the language …více
 
 
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 10. 1. 2011

Obhajoba závěrečné práce

  • Obhajoba proběhla 8. 2. 2011
  • Vedoucí: doc. Mgr. Pavel Rychlý, Ph.D.
  • Oponent: RNDr. Radim Řehůřek, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Magisterský studijní program / obor:
Informatika / Informatika

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.