Automatické určení jazyka dokumentu založené na zpracování slabik

Hegr, Jan

CS ENPrihlásiť sa Prihlásiť sa (EduID)

Theses ek4ui7

Automatické určení jazyka dokumentu založené na zpracování slabik – Bc. Jan Hegr

Zpět na vyhledávání

Bc. Jan Hegr

Master's thesis

Automatické určení jazyka dokumentu založené na zpracování slabik

Syllable based automatic language identification of documents

Anotácia:

V teoretické části práce jsou diskutovány metody určení jazyka dokumentu, dále pak jsou detailně vysvětleny dva přístupy k tomuto problému. První spočívá v porovnávání profilů frekvencí výskytů N-gramů znaků, druhý využívá aproximaci Markovského řetězu k určení pravděpodobnosti výskytů N-gramů slabik. Proto je zde věnován prostor i problému dělení slov na slabiky. V praktické části je pak popsána implementace …viac

Abstract:

First part of this thesis focuses on methods of automatic language identification, especially those using N-gram statistics and Markov chain models. Language independent syllabification algorithms are also discussed. The next part deals with an implementation of the secondly mentioned algorithm for language identification. On top of that, the algorithm was extended to be able to decide that the language …viac

Kľúčové slová

určení jazyka kategorizace textů N-gram slabika Markovský řetěz

Jazyk práce: Czech

Datum vytvoření / odevzdání či podání práce: 10. 1. 2011

Identifikátor: https://is.muni.cz/th/a8yts/

Obhajoba závěrečné práce

Obhajoba proběhla 8. 2. 2011
Vedúci: doc. Mgr. Pavel Rychlý, Ph.D.
Oponent: RNDr. Radim Řehůřek, Ph.D.

Citační záznam

Citovat tuto práci

Citace dle ISO 690:

HEGR, Jan. \textit{Automatické určení jazyka dokumentu založené na zpracování slabik}. Online. Diplomová práca. Brno: Masarykova univerzita, Faculty of Informatics. 2011. Dostupné z: https://theses.cz/id/ek4ui7/.

{{Citace kvalifikační práce
 | příjmení = Hegr
 | jméno = Jan
 | instituce = Masarykova univerzita, Faculty of Informatics
 | titul = Automatické určení jazyka dokumentu založené na zpracování slabik
 | url = https://theses.cz/id/ek4ui7/
 | typ práce = Diplomová práca
 | vedoucí = doc. Mgr. Pavel Rychlý, Ph.D.
 | rok = 2011
 | počet stran =
 | strany =
 | citace = 2024-09-28
 | poznámka =
 | jazyk = 
}}

Plný text práce

Obsah online archivu závěrečné práce

Zveřejněno v Theses:

světu

Jak jinak získat přístup k textu

Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Odkaz na adresář do lokálního úložiště instituce

Masaryk University

Faculty of Informatics

Master programme / odbor:
Informatics / Informatics

Práce na příbuzné téma

Žádné práce na příbuzné téma.