Bc. Vít Suchomel

Diplomová práce

Klasifikace dokumentů v textových korpusech

Document classification in text corpora
Anotace:
Diplomová práce má dva základní cíle. Prvním cílem je vytvoření „modelového korpusu“ webových textů o velikosti 100 milionů slov. Korpus bude vhodně složen z různých typů textů (např. novinové články, blogy, volně dostupná próza) zastoupených v přesně stanovených množstvích. Druhým cílem práce je vytvoření klasifikátoru jednotlivých typů textů pomocí metod strojového učení. Student se seznámí s několika …více
Abstract:
There are two aims of this diploma thesis. The first objective is to create a "model corpus" of web texts containing 100 million words. The corpus has to be consisted of several types of texts (e. g. newspaper articles, blogs, prose available online) in strictly defined quantities. The second objective of the thesis is to create a classifier of the respective text types using machine learning methods …více
 
 
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 11. 1. 2010

Obhajoba závěrečné práce

  • Obhajoba proběhla 10. 2. 2010
  • Vedoucí: RNDr. Jan Pomikálek, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Magisterský studijní program / obor:
Informatika / Umělá inteligence a zpracování přirozeného jazyka