Bc. Vít Suchomel

Master's thesis

Klasifikace dokumentů v textových korpusech

Document classification in text corpora
Anotácia:
Diplomová práce má dva základní cíle. Prvním cílem je vytvoření „modelového korpusu“ webových textů o velikosti 100 milionů slov. Korpus bude vhodně složen z různých typů textů (např. novinové články, blogy, volně dostupná próza) zastoupených v přesně stanovených množstvích. Druhým cílem práce je vytvoření klasifikátoru jednotlivých typů textů pomocí metod strojového učení. Student se seznámí s několika …viac
Abstract:
There are two aims of this diploma thesis. The first objective is to create a "model corpus" of web texts containing 100 million words. The corpus has to be consisted of several types of texts (e. g. newspaper articles, blogs, prose available online) in strictly defined quantities. The second objective of the thesis is to create a classifier of the respective text types using machine learning methods …viac
 
 
Jazyk práce: Czech
Datum vytvoření / odevzdání či podání práce: 11. 1. 2010

Obhajoba závěrečné práce

  • Obhajoba proběhla 10. 2. 2010
  • Vedúci: RNDr. Jan Pomikálek, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / odbor:
Informatics / Artificial Intelligence and Natural Language Processing