Bc. Vít Suchomel

Master's thesis

Klasifikace dokumentů v textových korpusech

Document classification in text corpora
Abstract:
Diplomová práce má dva základní cíle. Prvním cílem je vytvoření „modelového korpusu“ webových textů o velikosti 100 milionů slov. Korpus bude vhodně složen z různých typů textů (např. novinové články, blogy, volně dostupná próza) zastoupených v přesně stanovených množstvích. Druhým cílem práce je vytvoření klasifikátoru jednotlivých typů textů pomocí metod strojového učení. Student se seznámí s několika …more
Abstract:
There are two aims of this diploma thesis. The first objective is to create a "model corpus" of web texts containing 100 million words. The corpus has to be consisted of several types of texts (e. g. newspaper articles, blogs, prose available online) in strictly defined quantities. The second objective of the thesis is to create a classifier of the respective text types using machine learning methods …more
 
 
Language used: Czech
Date on which the thesis was submitted / produced: 11. 1. 2010

Thesis defence

  • Date of defence: 10. 2. 2010
  • Supervisor: RNDr. Jan Pomikálek, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / field:
Informatics / Artificial Intelligence and Natural Language Processing