Mgr. David Hrbek

Master's thesis

Detekce tématu textu

Topic detection in the text
Abstract:
Tato práce je o inovativním přístupu k detekci tématu v textu. Je založena na procházení Wikipedie za účelem získání hierarchie možných témat and stažení článků, které slouží jako klasifikovaný korpus pro natrénování klasifikátoru, který je schopen přiřadit možná témata danému textu. Text práce popisuje proces vytváření hierarchie témat, sběr a předzpracování dat korpusu, trénování klasifikátoru s …more
Abstract:
This thesis is about an original approach to topic detection in a text document. It is based on crawling Wikipedia to get a hierarchy of possible topics and using Wikipedia articles as a labeled corpus for training a classifier, which is able to assign these topics to an arbitrary text document. The text describes the process of creating the topic hierarchy, gathering and preprocessing a data corpus …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 22. 5. 2017

Thesis defence

  • Date of defence: 20. 6. 2017
  • Supervisor: RNDr. Zuzana Nevěřilová, Ph.D.
  • Reader: Mgr. et Mgr. Vít Baisa, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / field:
Applied Informatics / Service Science, Management and Engineering