Bc. Riva Nathans, BA

Bachelor's thesis

Dolování informací z textů na základě nízkorozměrných reprezentací

Data mining from texts based on low-dimensional representations
Abstract:
Tato práce srovnává efektivnost různých metod (mutual information, χ-squared, tf-idf) pro výběr klíčových slov z textů pro automatické rozpoznávání témat. Klasifikace proběhla na nizkorozměrných reprezentacích textů z Fisher Speech Corpus použití multinomial Naive Bayes a support vector machines. Nejefektivnější kombinace metod byla mutual information pro výběr rysů s SVM pro klasifikaci: umožnila …more
Abstract:
This thesis compares the effectiveness of several methods (mutual information, χ-squared, tf-idf) for extracting keyword features from text documents for efficient, automatic topic detection. Classification was performed on reduced-dimensional representations of transcripts from the Fisher Speech Corpus using multinomial Naive Bayes classi- fication and support vector machines. The most effective combination …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 23. 5. 2016

Thesis defence

  • Date of defence: 15. 2. 2017
  • Supervisor: prof. Ing. Pavel Zezula, CSc.
  • Reader: RNDr. Petr Eliáš

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky