Bc. Riva Nathans, BA

Bachelor's thesis

Dolování informací z textů na základě nízkorozměrných reprezentací

Data mining from texts based on low-dimensional representations
Anotácia:
Tato práce srovnává efektivnost různých metod (mutual information, χ-squared, tf-idf) pro výběr klíčových slov z textů pro automatické rozpoznávání témat. Klasifikace proběhla na nizkorozměrných reprezentacích textů z Fisher Speech Corpus použití multinomial Naive Bayes a support vector machines. Nejefektivnější kombinace metod byla mutual information pro výběr rysů s SVM pro klasifikaci: umožnila …viac
Abstract:
This thesis compares the effectiveness of several methods (mutual information, χ-squared, tf-idf) for extracting keyword features from text documents for efficient, automatic topic detection. Classification was performed on reduced-dimensional representations of transcripts from the Fisher Speech Corpus using multinomial Naive Bayes classi- fication and support vector machines. The most effective combination …viac
 
 
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 23. 5. 2016

Obhajoba závěrečné práce

  • Obhajoba proběhla 15. 2. 2017
  • Vedúci: prof. Ing. Pavel Zezula, CSc.
  • Oponent: RNDr. Petr Eliáš

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky