Bc. Riva Nathans, BA

Bakalářská práce

Dolování informací z textů na základě nízkorozměrných reprezentací

Data mining from texts based on low-dimensional representations
Anotace:
Tato práce srovnává efektivnost různých metod (mutual information, χ-squared, tf-idf) pro výběr klíčových slov z textů pro automatické rozpoznávání témat. Klasifikace proběhla na nizkorozměrných reprezentacích textů z Fisher Speech Corpus použití multinomial Naive Bayes a support vector machines. Nejefektivnější kombinace metod byla mutual information pro výběr rysů s SVM pro klasifikaci: umožnila …více
Abstract:
This thesis compares the effectiveness of several methods (mutual information, χ-squared, tf-idf) for extracting keyword features from text documents for efficient, automatic topic detection. Classification was performed on reduced-dimensional representations of transcripts from the Fisher Speech Corpus using multinomial Naive Bayes classi- fication and support vector machines. The most effective combination …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 23. 5. 2016

Obhajoba závěrečné práce

  • Obhajoba proběhla 15. 2. 2017
  • Vedoucí: prof. Ing. Pavel Zezula, CSc.
  • Oponent: RNDr. Petr Eliáš

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Bakalářský studijní program / obor:
Aplikovaná informatika / Aplikovaná informatika