Dolování informací z textů na základě nízkorozměrných reprezentací – Bc. Riva Nathans, BA
Bc. Riva Nathans, BA
Bakalářská práce
Dolování informací z textů na základě nízkorozměrných reprezentací
Data mining from texts based on low-dimensional representations
Anotace:
Tato práce srovnává efektivnost různých metod (mutual information, χ-squared, tf-idf) pro výběr klíčových slov z textů pro automatické rozpoznávání témat. Klasifikace proběhla na nizkorozměrných reprezentacích textů z Fisher Speech Corpus použití multinomial Naive Bayes a support vector machines. Nejefektivnější kombinace metod byla mutual information pro výběr rysů s SVM pro klasifikaci: umožnila …víceAbstract:
This thesis compares the effectiveness of several methods (mutual information, χ-squared, tf-idf) for extracting keyword features from text documents for efficient, automatic topic detection. Classification was performed on reduced-dimensional representations of transcripts from the Fisher Speech Corpus using multinomial Naive Bayes classi- fication and support vector machines. The most effective combination …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 23. 5. 2016
Identifikátor:
https://is.muni.cz/th/wrkiu/
Obhajoba závěrečné práce
- Obhajoba proběhla 15. 2. 2017
- Vedoucí: prof. Ing. Pavel Zezula, CSc.
- Oponent: RNDr. Petr Eliáš
Citační záznam
Citace dle ISO 690:
NATHANS, Riva. \textit{Dolování informací z textů na základě nízkorozměrných reprezentací} [online].
Brno, 2016 [cit. 2021-02-28]. Dostupné z: <https://theses.cz/id/49vm9s/>.
Bakalářská práce.
Masarykova univerzita, Fakulta informatiky.
Vedoucí práce prof. Ing. Pavel Zezula, CSc..
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyBakalářský studijní program / obor:
Aplikovaná informatika / Aplikovaná informatika
Práce na příbuzné téma
-
Návrh klasifikátoru parametrů udržitelného rozvoje pomocí Support Vector Machine
Petra Špírková -
Localization of mobile devices using machine learning
Aleš Calábek -
Classification of arrhythmia using machine learning techniques
Lukáš Zaorálek -
Math Information Retrieval for Digital Libraries
Michal Růžička -
Classification of arrhythmia using machine learning techniques
Lukáš Zaorálek -
Application of a machine-learning pipeline to a multiclass classification problem
Miroslav Barus