Shlukování textů podle jejich podobnosti pomocí modulu Scikit-learn – Tomáš SMOLÍK
Tomáš SMOLÍK
Bakalářská práce
Shlukování textů podle jejich podobnosti pomocí modulu Scikit-learn
Clustering of texts based on their similarity using the Scikit-learn
Anotace:
Cílem práce je prozkoumat vybrané algoritmy klasifikace (učení bez učitele) a jejich vhodnost vzhledem k reálnému problému. Tímto problémem je shlukování, respektive dělení novinových článku do skupin v závislosti na jejich tématu. Vybrané algoritmy jsou K-means, analýza hlavních komponent a latentní sémantická analýza. Práce se kromě teoretického úvodu zabývá také experimentální částí, kde jsou vybrané …víceAbstract:
The goal is to explore the selected classification algorithms (unsupervised learning) and their suitability for the real problem. This problem is the clustering or separation of newspaper articles into groups depending on their topic. The selected algorithms are the K-means, principal component analysis and latent semantic analysis. The work in addition to theoretical introduction also deals with the …více
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 20. 8. 2013
Zveřejnit od: 31. 12. 2999
Obhajoba závěrečné práce
- Vedoucí: Ing. Lucie Skorkovská
Citační záznam
Jak správně citovat práci
SMOLÍK, Tomáš. Shlukování textů podle jejich podobnosti pomocí modulu Scikit-learn. Plzeň, 2013. bakalářská práce (Bc.). ZÁPADOČESKÁ UNIVERZITA V PLZNI. Fakulta aplikovaných věd
Plný text práce
Právo: Autor si nepřeje zpřístupnění práce veřejnosti
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- Soubory jsou nedostupné.
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: ZÁPADOČESKÁ UNIVERZITA V PLZNI, Fakulta aplikovaných vědZÁPADOČESKÁ UNIVERZITA V PLZNI
Fakulta aplikovaných vědBakalářský studijní program / obor:
Aplikované vědy a informatika / Kybernetika a řídicí technika
Práce na příbuzné téma
-
Sémantická analýza textů
Matěj Fries -
Explicitní sémantická analýza
Michal TUŠL -
Analýza příspěvků na sociální síti Twitter
Jakub HAIN -
Analýza sentimentu na sociální síti Twitter
Jakub HAIN -
Hledání sémantické informace v textových datech s využitím latentní analýzy
Pavel Řezníček -
Integrace metod vyběrů bodů a analýzy hlavních komponent do projektu A.D.A.P.T.
Štěpán Dvořáček -
Analýza hlavních komponent při identifikaci větrných ramp
Marek Janata -
Analýza hlavních komponent v proudové analýze
František Jedlička