Bc. Martin VÁŇA

Master's thesis

Incremental News Clustering

Incremental news clustering
Abstract:
The goal was to research model-based clustering methods, notably the Distance Dependent Chinese Restaurant Process (ddCRP), and propose an incremental clustering system which would be capable of maintaining the growing number of topic clusters of news articles coming online from a crawler. LDA, LSA, and doc2vec methods were used to represent a document as a fixed-length numeric vector. Cluster assignments …more
Abstract:
Cílem práce bylo prozkoumat možnosti shlukovacích metod založených na statistických modelech, zejména metodu založenou na Distance Dependent Chinese Restaurant Process (ddCRP), a navrhnout shlukovací systém, který bude schopný udržovat tematické shluky zpravodajských textů, které budou postupně přicházet z crawleru. Metody LDA, LSA a doc2vec byly použity k reprezentaci dokumentu jako číselný vektor …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 17. 5. 2018
Accessible from:: 31. 12. 2999

Thesis defence

  • Supervisor: Doc. Ing. Josef Steinberger, Ph.D.

Citation record

The right form of listing the thesis as a source quoted

VÁŇA, Martin. Incremental News Clustering. Plzeň, 2018. diplomová práce (Ing.). ZÁPADOČESKÁ UNIVERZITA V PLZNI. Fakulta aplikovaných věd

Full text of thesis

Accessibility: Autor si nepřeje zpřístupnění práce veřejnosti

Contents of on-line thesis archive
Published in Theses:
  • Soubory jsou nedostupné.
Other ways of accessing the text
Institution archiving the thesis and making it accessible: ZÁPADOČESKÁ UNIVERZITA V PLZNI, Fakulta aplikovaných věd
Vázaný výtisk práce naleznete v Univerzitní knihovně ZČU, více na http://www.knihovna.zcu.cz/kvalifikacni-prace/