Albert Sukaný

Bachelor's thesis

Analýza diskuzních příspěvků z české Wikipedie

Analysis of Discussion Pages in Czech Wikipedia
Abstract:
Cílem této práce je vytvoření datové sady z komentářů na diskuzních stránkách české Wikipedie. Toho bylo dosaženo segmentací dat z XML dumpů, očištěním textu od značkování a uložením komentářů s~metadaty do relační databáze. Dohromady se jedná o více než 170 000 diskuzních příspěvků. Následně byly na získaná data aplikovány nástroje na rozpoznání jazyka, detekci témat, detekci vulgarit a detekci sentimentu …more
Abstract:
The goal of this thesis is to create a dataset from comments on Czech Wikipedia discussion pages. This was achieved by segmenting data from XML dumps, cleaning text from markup, and storing comments with metadata in a relational database. Altogether, there are more than 170,000 discussion comments. Subsequently, tools for language recognition, topic detection, offensive content detection and sentiment …more
 
 
Language used: Czech
Date on which the thesis was submitted / produced: 20. 7. 2020

Thesis defence

  • Date of defence: 25. 9. 2020
  • Supervisor: RNDr. Zuzana Nevěřilová, Ph.D.
  • Reader: RNDr. Adam Rambousek, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky