Albert Sukaný

Bachelor's thesis

Analýza diskuzních příspěvků z české Wikipedie

Analysis of Discussion Pages in Czech Wikipedia
Anotácia:
Cílem této práce je vytvoření datové sady z komentářů na diskuzních stránkách české Wikipedie. Toho bylo dosaženo segmentací dat z XML dumpů, očištěním textu od značkování a uložením komentářů s~metadaty do relační databáze. Dohromady se jedná o více než 170 000 diskuzních příspěvků. Následně byly na získaná data aplikovány nástroje na rozpoznání jazyka, detekci témat, detekci vulgarit a detekci sentimentu …viac
Abstract:
The goal of this thesis is to create a dataset from comments on Czech Wikipedia discussion pages. This was achieved by segmenting data from XML dumps, cleaning text from markup, and storing comments with metadata in a relational database. Altogether, there are more than 170,000 discussion comments. Subsequently, tools for language recognition, topic detection, offensive content detection and sentiment …viac
 
 
Jazyk práce: Czech
Datum vytvoření / odevzdání či podání práce: 20. 7. 2020

Obhajoba závěrečné práce

  • Obhajoba proběhla 25. 9. 2020
  • Vedúci: RNDr. Zuzana Nevěřilová, Ph.D.
  • Oponent: RNDr. Adam Rambousek, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / odbor:
Informatics / Computer Networks and Communication