Albert Sukaný

Bakalářská práce

Analýza diskuzních příspěvků z české Wikipedie

Analysis of Discussion Pages in Czech Wikipedia
Anotace:
Cílem této práce je vytvoření datové sady z komentářů na diskuzních stránkách české Wikipedie. Toho bylo dosaženo segmentací dat z XML dumpů, očištěním textu od značkování a uložením komentářů s~metadaty do relační databáze. Dohromady se jedná o více než 170 000 diskuzních příspěvků. Následně byly na získaná data aplikovány nástroje na rozpoznání jazyka, detekci témat, detekci vulgarit a detekci sentimentu …více
Abstract:
The goal of this thesis is to create a dataset from comments on Czech Wikipedia discussion pages. This was achieved by segmenting data from XML dumps, cleaning text from markup, and storing comments with metadata in a relational database. Altogether, there are more than 170,000 discussion comments. Subsequently, tools for language recognition, topic detection, offensive content detection and sentiment …více
 
 
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 20. 7. 2020

Obhajoba závěrečné práce

  • Obhajoba proběhla 25. 9. 2020
  • Vedoucí: RNDr. Zuzana Nevěřilová, Ph.D.
  • Oponent: RNDr. Adam Rambousek, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Bakalářský studijní program / obor:
Informatika / Počítačové sítě a komunikace