Bc. Jan Brichta
Bakalářská práce
Corpora from reddit.com texts
Corpora from reddit.com texts
Anotace:
Cílem této práce je vyvinout nástroje pro zpracování dat z webové stránky reddit.com do korpusů a ukázat analýzu těchto dat pomocí nástroje Sketch Engine. Ve výsledku bylo z datasetu vytvořeno 10 korpusů, které pokrývjí období od roku 2005 do roku 2023.Abstract:
The purpose of this thesis is to develop tools for processing data from the reddit.com website into text corpora and show analysis of the data with the Sketch Engine. This results in the creation of 10 corpora from dataset that spans from the year 2005 to 2023.
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 23. 5. 2024
Identifikátor:
https://is.muni.cz/th/nzmup/
Obhajoba závěrečné práce
- Obhajoba proběhla 28. 6. 2024
- Vedoucí: RNDr. Vít Suchomel, Ph.D.
- Oponent: RNDr. Ondřej Herman
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyBakalářský studijní program / obor:
Informatika / Informatika
Práce na příbuzné téma
-
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel -
Testing Zipf's Law with Corpus linguistics
Ivana Kyselová Košková -
Český Brown Corpus
David Krňávek -
Deutsche Konnektoren und ihre Funktion im Text. Eine korpusbasierte Studie aus deutsch-tschechischer Sicht
Václav Solich