Bc. Rastislav Papčo

Diplomová práce

Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer

Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer
Anotace:
Anglické textové korpusy sú nevyhnutné pre počítačovú lingvistiku. Internet je síce veľkým a lacným zdrojom takýchto dát, ale zvyčajne im chýba štruktúra a metadáta. Cieľom diplomovej práce bolo vyčistiť webové korpusy od zlých textov a zároveň anotovať dáta témami. Témy sa rozpoznávajú dvoma spôsobmi: klasifikáciou a modelovaním. Klasifikácia prebieha supervizovaným fasttextovým modelom, zatiaľ čo …více
Abstract:
English text corpora are essential for computational linguistics. While the internet is a large and cheap source of such data, they usually lack structure and metadata. The aim of this thesis was to clean web corpora from bad texts while also annotating the data with topics. The topics are recognized in two ways: topic classification and topic modeling. Topic classification is solved by a supervised …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 17. 5. 2022

Obhajoba závěrečné práce

  • Obhajoba proběhla 23. 6. 2022
  • Vedoucí: RNDr. Vít Suchomel, Ph.D.
  • Oponent: Mgr. Michal Štefánik

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Magisterský studijní program / obor:
Umělá inteligence a zpracování dat / Strojové učení a umělá inteligence

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.