Bc. Rastislav Papčo

Master's thesis

Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer

Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer
Anotácia:
Anglické textové korpusy sú nevyhnutné pre počítačovú lingvistiku. Internet je síce veľkým a lacným zdrojom takýchto dát, ale zvyčajne im chýba štruktúra a metadáta. Cieľom diplomovej práce bolo vyčistiť webové korpusy od zlých textov a zároveň anotovať dáta témami. Témy sa rozpoznávajú dvoma spôsobmi: klasifikáciou a modelovaním. Klasifikácia prebieha supervizovaným fasttextovým modelom, zatiaľ čo …viac
Abstract:
English text corpora are essential for computational linguistics. While the internet is a large and cheap source of such data, they usually lack structure and metadata. The aim of this thesis was to clean web corpora from bad texts while also annotating the data with topics. The topics are recognized in two ways: topic classification and topic modeling. Topic classification is solved by a supervised …viac
 
 
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 17. 5. 2022

Obhajoba závěrečné práce

  • Obhajoba proběhla 23. 6. 2022
  • Vedúci: RNDr. Vít Suchomel, Ph.D.
  • Oponent: Mgr. Michal Štefánik

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / odbor:
Artificial intelligence and data processing / Machine learning and artificial intelligence

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.