RNDr. Vít Suchomel

Disertační práce

Better Web Corpora For Corpus Linguistics And NLP

Better Web Corpora For Corpus Linguistics And NLP
Anotace:
Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování …více
Abstract:
The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 4. 5. 2020

Obhajoba závěrečné práce

  • Obhajoba proběhla 8. 7. 2020
  • Vedoucí: doc. Mgr. Pavel Rychlý, Ph.D.
  • Oponent: doc. Mgr. Václav Cvrček, Ph.D., Dr. Serge Sharoff

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Doktorský studijní program / obor:
Informatika (čtyřleté) / Počítačové systémy a technologie