Mgr. Vít Suchomel
Rigorózní práce
Building Spam Free Web Corpora
Building Spam Free Web Corpora
Anotace:
Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti …víceAbstract:
The internet is used by computational linguists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. Cleaning techniques were devised to transform the messy nature of data coming from the uncontrolled environment of the internet. However, it can …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 25. 2. 2015
Identifikátor:
https://is.muni.cz/th/bzxzr/
Obhajoba závěrečné práce
- Obhajoba proběhla 26. 5. 2015
- Oponent: doc. Mgr. Václav Cvrček, Ph.D., Assoc. Prof. Serge Sharoff
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyRigorózní řízení / obor:
Informatika / Umělá inteligence a zpracování přirozeného jazyka