Mgr. Vít Suchomel
Advanced ('rigorózní') thesis
Building Spam Free Web Corpora
Building Spam Free Web Corpora
Abstract:
Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Ke zpracování neuspořádaných a nekontrolovaných internetových dat byly vyvinuty čisticí postupy. Přesto pozorujeme snížení použitelnosti …moreAbstract:
The internet is used by computational linguists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. Cleaning techniques were devised to transform the messy nature of data coming from the uncontrolled environment of the internet. However, it can …more
Language used: English
Date on which the thesis was submitted / produced: 25. 2. 2015
Identifier:
https://is.muni.cz/th/bzxzr/
Thesis defence
- Date of defence: 26. 5. 2015
- Reader: doc. Mgr. Václav Cvrček, Ph.D., Assoc. Prof. Serge Sharoff
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsAdvanced ('rigorózní řízení') programme / field:
Informatics / Artificial Intelligence and Natural Language Processing