Better Web Corpora For Corpus Linguistics And NLP – RNDr. Vít Suchomel
RNDr. Vít Suchomel
Doctoral thesis
Better Web Corpora For Corpus Linguistics And NLP
Better Web Corpora For Corpus Linguistics And NLP
Abstract:
Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování …moreAbstract:
The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text …more
Language used: English
Date on which the thesis was submitted / produced: 4. 5. 2020
Identifier:
https://is.muni.cz/th/u4rmz/
Thesis defence
- Date of defence: 8. 7. 2020
- Supervisor: doc. Mgr. Pavel Rychlý, Ph.D.
- Reader: doc. Mgr. Václav Cvrček, Ph.D., Dr. Serge Sharoff
Citation record
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsDoctoral programme / field:
Informatics (4-years) / Computer Systems and Technologies
Theses on a related topic
-
Building Spam Free Web Corpora
Vít Suchomel -
Corpora from reddit.com texts
Jan Brichta -
Removing Boilerplate and Duplicate Content from Web Corpora
Jan Pomikálek -
Building parallel corpora from the Web
Jan Pomikálek -
Academic book reviews in English and Czech: a contrastive genre analysis
Barbora HRUŠKOVÁ