Removing Boilerplate and Duplicate Content from Web Corpora – RNDr. Jan Pomikálek, Ph.D.
RNDr. Jan Pomikálek, Ph.D.
Doctoral thesis
Removing Boilerplate and Duplicate Content from Web Corpora
Removing Boilerplate and Duplicate Content from Web Corpora
Abstract:
V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních …moreAbstract:
In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate …more
Language used: English
Date on which the thesis was submitted / produced: 19. 8. 2011
Identifier:
https://is.muni.cz/th/o6om2/
Thesis defence
- Date of defence: 30. 8. 2011
- Supervisor: prof. PhDr. Karel Pala, CSc.
- Reader: doc. RNDr. Pavel Smrž, Ph.D., Dr. Marco Baroni, RNDr. Pavel Pecina, Ph.D.
Citation record
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsDoctoral programme / field:
Informatics (4-years) / Informatics
Theses on a related topic
-
Corpora di apprendenti di italiano L2
Veronika Sýkorová -
Continuous automatic development of corpora from EU documents
Adil Khasenov -
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel -
Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer
Rastislav Papčo -
Corpora from reddit.com texts
Jan Brichta -
Continuous automatic development of European parliamentary corpora
Ota Mikušek -
Learner Translation Corpora in Translation Teaching: CELTraC Analysis and Applications
Kristýna Štěpánková