RNDr. Jan Pomikálek, Ph.D.

Doctoral thesis

Removing Boilerplate and Duplicate Content from Web Corpora

Removing Boilerplate and Duplicate Content from Web Corpora
Abstract:
V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních …more
Abstract:
In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 19. 8. 2011

Thesis defence

  • Date of defence: 30. 8. 2011
  • Supervisor: prof. PhDr. Karel Pala, CSc.
  • Reader: doc. RNDr. Pavel Smrž, Ph.D., Dr. Marco Baroni, RNDr. Pavel Pecina, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Doctoral programme / field:
Informatics (4-years) / Informatics