RNDr. Jan Pomikálek, Ph.D.

Doctoral thesis

Removing Boilerplate and Duplicate Content from Web Corpora

Removing Boilerplate and Duplicate Content from Web Corpora
Anotácia:
V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních …viac
Abstract:
In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate …viac
 
 
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 19. 8. 2011

Obhajoba závěrečné práce

  • Obhajoba proběhla 30. 8. 2011
  • Vedúci: prof. PhDr. Karel Pala, CSc.
  • Oponent: doc. RNDr. Pavel Smrž, Ph.D., Dr. Marco Baroni, RNDr. Pavel Pecina, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Doctoral programme / odbor:
Informatics (4-years) / Informatics