Removing Boilerplate and Duplicate Content from Web Corpora – RNDr. Jan Pomikálek, Ph.D.
RNDr. Jan Pomikálek, Ph.D.
Doctoral thesis
Removing Boilerplate and Duplicate Content from Web Corpora
Removing Boilerplate and Duplicate Content from Web Corpora
Anotácia:
V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních …viacAbstract:
In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate …viac
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 19. 8. 2011
Identifikátor:
https://is.muni.cz/th/o6om2/
Obhajoba závěrečné práce
- Obhajoba proběhla 30. 8. 2011
- Vedúci: prof. PhDr. Karel Pala, CSc.
- Oponent: doc. RNDr. Pavel Smrž, Ph.D., Dr. Marco Baroni, RNDr. Pavel Pecina, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsDoctoral programme / odbor:
Informatics (4-years) / Informatics
Práce na příbuzné téma
-
Corpora di apprendenti di italiano L2
Veronika Sýkorová -
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel -
Corpora from reddit.com texts
Jan Brichta -
Continuous automatic development of European parliamentary corpora
Ota Mikušek -
Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer
Rastislav Papčo -
Continuous automatic development of corpora from EU documents
Adil Khasenov -
Building Spam Free Web Corpora
Vít Suchomel