Removing Boilerplate and Duplicate Content from Web Corpora – RNDr. Jan Pomikálek, Ph.D.
RNDr. Jan Pomikálek, Ph.D.
Disertační práce
Removing Boilerplate and Duplicate Content from Web Corpora
Removing Boilerplate and Duplicate Content from Web Corpora
Anotace:
V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních …víceAbstract:
In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 19. 8. 2011
Identifikátor:
https://is.muni.cz/th/o6om2/
Obhajoba závěrečné práce
- Obhajoba proběhla 30. 8. 2011
- Vedoucí: prof. PhDr. Karel Pala, CSc.
- Oponent: doc. RNDr. Pavel Smrž, Ph.D., Dr. Marco Baroni, RNDr. Pavel Pecina, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyDoktorský studijní program / obor:
Informatika (čtyřleté) / Informatika
Práce na příbuzné téma
-
Corpora di apprendenti di italiano L2
Veronika Sýkorová -
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel -
Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer
Rastislav Papčo -
Corpora from reddit.com texts
Jan Brichta -
Continuous automatic development of corpora from EU documents
Adil Khasenov -
Continuous automatic development of European parliamentary corpora
Ota Mikušek -
Building Spam Free Web Corpora
Vít Suchomel