Removing Boilerplate and Duplicate Content from Web Corpora

Pomikálek, Jan

EN SKPřihlásit se Přihlásit se (EduID)

Theses.cz

Theses nqo9nn

Removing Boilerplate and Duplicate Content from Web Corpora – RNDr. Jan Pomikálek, Ph.D.

RNDr. Jan Pomikálek, Ph.D.

Disertační práce

Removing Boilerplate and Duplicate Content from Web Corpora

Anotace:

V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních …více

Abstract:

In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate …více

Keywords

corpora boilerplate duplicates near-duplicates

Jazyk práce: angličtina

Datum vytvoření / odevzdání či podání práce: 19. 8. 2011

Identifikátor: https://is.muni.cz/th/o6om2/

Obhajoba závěrečné práce

Obhajoba proběhla 30. 8. 2011
Vedoucí: prof. PhDr. Karel Pala, CSc.
Oponent: doc. RNDr. Pavel Smrž, Ph.D., Dr. Marco Baroni, RNDr. Pavel Pecina, Ph.D.

Citační záznam

Citovat tuto práci

Citace dle ISO 690:

POMIKÁLEK, Jan. \textit{Removing Boilerplate and Duplicate Content from Web Corpora}. Online. Disertační práce. Brno: Masarykova univerzita, Fakulta informatiky. 2011. Dostupné z: https://theses.cz/id/nqo9nn/.

{{Citace kvalifikační práce
 | příjmení = Pomikálek
 | jméno = Jan
 | instituce = Masarykova univerzita, Fakulta informatiky
 | titul = Removing Boilerplate and Duplicate Content from Web Corpora
 | url = https://theses.cz/id/nqo9nn/
 | typ práce = Disertační práce
 | vedoucí = prof. PhDr. Karel Pala, CSc.
 | rok = 2011
 | počet stran =
 | strany =
 | citace = 2026-06-05
 | poznámka =
 | jazyk = 
}}

Plný text práce

Obsah online archivu závěrečné práce

Zveřejněno v Theses:

světu

Jak jinak získat přístup k textu

Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Odkaz na adresář do lokálního úložiště instituce

Masarykova univerzita

Fakulta informatiky

Doktorský studijní program / obor:
Informatika (čtyřleté) / Informatika

Práce na příbuzné téma

Corpora di apprendenti di italiano L2
Veronika Sýkorová
Corpora from reddit.com texts
Jan Brichta
Continuous automatic development of corpora from EU documents
Adil Khasenov
Continuous automatic development of European parliamentary corpora
Ota Mikušek
Topic Classification for Web Corpora: Method Comparison and Crosslingual Transfer
Rastislav Papčo
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel
Learner Translation Corpora in Translation Teaching: CELTraC Analysis and Applications
Kristýna Štěpánková
On Metaphorical and Literal Wars: Evidence from Newspaper Corpora
Gabriela CZYŽOVÁ

Všechny práce