Theses 

Removing Boilerplate and Duplicate Content from Web Corpora – RNDr. Jan Pomikálek, Ph.D.

česky | in English | slovensky

Section:
Use to change section. Address within IS:

RNDr. Jan Pomikálek, Ph.D.

Doctoral thesis

Removing Boilerplate and Duplicate Content from Web Corpora

Removing Boilerplate and Duplicate Content from Web Corpora

Abstract: V posledních letech se Web stal oblíbeným zdrojem textových dat pro lingvistický výzkum. Web poskytuje obrovské množství textů v řadě jazyků. Nicméně, aby bylo možné z Webu vytvářet kolekce (textové korpusy) vhodné pro aplikaci v oblasti zpracování přirozeného jazyka, je třeba vyřešit řadu problémů. Tato práce řeší dva z nich: odstraňování šablon a odstraňování duplicitních a podobných (téměř duplicitních) dat. Na většině webových stránek je hlavní obsah zasazen do šablony, která může obsahovat např. navigační linky, reklamy, hlavičky a patičky apod. Pokud bychom texty z šablon zahrnuli do korpusu, výsledkem může být nadměrný výskyt slov typu domů, hledej, tisk apod. Tato práce poskytuje přehled běžně používaných technik pro odstraňování šabon a rovněž nabízí nový heuristický přístup k tomuto problému. Práce srovnává navržnou metodu s aktuálními algoritmy na dostupných datových kolekcích. Mnoho textů se na Webu vyskytuje vícenásobně (např. zrcadlené stránky, revize dokumentů, citace v diskuzních fórech apod.). Duplicitní data narušují statistické údaje odvozené z korpusů a způsobují potíže uživatelům, kteří ve webových korpusech hledají lingvistické informace. Problém identifikace duplicitních a blízkých webových stránek byl již podrobně studován v kontextu webových vyhledávačů. Nicméně problém je zde typicky omezen pouze na identifikaci téměř totožných dokumentů. Dvojice webových stránek, které obsahují v nezanedbatelném množství jak identické části, tak i části rozdílné, nejsou webovými vyhledávači považovány za blízké. V oblasti textových korpusů jsou ovšem zdrojem problémů jakékoliv duplicity. Vzhledem k tomu, že identifikaci podobností střední úrovně ve velkých textových kolekcích zatím ve vědeckých kruzích nebylo věnováno příliš pozornosti, jedním z cílů této práce je zaplnit tuto mezeru.

Abstract: In the recent years, the Web has become a popular source of textual data for linguistic research. The Web provides an extremely large volume of texts in many languages. However, a number of problems have to be resolved in order to create collections (text corpora) which are appropriate for application in natural language processing. In this work, two related problems are addressed: cleaning a boilerplate and removing duplicate and near-duplicate content from Web data. On most Web pages, the main content is accompanied by so-called boilerplate content, such as navigation links, advertisements, headers and footers. Including the boilerplate in text corpora results in an undesirable over-representation of some common boilerplate words and phrases, such as home, search, print, etc. This work provides an overview of commonly used boilerplate cleaning techniques and presents a novel heuristic based approach to this problem. The method is compared with other state-of-art algorithms on available data sets. Many texts on the Web exist in multiple instances (e.g. mirrored websites, document revisions, quotations in discussion forums, etc). Duplicate data distorts corpus statistics and causes difficulties to users who search for linguistic data in Web corpora. Many researchers have addressed the problem of identifying duplicate and near-duplicate Web pages in the context of Web search engines. However, the problem is typically limited to identifying almost identical documents. Pairs of Web pages which contain significant amounts of both identical and different content are not considered near-duplicates by search engines. For text corpora, on the other hand, any duplicated data constitutes a problem. Since identifying an intermediate level of duplication in large text collections has not yet received much attention, this work aims to fill this gap.

Keywords: corpora, boilerplate, duplicates, near-duplicates

Language used: English

Thesis defence

  • Date of defence: 30. 8. 2011
  • Supervisor: prof. PhDr. Karel Pala, CSc.
  • Reader: doc. RNDr. Pavel Smrž, Ph.D., Dr. Marco Baroni, RNDr. Pavel Pecina, Ph.D.

Citation record

ISO 690-compliant citation record: LaTeX | HTML | text | BibTeX | Wikipedie

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Složka Reference to the local database directory of the institution
metadataTheses.xml metadataTheses.xml
Other ways of accessing the text

Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Other references 


Go to top | Current date and time: 23. 10. 2018 16:14, Week 43 (odd)

Privacy

Contact: theses(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz