Bc. et Bc. Vít Baisa, Ph.D.

Master's thesis

Web content cleaning

Web content cleaning
Anotácia:
V rámci předkládané práce se zabýváme čištěním webového obsahu, to jest jednak extrakcí užitečných textových částí webových stránek a jednak odstraněním tzv. boilerplate a dalšího irrelevantního textového materiálu. Výstup této procedury slouží jako zdroj dat pro další zpracování při budování textových korpusů. Pro reprezentaci HTML (HyperText Markup Language) struktury webových stránek používáme DOM …viac
Abstract:
In this thesis we deal with web content cleaning, i.e. on the one hand extracting useful text parts from web pages and on the other hand removing so-called boilerplate and other irrelevant text material. An output of this procedure serves as a source of data for further processing in building text corpora. We use DOM (Document Object Model) representation of HTML (HyperText Markup Language) structure …viac
 
 
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 22. 5. 2009

Obhajoba závěrečné práce

  • Obhajoba proběhla 29. 6. 2009
  • Vedúci: doc. Mgr. Pavel Rychlý, Ph.D.
  • Oponent: RNDr. Radim Řehůřek, Ph.D., Mgr. Petr Tobola, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / odbor:
Informatics / Informatics

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.