Bc. et Bc. Vít Baisa, Ph.D.

Diplomová práce

Web content cleaning

Web content cleaning
Anotace:
V rámci předkládané práce se zabýváme čištěním webového obsahu, to jest jednak extrakcí užitečných textových částí webových stránek a jednak odstraněním tzv. boilerplate a dalšího irrelevantního textového materiálu. Výstup této procedury slouží jako zdroj dat pro další zpracování při budování textových korpusů. Pro reprezentaci HTML (HyperText Markup Language) struktury webových stránek používáme DOM …více
Abstract:
In this thesis we deal with web content cleaning, i.e. on the one hand extracting useful text parts from web pages and on the other hand removing so-called boilerplate and other irrelevant text material. An output of this procedure serves as a source of data for further processing in building text corpora. We use DOM (Document Object Model) representation of HTML (HyperText Markup Language) structure …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 22. 5. 2009

Obhajoba závěrečné práce

  • Obhajoba proběhla 29. 6. 2009
  • Vedoucí: doc. Mgr. Pavel Rychlý, Ph.D.
  • Oponent: RNDr. Radim Řehůřek, Ph.D., Mgr. Petr Tobola, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Magisterský studijní program / obor:
Informatika / Informatika

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.