Bc. et Bc. Vít Baisa, Ph.D.

Master's thesis

Web content cleaning

Web content cleaning
Abstract:
V rámci předkládané práce se zabýváme čištěním webového obsahu, to jest jednak extrakcí užitečných textových částí webových stránek a jednak odstraněním tzv. boilerplate a dalšího irrelevantního textového materiálu. Výstup této procedury slouží jako zdroj dat pro další zpracování při budování textových korpusů. Pro reprezentaci HTML (HyperText Markup Language) struktury webových stránek používáme DOM …more
Abstract:
In this thesis we deal with web content cleaning, i.e. on the one hand extracting useful text parts from web pages and on the other hand removing so-called boilerplate and other irrelevant text material. An output of this procedure serves as a source of data for further processing in building text corpora. We use DOM (Document Object Model) representation of HTML (HyperText Markup Language) structure …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 22. 5. 2009

Thesis defence

  • Date of defence: 29. 6. 2009
  • Supervisor: doc. Mgr. Pavel Rychlý, Ph.D.
  • Reader: RNDr. Radim Řehůřek, Ph.D., Mgr. Petr Tobola, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / field:
Informatics / Informatics

Theses on a related topic

  • No theses on a related topic available.