Bc. et Bc. Vít Baisa, Ph.D.
Master's thesis
Web content cleaning
Web content cleaning
Abstract:
V rámci předkládané práce se zabýváme čištěním webového obsahu, to jest jednak extrakcí užitečných textových částí webových stránek a jednak odstraněním tzv. boilerplate a dalšího irrelevantního textového materiálu. Výstup této procedury slouží jako zdroj dat pro další zpracování při budování textových korpusů. Pro reprezentaci HTML (HyperText Markup Language) struktury webových stránek používáme DOM …moreAbstract:
In this thesis we deal with web content cleaning, i.e. on the one hand extracting useful text parts from web pages and on the other hand removing so-called boilerplate and other irrelevant text material. An output of this procedure serves as a source of data for further processing in building text corpora. We use DOM (Document Object Model) representation of HTML (HyperText Markup Language) structure …more
Language used: English
Date on which the thesis was submitted / produced: 22. 5. 2009
Identifier:
https://is.muni.cz/th/o6ba3/
Thesis defence
- Date of defence: 29. 6. 2009
- Supervisor: doc. Mgr. Pavel Rychlý, Ph.D.
- Reader: RNDr. Radim Řehůřek, Ph.D., Mgr. Petr Tobola, Ph.D.
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsMaster programme / field:
Informatics / Informatics
Theses on a related topic
- No theses on a related topic available.