Bc. et Bc. Vít Baisa, Ph.D.
Master's thesis
Web content cleaning
Web content cleaning
Anotácia:
V rámci předkládané práce se zabýváme čištěním webového obsahu, to jest jednak extrakcí užitečných textových částí webových stránek a jednak odstraněním tzv. boilerplate a dalšího irrelevantního textového materiálu. Výstup této procedury slouží jako zdroj dat pro další zpracování při budování textových korpusů. Pro reprezentaci HTML (HyperText Markup Language) struktury webových stránek používáme DOM …viacAbstract:
In this thesis we deal with web content cleaning, i.e. on the one hand extracting useful text parts from web pages and on the other hand removing so-called boilerplate and other irrelevant text material. An output of this procedure serves as a source of data for further processing in building text corpora. We use DOM (Document Object Model) representation of HTML (HyperText Markup Language) structure …viac
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 22. 5. 2009
Identifikátor:
https://is.muni.cz/th/o6ba3/
Obhajoba závěrečné práce
- Obhajoba proběhla 29. 6. 2009
- Vedúci: doc. Mgr. Pavel Rychlý, Ph.D.
- Oponent: RNDr. Radim Řehůřek, Ph.D., Mgr. Petr Tobola, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsMaster programme / odbor:
Informatics / Informatics
Práce na příbuzné téma
- Žádné práce na příbuzné téma.