Bc. Martin Fraňo
Master's thesis
Segmentace HTML dokumentu na logické části
Segmentation of an HTML document into logical parts
Abstract:
The most of webpages besides relavant data also contain certain amount of useless information, for example in terms of user searching. The main goal of this work is to design an algorithm applicable for extraction of the main content on a webpage.Abstract:
Väčšina webových stránok obsahuje okrem hlavnej a podstatnej informácie aj množstvo nesúvisiacich dát, ktoré napríklad pri vyhľadávaní nie sú podstatné. Cieľom práce je navrhnúť algoritmus na extrahovanie práve hlavného obsahu webovej stránky.
Language used: Slovak
Date on which the thesis was submitted / produced: 25. 5. 2009
Identifier:
https://is.muni.cz/th/w5r53/
Thesis defence
- Date of defence: 29. 6. 2009
- Supervisor: doc. Mgr. Pavel Rychlý, Ph.D.
- Reader: RNDr. Radim Řehůřek, Ph.D.
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsMaster programme / field:
Applied Informatics / Applied Informatics
Theses on a related topic
-
Web content cleaning
Vít Baisa