Bc. Martin Fraňo

Master's thesis

Segmentace HTML dokumentu na logické části

Segmentation of an HTML document into logical parts
Abstract:
The most of webpages besides relavant data also contain certain amount of useless information, for example in terms of user searching. The main goal of this work is to design an algorithm applicable for extraction of the main content on a webpage.
Abstract:
Väčšina webových stránok obsahuje okrem hlavnej a podstatnej informácie aj množstvo nesúvisiacich dát, ktoré napríklad pri vyhľadávaní nie sú podstatné. Cieľom práce je navrhnúť algoritmus na extrahovanie práve hlavného obsahu webovej stránky.
 
 
Language used: Slovak
Date on which the thesis was submitted / produced: 25. 5. 2009

Thesis defence

  • Date of defence: 29. 6. 2009
  • Supervisor: doc. Mgr. Pavel Rychlý, Ph.D.
  • Reader: RNDr. Radim Řehůřek, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / field:
Applied Informatics / Applied Informatics

Theses on a related topic