Bc. Tomáš Bílek

Bachelor's thesis

Automatická detekce struktury webových komunikačních kanálů

Automatic structure detection of web communication channels
Abstract:
Práce se zabývá návrhem algoritmu a následným vývojem aplikace pro automatické detekování struktury dat z webových domén. Zaměřuje se na hledání data, nadpisu, autora a článku na českých zpravodajských serverech, blozích a podobně strukturovaných webových zdrojích. K hledání využívá vlastnosti textu a specifické značky ve zdrojovém kódu internetových stránek.
Abstract:
The thesis concerns the algorithm and development of the application for automatic structure detection from web domains. It focuses on finding date, title, author and article on Czech news servers, blogs and similarly structured web sources. It uses shallow text features and specific marks in source code of internet pages for searching.
 
 
Language used: Czech
Date on which the thesis was submitted / produced: 20. 5. 2013

Thesis defence

  • Date of defence: 17. 6. 2013
  • Supervisor: RNDr. Jan Rygl
  • Reader: Mgr. et Mgr. Vít Baisa, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / field:
Applied Informatics / Applied Informatics

Theses on a related topic