Bc. Ján Švec

Master's thesis

Inteligentní detekování struktury webu

Intelligent web-structure detection
Abstract:
Our thesis deals with design and development of a software for building a web corpora. It aims on the extraction of useful information from internet articles and discussions (author, title, date, main text) and what is more, remove so called boilerplate and other unnecessary parts. Our software downloads documents from the chosen domain by using a web crawler with the possibility of filtration. To …more
Abstract:
Práca sa zaoberá návrhom a následným vývojom programu na budovanie webových korpusov. Zameriava sa na extrakciu užitočných informácií z internetových článkov a diskusií (autor, nadpis, dátum, text) a zároveň odstránením tzv. boilerplate a iných nepotrebných častí. Program pomocou webového crawleru stiahne dokumenty z vybranej domény s možnosťou ich filtrácie. Pre detekciu štruktúry HTML (HyperText …more
 
 
Language used: Slovak
Date on which the thesis was submitted / produced: 8. 1. 2015

Thesis defence

  • Date of defence: 10. 2. 2015
  • Supervisor: RNDr. Jan Rygl
  • Reader: RNDr. Vít Suchomel

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / field:
Applied Informatics / Applied Informatics

Theses on a related topic

  • No theses on a related topic available.