Bc. Ján Švec
Master's thesis
Inteligentní detekování struktury webu
Intelligent web-structure detection
Abstract:
Our thesis deals with design and development of a software for building a web corpora. It aims on the extraction of useful information from internet articles and discussions (author, title, date, main text) and what is more, remove so called boilerplate and other unnecessary parts. Our software downloads documents from the chosen domain by using a web crawler with the possibility of filtration. To …moreAbstract:
Práca sa zaoberá návrhom a následným vývojom programu na budovanie webových korpusov. Zameriava sa na extrakciu užitočných informácií z internetových článkov a diskusií (autor, nadpis, dátum, text) a zároveň odstránením tzv. boilerplate a iných nepotrebných častí. Program pomocou webového crawleru stiahne dokumenty z vybranej domény s možnosťou ich filtrácie. Pre detekciu štruktúry HTML (HyperText …more
Language used: Slovak
Date on which the thesis was submitted / produced: 8. 1. 2015
Identifier:
https://is.muni.cz/th/e78vd/
Thesis defence
- Date of defence: 10. 2. 2015
- Supervisor: RNDr. Jan Rygl
- Reader: RNDr. Vít Suchomel
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsMaster programme / field:
Applied Informatics / Applied Informatics
Theses on a related topic
- No theses on a related topic available.