Inteligentní detekování struktury webu – Bc. Ján Švec
Bc. Ján Švec
Master's thesis
Inteligentní detekování struktury webu
Intelligent web-structure detection
Abstract:
Our thesis deals with design and development of a software for building a web corpora. It aims on the extraction of useful information from internet articles and discussions (author, title, date, main text) and what is more, remove so called boilerplate and other unnecessary parts. Our software downloads documents from the chosen domain by using a web crawler with the possibility of filtration. To …viacAbstract:
Práca sa zaoberá návrhom a následným vývojom programu na budovanie webových korpusov. Zameriava sa na extrakciu užitočných informácií z internetových článkov a diskusií (autor, nadpis, dátum, text) a zároveň odstránením tzv. boilerplate a iných nepotrebných častí. Program pomocou webového crawleru stiahne dokumenty z vybranej domény s možnosťou ich filtrácie. Pre detekciu štruktúry HTML (HyperText …viac
Jazyk práce: Slovak
Datum vytvoření / odevzdání či podání práce: 8. 1. 2015
Identifikátor:
https://is.muni.cz/th/e78vd/
Obhajoba závěrečné práce
- Obhajoba proběhla 10. 2. 2015
- Vedúci: RNDr. Jan Rygl
- Oponent: RNDr. Vít Suchomel
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsMaster programme / odbor:
Applied Informatics / Applied Informatics
Práce na příbuzné téma
- Žádné práce na příbuzné téma.