Bc. Ján Švec

Master's thesis

Inteligentní detekování struktury webu

Intelligent web-structure detection
Abstract:
Our thesis deals with design and development of a software for building a web corpora. It aims on the extraction of useful information from internet articles and discussions (author, title, date, main text) and what is more, remove so called boilerplate and other unnecessary parts. Our software downloads documents from the chosen domain by using a web crawler with the possibility of filtration. To …viac
Abstract:
Práca sa zaoberá návrhom a následným vývojom programu na budovanie webových korpusov. Zameriava sa na extrakciu užitočných informácií z internetových článkov a diskusií (autor, nadpis, dátum, text) a zároveň odstránením tzv. boilerplate a iných nepotrebných častí. Program pomocou webového crawleru stiahne dokumenty z vybranej domény s možnosťou ich filtrácie. Pre detekciu štruktúry HTML (HyperText …viac
 
 
Jazyk práce: Slovak
Datum vytvoření / odevzdání či podání práce: 8. 1. 2015

Obhajoba závěrečné práce

  • Obhajoba proběhla 10. 2. 2015
  • Vedúci: RNDr. Jan Rygl
  • Oponent: RNDr. Vít Suchomel

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / odbor:
Applied Informatics / Applied Informatics

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.