Bc. Ján Švec

Diplomová práce

Inteligentní detekování struktury webu

Intelligent web-structure detection
Abstract:
Our thesis deals with design and development of a software for building a web corpora. It aims on the extraction of useful information from internet articles and discussions (author, title, date, main text) and what is more, remove so called boilerplate and other unnecessary parts. Our software downloads documents from the chosen domain by using a web crawler with the possibility of filtration. To …více
Abstract:
Práca sa zaoberá návrhom a následným vývojom programu na budovanie webových korpusov. Zameriava sa na extrakciu užitočných informácií z internetových článkov a diskusií (autor, nadpis, dátum, text) a zároveň odstránením tzv. boilerplate a iných nepotrebných častí. Program pomocou webového crawleru stiahne dokumenty z vybranej domény s možnosťou ich filtrácie. Pre detekciu štruktúry HTML (HyperText …více
 
 
Jazyk práce: slovenština
Datum vytvoření / odevzdání či podání práce: 8. 1. 2015

Obhajoba závěrečné práce

  • Obhajoba proběhla 10. 2. 2015
  • Vedoucí: RNDr. Jan Rygl
  • Oponent: RNDr. Vít Suchomel

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Magisterský studijní program / obor:
Aplikovaná informatika / Aplikovaná informatika

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.