Bc. Adam Viktora

Bachelor's thesis

Modul stahovače internetu pro získání dynamicky generovaného obsahu webových stránek

A web crawler module for obtaining dynamically generated content of web pages
Abstract:
Tato bakalářská práce se zabývá problémem získávání užitečného textového obsahu z webových stránek, které generují obsah na straně klienta pomocí jazyka JavaScript. Práce je uskutečněna ve spolupráci s firmou Lexical Computing, která pro účely získávání textů z internetu využívá svůj vlastní crawler Spiderling. Ten však neumí vyhodnocovat skripty jazyka JavaScript. Praktická část spočívala v implementaci …more
Abstract:
This thesis is about extracting useful text from websites, which generate their content dynamically on a client with JavaScript. This project was done in cooperation with company Lexical Computing, which uses their own web crawler Spiderling for text extraction. However, this crawler cannot interpret JavaScript. Goal of the implementation part was creating a new module for Spiderling crawler, which …more
 
 
Language used: Czech
Date on which the thesis was submitted / produced: 15. 12. 2022

Thesis defence

  • Date of defence: 1. 2. 2023
  • Supervisor: RNDr. Vít Suchomel, Ph.D.
  • Reader: RNDr. Vojtěch Kovář, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / field:
Programming and development / Programming and development