Modul stahovače internetu pro získání dynamicky generovaného obsahu webových stránek – Bc. Adam Viktora
Bc. Adam Viktora
Bachelor's thesis
Modul stahovače internetu pro získání dynamicky generovaného obsahu webových stránek
A web crawler module for obtaining dynamically generated content of web pages
Abstract:
Tato bakalářská práce se zabývá problémem získávání užitečného textového obsahu z webových stránek, které generují obsah na straně klienta pomocí jazyka JavaScript. Práce je uskutečněna ve spolupráci s firmou Lexical Computing, která pro účely získávání textů z internetu využívá svůj vlastní crawler Spiderling. Ten však neumí vyhodnocovat skripty jazyka JavaScript. Praktická část spočívala v implementaci …moreAbstract:
This thesis is about extracting useful text from websites, which generate their content dynamically on a client with JavaScript. This project was done in cooperation with company Lexical Computing, which uses their own web crawler Spiderling for text extraction. However, this crawler cannot interpret JavaScript. Goal of the implementation part was creating a new module for Spiderling crawler, which …more
Language used: Czech
Date on which the thesis was submitted / produced: 15. 12. 2022
Identifier:
https://is.muni.cz/th/tsk6n/
Thesis defence
- Date of defence: 1. 2. 2023
- Supervisor: RNDr. Vít Suchomel, Ph.D.
- Reader: RNDr. Vojtěch Kovář, Ph.D.
Citation record
ISO 690-compliant citation record:
VIKTORA, Adam. \textit{Modul stahovače internetu pro získání dynamicky generovaného obsahu webových stránek}. Online. Bachelor's thesis. Brno: Masaryk University, Faculty of Informatics. 2022. Available from: https://theses.cz/id/w1vl3j/.
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsBachelor programme / field:
Programming and development / Programming and development
Theses on a related topic
-
Vývoj webového OPC klienta
Jiří FAIST -
Web scraping
Michal Kozderka -
Analýza písomnej komunikácie v elektronickom obchode pomocou NLP
Veronika Letková -
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel -
System for advanced search in metadata from NLP tools
Norbert Bodnár -
Automating configuration of computers in NLP laboratory
František Buš -
Porovnání NLP služeb dostupných na trhu a jejich využití pomocí API
Jan Doležálek -
Porovnání NLP funkcionality self service BI nástrojů
Pavel Chalupa