Vyhodnocení nástroje Justext pro čištění webových stránek – Bc. Kryštof Zamazal
Bc. Kryštof Zamazal
Bachelor's thesis
Vyhodnocení nástroje Justext pro čištění webových stránek
Evaluation of web page cleaning tool Justext
Abstract:
Tato práce se věnuje zkoumání nástroje Justext, který slouží pro odstranění boilerplate textu, což je důležitá součást tvoření webových jazykových korpusů, které hrají významnou roli v lexikografii. Nejdříve se provádí jeho evaluace na datových sadách, následně jsou pak podle této evaluace optimalizovány jeho parametry. Dále je provedeno i srovnání tohoto nástroje s dalším nástrojem – BoilerNet. Nástroje …moreAbstract:
This work focuses on the examination of the Justext tool used for the removal of boilerplate text, which is an important part of creating web text corpora that play an important role in lexicography. First, its evaluation is carried out on data sets, then its parameters are optimized using this evaluation as the objective function. After that Justext is compared to another tool – BoilerNet. The tools …more
Language used: Czech
Date on which the thesis was submitted / produced: 19. 12. 2023
Identifier:
https://is.muni.cz/th/pd3we/
Thesis defence
- Date of defence: 16. 2. 2024
- Supervisor: RNDr. Vít Suchomel, Ph.D.
- Reader: RNDr. Vojtěch Kovář, Ph.D.
Citation record
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsBachelor programme / field:
Informatics / Informatics
Theses on a related topic
-
Chybový korpus z Wikipedie
Jiří Kletečka -
Parallel Corpus in Sketch Engine: Creation and Data Mining
Magdaléna VYVIJALOVÁ