Vyhodnocení nástroje Justext pro čištění webových stránek – Bc. Kryštof Zamazal
Bc. Kryštof Zamazal
Bakalářská práce
Vyhodnocení nástroje Justext pro čištění webových stránek
Evaluation of web page cleaning tool Justext
Anotace:
Tato práce se věnuje zkoumání nástroje Justext, který slouží pro odstranění boilerplate textu, což je důležitá součást tvoření webových jazykových korpusů, které hrají významnou roli v lexikografii. Nejdříve se provádí jeho evaluace na datových sadách, následně jsou pak podle této evaluace optimalizovány jeho parametry. Dále je provedeno i srovnání tohoto nástroje s dalším nástrojem – BoilerNet. Nástroje …víceAbstract:
This work focuses on the examination of the Justext tool used for the removal of boilerplate text, which is an important part of creating web text corpora that play an important role in lexicography. First, its evaluation is carried out on data sets, then its parameters are optimized using this evaluation as the objective function. After that Justext is compared to another tool – BoilerNet. The tools …více
Jazyk práce: čeština
Datum vytvoření / odevzdání či podání práce: 19. 12. 2023
Identifikátor:
https://is.muni.cz/th/pd3we/
Obhajoba závěrečné práce
- Obhajoba proběhla 16. 2. 2024
- Vedoucí: RNDr. Vít Suchomel, Ph.D.
- Oponent: RNDr. Vojtěch Kovář, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyBakalářský studijní program / obor:
Informatika / Informatika
Práce na příbuzné téma
-
Chybový korpus z Wikipedie
Jiří Kletečka -
Parallel Corpus in Sketch Engine: Creation and Data Mining
Magdaléna VYVIJALOVÁ