Bc. Samuel Špalek
Bakalářská práce
Evaluation of text tokenizers
Evaluation of text tokenizers
Anotace:
Táto práca detailne analyzuje rozdieli medzi dvoma tokenizérmi Unitok a Utok. Tokenizácia je podstatný krok v práci s naturálnym jazykom. Tokenizér rozdeľuje text na čo najmenšie zmysluplné elementy nazývané tokeny. Umožňuje to analyzovať elementy v kontexte ostatných elementov. Niektoré tokenizéry využívajú jednoduchú techniku rozdeľovania textu podla medzier. Zložitejšie a jazykovo zavislé prípady …víceAbstract:
This thesis presents a detailed analysis of the differences between Unitok and Utok, two tokenizers for natural language processing. The tokenization process is a crucial step in NLP text processing and involves breaking down text data into minimal, meaningful elements called tokens. This allows machines to analyze and understand the context of each element in relation to the others. While some tokenizers …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 15. 12. 2022
Identifikátor:
https://is.muni.cz/th/xkj6g/
Obhajoba závěrečné práce
- Obhajoba proběhla 30. 1. 2023
- Vedoucí: doc. Mgr. Pavel Rychlý, Ph.D.
- Oponent: RNDr. Vít Suchomel, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyBakalářský studijní program / obor:
Informatika / Informatika
Práce na příbuzné téma
- Žádné práce na příbuzné téma.