Bc. Samuel Špalek
Bachelor's thesis
Evaluation of text tokenizers
Evaluation of text tokenizers
Anotácia:
Táto práca detailne analyzuje rozdieli medzi dvoma tokenizérmi Unitok a Utok. Tokenizácia je podstatný krok v práci s naturálnym jazykom. Tokenizér rozdeľuje text na čo najmenšie zmysluplné elementy nazývané tokeny. Umožňuje to analyzovať elementy v kontexte ostatných elementov. Niektoré tokenizéry využívajú jednoduchú techniku rozdeľovania textu podla medzier. Zložitejšie a jazykovo zavislé prípady …viacAbstract:
This thesis presents a detailed analysis of the differences between Unitok and Utok, two tokenizers for natural language processing. The tokenization process is a crucial step in NLP text processing and involves breaking down text data into minimal, meaningful elements called tokens. This allows machines to analyze and understand the context of each element in relation to the others. While some tokenizers …viac
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 15. 12. 2022
Identifikátor:
https://is.muni.cz/th/xkj6g/
Obhajoba závěrečné práce
- Obhajoba proběhla 30. 1. 2023
- Vedúci: doc. Mgr. Pavel Rychlý, Ph.D.
- Oponent: RNDr. Vít Suchomel, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsBachelor programme / odbor:
Informatics / Informatics
Práce na příbuzné téma
- Žádné práce na příbuzné téma.