Bc. Samuel Špalek

Bakalářská práce

Evaluation of text tokenizers

Evaluation of text tokenizers
Anotace:
Táto práca detailne analyzuje rozdieli medzi dvoma tokenizérmi Unitok a Utok. Tokenizácia je podstatný krok v práci s naturálnym jazykom. Tokenizér rozdeľuje text na čo najmenšie zmysluplné elementy nazývané tokeny. Umožňuje to analyzovať elementy v kontexte ostatných elementov. Niektoré tokenizéry využívajú jednoduchú techniku rozdeľovania textu podla medzier. Zložitejšie a jazykovo zavislé prípady …více
Abstract:
This thesis presents a detailed analysis of the differences between Unitok and Utok, two tokenizers for natural language processing. The tokenization process is a crucial step in NLP text processing and involves breaking down text data into minimal, meaningful elements called tokens. This allows machines to analyze and understand the context of each element in relation to the others. While some tokenizers …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 15. 12. 2022

Obhajoba závěrečné práce

  • Obhajoba proběhla 30. 1. 2023
  • Vedoucí: doc. Mgr. Pavel Rychlý, Ph.D.
  • Oponent: RNDr. Vít Suchomel, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Bakalářský studijní program / obor:
Informatika / Informatika

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.