Bc. Samuel Špalek

Bachelor's thesis

Evaluation of text tokenizers

Evaluation of text tokenizers
Anotácia:
Táto práca detailne analyzuje rozdieli medzi dvoma tokenizérmi Unitok a Utok. Tokenizácia je podstatný krok v práci s naturálnym jazykom. Tokenizér rozdeľuje text na čo najmenšie zmysluplné elementy nazývané tokeny. Umožňuje to analyzovať elementy v kontexte ostatných elementov. Niektoré tokenizéry využívajú jednoduchú techniku rozdeľovania textu podla medzier. Zložitejšie a jazykovo zavislé prípady …viac
Abstract:
This thesis presents a detailed analysis of the differences between Unitok and Utok, two tokenizers for natural language processing. The tokenization process is a crucial step in NLP text processing and involves breaking down text data into minimal, meaningful elements called tokens. This allows machines to analyze and understand the context of each element in relation to the others. While some tokenizers …viac
 
 
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 15. 12. 2022

Obhajoba závěrečné práce

  • Obhajoba proběhla 30. 1. 2023
  • Vedúci: doc. Mgr. Pavel Rychlý, Ph.D.
  • Oponent: RNDr. Vít Suchomel, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / odbor:
Informatics / Informatics

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.