Bc. Samuel Gazda

Diplomová práce

Deriving the Meaning of Out-of-Vocabulary Words

Deriving the Meaning of Out-of-Vocabulary Words
Anotace:
Táto práca sa zaoberá klasifikáciou a normalizáciou slov mimo slovnej zásoby (out-of-vocabulary words alebo OOV words). Predkladá dva typy klasifikátorov. Prvý je založený na postupnom vyhodnocovaní poskytnutých pravidiel a druhý používa jazykové modely postavené na architektúre RoBERTa. Obsahuje anotovaný dataset pozostávajúci z OOV slov a ich kontextov na trénovanie a ohodnotenie predstavených prístupov …více
Abstract:
This thesis deals with the classification and the normalization of out-of-vocabulary (OOV) words. It presents two types of classifiers, one based on the sequential evaluation of given rules and the second one based on the RoBERTa-based language models. It contains an annotated dataset consisting of OOV words and their contexts to train and evaluate the presented approaches. Finally, it presents a modular …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 21. 5. 2024

Obhajoba závěrečné práce

  • Obhajoba proběhla 19. 6. 2024
  • Vedoucí: doc. RNDr. Aleš Horák, Ph.D.
  • Oponent: RNDr. Pavel Šmerk, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Magisterský studijní program / obor:
Umělá inteligence a zpracování dat / Strojové učení a umělá inteligence

Práce na příbuzné téma

  • Žádné práce na příbuzné téma.