Bc. Josef Plch

Master's thesis

Probabilistic tool for word segmentation to grammar-based units

Probabilistic tool for word segmentation to grammar-based units
Anotácia:
Dělit, či nedělit, to je, oč tu běží. Se Substitusem nemusí být svět morfémů a tokenů tak černobílý: představujeme pravděpodobnostní dělič slov, který pro každou pozici ve slově vrátí pravděpodobnost dělení, společně s gramatickým zdůvodněním. Algoritmus je nezávislý na jazyce i abecedě a nevyžaduje trénování (i když to může pomoci). Je implementován v Javě 8.
Abstract:
To split, or not to split, that is the question. With Substitus, the world of morphemes and tokens does not have to be black and white: we introduce a probabilistic word segmenter that returns a probability of split for each position, along with a grammar-based substantiation. The algorithm is both language- and alphabet-independent and it does not require any training (although it may help). It is …viac
 
 
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 12. 12. 2019

Obhajoba závěrečné práce

  • Obhajoba proběhla 3. 2. 2020
  • Vedúci: doc. RNDr. Aleš Horák, Ph.D.
  • Oponent: RNDr. Pavel Šmerk, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / odbor:
Informatics / Artificial Intelligence and Natural Language Processing