Bc. Josef Plch

Master's thesis

Probabilistic tool for word segmentation to grammar-based units

Probabilistic tool for word segmentation to grammar-based units
Abstract:
Dělit, či nedělit, to je, oč tu běží. Se Substitusem nemusí být svět morfémů a tokenů tak černobílý: představujeme pravděpodobnostní dělič slov, který pro každou pozici ve slově vrátí pravděpodobnost dělení, společně s gramatickým zdůvodněním. Algoritmus je nezávislý na jazyce i abecedě a nevyžaduje trénování (i když to může pomoci). Je implementován v Javě 8.
Abstract:
To split, or not to split, that is the question. With Substitus, the world of morphemes and tokens does not have to be black and white: we introduce a probabilistic word segmenter that returns a probability of split for each position, along with a grammar-based substantiation. The algorithm is both language- and alphabet-independent and it does not require any training (although it may help). It is …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 12. 12. 2019

Thesis defence

  • Date of defence: 3. 2. 2020
  • Supervisor: doc. RNDr. Aleš Horák, Ph.D.
  • Reader: RNDr. Pavel Šmerk, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / field:
Informatics / Artificial Intelligence and Natural Language Processing