Mgr. et Mgr. Vít Baisa, Ph.D.

Doctoral thesis

Byte Level Language Models

Byte Level Language Models
Abstract:
Většina technik jazykového modelování pracuje se slovy jako dále nedělitelnými jednotkami. Teprve nedávno bylo prokázáno, že modely pracující s daty na nižší úrovni (částmi slov: morfémy či znaky) mohou konkurovat technikám založeným na slovech. V této práci představuji tři techniky pracující s jazykovými daty na úrovni bytů, díky čemuž mohou být použity pro libovolná jazyková data bez potřeby předzpracování …more
Abstract:
Most language modeling techniques treat words as atomic units. Only recently it has been shown that models using lower level units (morphemes, characters or bytes) can be competitive with the word level approach in terms of perplexity and other performance metrics. In this thesis I introduce three techniques operating on byte level. Thanks to this they can be applied to any language data without a …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 20. 6. 2016

Thesis defence

  • Date of defence: 1. 11. 2016
  • Supervisor: prof. PhDr. Karel Pala, CSc.
  • Reader: doc. Dr. Ing. Jan Černocký, Assoc. Prof. Dr. Tomaž Erjavec

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Doctoral programme / field:
Informatics (4-years) / Informatics

Theses on a related topic