Mgr. et Mgr. Vít Baisa, Ph.D.
Doctoral thesis
Byte Level Language Models
Byte Level Language Models
Abstract:
Většina technik jazykového modelování pracuje se slovy jako dále nedělitelnými jednotkami. Teprve nedávno bylo prokázáno, že modely pracující s daty na nižší úrovni (částmi slov: morfémy či znaky) mohou konkurovat technikám založeným na slovech. V této práci představuji tři techniky pracující s jazykovými daty na úrovni bytů, díky čemuž mohou být použity pro libovolná jazyková data bez potřeby předzpracování …moreAbstract:
Most language modeling techniques treat words as atomic units. Only recently it has been shown that models using lower level units (morphemes, characters or bytes) can be competitive with the word level approach in terms of perplexity and other performance metrics. In this thesis I introduce three techniques operating on byte level. Thanks to this they can be applied to any language data without a …more
Language used: English
Date on which the thesis was submitted / produced: 20. 6. 2016
Identifier:
https://is.muni.cz/th/en6ay/
Thesis defence
- Date of defence: 1. 11. 2016
- Supervisor: prof. PhDr. Karel Pala, CSc.
- Reader: doc. Dr. Ing. Jan Černocký, Assoc. Prof. Dr. Tomaž Erjavec
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsDoctoral programme / field:
Informatics (4-years) / Informatics
Theses on a related topic
-
Building NLP model for classifying short-tail conversational student’s query data
Kural Arasu Venkatesh