Bc. Martin Šmíd

Bachelor's thesis

Textové korpusy ze závěrečných prací

Text corpora from theses
Abstract:
Cílem práce je vytvořit nástroj pro stahování závěrečných prací z Informačního systému a vybudovat z nich textové korpusy. První část práce přibližuje korpusovou lingvistiku a využití jazykových korpusů. Následuje popis problematiky rozpoznání jazyka, která je důležitá pro odfiltrování nežádoucích textů. Ve třetí části je popsána implementace navrženého programu.
Abstract:
The aim of this bachelor thesis is to create a tool for downloading students theses from the Information system and to build text corpora. The corpus linguistics field is described in the first part of this thesis. After that a description of a language identification follows, which is important for filtering unwanted texts. In the third part the description of the tool implementation is given.
 
 
Language used: Czech
Date on which the thesis was submitted / produced: 19. 5. 2016

Thesis defence

  • Date of defence: 23. 6. 2016
  • Supervisor: Mgr. et Mgr. Vít Baisa, Ph.D.
  • Reader: RNDr. Vít Suchomel

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / field:
Informatics / Artificial Intelligence and Natural Language Processing