Bc. Adéla Štromajerová

Bachelor's thesis

Parallel Corpus from Wikipedia

Parallel Corpus from Wikipedia
Abstract:
Tato práce se zabývá tvorbou paralelního korpusu z Wikipedie. Zaměřuje se na anglicko-český pár, ale popsaný proces lze aplikovat i na jiné jazykové páry Wikipedie. Korpus sestává z českých a anglických článků z Wikipedie takových, že české články vznikly překladem těch anglických. Tyto články byly staženy, z textů byly vyextrahovány paralelní věty a výsledná data byla použita jako zdrojové texty korpusu …more
Abstract:
This thesis deals with the process of creating a parallel corpus from Wikipedia. It is focused on the English-Czech pair, however, the same steps can be followed when creating a parallel corpus also for other language versions of Wikipedia. The corpus consists of Czech and English Wikipedia articles, the Czech ones being translations of the English ones. Such articles were retrieved, parallel sentences …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 24. 5. 2016

Thesis defence

  • Date of defence: 23. 6. 2016
  • Supervisor: Mgr. et Mgr. Vít Baisa, Ph.D.
  • Reader: RNDr. Miloš Jakubíček, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / field:
Informatics / Artificial Intelligence and Natural Language Processing

Theses on a related topic