Bc. Adéla Štromajerová
Bachelor's thesis
Parallel Corpus from Wikipedia
Parallel Corpus from Wikipedia
Abstract:
Tato práce se zabývá tvorbou paralelního korpusu z Wikipedie. Zaměřuje se na anglicko-český pár, ale popsaný proces lze aplikovat i na jiné jazykové páry Wikipedie. Korpus sestává z českých a anglických článků z Wikipedie takových, že české články vznikly překladem těch anglických. Tyto články byly staženy, z textů byly vyextrahovány paralelní věty a výsledná data byla použita jako zdrojové texty korpusu …moreAbstract:
This thesis deals with the process of creating a parallel corpus from Wikipedia. It is focused on the English-Czech pair, however, the same steps can be followed when creating a parallel corpus also for other language versions of Wikipedia. The corpus consists of Czech and English Wikipedia articles, the Czech ones being translations of the English ones. Such articles were retrieved, parallel sentences …more
Language used: English
Date on which the thesis was submitted / produced: 24. 5. 2016
Identifier:
https://is.muni.cz/th/jtj64/
Thesis defence
- Date of defence: 23. 6. 2016
- Supervisor: Mgr. et Mgr. Vít Baisa, Ph.D.
- Reader: RNDr. Miloš Jakubíček, Ph.D.
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsBachelor programme / field:
Informatics / Artificial Intelligence and Natural Language Processing
Theses on a related topic
-
Common Translation Errors in Wikipedia Articles: A Corpus-based Study
Adéla Štromajerová