Bc. Adéla Štromajerová

Bachelor's thesis

Parallel Corpus from Wikipedia

Parallel Corpus from Wikipedia
Anotácia:
Tato práce se zabývá tvorbou paralelního korpusu z Wikipedie. Zaměřuje se na anglicko-český pár, ale popsaný proces lze aplikovat i na jiné jazykové páry Wikipedie. Korpus sestává z českých a anglických článků z Wikipedie takových, že české články vznikly překladem těch anglických. Tyto články byly staženy, z textů byly vyextrahovány paralelní věty a výsledná data byla použita jako zdrojové texty korpusu …viac
Abstract:
This thesis deals with the process of creating a parallel corpus from Wikipedia. It is focused on the English-Czech pair, however, the same steps can be followed when creating a parallel corpus also for other language versions of Wikipedia. The corpus consists of Czech and English Wikipedia articles, the Czech ones being translations of the English ones. Such articles were retrieved, parallel sentences …viac
 
 
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 24. 5. 2016

Obhajoba závěrečné práce

  • Obhajoba proběhla 23. 6. 2016
  • Vedúci: Mgr. et Mgr. Vít Baisa, Ph.D.
  • Oponent: RNDr. Miloš Jakubíček, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / odbor:
Informatics / Artificial Intelligence and Natural Language Processing

Práce na příbuzné téma