Building parallel corpora from the Web – Mgr. Jan Pomikálek, Ph.D.
Mgr. Jan Pomikálek, Ph.D.
Rigorózní práce
Building parallel corpora from the Web
Building parallel corpora from the Web
Anotace:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …víceAbstract:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 17. 6. 2008
Identifikátor:
https://is.muni.cz/th/j3ahd/
Obhajoba závěrečné práce
- Obhajoba proběhla 23. 6. 2008
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyRigorózní řízení / obor:
Informatika / Informatika
Práce na příbuzné téma
-
Corpora from reddit.com texts
Jan Brichta -
The use of "Once upon a time" in a corpus of fairy tales and in the British National Corpus
Mária Kopecká -
Learner Translation Corpus: CELTraC (Czech-English Learner Translation Corpus)
Kristýna Štěpánková -
Český Brown Corpus
David Krňávek -
Il nuovo corpus di italiano L2 della Università Masaryk di Brno: raccolta e organizzazione dei dati.
Petra Kaňoková -
The modal verb may – its usage and meanings in contemporary British and American English based on corpus analysis
Martin Kräussl -
Typologie des jeux de mots "intraduisibles" en français et en tchèque dans un corpus conversationnel des séries américaines
Monika Kušnierová -
Traducción de las formas del gerundio del español al checo: Análisis a través del corpus paralelo InterCorp
Ilona Mužátková