Building parallel corpora from the Web – Mgr. Jan Pomikálek, Ph.D.
Mgr. Jan Pomikálek, Ph.D.
Rigorózní práce
Building parallel corpora from the Web
Building parallel corpora from the Web
Anotace:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …víceAbstract:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 17. 6. 2008
Identifikátor:
https://is.muni.cz/th/j3ahd/
Obhajoba závěrečné práce
- Obhajoba proběhla 23. 6. 2008
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyRigorózní řízení / obor:
Informatika / Informatika
Práce na příbuzné téma
-
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel -
Learner Translation Corpus: CELTraC (Czech-English Learner Translation Corpus)
Kristýna Štěpánková -
The use of "Once upon a time" in a corpus of fairy tales and in the British National Corpus
Mária Kopecká -
Los corpus CREA y CORDE en el contexto de los corpus lingüísticos
Jitka Hrušková -
Český Brown Corpus
David Krňávek -
The modal verb may – its usage and meanings in contemporary British and American English based on corpus analysis
Martin Kräussl -
Typologie des jeux de mots "intraduisibles" en français et en tchèque dans un corpus conversationnel des séries américaines
Monika Kušnierová