Building parallel corpora from the Web – Mgr. Jan Pomikálek, Ph.D.
Mgr. Jan Pomikálek, Ph.D.
Advanced ('rigorózní') thesis
Building parallel corpora from the Web
Building parallel corpora from the Web
Anotácia:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …viacAbstract:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …viac
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 17. 6. 2008
Identifikátor:
https://is.muni.cz/th/j3ahd/
Obhajoba závěrečné práce
- Obhajoba proběhla 23. 6. 2008
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsAdvanced ('rigorózní řízení') programme / odbor:
Informatics / Informatics
Práce na příbuzné téma
-
Corpora from reddit.com texts
Jan Brichta -
The use of "Once upon a time" in a corpus of fairy tales and in the British National Corpus
Mária Kopecká -
Learner Translation Corpus: CELTraC (Czech-English Learner Translation Corpus)
Kristýna Štěpánková -
Český Brown Corpus
David Krňávek -
Il nuovo corpus di italiano L2 della Università Masaryk di Brno: raccolta e organizzazione dei dati.
Petra Kaňoková -
Funções comunicativas e textuais dos dois pontos. Análise do uso na escrita jornalística brasileira baseada no corpus Linguateca
Andrea Podskalská -
Adaptation sémantique et orthographique des verbes empruntés à l’anglais : le rôle du corpus linguistique
Klára Halodová -
Analyse sémantique et syntaxique d'un corpus de discours de malades d'Alzheimer
Michal Varchol