Building parallel corpora from the Web – Mgr. Jan Pomikálek, Ph.D.
Mgr. Jan Pomikálek, Ph.D.
Advanced ('rigorózní') thesis
Building parallel corpora from the Web
Building parallel corpora from the Web
Anotácia:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …viacAbstract:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …viac
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 17. 6. 2008
Identifikátor:
https://is.muni.cz/th/j3ahd/
Obhajoba závěrečné práce
- Obhajoba proběhla 23. 6. 2008
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsAdvanced ('rigorózní řízení') programme / odbor:
Informatics / Informatics
Práce na příbuzné téma
-
Corpora from reddit.com texts
Jan Brichta -
The use of "Once upon a time" in a corpus of fairy tales and in the British National Corpus
Mária Kopecká -
Learner Translation Corpus: CELTraC (Czech-English Learner Translation Corpus)
Kristýna Štěpánková -
Český Brown Corpus
David Krňávek -
Il nuovo corpus di italiano L2 della Università Masaryk di Brno: raccolta e organizzazione dei dati.
Petra Kaňoková -
La terminologie du basket-ball entre règles officielles et corpus journalistique
Petr Pavlíček -
Better Web Corpora For Corpus Linguistics And NLP
Vít Suchomel -
Traducción de las formas del gerundio del español al checo: Análisis a través del corpus paralelo InterCorp
Ilona Mužátková