Building parallel corpora from the Web

Pomikálek, Jan

CS ENPrihlásiť sa Prihlásiť sa (EduID)

Theses 1zmwl9

Building parallel corpora from the Web – Mgr. Jan Pomikálek, Ph.D.

Zpět na vyhledávání

Mgr. Jan Pomikálek, Ph.D.

Advanced ('rigorózní') thesis

Building parallel corpora from the Web

Anotácia:

Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …viac

Abstract:

Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …viac

Keywords

corpus text corpora web-derived corpora parallel corpora

Jazyk práce: English

Datum vytvoření / odevzdání či podání práce: 17. 6. 2008

Identifikátor: https://is.muni.cz/th/j3ahd/

Obhajoba závěrečné práce

Obhajoba proběhla 23. 6. 2008

Citační záznam

Citovat tuto práci

Citace dle ISO 690:

POMIKÁLEK, Jan. \textit{Building parallel corpora from the Web}. Online. Brno: Masarykova univerzita, Faculty of Informatics. 2008. Dostupné z: https://theses.cz/id/1zmwl9/.

Plný text práce

Obsah online archivu závěrečné práce

Zveřejněno v Theses:

světu

Jak jinak získat přístup k textu

Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Odkaz na adresář do lokálního úložiště instituce

Masaryk University

Faculty of Informatics

Advanced ('rigorózní řízení') programme / odbor:
Informatics / Informatics

Práce na příbuzné téma

Corpora from reddit.com texts
Jan Brichta
The use of "Once upon a time" in a corpus of fairy tales and in the British National Corpus
Mária Kopecká
Learner Translation Corpus: CELTraC (Czech-English Learner Translation Corpus)
Kristýna Štěpánková
Český Brown Corpus
David Krňávek
Il nuovo corpus di italiano L2 della Università Masaryk di Brno: raccolta e organizzazione dei dati.
Petra Kaňoková
Funções comunicativas e textuais dos dois pontos. Análise do uso na escrita jornalística brasileira baseada no corpus Linguateca
Andrea Podskalská
Adaptation sémantique et orthographique des verbes empruntés à l’anglais : le rôle du corpus linguistique
Klára Halodová
Analyse sémantique et syntaxique d'un corpus de discours de malades d'Alzheimer
Michal Varchol

Všechny práce