Mgr. Jan Pomikálek, Ph.D.

Rigorózní práce

Building parallel corpora from the Web

Building parallel corpora from the Web
Anotace:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …více
Abstract:
Parallel corpora are a valuable resource for many fields in computational linguistics, e.g. machine translation, cross language information retrieval (CLIR), lexicography. Unfortunately, the sources of parallel texts are very limited. On the other hand, there is World Wide Web with billions of Web pages, some of which are mutual translations. Though its potential for retrieving bilingual texts awaits …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 17. 6. 2008

Obhajoba závěrečné práce

  • Obhajoba proběhla 23. 6. 2008

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky