Bc. Adil Khasenov

Bakalářská práce

Continuous automatic development of corpora from EU documents

Continuous automatic development of corpora from EU documents
Anotace:
Tato práce se soustředí na vytvoření sady nástrojů pro kontinuální automatické vytváření korpusů z dokumentů Evropské unie poskytované webovými stránkami Evropského parlamentu a EUR-Lexu. Sada nástrojů zpracovává texty obsahující všech 24 jazyků členských zemí EU. Prvotní data byla získána, řádně anotována a paralelní texty byly zarovnány na úrovni odstavců. V současné době výsledné korpusy čítají …více
Abstract:
This thesis centers around the effort of creating a toolset for continuous automatic development of corpora from the European Union documents provided by the European Parliament and EUR-Lex websites. The toolset processes the texts containing all 24 languages of the EU member countries. The raw data was obtained and properly annotated, and parallel texts were aligned on the level of paragraphs. Currently …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 23. 5. 2024

Obhajoba závěrečné práce

  • Obhajoba proběhla 28. 6. 2024
  • Vedoucí: RNDr. Miloš Jakubíček, Ph.D.
  • Oponent: RNDr. Vít Suchomel, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Bakalářský studijní program / obor:
Informatika / Informatika

Práce na příbuzné téma