Continuous automatic development of corpora from EU documents – Bc. Adil Khasenov
Bc. Adil Khasenov
Bakalářská práce
Continuous automatic development of corpora from EU documents
Continuous automatic development of corpora from EU documents
Anotace:
Tato práce se soustředí na vytvoření sady nástrojů pro kontinuální automatické vytváření korpusů z dokumentů Evropské unie poskytované webovými stránkami Evropského parlamentu a EUR-Lexu. Sada nástrojů zpracovává texty obsahující všech 24 jazyků členských zemí EU. Prvotní data byla získána, řádně anotována a paralelní texty byly zarovnány na úrovni odstavců. V současné době výsledné korpusy čítají …víceAbstract:
This thesis centers around the effort of creating a toolset for continuous automatic development of corpora from the European Union documents provided by the European Parliament and EUR-Lex websites. The toolset processes the texts containing all 24 languages of the EU member countries. The raw data was obtained and properly annotated, and parallel texts were aligned on the level of paragraphs. Currently …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 23. 5. 2024
Identifikátor:
https://is.muni.cz/th/sdzur/
Obhajoba závěrečné práce
- Obhajoba proběhla 28. 6. 2024
- Vedoucí: RNDr. Miloš Jakubíček, Ph.D.
- Oponent: RNDr. Vít Suchomel, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyBakalářský studijní program / obor:
Informatika / Informatika