Continuous automatic development of corpora from EU documents – Bc. Adil Khasenov
Bc. Adil Khasenov
Bachelor's thesis
Continuous automatic development of corpora from EU documents
Continuous automatic development of corpora from EU documents
Anotácia:
Tato práce se soustředí na vytvoření sady nástrojů pro kontinuální automatické vytváření korpusů z dokumentů Evropské unie poskytované webovými stránkami Evropského parlamentu a EUR-Lexu. Sada nástrojů zpracovává texty obsahující všech 24 jazyků členských zemí EU. Prvotní data byla získána, řádně anotována a paralelní texty byly zarovnány na úrovni odstavců. V současné době výsledné korpusy čítají …viacAbstract:
This thesis centers around the effort of creating a toolset for continuous automatic development of corpora from the European Union documents provided by the European Parliament and EUR-Lex websites. The toolset processes the texts containing all 24 languages of the EU member countries. The raw data was obtained and properly annotated, and parallel texts were aligned on the level of paragraphs. Currently …viac
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 23. 5. 2024
Identifikátor:
https://is.muni.cz/th/sdzur/
Obhajoba závěrečné práce
- Obhajoba proběhla 28. 6. 2024
- Vedúci: RNDr. Miloš Jakubíček, Ph.D.
- Oponent: RNDr. Vít Suchomel, Ph.D.
Citační záznam
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsBachelor programme / odbor:
Informatics / Informatics