Continuous automatic development of corpora from EU documents – Bc. Adil Khasenov
Bc. Adil Khasenov
Bachelor's thesis
Continuous automatic development of corpora from EU documents
Continuous automatic development of corpora from EU documents
Abstract:
Tato práce se soustředí na vytvoření sady nástrojů pro kontinuální automatické vytváření korpusů z dokumentů Evropské unie poskytované webovými stránkami Evropského parlamentu a EUR-Lexu. Sada nástrojů zpracovává texty obsahující všech 24 jazyků členských zemí EU. Prvotní data byla získána, řádně anotována a paralelní texty byly zarovnány na úrovni odstavců. V současné době výsledné korpusy čítají …moreAbstract:
This thesis centers around the effort of creating a toolset for continuous automatic development of corpora from the European Union documents provided by the European Parliament and EUR-Lex websites. The toolset processes the texts containing all 24 languages of the EU member countries. The raw data was obtained and properly annotated, and parallel texts were aligned on the level of paragraphs. Currently …more
Language used: English
Date on which the thesis was submitted / produced: 23. 5. 2024
Identifier:
https://is.muni.cz/th/sdzur/
Thesis defence
- Date of defence: 28. 6. 2024
- Supervisor: RNDr. Miloš Jakubíček, Ph.D.
- Reader: RNDr. Vít Suchomel, Ph.D.
Citation record
Full text of thesis
Contents of on-line thesis archive
Published in Theses:- světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatikyMasaryk University
Faculty of InformaticsBachelor programme / field:
Informatics / Informatics