Bc. Adil Khasenov

Bachelor's thesis

Continuous automatic development of corpora from EU documents

Continuous automatic development of corpora from EU documents
Abstract:
Tato práce se soustředí na vytvoření sady nástrojů pro kontinuální automatické vytváření korpusů z dokumentů Evropské unie poskytované webovými stránkami Evropského parlamentu a EUR-Lexu. Sada nástrojů zpracovává texty obsahující všech 24 jazyků členských zemí EU. Prvotní data byla získána, řádně anotována a paralelní texty byly zarovnány na úrovni odstavců. V současné době výsledné korpusy čítají …more
Abstract:
This thesis centers around the effort of creating a toolset for continuous automatic development of corpora from the European Union documents provided by the European Parliament and EUR-Lex websites. The toolset processes the texts containing all 24 languages of the EU member countries. The raw data was obtained and properly annotated, and parallel texts were aligned on the level of paragraphs. Currently …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 23. 5. 2024

Thesis defence

  • Date of defence: 28. 6. 2024
  • Supervisor: RNDr. Miloš Jakubíček, Ph.D.
  • Reader: RNDr. Vít Suchomel, Ph.D.

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Bachelor programme / field:
Informatics / Informatics

Theses on a related topic