Mgr. Marek Grác, Ph.D.

Doctoral thesis

Rapid Development of Language Resources

Rapid Development of Language Resources
Abstract:
Počítačové zpracování přirozeného jazyka (NLP) je obor, který se nachází na pomezí lingvistiky a informatiky. Při zpracování jazyka jsou důležité nejen algoritmy, ale i datové zdroje specifické pro konkrétní jazyk, kterými jsou např. gramatiky, slovníky či korpusy. V současnosti dokážeme vytvářet obrovské jazykové zdroje pomocí automatických metod, ale na jejich trénování a testování je potřeba využívat …more
Abstract:
plikaci výrazně lepší výsledky. V této práci jsme prezentovali doporučení pro tvorbu jazykových zdrojů s cílem použití pro NLP aplikace. Prakticky jsme je ověřili na dvou příkladech, zaměřených na odlišné jazykové roviny: syntax a sémantiku. Oba výsledné zdroje jsou ve stavu funkčních prototypů, jejich velikost a kvalita je dostatečná na to, aby změny při jejich zapojení do vývoje NLP aplikací byly …more
Abstract:
Natural language processing (NLP) is a field at the intersection of linguistics and informatics. In language processing, not only algorithms but also language-specific data sources are important, such as grammars, dictionaries or corpora. At present, we can create vast language resources using automatic methods, but their training and testing requires higher quality resources. However, their creation …more
Abstract:
ional prototypes, the size and quality of which is sufficient for the changes resulting from their use in the development of NLP applications to be measurable. This was demonstrated on two examples, in both of which the results were significantly better due to the use of the new resources. More than one hundred annotators were involved in the implementation of the language resources, who thoroughly …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 30. 4. 2013

Thesis defence

  • Date of defence: 26. 8. 2013
  • Supervisor: prof. PhDr. Karel Pala, CSc.
  • Reader: doc. PhDr. Klára Osolsobě, Dr., Dr. Maciej Piasecki, Prof. Marko Tadić

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Doctoral programme / field:
Informatics (4-years) / Informatics

Theses on a related topic