Theses 

Rapid Development of Language Resources – Mgr. Marek Grác

česky | in English | slovensky

Agenda:
Změnit agendu. Adresa v ISu:

Zpět na vyhledávání

Masarykova univerzita

Fakulta informatiky

Doktorský studijní program / obor:
Informatika (čtyřleté) / Informatika

Práce na příbuzné téma

Zobrazit popisek
  • Žádné práce na příbuzné téma.

Mgr. Marek Grác

Disertační práce

Rapid Development of Language Resources

Rapid Development of Language Resources

Anotace: Počítačové zpracování přirozeného jazyka (NLP) je obor, který se nachází na pomezí lingvistiky a informatiky. Při zpracování jazyka jsou důležité nejen algoritmy, ale i datové zdroje specifické pro konkrétní jazyk, kterými jsou např. gramatiky, slovníky či korpusy. V současnosti dokážeme vytvářet obrovské jazykové zdroje pomocí automatických metod, ale na jejich trénování a testování je potřeba využívat kvalitnější zdroje. Tvorba i ruční zpracování jsou však velmi náročné nejen na finance a čas, ale i na trénink a zaučení jazykových expertů. Tyto důvody objasňují, proč máme k dispozici dostatek automaticky tvořených jazykových zdrojů, ale pro menší jazyky pociťujeme nedostatek těch kvalitnějších, ručně anotovaných. Existující literatura podrobně popisuje teoretické základy použité při návrhu ručně anotovaných dat, ale samotný proces anotace je představen jen zběžně. Tato dizertační práce se zabývá právě tímto procesem, popisuje vše od návrhu vhodných struktur pro ukládání dat až po vyhodnocení kvality anotace. Vzhledem k tomu, že v současné době je prakticky nemožné získat dostatek prostředků na jejich tvorbu dosud používanými technikami, rozhodli jsme se přizpůsobit naše metodologické doporučení těmto omezujícím podmínkám. Naším cílem je vytvářet jazykové zdroje, které se budou moci efektivně využívat na trénování a testování a přitom náklady na jejich tvorbu budou výrazně nižší. Při tvorbě našich doporučení jsme se inspirovali agilními technikami využívanými při tvorbě softwaru. Vycházejíce z omezených prostředků jsme se rozhodli pro tvorbu jazykových zdrojů, které budou založeny výhradně na datech předzpracovaných existujícími NLP nástroji. Díky tomu bude úloha anotátorů omezená pouze na ověřování správnosti předkládaných vstupů. Nevýhodou tohoto přístupu je fakt, že výsledný zdroj nebude obsahovat data, která se nevyskytnou ve výstupu aplikací. Na ověření životaschopnosti našich doporučení jsme vytvořili dva nové jazykové zdroje. První jazykový zdroj nazvaný BushBank vznikl z potřeby automaticky testovat kvalitu gramatik používaných v syntaktických analyzátorech. Vzhledem k jejich odlišným teoretickým základům bylo vhodné se zaměřit jen na značkování elementů, které se dají převést do stejné podoby. Výstup ze syntaktických analyzátorů byl převeden do mělčí podoby. Jelikož každá věta byla zpracovaná několika analyzátory, syntaktický strom nebyla vhodná struktura, protože nedokáže zachytit nejednoznačnost. Z tohoto důvodu jsme zavedli strukturu 'syntactic bush', která má požadované vlastnosti. Na základě označkovaných dat jsme byli schopni natrénovat nástroj na rozpoznávání jmenných frází, jehož výstup překonává nástroje použité na tvorbu BushBanku. V současnosti máme k dispozici dva větší korpusy typu bushbank, které obsahují víc než 40 tisíc vět. Druhým vytvořeným jazykovým zdrojem je sémantická síť Sholva, která vznikla za cílem ověřit možnost využití sémantiky v existujících projektech vyvíjených v Centru zpracování přirozeného jazyka. Vzhledem k jejich aktuálnímu stavu jsme se rozhodli Sholvu vytvářet hlavně pro potřeby morfologické desambiguace a syntaktické analýzy. Na rozdíl od existujících zdrojů využíváme i negativní informace (např. postel není člověk). To nám umožňuje řešit situace i bez toho, abychom měli přesnou představu o úplném významu konkrétního slova. Při tvorbě prototypu jsme anotovali několik základních atributů pro frekventovaná slova. Celkem jsme vytvořili víc než 400 tisíc údajů tohoto typu. Na základě porovnání prototypu s existujícím sémantickým zdrojem jsme boli schopni ukázat, že využití Sholvy poskytuje pro testovací a

Anotace: plikaci výrazně lepší výsledky. V této práci jsme prezentovali doporučení pro tvorbu jazykových zdrojů s cílem použití pro NLP aplikace. Prakticky jsme je ověřili na dvou příkladech, zaměřených na odlišné jazykové roviny: syntax a sémantiku. Oba výsledné zdroje jsou ve stavu funkčních prototypů, jejich velikost a kvalita je dostatečná na to, aby změny při jejich zapojení do vývoje NLP aplikací byly měřitelné. Toto bylo ukázáno na dvou příkladech, v obou z nich jsme díky novým zdrojům dosáhli lepších výsledků. Na implementaci jazykových zdrojů se podílelo více než sto anotátorů, kteří důkladně prověřili škálovatelnost našich doporučení.

Abstract: Natural language processing (NLP) is a field at the intersection of linguistics and informatics. In language processing, not only algorithms but also language-specific data sources are important, such as grammars, dictionaries or corpora. At present, we can create vast language resources using automatic methods, but their training and testing requires higher quality resources. However, their creation, i.e. manual processing, is very demanding in terms of funding and time as well as searching for and training of sufficiently qualified persons. These reasons explain why there is a sufficient amount of automatically created language resources available even for small languages but there is a lack of quality, manually checked, ones. The existing literature describes in detail the theoretical basis used in the design of manually checked data, but the annotation process itself is only presented in brief. This dissertation addresses this process, from the design of appropriate structures for data storing to the evaluation of the annotation quality. Given that nowadays it is virtually impossible to obtain sufficient funding for their creation by means of techniques used to date, we decided to adapt our methodological recommendations to these restrictive conditions. Our goal is to create language resources that will be effectively used for training and testing, but the cost of their creation will be significantly lower. In formulating our recommendations, we were inspired by agile techniques used in software development. Having only limited funds available, we decided to create language resources based exclusively on data pre-processed by existing NLP tools. The role of annotators would thus be limited to verifying the correctness of the input they are presented with. The drawback of this approach is that the resulting resource will not contain data not included in the output of the applications. To check the viability of our recommendations, we created two new linguistic resources. The first language resource BushBank arose from the need to automatically test the quality of grammars used in parsers. Taking into account their different theoretical background, it was appropriate to only focus on tagging of elements which can be translated into the same form. Output from parsers was translated into a shallower form as each sentence had been processed by several parsers and therefore a syntactic tree was not a convenient structure as it cannot capture ambiguity. For this reason, we introduced 'syntactic bush', which does have the desired properties. Based on the tagged data, we are able to train a tool for detecting nominal phrases, the output of which outperforms tools used for the creation of BushBank. At present, we have two large bushbank-type corpora at our disposal, including more than 40 thousands sentences. The second created language resource is the Sholva semantic network, created in order to verify the possibilities of use of semantics in existing projects created in the Centre for Natural Language Processing. Given their current state, we decided to create Sholva primarily for the needs of morphological disambiguation and syntactic analysis. Unlike existing resources, we also use negative information (for example, bed is not a person). This allows us to solve situations without having an accurate understanding of the full meaning of the word. In developing the prototype, we described a few basic attributes for selected words. In total, we created more than 400,000 facts. On the basis of comparison of the prototype with an existing semantic resource we were able to demonstrate that the use of Sholva for the testing application yields significantly better results. The dissertation also presents recommendations for the creation of linguistic resources to be used with NLP applications. We verified them on two examples focused on two different language levels: syntax and semantics. Both resulting resources are in the state of funct

Abstract: ional prototypes, the size and quality of which is sufficient for the changes resulting from their use in the development of NLP applications to be measurable. This was demonstrated on two examples, in both of which the results were significantly better due to the use of the new resources. More than one hundred annotators were involved in the implementation of the language resources, who thoroughly checked the scalability of our recommendations.

Keywords: language resources, NLP, rapid development

Jazyk práce: angličtina

Obhajoba závěrečné práce

  • Obhajoba proběhla 26. 8. 2013
  • Vedoucí: doc. PhDr. Karel Pala, CSc.
  • Oponent: doc. PhDr. Klára Osolsobě, Dr., Dr. Maciej Piasecki, Prof. Marko Tadić

Citační záznam

Citace dle ISO 690: LaTeX | HTML | text | BibTeX | Wikipedie

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Složka Odkaz na adresář do lokálního úložiště instituce
metadataTheses.xml metadataTheses.xml
Jak jinak získat přístup k textu

Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky


Nahoru | Aktuální datum a čas: 15. 12. 2017 11:01, 50. (sudý) týden

Kontakty: theses(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz