Dopady změn trénovacích dat na přesnost značkování korpusu – Bc. Ondřej Svoboda
Bc. Ondřej Svoboda
Diplomová práce
Dopady změn trénovacích dat na přesnost značkování korpusu
Effects of training data modification on corpus tagging precision
Anotace:
Práce se věnuje ručním i automatickým úpravám českého desambiguovaného korpusu DESAM, vývoji měřicích nástrojů a jejich využití ve zkoumání vlivu změn anotace korpusu na úspěšnost automatického morfologického značkování prostřednictvím křížové validace.Abstract:
The thesis gives an account of both manual and automatic modifications of DESAM, a disambiguated corpus of written Czech. It describes the development and application of a set of tools to measure how changes to the corpus and its annotation affect the accuracy of POS tagging in cross-validation scenarios.Keywords
text corpus Czech DESAM attributive tagset POS tagging annotation accuracy RFTagger evaluation comparison automatic corpus modification manual cleanup tokenization korpus textu čeština attributivní tagset slovnědruhové značkování anotace přesnost vyhodnocení srovnání automatické úpravy korpusu ruční úpravy tokenizace
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 12. 12. 2016
Identifikátor:
https://is.muni.cz/th/d6tnk/
Obhajoba závěrečné práce
- Obhajoba proběhla 3. 2. 2017
- Vedoucí: RNDr. Miloš Jakubíček, Ph.D.
- Oponent: RNDr. Vojtěch Kovář, Ph.D.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Filozofická fakultaMasarykova univerzita
Filozofická fakultaMagisterský studijní program / obor:
Filologie / Český jazyk se specializací počítačová lingvistika
Práce na příbuzné téma
- Žádné práce na příbuzné téma.