Theses 

Common Translation Errors in Wikipedia Articles: A Corpus-based Study – Bc. et Bc. Adéla Štromajerová

česky | in English | slovensky

Agenda:
Změnit agendu. Adresa v ISu:

Bc. et Bc. Adéla Štromajerová

Diplomová práce

Common Translation Errors in Wikipedia Articles: A Corpus-based Study

Common Translation Errors in Wikipedia Articles: A Corpus-based Study

Anotace: Tato práce se zabývá běžnými chybami v překladech článků na Wikipedii. Pro analýzu bylo využito paralelního korpusu English/Czech Wikipedia Parallel Corpus. Na základě několika zdrojů byly identifikovány chyby, které by se potenciálně mohly v korpusu objevit, a ty byly poté rozděleny do 6 kategorií – chyby lexikální, gramatické, syntaktické, ortografické, lokalizační a stylistické. Chyby byly zanalyzovány v korpusu a následně porovnány s chybami vyskytujícími se v korpusu BSC. K nejčastějším chybám patřily chyby v kolokacích (chyby lexikální), ve velkých písmenech a interpunkci (chyby ortografické) a ve formátu čísel, dat a měn (chyby lokalizační). Ukázalo se, že analyzované chyby, které bylo možné porovnat, se ve studovaném korpusu vyskytovaly častěji než v korpusu BSC, nebo byla frekvence jejich výskytu stejná. Toto může být způsobeno tím, že korpus BSC obsahuje texty překládané univerzitními studenty anglického jazyka, kteří již mají jisté jazykové znalosti, a jejich překlady jsou tak na vyšší úrovni.

Abstract: The thesis focuses on common translation errors in Wikipedia articles. For the analysis, the parallel corpus English/Czech Wikipedia Parallel Corpus was used. Potential errors were identified on the basis of various sources, and a categorization was created for them. Errors were divided into 6 categories, i.e., lexical, grammatical, syntactic, orthographic, localization and stylistic, and they were analyzed in the corpus. Their frequency and patterns were subsequently compared with similar errors present in the BSC corpus. The most frequent errors were discovered in the area of collocations (lexical errors), punctuation and capitalization (orthographic errors) and formats of numbers, dates and currencies (localization errors). In general, studied errors in the Wikipedia corpus were found to be of the same or a higher frequency than similar errors in the BSC corpus. This can be caused by the fact that the BSC corpus contains texts written by English language students who already have a certain linguistic background, and their texts are thus of higher quality.

Keywords: corpus, Wikipedia, errors, error analysis, korpus, Wikipedie, chybová analýza

Jazyk práce: angličtina

Obhajoba závěrečné práce

  • Obhajoba proběhla 3. 2. 2017
  • Vedoucí: Ing. Mgr. Jiří Rambousek, Ph.D.
  • Oponent: Mgr. Renata Kamenická, Ph.D.

Citační záznam

Citace dle ISO 690: LaTeX | HTML | text | BibTeX | Wikipedie

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Složka Odkaz na adresář do lokálního úložiště instituce
metadataTheses.xml metadataTheses.xml
Jak jinak získat přístup k textu

Instituce archivující a zpřístupňující práci: Masarykova univerzita, Filozofická fakulta

Relevantní odkazy 


Nahoru | Aktuální datum a čas: 16. 1. 2019 07:01, 3. (lichý) týden

Soukromí

Kontakty: theses(zavináč/atsign)fi(tečka/dot)muni(tečka/dot)cz