Better Web Corpora For Corpus Linguistics And NLP

Suchomel, Vít

EN SKPřihlásit se Přihlásit se (EduID)

Theses moc9kj

Better Web Corpora For Corpus Linguistics And NLP – RNDr. Vít Suchomel

Zpět na vyhledávání

RNDr. Vít Suchomel

Disertační práce

Better Web Corpora For Corpus Linguistics And NLP

Anotace:

Počítačoví lingvisté využívají internet jako zdroj obrovského množství textových dat k rozličným úkolům zpracování přirozeného jazyka a jazykovým studiím. Internetové korpusy můžeme vytvářet ve velikostech steží dosažitelných pomocí tradičních metod sestavování korpusů. Tato práce představuje stahovač navržený k získávání textů z internetu. Umožňuje sestavovat velké textové korpusy pro úlohy zpracování …více

Abstract:

The internet is used by computational linguists, lexicographers and social scientists as an immensely large source of text data for various NLP tasks and language studies. Web corpora can be built in sizes which would be virtually impossible to achieve using traditional corpus creation methods. This thesis presents a web crawler designed to obtain texts from the internet allowing to build large text …více

Keywords

Web corpora Web crawling Text processing Language identification Discerning similar languages Spam removal Corpus annotation Inter-annotator agreement Text types Text topic Text genre

Jazyk práce: angličtina

Datum vytvoření / odevzdání či podání práce: 4. 5. 2020

Identifikátor: https://is.muni.cz/th/u4rmz/

Obhajoba závěrečné práce

Obhajoba proběhla 8. 7. 2020
Vedoucí: doc. Mgr. Pavel Rychlý, Ph.D.
Oponent: doc. Mgr. Václav Cvrček, Ph.D., Dr. Serge Sharoff

Citační záznam

Citovat tuto práci

Citace dle ISO 690:

SUCHOMEL, Vít. \textit{Better Web Corpora For Corpus Linguistics And NLP}. Online. Disertační práce. Brno: Masarykova univerzita, Fakulta informatiky. 2020. Dostupné z: https://theses.cz/id/moc9kj/.

{{Citace kvalifikační práce
 | příjmení = Suchomel
 | jméno = Vít
 | instituce = Masarykova univerzita, Fakulta informatiky
 | titul = Better Web Corpora For Corpus Linguistics And NLP
 | url = https://theses.cz/id/moc9kj/
 | typ práce = Disertační práce
 | vedoucí = doc. Mgr. Pavel Rychlý, Ph.D.
 | rok = 2020
 | počet stran =
 | strany =
 | citace = 2024-11-13
 | poznámka =
 | jazyk = 
}}

Plný text práce

Obsah online archivu závěrečné práce

Zveřejněno v Theses:

světu

Jak jinak získat přístup k textu

Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Odkaz na adresář do lokálního úložiště instituce

Masarykova univerzita

Fakulta informatiky

Doktorský studijní program / obor:
Informatika (čtyřleté) / Počítačové systémy a technologie

Práce na příbuzné téma

Building Spam Free Web Corpora
Vít Suchomel
Corpora from reddit.com texts
Jan Brichta
Removing Boilerplate and Duplicate Content from Web Corpora
Jan Pomikálek
Building parallel corpora from the Web
Jan Pomikálek
Academic book reviews in English and Czech: a contrastive genre analysis
Barbora HRUŠKOVÁ