Bc. Tomáš Houfek

Diplomová práce

Mining Czech Clinical Notes Using the Language Modelling Technology

Mining Czech Clinical Notes Using the Language Modelling Technology
Anotace:
V této práci pracuji s několika velkýmu jazykovými modely. Tyto modely předtrénuji na velké datové sadě lékařských zpráv a následně je dotrénuji na skecifické úkoly v lékařské doméně. První je rozpoznávání lékařskýhc jmených entit a druhý klasifikace lékařských zpráv. Na těchto dvou úkolech předvedu, že předtrénování na velkých lékařských datech vylepší výsledky těchto dvou úkolů a to netriviálně oproti …více
Abstract:
In this thesis I work with various Large Language models, pre-train these models on a large Czech medical dataset and then fine-tune these models on a pair of natural language processing tasks in the medical domain. The first is Medical Named Entity Recognition (Medical Named Entity Recognition (NER)) and the second is Medical records classification. I show that further pre-training on the large medical …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 21. 5. 2024

Obhajoba závěrečné práce

  • Obhajoba proběhla 19. 6. 2024
  • Vedoucí: doc. Mgr. Bc. Vít Nováček, PhD
  • Oponent: doc. Pavel Pecina, PhD

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatiky

Masarykova univerzita

Fakulta informatiky

Magisterský studijní program / obor:
Umělá inteligence a zpracování dat / Zpracování přirozeného jazyka