Bc. Tomáš Houfek

Master's thesis

Mining Czech Clinical Notes Using the Language Modelling Technology

Mining Czech Clinical Notes Using the Language Modelling Technology
Abstract:
V této práci pracuji s několika velkýmu jazykovými modely. Tyto modely předtrénuji na velké datové sadě lékařských zpráv a následně je dotrénuji na skecifické úkoly v lékařské doméně. První je rozpoznávání lékařskýhc jmených entit a druhý klasifikace lékařských zpráv. Na těchto dvou úkolech předvedu, že předtrénování na velkých lékařských datech vylepší výsledky těchto dvou úkolů a to netriviálně oproti …more
Abstract:
In this thesis I work with various Large Language models, pre-train these models on a large Czech medical dataset and then fine-tune these models on a pair of natural language processing tasks in the medical domain. The first is Medical Named Entity Recognition (Medical Named Entity Recognition (NER)) and the second is Medical records classification. I show that further pre-training on the large medical …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 21. 5. 2024

Thesis defence

  • Date of defence: 19. 6. 2024
  • Supervisor: doc. Mgr. Bc. Vít Nováček, PhD
  • Reader: doc. Pavel Pecina, PhD

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • světu
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Masarykova univerzita, Fakulta informatiky

Masaryk University

Faculty of Informatics

Master programme / field:
Artificial intelligence and data processing / Natural language processing