Vojtěch Balek

Bachelor's thesis

Large Language Models as a tool for generating high-level features for text documents

Velké jazykové modely jako nástroj pro extrakci rysů z textu
Abstract:
Tato bakalářská práce zkoumá použitelnost velkých jazykových modelů (LLM) pro generování příznaků z textu a hodnotí, zda LLM mohou produkovat interpretovatelné a použitelné příznaky pro úlohy strojového učení. Studie používá dvě označené datové sady: CORD-19 korpus, který se skládá z článků o výzkumu koronavirů s binárními štítky určující vysoký nebo nízký počet citací, a datovou sadu vědeckých článků …more
Abstract:
This bachelor thesis investigates the usability of large language models (LLMs) for feature generation from text, evaluating whether LLMs can produce interpretable and usable features for machine-learning tasks. The study uses two labeled datasets: the CORD-19 corpus, consisting of coronavirus research articles with binary labels for high and low citation count, and a dataset of scientific articles …more
 
 
Language used: English
Date on which the thesis was submitted / produced: 27. 6. 2024

Thesis defence

  • Date of defence: 22. 8. 2024
  • Supervisor: Tomáš Kliegr
  • Reader: Vojtěch Svátek

Citation record

Full text of thesis

Contents of on-line thesis archive
Published in Theses:
  • autentizovaným zaměstnancům ze stejné školy/fakulty
Other ways of accessing the text
Institution archiving the thesis and making it accessible: Vysoká škola ekonomická v Praze
https://vskp.vse.cz/eid/94318