Bc. Lucia Horníková

Diplomová práce

Assessment of the State-of-the-art Benchmarks Used to Evaluate Social Reasoning and Theory of Mind in LLMs

Assessment of the State-of-the-art Benchmarks Used to Evaluate Social Reasoning and Theory of Mind in LLMs
Anotace:
Veľké jazykové modely dnes dosahujú pozoruhodné výsledky v rôznych aplikačných úlohách, čo prirodzene vyvoláva otázku, či disponujú schopnosťou uvažovania. V rámci hľadania odpovede na túto otázku vzniklo viacero hodnotiacich sád (angl. benchmarks), vytvorených odborníkmi alebo formou crowdsourcingu. Predkladaná diplomová práca sa zameriava na tri často využívané sady z oblasti teórie mysle a sociálneho …více
Abstract:
Large language models have demonstrated impressive performance on various downstream tasks, hinting at possible reasoning capabilities. To assess whether these models can reason beyond surface-level inference, various benchmarks have been created, whether collected from human experts or crowdsourced. This thesis focuses on three commonly used state-of-the-art benchmarks for the task of social reasoning …více
 
 
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 1. 12. 2025

Obhajoba závěrečné práce

  • Obhajoba proběhla 29. 1. 2026
  • Vedoucí: Ph.D. Seyed Mahed Mousavi
  • Oponent: Mgr. Hana Žižková, Ph.D.

Citační záznam

Plný text práce

Obsah online archivu závěrečné práce
Zveřejněno v Theses:
  • světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Filozofická fakulta

Masarykova univerzita

Filozofická fakulta

Magisterský studijní program / obor:
Počítačová lingvistika / Počítačová lingvistika

Práce na příbuzné téma