Assessment of the State-of-the-art Benchmarks Used to Evaluate Social Reasoning and Theory of Mind in LLMs – Bc. Lucia Horníková
Bc. Lucia Horníková
Master's thesis
Assessment of the State-of-the-art Benchmarks Used to Evaluate Social Reasoning and Theory of Mind in LLMs
Assessment of the State-of-the-art Benchmarks Used to Evaluate Social Reasoning and Theory of Mind in LLMs
Anotácia:
Veľké jazykové modely dnes dosahujú pozoruhodné výsledky v rôznych aplikačných úlohách, čo prirodzene vyvoláva otázku, či disponujú schopnosťou uvažovania. V rámci hľadania odpovede na túto otázku vzniklo viacero hodnotiacich sád (angl. benchmarks), vytvorených odborníkmi alebo formou crowdsourcingu. Predkladaná diplomová práca sa zameriava na tri často využívané sady z oblasti teórie mysle a sociálneho …viacAbstract:
Large language models have demonstrated impressive performance on various downstream tasks, hinting at possible reasoning capabilities. To assess whether these models can reason beyond surface-level inference, various benchmarks have been created, whether collected from human experts or crowdsourced. This thesis focuses on three commonly used state-of-the-art benchmarks for the task of social reasoning …viac
Jazyk práce: English
Datum vytvoření / odevzdání či podání práce: 1. 12. 2025
Identifikátor:
https://is.muni.cz/th/f0evs/
Obhajoba závěrečné práce
- Obhajoba proběhla 29. 1. 2026
- Vedúci: Ph.D. Seyed Mahed Mousavi
- Oponent: Mgr. Hana Žižková, Ph.D.
Citační záznam
Citace dle ISO 690:
HORNÍKOVÁ, Lucia. \textit{Assessment of the State-of-the-art Benchmarks Used to Evaluate Social Reasoning and Theory of Mind in LLMs}. Online. Diplomová práca. Brno: Masarykova univerzita, Faculty of Arts. 2025. Dostupné z: https://theses.cz/id/sbqdrg/.
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Filozofická fakultaMasaryk University
Faculty of ArtsMaster programme / odbor:
Computational Linguistics / Computational Linguistics