Reinforcement Learning of Risk-Averse Policies in Markov Decision Processes – Bc. Jiří Vahala
Bc. Jiří Vahala
Diplomová práce
Reinforcement Learning of Risk-Averse Policies in Markov Decision Processes
Reinforcement Learning of Risk-Averse Policies in Markov Decision Processes
Anotace:
Optimalizace průměrné kumulované odměny za nejistoty výsledku je stěžejní problém v mnoha aplikacích. Typické metody posilovaného učení se soustředí pouze na maximalizaci průmřené kumulované odměny bez jakéhokoli přihlížení k risku. Tato práce shrnuje již existujicí metody zaobírající se maximalizací nejistého výsledku a navrhuje nový algoritmus posilovaného učení Ralf0, který optimalizuje strategie …víceAbstract:
Optimizing the expected cumulative reward under uncertainty is a crucial problem in many applications. A typical reinforcement learning approach is to maximize the expected cumulative reward without any sense of risk. In this thesis, we summarize already existing risk-averse learning techniques and introduce a new reinforcement learning algorithm Ralf0, which optimizes risk-averse policies without …více
Jazyk práce: angličtina
Datum vytvoření / odevzdání či podání práce: 20. 5. 2019
Identifikátor:
https://is.muni.cz/th/gv8zz/
Obhajoba závěrečné práce
- Obhajoba proběhla 18. 6. 2019
- Vedoucí: doc. RNDr. Tomáš Brázdil, Ph.D.
- Oponent: Mgr. Branislav Bošanský, Ph.D.
Citační záznam
Plný text práce
Obsah online archivu závěrečné práce
Zveřejněno v Theses:- světu
Jak jinak získat přístup k textu
Instituce archivující a zpřístupňující práci: Masarykova univerzita, Fakulta informatikyMasarykova univerzita
Fakulta informatikyMagisterský studijní program / obor:
Informatika / Umělá inteligence a zpracování přirozeného jazyka
Práce na příbuzné téma
-
Experimental Evaluation of Risk-Averse Planners
Martin Bendel -
Sampling Methods for Risk-Averse MDP Solvers
Václav Nevyhoštěný -
Extending the Synthesis Algorithm for Consumption MDPs with LTL Objectives
Dávid Meluš -
Sampling Methods for Risk-Averse MDP Solvers
Václav Nevyhoštěný -
Vacant taxi routing in Markov Decision Process (MDP)
Nurbulat Shektbayev