www.wikidata.de-de.nina.az
Bestarkendes Lernen oder verstarkendes Lernen englisch reinforcement learning RL steht fur eine Reihe von Methoden des maschinellen Lernens bei denen ein Software Agent selbstandig eine Strategie englisch policy erlernt um erhaltene Belohnungen zu maximieren Dabei wird dem Agenten nicht vorgezeigt welche Aktion in welcher Situation die beste ist sondern er erhalt durch die Interaktion mit seiner Umwelt zu bestimmten Zeitpunkten eine Belohnung die auch negativ sein kann Der Begriff ist der Psychologie entlehnt und wurde bereits seit den Anfangen der Kybernetik verwendet So benutzte schon Marvin Minsky den Begriff in seiner Dissertation von 1954 1 Die Modelle des bestarkenden Lernens versuchen das Lernverhalten in der Natur nachzubilden Es besteht eine besonders enge Beziehung des bestarkenden Lernens zur dynamischen Programmierung und optimalen Steuerung In letzteren ist anders als bei ersterem a priori ein Umgebungsmodell gegeben das die Interaktion mit der Umwelt uberflussig macht 2 Ein Spezialfall ist die Verwendung eines Bewertungsmodells welches durch menschliche Interaktion mit uberwachtem Lernen vorprogrammiert wird und die Interaktion mit der Umwelt erganzt In diesem Fall erfolgt bestarkendes Lernen durch menschlich beeinflusste Ruckkopplung englisch reinforcement learning through human feedback RLHF 3 Inhaltsverzeichnis 1 Modell 1 1 Total Discounted Reward Kriterium 2 Lernverfahren 2 1 Modellfrei 2 1 1 Wertbasiert 2 1 2 Strategiebasiert 2 1 2 1 Beispiel REINFORCE 2 2 Modellbasiert 3 Literatur 4 Weblinks 5 EinzelnachweiseModell BearbeitenDie mathematischen Grundlagen des bestarkenden Lernens bilden die folgenden funf Begriffe Der Agent englisch agent die Umwelt englisch environment die Zustande englisch states die Aktionen englisch actions und die Belohnungen englisch rewards Die Methoden des bestarkenden Lernens betrachten die Interaktion des lernenden Agenten mit seiner Umwelt Die Umwelt ist dabei als Markow Entscheidungsproblem englisch markov decision process MDP S A r P 0 displaystyle mathcal S mathcal A rho mathbb P 0 nbsp formuliert Die Umwelt besteht aus einer Menge von Zustanden S displaystyle mathcal S nbsp und einer Menge von Aktionen A displaystyle mathcal A nbsp sowie einer Dynamik r displaystyle rho nbsp und einer Startverteilung P 0 displaystyle mathbb P 0 nbsp Die Interaktion des Agenten mit der Umwelt findet zu diskreten Zeitpunkten t N 0 displaystyle t in mathbb N 0 nbsp statt Zu jedem Zeitpunkt befindet sich der Agent in einem Zustand wahlt eine Aktion aus und erhalt dafur eine reellwertige Belohnung Da diese nicht vorhersehbar sind fasst man sie als Zufallsvariablen S t A t displaystyle S t A t nbsp und R t displaystyle R t nbsp in S A displaystyle mathcal S mathcal A nbsp und R displaystyle mathbb R nbsp auf Zum Zeitpunkt t displaystyle t nbsp befindet sich der Agent in Zustand S t displaystyle S t nbsp und wahlt eine Aktion A t displaystyle A t nbsp gemass einer Policy p t displaystyle pi t nbsp aus Eine Policy p t displaystyle pi t nbsp ist eine Kollektion von Wahrscheinlichkeitsmassen p t s s S displaystyle pi t cdot mid s s in mathcal S nbsp auf A displaystyle mathcal A nbsp p t a s displaystyle pi t a mid s nbsp gibt dabei die Praferenz des Agenten an zum Zeitpunkt t displaystyle t nbsp die Aktion a displaystyle a nbsp zu wahlen wenn er sich in Zustand s displaystyle s nbsp befindet In Zufallsvariablen gesprochen bedeutet dies A t p t S t displaystyle A t sim pi t cdot mid S t nbsp Anschliessend gibt die Umwelt eine Belohnung R t displaystyle R t nbsp und einen Folgezustand S t 1 displaystyle S t 1 nbsp gemass einer Dynamik r displaystyle rho nbsp aus Die Dynamik r displaystyle rho nbsp ist eine Kollektion von Ubergangs Wahrscheinlichkeitsverteilungen r s a s a S A displaystyle rho cdot cdot mid s a s a in mathcal S times mathcal A nbsp auf R S displaystyle mathbb R times mathcal S nbsp Es gilt demnach R t S t 1 r S t A t displaystyle R t S t 1 sim rho cdot cdot S t A t nbsp Der Zustand in dem sich der Agent zum Zeitpunkt t 0 displaystyle t 0 nbsp befindet ist durch die Startverteilung P 0 displaystyle mathbb P 0 nbsp festgelegt S 0 P 0 displaystyle S 0 sim mathbb P 0 nbsp Total Discounted Reward Kriterium Bearbeiten Ziel des Agenten ist es den zukunftig zu erwarteten Gewinn englisch total discounted reward E G t E k 0 T g k R t k displaystyle mathbb E G t mathbb E left sum k 0 T gamma k cdot R t k right nbsp mit 0 g 1 displaystyle 0 leq gamma leq 1 nbsp zu maximieren Der Gewinn entspricht der Gesamtbelohnung als diskontierte Summe aller folgenden Belohnungen Dabei gewichtet der Diskontierungsfaktor g displaystyle gamma nbsp zukunftige Belohnungen Bei episodischen Problemen T N displaystyle T in mathbb N nbsp d h die Umwelt geht nach einer endlichen Anzahl von Schritten in einen Endzustand uber wie z B eine Schachpartie eignet sich der Diskontierungsfaktor g 1 displaystyle gamma 1 nbsp In diesem Fall wird jede Belohnung R t k displaystyle R t k nbsp gleich gewertet Bei kontinuierlichen Problemen T displaystyle T infty nbsp muss ein g lt 1 displaystyle gamma lt 1 nbsp gewahlt werden um Konvergenz der unendlichen Reihe G t displaystyle G t nbsp zu gewahrleisten Fur g 0 displaystyle gamma 0 nbsp zahlt nur die aktuelle Belohnung R t 1 displaystyle R t 1 nbsp alle zukunftigen Belohnungen werden ignoriert Geht g displaystyle gamma nbsp gegen 1 wird der Agent weitsichtiger Da der Agent nur Einfluss auf die Policys p t displaystyle pi t nbsp nicht aber auf die Dynamik r displaystyle rho nbsp der Umwelt hat ist das Ziel des Agenten eine Policy p displaystyle pi nbsp zu finden die den zu erwartenden Gewinn maximiert 1 Lernverfahren BearbeitenZum Erlernen der Strategie des Agenten gibt es verschiedene Algorithmen Sie lassen sich grob einteilen in modellbasiert und modellfrei Die am haufigsten genutzten modellfreien Ansatze sind wertbasiert oder strategiebasiert Die Mischform wird meist als Actor Critic bezeichnet 4 Modellfrei Bearbeiten Wertbasiert Bearbeiten Bekannte Beispiele sind Monte Carlo Methoden und Temporal Difference Learning Bei diesen handelt es sich um Algorithmen bei denen der Agent eine Nutzenfunktion besitzt welche einen bestimmten Zustand oder eine bestimmte Aktion in einem Zustand bewertet Bei kleinen Zustands oder Aktionsraumen kann dies eine Tabelle sein deren Felder anhand der erhaltenen Belohnung aktualisiert werden Bei grossen Zustandsraumen muss die Funktion jedoch approximiert werden Dazu eignet sich beispielsweise die Fourierreihe oder auch ein Neuronales Netz Soll mehr als ein Agent lernen kann selbst bei kooperativen Agenten ausser in trivialen Fallen die Konvergenz der Lernvorgange bislang nicht mehr garantiert werden Trotzdem kann unter Zuhilfenahme von Heuristiken oft ein in der Praxis nutzliches Verhalten gelernt werden da der worst case selten auftritt 5 Strategiebasiert Bearbeiten Strategiebasierte Methoden versuchen die zu erwartende kumulative Belohnung direkt durch Parametrisierung der Strategie zu maximieren Meistens erfolgt diese Maximierung durch stochastisch gradientbasierte Optimierung englisch policy gradient Prominente Vertreter dieser Klasse sind REINFORCE Trust Region Policy Optimization TRPO und Proximal Policy Optimization PPO Beispiel REINFORCE Bearbeiten Der einfach herzuleitende Algorithmus REINFORCE 6 schatzt den Gradienten des zu erwartenden Gewinns 8 E t p 8 R 0 displaystyle nabla theta mathbf E tau sim p theta R 0 nbsp um damit seine Parameter uber empirisch gewinnbare Spielablaufe zu aktualisieren Hierbei muss die Strategie p 8 a s displaystyle pi theta a s nbsp nach 8 displaystyle theta nbsp differenzierbar sein und t s 0 a 0 s 1 a 1 s T a T displaystyle tau s 0 a 0 s 1 a 1 dots s T a T nbsp stellt einen Spielablauf dar der aus der Wahrscheinlichkeitsverteilung p 8 displaystyle p theta nbsp entnommen wird Diese setzt sich einerseits aus der Strategie p 8 displaystyle pi theta nbsp als auch der moglicherweise nicht deterministischen Umgebung p s s a displaystyle p s s a nbsp auf die der Agent keinen Einfluss hat zusammen p 8 t m s 0 t 0 T p s t 1 s t a t p 8 a t s t displaystyle p theta tau mu s 0 prod t 0 T p s t 1 s t a t pi theta a t s t nbsp wobei m displaystyle mu nbsp eine Verteilung uber den Startzustand darstellt Uber die Definition der Erwartungswerts kann nun REINFORCE wie folgt hergeleitet werden 8 E t p 8 R 0 8 R 0 p 8 t d t R 0 8 p 8 t d t displaystyle nabla theta mathbf E tau sim p theta R 0 nabla theta int R 0 p theta tau d tau int R 0 nabla theta p theta tau d tau nbsp R 0 8 log p 8 t p 8 t d t E t p 8 R 0 8 log p 8 t displaystyle int R 0 nabla theta text log p theta tau p theta tau d tau mathbf E tau sim p theta R 0 nabla theta text log p theta tau nbsp wobei fur die erste Gleichung die Leibnizregel verwendet wurde und fur die dritte Gleichung die Regel x log f x x f x f x displaystyle nabla x text log f x frac nabla x f x f x nbsp wobei der naturliche Logarithmus gemeint ist Als letzten Schritt erkennen wir dass 8 log p 8 t 8 log m s 0 t 0 T log p s t 1 s t a t log p 8 s t a t t 0 T 8 log p 8 s t a t displaystyle nabla theta text log p theta tau nabla theta Big text log mu s 0 sum t 0 T text log p s t 1 s t a t text log pi theta s t a t Big sum t 0 T nabla theta text log pi theta s t a t nbsp Nun kann man einen erwartungstreuen Schatzer 8 E t p 8 R 0 displaystyle hat nabla theta mathbf E tau sim p theta R 0 nbsp des Gradienten des zu erwartenden Gewinns erhalten indem man erst einen Spielablauf t displaystyle tau nbsp mit dem Agenten generiert und einsetzt 8 E t p 8 R 0 R 0 t 0 T 8 log p 8 a t s t displaystyle hat nabla theta mathbf E tau sim p theta R 0 R 0 cdot sum t 0 T nabla theta text log pi theta a t s t nbsp Der Parameterupdate mit Lernrate h displaystyle eta nbsp erfolgt dann wie folgt 8 t 1 8 t h 8 E t p 8 R 0 displaystyle theta t 1 leftarrow theta t eta hat nabla theta mathbf E tau sim p theta R 0 nbsp Modellbasiert Bearbeiten Modellbasierte Verfahren konstruieren ein pradiktives Modell ihrer Umwelt Dies bedeutet dass der Agent Vorhersagen fur Anfragen der Art Was wird passieren wenn ich eine bestimmte Aktion ausfuhre generieren kann 7 Das Modell stellt somit einen gelernten oder bekannten reversiblen Zugang zur Umgebungsdynamik dar da der Agent eine Vorhersage zu jedem beliebigen Zustands Aktions Paar ermitteln kann und nicht an die durch den Spielablauf vorgegebene Ordnung gebunden ist Anders als in modellfreien Ansatzen ermoglicht das Modell explizites Planen 8 Dies wird in Algorithmen wie z B MuZero von Deepmind genutzt um ein prazise Vorausberechnung zu ermoglichen die in einigen Spielen wie Schach oder Go von besonderer Relevanz ist 9 Eine andere Klasse von Methoden welche auf dem Dyna Algorithmus 10 basiert kombiniert den modellbasierten mit dem modellfreien Ansatz indem sie das gelernte Modell nutzt um kunstliche halluzinierte Daten zu generieren Diese werden dann wiederum zum Lernen einer Strategie und oder Wertfunktion eingesetzt 11 Forschende erhoffen sich dass modellbasierte RL Methoden kunftig noch mehr zum Verstandnis realer Kausalitaten medizinischer sozial und wirtschaftswissenschaftlicher Wissenschaftszweige oder Politikgestaltung beitragen konnen causal machine learning deren Themenfelder bisher uber wenige inhaltliche und personelle Uberschneidungen verfugen 12 Literatur BearbeitenRichard Sutton Andrew Barto Reinforcement Learning An Introduction MIT Press Cambridge MA 1998 Dimitri P Bertsekas John Tsitsiklis Neuro Dynamic Programming Athena Scientific Cambridge MA 1996 Csaba Szepesvari Algorithms for Reinforcement Learning Morgan and Claypool 2010 ualberta ca PDF Marc Patrick Deisenroth Gerhard Neumann Jan Peters A Survey on Policy Search for Robotics Foundations and Trends in Robotics 21 S 388 403 2013 ausy tu darmstadt de PDF Jens Kober Drew Bagnell Jan Peters Reinforcement Learning in Robotics A Survey International Journal of Robotics Research 32 11 S 1238 1274 2013 ausy tu darmstadt de PDF Uwe Lorenz Reinforcement Learning Aktuelle Ansatze verstehen mit Beispielen in Java und Greenfoot Springer Vieweg 2020 ISBN 978 3 662 61651 2 Warren B Powell Approximate Dynamic Programming John Wiley and Sons 2011 Stuart Russell Peter Norvig Kunstliche Intelligenz Ein moderner Ansatz Pearson Studium August 2004 ISBN 3 8273 7089 2 deutsche Ubersetzung der 2 Auflage Kapitel 21 Weblinks BearbeitenTutorial zu Reinforcement Learning englisch PDF 101 kB Artikel In Scholarpedia englisch inkl Literaturangaben Blogbeitrag zum Thema Reinforcement Learning mit Beispiel Der Computer macht sich selbst schlau In NZZ 20 Oktober 2017 Abgerufen am 12 August 2023Einzelnachweise Bearbeiten a b Richard Sutton Reinforcement Learning FAQ Nicht mehr online verfugbar 2 April 2004 archiviert vom Original am 28 August 2016 abgerufen am 21 April 2016 englisch Yi Ma und Shankar Sastry Reinforcement Learning amp Optimal Control Overview PDF University of California Berkeley 17 Februar 2021 abgerufen am 18 April 2022 englisch Illustrating Reinforcement Learning from Human Feedback RLHF huggingface co 9 Dezember 2022 Abgerufen am 8 August 2023 englisch Sergey Levine Actor Critic Algorithms PDF In Actor Critic Algorithms UC Berkley abgerufen am 27 Dezember 2021 englisch J F Knabe Kooperatives Reinforcement Lernen in Multiagentensystemen B Sc Thesis Universitat Osnabruck 2005 panmental de PDF Ronald J Williams Simple statistical gradient following algorithms for connectionist reinforcement learning In Machine Learning Band 8 Nr 3 1 Mai 1992 ISSN 1573 0565 S 229 256 doi 10 1007 BF00992696 Daniel Seita Model Based Reinforcement Learning Theory and Practice Abgerufen am 18 April 2022 Thomas M Moerland Joost Broekens Aske Plaat Catholijn M Jonker Model based Reinforcement Learning A Survey 31 Marz 2022 doi 10 48550 arxiv 2006 16712 arxiv 2006 16712 abs Julian Schrittwieser Ioannis Antonoglou Thomas Hubert Karen Simonyan Laurent Sifre Mastering Atari Go chess and shogi by planning with a learned model In Nature Band 588 Nr 7839 Dezember 2020 ISSN 1476 4687 S 604 609 doi 10 1038 s41586 020 03051 4 Richard S Sutton Integrated Architectures for Learning Planning and Reacting In ACM SIGART Bulletin Band 2 Nr 4 1 Juli 1991 S 160 163 doi 10 1145 122344 122377 psu edu PDF Daniel Seita Model Based Reinforcement Learning Theory and Practice Abgerufen am 18 April 2022 Jean Kaddour Aengus Lynch Qi Liu Matt J Kusner Ricardo Silva Causal Machine Learning A Survey and Open Problems 21 Juli 2022 S 70 ff arxiv 2206 15475v2 Abgerufen von https de wikipedia org w index php title Bestarkendes Lernen amp oldid 239005534