www.wikidata.de-de.nina.az
Temporal Difference Learning auch TD Learning ist eine Methode des bestarkenden Lernens Beim bestarkenden Lernen erhalt ein Agent nach einer Reihe von Aktionen eine Belohnung und passt seine Strategie an um die Belohnung zu maximieren Ein Agent mit einem TD Learning Algorithmus macht die Anpassung nicht erst wenn er die Belohnung erhalt sondern nach jeder Aktion auf Basis einer geschatzten erwarteten Belohnung Inhaltsverzeichnis 1 Modell 2 Algorithmen 2 1 Q Learning 2 2 SARSA 3 TD Lambda 4 Konkrete Anwendungen 5 EinzelnachweiseModell BearbeitenWie bei anderen Algorithmen des bestarkenden Lernens ist die Interaktion des Agenten mit seiner Umwelt als Markow Entscheidungsproblem beschrieben Der Agent besitzt eine Funktion V die einen bestimmten Zustand s t displaystyle s t nbsp bewertet englisch state value function Zur Verbesserung seiner Strategie p englisch policy nahert er V mit jeder Iteration dem idealen V p displaystyle V pi nbsp an Fruhere Methoden mussten auf die Belohnung am Ende einer Episode warten um zu wissen wie gut die Strategie war um die Funktion anzupassen TD Methoden dagegen aktualisieren ihre Bewertungsfunktion nach jeder Aktion mit der beobachteten Belohnung r die auch null sein kann und der durch die derzeitige Bewertungsfunktion geschatzten erwarteten Belohnung Dieser Prozess heisst Bootstrapping und dabei wird mit jeder Iteration die Schatzung genauer Bei dem einfachsten Algorithmus wahlt der Agent in jeder Iteration eine Aktion anhand seiner Strategie beobachtet die Belohnung und passt die Bewertungsfunktion mit folgender Formel an V s t 1 a V s t a r t g V s t 1 displaystyle V s t leftarrow 1 alpha V s t alpha big r t gamma V s t 1 big nbsp wobei a fur die Lernrate und g fur den Diskontierungsfaktor steht Die Lernrate gibt an inwieweit neue Werte die derzeitige Bewertungsfunktion anpassen Es ist mathematisch bewiesen dass der Algorithmus zu einem Optimum konvergiert wenn die Lernrate anfangs gross ist und allmahlich kleiner wird Genau heisst das wenn die beiden Bedingungen i 1 a i displaystyle sum i 1 infty alpha i infty nbsp und i 1 a i 2 lt displaystyle sum i 1 infty alpha i 2 lt infty nbsp erfullt sind 1 In der Praxis wahlt man haufig eine kleine konstante Lernrate welche die Bedingung zwar nicht erfullt sich im Falle einer veranderlichen Umwelt jedoch besser eignet Der Diskontierungsfaktor gewichtet die zukunftigen Belohnungen Ein kleiner Wert lasst den Agenten kurzsichtiger und ein grosser Wert weitsichtiger handeln Die Strategie des Agenten kann dabei abhangig sein von der Bewertungsfunktion Eine prominente Strategie ist die e greedy policy Hierbei wahlt der Agent entweder die aus seiner Sicht erfolgversprechendste Aktion gemass Bewertungsfunktion oder eine zufallige Aktion Der Parameter e mit Werten zwischen 0 und 1 gibt die Wahrscheinlichkeit an mit der der Agent eher eine Zufallsaktion anstatt die beste Aktion wahlt Algorithmen BearbeitenQ Learning Bearbeiten Q Learning ist eine Variante von TD learning bei welcher der Agent den Nutzen einer Aktion bewertet anstelle eines Zustandes Die erlernte Funktion Q s a heisst demzufolge action value function 1989 fuhrte Chris Watkins diesen Algorithmus erstmals ein 2 Den Konvergenzbeweis erbrachte er gemeinsam mit Peter Dayan im Jahr 1992 Der Algorithmus sieht vor dass der Agent zum aktuellen Zustand s eine Aktion a gemass seiner Strategie ausfuhrt und die daraus resultierende Belohnung r erhalt Aus dem Folgezustand s nimmt der Agent die erfolgversprechendste Aktion a gemass seiner derzeitigen Bewertungsfunktion als zukunftige Belohnung an Anhand dieser passt er seine Bewertungsfunktion nach folgender Formel an Q s a 1 a Q s a a r g max a Q s a displaystyle Q s a leftarrow 1 alpha Q s a alpha big r gamma max a Q s a big nbsp Da die Annahme die zukunftige Belohnung entsprache der bestmoglichen Aktion von der Strategie zum Beispiel e greedy abweichen kann spricht man von einem off policy Algorithmus SARSA Bearbeiten SARSA steht fur state action reward state action und ist ebenfalls ein Algorithmus zum Erlernen einer action value function Im Gegensatz zu Q Learning bleibt der Agent allerdings bei der Berechnung seiner Folgeaktion seiner Strategie treu on policy G A Rummery und M Niranjan erwahnten den Algorithmus erstmals 1994 Die von Rich Sutton vorgeschlagene und nur in der Fussnote erwahnte Bezeichnung SARSA setzte sich durch 3 Ein Agent der SARSA implementiert fuhrt zum aktuellen Zustand s eine Aktion a gemass seiner Strategie aus und erhalt eine Belohnung r Im Folgezustand s wahlt er nun wieder eine Aktion a gemass seiner Strategie und nimmt dessen Bewertung als zukunftigen Gewinn um die Bewertungsfunktion nach folgender Formel anzupassen Q s a 1 a Q s a a r g Q s a displaystyle Q s a leftarrow 1 alpha Q s a alpha big r gamma Q s a big nbsp TD Lambda BearbeitenTD l ist eine Erweiterung des Algorithmus mit eligibility traces Beim ursprunglichen Algorithmus bewirkt eine Aktion nur die Anpassung der Bewertungsfunktion fur den zuletzt besuchten Zustand TD l dagegen passt die Werte mehrerer besuchter Zustande an Dazu besitzt jeder Zustand ein numerisches Attribut das angibt in welchem Masse seine Bewertung zur Anderung berechtigt ist Wird ein Zustand besucht geht das Attribut auf 1 und mit jeder Iteration zerfallt es exponentiell mit der Zerfallsrate l Diese Erweiterung schlug so die Brucke zwischen TD Learning und fruheren Monte Carlo Methoden Wird 1 fur l gewahlt zerfallt das Berechtigungsattribut nicht und am Ende der Episode werden alle besuchten Zustande anhand der beobachteten Belohnung angepasst Dies entspricht dem Vorgehen von Monte Carlo Algorithmen Dagegen ist TD 0 der klassische TD Algorithmus In der Praxis eignet sich meist ein Mittelweg zwischen diesen beiden Extremen bei der mehrere Zustande angepasst werden Die Erweiterung kann auch auf SARSA und Q Learning angewandt werden Die Algorithmen werden dann SARSA l und Q l bezeichnet Konkrete Anwendungen BearbeitenEiner der bekanntesten Anwendungen TD Lernens ist TD Gammon In den 1980er Jahren entwickelte Gerald Tesauro das Programm das Backgammon auf Niveau menschlicher Experten spielt Er implementierte dabei den TD Lambda Algorithmus mit einem Perzeptron zur Approximation der Bewertungsfunktion Die Anderung des neuronalen Netzes erfolgte durch Backpropagation 4 5 Einzelnachweise Bearbeiten Peter Dayan Terrence J Sejnowski TD l Converges with Probability 1 In Machine Learning Nr 14 1994 S 295 301 PDF abgerufen am 22 April 2016 PDF Memento des Originals vom 22 April 2016 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot pdfs semanticscholar org Chris Watkins Learning from Delayed Rewards Ph D Thesis 1989 PDF abgerufen am 26 April 2016 G A Rummery M Niranjan On line Q Learning Using Connectionist Systems 1994 S 6 PDF abgerufen am 26 April 2016 Gerald Tesauro Practical Issues in Temporal Difference Learning In Machine Learning Nr 8 1992 S 257 277 PDF abgerufen am 25 April 2016 Gerald Tesauro Temporal difference learning and TD Gammon In Commun ACM Band 38 Nr 3 1995 S 58 68 doi 10 1145 203330 203343 Abgerufen von https de wikipedia org w index php title Temporal Difference Learning amp oldid 236034447