www.wikidata.de-de.nina.az
Bei dem Markow Entscheidungsproblem MEP auch Markow Entscheidungsprozess oder MDP fur Markov decision process handelt es sich um ein nach dem russischen Mathematiker Andrei Andrejewitsch Markow benanntes Modell von Entscheidungsproblemen bei denen der Nutzen eines Agenten von einer Folge von Entscheidungen abhangig ist Bei den Zustandsubergangen gilt dabei die Markow Annahme d h die Wahrscheinlichkeit einen Zustand s displaystyle s von Zustand s displaystyle s aus zu erreichen ist nur von s displaystyle s abhangig und nicht von Vorgangern von s displaystyle s Inhaltsverzeichnis 1 Formale Definition 2 Beispiel 3 Losung 4 WeblinksFormale Definition BearbeitenEin MEP ist ein Tupel S A T r p 0 displaystyle S A T r p 0 nbsp wobei S displaystyle S nbsp eine Menge von Zustanden A displaystyle A nbsp eine Menge von Aktionen T displaystyle T nbsp das Aktionsmodell auch Transitionswahrscheinlichkeit T S A S 0 1 displaystyle T colon S times A times S rightarrow 0 1 nbsp ist so dass T s a s p s s a displaystyle T s a s p s s a nbsp die Wahrscheinlichkeit ist von Zustand s displaystyle s nbsp und Ausfuhrung von Aktion a displaystyle a nbsp in den Zustand s displaystyle s nbsp zu gelangen r S A S R displaystyle r colon S times A times S rightarrow mathbb R nbsp die Belohnungsfunktion ist die jedem Ubergang vom letzten zum aktuellen Zustand eine Belohnung zuordnet und p 0 S R displaystyle p 0 colon S rightarrow mathbb R nbsp die Startverteilung ist die zu jedem Zustand angibt wie wahrscheinlich es ist in diesem Zustand zu starten Beispiel BearbeitenEin MEP liegt vor wenn ein Roboter durch ein Labyrinth zu einem Ziel navigieren muss Dabei ist die Menge der Zustande die Menge der Positionen des Roboters und die Aktionen sind die moglichen Richtungen in die sich der Roboter bewegen kann Losung BearbeitenDie Losung eines MEP ist eine Funktion p S A displaystyle pi colon S rightarrow A nbsp die zu jedem Zustand die Aktion ausgibt die den Gewinn uber die Zeit maximiert Bekannte Losungsverfahren sind unter anderem das Value Iteration Verfahren und Bestarkendes Lernen Weblinks BearbeitenPPT Vortrag englisch PDF 739 kB Abgerufen von https de wikipedia org w index php title Markow Entscheidungsproblem amp oldid 215575803