www.wikidata.de-de.nina.az
Der Erwartungs Maximierungs Algorithmus englisch expectation maximization algorithm daher auch Expectation Maximization Algorithmus selten auch Estimation Maximization Algorithmus kurz EM Algorithmus ist ein Algorithmus der mathematischen Statistik Die Kernidee des EM Algorithmus ist es mit einem zufallig gewahlten Modell zu starten und abwechselnd die Zuordnung der Daten zu den einzelnen Teilen des Modells Erwartungsschritt kurz E Schritt und die Parameter des Modells an die neueste Zuordnung Maximierungsschritt kurz M Schritt zu verbessern EM Clustering fur Old Faithful Eruptionsdaten Das zufallige Modell durch die Skalierung der Achsen erscheinen die Spharen flach und breit wird an die beobachteten Daten angepasst Gut erkennbar sind die zwei typischen Modi des Geysirs In den ersten Iterationen andert sich das Modell noch stark anschliessend werden die Anderungen kleiner und nahern sich einem Grenzwert an Visualisierung erzeugt mit ELKI In beiden Schritten wird dabei die Qualitat des Ergebnisses verbessert Im E Schritt werden die Punkte besser zugeordnet im M Schritt wird das Modell so verandert dass es besser zu den Daten passt Findet keine wesentliche Verbesserung mehr statt beendet man das Verfahren Das Verfahren findet typischerweise nur lokale Optima Dadurch ist es oft notwendig das Verfahren mehrfach aufzurufen und das beste so gefundene Ergebnis auszuwahlen Inhaltsverzeichnis 1 Mathematische Formulierung 1 1 Funktionsweise 1 2 Formulierung als Zufallsexperiment 2 EM Clustering 2 1 Vorteile des EM Clusterings 3 K Means als EM Verfahren 4 Weitere Instanzen des EM Algorithmus 5 Beweis fur den Maximierungsschritt bei Normalverteilungsannahme 6 Literatur 7 EinzelnachweiseMathematische Formulierung BearbeitenFunktionsweise Bearbeiten Es liegen Objekte mit einer gewissen Anzahl von Eigenschaften vor Die Eigenschaften nehmen zufallige Werte an Einige Eigenschaften konnen gemessen werden andere jedoch nicht Formal gesehen sind die Objekte Instanzen einer mehrdimensionalen Zufallsvariablen X displaystyle X nbsp die einer unbekannten Wahrscheinlichkeitsverteilung p x displaystyle p x nbsp unterliegt einige Dimensionen sind beobachtbar andere sind versteckt Ziel ist es die unbekannte Wahrscheinlichkeitsverteilung zu bestimmen Zunachst nimmt man an p x displaystyle p x nbsp sei bis auf einige Parameter bekannt Meist wahlt man p displaystyle p nbsp als Mischverteilung also als gewichtete Summe von so vielen Standardverteilungen wie beobachtbare Eigenschaften vorliegen Wahlt man beispielsweise als Standardverteilung die Normalverteilung so sind die unbekannten Parameter jeweils der Erwartungswert m displaystyle mu nbsp und die Varianz s 2 displaystyle sigma 2 nbsp Ziel ist es nun die Parameter 8 displaystyle Theta nbsp der vermuteten Wahrscheinlichkeitsverteilung zu bestimmen Wahlt man eine Mischverteilung so enthalt 8 displaystyle Theta nbsp auch die Gewichtungsfaktoren der Summe Fur gewohnlich geht man ein solches Problem mit der Maximum Likelihood Methode an Dies ist hier jedoch nicht moglich da die gesuchten Parameter von den versteckten Eigenschaften abhangen und diese sind unbekannt Um trotzdem zum Ziel zu kommen wird also eine Methode benotigt die mit den gesuchten Endparametern die versteckten Eigenschaften schatzt Diese Aufgabe erfullt der EM Algorithmus Der EM Algorithmus arbeitet iterativ und fuhrt in jedem Durchgang zwei Schritte aus E Schritt Versteckte Eigenschaften Y displaystyle Y nbsp schatzen Zunachst werden die versteckten Eigenschaften aus den im vorherigen Durchgang bestimmten Endparametern 8 displaystyle Theta nbsp und den beobachteten Daten X displaystyle X nbsp geschatzt Dazu wird die sogenannte Q Funktion verwendet die einen vorlaufigen Erwartungswert der gesuchten Verteilung berechnet M Schritt Endparameter 8 displaystyle Theta nbsp bestimmen Jetzt wo die versteckten Eigenschaften abgeschatzt sind wird die Maximum Likelihood Methode angewandt um die eigentlich gesuchten Parameter zu bestimmen Der Algorithmus endet wenn sich die bestimmten Parameter nicht mehr wesentlich andern Bewiesenermassen konvergiert die Folge der bestimmten 8 displaystyle Theta nbsp das heisst der Algorithmus terminiert auf jeden Fall Allerdings bildet das Ergebnis meist nur ein lokales Optimum welches zwar gut aber nicht unbedingt optimal ist Es ist daher notig den Algorithmus mit vielen unterschiedlichen Startwerten auszufuhren um ein Endergebnis moglichst nah am Optimum zu finden Formulierung als Zufallsexperiment Bearbeiten Rein formal wird beim EM Algorithmus angenommen dass die Werte der beobachteten stochastischen Grosse auf folgende Art und Weise zustande kommen Wahle zuerst eine der eingehenden Zufallsvariablen aus und ubernimm deren Wert als Endergebnis Das bedeutet dass genau ein Gewicht den Wert eins annimmt und alle anderen null sind Bei der Approximation der Gewichte durch den EM Algorithmus ist dies normalerweise aber nicht mehr der Fall Die Wahrscheinlichkeitsdichte eines Zielwertes lasst sich bei Normalverteilungsannahme und konstanter Varianz der einzelnen Zufallsvariablen darstellen als p y i h 1 2 p s 2 exp 1 2 s 2 j 1 n w i j y i m j 2 displaystyle p y i mid h frac 1 sqrt 2 pi sigma 2 operatorname exp left frac 1 2 sigma 2 sum j 1 n w ij y i mu j 2 right nbsp Dabei besitzen die verwendeten Bezeichnungen folgende Bedeutungen w i j displaystyle w ij nbsp Gewicht der j displaystyle j nbsp ten Zufallsvariable fur den i displaystyle i nbsp ten Wert der Zielgrosse n displaystyle n nbsp Anzahl der Gewichte y i displaystyle y i nbsp Wert der i displaystyle i nbsp ten Zielgrosse h displaystyle h nbsp Stichprobe m j displaystyle mu j nbsp Erwartungswert der j displaystyle j nbsp ten Zufallsvariable s 2 displaystyle sigma 2 nbsp VarianzEM Clustering BearbeitenDas EM Clustering ist ein Verfahren zur Clusteranalyse das die Daten mit einem Gaussschen Mischmodell englisch gaussian mixture model kurz GMM also als Uberlagerung von Normalverteilungen reprasentiert Dieses Modell wird zufallig oder heuristisch initialisiert und anschliessend mit dem allgemeinen EM Prinzip verfeinert Das EM Clustering besteht aus mehreren Iterationen der Schritte Erwartung und Maximierung Im Initialisierungs Schritt muss das m displaystyle mu nbsp frei gewahlt werden Nimm dazu an dass genau eine beliebige Zufallsvariable genau eine beliebige Trainingsinstanz y k displaystyle y k nbsp diesem Erwartungswert m displaystyle mu nbsp entspricht d h setze m 1 a p p r y k displaystyle mu 1 mathrm appr y k nbsp Im Erwartungsschritt werden die Erwartungswerte der Gewichte berechnet unter der Annahme dass die Erwartungswerte der eingehenden Zufallsvariablen den im Maximierungsschritt berechneten entsprechen Dies ist allerdings nur moglich falls es sich nicht um die erste Iteration handelt Die Erwartungswerte lassen sich darstellen als E w i j p X j y i m j m j a p p r k 1 n p X k y i m k m k a p p r displaystyle operatorname E w ij p X j y i mu j mu j mathrm appr sum k 1 n p X k y i mid mu k mu k mathrm appr nbsp Im Maximierungsschritt werden die Erwartungswerte der Wahrscheinlichkeitsverteilungen der einzelnen Zufallsvariablen bestimmt bei denen die Wahrscheinlichkeit fur das Eintreffen des Stichprobenergebnisses maximiert wird Dies geschieht unter der Annahme dass die exakten Werte der Gewichte jeweils ihren Erwartungswerten entsprechen Maximum Likelihood Algorithmus Die auf diese Weise geschatzten Erwartungswerte ergeben sich bei Normalverteilungsannahme durch m j a p p r i 1 N E w i j y i i 1 N E w i j displaystyle mu j mathrm appr frac sum i 1 N operatorname E w ij y i sum i 1 N operatorname E w ij nbsp wobei N displaystyle N nbsp die Grosse des Trainingsdatensatzes bezeichnet Durch Wiederholung der Erwartungs und Maximierungsschritte werden die Parameter ihren tatsachlichen Werten weiter angenahert Vorteile des EM Clusterings Bearbeiten nbsp Vergleich k Means und EM auf einem kunstlichen Datensatz visualisiert mit ELKI Durch Verwendung von Varianzen kann EM die unterschiedlichen Normalverteilungen akkurat beschreiben wahrend k Means die Daten in ungunstige Voronoi Zellen aufteilt Die Clusterzentren sind durch grossere blassere Symbole gekennzeichnet Mathematisches Modell der Daten mit Normalverteilungen Erlaubt Cluster unterschiedlicher Grosse im Sinne von Streuung k Means ignoriert die Varianz der Cluster Kann korrelierte Cluster erkennen und reprasentieren durch die Kovarianzmatrix Kann mit unvollstandigen Beobachtungen umgehenK Means als EM Verfahren Bearbeiten Hauptartikel k Means Algorithmus Auch der k Means Algorithmus kann als EM Algorithmus verstanden werden der die Daten als Voronoi Zellen modelliert Eine EM Variante des k Means Algorithmus sieht wie folgt aus Im Initialisierungs Schritt werden die Clusterzentren m i displaystyle mu i nbsp zufallig oder mit einer Heuristik gewahlt Im Erwartungsschritt werden Datenobjekte ihrem nachsten Clusterzentrum zugeordnet d h E w i j 1 falls m i X j min i m i X j 0 sonst displaystyle operatorname E w ij begin cases 1 amp text falls quad mu i X j min i mu i X j 0 amp text sonst end cases nbsp Im Maximierungsschritt werden die Clusterzentren neu berechnet als Mittelwert der ihnen zugeordneten Datenpunkte m j 1 i n E w i j i 1 n E w i j y i displaystyle mu j frac 1 sum i n operatorname E w ij sum i 1 n operatorname E w ij y i nbsp Weitere Instanzen des EM Algorithmus BearbeitenSchatzen der Parameter einer Mischverteilung Baum Welch Algorithmus zum Schatzen der Parameter eines Hidden Markov Modells Lernen eines Bayes schen Netzes mit versteckten VariablenBeweis fur den Maximierungsschritt bei Normalverteilungsannahme BearbeitenBewiesen werden soll a r g m a x m k i 1 m P y h 1 m i 1 m 1 2 s 2 E w i k y i displaystyle underset mu k mathrm arg max prod i 1 m P left y mid h right frac 1 m sum i 1 m frac 1 2 sigma 2 operatorname E w ik y i nbsp Anstatt P y h displaystyle P y mid h nbsp zu maximieren kann auch ln P y h displaystyle ln P y mid h nbsp maximiert werden da der Logarithmus eine streng monoton steigende Funktion ist a r g m a x m ln i 1 m P y h displaystyle underset mu mathrm arg max ln prod i 1 m P y mid h nbsp a r g m a x m i 1 m ln 1 2 p s 2 j 1 n 1 2 s 2 E w i j y i m j 2 displaystyle underset mu mathrm arg max left sum i 1 m left ln frac 1 sqrt 2 pi sigma 2 sum j 1 n frac 1 2 sigma 2 operatorname E w ij y i mu j 2 right right nbsp a r g m a x m m ln 1 2 p s 2 1 2 s 2 i 1 m j 1 n E w i j y i m j 2 displaystyle underset mu mathrm arg max left m ln frac 1 sqrt 2 pi sigma 2 frac 1 2 sigma 2 sum i 1 m sum j 1 n operatorname E w ij y i mu j 2 right nbsp Der Minuend ist eine Konstante deswegen ist es ausreichend den Subtrahend zu minimieren a r g m i n m 1 2 s 2 i 1 m j 1 n E w i j y i m j 2 displaystyle underset mu mathrm arg min left frac 1 2 sigma 2 sum i 1 m sum j 1 n operatorname E left w ij right left y i mu j right 2 right nbsp a r g m i n m i 1 m j 1 n E w i j y i m j 2 displaystyle underset mu mathrm arg min left sum i 1 m sum j 1 n operatorname E w ij y i mu j 2 right nbsp Eine quadratische Summe ergibt stets einen nichtnegativen Wert Daher ist das absolute Minimum durch 0 beschrankt und somit auch ein lokales Minimum Man setze die 1 Ableitung fur diesen Term t displaystyle t nbsp nach jedem m k displaystyle mu k nbsp auf 0 d t d m k 2 i 1 m E w i k y i m k 0 displaystyle frac mathrm d t mathrm d mu k 2 sum i 1 m operatorname E left w ik right left y i mu k right 0 nbsp denn die Ableitung aller Summanden der Summe uber j displaystyle j nbsp sind 0 displaystyle 0 nbsp ausser fur j k displaystyle j k nbsp Folglich i 1 m E w i k y i m k i 1 m E w i k m k i 1 m E w i k y i i 1 m E w i k displaystyle sum i 1 m operatorname E w ik y i mu k sum i 1 m operatorname E w ik quad Rightarrow quad mu k frac sum i 1 m operatorname E left w ik right y i sum i 1 m operatorname E w ik nbsp 1 q e d Literatur BearbeitenA P Dempster N M Laird D B Rubin Maximum Likelihood from incomplete data via the EM algorithm In Journal of the Royal Statistical Society 1977 S 1 38 JSTOR 2984875 Tom M Mitchell Machine Learning The Mc Graw Hill Companies 1997 Richard O Duda u a Pattern Classification 2 Auflage John Wiley amp Sons New York 2012 Stuart Russell Peter Norvig Artificial Intelligence A Modern Approach 2 Auflage Prentice Hall 2002 Stuart Russell Peter Norvig Kunstliche Intelligenz Ein moderner Ansatz Pearson Studium 2004 ISBN 3 8273 7089 2 deutsche Ubersetzung der 2 Auflage Einzelnachweise Bearbeiten Examples of the EM Algorithm In The EM Algorithm and Extensions John Wiley amp Sons Ltd 2008 ISBN 978 0 470 19161 3 S 41 75 doi 10 1002 9780470191613 ch2 wiley com abgerufen am 31 Januar 2021 Abgerufen von https de wikipedia org w index php title EM Algorithmus amp oldid 208522759