www.wikidata.de-de.nina.az
Die Maximum Likelihood Methode kurz ML Methode auch Maximum Likelihood Schatzung maximum likelihood englisch fur grosste Plausibilitat daher auch Methode der grossten Plausibilitat 1 Methode der maximalen Mutmasslichkeit 2 Grosste Dichte Methode oder Methode der grossten Dichte bezeichnet in der Statistik ein parametrisches Schatzverfahren Dabei wird vereinfacht ausgedruckt derjenige Parameter als Schatzung ausgewahlt gemass dessen Verteilung die Realisierung der beobachteten Daten am plausibelsten erscheint Im Falle einer von einem Parameter ϑ displaystyle vartheta abhangigen Wahrscheinlichkeitsfunktion r W 0 1 x r x ϑ displaystyle rho colon Omega to 0 1 quad x mapsto rho x mid vartheta wird zu einem beobachteten Ausgang x displaystyle x also die folgende Likelihood Funktion fur verschiedene Parameter betrachtet L 8 0 1 ϑ r x ϑ displaystyle L colon Theta to 0 1 quad vartheta mapsto rho x mid vartheta Dabei bezeichnet W displaystyle Omega den Ergebnisraum und 8 displaystyle Theta den Parameterraum Raum aller moglichen Parameterwerte Fur einen bestimmten Wert des Parameters ϑ displaystyle vartheta entspricht die Likelihood Funktion Wahrscheinlichkeitsfunktion der Wahrscheinlichkeit das Ergebnis x displaystyle x zu beobachten Als Maximum Likelihood Schatzung wird entsprechend dasjenige ϑ displaystyle vartheta bezeichnet fur das die Likelihood Funktion maximal wird Im Falle stetiger Verteilungen gilt eine analoge Definition nur wird die Wahrscheinlichkeitsfunktion in dieser Situation durch die zugehorige Dichtefunktion ersetzt Allgemein lassen sich Maximum Likelihood Methoden fur beliebige statistische Modelle definieren solange die entsprechende Verteilungsklasse eine dominierte Verteilungsklasse ist Inhaltsverzeichnis 1 Motivation 2 Eine heuristische Herleitung 3 Definition 3 1 Nicht unabhangig verteilte Zufallsvariablen 4 Beispiele 4 1 Diskrete Verteilung kontinuierlicher Parameterraum 4 2 Diskrete Verteilung endlicher Parameterraum 4 3 Stetige Verteilung kontinuierlicher Parameterraum 5 Historische Entwicklung 6 Maximum Likelihood Schatzung 7 Eigenschaften von Maximum Likelihood Schatzern 7 1 Existenz 7 2 Asymptotische Normalitat 7 3 Allgemeine Tests 7 3 1 Likelihood Quotienten Test 7 3 2 Wald Test 7 4 Akaike Informationskriterium 7 5 Anpassungsgute 8 Nachteile der Methode 9 Erweiterungen 10 Anwendungsbeispiel Maximum Likelihood in der molekularen Phylogenie 11 Siehe auch 12 Literatur 13 EinzelnachweiseMotivation BearbeitenEinfach gesprochen bedeutet die Maximum Likelihood Methode Folgendes Wenn man statistische Untersuchungen durchfuhrt untersucht man in der Regel eine Stichprobe mit einer bestimmten Anzahl von Objekten einer Grundgesamtheit Da die Untersuchung der gesamten Grundgesamtheit in den meisten Fallen hinsichtlich der Kosten und des Aufwandes unmoglich ist sind die wichtigen Kennwerte der Grundgesamtheit unbekannt Solche Kennwerte sind z B der Erwartungswert oder die Standardabweichung Da man diese Kennwerte jedoch zu den statistischen Rechnungen die man durchfuhren mochte benotigt muss man die unbekannten Kennwerte der Grundgesamtheit anhand der bekannten Stichprobe schatzen Die Maximum Likelihood Methode wird nun in Situationen benutzt in denen die Elemente der Grundgesamtheit als Realisierung eines Zufallsexperiments interpretiert werden konnen das von einem unbekannten Parameter abhangt bis auf diesen aber eindeutig bestimmt und bekannt ist Entsprechend hangen die interessanten Kennwerte ausschliesslich von diesem unbekannten Parameter ab lassen sich also als Funktion von ihm darstellen Als Maximum Likelihood Schatzer wird nun derjenige Parameter bezeichnet der die Wahrscheinlichkeit die Stichprobe zu erhalten maximiert Die Maximum Likelihood Methode ist aufgrund ihrer Vorteile gegenuber anderen Schatzverfahren beispielsweise die Methode der kleinsten Quadrate und die Momentenmethode das wichtigste Prinzip zur Gewinnung von Schatzfunktionen fur die Parameter einer Verteilung Eine heuristische Herleitung BearbeitenEs wird nun folgendes Beispiel betrachtet Es gibt eine Urne mit einer grossen Anzahl von Kugeln die entweder schwarz oder rot sind Da die Untersuchung aller Kugeln praktisch unmoglich erscheint wird eine Stichprobe von zehn Kugeln etwa mit Zurucklegen gezogen In dieser Stichprobe seien nun eine rote und neun schwarze Kugeln Ausgehend von dieser einen Stichprobe soll nun die wahre Wahrscheinlichkeit eine rote Kugel in der Gesamtpopulation Urne zu ziehen geschatzt werden nbsp Drei Likelihood Funktionen fur Parameter p einer Binomialverteilung fur verschiedene Anzahlen k von roten Kugeln in einer Stichprobe von n 10 KugelnDie Maximum Likelihood Methode versucht diese Schatzung nun so zu erstellen dass das Auftreten unserer Stichprobe damit am wahrscheinlichsten wird Dazu konnte man ausprobieren bei welchem Schatzwert die Wahrscheinlichkeit fur unser Stichprobenergebnis maximal wird Probiert man beispielsweise 0 2 displaystyle 0 2 nbsp als Schatzwert fur die Wahrscheinlichkeit p displaystyle p nbsp einer roten Kugel so kann man mit Hilfe der Binomialverteilung B 10 0 2 1 displaystyle B 10 0 2 1 nbsp die Wahrscheinlichkeit des beobachteten Ergebnisses genau eine rote Kugel berechnen das Ergebnis ist 0 268 4 displaystyle 0 2684 nbsp Probiert man es mit 0 1 displaystyle 0 1 nbsp als Schatzwert fur p displaystyle p nbsp berechnet also B 10 0 1 1 displaystyle B 10 0 1 1 nbsp fur die Wahrscheinlichkeit dass genau eine rote Kugel gezogen wird ist das Ergebnis 0 387 4 displaystyle 0 3874 nbsp Mit 0 387 4 displaystyle 0 3874 nbsp fur p 0 1 displaystyle p 0 1 nbsp ist die Wahrscheinlichkeit dass das beobachtete Ergebnis genau eine rote Kugel in der Stichprobe durch eine Populationswahrscheinlichkeit fur rote Kugeln von p 0 1 displaystyle p 0 1 nbsp verursacht wurde somit grosser als bei p 0 2 displaystyle p 0 2 nbsp Damit ware nach der Maximum Likelihood Methode 0 1 displaystyle 0 1 nbsp ein besserer Schatzwert fur den Anteil p displaystyle p nbsp roter Kugeln in der Grundgesamtheit Es erweist sich dass fur p 0 1 displaystyle p 0 1 nbsp siehe rote Linie fur k 1 displaystyle k 1 nbsp in der Grafik die Wahrscheinlichkeit des beobachteten Ergebnisses am grossten ist Deshalb ist 0 1 displaystyle 0 1 nbsp die Maximum Likelihood Schatzung von p displaystyle p nbsp Man kann zeigen dass sich allgemein bei k displaystyle k nbsp roten Kugeln in der Stichprobe k 10 displaystyle k 10 nbsp als Maximum Likelihood Schatzung von p displaystyle p nbsp ergibt Definition BearbeitenBei der Maximum Likelihood Methode wird von einer Zufallsvariablen X displaystyle X nbsp ausgegangen deren Dichte bzw Wahrscheinlichkeitsfunktion f displaystyle f nbsp von einem unbekannten Parameter ϑ displaystyle vartheta nbsp abhangt Liegt eine einfache Zufallsstichprobe mit n displaystyle n nbsp Realisierungen x 1 x n displaystyle x 1 dotsc x n nbsp von n displaystyle n nbsp unabhangig und identisch verteilten Zufallsvariablen X 1 X n displaystyle X 1 dotsc X n nbsp vor so lasst sich die gemeinsame Dichtefunktion bzw Wahrscheinlichkeitsfunktion wie folgt faktorisieren f x 1 x 2 x n ϑ i 1 n f x i ϑ displaystyle f x 1 x 2 dotsc x n vartheta prod i 1 n f x i vartheta nbsp Statt nun fur einen festen Parameter ϑ displaystyle vartheta nbsp die Dichte fur beliebige Werte x 1 x n displaystyle x 1 dotsc x n nbsp auszuwerten kann umgekehrt fur beobachtete und somit feste Realisierungen x 1 x n displaystyle x 1 dotsc x n nbsp die gemeinsame Dichte als Funktion von ϑ displaystyle vartheta nbsp interpretiert werden Dies fuhrt zur Likelihood Funktion L ϑ i 1 n f ϑ x i displaystyle L vartheta prod i 1 n f vartheta x i nbsp Die Likelihood Funktion ist algebraisch identisch zur gemeinsamen Dichte f x 1 x 2 x n ϑ displaystyle f x 1 x 2 dotsc x n vartheta nbsp 3 Wird diese Funktion in Abhangigkeit von ϑ displaystyle vartheta nbsp maximiert 4 ϑ ML arg max ϑ 8 L ϑ displaystyle hat vartheta text ML underset vartheta in Theta arg max L vartheta nbsp so erhalt man die Maximum Likelihood Schatzung fur den unbekannten Parameter ϑ displaystyle vartheta nbsp Es wird also der Wert von ϑ displaystyle vartheta nbsp gesucht bei dem die Stichprobenwerte x 1 x n displaystyle x 1 dotsc x n nbsp die grosste Dichte bzw Wahrscheinlichkeitsfunktion haben Es ist naheliegend einen Parameterwert ϑ displaystyle vartheta nbsp als umso plausibler anzusehen je hoher die Likelihood Der Maximum Likelihood Schatzer ist in diesem Sinne der plausibelste Parameterwert fur die Realisierungen x 1 x n displaystyle x 1 dotsc x n nbsp der Zufallsvariablen X displaystyle X nbsp Ist L displaystyle L cdot nbsp differenzierbar so kann das Maximum bestimmt werden indem man die erste Ableitung nach ϑ displaystyle vartheta nbsp bildet und diese dann Null setzt Da dieses bei Dichtefunktionen mit komplizierten Exponentenausdrucken sehr aufwandig werden kann wird haufig die logarithmierte Likelihood Funktion bzw logarithmische Likelihood Funktion kurz Log Likelihood Funktion verwendet da sie auf Grund der Monotonie des Logarithmus ihr Maximum an derselben Stelle wie die nichtlogarithmierte Dichtefunktion besitzt jedoch einfacher zu berechnen ist ℓ ϑ log i 1 n f ϑ x i i 1 n log f ϑ x i ℓ i ϑ i 1 n ℓ i ϑ displaystyle ell vartheta log left prod i 1 n f vartheta x i right sum i 1 n underbrace log f vartheta x i ell i vartheta sum i 1 n ell i vartheta nbsp wobei ℓ i ϑ displaystyle ell i vartheta nbsp die individuellen Beitrage zur Log Likelihood Funktion sind Nicht unabhangig verteilte Zufallsvariablen Bearbeiten Bei nicht unabhangig verteilten Zufallsvariablen wie z B in Longitudinalstudien faktorisiert die Likelihood Funktion nur falls unabhangige Blocke von Zufallsvariablen vorliegen In den jeweiligen Blocken sind die bedingten Korrelationsfunktionen zu schatzen Beispielsweise gilt fur einen Zufallsvektor normalverteilter Zufallsvariablen X 1 X n displaystyle X 1 dots X n nbsp ℓ ϑ m S log f m S x log 1 2 p n 2 det S exp 1 2 x 1 m 1 x n m n S 1 x 1 m 1 x n m n T displaystyle ell vartheta vec mu Sigma log f vec mu Sigma vec x log left frac 1 2 pi n 2 sqrt det mathit Sigma exp left frac 1 2 left x 1 mu 1 ldots x n mu n right mathit Sigma 1 left x 1 mu 1 ldots x n mu n right mathrm T right right nbsp wobei m displaystyle vec mu nbsp ein Vektor bedingter Erwartungswerte und S displaystyle Sigma nbsp die Korrelationsmatrix ist welche beide zu schatzen sind 5 Da die Zahl der Parameter von S displaystyle Sigma nbsp gleich n n 1 2 displaystyle n n 1 2 nbsp ist und somit quadratisch in n displaystyle n nbsp steigt kann es hilfreich sein eine parametrische Form fur S displaystyle Sigma nbsp anzunehmen Beispiele BearbeitenDiskrete Verteilung kontinuierlicher Parameterraum Bearbeiten Die Anzahl der Anrufe bei zwei Telefonisten in einer Stunde in einem Call Center kann mit einer Poisson Verteilung X 1 P l displaystyle X 1 sim mathcal P lambda nbsp und X 2 P l displaystyle X 2 sim mathcal P lambda nbsp modelliert werden Beim ersten Telefonisten gehen drei und beim zweiten funf Anrufe pro Stunde unabhangig voneinander ein Die Likelihood Funktion fur den unbekannten Parameter l displaystyle lambda nbsp ergibt sich als L l P X 1 3 X 2 5 P X 1 3 P X 2 5 displaystyle L lambda P X 1 3 cap X 2 5 P X 1 3 cdot P X 2 5 nbsp nbsp Likelihood Funktion im nebenstehenden BeispielSetzt man die Werte in die Wahrscheinlichkeitsfunktion P X x 1 x l x exp l x 0 1 2 displaystyle P X x frac 1 x lambda x exp lambda quad x 0 1 2 ldots nbsp ein so folgt L l l 3 3 exp l l 5 5 exp l l 8 3 5 exp 2 l displaystyle L lambda frac lambda 3 3 exp lambda frac lambda 5 5 exp lambda frac lambda 8 3 5 exp 2 lambda nbsp Die erste Ableitung der Likelihood Funktion ergibt sich zu d d l L l l 1 3 5 8 l 7 exp 2 l 2 l 8 exp 2 l 2 l 7 exp 2 l 3 5 4 l displaystyle begin aligned left frac rm d rm d lambda L lambda right hat lambda amp frac 1 3 5 left 8 lambda 7 exp 2 lambda 2 lambda 8 exp 2 lambda right amp frac 2 lambda 7 exp 2 lambda 3 5 4 lambda end aligned nbsp und die Nullstellen sind offenbar l 0 displaystyle hat lambda 0 nbsp und l 4 displaystyle hat lambda 4 nbsp Nur fur l ML 4 displaystyle hat lambda text ML 4 nbsp hat die Likelihood Funktion ein Maximum und dies ist der Maximum Likelihood Schatzwert Im allgemeinen Fall mit n displaystyle n nbsp Telefonisten die jeweils x i displaystyle x i nbsp Anrufe pro Stunde erhalten ergibt sich die Likelihood Funktion als L l 1 i 1 n x i l i 1 n x i exp n l displaystyle L lambda frac 1 prod i 1 n x i lambda sum i 1 n x i exp n lambda nbsp und die Log Likelihood Funktion als ℓ l log L l i 1 n x i log l log i 1 n x i n l displaystyle ell lambda log L lambda sum i 1 n x i log lambda log left prod i 1 n x i right n lambda nbsp Die Ableitung nach l displaystyle lambda nbsp ergibt d d l ℓ l l ML i 1 n x i l ML n 0 displaystyle left frac rm d rm d lambda ell lambda right hat lambda text ML frac sum i 1 n x i hat lambda text ML n overset mathrm 0 nbsp und nach Umformen ergibt sich der Maximum Likelihood Schatzer als l ML 1 n i 1 n x i x displaystyle hat lambda text ML frac 1 n sum i 1 n x i overline x nbsp und die zugehorige Schatzfunktion als L 1 n i 1 n X i X displaystyle Lambda frac 1 n sum i 1 n X i overline X nbsp Diskrete Verteilung endlicher Parameterraum Bearbeiten Eine Urne enthalt N 8 displaystyle N 8 nbsp Kugeln die entweder rot oder schwarz sind Die genaue Anzahl M 0 1 8 displaystyle M in 0 1 dotsc 8 nbsp der roten Kugeln ist nicht bekannt Nacheinander werden n 4 displaystyle n 4 nbsp Kugeln gezogen und jeweils wieder zuruck in die Urne gelegt Beobachtet werden x 1 1 displaystyle x 1 1 nbsp erste Kugel ist rot x 2 1 displaystyle x 2 1 nbsp zweite Kugel ist rot x 3 0 displaystyle x 3 0 nbsp dritte Kugel ist schwarz und x 4 1 displaystyle x 4 1 nbsp vierte Kugel ist rot Gesucht ist nun die nach dem Maximum Likelihood Prinzip plausibelste Zusammensetzung der Kugeln in der Urne In jedem Zug ist die Wahrscheinlichkeit eine rote Kugel zu ziehen gleich M N displaystyle textstyle frac M N nbsp Wegen der Unabhangigkeit der Ziehungen ist die Wahrscheinlichkeit des beobachteten Ergebnisses und damit die zugehorige Likelihood Funktion in Abhangigkeit vom unbekannten Parameter M displaystyle M nbsp gegeben durch L M M N 3 1 M N 1 N 4 M 3 N M 1 8 4 M 3 8 M displaystyle L M left frac M N right 3 left 1 frac M N right frac 1 N 4 M 3 N M frac 1 8 4 M 3 8 M nbsp Es ergeben sich folgende Funktionswerte M displaystyle M nbsp 0 displaystyle 0 nbsp 1 displaystyle 1 nbsp 2 displaystyle 2 nbsp 3 displaystyle 3 nbsp 4 displaystyle 4 nbsp 5 displaystyle 5 nbsp 6 displaystyle 6 nbsp 7 displaystyle 7 nbsp 8 displaystyle 8 nbsp L M displaystyle L M nbsp 0 0 002 0 012 0 033 0 063 0 092 0 105 0 084 0Daraus ergibt sich dass die Likelihood Funktion L M displaystyle L M nbsp maximal ist fur M 6 displaystyle M 6 nbsp Damit ist M 6 displaystyle M 6 nbsp der plausibelste Parameterwert fur die Realisierung drei roter Kugeln bei vier Ziehungen und somit der Schatzwert nach der Maximum Likelihood Methode Stetige Verteilung kontinuierlicher Parameterraum Bearbeiten Seien x 1 n displaystyle x 1 n nbsp Realisierungen einer Zufallsstichprobe X 1 n displaystyle X 1 n nbsp einer Normalverteilung N m s 2 displaystyle mathcal N mu sigma 2 nbsp mit unbekanntem Erwartungswert m displaystyle mu in infty infty nbsp und unbekannter Varianz s 2 gt 0 displaystyle sigma 2 gt 0 nbsp Die Dichtefunktion fur jede einzelne Realisierung ist dann gegeben durch f x i m s 2 1 2 p s 2 exp 1 2 s 2 x i m 2 displaystyle f left x i mid mu sigma 2 right frac 1 sqrt 2 pi sigma 2 exp left frac 1 2 sigma 2 x i mu 2 right nbsp Dann ist L ϑ i 1 n f ϑ x i i 1 n 1 2 p s 2 exp 1 2 s 2 x i m 2 1 2 p s 2 n 2 exp 1 2 s 2 i 1 n x i m 2 displaystyle L vartheta prod i 1 n f vartheta left x i right prod i 1 n frac 1 sqrt 2 pi sigma 2 exp left frac 1 2 sigma 2 x i mu 2 right frac 1 left 2 pi sigma 2 right n 2 exp left frac 1 2 sigma 2 sum i 1 n x i mu 2 right nbsp die Likelihood Funktion von ϑ m s 2 8 0 displaystyle vartheta mu sigma 2 in Theta infty infty times 0 infty nbsp Als Log Likelihood Funktion auch logarithmische Plausibilitatsfunktion genannt ergibt sich ℓ ϑ log L ϑ n 2 log 2 p s 2 1 2 s 2 i 1 n x i m 2 displaystyle ell vartheta log L vartheta frac n 2 log left 2 pi sigma 2 right frac 1 2 sigma 2 sum i 1 n x i mu 2 nbsp Bildet man die partiellen Ableitungen von ℓ ϑ displaystyle ell vartheta nbsp nach m displaystyle mu nbsp und s 2 displaystyle sigma 2 nbsp bildet man also die Score Funktionen und setzt man beide Ausdrucke gleich null dann erhalt man die beiden Likelihood Gleichungen m ℓ ϑ m ML 1 s 2 i 1 n x i m ML 1 0 displaystyle left frac partial partial mu ell vartheta right hat mu text ML frac 1 sigma 2 sum i 1 n x i hat mu text ML cdot 1 overset mathrm 0 nbsp und s 2 ℓ ϑ s 2 ML n 2 s 2 ML 1 2 s 2 ML 2 i 1 n x i m 2 0 displaystyle left frac partial partial sigma 2 ell vartheta right hat sigma 2 text ML frac n 2 hat sigma 2 text ML frac 1 2 hat sigma 2 text ML 2 sum i 1 n x i mu 2 overset mathrm 0 nbsp Lost man nun nach m ML displaystyle hat mu text ML nbsp und s 2 ML displaystyle hat sigma 2 text ML nbsp dann erhalt man die beiden Maximum Likelihood Schatzungen m ML 1 n i 1 n x i x displaystyle hat mu text ML frac 1 n sum i 1 n x i overline x nbsp und s 2 ML 1 n i 1 n x i m 2 displaystyle hat sigma 2 text ML frac 1 n sum i 1 n x i mu 2 nbsp Geht man von den Zufallsvariablen X 1 X n displaystyle X 1 ldots X n nbsp und nicht von ihren Realisierungen x 1 x n displaystyle x 1 ldots x n nbsp aus erhalt man den Stichprobenmittelwert m ML X 1 n i 1 n X i displaystyle hat mu text ML overline X frac 1 n sum limits i 1 n X i nbsp und die Stichprobenvarianz s ML 2 S 2 1 n i 1 n X i X 2 displaystyle hat sigma text ML 2 tilde S 2 frac 1 n sum i 1 n X i overline X 2 nbsp als Maximum Likelihood Schatzer Tatsachlich hat die Funktion L ϑ displaystyle L vartheta nbsp an dieser Stelle ihr Maximum siehe Schatzung der Varianz der Grundgesamtheit Fur den Erwartungswert von m ML displaystyle hat mu text ML nbsp ergibt sich E m ML m displaystyle operatorname E hat mu text ML mu nbsp das heisst der Maximum Likelihood Schatzer m ML displaystyle hat mu text ML nbsp ist erwartungstreu fur den unbekannten Parameter m displaystyle mu nbsp Man kann zeigen dass fur den Erwartungswert von s ML 2 displaystyle hat sigma text ML 2 nbsp E s ML 2 n 1 n s 2 displaystyle operatorname E hat sigma text ML 2 frac n 1 n sigma 2 nbsp gilt siehe unbekannter Erwartungswert Der Maximum Likelihood Schatzer s ML 2 displaystyle hat sigma text ML 2 nbsp fur die unbekannte skalare Storgrossenvarianz s 2 displaystyle sigma 2 nbsp ist also nicht erwartungstreu Allerdings kann man zeigen dass der Maximum Likelihood Schatzer s ML 2 displaystyle hat sigma text ML 2 nbsp asymptotisch erwartungstreu fur s 2 displaystyle sigma 2 nbsp ist Historische Entwicklung BearbeitenDie Maximum Likelihood Methode geht auf Ronald Aylmer Fisher zuruck der sie zunachst in relativer Unkenntnis von Vorarbeiten durch Gauss in Arbeiten von 1912 1921 und schliesslich 1922 unter dem spater bekannten Namen entwickelte Die Hauptergebnisse wurden auch bereits 1908 von Francis Ysidro Edgeworth hergeleitet 6 7 Maximum Likelihood Schatzung BearbeitenAls Maximum Likelihood Schatzung kurz MLS bezeichnet man in der Statistik eine Parameterschatzung die nach der Maximum Likelihood Methode berechnet wurde In der englischen Fachliteratur ist die Abkurzung MLE fur maximum likelihood estimation oder maximum likelihood estimator dafur sehr verbreitet Eine Schatzung bei der Vorwissen in Form einer A priori Wahrscheinlichkeit einfliesst wird Maximum a posteriori Schatzung kurz MAP genannt Eigenschaften von Maximum Likelihood Schatzern BearbeitenDie besondere Qualitat von Maximum Likelihood Schatzern aussert sich darin dass sie in der Regel die effizienteste Methode zur Schatzung bestimmter Parameter darstellt Existenz Bearbeiten Unter bestimmten Regularitatsbedingungen lasst sich beweisen dass Maximum Likelihood Schatzer existieren was aufgrund ihrer impliziten Definition als eindeutiger Maximalstelle einer nicht naher bestimmten Wahrscheinlichkeitsfunktion nicht offensichtlich ist Die fur diesen Beweis benotigten Voraussetzungen bestehen im Prinzip ausschliesslich aus Annahmen zur Vertauschbarkeit von Integration und Differentiation was in den meisten betrachteten Modellen erfullt ist Asymptotische Normalitat Bearbeiten Wenn Maximum Likelihood Schatzer existieren und gewisse Regularitatsbedingungen erfullt sind dann sind sie asymptotisch normalverteilt 8 Formal gesprochen sei ϑ ML displaystyle hat vartheta text ML nbsp der Maximum Likelihood Schatzer fur einen Parameter ϑ displaystyle vartheta nbsp und I ϑ E I ϑ displaystyle I vartheta operatorname E I vartheta nbsp erwartete Fisher Information Dann gilt unter bestimmten Annahmen I ϑ ϑ ML ϑ a N 0 1 displaystyle sqrt I vartheta hat vartheta text ML vartheta stackrel a sim mathcal N 0 1 nbsp bzw ϑ ML a N ϑ I ϑ 1 displaystyle hat vartheta text ML stackrel a sim mathcal N vartheta I vartheta 1 nbsp Allgemeine Tests Bearbeiten nbsp Arbeitsweise der drei Tests im Rahmen der Maximum Likelihood Methode Die Konvergenz der Maximum Likelihood Schatzfunktion ϑ ML displaystyle hat vartheta text ML nbsp gegen eine Normalverteilung erlaubt die Ableitung allgemeiner Tests zur Prufung von Modellen und Koeffizienten Likelihood Quotienten Test Wald Test und Score Test oder Lagrange Multiplikator Test LM Test Die Grafik rechts zeigt die Arbeitsweise der Tests auf Der Likelihood Quotienten Test vergleicht die Werte der Likelihood Funktionen miteinander der Wald Test pruft den Abstand zwischen dem geschatzten Parameter und dem vorgegebenen Parameter und der Score Test ob die Ableitung der Likelihood Funktion Null ist Da diese Tests nur asymptotisch gultig sind gibt es fur kleine Stichprobenumfange oft Tests mit besseren Optimalitatseigenschaften Likelihood Quotienten Test Bearbeiten Im Likelihood Quotienten Test wird gepruft ob sich zwei hierarchisch geschachtelte Modelle englisch nested models signifikant voneinander unterscheiden Ist ϑ displaystyle vartheta nbsp ein Parametervektor sind 8 0 8 1 displaystyle Theta 0 subset Theta 1 nbsp zwei Parameterraume 8 0 displaystyle Theta 0 nbsp reduziertes Modell 8 1 displaystyle Theta 1 nbsp volles Modell sowie L ϑ displaystyle L vartheta nbsp die Likelihood Funktion dann gilt unter der Nullhypothese H 0 ϑ 8 0 displaystyle H 0 colon vartheta in Theta 0 nbsp vs H 1 ϑ 8 1 displaystyle H 1 colon vartheta in Theta 1 nbsp L R 2 log max 8 0 L ϑ max 8 1 L ϑ a x 2 dim 8 1 dim 8 0 displaystyle LR 2 log left frac max Theta 0 L vartheta max Theta 1 L vartheta right stackrel a sim chi 2 dim Theta 1 dim Theta 0 nbsp Eine Ablehnung der Nullhypothese bedeutet dass das volle Modell das Modell unter der Alternativhypothese eine signifikant bessere Erklarung liefert als das reduzierte Modell das Modell unter der Nullhypothese bzw Nullmodell Wald Test Bearbeiten Wahrend der Likelihood Quotienten Test Modelle vergleicht zielt der Wald Test auf einzelne Koeffizienten univariat oder Koeffizientengruppen multivariat Asymptotisch und unter der Nullhypothese H 0 displaystyle H 0 nbsp folgt W I ϑ ML ϑ ML ϑ 0 a H 0 N 0 1 displaystyle W sqrt I hat vartheta text ML hat vartheta text ML vartheta 0 stackrel a H 0 sim mathcal N 0 1 nbsp D h die Wald Teststatistik ist unter o g Voraussetzungen standardnormalverteilt Hierbei bezeichnet I displaystyle I cdot nbsp die Fisher Information Akaike Informationskriterium Bearbeiten Die Maximum Likelihood Methode ist auch eng mit dem Akaike Informationskriterium AIC verknupft Hirotsugu Akaike zeigte dass das Maximum der Likelihood Funktion ein verzerrter Schatzer fur die Kullback Leibler Divergenz der Abstand zwischen dem wahren Modell und dem Maximum Likelihood Modell ist Je grosser der Wert der Likelihood Funktion ist desto naher liegt das Modell am wahren Modell gewahlt wird das Modell das den geringsten AIC Wert aufweist Die asymptotische erwartungstreue ist gerade die Anzahl der zu schatzenden Parameter Mit dem Akaike Informationskriterium kann man im Gegensatz zum Likelihood Quotienten Wald und Score Test auch nichtgeschachtelte ML Modelle vergleichen Anpassungsgute Bearbeiten Die Anpassungsgute kann mithilfe der Pseudo Bestimmtheitsmasse beurteilt werden Nachteile der Methode BearbeitenDie wunschenswerten Eigenschaften des Maximum Likelihood Ansatzes beruhen auf der entscheidenden Annahme uber den datenerzeugenden Prozess das heisst auf der unterstellten Dichtefunktion der untersuchten Zufallsvariable Der Nachteil der Maximum Likelihood Methode besteht darin dass eine konkrete Annahme uber die gesamte Verteilung der Zufallsvariable getroffen werden muss Wenn diese jedoch verletzt ist kann es sein dass die Maximum Likelihood Schatzer inkonsistent sind Nur in einigen Fallen ist es unerheblich ob die Zufallsvariable tatsachlich der unterstellten Verteilung gehorcht allerdings gilt dies nicht im Allgemeinen Per Maximum Likelihood gewonnene Schatzer die konsistent sind auch wenn die zu Grunde gelegte Verteilungsannahme verletzt wird sind sogenannte Pseudo Maximum Likelihood Schatzer Maximum Likelihood Schatzer konnen Effizienzprobleme und systematische Fehler in kleinen Stichproben aufweisen Sind die Daten nicht zufallig kann man mit anderen Methoden oft bessere Parameter ermitteln Das kann beispielsweise bei Quasi Monte Carlo Analysen eine Rolle spielen oder wenn die Daten bereits gemittelt sind Erweiterungen BearbeitenDie empirische Likelihood erlaubt es den Nachteil einer zwingenden Verteilungsannahme zu beseitigen und eine nichtparametrische Maximum Likelihood Methode zu definieren Anwendungsbeispiel Maximum Likelihood in der molekularen Phylogenie BearbeitenDas Maximum Likelihood Kriterium gilt als eine der Standardmethoden zur Berechnung von phylogenetischen Baumen um Verwandtschaftsbeziehungen zwischen Organismen meist anhand von DNA oder Proteinsequenzen zu erforschen Als explizite Methode ermoglicht Maximum Likelihood die Anwendung verschiedener Evolutionsmodelle die in Form von Substitutionsmatrizen in die Stammbaumberechnungen einfliessen Entweder werden empirische Modelle verwendet Proteinsequenzen oder die Wahrscheinlichkeiten fur Punktmutationen zwischen den verschiedenen Nukleotiden werden anhand des Datensatzes geschatzt und hinsichtlich des Likelihood Wertes ln L displaystyle ln L nbsp optimiert DNA Sequenzen Allgemein gilt ML als die zuverlassigste und am wenigsten Artefakt anfallige Methode unter den phylogenetischen Baumkonstruktionsmethoden Dies erfordert jedoch ein sorgfaltiges Taxon Sampling und meist ein komplexes Evolutionsmodell Siehe auch BearbeitenDevianz Statistik Literatur BearbeitenSchwarze Jochen Grundlagen der Statistik Band 2 Wahrscheinlichkeitsrechnung und induktive Statistik 6 Auflage Berlin Herne Verlag Neue Wirtschaftsbriefe 1997 Blobel Volker und Lohrmann Erich Statistische und numerische Methoden der Datenanalyse Teubner Studienbucher Stuttgart Leipzig 1998 ISBN 978 3 519 03243 4 Einzelnachweise Bearbeiten Alice Zheng Amanda Casari Merkmalskonstruktion fur Machine Learning Prinzipien und Techniken der Datenaufbereitung Der Deutsche Normenausschuss hat in einem Rundschreiben 1954 den schwerfalligen Begriff Methode der maximalen Mutmasslichkeit im Gauss Fisherschen Sinne vorgeschlagen George G Judge R Carter Hill W Griffiths Helmut Lutkepohl T C Lee Introduction to the Theory and Practice of Econometrics 2 Auflage John Wiley amp Sons New York Chichester Brisbane Toronto Singapore 1988 ISBN 0 471 62414 4 S 64 Leonhard Held und Daniel Sabanes Bove Applied Statistical Inference Likelihood and Bayes Springer Heidelberg New York Dordrecht London 2014 ISBN 978 3 642 37886 7 S 14 Barnett A G Dobson A J 2018 An Introduction to Generalized Linear Models USA CRC Press R A Fisher An absolute criterion for fitting frequency curves In Messenger of Math Nr 41 S 155 1912 JSTOR 2246266 online John Aldrich R A Fisher and the Making of Maximum Likelihood 1912 1922 In Statistical Science Band 12 Nr 3 S 162 176 1997 doi 10 1214 ss 1030037906 JSTOR 2246367 Mark Schervish Theory of Statistics Springer New York 1995 ISBN 978 1 4612 8708 7 Kapitel 7 3 5 Abgerufen von https de wikipedia org w index php title Maximum Likelihood Methode amp oldid 238078813