www.wikidata.de-de.nina.az
In der Statistik ist ein Informationskriterium ein Kriterium zur Modellauswahl Man folgt dabei der Idee von Ockhams Rasiermesser dass ein Modell nicht unnotig komplex sein soll und balanciert die Anpassungsgute des geschatzten Modells an die vorliegenden empirischen Daten Stichprobe und dessen Komplexitat gemessen an der Anzahl der Parameter aus Die Anzahl der Parameter wird dabei strafend berucksichtigt da sonst komplexe Modelle mit vielen Parametern bevorzugt wurden In diesem Sinne ist das korrigierte Bestimmtheitsmass das auf Henri Theil 1970 zuruckgeht ein Vorlaufer der heute bekannten Informationskriterien Allen heute verwendeten Informationskriterien ist gleich dass sie in zwei verschiedenen Formulierungen vorliegen Entweder ist das Mass fur die Anpassungsgute als die maximale Plausibilitat oder als die minimale Varianz der Residuen formuliert Hieraus ergeben sich unterschiedliche Interpretationsmoglichkeiten Beim Ersteren ist das Modell am besten bei dem das jeweilige Informationskriterium den hochsten Wert hat die strafende Anzahl der Parameter muss dabei abgezogen werden Beim Letzteren ist das Modell mit dem niedrigsten Wert des Informationskriteriums am besten die Anzahl der Parameter muss strafend addiert werden Inhaltsverzeichnis 1 Akaike Informationskriterium 1 1 Allgemeine Definition 2 Bayessches Informationskriterium 3 Weitere Informationskriterien 4 Literatur 5 Einzelnachweise 6 WeblinksAkaike Informationskriterium BearbeitenDas historisch alteste Kriterium wurde im Jahr 1973 von Hirotsugu Akaike 1927 2009 als an information criterion vorgeschlagen und ist heute als Akaike Informationskriterium 1 Informationskriterium nach Akaike oder Akaike sches Informationskriterium englisch Akaike information criterion kurz AIC bekannt Das Akaike Informationskriterium ist eines der am haufigsten verwendeten Kriterien fur die Modellauswahl im Rahmen der Likelihood basierten Inferenz In der Grundgesamtheit liegt eine Verteilung einer Variablen mit unbekannter Dichtefunktion p displaystyle p nbsp vor Bei der Maximum Likelihood Schatzung ML Schatzung geht man von einer bekannten Verteilung mit einem unbekannten Parameter 8 displaystyle theta nbsp aus man nimmt also an dass sich die Dichtefunktion als q 8 displaystyle q theta nbsp schreiben lasst Die Kullback Leibler Divergenz wird als Entfernungsmass zwischen p displaystyle p nbsp und q 8 displaystyle q hat theta nbsp genutzt Dabei ist 8 displaystyle hat theta nbsp der geschatzte Parameter aus der Maximum Likelihood Schatzung Je besser das ML Modell ist desto kleiner ist die Kullback Leibler Divergenz D P Q displaystyle D P Q nbsp Fur den Fall eines regularen und linearen Modells konnte Akaike zeigen dass die negative log Likelihood Funktion auch logarithmische Plausibilitatsfunktion genannt ℓ 8 displaystyle ell hat theta nbsp ein verzerrter Schatzer fur die Kullback Leibler Divergenz D P Q displaystyle D P Q nbsp ist und dass die Verzerrung asymptotisch Stichprobenumfang strebt gegen unendlich gegen die Zahl der zu schatzenden Parameter p displaystyle p nbsp konvergiert Fur ein Maximum Likelihood Modell mit einem p dimensionalen Parametervektor 8 M L 8 1 8 2 8 p displaystyle hat boldsymbol theta ML hat theta 1 hat theta 2 dotsc hat theta p top nbsp ist das Akaike Informationskriterium definiert als 2 A I C 2 ℓ 8 M L 2 p displaystyle AIC 2 ell hat boldsymbol theta ML 2p nbsp wobei ℓ displaystyle ell nbsp die log Likelihood Funktion darstellt Das Kriterium ist negativ orientiert d h bei einer Auswahl von moglichen Kandidaten fur Modelle Modellauswahl fur die Daten ist das bevorzugte Modell dasjenige mit dem minimalen AIC Wert Das AIC belohnt die Anpassungsgute beurteilt durch die Likelihood Funktion aber es enthalt auch einen Strafterm auch Ponalisierungsterm oder Penalisierungsterm genannt 2 p displaystyle 2p nbsp der hierbei zu hohe Modellkomplexitat bestraft Er ist eine zunehmende Funktion in Abhangigkeit der Anzahl der geschatzten Parameter p displaystyle p nbsp Der Strafterm verhindert Uberanpassung denn die Erhohung der Anzahl der Parameter im Modell verbessert fast immer die Anpassungsgute Anstelle des AIC nach obiger Definition wird auch A I C n displaystyle AIC n nbsp verwendet wobei n displaystyle n nbsp die Stichprobengrosse ist 3 Allgemeine Definition Bearbeiten Angenommen es liegen n displaystyle n nbsp unabhangige Beobachtungen mit Erwartungswert E y i m i displaystyle operatorname E y i mu i nbsp und Varianz Var y i s 2 displaystyle operatorname Var y i sigma 2 nbsp vor Die Variablen x 0 1 x 1 x 2 x k displaystyle x 0 1 x 1 x 2 ldots x k nbsp sind verfugbar als potentielle Regressoren Sei das spezifizierte Modell definiert durch die Teilmenge M 0 1 2 k displaystyle M subset 0 1 2 ldots k nbsp von miteinbezogenen erklarenden Variablen mit der dazugehorigen Versuchsplanmatrix X M displaystyle mathbf X M nbsp Fur den Kleinste Quadrate Schatzer erhalt man b M X M X M 1 X M y displaystyle hat boldsymbol beta M mathbf X M top mathbf X M 1 mathbf X M top mathbf y nbsp 4 Im Allgemeinen ist das Akaike Informationskriterium definiert durch A I C 2 ℓ b M s 2 y X M 2 M 1 displaystyle AIC 2 ell hat boldsymbol beta M hat sigma 2 mathbf y mathbf X M 2 mid M mid 1 nbsp wobei ℓ b M s 2 displaystyle ell hat boldsymbol beta M hat sigma 2 nbsp der Maximalwert der log Likelihood Funktion ist d h die log Likelihood Funktion wenn die ML Schatzer b M displaystyle hat boldsymbol beta M nbsp und s 2 displaystyle hat sigma 2 nbsp in die log Likelihood Funktion eingesetzt werden Kleinere AIC Werte gehen mit einer besseren Modellanpassung einher Die Anzahl der Parameter ist hier M 1 displaystyle mid M mid 1 nbsp da die Varianz der Storgrossen ebenfalls als ein Parameter gezahlt wird In einem linearen Modell mit normalverteilten Storgrossen Klassisches lineares Modell der Normalregression erhalt man fur die negative log Likelihood Funktion fur die Herleitung der log Likelihood Funktion siehe Maximum Likelihood Schatzung 2 ℓ b M s 2 y X M 2 ln L b M s 2 y X M n ln 2 p n ln s 2 y X M b M y X M b M s 2 n ln s 2 y X M b M y X M b M s 2 n ln s 2 n s 2 s 2 n ln s 2 n n ln s 2 displaystyle begin aligned 2 ell hat boldsymbol beta M hat sigma 2 mathbf y mathbf X M amp 2 ln L hat boldsymbol beta M hat sigma 2 mathbf y mathbf X M n cdot ln 2 pi n cdot ln hat sigma 2 frac mathbf y mathbf X M hat boldsymbol beta M top mathbf y mathbf X M hat boldsymbol beta M hat sigma 2 amp propto n cdot ln hat sigma 2 frac mathbf y mathbf X M hat boldsymbol beta M top mathbf y mathbf X M hat boldsymbol beta M hat sigma 2 amp n cdot ln hat sigma 2 frac n hat sigma 2 hat sigma 2 amp n cdot ln hat sigma 2 n amp propto n cdot ln hat sigma 2 end aligned nbsp und damit A I C n ln s 2 2 M 1 displaystyle AIC n ln hat sigma 2 2 mid M mid 1 nbsp Hierbei ist n displaystyle n nbsp der Stichprobenumfang und s 2 displaystyle hat sigma 2 nbsp die Varianz der Storgrossen Die Varianz der Storgrossen s 2 displaystyle hat sigma 2 nbsp wird mittels der Residuenquadratsumme aus dem Regressionsmodell geschatzt siehe Erwartungstreue Schatzung der Varianz der Storgrossen Allerdings ist zu beachten dass s 2 displaystyle hat sigma 2 nbsp die verzerrte und nicht wie gewohnlich die erwartungstreue Variante der Schatzung der Varianz der Storgrossen s 2 1 n e e displaystyle hat sigma 2 tfrac 1 n hat boldsymbol varepsilon top hat boldsymbol varepsilon nbsp ist 5 Bayessches Informationskriterium BearbeitenDer Nachteil des Akaike Informationskriteriums ist dass der Strafterm von der Stichprobengrosse unabhangig ist Bei grossen Stichproben sind Verbesserungen der log Likelihood bzw der Residualvarianz leichter moglich weshalb das Kriterium bei grossen Stichproben tendenziell Modelle mit verhaltnismassig vielen Parametern vorteilhaft erscheinen lasst Deshalb empfiehlt sich die Verwendung des durch Gideon E Schwarz 1978 vorgeschlagenen bayesschen Informationskriteriums 6 auch Bayes Informationskriterium Bayes sches Informationskriterium bayesianisches Informationskriterium oder Schwarz Bayes Informationskriterium kurz SBC genannt englisch Bayesian Information Criterion kurz BIC Fur ein Modell mit einem Parametervektor 8 displaystyle boldsymbol theta nbsp log Likelihood Funktion ℓ 8 displaystyle ell boldsymbol theta nbsp und dem Maximum Likelihood Schatzer 8 M L displaystyle hat boldsymbol theta ML nbsp ist das BIC definiert als 7 8 B I C 2 ℓ 8 M L p ln n displaystyle BIC 2 ell hat boldsymbol theta ML p ln n nbsp bzw B I C n ln s 2 p ln n displaystyle BIC n ln hat sigma 2 p ln n nbsp Bei diesem Kriterium wachst der Faktor des Strafterms logarithmisch mit der Anzahl der Beobachtungen n displaystyle n nbsp Bereits ab acht Beobachtungen ln 8 2 079 44 gt 2 displaystyle ln 8 2 07944 gt 2 nbsp bestraft das BIC zusatzliche Parameter scharfer als das AIC Formal ist das BIC identisch zum AIC bloss dass der Faktor 2 durch ln n displaystyle ln n nbsp ersetzt wird Es hat die gleiche Ausrichtung wie AIC sodass Modelle mit kleinerem BIC bevorzugt werden 9 Letzteres Modell wird vor allem in der Soziologie haufig verwendet Kuha 2004 weist auf die unterschiedlichen Ziele der beiden Kenngrossen hin Wahrend das BIC versucht dasjenige Modell auszuwahlen das A posteriori die grosste Plausibilitat besitzt das wahre Modell zu sein geht das AIC davon aus dass es kein wahres Modell gibt Die Halfte des negativen BIC wird auch als Schwarz Kriterium bezeichnet Weitere Informationskriterien BearbeitenDaneben existieren weitere seltener verwendete Informationskriterien wie das Hannan Quinn Informationskriterium englisch Hannan Quinn Information Criterion kurz HQIC benannt nach Edward James Hannan und Barry G Quinn 1979 das Devianz Informationskriterium englisch Deviance Information Criterion kurz DIC nach Spiegelhalter Best Carlin und van der Linde 2002 Erweitertes Informationskriterium englisch Extended Information Criterion kurz EIC nach Ishiguro Sakamoto and Kitagawa 1997 Fokussiertes Informationskriterium englisch Focused Information Criterion kurz FIC nach Wei 1992 Generalized Information Criterion kurz GIC nach Nishii 1984 Netzwerkinformationskriterium 10 englisch Network Information Criterion kurz NIC nach Murata Yoshizawa und Amari 1991 Takeuchi Informationskriterium englisch Takeuchi s Information Criterion kurz TIC nach Takeuchi 1976 Ein auf Informationskriterien basierender statistischer Test ist der Vuong Test Literatur BearbeitenHirotsugu Akaike Information theory and an extension of the maximum likelihood principle In B N Petrov u a Hrsg Proceedings of the Second International Symposium on Information Theory Budapest Akademiai Kiado 1973 S 267 281 Kenneth P Burnham David R Anderson Model Selection and Multimodel Inference A Practical Information Theoretic Approach Springer Verlag New York 2002 ISBN 0 387 95364 7 Kenneth P Burnham David R Anderson 2004 Multimodel Inference Understanding AIC and BIC in Model Selection In Sociological Methods and Research Band 33 2004 doi 10 1177 0049124104268644 S 261 304 Jouni Kuha 2004 AIC and BIC Comparisons of Assumptions and Performance in Sociological Methods and Research Band 33 2004 doi 10 1177 0049124103262065 S 188 229 Gideon Schwarz Estimating the Dimension of a Model In Annals of Statistics 2 Nr 6 1978 doi 10 1214 aos 1176344136 JSTOR 2958889 S 461 464 David L Weakliem 2004 Introduction to the Special Issue on Model Selection In Sociological Methods and Research Band 33 2004 doi 10 1177 0049124104268642 S 167 187 Einzelnachweise Bearbeiten Akaike s information criterion Glossary of statistical terms In International Statistical Institute 1 Juni 2011 abgerufen am 4 Juli 2020 englisch Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 664 Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 664 Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 144 Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 148 Bayes information criterion Glossary of statistical terms In International Statistical Institute 1 Juni 2011 abgerufen am 4 Juli 2020 englisch Leonhard Held und Daniel Sabanes Bove Applied Statistical Inference Likelihood and Bayes Springer Heidelberg New York Dordrecht London 2014 ISBN 978 3 642 37886 7 S 230 Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 677 Leonhard Held und Daniel Sabanes Bove Applied Statistical Inference Likelihood and Bayes Springer Heidelberg New York Dordrecht London 2014 ISBN 978 3 642 37886 7 S 230 Bastian Popp Markenerfolg durch Brand Communities Eine Analyse der Wirkung psychologischer Variablen auf okonomische Erfolgsindikatoren Weblinks BearbeitenBernard Desgraupes Clustering Indices PDF Universitat Paris Nanterre Marz 2013 abgerufen am 26 Juni 2016 englisch Abgerufen von https de wikipedia org w index php title Informationskriterium amp oldid 238861531