www.wikidata.de-de.nina.az
Unter logistischer Regression oder Logit Modell versteht man in der Statistik Regressionsanalysen zur meist multiplen Modellierung der Verteilung abhangiger diskreter Variablen Wenn logistische Regressionen nicht naher als multinomiale oder geordnete logistische Regressionen gekennzeichnet sind ist zumeist die binomiale logistische Regression fur dichotome binare abhangige Variablen gemeint Die unabhangigen Variablen konnen dabei ein beliebiges Skalenniveau aufweisen wobei diskrete Variablen mit mehr als zwei Auspragungen in eine Serie binarer Dummy Variablen zerlegt werden Im binomialen Fall liegen Beobachtungen der Art y i x i 1 x i 2 x i k i 1 n displaystyle y i x i1 x i2 ldots x ik i 1 ldots n vor wobei Y i displaystyle Y i eine binare abhangige Variable den so genannten Regressanden bezeichnet deren Wert y i 0 1 displaystyle y i in 0 1 zusammen mit bekannten und festen Werten von k displaystyle k Regressoren Kovariablen erklarenden Variablen x i 1 x i 2 x i k displaystyle x i1 x i2 ldots x ik auftritt n displaystyle n bezeichnet die Anzahl der Beobachtungen Inhaltsverzeichnis 1 Motivation 2 Modellspezifikation 3 Eigenschaften 4 Zur Interpretation 5 Schatzmethode und Likelihoodfunktion 6 Modelldiagnose 6 1 Regressionsdiagnostik 6 2 Hosmer Lemeshow Test 7 Alternativen und Erweiterungen 8 Literatur 9 Weblinks 10 EinzelnachweiseMotivation Bearbeiten nbsp Logistische Funktion Verteilungsfunktion der logistischen VerteilungDie Einflusse auf diskrete Variablen konnen nicht mit dem Verfahren der klassischen linearen Regressionsanalyse untersucht werden da wesentliche Anwendungsvoraussetzungen insbesondere eine Normalverteilung der Residuen und Homoskedastizitat nicht gegeben sind Ferner kann ein lineares Regressionsmodell bei einer solchen Variablen zu unzulassigen Vorhersagen fuhren Wenn man die beiden Auspragungen der abhangigen Variablen mit 0 und 1 kodiert so kann man zwar die Vorhersage eines linearen Regressionsmodells als Vorhersage der Wahrscheinlichkeit auffassen dass die abhangige Variable den Wert 1 annimmt formal P Y i 1 displaystyle mathrm P Y i 1 nbsp doch kann es dazu kommen dass Werte ausserhalb dieses Bereichs vorhergesagt werden Die logistische Regression lost dieses Problem durch eine geeignete Transformation des Erwartungswerts der abhangigen Variablen P Y i 1 displaystyle mathrm P Y i 1 nbsp Die Relevanz des Logit Modells wird auch dadurch deutlich dass Daniel McFadden und James Heckman im Jahr 2000 fur ihren Beitrag zu seiner Entwicklung den Alfred Nobel Gedachtnispreis fur Wirtschaftswissenschaften verliehen bekamen Das Modell der logistischen Regression ist ein Spezialfall des verallgemeinerten linearen Modells Modellspezifikation BearbeitenMit x i 1 x i k displaystyle x i1 dots x ik nbsp sind die Werte der Regressorvariablen fur die i displaystyle i nbsp te Beobachtung bezeichnet mit b 0 b 1 b k displaystyle beta 0 beta 1 ldots beta k nbsp sind die unbekannten Regressionskoeffizienten bezeichnet und mit h i b 0 x i 1 b 1 x i 2 b 2 x i k b k i 1 n displaystyle eta i beta 0 x i1 beta 1 x i2 beta 2 dotsc x ik beta k quad i 1 dots n nbsp sind die Werte ist des so genannten linearen Pradiktors bezeichnet Die beobachteten Werte y i 0 1 displaystyle y i in 0 1 nbsp fur i 1 n displaystyle i 1 dots n nbsp der erklarten Variablen werden als Realisierungen stochastisch unabhangiger Bernoulli verteilter Zufallsvariablen Y 1 Y n displaystyle Y 1 dots Y n nbsp aufgefasst Deren Bernoulli Parameter hangt auf nichtlineare Art uber die Verteilungsfunktion F x e x 1 e x 1 1 e x x R displaystyle F x frac e x 1 e x frac 1 1 e x quad x in mathbb R nbsp der logistischen Verteilung die auch logistische Funktion heisst vom linearen Pradiktor und damit von den Werten der Regressorvariablen ab Das Modell der logistischen Regression postuliert dann fur die Bernoulli verteilten Zufallsvariablen Y 1 Y n displaystyle Y 1 dots Y n nbsp Die Zufallsvariablen Y 1 Y n displaystyle Y 1 dots Y n nbsp sind stochastisch unabhangig P Y i 1 F h i exp h i 1 exp h i 1 1 exp h i i 1 n displaystyle mathrm P Y i 1 F eta i frac exp eta i 1 exp eta i frac 1 1 exp eta i quad i 1 ldots n nbsp Eigenschaften BearbeitenDie Zufallsvariablen Y 1 Y n displaystyle Y 1 dots Y n nbsp sind im allgemeinen nicht identisch verteilt Aus h i h j displaystyle eta i eta j nbsp folgt dass Y i displaystyle Y i nbsp und Y j displaystyle Y j nbsp identisch verteilt sind Fur i 1 n displaystyle i 1 dots n nbsp gilt 0 lt P Y i 1 lt 1 displaystyle 0 lt mathrm P Y i 1 lt 1 nbsp P Y i 0 1 P Y i 1 1 1 exp h i 0 1 displaystyle mathrm P Y i 0 1 mathrm P Y i 1 frac 1 1 exp eta i in 0 1 nbsp E Y i P Y i 1 F h i displaystyle mathrm E Y i mathrm P Y i 1 F eta i nbsp V a r Y i P Y i 1 1 P Y i 1 F h i F h i displaystyle mathrm Var Y i mathrm P Y i 1 1 mathrm P Y i 1 F eta i F eta i nbsp Die logistische Funktion F displaystyle F nbsp ist invertierbar Die Umkehrfunktion L o g i t p F 1 p ln p 1 p 0 lt p lt 1 displaystyle mathrm Logit p F 1 p ln left frac p 1 p right quad 0 lt p lt 1 nbsp heisst auch Logit Funktion Zu einer Wahrscheinlichkeit 0 lt p lt 1 displaystyle 0 lt p lt 1 nbsp heisst L o g i t p displaystyle mathrm Logit p nbsp das Logit von p displaystyle p nbsp Zur Interpretation BearbeitenAusgehend von der Gleichung P Y i 1 F h i displaystyle mathrm P Y i 1 F eta i nbsp ist ersichtlich dass h i F 1 P Y i 1 displaystyle eta i F 1 mathrm P Y i 1 nbsp gilt was aquivalent zu h i ln P Y i 1 1 P Y i 1 ln P Y i 1 P Y i 0 Odds i displaystyle eta i ln frac mathrm P Y i 1 1 mathrm P Y i 1 ln underbrace frac mathrm P Y i 1 mathrm P Y i 0 operatorname Odds i nbsp Somit geht das Modell der logistischen Regression von der Idee Chancen englisch odds aus d h dem Verhaltnis von P Y i 1 displaystyle mathrm P Y i 1 nbsp zur Gegenwahrscheinlichkeit 1 P Y i 1 P Y i 0 displaystyle 1 mathrm P Y i 1 mathrm P Y i 0 nbsp bei Kodierung der Alternativkategorie mit 0 Odds i P Y i 1 1 P Y i 1 P Y i 1 P Y i 0 displaystyle operatorname Odds i frac mathrm P Y i 1 1 mathrm P Y i 1 frac mathrm P Y i 1 mathrm P Y i 0 nbsp nbsp Funktionsgraph der Logit FunktionDie Chancen konnen zwar Werte grosser 1 annehmen doch ist ihr Wertebereich nach unten beschrankt er nahert sich asymptotisch 0 an Ein unbeschrankter Wertebereich wird durch die Transformation der Chancen in die sogenannten Logits Logit i ln Odds i ln P Y i 1 P Y i 0 displaystyle operatorname Logit i ln operatorname Odds i ln left frac mathrm P Y i 1 mathrm P Y i 0 right nbsp erzielt diese konnen Werte zwischen minus und plus unendlich annehmen Die Logits dienen als eine Art Kopplungsfunktion zwischen der Wahrscheinlichkeit und dem linearen Pradiktor In der logistischen Regression wird dann die Regressionsgleichung Logit i b 0 x i 1 b 1 x i 2 b 2 x i k b k displaystyle operatorname Logit i beta 0 x i1 beta 1 x i2 beta 2 dotsc x ik beta k nbsp geschatzt es werden also Regressionsgewichte bestimmt nach denen die geschatzten Logits fur gegebene Werte der Regressoren berechnet werden konnen Die folgende Grafik zeigt wie Logits Ordinate mit den Ausgangswahrscheinlichkeiten P Y i 1 displaystyle mathrm P Y i 1 nbsp Abszisse zusammenhangen Die Regressionskoeffizienten der logistischen Regression sind nicht einfach zu interpretieren Daher bildet man haufig die sogenannten Effektkoeffizienten durch Exponenzieren die Regressionsgleichung bezieht sich dadurch auf die Chancen P Y i 1 P Y i 0 Odds i exp b 0 x i 1 b 1 x i 2 b 2 x i k b k displaystyle frac mathrm P Y i 1 mathrm P Y i 0 operatorname Odds i exp beta 0 x i1 beta 1 x i2 beta 2 dotsc x ik beta k nbsp Betrachtet man nun die Anderung der Odds i displaystyle operatorname Odds i nbsp der i ten Untersuchungseinheit wenn sich fur j displaystyle j nbsp te erklarte Variable j 1 k displaystyle j in 1 dots k nbsp der Wert x i j displaystyle x ij nbsp auf x i j 1 displaystyle x ij 1 nbsp andert so betrachtet man Odds i x i 1 x i j 1 x i k Odds i x i 1 x i j x i k exp b j x i j 1 exp b j x i j exp b j displaystyle frac operatorname Odds i x i1 dots x ij 1 dots x ik operatorname Odds i x i1 dots x ij dots x ik frac exp beta j x ij 1 exp beta j x ij exp beta j nbsp Die Koeffizienten exp b j displaystyle exp beta j nbsp fur j 1 k displaystyle j 1 dots k nbsp werden oft auch als Effektkoeffizienten bezeichnet Sie beschreiben das Chancenverhaltnis eng odds ratio wenn sich x i j displaystyle x ij nbsp um D x i j 1 displaystyle Delta x ij 1 nbsp andert Hier bedeuten Effektkoeffizienten kleiner 1 einen negativen Einfluss auf die Chancen ein positiver Einfluss ist gegeben wenn exp b j gt 1 displaystyle exp beta j gt 1 nbsp Durch eine weitere Transformation lassen sich die Einflusse der logistischen Regression auch als Einflusse auf die Wahrscheinlichkeiten P Y i 1 displaystyle mathrm P Y i 1 nbsp ausdrucken P Y i 1 F h i exp b 0 x i 1 b 1 x i 2 b 2 x i k b k 1 exp b 0 x i 1 b 1 x i 2 b 2 x i k b k displaystyle mathrm P Y i 1 F eta i frac exp beta 0 x i1 beta 1 x i2 beta 2 dotsc x ik beta k 1 exp beta 0 x i1 beta 1 x i2 beta 2 dotsc x ik beta k nbsp Schatzmethode und Likelihoodfunktion BearbeitenAnders als bei der linearen Regressionsanalyse ist eine direkte Berechnung der besten Regressionskurve nicht moglich Deshalb wird zumeist mit einem iterativen Algorithmus 1 eine Maximum Likelihood Losung geschatzt Aus den Modellannahmen ergibt sich die Likelihoodfunktion L b 0 b 1 b k i 1 n P Y i y i i y i 1 P Y i 1 i y i 0 P Y i 0 i 1 n exp h i 1 exp h i y i 1 1 exp h i 1 y i displaystyle L beta 0 beta 1 ldots beta k prod i 1 n mathrm P Y i y i prod i y i 1 mathrm P Y i 1 prod i y i 0 mathrm P Y i 0 prod i 1 n left frac exp eta i 1 exp eta i right y i left frac 1 1 exp eta i right 1 y i nbsp deren numerische Maximierung bei fixierten Werten y i x i 1 x i k displaystyle y i x i1 dots x ik nbsp fur i 1 n displaystyle i 1 dots n nbsp zum Maximum Likelihood Schatzwert b 0 b 1 b k displaystyle b 0 b 1 dots b k nbsp fur den Parametervektor b 0 b 1 b k displaystyle beta 0 beta 1 ldots beta k nbsp fuhrt Falls einzelne Parameter interpretiert werden sollen und nicht nur der lineare Pradiktor zur Prognose verwendet werden soll ist Multikollinearitat der Regressoren schadlich Aus den Maximum Likelihood Schatzwerten b 0 b 1 b k displaystyle b 0 b 1 dots b k nbsp fur die unbekannten Parameter b 0 b 1 b k displaystyle beta 0 beta 1 ldots beta k nbsp erhalt man durch Ersetzen die Schatzwerte h i b 0 x i 1 b 1 x i 2 b 2 x i k b k i 1 n displaystyle hat eta i b 0 x i1 b 1 x i2 b 2 dotsc x ik b k quad i 1 dots n nbsp fur die linearen Pradiktoren h i displaystyle eta i nbsp und die Schatzwerte P Y i 1 F h i i 1 n displaystyle hat P Y i 1 F hat eta i quad i 1 dots n nbsp fur die Wahrscheinlichkeiten P Y i 1 displaystyle P Y i 1 nbsp Modelldiagnose BearbeitenDie Regressionsparameter werden auf der Grundlage des Maximum Likelihood Verfahrens geschatzt Inferenzstatistische Verfahren stehen sowohl fur die einzelnen Regressionskoeffizienten als auch fur das Gesamtmodell zur Verfugung siehe Wald Test und Likelihood Quotienten Test Regressionsdiagnostik Bearbeiten In Analogie zum linearen Regressionsmodell wurden Verfahren der Regressionsdiagnostik entwickelt anhand derer einzelne Falle mit ubergrossem Einfluss auf das Ergebnis der Modellschatzung identifiziert werden konnen Es gibt auch einige Vorschlage zur Berechnung einer Grosse die in Analogie zum Bestimmtheitsmass R 2 displaystyle mathit R 2 nbsp der linearen Regression eine Abschatzung der erklarten Variation erlaubt man spricht hier von sogenannten Pseudo Bestimmtheitsmassen Auch das Informationskriterium nach Akaike und das bayessche Informationskriterium werden in diesem Kontext gelegentlich herangezogen Ebenfalls wird die ROC Kurve zur Beurteilung der Vorhersagekraft logistischer Regressionen verwendet wobei die Flache unter der ROC Kurve kurz AUROC als Gutekriterium fungiert 2 Hosmer Lemeshow Test Bearbeiten Hauptartikel Hosmer Lemeshow Test Insbesondere bei Modellen zur Risikoadjustierung wird haufig der Hosmer Lemeshow Test zur Bewertung der Anpassungsgute verwendet 3 4 Die Berechnung der Testgrosse beruht auf den beobachteten Werten y 1 y n 0 1 displaystyle y 1 dots y n in 0 1 nbsp und den Schatzwerten p i P Y i 1 F h i i 1 n displaystyle p i hat P Y i 1 F hat eta i quad i 1 dots n nbsp fur die Eintrittswahrscheinlichkeiten Die Grundidee dieses Tests ist dass sich fur eine Teilmengen der Untersuchungseinheiten mit ahnlichen geschatzten Eintrittswahrscheinlichkeiten die beobachteten relativen Haufigkeiten der eingetretenen Ereignisse und die durchschnittlichen geschatzten Eintrittswahrscheinlichkeiten nicht zu stark unterscheiden Alternativen und Erweiterungen BearbeitenEine Erweiterung der logistischen Regression stellt die ordinale logistische Regression Geordnete logistische Regression dar eine Variante dieser ist das kumulative Logit Modell Als im Wesentlichen gleichwertige Alternative kann das Probit Modell herangezogen werden bei dem eine Normalverteilung zugrunde gelegt wird Eine Ubertragung der logistischen Regression und des Probit Modells auf eine abhangige Variable mit mehr als zwei diskreten Merkmalen ist moglich dies ist die multinomiale logistische Regression Literatur BearbeitenAlan Agresti Categorical Data Analysis 2 Auflage Wiley New York 2002 ISBN 0 471 36093 7 Hans Jurgen Andress J A Hagenaars Steffen Kuhnel Analyse von Tabellen und kategorialen Daten Springer Berlin 1997 ISBN 3 540 62515 1 David M Hosmer Stanley Lemeshow Rodney X Sturdivant Applied Logistic Regression Wiley Series in Probability and Statistics 3 Auflage Wiley Hoboken 2013 ISBN 978 0 470 58247 3 doi 10 1002 9781118548387 Dieter Urban Logit Analyse Lucius amp Lucius Stuttgart 1998 ISBN 3 8282 4306 1 Scott J Long Regression Models for Categorical and Limited Dependent Variables Sage 1997 ISBN 0 8039 7374 8 Gerhard Tutz Die Analyse kategorialer Daten Anwendungsorientierte Einfuhrung in Logit Modellierung und kategoriale Regression Oldenbourg Munchen Wien 2000 ISBN 3 486 25405 7 Kap 2 Logistische Regression und Logit Modell fur binare abhangige Grosse S 29 65 Gerhard Tutz Regression for Categorical Data Cambridge University Press Cambridge 2012 ISBN 978 1 107 00965 3 Kap 2 Binary Regression The Logit Model S 29 50 Weblinks BearbeitenRede von Daniel McFadden zur Nobelpreisverleihung Geschichte der Logit Regression englisch Einfuhrung in die Logistische Regression mit SPSS PDF 2 2 MB Einzelnachweise Bearbeiten Paul David Allison Logistic regression using the SAS system theory and application SAS Institute Cary NC 1999 S 48 David M Hosmer Stanley Lemeshow Rodney X Sturdivant Applied logistic regression 2013 Abschnitt 5 2 4 Area Under the ROC Curve David W Hosmer Stanley Lemeshow Goodness of fit tests for the multiple logistic regression model In Communications in Statistics Theory and Methods Band 9 Nr 10 1980 S 1043 1069 doi 10 1080 03610928008827941 David M Hosmer Stanley Lemeshow Rodney X Sturdivant Applied logistic regression 2013 Abschnitt 5 2 2 The Hosmer Lemeshow Tests Abgerufen von https de wikipedia org w index php title Logistische Regression amp oldid 237921673