www.wikidata.de-de.nina.az
Die Regressionsanalyse ist ein Instrumentarium statistischer Analyseverfahren die zum Ziel haben Beziehungen zwischen einer abhangigen auch erklarte Variable vorhergesagte Variable Antwortvariable oder Regressand genannt und einer oder mehreren unabhangigen Variablen auch erklarende Variable Pradiktor variable Kontrollvariable oder Regressor zu modellieren Regressionen werden verwendet um Zusammenhange quantitativ zu beschreiben oder Werte der abhangigen Variablen zu prognostizieren 1 Die haufigste Form der Regressionsanalyse ist die lineare Regression bei der der Anwender eine Gerade oder eine komplexere lineare Funktion findet die den Daten nach einem bestimmten mathematischen Kriterium am besten entspricht Beispielsweise berechnet die gewohnliche Methode der kleinsten Quadrate eine eindeutige Gerade oder Hyperebene die die Summe der Abweichungsquadrate zwischen den wahren Daten und dieser Linie oder Hyperebene d h die Residuenquadratsumme minimiert Aus bestimmten mathematischen Grunden kann der Anwender den bedingten Erwartungswert der abhangigen Variablen schatzen wenn die unabhangigen Variablen eine bestimmte Menge von Werten annehmen Weniger gebrauchliche Formen der Regression verwenden geringfugig unterschiedliche Verfahren zum Schatzen alternativer Lageparameter z B die Quantilsregression oder zum Schatzen des bedingten Erwartungswertes fur eine breitere Klasse nichtlinearer Modelle z B nichtparametrische Regression Die Regressionsanalyse wird hauptsachlich zu zwei konzeptionell unterschiedlichen Zwecken verwendet Erstens wird die Regressionsanalyse haufig fur Schatzungen und Vorhersagen verwendet bei denen sich ihre Verwendung erheblich mit dem Bereich des maschinellen Lernens uberschneidet siehe auch symbolische Regression Zweitens kann in einigen Situationen eine Regressionsanalyse verwendet werden um auf kausale Beziehungen zwischen den unabhangigen und abhangigen Variablen zu schliessen Wichtig ist dass Regressionen fur sich genommen nur Beziehungen zwischen einer abhangigen Variablen und einer oder mehrerer unabhangiger Variablen in einem gegebenen Datensatz aufzeigen Um Regressionen fur Vorhersagen zu verwenden oder Kausalzusammenhange herzuleiten muss der Anwender sorgfaltig begrunden warum bestehende Beziehungen Vorhersagekraft fur einen neuen Kontext haben oder warum eine Beziehung zwischen zwei Variablen eine Kausalzusammenhangsinterpretation hat Korrelation und Kausalzusammenhang Letzteres ist besonders wichtig wenn Anwender mithilfe von Beobachtungsdaten kausale Zusammenhange abschatzen mochten Durch die Erganzung einer Entscheidungsregel wird eine Regression zu einem Klassifikationsverfahren Inhaltsverzeichnis 1 Geschichte 2 Anwendungen 3 Schema einer Regressionsanalyse 3 1 Datenaufbereitung 3 2 Modellanpassung 3 3 Modellvalidierung 3 4 Vorhersage 3 5 Variablenauswahl und Modellvergleich 4 Einige Regressionsverfahren 4 1 Grundlegende Verfahren 4 1 1 Lineare Regression 4 1 2 Nichtparametrische Regression 4 1 3 Semiparametrische Regression 4 1 4 Robuste Regression 4 2 Verallgemeinerte Verfahren 4 2 1 Verallgemeinerte lineare Modelle 4 2 2 Verallgemeinerte semiparametrische Modelle 4 3 Spezielle Verfahren 4 3 1 Autoregressive Modelle 5 Siehe auch 6 Literatur 7 Weblinks 8 EinzelnachweiseGeschichte Bearbeiten nbsp Francis Galton nbsp Carl Friedrich GaussDie fruheste Form der Regression war die Median Regression auch Methode der kleinsten absoluten Abweichungen die um 1760 von Rugjer Josip Boskovic vorgeschlagen wurde 2 Spater wurde die Methode der kleinsten Quadrate franzosisch methode des moindres carres 1805 von Legendre 3 und 1809 von Gauss veroffentlicht 4 Beide verwendeten die Methode um die Umlaufbahnen der Planeten um die Sonne anhand von astronomischen Beobachtungen zu bestimmen Gauss veroffentlichte eine Weiterentwicklung der Theorie der kleinsten Quadrate im Jahr 1821 5 die eine theoretische Rechtfertigung seiner Methode der kleinsten Quadrate enthielt Diese ist heute als Satz von Gauss Markow bekannt Der Begriff Regression wurde im 19 Jahrhundert von Francis Galton einem Cousin Charles Darwins gepragt Er beschrieb damit ein biologisches Phanomen bekannt als Regression zur Mitte wonach Nachfahren grosser Eltern dazu tendieren nur durchschnittlich gross zu werden 6 7 Fur Galton hatte Regression nur diese biologische Bedeutung 8 9 Seine Arbeit wurde jedoch spater durch Udny Yule und Karl Pearson in einen allgemeineren statistischen Kontext gesetzt 10 11 In deren Arbeiten wurde davon ausgegangen dass die gemeinsame Verteilung der unabhangigen und der abhangigen Variablen normalverteilt ist Diese Annahme konnte von R A Fisher spater abgeschwacht werden 12 13 14 Dieser arbeitete mit der Voraussetzung dass die bedingte Verteilung der abhangigen Variable normalverteilt ist die gemeinsame Verteilung jedoch nicht notwendigerweise In dieser Hinsicht war Fishers Ansatz ahnlicher zu Gauss Formulierung von 1821 Regressionsverfahren sind weiterhin ein aktives Forschungsgebiet In den letzten Jahrzehnten wurden in verschiedensten Bereichen Schatzmethoden entwickelt etwa zur robusten Regression zur nichtparametrischen Regression im Bereich der bayesschen Statistik bei fehlenden Daten und bei fehlerbehafteten unabhangigen Variablen Anwendungen BearbeitenRegressionsverfahren haben viele praktische Anwendungen Die meisten Anwendungen fallen in folgende Kategorien 15 Vorhersage Schatzungen der einzelnen Regressionsparameter b 0 b 1 b k displaystyle beta 0 beta 1 dotsc beta k nbsp sind weniger wichtig fur die Vorhersage als der Gesamteinfluss der x displaystyle x nbsp Variablen auf die Zielgrosse y displaystyle y nbsp Dennoch sollten gute Schatzer eine hohe Vorhersagekraft haben Datenbeschreibung und Erklarung Der Statistiker verwendet das geschatzte Modell um die beobachteten Daten zusammenzufassen und zu beschreiben Parameterschatzung Die Werte der geschatzten Parameter b 0 b 1 b k displaystyle hat beta 0 hat beta 1 dotsc hat beta k nbsp konnten theoretische Implikationen fur das angenommene Modell haben Variablenauswahl Es soll herausgefunden werden wie wichtig jede einzelne Pradiktorvariable x j displaystyle x j nbsp in der Modellierung der Zielgrosse y displaystyle y nbsp ist Die Pradiktorvariablen von denen angenommen wird dass sie einen wichtigen Anteil an der Erklarung der Variation in y displaystyle y nbsp leisten werden beibehalten und diejenigen die wenig zur Erklarung der Variation in y displaystyle y nbsp beitragen oder redundante Information uber y displaystyle y nbsp enthalten werden ausgelassen Fur die Ausgangsvariable kontrollieren Es wird ein Ursache Wirkung Zusammenhang d h ein kausaler Zusammenhang zwischen der Zielvariable und den Pradiktorvariablen angenommen Das geschatzte Modell kann dann verwendet werden um fur die Ausgangsvariable eines Prozesses zu kontrollieren indem die Eingangsvariablen variiert werden Durch systematisches Herumexperimentieren kann es moglich sein den optimalen Ausstoss zu erzielen Schema einer Regressionsanalyse BearbeitenDatenaufbereitung Bearbeiten Am Beginn jedes statistischen Verfahrens steht die Aufbereitung der Daten insbesondere die Plausibilisierung Hierbei wird gepruft ob die Daten nachvollziehbar sind Dies kann manuell oder automatisch anhand von Gultigkeitsregeln erfolgen der Umgang mit fehlenden Daten Haufig werden unvollstandige Datensatze weggelassen mitunter werden die fehlenden Daten auch nach bestimmten Verfahren aufgefullt die Transformation der Daten Diese kann aus verschiedenen Grunden erfolgen Sie kann beispielsweise zu einer besseren Interpretierbarkeit oder Visualisierbarkeit der Daten fuhren Sie kann auch dazu dienen die Daten in eine Form zu bringen in der die Annahmen des Regressionsverfahrens erfullt sind Im Falle der linearen Regression werden etwa ein linearer Zusammenhang zwischen den unabhangigen und der abhangigen Variable sowie Homoskedastizitat vorausgesetzt Es gibt mathematische Hilfsmittel zum Finden einer geeigneten Transformation im Beispiel der Linearisierung des Zusammenhanges etwa die Box Cox Transformation die Berucksichtigung von Interaktionen bei linearer Regression Hierbei wird neben dem Einfluss der unabhangigen Variablen auch der Einfluss mehrerer Variablen gleichzeitig berucksichtigt Modellanpassung Bearbeiten In der Praxis wahlt der Anwender zuerst ein Modell aus das er schatzen mochte und verwendet dann die gewahlte Schatzmethode z B die gewohnliche Kleinste Quadrate Schatzung um die Parameter dieses Modells zu schatzen Regressionsmodelle umfassen im Allgemeinen die folgenden Komponenten die unabhangigen Variablen fur die Daten vorliegen und oft im Vektor x i displaystyle mathbf x i nbsp zusammengefasst werden x i x i 0 x i 1 x i k displaystyle mathbf x i top x i0 x i1 dotsc x ik nbsp hierbei stellt i displaystyle i nbsp eine Datenreihe dar die abhangige Variable fur die Daten vorliegen und die haufig mit dem Skalar y i displaystyle y i nbsp angegeben wird Man sagt Variable y i displaystyle y i nbsp wird auf Variable x i 0 x i 1 displaystyle x i0 x i1 dotsc nbsp und x i k displaystyle x ik nbsp regressiert oder Regression von y i displaystyle y i nbsp auf x i 0 x i 1 displaystyle x i0 x i1 dotsc nbsp und x i k displaystyle x ik nbsp 16 17 die unbekannten zu schatzenden Parameter b 0 b 1 b k displaystyle beta 0 beta 1 dotsc beta k nbsp Sie stellen Skalare dar die unbeobachtbaren Storgrossen statistisches Rauschen die nicht direkt beobachtet werden konnen und haufig als e i displaystyle varepsilon i nbsp angegeben werden In verschiedenen Anwendungsbereichen der Statistik werden unterschiedliche Terminologien anstelle von abhangige und unabhangige Variablen verwendet siehe Abhangige und unabhangige Variable Statistische Bezeichnungen und Konzepte In den allermeisten Regressionsmodellen ist Y i displaystyle Y i nbsp eine Funktion von X i displaystyle X i nbsp und b displaystyle beta nbsp wobei diese Beziehung von einer additiven Storgrosse e i displaystyle varepsilon i nbsp uberlagert wird die fur nicht modellierte oder unbekannte Bestimmungsfaktoren von Y i displaystyle Y i nbsp stehen kann Y i f X i b e i displaystyle Y i f X i beta varepsilon i nbsp Ziel des Anwenders ist es diejenige Funktion f X i b displaystyle f X i beta nbsp zu schatzen die am ehesten zu den vorliegenden Daten passt Um eine Regressionsanalyse durchzufuhren muss die funktionale Form der Funktion f displaystyle f cdot nbsp angegeben werden Manchmal basiert die Angabe der Form dieser Funktion auf nicht datenbasierten Erfahrungswissen uber die Beziehung zwischen Y i displaystyle Y i nbsp und X i displaystyle X i nbsp die Lineare Regression etwa betrachtet nur lineare Funktionen f displaystyle f nbsp logistische Regression betrachtet nur logistische Funktionen Wenn kein solches Wissen vorhanden ist kann eine flexiblere bzw allgemeinere Form fur f displaystyle f cdot nbsp gewahlt werden Beispielsweise kann eine einfache lineare Regression lineare Einfachregression f X i b b 0 b 1 X i displaystyle f X i beta beta 0 beta 1 X i nbsp angewandt werden was darauf hindeutet dass der Forscher glaubt dass Y i b 0 b 1 X i e i displaystyle Y i beta 0 beta 1 X i varepsilon i nbsp eine angemessene Annaherung fur den wahren datengenerierenden Prozess sein konnte Sobald der Anwender sein bevorzugtes statistisches Modell festgelegt hat bieten verschiedene Formen der Regressionsanalyse Werkzeuge zur Schatzung des Parameters b displaystyle beta nbsp Zum Beispiel findet die Kleinste Quadrate Schatzung einschliesslich seiner haufigsten Variante der gewohnlichen Kleinste Quadrate Schatzung denjenigen Wert von b displaystyle beta nbsp der die Residuenquadratsumme Y i f X i b 2 displaystyle sum Y i f X i beta 2 nbsp minimiert Eine gegebene Regressionsmethode liefert letztendlich eine Schatzung von b displaystyle beta nbsp die fur gewohnlich als b displaystyle hat beta nbsp bezeichnet wird um die Schatzung von dem wahren unbekannten Parameterwert b displaystyle beta nbsp zu unterscheiden der die Daten generiert hat Mit dieser Schatzung kann der Anwender dann den angepassten Wert bzw vorhergesagten Wert englisch fitted value Y i f X i b displaystyle hat Y i f X i hat beta nbsp zur Vorhersage verwenden oder auch zur Beurteilung wie genau das Modell die Daten erklaren kann Ob der Anwender grundsatzlich an der Schatzung b displaystyle hat beta nbsp oder dem vorhergesagten Wert Y i displaystyle hat Y i nbsp interessiert ist hangt vom Kontext und den Zielen des Anwenders ab Die gewohnliche Kleinste Quadrate Schatzung wird oft verwendet da die geschatzte Funktion Y i f X i b displaystyle hat Y i f X i hat beta nbsp eine Schatzung des bedingten Erwartungswertes E Y i X i displaystyle operatorname E Y i mid X i nbsp darstellt Alternative Varianten z B sogenannte robuste Schatzverfahren die den Betrag der Abweichungen minimieren wie die Median Regression oder die Quantilsregression sind jedoch nutzlich wenn Anwender andere Funktionen f X i b displaystyle f X i beta nbsp z B nichtlinearer Modelle modellieren mochte Es ist wichtig zu beachten dass genugend Daten vorhanden sein mussen um ein Regressionsmodell zu schatzen Angenommen ein Anwender hat Zugriff auf n displaystyle n nbsp Datenzeilen mit einer abhangigen und zwei unabhangigen Variablen Y i X 1 i X 2 i displaystyle Y i X 1i X 2i nbsp Sei weiterhin angenommen der Anwender mochte ein einfaches lineares Modell uber die Kleinste Quadrate Schatzung schatzen Das zu schatzende Modell lautet dann Y i b 0 b 1 X 1 i b 2 X 2 i e i displaystyle Y i beta 0 beta 1 X 1i beta 2 X 2i varepsilon i nbsp Wenn der Anwender nur Zugriff auf n 2 displaystyle n 2 nbsp Datenpunkte hat kann er unendlich viele Kombinationen b 0 b 1 b 2 displaystyle hat beta 0 hat beta 1 hat beta 2 nbsp finden die die Daten gleich gut erklaren Es kann eine beliebige Kombination ausgewahlt werden die Y i b 0 b 1 X 1 i b 2 X 2 i displaystyle hat Y i hat beta 0 hat beta 1 X 1i hat beta 2 X 2i nbsp erfullt die alle zu i e i 2 i Y i b 0 b 1 X 1 i b 2 X 2 i 2 0 displaystyle sum i hat e i 2 sum i hat Y i hat beta 0 hat beta 1 X 1i hat beta 2 X 2i 2 0 nbsp fuhren und ist daher eine gultige Losung die diejenige die die Summe der Residuenquadrate Residuenquadratsumme minimiert Um zu verstehen warum es unendlich viele Moglichkeiten gibt ist zu beachten dass das System der n 2 displaystyle n 2 nbsp Gleichungen fur 3 Unbekannte gelost werden muss wodurch das System unterbestimmt wird Alternativ kann man unendlich viele dreidimensionale Ebenen visualisieren die durch n 2 displaystyle n 2 nbsp Fixpunkte verlaufen Ein allgemeinerer Ansatz ist ein Kleinste Quadrate Modell mit k displaystyle k nbsp unterschiedlichen Parametern zu schatzen Dazu mussen N k displaystyle N geq k nbsp unterschiedliche Datenpunkte vorliegen Wenn N gt k displaystyle N gt k nbsp ist gibt es im Allgemeinen keinen Satz von Parametern der perfekt zu den Daten passt Die Grosse N k displaystyle N k nbsp erscheint haufig in der Regressionsanalyse und wird im Modell als Anzahl der Freiheitsgrade bezeichnet Um ein Kleinste Quadrate Modell zu schatzen mussen ausserdem die unabhangigen Variablen X 1 i X 2 i X k i displaystyle X 1i X 2i X ki nbsp linear unabhangig sein d h man muss keine der unabhangigen Variablen rekonstruieren konnen indem man die verbleibenden unabhangigen Variablen addiert und multipliziert Diese Bedingung stellt sicher dass die Produktsummenmatrix X X displaystyle mathbf X top mathbf X nbsp eine invertierbare Matrix ist und daher eine Losung b displaystyle hat beta nbsp existiert Modellvalidierung Bearbeiten Ein wichtiger Schritt der Regressionsanalyse ist die Modellvalidierung Hierbei wird uberpruft ob das Modell eine gute Beschreibung des Zusammenhangs ist Die Modellvalidierung umfasst die Residuenanalyse Viele Regressionsverfahren treffen Annahmen uber die Residuen e i displaystyle hat varepsilon i nbsp des Modells So wird z B eine bestimmte Verteilung konstante Varianz oder fehlende Autokorrelation unterstellt Da die Residuen Ergebnis des Verfahrens sind kann die Prufung der Annahmen erst im Nachhinein erfolgen Typisches Hilfsmittel zur Uberprufung der Verteilung ist das Quantil Quantil Diagramm Uberanpassung Dieses Phanomen tritt auf wenn zu viele unabhangige Variablen im Modell berucksichtigt werden Ein Verfahren zum Testen auf Uberanpassung ist das Kreuzvalidierungsverfahren Untersuchung der Daten auf Ausreisser und einflussreiche Datenpunkte Hierbei wird uberpruft welche Datensatze nicht zur ermittelten Funktion f displaystyle f cdot nbsp passen Ausreisser und welche Daten die ermittelte Funktion stark beeinflussen Fur diese Datensatze empfiehlt sich eine gesonderte Untersuchung Mathematische Hilfsmittel zur Ermittlung von Ausreissern und einflussreichen Punkten sind Cook und Mahalanobis Abstand Multikollinearitat zwischen den unabhangigen Variablen bei linearen Modellen Wenn es einen linearen Zusammenhang zwischen den unabhangigen Variablen x displaystyle x nbsp gibt dann kann das zum einen die numerische Stabilitat des Verfahrens beeintrachtigen und zum anderen die Interpretation des Modells bzw der angepassten Funktion erschweren Hilfsmittel zum Quantifizieren der Kollinearitat sind der Varianzinflationsfaktor und die Korrelationsmatrix Vorhersage Bearbeiten Das validierte Modell kann zur Vorhersage von Werten von y displaystyle y nbsp bei gegebenen Werten von x displaystyle x nbsp herangezogen werden Haufig wird neben dem prognostizierten Wert von y displaystyle y nbsp auch ein Vorhersageintervall angegeben um so die Unsicherheit der Vorhersage abzuschatzen Bei Vorhersagen im Wertebereich der zur Modellanpassung verwendeten Daten spricht man von Interpolation Vorhersagen ausserhalb dieses Datenbereichs nennt man Extrapolation Vor der Durchfuhrung von Extrapolationen sollte man sich grundlich mit den dabei implizierten Annahmen auseinandersetzen 18 Variablenauswahl und Modellvergleich Bearbeiten Ist das Ziel der Analyse die Ermittlung derjenigen unabhangigen Variablen die besonders stark in Zusammenhang mit der abhangigen Variablen y displaystyle y nbsp stehen werden haufig mehrere Modelle mit jeweils unterschiedlichen unabhangigen Variablen erstellt und diese Modelle verglichen Um zwei Modelle miteinander zu vergleichen werden in der Regel Kennzahlen wie das Bestimmtheitsmass oder Informationskriterien benutzt Es gibt automatisierte Verfahren wie die sogenannte schrittweise Regression die sukzessive dasjenige Modell zu ermitteln versuchen welches den gesuchten Zusammenhang am besten erklart Die Anwendung solcher Verfahren wird jedoch kontrovers diskutiert Des Weiteren gibt es in der bayesschen Statistik Verfahren die aus mehreren Modellen ein neues Modell ableiten durch sogenanntes averaging und so versuchen die aus der Modellwahl entstehende Unsicherheit zu verringern Einige Regressionsverfahren BearbeitenDas folgende Beispiel wird zur Illustration der verschiedenen Verfahren benutzt Analog zu Mincer 1974 wurden aus dem Current Population Survey 1985 zufallig 534 Beobachtungen mit folgenden Variablen gezogen 19 lwage displaystyle text lwage nbsp naturlicher Logarithmus des Stundenlohns educ displaystyle text educ nbsp Berufsausbildung in Jahren exper displaystyle text exper nbsp Berufserfahrung in Jahren Alter Berufsausbildung 6 Mincer untersuchte mit Hilfe der nach ihm benannten Mincer Einkommensgleichung den Zusammenhang zwischen dem Logarithmus des Stundenlohns abhangige Variable und der Berufsausbildung und erfahrung unabhangige Variablen In den folgenden Grafiken findet sich links eine raumliche Darstellung der Regressionsflache und rechts ein Kontourplot Positive Residuen sind rotlich negative Residuen sind blaulich gezeichnet und je heller die Beobachtung desto kleiner ist der Absolutbetrag des Residuums Lineare Regressionen nbsp lwage b 0 b 1 educ b 2 exper displaystyle text lwage b 0 b 1 text educ b 2 text exper nbsp nbsp lwage b 0 b 1 educ b 2 exper b 3 exper 2 displaystyle text lwage b 0 b 1 text educ b 2 text exper b 3 text exper 2 nbsp Grundlegende Verfahren Bearbeiten Lineare Regression Bearbeiten Hauptartikel Lineare Regression Bei der linearen Regression wird das Modell so spezifiziert dass die abhangige Variable y displaystyle y nbsp eine Linearkombination der Parameter Regressionsparameter b j displaystyle beta j nbsp ist aber nicht notwendigerweise der unabhangigen Variablen x displaystyle x nbsp Zum Beispiel modelliert die einfache lineare Regression die Abhangigkeit mit einer unabhangigen Variable x displaystyle x nbsp y i b 0 b 1 x i e i i 1 n displaystyle y i beta 0 beta 1 x i varepsilon i quad i 1 dotsc n nbsp Bei der multiplen linearen Regression werden mehrere unabhangige Variablen oder Funktionen der unabhangigen Variablen berucksichtigt Wird zum Beispiel der Term x i 2 2 displaystyle x i2 2 nbsp zur vorigen Regression hinzugefugt so ergibt sich y i b 0 b 1 x i 1 b 2 x i 2 2 e i i 1 n displaystyle y i beta 0 beta 1 x i1 beta 2 x i2 2 varepsilon i quad i 1 dotsc n nbsp Obwohl der Ausdruck auf der rechten Seite quadratisch in der unabhangigen Variable x i 2 displaystyle x i2 nbsp ist ist der Ausdruck linear in den Parametern b 0 displaystyle beta 0 nbsp b 1 displaystyle beta 1 nbsp und b 2 displaystyle beta 2 nbsp Damit ist dies auch eine lineare Regressionsgleichung Zur Bestimmung der Modellparameter b j displaystyle beta j nbsp wird die Methode der kleinsten Quadrate verwendet Nichtparametrische Regression Bearbeiten Bei nichtparametrischen Regressionsverfahren wird die Form des funktionalen Zusammenhangs f nicht vorgegeben sondern weitestgehend aus den Daten hergeleitet Bei der Schatzung der unbekannten Regressionsfunktion m displaystyle m cdot nbsp an der Stelle x 1 x k displaystyle x 1 dotsc x k nbsp gehen die Daten nahe diesem Punkt mit grosserem Gewicht ein als Datenpunkte die weit entfernt von diesem liegen Zur Schatzung haben sich verschiedene Regressionsverfahren etabliert nbsp Nadaraya Watson SchatzerKernregression Hierbei wird die Regressionsfunktion als gewichtete Summe der naheliegende Beobachtungswerte berechnet Die Gewichte werden mittels Kerndichteschatzung bestimmt und dann eine lokal konstante lineare Regression Nadaraya Watson Schatzer lokal lineare Regression lokal linearer Schatzer oder lokal polynomiale Regression lokal polynomialer Schatzer durchgefuhrt Multivariate adaptive RegressionssplinesBei der Methode der multivariaten adaptiven Regressions Splines MARS wird die abhangige Variable als Linearkombination von sogenannten Hockeystick Funktionen bzw Produkten von Hockeystickfunktionen dargestellt Semiparametrische Regression Bearbeiten Ein Nachteil der nichtparametrischen Regressionen ist dass sie am Fluch der Dimensionalitat leiden D h je mehr erklarende Variablen es gibt desto mehr Beobachtungen sind notwendig um an einem beliebigen Punkt x 1 x k displaystyle x 1 dotsc x k nbsp die unbekannte Regressionsfunktion m x 1 x k displaystyle m x 1 dotsc x k nbsp zuverlassig zu schatzen Daher wurde eine Reihe von semi parametrischen Modellen etabliert die die lineare Regression erweitern bzw nutzen Additive ModelleHier wird die unbekannte Regressionsfunktion als Summe nichtparameterischer linearer Einfachregressionen g j displaystyle g j nbsp der Variablen dargestellt m x 1 x k b 0 b 1 g 1 x 1 b k g k x k displaystyle m x 1 dotsc x k b 0 b 1 g 1 x 1 dotsb b k g k x k nbsp dd Beim partiell linearen Modell geht ein Teil der Variablen linear ein insbesondere binare Variablen Additive Modelle nbsp lwage b 0 g 1 educ g 2 exper displaystyle text lwage b 0 g 1 text educ g 2 text exper nbsp nbsp lwage b 0 b 1 educ g 2 exper displaystyle text lwage b 0 b 1 text educ g 2 text exper nbsp Index ModelleHier wird die unbekannte Regressionsfunktion ebenfalls als Summe nichtparameterischer linearer Einfachregressionen g j displaystyle g j nbsp von Indices dargestellt m x 1 x k g 1 b 0 1 b 1 1 x 1 b k 1 x k g M b 0 M b 1 M x 1 b k M x k displaystyle m x 1 dotsc x k g 1 left b 0 1 b 1 1 x 1 dotsb b k 1 x k right dotsb g M left b 0 M b 1 M x 1 dotsb b k M x k right nbsp dd Im Fall M 1 displaystyle M 1 nbsp spricht man vom Single Index Modell fur M gt 1 displaystyle M gt 1 nbsp gibt es die Projection Pursuit Regression Index Modelle nbsp lwage g 1 b 0 1 b 1 1 educ b 2 1 exper displaystyle text lwage g 1 b 0 1 b 1 1 text educ b 2 1 text exper nbsp nbsp lwage g 1 b 0 1 b 1 1 educ b 2 1 exper g 2 b 0 2 b 1 2 educ b 2 2 exper displaystyle begin aligned text lwage amp g 1 b 0 1 b 1 1 text educ b 2 1 text exper amp g 2 b 0 2 b 1 2 text educ b 2 2 text exper end aligned nbsp Robuste Regression Bearbeiten Hauptartikel Robuste Schatzverfahren Regressionsverfahren die auf der Kleinste Quadrate Schatzung oder der Maximum Likelihood Schatzung beruhen sind nicht robust gegenuber Ausreissern Robuste Regressionsverfahren wurden entwickelt um diese Schwache der klassischen Methode zu umgehen So konnen zum Beispiel alternativ M Schatzer eingesetzt werden Verallgemeinerte Verfahren Bearbeiten Verallgemeinerte lineare Modelle Bearbeiten Hauptartikel Verallgemeinerte lineare Modelle Bei der klassischen linearen Regression wird vorausgesetzt dass die Storgrossen e i displaystyle varepsilon i nbsp normalverteilt sind Die Modellannahme wird bei den verallgemeinerten Modellen abgeschwacht wo die Storgrossen e i displaystyle varepsilon i nbsp eine Verteilung aus der Verteilungsklasse der exponentiellen Familie besitzen konnen Dies wird moglich durch die Verwendung einer bekannten Kopplungsfunktion g displaystyle g cdot nbsp abhangig von der Verteilungsklasse der Storgrossen und der Maximum Likelihood Methode Methode der grossten Plausibilitat zur Bestimmung der Modellparameter Ein Spezialfall der verallgemeinerten linearen Modelle ist die logistische Regression Wenn die Antwortvariable Y displaystyle Y nbsp eine kategoriale Variable ist die nur zwei oder endlich viele Werte annehmen darf verwendet man haufig die logistische Regression Binare logistische Regression g m log m 1 m b 0 b 1 x i 1 b k x i k e i displaystyle g mu log left frac mu 1 mu right beta 0 beta 1 x i1 dotsb beta k x ik varepsilon i nbsp mit m P Y 1 X x displaystyle mu P Y 1 mid X x nbsp abhangig von Verteilungsklasse der Storgrossen Eine Alternative ware das Probit Modell Verallgemeinerte semiparametrische Modelle Bearbeiten Diese Idee ist auch fur die semiparametrischen Modelle ubernommen worden Verallgemeinerte additive Modelle englisch generalized additive models kurz GAM g m b 0 f 1 x 1 f k x k displaystyle g mu beta 0 f 1 x 1 dotsb f k x k nbsp Eine besondere Art der verallgemeinerten additiven Modelle stellen die sogenannten verallgemeinerten additiven Modelle fur Lage Skalen und Formparameter dar Verallgemeinerte partiell lineare Modelle englisch generalized partial linear models kurz GPLM g m b 0 b 1 z 1 b k z k f x 1 x q displaystyle g mu beta 0 beta 1 z 1 dotsb beta k z k f x 1 dotsc x q nbsp Verallgemeinerte additive partiell lineare Modelle englisch generalized additive partial linear models kurz GAPLM g m b 0 b 1 z 1 b k z k f 1 x 1 f q x q displaystyle g mu beta 0 beta 1 z 1 dotsb beta k z k f 1 x 1 dotsb f q x q nbsp Spezielle Verfahren Bearbeiten Autoregressive Modelle Bearbeiten Wenn die Datenpunkte geordnet sind z B wenn es sich bei den Daten um eine Zeitreihe handelt dann ist es etwa in autoregressiven Modellen und autoregressiven bedingt heteroskedastischen Modellen moglich vorhergehende Daten als unabhangige Variable zu verwenden Siehe auch BearbeitenRegression mit stochastischen RegressorenLiteratur BearbeitenNorman R Draper Harry Smith Applied Regression Analysis Wiley New York 1998 Ludwig Fahrmeir Thomas Kneib Stefan Lang Regression Modelle Methoden und Anwendungen Springer Verlag Berlin Heidelberg New York 2007 ISBN 978 3 540 33932 8 Dieter Urban Jochen Mayerl Regressionsanalyse Theorie Technik und Anwendung 2 uberarb Auflage VS Verlag Wiesbaden 2006 ISBN 3 531 33739 4 M W Stoetzer Regressionsanalyse in der empirischen Wirtschafts und Sozialforschung Eine nichtmathematische Einfuhrung mit SPSS und Stata Berlin 2017 ISBN 978 3 662 53823 4 Weblinks Bearbeiten nbsp Wikibooks Einfuhrung in die Regressionsrechnung Lern und Lehrmaterialien nbsp Wikibooks M A T H E m a T R i x displaystyle begin smallmatrix mathbf MATHE mu alpha T mathbb R ix end smallmatrix nbsp Mathematik fur die Schule Literatur uber Regressionsanalyse im Katalog der Deutschen NationalbibliothekEinzelnachweise Bearbeiten Klaus Backhaus Multivariate Analysemethoden eine anwendungsorientierte Einfuhrung Hrsg SpringerLink Springer Berlin 2006 ISBN 3 540 29932 7 Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 105 A M Legendre Nouvelles methodes pour la determination des orbites des cometes 1805 Sur la Methode des moindres quarres erscheint als Anhang C F Gauss Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum 1809 C F Gauss Theoria combinationis observationum erroribus minimis obnoxiae 1821 1823 Robert G Mogull Second Semester Applied Statistics Kendall Hunt Publishing Company 2004 ISBN 0 7575 1181 3 S 59 Francis Galton Kinship and Correlation reprinted 1989 In Statistical Science Band 4 Nr 2 1989 JSTOR 2245330 Francis Galton Typical laws of heredity In Nature 15 1877 S 492 495 512 514 532 533 Galton uses the term reversion in this paper which discusses the size of peas Francis Galton Presidential address Section H Anthropology 1885 Galton verwendet den Begriff Regression in diesem Artikel welcher die Grosse von Menschen untersucht G Udny Yule On the Theory of Correlation In J Royal Statist Soc 1897 S 812 54 JSTOR 2979746 Karl Pearson G U Yule Norman Blanchard Alice Lee The Law of Ancestral Heredity In Biometrika 1903 JSTOR 2331683 R A Fisher The goodness of fit of regression formulae and the distribution of regression coefficients In J Royal Statist Soc Band 85 1922 S 597 612 Ronald A Fisher Statistical Methods for Research Workers 12 Auflage Oliver and Boyd Edinburgh 1954 yorku ca John Aldrich Fisher and Regression In Statistical Science Band 20 Nr 4 2005 S 401 417 JSTOR 20061201 Alvin C Rencher G Bruce Schaalje Linear models in statistics PDF 5 6 MB John Wiley amp Sons 2008 S 2 Robert M Kunst Einfuhrung in die Empirische Wirtschaftsforschung University of Vienna and Institute for Advanced Studies Vienna 2007 univie ac at PDF Universitat Zurich Einfache lineare Regression 18 Februar 2021 uzh ch C L Chiang Statistical methods of analysis World Scientific 2003 ISBN 981 238 310 7 page 274 section 9 7 4 interpolation vs extrapolation Jacob A Mincer Schooling Experience and Earnings National Bureau of Economic Research 1974 ISBN 978 0 87014 265 9 nber org abgerufen am 3 Juli 2011 Normdaten Sachbegriff GND 4129903 6 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Regressionsanalyse amp oldid 234912250