www.wikidata.de-de.nina.az
Die lineare Regression kurz LR ist ein Spezialfall der Regressionsanalyse also ein statistisches Verfahren mit dem versucht wird eine beobachtete abhangige Variable durch eine oder mehrere unabhangige Variablen zu erklaren Bei der linearen Regression wird dabei ein lineares Modell kurz LM angenommen Es werden also nur solche Zusammenhange herangezogen bei denen die abhangige Variable eine Linearkombination der Regressionskoeffizienten aber nicht notwendigerweise der unabhangigen Variablen ist Der Begriff Regression bzw Regression zur Mitte wurde vor allem durch den Statistiker Francis Galton gepragt Inhaltsverzeichnis 1 Einfache lineare Regression 2 Multiple lineare Regression 2 1 Verallgemeinerte lineare Regression 2 2 Klassische Normalregression 2 3 Paneldatenregression 3 Generalisierte Lineare Modelle 4 Allgemeine lineare Modelle 5 Orthogonale Regression 6 Regularisierung der Regression 7 Anwendungen der Regressionsanalyse 7 1 Anwendung in der Okonometrie 8 Weblinks 9 Literatur 10 EinzelnachweiseEinfache lineare Regression Bearbeiten Hauptartikel Lineare Einfachregression nbsp Beispiel einer Linie rot die mit ELR erstellt wurdeDas einfache lineare Regressionsmodell kurz ELR geht von lediglich zwei metrischen Grossen aus einer Einflussgrosse X displaystyle X nbsp und einer Zielgrosse Y displaystyle Y nbsp Durch die einfache lineare Regression wird mithilfe zweier Parameter eine Gerade Regressionsgerade so durch eine Punktwolke gelegt dass der lineare Zusammenhang zwischen X displaystyle X nbsp und Y displaystyle Y nbsp moglichst gut beschrieben wird Die Gleichung der linearen Einfachregression ist gegeben durch Y i b 0 b 1 x i e i i 1 n displaystyle Y i beta 0 beta 1 x i varepsilon i quad i 1 dotsc n nbsp Multiple lineare Regression Bearbeiten Hauptartikel Multiple lineare Regression Die multiple lineare Regression kurz MLR stellt eine Verallgemeinerung der einfachen linearen Regression dar wobei nun K Regressoren angenommen werden welche die abhangige Variable erklaren sollen Zusatzlich zu der Variation uber die Beobachtungen wird also auch eine Variation uber die Regressoren angenommen wodurch sich ein lineares Gleichungssystem ergibt das sich in Matrixnotation wie folgt zusammenfassen lasst y X b e displaystyle mathbf y mathbf X boldsymbol beta boldsymbol varepsilon nbsp mit e N 0 s 2 I T displaystyle boldsymbol varepsilon sim mathcal N mathbf 0 sigma 2 mathbf I T nbsp Verallgemeinerte lineare Regression Bearbeiten Hauptartikel Verallgemeinerte Kleinste Quadrate Schatzung Das verallgemeinerte lineare Regressionsmodell kurz VLR ist eine Erweiterung des multiplen linearen Regressionsmodells bei dem zusatzlich Heteroskedastizitat und Autokorrelation erlaubt ist Die Varianz Kovarianzmatrix der Fehlerterme ist dann nicht mehr s 2 I T displaystyle sigma 2 mathbf I T nbsp sondern eine nicht konstante Matrix F s 2 PS displaystyle boldsymbol Phi sigma 2 mathbf Psi nbsp In Matrixnotation lautet das Modell y X b e displaystyle mathbf y mathbf X boldsymbol beta boldsymbol varepsilon nbsp mit e N 0 s 2 PS displaystyle boldsymbol varepsilon sim mathcal N mathbf 0 sigma 2 boldsymbol Psi nbsp Klassische Normalregression Bearbeiten Hauptartikel Klassisches lineares Modell der Normalregression Wird zu dem bisherigen klassischen multiplen linearen Modell kurz KLM auch die Annahme der Normalverteiltheit der Fehlerterme getroffen dann spricht man auch von einem klassischen linearen Modell der Normalregression Die Annahme der Normalverteilung der Fehlerterme wird benotigt um statistische Inferenz durchzufuhren d h sie wird benotigt um Konfidenzintervalle und Signifikanztests berechnen zu konnen y X b e displaystyle mathbf y mathbf X boldsymbol beta boldsymbol varepsilon nbsp mit e N 0 s 2 I T displaystyle boldsymbol varepsilon sim mathcal N mathbf 0 sigma 2 mathbf I T nbsp Paneldatenregression Bearbeiten Hauptartikel Lineare Paneldatenmodelle Das allgemeine lineare Paneldatenmodell lasst zu dass der Achsenabschnitt und die Steigungsparameter zum einen uber die Individuen i displaystyle i nbsp in Querschnittsdimension und zum anderen uber die Zeit t displaystyle t nbsp variieren nicht zeitinvariant Das allgemeine lineare Paneldatenmodell lautet y i t a i t x i t b i t e i t i 1 N t 1 T displaystyle y it alpha it mathbf x it top boldsymbol beta it varepsilon it i 1 dotsc N t 1 dotsc T nbsp mit der Varianz Kovarianzmatrix Cov e E e e S I T F displaystyle operatorname Cov boldsymbol varepsilon operatorname E boldsymbol varepsilon boldsymbol varepsilon top mathbf Sigma otimes mathbf I T mathbf Phi nbsp Hierbei ist y i t displaystyle y it nbsp eine skalar vorliegende abhangige Variable x i t displaystyle mathbf x it top nbsp ist ein K 1 displaystyle K times 1 nbsp Vektor von unabhangigen Variablen e i t displaystyle varepsilon it nbsp ist ein skalar vorliegender Fehlerterm Da dieses Modell zu allgemein ist und nicht schatzbar ist wenn es mehr Parameter als Beobachtungen gibt mussen bezuglich der Variation von a i t displaystyle alpha it nbsp und b i t displaystyle beta it nbsp mit i displaystyle i nbsp und t displaystyle t nbsp und bezuglich des Verhaltens des Fehlerterms einschrankende Annahmen getroffen werden Diese zusatzlichen Restriktionen und die darauf aufbauenden Modelle sind Themen der linearen Paneldatenmodelle und der Paneldatenanalyse Generalisierte Lineare Modelle Bearbeiten Hauptartikel Generalisierte Lineare Modelle Lineare Modelle lassen sich dahingehend erweitern dass keine feste Datenmatrix untersucht wird sondern auch diese zufallsbehaftet ist Dieses Modell nennt man generalisiertes lineares Modell kurz GLM Die Untersuchungsmethoden andern sich in diesem Fall nicht substantiell werden aber deutlich komplizierter und damit rechenaufwendiger Allgemeine lineare Modelle Bearbeiten Hauptartikel Allgemeines lineares Modell Das allgemeine lineare Modell kurz ALM betrachtet die Situation bei der die abhangige Variable Y displaystyle Y nbsp kein Skalar sondern ein Vektor ist In diesem Fall wird ebenfalls konditionierte Linearitat E y X X B displaystyle operatorname E mathbf y mid mathbf X mathbf X mathbf B nbsp wie beim klassischen linearen Modell angenommen aber mit einer Matrix B displaystyle mathbf B nbsp die den Vektor b displaystyle boldsymbol beta nbsp des klassischen linearen Modells ersetzt Multivariate Pendants zu der gewohnlichen Methode der kleinsten Quadrate und zu der verallgemeinerten Methode der kleinsten Quadrate wurden entwickelt Allgemeine lineare Modelle werden auch multivariate lineare Modelle genannt Diese sind aber nicht mit multiplen linearen Modellen zu verwechseln Das allgemeine lineare Modell ist gegeben durch Y X B U displaystyle mathbf Y mathbf X mathbf B mathbf U nbsp Orthogonale Regression Bearbeiten Hauptartikel Orthogonale Regression Die orthogonale Regression genauer orthogonale lineare Regression dient zur Berechnung einer Ausgleichsgeraden fur eine endliche Menge metrisch skalierter Datenpaare x i y i displaystyle x i y i nbsp nach der Methode der kleinsten Quadrate wobei allerdings Fehler in x und y angenommen werden Regularisierung der Regression BearbeitenUm ein gewunschtes Verhalten der Regression zu gewahrleisten und somit eine Uberanpassung an den Trainingsdatensatz zu vermeiden gibt es die Moglichkeit den Regressionsterm mit Straftermen zu versehen die als Nebenbedingungen auftreten Zu den bekanntesten Regularisierungen gehoren hierbei 1 Die L 1 displaystyle L 1 nbsp Regularisierung auch LASSO Regularisierung genannt Durch b arg min b y X b 2 l b 1 displaystyle boldsymbol hat beta underset boldsymbol beta arg min mathbf y mathbf X boldsymbol beta 2 lambda boldsymbol beta 1 nbsp werden bevorzugt einzelne Elemente des Vektors b displaystyle boldsymbol hat beta nbsp minimiert Die ubrigen Elemente des Vektors konnen jedoch betragsmassig grosse Werte annehmen Dies begunstigt die Bildung dunnbesetzter Matrizen was effizientere Algorithmen ermoglicht Die L 2 displaystyle L 2 nbsp Regularisierung auch Ridge Regularisierung genannt Durch b arg min b y X b 2 l b 2 displaystyle boldsymbol hat beta underset boldsymbol beta arg min mathbf y mathbf X boldsymbol beta 2 lambda boldsymbol beta 2 nbsp wird der gesamte Vektor b displaystyle boldsymbol hat beta nbsp gleichmassig minimiert die Matrizen sind jedoch voller Das elastische Netz Hierbei wird durch den Ausdruck b arg min b y X b 2 l 2 b 2 l 1 b 1 displaystyle boldsymbol hat beta underset boldsymbol beta arg min mathbf y mathbf X boldsymbol beta 2 lambda 2 boldsymbol beta 2 lambda 1 boldsymbol beta 1 nbsp sowohl die L 1 displaystyle L 1 nbsp als auch die L 2 displaystyle L 2 nbsp Regularisierung durchgefuhrt Anwendungen der Regressionsanalyse BearbeitenSpezielle Anwendungen der Regressionsanalyse beziehen sich auch auf die Analyse von diskreten und im Wertebereich eingeschrankten abhangigen Variablen Hierbei kann unterschieden werden nach Art der abhangigen Variablen und Art der Einschrankung des Wertebereichs Im Folgenden werden die Regressionsmodelle die an dieser Stelle angewandt werden konnen aufgefuhrt Nahere Angaben hierzu finden sich bei Frone 1997 2 und bei Long 1997 3 Modelle fur unterschiedliche Arten abhangiger Variablen Generalisierte Lineare Modelle Binar Logistische Regression und Probit Regression Ordinal Ordinale logistische Regression und ordinale Probit Regression Absolut Poisson Regression negative binomiale Regression Nominal Multinomiale logistische RegressionModelle fur unterschiedliche Arten eingeschrankter Wertebereiche Zensiert Tobit Modell Trunkiert trunkierte Regression Stichproben selegiert sample selected Stichproben selegierte RegressionAnwendung in der Okonometrie Bearbeiten Fur quantitative Wirtschaftsanalysen im Rahmen der Regressionsanalyse beispielsweise der Okonometrie sind besonders geeignet Wachstumsfunktionen wie zum Beispiel das Gesetz des organischen Wachstums oder die Zinseszinsrechnung Abschwingfunktionen wie zum Beispiel die hyperbolische Verteilungsfunktion oder die Korachsche Preisfunktion Schwanenhalsfunktionen wie zum Beispiel die im Rahmen der logistischen Regression verwendete logistische Funktion die Johnson Funktion oder die Potenzexponentialfunktion degressive Saturationsfunktionen wie zum Beispiel die Gompertz Funktion oder die Tornquist Funktion Weblinks Bearbeiten nbsp Wikibooks Einfuhrung in die Regressionsrechnung Lern und Lehrmaterialien nbsp Commons Lineare Regression Sammlung von Bildern Videos und AudiodateienLiteratur BearbeitenNorman R Draper Harry Smith Applied Regression Analysis 3 Auflage Wiley New York 1998 ISBN 0 471 17082 8 Ludwig Fahrmeir Thomas Kneib Stefan Lang Regression Modelle Methoden und Anwendungen Springer Verlag Berlin Heidelberg New York 2007 ISBN 978 3 540 33932 8 Peter Schonfeld Methoden der Okonometrie Berlin Frankfurt 1969 Dieter Urban Jochen Mayerl Regressionsanalyse Theorie Technik und Anwendung 2 uberarb Auflage VS Verlag Wiesbaden 2006 ISBN 3 531 33739 4 G Judge R Carter Hill Introduction to the Theory and Practice of Econometrics Wiley New York 1988 ISBN 0 471 62414 4 Einzelnachweise Bearbeiten Hui Zou Trevor Hastie Regularization and Variable Selection via the Elastic Net PDF 185 kB M R Frone Regression models for discrete and limited dependent variables Research Methods Forum No 2 1997 online Memento vom 7 Januar 2007 im Internet Archive J S Long Regression models for categorical and limited dependent variables Sage Thousand Oaks CA 1997 Abgerufen von https de wikipedia org w index php title Lineare Regression amp oldid 233499032