www.wikidata.de-de.nina.az
In der Statistik ist die multiple lineare Regression auch mehrfache lineare Regression kurz MLR oder lineare Mehrfachregression genannt ein regressionsanalytisches Verfahren und ein Spezialfall der linearen Regression Die multiple lineare Regression ist ein statistisches Verfahren mit dem versucht wird eine beobachtete abhangige Variable durch mehrere unabhangige Variablen zu erklaren Das dazu verwendete Modell ist linear in den Parametern wobei die abhangige Variable eine Funktion der unabhangigen Variablen ist Diese Beziehung wird durch eine additive Storgrosse uberlagert Die multiple lineare Regression stellt eine Verallgemeinerung der einfachen linearen Regression bzgl der Anzahl der Regressoren dar Inhaltsverzeichnis 1 Das klassische Modell der linearen Mehrfachregression 2 Schatzung des Parametervektors mit der Kleinste Quadrate Schatzung 2 1 Guteeigenschaften des Kleinste Quadrate Schatzers 2 1 1 Erwartungstreue 2 1 2 Effizienz 2 1 3 Konsistenz 2 2 Verallgemeinerungen 2 3 Verbindung zur optimalen Versuchsplanung 3 Residuen und geschatzte Zielwerte 4 Erwartungstreue Schatzung des unbekannten Varianzparameters 5 Statistische Inferenz 6 Multiples Bestimmtheitsmass 6 1 Test auf Gesamtsignifikanz eines Modells 6 2 Beitrag der einzelnen Regressoren zur Erklarung der abhangigen Variablen 7 Vorhersage 8 Das verallgemeinerte Modell der linearen Mehrfachregression 9 Polynomiale Regression 10 Beispiel 11 Weblinks 12 Literatur 13 EinzelnachweiseDas klassische Modell der linearen Mehrfachregression Bearbeiten source source source source source source source source Regressionsebene die sich an eine Punktwolke im dreidimensionalen Raum anpasst Fall K 3 displaystyle K 3 nbsp Im Folgenden wird von linearen Funktionen ausgegangen Es ist dann keine weitere Beschrankung der Allgemeinheit dass diese Funktionen direkt aus den unabhangigen erklarenden exogenen Variablen bestehen und es ebenso viele zu schatzende Regressionsparameter b k displaystyle beta k nbsp gibt wie unabhangige Variablen x k displaystyle x k nbsp Index k 1 2 K displaystyle k 1 2 dots K nbsp Zum Vergleich In der einfachen linearen Regression ist K 2 displaystyle K 2 nbsp und x 1 displaystyle x 1 nbsp konstant gleich 1 displaystyle 1 nbsp der zugehorige Regressionsparameter also der Achsenabschnitt Das Modell fur T displaystyle T nbsp Messungen der abhangigen endogenen Variablen y displaystyle y nbsp ist also y t x t 1 b 1 x t 2 b 2 x t K b K e t displaystyle y t x t1 beta 1 x t2 beta 2 ldots x tK beta K varepsilon t nbsp mit Storgrossen e t displaystyle varepsilon t nbsp die rein zufallig sind falls das lineare Modell passt Fur das Modell wird weiterhin angenommen dass die Gauss Markow Annahmen gelten In einem stichprobentheoretischen Ansatz wird jedes Stichprobenelement e t displaystyle varepsilon t nbsp als eine eigene Zufallsvariable interpretiert ebenso jedes y t displaystyle y t nbsp Liegen die Daten y 1 x 11 x 1 K y 2 x 21 x 2 K y T x T 1 x T K displaystyle y 1 x 11 dotsc x 1K y 2 x 21 dotsc x 2K dotsc y T x T1 dotsc x TK nbsp vor so ergibt sich folgendes lineare Gleichungssystem y 1 x 11 b 1 x 12 b 2 x 1 K b K e 1 y 2 x 21 b 1 x 22 b 2 x 2 K b K e 2 y T x T 1 b 1 x T 2 b 2 x T K b K e T displaystyle begin matrix y 1 x 11 beta 1 x 12 beta 2 amp dotsb amp x 1K beta K varepsilon 1 y 2 x 21 beta 1 x 22 beta 2 amp dotsb amp x 2K beta K varepsilon 2 amp vdots amp y T x T1 beta 1 x T2 beta 2 amp dotsb amp x TK beta K varepsilon T end matrix nbsp Das multiple lineare Regressionsmodell selten und doppeldeutig allgemeines lineares Modell lasst sich in Matrixschreibweise wie folgt formulieren y X b e displaystyle mathbf y mathbf X boldsymbol beta boldsymbol varepsilon nbsp Dies ist das zugrundeliegende Modell in der Grundgesamtheit und wird auch als wahres Modell bezeichnet Hierbei stehen y displaystyle mathbf y nbsp e displaystyle boldsymbol varepsilon nbsp und b displaystyle boldsymbol beta nbsp fur die Vektoren bzw Matrizen y y 1 y 2 y t y T T 1 displaystyle mathbf y begin pmatrix y 1 y 2 vdots y t vdots y T end pmatrix T times 1 nbsp e e 1 e 2 e t e T T 1 displaystyle boldsymbol varepsilon begin pmatrix varepsilon 1 varepsilon 2 vdots varepsilon t vdots varepsilon T end pmatrix T times 1 nbsp und b b 1 b 2 b k b K K 1 displaystyle boldsymbol beta begin pmatrix beta 1 beta 2 vdots beta k vdots beta K end pmatrix K times 1 nbsp und X displaystyle mathbf X nbsp eine T K displaystyle T times K nbsp Matrix Versuchsplan oder Datenmatrix X x 11 x 12 x 1 k x 1 K x 21 x 22 x 2 k x 2 K x t 1 x t 2 x t k x t K x T 1 x T 2 x T k x T K T K x 1 x 2 x t x T T K x 1 x 2 x k x K T K displaystyle mathbf X begin pmatrix x 11 amp x 12 amp cdots amp x 1k amp cdots amp x 1K x 21 amp x 22 amp cdots amp x 2k amp cdots amp x 2K vdots amp vdots amp ddots amp vdots amp ddots amp vdots x t1 amp x t2 amp cdots amp x tk amp cdots amp x tK vdots amp vdots amp ddots amp vdots amp ddots amp vdots x T1 amp x T2 amp cdots amp x Tk amp cdots amp x TK end pmatrix T times K begin pmatrix mathbf x 1 top mathbf x 2 top vdots mathbf x t top vdots mathbf x T top end pmatrix T times K begin pmatrix mathbf x 1 mathbf x 2 amp cdots amp mathbf x k amp cdots amp mathbf x K end pmatrix T times K quad nbsp wobei x 1 1 1 T 1 1 1 1 T 1 displaystyle quad mathbf x 1 equiv 1 1 T begin pmatrix 1 1 vdots 1 vdots 1 end pmatrix T times 1 nbsp Aufgrund der unterschiedlichen Schreibweisen fur X displaystyle mathbf X nbsp lasst sich erkennen dass sich das Modell y X b e displaystyle mathbf y mathbf X boldsymbol beta boldsymbol varepsilon nbsp auch darstellen lasst als y t x t 1 b 1 x t 2 b 2 x t K b K e t x t b e t t 1 2 T displaystyle y t x t1 beta 1 x t2 beta 2 dotsb x tK beta K varepsilon t mathbf x t top boldsymbol beta varepsilon t quad t 1 2 dotsc T nbsp mit x t x t 1 x t 2 x t k x t K K 1 displaystyle mathbf x t begin pmatrix x t1 x t2 vdots x tk vdots x tK end pmatrix K times 1 nbsp hierbei ist y t displaystyle y t nbsp die beobachtete abhangige Variable fur Beobachtung t displaystyle t nbsp und x t k t 1 T displaystyle x tk t 1 ldots T nbsp sind die unabhangigen Variablen Wie gewohnlich ist b 1 displaystyle beta 1 nbsp das Absolutglied und b 2 b 3 b K displaystyle beta 2 beta 3 dotsc beta K nbsp sind unbekannte skalare Steigungsparameter Die Storgrosse e t displaystyle varepsilon t nbsp fur Beobachtung t displaystyle t nbsp ist eine unbeobachtbare Zufallsvariable Der Vektor x t displaystyle mathbf x t top nbsp ist der transponierte Vektor der Regressoren und x t b displaystyle mathbf x t top boldsymbol beta nbsp wird auch als linearer Pradiktor bezeichnet Die wesentliche Voraussetzung an das multiple lineare Regressionsmodell ist dass es bis auf die Storgrosse e displaystyle boldsymbol varepsilon nbsp das wahre Modell beschreibt Dabei wird in der Regel nicht genau spezifiziert von welcher Art die Storgrosse ist sie kann beispielsweise von zusatzlichen Faktoren oder Messfehlern herruhren Jedoch nimmt man als Grundvoraussetzung an dass dessen Erwartungswert in allen Komponenten 0 ist E e 0 displaystyle operatorname E boldsymbol varepsilon boldsymbol 0 nbsp Annahme 1 Diese Annahme bedeutet dass das Modell grundsatzlich fur korrekt gehalten wird und die beobachtete Abweichung als zufallig angesehen wird oder von vernachlassigbaren ausseren Einflussen herruhrt Typisch ist die Annahme dass die Komponenten des Vektors unkorreliert sind Annahme 2 und dieselbe Varianz s 2 displaystyle sigma 2 nbsp besitzen Annahme 3 wodurch sich mit Hilfe klassischer Verfahren wie der Methode der kleinsten Quadrate englisch ordinary least squares kurz OLS einfache Schatzer fur die unbekannten Parameter b displaystyle boldsymbol beta nbsp und s 2 displaystyle sigma 2 nbsp ergeben Die Methode wird daher auch multiple lineare KQ Regression englisch OLS regression genannt Zusammenfassend wird fur die Storgrossen angenommen dass A1 sie den Erwartungswert null haben E e 0 displaystyle operatorname E boldsymbol varepsilon mathbf 0 nbsp A2 unkorreliert sind Cov e t e s E e t E e t e s E e s E e t e s 0 t s displaystyle operatorname Cov varepsilon t varepsilon s operatorname E varepsilon t operatorname E varepsilon t varepsilon s operatorname E varepsilon s operatorname E varepsilon t varepsilon s 0 quad forall t neq s nbsp und A3 eine homogene Varianz haben Cov e s 2 I T displaystyle mbox Cov boldsymbol varepsilon sigma 2 mathbf I T nbsp skalare Kovarianzmatrix Hierbei bezeichnet 0 displaystyle mathbf 0 nbsp den Nullvektor und I T displaystyle mathbf I T nbsp die Einheitsmatrix der Dimension T displaystyle T nbsp Die oben genannten Annahmen sind die Annahmen der klassischen linearen Regression Das Modell die Gleichung y X b e displaystyle mathbf y mathbf X boldsymbol beta boldsymbol varepsilon nbsp zusammen mit obigen Annahmen wird daher das klassische Modell der linearen Mehrfachregression genannt Statt nur die Varianzen und Kovarianzen der Storgrossen einzeln zu betrachten werden diese in folgender Kovarianzmatrix zusammengefasst Cov e E e E e 0 aus A1 e E e 0 aus A1 E e e Var e 1 Cov e 1 e 2 Cov e 1 e T Cov e 2 e 1 Var e 2 Cov e 2 e T Cov e T e 1 Cov e T e 2 Var e T aus A2 s 2 0 0 0 s 2 0 0 0 s 2 T T s 2 I T displaystyle begin aligned mbox Cov boldsymbol varepsilon amp operatorname E left boldsymbol varepsilon underbrace operatorname E boldsymbol varepsilon mathbf 0 text aus A1 boldsymbol varepsilon underbrace operatorname E boldsymbol varepsilon mathbf 0 text aus A1 top right operatorname E boldsymbol varepsilon boldsymbol varepsilon top begin pmatrix operatorname Var varepsilon 1 amp operatorname Cov varepsilon 1 varepsilon 2 amp cdots amp operatorname Cov varepsilon 1 varepsilon T operatorname Cov varepsilon 2 varepsilon 1 amp operatorname Var varepsilon 2 amp cdots amp operatorname Cov varepsilon 2 varepsilon T vdots amp vdots amp ddots amp vdots operatorname Cov varepsilon T varepsilon 1 amp operatorname Cov varepsilon T varepsilon 2 amp cdots amp operatorname Var varepsilon T end pmatrix amp stackrel text aus A2 begin pmatrix sigma 2 amp 0 amp cdots amp 0 0 amp sigma 2 amp ddots amp vdots vdots amp ddots amp ddots amp 0 0 amp cdots amp 0 amp sigma 2 end pmatrix T times T sigma 2 mathbf I T end aligned nbsp Somit gilt fur y displaystyle mathbf y nbsp E y X b displaystyle operatorname E mathbf y mathbf X boldsymbol beta quad nbsp mit Cov y Cov e s 2 I T displaystyle quad mbox Cov mathbf y mbox Cov boldsymbol varepsilon sigma 2 mathbf I T nbsp Uber diese grundlegende Annahme hinaus sind grundsatzlich alle Verteilungsannahmen an e displaystyle boldsymbol varepsilon nbsp erlaubt Wird zudem vorausgesetzt dass der Vektor e displaystyle boldsymbol varepsilon nbsp mehrdimensional normalverteilt ist lasst sich ferner zeigen dass die beiden Schatzer Losungen der Maximum Likelihood Gleichungen sind siehe Statistische Inferenz In diesem Modell ist die Unabhangigkeit der Storgrossen dann gleichbedeutend mit der der y t displaystyle y t nbsp Schatzung des Parametervektors mit der Kleinste Quadrate Schatzung BearbeitenAuch im multiplen linearen Regressionsmodell wird der Vektor der Storgrossen mithilfe der Kleinste Quadrate Schatzung KQ Schatzung minimiert das heisst es soll b displaystyle boldsymbol beta nbsp so gewahlt werden dass die euklidische Norm y X b 2 displaystyle mathbf y mathbf X boldsymbol beta 2 nbsp minimal wird Im Folgenden wird der Ansatz benutzt dass die Residuenquadratsumme minimiert wird Dazu wird vorausgesetzt dass X displaystyle mathbf X nbsp den Rang K displaystyle K nbsp hat Dann ist X X displaystyle mathbf X top mathbf X nbsp invertierbar und man erhalt als Minimierungsproblem a r g m i n b Q b a r g m i n b y X b y X b a r g m i n b t 1 T y t x t b 2 a r g m i n b y y 2 b X y b X X b displaystyle underset boldsymbol beta rm arg min Q boldsymbol beta underset boldsymbol beta rm arg min mathbf y mathbf X boldsymbol beta top mathbf y mathbf X boldsymbol beta underset boldsymbol beta rm arg min sum t 1 T y t mathbf x t top boldsymbol beta 2 underset boldsymbol beta rm arg min left mathbf y top mathbf y 2 boldsymbol beta top mathbf X top mathbf y boldsymbol beta top mathbf X top mathbf X boldsymbol beta right nbsp 1 Die Bedingung erster Ordnung Nullsetzen des Gradienten lautet Q b b Q b b 1 Q b b 2 Q b b K 0 displaystyle frac partial Q boldsymbol beta partial boldsymbol beta begin pmatrix frac partial Q boldsymbol beta partial beta 1 frac partial Q boldsymbol beta partial beta 2 vdots frac partial Q boldsymbol beta partial beta K end pmatrix overset mathrm mathbf 0 nbsp nbsp Die Kleinste Quadrate Schatzung kann als eine Projektion auf die Ebene die durch die Regressoren aufgespannt wird interpretiert werden Die partiellen Ableitungen erster Ordnung lauten Q b b 1 y y b 1 2 b X y b 1 b X X b b 1 2 x 1 y 2 x 1 X b Q b b 2 y y b 2 2 b X y b 2 b X X b b 2 2 x 2 y 2 x 2 X b Q b b K y y b K 2 b X y b K b X X b b K 2 x K y 2 x K X b displaystyle begin aligned frac partial Q boldsymbol beta partial beta 1 amp frac partial mathbf y top mathbf y partial beta 1 frac partial 2 boldsymbol beta top mathbf X top mathbf y partial beta 1 frac partial boldsymbol beta top mathbf X top mathbf X boldsymbol beta partial beta 1 2 mathbf x 1 top mathbf y 2 mathbf x 1 top mathbf X boldsymbol beta frac partial Q boldsymbol beta partial beta 2 amp frac partial mathbf y top mathbf y partial beta 2 frac partial 2 boldsymbol beta top mathbf X top mathbf y partial beta 2 frac partial boldsymbol beta top mathbf X top mathbf X boldsymbol beta partial beta 2 2 mathbf x 2 top mathbf y 2 mathbf x 2 top mathbf X boldsymbol beta vdots frac partial Q boldsymbol beta partial beta K amp frac partial mathbf y top mathbf y partial beta K frac partial 2 boldsymbol beta top mathbf X top mathbf y partial beta K frac partial boldsymbol beta top mathbf X top mathbf X boldsymbol beta partial beta K 2 mathbf x K top mathbf y 2 mathbf x K top mathbf X boldsymbol beta end aligned nbsp Dies zeigt dass sich die Bedingung erster Ordnung fur den Vektor b displaystyle mathbf b nbsp der geschatzten Regressionsparameter kompakt darstellen lasst als Q b b b 2 X y 2 X X b 0 displaystyle left frac partial Q boldsymbol beta partial mathbf beta right mathbf b 2 mathbf X top mathbf y 2 mathbf X top mathbf X mathbf b overset mathrm mathbf 0 nbsp bzw X X b X y displaystyle mathbf X top mathbf X mathbf b mathbf X top mathbf y nbsp Dieses lineare Gleichungssystem wird in der Regel Gausssches Normalgleichungssystem genannt Da die Matrix X displaystyle mathbf X nbsp den Rang K displaystyle K nbsp hat ist die quadratische symmetrische Matrix X X displaystyle mathbf X top mathbf X nbsp nichtsingular und die Inverse fur X X displaystyle mathbf X top mathbf X nbsp existiert Daher erhalt man nach linksseitiger Multiplikation mit der Inversen der Produktsummenmatrix X X 1 displaystyle mathbf X top mathbf X 1 nbsp als Losung des Minimierungsproblems den folgenden Vektor der geschatzten Regressionskoeffizienten 2 b b 1 b 2 b 2 b K X X 1 X y displaystyle mathbf b begin pmatrix b 1 b 2 b 2 vdots b K end pmatrix mathbf X top mathbf X 1 mathbf X top mathbf y nbsp Wenn der Rang von X displaystyle mathbf X nbsp kleiner als K displaystyle K nbsp ist dann ist X X displaystyle mathbf X top mathbf X nbsp nicht invertierbar also das Normalgleichungssystem nicht eindeutig losbar mithin b displaystyle mathbf b nbsp nicht identifizierbar siehe hierzu aber den Begriff der Schatzbarkeit Da b displaystyle mathbf b nbsp die Residuenquadratsumme minimiert wird b displaystyle mathbf b nbsp auch Kleinste Quadrate Schatzer kurz KQ Schatzer genannt 3 Alternativ kann der Kleinste Quadrate Schatzer durch Einsetzen des wahren Modells y X b e displaystyle mathbf y mathbf X boldsymbol beta boldsymbol varepsilon nbsp auch dargestellt werden als 4 b X X 1 X X b e b X X 1 X e displaystyle mathbf b mathbf X top mathbf X 1 mathbf X top mathbf X boldsymbol beta boldsymbol varepsilon boldsymbol beta mathbf X top mathbf X 1 mathbf X top boldsymbol varepsilon nbsp Fur die Kovarianzmatrix des Kleinste Quadrate Schatzers ergibt sich dargestellt in kompakter Form 5 Cov b b X X 1 X e X X 1 X Cov Y X X X 1 s 2 X X 1 S b displaystyle operatorname Cov mathbf b boldsymbol beta mathbf X top mathbf X 1 mathbf X top boldsymbol varepsilon mathbf X top mathbf X 1 mathbf X top operatorname Cov mathbf Y mathbf X mathbf X top mathbf X 1 sigma 2 mathbf X top mathbf X 1 Sigma mathbf b nbsp Im Fall der linearen Einfachregression b b 1 b 2 displaystyle boldsymbol beta beta 1 beta 2 top nbsp reduziert sich die obige Formel auf die bekannten Ausdrucke fur die Varianzen der KQ Schatzer Var b 2 s 2 t 1 T x t 2 x 2 2 displaystyle operatorname Var beta 2 frac sigma 2 sum t 1 T x t2 overline x 2 2 nbsp und Var b 1 s 2 t 1 T x t 2 2 T t 1 T x t 2 x 2 2 displaystyle operatorname Var beta 1 frac sigma 2 sum t 1 T x t2 2 T sum t 1 T x t2 overline x 2 2 nbsp siehe Statistische Eigenschaften der Kleinste Quadrate Schatzer 6 Beweiss 2 X X 1 s 2 1 1 x 12 x 22 1 x 12 1 x 22 1 s 2 t 1 T 1 x t 2 x t 2 x t 2 2 1 s 2 T x t 2 x t 2 x t 2 2 1 s 2 1 T x t 2 2 x i 2 2 x t 2 2 x t 2 x t 2 T s 2 1 T x t 2 x 2 x t 2 2 x t 2 x t 2 T Var b 1 s 2 X X 11 1 s 2 t 1 T x t 2 2 T t 1 T x t 2 x 2 2 Var b 2 s 2 X X 22 1 s 2 t 1 T x t 2 x 2 2 displaystyle begin aligned sigma 2 mathbf X top mathbf X 1 amp sigma 2 left begin pmatrix 1 amp 1 amp cdots x 12 amp x 22 amp cdots end pmatrix begin pmatrix 1 amp x 12 1 amp x 22 vdots amp vdots end pmatrix right 1 6pt amp sigma 2 left sum t 1 T begin pmatrix 1 amp x t2 x t2 amp x t2 2 end pmatrix right 1 6pt amp sigma 2 begin pmatrix T amp sum x t2 sum x t2 amp sum x t2 2 end pmatrix 1 6pt amp sigma 2 cdot frac 1 T sum x t2 2 sum x i2 2 begin pmatrix sum x t2 2 amp sum x t2 sum x t2 amp T end pmatrix 6pt amp sigma 2 cdot frac 1 T sum x t2 overline x 2 begin pmatrix sum x t2 2 amp sum x t2 sum x t2 amp T end pmatrix 8pt Rightarrow operatorname Var beta 1 amp sigma 2 mathbf X top mathbf X 11 1 frac sigma 2 sum t 1 T x t2 2 T sum t 1 T x t2 overline x 2 2 Rightarrow operatorname Var beta 2 amp sigma 2 mathbf X top mathbf X 22 1 frac sigma 2 sum t 1 T x t2 overline x 2 2 end aligned nbsp Man erhalt mit Hilfe des Kleinste Quadrate Schatzers b displaystyle mathbf b nbsp das Gleichungssystem y X b y e displaystyle hat mathbf y mathbf X mathbf b mathbf y hat boldsymbol varepsilon nbsp wobei e displaystyle hat boldsymbol varepsilon nbsp der Vektor der Residuen und y displaystyle hat mathbf y nbsp die Schatzung fur y displaystyle mathbf y nbsp ist Das Interesse der Analyse liegt oft in der Schatzung y 0 displaystyle hat mathbf y 0 nbsp oder in der Vorhersage der abhangigen Variablen y displaystyle mathbf y nbsp fur ein gegebenes Tupel von x 0 displaystyle mathbf x 0 nbsp Der Vorhersagevektor berechnet sich als y 0 x 01 b 1 x 02 b 2 x 0 K b K x 0 b displaystyle hat mathbf y 0 x 01 b 1 x 02 b 2 dotsc x 0K b K mathbf x 0 top mathbf b nbsp Guteeigenschaften des Kleinste Quadrate Schatzers Bearbeiten Erwartungstreue Bearbeiten Im multiplen Fall kann man genauso wie im einfachen Fall zeigen dass der Kleinste Quadrate Schatzvektor erwartungstreu fur b displaystyle boldsymbol beta nbsp ist Dies gilt allerdings nur wenn die Annahme der Exogenitat der Regressoren gegeben ist Dies ist der Fall wenn die moglicherweise zufalligen Regressoren und die Storgrossen unkorreliert sind d h wenn E x e 0 displaystyle operatorname E mathbf x top mathbf cdot boldsymbol varepsilon mathbf 0 nbsp gilt Wenn man also hier voraussetzt dass die exogenen Variablen keine Zufallsvariablen sind sondern wie in einem Experiment kontrolliert werden konnen gilt k 1 K E x t k e t x t k E e t 0 displaystyle forall k in 1 dotsc K colon operatorname E x tk varepsilon t x tk cdot operatorname E varepsilon t 0 nbsp bzw E x e 0 displaystyle operatorname E mathbf x top mathbf cdot boldsymbol varepsilon mathbf 0 nbsp und damit ist b displaystyle mathbf b nbsp erwartungstreu fur b displaystyle boldsymbol beta nbsp BeweisE b E X X 1 X y E X X 1 X X b e E X X 1 X X b X X 1 X e X X 1 X X b X X 1 E X e 0 b displaystyle begin aligned operatorname E mathbf b amp operatorname E mathbf X top mathbf X 1 mathbf X top mathbf y amp operatorname E mathbf X top mathbf X 1 mathbf X top mathbf X boldsymbol beta boldsymbol varepsilon amp operatorname E mathbf X top mathbf X 1 mathbf X top mathbf X boldsymbol beta mathbf X top mathbf X 1 mathbf X top boldsymbol varepsilon mathbf X top mathbf X 1 mathbf X top mathbf X boldsymbol beta mathbf X top mathbf X 1 underbrace operatorname E mathbf X top boldsymbol varepsilon mathbf 0 boldsymbol beta end aligned nbsp Falls die Exogenitatsannahme nicht zutrifft E x e 0 displaystyle operatorname E mathbf x top boldsymbol varepsilon mathbf neq 0 nbsp ist der Kleinste Quadrate Schatzer nicht erwartungstreu fur b displaystyle boldsymbol beta nbsp Es liegt also eine Verzerrung englisch bias vor d h im Mittel weicht der Parameterschatzer vom wahren Parameter ab Bias b E b b 0 displaystyle operatorname Bias left mathbf b right operatorname E mathbf b boldsymbol beta neq mathbf 0 nbsp Der Erwartungswert des Kleinste Quadrate Parametervektor fur b displaystyle mathbf b nbsp ist also nicht gleich dem wahren Parameter b displaystyle boldsymbol beta nbsp siehe dazu auch unter Regression mit stochastischen Regressoren Effizienz Bearbeiten Der Kleinste Quadrate Schatzer ist linear b X X 1 X A y A y displaystyle mathbf b underbrace mathbf X top mathbf X 1 mathbf X top mathbf A mathbf y mathbf A mathbf y nbsp Nach dem Satz von Gauss Markow ist der Schatzer b displaystyle mathbf b nbsp bester linearer erwartungstreuer Schatzer BLES bzw englisch Best Linear Unbiased Estimator kurz BLUE das heisst er ist derjenige lineare erwartungstreue Schatzer der unter allen linearen erwartungstreuen Schatzern die kleinste Varianz bzw Kovarianzmatrix besitzt Fur diese Eigenschaften der Schatzfunktion b displaystyle mathbf b nbsp braucht keine Verteilungsinformation der Storgrosse vorzuliegen Wenn die Storgrossen normalverteilt sind ist b displaystyle mathbf b nbsp Maximum Likelihood Schatzer und nach dem Satz von Lehmann Scheffe beste erwartungstreue Schatzung BES bzw englisch Best Unbiased Estimator kurz BUE Konsistenz Bearbeiten Der KQ Schatzer ist unter den bisherigen Annahmen erwartungstreu fur b displaystyle boldsymbol beta nbsp E b b displaystyle operatorname E mathbf b boldsymbol beta nbsp wobei die Stichprobengrosse T displaystyle T nbsp keinen Einfluss auf die Erwartungstreue hat schwaches Gesetz der grossen Zahlen Ein Schatzer ist genau dann konsistent fur den wahren Wert wenn er in Wahrscheinlichkeit gegen den wahren Wert konvergiert englisch probability limit kurz plim Die Eigenschaft der Konsistenz bezieht also das Verhalten des Schatzers mit ein wenn die Anzahl der Beobachtungen grosser wird Fur die Folge b t t N displaystyle mathbf b t t in mathbb N nbsp gilt dass sie in Wahrscheinlichkeit gegen den wahren Parameterwert b displaystyle boldsymbol beta nbsp konvergiert ϵ gt 0 lim t P b t b ϵ 0 displaystyle forall epsilon gt 0 colon lim t to infty mathbb P mathbf b t boldsymbol beta geq epsilon 0 nbsp oder vereinfacht ausgedruckt b p b displaystyle quad mathbf b stackrel p longrightarrow mathbf boldsymbol beta quad nbsp bzw plim b b displaystyle quad operatorname plim mathbf b boldsymbol beta nbsp Die Grundlegende Annahme um die Konsistenz des KQ Schatzers sicherzustellen lautet lim T X T X T T Q displaystyle lim T to infty left frac mathbf X T top mathbf X T T right mathbf Q nbsp d h man geht davon aus dass das durchschnittliche Quadrat der beobachteten Werte der erklarenden Variablen auch bei einem ins Unendliche gehendem Stichprobenumfang endlich bleibt siehe Produktsummenmatrix Asymptotische Resultate Ausserdem nimmt man an dass plim X e T 0 displaystyle operatorname plim left frac mathbf X top boldsymbol varepsilon T right 0 nbsp Die Konsistenz kann wie folgt gezeigt werden 7 Beweisplim b plim X X 1 X y plim b X X 1 X e b plim X X 1 X e b plim X X 1 T plim X e T b plim X X T 1 plim X e T 0 b Q 1 0 b displaystyle begin aligned operatorname plim mathbf b amp operatorname plim mathbf X top mathbf X 1 mathbf X top mathbf y amp operatorname plim boldsymbol beta mathbf X top mathbf X 1 mathbf X top boldsymbol varepsilon amp boldsymbol beta operatorname plim mathbf X top mathbf X 1 mathbf X top boldsymbol varepsilon amp boldsymbol beta operatorname plim left mathbf X top mathbf X 1 T right cdot operatorname plim left mathbf X top boldsymbol varepsilon T right amp boldsymbol beta operatorname plim left mathbf X top mathbf X T right 1 cdot underbrace operatorname plim left mathbf X top boldsymbol varepsilon T right 0 boldsymbol beta mathbf Q 1 cdot 0 boldsymbol beta end aligned nbsp Hierbei wurde das Slutsky Theorem und die Eigenschaft verwendet dass wenn X displaystyle mathbf X nbsp deterministisch bzw nichtstochastisch ist plim X X T lim X X T displaystyle operatorname plim left mathbf X top mathbf X T right lim left mathbf X top mathbf X T right nbsp gilt Folglich ist der Kleinste Quadrate Schatzer konsistent fur b displaystyle boldsymbol beta nbsp Die Eigenschaft besagt dass mit steigender Stichprobengrosse die Wahrscheinlichkeit dass der Schatzer b displaystyle mathbf b nbsp vom wahren Parameter b displaystyle boldsymbol beta nbsp abweicht sinkt Weiterhin lasst sich durch das Chintschin Theorem zeigen dass fur die durch die KQ Schatzung gewonnene Storgrossenvarianz gilt dass sie konsistent fur s 2 displaystyle sigma 2 nbsp ist d h plim s 2 s 2 displaystyle operatorname plim hat sigma 2 sigma 2 nbsp BeweisDazu schreibt man zunachst die geschatzte Storgrossenvarianz wie folgt um s 2 y X b y X b T K 1 T K e I X X X 1 X e T T K e e T e X T X X T 1 X e T displaystyle begin aligned hat sigma 2 amp frac left mathbf y mathbf X mathbf b right top left mathbf y mathbf X mathbf b right T K amp frac 1 T K boldsymbol varepsilon top left mathbf I mathbf X left mathbf X top mathbf X right 1 mathbf X top right boldsymbol varepsilon amp left frac T T K right left frac boldsymbol varepsilon top boldsymbol varepsilon T frac boldsymbol varepsilon top mathbf X T left frac mathbf X top mathbf X T right 1 frac mathbf X top boldsymbol varepsilon T right end aligned nbsp Damit ergibt sich als Wahrscheinlichkeitslimes plim s 2 plim T T K e e T e X T X X T 1 X e T s 2 0 Q 1 0 s 2 displaystyle operatorname plim hat sigma 2 operatorname plim left left frac T T K right left frac boldsymbol varepsilon top boldsymbol varepsilon T frac boldsymbol varepsilon top mathbf X T left frac mathbf X top mathbf X T right 1 frac mathbf X top boldsymbol varepsilon T right right sigma 2 0 cdot mathbf Q 1 cdot 0 sigma 2 nbsp Somit ist s 2 displaystyle hat sigma 2 nbsp ein konsistenter Schatzer fur s 2 displaystyle sigma 2 nbsp Verallgemeinerungen Bearbeiten Unter Berucksichtigung von Varianzen Unsicherheiten oder Gewichte und Kovarianzen Korrelationen verallgemeinert sich die multiple lineare Regression zur gewichteten multiplen linearen Regression b X V 1 X 1 X V 1 y displaystyle mathbf hat b mathbf X top mathbf V 1 mathbf X 1 mathbf X top mathbf mathbf V 1 y nbsp wobei V 1 displaystyle mathbf V 1 nbsp die Inverse der Kovarianzmatrix Fehlermatrix darstellt Bei Parameterbestimmungen mithilfe der Methode der kleinsten Quadrate werden die Residuen benotigt welche oft als Differenz der Schatzer und der Modellfunktion ausgedruckt werden In vielen praktischen Anwendungen ist die Modellfunktion jedoch nicht analytisch bekannt oder kann nicht fur beliebige Parameterwerte angegeben werden In diesem Fall kann die Modellfunktion durch eine multiple lineare Regression der bekannten Funktionswerte naherungsweise ausgedruckt werden und direkt in der Methode der kleinsten Quadrate verwendet werden Der beste Schatzwert wird dann analytisch mithilfe der Gleichung des linearen Template Fits bestimmt 8 Verbindung zur optimalen Versuchsplanung Bearbeiten Wenn die Werte der unabhangigen Variablen x k displaystyle mathbf x k nbsp einstellbar sind kann durch optimale Wahl dieser Werte die Matrix X X 1 displaystyle mathbf X top mathbf X 1 nbsp d h bis auf einen Faktor die Kovarianzmatrix des Kleinste Quadrate Schatzers im Sinne der Loewner Halbordnung verkleinert werden Das ist eine Hauptaufgabe der optimalen Versuchsplanung Residuen und geschatzte Zielwerte BearbeitenDie Schatzwerte der y t displaystyle y t nbsp berechnen sich mithilfe des KQ Schatzers b displaystyle mathbf b nbsp als y X b X X X 1 X y displaystyle hat mathbf y mathbf Xb mathbf X left mathbf X top mathbf X right 1 mathbf X top mathbf y nbsp wobei man dies auch kurzer als y P y displaystyle hat mathbf y mathbf P mathbf y nbsp mit P R T T displaystyle mathbf P in mathbb R T times T nbsp schreiben kann Die Projektionsmatrix P displaystyle mathbf P nbsp ist die Matrix der Orthogonalprojektion auf den Spaltenraum von X displaystyle mathbf X nbsp und hat maximal den Rang K displaystyle K nbsp Sie wird auch Pradiktionsmatrix genannt da sie die vorhergesagten Werte y displaystyle hat y nbsp Werte generiert wenn man die Matrix auf die y displaystyle y nbsp Werte anwendet Die Pradiktionsmatrix beschreibt numerisch die Projektion von y displaystyle y nbsp auf die durch X displaystyle mathbf X nbsp definierte Ebene Der Residualvektor lasst sich mittels der Pradiktionsmatrix darstellen als e y y y X b I X X X 1 X y I P y displaystyle hat boldsymbol varepsilon mathbf y hat mathbf y mathbf y mathbf X mathbf b mathbf I mathbf X left mathbf X top mathbf X right 1 mathbf X top mathbf y mathbf I mathbf P mathbf y nbsp Die Matrix I X X X 1 X I P displaystyle mathbf I mathbf X left mathbf X top mathbf X right 1 mathbf X top left mathbf I mathbf P right nbsp wird auch als Residualmatrix bezeichnet und mit M displaystyle mathbf M nbsp abgekurzt Ferner ist die Residuenquadratsumme als nichtlineare Transformation Chi Quadrat verteilt mit T K displaystyle T K nbsp Freiheitsgraden Dies zeigt folgende Beweisskizze BeweisskizzeSei e y X b displaystyle boldsymbol varepsilon mathbf y mathbf X boldsymbol beta nbsp damit erhalt man e I P e s 2 y X b M M y X b s 2 y M y s 2 S Q R s 2 x 2 T K displaystyle begin aligned boldsymbol varepsilon top left mathbf I mathbf P right boldsymbol varepsilon sigma 2 amp mathbf y mathbf X boldsymbol beta top mathbf M mathbf M mathbf y mathbf X boldsymbol beta sigma 2 amp mathbf y top mathbf M mathbf y sigma 2 amp SQR sigma 2 sim chi 2 T K end aligned nbsp wobei M X 0 displaystyle mathbf M mathbf X 0 nbsp und der Satz von Cochran verwendet wurden Ausserdem gilt ebenso y X b 2 2 s 2 x K 2 displaystyle hat mathbf y mathbf X boldsymbol beta 2 2 sigma 2 sim chi K 2 nbsp Erwartungstreue Schatzung des unbekannten Varianzparameters Bearbeiten Hauptartikel Erwartungstreue Schatzung der Varianz der Storgrossen Obwohl manchmal angenommen wird dass die Storgrossenvarianz s 2 displaystyle sigma 2 nbsp bekannt ist muss man davon ausgehen dass sie in den meisten Anwendungsfallen unbekannt ist beispielsweise bei der Schatzung von Nachfrageparametern in okonomischen Modellen oder Produktionsfunktionen Ein naheliegender Schatzer des Vektors der Storgrossen e displaystyle boldsymbol varepsilon nbsp ist der Residualvektor e y X b displaystyle hat boldsymbol varepsilon left mathbf y mathbf X mathbf b right nbsp der aus der Regression gewonnen wird Die in den Residuen steckende Information konnte also fur einen Schatzer der Storgrossenvarianz genutzt werden Aufgrund der Tatsache dass E e t 2 s 2 displaystyle operatorname E varepsilon t 2 sigma 2 nbsp gilt ist s 2 displaystyle sigma 2 nbsp aus frequentistischer Sicht der Mittelwert von e t 2 displaystyle varepsilon t 2 nbsp Die Grosse e t 2 displaystyle varepsilon t 2 nbsp ist aber unbeobachtbar da die Storgrossen unbeobachtbar sind Wenn man statt e t 2 displaystyle varepsilon t 2 nbsp nun das beobachtbare Pendant e t 2 displaystyle hat varepsilon t 2 nbsp benutzt fuhrt dies zum Schatzer s 2 1 T t 1 T e t 2 1 T e e 1 T S Q R displaystyle tilde s 2 frac 1 T sum nolimits t 1 T hat varepsilon t 2 frac 1 T hat boldsymbol varepsilon top hat boldsymbol varepsilon frac 1 T SQR nbsp wobei S Q R displaystyle SQR nbsp die Residuenquadratsumme darstellt Allerdings erfullt der Schatzer nicht gangige Qualitatskriterien fur Punktschatzer und wird daher nicht oft genutzt 9 Beispielsweise ist der Schatzer nicht erwartungstreu fur s 2 displaystyle sigma 2 nbsp Dies liegt daran dass der Erwartungswert der Residuenquadratsumme E e e s 2 T K displaystyle operatorname E hat boldsymbol varepsilon top hat boldsymbol varepsilon sigma 2 T K nbsp ergibt und daher fur den Erwartungswert dieses Schatzers E s ML 2 T K T s 2 displaystyle operatorname E hat sigma text ML 2 frac T K T sigma 2 nbsp gilt 10 Eine erwartungstreue Schatzung fur s 2 displaystyle sigma 2 nbsp d h eine Schatzung die E s 2 s 2 displaystyle operatorname E hat sigma 2 sigma 2 nbsp erfullt ist in der multiplen linearen Regression gegeben ist durch das mittlere Residuenquadrat s 2 S Q R T K e e T K y X b y X b T K displaystyle hat sigma 2 SQR T K frac hat boldsymbol varepsilon top hat boldsymbol varepsilon T K frac left mathbf y mathbf X mathbf b right top left mathbf y mathbf X mathbf b right T K nbsp mit dem Kleinste Quadrate Schatzer b X X 1 X y displaystyle mathbf b mathbf X top mathbf X 1 mathbf X top mathbf y nbsp Wenn nun bei der Kovarianzmatrix des KQ Schatzvektors s 2 displaystyle sigma 2 nbsp durch s 2 displaystyle hat sigma 2 nbsp ersetzt wird ergibt sich fur die geschatzte Kovarianzmatrix des KQ Schatzers S b s 2 X X 1 e e T K X X 1 displaystyle hat Sigma mathbf b hat sigma 2 left mathbf X top mathbf X right 1 frac hat boldsymbol varepsilon top hat boldsymbol varepsilon T K left mathbf X top mathbf X right 1 nbsp Statistische Inferenz Bearbeiten Hauptartikel Klassisches lineares Modell der Normalregression Fur die statistische Inferenz Schatzen und Testen wird noch die Information uber die Verteilung des Vektors der Storgrossen e displaystyle boldsymbol varepsilon nbsp gefordert Bedingt auf die Datenmatrix X displaystyle mathbf X nbsp sind die e t displaystyle varepsilon t nbsp unabhangig und identisch verteilt und folgen einer N 0 s 2 displaystyle mathcal N 0 sigma 2 nbsp Verteilung Aquivalent ist e displaystyle boldsymbol varepsilon nbsp bedingt auf X displaystyle mathbf X nbsp mehrdimensional normalverteilt mit dem Erwartungswert 0 displaystyle mathbf 0 nbsp und der Kovarianzmatrix s 2 I T displaystyle sigma 2 mathbf I T nbsp d h e N 0 s 2 I T displaystyle boldsymbol varepsilon sim mathcal N mathbf 0 sigma 2 mathbf I T nbsp Hier sind stochastisch unabhangige Zufallsvariablen auch unkorreliert Weil der Storgrossenvektor mehrdimensional normalverteilt ist folgt daraus dass auch der Regressand mehrdimensional normalverteilt ist y N X b s 2 I T displaystyle boldsymbol y sim mathcal N mathbf X boldsymbol beta sigma 2 mathbf I T nbsp Aufgrund der Tatsache dass beim KQ Schatzer die einzige zufallige Komponente y displaystyle mathbf y nbsp ist folgt fur den Parametervektor b displaystyle mathbf b nbsp dass er ebenfalls normalverteilt ist b N b s 2 X X 1 displaystyle mathbf b sim mathcal N boldsymbol beta sigma 2 mathbf X top mathbf X 1 nbsp Multiples Bestimmtheitsmass BearbeitenDas Bestimmtheitsmass R 2 displaystyle mathit R 2 nbsp ist eine Masszahl fur die Gute Bestimmtheit einer multiplen linearen Regression In der multiplen linearen Regression lasst sich das Bestimmtheitsmass darstellen als 11 R 2 1 y y b X y y y T y 2 displaystyle mathit R 2 1 frac mathbf y top mathbf y mathbf b top mathbf X top mathbf y mathbf y top mathbf y T overline y 2 nbsp oder R 2 S Q E S Q T y y T y 2 y y e e T y 2 b X y T y 2 y y T y 2 displaystyle mathit R 2 frac SQE SQT frac hat mathbf y top hat mathbf y T overline hat y 2 hat mathbf y top hat mathbf y hat boldsymbol varepsilon top hat boldsymbol varepsilon T overline y 2 frac mathbf b top mathbf X top mathbf y T overline y 2 mathbf y top mathbf y T overline y 2 nbsp Die Besonderheit beim multiplen Bestimmtheitsmass ist dass es nicht wie in der einfachen linearen Regression dem quadrierten Korrelationskoeffizienten zwischen x displaystyle x nbsp und y displaystyle y nbsp sondern dem Quadrat de