Multiple lineare Regression In der Statistik ist die multiple lineare Regression auch mehrfache lineare Regression kurz

In der Statistik ist die multiple lineare Regression, auch mehrfache lineare Regression (kurz: MLR) oder lineare Mehrfachregression genannt, ein regressionsanalytisches Verfahren und ein Spezialfall der linearen Regression. Die multiple lineare Regression ist ein statistisches Verfahren, mit dem versucht wird, eine beobachtete abhängige Variable durch mehrere unabhängige Variablen zu erklären. Das dazu verwendete Modell ist linear in den Parametern, wobei die abhängige Variable eine Funktion der unabhängigen Variablen ist. Diese Beziehung wird durch eine additive Störgröße überlagert. Die multiple lineare Regression stellt eine Verallgemeinerung der einfachen linearen Regression bzgl. der Anzahl der Regressoren dar.

Das klassische Modell der linearen Mehrfachregression Bearbeiten

Regressionsebene, die sich an eine „Punktwolke“ im dreidimensionalen Raum anpasst (Fall

)

Im Folgenden wird von linearen Funktionen ausgegangen. Es ist dann keine weitere Beschränkung der Allgemeinheit, dass diese Funktionen direkt aus den unabhängigen (erklärenden, exogenen) Variablen bestehen und es ebenso viele zu schätzende Regressionsparameter gibt wie unabhängige Variablen (Index ). Zum Vergleich: In der einfachen linearen Regression ist und konstant gleich , der zugehörige Regressionsparameter also der Achsenabschnitt.

Das Modell für Messungen der abhängigen (endogenen) Variablen ist also

mit Störgrößen , die rein zufällig sind, falls das lineare Modell passt. Für das Modell wird weiterhin angenommen, dass die Gauß-Markow-Annahmen gelten. In einem stichprobentheoretischen Ansatz wird jedes Stichprobenelement als eine eigene Zufallsvariable interpretiert, ebenso jedes .

Liegen die Daten

vor, so ergibt sich folgendes lineare Gleichungssystem:

Das multiple lineare Regressionsmodell (selten und doppeldeutig allgemeines lineares Modell) lässt sich in Matrixschreibweise wie folgt formulieren

Dies ist das zugrundeliegende Modell in der Grundgesamtheit und wird auch als „wahres Modell“ bezeichnet. Hierbei stehen , und für die Vektoren bzw. Matrizen:

und eine -Matrix (Versuchsplan- oder Datenmatrix):

Aufgrund der unterschiedlichen Schreibweisen für lässt sich erkennen, dass sich das Modell auch darstellen lässt als:

mit

hierbei ist die beobachtete abhängige Variable für Beobachtung und , sind die unabhängigen Variablen. Wie gewöhnlich ist, das Absolutglied und sind unbekannte skalare Steigungsparameter. Die Störgröße für Beobachtung ist eine unbeobachtbare Zufallsvariable. Der Vektor ist der transponierte Vektor der Regressoren und wird auch als linearer Prädiktor bezeichnet.

Die wesentliche Voraussetzung an das multiple lineare Regressionsmodell ist, dass es bis auf die Störgröße das „wahre Modell“ beschreibt. Dabei wird in der Regel nicht genau spezifiziert, von welcher Art die Störgröße ist; sie kann beispielsweise von zusätzlichen Faktoren oder Messfehlern herrühren. Jedoch nimmt man als Grundvoraussetzung an, dass dessen Erwartungswert (in allen Komponenten) 0 ist: (Annahme 1). Diese Annahme bedeutet, dass das Modell grundsätzlich für korrekt gehalten wird und die beobachtete Abweichung als zufällig angesehen wird oder von vernachlässigbaren äußeren Einflüssen herrührt. Typisch ist die Annahme, dass die Komponenten des Vektors unkorreliert sind (Annahme 2) und dieselbe Varianz besitzen (Annahme 3), wodurch sich mit Hilfe klassischer Verfahren wie der Methode der kleinsten Quadrate (englisch ordinary least squares, kurz: OLS) einfache Schätzer für die unbekannten Parameter und ergeben. Die Methode wird daher auch (multiple lineare) KQ-Regression (englisch OLS regression) genannt.

Zusammenfassend wird für die Störgrößen angenommen, dass

(A1) sie den Erwartungswert null haben: ,
(A2) unkorreliert sind: und
(A3) eine homogene Varianz haben: (skalare Kovarianzmatrix).

Hierbei bezeichnet den Nullvektor und die Einheitsmatrix der Dimension . Die oben genannten Annahmen sind die Annahmen der klassischen linearen Regression. Das Modell (die Gleichung zusammen mit obigen Annahmen) wird daher das klassische Modell der linearen Mehrfachregression genannt.

Statt nur die Varianzen und Kovarianzen der Störgrößen einzeln zu betrachten, werden diese in folgender Kovarianzmatrix zusammengefasst:

Somit gilt für

Über diese grundlegende Annahme hinaus sind grundsätzlich alle Verteilungsannahmen an erlaubt. Wird zudem vorausgesetzt, dass der Vektor mehrdimensional normalverteilt ist, lässt sich ferner zeigen, dass die beiden Schätzer Lösungen der Maximum-Likelihood-Gleichungen sind (siehe #Statistische Inferenz). In diesem Modell ist die Unabhängigkeit der Störgrößen dann gleichbedeutend mit der der .

Schätzung des Parametervektors mit der Kleinste-Quadrate-Schätzung Bearbeiten

Auch im multiplen linearen Regressionsmodell wird der Vektor der Störgrößen mithilfe der Kleinste-Quadrate-Schätzung (KQ-Schätzung) minimiert, das heißt, es soll so gewählt werden, dass die euklidische Norm minimal wird. Im Folgenden wird der Ansatz benutzt, dass die Residuenquadratsumme minimiert wird. Dazu wird vorausgesetzt, dass den Rang hat. Dann ist invertierbar und man erhält als Minimierungsproblem:

Die Bedingung erster Ordnung (Nullsetzen des Gradienten) lautet:

Die Kleinste-Quadrate-Schätzung kann als eine Projektion auf die Ebene, die durch die Regressoren aufgespannt wird, interpretiert werden.

Die partiellen Ableitungen erster Ordnung lauten:

Dies zeigt, dass sich die Bedingung erster Ordnung für den Vektor der geschätzten Regressionsparameter kompakt darstellen lässt als:

bzw.

Dieses lineare Gleichungssystem wird in der Regel (Gaußsches) Normalgleichungssystem genannt.

Da die Matrix den Rang hat, ist die quadratische symmetrische Matrix nichtsingulär und die Inverse für existiert. Daher erhält man nach linksseitiger Multiplikation mit der Inversen der Produktsummenmatrix als Lösung des Minimierungsproblems den folgenden Vektor der geschätzten Regressionskoeffizienten:

Wenn der Rang von kleiner als ist, dann ist nicht invertierbar, also das Normalgleichungssystem nicht eindeutig lösbar, mithin nicht identifizierbar, siehe hierzu aber den Begriff der Schätzbarkeit. Da die Residuenquadratsumme minimiert, wird auch Kleinste-Quadrate-Schätzer (kurz: KQ-Schätzer) genannt. Alternativ kann der Kleinste-Quadrate-Schätzer durch Einsetzen des wahren Modells auch dargestellt werden als

Für die Kovarianzmatrix des Kleinste-Quadrate-Schätzers ergibt sich (dargestellt in kompakter Form):

Im Fall der linearen Einfachregression () reduziert sich die obige Formel auf die bekannten Ausdrücke für die Varianzen der KQ-Schätzer und (siehe Statistische Eigenschaften der Kleinste-Quadrate-Schätzer).

Beweis

Man erhält mit Hilfe des Kleinste-Quadrate-Schätzers das Gleichungssystem

wobei der Vektor der Residuen und die Schätzung für ist. Das Interesse der Analyse liegt oft in der Schätzung oder in der Vorhersage der abhängigen Variablen für ein gegebenes Tupel von . Der Vorhersagevektor berechnet sich als

Güteeigenschaften des Kleinste-Quadrate-Schätzers Bearbeiten

Erwartungstreue Bearbeiten

Im multiplen Fall kann man genauso wie im einfachen Fall zeigen, dass der Kleinste-Quadrate-Schätzvektor erwartungstreu für ist. Dies gilt allerdings nur, wenn die Annahme der Exogenität der Regressoren gegeben ist. Dies ist der Fall, wenn die möglicherweise zufälligen Regressoren und die Störgrößen unkorreliert sind, d. h. wenn gilt. Wenn man also hier voraussetzt, dass die exogenen Variablen keine Zufallsvariablen sind, sondern wie in einem Experiment kontrolliert werden können, gilt bzw. und damit ist erwartungstreu für .

Beweis

Falls die Exogenitätsannahme nicht zutrifft, , ist der Kleinste-Quadrate-Schätzer nicht erwartungstreu für . Es liegt also eine Verzerrung (englisch bias) vor, d. h., „im Mittel“ weicht der Parameterschätzer vom wahren Parameter ab:

Der Erwartungswert des Kleinste-Quadrate-Parametervektor für ist also nicht gleich dem wahren Parameter , siehe dazu auch unter Regression mit stochastischen Regressoren.

Effizienz Bearbeiten

Der Kleinste-Quadrate-Schätzer ist linear:

Nach dem Satz von Gauß-Markow ist der Schätzer , bester linearer erwartungstreuer Schätzer (BLES bzw. englisch Best Linear Unbiased Estimator, kurz: BLUE), das heißt, er ist derjenige lineare erwartungstreue Schätzer, der unter allen linearen erwartungstreuen Schätzern die kleinste Varianz bzw. Kovarianzmatrix besitzt. Für diese Eigenschaften der Schätzfunktion braucht keine Verteilungsinformation der Störgröße vorzuliegen. Wenn die Störgrößen normalverteilt sind, ist Maximum-Likelihood-Schätzer und nach dem Satz von Lehmann-Scheffé beste erwartungstreue Schätzung (BES bzw. englisch Best Unbiased Estimator, kurz: BUE).

Konsistenz Bearbeiten

Der KQ-Schätzer ist unter den bisherigen Annahmen erwartungstreu für (), wobei die Stichprobengröße keinen Einfluss auf die Erwartungstreue hat (schwaches Gesetz der großen Zahlen). Ein Schätzer ist genau dann konsistent für den wahren Wert, wenn er in Wahrscheinlichkeit gegen den wahren Wert konvergiert (englisch probability limit, kurz: plim). Die Eigenschaft der Konsistenz bezieht also das Verhalten des Schätzers mit ein, wenn die Anzahl der Beobachtungen größer wird.

Für die Folge gilt, dass sie in Wahrscheinlichkeit gegen den wahren Parameterwert konvergiert

oder vereinfacht ausgedrückt bzw.

Die Grundlegende Annahme, um die Konsistenz des KQ-Schätzers sicherzustellen lautet

d. h. man geht davon aus, dass das durchschnittliche Quadrat der beobachteten Werte der erklärenden Variablen auch bei einem ins Unendliche gehendem Stichprobenumfang endlich bleibt (siehe Produktsummenmatrix#Asymptotische Resultate). Außerdem nimmt man an, dass

Die Konsistenz kann wie folgt gezeigt werden:

Beweis

Hierbei wurde das Slutsky-Theorem und die Eigenschaft verwendet, dass wenn deterministisch bzw. nichtstochastisch ist gilt.

Folglich ist der Kleinste-Quadrate-Schätzer konsistent für . Die Eigenschaft besagt, dass mit steigender Stichprobengröße die Wahrscheinlichkeit, dass der Schätzer vom wahren Parameter abweicht, sinkt. Weiterhin lässt sich durch das Chintschin-Theorem zeigen, dass für die durch die KQ-Schätzung gewonnene Störgrößenvarianz gilt, dass sie konsistent für ist, d. h. .

Beweis
Dazu schreibt man zunächst die geschätzte Störgrößenvarianz wie folgt um Damit ergibt sich als Wahrscheinlichkeitslimes Somit ist ein konsistenter Schätzer für .

Verallgemeinerungen Bearbeiten

Unter Berücksichtigung von Varianzen (Unsicherheiten oder Gewichte) und Kovarianzen (Korrelationen) verallgemeinert sich die multiple lineare Regression zur gewichteten multiplen linearen Regression

wobei die Inverse der Kovarianzmatrix (Fehlermatrix) darstellt.

Bei Parameterbestimmungen mithilfe der Methode der kleinsten Quadrate werden die Residuen benötigt, welche oft als Differenz der Schätzer und der Modellfunktion ausgedrückt werden. In vielen praktischen Anwendungen ist die Modellfunktion jedoch nicht analytisch bekannt, oder kann nicht für beliebige Parameterwerte angegeben werden. In diesem Fall kann die Modellfunktion durch eine (multiple) lineare Regression der bekannten Funktionswerte näherungsweise ausgedrückt werden und direkt in der Methode der kleinsten Quadrate verwendet werden. Der beste Schätzwert wird dann analytisch mithilfe der Gleichung des linearen Template Fits bestimmt.

Verbindung zur optimalen Versuchsplanung Bearbeiten

Wenn die Werte der unabhängigen Variablen einstellbar sind, kann durch optimale Wahl dieser Werte die Matrix (d. h. bis auf einen Faktor die Kovarianzmatrix des Kleinste-Quadrate-Schätzers) im Sinne der Loewner-Halbordnung „verkleinert“ werden. Das ist eine Hauptaufgabe der optimalen Versuchsplanung.

Residuen und geschätzte Zielwerte Bearbeiten

Die Schätzwerte der berechnen sich mithilfe des KQ-Schätzers als

wobei man dies auch kürzer als

schreiben kann. Die Projektionsmatrix ist die Matrix der Orthogonalprojektion auf den Spaltenraum von und hat maximal den Rang . Sie wird auch Prädiktionsmatrix genannt, da sie die vorhergesagten Werte (-Werte) generiert wenn man die Matrix auf die -Werte anwendet. Die Prädiktionsmatrix beschreibt numerisch die Projektion von auf die durch definierte Ebene.

Der Residualvektor lässt sich mittels der Prädiktionsmatrix darstellen als: .

Die Matrix wird auch als Residualmatrix bezeichnet und mit abgekürzt. Ferner ist die Residuenquadratsumme als nichtlineare Transformation Chi-Quadrat-verteilt mit Freiheitsgraden. Dies zeigt folgende Beweisskizze:

Beweisskizze
Sei damit erhält man wobei und der Satz von Cochran verwendet wurden.

Außerdem gilt ebenso

Erwartungstreue Schätzung des unbekannten Varianzparameters Bearbeiten

Obwohl manchmal angenommen wird, dass die Störgrößenvarianz bekannt ist, muss man davon ausgehen, dass sie in den meisten Anwendungsfällen unbekannt ist (beispielsweise bei der Schätzung von Nachfrageparametern in ökonomischen Modellen, oder Produktionsfunktionen). Ein naheliegender Schätzer des Vektors der Störgrößen ist der Residualvektor , der aus der Regression gewonnen wird. Die in den Residuen steckende Information könnte also für einen Schätzer der Störgrößenvarianz genutzt werden. Aufgrund der Tatsache, dass gilt, ist aus frequentistischer Sicht der „Mittelwert“ von . Die Größe ist aber unbeobachtbar, da die Störgrößen unbeobachtbar sind. Wenn man statt nun das beobachtbare Pendant benutzt, führt dies zum Schätzer:

wobei die Residuenquadratsumme darstellt. Allerdings erfüllt der Schätzer nicht gängige Qualitätskriterien für Punktschätzer und wird daher nicht oft genutzt. Beispielsweise ist der Schätzer nicht erwartungstreu für . Dies liegt daran, dass der Erwartungswert der Residuenquadratsumme ergibt und daher für den Erwartungswert dieses Schätzers gilt. Eine erwartungstreue Schätzung für , d. h. eine Schätzung die erfüllt, ist in der multiplen linearen Regression gegeben ist durch das mittlere Residuenquadrat

Wenn nun bei der Kovarianzmatrix des KQ-Schätzvektors durch ersetzt wird ergibt sich für die geschätzte Kovarianzmatrix des KQ-Schätzers

Statistische Inferenz Bearbeiten

Für die statistische Inferenz (Schätzen und Testen) wird noch die Information über die Verteilung des Vektors der Störgrößen gefordert. Bedingt auf die Datenmatrix sind die unabhängig und identisch verteilt und folgen einer -Verteilung. Äquivalent ist (bedingt auf ) mehrdimensional normalverteilt mit dem Erwartungswert und der Kovarianzmatrix , d. h.

Hier sind stochastisch unabhängige Zufallsvariablen auch unkorreliert. Weil der Störgrößenvektor mehrdimensional normalverteilt ist folgt daraus, dass auch der Regressand mehrdimensional normalverteilt ist (). Aufgrund der Tatsache, dass beim KQ-Schätzer die einzige zufällige Komponente ist, folgt für den Parametervektor , dass er ebenfalls normalverteilt ist: .

Multiples Bestimmtheitsmaß Bearbeiten

Das Bestimmtheitsmaß ist eine Maßzahl für die Güte (Bestimmtheit) einer multiplen linearen Regression. In der multiplen linearen Regression, lässt sich das Bestimmtheitsmaß darstellen als

oder

Die Besonderheit beim multiplen Bestimmtheitsmaß ist, dass es nicht wie in der einfachen linearen Regression dem quadrierten Korrelationskoeffizienten zwischen und , sondern dem Quadrat des wikipedia, wiki, deutsches, deutschland, buch, bücher, bibliothek artikel lesen, herunterladen kostenlos kostenloser herunterladen, MP3, Video, MP4, 3GP, JPG, JPEG, GIF, PNG, Bild, Musik, Lied, Film, Buch, Spiel, Spiele