www.wikidata.de-de.nina.az
In der Statistik insbesondere in der Regressionsdiagnostik ist der Cook Abstand die Cook Masszahl oder auch Cook sche Distanz genannt die wichtigste Masszahl zur Bestimmung sogenannter einflussreicher Beobachtungen wenn eine Kleinste Quadrate Regression durchgefuhrt wurde Der Cook Abstand ist nach dem amerikanischen Statistiker R Dennis Cook benannt der das Konzept 1977 vorstellte Inhaltsverzeichnis 1 Definition 2 Erkennen von stark einflussreichen Beobachtungen 3 Siehe auch 4 Literatur 5 EinzelnachweiseDefinition BearbeitenDatenpunkte mit grossen Residuen Ausreissern und oder grossen Hebelwerten konnten das Ergebnis und die Prazision einer Regression beeinflussen Der Cook Abstand misst den Effekt der Auslassung einer gegebenen Beobachtung Datenpunkte mit einem grossen Cook Abstand sollte man bei der Datenanalyse naher betrachten Es sei das multiple lineare Regressionsmodell in Vektor Matrix Form y n 1 X n p b p 1 e n 1 displaystyle underset n times 1 mathbf y underset n times p mathbf X quad underset p times 1 boldsymbol beta quad quad underset n times 1 boldsymbol varepsilon nbsp wobei der Storgrossenvektor einer mehrdimensionalen Normalverteilung folgt e N 0 s 2 I displaystyle boldsymbol varepsilon sim mathcal N left mathbf 0 sigma 2 mathbf I right nbsp und b b 0 b 1 b k displaystyle boldsymbol beta left beta 0 beta 1 dots beta k right top nbsp der Vektor der Regressionskoeffizienten ist hierbei ist p k 1 displaystyle p k 1 nbsp die Anzahl der zu schatzenden unbekannten Parameter und k displaystyle k nbsp die Anzahl der erklarenden Variablen und X displaystyle mathbf X nbsp die Datenmatrix Der Kleinste Quadrate Schatzvektor lautet dann b X X 1 X y displaystyle hat boldsymbol beta left mathbf X top mathbf X right 1 mathbf X top mathbf y nbsp woraus folgt dass sich der Schatzvektor der abhangigen Variablen wie folgt ergibt y X b X X X 1 X P y P y displaystyle mathbf hat y mathbf X hat boldsymbol beta underbrace mathbf X left mathbf X top mathbf X right 1 mathbf X top mathbf P mathbf y mathbf P mathbf y nbsp wobei P X X X 1 X displaystyle mathbf P equiv mathbf X left mathbf X top mathbf X right 1 mathbf X top nbsp die Pradiktionsmatrix darstellt Das i displaystyle i nbsp te Diagonalelement von P displaystyle mathbf P nbsp ist gegeben durch p i i x i X X 1 x i displaystyle p ii equiv mathbf x i top left mathbf X top mathbf X right 1 mathbf x i nbsp wobei x i displaystyle mathbf x i top nbsp die i displaystyle i nbsp te Zeile der Datenmatrix X displaystyle mathbf X nbsp ist 1 Die Werte werden auch als Hebelwerte der i displaystyle i nbsp ten Beobachtung bezeichnet Um den Einfluss eines Punktes y i x i displaystyle y i mathbf x i top nbsp zu formalisieren betrachtet man den Effekt der Auslassung des Punktes auf b displaystyle boldsymbol beta nbsp und y X b displaystyle mathbf hat y mathbf X hat boldsymbol beta nbsp Der Schatzer von b displaystyle boldsymbol beta nbsp der dadurch gewonnen wird dass die i displaystyle i nbsp te Beobachtung y i x i displaystyle y i mathbf x i top nbsp ausgelassen wird ist gegeben durch b i X i X i 1 X i y i displaystyle hat boldsymbol beta i mathbf X i top mathbf X i 1 mathbf X i top mathbf y i nbsp 2 Man kann b i displaystyle hat boldsymbol beta i nbsp mit b displaystyle hat boldsymbol beta nbsp mittels dem Cook Abstand vergleichen der definiert ist durch 3 4 D i b i b X X b i b k 1 s 2 X b i X b X b i X b k 1 s 2 y i y y i y k 1 s 2 displaystyle D i frac hat boldsymbol beta i hat boldsymbol beta top mathbf X top mathbf X hat boldsymbol beta i hat boldsymbol beta k 1 s 2 frac mathbf X hat boldsymbol beta i mathbf X hat boldsymbol beta top mathbf X hat boldsymbol beta i mathbf X hat boldsymbol beta k 1 s 2 frac hat mathbf y i hat mathbf y top hat mathbf y i hat mathbf y k 1 s 2 nbsp wobei s 2 displaystyle s 2 nbsp die erwartungstreue Schatzung der Varianz der Storgrossen darstellt Das Mass D i displaystyle D i nbsp ist proportional zum gewohnlichen euklidischen Abstand zwischen y i displaystyle hat mathbf y i nbsp und y displaystyle hat mathbf y nbsp Daher ist D i displaystyle D i nbsp gross wenn die Beobachtung y i x i displaystyle y i mathbf x i top nbsp eine substantiellen Einfluss auf sowohl b displaystyle hat boldsymbol beta nbsp als auch y displaystyle hat mathbf y nbsp hat Eine numerisch einfachere Darstellung von D i displaystyle D i nbsp ist gegeben durch 5 D i t i 2 k 1 p i i 1 p i i 2 displaystyle D i frac t i 2 k 1 left frac p ii 1 p ii 2 right nbsp wobei t i displaystyle t i nbsp die studentisierten Residuen t i e i s i 2 1 p i i displaystyle t i widehat varepsilon i over s i 2 sqrt 1 p ii nbsp darstellen Erkennen von stark einflussreichen Beobachtungen BearbeitenEs gibt unterschiedliche Ansatze zur Bestimmung der Grenzen was stark einflussreiche Beobachtungen sein sollen Es wurde die einfache Daumenregel D i gt 1 displaystyle D i gt 1 nbsp vorgeschlagen 6 Andere Autoren haben D i gt 4 n displaystyle D i gt 4 n nbsp vorgeschlagen wobei n displaystyle n nbsp die Anzahl der Beobachtungen ist 7 Siehe auch BearbeitenMahalanobis AbstandLiteratur BearbeitenRencher Alvin C und G Bruce Schaalje Linear models in statistics John Wiley amp Sons 2008Einzelnachweise Bearbeiten Fumio Hayashi Econometrics Princeton University Press 2000 S 21 23 Rencher Alvin C und G Bruce Schaalje Linear models in statistics John Wiley amp Sons 2008 S 236 Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 165 Rencher Alvin C und G Bruce Schaalje Linear models in statistics John Wiley amp Sons 2008 S 237 Rencher Alvin C und G Bruce Schaalje Linear models in statistics John Wiley amp Sons 2008 S 237 R Dennis Cook und Sanford Weisberg Residuals and Influence in Regression 1982 New York Chapman amp Hall ISBN 0 412 24280 X Kenneth A Bollen und Robert W Jackman Regression Diagnostics An Expository Treatment of Outliers and Influential Cases in Modern Methods of Data Analysis 1990 Newbury Park CA ISBN 0 8039 3366 5 S 257 9 Abgerufen von https de wikipedia org w index php title Cook Abstand amp oldid 238412108