www.wikidata.de-de.nina.az
Der Korrelationskoeffizient auch Produkt Moment Korrelation 1 ist ein Mass fur den Grad des linearen Zusammenhangs zwischen zwei mindestens intervallskalierten Merkmalen das nicht von den Masseinheiten der Messung abhangt und somit dimensionslos ist Er kann Werte zwischen 1 displaystyle 1 und 1 displaystyle 1 annehmen Bei einem Wert von 1 displaystyle 1 bzw 1 displaystyle 1 besteht ein vollstandig positiver bzw negativer linearer Zusammenhang zwischen den betrachteten Merkmalen Wenn der Korrelationskoeffizient den Wert 0 aufweist hangen die beiden Merkmale uberhaupt nicht linear voneinander ab Allerdings konnen diese ungeachtet dessen in nichtlinearer Weise voneinander abhangen Damit ist der Korrelationskoeffizient kein geeignetes Mass fur die reine stochastische Abhangigkeit von Merkmalen Das Quadrat des Korrelationskoeffizienten stellt das Bestimmtheitsmass dar Der Korrelationskoeffizient wurde erstmals vom britischen Naturforscher Sir Francis Galton 1822 1911 in den 1870er Jahren verwendet Karl Pearson lieferte schliesslich eine formal mathematische Begrundung fur den Korrelationskoeffizienten 2 Da er von Auguste Bravais und Pearson popular gemacht wurde wird der Korrelationskoeffizient auch Pearson Korrelation oder Bravais Pearson Korrelation genannt Je nachdem ob der lineare Zusammenhang zwischen zeitgleichen Messwerten zweier verschiedener Merkmale oder derjenige zwischen zeitlich verschiedenen Messwerten eines einzigen Merkmals betrachtet wird spricht man entweder von der Kreuzkorrelation oder von der Kreuzautokorrelation siehe auch Zeitreihenanalyse Korrelationskoeffizienten wurden mehrfach so schon von Ferdinand Tonnies entwickelt heute wird allgemein jener von Pearson verwendet Inhaltsverzeichnis 1 Definitionen 1 1 Korrelationskoeffizient fur Zufallsvariablen 1 1 1 Konstruktion 1 1 2 Definition 1 1 3 Schatzung 1 2 Empirischer Korrelationskoeffizient 1 3 Beispiel 2 Eigenschaften 3 Voraussetzungen fur die Pearson Korrelation 3 1 Skalierung 3 2 Normalverteilung 3 3 Linearitatsbedingung 3 4 Signifikanzbedingung 4 Bildliche Darstellung und Interpretation 5 Allgemeiner empirischer Korrelationskoeffizient 6 Fisher Transformation 7 Test des Korrelationskoeffizienten Steigers Z Test 8 Matthews Korrelationskoeffizient 9 Partieller Korrelationskoeffizient 10 Robuste Korrelationskoeffizienten 10 1 Quadrantenkorrelation 11 Schatzung der Korrelation zwischen nicht metrischen Variablen 12 Probleme 13 Siehe auch 14 Literatur 15 Weblinks 16 EinzelnachweiseDefinitionen BearbeitenKorrelationskoeffizient fur Zufallsvariablen Bearbeiten Konstruktion Bearbeiten Als Ausgangspunkt fur die Konstruktion des Korrelationskoeffizienten fur zwei Zufallsvariablen X displaystyle X nbsp und Y displaystyle Y nbsp betrachtet man die beiden standardisierten auf die Standardabweichung bezogenen Zufallsvariablen X X m X s X displaystyle tilde X X mu X sigma X nbsp und Y Y m Y s Y displaystyle tilde Y Y mu Y sigma Y nbsp Die Kovarianz dieser standardisierten Zufallsvariablen ergibt sich aus dem Satz fur lineare Transformationen von Kovarianzen zu Cov X Y 1 s X s Y Cov X Y r X Y displaystyle operatorname Cov tilde X tilde Y frac 1 sigma X sigma Y operatorname Cov X Y rho X Y nbsp Der Korrelationskoeffizient lasst sich als die Kovarianz der standardisierten Zufallsvariablen X displaystyle tilde X nbsp und Y displaystyle tilde Y nbsp auffassen 3 Definition Bearbeiten Fur zwei quadratisch integrierbare Zufallsvariablen X displaystyle X nbsp und Y displaystyle Y nbsp mit jeweils positiver Standardabweichung s X displaystyle sigma X nbsp bzw s Y displaystyle sigma Y nbsp und Kovarianz Cov X Y displaystyle operatorname Cov X Y nbsp ist der Korrelationskoeffizient Pearsonscher Masskorrelationskoeffizient definiert durch Korr X Y Cov X Y Var X Var Y s X Y s X s Y r X Y displaystyle operatorname Korr X Y frac operatorname Cov X Y sqrt operatorname Var X sqrt operatorname Var Y frac sigma X Y sigma X sigma Y rho X Y nbsp Dieser Korrelationskoeffizient wird auch Korrelationskoeffizient der Grundgesamtheit genannt Durch die Definitionen der stochastischen Varianz und Kovarianz lasst sich der Korrelationskoeffizient fur Zufallsvariablen auch wie folgt darstellen 4 Korr X Y E X E X Y E Y E X E X 2 E Y E Y 2 displaystyle operatorname Korr X Y frac operatorname E left X operatorname E X Y operatorname E Y right sqrt operatorname E left X operatorname E X 2 right operatorname E left Y operatorname E Y 2 right nbsp wobei E displaystyle operatorname E cdot nbsp den Erwartungswert darstellt Ferner heissen X Y displaystyle X Y nbsp unkorreliert falls Cov X Y 0 displaystyle operatorname Cov X Y 0 nbsp gilt Fur positive s X displaystyle sigma X nbsp und s Y displaystyle sigma Y nbsp ist das genau dann der Fall wenn r X Y 0 displaystyle rho X Y 0 nbsp ist Sind X Y displaystyle X Y nbsp unabhangig so sind sie auch unkorreliert die Umkehrung gilt im Allgemeinen nicht Schatzung Bearbeiten Im Rahmen der induktiven Statistik ist man an einer erwartungstreuen Schatzung r X Y displaystyle hat rho X Y nbsp des Korrelationskoeffizienten der Grundgesamtheit r X Y displaystyle rho X Y nbsp interessiert Daher werden in die Formel des Korrelationskoeffizienten der Grundgesamtheit erwartungstreue Schatzer der Varianzen und der Kovarianz eingesetzt Dies fuhrt zum Stichprobenkorrelationskoeffizienten R X Y S X Y S X S Y i 1 n X i X Y i Y i 1 n X i X 2 i 1 n Y i Y 2 displaystyle R X Y frac S X Y S X S Y frac sum i 1 n X i overline X Y i overline Y sqrt sum i 1 n X i overline X 2 sum i 1 n Y i overline Y 2 nbsp Empirischer Korrelationskoeffizient Bearbeiten Sei x i y i i 1 n displaystyle x i y i top i 1 ldots n nbsp eine zweidimensionale Stichprobe zweier kardinalskalierter Merkmale mit den empirischen Mitteln x 1 n i 1 n x i displaystyle textstyle overline x frac 1 n sum i 1 n x i nbsp und y 1 n i 1 n y i displaystyle textstyle overline y frac 1 n sum i 1 n y i nbsp der Teilstichproben x x 1 x n displaystyle x x 1 ldots x n top nbsp und y y 1 y n displaystyle y y 1 ldots y n top nbsp Weiterhin gelte fur die empirischen Varianzen s x 2 1 n 1 i 1 n x i x 2 displaystyle s x 2 textstyle tfrac 1 n 1 sum nolimits i 1 n x i overline x 2 nbsp und s y 2 1 n 1 i 1 n y i y 2 displaystyle s y 2 textstyle tfrac 1 n 1 sum nolimits i 1 n y i overline y 2 nbsp der Teilstichproben s x 2 s y 2 0 displaystyle s x 2 s y 2 neq 0 nbsp Dann ist der empirische Korrelationskoeffizient analog zum Korrelationskoeffizienten fur Zufallsvariablen nur dass man statt der theoretischen Momente nun die empirische Kovarianz und die empirischen Varianzen verwendet definiert durch 5 r x y i 1 n x i x y i y i 1 n x i x 2 i 1 n y i y 2 S P x y S Q x S Q y displaystyle r x y frac sum i 1 n x i overline x y i overline y sqrt sum i 1 n x i overline x 2 sum i 1 n y i overline y 2 frac SP x y sqrt SQ x SQ y nbsp nbsp Verschiedene Werte des KorrelationskoeffizientenHierbei ist S Q x displaystyle SQ x nbsp die Summe der Abweichungsquadrate und S P x y displaystyle SP x y nbsp die Summe der Abweichungsprodukte Mithilfe der empirischen Kovarianz s x y 1 n 1 i 1 n x i x y i y displaystyle s x y tfrac 1 n 1 sum nolimits i 1 n x i overline x y i overline y nbsp und den empirischen Standardabweichungen s x 1 n 1 i 1 n x i x 2 displaystyle s x sqrt tfrac 1 n 1 sum nolimits i 1 n left x i overline x right 2 quad nbsp und s y 1 n 1 i 1 n y i y 2 displaystyle quad s y sqrt tfrac 1 n 1 sum nolimits i 1 n left y i overline y right 2 nbsp der Teilstichproben x displaystyle x nbsp und y displaystyle y nbsp ergibt sich die folgende Darstellung r x y s x y s x s y displaystyle r x y frac s x y s x s y nbsp Sind diese Messreihenwerte z transformiert das heisst z i x i x s x displaystyle z i tfrac x i overline x s x nbsp wobei s x displaystyle s x nbsp die erwartungstreue Schatzung der Varianz bezeichnet gilt auch r 1 n 1 z x z y displaystyle hat rho frac 1 n 1 sum z x z y nbsp Da man in der deskriptiven Statistik nur den Zusammenhang zwischen zwei Variablen als normierte mittlere gemeinsame Streuung in der Stichprobe beschreiben will wird die Korrelation auch berechnet als r x y 1 n i 1 n x i x y i y 1 n i 1 n x i x 2 1 n i 1 n y i y 2 displaystyle r x y frac frac 1 n sum i 1 n x i overline x y i overline y sqrt frac 1 n sum i 1 n x i overline x 2 cdot sqrt frac 1 n sum i 1 n y i overline y 2 nbsp Da sich die Faktoren 1 n displaystyle tfrac 1 n nbsp bzw 1 n 1 displaystyle tfrac 1 n 1 nbsp aus den Formeln herauskurzen ergibt sich in beiden Fallen der gleiche Wert des Koeffizienten Eine Vereinfachung der obigen Formel zur leichteren Berechnung einer Korrelation lautet wie folgt 6 r x y n i 1 n x i y i i 1 n x i i 1 n y i n i 1 n x i 2 i 1 n x i 2 n i 1 n y i 2 i 1 n y i 2 displaystyle r x y frac n sum i 1 n x i cdot y i sum i 1 n x i cdot sum i 1 n y i sqrt left n sum i 1 n x i 2 sum i 1 n x i 2 right cdot left n sum i 1 n y i 2 sum i 1 n y i 2 right nbsp Diese Transformation der Formel ist aber numerisch instabil und sollte daher nicht mit Gleitkommazahlen verwendet werden wenn die Mittelwerte nicht nahe null sind 7 Beispiel Bearbeiten nbsp Streudiagramm mit Mittelwerten und dem Wert des KorrelationskoeffizientenFur die elf Beobachtungspaare x i y i displaystyle x i y i nbsp sind die Werte in der unten stehenden Tabelle in der zweiten und dritten Spalte gegeben Die Mittelwerte ergeben sich zu x 99 11 9 0 displaystyle overline x 99 11 9 0 nbsp und y 82 51 11 7 5 displaystyle overline y 82 51 11 7 5 nbsp und damit konnen die vierte und funfte Spalte der Tabelle berechnet werden Die sechste Spalte enthalt das Produkt der vierten mit der funften Spalte und damit ergibt sich i 1 11 x i x y i y 55 01 displaystyle sum i 1 11 x i overline x y i overline y 55 01 nbsp Die beiden letzten Spalten enthalten jeweils die Quadrate der vierten und funften Spalte und es ergibt sich i 1 11 x i x 2 110 00 displaystyle sum i 1 11 x i overline x 2 110 00 nbsp und i 1 11 y i y 2 41 27 displaystyle sum i 1 11 y i overline y 2 41 27 nbsp Damit ergibt sich fur die Korrelation r x y 55 01 110 00 41 27 0 816 displaystyle r x y frac 55 01 sqrt 110 00 sqrt 41 27 0 816 nbsp i displaystyle i nbsp x i displaystyle x i nbsp y i displaystyle y i nbsp x i x displaystyle x i overline x nbsp y i y displaystyle y i overline y nbsp x i x y i y displaystyle x i overline x y i overline y nbsp x i x 2 displaystyle x i overline x 2 nbsp y i y 2 displaystyle y i overline y 2 nbsp 1 10 00 8 04 1 00 0 54 0 54 1 00 0 292 8 00 6 95 1 00 0 55 0 55 1 00 0 303 13 00 7 58 4 00 0 08 0 32 16 00 0 014 9 00 8 81 0 00 1 31 0 00 0 00 1 715 11 00 8 33 2 00 0 83 1 66 4 00 0 696 14 00 9 96 5 00 2 46 12 30 25 00 6 057 6 00 7 24 3 00 0 26 0 78 9 00 0 078 4 00 4 26 5 00 3 24 16 20 25 00 10 509 12 00 10 84 3 00 3 34 10 02 9 00 11 1510 7 00 4 82 2 00 2 68 5 36 4 00 7 1911 5 00 5 68 4 00 1 82 7 28 16 00 3 32S displaystyle Sigma nbsp 99 00 82 51 55 01 110 00 41 27Alle Werte in der Tabelle sind auf zwei Stellen nach dem Komma gerundet Eigenschaften BearbeitenMit der Definition des Korrelationskoeffizienten gilt unmittelbar Korr X Y Korr Y X displaystyle operatorname Korr X Y operatorname Korr Y X nbsp bzw r x y r y x displaystyle r x y r y x nbsp Korr X X 1 displaystyle operatorname Korr X X 1 nbsp Korr a X b Y sgn a Korr X Y displaystyle operatorname Korr aX b Y operatorname sgn a cdot operatorname Korr X Y nbsp Dabei sind a displaystyle a nbsp und b displaystyle b nbsp reelle Zahlen mit a 0 displaystyle a neq 0 nbsp wegen der definitorisch vorausgesetzten Positivitat der Varianz von a X b displaystyle aX b nbsp und sgn displaystyle operatorname sgn nbsp ist die Signumfunktion 8 Aus der Cauchy Schwarzschen Ungleichung folgt Korr X Y 1 1 displaystyle operatorname Korr X Y in 1 1 nbsp Man erkennt Y a X b displaystyle Y aX b nbsp fast sicher genau dann wenn Korr X Y 1 displaystyle operatorname Korr X Y 1 nbsp Das lasst sich zum Beispiel durch Losen der Gleichung E X a Y b 2 0 displaystyle operatorname E X aY b 2 0 nbsp einsehen In dem Fall ist a Korr X Y s Y s X displaystyle a operatorname Korr X Y cdot frac sigma Y sigma X nbsp und b E Y a E X displaystyle b operatorname E Y a cdot operatorname E X nbsp Sind die Zufallsgrossen X displaystyle X nbsp und Y displaystyle Y nbsp stochastisch voneinander unabhangig dann gilt Korr X Y 0 displaystyle operatorname Korr X Y 0 nbsp Der Umkehrschluss ist allerdings nicht zulassig denn es konnen Abhangigkeitsstrukturen vorliegen die der Korrelationskoeffizient nicht erfasst Fur die multivariate Normalverteilung gilt jedoch Die Zufallsvariablen X displaystyle X nbsp und Y displaystyle Y nbsp sind genau dann stochastisch unabhangig wenn sie unkorreliert sind Wichtig ist hierbei die Voraussetzung dass X displaystyle X nbsp und Y displaystyle Y nbsp gemeinsam normalverteilt sind Es reicht nicht aus dass sowohl X displaystyle X nbsp als auch Y displaystyle Y nbsp normalverteilt sind Voraussetzungen fur die Pearson Korrelation BearbeitenDer Korrelationskoeffizient nach Pearson erlaubt Aussagen uber statistische Zusammenhange unter folgenden Bedingungen Skalierung Bearbeiten Der Pearsonsche Korrelationskoeffizient liefert korrekte Ergebnisse bei intervallskalierten und bei dichotomen Daten Fur niedrigere Skalierungen existieren andere Korrelationskonzepte z B Rangkorrelationskoeffizienten Normalverteilung Bearbeiten Fur die Durchfuhrung von standardisierten Signifikanztests uber den Korrelationskoeffizienten in der Grundgesamtheit mussen beide Variablen annahernd normalverteilt sein Bei zu starken Abweichungen von der Normalverteilung muss auf den Rangkorrelationskoeffizienten zuruckgegriffen werden Alternativ kann man auch falls die Verteilung bekannt ist angepasste nichtstandardisierte Signifikanztests verwenden Linearitatsbedingung Bearbeiten Zwischen den Variablen x displaystyle x nbsp und y displaystyle y nbsp wird ein linearer Zusammenhang vorausgesetzt Diese Bedingung wird in der Praxis haufig ignoriert daraus erklaren sich mitunter enttauschend niedrige Korrelationen obwohl der Zusammenhang zwischen x displaystyle x nbsp und y displaystyle y nbsp bisweilen trotzdem hoch ist Ein einfaches Beispiel fur einen hohen Zusammenhang trotz eines niedrigen Korrelationskoeffizienten ist die Fibonacci Folge Alle Zahlen der Fibonacci Folge sind durch ihre Position in der Reihe durch eine mathematische Formel exakt determiniert siehe die Formel von Binet Der Zusammenhang zwischen der Positionsnummer einer Fibonacci Zahl und der Grosse der Zahl ist vollkommen determiniert Dennoch betragt der Korrelationskoeffizient zwischen den Ordnungsnummern der ersten 360 Fibonacci Zahlen und den betreffenden Zahlen nur 0 20 das bedeutet dass in erster Naherung nicht viel mehr als 0 2 2 4 displaystyle 0 2 2 4 nbsp der Varianz durch den Korrelationskoeffizienten erklart werden und 96 der Varianz unerklart bleiben Der Grund ist die Vernachlassigung der Linearitatsbedingung denn die Fibonacci Zahlen wachsen progressiv an In solchen Fallen ist der Korrelationskoeffizient nicht korrekt interpretierbar Eine mogliche Alternative die ohne die Voraussetzung der Linearitat des Zusammenhangs auskommt ist die Transinformation Signifikanzbedingung Bearbeiten Ein Korrelationskoeffizient gt 0 bei positiver Korrelation bzw lt 0 bei negativer Korrelation zwischen x displaystyle x nbsp und y displaystyle y nbsp berechtigt nicht a priori zur Aussage es bestehe ein statistischer Zusammenhang zwischen x displaystyle x nbsp und y displaystyle y nbsp Eine solche Aussage ist nur gultig wenn der ermittelte Korrelationskoeffizient signifikant ist Der Begriff signifikant bedeutet hier signifikant von Null verschieden Je hoher die Anzahl der Wertepaare x y displaystyle x y nbsp und das Signifikanzniveau sind desto niedriger darf der Absolutbetrag eines Korrelationskoeffizienten sein um zur Aussage zu berechtigen zwischen x displaystyle x nbsp und y displaystyle y nbsp gebe es einen linearen Zusammenhang Ein t Test zeigt ob die Abweichung des ermittelten Korrelationskoeffizienten von Null auch signifikant ist Bildliche Darstellung und Interpretation Bearbeiten nbsp Verschiedene Punktwolken zusammen mit dem fur sie jeweils berechenbaren Pearson schen Korrelationskoeffizienten Man beachte dass Letzterer zwar die Streuung der Punktwolke sowie die generelle Richtung der linearen Abhangigkeit von x displaystyle x nbsp und y displaystyle y nbsp widerspiegelt obere Zeile nicht aber deren Steilheit mittlere Zeile Verlauft die Punktwolke beispielsweise exakt waagerecht mittleres Bild kann aufgrund von Var Y 0 displaystyle operatorname Var Y 0 nbsp gar kein Korrelationskoeffizient berechnet werden Ein weiterer Schwachpunkt des Pearson schen Korrelationskoeffizienten sind nichtlineare Abhangigkeiten untere Zeile die mit Hilfe dieses Koeffizienten meist gar nicht oder nur unzureichend erfasst werden konnen Sind zwei Merkmale vollstandig miteinander korreliert d h r 1 displaystyle r 1 nbsp so liegen alle Messwerte in einem 2 dimensionalen Koordinatensystem auf einer Geraden Bei einer perfekten positiven Korrelation r 1 displaystyle r 1 nbsp steigt die Gerade Wenn die Merkmale perfekt negativ miteinander korreliert sind r 1 displaystyle r 1 nbsp sinkt die Gerade Besteht zwischen zwei Merkmalen eine sehr hohe Korrelation sagt man oft auch sie erklaren dasselbe Je naher der Betrag von r displaystyle r nbsp bei 0 liegt desto kleiner der lineare Zusammenhang Fur r 0 displaystyle r 0 nbsp kann der statistische Zusammenhang zwischen den Messwerten nicht mehr durch eine eindeutig steigende oder sinkende Gerade dargestellt werden Dies ist z B der Fall wenn die Messwerte rotationssymmetrisch um den Mittelpunkt verteilt sind Dennoch kann dann ein nichtlinearer statistischer Zusammenhang zwischen den Merkmalen gegeben sein Umgekehrt gilt jedoch Wenn die Merkmale statistisch unabhangig sind nimmt der Korrelationskoeffizient stets den Wert 0 an Korrelation Koinzidenz oder KausalzusammenhangIn der Monographie Kontrazeption mit Hormonen von Hans Dieter Taubert und Herbert Kuhl Abteilung fur gynakologische Endokrinologie Zentrum der Frauenheilkunde und Geburtshilfe der J W Goethe Universitat die 1981 im Georg Thieme Verlag Stuttgart erschien wurde das Problem der Bedeutung von Korrelationen bei medizinischen Studien angesprochen Es ist bekannt dass Korrelationen z B zwischen Hormondosierungen oder serumkonzentrationen und dem Auftreten bestimmter Erkrankungen die bei solchen Untersuchungen ermittelt werden haufig als Beleg fur einen Kausalzusammenhang interpretiert werden Unabhangig von den zahlreichen methodischen Problemen solcher Studien werden selbst offensichtlich fragwurdige Ergebnisse gerne von den Medien kolportiert In dem Abschnitt Aussagekraft verschiedener Untersuchungskonzepte wurde auf den Seiten 207 208 in der 2 Auflage von 1995 auf den Seiten 239 240 als Beispiel die Bedeutung einer extrem engen Korrelation zwischen der Zahl der Storchenpaare und der Geburtenzahl in der Bevolkerung in Baden Wurttemberg in dem Zeitraum zwischen 1966 und 1975 diskutiert Aus den Daten uber die kontinuierliche Abnahme der Storchenpopulation die dem Journal fur Ornithologie von 1979 entnommen wurden und dem Ruckgang der Geburtenrate der sich aus den Zahlen des Statistischen Jahrbuchs der Bundesrepublik Deutschland ergab wurden die Regressionsgerade mit y 0 719 x 55 205 displaystyle y 0 719x 55 205 nbsp und der Korrelationskoeffizient mit r 0 965 5 displaystyle r 0 9655 nbsp berechnet p lt 0 001 displaystyle p lt 0 001 nbsp Das Ergebnis ist in Abb 46 auf S 208 bzw in Abb 60 auf S 240 der 2 Auflage 1995 dargestellt In dem begleitenden Text ist u a zu lesen Grundsatzlich sollten alle Aussagen uber vermutete Zusammenhange zwischen der Anwendung hormonaler Kontrazeptiva und dem Auftreten bestimmter Erkrankungen aus dem Blickwinkel erfolgen dass die Wahrscheinlichkeit einer zufalligen Koinzidenz mit der Haufigkeit der Vergleiche steigt So konnte mit Hilfe kontrollierter prospektiver Untersuchungen in vielen Fallen nachgewiesen werden dass sich die Haufigkeit bestimmter Erkrankungen bei Einnahme von Ovulationshemmern nicht von der in der Gesamtbevolkerung unterscheidet Andererseits bedeutet selbst eine hoch signifikante Korrelation zwischen zwei Parametern noch keinen Kausalzusammenhang auch wenn dieser plausibel erscheint Dies sei anhand der Beobachtung demonstriert dass die Zahl der Storchenpaare in Baden Wurttemberg von 67 im Jahre 1965 auf 15 im Jahre 1975 abnahm und gleichzeitig die Geburtenzahl in diesem Bundesland von 159 000 auf 97 000 zuruck ging s Abb Zwischen beiden Parametern wurde eine Korrelation ermittelt die hoch signifikant p lt 0 001 displaystyle p lt 0 001 nbsp ist Trotzdem ware es voreilig daraus zu schliessen dass fur den Geburtenruckgang die Abnahme der Storchenpopulation kausal verantwortlich ist Ubrigens ist zur Frage der Plausibilitat anzumerken dass diese grundsatzlich vom aktuellen Kenntnisstand abhangig ist nbsp Der Korrelationskoeffizient ist kein Indiz eines ursachlichen d h kausalen Zusammenhangs zwischen den beiden Merkmalen Die Besiedlung durch Storche im Sudburgenland korreliert zwar positiv mit der Geburtenzahl der dortigen Einwohner doch das bedeutet noch keinen kausalen Zusammenhang trotzdem ist ein statistischer Zusammenhang gegeben Dieser leitet sich aber aus einem anderen weiteren Faktor ab wie dies im Beispiel durch Industrialisierung oder der Wohlstandssteigerung begrundet sein kann die einerseits den Lebensraum der Storche einschrankten und andererseits zu einer Verringerung der Geburtenzahlen fuhrten Korrelationen dieser Art werden Scheinkorrelationen genannt Der Korrelationskoeffizient kann kein Indiz uber die Richtung eines Zusammenhanges sein Steigen die Niederschlage durch die hohere Verdunstung oder steigt die Verdunstung an weil die Niederschlage mehr Wasser liefern Oder bedingen sich beide gegenseitig also moglicherweise in beiderlei Richtung Ob ein gemessener Korrelationskoeffizient als gross oder klein interpretiert wird hangt stark von der Art der untersuchten Daten ab Bei psychologischen Untersuchungen gelten Werte ab r 0 1 displaystyle r 0 1 nbsp als kleine r 0 3 displaystyle r 0 3 nbsp als mittlere und r 0 5 displaystyle r 0 5 nbsp als grosse Effekte 9 10 Das Quadrat des Korrelationskoeffizienten r 2 displaystyle r 2 nbsp nennt man Bestimmtheitsmass Es gibt in erster Naherung an wie viel Prozent der Varianz d h des Streuungsquadrats der einen Variable durch die Varianz der anderen Variable erklart werden konnen Beispiel Bei r 0 3 displaystyle r 0 3 nbsp werden 9 0 3 2 0 09 displaystyle 0 3 2 0 09 nbsp der gesamten auftretenden Varianz im Hinblick auf einen statistischen Zusammenhang erklart Allgemeiner empirischer Korrelationskoeffizient BearbeitenDer empirische Pearson Korrelationskoeffizient bedingt wie oben erwahnt einen linearen Zusammenhang um brauchbare Werte zu liefern Es existiert jedoch auch ein allgemeiner empirischer Korrelationskoeffizient der fur jede beliebige Funktion y i f x i textstyle hat y i f x i nbsp brauchbare Werte liefert R i 1 N y i y 2 i 1 N y i y i 2 i 1 n y i y 2 displaystyle R sqrt frac sum i 1 N y i overline y 2 sum i 1 N y i hat y i 2 sum i 1 n y i overline y 2 nbsp Der Bruch unter der Wurzel entspricht dem empirischen Bestimmtheitsmass R 2 displaystyle R 2 nbsp Fur den Spezialfall einer linearen Funktion y i a x i b textstyle hat y i a cdot x i b nbsp geht der allgemeine empirische Korrelationskoeffizient R displaystyle R nbsp wieder in den empirischen Pearson Korrelationskoeffizienten r x y textstyle r x y nbsp uber Fisher Transformation BearbeitenEmpirische Korrelationskoeffizienten sind nicht normalverteilt Vor der Berechnung von Konfidenzintervallen muss daher erst eine Korrektur der Verteilung mit Hilfe der Fisher Transformation vorgenommen werden Wenn die Daten x displaystyle x nbsp und y displaystyle y nbsp aus einer zumindest annahernd bivariat normalverteilten Grundgesamtheit stammen dann ist der empirische Korrelationskoeffizient r displaystyle hat rho nbsp rechtssteil unimodal verteilt Die Fisher Transformation des Korrelationskoeffizienten r displaystyle hat rho nbsp lautet dann z f r 0 5 ln 1 r 1 r artanh r displaystyle z f hat rho 0 5 cdot ln left frac 1 hat rho 1 hat rho right operatorname artanh hat rho nbsp z displaystyle z nbsp ist annahernd normalverteilt mit der Standardabweichung 1 n 3 displaystyle 1 sqrt n 3 nbsp und Mittelwert 1 2 ln 1 r 1 r displaystyle 1 over 2 ln left 1 rho over 1 rho right nbsp wobei r displaystyle rho nbsp hier fur den Korrelationskoeffizienten der Grundgesamtheit steht Die auf Basis dieser Normalverteilung errechnete Wahrscheinlichkeit dass der Mittelwert von den beiden Grenzen z 1 displaystyle z 1 nbsp und z 2 displaystyle z 2 nbsp umschlossen wird betragt P f r z 1 a 2 n 3 z 1 m f r z 1 a 2 n 3 z 2 1 a displaystyle P left underbrace f r frac z 1 alpha 2 sqrt n 3 z 1 leq mu leq underbrace f r frac z 1 alpha 2 sqrt n 3 z 2 right 1 alpha nbsp und wird sodann retransformiert zu r 1 e 2 z 1 1 e 2 z 1 1 r 2 e 2 z 2 1 e 2 z 2 1 displaystyle begin aligned r 1 amp e 2z 1 1 e 2z 1 1 r 2 amp e 2z 2 1 e 2z 2 1 end aligned nbsp Das 1 a displaystyle 1 alpha nbsp Konfidenzintervall fur die Korrelation lautet sodann r 1 r r 2 displaystyle r 1 leq hat rho leq r 2 nbsp Konfidenzintervalle von Korrelationen liegen in aller Regel unsymmetrisch bezuglich ihres Mittelwerts Test des Korrelationskoeffizienten Steigers Z Test BearbeitenFolgende Tests Steigers Z Test 11 konnen durchgefuhrt werden wenn die Variablen X displaystyle X nbsp und Y displaystyle Y nbsp annahernd bivariat normalverteilt sind H 0 r r 0 displaystyle H 0 colon rho rho 0 nbsp vs H 1 r r 0 displaystyle H 1 colon rho neq rho 0 nbsp zweiseitige Hypothese H 0 r r 0 displaystyle H 0 colon rho leq rho 0 nbsp vs H 1 r gt r 0 displaystyle H 1 colon rho gt rho 0 nbsp rechtsseitige Hypothese H 0 r r 0 displaystyle H 0 colon rho geq rho 0 nbsp vs H 1 r lt r 0 displaystyle H 1 colon rho lt rho 0 nbsp linksseitige Hypothese Die Teststatistik T r f r f r 0 r 0 n 2 1 n 3 N 0 1 displaystyle T r frac f r f rho 0 rho 0 n 2 1 sqrt n 3 sim mathcal N 0 1 nbsp ist standardnormalverteilt f displaystyle f cdot nbsp ist die Fisher Transformation siehe vorherigen Abschnitt Im Spezialfall der Hypothese H 0 r 0 displaystyle H 0 colon rho 0 nbsp vs H 1 r 0 displaystyle H 1 colon rho neq 0 nbsp ergibt sich die Teststatistik als t verteilt mit n 2 displaystyle n 2 nbsp Freiheitsgraden T 0 r r n 2 1 r 2 t n 2 displaystyle T 0 r frac r sqrt n 2 sqrt 1 r 2 sim t n 2 nbsp Matthews Korrelationskoeffizient BearbeitenBetrachtet man zwei binare Variablen X und Y so ist der Pearson Korrelationskoeffizient dieser Variablen r X Y ϕ n 11 n 00 n 10 n 01 n 1 n 0 n 0 n 1 displaystyle r X Y phi frac n 11 n 00 n 10 n 01 sqrt n 1 bullet n 0 bullet n bullet 0 n bullet 1 nbsp und kann direkt aus der Konfusionsmatrix berechnet werden wobei in der 2 2 Konfusionsmatrix y 1 y 0 totalx 1 n 11 displaystyle n 11 nbsp n 10 displaystyle n 10 nbsp n 1 displaystyle n 1 bullet nbsp x 0 n 01 displaystyle n 01 nbsp n 00 displaystyle n 00 nbsp n 0 displaystyle n 0 bullet nbsp total n 1 displaystyle n bullet 1 nbsp n 0 displaystyle n bullet 0 nbsp n displaystyle n nbsp n11 n10 n01 n00 die nicht negativen absoluten Haufigkeiten der Beobachtungen sind deren Summe die Zahl der Beobachtungen n ist Dieser Wert ist auch als Mathews Korrelationskoeffizient MCC bekannt und kann unter Umstanden numerisch schneller berechenbar sein Partieller Korrelationskoeffizient Bearbeiten Hauptartikel partieller Korrelationskoeffizient Die partielle Korrelation kontrolliert den Einfluss von Storvariablen Robuste Korrelationskoeffizienten BearbeitenDer Korrelationskoeffizient nach Pearson ist empfindlich gegenuber Ausreissern Deswegen wurden verschiedene robuste Korrelationskoeffizienten entwickelt z B Rangkorrelationskoeffizienten die Range statt der Beobachtungswerte nutzen wie der Spearman sche Rangkorrelationskoeffizient Spearman sches Rho und der Kendall sche Rangkorrelationskoeffizient Kendall sches Tau oder die Quadrantenkorrelation Quadrantenkorrelation Bearbeiten Die Quadrantenkorrelation ergibt sich aus der Anzahl der Beobachtungen in den vier vom Medianenpaar bestimmten Quadranten Dazu zahlt man wie viele der Beobachtungen in den Quadranten I und III liegen N displaystyle N nbsp bzw wie viele sich in den Quadranten II und IV befinden N displaystyle N nbsp Die Beobachtungen in den Quadranten I und III liefern jeweils einen Beitrag von 1 n displaystyle 1 n nbsp und die Beobachtungen in den Quadranten II und IV von 1 n displaystyle 1 n nbsp r quad N N N N 1 n i 1 n sgn x i x sgn y i y displaystyle r text quad frac N N N N frac 1 n sum i 1 n operatorname sgn x i tilde x operatorname sgn y i tilde y nbsp mit der Signumfunktion sgn displaystyle operatorname sgn cdot nbsp der Zahl n displaystyle n nbsp der Beobachtungen sowie den Medianen x displaystyle tilde x nbsp und y displaystyle tilde y nbsp der Beobachtungen Da jeder Wert von sgn x i x sgn y i y displaystyle operatorname sgn x i tilde x operatorname sgn y i tilde y nbsp entweder 1 displaystyle 1 nbsp 0 displaystyle 0 nbsp oder 1 displaystyle 1 nbsp ist spielt es keine Rolle wie weit eine Beobachtung von den Medianen entfernt ist Uber die Quadrantenkorrelation kann mit Hilfe des Median Tests die Hypothesen H 0 r quad 0 displaystyle H 0 colon r text quad 0 nbsp vs H 1 r quad 0 displaystyle H 1 colon r text quad neq 0 nbsp uberpruft werden Ist n displaystyle n nbsp die Zahl der Beobachtungen mit sgn x i x sgn y i y 1 displaystyle operatorname sgn x i tilde x operatorname sgn y i tilde y 1 nbsp n displaystyle n nbsp die Zahl der Beobachtungen mit sgn x i x sgn y i y 1 displaystyle operatorname sgn x i tilde x operatorname sgn y i tilde y 1 nbsp und n e n n 2 gt 5 displaystyle n e n n 2 gt 5 nbsp dann ist folgende Teststatistik Chi Quadrat verteilt mit einem Freiheitsgrad von n n e 2 n n e 2 n e x 2 1 displaystyle frac n n e 2 n n e 2 n e sim chi 2 1 nbsp Schatzung der Korrelation zwischen nicht metrischen Variablen BearbeitenDie Schatzung der Korrelation mit dem Korrelationskoeffizienten nach Pearson setzt voraus dass beide Variablen intervallskaliert und normalverteilt sind Dagegen konnen die Rangkorrelationskoeffizienten immer dann zur Schatzung der Korrelation verwendet werden wenn beide Variablen mindestens ordinalskaliert sind Die Korrelation zwischen einer dichotomen und einer intervallskalierten und normalverteilten Variablen kann mit der punktbiserialen Korrelation geschatzt werden Die Korrelation zwischen zwei dichotomen Variablen kann mit dem Vierfelderkorrelationskoeffizienten geschatzt werden Hier kann man die Unterscheidung treffen dass bei zwei naturlich dichotomen Variablen die Korrelation sowohl durch das Chancenverhaltnis als auch durch den Phi Koeffizient berechnet werden kann Eine Korrelation aus zwei ordinal oder einer intervall und einer ordinal gemessenen Variablen ist mit dem Spearman schen Rho oder dem Kendall schen Tau berechenbar Probleme BearbeitenDas Anscombe Quartett zeigt Datensatze mit exakt gleichem Korrelationskoeffizient aber sehr unterschiedlichem Verhalten Auch andere Probleme sind in der Literatur bekannt 12 Siehe auch BearbeitenZusammenhangsmass Korrelationsmatrix Korrelation KontingenzkoeffizientLiteratur BearbeitenFrancis Galton Co relations and their measurement chiefly from anthropometric data In Proceedings of the Royal Society Band 45 Nr 13 5 Dezember 1888 S 135 145 galton org PDF 468 kB abgerufen am 26 November 2021 Birk Diedenhofen Jochen Musch cocor A Comprehensive Solution for the Statistical Comparison of Correlations 2015 PLoS ONE 10 4 e0121945 Joachim Hartung Statistik 12 Auflage Oldenbourg Verlag 1999 S 561 f ISBN 3 486 24984 3 Peter Zofel Statistik fur Psychologen Pearson Studium 2003 Munchen S 154 Weblinks Bearbeiten nbsp Wiktionary Korrelationskoeffizient Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen nbsp Wikibooks Einfache Erlauterung des Korrelationskoeffizienten Lern und Lehrmaterialien nbsp Wikibooks M A T H E m a T R i x displaystyle begin smallmatrix mathbf MATHE mu alpha T mathbb R ix end smallmatrix nbsp Mathematik fur die Schule Umfassende Erlauterung verschiedener Korrelationskoeffizienten und ihrer Voraussetzungen sowie haufige Anwendungsfehler Eric W Weisstein Correlation Coefficient In MathWorld englisch Darstellung des Korrelationskoeffizienten als Kleinste Quadrate Schatzer cocor Ein freies Web Interface und R Paket zum statistischen Vergleich von zwei abhangigen oder unabhangigen Korrelationen mit uberlappenden oder nicht uberlappenden VariablenEinzelnachweise Bearbeiten Der Name Produkt Moment Korrelation fur den Korrelationskoeffizienten fur Zufallsvariablen ruhrt daher dass r X Y displaystyle rho X Y nbsp die auf das Produkt der Varianzen die im Sinne der Stochastik Momente darstellen von X displaystyle X nbsp und Y displaystyle Y nbsp bezogene Kovarianz ist Franka Miriam Bruckler Geschichte der Mathematik kompakt Das Wichtigste aus Analysis Wahrscheinlichkeitstheorie angewandter Mathematik Topologie und Mengenlehre Springer Verlag 2017 ISBN 978 3 662 55573 6 S 116 L Fahrmeir R Kunstler u a Statistik Der Weg zur Datenanalyse 8 Auflage Springer 2016 S 326 Bayer Hackel Wahrscheinlichkeitsrechnung und mathematische Statistik S 86 Torsten Becker u a Stochastische Risikomodellierung und statistische Methoden Springer Spektrum 2016 S 79 Jurgen Bortz Christof Schuster Statistik fur Human und Sozialwissenschaftler 7 Auflage Springer Verlag GmbH Berlin Heidelberg New York 2010 ISBN 978 3 642 12769 4 S 157 Erich Schubert Michael Gertz Numerically stable parallel computation of co variance ACM 2018 ISBN 978 1 4503 6505 5 S 10 doi 10 1145 3221269 3223036 acm org abgerufen am 26 November 2021 Fur alle a R 0 displaystyle a in mathbb R setminus 0 nbsp und b R displaystyle b in mathbb R nbsp gilt Korr a X b Y Cov a X b Y Var a X b Var Y a Cov X Y a 2 Var X Var Y a a Cov X Y Var X Var Y sgn a Korr X Y displaystyle operatorname Korr aX b Y frac operatorname Cov aX b Y sqrt operatorname Var aX b sqrt operatorname Var Y frac a cdot operatorname Cov X Y sqrt a 2 cdot operatorname Var X sqrt operatorname Var Y frac a a cdot frac operatorname Cov X Y sqrt operatorname Var X sqrt operatorname Var Y operatorname sgn a cdot operatorname Korr X Y nbsp Jacob Cohen A power primer In Psychological Bulletin Band 112 Nr 1 1992 ISSN 1939 1455 S 155 159 doi 10 1037 0033 2909 112 1 155 apa org abgerufen am 26 November 2021 Jacob Cohen A power primer PDF 800 kB In personal kent edu 1991 abgerufen am 26 November 2021 englisch J H Steiger Tests for comparing elements of a correlation matrix 1980 Psychological Bulletin 87 245 251 doi 10 1037 0033 2909 87 2 245 Aggarwal Rakesh and Priya Ranganathan Common pitfalls in statistical analysis The use of correlation techniques Perspectives in clinical research 7 4 2016 187 https www ncbi nlm nih gov pmc articles PMC5079093 Normdaten Sachbegriff GND 4165345 2 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Korrelationskoeffizient amp oldid 238483279