www.wikidata.de-de.nina.az
Dieser Artikel behandelt die Kovarianz einer Datenreihe oder Stichprobe zur Kovarianz von zwei Zufallsvariablen siehe Kovarianz Stochastik Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Die Stichprobenkovarianz oder empirische Kovarianz oft auch einfach Kovarianz von lateinisch con mit und Varianz von variare ver andern verschieden sein ist in der Statistik eine nichtstandardisierte Masszahl fur den linearen Zusammenhang zweier statistischer Variablen Die korrigierte Stichprobenkovarianz ist eine erwartungstreue Schatzung der Kovarianz einer Grundgesamtheit mittels einer Stichprobe Ist die Kovarianz positiv dann gehen kleine Werte der einen Variable uberwiegend einher mit kleinen Werten der anderen Variable und gleichfalls fur grosse Werte Fur eine negative Kovarianz ist das genau umgekehrt Inhaltsverzeichnis 1 Definition 2 Korrigierte Stichprobenkovarianz 3 Auswahl der Berechnungsformel 4 Eigenschaften 4 1 Beziehung zur Varianz 4 2 Verschiebungssatz 4 3 Symmetrie und Linearitat 5 Beispiele 5 1 Beispiel 1 5 2 Beispiel 2 6 Stichproben Kovarianzmatrix 6 1 Beispiel 7 Siehe auch 8 EinzelnachweiseDefinition BearbeitenIst x 1 y 1 x n y n displaystyle x 1 y 1 x n y n nbsp eine Datenreihe Stichprobe zweier statistischer Variablen X displaystyle X nbsp und Y displaystyle Y nbsp dann ist die Stichprobenkovarianz definiert als durchschnittliches Abweichungsprodukt s x y 1 n S P x y 1 n i 1 n x i x y i y displaystyle s xy tfrac 1 n SP xy frac 1 n sum i 1 n x i bar x y i bar y nbsp mit den arithmetischen Mitteln x 1 n i 1 n x i displaystyle textstyle bar x frac 1 n sum i 1 n x i nbsp und y 1 n i 1 n y i displaystyle textstyle bar y frac 1 n sum i 1 n y i nbsp der Datenreihen x 1 x n displaystyle x 1 x n nbsp und y 1 y n displaystyle y 1 y n nbsp Die Stichprobenkovarianz misst die gemeinsame Streuung Mitstreuung der Beobachtungsdaten einer Stichprobe Dabei wird die mittlere Abweichung der Beobachtungsdaten von den Mittelwerten x y displaystyle bar x bar y nbsp berechnet Korrigierte Stichprobenkovarianz BearbeitenUm aus einer Stichprobe eine Schatzung der unbekannten Kovarianz s x y displaystyle sigma xy nbsp der Grundgesamtheit zu erhalten wird die korrigierte Stichprobenkovarianz genutzt s x y 1 n 1 i 1 n x i x y i y displaystyle hat sigma xy frac 1 n 1 sum i 1 n x i bar x y i bar y nbsp Bei einer einfachen Zufallsstichprobe haben die Stichprobenvariablen X i displaystyle X i nbsp und Y i displaystyle Y i nbsp die Kovarianz Cov X i Y i s x y displaystyle operatorname Cov X i Y i sigma xy nbsp Unter Annahme einer zweidimensionalen Normalverteilung der Stichprobenvariablen X i Y i displaystyle X i Y i nbsp und mit Hilfe der Maximum Likelihood Methode ergibt sich die Schatzfunktion S X Y 1 n i 1 n X i X Y i Y displaystyle S XY frac 1 n sum i 1 n X i bar X Y i bar Y nbsp Es stellt sich jedoch heraus dass der Erwartungswert E S X Y n 1 n s x y displaystyle operatorname E S XY tfrac n 1 n sigma xy nbsp ist d h die Schatzfunktion S X Y displaystyle S XY nbsp ist nicht erwartungstreu also verzerrt fur s x y displaystyle sigma xy nbsp Die korrigierte Stichprobenkovarianz ist jedoch unverzerrt Im Rahmen der induktiven Statistik wird daher immer die korrigierte Stichprobenkovarianz verwendet Auswahl der Berechnungsformel BearbeitenDer Kovarianz s x y displaystyle sigma xy nbsp kann gemass ihrer Definition mit der Gleichung s x y 1 n i 1 n x i x y i y displaystyle sigma xy tfrac 1 n sum i 1 n left x i bar x right left y i bar y right nbsp aus einer Datenreihe berechnet werden Diese Formel wird verwendet wenn die Werte x i displaystyle x i nbsp und y i displaystyle y i nbsp einen vollstandigen Datensatz beschreiben und die wahren Mittelwerte x displaystyle bar x nbsp und y displaystyle bar y nbsp der beiden Zufallsvariablen bekannt oder ausreichend bekannt sind Oft liegt jedoch nur eine Stichprobe mit einer reduzierten Anzahl von Messwerten vor mit denen die Kovarianz nur geschatzt werden kann Wenn dabei die Mittelwerte aus dem arithmetischen Mittel gebildet werden liefert die obige Formel systematisch zu kleine Werte Daher verwendet man insbesondere bei sehr wenigen Messwerten die Formel der korrigierten Stichprobenkovarianz s x y 1 n 1 i 1 n x i x y i y displaystyle sigma xy approx tfrac 1 n 1 sum i 1 n left x i bar x right left y i bar y right nbsp welche die Kovarianz zumindest erwartungstreu schatzt In manchen Fallen sind einzelne Messwerte der Stichprobe unterschiedlich uber oder unterreprasentiert oder die Messwerte haben unterschiedliche Auftrittswahrscheinlichkeiten In einem solchen Fall kann mit der erweiterten Formel s x y 1 W i w i x i x y i y displaystyle sigma xy approx tfrac 1 W sum i w i left x i bar x right left y i bar y right nbsp jedem Messwert zum Ausgleich ein individuelles Gewicht w i displaystyle w i nbsp zugeordnet werden Wenn die Gewichte zur Korrektur von relativen Haufigkeiten verwendet werden dann ist die erwartungstreue Normierung 1 W 1 1 i w i displaystyle tfrac 1 W frac 1 1 sum i w i nbsp zu verwenden Bei Gewichten die eine Wahrscheinlichkeit angeben mit der das Wertepaar in einer Stichprobe zu finden ist muss dagegen mit 1 W i w i i w i 2 i w i 2 displaystyle tfrac 1 W frac sum i w i left sum i w i right 2 sum i w i 2 nbsp normiert werden Die Mittelwerte x displaystyle bar x nbsp und y displaystyle bar y nbsp werden dabei mit den jeweiligen Gewichten gebildet x i w i x i i w i displaystyle bar x frac sum i w i x i sum i w i nbsp y i w i y i i w i displaystyle bar y frac sum i w i y i sum i w i nbsp Eigenschaften Bearbeiten Siehe auch Kovarianz Stochastik Eigenschaften und Rechenregeln Beziehung zur Varianz Bearbeiten Die Kovarianz ist eine Erweiterung der Varianz denn es gilt s 2 s x x displaystyle s 2 s xx nbsp bzw s 2 s x x displaystyle s 2 hat sigma xx nbsp Dabei ist s 2 displaystyle s 2 nbsp und s 2 displaystyle s 2 nbsp die empirischen Varianzen mit passendem Vorfaktor Das heisst die Varianz ist die Kovarianz einer Variable mit sich selbst Verschiebungssatz Bearbeiten Der Verschiebungssatz liefert eine alternative Darstellung der Kovarianz s x y 1 n i 1 n x i y i n x y 1 n i 1 n x i y i x y displaystyle s xy frac 1 n left sum i 1 n x i y i n bar x bar y right left frac 1 n sum i 1 n x i y i right bar x bar y nbsp s x y 1 n 1 i 1 n x i y i n x y displaystyle hat sigma xy frac 1 n 1 left sum i 1 n x i y i n bar x bar y right nbsp Diese Formeln ermoglichen in vielen Fallen eine einfachere Berechnung der Kovarianz Bei numerischer Rechnung muss dabei allerdings auf unerwunschte Stellenausloschung bei der Subtraktion grosser Zahlen geachtet werden Symmetrie und Linearitat Bearbeiten Die Kovarianz ist linear und symmetrisch d h es gilt Symmetrie Beim Vertauschen der Rollen von x i displaystyle x i nbsp und y i displaystyle y i nbsp ergibt sich der gleiche Wert fur die Kovarianz s x y s y x displaystyle s xy s yx nbsp bzw s x y s y x displaystyle hat sigma xy hat sigma yx nbsp Linearitat Wird eine der Variablen einer linearen Transformation unterzogen z B u i a b x i displaystyle u i a b cdot x i nbsp so gilt s u y b s x y displaystyle s uy bs xy nbsp bzw s u y b s y x displaystyle hat sigma uy b hat sigma yx nbsp Wegen der Symmetrie ist die Kovarianz auch im zweiten Argument linear Die Linearitat der Kovarianz hat zur Folge dass die Kovarianz von der Masseinheit der Variablen abhangt So erhalt man beispielsweise die zehnfache Kovarianz wenn man anstatt X displaystyle X nbsp die Variable 10 X displaystyle 10X nbsp betrachtet Da diese Eigenschaft die absoluten Werte der Kovarianz schwer interpretierbar macht betrachtet man haufig stattdessen den massstabsunabhangigen Korrelationskoeffizienten Beispiele BearbeitenBeispiel 1 Bearbeiten Die folgende Grafik zeigt fur 21 verschiedene Datensatze jeweils das Streudiagramm zusammen mit der Kovarianz s x y displaystyle s xy nbsp und der Korrelation r x y displaystyle r xy nbsp des Datensatzes Die erste Reihe zeigt sieben Datensatze mit unterschiedlich starkem linearen Zusammenhang wobei die Korrelation r x y displaystyle r xy nbsp von 1 uber 0 nach 1 geht Da die Kovarianz ein nicht standardisiertes Mass ist geht sie von 2 auf Null bis auf 2 D h wenn es keinen linearen Zusammenhang gibt dann ist die Kovarianz genauso Null wie die Korrelation Das Vorzeichen der Kovarianz zeigt die Richtung des Zusammenhangs an jedoch zeigt sie nicht die Starke des Zusammenhangs Noch deutlicher wird es in der zweiten Zeile wo alle sieben Datensatze einen perfekten linearen Zusammenhang haben Doch die Kovarianz s x y displaystyle s xy nbsp nimmt ab auf Null und wird dann negativ Die Korrelation r x y displaystyle r xy nbsp ist fur diese Datensatze entweder 1 oder 1 bzw undefiniert Die dritte Zeile zeigt schliesslich dass sowohl die Kovarianz als auch die Korrelation Null ist obwohl ein deutlicher Zusammenhang zwischen beiden Variablen sichtbar ist D h die Kovarianz misst nur den linearen Zusammenhang und nicht lineare Zusammenhange werden nicht erkannt nbsp Kovarianz s x y displaystyle s xy nbsp und Korrelation r x y displaystyle r xy nbsp fur unterschiedliche Datensatze Beispiel 2 Bearbeiten In einer Schule soll uberpruft werden ob es einen Zusammenhang gibt zwischen der Anzahl der unterrichteten Stunden der Lehrer am Tag und der Anzahl der getrunkenen Tassen Kaffee Es wurden zehn Datenpaare erhoben und ausgewertet so nicht durchgefuhrt nur der Anschauung halber Nummer 1 2 3 4 5 6 7 8 9 10Anzahl Stunden x i displaystyle x i nbsp 5 6 8 4 6 6 5 7 5 4Anzahl Tassen y i displaystyle y i nbsp 2 1 4 1 2 0 2 3 3 1Die Kovarianz wird nun folgendermassen berechnet a Zunachst wird das arithmetische Mittel beider Variablen ermittelt x 1 n i 1 n x i 5 6 8 4 6 6 5 7 5 4 10 5 6 displaystyle textstyle bar x frac 1 n sum i 1 n x i frac 5 6 8 4 6 6 5 7 5 4 10 5 6 nbsp und y 1 n i 1 n y i 2 1 4 1 2 0 2 3 3 1 10 1 9 displaystyle textstyle bar y frac 1 n sum i 1 n y i frac 2 1 4 1 2 0 2 3 3 1 10 1 9 nbsp b Die Kovarianz wird nun berechnet uber s x y 1 n i 1 n x i x y i y displaystyle s xy frac 1 n sum i 1 n x i bar x y i bar y nbsp 5 5 6 2 1 9 6 5 6 1 1 9 8 5 6 4 1 9 4 5 6 1 1 9 6 5 6 2 1 9 6 5 6 0 1 9 5 5 6 2 1 9 7 5 6 3 1 9 5 5 6 3 1 9 4 5 6 1 1 9 10 displaystyle tfrac 5 5 6 2 1 9 6 5 6 1 1 9 8 5 6 4 1 9 4 5 6 1 1 9 6 5 6 2 1 9 6 5 6 0 1 9 5 5 6 2 1 9 7 5 6 3 1 9 5 5 6 3 1 9 4 5 6 1 1 9 10 nbsp 0 76 displaystyle 0 76 nbsp Da die Kovarianz grosser als null ist ist fur diese Stichprobe ein positiver Zusammenhang zwischen der Anzahl der Unterrichtsstunden und der Anzahl der Tassen Kaffee ersichtlich Ob dies auf die Grundgesamtheit hier das Lehrerkollegium generalisierbar ist hangt von der Qualitat der Stichprobe ab Stichproben Kovarianzmatrix BearbeitenEine Schatzung der Kovarianzmatrix in der Grundgesamtheit S displaystyle widehat mathbf Sigma nbsp erhalt man indem man die Varianzen und Kovarianzen in der Grundgesamtheit Var X i s i 2 displaystyle operatorname Var X i sigma i 2 nbsp und Cov X i X j s i j i j displaystyle operatorname Cov X i X j sigma ij i neq j nbsp durch die empirischen Varianzen und empirischen Kovarianzen ihre empirischen Gegenstucke s j 2 s j 2 displaystyle hat sigma j 2 s j 2 nbsp und s j k s j k displaystyle hat sigma jk s jk nbsp ersetzt sofern die x displaystyle x nbsp Variablen Zufallsvariablen darstellen schatzen die die Parameter in der Grundgesamtheit Diese sind gegeben durch 1 2 s j 2 s j 2 1 n 1 i 1 n x i j x j 2 displaystyle hat sigma j 2 s j 2 frac 1 n 1 sum limits i 1 n left x ij overline x j right 2 nbsp und s j k s j k 1 n 1 i 1 n x i j x j x i k x k displaystyle hat sigma jk s jk frac 1 n 1 sum i 1 n x ij overline x j x ik overline x k nbsp Dies fuhrt zur Stichproben Kovarianzmatrix S displaystyle mathbf S nbsp S S Cov X s 1 2 s 12 s 1 k s 21 s 2 2 s 2 k s k 1 s k 2 s k 2 displaystyle begin aligned mathbf S widehat mathbf Sigma widehat operatorname Cov mathbf X amp begin pmatrix s 1 2 amp s 12 amp cdots amp s 1k s 21 amp s 2 2 amp cdots amp s 2k vdots amp vdots amp ddots amp vdots s k1 amp s k2 amp cdots amp s k 2 end pmatrix end aligned nbsp Zum Beispiel sind s 2 2 displaystyle s 2 2 nbsp und s 12 displaystyle s 12 nbsp gegeben durch s 2 2 s 2 2 1 n 1 i 1 n x i 2 x 2 2 displaystyle hat sigma 2 2 s 2 2 frac 1 n 1 sum limits i 1 n left x i2 overline x 2 right 2 nbsp und s 12 s 12 1 n 1 i 1 n x i 1 x 1 x i 2 x 2 displaystyle hat sigma 12 s 12 frac 1 n 1 sum i 1 n x i1 overline x 1 x i2 overline x 2 nbsp mit dem arithmetischen Mittel x 2 1 n i 1 n x i 2 displaystyle overline x 2 frac 1 n sum i 1 n x i2 nbsp Beispiel Bearbeiten Bei 10 Datenpunkten seien jeweils die Werte x 1 displaystyle x 1 nbsp und x 2 displaystyle x 2 nbsp gemessen worden nbsp Messwerte x 1 displaystyle x 1 nbsp x 2 displaystyle x 2 nbsp 1 0 1 412 0 1 562 0 2 194 0 2 795 0 3 046 0 2 239 0 3 749 0 3 849 0 2 8013 0 4 18Die Berechnung des geschatzten Mittelwertes ergibt m 1 6 displaystyle hat mu 1 6 nbsp m 2 2 78 displaystyle hat mu 2 2 78 nbsp s 1 13 8 displaystyle hat sigma 1 13 8 nbsp s 2 0 81 displaystyle hat sigma 2 0 81 nbsp cov 1 2 2 972 displaystyle hat text cov 1 2 2 972 nbsp Daher ist die Stichprobenkovarianzmatrix C 13 8 2 972 2 972 0 81 displaystyle C begin pmatrix 13 8 amp 2 972 2 972 amp 0 81 end pmatrix nbsp In Bezug auf den Mittelpunkt m 1 m 2 displaystyle hat mu 1 hat mu 2 nbsp der Punktwolke kann im Diagramm eine Konzentrationsellipse eingezeichnet werden Die Punkte auf dem Rand der Ellipse sind also durch folgende Menge gegeben x 1 x 2 C 1 x 1 x 2 k 2 displaystyle lbrace x 1 x 2 C 1 begin pmatrix x 1 x 2 end pmatrix k 2 rbrace nbsp Siehe auch BearbeitenKovarianzmatrixEinzelnachweise Bearbeiten Ludwig Fahrmeir Thomas Kneib Stefan Lang Brian Marx Regression models methods and applications Springer Science amp Business Media 2013 ISBN 978 3 642 34332 2 S 648 Rencher Alvin C und G Bruce Schaalje Linear models in statistics John Wiley amp Sons 2008 S 156 Abgerufen von https de wikipedia org w index php title Stichprobenkovarianz amp oldid 232571831