www.wikidata.de-de.nina.az
Dieser Artikel behandelt die Varianz und Standardabweichung von konkreten numerischen Werten basierend auf einer Stichprobe Weitere Bedeutungen finden sich unter Varianz Die empirische Varianz 1 2 auch Stichprobenvarianz 2 3 veraltet empirisches Streuungsquadrat oder einfach nur kurz Varianz genannt ist ein Mass fur die Streuung von konkreten empirisch erhobenen Werten einer Stichprobe Formelzeichenm displaystyle mu Mittelwert der Grundgesamtheits 2 displaystyle sigma 2 Varianz der Grundgesamtheitn displaystyle n Anzahl der gegebenen WerteX 1 X n displaystyle X 1 ldots X n Zufallsvariablen Zufallsgrossen x 1 x n displaystyle x 1 ldots x n Stichprobe beobachtete Werte der n displaystyle n Zufallsvariablenx displaystyle overline x Stichprobenmittel empirischer Mittelwert von x 1 x n displaystyle x 1 ldots x n s 2 displaystyle s 2 Stichprobenvarianz empirische Varianz von x 1 x n displaystyle x 1 ldots x n X displaystyle overline X Stichprobenmittel als Funktion der Zufallsvariablen S 2 displaystyle S 2 Stichprobenvarianz als Funktion der Zufallsvariablen Bei der empirischen Varianz handelt sich um einen Begriff aus der beschreibenden deskriptiven Statistik fur die Varianz Sie gehort zu den Streuungsmassen und beschreibt die mittlere quadratische Abweichung der einzelnen Werte vom empirischen Mittelwert Sie entspricht damit dem durchschnittlichen Abweichungsquadrat Die Wurzel der empirischen Varianz ist die empirische Standardabweichung 2 Die empirische Standardabweichung stellt das gebrauchlichste Streuungsmass dar Sie ist anschaulicher als die Varianz da sie dieselbe Grossenordnung hat wie die beobachteten Werte Die empirische Varianz ist jedoch in weitergehenden Berechnungen oft praktischer als die Standardabweichung So konnen beispielsweise Varianzbeitrage von mehreren unabhangigen Zufallseinflussen einfach addiert werden Umgekehrt lasst sich durch eine Varianzanalyse eine Gesamtvarianz oft auch in ihre Beitrage Ursachen zerlegen Inhaltsverzeichnis 1 Voraussetzungen 1 1 Varianz der Grundgesamtheit 1 2 Empirischer Mittelwert 2 Berechnung der empirischen Varianz 2 1 Empirische Varianz fur Haufigkeitsdaten 2 2 Empirische Varianz fur Daten aus einer Zeitreihe 3 Eigenschaften der empirischen Varianz 3 1 Verteilung der empirischen Varianz 3 2 Verhalten bei Transformationen 3 3 Genauigkeit der berechneten empirischen Varianz 4 Alternative Darstellungen 4 1 Darstellung als durchschnittliches Abweichungsquadrat 4 2 Darstellung mittels Verschiebungssatz 4 3 Darstellung als Doppelsumme ohne vorausgehende Berechnung des empirischen Mittels 5 Abgeleitete Begriffe 5 1 Empirische Standardabweichung 5 2 Empirischer Variationskoeffizient 5 3 Annualisierte Varianz 6 Beispiel 7 Herkunft der verschiedenen Definitionen 8 Literatur 9 EinzelnachweiseVoraussetzungen BearbeitenVarianz der Grundgesamtheit Bearbeiten Die Varianz einer endlichen Grundgesamtheit Population mit N displaystyle N nbsp reellen Datenwerten ist ein Mass fur die Streuung der einzelnen x i displaystyle x i nbsp Werte i 1 2 N displaystyle i in 1 2 ldots N nbsp um den Populationsmittelwert m displaystyle mu nbsp und ist definiert als s 2 1 N i 1 N x i m 2 displaystyle sigma 2 frac 1 N sum limits i 1 N x i mu 2 nbsp Der Populationsmittelwert ist das arithmetische Mittel der Datenwerte m 1 N i 1 N x i displaystyle mu frac 1 N sum i 1 N x i nbsp Die Varianz der Grundgesamtheit ist in praktischen Situationen haufig unbekannt beispielsweise weil es nicht moglich ist jedes einzelne Subjekt in der Population zu erfassen Vollerhebung Um die Varianz zu ermitteln werden daher empirisch Stichproben erhoben Das fuhrt zu den Begriffen empirische Varianz oder auch Stichprobenvarianz Empirischer Mittelwert Bearbeiten Gegeben sei eine Stichprobe mit n lt N displaystyle n lt N nbsp reellen numerischen Werten x 1 x 2 x n displaystyle x 1 x 2 dots x n nbsp Es bezeichne x 1 n x 1 x 2 x n 1 n i 1 n x i displaystyle overline x frac 1 n x 1 x 2 ldots x n frac 1 n sum i 1 n x i nbsp den empirischen Mittelwert der Stichprobe Dieser empirische Mittelwert x displaystyle overline x nbsp ist ein Schatzer fur den Populationsmittelwert m displaystyle mu nbsp Berechnung der empirischen Varianz BearbeitenZunachst werden die Abweichungen der beobachteten reellen Werte x 1 x n displaystyle x 1 ldots x n nbsp der Stichprobe von ihrem arithmetischen Mittel x 1 x x n x displaystyle x 1 overline x ldots x n overline x nbsp gebildet Summierung und Quadrierung ergibt die sogenannte Abweichungsquadratsumme i 1 n x i x 2 displaystyle sum nolimits i 1 n x i overline x 2 nbsp Die Verwendung der Abweichungsquadratsumme fuhrt zu folgenden Eigenschaften der empirischen Varianz Positive und negative Abweichungen vom Mittelwert heben sich bei der Summierung nicht gegenseitig auf Die Varianz einer Stichprobe ist daher immer positiv oder Null Eine grossere Varianz entspricht einer grosseren Unterschiedlichkeit der Werte Wenige aber starke Ausreisser haben einen grossen Einfluss auf das Ergebnis Die empirische Varianz kann damit auf folgende Arten berechnet werden Am gebrauchlichsten ist die Berechnung der empirischen Varianz der Stichprobenwerte als Summe der Abweichungsquadrate geteilt durch die Anzahl der Freiheitsgrade n 1 displaystyle n 1 nbsp 3 s 2 1 n 1 i 1 n x i x 2 displaystyle s 2 frac 1 n 1 sum limits i 1 n left x i overline x right 2 quad nbsp 1 Formel 1 wird auch korrigierte empirische Varianz oder korrigierte Stichprobenvarianz genannt 4 2 Der Vorsatz korrigierte bezieht sich auf den Faktor 1 n 1 displaystyle 1 n 1 nbsp der auch als Bessel Korrektur bezeichnet wird 5 Die Korrektur fuhrt dazu dass s 2 displaystyle s 2 nbsp ein erwartungstreuer Schatzer fur die Populationsvarianz s 2 displaystyle sigma 2 nbsp ist Das bedeutet dass der Schatzfehler s 2 s 2 displaystyle s 2 sigma 2 nbsp immer kleiner wird und gegen Null strebt wenn das Ergebnis der Varianzberechnung uber eine steigende Anzahl verschiedener Stichproben gemittelt wird Alternativ wird die empirische Varianz nicht erwartungstreu berechnet als Summe der Abweichungsquadrate geteilt durch die Anzahl der Werte n displaystyle n nbsp 6 s 2 1 n i 1 n x i x 2 displaystyle tilde s 2 frac 1 n sum limits i 1 n left x i overline x right 2 nbsp 2 Fur den Sonderfall dass der Mittelwert der Grundgesamtheit m displaystyle mu nbsp bekannt ist wird die Varianz mit folgender Formel berechnet die ebenfalls einen erwartungstreuen Schatzer darstellt 7 s 2 1 n i 1 n x i m 2 displaystyle s 2 frac 1 n sum i 1 n x i mu 2 nbsp 3 Weitere Erlauterung zu den BerechnungsartenIntuitiv lasst sich die Mittelung durch n 1 displaystyle n 1 nbsp in Formel 1 statt durch n displaystyle n nbsp wie folgt erklaren Bei Formel 1 geht es um die Schatzung der Varianz der Grundgesamtheit aus der die Stichprobe entnommen wurde Aufgrund der Schwerpunkteigenschaft des empirischen Mittels i 1 n x i x 0 displaystyle sum nolimits i 1 n left x i bar x right 0 nbsp ist die letzte Abweichung x n x displaystyle left x n overline x right nbsp bereits durch die ersten n 1 displaystyle n 1 nbsp bestimmt Folglich variieren nur n 1 displaystyle n 1 nbsp Abweichungen frei D h man mittelt deshalb indem man durch die Anzahl der Freiheitsgrade n 1 displaystyle n 1 nbsp dividiert Besonders augenscheinlich wird das wenn man den Fall n 2 displaystyle n 2 nbsp betrachtet Bei 2 Datenwerten gibt es nur 1 Unterschied zwischen den Daten Und mit einer Stichprobe mit n 1 displaystyle n 1 nbsp kann man gar keine Aussage uber die Varianz einer Grundgesamtheit machen Diese Plausibilisierung wird im Rahmen der induktiven Statistik formalisiert 8 Stichprobenvarianz Schatzfunktion Die Idee von Formel 2 ist eine andere Hier geht es nicht um eine Aussage uber eine Grundgesamtheit mit Hilfe einer Stichprobe sondern darum den Datensatz moglichst genau durch eine Normalverteilung zu beschreiben D h die Parameter der Normalverteilung m displaystyle mu nbsp und s displaystyle sigma nbsp werden so bestimmt dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist 9 Das ist der Fall fur m x displaystyle mu overline x nbsp und s s displaystyle sigma tilde s nbsp Formel 2 liefert in diesem Sinne bessere Ergebnisse als Formel 1 und sie sollte angewendet werden wenn diese Eigenschaft erforderlich ist 10 Formel 2 ist aber kein erwartungstreuer Schatzer D h wenn das Ergebnis uber viele Stichproben gemittelt wird dann strebt das Ergebnis nicht gegen den wahren Wert fur die Varianz der Grundgesamtheit Formel 2 liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet Es ist bemerkenswert dass es umfangreiche mathematische und statistische Handbucher 11 12 13 gibt die die Formel 2 nicht erwahnen Formel 2 wird in der mathematischen Statistik begrundet z B durch Anwendung der Maximum Likelihood Methode oder der Momentenmethode Formel 3 und 1 unterscheiden sich darin dass bei Formel 3 die Berechnung des arithmetischen Mittels entfallt weil der Mittelwert der Grundgesamtheit bekannt ist Auch diese Formel ist erwartungstreu im Sinne der schliessenden Statistik Da fur Formel 3 kein arithmetisches Mittel berechnet wird geht kein Freiheitsgrad bei der Berechnung verloren und es wird nur durch n geteilt Formel 3 kann man ebenfalls plausibilisieren wenn man den Fall n 2 displaystyle n 2 nbsp betrachtet Bei 2 Datenwerten gibt es 2 Unterschiede im Vergleich zum vorbekannten Mittelwert m displaystyle mu nbsp Daher wird in diesem Fall durch 2 geteilt Im Falle einer Vollerhebung aller Daten der Population sind die Formeln 2 und 3 gleichwertig da in diesem Fall der Populationsmittelwert bereits aus den vorliegenden Daten bekannt ist m x displaystyle mu overline x nbsp Wird nur von der empirischen Varianz gesprochen so muss daher darauf geachtet werden welche Konvention beziehungsweise Definition im entsprechenden Kontext gilt Weder die Benennungen noch die entsprechende Notation ist in der Literatur einheitlich Die Bezeichnung empirische Varianz wird von einigen Autoren nur fur die unkorrigierte Varianz s 2 displaystyle tilde s 2 nbsp verwendet Der Ausdruck Stichprobenvarianz wird in diesem Fall nur fur die korrigierte Varianz s 2 displaystyle s 2 nbsp verwendet 8 s 2 displaystyle s 2 nbsp wird auch als erwartungstreue Stichprobenvarianz und s 2 displaystyle tilde s 2 nbsp als verzerrte Stichprobenvarianz bezeichnet weil s 2 displaystyle s 2 nbsp ein erwartungstreuer Schatzer fur die Varianz s 2 displaystyle sigma 2 nbsp ist 14 s 2 displaystyle s 2 nbsp wird manchmal auch als theoretische Varianz oder induktive Varianz bezeichnet 15 Statt s 2 displaystyle s 2 nbsp wird manchmal auch Var x s n 1 2 displaystyle widehat operatorname Var x s n 1 2 nbsp oder s 2 displaystyle s 2 nbsp verwendet s 2 displaystyle tilde s 2 nbsp wird manchmal als mittlere quadratische Abweichung vom empirischen Mittelwert bezeichnet 16 Statt s 2 displaystyle tilde s 2 nbsp wird manchmal auch s emp 2 displaystyle s text emp 2 nbsp verwendetEmpirische Varianz fur Haufigkeitsdaten Bearbeiten In diesem Fall wird davon ausgegangen dass die n displaystyle n nbsp Stichprobenwerte x i displaystyle x i nbsp nur k displaystyle k nbsp konkrete Auspragungen a j displaystyle a j nbsp annehmen konnen Das bedeutet es bietet sich folgendes Vorgehen an Zuerst wird mit Hilfe einer grosseren Stichprobe untersucht wie haufig jede der Auspragungen a j displaystyle a j nbsp auftritt Die Ergebnisse der Zahlung sind die absolute Haufigkeiten h j displaystyle h j nbsp der Auspragungen d h es die h j displaystyle h j nbsp entsprechen der Anzahl des Auftretens von x i a j displaystyle x i a j nbsp Sie konnen in einer Haufigkeitstabelle zusammengefasst werden Die Summe der h j displaystyle h j nbsp ist gleich wie die Anzahl der Stichprobenwerte n displaystyle n nbsp Daraus werden die relativen Haufigkeiten f j displaystyle f j nbsp Wahrscheinlichkeiten fur das Auftreten der jeweiligen Auspragungen berechnet Die Varianz ergibt sich schliesslich aus den ermittelten Haufigkeitsdaten den relativen Haufigkeiten der Auspragungen und dem empirischen Mittelwert der Stichprobe 8 s 2 j 1 k a j x 2 f j displaystyle tilde s 2 sum limits j 1 k left a j overline x right 2 f j nbsp mit x j 1 k f j a j 1 n j 1 k h j a j displaystyle overline x sum j 1 k f j a j frac 1 n sum j 1 k h j a j nbsp Empirische Varianz fur Daten aus einer Zeitreihe Bearbeiten In diesem Fall sind Datenwerte x k displaystyle x k nbsp als Zeitreihe gegeben Beispielsweise wird sekundlich ein Wert x k displaystyle x k nbsp gemessen k displaystyle k nbsp ist ein Zahler fur die aufgelaufenen Werte seit dem Beginn der Rechnung Zu jedem Zeitpunkt k displaystyle k nbsp der Zeitreihe soll die Varianz aus den letzten k displaystyle k nbsp Werten von x displaystyle x nbsp bestimmt werden Die Rechnung soll in Echtzeit unmittelbar nach dem Eintreffen von jedem neuen Wert x k displaystyle x k nbsp erfolgen In Echtzeitsystemen wird stark auf die erforderliche Rechenzeit in jedem Zeitschritt geachtet Mit Formeln 1 bis 3 wurde die erforderliche Rechenzeit mit der Zeit steigen da ja auch die Summen immer mehr Werte umfassen Das wird vermieden mit folgenden rekursiven Formeln die auf den Schatz Ergebnissen fur m k 1 2 displaystyle hat mu k 1 2 nbsp und s k 1 2 displaystyle hat sigma k 1 2 nbsp zum vergangenen Zeitpunkt k 1 displaystyle k 1 nbsp aufbauen und die in jedem Zeitschritt ausgefuhrt werden 17 m k m k 1 1 k x k m k 1 displaystyle hat mu k hat mu k 1 frac 1 k x k hat mu k 1 nbsp s k 2 s k 1 2 1 k x k m k 2 s k 1 2 displaystyle hat sigma k 2 hat sigma k 1 2 frac 1 k x k hat mu k 2 tilde sigma k 1 2 nbsp Diese Formeln benotigen Startwerte fur den Zeitpunkt k 0 displaystyle k 0 nbsp Bei ungunstiger Wahl nahern sich die Schatzwerte langsam den wahren Werten an Daher sind gunstige Vorbelegungen m 0 displaystyle hat mu 0 nbsp Vorbelegung mit 0 displaystyle 0 nbsp oder dem ersten erhaltenen Messwert oder einem vorab erwarteten Mittelwert s 0 displaystyle hat sigma 0 nbsp Vorbelegung mit 0 displaystyle 0 nbsp oder einem vorab erwarteten VarianzwertEigenschaften der empirischen Varianz BearbeitenVerteilung der empirischen Varianz Bearbeiten Die empirische Varianz s 2 displaystyle s 2 nbsp folgt fur unabhangige normalverteilte Zufallsvariablen einer skalierten Chi Quadrat Verteilung n 1 s 2 s 2 x n 1 2 displaystyle n 1 frac s 2 sigma 2 sim chi n 1 2 nbsp Daher folgt E s 2 E s 2 n 1 x n 1 2 s 2 displaystyle operatorname E left s 2 right operatorname E left frac sigma 2 n 1 chi n 1 2 right sigma 2 nbsp sowie Var s 2 Var s 2 n 1 x n 1 2 s 4 n 1 2 Var x n 1 2 2 s 4 n 1 displaystyle operatorname Var left s 2 right operatorname Var left frac sigma 2 n 1 chi n 1 2 right frac sigma 4 n 1 2 operatorname Var left chi n 1 2 right frac 2 sigma 4 n 1 nbsp Verhalten bei Transformationen Bearbeiten Verschiebung der Daten x i displaystyle x i nbsp um einen konstanten Wert c Varianz andert sich nichtAlso Wenn y x 1 c x 2 c x n c displaystyle y x 1 c x 2 c dots x n c nbsp so gilt s 2 x s 2 y displaystyle s 2 x s 2 y nbsp s 2 x s 2 y displaystyle tilde s 2 x tilde s 2 y nbsp s 2 x s 2 y displaystyle s 2 x s 2 y nbsp Begrundung Es ist y x c displaystyle overline y overline x c nbsp und somit y i y 2 x i c x c 2 x i x 2 displaystyle y i overline y 2 x i c overline x c 2 x i overline x 2 nbsp woraus die Behauptung folgt Skalierung der Daten x i displaystyle x i nbsp um einen Faktor a 0 displaystyle a neq 0 nbsp also y a x displaystyle y ax nbsp Varianz skaliert um den Faktor a 2 displaystyle a 2 nbsp s 2 y a 2 s 2 x displaystyle s 2 y a 2 cdot s 2 x nbsp s 2 y a 2 s 2 x displaystyle tilde s 2 y a 2 cdot tilde s 2 x nbsp s 2 y a 2 s 2 x displaystyle s 2 y a 2 cdot s 2 x nbsp Begrundung Dies folgt wie oben durch direktes Nachrechnen Genauigkeit der berechneten empirischen Varianz Bearbeiten Wenn man viele Stichproben nimmt dann fuhrt jede neue Stichprobe zu einer anderen Schatzung s 2 displaystyle hat sigma 2 nbsp fur die Varianz der Grundgesamtheit D h die berechnete empirische Varianz Stichprobenvarianz hat ebenfalls eine Streuung Diese Streuung ist ein Mass fur die Qualitat Genauigkeit der Varianzbestimmung Fur den Fall dass die Streuung in einem gegebenen Anwendungsfall zu hoch ist konnte man die Anzahl der Werte in der Stichprobe vergrossern oder den Mittelwert aus vielen verschiedenen Stichproben verwenden Die Streuung der Stichprobenvarianz kann durch die Berechnung der Grenzwerte des Konfidenzintervalles mit Hilfe der Chi Quadrat Verteilung beurteilt werden Praktisch genugt jedoch haufig eine Abschatzung der Standardabweichung der Stichprobenvarianz mit folgenden Formeln 18 analog zu Formeln 1 und 3 Standardabweichung der Stichprobenvarianz bei unbekanntem wahren Mittelwert der Gesamtheit V a r s 2 2 n 1 s 4 displaystyle sqrt Var s 2 sqrt frac 2 n 1 s 4 nbsp Standardabweichung der Stichprobenvarianz bei bekanntem wahren Mittelwert m displaystyle mu nbsp der Gesamtheit V a r s 2 2 n s 4 displaystyle sqrt Var s 2 sqrt frac 2 n s 4 nbsp Beispiel 1 Stichprobe mit n 10 displaystyle n 10 nbsp Werten und der Varianz s 2 1 0 displaystyle s 2 1 0 nbsp Dann lasst sich die Standardabweichung der Stichprobenvarianz abschatzen als V a r s 2 2 9 1 0 2 0 222 2 0 47 displaystyle sqrt Var s 2 sqrt frac 2 9 1 0 2 sqrt 0 2222 0 47 nbsp Die Standardabweichung von 0 47 displaystyle 0 47 nbsp ist im Vergleich zur Stichprobenvarianz s 2 1 0 displaystyle s 2 1 0 nbsp erheblich D h eine Stichprobe mit n 10 displaystyle n 10 nbsp ist in den meisten Anwendungsfallen nicht geeignet um eine ausreichend verlassliche Aussage uber die Varianz der Grundgesamtheit zu machen Beispiel 2 Stichprobe wird vergrossert auf n 100 displaystyle n 100 nbsp Werte Dann lasst sich die Streuung der Stichprobenvarianz wie oben ermitteln als V a r s 2 2 99 1 0 2 0 020 2 0 14 displaystyle sqrt Var s 2 sqrt frac 2 99 1 0 2 sqrt 0 0202 0 14 nbsp Die Streuung von 0 14 ist bei der Stichprobenvarianz s 2 1 0 displaystyle s 2 1 0 nbsp brauchbarer als das Ergebnis im ersten Beispiel Im Falle einer Normalverteilung wurde das bedeuten dass der wahre Varianzwert mit 95 Wahrscheinlichkeit im Bereich von s 2 1 0 0 28 displaystyle s 2 1 0 pm 0 28 nbsp liegt Im Falle der Berechnung der Grenzwerte mit der Chi Quadrat Verteilung ergeben sich fast die gleichen Werte Man sieht dass eine akkurate Berechnung der empirischen Varianz deutlich grossere Stichproben erfordert als man intuitiv vermuten wurde Alternative Darstellungen BearbeitenDarstellung als durchschnittliches Abweichungsquadrat Bearbeiten Hauptartikel Summe der Abweichungsquadrate Die Varianz wird in der Varianzanalyse oft als mittleres bzw durchschnittliches Abweichungsquadrat M Q displaystyle MQ nbsp bezeichnet und ergibt sich dann aus die Division der Summe der Abweichungsquadrate SQ und der Anzahl Freiheitsgrade FG 19 s 2 i 1 n x i x 2 n 1 S Q F G M Q displaystyle s 2 frac sum nolimits i 1 n left x i overline x right 2 n 1 frac SQ FG MQ nbsp 20 Bei einer mehrdimensionalen Varianzanalyse werden die mittleren Abweichungsquadrate der jeweiligen Variablen werden in einer sogenannten Varianzanalysetabelle zusammengefasst Darstellung mittels Verschiebungssatz Bearbeiten Eine weitere Darstellung erhalt man aus Anwendung des Verschiebungssatzes 21 s 2 1 n 1 i 1 n x i 2 n n 1 x 2 displaystyle s 2 frac 1 n 1 left sum i 1 n x i 2 right frac n n 1 cdot overline x 2 nbsp s 2 1 n i 1 n x i 2 x 2 displaystyle tilde s 2 frac 1 n left sum i 1 n x i 2 right overline x 2 nbsp s 2 1 n i 1 n x i 2 m 2 displaystyle s 2 frac 1 n left sum i 1 n x i 2 right mu 2 nbsp Diese Formel ist jedoch aus numerischer Sicht nachteilig da unter Umstanden zwei sehr grosse Werte voneinander abgezogen werden Das kann zur Rechenungenauigkeiten fuhren wenn die Darstellungsgenauigkeit der Gleitkommazahlen im Rechner nicht ausreichend ist Darstellung als Doppelsumme ohne vorausgehende Berechnung des empirischen Mittels Bearbeiten Eine Darstellung die ohne die vorausgehende Berechnung des empirischen Mittels auskommt ist s 2 1 2 n n 1 i 1 n j 1 n x i x j 2 displaystyle s 2 frac 1 2n n 1 sum i 1 n sum j 1 n x i x j 2 nbsp s 2 1 2 n 2 i 1 n j 1 n x i x j 2 displaystyle tilde s 2 frac 1 2n 2 sum i 1 n sum j 1 n x i x j 2 nbsp Herleitung Wenn man das arithmetische Mittel x displaystyle overline x nbsp der Beobachtungswerte in den Summanden der Doppelsumme i 1 n j 1 n x i x j 2 displaystyle sum i 1 n sum j 1 n x i x j 2 nbsp addiert und abzieht also Null einfugt dann gilt i 1 n j 1 n x i x x x j 2 i 1 n j 1 n x i x 2 2 i 1 n j 1 n x i x x x j i 1 n j 1 n x x j 2 j 1 n i 1 n x i x 2 n s 2 2 i 1 n x i x 0 j 1 n x x j 0 i 1 n j 1 n x x j 2 n s 2 2 n 2 s 2 displaystyle begin aligned sum i 1 n sum j 1 n x i overline x overline x x j 2 amp sum i 1 n sum j 1 n x i overline x 2 2 sum i 1 n sum j 1 n x i overline x overline x x j sum i 1 n sum j 1 n overline x x j 2 amp sum j 1 n underbrace sum i 1 n x i overline x 2 n tilde s 2 2 underbrace left sum i 1 n x i overline x right 0 underbrace left sum j 1 n overline x x j right 0 sum i 1 n underbrace sum j 1 n overline x x j 2 n tilde s 2 amp 2n 2 cdot tilde s 2 end aligned nbsp Dies ist aquivalent zu s 2 1 2 n 2 i 1 n j 1 n x i x j 2 displaystyle tilde s 2 frac 1 2n 2 sum i 1 n sum j 1 n x i x j 2 nbsp Abgeleitete Begriffe BearbeitenEmpirische Standardabweichung Bearbeiten Als empirische Standardabweichung 1 auch Stichprobenstreuung 3 oder Stichprobenstandardabweichung 1 genannt wird die Wurzel aus der empirischen Varianz gemass Formel 1 3 bezeichnet s 1 n 1 i 1 n x i x 2 displaystyle s sqrt frac 1 n 1 sum limits i 1 n left x i overline x right 2 nbsp s 1 n i 1 n x i x 2 displaystyle tilde s sqrt frac 1 n sum limits i 1 n left x i overline x right 2 nbsp s 2 1 n i 1 n x i m 2 displaystyle s 2 sqrt frac 1 n sum limits i 1 n x i mu 2 nbsp Die empirische Standardabweichung ist ebenfalls ein Mass dafur wie weit die Stichprobe im Schnitt um den empirischen Mittelwert streut Im Gegensatz zur empirischen Varianz besitzt die empirische Standardabweichung dieselben Einheiten wie der empirische Mittelwert oder die Stichprobe selbst Wie auch bei der empirischen Varianz ist die Benennung und Bezeichnung bei der empirischen Standardabweichung nicht einheitlich Die empirische Standardabweichung sollte von der Standardabweichung im Sinne der Wahrscheinlichkeitstheorie unterschieden werden Diese ist eine Kennzahl einer Wahrscheinlichkeitsverteilung oder der Verteilung einer Zufallsvariable wohingegen die empirische Standardabweichung Kennzahl einer Stichprobe ist Empirischer Variationskoeffizient Bearbeiten Der empirische Variationskoeffizient ist ein dimensionsloses Streuungsmass nicht einheitenbehaftet und druckt s displaystyle s nbsp in Prozent des empirischen Mittelwerts x displaystyle overline x nbsp aus 22 v s x 100 displaystyle v frac s bar x cdot 100 nbsp Annualisierte Varianz Bearbeiten In der Finanzmarkttheorie werden oft Varianzen bzw Volatilitaten von Renditen berechnet Diese Varianzen mussen wenn sie auf taglichen Daten beruhen annualisiert werden d h auf ein Jahr hochgerechnet werden Dies geschieht mittels eines Annualisierungfaktors A 250 displaystyle A 250 nbsp pro Jahr gibt es etwa 250 displaystyle 250 nbsp Handelstage Die Volatilitat lasst sich somit schatzen als Wurzel aus der annualisierten Varianz s 2 250 s 2 250 n 1 i 1 n x i x 2 displaystyle hat sigma 2 250 cdot s 2 frac 250 n 1 sum limits i 1 n left x i overline x right 2 nbsp Beispiel BearbeitenGegeben sei die Stichprobe x 1 10 x 2 9 x 3 13 x 4 15 x 5 16 displaystyle x 1 10 quad x 2 9 quad x 3 13 quad x 4 15 quad x 5 16 nbsp es ist also n 5 displaystyle n 5 nbsp Fur den empirischen Mittelwert ergibt sich x 1 5 10 9 13 15 16 63 5 12 6 displaystyle overline x frac 1 5 10 9 13 15 16 frac 63 5 12 6 nbsp Bei stuckweiser Berechnung ergibt sich dann die Abweichungsquadratsumme i 1 5 x i x 2 10 12 6 2 9 12 6 2 13 12 6 2 15 12 6 2 16 12 6 2 2 6 2 3 6 2 0 4 2 2 4 2 3 4 2 37 2 displaystyle begin aligned sum limits i 1 5 left x i overline x right 2 amp 10 12 6 2 9 12 6 2 13 12 6 2 15 12 6 2 16 12 6 2 amp 2 6 2 3 6 2 0 4 2 2 4 2 3 4 2 37 2 end aligned nbsp Mit Formel 1 erhalt man s 2 1 5 1 i 1 5 x i x 2 37 2 4 9 3 displaystyle s 2 frac 1 5 1 sum i 1 5 x i overline x 2 frac 37 2 4 9 3 nbsp wohingegen Formel 2 s 2 1 5 i 1 5 x i x 2 37 2 5 7 44 displaystyle tilde s 2 frac 1 5 sum i 1 5 x i overline x 2 frac 37 2 5 7 44 nbsp liefert Jetzt nehmen wir an dass der Mittelwert der Grundgesamtheit aus der die Stichprobe entnommen wurde vorab bekannt sei m 12 displaystyle mu 12 nbsp Dann findet Formel 3 Anwendung i 1 5 x i x 2 10 12 2 9 12 2 13 12 2 15 12 2 16 12 2 2 2 3 2 1 2 3 2 4 2 39 displaystyle begin aligned sum limits i 1 5 left x i overline x right 2 amp 10 12 2 9 12 2 13 12 2 15 12 2 16 12 2 amp 2 2 3 2 1 2 3 2 4 2 39 end aligned nbsp s 2 1 5 i 1 5 x i x 2 39 5 7 8 displaystyle s 2 frac 1 5 sum i 1 5 x i overline x 2 frac 39 5 7 8 nbsp Die entsprechenden empirischen Standardabweichungen ergeben sich zu s 9 3 3 05 displaystyle s sqrt 9 3 approx 3 05 nbsp s 7 44 2 73 displaystyle tilde s sqrt 7 44 approx 2 73 nbsp s 7 8 2 79 displaystyle s sqrt 7 8 approx 2 79 nbsp Herkunft der verschiedenen Definitionen BearbeitenDie empirische Varianz ist ein Streuungsmass um den Mittelwert der Datenwerte Die gegebenen Werte sind x x 1 x 2 x n displaystyle x x 1 x 2 dots x n nbsp Bei der Verwendung der Varianz als Streuungsmass wird die Quadratsumme als Ausgangspunkt verwendet S Q x i 1 n x i x 2 displaystyle SQ x sum i 1 n x i overline x 2 nbsp Um das Streuungsmass unabhangig von der Anzahl der Messwerte in der Stichprobe zu machen wird als einfachste Losung noch durch die Anzahl der Werte dividiert Ergebnis dieses pragmatisch hergeleiteten Streuungsmasses ist die mittlere quadratische Abweichung vom empirischen Mittelwert oder die oben definierte Varianz s displaystyle tilde s nbsp Die Definition von s 2 displaystyle s 2 nbsp hat ihre Wurzeln in der Schatztheorie Stichprobenvarianz Schatzfunktion Dort wird die Varianz der Grundgesamtheit s 2 displaystyle hat sigma 2 nbsp geschatzt durch s 2 S 2 1 n 1 i 1 n X i X 2 displaystyle hat sigma 2 S 2 frac 1 n 1 sum i 1 n X i overline X 2 nbsp als erwartungstreue Schatzfunktion fur die unbekannte Varianz s 2 displaystyle sigma 2 nbsp einer Wahrscheinlichkeitsverteilung verwendet s 2 displaystyle s 2 nbsp ergibt sich durch Anwendung der Schatzfunktion S 2 displaystyle S 2 nbsp auf Realisierungen konkrete Werte der Zufallsvariablen X i w x i displaystyle X i omega x i nbsp Somit kann s displaystyle tilde s nbsp als ein praktisch motiviertes Streuungsmass in der deskriptiven Statistik angesehen werden wohingegen s displaystyle s nbsp eine Schatzung fur eine unbekannte Varianz in der induktiven Statistik ist Diese unterschiedlichen Ursprunge rechtfertigen die von manchen Autoren verwendete Sprechweise fur s displaystyle tilde s nbsp als empirische Varianz und fur s displaystyle s nbsp als induktive Varianz oder theoretische Varianz Zu bemerken ist dass sich auch s displaystyle tilde s nbsp als Schatzwert einer Schatzfunktion interpretieren lasst Diesen erhalt man bei Anwendung der Maximum Likelihood Methode oder der Momentenmethode als Schatzfunktion fur die Varianz die zwar nicht erwartungstreu ist und daher nicht alle Qualitatskriterien fur Punktschatzungen erfullt aber dafur die gegebenen Variablen optimal in eine Normalverteilung einpasst Der Parameter der Normalverteilung s 2 displaystyle sigma 2 nbsp wird bestimmt durch s 2 S 1 n i 1 n X i X 2 displaystyle sigma 2 widetilde S frac 1 n sum i 1 n X i overline X 2 nbsp Der Unterschied zwischen beiden Formeln lasst sich in der mathematischen Statistik dadurch erklaren dass das Quadrat einer symmetrischen normalverteilten Zufallsgrosse X 2 displaystyle X 2 nbsp nicht ebenfalls normalverteilt ist sondern eine unsymmetrische Chi Quadrat Verteilung aufweist Literatur BearbeitenBehrends 2013 Ehrhard Behrends Elementare Stochastik Ein Lernbuch von Studierenden mitentwickelt Springer Spektrum Wiesbaden 2013 ISBN 978 3 8348 1939 0 Beyer 1988 Otfried Beyer Horst Hackel Volkmar Pieper Jurgen Tiedge Wahrscheinlichkeitsrechnung und mathematische Statistik 5 Auflage B G Teubner Leipzig 1988 ISBN 3 322 00469 4 Bronstein 2020 I N Bronstein K A Semendjajew G Musiol H Muhlig Taschenbuch der Mathematik 11 Auflage Verlag Europa Lehrmittel Nourney Vollmer GmbH amp Co KG Haan Gruiten 2020 ISBN 978 3 8085 5792 1 Cleff 2015 Thomas Cleff Deskriptive Statistik und Explorative Datenanalyse Eine computergestutzte Einfuhrung mit Excel SPSS und STATA 3 Auflage Springer Gabler Wiesbaden 2015 ISBN 978 3 8349 4747 5 Duden 2020 Harald Scheid Duden Rechnen und Mathematik 6 Auflage Bibliographisches Institut amp F A Brockhaus AG Mannheim 2020 ISBN 978 3 411 05346 9 Fahrmeir 2016 Ludwig Fahrmeir Rita Kunstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse 8 Auflage Springer Verlag Berlin Heidelberg 2016 ISBN 978 3 662 50371 3 Hartung 2005 Joachim Hartung Barbel Elpelt Karl Heinz Klosener Statistik Lehr und Handbuch der angewandten Statistik 14 Auflage R Oldenbourg Verlag Munchen Wien 2005 ISBN 3 486 57890 1 Henze 2013 Norbert Henze Stochastik fur Einsteiger Eine Einfuhrung in die faszinierende Welt des Zufalls 10 Auflage Springer Spektrum Wiesbaden 2013 ISBN 978 3 658 03076 6 Kabluchko 2017 Zakhar Kabluchko Mathematische Statistik Skript zur Vorlesung Munster 2017 uni muenster de PDF abgerufen am 1 Februar 2022 Kosfeld 2016 Reinhold Kosfeld Hans Friedrich Eckey Matthias Turck Deskriptive Statistik Grundlagen Methoden Beispiele Aufgaben 6 Auflage Springer Gabler Wiesbaden 2016 ISBN 978 3 658 13639 0 Toutenburg 2008 Helge Toutenburg Christian Heumann Deskriptive Statistik 8 Auflage Springer Verlag Berlin Heidelberg 2008 ISBN 978 3 540 77787 8 Young 2011 Peter C Young Recursive Estimation and Time Series Analysis 2 Auflage Springer Verlag Berlin Heidelberg 2011 ISBN 978 3 642 21980 1 Einzelnachweise Bearbeiten a b c Henze 2013 S 31ff a b c d Kabluchko 2017 Kapitel 1 4 Empirische Varianz a b c Behrends 2013 S 274f Beyer 1988 Kabluchko 2017 Kapitel 1 4 Empirische Varianz Cleff 2015 S 56 Hartung 2005 S 153f a b c Fahrmeir 2016 Kapitel 2 2 3 Standardabweichung Varianz und Variationskoeffizient Kunyu He Statistics in ML Why Sample Variance Divided by n Is Still a Good Estimator 18 Mai 2020 abgerufen am 9 Mai 2022 englisch FernUni Hagen 2020 Empirische vs Stichprobenvarianz In YouTube FernUni Hagen https www statstutor de 19 April 2020 abgerufen am 1 Februar 2022 Bronstein 2020 Hartung 2005 Duden 2020 Varianz Kapitel 10 Erwartungstreue Schatzer Memento des Originals vom 31 Dezember 2018 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot www alt mathematik uni mainz de PDF Datei www alt mathematik uni mainz de abgerufen am 31 Dezember 2018 Cleff 2015 S 255 Toutenburg 2008 S 75 Young 2011 Chapter 2 Recursive Estimation Seite 19 HU Berlin 2018 Verteilung der Stichprobenvarianz Kapitel 1 2 abgerufen am 1 Februar 2022 Werner Timischl Angewandte Statistik Eine Einfuhrung fur Biologen und Mediziner 2013 3 Auflage S 109 Lothar Sachs Statistische Auswertungsmethoden S 400 Kosfeld 2016 Beyer 1988 Kapitel 3 1 1 3 Statistische Masszahlen S 120 Abgerufen von https de wikipedia org w index php title Empirische Varianz amp oldid 235653249