www.wikidata.de-de.nina.az
Die Varianz ist in der beschreibenden Statistik ein Mass fur die Streuung von einer endlichen Anzahl von reellen Werten um ihren Mittelwert 1 2 3 Die Masszahl kann auch als mittleres Abweichungsquadrat der Werte interpretiert werden Sie wird in der beschreibenden Statistik auch als empirische Varianz d h aus konkreten Daten berechnete Varianz bezeichnet Die konkreten Daten ergeben sich haufig als Stichprobe aus einer Gesamtheit aller Daten Population Grundgesamtheit Das fuhrt zur alternativen Bezeichnung als Stichprobenvarianz Formelzeichenm displaystyle mu Mittelwert der Grundgesamtheits 2 displaystyle sigma 2 Varianz der Grundgesamtheitn displaystyle n Anzahl der gegebenen WerteX 1 X n displaystyle X 1 ldots X n Zufallsvariablen Zufallsgrossen x 1 x n displaystyle x 1 ldots x n Stichprobe beobachtete Werte der n displaystyle n Zufallsvariablenx displaystyle overline x Stichprobenmittel empirischer Mittelwert von x 1 x n displaystyle x 1 ldots x n s 2 displaystyle s 2 Stichprobenvarianz empirische Varianz von x 1 x n displaystyle x 1 ldots x n X displaystyle overline X Stichprobenmittel als Funktion der Zufallsvariablen S 2 displaystyle S 2 Stichprobenvarianz als Funktion der Zufallsvariablen E X displaystyle operatorname E X Erwartungswert Mittelwert der sich aus der Verteilungsfunktion von X displaystyle X ergibtVar X displaystyle operatorname Var X Varianz Stochastik Varianz die sich aus der Verteilungsfunktion von X displaystyle X ergibtDie Quadrierung der Abweichungen vom Mittelwert bewirkt bei einer endlichen Anzahl reeller Stichprobenwerte Positive und negative Abweichungen vom Mittelwert heben sich nicht gegenseitig auf Die Varianz einer Stichprobe ist immer positiv oder Null Eine grossere Varianz entspricht einer grosseren Unterschiedlichkeit der Werte Wenige aber starke Ausreisser haben einen grossen Einfluss auf das Ergebnis Die Varianz wird in der Stochastik mathematisch allgemeiner behandelt siehe Varianz Stochastik die empirische Varianz ist also nur ein Spezialfall Sie basiert in der mathematischen Statistik auf Zufallsvariablen also auf Funktionen die dem Ergebnis eines Zufallsexperiments eine Grosse zuordnen Die Zufallsvariablen sind nicht begrenzt auf reelle Werte und die Anzahl der Werte zur Berechnung der Varianz kann auch unendlich sein In der mathematischen Statistik ist die Varianz die erwartete quadratische Abweichung von Zufallsvariablen von ihrem Erwartungswert 4 5 6 Sie wird daher zur Abgrenzung auch als theoretische Varianz bezeichnet Durch die Verallgemeinerung konnen besondere Falle auftreten Es gibt Zufallsvariablen die auf Wahrscheinlichkeitsverteilungen basieren fur die die Varianz nicht definiert ist z B Cauchy Verteilung Eine Varianz von Null zeigt nicht unbedingt an dass alle Zufallsvariablen identische Werte haben Die Varianz wird in der Stochastik aus der Verteilung der Zufallsvariablen oder mit Hilfe von Schatzfunktionen bestimmt siehe Stichprobenvarianz Schatzfunktion Die Quadratwurzel aus der Varianz ist die Standardabweichung Die Standardabweichung gehort ebenfalls zu den Streuungsmassen Die Varianz ist in weitergehenden Berechnungen oft praktischer als die Standardabweichung So konnen beispielsweise Varianzbeitrage von mehreren unabhangigen Zufallseinflussen einfach addiert werden Umgekehrt lasst sich durch eine Varianzanalyse eine Gesamtvarianz oft auch in ihre Beitrage Ursachen zerlegen Dennoch ist die Standardabweichung oft anschaulicher als die Varianz da sie dieselbe Grossenordnung hat wie die beobachteten Werte Die Bezeichnung Varianz leitet sich von lateinisch variantia Verschiedenheit bzw variare ver andern verschieden sein ab Inhaltsverzeichnis 1 Empirische Varianz 1 1 Stichprobe als Teilmenge einer Grundgesamtheit 1 2 Stichprobe beinhaltet alle Werte der Grundgesamtheit 2 Varianz in der mathematischen Statistik 2 1 Berechnung basierend auf der Wahrscheinlichkeitsverteilung 2 1 1 Stetige Zufallsvariablen 2 1 2 Diskrete Zufallsvariablen 2 2 Berechnung basierend auf Stichprobenvariablen 3 Literatur 4 EinzelnachweiseEmpirische Varianz Bearbeiten Hauptartikel Empirische VarianzAusgangspunkt ist eine Stichprobe mit reellen Werten die aus einer Grundgesamtheit ausgewahlt empirisch erhoben wurden Wir sprechen daher im Folgenden auch von der Stichprobenvarianz Im Grenzfall umfasst die Stichprobe die gesamte Grundgesamtheit Die empirische Varianz ist ein Spezialfall der Varianz in der mathematischen Statistik Stichprobe als Teilmenge einer Grundgesamtheit Bearbeiten Zur Ermittlung der Stichprobenvarianz werden zunachst die Abweichungen der beobachteten reellen Werte x 1 x n displaystyle x 1 ldots x n nbsp der Stichprobe von ihrem arithmetischen Mittel x 1 x x n x displaystyle x 1 overline x ldots x n overline x nbsp gebildet Summierung ergibt die sogenannte Abweichungsquadratsumme i 1 n x i x 2 displaystyle sum nolimits i 1 n x i overline x 2 nbsp Wenn die Abweichungsquadratsumme durch n 1 displaystyle n 1 nbsp dividiert wird erhalt man das mittlere Abweichungsquadrat bzw die korrigierte Stichprobenvarianz oder korrigierte empirische Varianz s 2 1 n 1 i 1 n x i x 2 displaystyle s 2 frac 1 n 1 sum i 1 n x i overline x 2 nbsp 1 Falls keine Verwechslungsgefahr mit Formel 2 besteht wird oft auch nur die kurzere Bezeichnung Stichprobenvarianz oder empirische Varianz verwendet 7 8 Der Vorsatz korrigierte in der ausfuhrlichen Bezeichnung bezieht sich auf den Faktor 1 n 1 displaystyle 1 n 1 nbsp der auch als Bessel Korrektur bezeichnet wird 8 Die Idee dieser Formel 1 ist es eine Aussage uber die erwartete Varianz der Gesamtheit aller Daten zu machen Die Stichprobe wird verwendet um die Varianz der Grundgesamtheit zu schatzen Formel 1 stellt einen erwartungstreuen Schatzer dar Das bedeutet in diesem Fall dass der Schatzfehler immer kleiner wird und gegen Null strebt wenn das Ergebnis uber eine steigende Anzahl von Stichproben gemittelt wird Diese Eigenschaft von Formel 1 lasst sich in der mathematischen Statistik beweisen Wenn die Abweichungsquadratsumme nur durch n displaystyle n nbsp dividiert wird erhalt man die unkorrigierte Stichprobenvarianz s 2 1 n i 1 n x i x 2 displaystyle tilde s 2 frac 1 n sum i 1 n x i overline x 2 nbsp 2 Die Idee dieser Formel 2 ist es den Datensatz moglichst genau durch eine Normalverteilung zu beschreiben Die Parameter der Normalverteilung m displaystyle mu nbsp und s displaystyle sigma nbsp werden so bestimmt dass der quadratische Fehler der gegebenen Daten relativ zur Verteilungsfunktion der Normalverteilung minimal ist 9 Das ist der Fall fur m x displaystyle mu overline x nbsp und s s displaystyle sigma tilde s nbsp Formel 2 liefert in diesem Sinne bessere Ergebnisse als Formel 1 Allerdings ist Formel 2 kein erwartungstreuer Schatzer denn wenn das Ergebnis uber viele Stichproben gemittelt wird dann strebt das Ergebnis nicht gegen den wahren Wert fur die Varianz der Grundgesamtheit Formel 2 liefert im Mittel zu kleine Ergebnisse und wird daher seltener angewendet Formel 2 wird in der mathematischen Statistik begrundet z B durch Anwendung der Maximum Likelihood Methode oder der Momentenmethode Fur den Sonderfall dass der Mittelwert der Grundgesamtheit m displaystyle mu nbsp bekannt ist wird die Varianz mit folgender Formel berechnet s 2 1 n i 1 n x i m 2 displaystyle s 2 frac 1 n sum i 1 n x i mu 2 nbsp 3 Formel 3 und 1 unterscheiden sich darin dass bei Formel 3 die Berechnung des arithmetischen Mittels entfallt weil der Mittelwert der Grundgesamtheit bekannt ist Auch diese Formel ist erwartungstreu im Sinne der mathematischen Statistik Die Verwendung und Abgrenzung der Bezeichnungen Stichprobenvarianz und empirische Varianz ist in der Literatur nicht einheitlich Einige Autoren 10 bezeichnen Formel 1 als Stichprobenvarianz und Formel 2 als empirische Varianz Stichprobe beinhaltet alle Werte der Grundgesamtheit Bearbeiten Fur den Sonderfall dass die Stichprobe alle N displaystyle N nbsp Werte der Grundgesamtheit beinhaltet N n displaystyle N n nbsp nennt man sie auch Vollerhebung Der wahre Mittelwert der Grundgesamtheit m displaystyle mu nbsp fallt mit dem arithmetischen Mittel x displaystyle overline x nbsp zusammen m x displaystyle mu overline x nbsp und berechnet sich aus allen Elementen der Grundgesamtheit als m 1 N i 1 N x i 1 n i 1 n x i x displaystyle mu frac 1 N sum i 1 N x i frac 1 n sum i 1 n x i overline x nbsp 4 Als Konsequenz fallen auch s 2 displaystyle tilde s 2 nbsp und s 2 displaystyle s 2 nbsp zusammen Die Varianz der Grundgesamtheit auch Populationsvarianz genannt ist dann gleich der Stichprobenvarianz und wird berechnet durch s 2 1 N i 1 N x i m 2 displaystyle sigma 2 frac 1 N sum i 1 N x i mu 2 nbsp 5 Varianz in der mathematischen Statistik Bearbeiten Hauptartikel Varianz Stochastik Die Varianz ist mathematisch allgemein folgendermassen definiert Sei W S P displaystyle Omega Sigma P nbsp ein Wahrscheinlichkeitsraum und X W A displaystyle X colon Omega to A nbsp eine Zufallsvariable auf eine Menge A displaystyle A nbsp mit der Ergebnismenge W displaystyle Omega nbsp dem Ereignissystem S displaystyle Sigma nbsp und dem Wahrscheinlichkeitsmass P displaystyle P nbsp Mit m E X displaystyle mu mathbb E X nbsp bezeichnen wir den Erwartungswert der Zufallsvariable so fern dieser existiert Die Varianz ist dann definiert als erwartete mittlere quadratische Abweichung der Zufallsvariable von ihrem Erwartungswert Var X E X m 2 W X m 2 d P displaystyle operatorname Var X mathbb E left X mu 2 right int Omega X mu 2 mathrm d P nbsp 6 Berechnung basierend auf der Wahrscheinlichkeitsverteilung Bearbeiten Nicht jede Wahrscheinlichkeitsverteilung besitzt einen Erwartungswert und eine Varianz z B Cauchy Verteilung Und damit ist nicht fur jede Zufallsvariable die Varianz definiert Es wird unterschieden zwischen stetigen und diskreten Zufallsvariablen Stetige Zufallsvariablen Bearbeiten Falls die stetige Zufallsvariable X displaystyle X nbsp auf einer Menge A displaystyle A nbsp eine Wahrscheinlichkeitsdichtefunktion f X displaystyle f X nbsp besitzt dann lasst sich der Erwartungswert und die Varianz wie folgt berechnen 11 m A x f X x d x displaystyle mu int A xf X x mathrm d x nbsp 7 Var X A x m 2 f X x d x displaystyle operatorname Var X int A x mu 2 f X x mathrm d x quad nbsp 8 Diskrete Zufallsvariablen Bearbeiten Sei X displaystyle X nbsp eine diskrete Zufallsvariable auf einer Menge A displaystyle A nbsp mit Wahrscheinlichkeitsfunktion p X displaystyle p X nbsp Dann lasst sich der Erwartungswert und die Varianz wie folgt berechnen m x k A x k p X x k displaystyle mu sum limits x k in A x k p X x k nbsp 9 Var X x k A x k m 2 p X x k displaystyle operatorname Var X sum limits x k in A x k mu 2 p X x k nbsp 10 Berechnung basierend auf Stichprobenvariablen Bearbeiten Hauptartikel Stichprobenvarianz Schatzfunktion Fur diesen Fall werden in Formel 1 3 die Stichprobenwerte x 1 x n displaystyle x 1 ldots x n nbsp durch die Stichprobenvariablen X 1 X n displaystyle X 1 ldots X n nbsp ersetzt Die Stichprobenvariablen sind keine reellen Werte sondern sie sind Zufallsvariablen Jede Zufallsvariable X displaystyle X nbsp beschreibt die Wahrscheinlichkeit mit der mogliche Beobachtungswerte x displaystyle x nbsp auftreten Dies fuhrt zur mathematisch allgemeineren Darstellung der Varianz als Funktion genauer Stichprobenfunktion von verschiedenen Zufallsvariablen Auch hier unterscheidet man die korrigierte Stichprobenvarianz S 2 1 n 1 i 1 n X i X 2 displaystyle S 2 frac 1 n 1 sum i 1 n X i overline X 2 nbsp 11 und die unkorrigierten Stichprobenvarianzen S 2 1 n i 1 n X i X 2 displaystyle tilde S 2 frac 1 n sum i 1 n X i overline X 2 nbsp 12 S 2 1 n i 1 n X i m 2 displaystyle S 2 frac 1 n sum i 1 n X i mu 2 nbsp 13 Die Formeln 1 3 sind mathematisch gesehen ein Spezialfall der Formeln 11 13 Z B ist die empirische Varianz in der beschreibenden Statistik s 2 displaystyle s 2 nbsp der zur abstrakten Schatzfunktion S 2 displaystyle S 2 nbsp zugehorige Schatzwert In den Verfahren der mathematischen Statistik Statistische Tests Konfidenzintervalle etc fliesst oft der Mittelwert m displaystyle mu nbsp oder die Varianz der Grundgesamtheit s 2 displaystyle sigma 2 nbsp ein In der Praxis sind Mittelwert und Varianz der Grundgesamtheit jedoch unbekannt so dass sie geschatzt werden mussen Die Formeln 11 13 dienen in der mathematischen Statistik also als Schatzfunktion um die unbekannte Varianz s 2 Var X displaystyle sigma 2 operatorname Var X nbsp einer Zufallsvariable X displaystyle X nbsp mit unbekannter Verteilung zu schatzen Literatur BearbeitenBeyer 1988 Otfried Beyer Horst Hackel Volkmar Pieper Jurgen Tiedge Wahrscheinlichkeitsrechnung und mathematische Statistik 5 Auflage B G Teubner Leipzig 1988 ISBN 3 322 00469 4 Bronstein 2020 I N Bronstein K A Semendjajew G Musiol H Muhlig Taschenbuch der Mathematik 11 Auflage Verlag Europa Lehrmittel Nourney Vollmer GmbH amp Co KG Haan Gruiten 2020 ISBN 978 3 8085 5792 1 Duden 2020 Harald Scheid Duden Rechnen und Mathematik 6 Auflage Bibliographisches Institut amp F A Brockhaus AG Mannheim 2020 ISBN 978 3 411 05346 9 Fahrmeir 2016 Ludwig Fahrmeir Rita Kunstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse 8 Auflage Springer Verlag Berlin Heidelberg 2016 ISBN 978 3 662 50371 3 Hartung 2005 Joachim Hartung Barbel Elpelt Karl Heinz Klosener Statistik Lehr und Handbuch der angewandten Statistik 14 Auflage R Oldenbourg Verlag Munchen Wien 2005 ISBN 3 486 57890 1 Kabluchko 2017 Zakhar Kabluchko Mathematische Statistik Skript zur Vorlesung Munster 2017 uni muenster de PDF abgerufen am 1 Februar 2022 Einzelnachweise Bearbeiten Bronstein 2020 Kapitel 16 3 2 Beschreibende Statistik Fahrmeir 2016 Kapitel 2 Univariate Deskription und Exploration von Daten Hartung 2005 Kapitel I Deskriptive Statistik Bronstein 2020 Kapitel 16 3 1 2 Stichprobenfunktionen Fahrmeir 2016 Kapitel 5 Diskrete Zufallsvariablen und Kapitel 6 Stetige Zufallsvariablen Hartung 2005 Kapitel II Wahrscheinlichkeitsrechnung Beyer 1988 a b Kabluchko 2017 Kapitel 1 4 Empirische Varianz Kunyu He Statistics in ML Why Sample Variance Divided by n Is Still a Good Estimator 18 Mai 2020 abgerufen am 9 Mai 2022 englisch Fahrmeir 2016 S 65 Bronstein 2020 Kapitel 16 2 2 3 Erwartungswert und Streuung S 827 Formel 16 52 Abgerufen von https de wikipedia org w index php title Varianz amp oldid 234289714