www.wikidata.de-de.nina.az
Als Varianzanalyse kurz VA englisch analysis of variance kurz ANOVA auch Streuungsanalyse oder Streuungszerlegung genannt bezeichnet man eine grosse Gruppe datenanalytischer und strukturprufender statistischer Verfahren die zahlreiche unterschiedliche Anwendungen zulassen Ihnen gemeinsam ist dass sie Varianzen und Prufgrossen berechnen um Aufschlusse uber die hinter den Daten steckenden Gesetzmassigkeiten zu erlangen Die Varianz einer oder mehrerer Zielvariablen wird dabei durch den Einfluss einer oder mehrerer Einflussvariablen Faktoren erklart Die einfachste Form der Varianzanalyse testet den Einfluss einer einzelnen nominalskalierten auf eine intervallskalierte Variable indem sie die Mittelwerte der abhangigen Variable innerhalb der durch die Kategorien der unabhangigen Variable definierten Gruppen vergleicht Somit stellt die Varianzanalyse in ihrer einfachsten Form eine Alternative zum t Test dar die fur Vergleiche zwischen mehr als zwei Gruppen geeignet ist Varianzanalytische Modelle sind in der Regel spezielle lineare Regressionsmodelle Das Verfahren der Varianzanalyse geht im Wesentlichen auf Ronald Aylmer Fisher zuruck Inhaltsverzeichnis 1 Uberblick 1 1 Grundbegriffe 1 2 Anzahl der Zielvariablen 1 3 Anzahl der Untersuchungseinheiten 1 4 Feste und zufallige Effekte 2 Grundidee 3 Voraussetzungen und Alternativen 4 Einfache Varianzanalyse 4 1 Voraussetzungen 4 2 Beispiel 4 3 Hypothesen 4 4 Grundgedanken der Rechnung 4 5 Mathematisches Modell 4 6 Quadratsummen 4 7 Prufgrosse 4 8 Beispielrechnung 5 Zweifache Varianzanalyse 5 1 Beispiel 5 2 Grundgedanken der Rechnung 5 3 Tafel der Varianzanalyse 6 Mehrfache Varianzanalyse mehr als zwei Faktoren 7 Siehe auch 8 Literatur 9 EinzelnachweiseUberblick BearbeitenGrundbegriffe Bearbeiten Die abhangige Variable heisst Zielvariable Die metrische Zufallsvariable deren Wert durch die kategorialen Variablen erklart werden soll Die abhangige Variable enthalt Messwerte Die unabhangige Variable nennt man Einflussvariable oder Faktor Die kategoriale Variable Faktor die die Gruppen vorgibt Ihr Einfluss soll uberpruft werden sie ist nominalskaliert Die Kategorien eines Faktors heissen dann Faktorstufen Diese Bezeichnung ist nicht identisch mit jener bei der Faktorenanalyse Anzahl der Zielvariablen Bearbeiten Je nachdem ob eine oder mehrere Zielvariablen vorliegen unterscheidet man zwei Formen der Varianzanalyse die univariate Varianzanalyse nach der englischen Bezeichnung analysis of variance auch als ANOVA abgekurzt die multivariate Varianzanalyse nach der englischen Bezeichnung multivariate analysis of variance auch als MANOVA abgekurztJe nachdem ob ein oder mehrere Faktoren vorliegen unterscheidet man zwischen einfacher einfaktorieller und mehrfacher bzw multipler mehrfaktorieller Varianzanalyse Anzahl der Untersuchungseinheiten Bearbeiten Im einfachsten Fall werden aus jeder Faktorstufe gleich viele Beobachtungen betrachtet Man spricht in diesem Fall auch von einer orthogonalen Varianzanalyse oder von einem balancierten Modell Die Arbeit mit und Interpretation von Daten deren Faktorstufen unterschiedlich viele Elemente enthalten z B auch fehlende Werte ist schwieriger vgl unbalanciertes Modell Feste und zufallige Effekte Bearbeiten Eine gebrauchliche Modellunterscheidung der Varianzanalyse wird danach vorgenommen ob die Faktoren mit festen Effekten englisch fixed factors oder Faktoren mit zufalligen Effekten englisch random factors vorliegen 1 Von festen Effekten spricht man wenn die Einflussfaktoren in endlich vielen Faktorstufen vorkommen und man diese alle erfasst hat bzw die in der Untersuchung interessierende Aussage sich nur auf diese Faktorstufen bezieht Von Modellen mit zufalligen Effekten spricht man wenn man nur eine Auswahl aller moglichen Faktorstufen erfassen kann vgl hierzu auch Lineare Paneldatenmodelle Grundidee Bearbeiten nbsp Die Gesamtvarianz lasst sich gut in Gruppen zerlegen wenn die Variabilitat zwischen den Faktorstufen gross die Variabilitat innerhalb derselben aber gering ist Die Verfahren untersuchen ob und gegebenenfalls wie sich die Erwartungswerte der metrischen Zufallsvariablen in verschiedenen Gruppen auch Klassen unterscheiden Mit den Prufgrossen des Verfahrens wird getestet ob die Varianz zwischen den Gruppen grosser ist als die Varianz innerhalb der Gruppen Dadurch kann ermittelt werden ob die Gruppeneinteilung sinnvoll ist oder nicht bzw ob sich die Gruppen signifikant unterscheiden oder nicht Wenn sie sich signifikant unterscheiden kann angenommen werden dass in den Gruppen unterschiedliche Gesetzmassigkeiten wirken So lasst sich beispielsweise klaren ob das Verhalten einer Kontrollgruppe mit dem einer Experimentalgruppe identisch ist Ist beispielsweise die Varianz einer dieser beiden Gruppen bereits auf Ursachen Varianzquellen zuruckgefuhrt kann bei Varianzgleichheit darauf geschlossen werden dass in der anderen Gruppe keine neue Wirkungsursache z B durch die Experimentalbedingungen hinzukam Siehe auch Diskriminanzanalyse BestimmtheitsmassVoraussetzungen und Alternativen BearbeitenDie Zuverlassigkeit der Signifikanztests im Rahmen der Varianzanalyse hangt davon ab inwieweit ihre Voraussetzungen erfullt sind Diese Voraussetzungen sind je nach Anwendung etwas unterschiedlich allgemein gelten folgende Varianzhomogenitat Homoskedastizitat Die Messabweichung sollte uber alle moglichen Werte der unabhangigen Variablen hinweg gleich verteilt sein Normalverteilung der Vorhersagefehler Residuen Die Residuen sollten aus einer normalverteilten Grundgesamtheit stammen Die Uberprufung erfolgt mit anderen Tests ausserhalb der Varianzanalyse die allerdings heute standardmassig in Statistik Programmen als Option mitgeliefert werden Die Normalverteilung der Residuen kann unter anderem mit dem Shapiro Wilk Test uberpruft werden Varianzhomogenitat mit dem Levene Test Gegen Abweichungen von der Normalverteilungsannahme gelten Varianzanalysen als robust vor allem bei grosseren Stichprobenumfangen siehe Zentraler Grenzwertsatz Inhomogene Varianzen stellen bei ungleichen Gruppengrossen ein Problem dar Im Falle einfacher Varianzanalysen kann in solch einem Fall gegebenenfalls der Brown Forsythe Test gerechnet werden Ferner kommt gegebenenfalls eine Transformation der abhangigen Variable in Betracht um die Varianzen der Gruppen anzugleichen beispielsweise durch Logarithmierung Wenn die Voraussetzungen nicht ausreichend erfullt sind bieten sich zudem verteilungsfreie nichtparametrische Verfahren an die robust sind aber geringere Teststarke besitzen und andere Parameter testen als die Varianzanalyse da sie auf Rangen basieren nichtparametrische Verfahren fur zwei Stichproben t Test Alternativen gepaarte abhangige Sp Wilcoxon Vorzeichen Rang Test ungepaarte unabhangige Sp Mann Whitney U Test auch Wilcoxon Mann Whitney Test U Test Mann Whitney Wilcoxon MWW Test oder Wilcoxon Rangsummentest genannt fur drei oder mehr Stichproben gepaarte Daten Friedman Test Quade Test ungepaarte Daten Kruskal Wallis Test Jonckheere Terpstra Test Umbrella Test oder bei gleichzeitiger Verletzung von Normalverteilungsannahme und Varianzhomogenitatsannahme auch der Median Test zur mehrfaktoriellen Analyse Scheirer Ray Hare Test PERMANOVA ein PermutationstestEinfache Varianzanalyse BearbeitenBei einer einfachen Varianzanalyse auch Einweg Varianzanalyse englisch one way analysis of variance kurz one way ANOVA oder einfaktorielle Varianzanalyse genannt untersucht man den Einfluss einer unabhangigen Variable Faktor mit k displaystyle k nbsp verschiedenen Stufen Gruppen auf die Auspragungen einer Zufallsvariablen Dazu werden die k displaystyle k nbsp Mittelwerte der Auspragungen fur die Gruppen miteinander verglichen und zwar vergleicht man die Varianz zwischen den Gruppen mit der Varianz innerhalb der Gruppen Weil sich die totale Varianz aus den zwei genannten Komponenten zusammensetzt spricht man von Varianzanalyse Die einfache Varianzanalyse ist die Verallgemeinerung des t Tests im Falle mehr als zwei Gruppen Fur k 2 displaystyle k 2 nbsp ist sie aquivalent mit dem t Test Voraussetzungen Bearbeiten Die Fehlerkomponenten mussen normalverteilt sein Fehlerkomponenten bezeichnen die jeweiligen Varianzen Gesamt Behandlungs und Fehlervarianz Die Gultigkeit dieser Voraussetzung setzt gleichzeitig eine Normalverteilung der Messwerte in der jeweiligen Grundgesamtheit voraus Die Fehlervarianzen mussen zwischen den Gruppen also den k Faktorstufen gleich bzw homogen sein Homoskedastizitat Die Messwerte bzw Faktorstufen mussen unabhangig voneinander sein Beispiel Bearbeiten Diese Form der Varianzanalyse ist angezeigt wenn beispielsweise untersucht werden soll ob Rauchen einen Einfluss auf die Aggressivitat hat Rauchen ist hier eine unabhangige Variable welche in drei Auspragungen k 3 displaystyle k 3 nbsp Faktorstufen unterteilt werden kann Nichtraucher schwache Raucher und starke Raucher Die durch einen Fragebogen erfasste Aggressivitat ist die abhangige Variable Zur Durchfuhrung der Untersuchung werden die Versuchspersonen den drei Gruppen zugeordnet Danach wird der Fragebogen vorgelegt mit dem die Aggressivitat erfasst wird Hypothesen Bearbeiten Es sei m i displaystyle mu i nbsp der Erwartungswert der abhangigen Variable in der i displaystyle i nbsp Gruppe Die Nullhypothese einer einfachen Varianzanalyse lautet H 0 m 1 m 2 m k displaystyle H 0 colon mu 1 mu 2 ldots mu k nbsp Die Alternativhypothese lautet H 1 i j m i m j displaystyle H 1 colon exists i j mu i neq mu j nbsp Die Nullhypothese besagt demnach dass zwischen den Erwartungswerten der Gruppen die den Faktorauspragungen bzw Faktorstufen entsprechen kein Unterschied besteht Die Alternativhypothese besagt dass zwischen mindestens zwei Erwartungswerten ein Unterschied besteht Wenn wir beispielsweise funf Faktorstufen haben dann ist die Alternativhypothese bestatigt wenn sich mindestens zwei der Gruppenmittelwerte unterscheiden Es konnen sich aber auch drei Erwartungswerte oder vier oder alle funf deutlich voneinander unterscheiden Wird die Nullhypothese verworfen liefert die Varianzanalyse also weder Aufschluss daruber zwischen wie vielen noch zwischen welchen Faktorstufen ein Unterschied besteht Wir wissen dann nur mit einer bestimmten Wahrscheinlichkeit siehe Signifikanzniveau dass mindestens zwei Auspragungen einen bedeutsamen Unterschied aufweisen Man kann nun fragen ob es zulassig ware mit verschiedenen t Tests jeweils paarweise Einzelvergleiche zwischen den Mittelwerten durchzufuhren Vergleicht man mit der Varianzanalyse nur zwei Gruppen also zwei Mittelwerte dann fuhren t Test und Varianzanalyse zum gleichen Ergebnis Liegen jedoch mehr als zwei Gruppen vor ist die Uberprufung der globalen Nullhypothese der Varianzanalyse uber paarweise t Tests nicht zulassig es kommt zur sogenannten Alphafehler Kumulierung bzw Alphafehler Inflation Mit Hilfe multipler Vergleichstechniken kann nach einem signifikanten Varianzanalyse Ergebnis uberpruft werden bei welchem Mittelwertspaar der oder die Unterschiede liegen Beispiele solcher Vergleichstechniken sind der Bonferroni Test auf kleinsten signifikanten Unterschied und der Scheffe Test vgl auch Post hoc Test Der Vorteil dieser Verfahren liegt darin dass sie den Aspekt der Alphafehler Inflation berucksichtigen Grundgedanken der Rechnung Bearbeiten Bei der Berechnung der Varianzanalyse berechnet man zunachst die beobachtete Gesamtvarianz in allen Gruppen Dazu fasst man alle Messwerte aus allen Gruppen zusammen errechnet den Gesamtmittelwert und die Gesamtvarianz Dann mochte man den Varianzanteil der Gesamtvarianz der allein auf den Faktor zuruckgeht ermitteln Wenn die gesamte beobachtete Varianz auf den Faktor zuruckginge dann mussten alle Messwerte in einer Faktorstufe gleich sein in diesem Fall durften nur Unterschiede zwischen den Gruppen bestehen Da alle Messwerte innerhalb einer Gruppe dieselbe Faktorauspragung aufweisen mussten sie folglich alle den gleichen Wert haben da der Faktor die einzige varianzgenerierende Quelle ware In der Praxis werden sich aber auch Messwerte innerhalb einer Faktorstufe unterscheiden Diese Unterschiede innerhalb der Gruppen mussen also von anderen Einflussen stammen entweder Zufall oder sogenannten Storvariablen Um nun auszurechnen welche Varianz allein auf die Auspragungen des Faktors zuruckgeht stellt man seine Daten fur einen Moment gewissermassen ideal um Man weist allen Messwerten innerhalb einer Faktorstufe den Mittelwert der jeweiligen Faktorstufe zu Somit macht man alle Werte innerhalb einer Faktorstufe gleich und der einzige Unterschied besteht nun noch zwischen den Faktorstufen Nun errechnet man mit diesen idealisierten Daten erneut die Varianz Diese kennzeichnet die Varianz die durch den Faktor zustande kommt Varianz der Behandlungen Treatment Varianz Teilt man die Varianz der Behandlungen durch die Gesamtvarianz erhalt man den relativen Anteil der auf den Faktor zuruckzufuhrenden Varianz Zwischen der Gesamtvarianz und der Varianz der Behandlungen besteht in aller Regel eine Diskrepanz die Gesamtvarianz ist grosser als die Varianz der Behandlungen Die Varianz die nicht auf den Faktor die Behandlung zuruckzufuhren ist bezeichnet man als Fehlervarianz Diese beruht entweder auf Zufall oder anderen nicht untersuchten Variablen Storvariablen Die Fehlervarianz lasst sich berechnen indem man seine Daten erneut umstellt Man errechnet fur jeden einzelnen Messwert dessen Abweichung vom jeweiligen Gruppenmittelwert seiner Faktorstufe Daraus berechnet man erneut die gesamte Varianz Diese kennzeichnet dann die Fehlervarianz Eine wichtige Beziehung zwischen den Komponenten ist die Additivitat der Quadratsummen Als Quadratsumme bezeichnet man den Teil der Varianzformel der im Zahler steht Lasst man also bei der Berechnung der Varianz der Behandlung den Nenner die Anzahl der Freiheitsgrade weg erhalt man die Quadratsumme der Behandlung Die Gesamtquadratsumme also Gesamtvarianz ohne Nenner ergibt sich aus der Summe von Behandlungs und Residuenquadratsumme Die letztendliche Signifikanzprufung erfolgt uber einen gewohnlichen F Test Man kann mathematisch zeigen dass bei Gultigkeit der Nullhypothese der Varianzanalyse gleichzeitig gilt dass Treatment und Fehlervarianz gleich sein mussen Mit einem F Test kann man die Nullhypothese uberprufen dass zwei Varianzen gleich sind indem man den Quotienten aus ihnen bildet Im Falle der Varianzanalyse bildet man den Quotienten aus Varianz der Behandlungen geteilt durch die Fehlervarianz Dieser Quotient ist F verteilt mit k 1 displaystyle k 1 nbsp Zahlerfreiheitsgraden und k n 1 displaystyle k n 1 nbsp bzw N k displaystyle N k nbsp Nennerfreiheitsgraden k displaystyle k nbsp ist die Anzahl der Gruppen N displaystyle N nbsp ist die Gesamtzahl aller Versuchspersonen n displaystyle n nbsp ist die jeweilige Zahl der Versuchspersonen pro Faktorstufe In Tabellen der F Verteilung kann man dann den entsprechenden F Wert mit entsprechenden Freiheitsgraden nachschlagen und liest ab wie viel Prozent der F Verteilungsdichte dieser Wert abschneidet Einigen wir uns beispielsweise vor der Durchfuhrung der Varianzanalyse auf ein Signifikanzniveau von 5 dann musste der F Wert mindestens 95 der F Verteilung auf der linken Seite abschneiden Ist dies der Fall dann haben wir ein signifikantes Ergebnis und konnen die Nullhypothese auf dem 5 Niveau verwerfen Mathematisches Modell Bearbeiten Die einfache Varianzanalyse betrachtet jeden Messwert als Summe einer von der Faktorwirkung unabhangigen Komponente m displaystyle mu nbsp der Faktorwirkung t i displaystyle tau i nbsp und dem Versuchsfehler e i j displaystyle varepsilon ij nbsp Jeder Messwert kann somit durch den folgenden datengenerierenden Prozess Y i j m i e i j m t i e i j i 1 k j 1 n i displaystyle Y ij mu i varepsilon ij mu tau i varepsilon ij quad i 1 dots k j 1 dots n i nbsp generiert werden Die zweite Gleichheit resultiert daraus dass sich der von der Faktorstufe abhangige feste Mittelwert Mittelwert von y displaystyle y nbsp unter der Versuchsbedingung i displaystyle i nbsp aufspalten lasst in eine Komponente m displaystyle mu nbsp die unabhangig von der Faktorwirkung ist und in die Faktorwirkung t j displaystyle tau j nbsp selbst Es gilt also 2 m i m t i displaystyle mu i mu tau i nbsp Fur den Versuchsfehler e i j displaystyle varepsilon ij nbsp nimmt man an dass er auf jeder Faktorstufe i displaystyle i nbsp und fur jede Wiederholung j displaystyle j nbsp normalverteilt ist mit einem Erwartungswert von Null und einer von der Faktorstufe unabhangigen homoskedastischen unbekannten Fehlervarianz s 2 displaystyle sigma 2 nbsp Diese Annahme lasst sich so interpretieren dass sich die Versuchsfehler im Mittel wieder ausgleichen und dass die Variabilitat in allen Gruppen gleich ist 3 Des Weiteren nimmt man an dass die Versuchsfehler zu verschiedenen Wiederholungen unabhangig sind Zusammenfassend lasst sich fur die Versuchsfehler schreiben e i j i i d N 0 s 2 displaystyle varepsilon ij stackrel mathrm i i d sim mathcal N 0 sigma 2 nbsp Ziel ist es die Modellparameter m displaystyle mu nbsp m i displaystyle mu i nbsp und t i displaystyle tau i nbsp statistisch zu schatzen also Punktschatzer m displaystyle hat mu nbsp m i displaystyle hat mu i nbsp und t i displaystyle hat tau i nbsp zu finden Mithilfe einer sogenannten Tafel der Varianzanalyse oder auch Tabelle der Varianzanalyse genannt lasst sich das i displaystyle i nbsp te Faktorstufenmittel y i 1 n i j 1 n i y i j displaystyle overline y i mathbf frac 1 n i sum j 1 n i y ij nbsp und die i displaystyle i nbsp te Faktorstufenvarianz 4 s i 2 1 n i 1 j 1 n i y i j y i 2 displaystyle s i mathbf 2 frac 1 n i 1 sum j 1 n i y ij overline y i mathbf 2 nbsp berechnen Das Gesamtmittel stellt das mit den Fallzahlen n i displaystyle n i nbsp gewichtete Mittel der Faktorstufenmittelwerte y i displaystyle overline y i mathbf nbsp dar y 1 N i 1 k j 1 n i y i j 1 N i 1 k n i y i displaystyle overline y mathbf frac 1 N sum i 1 k sum j 1 n i y ij frac 1 N sum i 1 k n i overline y i mathbf nbsp wobei N i 1 k n i displaystyle N sum i 1 k n i nbsp den gesamten Umfang der Stichproben auf allen Faktorstufen darstellt Der globale Erwartungswert bzw das globale Mittel englisch grand mean m displaystyle mu nbsp wird gleich dem Mittel der Stufenmittelwerte m i displaystyle mu i nbsp gesetzt m 1 N i 1 k n i m i displaystyle mu frac 1 N sum i 1 k n i mu i nbsp Eine Zusatzbedingung an die Modellparameter um die Identifizierbarkeit des Regressionsmodells sicherzustellen ist die sogenannte Reparametrisierungsbedingung bei der eine neue Parametrisierung vorgenommen wird In der einfachen Varianzanalyse lautet sie i 1 k n i t i i 1 k n i m i m 0 displaystyle sum i 1 k n i tau i sum i 1 k n i mu i mu 0 nbsp D h die mit den Fallzahlen n i displaystyle n i nbsp gewichtete Summe der Faktorwirkung ergibt Null In diesem Fall spricht man von einer Effektkodierung Durch die Reparametrisierungsbedingung konnen die Effekte t i displaystyle tau i nbsp eindeutig geschatzt werden Der globale Mittelwert m displaystyle mu nbsp wird durch das Gesamtmittel y displaystyle overline y mathbf nbsp geschatzt der Parameter m i displaystyle mu i mathbf nbsp wird durch das Faktorstufenmittel y i displaystyle overline y i mathbf nbsp geschatzt und die Faktorwirkung t displaystyle tau nbsp wird durch die Abweichung y i y displaystyle overline y i mathbf overline y mathbf nbsp geschatzt Die jeweilige Abweichung zwischen Messwert und Schatzwert Residuum ist durch e i j y i j m t i y i j y y i y y i j y i displaystyle hat varepsilon ij y ij hat mu hat tau i y ij overline y mathbf overline y i mathbf overline y mathbf y ij overline y i mathbf nbsp gegeben Das Residuum e i j displaystyle hat varepsilon ij nbsp ist gegeben durch die Abweichung des Messwertes y i j displaystyle y ij nbsp vom i displaystyle i nbsp Stufenmittel und ist Ausdruck der zufalligen Variation der Variablen Y displaystyle Y nbsp auf der i displaystyle i nbsp ten Faktorstufe Sie kann als eine Realisierung des Versuchsfehlers bei der j displaystyle j nbsp ten Wiederholung auf der i displaystyle i nbsp ten Faktorstufe betrachtet werden 5 Jede Realisierung der Zielgrosse setzt sich additiv zusammen aus dem Gesamtmittel y m displaystyle overline y mathbf hat mu nbsp der Faktorwirkung y i y t i displaystyle overline y i mathbf overline y mathbf hat tau i nbsp und Residuum e i j y i j y i displaystyle hat varepsilon ij y ij overline y i mathbf nbsp y i j y y i y y i j y i e i j m t i e i j displaystyle y ij overline y mathbf overline y i mathbf overline y mathbf underbrace y ij overline y i mathbf hat varepsilon ij hat mu hat tau i hat varepsilon ij nbsp Quadratsummen Bearbeiten Hauptartikel Totale Quadratsumme Zerlegung der totalen Quadratsumme Die gesamte Quadratsumme bzw totale Quadratsumme kurz SQT Summe der Quadrate der Totalen Abweichungen lasst sich in zwei Teile zerlegen Ein Teil bezieht sich auf die Gruppenzugehorigkeit und der andere Teil der Rest wird dem Zufall zugeschrieben Der erste Teil d h die Quadratsumme bedingt durch Faktor A kurz SQA lasst sich ausdrucken als die Summe der Abweichungsquadrate der Mittelwerte vom Gesamtmittelwert der Gruppen Die durch die Regression nicht erklarte Quadratsumme bzw die Residuenquadratsumme kurz SQR Summe der Quadrate der Restabweichungen oder Residuen die die Unterschiede innerhalb der Gruppen betrifft wird ausgedruckt als die gesamte Abweichung von den Mittelwerten in den Gruppen Es gilt also S Q T S Q A S Q R displaystyle SQT SQA SQR nbsp Hierbei ist S Q T i 1 k j 1 n i y i j y 2 displaystyle SQT sum i 1 k sum j 1 n i y ij overline y mathbf 2 nbsp S Q A i 1 k n i y i y 2 i 1 k n i t i 2 displaystyle SQA sum i 1 k n i overline y i mathbf overline y mathbf 2 sum i 1 k n i hat tau i 2 nbsp und 6 S Q R i 1 k j 1 n i e i j 2 i 1 k j 1 n i y i j y i 2 i 1 k n i 1 1 n i 1 j 1 n i y i j y i 2 i 1 k n i 1 s i 2 displaystyle SQR sum i 1 k sum j 1 n i hat varepsilon ij 2 sum i 1 k left sum j 1 n i y ij overline y i mathbf 2 right sum i 1 k n i 1 frac 1 n i 1 sum j 1 n i y ij overline y i mathbf 2 sum i 1 k n i 1 s i 2 nbsp Die zwei Quadratsummen S Q A displaystyle SQA nbsp und S Q R displaystyle SQR nbsp sind stochastisch unabhangig Im Fall von k displaystyle k nbsp Gruppen mit gleichem Umfang N k displaystyle N k nbsp kann man zeigen dass unter der Nullhypothese folgendes gilt S Q A s 2 x k 1 2 displaystyle SQA sigma 2 sim chi k 1 2 nbsp d h die Quadratsumme S Q A displaystyle SQA nbsp folgt einer Chi Quadrat Verteilung mit k 1 displaystyle k 1 nbsp Freiheitsgraden und S Q R s 2 x N k 2 displaystyle SQR sigma 2 sim chi N k 2 nbsp d h die Quadratsumme S Q R displaystyle SQR nbsp folgt einer Chi Quadrat Verteilung mit N k displaystyle N k nbsp Freiheitsgraden Prufgrosse Bearbeiten Man definiert meistens auch noch die mittleren Abweichungsquadrate oft falschlicherweise mittlere Quadratsummen genannt M Q A 1 k 1 S Q A displaystyle MQA frac 1 k 1 SQA nbsp und M Q R 1 N k S Q R displaystyle MQR frac 1 N k SQR nbsp Damit lasst sich die Prufgrosse bzw die F Statistik wie folgt definieren F M Q A M Q R i 1 k n i y i y 2 k 1 i 1 k n i 1 s i 2 N k displaystyle F equiv frac MQA MQR frac sum i 1 k n i overline y i mathbf overline y mathbf 2 k 1 sum i 1 k n i 1 s i 2 N k nbsp Im Falle von Gruppen gleicher Grosse ist F displaystyle F nbsp unter der Nullhypothese also F verteilt mit k 1 displaystyle k 1 nbsp Freiheitsgraden im Zahler und N k displaystyle N k nbsp Freiheitsgraden im Nenner Wenn die Prufgrosse signifikant wird unterscheiden sich mindestens zwei Gruppen voneinander In Post hoc Tests kann dann berechnet werden zwischen welchen einzelnen Gruppen der Unterschied liegt Beispielrechnung Bearbeiten Bei dem folgenden Beispiel handelt es sich um eine einfache Varianzanalyse mit zwei Gruppen auch Zwei Stichproben F Test In einem Versuch erhalten zwei Gruppen k 2 displaystyle k 2 nbsp von jeweils 10 displaystyle 10 nbsp n 1 n 2 10 displaystyle n 1 n 2 10 nbsp Tieren unterschiedliche Nahrung Nach einer gewissen Zeit wird ihre Gewichtszunahme mit folgenden Werten gemessen Gruppe 1 45 displaystyle 45 nbsp 23 displaystyle 23 nbsp 55 displaystyle 55 nbsp 32 displaystyle 32 nbsp 51 displaystyle 51 nbsp 91 displaystyle 91 nbsp 74 displaystyle 74 nbsp 53 displaystyle 53 nbsp 70 displaystyle 70 nbsp 84 displaystyle 84 nbsp Gruppe 2 64 displaystyle 64 nbsp 75 displaystyle 75 nbsp 95 displaystyle 95 nbsp 56 displaystyle 56 nbsp 44 displaystyle 44 nbsp 130 displaystyle 130 nbsp 106 displaystyle 106 nbsp 80 displaystyle 80 nbsp 87 displaystyle 87 nbsp 115 displaystyle 115 nbsp Es soll untersucht werden ob die unterschiedliche Nahrung einen signifikanten Einfluss auf das Gewicht hat Der Mittelwert und die Varianz hier Schatzwert empirische Varianz der beiden Gruppen betragen y 1 1 n 1 j 1 n 1 y 1 j 57 8 displaystyle overline y 1 mathbf frac 1 n 1 sum j 1 n 1 y 1j 57 8 quad nbsp und s 1 2 1 n 1 1 j 1 n 1 y 1 j y 1 2 479 7 displaystyle s 1 mathbf 2 frac 1 n 1 1 sum j 1 n 1 y 1j overline y 1 mathbf 2 479 7 nbsp y 2 1 n 2 j 1 n 2 y 2 j 85 2 displaystyle overline y 2 mathbf frac 1 n 2 sum j 1 n 2 y 2j 85 2 quad nbsp und s 2 2 1 n 2 1 j 1 n 2 y 2 j y 2 2 728 6 displaystyle s 2 mathbf 2 frac 1 n 2 1 sum j 1 n 2 y 2j overline y 2 mathbf 2 728 6 nbsp Weil n 1 n 2 10 displaystyle n 1 n 2 10 nbsp lasst sich daraus berechnen M Q A n 1 y 1 y 2 n 2 y 2 y 2 10 y 1 y 2 2 2 5 y 1 y 2 2 3753 8 displaystyle MQA n 1 overline y 1 mathbf overline y mathbf 2 n 2 overline y 2 mathbf overline y mathbf 2 10 frac overline y 1 mathbf overline y 2 mathbf 2 2 5 overline y 1 mathbf overline y 2 mathbf 2 3753 8 nbsp und M Q R n 1 1 s 1 2 n 2 1 s 2 2 n 1 n 2 2 604 15 displaystyle MQR frac n 1 1 s 1 mathbf 2 n 2 1 s 2 mathbf 2 n 1 n 2 2 604 15 nbsp Das zugrunde liegende Wahrscheinlichkeitsmodell setzt voraus dass die Gewichte der Tiere normalverteilt sind und pro Gruppe dieselbe Varianz aufweisen Die zu testende Nullhypothese ist H 0 displaystyle H 0 nbsp Die Mittelwerte der beiden Gruppen sind gleich Offensichtlich unterscheiden sich die Mittelwerte y 1 displaystyle overline y 1 mathbf nbsp und y 2 displaystyle overline y 2 nbsp Diese Abweichung konnte jedoch auch im Bereich der naturlichen Schwankungen liegen Um zu prufen ob die Unterscheidung signifikant ist wird die Testgrosse F displaystyle F nbsp berechnet F M Q A M Q R 3753 8 604 15 6 21 displaystyle F equiv frac MQA MQR frac 3753 8 604 15 approx 6 21 nbsp Die Grosse F displaystyle F nbsp ist nach dem zugrunde liegenden Modell eine Zufallsvariable mit einer F k 1 n k displaystyle F k 1 n k nbsp Verteilung wobei k displaystyle k nbsp die Anzahl der Gruppen Faktorstufen und n displaystyle n nbsp die Anzahl der Messwerte sind Die Indizes werden als Freiheitsgrade bezeichnet Der Wert der F Verteilung fur gegebene Freiheitsgrade F Quantil kann in einer Fisher Tafel nachgeschlagen werden Dabei muss noch ein gewunschtes Signifikanzniveau die Irrtumswahrscheinlichkeit angegeben werden Im vorliegenden Fall ist F 1 18 4 41 displaystyle F 1 18 approx 4 41 nbsp das F Quantil zum Fehler 1 Art von 5 Das heisst dass bei allen Werten der Testgrosse F displaystyle F nbsp bis 4 41 die Nullhypothese nicht abgelehnt werden kann Da 6 21 gt 4 41 displaystyle 6 21 gt 4 41 nbsp wird die Nullhypothese bei den vorliegenden Werten abgelehnt Es kann also davon ausgegangen werden dass die Tiere in den beiden Gruppen im Mittel wirklich ein unterschiedliches Gewicht aufweisen Die Wahrscheinlichkeit einen Unterschied anzunehmen obwohl dieser nicht vorliegt liegt bei unter 5 Zweifache Varianzanalyse BearbeitenDie zweifache Varianzanalyse auch Zweiweg Varianzanalyse englisch two way analysis of variance kurz two way ANOVA oder zweifaktorielle Varianzanalyse genannt berucksichtigt zur Erklarung der Zielvariablen zwei Faktoren Faktor A und Faktor B Beispiel Bearbeiten Diese Form der Varianzanalyse ist z B bei Untersuchungen angezeigt welche den Einfluss von Rauchen und Kaffeetrinken auf die Nervositat darstellen wollen Rauchen ist hier der Faktor A welcher in z B drei Auspragungen Faktorstufen unterteilt werden kann Nicht Raucher leichter Raucher und Kettenraucher Der Faktor B kann die taglich genutzte Menge Kaffee sein mit den Stufen 0 Tassen 1 3 Tassen 4 8 Tassen mehr als 8 Tassen Die Nervositat ist die abhangige Variable Zur Durchfuhrung der Untersuchung werden Versuchspersonen uber 12 Gruppen verteilt entsprechend der Kombinationen der Faktorstufen Dabei wird die Messung der Nervositat durchgefuhrt die metrische Daten liefert Grundgedanken der Rechnung Bearbeiten Das Modell fur den Fall mit festen Effekten in Effektdarstellung lautet Y i j k m a i b j a b i j e i j k e i j k N 0 s 2 i 1 I j 1 J k 1 K displaystyle Y ijk mu alpha i beta j alpha beta ij varepsilon ijk quad varepsilon ijk sim mathcal N 0 sigma 2 quad i 1 dots I quad j 1 dots J quad k 1 dots K nbsp Darin sind Y i j k displaystyle Y ijk nbsp Zielvariable annahmegemass in den Gruppen normalverteilt I displaystyle I nbsp Anzahl der Faktorstufen des ersten Faktors A J displaystyle J nbsp Anzahl der Faktorstufen des zweiten Faktors B K displaystyle K nbsp Anzahl der Beobachtungen pro Faktorstufe hier fur alle Kombinationen von Faktorstufen gleich a i displaystyle alpha i nbsp Effekt der i displaystyle i nbsp ten Faktorstufe des Faktors A b j displaystyle beta j nbsp Effekt der j displaystyle j nbsp ten Faktorstufe des Faktors B a b i j displaystyle alpha beta ij nbsp Interaktion Wechselwirkung der Faktoren auf der Faktorstufenkombination i j displaystyle i j nbsp Die Interaktion beschreibt einen besonderen Effekt der nur auftritt wenn die Faktorstufenkombination i j displaystyle i j nbsp vorliegt e i j k displaystyle varepsilon ijk nbsp Storvariablen unabhangig und normalverteilt mit Erwartungswert 0 displaystyle 0 nbsp und gleichen Varianzen Die Gesamtquadratsumme S Q T displaystyle SQT nbsp wird hier zerlegt in vier unabhangige Quadratsummen Quadratsummenzerlegung S Q T S Q A S Q B S Q A B S Q R displaystyle SQT SQA SQB SQAB SQR nbsp Darin sind S Q T y i j k y 2 displaystyle SQT sum y ijk overline y mathbf 2 nbsp die Gesamtquadratsumme S Q R y i j k y i j 2 displaystyle SQR sum y ijk overline y ij mathbf 2 nbsp die Residuenquadratsumme S Q A B y i j y i y j y 2 displaystyle SQAB sum overline y ij overline y i mathbf overline y mathbf j mathbf overline y mathbf 2 nbsp die Quadratsumme bedingt durch die Interaktion von A und B S Q A y i y 2 displaystyle SQA sum overline y i mathbf overline y mathbf 2 nbsp die durch Faktor A bedingte Quadratsumme S Q B y j y 2 displaystyle SQB sum overline y mathbf j mathbf overline y mathbf 2 nbsp die durch Faktor B bedingte Quadratsumme Die Erwartungswerte der Quadratsummen sind E S Q R I J K 1 s 2 displaystyle operatorname E SQR IJ K 1 sigma 2 nbsp E S Q A B K i j a b i j 2 I 1 J 1 s 2 displaystyle operatorname E SQAB K sum limits i j alpha beta i j 2 I 1 J 1 sigma 2 nbsp E S Q A J K i a i 2 I 1 s 2 displaystyle operatorname E SQA JK sum i alpha i 2 I 1 sigma 2 nbsp E S Q B I K j b j 2 J 1 s 2 displaystyle operatorname E SQB IK sum j beta j 2 J 1 sigma 2 nbsp Die Quadratsummen dividiert durch s 2 displaystyle sigma 2 nbsp sind unter geeigneten Annahmen Chi Quadrat verteilt und zwar S Q R s 2 displaystyle SQR sigma 2 nbsp mit I J K 1 displaystyle IJ K 1 nbsp Freiheitsgraden S Q A B s 2 displaystyle SQAB sigma 2 nbsp mit I 1 J 1 displaystyle I 1 J 1 nbsp Freiheitsgraden wenn a b i j 0 displaystyle alpha beta i j equiv 0 nbsp S Q A s 2 displaystyle SQA sigma 2 nbsp mit I 1 displaystyle I 1 nbsp Freiheitsgraden wenn a i 0 displaystyle alpha i equiv 0 nbsp S Q B s 2 displaystyle SQB sigma 2 nbsp mit J 1 displaystyle J 1 nbsp Freiheitsgraden wenn b j 0 displaystyle beta j equiv 0 nbsp Die mittleren Abweichungsquadrate ergeben sich bei Division der Quadratsummen durch ihre Freiheitsgrade M Q R S Q R I J K 1 displaystyle MQR frac SQR IJ K 1 nbsp M Q A B S Q A B I 1 J 1 displaystyle MQAB frac SQAB I 1 J 1 nbsp M Q A S Q A I 1 displaystyle MQA frac SQA I 1 nbsp M Q B S Q B J 1 displaystyle MQB frac SQB J 1 nbsp Die zutreffende Prufgrossen berechnen sich wie die Quotienten der mittleren Abweichungsquadrate mit M Q R displaystyle MQR nbsp als Nenner Man berechnet nun die Varianzen fur die einzelnen Faktoren und die Varianz fur die Wechselwirkung von A displaystyle A nbsp und B displaystyle B nbsp Die Hypothese H 0 displaystyle H 0 nbsp lautet Es gibt keine Wechselwirkung Wieder wird die Hypothese mit der Prufstatistik F displaystyle F nbsp berechnet Diese setzt sich nun zusammen als der Quotient der durch die Wechselwirkung von A displaystyle A nbsp und B displaystyle B nbsp entstand und die Fehlervarianz Man vergleicht nun mit den F Quantilen nach Angabe eines gewunschten Signifikanzniveaus Ist die Prufgrosse F displaystyle F nbsp grosser als das Quantil letzteres ist in einschlagigen Tabellen ablesbar dann wird H 0 displaystyle H 0 nbsp verworfen es gibt also eine Wechselwirkung zwischen den Faktoren A displaystyle A nbsp und B displaystyle B nbsp Tafel der Varianzanalyse Bearbeiten In einer praktischen Analyse werden die Ergebnisse in der Tafel der Varianzanalyse zusammengefasst Variationsquelle Abweichungsquadratsumme SQ Anzahl der Freiheitsgrade FG Mittleres Abweichungsquadrat MQ F Statistik F Faktor A S Q A displaystyle SQA nbsp I 1 displaystyle I 1 nbsp M Q A S Q A I 1 displaystyle MQA SQA I 1 nbsp M Q A M Q R displaystyle MQA MQR nbsp Faktor B S Q B displaystyle SQB nbsp J 1 displaystyle J 1 nbsp M Q B S Q B J 1 displaystyle MQB SQB J 1 nbsp M Q B M Q R displaystyle MQB MQR nbsp Interaktion S Q A B displaystyle SQAB nbsp I 1 J 1 displaystyle I 1 J 1 nbsp M Q A B S Q A B I 1 J 1 displaystyle MQAB SQAB I 1 J 1 nbsp M Q A B M Q R displaystyle MQAB MQR nbsp Residual S Q R displaystyle SQR nbsp I J K 1 displaystyle IJ K 1 nbsp M Q R S Q R I J K 1 displaystyle MQR SQR IJ K 1 nbsp Total S Q T displaystyle SQT nbsp I J K 1 displaystyle IJK 1 nbsp Mehrfache Varianzanalyse mehr als zwei Faktoren BearbeitenAuch mehrere Faktoren sind moglich Diese Art der Varianzanalyse wird als mehrfache Varianzanalyse oder als mehrfaktorielle Varianzanalyse bezeichnet Allerdings steigt der Datenbedarf fur eine Schatzung der Modellparameter mit der Anzahl der Faktoren stark an Auch die Darstellungen des Modells z B in Tabellen werden mit zunehmender Anzahl der Faktoren unubersichtlicher Mehr als drei Faktoren konnen nur noch schwer dargestellt werden Siehe auch BearbeitenKovarianzanalyseLiteratur BearbeitenLudwig Fahrmeir u a Hrsg Multivariate statistische Verfahren 2 uberarbeitete Auflage Walter de Gruyter Berlin u a 1996 ISBN 3 11 013806 9 Ludwig Fahrmeir Rita Kunstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse 8 uberarb und erg Auflage Springer Spektrum Berlin Heidelberg 2016 ISBN 978 3 662 50371 3 Springer Lehrbuch Joachim Hartung Barbel Elpelt Multivariate Statistik Lehr und Handbuch der angewandten Statistik 6 unwesentlich veranderte Auflage Oldenbourg Munchen u a 1999 ISBN 3 486 25287 9 Klaus Backhaus u a Multivariate Analysemethoden Eine anwendungsorientierte Einfuhrung 11 uberarbeitete Auflage Springer Berlin u a 2006 ISBN 3 540 27870 2 Springer Lehrbuch Einzelnachweise Bearbeiten Hans Friedrich Eckey Multivariate Statistik Grundlagen Methoden Beispiele Dr Th Gabler Verlag Auflage 2002 12 September 2002 ISBN 978 3409119696 S 94 Werner Timischl Angewandte Statistik Eine Einfuhrung fur Biologen und Mediziner 2013 3 Auflage S 360 Ludwig Fahrmeir Rita Kunstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse 8 uberarb und erg Auflage Springer Spektrum Berlin Heidelberg 2016 ISBN 978 3 662 50371 3 S 480 Werner Timischl Angewandte Statistik Eine Einfuhrung fur Biologen und Mediziner 2013 3 Auflage S 361 Werner Timischl Angewandte Statistik Eine Einfuhrung fur Biologen und Mediziner 2013 3 Auflage S 362 Werner Timischl Angewandte Statistik Eine Einfuhrung fur Biologen und Mediziner 2013 3 Auflage S 362 Abgerufen von https de wikipedia org w index php title Varianzanalyse amp oldid 221332381