www.wikidata.de-de.nina.az
Ein statistischer Test dient in der Testtheorie einem Teilgebiet der mathematischen Statistik dazu anhand vorliegender Beobachtungen eine begrundete Entscheidung uber die Gultigkeit oder Ungultigkeit einer Hypothese zu treffen Aus diesem Grund spricht man auch von einem Hypothesentest Formal ist ein Test also eine mathematische Funktion die einem Beobachtungsergebnis eine Entscheidung zuordnet Da die vorhandenen Daten Realisierungen von Zufallsvariablen sind lasst sich in den meisten Fallen nicht mit Sicherheit sagen ob eine Hypothese wahr ist oder nicht Man versucht daher die Wahrscheinlichkeiten fur Fehlentscheidungen zu kontrollieren Meistens wird eine Hypothesentest in der Form eines Signifikanztests durchgefuhrt der ein Test zu einem vorgegebenen Signifikanzniveau ist Inhaltsverzeichnis 1 Interpretation eines statistischen Tests 2 Beispiel 2 1 Test auf hellseherische Fahigkeiten 3 Mogliche Fehlentscheidungen 4 Die formale Vorgehensweise 5 Formale Definition eines statistischen Tests 5 1 Nichtrandomisierte Tests 5 1 1 Entscheidungsregel Fehler 1 und 2 Art 5 1 2 Ablehnbereich 5 1 3 Gutefunktion Fehlerwahrscheinlichkeiten 1 und 2 Art 5 1 4 Signifikanzniveau Niveau a Bedingung Niveau a Test 5 1 5 Umfang eines Tests 5 1 6 Umfang a Test 5 1 7 Unverfalschtheit 5 1 8 Teststatistik 5 2 Randomisierte Tests 6 Asymptotisches Verhalten des Tests 7 Problem der Modellwahl 8 Typen und Eigenschaften von Tests 8 1 Parametrische und nichtparametrische Tests 8 1 1 Parametrische Tests parametrisches Prufverfahren 8 1 2 Nichtparametrische Tests 8 2 Verteilungsfreie und verteilungsgebundene Tests 8 3 Konservativer Test 8 4 Exakter Test 8 5 Ein und zweiseitige Tests 8 6 Aquivalenztest 8 7 Nichtunterlegenheitstest 8 8 Signifikanztest 8 9 Alternativtest 8 10 Durchschnitts Vereinigungs Test 8 11 Vereinigungs Durchschnitts Test 8 12 Multiples Testen 8 13 Abgrenzung zu psychologischen und medizinischen Tests 8 13 1 Psychologischer Test 8 13 2 Medizinischer Test 9 Ubersicht Tests 9 1 Tests auf Lageparameter Mittelwert Median 9 2 Tests auf Streuung 9 3 Tests auf Zusammenhangs und Assoziationsparameter 9 4 Anpassungs oder Verteilungstests 9 5 Tests in der Regressions und Zeitreihenanalyse 9 6 Verschiedene Tests 9 7 Sonstiges 10 Siehe auch 11 Anmerkungen 12 Literatur 13 WeblinksInterpretation eines statistischen Tests BearbeitenEin statistisches Testverfahren lasst sich im Prinzip mit einem Gerichtsverfahren vergleichen Das Verfahren hat meistens den Zweck festzustellen ob es ausreichend Beweise gibt den Angeklagten zu verurteilen Es wird dabei immer von der Unschuld eines Verdachtigen ausgegangen und solange grosse Zweifel an den Belegen fur ein tatsachliches Vergehen bestehen wird ein Angeklagter freigesprochen Nur wenn die Indizien fur die Schuld eines Angeklagten deutlich uberwiegen kommt es zu einer Verurteilung Es gibt demnach zu Beginn des Verfahrens die beiden Hypothesen H 0 displaystyle H 0 nbsp der Verdachtige ist unschuldig und H 1 displaystyle H 1 nbsp der Verdachtige ist schuldig Erstere nennt man Nullhypothese von ihr wird vorlaufig ausgegangen Die zweite nennt man Gegenhypothese oder Alternativhypothese Sie ist diejenige die zu beweisen versucht wird Um einen Unschuldigen nicht zu leicht zu verurteilen wird die Hypothese der Unschuld erst dann verworfen wenn ein Irrtum sehr unwahrscheinlich ist Man spricht auch davon die Wahrscheinlichkeit fur einen Fehler 1 Art also das Verurteilen eines Unschuldigen zu kontrollieren Naturgemass wird durch dieses unsymmetrische Vorgehen die Wahrscheinlichkeit fur einen Fehler 2 Art also das Freisprechen eines Schuldigen gross Aufgrund der stochastischen Struktur des Testproblems lassen sich wie in einem Gerichtsverfahren Fehlentscheidungen grundsatzlich nicht vermeiden Man versucht in der Statistik allerdings optimale Tests zu konstruieren die die Fehlerwahrscheinlichkeiten minimieren Beispiel BearbeitenTest auf hellseherische Fahigkeiten Bearbeiten Es soll versucht werden einen Test auf hellseherische Fahigkeiten zu entwickeln Einer Testperson wird 25 mal die Ruckseite einer rein zufallig gewahlten Spielkarte gezeigt und sie wird jeweils danach gefragt zu welcher der vier Farben Kreuz Pik Herz Karo die Karte gehort Die Anzahl der Treffer nennen wir X displaystyle X nbsp Da die hellseherischen Fahigkeiten der Person getestet werden sollen gehen wir vorlaufig von der Nullhypothese aus die Testperson sei nicht hellsehend Die Alternativhypothese lautet entsprechend Die Testperson ist hellseherisch begabt Was bedeutet das fur unseren Test Wenn die Nullhypothese richtig ist wird die Testperson nur versuchen konnen die jeweilige Farbe zu erraten Fur jede Karte gibt es bei vier Farben eine Wahrscheinlichkeit von 1 4 displaystyle tfrac 1 4 nbsp die richtige Farbe zu erraten Wenn die Alternativhypothese richtig ist hat die Person fur jede Karte eine grossere Wahrscheinlichkeit als 1 4 Wir nennen die Wahrscheinlichkeit einer richtigen Vorhersage p displaystyle p nbsp Die Hypothesen lauten dann 1 H 0 p 1 4 displaystyle H 0 colon p frac 1 4 nbsp und H 1 p gt 1 4 displaystyle H 1 colon p gt frac 1 4 nbsp Wenn die Testperson alle 25 Karten richtig benennt werden wir sie als Hellseher betrachten und die Alternativhypothese annehmen Und mit 24 oder 23 Treffern auch Andererseits gibt es bei nur 5 oder 6 Treffern keinen Grund dazu Aber was ware mit 12 Treffern Was ware mit 17 Treffern Wo liegt die kritische Anzahl an Treffern c displaystyle c nbsp von der an wir nicht mehr glauben konnen es seien reine Zufallstreffer Das kommt darauf an wie kritisch man genau sein will also wie oft man eine Fehlentscheidung erster Art zulasst Mit c 25 displaystyle c 25 nbsp ist die Wahrscheinlichkeit einer solchen Fehlentscheidung also die Wahrscheinlichkeit dass eine nicht hellseherische Testperson nur rein zufallig 25 mal richtig geraten hat extrem klein P T A H 0 ist richtig P X 25 p 1 4 1 4 25 10 15 displaystyle P T in A mid H 0 text ist richtig P left X geq 25 mid p tfrac 1 4 right left tfrac 1 4 right 25 approx 10 15 nbsp Hier stellt A den Ablehnbereich dar Wir nehmen H 0 displaystyle H 0 nbsp an wenn fur die Teststatistik des Test gilt dass T A displaystyle T notin A nbsp und lehnen H 0 displaystyle H 0 nbsp ab wenn T A displaystyle T in A nbsp Weniger kritisch mit c 10 displaystyle c 10 nbsp erhalten wir mit der Binomialverteilung B p 25 displaystyle B cdot mid p 25 nbsp eine wesentlich grossere Wahrscheinlichkeit P T A H 0 ist richtig P X 10 p 1 4 i 10 25 B i 1 4 25 i 10 25 25 i 1 4 i 1 1 4 25 i 0 07 displaystyle P T in A mid H 0 text ist richtig P left X geq 10 mid p tfrac 1 4 right sum i 10 25 B left i mid tfrac 1 4 25 right sum i 10 25 binom 25 i left tfrac 1 4 right i left 1 tfrac 1 4 right 25 i approx 0 07 nbsp Vor dem Test wird eine Wahrscheinlichkeit fur den Fehler erster Art festgesetzt das Signifikanzniveau a displaystyle alpha nbsp Typisch sind Werte zwischen 1 und 5 Abhangig davon lasst sich hier fur den Fall a 1 displaystyle alpha 1 nbsp dann c displaystyle c nbsp so bestimmen dass P T A H 0 ist richtig P X c p 1 4 0 01 displaystyle P T in A mid H 0 text ist richtig P left X geq c mid p tfrac 1 4 right leq 0 01 nbsp gilt Unter allen Zahlen c displaystyle c nbsp die diese Eigenschaft erfullen wird man zuletzt c displaystyle c nbsp als die kleinste Zahl wahlen die diese Eigenschaft erfullt um die Wahrscheinlichkeit fur den Fehler zweiter Art klein zu halten In diesem konkreten Beispiel folgt c 13 displaystyle c 13 nbsp Ein Test dieser Art heisst Binomialtest da die Anzahl der Treffer unter der Nullhypothese binomialverteilt ist Mogliche Fehlentscheidungen BearbeitenAuch wenn es wunschenswert ist dass der Test aufgrund der vorliegenden Daten richtig entscheidet besteht die Moglichkeit von Fehlentscheidungen Im mathematischen Modell bedeutet dies dass man bei richtiger Nullhypothese und Entscheidung fur die Alternative einen Fehler 1 Art a Fehler begangen hat Falls man die Nullhypothese bestatigt sieht obwohl sie nicht stimmt begeht man einen Fehler 2 Art b Fehler In der statistischen Praxis macht man aus diesem vordergrundig symmetrischen Problem ein asymmetrisches Man legt also ein Signifikanzniveau a fest das eine obere Schranke fur die Wahrscheinlichkeit eines Fehlers erster Art liefert Tests mit dieser Eigenschaft heissen Test zum Niveau a displaystyle alpha nbsp Im Anschluss daran versucht man einen optimalen Test zum vorgegebenen Niveau dadurch zu erhalten dass man unter allen Tests zum Niveau a einen sucht der die geringste Wahrscheinlichkeit fur einen Fehler 2 Art aufweist Die formale Vorgehensweise BearbeitenGenerell geht man bei der Anwendung eines Tests in folgenden Schritten vor Formulierung einer Nullhypothese H 0 displaystyle H 0 nbsp und ihrer Alternativhypothese H 1 displaystyle H 1 nbsp Wahl des geeigneten Tests Testgrosse oder Teststatistik T displaystyle T nbsp Bestimmung des kritischen Bereiches K displaystyle K nbsp zum Signifikanzniveau a displaystyle alpha nbsp das vor Realisierung der Stichprobe feststehen muss Der kritische Bereich wird aus den unter der Nullhypothese nur mit geringer Wahrscheinlichkeit auftretenden Werten der Teststatistik gebildet Berechnung des Werts der Beobachtung t obs displaystyle t text obs nbsp der Testgrosse T displaystyle T nbsp aus der Stichprobe je nach Testverfahren etwa den t displaystyle t nbsp Wert oder U displaystyle U nbsp oder H displaystyle H nbsp oder x 2 displaystyle chi 2 nbsp Treffen der Testentscheidung Liegt t obs displaystyle t text obs nbsp nicht in K displaystyle K nbsp so wird H 0 displaystyle H 0 nbsp beibehalten Liegt t obs displaystyle t text obs nbsp in K displaystyle K nbsp so lehnt man H 0 displaystyle H 0 nbsp zugunsten von H 1 displaystyle H 1 nbsp ab Formale Definition eines statistischen Tests Bearbeiten nbsp Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Sei X displaystyle X nbsp eine Zufallsvariable die von einem Wahrscheinlichkeitsraum W A P 8 displaystyle Omega mathcal A mathbb P theta nbsp in einen Messraum X F displaystyle mathcal X mathcal F nbsp abbildet Sei zusatzlich P P 8 8 8 displaystyle mathcal P P theta theta in Theta nbsp die parametrisierte Verteilungsannahme also eine Familie von Wahrscheinlichkeitsmassen auf X F displaystyle mathcal X mathcal F nbsp wobei P 8 8 P displaystyle P theta colon theta to mathcal P nbsp eine Bijektion ist 2 Dabei ist P 8 P 8 X 1 displaystyle P theta mathbb P theta circ X 1 nbsp die Verteilung von X displaystyle X nbsp Hierbei sei 8 displaystyle Theta nbsp der Parameterraum der in der Praxis meist eine Teilmenge des R d displaystyle mathbb R d nbsp mit d N displaystyle d in mathbb N nbsp ist Zwei disjunkte 3 Teilmengen 8 0 displaystyle Theta 0 nbsp und 8 1 displaystyle Theta 1 nbsp von 8 displaystyle Theta nbsp definieren das Testproblem H 0 8 8 0 displaystyle H 0 theta in Theta 0 nbsp H 1 8 8 1 displaystyle H 1 theta in Theta 1 nbsp wobei H 0 displaystyle H 0 nbsp die Nullhypothese und H 1 displaystyle H 1 nbsp die Gegenhypothese oder auch Alternativhypothese bezeichnet Dabei bilden haufig aber nicht notwendig die beiden Mengen 8 0 displaystyle Theta 0 nbsp und 8 1 displaystyle Theta 1 nbsp eine Zerlegung von 8 displaystyle Theta nbsp Nichtrandomisierte Tests Bearbeiten Entscheidungsregel Fehler 1 und 2 Art Bearbeiten Eine messbare Funktion f X 0 1 displaystyle varphi colon mathcal X rightarrow 0 1 nbsp heisst nichtrandomisierter Test 4 Die Funktion f displaystyle varphi nbsp heisst auch Testfunktion und hat folgende inhaltliche Interpretation als Entscheidungsregel f x 1 displaystyle varphi x 1 iff nbsp H 0 displaystyle H 0 nbsp wird abgelehnt oder verworfen f x 0 displaystyle varphi x 0 iff nbsp H 0 displaystyle H 0 nbsp wird nicht abgelehnt oder beibehalten Das Testergebnis H 0 displaystyle H 0 nbsp wird abgelehnt wird auch verbal umschrieben als H 0 displaystyle H 0 nbsp ist mit der Beobachtung nicht vertraglich H 1 displaystyle H 1 nbsp ist signifikant oder H 1 displaystyle H 1 nbsp wird durch die Beobachtung statistisch nachgewiesen 5 Es sind zwei Arten von Fehlentscheidungen moglich Der Fehler 1 Art wird begangen wenn H 0 displaystyle H 0 nbsp falschlich abgelehnt wird der Fehler 2 Art wird begangen wenn H 0 displaystyle H 0 nbsp nicht abgelehnt wird obwohl H 0 displaystyle H 0 nbsp falsch ist Ablehnbereich Bearbeiten Die Menge K f x X f x 1 displaystyle K varphi x in mathcal X mid varphi x 1 nbsp derjenigen Beobachtungsergebnisse x displaystyle x nbsp die zu einer Ablehnung von H 0 displaystyle H 0 nbsp fuhren heisst kritischer Bereich 5 auch Ablehnungsbereich 6 oder Ablehnbereich 5 des Tests Es gilt die Aquivalenz x K f f x 1 displaystyle x in K varphi iff varphi x 1 nbsp fur die Aussagen und die Gleichheit X K f f X 1 displaystyle X in K varphi varphi X 1 nbsp der Ereignisse Die Komplementmenge X K f displaystyle mathcal X setminus K varphi nbsp heisst Nichtablehnungsbereich oder Annahmebereich Gutefunktion Fehlerwahrscheinlichkeiten 1 und 2 Art Bearbeiten Die Funktion G f 8 8 0 1 displaystyle G varphi theta colon Theta to 0 1 nbsp mit G f 8 P 8 X K f P 8 f X 1 P 8 K f displaystyle G varphi theta mathbb P theta X in K varphi mathbb P theta varphi X 1 P theta K varphi nbsp ordnet jedem Parameterwert 8 displaystyle theta nbsp die Wahrscheinlichkeit P 8 K f displaystyle P theta K varphi nbsp zu mit der H 0 displaystyle H 0 nbsp abgelehnt wird und heisst Gutefunktion des Tests 7 Die Gutefunktion eines Tests enthalt alle Informationen daruber mit welchen Wahrscheinlichkeiten bei der Testentscheidung die Fehler 1 oder 2 Art begangen werden Die Wahrscheinlichkeiten G f 8 displaystyle G varphi theta nbsp fur 8 8 0 displaystyle theta in Theta 0 nbsp sind die Fehlerwahrscheinlichkeiten 1 Art also die Wahrscheinlichkeiten dass bei der Testenscheidung ein Fehler 1 Art begegangen wird Die Wahrscheinlichkeiten 1 G f 8 displaystyle 1 G varphi theta nbsp fur 8 8 1 displaystyle theta in Theta 1 nbsp sind die Fehlerwahrscheinlichkeiten 2 Art also die Wahrscheinlichkeiten dass bei der Testenscheidung ein Fehler 2 Art begegangen wird Signifikanzniveau Niveau a Bedingung Niveau a Test Bearbeiten Sei nun ein Signifikanz Niveau a 0 1 displaystyle alpha in 0 1 nbsp vorgegen das auch zugelassene oder erlaubte Irrtumswahrscheinlichkeit heisst Dann heisst ein Test f displaystyle varphi nbsp ein Signifikanz Test zum Niveau a displaystyle alpha nbsp 8 fur das Testproblem H 0 displaystyle H 0 nbsp gegen H 1 displaystyle H 1 nbsp auch Niveau a displaystyle alpha nbsp Test wenn P 8 X K f a fur alle 8 8 0 displaystyle mathbb P theta X in K varphi leq alpha quad text fur alle theta in Theta 0 nbsp gilt Diese Bedingung heisst Niveau a displaystyle alpha nbsp Bedingung 8 und kann auch in der Form sup 8 8 0 P 8 X K f a displaystyle sup theta in Theta 0 mathbb P theta X in K varphi leq alpha nbsp geschrieben werden Durch die Niveau a displaystyle alpha nbsp Bedingung werden die Fehlerwahrscheinlichkeiten 1 Art durch a displaystyle alpha nbsp nach oben beschrankt Umfang eines Tests Bearbeiten Die linke Seite der Ungleichung in der Niveau a displaystyle alpha nbsp Bedingung heisst Umfang des Tests 9 oder tatsachliches Niveau des Testes 10 Umfang a Test Bearbeiten Ein Niveau a displaystyle alpha nbsp Test heisst Test mit Umfang a displaystyle alpha nbsp oder kurz Umfang a displaystyle alpha nbsp Test wenn sup 8 8 0 P 8 X K f a displaystyle sup theta in Theta 0 mathbb P theta X in K varphi alpha nbsp gilt 11 Man sagt dann auch der Test schopft das vorgegebene Signifikanzniveau aus Wenn der Umfang des Tests kleiner als das vorgegebene Signifikanzniveau ist heisst der Test konservativ 12 In der Regel sucht man einen Test f displaystyle varphi nbsp der bei eingehaltener Niveau a displaystyle alpha nbsp Bedingung die Fehlerwahrscheinlichkeiten 2 Art P 8 X K f 1 P 8 X K f fur 8 8 1 displaystyle mathbb P theta X notin K varphi 1 mathbb P theta X in K varphi quad text fur theta in Theta 1 nbsp minimiert 8 Unverfalschtheit Bearbeiten Als Minimalanforderung an einen Test gilt die Unverfalschheit des Tests 13 die besagt dass die Ablehnwahrscheinlichkeiten P 8 X K f displaystyle mathbb P theta X in K varphi nbsp wenn H 0 displaystyle H 0 nbsp falsch ist unter H 1 displaystyle H 1 nbsp mindestens so gross sein mussen wie diejenigen wenn H 0 displaystyle H 0 nbsp richtig ist unter H 0 displaystyle H 0 nbsp formal sup 8 8 0 P 8 X K f inf 8 8 1 P 8 X K f displaystyle sup theta in Theta 0 mathbb P theta X in K varphi leq inf theta in Theta 1 mathbb P theta X in K varphi nbsp Teststatistik Bearbeiten Meistens ist X displaystyle X nbsp eine n displaystyle n nbsp dimensionale Zufallsvariable mit Werten in X R n displaystyle mathcal X subseteq mathbb R n nbsp wobei n displaystyle n nbsp den Stichprobenumfang bezeichnet Die formale Definition und die praktische Durchfuhrung eines Tests basiert haufig auf einer eindimensionalen reellwertigen Teststatistik oder Prufgrosse T T X displaystyle T T X nbsp fur die ein Ablehnbereich als Teilmenge von R displaystyle mathbb R nbsp angegeben wird Randomisierte Tests Bearbeiten Die Definition eines randomisierten Tests verlauft ahnlich wie beim nichtrandomisierten Test Jedoch ist ein randomisierter Test eine messbare Funktion f X 0 1 displaystyle varphi colon mathcal X rightarrow 0 1 nbsp f x 1 fur x K 1 g x fur x K 01 0 fur x K 0 displaystyle varphi x begin cases 1 amp text fur x in K 1 gamma x amp text fur x in K 01 0 amp text fur x in K 0 end cases nbsp der folgende Interpretation als Entscheidungsregel zugrunde liegt die Nullhypothese H 0 displaystyle H 0 nbsp wird abgelehnt falls x K 1 displaystyle x in K 1 nbsp H 0 displaystyle H 0 nbsp wird nicht abgelehnt falls x K 1 displaystyle x in in K 1 nbsp H 0 displaystyle H 0 nbsp wird mit der Wahrscheinlichkeit g x displaystyle gamma x nbsp abgelehnt falls x K 01 displaystyle x in in K 01 nbsp 4 Der Stichprobenraum X displaystyle mathcal X nbsp wird durch eine randomisierten Test in drei disjunkte Teilbereiche zerlegt den strikten Ablehnungsbereich K 1 x X f x 1 displaystyle K 1 x in mathcal X mid varphi x 1 nbsp den strikten Annahmebereich K 0 x X f x 0 displaystyle K 0 x in mathcal X mid varphi x 0 nbsp und den Randomisierungsbereich K 01 x X 0 lt f x lt 1 displaystyle K 01 x in mathcal X mid 0 lt varphi x lt 1 nbsp Wenn eine Beobachtung im Randomisierungsbereich liegt wird H 0 displaystyle H 0 nbsp mit der Wahrscheinlichkeit g x displaystyle gamma x nbsp abgelehnt und mit der Wahrscheinlichkeit 1 g x displaystyle 1 gamma x nbsp nicht abgelehnt wozu ein weiteres Zufallsexperiment erforderlich ist 4 Randomisierte Tests spielen fur die Konstruktion von Tests eine Rolle bei denen das vorgegebene Signifikanzniveau a displaystyle alpha nbsp ausgeschopft also ein Umfang a displaystyle alpha nbsp Test konstruiert werden soll Die Existenz eines nichtrandomisierten Umfang a displaystyle alpha nbsp Test ist im Allgemeinen nicht gewahrleistet z B wenn die Teststatistik eine diskrete Verteilung hat Haufig genugt eine Beschrankung auf Tests mit konstanter Randomisierung 14 d h g x g displaystyle gamma x bar gamma nbsp fur alle x K 01 displaystyle x in K 01 nbsp mit einer Konstanten g 0 1 displaystyle bar gamma in 0 1 nbsp um einen Umfang a displaystyle alpha nbsp Test zu konstruieren 15 Beispielsweise ist ein Binomialtest wegen der Diskretheit der Teststatistik in der Regel konservativ schopft also das vorgegebene Signifikanzniveau nicht aus kann aber in einer randomisierten Variante zu einem Umfang a displaystyle alpha nbsp Test modifiziert werden 16 17 In der Anwendung von Tests spielen randomisierte Tests eine unbedeutende Rolle Sie sind nur dann anwendbar wenn auf Anwenderseite die Bereitschaft besteht die letztendliche Entscheidung durch einen Zufallsmechanismus z B durch einen Wurfelwurf Benutzung einer Tabelle von Zufallszahlen oder die Verwendung eines Zufallsgenerators fallen zu lassen Asymptotisches Verhalten des Tests Bearbeiten nbsp Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst In den meisten Fallen ist die exakte Wahrscheinlichkeitsverteilung der Teststatistik unter der Nullhypothese nicht bekannt Man steht also vor dem Problem dass kein kritischer Bereich zum vorgegebenen Niveau festgelegt werden kann In diesen Fallen erweitert man die Klasse der zulassigen Tests auf solche die asymptotisch das richtige Niveau besitzen Formal bedeutet dies dass man den Bereich K displaystyle K nbsp so wahlt dass fur alle 8 8 0 displaystyle theta in Theta 0 nbsp die Bedingung lim sup n P 8 T X K a displaystyle limsup n to infty mathbb P theta T X in K leq alpha nbsp erfullt ist In der Regel erhalt man solche asymptotischen Tests via Normalapproximation man versucht also die Teststatistik so zu transformieren dass sie gegen eine Normalverteilung konvergiert Einfache Beispiele hierfur sind der einfache und doppelte t Test fur Erwartungswerte Hier folgt die asymptotische Verteilung direkt aus dem zentralen Grenzwertsatz in der Anwendung auf das arithmetische Mittel Daneben gibt es aber eine Reihe weiterer statistischer Methoden die die Herleitung der asymptotischen Normalverteilung auch fur kompliziertere Funktionale erlauben Hierunter fallt die Delta Methode 18 fur nichtlineare differenzierbare Transformationen asymptotisch normalverteilter Zufallsvariablen Sei c R p R q displaystyle c colon R p rightarrow R q nbsp eine differenzierbare Funktion und sei ein Schatzer b R p displaystyle hat beta in R p nbsp n displaystyle sqrt n nbsp normalverteilt mit asymptotischer Kovarianzmatrix V displaystyle V nbsp dann hat n 0 5 b b displaystyle n 0 5 hat beta beta nbsp folgende Verteilung N 0 c b V c b displaystyle mathcal N 0 partial c partial beta V partial c partial beta nbsp Ferner hat die nichtparametrische Delta Methode auch Einflussfunktionsmethode einige Fortschritte gebracht Sei T F displaystyle T F nbsp ein Funktional das von der Verteilung F displaystyle F nbsp abhangt Sei L x lim d 0 T 1 d F d G T F d displaystyle L x equiv lim delta rightarrow 0 T 1 delta F delta G T F delta nbsp die Gateaux Ableitung der Statistik bei F displaystyle F nbsp Einflussfunktion und sei T displaystyle T nbsp Hadamard differenzierbar bezuglich sup x F x G x displaystyle sup x F x G x nbsp dann hat n T F T F displaystyle sqrt n T hat F T F nbsp folgende Verteilung N 0 L x 2 d F x displaystyle mathcal N left 0 int L x 2 mathrm d F x right nbsp Die Deltamethode erlaubt Normalverteilungsapproximationen fur nichtlineare differenzierbare Transformationen asymptotisch normalverteilter Zufallsvariablen wahrend die Einflussfunktionsmethode solche Approximationen fur viele interessante Charakteristika einer Verteilung zulasst Darunter fallen u a die Momente also etwa Varianz Kurtosis usw aber auch Funktionen dieser Momente etwa Korrelationskoeffizient Eine wichtige weitere Anforderung an einen guten Test ist dass er bei wachsendem Stichprobenumfang empfindlicher wird In statistischen Termini bedeutet dies dass bei Vorliegen einer konsistenten Teststatistik die Wahrscheinlichkeit dafur steigt dass die Nullhypothese auch tatsachlich zu Gunsten der Alternativhypothese verworfen wird falls sie nicht stimmt Speziell wenn der Unterschied zwischen dem tatsachlichen Verhalten der Zufallsvariablen und der Hypothese sehr gering ist wird er erst bei einem entsprechend grossen Stichprobenumfang entdeckt Ob diese Abweichungen jedoch von praktischer Bedeutung sind und uberhaupt den Aufwand einer grossen Stichprobe rechtfertigen hangt von dem zu untersuchenden Aspekt ab Problem der Modellwahl BearbeitenDie meisten mathematischen Resultate beruhen auf Annahmen die bezuglich bestimmter Eigenschaften der beobachteten Zufallsvariablen gemacht werden Je nach Situation werden verschiedene Teststatistiken gewahlt deren asymptotische Eigenschaften wesentlich von den Forderungen an die zu Grunde liegende Verteilungsfamilie abhangen In der Regel mussen diese Modellannahmen zuvor empirisch uberpruft werden um uberhaupt angewendet werden zu konnen Kritisch ist dabei vor allem dass die typischen Testverfahren strengen Voraussetzungen unterworfen sind die in der Praxis selten erfullt sind Typen und Eigenschaften von Tests Bearbeiten nbsp Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Parametrische und nichtparametrische Tests Bearbeiten Parametrische Tests parametrisches Prufverfahren Bearbeiten Bei parametrischen Test wird angenommen dass den beobachteten Daten eine Wahrscheinlichkeitsverteilung zugrunde liegt die in einer Klasse von Verteilungen liegt welche mittels Parametern charakterisiert werden kann 19 Beispielsweise wird die Annahme gemacht dass die Daten normalverteilt sind also die Verteilung der Daten in der Klasse der Normalverteilungen liegt welche durch die Parameter Mittelwert und Varianz charakterisiert sind Nullhypothese und Alternativhypothese lassen sich dann haufig ebenfalls mithilfe von Parametern beschreiben Bei parametrischen Tests ist es wichtig die getroffenen Voraussetzungen zu uberprufen Die Daten sollten annahernd aus der angenommenen Verteilungsklasse stammen Jedoch sind auch manche parametrischen Testverfahren bei Abweichungen von den Voraussetzungen gerade bei grossen Stichprobenumfang robust Beispielsweise ist der T Test bei grossen Stichprobenumfangen noch immer zuverlassig auch wenn die Daten nicht wie eigentlich vorausgesetzt normalverteilt sind Sofern die gemachten Verteilungsannahmen nicht stimmen sind die Ergebnisse des Tests in den meisten Fallen unbrauchbar Speziell lasst sich die Wahrscheinlichkeit fur einen Fehler zweiter Art nicht mehr sinnvoll minimieren Man spricht dann davon dass fur viele Alternativen die Trennscharfe sinkt Nichtparametrische Tests Bearbeiten Bei nichtparametrischen Tests auch parameterfreie Tests oder Verteilungstests genannt wird nicht angenommen dass die Wahrscheinlichkeitsverteilung die den Beobachtungen zugrunde liegt aus einer Familie von Verteilungen stammt die sich durch Parameter charakterisieren lasst 19 In der Regel treffen nichtparametrische Tests jedoch ebenfalls Annahmen uber die zugrundeliegenden Verteilungen Oft wird angenommen dass den Daten eine stetige Verteilung zugrunde liegt oder dass die Verteilung symmetrisch ist Die Nullhypothese und Alternativhypothese bei nichtparametrischen Tests kann durchaus mittels Parametern formuliert werden Beispielsweise liegt dem Wilcoxon Vorzeichen Rang Test die Nullhypothese zugrunde dass der Median der Verteilung die als symmetrisch angenommen wird kleiner gleich oder grosser einem gegebenen Wert ist Nichtparametrische Tests kommen also mit anderen Vorannahmen aus die Menge der fur Hypothese und Alternative zugelassenen Verteilungen lasst sich nicht durch einen Parameter beschreiben Typische Beispiele Tests auf eine bestimmte Verteilungsfunktion wie der Kolmogorow Smirnow Test Der Wilcoxon Mann Whitney Test vergleicht die Lage zweier unabhangiger Stichproben Der Kruskal Wallis Test vergleicht die Lage von zwei oder mehr Gruppen unabhangiger Stichproben Der Wilcoxon Vorzeichen Rang Test vergleicht die Lage zweier abhangiger Stichproben bspw Paarvergleiche bzw pruft man ob der Median grosser kleiner oder gleich einem vorgegebenen Wert ist Der Friedman Test vergleicht die Lage von drei oder mehr Gruppen abhangiger Stichproben Die aufgezahlten Tests treffen alle Annahmen uber die zugrundeliegende Wahrscheinlichkeitsverteilung der Daten die erfullt sein mussen Beispielsweise geht der Wilcoxon Vorzeichen Rang Test von einer symmetrischen stetigen Verteilung aus Gerade die Voraussetzung einer stetigen Verteilung ist in der Praxis oft nicht gegeben Bei einer stetigen Verteilung wurden Bindungen mit Wahrscheinlichkeit 0 auftreten Das ist in der Praxis aufgrund von Rundungsfehlern oft nicht erfullt In solchen Fallen greift man auf korrigierte Versionen der jeweiligen Verfahren zuruck Da parametrische Tests trotz Verletzung ihrer Annahmen haufig eine bessere Trennscharfe bieten als nichtparametrische kommen letztere eher selten zum Einsatz Verteilungsfreie und verteilungsgebundene Tests Bearbeiten Bei verteilungsgebundenen oder parametrischen Tests 20 hangt die Teststatistik T displaystyle T nbsp von der Verteilung der Stichprobenvariablen X i displaystyle X i nbsp also ihrer Verteilung in der Grundgesamtheit ab Oft wird eine Normalverteilung vorausgesetzt Bei verteilungsfreien Tests auch nichtparametrische oder parameterfreie Tests genannt 20 21 22 hangt die Teststatistik T displaystyle T nbsp nicht von der Verteilung der Stichprobenvariablen X i displaystyle X i nbsp ab Konservativer Test Bearbeiten Bei einem konservativen Test gilt dass die Wahrscheinlichkeiten fur einen Fehler 1 Art Annahme der Alternativhypothese als Ergebnis der Testentscheidung obwohl die Nullhypothese wahr ist kleiner als das vorgegebene Signifikanzniveau a displaystyle alpha nbsp ist Dadurch wird der Nichtablehnungsbereich der Nullhypothese grosser als eigentlich notwendig und eine richtige Nullhypothese wird seltener abgelehnt als durch das vorgegebene Signifikanzniveau a displaystyle alpha nbsp erlaubt ist Der Test ist in dem Sinn konservativ dass er die Nichtablehnung einer richtigen Nullhypothese begunstigt und so an der Nullhypothese festhalt Zugleich erhoht ein konservativer Test tendenziell die Fehlerwahrscheinlichkeiten 2 Art Ein Beispiel fur einen konservativen Test ist der Binomialtest Test auf Anteilswert z B H 0 p p 0 displaystyle H 0 colon pi leq pi 0 nbsp vs H 1 p gt p 0 displaystyle H 1 colon pi gt pi 0 nbsp Wegen bestimmter Monotonieeigenschaften kann der Test mit Hilfe der zu dem speziellen Parameterwert p 0 displaystyle pi 0 nbsp gehorenden Wahrscheinlichkeitsverteilung der Teststatistik durchgefuhrt werden Aufgrund der Diskretheit der Teststatistik T displaystyle T nbsp kann man im Allgemeinen nicht erreichen dass fur den kritischen Wert c displaystyle c nbsp gilt P p 0 T gt c a displaystyle P pi 0 T gt c alpha nbsp Daher wahlt man c displaystyle c nbsp moglichst klein aber so dass P p 0 T gt c a displaystyle P pi 0 T gt c leq alpha nbsp noch erfullt ist Dadurch erhalt man einen Niveau a Test der aber im Allgemeinen kein Umfang a Test ist der also das vorgegebene Signifikanzniveau nicht ausschopft Der Umfang des Tests die maximale Fehlerwahrscheinlich 1 Art kann erheblich unter dem vorgegebenen Signifikanzniveau liegen Exakter Test Bearbeiten Exakte Tests sind Tests deren Annahmen in Bezug auf die Verteilung der Teststatistik bei Gultigkeit der Nullhypothese alle exakt sind Dadurch kann der Fehler 1 Art Ablehnung der Nullhypothese obwohl diese gultig ist exakt kontrolliert werden Exakte Tests sind etwa der Fisher Test der Permutationstest oder der Binomialtest Ein Beispiel ist auch hier der Binomialtest Test auf Anteilswert z B H 0 p p 0 displaystyle H 0 colon pi leq pi 0 nbsp vs H 1 p gt p 0 displaystyle H 1 colon pi gt pi 0 nbsp Aufgrund des zentralen Grenzwertsatzes kann die binomialverteilte Teststatistik T displaystyle T nbsp mit der Normalverteilung approximiert werden z B falls n p 0 1 p 0 9 displaystyle n cdot pi 0 cdot 1 pi 0 geq 9 nbsp gilt Unter Umstanden ist in diesem Fall zur besseren Approximation die Anwendung einer Stetigkeitskorrektur notwendig Ein und zweiseitige Tests Bearbeiten Im Falle eines eindimensionalen Parameters 8 displaystyle theta nbsp mit Werten in einem Parameterraum 8 R displaystyle Theta subseteq mathbb R nbsp spricht man in den beiden Fallen H 0 8 8 0 versus H 1 8 gt 8 0 displaystyle H 0 colon theta leq theta 0 quad text versus quad H 1 colon theta gt theta 0 nbsp und H 0 8 8 0 versus H 1 8 lt 8 0 displaystyle H 0 colon theta geq theta 0 quad text versus quad H 1 colon theta lt theta 0 nbsp von einer einseitigen Gegenhypothese und im Fall H 0 8 8 0 versus H 1 8 8 0 displaystyle H 0 colon theta theta 0 quad text versus quad H 1 colon theta neq theta 0 nbsp von einer zweiseitigen Gegenhypothese Dabei ist 8 0 displaystyle theta 0 nbsp ein spezifizierter Parameter in 8 displaystyle Theta nbsp In den ersten beiden Fallen kann die Nullhypothese auch von der Form H 0 8 8 0 displaystyle H 0 colon theta theta 0 nbsp sein Man spricht in diesem Zusammenhang auch von einseitigen und zweiseitigen Testproblemen oder kurzer von einseitigen und zweiseitigen Tests Haufig aber nicht immer ist der Ablehnungsbereich fur eine Teststatistik T displaystyle T nbsp die von einer Schatzfunktion fur den Parameter 8 displaystyle theta nbsp abgeleitet ist beim ersten Hypothesenpaar ein Intervall der Form a displaystyle a infty nbsp beim zweiten Hypothesenpaar ein Intervall der Form b displaystyle infty b nbsp und beim dritten Hypothesenpaar von der Form c d displaystyle infty c cup d infty nbsp mit c lt d displaystyle c lt d nbsp In diesem Fall spricht man bei der Festlegung des Ablehnungsbereichs auch davon dass man einseitig oder zweiseitig testet Ablehnungsbereiche konnen aber auch bei einseitigen Testproblemen komplizierter sein als Intervalle oder Vereinigungen von zwei Intervallen Aquivalenztest Bearbeiten Beim Vergleich der Wirkung z B von zwei Arzneimitteln ist es manchmal sinnvoll beim Mittelwertvergleich nicht einen Standardtest mit dem Hypothesenpaar H 0 m 1 m 2 versus H 1 m 1 m 2 displaystyle H 0 colon mu 1 mu 2 quad text versus quad H 1 colon mu 1 neq mu 2 nbsp durchzufuhren sondern einen Toleranzbereich zu verwenden in dem von Aquivalenz Gleichwertigkeit ausgegangen wird Dazu wird eine positive Konstante c displaystyle c nbsp zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar H 0 m 1 m 2 gt c versus H 1 m 1 m 2 c displaystyle H 0 colon mu 1 mu 2 gt c quad text versus quad H 1 colon mu 1 mu 2 leq c nbsp getestet Wenn H 0 displaystyle H 0 nbsp mit einem Signifikanztest zugunsten von H 1 displaystyle H 1 nbsp abgelehnt wird liegt statistisch gesicherte Aquivalenz vor Ein solcher Signifikanztest heisst Aquivalenztest 23 24 Nichtunterlegenheitstest Bearbeiten Beim Vergleich der Wirkung eines neuen Wirkstoffs z B eines neuen Arzneimittels mit einem etablierten Referenzstoff wird manchmal getestet ob der neue Wirkstoff vergleichbar oder nur unbedeutend schlechter ist Man spricht dann von der Nichtunterlegenheit des neuen Wirkstoffs Dazu wird eine positive Konstante c displaystyle c nbsp zur Charakterisierung eines inhaltlich relevanten Unterschiedes vorgegeben und es wird das Hypothesenpaar H 0 m 1 lt m 0 c versus H 1 m 1 m 0 c displaystyle H 0 colon mu 1 lt mu 0 c quad text versus quad H 1 colon mu 1 geq mu 0 c nbsp getestet Dabei ist m 0 displaystyle mu 0 nbsp die mittlere Wirkung des Referenzstoffes und m 1 displaystyle mu 1 nbsp die mittlere Wirkung des neuen Wirkstoffes Wenn die Nullhypothese mit einem Signifkanztest zugunsten der Gegenhypothese abgelehnt wird gilt der neue Wirkstoff statistisch gesichert als nicht unterlegen Ein solcher Signifikanztest heisst Nichtunterlegenheitstest 23 24 Will man anstelle der Nichtunterlegenheit die signifikante Uberlegenheit des Referenzstoffes nachweisen so ist H 0 m 1 m 0 versus H 1 m 1 gt m 0 displaystyle H 0 colon mu 1 leq mu 0 quad text versus quad H 1 colon mu 1 gt mu 0 nbsp zu testen Will man eine signifikante Uberlegenheit des Referenzstoffes nachweisen die auch relevant ist wobei die Relevanz des Unterschiedes durch eine positive Konstante c displaystyle c nbsp ausgedruckt ist so ist H 0 m 1 m 0 c versus H 1 m 1 gt m 0 c displaystyle H 0 colon mu 1 leq mu 0 c quad text versus quad H 1 colon mu 1 gt mu 0 c nbsp zu testen Signifikanztest Bearbeiten Allgemein heisst ein statistischer Test bei dem eine Nullhypothese H 0 displaystyle H 0 nbsp gegen die Gegenhypothese H 1 displaystyle H 1 nbsp getestet wird Hypothesentest Ein statistischer Test einer Nullhypothese H 0 displaystyle H 0 nbsp gegen die Gegenhypothese H 1 displaystyle H 1 nbsp heisst Signifikanztest zum Niveau a displaystyle alpha nbsp wenn es sich um einen Niveau a displaystyle alpha nbsp Test im Sinn der Neyman Peason schen Testtheorie handelt Dabei wird fur die Wahrscheinlichkeiten des Fehlers erster Art eine obere Schranke a a nahe bei Null vorgegeben so dass auf diese Art der Fehler erster Art unter Kontrolle steht Fur den Fehler zweiter Art ist dies nicht der Fall seine Wahrscheinlichkeiten konnen auch bei einem optimalen Niveau a Test sehr gross sein 25 Die unsymmetrische Behandlung der beiden Fehler fuhrt zu den beiden moglichen unsymmetrisch interpretierten Testentscheidungen A 0 displaystyle A 0 nbsp H 0 displaystyle H 0 nbsp wird nicht abgelehnt keine statistische Signifikanz A 1 displaystyle A 1 nbsp H 0 displaystyle H 0 nbsp wird abgelehnt H 1 displaystyle H 1 nbsp ist signifikant Der Fehler 1 Art wird kontrolliert in dem eine Oberschranke fur die Fehlerwahrscheinlichkeiten 1 Art vorgegeben wird das sogenannte Signifikanzniveau a 0 1 displaystyle alpha in 0 1 nbsp Typische Werte fur ein vorgegebenes Signifikanzniveau sind 10 5 1 und 0 1 In einigen Anwendungsbereichen hat sich die Verwendung von a 5 displaystyle alpha 5 nbsp verfestigt Ein Signifikanztest ist ungeeignet eine Nullhypothese im Fall der Nichtablehnung mit statistischer Signifikanz zu bestatigen oder zu sichern Bei Verwendung eines statistischen Signifikanztests ist daher eine zu stutzende Forschungshypothese regelmassig als Gegenhypothese zu formulieren Kann die Nullhypothese abgelehnt werden so gilt die Forschungshypothese als signifikant Haufig wird von Anwendern die Nichtablehnung der Nullhypothese eines Signifikanztestes falsch interpretiert namlich als statistische Bestatigung der Nullhypothese Diese Interpretation ist aber nur moglich wenn zusatzlich Aussagen uber die Fehlerwahrscheinlichkeit 2 Art gemacht werden konnen was aber in der Regel nicht moglich ist wenn die Gegenhypothese sehr allgemein ist Typische Fehlanwendungen dieser Art sind der Einsatz eines Kolmogorow Smirnow Tests zur Bestatigung einer bestimmten Verteilungsannahme der Einsatz des Lilliefors Tests zur Bestatigung der Normalverteilungsannahme und der Einsatz des Levene Tests zur Bestatigung der Varianzhomogenitat Aus methodischen Grunden konnen der Kolmogorow Smirnow Test der Lilliefors Test bzw der Levene Test verwendet werden um mit statistischer Signifikanz eine bestimmte Verteilungsannahme die Normalverteilungsannahme bzw die Homogenitatsannahme der Varianzen abzulehnen Ein Hypothesentest der kein Signifikanztest ist und eine Alternative behandelt die aus zwei gleichberechtigten Hypothesen besteht ist der Alternativtest Alternativtest Bearbeiten Typisch fur einen Signifikanztest im Sinn der Neyman Pearson schen Testtheorie ist die unsymmetrische Behandlung der Null und Gegenhypothese durch die vorrangige Kontrolle des Fehlers 1 Art In bestimmten Fallen ist stattdessen eine symmetrische Behandlung von zwei Hypothesen H 0 displaystyle H 0 nbsp und H 1 displaystyle H 1 nbsp erwunscht die eine Alternative bilden Ein derartiger Test heisst Alternativtest Er besitzt die beiden moglichen Testergebnisse Testaussagen Testentscheidungen A 0 displaystyle A 0 nbsp H 1 displaystyle H 1 nbsp wird abgelehnt H 0 displaystyle H 0 nbsp ist signifikant A 1 displaystyle A 1 nbsp H 0 displaystyle H 0 nbsp wird abgelehnt H 1 displaystyle H 1 nbsp ist signifikant 26 Bei Alternativtests erfolgt eine gleichzeitige Kontrolle der Fehler 1 Art und 2 Art 27 28 Durchschnitts Vereinigungs Test Bearbeiten Die Durchschnitts Vereinigungs Methode 29 zur Testkonstruktion kommt in Frage wenn fur eine zu testende Hypothese die Nullhypothese als Vereinigung H 0 8 g G 8 g displaystyle H 0 colon theta in bigcup gamma in Gamma Theta gamma nbsp mit einer endlichen oder unendlichen Indexmenge G displaystyle Gamma nbsp dargestellt werden kann Wenn Tests fur die einzelnen Hypothesen H 0 g 8 8 g displaystyle H 0 gamma theta in Theta gamma nbsp mit der jeweiligen Gegenhypothese H 0 g 8 8 8 g displaystyle H 0 gamma theta in Theta setminus Theta gamma nbsp zur Verfugung stehen und wenn H 0 displaystyle H 0 nbsp abgelehnt wird falls alle Nullhypothesen H 0 g displaystyle H 0 gamma nbsp abgelehnt werden dann wird ein Durchschnitts Vereinigungs Test engl intersection union test durchgefuhrt Der Ablehnungsbereich fur den Test H 0 displaystyle H 0 nbsp ist dann der Durchschnitt der Ablehnungsbereiche der einzelnen Tests Im Unterschied zum multiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse Wenn die einzelnen Tests Umfang a g displaystyle alpha gamma nbsp Tests mit dem Ablehnungsbereich A g displaystyle A gamma nbsp sind dann ist der Durchschnitts Vereinigungs Test mit dem Ablehnungsbereich A g G A g displaystyle A bigcap gamma in Gamma A gamma nbsp ein Niveau a displaystyle alpha nbsp Test mit a sup g G a g displaystyle alpha sup gamma in Gamma alpha gamma nbsp 30 Daraus folgt insbesondere dass der Durchschnitts Vereinigungs Test ein Niveau a displaystyle alpha nbsp Test ist wenn alle einzelnen Tests Umfang a displaystyle alpha nbsp Tests sind Vereinigungs Durchschnitts Test Bearbeiten Die Vereinigungs Durchschnitts Methode 31 zur Testkonstruktion kommt in Frage wenn fur eine zu testende Hypothese die Nullhypothese als Durchschnitt H 0 8 g G 8 g displaystyle H 0 colon theta in bigcap gamma in Gamma Theta gamma nbsp mit einer endlichen oder unendlichen Indexmenge G displaystyle Gamma nbsp dargestellt werden kann Wenn Tests fur die einzelnen Hypothesen H 0 g 8 8 g displaystyle H 0 gamma theta in Theta gamma nbsp mit der jeweiligen Gegenhypothese H 0 g 8 8 8 g displaystyle H 0 gamma theta in Theta setminus Theta gamma nbsp zur Verfugung stehen und wenn H 0 displaystyle H 0 nbsp abgelehnt wird falls irgendeine der Hypothesen H 0 g displaystyle H 0 gamma nbsp abgelehnt wird dann wird ein Vereinigungs Durchschnitts Test engl union intersection test durchgefuhrt Der Ablehnungsbereich fur den Test H 0 displaystyle H 0 nbsp ist dann die Vereinigung der Ablehnungsbereiche der einzelnen Tests Im Unterschied zum multiplen Testen sind die Einzeltests im Allgemeinen nur als Hilfsmittel zum Test der Durchschnittshypothese von Interesse Multiples Testen Bearbeiten Unter multiplem Testen versteht man die simultane Durchfuhrung mehrerer Tests mit denselben Beobachtungen Multiples Testen fuhrt im Vergleich zur Durchfuhrung eines einzelnen Tests zu mehreren Aufgaben Die Konzepte des Fehlers 1 Art auch a Fehler genannt und der Fehlerwahrscheinlichkeit 1 Art mussen fur multiple Tests verallgemeinert werden Dies erfolgt durch die Konzepte des multiplen Fehlers 1 Art und der multiplen Fehlerwahrscheinlichkeit 1 Art Die betrachtete Familie der Hypothesen und die Tests sollten bestimmte Konsistenzbedingungen erfullen z B Koharenz Konsonanz und Abgeschlossenheit Die vorgegebenen Signifikanzniveaus mussen fur mehrere Tests aufeinander abgestimmt werden Im Zusammenhang mit dieser Fragestellung wird die Alphafehler Kumulierung relevant Hauptartikel Multiples Testen Abgrenzung zu psychologischen und medizinischen Tests Bearbeiten Ein statistischer Test ist nicht dasselbe wie ein psychologischer Test oder ein medizinischer Labor Test Dies betrifft nicht nur den Anwendungsbereich sondern auch die zugrundeliegende Logik Bei der auf empirischen Studien basierenden Forschung werden selbstverstandlich in den beiden Bereichen Psychologie und Medizin auch statistische Tests eingesetzt Der wesentliche Kern eines statistischen Tests besteht darin auf Grund des beobachteten Wertes einer zufalligen Beobachtung X displaystyle X nbsp mit der unbekannten Verteilung P displaystyle P nbsp zwischen zwei disjunkten nicht leeren Verteilungsmengen P 0 displaystyle mathcal P 0 nbsp und P 1 displaystyle mathcal P 1 nbsp zu unterscheiden wobei P P 0 P 1 displaystyle P in mathcal P 0 cup mathcal P 1 nbsp vorausgesetzt ist Dabei werden bei der Festlegung eines Ablehnungsbereiches im Sinn der Neyman Pearson schen Testtheorie bzw bei einer p Wert basierten Testdurchfuhrung die Fehlerwahrscheinlichkeiten 1 und 2 Art unsymmetrisch behandelt Psychologischer Test Bearbeiten Ein psychologischer Test versucht eine nicht direkt messbare Eigenschaft von Personen z B Intelligenz durch mehrere quantifizierbare Hilfsvariablen zu messen Die Methoden der Konstruktion und die Gutekriterien eines psychologischen Tests sind vollig andere als die Methoden der Konstruktion und die Gutekriterien eines statistischen Tests Medizinischer Test Bearbeiten Mit einem medizinischen Test ist meist ein Labor Test als Hilfsmittel zur Diagnose gemeint Dabei wird mit Hilfe der Menge einer z B im Blut Speichel Urin usw gemessenen Indikatorsubstanz entschieden ob der Patient krank im Sinn einer bestimmten Diagnose oder gesund ist Ein solcher medizinischer Test ist eigentlich ein binares Klassifikationsverfahren hat aber auch formale Parallelitat zu einem statistischen Test mit einfacher Nullhypothese und einfacher Gegenhypothese Bei der Konstruktion eines Labor Tests ist im Idealfall die Verteilung der Indikatorsubstanz einerseits in der Gruppe der Kranken und andererseits in der Gruppe der Nichtkranken bekannt Die Festlegung eines Trennwertes legt die Fehlerwahrscheinlichkeiten 1 Art und 2 Art fest Dabei wird versucht durch geeignete Wahl der Indikatorsubstanz beide Fehlerwahrscheinlichkeiten moglichst klein zu halten bzw die Komplemente der Fehlerwahrscheinlichkeiten die bei medizinischen Anwendungen Sensitivitat und Spezifitat heissen moglichst gross zu halten Es ist in diesem Zusammenhang ublich die Nullhypothese auf die sich der Fehler Art 1 Art bezieht als der Patient ist gesund festzulegen Bei gegebenen Verteilungen konnen durch Festlegung des Trennwertes unterschiedliche Kombinationen der Fehlerwahrscheinlichkeiten 1 Art und 2 Art erreicht werden die durch die ROC Kurve beschrieben sind Die Konstruktion eines solchen Labor Tests ist eher mit einem statistischen Alternativtest als mit einem Signifikanztest vergleichbar Eine weitere statistische Komplikation besteht darin dass die beiden Verteilungen in den Grundgesamtheiten der Gesunden und Kranken nicht bekannt sind sondern aus Stichproben geschatzt werden mussen Vielen anderen Arten medizinischer Tests ist gemeinsam dass die Nullhypothese einfach ist und inhaltlich je nach Fragestellung kein Effekt kein Unterschied keine Wirkung nicht erkrankt nicht infiziert usw bedeutet Durch Ablehnung der Nullhypothese wird versucht einen Effekt einen Unterschied eine Wirkung eine Erkrankung eine Infektion usw nachzuweisen Ein beobachtetes Testergebnis heisst in diesem Zusammenhang Befund Ein Befund der zur Ablehnung der Nullhypothese fuhrt heisst positiver Befund anderenfalls negativer Befund Ein Fehler 1 Art heisst falsch positive Entscheidung oder falsch positive Diagnose ein Fehler 2 Art heisst falsch negative Entscheidung oder falsch negative Diagnose Bei einem Test mit einfacher Null und einfacher Alternativhypothese gibt es nur eine Fehlerwahrscheinlichkeit 1 Art die als der a displaystyle alpha nbsp Fehler bezeichnet wird und nur eine Fehlerwahrscheinlichkeit 2 Art die als der b displaystyle beta nbsp Fehler bezeichnet wird In diesem Fall heisst das Komplement der Fehlerwahrscheinlichkeit 1 Art die Spezifitat des Tests und das Komplement der Fehlerwahrscheinlichkeit 2 Art die Trennscharfe Macht oder Gute des Tests in statistischer Terminologie heisst die Sensitivitat des Tests Die Sensitivitat des Tests ist die Wahrscheinlichkeit einer richtigen positiven Diagnose Die Spezifitat des Tests ist die Wahrscheinlichkeit einer richtigen negativen Diagnose Im medizinischen Bereich wird die Durchfuhrung eines Tests auch Testung genannt Ubersicht Tests BearbeitenDie wichtigsten Tests lassen sich nach verschiedenen Kriterien charakterisieren z B nach Einsatzzweck z B das Testen von Parametern einer Verteilung oder der Verteilung selbst Anzahl der Stichproben Abhangigkeit oder Unabhangigkeiten der Stichproben Voraussetzungen uber die Grundgesamtheit en Falls nicht anders angegeben wird bei allen Tests in der folgenden Ubersicht davon ausgegangen dass die Beobachtungen unabhangig und identisch verteilt sind Es werden folgende Abkurzungen benutzt GG Grundgesamtheit GGen Grundgesamtheiten ZGS Zentraler GrenzwertsatzNicht parametrische Tests sind mit einem gelben Hintergrund gekennzeichnet Tests auf Lageparameter Mittelwert Median Bearbeiten Test Test bzgl Voraussetzung en Fur eine StichprobeEinstichproben t Test Mittelwert Normalverteilung in der GG oder die Verteilung genugt dem ZGS Faustregel Stichprobenumfang grosser 30 Varianz der GG ist unbekanntEinstichproben Gauss Test Mittelwert Normalverteilung in der GG oder die Verteilung genugt dem ZGS Faustregel Stichprobenumfang grosser 30 Varianz der GG ist bekanntVorzeichentest MedianFur zwei unabhangige StichprobenZweistichproben t Test Mittelwerte Normalverteilung in den GGen oder die Verteilungen genugen dem ZGS Faustregel Gesamtstichprobenumfang mindestens 50 Varianzen in GGen sind unbekannt aber gleichWelch Test Mittelwerte Normalverteilung in den GGen oder die Verteilungen genugen dem ZGS Faustregel Gesamtstichprobenumfang mindestens 50 Varianzen in GGen sind unbekannt und ungleichZweistichproben Gauss Test Mittelwerte Normalverteilung in den GGen oder die Verteilungen genugen dem ZGS Faustregel Gesamtstichprobenumfang mindestens 50 Varianzen in GGen sind bekannt und gleichWilcoxon Mann Whitney Test Mittelwerte und Mediane Verteilungsfunktionen sind gegeneinander verschobenMedian Test MedianeFur zwei abhangige StichprobenZweistichproben t Test Mittelwerte Die Differenz der Beobachtungen ist normalverteilt oder genugt dem ZGS Faustregel Stichprobenumfange grosser 30 Varianz der Differenz ist unbekanntZweistichproben Gauss Test Mittelwerte Die Differenz der Beobachtungen ist normalverteilt oder genugt dem ZGS Faustregel Stichprobenumfange grosser 30 Varianz der Differenz ist bekanntWilcoxon Vorzeichen Rang Test Mediane Die Differenz der Beobachtungen ist symmetrisch und stetig verteiltVorzeichentest MedianeFur mehrere unabhangige StichprobenVarianzanalyse Mittelwerte Normalverteilte GGen Varianzen in GGen sind gleichKruskal Wallis Test Mittelwerte und Mediane Verteilungsfunktionen sind gegeneinander verschobenMedian Test MedianeFur mehrere abhangige StichprobenVarianzanalyse mit wiederholten Messungen Mittelwert Normalverteilte GGen SpharizitatFriedman Test LageparameterQuade Test LageparameterTests auf Streuung Bearbeiten Test Test bzgl Voraussetzung en Fur eine StichprobeF Test Varianz Normalverteilte GGFur zwei unabhangige StichprobenF Test Varianzen Normalverteilte GGenFur zwei oder mehr unabhangige Stichprobenx2 Test von Bartlett Varianzen Normalverteilte GGenLevene Test VarianzenFur eine multivariate StichprobeBartlett Test auf Spharizitat KovarianzmatrixTests auf Zusammenhangs und Assoziationsparameter Bearbeiten Test Test bzgl Voraussetzung en Fur zwei unabhangige StichprobenChi Quadrat Unabhangigkeitstest Unabhangigkeit GGen sind diskret verteiltExakter Test nach Fisher Unabhangigkeit GGen sind diskret verteiltSteigers Z Test Bravais Pearson Korrelation GGen sind bivariat normal verteiltFur zwei abhangige StichprobenMcNemar Test Unabhangigkeit GGen sind dichotomAnpassungs oder Verteilungstests Bearbeiten Test Test bzgl Voraussetzung en Fur eine StichprobeChi Quadrat Anpassungstest vorg Verteilung GG ist diskretAnderson Darling Test vorg Verteilung GG ist stetigKolmogorow Smirnow Test vorg Verteilung GG ist stetigCramer von Mises Test vorg Verteilung GG ist stetigJarque Bera Test Normalverteilung GG ist stetigLilliefors Test Normalverteilung GG ist stetigShapiro Wilk Test Normalverteilung GG ist stetigFur zwei StichprobenZweistichproben Kolmogorow Smirnow Test Identische Verteilungen GGen sind stetigZweistichproben Cramer von Mises Test Identische Verteilungen GGen sind stetigFur mehrere StichprobenChi Quadrat Homogenitatstest Identische Verteilungen GGen sind diskretTests in der Regressions und Zeitreihenanalyse Bearbeiten Test Test bzgl Voraussetzung en Lineare Regressionglobaler F Test Bestimmtheitsmass Normalverteilte Residuent Test Regressionskoeffizient Normalverteilte ResiduenGoldfeld Quandt Test Heteroskedastizitat Normalverteilte ResiduenChow Test Strukturbruch Normalverteilte ResiduenZeitreihenanalyseDurbin Watson Test Autokorrelation Normalverteilte Residuen fixe Regressoren nur Autokorrelation 1 Ordnung zulassig keine HeteroskedastizitatBox Pierce Test Autokorrelation Ljung Box Test Autokorrelation Verschiedene Tests Bearbeiten Test Test bzgl Voraussetzung en Dichotome GGBinomialtest Anteilswert GG ist dichotomRun Test Zufalligkeit GG ist dichotomAusreisserGrubbs Test Gr oder kl Wert GG ist normalverteiltWalsh Test Gr oder kl Wert Fur ein Signifikanzniveau von 5 10 werden mindestens 220 60 Werte benotigtAllgemeine Tests der Maximum Likelihood TheorieLikelihood Quotienten Test Koeffizient o ModelleWald Test Koeffizient o ModelleScore Test Koeffizient o ModelleSonstiges Bearbeiten Eine besondere Art der Testdurchfuhrung ist das sequentielle Testen wobei der Stichprobenumfang nicht vorgegeben ist Vielmehr wird bei der laufenden Datenerfassung fur jede neue Beobachtung ein Test durchgefuhrt ob man aufgrund der bereits erhobenen Daten eine Entscheidung fur oder gegen die Nullhypothese treffen kann siehe Sequentieller Likelihood Quotienten Test Tests KurzbeschreibungTest einer Stichprobe auf Zugehorigkeit zur NormalverteilungParametrische TestsTest von Cochran Cochrans Q Test auf Gleichverteilung mehrerer verbundener dichotomer VariablenKendall scher Konkordanzkoeffizient Kendalls W Test auf Korrelation von RangreihenFriedman Test Test auf Gleichheit des Lageparameters bei unbekannter aber identischer Verteilung im c Stichprobenfall mit gepaarten StichprobenQuade Test Test auf Gleichheit des Lageparameters bei unbekannter aber identischer Verteilung im c Stichprobenfall mit gepaarten StichprobenSiehe auch BearbeitenPermutationstest Aquivalenztest Good enough PrinzipAnmerkungen Bearbeiten Wir betrachten fur p displaystyle p nbsp den Parameterbereich 1 4 1 um zu erreichen dass Nullhypothese und Alternativhypothese den gesamten Parameterbereich uberdecken Bei absichtlichem Nennen einer falschen Farbe konnte man zwar auch auf Hellseh Fahigkeiten schliessen aber wir nehmen an dass die Testperson eine moglichst hohe Trefferzahl erzielen will Hermann Witting Mathematische Statistik I Parametrische Verfahren bei festem Stichprobenumfang 1985 Kap 1 1 S 5 George G Judge R Carter Hill W Griffiths Helmut Lutkepohl T C Lee Introduction to the Theory and Practice of Econometrics 2 Auflage John Wiley amp Sons New York Chichester Brisbane Toronto Singapore 1988 ISBN 0 471 62414 4 S 93 a b c Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 S 10 a b c Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 S 9 Hermann Witting Mathematische Statistik I Parametrische Verfahren bei festem Stichprobenumfang 1985 S 190 Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 S 13 a b c Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 S 20 E L Lehmann Joseph P Romano Testing Statistical Hypothesis 2022 Gleichung 3 3 S 62 Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 Gleichung 3 5 S 13 George Casella Roger L Berger Statistical Inference 2002 Def 8 36 S 185 E L Lehmann Joseph P Romano Testing Statistical Hypothesis 2022 S 44 Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 Gleichung 3 21 S 22 Hermann Witting Mathematische Statistik I Parametrische Verfahren bei festem Stichprobenumfang 1985 S 190 Hermann Witting Mathematische Statistik I Parametrische Verfahren bei festem Stichprobenumfang 1985 Satz 1 38 S 190 Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 S 17 Hermann Witting Mathematische Statistik I Parametrische Verfahren bei festem Stichprobenumfang 1985 Beispiel 1 41 S 43 Anil K Bera Malabika Koley A History of the Delta Method and Some New Results In Sankhya B The Indian Journal of Statistics Band 85 2023 doi 10 1007 s13571 023 00305 9 a b Joachim Hartung Statistik Lehr und Handbuch der angewandten Statistik Munchen 2009 ISBN 978 3 486 71054 0 a b Jurgen Bortz Gustav A Lienert Klaus Boehnke Verteilungsfreie Methoden in der Biostatistik 3 Auflage Springer 2008 S 35 36 J Hartung Statistik Lehr und Handbuch der angewandten Statistik 8 Auflage Oldenbourg 1991 S 139 K Bosch Statistik Taschenbuch Oldenbourg 1992 S 669 a b Stefan Wellek Maria Blettner Klinische Studien zum Nachweis von Aquivalenz und Nichtunterlegenheit Teil 20 der Serie zur Bewertung wissenschaftlicher Publikationen In Deutsches Arzteblatt International Band 109 Nr 41 2012 S 674 678 doi 10 3238 arztbl2012 0674 aerzteblatt de a b S Lange R Bender A Ziegler Aquivalenzstudien und Nicht Unterlegenheitsstudien Artikel Nr 20 der Statistik Serie in der DMW In Deutsche Medizinische Wochenschrift Band 132 2007 S e53 e56 doi 10 1055 s 2007 959043 thieme connect com PDF Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 S 248 Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 S 248 Bernhard Ruger Test und Schatztheorie Band II Statistische Tests 2002 Abschnitt 3 3 1 S 248 263 Bernhard Ruger Alternativtests fur zwei einfache Hypothesen mit endlich vielen Ergebnissen In Metrika Band 28 S 71 77 George Casella Roger L Berger Statistical Inference 2 Auflage Duxbury Pacific Grove 2002 ISBN 0 534 24312 6 S 381 George Casella Roger L Berger Statistical Inference 2 Auflage Duxbury Pacific Grove 2002 ISBN 0 534 24312 6 Theorem 8 3 23 S 395 George Casella Roger L Berger Statistical Inference 2 Auflage Duxbury Pacific Grove 2002 ISBN 0 534 24312 6 S 380 381 Literatur BearbeitenJoachim Hartung Barbel Elpelt Karl Heinz Klosener Statistik Lehr und Handbuch der angewandten Statistik mit zahlreichen durchgerechneten Beispielen 15 uberarbeitete und erweiterte Auflage Oldenbourg Munchen 2005 ISBN 978 3 486 59028 9 George Casella Roger L Berger Statistical Inference 2 Auflage Duxbury Pacific Grove 2002 ISBN 0 534 24312 6 Kap 8 Hypothesis Testing E L Lehmann Joseph P Romano Testing Statistical Hypothesis 4 Auflage Springer Cham 2022 ISBN 978 3 03070577 0 doi 10 1007 978 3 030 70578 7 E Book ISBN 978 3 030 70578 7 Horst Rinne Taschenbuch der Statistik 4 vollstandig uberarbeitete und erweiterte Auflage Harri Deutsch Frankfurt am Main 2008 ISBN 978 3 8171 1827 4 Bernhard Ruger Test und Schatztheorie Band II Statistische Tests Oldenbourg Munchen 2002 ISBN 3 486 25130 9 Hermann Witting Mathematische Statistik I Parametrische Verfahren bei festem Stichprobenumfang Teubner Stuttgart 1985 ISBN 3 519 02026 2 Weblinks BearbeitenErklarung Hypothesentest Signifikanztest statistischer Test fur Schuler Statistical Tests Overview englisch Statistische Versuchsauswertung PDF in der Anwendung Eine Einfuhrung in Theorie und Praxis Vortraghandout TUM Abgerufen von https de wikipedia org w index php title Statistischer Test amp oldid 238898347 Signifikanztest