www.wikidata.de-de.nina.az
Der p Wert nach R A Fisher auch Uberschreitungswahrscheinlichkeit oder Signifikanzwert genannt p displaystyle p fur lateinisch probabilitas Wahrscheinlichkeit ist in der Statistik und dort insbesondere in der Testtheorie ein Evidenzmass fur die Glaubwurdigkeit der Nullhypothese die oft besagt dass ein bestimmter Zusammenhang nicht besteht z B ein neues Medikament nicht wirksam ist Ein kleiner p displaystyle p Wert legt nahe dass die Beobachtungen die Nullhypothese nicht stutzen Neben seiner Bedeutung als Evidenzmass wird der p displaystyle p Wert als mathematisches Hilfsmittel zur Feststellung von Signifikanz in Hypothesentests gebraucht dem p displaystyle p Wert selbst muss dafur keine besondere Bedeutung zugeschrieben werden Der p displaystyle p Wert ist definiert als die Wahrscheinlichkeit unter der Bedingung dass die Nullhypothese in Wirklichkeit gilt den beobachteten Wert der Prufgrosse oder einen in Richtung der Alternative extremeren Wert zu erhalten Der p displaystyle p Wert entspricht dann dem kleinsten Signifikanzniveau bei dem die Nullhypothese gerade noch verworfen werden kann Da der p displaystyle p Wert eine Wahrscheinlichkeit ist kann er Werte von null bis eins annehmen Dies bietet den Vorteil dass er die Vergleichbarkeit verschiedener Testergebnisse ermoglicht Der konkrete Wert wird durch die gezogene Stichprobe bestimmt Ist der p displaystyle p Wert klein kleiner als ein vorgegebenes Signifikanzniveau allgemein lt 0 05 so lasst sich die Nullhypothese ablehnen 1 Anders ausgedruckt Ist die errechnete Prufgrosse grosser als der kritische Wert kann unmittelbar aus einer Quantiltabelle abgelesen werden so kann die Nullhypothese verworfen werden und man kann davon ausgehen dass die Alternativhypothese gilt und damit ein bestimmter Zusammenhang besteht z B ein neues Medikament ist wirksam Wenn die Nullhypothese zugunsten der Alternativhypothese verworfen wird wird das Resultat als statistisch signifikant bezeichnet Signifikant bedeutet hierbei lediglich uberzufallig und ist nicht gleichbedeutend mit praktischer Relevanz oder wissenschaftlicher Bedeutsamkeit In verschiedenen wissenschaftlichen Disziplinen haben sich festgesetzte Grenzen wie 5 1 oder 0 1 etabliert die verwendet werden um zu entscheiden ob die Nullhypothese abgelehnt werden kann oder nicht Die Grosse des p displaystyle p Werts gibt keine Aussage uber die Grosse des wahren Effekts Der p displaystyle p Wert wird sehr haufig fehlinterpretiert und falsch verwendet weswegen sich die American Statistical Association im Jahr 2016 genotigt sah eine Mitteilung uber den Umgang mit p displaystyle p Werten und statistischer Signifikanz zu veroffentlichen 2 Einer kleinen kanadischen Feldstudie von 2019 zufolge werden in etlichen Lehrbuchern die Begriffe p displaystyle p Wert und statistische Signifikanz nicht korrekt vermittelt 3 Studien von Oakes 1986 und Haller amp Krauss 2002 zeigen dass ein Grossteil von Studierenden und von Lehrern der Statistik den p displaystyle p Wert nicht korrekt interpretieren konnen Die falsche Verwendung und die Manipulation von p displaystyle p Werten siehe p displaystyle p Hacking ist eine Kontroverse in der Meta Forschung Inhaltsverzeichnis 1 Mathematische Formulierung 2 Beispiel 3 Beziehung zum Signifikanzniveau 4 Weitere Eigenschaften 5 Typische Fehlinterpretationen 6 Kritik am p Wert 7 Weblinks 8 EinzelnachweiseMathematische Formulierung BearbeitenBei einem statistischen Test wird eine Vermutung Nullhypothese H 0 displaystyle H 0 nbsp uberpruft indem ein passendes Zufallsexperiment durchgefuhrt wird das die Zufallsgrossen X 1 X 2 X n displaystyle X 1 X 2 dotsc X n nbsp liefert Diese Zufallsgrossen werden zu einer einzelnen Zahl Prufgrosse genannt zusammengefasst T u X 1 X 2 X n displaystyle T u X 1 X 2 dotsc X n nbsp Fur einen konkreten Versuchsausgang X 1 x 1 X 2 x 2 X n x n displaystyle X 1 x 1 X 2 x 2 dotsc X n x n nbsp des Experiments erhalt man einen Wert t u x 1 x 2 x n displaystyle t u x 1 x 2 dotsc x n nbsp Der p displaystyle p nbsp Wert ist definiert als die Wahrscheinlichkeit unter der Bedingung dass die Nullhypothese H 0 displaystyle H 0 nbsp in Wirklichkeit gilt den beobachteten Wert der Prufgrosse t displaystyle t nbsp oder einen in Richtung der Alternative extremeren Wert zu erhalten 4 Fur zusammengesetzte Nullhypothesen ist diese bedingte Wahrscheinlichkeit nur noch nach oben abschatzbar Genauer wird der p displaystyle p nbsp Wert fur einen statistischen Test mit einer Abbildung a T 1 a displaystyle alpha mapsto T 1 alpha nbsp die jedem a 0 1 displaystyle alpha in 0 1 nbsp den zugehorigen Nicht Ablehnungsbereich T 1 a displaystyle T 1 alpha nbsp zuordnet definiert als p t inf a t T 1 a displaystyle p t inf alpha mid t in T 1 alpha nbsp Bei einem rechtsseitigen Test gilt p rechts P T t H 0 displaystyle p text rechts P T geq t mid H 0 nbsp Bei einem linksseitigen Test gilt p links P T t H 0 displaystyle p text links P T leq t mid H 0 nbsp Und bei einem zweiseitigen Test gilt p 2 min p rechts p links displaystyle p 2 cdot min p text rechts p text links nbsp nbsp Fur diese Realisierung x displaystyle x nbsp im Ablehnbereich K displaystyle K nbsp ist der p displaystyle p nbsp Wert kleiner als a displaystyle alpha nbsp oder dazu aquivalent ist die Realisierung der Prufgrosse x grosser als der kritische Wert z Hier ist f displaystyle f nbsp die Wahrscheinlichkeitsdichte der Verteilung unter der NullhypotheseUblicherweise wird vor dem Test ein Signifikanzniveau a displaystyle alpha nbsp festgelegt und der p displaystyle p nbsp Wert dann mit diesem verglichen Je kleiner der p displaystyle p nbsp Wert ist desto mehr Grund gibt es die Nullhypothese zu verwerfen Ist der p displaystyle p nbsp Wert kleiner als das vorgegebene Signifikanzniveau a displaystyle alpha nbsp so wird die Nullhypothese verworfen Ansonsten kann man die Nullhypothese nicht verwerfen Nach frequentistischer Sichtweise enthalt der von R A Fisher eingefuhrte p displaystyle p nbsp Wert keine weiterfuhrende Information nur die Tatsache ob er kleiner ist als ein vorgegebenes Niveau a displaystyle alpha nbsp ist von Interesse In dieser Form ist p a displaystyle p leq alpha nbsp nur eine andere Formulierung dafur dass der beobachtete Wert t displaystyle t nbsp der Prufgrosse in der kritischen Region liegt und fugt der Neyman Pearsonschen Theorie der Hypothesentests nichts Neues hinzu Beispiel BearbeitenGegeben sei eine Munze Die zu prufende Nullhypothese H 0 displaystyle H 0 nbsp sei dass die Munze fair ist dass also Kopf und Zahl gleich wahrscheinlich sind die Alternativhypothese sei dass ein Ergebnis wahrscheinlicher ist wobei nicht festgelegt wird welches der beiden wahrscheinlicher sein soll Das Zufallsexperiment zum Testen der Nullhypothese bestehe nun darin dass die Munze zwanzig Mal geworfen wird K displaystyle K nbsp bezeichne die Anzahl der Wurfe die Kopf als Ergebnis liefern Bei einer fairen Munze ware zehnmal Kopf zu erwarten Als Statistik wahlt man daher sinnvollerweise Y K 10 displaystyle Y K 10 nbsp Angenommen der Versuch liefert k 14 displaystyle k 14 nbsp mal das Ergebnis Kopf also ist die Realisierung von Y displaystyle Y nbsp hier y 4 displaystyle y 4 nbsp Unter der Nullhypothese ist die Anzahl der Kopfe binomialverteilt mit n 20 displaystyle n 20 nbsp und p 1 2 displaystyle p tfrac 1 2 nbsp Der p displaystyle p nbsp Wert fur diesen Versuchsausgang ist daher P Y y H 0 P Y 4 H 0 j 0 6 20 j 1 2 j 1 1 2 20 j j 14 20 20 j 1 2 j 1 1 2 20 j displaystyle P Y geq y mid H 0 P Y geq 4 mid H 0 sum j 0 6 20 choose j left frac 1 2 right j left 1 frac 1 2 right 20 j sum j 14 20 20 choose j left frac 1 2 right j left 1 frac 1 2 right 20 j nbsp 1 2 20 j 0 6 20 j 1 2 20 j 14 20 20 j 2 1 2 20 j 0 6 20 j 0 115 displaystyle frac 1 2 20 sum j 0 6 20 choose j frac 1 2 20 sum j 14 20 20 choose j 2 frac 1 2 20 sum j 0 6 20 choose j approx 0 115 nbsp Auf einem Signifikanzniveau von a 5 0 05 kann man die Nullhypothese nicht verwerfen da 0 115 gt 0 05 und nicht kleiner wie notig ware Das heisst dass man aus den Daten nicht folgern kann dass die Munze nicht fair ist Ware das Versuchsergebnis k 15 displaystyle k 15 nbsp mal Kopf also y 5 displaystyle y 5 nbsp dann ware der p displaystyle p nbsp Wert fur diesen Versuchsausgang P Y 5 H 0 2 j 0 5 20 j 1 2 20 0 041 displaystyle P Y geq 5 mid H 0 2 sum j 0 5 20 choose j frac 1 2 20 approx 0 041 nbsp Auf einem Signifikanzniveau von a 5 0 05 wurde man in diesem Fall die Nullhypothese verwerfen da 0 041 lt 0 05 man wurde also schliessen dass die Munze nicht fair ist Auf einem Signifikanzniveau von 1 hingegen waren weitere Tests notig Genauer gesagt Man wurde die Datenlage fur unzureichend ansehen um den Schluss zu rechtfertigen die Munze sei nicht fair Dies als einen Beweis zu nehmen dass die Munze fair ist ware jedoch falsch Beziehung zum Signifikanzniveau BearbeitenEs gibt eine Aquivalenz zwischen einem Testverfahren mit der Berechnung des p displaystyle p nbsp Wertes und einem Verfahren mit dem im Voraus bestimmten Signifikanzniveau Der p displaystyle p nbsp Wert p displaystyle p nbsp berechnet sich anhand des beobachteten Wertes t displaystyle t nbsp der Prufgrosse und der kritische Wert k displaystyle k nbsp folgt aus dem Signifikanzniveau a displaystyle alpha nbsp so gilt z B rechtsseitig p P T t H 0 displaystyle p P T geq t mid H 0 nbsp a P T k H 0 displaystyle alpha P T geq k mid H 0 nbsp und p lt a t gt k displaystyle p lt alpha Leftrightarrow t gt k nbsp nbsp KS Test fur die Variable Mittlerer Hauspreis pro Bezirk des Boston Housing Datensatzes wobei k displaystyle k nbsp den kritischen Wert darstellt In statistischer Software wird bei der Durchfuhrung eines Tests der p displaystyle p nbsp Wert siehe rechts unter Asymptotische Signifikanz letzte Zeile im Kasten angegeben Ist der p displaystyle p nbsp Wert kleiner als das vorgegebene Signifikanzniveau a displaystyle alpha nbsp so ist die Nullhypothese abzulehnen Auf der einen Seite enthebt die Ausgabe des p displaystyle p nbsp Wertes bei einem Test die Software explizit davon nach dem vorgegebenen Signifikanzniveau zu fragen um eine Testentscheidung zu treffen Auf der anderen Seite besteht die Gefahr dass der Forscher das eigentlich im Voraus festzulegende Signifikanzniveau anpasst um sein gewunschtes Ergebnis zu bekommen Weitere Eigenschaften BearbeitenFalls die Prufgrosse eine stetige Verteilung hat ist der p displaystyle p nbsp Wert unter der punktformigen Nullhypothese uniform verteilt auf dem Intervall 0 1 displaystyle 0 1 nbsp 5 Typische Fehlinterpretationen BearbeitenWenn die Nullhypothese zugunsten der Alternativhypothese verworfen wird wird das Resultat als statistisch signifikant bezeichnet Signifikant bedeutet hierbei lediglich uberzufallig Ein haufiges Missverstandnis ist die Gleichsetzung dieser Aussage mit der falschen Behauptung der p displaystyle p nbsp Wert wurde angeben wie wahrscheinlich die Nullhypothese bei Erhalt dieses Stichprobenergebnisses sei Tatsachlich wird mit dem p displaystyle p nbsp Wert jedoch angedeutet wie extrem das Ergebnis ist Je kleiner der p displaystyle p nbsp Wert desto mehr spricht das Ergebnis gegen die Nullhypothese Goodman formuliert 12 Aussagen uber p displaystyle p nbsp Werte die ausgesprochen weit verbreitet und dennoch falsch sind 6 wie zum Beispiel die folgenden Falsch ist Wenn p 0 05 displaystyle p 0 05 nbsp ist die Chance dass die Nullhypothese wahr ist nur 5 Falsch ist Ein nicht signifikanter Unterschied bedeutet bei einem Mittelwertsvergleich zwischen zwei Gruppen dass die Mittelwerte gleich sind Ebenfalls falsch ist Nur ein signifikanter Unterschied bedeutet dass das Ergebnis in der Realitat beispielsweise in der klinischen Anwendung wichtig ist Kritik am p Wert BearbeitenKritiker des p displaystyle p nbsp Werts weisen darauf hin dass das Kriterium mit dem uber die statistische Signifikanz entschieden wird auf einer willkurlichen Festlegung des Signifikanzlevels basiert oft auf 0 05 gesetzt und dass das Kriterium zu einer alarmierenden Anzahl von falsch positiven Tests fuhrt Der Anteil aller statistisch signifikanten Tests bei denen die Nullhypothese wahr ist konnte betrachtlich hoher sein als das Signifikanzniveau was wiederum davon abhangt wie viele der Nullhypothesen falsch sind und wie hoch die Trennscharfe des Tests ist Die Einteilung der Resultate in signifikante und nicht signifikante Ergebnisse kann stark irrefuhrend sein Zum Beispiel kann die Analyse von beinahe identischen Datensatzen zu p displaystyle p nbsp Werten fuhren die sich stark in der Signifikanz unterscheiden In der medizinischen Forschung stellte der p displaystyle p nbsp Wert anfangs eine beachtliche Verbesserung der bisherigen Ansatze dar aber gleichzeitig ist es mit der steigenden Komplexitat der publizierten Artikel wichtig geworden die Fehlinterpretationen des p displaystyle p nbsp Werts aufzudecken Es wurde darauf hingewiesen dass in Forschungsfeldern wie der Psychologie bei denen Studien typischerweise eine niedrige Trennscharfe haben die Anwendung von Signifikanztests zu hoheren Fehlerraten fuhren kann Die Verwendung von Signifikanztests als Grundlage von Entscheidungen wurde wegen der weit verbreiteten Missverstandnisse uber den Prozess ebenfalls kritisiert Entgegen der landlaufigen Meinung gibt der p displaystyle p nbsp Wert nicht die Wahrscheinlichkeit der Nullhypothese an wahr oder falsch zu sein Des Weiteren sollte die Signifikanzschwelle nicht festgelegt werden ohne die Konsequenzen eines falsch positiven oder falsch negativen Ergebnisses des konkreten Tests zu berucksichtigen Weblinks BearbeitenKurze Darstellung des p displaystyle p nbsp Wertes auf Englisch Queen s University Kingston Canada CDF Statistics Committee Simple facts about p values Memo CDF MEMO STATISTICS PUBLIC 8023 2006 englisch PDF 113 KiB P value calculator Seite zur automatischen Berechnung des p displaystyle p nbsp Werts Wenn Forscher durch den Signifikanztest fallen Kritik des p displaystyle p nbsp Wertes auf spektrum de Why Most Published Research Findings Are False The earth is flat p gt 0 05 significance thresholds and the crisis of unreplicable research Blogbeitrag zum Thema p Wert und False Discovery Rate erfolgreich aufgerufen am 26 Oktober 2020Einzelnachweise Bearbeiten Lothar Sachs Jurgen Hedderich Angewandte Statistik Methodensammlung mit R 8 uberarb und erg Auflage Springer Spektrum Berlin Heidelberg 2018 ISBN 978 3 662 56657 2 S 452 R Wasserstein N Lazar The ASA s Statement on p Values Context Process and Purpose In The American Statistician Band 70 Nr 2 2016 S 129 133 doi 10 1080 00031305 2016 1154108 S Cassidy R Dimova B Giguere J Spence D Stanley Failing Grade 89 of Introduction to Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly In Advances in Methods and Practices in Psychological Science Juni 2019 doi 10 1177 2515245919858072 Ludwig Fahrmeir Rita Kunstler Iris Pigeot Gerhard Tutz Statistik Der Weg zur Datenanalyse 8 uberarb und erg Auflage Springer Spektrum Berlin Heidelberg 2016 ISBN 978 3 662 50371 3 S 388 Besag Clifford Sequential Monte Carlo p values In Biometrika Nr 78 2 1991 S 301 304 doi 10 1093 biomet 78 2 301 Steven Goodman A Dirty Dozen Twelve P Value Misconceptions In Seminars in Hematology Nr 45 2008 S 135 140 PDF Datei abgerufen am 17 Dezember 2021 Abgerufen von https de wikipedia org w index php title P Wert amp oldid 239314239