www.wikidata.de-de.nina.az
Statistisch signifikant wird das Ergebnis eines statistischen Tests genannt wenn Stichprobendaten so stark von einer vorher festgelegten Annahme der Nullhypothese abweichen dass diese Annahme nach einer vorher festgelegten Regel verworfen wird Hierfur wird nach gangiger Praxis vor der Testdurchfuhrung ein Signifikanzniveau festgelegt das die Fehlerwahrscheinlichkeit 1 Art also die Wahrscheinlichkeit dass eine Nullhypothese Hypothesis to be nullified Hypothese die anhand der Studiendaten verworfen werden soll 1 falschlich verworfen wird nach oben beschrankt Die Fehlerwahrscheinlichkeit 1 Art wird auch als Irrtumswahrscheinlichkeit bezeichnet das vorgegebene Signifikanzniveau dementsprechend auch zugelassene oder erlaubte Irrtumswahrscheinlichkeit genannt Der Fehler 2 Art liegt vor wenn die Nullhypothese nicht abgelehnt wird obwohl sie falsch ist Die Fehlerwahrscheinlichkeit 2 Art also die Wahrscheinlichkeit einen Fehler 2 Art zu begehen ist in der Regel umso grosser je kleiner das Signifikanzniveau ist Zu Fragen nach der Starke von Effekten der Relevanz der Ergebnisse fur eine bestimmte Fragestellung oder deren Ubertragbarkeit auf andere Umstande gibt das Ergebnis eines Signifikanztests keine Auskunft Der p Wert als Mass der statistischen Signifikanz wird haufig fehlinterpretiert und falsch verwendet weswegen sich die American Statistical Association im Jahr 2016 genotigt sah eine Mitteilung uber den Umgang mit statistischer Signifikanz zu veroffentlichen 2 Einer kleinen kanadischen Feldstudie von 2019 zufolge wird in etlichen Lehrbuchern der Begriff nicht korrekt vermittelt 3 Inhaltsverzeichnis 1 Grundlagen 2 Beispielhafte Fragestellungen 3 Irrtumswahrscheinlichkeit und Signifikanzniveau 4 Probleme bei der Interpretation 4 1 Aussagewert und Trennscharfe 4 2 Irrige Annahmen 4 3 Wissenschaftliches Publizieren 4 4 Signifikanz und Kausalitat 5 Siehe auch 6 Literatur 7 Weblinks 8 EinzelnachweiseGrundlagen BearbeitenUberpruft wird statistische Signifikanz durch statistische Tests die so gewahlt werden mussen dass sie dem Datenmaterial und den zu testenden Parametern bezuglich der Wahrscheinlichkeitsfunktion entsprechen Nur dann ist es moglich aus der Wahrscheinlichkeitsverteilung fur Zufallsvariablen mathematisch korrekt den jeweiligen p Wert zu errechnen als die Wahrscheinlichkeit ein Stichprobenergebnis wie das beobachtete oder ein extremeres zufallsbedingt zu erhalten Wie hoch deren Anteil bei unendlich oft wiederholten Zufallsstichproben aus derselben Gesamtheit zu erwarten ist kann als Wert zwischen 0 und 1 angegeben werden Dieser p Wert wird somit berechnet unter der Annahme dass die sogenannte Nullhypothese zutrifft Im Folgenden wird zur Vereinfachung angenommen dass die zu prufende Nullhypothese einfach ist also nicht mehrere Wahrscheinlichkeitsverteilungen bzw Parameter zulasst und dass die Nullhypothese inhaltlich von der Form ist es liegt kein Unterschied vor es liegt kein Effekt vor oder es liegt keine Wirkung vor Anhand des p Werts wird bestimmt ob ein bestimmtes vorab festgelegtes Signifikanzniveau uberschritten wird oder nicht Dieses beschrankt die Wahrscheinlichkeit dass z B die Nullhypothese Die festgestellten Unterschiede sind zufallig zustande gekommen abgelehnt wird obwohl sie richtig ist Die irrtumliche Ablehnung einer wahren Nullhypothese heisst Fehler 1 Art oder a Fehler Sinnvollerweise wird bei der Festlegung dieser kritischen Schwelle bedacht welche Konsequenzen der Fall hatte dass irrtumlich angenommen wird ein beobachteter Unterschied sei nur zufallig Halt man diese Folgen eher fur gravierend so wird man hier eher ein niedriges Niveau als ein hoheres wahlen beispielsweise lieber 1 als 5 oder aber 0 1 fur die maximal zulassige Irrtumswahrscheinlichkeit festlegen Diese Wahrscheinlichkeit wird als Signifikanzniveau a displaystyle alpha nbsp bezeichnet So bedeutet a 0 05 displaystyle alpha 0 05 nbsp Falls die Nullhypothese richtig ist darf die Wahrscheinlichkeit dafur dass sie falschlich abgelehnt wird Fehler 1 Art nicht mehr als 5 betragen Entsprechend betragt dann die Wahrscheinlichkeit eine richtige Nullhypothese aufgrund des statistischen Tests nicht abzulehnen 1 a 0 95 displaystyle 1 alpha 0 95 nbsp sprich mindestens 95 Ergibt die Anwendung des statistischen Verfahrens dass der geprufte beobachtete Unterschied statistisch nicht signifikant ist kann man daraus keine definitiven Schlusse ziehen Auch ist in diesem Fall meist noch nicht einmal die Wahrscheinlichkeit eines Fehlers 2 Art Pr H 0 H 0 b displaystyle operatorname Pr H 0 overline H 0 beta nbsp bekannt eine falsche Nullhypothese fur richtig zu halten Das Signifikanzniveau sagt also nur wie gross hochstens die Wahrscheinlichkeit eines Fehlers 1 Art ist also die Wahrscheinlichkeit dass die Nullhypothese abgelehnt wird obwohl sie richtig ist Das Signifikanzniveau besagt nicht mit welcher Wahrscheinlichkeit eine Hypothese richtig ist Soll eine Hypothese als richtig erwiesen werden so ist die Wahrscheinlichkeit des Fehlers 2 Art dass die Hypothese als richtig befunden wird obwohl sie falsch ist umso grosser je kleiner das Signifikanzniveau ist Beispiel Es liegt ein Versuch zugrunde der als Grundlage die Wahrscheinlichkeit p hat Gepruft werden soll die Hypothese p 1 5 Die Wahrscheinlichkeit dass die Hypothese fur richtig befunden wird obwohl sie falsch ist hangt von der Anzahl durchgefuhrter Versuche sowie dem Signifikanzniveau ab Sie betragt bei 25 Versuchsdurchfuhrungen 93 bei einem Signifikanzniveau von 5 und 99 bei einem Signifikanzniveau von 1 bei 1000 Versuchsdurchfuhrungen sind es 3 6 bei einem Signifikanzniveau von 5 und 11 4 bei einem Signifikanzniveau von 1 Allgemeiner verstanden beschreibt die statistische Signifikanz also den moglichen Informationsgehalt eines Ereignisses bzw einer Messung vor dem Hintergrund zufalliger Verteilungen als Wahrscheinlichkeit Je kleiner a displaystyle alpha nbsp ist desto hoher ist dann die Informationsqualitat eines signifikanten Ergebnisses Entscheidend fur die qualitative Bewertung ist die Frage Wovon hangt die statistische Signifikanz ab In erster Linie sind hier die Grosse einer Stichprobe deren Reprasentativitat und ihre Varianz zu nennen Die statistische Signifikanz wird wesentlich durch die Stichprobengrosse beeinflusst Wird statt einer grosseren nur eine kleine Stichprobe untersucht dann ist es wahrscheinlicher dass deren Zusammensetzung nicht die Grundgesamtheit reprasentiert Die infolge zufallig getroffener Auswahl auftretenden Unterschiede fallen so starker ins Gewicht Bildet die gewahlte Stichprobe die Grundgesamtheit in ihren wesentlichen Merkmalen ab spricht man von einer reprasentativen Stichprobe Wichtig fur die Informationsqualitat ist ebenfalls die Varianz also die Streuung der Werte innerhalb der untersuchten Gruppe Beispielhafte Fragestellungen BearbeitenBei einer Umfrage wird festgestellt dass 55 der Frauen zu Partei A tendieren wahrend von 53 der Manner Partei B bevorzugt wird Gibt es tatsachlich einen Unterschied bei der politischen Uberzeugung von Mannern und Frauen oder sind nur zufallig bei den Frauen viele Anhangerinnen von Partei A und bei den Mannern von Partei B befragt worden Mit einem neuen Medikament ist die Heilungsrate hoher als ohne Medikament Ist das neue Medikament wirklich wirksam oder sind nur zufallig besonders viele Patienten ausgewahlt worden die auch von alleine wieder gesund geworden waren In der Umgebung einer Chemiefabrik tritt eine bestimmte Krankheit besonders haufig auf Ist das Zufall oder gibt es einen Zusammenhang Irrtumswahrscheinlichkeit und Signifikanzniveau BearbeitenIn den oben genannten Beispielen muss man annehmen dass der Zufall die Ergebnisse beeinflusst hat Man kann jedoch abschatzen wie wahrscheinlich es ist dass die gemessenen Ergebnisse auftreten wenn nur der Zufall wirkt Dieser zufallige Fehler wird allgemein als Fehler 1 Art Synonym a displaystyle alpha nbsp Fehler bezeichnet und die Wahrscheinlichkeit seines Auftretens unter der Voraussetzung dass die Nullhypothese richtig ist als Irrtumswahrscheinlichkeit Bei einem parametrischen Modell hangen die Wahrscheinlichkeiten fur die verschiedenen Fehlschlusse vom unbekannten Verteilungsparameter ϑ displaystyle vartheta nbsp ab und konnen mit Hilfe der Gutefunktion des Tests angegeben werden Die obere Grenze fur die Irrtumswahrscheinlichkeit also jener Wert den man fur die Wahrscheinlichkeit eines Fehlers 1 Art noch eben zu akzeptieren bereit ist heisst Signifikanzniveau Grundsatzlich ist dies frei wahlbar haufig wird ein Signifikanzniveau von 5 verwendet Die Etablierung dieses Wertes wird verschiedentlich R A Fisher zugeschrieben 4 In der Praxis bedeutet dieses Kriterium dass im Schnitt eine von 20 Untersuchungen bei denen die Nullhypothese richtig ist z B ein Medikament tatsachlich wirkungslos ist zu dem Schluss kommt sie sei falsch z B behauptet das Medikament erhohe die Heilungschancen Eine heuristische Motivation des Wertes 5 ist wie folgt Eine normalverteilte Zufallsgrosse nimmt nur mit einer Wahrscheinlichkeit von kleiner oder gleich 5 einen Wert an der sich vom Erwartungswert um mehr als die 1 96 fache Standardabweichung unterscheidet Bei einem p Wert von 5 spricht z B Jurgen Bortz von einem signifikanten bei einem Wert von 1 2 3 Standardabweichungen spricht man von einem sehr signifikanten und bei einem Wert von 0 1 3 1 Standardabweichungen spricht man von einem hoch signifikanten Ergebnis 5 Wichtig ist hierbei dass diese Einteilung rein willkurlich ist an die jeweilige Anwendung angepasst werden muss und durch Wiederholungen bestatigt werden sollte Weiterhin ist diese Einteilung problematisch in Bezug auf Publikationsbias und p Hacking Da bei einem p Wert von kleiner oder gleich 5 falls die Nullhypothese korrekt ist im Schnitt 5 aller Untersuchungen die Nullhypothese dennoch verwerfen ist dieses Kriterium im Allgemeinen nicht ausreichend um neue Entdeckungen zu belegen So wurde zum Beispiel fur den Nachweis der Existenz des Higgs Bosons ein sehr viel strengeres Kriterium von 5 Standardabweichungen entsprechend einem p Wert von 1 in 3 5 Millionen angewendet 6 Die Hohe der Signifikanz eines Ergebnisses verhalt sich also entgegengesetzt zum Zahlenwert des Signifikanzniveaus ein niedriges Signifikanzniveau entspricht einer hohen Signifikanz und umgekehrt Im Gegensatz zur Fisherschen Auffassung von Signifikanz als Gradmesser fur den Wahrheitsgehalt einer Hypothese ist im Kontext einer klassischen strikten Neyman Pearson Testtheorie eine nachtragliche Einstufung des Testergebnisses in unterschiedliche Grade der Signifikanz nicht vorgesehen Aus dieser Sicht sind auch keine hochsignifikanten oder hochstsignifikanten Ergebnisse moglich zusatzliche Informationen beispielsweise der p Wert mussten anders angegeben werden Auch bei statistisch signifikanten Aussagen ist stets eine kritische Uberprufung der Versuchsanordnung und durchfuhrung notwendig Nur selten genugen wissenschaftliche Untersuchungen z B den mathematischen Anforderungen an einen aussagefahigen statistischen Test Bei vielen Studien steht der Wunsch des oder der Studiendurchfuhrenden z B im Rahmen einer Doktorarbeit nach einem signifikanten Ergebnis bei der Studiendurchfuhrung zu sehr im Vordergrund Untersuchungen bei denen die Nullhypothese bestatigt wird werden namlich gemeinhin aber aus statistischer Sicht falschlicherweise als uninteressant und uberflussig angesehen Weiterhin ist das Studiendesign entscheidend Als Hinweise auf die Qualitat einer Studie konnen z B im medizinischen Umfeld die Eigenschaften randomisiert kontrolliert und doppelblind gelten Ohne diese sind Aussagen etwa zur Wirksamkeit von Therapien mit ausserster Vorsicht zu behandeln Bei haufig durchgefuhrten weniger aufwandigen Studien besteht weiterhin die Gefahr dass zum Beispiel von zwanzig vergleichbaren Studien nur eine einzige eben die mit positivem Ergebnis veroffentlicht wird wobei allerdings deren Signifikanz tatsachlich nur zufallig erreicht wurde Dieses Problem ist die wesentliche Ursache des Publikationsbias s u Problematisch ist insbesondere auch die Interpretation signifikanter Korrelationen in retrospektiven Studien Zu bedenken ist daruber hinaus stets dass aus statistisch signifikanten Korrelationen oft falschlich auf eine vermeintliche Kausalitat geschlossen wird sog Scheinkorrelation Probleme bei der Interpretation BearbeitenAussagewert und Trennscharfe Bearbeiten Auch bei Studien die statistisch signifikant sind kann der praktische Aussagewert gering sein Studien mit grosser Fallzahl fuhren aufgrund der hohen Trennscharfe eines Tests auch Teststarke genannt oft zu hoch signifikanten Ergebnissen Solche Studien konnen trotzdem einen geringen Aussagewert haben wenn die Grosse des beobachteten Effekts oder der gemessene Parameter nicht relevant sind Statistische Signifikanz ist also ein notwendiges aber kein hinreichendes Kriterium fur eine praktisch auch relevante Aussage Fur die Beurteilung der Relevanz ist die Effektstarke Effektgrosse ein wichtiges Hilfsmittel Weitere kritische Prufsteine vom methodologischen Gesichtspunkt aus sind die Korrektheit der statistischen Modellannahmen beispielsweise die Verteilungsannahme die Anzahl der durchgefuhrten statistischen Tests bei mehreren Tests von denen nicht einer eindeutig als primarer Test gekennzeichnet ist sollte eine Adjustierung des Signifikanzniveaus durchgefuhrt werden die prospektive Definition der Analysemethoden vor der Entblindung doppelblinder Studien die eventuellen Folgen die durch einen Fehler 1 Art oder 2 Art entstehen konnen wozu auch mogliche Gefahrdungen von Gesundheit und Leben gehoren Irrige Annahmen Bearbeiten Signifikanz ist entgegen einer weit verbreiteten Meinung nicht mit der Irrtumswahrscheinlichkeit gleichzusetzen auch wenn im Output mancher Statistikprogramme z B SPSS die Irrtumswahrscheinlichkeit missverstandlich als Sig oder Signifikanz bezeichnet wird Richtig ist es von signifikant zu sprechen wenn die Irrtumswahrscheinlichkeit fur das gewonnene Ergebnis einer bestimmten Studie nicht uber dem zuvor festgelegten Signifikanzniveau liegt Doch ist es moglich dass eine Wiederholung dieser Studie mit demselben Design und unter sonst gleichen Bedingungen bei der erneuten Stichprobe ein Ergebnis liefern wurde fur das die Irrtumswahrscheinlichkeit uber dem Signifikanzniveau lage Die Wahrscheinlichkeit fur diesen Fall hangt bei zufallig verteilten Variablen vom gewahlten Signifikanzniveau ab Nicht selten wird das Wort signifikant mit der Bedeutung deutlich gebraucht Eine statistisch signifikante Anderung muss allerdings nicht notwendigerweise auch deutlich sein sondern nur eindeutig Es kann sich also durchaus um eine geringfugige Anderung handeln die eindeutig gemessen wurde Bei genugend hoher Anzahl an Messungen wird jeder existierende Effekt statistisch signifikant gemessen werden so klein und unbedeutend er auch sein mag Nicht zutreffend sind ferner die Annahmen das Signifikanzniveau beziehungsweise der beobachtete p Wert lege fest die Effektgrosse die Wahrscheinlichkeit dass die Nullhypothese wahr oder falsch ist die Wahrscheinlichkeit dass die Alternativhypothese wahr oder falsch istWissenschaftliches Publizieren Bearbeiten Die Prasentation von statistisch signifikanten Ergebnissen hat Einfluss darauf ob ein wissenschaftlicher Artikel veroffentlicht wird Dies fuhrt jedoch zum sogenannten Publikationsbias da mogliche Zufallsergebnisse nicht durch Publikation der gesamten Bandbreite der durchgefuhrten Untersuchungen relativiert werden 7 Daruber hinaus haben Resultate die aufgrund von Signifikanz zur Publikation ausgewahlt werden meist uberschatzte Effektgrossen Grund dafur ist dass vor allem bei kleineren Studien nur die grossten Unterschiede oder die starksten Zusammenhange signifikant werden 8 9 Signifikanz und Kausalitat Bearbeiten Die Signifikanz sagt nichts uber die moglichen kausalen Zusammenhange aus oder deren Art oft wird dies ubersehen Als Beispiel Eine Statistik hatte gezeigt dass in der Umgebung einer Chemiefabrik eine bestimmte Krankheit besonders haufig aufgetreten ist und zwar so dass der Unterschied zur normalen Verteilung dieser Erkrankung in der Gesamtbevolkerung signifikant ist Doch wurde dieser statistisch signifikante Zusammenhang nicht zwingend bedeuten dass die Chemiefabrik mit der erhohten Erkrankungshaufigkeit ursachlich zu tun hat 1 Denn denkbar ware auch dass die Umgebung jener Chemiefabrik eine unbeliebte Wohngegend ist und daher dort uberwiegend finanziell schwache Familien wohnen die sich einen Wegzug nicht leisten konnen Meist ernahren sich finanziell schwache Familien eher schlechter und haben in der Regel auch eine schlechtere Gesundheitsvorsorge als der Bevolkerungsdurchschnitt eine Reihe von Krankheiten wird dadurch begunstigt womoglich gerade die in Rede stehende 2 Ebenso denkbar ware dass die Krankheit in manchen Gebieten z B durch Uberschreiten einer gewissen Bevolkerungsdichte und der damit verbundenen erhohten Ansteckungsgefahr gehauft auftritt und nur zufallig steht die Chemiefabrik nun in einem solchen Gebiet mit hoherem Auftreten dieser infektiosen Erkrankung Im ersten gedachten Fall konnte also ein kausaler Zusammenhang vorliegen es ware jedoch ein anderer als der welcher mit Blick auf die statistische Untersuchung angenommen werden mochte Die Kausalitat konnte auch derart sein dass diese Chemiefabrik gerade da gebaut wurde wo viele finanziell schwache Familien wohnen z B weil diese sich mangels Lobby weniger gut gegen die Ansiedlung einer Fabrik wehren konnten als die wohlhabenderen Bewohner anderer Wohngegenden oder da ihre Mitglieder als mogliche Ware Arbeitskraft im Preis gunstiger erschienen bei der Wahl des Standortes Die Chemiefabrik ohne weitere Indizien als Ursache der gehauften Krankheitsfalle anzusehen ware also ein logisch falsch gefolgerter Schluss der Art cum hoc ergo propter hoc Im zweiten gedachten Fall lage keinerlei kausaler Zusammenhang vor vielmehr wurde der sogenannte Zielscheibenfehler begangen Nachdem eine signifikante Haufung eines Ereignisses hier der Krankheit festgestellt wurde wird ein anderes einigermassen auffalliges Ereignis nun die Chemiefabrik herangezogen und als mit dem ersten kausal zusammenhangend interpretiert Oder noch einfacher Ein irgendwo als anders aufgefallenes Etwas wird wohl etwa mit irgendwas auffallig Anderem zusammenhangen irgendwie am liebsten kausal und ad hoc hier nun cum ergo propter nun hier Siehe auch BearbeitenF Test zur Feststellung statistischer Signifikanz des Unterschiedes zweier Varianzen t TestLiteratur BearbeitenErika Check Hayden Weak statistical standards implicated in scientific irreproducibility In Nature 2013 doi 10 1038 nature 2013 14131 David Salsburg The lady tasting tea How statistics revolutionized science in the twentieth century Freeman New York NY 2001 ISBN 0 7167 4106 7 popularwissenschaftlich Ronald L Wasserstein Nicole A Lazar The ASA s Statement on p Values Context Process and Purpose In The American Statistician Band 70 Nr 2 2016 S 129 133 doi 10 1080 00031305 2016 1154108 Valentin Amrhein Franzi Korner Nievergelt Tobias Roth 2017 The earth is flat p gt 0 05 significance thresholds and the crisis of unreplicable research PeerJ 5 e3544 doi 10 7717 peerj 3544 Weblinks Bearbeiten nbsp Wiktionary signifikant Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Peter Sedlmeier Jenseits des Signifikanztest Rituals Erganzungen und Alternativen PDF Datei 427 kB Jan M Hoem The reporting of statistical significance in scientific journals PDF Datei 131 kB Earliest Uses Significance Einzelnachweise Bearbeiten Gigerenzer G 2004 Mindless statistics J Soc Econ 33 587 606 doi 10 1016 j socec 2004 09 033 zitiert nach Fisher Neyman Pearson or NHST A tutorial for teaching data testing Frontiers in Psychology 2015 6 223 PMC 4347431 freier Volltext R Wasserstein N Lazar The ASA s Statement on p Values Context Process and Purpose In The American Statistician Band 70 Nr 2 2016 S 129 133 doi 10 1080 00031305 2016 1154108 S Cassidy R Dimova B Giguere J Spence D Stanley Failing Grade 89 of Introduction to Psychology Textbooks That Define or Explain Statistical Significance Do So Incorrectly In Advances in Methods and Practices in Psychological Science Juni 2019 doi 10 1177 2515245919858072 Stephen Stigler Fisher and the 5 level In Chance Bd 21 Nr 4 2008 S 12 doi 10 1080 09332480 2008 10722926 Jurgen Bortz Nicola Doring Forschungsmethoden und Evaluation fur Human und Sozialwissenschaftler 4 uberarbeitete Auflage Springer Medizin Heidelberg 2006 ISBN 3 540 33305 3 S 740 ATLAS Collaboration Observation of a new particle in the search for the Standard Model Higgs Boson with the ATLAS detector at the LHC In Physics Letters B Bd 716 Nr 1 S 1 29 doi 10 1016 j physletb 2012 08 020 Wolfgang Weihe Klinische Studien und Statistik Von der Wahrscheinlichkeit des Irrtums In Deutsches Arzteblatt Bd 101 Nr 13 26 Marz 2004 Valentin Amrhein Franzi Korner Nievergelt Tobias Roth The earth is flat p gt 0 05 significance thresholds and the crisis of unreplicable research In PeerJ 5 Jahrgang 2017 doi 10 7717 peerj 3544 peerj com Daniel Berner Valentin Amrhein Why and how we should join the shift from significance testing to estimation In Journal of Evolutionary Biology 18 Mai 2022 ISSN 1010 061X S jeb 14009 doi 10 1111 jeb 14009 Abgerufen von https de wikipedia org w index php title Statistische Signifikanz amp oldid 235470639