www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Die bayessche Statistik auch bayesianische Statistik oder Bayes Statistik nach Thomas Bayes anhoren ist ein Zweig der Statistik der mit dem bayesschen Wahrscheinlichkeitsbegriff und dem Satz von Bayes Fragestellungen der Stochastik untersucht Der Fokus auf diese beiden Grundpfeiler begrundet die bayessche Statistik als eigene Stilrichtung Klassische und bayessche Statistik fuhren teilweise zu den gleichen Ergebnissen 1 sind aber nicht vollstandig aquivalent Charakteristisch fur bayessche Statistik ist die konsequente Verwendung von Wahrscheinlichkeitsverteilungen bzw Randverteilungen deren Form die Genauigkeit der Verfahren bzw Verlasslichkeit der Daten und des Verfahrens transportiert Der bayessche Wahrscheinlichkeitsbegriff setzt keine unendlich oft wiederholbaren Zufallsexperimente voraus so dass bayessche Methoden auch bei kleiner Datengrundlage verwendbar sind Eine geringe Datenmenge fuhrt dabei zu einer breiten Wahrscheinlichkeitsverteilung die nicht stark lokalisiert ist Aufgrund der strengen Betrachtung von Wahrscheinlichkeitsverteilungen sind bayessche Verfahren oft rechnerisch aufwandig Dies gilt als ein Grund weshalb sich im 20 Jahrhundert frequentistische und Ad hoc Methoden in der Statistik als pragende Techniken gegenuber bayesschen durchsetzten Im Zuge der Verbreitung von Computern und Monte Carlo Sampling Verfahren sind komplizierte bayessche Verfahren jedoch moglich geworden Die Auffassung von Wahrscheinlichkeiten als Grad vernunftiger Glaubwurdigkeit eroffnet in der bayesschen Statistik einen anderen Blick auf das Schlussfolgern mit Statistik im Vergleich zum frequentistischen Ansatz von Wahrscheinlichkeiten als Ergebnisse unendlich oft wiederholbarer Zufallsexperimente Im Satz von Bayes wird eine bestehende Erkenntnis uber die zu untersuchende Variable die A priori Verteilung kurz Prior mit den neuen Erkenntnissen aus den Daten kombiniert Likelihood gelegentlich auch Plausibilitat woraus eine neue verbesserte Erkenntnis A posteriori Wahrscheinlichkeitsverteilung resultiert Die A posteriori Wahrscheinlichkeitsverteilung eignet sich als neuer Prior wenn neue Daten zur Verfugung stehen Inhaltsverzeichnis 1 Struktur bayesscher Verfahren 2 Der bayessche Wahrscheinlichkeitsbegriff 3 Bayessche Inferenz am Beispiel des Munzwurfes 4 Wahl des Priors 5 Unterschiede und Gemeinsamkeiten zu nicht bayesschen Verfahren 5 1 Maximum Likelihood Ansatz 6 Beispiele 6 1 Beispiel von Laplace 7 Siehe auch 8 Literatur 9 EinzelnachweiseStruktur bayesscher Verfahren Bearbeiten Hauptartikel Satz von Bayes Die Verwendung des Satzes von Bayes fuhrt zu einer charakteristischen Struktur bayesscher Verfahren Ein Modell M displaystyle mathcal M nbsp soll mit einem Datensatz D displaystyle mathcal D nbsp untersucht werden Die Ausgangsfragestellung ist wie die Wahrscheinlichkeiten fur die Modellparameter M displaystyle mathcal M nbsp verteilt sind sofern die Daten D displaystyle mathcal D nbsp und Vorwissen I displaystyle mathcal I nbsp gegeben sind Es soll also ein Ausdruck fur Pr M D I displaystyle Pr mathcal M mid mathcal D mathcal I nbsp gefunden werden Pr M D I Pr D M I Pr M I Pr D I displaystyle Pr mathcal M mid mathcal D mathcal I frac Pr mathcal D mid mathcal M mathcal I Pr mathcal M mid mathcal I Pr mathcal D mid mathcal I nbsp Die einzelnen Wahrscheinlichkeiten haben eine feste Bezeichnung Pr M I displaystyle Pr mathcal M mid mathcal I nbsp A priori Wahrscheinlichkeit also die Wahrscheinlichkeitsverteilung fur M displaystyle mathcal M nbsp gegeben das Vorwissen I displaystyle mathcal I nbsp ohne die Messdaten D displaystyle mathcal D nbsp aus dem Versuch einzubeziehen Pr M D I displaystyle Pr mathcal M mid mathcal D mathcal I nbsp A posteriori Wahrscheinlichkeit die Wahrscheinlichkeitsverteilung fur M displaystyle mathcal M nbsp gegeben das Vorwissen I displaystyle mathcal I nbsp und die Messdaten D displaystyle mathcal D nbsp Pr D M I displaystyle Pr mathcal D mid mathcal M mathcal I nbsp Likelihood auch inverse Wahrscheinlichkeit oder Plausibilitat die Wahrscheinlichkeitsverteilung fur die Messdaten D displaystyle mathcal D nbsp wenn der Modellparameter M displaystyle mathcal M nbsp und das Vorwissen I displaystyle mathcal I nbsp gegeben sind Pr D I displaystyle Pr mathcal D mid mathcal I nbsp Evidenz kann als Normierungsfaktor bestimmt werden Der Satz von Bayes fuhrt direkt auf einen wichtigen Aspekt der bayesschen Statistik Mit dem Parameter I displaystyle mathcal I nbsp geht Vorwissen uber den Ausgang des Experiments als Prior in die Auswertung mit ein Nach dem Experiment wird aus Vorwissen und Messdaten eine Posteriorverteilung berechnet die neue Erkenntnisse enthalt Fur folgende Experimente wird dann der Posterior des ersten Experimentes als neuer Prior verwendet der ein erweitertes Vorwissen hat also I I D displaystyle mathcal I mathcal I mathcal D nbsp Die folgende Abbildung zeigt links einen Prior mit Vorwissen m displaystyle mu nbsp ist um 0 5 verteilt jedoch ist die Verteilung sehr breit Mit binomialverteilten Messdaten Mitte wird nun die Verteilung um m displaystyle mu nbsp genauer bestimmt sodass eine schmalere spitzere Verteilung als Posterior rechts abgeleitet werden kann Bei weiteren Beobachtungen kann dieser Posterior wieder als Prior dienen Entsprechen die Messdaten den bisherigen Erwartungen kann die Breite der Wahrscheinlichkeitsdichtefunktion weiter abnehmen bei vom Vorwissen abweichenden Messdaten wurde die Varianz der Verteilung wieder grosser werden und der Erwartungswert wurde sich gegebenenfalls verschieben nbsp Der bayessche Wahrscheinlichkeitsbegriff Bearbeiten Hauptartikel Bayesscher Wahrscheinlichkeitsbegriff Der bayessche Wahrscheinlichkeitsbegriff definiert Wahrscheinlichkeiten als Grad vernunftiger Erwartung 2 also als Mass fur die Glaubwurdigkeit einer Aussage der von 0 falsch unglaubwurdig bis 1 glaubwurdig wahr reicht Diese Interpretation von Wahrscheinlichkeiten und Statistik unterscheidet sich fundamental von der Betrachtung in der konventionellen Statistik in der unendlich oft wiederholbare Zufallsexperimente unter dem Gesichtspunkt betrachtet werden ob eine Hypothese wahr oder falsch ist Bayessche Wahrscheinlichkeiten P A displaystyle P A nbsp beziehen sich auf eine Aussage A displaystyle A nbsp In der klassischen Logik konnen Aussagen entweder wahr oft mit Wert 1 wiedergegeben oder falsch Wert 0 sein Der bayessche Wahrscheinlichkeitsbegriff erlaubt nun Zwischenstufen zwischen den Extremen eine Wahrscheinlichkeit von 0 25 gibt beispielsweise wieder dass eine Tendenz besteht dass die Aussage falsch sein konnte aber keine Gewissheit besteht Zudem ist es moglich ahnlich der klassischen Aussagenlogik aus elementaren Wahrscheinlichkeiten und Aussagen komplexere Wahrscheinlichkeiten zu bestimmen Damit ermoglicht die bayessche Statistik Schlussfolgerungen und die Behandlung von komplexen Fragestellungen gemeinsame Wahrscheinlichkeiten P A B displaystyle P A B nbsp also Wie wahrscheinlich ist es dass sowohl A displaystyle A nbsp als auch B displaystyle B nbsp wahr ist Wie wahrscheinlich ist es beispielsweise uber den gesamten Wetterzeitraum dass gleichzeitig die Sonne scheint A displaystyle A nbsp und Regen fallt B displaystyle B nbsp bedingte Wahrscheinlichkeiten P A B displaystyle P A mid B nbsp also Wie wahrscheinlich ist es dass A displaystyle A nbsp wahr ist wenn gegeben ist dass B displaystyle B nbsp wahr ist Wie wahrscheinlich ist es beispielsweise uber den Zeitraum des Regens B displaystyle B nbsp dass gleichzeitig auch die Sonne scheint A displaystyle A nbsp Bayessche Inferenz am Beispiel des Munzwurfes Bearbeiten Hauptartikel Bayessche Inferenz Der Munzwurf ist ein klassisches Beispiel der Wahrscheinlichkeitsrechnung und eignet sich sehr gut um die Eigenschaften der bayesschen Statistik zu erlautern Betrachtet wird ob beim Wurf einer Munze Kopf 1 oder Nicht Kopf 0 also Zahl eintrifft Typischerweise wird im Alltag oft angenommen dass bei einem Munzwurf eine 50 ige Wahrscheinlichkeit besteht eine bestimmte Seite oben auf zu finden p K 0 5 displaystyle p K 0 5 nbsp Diese Annahme ist jedoch fur eine Munze die grosse Unebenheiten aufweist oder vielleicht sogar manipuliert ist nicht sinnvoll Die Wahrscheinlichkeit von 50 wird deshalb im Folgenden nicht als gegeben angenommen sondern durch den variablen Parameter m displaystyle mu nbsp ersetzt Mit dem bayesschen Ansatz kann untersucht werden wie wahrscheinlich beliebige Werte fur m displaystyle mu nbsp sind also wie ausgewogen die Munze ist Mathematisch entspricht dies der Suche nach einer Wahrscheinlichkeitsverteilung fur m displaystyle mu nbsp wobei Beobachtungen Anzahl von Kopfwurfen m displaystyle m nbsp und Zahlwurfen N m displaystyle N m nbsp in einem Experiment mit N displaystyle N nbsp Munzwurfen berucksichtigt werden sollen Pr m m N displaystyle Pr mu m N nbsp Mit dem bayesschen Satz lasst sich diese Wahrscheinlichkeitsfunktion durch Likelihood und A priori Verteilung ausdrucken Pr m m N Posterior Pr m m N Likelihood Pr m Prior displaystyle underset text Posterior underbrace Pr mu mid m N propto underset text Likelihood underbrace Pr m mid mu N underset text Prior underbrace Pr mu nbsp Die Likelihood ist hier eine Wahrscheinlichkeitsverteilung uber die Anzahl der Kopfwurfe bei einer gegebenen Balance der Munze m displaystyle mu nbsp und einer gegebenen Anzahl an Wurfen insgesamt N displaystyle N nbsp Diese Wahrscheinlichkeitsverteilung ist bekannt als Binomialverteilung Pr m m N B i n o m m m N N m m m 1 m N m displaystyle Pr m mid mu N mathrm Binom m mid mu N binom N m mu m 1 mu N m nbsp Im Gegensatz zur A posteriori Verteilung ist m displaystyle mu nbsp in der Likelihood Verteilung nur ein Parameter der die Form der Verteilung bestimmt Zur Bestimmung der A posteriori Verteilung fehlt nun noch die A priori Verteilung Auch hier muss wie bei der Likelihood eine geeignete Verteilungsfunktion fur das Problem gefunden werden Bei einer Binomialverteilung als Likelihood eignet sich eine Betaverteilung als A priori Verteilung wegen der Binomial Terme m a 1 1 m b 1 displaystyle mu alpha 1 1 mu beta 1 nbsp Pr m B e t a m a b 1 B a b m a 1 1 m b 1 displaystyle Pr mu mathrm Beta mu mid alpha beta frac 1 B alpha beta mu alpha 1 1 mu beta 1 nbsp nbsp nbsp nbsp Die Parameter a b displaystyle alpha beta nbsp der Betaverteilung werden am Ende der Herleitung des Posteriors anschaulich verstandlich werden Zusammenfassen des Produktes aus Likelihood Verteilung und Beta Prior zusammen liefert als Ergebnis eine neue Betaverteilung als Posterior Pr m m N a b B e t a m a m b N m displaystyle Pr mu mid m N alpha beta mathrm Beta mu mid alpha m beta N m nbsp Somit ergibt sich aus dem bayesschen Ansatz dass die A posteriori Verteilung des Parameters m displaystyle mu nbsp als Beta Verteilung ausgedruckt werden kann deren Parameter sich direkt aus den Parametern der A priori Verteilung und den gewonnenen Messdaten Anzahl der Kopf Wurfe gewinnen lasst Diese A posteriori Verteilung kann wieder als Prior fur ein Update der Wahrscheinlichkeitsverteilung verwendet werden wenn etwa durch weitere Munzwurfe mehr Daten zur Verfugung stehen In der folgenden Abbildung werden die Posteriorverteilungen fur simulierte Munzwurf Daten fur jeden Munzwurf neu geplottet Aus der Grafik geht hervor wie sich die Posterior Verteilung dem Simulationsparameter µ 0 35 reprasentiert durch den grunen Punkt mit steigender Anzahl der Wurfe immer weiter annahert Interessant ist hier insbesondere das Verhalten des Erwartungswerts der Posterior Verteilung blauer Punkt da der Erwartungswert der Beta Verteilung nicht notwendigerweise dem hochsten Punkt der Betaverteilung entspricht nbsp Die Wahrscheinlichkeitsverteilung uber m displaystyle mu nbsp erlaubt ganz im bayesschen Sinne neben der Angabe des wahrscheinlichsten Wertes fur m displaystyle mu nbsp auch eine Angabe der Genauigkeit von m displaystyle mu nbsp angesichts der gegebenen Daten Wahl des Priors Bearbeiten Hauptartikel A priori Verteilung und A priori Wahrscheinlichkeit Die Wahl der A priori Verteilung ist keineswegs beliebig Im oberen Fall wurde eine A priori Verteilung der konjugierte Prior gewahlt welche mathematisch praktisch ist Die Verteilung B e t a m a 1 b 1 displaystyle mathrm Beta mu mid alpha 1 beta 1 nbsp ist eine Verteilung bei der jedes m displaystyle mu nbsp gleich wahrscheinlich ist Diese Betaverteilung entspricht also dem Fall dass kein nennenswertes Vorwissen uber m displaystyle mu nbsp vorliegt Nach wenigen Beobachtungen kann aus dem gleichformigen Prior schon eine Wahrscheinlichkeitsverteilung werden die die Lage von m displaystyle mu nbsp wesentlich genauer beschreibt etwa B e t a m a 11 b 12 displaystyle mathrm Beta mu mid alpha 11 beta 12 nbsp Der Prior kann auch Expertenwissen enthalten Etwa kann bei einer Munze davon ausgegangen werden dass m displaystyle mu nbsp in der Nahe von 50 liegt Werte in den Randbereichen um 100 und 0 dagegen unwahrscheinlich sind Mit diesem Wissen lasst sich die Wahl eines Priors mit dem Erwartungswert 0 5 rechtfertigen Diese Wahl ware in einem anderen Fall etwa der Verteilung von roten und schwarzen Kugeln in einer Urne vielleicht nicht angebracht etwa wenn nicht bekannt ist wie das Mischverhaltnis ist oder ob sich uberhaupt beide Farben in der Urne befinden Der Jeffreys Prior ist ein sogenannter nicht informativer Prior bzw viel eher ein Verfahren um einen nicht informativen Prior zu bestimmen Der Grundgedanke fur den Jeffreys Prior ist dass ein Verfahren zur Prior Wahl was ohne Vorkenntnis von Daten stattfindet nicht von der Parametrisierung abhangen sollte Fur einen Bernoulli Prozess ist der Jeffreys Prior B e t a m a 1 2 b 1 2 displaystyle mathrm Beta mu mid alpha tfrac 1 2 beta tfrac 1 2 nbsp Auch andere Prior Verteilungen sind denkbar und konnen angesetzt werden Teilweise wird dann jedoch die Bestimmung der Posteriorverteilung schwierig und sie kann oft nur numerisch bewaltigt werden Konjugierte Prioren existieren fur alle Mitglieder der Exponentialfamilie Unterschiede und Gemeinsamkeiten zu nicht bayesschen Verfahren BearbeitenDie meisten nicht bayesschen Verfahren unterscheiden sich in zwei Punkten von bayesschen Verfahren Zum einen raumen nicht bayessche Verfahren dem Satz von Bayes keinen zentralen Stellenwert ein verwenden ihn oft nicht zum anderen bauen sie oft auf einem anderen Wahrscheinlichkeitsbegriff auf dem frequentistischen Wahrscheinlichkeitsbegriff In der frequentistischen Interpretation von Wahrscheinlichkeiten sind Wahrscheinlichkeiten Haufigkeitsverhaltnisse unendlich oft wiederholbarer Experimente Je nach eingesetztem Verfahren wird keine Wahrscheinlichkeitsverteilung bestimmt sondern lediglich Erwartungswerte und allenfalls Konfidenzintervalle Diese Einschrankungen fuhren jedoch oft zu numerisch einfachen Rechenverfahren in frequentistischen bzw Ad hoc Verfahren Um ihre Ergebnisse zu validieren stellen nicht bayessche Verfahren umfangreiche Techniken zur Validierung zur Verfugung Maximum Likelihood Ansatz Bearbeiten Hauptartikel Maximum Likelihood Methode Der Maximum Likelihood Ansatz ist ein nicht bayessches Standardverfahren der Statistik Anders als in der bayesschen Statistik wird nicht der Satz von Bayes angewendet um eine Posteriorverteilung des Modellparameters zu bestimmen vielmehr wird der Modellparameter so variiert dass die Likelihood Funktion maximal wird Da im frequentistischen Bild nur die beobachteten Ereignisse D displaystyle mathcal D nbsp Zufallsvariablen sind wird beim Maximum Likelihood Ansatz die Likelihood nicht als Wahrscheinlichkeitsverteilung der Daten gegeben den Modellparameter M displaystyle mathcal M nbsp aufgefasst sondern als Funktion L M Pr D M displaystyle L mathcal M mapsto Pr mathcal D mid mathcal M nbsp Das Ergebnis einer Maximum Likelihood Schatzung ist ein Schatzer M M L displaystyle mathcal M ML nbsp der am ehesten mit dem Erwartungswert der Posteriorverteilung beim bayesschen Ansatz vergleichbar ist Die Maximum Likelihood Methode steht nicht komplett im Widerspruch zur bayesschen Statistik Mit der Kullback Leibler Divergenz kann gezeigt werden dass Maximum Likelihood Methoden naherungsweise Modellparameter schatzen die der tatsachlichen Verteilung entsprechen Beispiele BearbeitenBeispiel von Laplace Bearbeiten Genauigkeit der Schatzung der Saturnmasse als Bruchteil der Sonnenmasse Bouvard 1814 3512 0NASA 2004 3499 1Abweichung 3512 0 3499 1 3499 1 0 003 7 lt 0 01 displaystyle tfrac 3512 0 3499 1 3499 1 0 0037 lt 0 01 nbsp Laplace hat den Satz von Bayes erneut abgeleitet und verwendet um die Masse des Saturn und anderer Planeten einzugrenzen A Die Masse des Saturn liegt in einem bestimmten Intervall B Daten von Observatorien uber gegenseitige Storungen von Jupiter und Saturn C Die Masse des Saturn darf nicht so klein sein dass er seine Ringe verliert und nicht so gross dass er das Sonnensystem zerstort Pour en donner quelques applications interessantes j ai profite de l immense travail que M Bouvard vient de terminer sur les mouvemens de Jupiter et de Saturne dont il a construit des tables tres precises Il a discute avec le plus grand soin les oppositions et les quadratures de ces deux planetes observees par Bradley et par les astronomes qui l ont suivi jusqu a ces dernieres annees il en a conclu les corrections des elemens de leur mouvement et leurs masses comparees a celle du Soleil prise pour unite Ses calculs lui donnent la masse de Saturne egale a la 3512e partie de celle du Soleil En leur appliquant mes formules de probabilite je trouve qu il y a onze mille a parier contre un que l erreur de ce resultat n est pas un centieme de sa valeur ou ce qui revient a tres peu pres au meme qu apres un siecle de nouvelles observations ajoutees aux precedentes et discutees de la meme maniere le nouveau resultat ne differera pas d un centieme de celui de M Bouvard Um einige interessante Anwendungen davon zu nennen habe ich von der gewaltigen Arbeit profitiert die M Bouvard gerade uber die Bewegungen von Jupiter und Saturn beendet und von denen er sehr prazise Tabellen erstellt hat Er hat mit grosster Sorgfalt die Oppositionen und Quadraturen dieser beiden Planeten diskutiert die von Bradley und den Astronomen die ihn in den letzten Jahren begleitet haben beobachtet wurden er schloss auf die Korrekturen der Elemente ihrer Bewegung und ihrer Massen im Vergleich zur Sonne die als Referenz verwendet wurde Seinen Berechnungen zufolge betragt die Saturnmasse den 3512ten Teil der Sonnenmasse Meine Formeln der Wahrscheinlichkeitsrechnung auf diese angewandt komme ich zu dem Schluss dass die Chancen 11 000 zu 1 stehen dass der Fehler dieses Ergebnisses nicht ein Hundertstel seines Wertes ist oder was das Gleiche bedeutet dass auch nach einem Jahrhundert mit neuen Beobachtungen zusatzlich zu den bereits existierenden das neue Ergebnis nicht mehr als ein Hundertstel von dem von M Bouvard abweichen wird sofern sie auf die gleiche Weise durchgefuhrt werden Pierre Simon Laplace Essai philosophique sur les probabilites Dover 1840 Seite 91 134 3 Die Abweichung vom korrekten Wert betrug tatsachlich nur etwa 0 37 Prozent also deutlich weniger als ein Hundertstel Siehe auch BearbeitenBayesianische ErkenntnistheorieLiteratur BearbeitenChristopher M Bishop Pattern Recognition And Machine Learning 2 Auflage Springer New York 2006 ISBN 0 387 31073 8 Leonhard Held Methoden der statistischen Inferenz Likelihood und Bayes Spektrum Akademischer Verlag Heidelberg 2008 ISBN 978 3 8274 1939 2 Rudolf Koch Einfuhrung in die Bayes Statistik Springer Berlin Heidelberg 2000 ISBN 3 540 66670 2 Peter M Lee Bayesian Statistics An Introduction 4 Auflage Wiley New York 2012 ISBN 978 1 118 33257 3 David J C MacKay Information Theory Inference and Learning Algorithms Cambridge University Press Cambridge 2003 ISBN 0 521 64298 1 Dieter Wickmann Bayes Statistik Einsicht gewinnen und entscheiden bei Unsicherheit Mathematische Texte Band 4 Bibliographisches Institut Wissenschaftsverlag Mannheim Wien Zurich 1991 ISBN 3 411 14671 0 Einzelnachweise Bearbeiten Christopher M Bishop Pattern Recognition And Machine Learning 2 Auflage Springer New York 2006 ISBN 978 0 387 31073 2 R T Cox Probability Frequency and Reasonable Expectation In American Journal of Physics Band 14 Nr 1 1946 S 1 13 doi 10 1119 1 1990764 Pierre Simon Laplace Essai philosophique sur les probabilites Dover 1840 Seite 91 134 digitale Volltext Ausgabe bei Wikisource franzosisch Abgerufen von https de wikipedia org w index php title Bayessche Statistik amp oldid 235256006