www.wikidata.de-de.nina.az
Approximate Bayesian Computation engl zu dt Approximative Bayessche Berechnung abgekurzt ABC stellt eine Klasse von Berechnungsmethoden in der Bayesschen Inferenz dar In der modellbasierten statistischen Inferenz ist die Likelihood Funktion von zentraler Bedeutung da sie die Wahrscheinlichkeit der beobachteten Daten unter einem bestimmten statistischen Modell ausdruckt und somit die Unterstutzung quantifiziert die Daten Parametern und Modellen geben Fur einfache Modelle kann oft eine analytische Formel fur die Likelihood Funktion abgeleitet werden Bei komplexeren Modellen kann eine analytische Form jedoch schwer zu finden oder aufwandig auszuwerten sein ABC Methoden umgehen die Auswertung der Likelihood Funktion indem z B Stichproben aus der prior predictive distribution betrachtet werden Auf diese Weise erweitern sie den Bereich von Modellen fur die statistische Schlussfolgerungen moglich sind ABC Methoden sind mathematisch fundiert aber sie machen Annahmen und Naherungen deren Auswirkungen beachtet werden mussen Daruber hinaus verscharft das weitere Anwendungsgebiet von ABC die Herausforderungen in der Parameterschatzung und Modellauswahl ABC hat in den letzten Jahren immens an Popularitat gewonnen insbesondere fur die Analyse komplexer Probleme in der Populationsgenetik Okologie Epidemiologie und Systembiologie 1 Approximate Bayesian Computation kann als Bayessche Version der Indirekten Inferenz verstanden werden 2 Inhaltsverzeichnis 1 Geschichte 2 Methode 2 1 Motivation 2 2 ABC Rejection Algorithmus 2 3 Zusammenfassende Statistiken 2 4 ABC MCMC und ABC SMC Algorithmus 3 Software 4 EinzelnachweiseGeschichte BearbeitenDie ersten Ideen zu ABC reichen zuruck in die 1980er Jahre Donald Rubin beschrieb bei einer Erorterung der Interpretation Bayesscher Aussagen 1984 einen hypothetischen Sampling Mechanismus der eine Probe aus der A posteriori Verteilung liefert 3 Dieses Schema war eher ein konzeptuelles Gedankenexperiment um zu demonstrieren welche Art von Manipulationen durchgefuhrt werden wenn auf die A posteriori Verteilungen von Parametern geschlossen wird Die Beschreibung des Sampling Mechanismus stimmt genau mit der des ABC Rejection Schemas uberein und dieser Artikel kann als der erste angesehen werden der die Approximative Bayessche Berechnung beschreibt Jedoch wurde schon in den spaten 1800 Jahren von Francis Galton ein zweistufiger Quincunx konstruiert der als physikalische Implementierung eines ABC Rejection Algorithmus fur einen einzelnen unbekannten Parameter und eine einzige Beobachtung angesehen werden kann 4 Ein anderer vorausschauender Punkt wurde von Rubin gemacht als er argumentierte dass sich angewandte Statistiker bei der Bayesschen Inferenz nicht nur mit analytisch handhabbaren Modellen begnugen sollten sondern stattdessen Rechenmethoden in Betracht ziehen die es ihnen ermoglichen die A posteriori Verteilung von Interesse zu schatzen Auf diese Weise kann eine grossere Auswahl an Modellen in Betracht gezogen werden Diese Argumente sind im Zusammenhang mit ABC besonders relevant Im Jahr 1984 schlugen Peter Diggle und Richard Gratton vor ein systematisches Simulationsschema zu verwenden um die Likelihood Funktion in Situationen anzunahern in denen ihre analytische Form nicht praktikabel ist 5 Ihre Methode basierte darauf ein Gitter im Parameterraum zu definieren und es zu verwenden um die Likelihood anzunahern indem mehrere Simulationen fur jeden Gitterpunkt ausgefuhrt wurden Die Approximation wurde dann durch Anwendung von Glattungstechniken auf die Ergebnisse der Simulationen verbessert Wahrend die Idee Simulationen fur Hypothesentests zu verwenden nicht neu war 6 7 fuhrten Diggle und Gratton anscheinend das erste Verfahren ein das Simulation zur statistischen Inferenz unter Umstanden verwendet bei denen die Likelihood nicht zuganglich ist Die Methode von Diggle und Gratton war noch nicht genau identisch mit dem was heute als ABC bekannt ist da sie eher auf die Likelihood als auf die A posteriori Verteilung abzielte In einem Artikel von Simon Tavare et al wurde zum ersten Mal ein ABC Algorithmus fur die Inferenz der A posteriori Verteilung vorgeschlagen 8 In ihrer bahnbrechenden Arbeit wurde Inferenz uber die Genealogie von DNA Sequenzdaten und insbesondere das Problem der Bestimmung der A posteriori Verteilung der Zeit bis zum letzten gemeinsamen Vorfahren der Stichprobenpersonen in Betracht gezogen Eine solche Inferenz ist fur viele demographische Modelle analytisch unlosbar aber die Autoren prasentierten Moglichkeiten Koaleszenzbaume unter den mutmasslichen Modellen zu simulieren Eine Stichprobe von Modellparametern wurde erhalten indem Vorschlage angenommen oder abgelehnt wurden die auf einem Vergleich der Anzahl von Trennstellen in den synthetischen und realen Daten beruhten Dieser Arbeit folgte eine angewandte Studie zur Modellierung der Variation des menschlichen Y Chromosoms durch Jonathan K Pritchard et al mit der ABC Methode 9 Schliesslich wurde der Begriff der Approximate Bayesian Computation ABC von Mark Beaumont et al eingefuhrt der die ABC Methodik weiter ausbaute und die Eignung des ABC Ansatzes fur Probleme in der Populationsgenetik diskutierte 10 Seitdem hat sich ABC auf Anwendungen ausserhalb der Populationsgenetik wie Systembiologie Epidemiologie und Phylogeographie ausgebreitet Methode BearbeitenMotivation Bearbeiten Der Satz von Bayes verbindet die bedingte Wahrscheinlichkeit oder bedingte Wahrscheinlichkeitsdichte eines bestimmten Parameterwerts 8 displaystyle theta nbsp gegeben beobachtete Daten D displaystyle D nbsp mit der Wahrscheinlichkeit von D displaystyle D nbsp gegeben 8 displaystyle theta nbsp uber die Regel p 8 D p D 8 p 8 p D displaystyle p theta D frac p D theta p theta p D nbsp wo p 8 D displaystyle p theta D nbsp die A posteriori Wahrscheinlichkeit auch bekannt als Posterior p D 8 displaystyle p D theta nbsp die Likelihood p 8 displaystyle p theta nbsp die A priori Verteilung von 8 displaystyle theta nbsp auch bekannt als Prior und p D displaystyle p D nbsp die Evidenz auch bekannt als Marginal Likelihood oder Prior Predictive Wahrscheinlichkeit bezeichnen Der Prior spiegelt Uberzeugungen uber 8 displaystyle theta nbsp wider bevor D displaystyle D nbsp verfugbar ist und wird oft spezifiziert indem eine bestimmte Verteilung aus einer Menge bekannter und handlicher Familien von Verteilungen ausgewahlt wird so dass sowohl die Auswertung des Posterior als auch die Erzeugung von zufalligen 8 displaystyle theta nbsp relativ einfach sind Fur bestimmte Arten von Modellen ist es pragmatischer den Prior p 8 displaystyle p theta nbsp anzugeben indem eine Faktorisierung der gemeinsamen Verteilung aller Elemente von 8 displaystyle theta nbsp verwendet wird uber eine Folge ihrer bedingten Verteilungen Wenn man sich nur fur die relativen Posterior Plausibilitaten verschiedener Werte von 8 displaystyle theta nbsp interessiert kann die Evidenz p D displaystyle p D nbsp ignoriert werden da er eine Normalisierungskonstant darstellt welche sich herauskurzt Dies verwenden zum Beispiel MCMC Verfahren Es bleibt jedoch notwendig die Likelihood p D 8 displaystyle p D theta nbsp und den Prior p 8 displaystyle p theta nbsp auszuwerten Fur zahlreiche Anwendungen ist es allerdings rechenintensiv oder sogar unmoglich die Likelihood auszuwerten 11 was die Verwendung von ABC zur Umgehung dieses Problems motiviert ABC Rejection Algorithmus Bearbeiten Alle ABC basierten Methoden approximieren die Likelihood Funktion durch Simulationen deren Ergebnisse mit den beobachteten Daten verglichen werden 12 13 14 Genauer gesagt wird mit dem ABC Rejection Algorithmus dt ABC Zuruckweisungsalgorithmus der grundlegendsten Form von ABC zuerst eine Menge von Parametern gemass A priori Verteilung gezogen Gegeben einen zufallig gezogenen Parameter 8 displaystyle hat theta nbsp wird dann ein Datensatz D displaystyle hat D nbsp simuliert unter dem statistischen Modell M displaystyle M nbsp spezifiziert durch 8 displaystyle hat theta nbsp Wenn das erzeugte D displaystyle hat D nbsp zu verschieden von den beobachteten Daten D displaystyle D nbsp ist wird der Parameter verworfen Konkreter wird D displaystyle hat D nbsp mit Toleranz ϵ 0 displaystyle epsilon geq 0 nbsp akzeptiert wenn r D D ϵ displaystyle rho hat D D leq epsilon nbsp wo das Distanzmass r D D displaystyle rho hat D D nbsp die Diskrepanz zwischen D displaystyle hat D nbsp und D displaystyle D nbsp basierend auf einer gegebenen Metrik z B Euklidischer Abstand quantifiziert Eine streng positive Toleranz ist ausser in diskreten Raumen normalerweise notwendig da die Wahrscheinlichkeit dass das Simulationsergebnis genau mit den Daten ubereinstimmt Ereignis D D displaystyle hat D D nbsp vernachlassigbar ist fur alle ausser trivialen Anwendungen von ABC was in der Praxis zur Zuruckweisung fast aller abgetasteten Parameterpunkte fuhren wurde Das Ergebnis des ABC Rejection Algorithmus ist eine Stichprobe von Parameterwerten die approximativ entsprechend der gewunschten A posteriori Verteilung verteilt sind und im Wesentlichen erhalten ohne die explizite Auswertung der Likelihood Funktion nbsp Darstellung der prinzipiellen Funktionsweise von Approximate Bayesian ComputationZusammenfassende Statistiken Bearbeiten Die Wahrscheinlichkeit einen Datensatz D displaystyle hat D nbsp mit einem kleinen Abstand zu D displaystyle D nbsp zu erzeugen nimmt typischerweise exponentiell ab wenn die Dimensionalitat der Daten zunimmt Dies fuhrt zu einer wesentlichen Verringerung der Recheneffizienz des obigen grundlegenden ABC Rejection Algorithmus Ein ublicher Ansatz um dieses Problem zu verringern besteht darin D displaystyle D nbsp durch einen Satz von geringer dimensionalen zusammenfassenden Statistiken engl Summary Statistics S D displaystyle S D nbsp zu ersetzen welche ausgewahlt werden die relevanten Informationen in D displaystyle D nbsp zu erfassen Das Akzeptanzkriterium im ABC Zuruckweisungsalgorithmus wird ersetzt durch r S D S D ϵ displaystyle rho S hat D S D leq epsilon nbsp Wenn die zusammenfassenden Statistiken in Bezug auf die Modellparameter 8 displaystyle theta nbsp suffizient sind fuhrt die so erzielte Effizienzsteigerung zu keinem Fehler Definitionsgemass bedeutet Suffizienz dass alle Informationen in D displaystyle D nbsp uber 8 displaystyle theta nbsp von S D displaystyle S D nbsp erfasst werden Typischerweise ist es ausserhalb der Exponentialfamilie von Verteilungen unmoglich einen endlichen dimensionalen Satz von ausreichenden Statistiken zu identifizieren Dennoch werden informative aber moglicherweise unzureichende Zusammenfassungsstatistiken haufig in Anwendungen verwendet in denen Inferenz mit ABC Methoden durchgefuhrt wird Somit gibt es zwei Quellen fur Approximationefehler bei der Verwendung von ABC zum Sampling von der A posteriori Verteilung Durch den Akzeptanz Toleranz Parameter ϵ displaystyle epsilon nbsp und durch die zusammenfassenden Statistiken S D displaystyle S D nbsp ABC MCMC und ABC SMC Algorithmus Bearbeiten Ein Nachteil des ABC Rejection Algorithmus ist dass Parameterwerte direkt aus der A priori Verteilung gezogen werden Sind zum Beispiel die Daten informativ wird die A posteriori Verteilung deutlich konzentrierter sein so dass viele simulierte Daten nicht gut mit den beobachteten Daten ubereinstimmen mithin wird die Akzeptanzrate gering sein Daher ist es sinnvoll die Parameter von einer Verteilung zu ziehen welche adaptiv naher an der A posteriori Verteilung ist Hierzu gibt es im Wesentlichen zwei Wege Uber einen Markov Chain Monte Carlo Algorithmus MCMC oder einen Sequential Monte Carlo Algorithmus SMC Beide haben ihre jeweiligen Starken im ABC Kontext hat sich SMC starker etabliert da dieses Schema gut zu parallelisieren ist und eine adaptive Verringerung des Akzeptanz Toleranz Parameters ϵ displaystyle epsilon nbsp ermoglicht Eine Ubersicht der Algorithmen findet sich in Beaumont 2010 12 Software BearbeitenEs existieren verschiedene Software Implementierungen fur ABC Es folgt eine nicht erschopfende Auflistung von Implementierungen pyABC DIY ABC abc R package EasyABC R package ABC SysBio ABCtoolbox Memento vom 19 Februar 2013 im Webarchiv archive today msBayes PopABC ONeSAMP ABC4F 2BAD ELFIEinzelnachweise Bearbeiten Sunnaker M Busetto AG Numminen E Corander J Foll M Dessimoz C 2013 Approximate Bayesian computation PLOS Computational Biology 9 1 e1002803 doi 10 1371 journal pcbi 1002803 PMC 3547661 freier Volltext Drovandi Christopher C ABC and indirect inference Handbook of Approximate Bayesian Computation 2018 179 209 https arxiv org abs 1803 01999 Rubin DB 1984 Bayesianly Justifiable and Relevant Freqency Calculations for the Applied Statistician The Annals of Statistics 12 1151 1172 doi 10 1214 aos 1176346785 see figure 5 in Stigler Stephen M 2010 Darwin Galton and the Statistical Enlightenment Journal of the Royal Statistical Society Series A Statistics in Society 173 3 469 482 doi 10 1111 j 1467 985X 2010 00643 x Diggle PJ 1984 Monte Carlo Methods of Inference for Implicit Statistical Models Journal of the Royal Statistical Society Series B 46 193 227 JSTOR 2345504 Bartlett MS 1963 The spectral analysis of point processes Journal of the Royal Statistical Society Series B 25 264 296 JSTOR 2984295 Hoel DG Mitchell TJ 1971 The simulation fitting and testing of a stochastic cellular proliferation model Biometrics 27 191 199 JSTOR 2528937 Tavare S Balding DJ Griffiths RC Donnelly P 1997 Inferring Coalescence Times from DNA Sequence Data Genetics 145 2 505 518 PMC 1207814 freier Volltext Pritchard JK Seielstad MT Perez Lezaun A et al 1999 Population Growth of Human Y Chromosomes A Study of Y Chromosome Microsatellites Molecular Biology and Evolution 16 1791 1798 doi 10 1093 oxfordjournals molbev a026091 Beaumont MA Zhang W Balding DJ 2002 Approximate Bayesian Computation in Population Genetics Genetics 162 2025 2035 PMC 1462356 freier Volltext Busetto AG Buhmann J 2009 Stable Bayesian Parameter Estimation for Biological Dynamical Systems IEEE Computer Society Press pp 148 157 doi 10 1109 CSE 2009 134 a b Beaumont MA 2010 Approximate Bayesian Computation in Evolution and Ecology Annual Review of Ecology Evolution and Systematics 41 379 406 doi 10 1146 annurev ecolsys 102209 144621 Bertorelle G Benazzo A Mona S 2010 ABC as a flexible framework to estimate demography over space and time some cons many pros Molecular Ecology 19 2609 2625 doi 10 1111 j 1365 294x 2010 04690 x Csillery K Blum MGB Gaggiotti OE Francois O 2010 Approximate Bayesian Computation ABC in practice Trends in Ecology amp Evolution 25 410 418 doi 10 1016 j tree 2010 04 001 Abgerufen von https de wikipedia org w index php title Approximate Bayesian Computation amp oldid 236521102