www.wikidata.de-de.nina.az
Das Bootstrapping Verfahren oder Bootstrap Verfahren selten Munchhausenmethode ist in der Statistik eine Methode des Resampling Beim Bootstrapping Verfahren ist die Grundannahme dass die vorliegende Zufallsstichprobe reprasentativ fur die Grundgesamtheit ist aus der sie gezogen wurde Konzeptionell wird nun diese Grundgesamtheit durch die Stichprobe ersetzt Durch wiederholtes Ziehen mit Zurucklegen werden neue Stichproben die Stichprobenwiederholungen erzeugt auf deren Grundlage dann Statistiken sowie deren Verteilungen berechnet werden konnen Verwendung finden Bootstrap Methoden wenn die theoretische Verteilung der interessierenden Statistik nicht bekannt ist Die Methode wurde erstmals von Bradley Efron 1979 beschrieben 1 und geht aus Uberlegungen zur Verbesserung der Jackknife Methode hervor 2 Der Bootstrap ersetzt in der Regel die theoretische Verteilungsfunktion F displaystyle F einer Zufallsvariablen durch die empirische Verteilungsfunktion F n displaystyle F n der Stichprobe x 1 x n displaystyle x 1 ldots x n Es ist daher offensichtlich dass Bootstrapping nur dann gut funktioniert wenn die empirische Verteilungsfunktion die tatsachliche Verteilungsfunktion hinreichend gut approximieren kann was eine gewisse Grosse der ursprunglichen Stichprobe voraussetzt vergleiche Konvergenzeigenschaften der empirischen Verteilungsfunktion Bootstrapping kann als Monte Carlo Methode verstanden werden da es wiederholt zufallige Stichproben einer Verteilung zieht 3 Nichtparametrisches Bootstrapping ermoglicht weitestgehend ohne oder mit wenigen Modellannahmen zuverlassig Verteilungen von Statistiken zu schatzen Es ist unzuverlassig falls die zugrundeliegende Verteilung F displaystyle F unendliche Varianz besitzt 4 Die Bezeichnung Bootstrapping geht zuruck auf die englische Redewendung To pull oneself up by one s bootstraps dt sich am eigenen Schopf aus dem Sumpf ziehen Dies spielt darauf an dass beim Bootstrapping Verfahren aus einer Stichprobe erneut Stichproben gezogen werden Baron Munchhausen erklarte bekanntlich sich an den eigenen Haaren aus einem Sumpf gezogen zu haben Daher der Name Munchhausenmethode 5 Inhaltsverzeichnis 1 Anwendungen 2 Verfahren 2 1 i i d Bootstrap 2 2 Block Bootstrap 2 3 Parametrisches Bootstrap 2 4 m out of n Bootstrap 3 Beispiel 4 Bootstrap Test 5 Probleme 6 Literatur 7 Weblinks 8 EinzelnachweiseAnwendungen BearbeitenDas Verfahren eignet sich einerseits fur deskriptive Kennzahlen wie das arithmetische Mittel oder den Median aber auch fur komplexere Methoden der Inferenzstatistik wie Regressionsmodelle Durch die Flexibilitat des Verfahrens ist es moglich Standardfehler beliebiger Statistiken zu generieren und somit Inferenzen zu erleichtern Bootstrap Konfidenzbereiche Bootstrap Konfidenzintervalle sind jedoch auch mit Unsicherheiten behaftet vergleiche Empirisches Quantil Bootstrap Tests 6 Bootstrap aggregatingVerfahren BearbeitenEs gibt viele Bootstrap Verfahren unter anderem Bayesian Bootstrap Smooth Bootstrap Parametric Bootstrap Residual Bootstrap Gaussian process regression Bootstrap Wild Bootstrap Block Bootstrap i i d Bootstrap Bearbeiten nbsp Aus einer Population wird eine Stichprobe gezogen Aus dieser Stichprobe werden durch Ziehen mit Zurucklegen Stichprobenwiederholungen gezogen orange Datenpunkte welche mehrfach gezogen wurden circa 26 4 bei grossen Stichproben sind rot und leicht versetzt doppelt gezeichnet Aus den Stichprobenwiederholungen wird jeweils die Statistik x displaystyle x nbsp berechnet wodurch ein Histogramm zum Schatzen der Verteilung von x displaystyle x nbsp berechnet werden kann nbsp Histogramm der Bootstrap Mittelwerte blau Gegeben sei eine Stichprobe x 1 x n displaystyle x 1 x n nbsp die wir als Realisierung von unabhangig und identisch verteilten i i d Zufallsvariablen X 1 X n displaystyle X 1 X n nbsp mit unbekannter Verteilungsfunktion F displaystyle F nbsp verstehen Nun werden im einfachsten Fall B displaystyle B nbsp Bootstrap Stichprobenwiederholungen x b x 1 x n b 1 B displaystyle x b x 1 ldots x n b 1 ldots B nbsp generiert indem je Ziehung n displaystyle n nbsp mal aus der gegebenen Stichprobe ein Wert mit Zurucklegen gezogen wird Dieses Vorgehen entspricht dem wiederholten Ziehen von Zufallszahlen aus der empirischen Verteilungsfunktion F displaystyle hat F nbsp Fur jede Bootstrap Stichprobe wird der Wert T b x 1 x n T x b displaystyle T b x 1 ldots x n T x b nbsp der interessierenden Statistik T displaystyle T nbsp berechnet Die Verteilung von T X 1 X n displaystyle T X 1 ldots X n nbsp wird schliesslich durch die empirische Verteilung der B displaystyle B nbsp Werte T b x 1 x n displaystyle T b x 1 ldots x n nbsp approximiert Aus dieser Verteilung der Statistik T kann direkt ein Konfidenzintervall mithilfe der inversen Verteilungsfunktion erzeugt werden 2 Zudem lassen sich Erwartungswert und Varianz durch den Stichprobenmittelwert und Stichprobenvarianz schatzen Die Zahl der moglichen unterschiedlichen Stichprobenwiederholungen bei Beachtung der Reihenfolge 7 beim Ziehen mit Zurucklegen ist n n n n mal n n displaystyle underbrace n cdot n dots n text n mal n n nbsp und steigt somit sehr schnell mit zunehmender Stichprobengrosse n displaystyle n nbsp Daher beschrankt man sich typischerweise auf eine Monte Carlo Simulation welche eine bestimmte Zahl zufalliger Stichprobenwiederholungen zieht Block Bootstrap Bearbeiten Block Bootstrap 8 9 wird bei zeitlich korrelierten Daten eingesetzt da i i d Bootstrap die zeitliche Korrelation zerstoren wurde Beim Block Bootstrap werden die Daten zunachst in uberlappende oder nichtuberlappende zusammenhangende Blocke eingeteilt Das Signal wird dann z B durch Anpassung einer Modellfunktion in einen Trend und einen Residualanteil aufgeteilt Nun werden so viele Residualblocke durch Zurucklegen gezogen und aneinander angehangt bis die ursprungliche Lange des Signals erreicht ist Diese gezogenen Residuuen werden auf die Trendzeitreihe addiert und so wird eine Stichprobenwiederholung erhalten Dieser Vorgang wird nun oft z B B 100 1000 displaystyle B 100 1000 nbsp wiederholt Dann kann auf diesen Stichprobenwiederholungen die gewunschte Statistik Funktion berechnet werden Parametrisches Bootstrap Bearbeiten Beim parametrischen Bootstrap wird angenommen dass die originale Stichprobe einer bekannten Verteilung mit Parametern 8 displaystyle theta nbsp folgt Diese Parameter werden zum Beispiel mithilfe der Maximum Likelihood Methode geschatzt sodass man den Schatzwert 8 displaystyle hat theta nbsp erhalt Die geschatzte Verteilungsfunktion ist F F 8 displaystyle hat F F hat theta nbsp und aus dieser Verteilung werden wie beim nichtparametrischen Bootstrap wiederholt Stichproben gezogen m out of n Bootstrap Bearbeiten Bei dieser Version des Bootstrap werden kleinere Stichprobenwiederholungen gezogen 10 11 dies ist beispielsweise beim bootstrapping von Extremwerten notwendig Beispiel BearbeitenEfron und Tibshirani 12 geben folgendes Beispiel fur den parametrischen Bootstrap Die Titelseite der New York Times vom 27 Januar 1987 berichtete von einer Studie nach der das Risiko fur einen Herzinfarkt durch die regelmassige Einnahme kleiner Dosen Aspirin reduziert wurde Folgende Daten wurden erhoben Herzinfarkt todlich und nicht todlich ProbandenAspirin Gruppe 104 11037Placebo Gruppe 189 11034Fur die Herzinfarktraten beider Gruppen ergibt sich 104 11037 lt 189 11034 displaystyle 104 11037 lt 189 11034 nbsp Der Quotient der Raten betragt 104 11037 189 11034 displaystyle frac 104 11037 189 11034 nbsp Diese Zahl ist lt 1 displaystyle lt 1 nbsp sodass diese Daten tatsachlich suggerieren dass die Einnahme von Aspirin das Herzinfarktsrisiko reduziert Ist diese Erhebung statistisch signifikant und kann auf die Grundgesamtheit ubertragen werden oder konnen diese Ergebnisse durch zufallige Einflusse erklart werden Eine Moglichkeit dies zu prufen bietet der exakte Test nach Fisher Eine andere Moglichkeit bietet das Boostrapping Verfahren Bezeichne mit p displaystyle p nbsp bzw q displaystyle q nbsp die Wahrscheinlichkeit dass eine Person der Aspiringruppe bzw Placebo Gruppe innerhalb des Studienzeitraums einen Herzinfarkt erleidet Ziel ist es nun ein approximatives Bootstrap Konfidenzintervall fur p q displaystyle p q nbsp zu konstruieren Wahle X Bin 11037 p displaystyle X sim operatorname Bin 11037 p nbsp und Y Bin 11034 q displaystyle Y sim operatorname Bin 11034 q nbsp In der Studie wurde die Realisierung x y 104 189 displaystyle x y 104 189 nbsp beobachtet Ein Schatzer fur p q displaystyle p q nbsp ist gegeben durch T X 11037 Y 11034 displaystyle T frac X 11037 Y 11034 nbsp In der o g Studie wurde die Realisierung 0 55 displaystyle 0 55 nbsp beobachtet Um weitere Realisierungen fur T displaystyle T nbsp zu generieren benotigt man weitere Realisierungen von X displaystyle X nbsp und Y displaystyle Y nbsp Die Studie konnte wiederholt werden aber das ist zeitaufwendig und ggf teuer Hier hilft die parametrische Bootstrap Methode Man schatzt zunachst p displaystyle p nbsp und q displaystyle q nbsp mit den Daten die wir beobachtet haben So erhalt man p 104 11037 displaystyle hat p 104 11037 nbsp und q 189 11034 displaystyle hat q 189 11034 nbsp Anstelle von X Y displaystyle X Y nbsp simulieren wir nun mit der Bootstrap Variante X Y displaystyle X Y nbsp wobei X Bin 11037 p displaystyle X sim operatorname Bin 11037 hat p nbsp und Y Bin 11034 q displaystyle Y sim operatorname Bin 11034 hat q nbsp Uber t i x i 11037 y i 11034 displaystyle t i frac x i 11037 y i 11034 nbsp mit i 1 2 B displaystyle i 1 2 B nbsp erhalt man Bootstrap Realisierungen t 1 t B displaystyle t 1 t B nbsp von T displaystyle T nbsp Der empirische Mittelwert und die empirische Varianz dieser Datenpunkte sind nun Schatzwerte fur den theoretischen Erwartungswert bzw die theoretische Varianz Weiterhin lasst sich das gesuchte Konfidenzintervall fur p q displaystyle p q nbsp uber die empirischen Quantile konstruieren Bootstrap Test BearbeitenGegeben zwei Stichproben aus den Verteilungen F displaystyle F nbsp und G displaystyle G nbsp verlauft ein Bootstrap Test fur die Nullhypothese H 0 F G displaystyle H 0 F G nbsp wie ein Permutationstest allerdings mit Ziehen mit Zurucklegen aus dem fusionierten Datensatz anstelle von Permutationen Bootstrap Tests konnen auch die Nullhypothese H 0 F G displaystyle H 0 F neq G nbsp testen und somit fur Aquivalenztests benutzt werden Probleme BearbeitenIn hohen Dimensionen ist Residual Bootstrap eine Methode zum Bootstrappen von Regressionsmodellen 13 sehr anti konservativ bzw Pair Bootstrap sehr konservativ 14 Bei der Stichprobenwiederholung mit Zurucklegen gilt fur eine Stichprobe der Grosse n displaystyle n nbsp dass die Wahrscheinlichkeit fur ein Sample nicht ausgewahlt zu werden p 1 1 n displaystyle p 1 1 n nbsp ist Somit ist bei einer Stichprobenwiederholung mit Zurucklegen die Wahrscheinlichkeit dass der Wert n mal nicht ausgewahlt wird fur grosse Stichprobenumfange im Limes lim n 1 1 n n e 1 0 368 1 0 632 displaystyle lim n to infty 1 1 n n e 1 approx 0 368 1 0 632 nbsp Daher enthalt eine Stichprobenwiederholung im Schnitt nur 63 2 der zugrundeliegenden Werte wobei diese dann auch mehrfach vorliegen durfen Dies fuhrt zu Korrekturen wie dem 632 Bootstrap zum Abschatzen des Generalisierungsfehlers eines gefitteten Modells 15 Die Grosse der Bootstrap Stichprobe kann zum Beispiel beim Bootstrapping der Verteilung von Extremwerten Einfluss auf das Ergebnis haben dort muss die Bootstrap Stichproben Grosse kleiner sein als die originale Stichprobengrosse um konsistente Ergebnisse zu erhalten 16 Literatur BearbeitenFelix Bittmann Bootstrapping An Integrated Approach with Python and Stata De Gruyter 2021 Bradley Efron Bootstrap Methods Another Look at the Jackknife In The Annals of Statistics Band 7 Nr 1 1979 S 1 26 doi 10 1214 aos 1176344552 Bradley Efron Robert J Tibshirani An Introduction to the Bootstrap Chapman amp Hall New York 1993 Jun Shao Dongsheng Tu The Jackknife and Bootstrap Springer 1995 A C Davison D V Hinkley Bootstrap Methods and their Application Cambridge Series in Statistical and Probability Mathematics Band 1 Cambridge University Press 1997 doi 10 1017 CBO9780511802843 Gail Gong 1986 Cross Validation the Jackknife and the Bootstrap Excess Error Estimation in Forward Logistic Regression Journal of the American Statistical Association 81 393 108 113 DOI 10 1080 01621459 1986 10478245Weblinks BearbeitenAusgabe des Journals Statistical Science anlasslich des 25 jahrigen Jubilaums der Bootstrap Methode Statist Sci 18 2 Mai 2003 Einzelnachweise Bearbeiten Bradley Efron Bootstrap Methods Another Look at the Jackknife In The Annals of Statistics Band 7 Nr 1 1 Januar 1979 ISSN 0090 5364 doi 10 1214 aos 1176344552 projecteuclid org a b Bradley Efron Second Thoughts on the Bootstrap In Statistical Science Band 18 Nr 2 1 Mai 2003 ISSN 0883 4237 doi 10 1214 ss 1063994968 William Howard Beasley Joseph Lee Rodgers Bootstrapping and Monte Carlo methods In APA handbook of research methods in psychology Vol 2 Research designs Quantitative qualitative neuropsychological and biological American Psychological Association Washington 2012 S 407 425 doi 10 1037 13620 022 K B Athreya Bootstrap of the Mean in the Infinite Variance Case In The Annals of Statistics Band 15 Nr 2 1 Juni 1987 ISSN 0090 5364 doi 10 1214 aos 1176350371 Maria Dolores Ugarte Ana F Militino Alan T Arnholt Probability and Statistics with R Hrsg CRC Press 2015 ISBN 978 1 4665 0440 0 S 656 Efron Bradley An introduction to the bootstrap Chapman amp Hall CRC 1998 ISBN 0 412 04231 2 Ohne beachten der Reihenfolge ist die Zahl der moglichen Stichprobenwiederholungen 2 n 1 n 1 displaystyle 2n 1 choose n 1 nbsp Hans R Kunsch The Jackknife and the Bootstrap for General Stationary Observations In The Annals of Statistics Band 17 Nr 3 1 September 1989 ISSN 0090 5364 doi 10 1214 aos 1176347265 S Mignani R Rosa The moving block bootstrap to assess the accuracy of statistical estimates in Ising model simulations In Computer Physics Communications Band 92 Nr 2 3 Dezember 1995 ISSN 0010 4655 S 203 213 doi 10 1016 0010 4655 95 00114 7 Bickel Gotze van Zwet Resampling fewer than n observations gains losses and remedies for losses Statistica Sinica 7 1997 1 31 m out of n Bootstrap Stephen M S Lee https doi org 10 1002 9781118445112 stat08002 Bradley Efron Robert Tibshirani An Introduction to the Bootstrap CRC Press 1993 ISBN 978 0 412 04231 7 S 1 6 Freedman D A Bootstrapping Regression Models The Institute of Mathematical Statistics November 1981 Noureddine El Karoui Elizabeth Purdom Can We Trust the Bootstrap in High dimensions The Case of Linear Models In Journal of Machine Learning Research Band 19 Nr 5 2018 ISSN 1533 7928 S 1 66 jmlr org abgerufen am 21 Juli 2021 Bradley Efron Robert Tibshirani Improvements on Cross Validation The 632 Bootstrap Method In Journal of the American Statistical Association Band 92 Nr 438 1 Juni 1997 ISSN 0162 1459 S 548 560 doi 10 1080 01621459 1997 10474007 Jaap Geluk Laurens de Haan On bootstrap sample size in extreme value theory In Publications de l Institut Mathematique Band 71 Nr 85 2002 ISSN 0350 1302 S 21 26 doi 10 2298 pim0271021g Abgerufen von https de wikipedia org w index php title Bootstrapping Verfahren amp oldid 238795992