www.wikidata.de-de.nina.az
Das Verzerrung Varianz Dilemma haufig auch englisch bias variance tradeoff beschreibt das Problem der gleichzeitigen Minimierung zweier Fehlerquellen der Verzerrung und der Varianz Das Dilemma erschwert das Verallgemeinern von Trainingsdaten auf die Testdaten bei uberwachtem Lernen Die Verzerrung ist der Fehler ausgehend von falschen Annahmen im Lernalgorithmus Eine hohe Verzerrung kann einen Algorithmus dazu veranlassen nicht die entsprechenden Beziehungen zwischen Eingabe und Ausgabe zu modellieren Unteranpassung Die Varianz ist der Fehler ausgehend von der Empfindlichkeit auf kleinere Schwankungen in den Trainingsdaten Eine hohe Varianz verursacht Uberanpassung es wird das Rauschen in den Trainingsdaten statt der vorgesehenen Ausgabe modelliert Varianz und Verzerrung Bias Die Verzerrung Varianz Zerlegung bietet die Moglichkeit den erwarteten Fehler eines Lernalgorithmus im Hinblick auf ein bestimmtes Problem zu analysieren und kann als Summe aus drei Termen dargestellt werden Der Verzerrung der Varianz und einem irreduziblen Fehler siehe auch Bayes Fehler resultierend aus dem Rauschen innerhalb des Problems selbst Das Verzerrung Varianz Dilemma gilt fur alle Formen des uberwachten Lernens Klassifikation Regression 1 2 und strukturiertes Lernen Das Dilemma betrifft die Bereiche Statistik und des maschinellen Lernens Es wurde auch genutzt um die Wirksamkeit von Heuristiken beim menschlichen Lernen zu erklaren Inhaltsverzeichnis 1 Motivation 2 Verzerrung Varianz Zerlegung der quadratischen Abweichung 2 1 Herleitung 3 Anwendung zur Klassifizierung 4 Ansatze zur Problemlosung 4 1 K nachste Nachbarn 5 Anwendung auf das menschliche Lernen 6 Siehe auch 7 Weblinks 8 Einzelnachweise 9 LiteraturMotivation BearbeitenDas Verzerrung Varianz Dilemma ist ein zentrales Problem beim uberwachten Lernen Idealerweise mochte man ein Modell wahlen das sowohl die Gesetzmassigkeiten in den Trainingsdaten genau erfasst als auch sich auf ungesehene Testdaten generalisieren lasst Leider ist es in der Regel unmoglich beides gleichzeitig zu tun Lernmethoden mit hoher Varianz konnen moglicherweise ihre Trainingsdaten gut darstellen aber riskieren Uberanpassung bei zu rauschbehafteten oder nicht reprasentativen Trainingsdaten Im Gegensatz dazu erzeugen Algorithmen mit einer hohen Verzerrung typischerweise einfachere Modelle die nicht zur ubermassigen Uberanpassung neigen aber moglicherweise ihre Trainingsdaten nicht hinreichend gut modellieren und wichtige Gesetzmassigkeiten nicht erfassen Modelle mit hoher Varianz sind in der Regel komplexer z B Regression mit Polynomen hoherer Ordnung was ihnen erlaubt die Trainingsdaten genauer darzustellen Dabei stellen sie unter Umstanden auch einen Grossteil des Rauschens in den Trainingsdaten dar so dass ihre Vorhersagen weniger genau werden trotz ihrer zusatzlichen Komplexitat Dagegen neigen Modelle mit hoherer Verzerrung in der Regel dazu relativ einfach zu sein z B Regression mit Polynomen niedriger Ordnung oder einfache lineare Regression aber konnen Vorhersagen mit niedrigerer Varianz produzieren wenn sie uber die Trainingsdaten hinaus auf neue Daten angewendet werden Verzerrung Varianz Zerlegung der quadratischen Abweichung Bearbeiten nbsp Gesamtfehler sowie die Aufteilung in Verzerrung und Varianz als Funktion der Modellkomplexitat Ein ahnliches Bild ergibt sich wenn man statt der Modellkomplexitat die Starke der Regularisierung betrachtet Das Verzerrungs Varianz Dilemma liegt vor wenn die Varianz klein ist aber die Richtigkeit schlecht ist hohe Verzerrung bzw die Varianz hoch ist und die Richtigkeit gut ist kleine Verzerrung Gegeben seien Trainingsdaten bestehend aus einer Menge von Punkten x 1 x n displaystyle x 1 dots x n nbsp mit dazugehorigen reellen Werten y 1 y n displaystyle y 1 ldots y n nbsp Es wird angenommen dass es zwischen x i displaystyle x i nbsp und y i displaystyle y i nbsp einen funktionellen aber rauschbehafteten Bezug gibt der durch y i f x i ϵ displaystyle y i f x i epsilon nbsp beschrieben wird wobei der Rauschterm ϵ displaystyle epsilon nbsp normalverteilt ist und Erwartungswert Null und Varianz s 2 displaystyle sigma 2 nbsp besitzt Nun soll mit Hilfe eines Lernalgorithmus eine Funktion f x displaystyle hat f x nbsp gefunden werden welche die wahre Funktion y f x displaystyle y f x nbsp genauer den bedingten Erwartungswert f x E y x y displaystyle f x E y x y nbsp so gut wie moglich annahert Die Genauigkeit dieser Approximation wird anhand der mittleren quadratischen Abweichung zwischen y displaystyle y nbsp und f x displaystyle hat f x nbsp gemessen dabei soll y f x 2 displaystyle y hat f x 2 nbsp sowohl fur x 1 x n displaystyle x 1 dots x n nbsp als auch fur Punkte ausserhalb der Stichprobe minimiert werden Eine optimale Annaherung ist unmoglich da y displaystyle y nbsp vom Rauschen ϵ displaystyle epsilon nbsp beeinflusst wird Dies bedeutet dass fur jede Funktion die gefunden wird ein irreduzibler Fehler akzeptiert werden muss Die Ermittlung einer Funktion f displaystyle hat f nbsp die sich auf neue Punkte X Y P X Y displaystyle X Y sim P X Y nbsp ausserhalb der Trainingsmenge D X 1 Y 1 X n Y n P X Y n displaystyle mathcal D X 1 Y 1 dots X n Y n sim P X Y n nbsp verallgemeinern lasst geschieht mit einem der vielen Algorithmen die zum uberwachten Lernen genutzt werden Es stellt sich heraus dass abhangig von der Wahl der Funktion f displaystyle hat f nbsp die erwartete Abweichung vergleiche empirische Risikominimierung wie folgt zerlegt werden kann 3 34 4 223 E D x y y f x 2 B i a s 2 f x V a r f x s 2 displaystyle begin aligned mathrm E mathcal D x y Big big y hat f x big 2 Big amp mathrm Bias 2 big hat f x big mathrm Var big hat f x big sigma 2 end aligned nbsp Hierbei ist der Erwartungswert E D x y displaystyle mathrm E mathcal D x y nbsp uber verschiedene Trainingsdatensatze D displaystyle mathcal D nbsp sowie unabhangig vom Trainingsdatensatz gepaarte Testpunkte x y displaystyle x y nbsp zu verstehen 5 Der Erwartungswert E D displaystyle mathrm E mathcal D nbsp ist als Erwartungswert uber unterschiedliche Trainingsdatensatzen zu verstehen auf denen das Modell trainiert wird 6 Es beschreibt B i a s 2 f x E x E D f x f x B i a s x 2 displaystyle begin aligned mathrm Bias 2 big hat f x big mathrm E x big left underbrace E mathcal D hat f x f x mathrm Bias x right 2 big end aligned nbsp die Verzerrung der Lernmethode und V a r f x E x D f x E D f x 2 displaystyle begin aligned mathrm Var big hat f x big mathrm E x mathcal D Big big hat f x mathrm E mathcal D hat f x big 2 Big end aligned nbsp ihre Varianz und s 2 E x y f x y 2 E ϵ 2 displaystyle begin aligned sigma 2 mathrm E x y Big big f x y big 2 Big E epsilon 2 end aligned nbsp Die drei Terme reprasentieren das Quadrat der Verzerrung der Lernmethode welcher als Fehler verursacht durch vereinfachende Annahmen innerhalb des Verfahrens interpretiert werden kann Falls beispielsweise eine nichtlineare Funktion f x displaystyle f x nbsp unter Verwendung eines Lernverfahrens fur lineare Modelle approximiert wird gibt es aufgrund einer solchen Annahme Fehler in den Schatzungen f x displaystyle hat f x nbsp die Varianz der Lernmethode Intuitiv beschreibt dies die Schwankungsbreite der Lernmethode f x displaystyle hat f x nbsp um ihren Erwartungswert den irreduziblen Fehler s 2 displaystyle sigma 2 nbsp Da alle drei Terme nicht negativ sind stellt dieser Fehler eine untere Schranke fur die erwartete Abweichung auf ungesehenen Testdaten dar 3 34Je komplexer die Modellfunktion f x displaystyle hat f x nbsp ist desto mehr Datenpunkte wird sie richtig erfassen und desto geringer wird ihre Verzerrung sein Allerdings lasst eine hohere Komplexitat die Modellfunktion mehr schwanken um die Datenpunkte besser zu erfassen was somit ihre Varianz vergrossert Herleitung Bearbeiten Die Herleitung der Verzerrung Varianz Zerlegung fur quadratische Abweichungen lauft folgendermassen ab 7 8 Abkurzend wird im Folgenden f f x displaystyle f f x nbsp und f f x displaystyle hat f hat f x nbsp geschrieben Nach dem Verschiebungssatz gilt fur jede Zufallsvariable X displaystyle X nbsp E X 2 V a r X E X 2 displaystyle mathrm E X 2 mathrm Var X mathrm E X 2 nbsp Da f displaystyle f nbsp deterministisch ist gilt E f f displaystyle mathrm E f f nbsp Zusammen mit den Annahmen y f ϵ displaystyle y f epsilon nbsp und E ϵ 0 displaystyle mathrm E epsilon 0 nbsp impliziert dies E y E f ϵ E f f displaystyle mathrm E y mathrm E f epsilon mathrm E f f nbsp Da V a r ϵ s 2 displaystyle mathrm Var epsilon sigma 2 nbsp gilt folgt V a r y E y E y 2 E y f 2 E f ϵ f 2 E ϵ 2 V a r ϵ E ϵ 2 s 2 displaystyle mathrm Var y mathrm E y mathrm E y 2 mathrm E y f 2 mathrm E f epsilon f 2 mathrm E epsilon 2 mathrm Var epsilon mathrm E epsilon 2 sigma 2 nbsp Folglich ergibt sich da ϵ displaystyle epsilon nbsp und f displaystyle hat f nbsp unabhangig sind E y f 2 E y 2 f 2 2 y f E y 2 E f 2 E 2 y f V a r y E y 2 V a r f E f 2 2 f E f V a r y V a r f f E f 2 V a r y V a r f E f f 2 s 2 V a r f B i a s f 2 displaystyle begin aligned mathrm E big y hat f 2 big amp mathrm E y 2 hat f 2 2y hat f mathrm E y 2 mathrm E hat f 2 mathrm E 2y hat f amp mathrm Var y mathrm E y 2 mathrm Var hat f mathrm E hat f 2 2f mathrm E hat f mathrm Var y mathrm Var hat f f mathrm E hat f 2 amp mathrm Var y mathrm Var hat f mathrm E f hat f 2 sigma 2 mathrm Var hat f mathrm Bias hat f 2 end aligned nbsp Anwendung zur Klassifizierung BearbeitenDie Verzerrung Varianz Zerlegung wurde ursprunglich fur die Regressionsanalyse als Methode der kleinsten Quadrate formuliert Fur den Fall der Klassifizierung ist es moglich eine ahnliche Zerlegung zu finden 9 10 Wenn das Klassifikationsproblem alternativ als probabilistischer Klassifikator formuliert werden kann so lasst sich die erwartete quadratische Abweichung der vorhergesagten Wahrscheinlichkeiten in Bezug auf die wahren Wahrscheinlichkeiten wie zuvor zerlegen 11 Ansatze zur Problemlosung BearbeitenDimensionsreduktion und Feature Selection konnen die Varianz durch Modellvereinfachung verringern Ebenso neigt ein grosserer Satz an Trainingsdaten dazu die Varianz zu verringern Das Hinzufugen von Features Pradiktoren verringert die Verzerrung auf Kosten der zusatzlichen erhohten Varianz Lernalgorithmen haben in der Regel einige Parameter um die Verzerrung sowie Varianz zu steuern Generalisierte lineare Modelle konnen regularisiert werden um ihre Verzerrung zu erhohen und somit die Varianz zu verringern siehe Shrinkage Schatzer In kunstlichen neuronalen Netzen nimmt mit der Anzahl der versteckten Knoten die Varianz zu und die Verzerrung ab 1 Wie in GLMs wird typischerweise Regularisierung eingesetzt In k nachsten Nachbarn Modellen fuhrt ein hoher Wert von k zu niedriger Varianz und hoher Verzerrung siehe unten Im Falle des gedachtnisbasierten Lernens kann Regularisierung durch die Kombination von Prototypenmethoden und Nachste Nachbarn Methoden erreicht werden 12 In Entscheidungsbaumen bestimmt die Tiefe des Baumes die Varianz Entscheidungsbaume werden haufig beschnitten um die Varianz zu kontrollieren 3 307Eine Moglichkeit zur Losung des Dilemmas ist es Modelle mit Mischverteilung und eine Kombination verschiedener Lernalgorithmen zu nutzen 13 14 Beispielsweise vereint Boosting viele schwache Modelle mit hoher Verzerrung zu einem neuen Modell das grossere Varianz als die einzelnen Modelle hat Dahingegen kombiniert Bagging starke Klassifikatoren mit hoher Varianz in einer Weise die die Varianz des neu konstruierten Klassifikators reduziert K nachste Nachbarn Bearbeiten Im Falle des k nachste Nachbarn Algorithmus existiert eine geschlossene Formel die die Verzerrung Varianz Zerlegung in Relation zum Parameter k displaystyle k nbsp setzt 4 37 223 E y f x 2 f x 1 k i 1 k f N i x 2 s 2 k s 2 displaystyle mathrm E y hat f x 2 left f x frac 1 k sum i 1 k f N i x right 2 frac sigma 2 k sigma 2 nbsp wobei N 1 x N k x displaystyle N 1 x dots N k x nbsp die k displaystyle k nbsp nachsten Nachbarn von x displaystyle x nbsp innerhalb der Trainingsdaten beschreiben Die Verzerrung erster Term ist eine in k displaystyle k nbsp monoton steigende Funktion wahrend die Varianz zweiter Term fallt falls k displaystyle k nbsp erhoht wird Tatsachlich verschwindet unter vernunftigen Annahmen die Verzerrung des 1 nachster Nachbarn Schatzers vollstandig wenn die Grosse des Trainingsdatensatzes gegen unendlich strebt 1 Anwendung auf das menschliche Lernen BearbeitenWahrend das Verzerrung Varianz Dilemma grossteils im Bereich des maschinellen Lernens angewendet wird ist es auch im Zusammenhang mit menschlicher Wahrnehmung untersucht worden vor allem durch Gerd Gigerenzer und Kollegen im Bereich gelernter Heuristiken Sie argumentieren dass das menschliche Gehirn das Dilemma im Falle sparlicher und schlecht charakterisierter Trainingsdaten mittels Erfahrungen lost die durch Heuristiken mit hoher Verzerrung und niedriger Varianz gewonnen werden Dies spiegelt die Tatsache wider dass ein Ansatz mit einer Verzerrung gleich Null eine schlechte Generalisierbarkeit auf neue Situationen aufweist und genaue Kenntnis des wahren Zustandes der Welt voraussetzt Die resultierenden Heuristiken sind relativ einfach liefern aber bessere Erklarungen bei einer grosseren Anzahl von Situationen 15 Nach Geman und anderen 1 impliziert das Verzerrung Varianz Dilemma dass Fahigkeiten wie generische Objekterkennung nicht von Grund auf neu erlernt werden konnen sondern ein gewisses Mass an vorhandener Vernetzung erfordern die spater durch Erfahrung angepasst wird Dies liegt daran dass modellfreie Ansatze die eine hohe Varianz vermeiden mochten zur Erklarung unpraktisch grosse Trainingsdatensatze erfordern Siehe auch BearbeitenErwartungstreue Satz von Gauss Markow Regressionsanalyse Cramer Rao Schranke PrognoseintervallWeblinks Bearbeitenhttps www cs cornell edu courses cs4780 2018fa lectures lecturenote12 html Scott Fortmann Roe Understanding the Bias Variance Tradeoff Juni 2012 Einzelnachweise Bearbeiten a b c d Stuart Geman E Bienenstock R Doursat Neural networks and the bias variance dilemma In Neural Computation 4 Jahrgang 1992 S 1 58 doi 10 1162 neco 1992 4 1 1 mit edu PDF Bias variance decomposition In Encyclopedia of Machine Learning Eds Claude Sammut Geoffrey I Webb Springer 2011 S 100 101 a b c Gareth James Daniela Witten Trevor Hastie Robert Tibshirani An Introduction to Statistical Learning Springer 2013 online a b Trevor Hastie Robert Tibshirani JeromeFriedman The Elements of Statistical Learning 2009 online https www cs cornell edu courses cs4780 2018fa lectures lecturenote12 html Durch Monte Carlo Simulationen konnen neue Trainingsdaten Stichprobenwiderholungen mit dem Bootstrapping Verfahren erzeugt werden die es dann erlauben den Erwartungswert E displaystyle mathrm E nbsp numerisch zu schatzen vgl http rasbt github io mlxtend user guide evaluate bias variance decomp Sethu Vijayakumar The Bias Variance Tradeoff University Edinburgh 2007 abgerufen am 19 August 2014 Greg Shakhnarovich Notes on derivation of bias variance decomposition in linear regression 2011 archiviert vom Original am 21 August 2014 abgerufen am 20 August 2014 Pedro Domingos A unified bias variance decomposition ICML 2000 englisch washington edu PDF Giorgio Valentini Thomas G Dietterich Bias variance analysis of support vector machines for the development of SVM based ensemble methods In JMLR 5 Jahrgang 2004 S 725 775 englisch Christopher D Manning Prabhakar Raghavan Hinrich Schutze Introduction to Information Retrieval Cambridge University Press 2008 S 308 314 online F Gagliardi Instance based classifiers applied to medical databases diagnosis and knowledge extraction Artificial Intelligence in Medicine Bande 52 Nr 3 2011 S 123 139 Doi 10 1016 j artmed 2011 04 002 Jo Anne Ting Sethu Vijaykumar Stefan Schaal Locally Weighted Regression for Control In Encyclopedia of Machine Learning Eds Claude Sammut Geoffrey I Webb Springer 2011 S 615 Scott Fortmann Roe Understanding the Bias Variance Tradeoff 2012 1 Gerd Gigerenzer Henry Brighton Homo heuristicus Why biased minds make better inferences In Topics in Cognitive Science Band 1 Nr 1 Januar 2009 S 107 143 doi 10 1111 j 1756 8765 2008 01006 x PMID 25164802 englisch Literatur BearbeitenHarry L Van Trees Kristine L Bell Exploring Estimator BiasVariance Tradeoffs Using the Uniform CR Bound in Bayesian Bounds for Parameter Estimation and Nonlinear Filtering Tracking IEEE 2007 S 451 466 doi 10 1109 9780470544198 ch40 Abgerufen von https de wikipedia org w index php title Verzerrung Varianz Dilemma amp oldid 236879265