www.wikidata.de-de.nina.az
Backpropagation oder auch Backpropagation of Error bzw auch Fehlerruckfuhrung 1 auch Ruckpropagierung ist ein verbreitetes Verfahren zum Einlernen kunstlicher neuronaler Netze Es gehort zur Gruppe der uberwachten Lernverfahren und wird als Verallgemeinerung der Delta Regel auf mehrschichtige Netze angewandt Dazu muss ein externer Lehrer existieren der zu jedem Zeitpunkt der Eingabe die gewunschte Ausgabe den Zielwert kennt Die Ruckwartspropagierung ist ein Spezialfall eines allgemeinen Gradientenverfahrens in der Optimierung basierend auf dem mittleren quadratischen Fehler Inhaltsverzeichnis 1 Funktionsweise 2 Geschichte 3 Fehlerminimierung 4 Algorithmus 5 Herleitung 5 1 Neuronenausgabe 5 2 Ableitung der Fehlerfunktion 5 3 Modifizierung der Gewichte 5 4 Aktivierungsfunktion 6 Erweiterung 6 1 Backpropagation mit variabler Lernrate 6 2 Backpropagation mit Tragheitsterm 6 3 Gleichungen der Backpropagation 7 Biologischer Kontext 8 Siehe auch 9 Literatur 10 Weblinks 11 EinzelnachweiseFunktionsweise BearbeitenEin kunstliches neuronales Netz nimmt im einfachsten Fall Eingabedaten und ordnet sie auf einen Ausgangswert ab Das gesamte Netz liest Zahlen ein und findet Muster in diesen Zahlen Die Eingabedaten werden durch eine Matrix von Gewichten gefiltert die die Parameter des Netzes sind Die Methode zur Feinabstimmung dieser Gewichte nimmt einen Ausgangsfehler neuronaler Netze auf und verbreitet diesen Fehler durch das Netz ruckwarts und ermittelt welche Pfade den grossten Einfluss auf die Ausgabe haben Dieses Prinzip nennt man Backpropagation Die Backpropagation ermittelt welche Wege einen grosseren Einfluss auf die endgultige Antwort haben und ermoglicht es Verbindungen zu starken oder zu schwachen um eine gewunschte Vorhersage zu erreichen 2 Geschichte BearbeitenNach verschiedenen Quellen 3 4 5 6 wurden die Grundlagen des Verfahrens im Kontext der Steuerungstheorie hergeleitet durch Prinzipien dynamischer Programmierung und zwar durch Henry J Kelley 7 im Jahre 1960 und Arthur E Bryson im Jahre 1961 8 1962 publizierte Stuart Dreyfus eine einfachere Herleitung durch die Kettenregel 9 Vladimir Vapnik zitiert einen Artikel aus dem Jahre 1963 10 in seinem Buch uber Support Vector Machines 1969 beschrieben Bryson und Yu Chi Ho das Verfahren als mehrstufige Optimierung dynamischer Systeme 11 12 Seppo Linnainmaa publizierte im Jahre 1970 schliesslich die allgemeine Methode fur automatisches Differenzieren AD diskreter Netzwerke verschachtelter differenzierbarer Funktionen 13 14 Dies ist die moderne Variante des Backpropagation Verfahrens welche auch bei dunner Vernetzung effizient ist 15 16 5 6 1973 verwendete Stuart Dreyfus Backpropagation um Parameter von Steuersystemen proportional zu ihren Fehlergradienten zu adjustieren 17 Paul Werbos erwahnte 1974 die Moglichkeit dieses Prinzip auf kunstliche neuronale Netze anzuwenden 18 und im Jahre 1982 tat er dies auf die heute weit verbreitete Art und Weise 19 6 Vier Jahre spater zeigten David E Rumelhart Geoffrey E Hinton und Ronald J Williams durch Experimente dass diese Methode zu nutzlichen internen Reprasentationen von Eingabedaten in tieferen Schichten neuronaler Netze fuhren kann was die Grundlage von Deep Learning ist 20 Eric A Wan war 1993 der erste 5 der einen internationalen Mustererkennungswettbewerb durch Backpropagation gewann 21 Fehlerminimierung BearbeitenBeim Lernproblem wird fur beliebige Netze eine moglichst zuverlassige Abbildung von gegebenen Eingabevektoren auf gegebene Ausgabevektoren angestrebt Dazu wird die Qualitat der Abbildung durch eine Fehlerfunktion beschrieben die hier durch den quadratischen Fehler definiert wird E 1 2 i 1 n t i o i 2 displaystyle E frac 1 2 sum limits i 1 n t i o i 2 nbsp Dabei ist E displaystyle E nbsp der Fehler n displaystyle n nbsp die Anzahl der Ausgabe Neuronen t i displaystyle t i nbsp die gewunschte Soll Ausgabe oder Zielwert target und o i displaystyle o i nbsp die errechnete Ist Ausgabe output Der Faktor 1 2 displaystyle tfrac 1 2 nbsp wird dabei lediglich zur Vereinfachung bei der Ableitung hinzugenommen Das Ziel ist nun die Minimierung der Fehlerfunktion wobei aber im Allgemeinen lediglich ein lokales Minimum gefunden wird Das Einlernen eines kunstlichen neuronalen Netzes erfolgt bei dem Backpropagation Verfahren durch die Anderung der Gewichte da die Ausgabe des Netzes ausser von der Aktivierungsfunktion direkt von ihnen abhangig ist Algorithmus BearbeitenDer Backpropagation Algorithmus lauft in folgenden Phasen Ein Eingabemuster wird angelegt und vorwarts durch das Netz propagiert Die Ausgabe des Netzes wird mit der gewunschten Ausgabe verglichen Die Differenz der beiden Werte wird als Fehler des Netzes erachtet Der Fehler wird nun wieder uber die Ausgabe zur Eingabeschicht zuruck propagiert Dabei werden die Gewichtungen der Neuronenverbindungen abhangig von ihrem Einfluss auf den Fehler geandert Dies garantiert bei einem erneuten Anlegen der Eingabe eine Annaherung an die gewunschte Ausgabe Der Name des Algorithmus ergibt sich aus dem Zuruckpropagieren des Fehlers engl error back propagation Herleitung BearbeitenDie Formel des Backpropagation Verfahrens wird durch Differenziation hergeleitet Fur die Ausgabe eines Neurons mit zwei Eingaben x 1 displaystyle x 1 nbsp und x 2 displaystyle x 2 nbsp erhalt man eine zweidimensionale Hyperebene wobei der Fehler des Neurons abhangig von den Gewichtungen w 1 w 2 displaystyle w 1 w 2 nbsp der Eingaben x 1 x 2 displaystyle x 1 x 2 nbsp ist Diese Fehleroberflache enthalt Minima die es zu finden gilt Dies kann nun durch das Gradientenverfahren erreicht werden indem von einem Punkt auf der Oberflache aus in Richtung des starksten Abfallens der Fehlerfunktion abgestiegen wird Neuronenausgabe Bearbeiten nbsp Kunstliches Neuron mit Index jFur die Herleitung des Backpropagation Verfahrens sei die Neuronenausgabe eines kunstlichen Neurons kurz dargestellt Die Ausgabe o j displaystyle o j nbsp eines kunstlichen Neurons j displaystyle j nbsp lasst sich definieren durch o j f net j displaystyle o j varphi mbox net j nbsp und die Netzeingabe net j displaystyle mbox net j nbsp durch net j i 1 n x i w i j displaystyle mbox net j sum limits i 1 n x i w ij nbsp Dabei ist f displaystyle varphi nbsp eine differenzierbare Aktivierungsfunktion deren Ableitung nicht uberall gleich null ist n displaystyle n nbsp die Anzahl der Eingaben x i displaystyle x i nbsp die Eingabe i displaystyle i nbsp und w i j displaystyle w ij nbsp die Gewichtung zwischen Eingabe i displaystyle i nbsp und Neuron j displaystyle j nbsp Auf einen Schwellwert 8 j displaystyle theta j nbsp wird hier verzichtet Dieser wird meist durch ein immer feuerndes on Neuron realisiert und dessen Ausgabe mit dem konstanten Wert 1 belegt Auf diese Weise entfallt eine Unbekannte Ableitung der Fehlerfunktion Bearbeiten Die partielle Ableitung der Fehlerfunktion E displaystyle E nbsp ergibt sich durch Verwendung der Kettenregel E w i j E o j o j net j net j w i j displaystyle dfrac partial E partial w ij frac partial E partial o j frac partial o j partial mbox net j frac partial mbox net j partial w ij nbsp nbsp Einfaches Netz mit verdeckter Schicht und Ausgabeschicht mit jeweils drei bzw zwei Neuronen Mit Matrizen und Vektoren lautet die Kettenregel E W E O O N e t N e t W displaystyle dfrac partial E partial W frac partial E partial O frac partial O partial Net frac partial Net partial W nbsp Aus den einzelnen Termen kann nun die folgende Formel berechnet werden Dabei ist die Herleitung im Gegensatz zur einfachen Delta Regel abhangig von zwei Fallen Liegt das Neuron in der Ausgabeschicht so ist es direkt an der Ausgabe beteiligt liegt es dagegen in einer verdeckten Schicht so kann die Anpassung nur indirekt berechnet werden Konkret D w i j h E w i j h d j o i displaystyle Delta w ij eta dfrac partial E partial w ij eta delta j o i nbsp mitd j f net j o j t j falls j Ausgabeneuron ist f net j k d k w j k falls j verdecktes Neuron ist displaystyle delta j begin cases varphi mbox net j o j t j amp mbox falls j mbox Ausgabeneuron ist varphi mbox net j sum k delta k w jk amp mbox falls j mbox verdecktes Neuron ist end cases nbsp Dabei ist D w i j displaystyle Delta w ij nbsp die Anderung des Gewichts w i j displaystyle w ij nbsp der Verbindung von Neuron i displaystyle i nbsp zu Neuron j displaystyle j nbsp h displaystyle eta nbsp eine feste Lernrate mit der die Starke der Gewichtsanderungen bestimmt werden kann d j displaystyle delta j nbsp das Fehlersignal des Neurons j displaystyle j nbsp entsprechend zu E net j displaystyle frac partial E partial mbox net j nbsp t j displaystyle t j nbsp die Soll Ausgabe des Ausgabeneurons j displaystyle j nbsp o i displaystyle o i nbsp die Ausgabe des Neurons i displaystyle i nbsp o j displaystyle o j nbsp die Ist Ausgabe des Ausgabeneurons j displaystyle j nbsp und k displaystyle k nbsp der Index der Neuronen des nachfolgenden Layers von Neuron j displaystyle j nbsp Bei einem einschichtigen Netzwerk ist o i x i displaystyle o i x i nbsp Die Ausgabe o i displaystyle o i nbsp entspricht dann also den Eingangen des Netzwerks Modifizierung der Gewichte Bearbeiten Die Variable d j displaystyle delta j nbsp geht dabei auf die Unterscheidung der Neuronen ein Liegt das Neuron in einer verdeckten Schicht so wird seine Gewichtung abhangig von dem Fehler geandert den die nachfolgenden Neuronen erzeugen welche wiederum ihre Eingaben aus dem betrachteten Neuron beziehen Die Anderung der Gewichte kann nun wie folgt vorgenommen werden w i j neu w i j alt D w i j displaystyle w ij mbox neu w ij mbox alt Delta w ij nbsp Dabei ist w i j neu displaystyle w ij mbox neu nbsp der neue Wert des Gewichts w i j alt displaystyle w ij mbox alt nbsp der alte Wert des Gewichts und D w i j displaystyle Delta w ij nbsp die oben berechnete Anderung des Gewichts basierend auf w i j alt displaystyle w ij mbox alt nbsp Das Ziel der Backpropagation ist es die Ableitung des Fehlers in Bezug auf die Gewichte im Netz zu finden Wenn nach der Anderung eines Wertes in Bezug auf einen anderen Wert gesucht ist ist dies eine Ableitung Fur die Berechnung reprasentiert jedes Neuron eine Funktion und jede Kante fuhrt einen Vorgang auf dem angehangten Neuron aus Man beginnt mit dem Fehlerneuron und bewegt sich jeweils ein Neuron zuruck und nimmt die partielle Ableitung des aktuellen Neurons in Bezug auf den Neurons in der vorhergehenden Schicht Jeder Ausdruck wird an den vorhergehenden Ausdruck gekettet um den Gesamtwert zu berechnen Dies ist die Kettenregel 2 Aktivierungsfunktion Bearbeiten Der Backpropagation Algorithmus sucht nach dem Minimum der Fehlerfunktion unter Verwendung des Gradientenverfahrens Die Kombination von Gewichten die die Fehlerfunktion minimiert wird als Losung des Lernproblems angesehen Weil dieses Verfahren die Berechnung des Gradienten der Fehlerfunktion bei jedem Iterationsschritt erfordert muss die Fehlerfunktion stetig und differenzierbar sein Eine der beliebtesten Aktivierungsfunktionen fur Backpropagation Netze ist die Sigmoidfunktion s c x 1 1 e c x displaystyle s c x frac 1 1 e cx nbsp Die Konstante c displaystyle c nbsp ist beliebig wahlbar und ihr Kehrwert 1 c displaystyle frac 1 c nbsp wird Temperaturparameter in stochastischen neuronalen Netzen genannt Die Form des Sigmoids andert sich entsprechend dem Wert von c displaystyle c nbsp Hohere Werte von c displaystyle c nbsp bringen die Form des Sigmoids naher an die der Heaviside Funktion und im Grenzwert c displaystyle c rightarrow infty nbsp konvergiert das Sigmoid zu einer Heaviside Funktion Die Ableitung der Sigmoidfunktion nach x displaystyle x nbsp ist x s c x c e c x 1 e c x 2 c s c x 1 s c x displaystyle frac partial partial x s c x frac c cdot e cx 1 e cx 2 c cdot s c x cdot 1 s c x nbsp Eine Alternative zum Sigmoid ist das symmetrische Sigmoid definiert als S x 2 s x 1 1 e x 1 e x displaystyle S x 2 cdot s x 1 frac 1 e x 1 e x nbsp Dies ist der Tangens hyperbolicus fur das Argument x 2 displaystyle frac x 2 nbsp also tanh x 2 displaystyle tanh left frac x 2 right nbsp Viele andere Arten von Aktivierungsfunktionen wurden vorgeschlagen und der Backpropagation Algorithmus ist auf alle anwendbar Eine differenzierbare Aktivierungsfunktion macht die von einem neuronalen Netz berechnete Funktion differenzierbar unter der Annahme dass die Integralfunktion an jedem Knoten nur die Summe der Eingaben ist weil das Netz selbst nur zusammengesetzte Funktionen berechnet 22 Erweiterung BearbeitenDie Wahl der Lernrate h displaystyle eta nbsp ist wichtig fur das Verfahren da ein zu hoher Wert eine starke Veranderung bewirkt wobei das Minimum verfehlt werden kann wahrend eine zu kleine Lernrate das Einlernen unnotig verlangsamt Verschiedene Optimierungen von Ruckwartspropagierung z B Quickprop zielen vor allem auf die Beschleunigung der Fehlerminimierung andere Verbesserungen versuchen vor allem die Zuverlassigkeit zu erhohen Backpropagation mit variabler Lernrate Bearbeiten Um eine Oszillation des Netzes d h alternierende Verbindungsgewichte zu vermeiden existieren Verfeinerungen des Verfahrens bei dem mit einer variablen Lernrate h displaystyle eta nbsp gearbeitet wird Backpropagation mit Tragheitsterm Bearbeiten Durch die Verwendung eines variablen Tragheitsterms Momentum a displaystyle alpha nbsp kann der Gradient und die letzte Anderung gewichtet werden so dass die Gewichtsanpassung zusatzlich von der vorausgegangenen Anderung abhangt Ist das Momentum a displaystyle alpha nbsp gleich 0 so hangt die Anderung allein vom Gradienten ab bei einem Wert von 1 lediglich von der letzten Anderung Ahnlich einer Kugel die einen Berg hinunter rollt und deren aktuelle Geschwindigkeit nicht nur durch die aktuelle Steigung des Berges sondern auch durch ihre eigene Tragheit bestimmt wird lasst sich der Backpropagation ein Tragheitsterm hinzufugen D w i j t 1 1 a h d j x i a D w i j t displaystyle Delta w ij t 1 1 alpha eta delta j x i alpha Delta w ij t nbsp Dabei ist D w i j t 1 displaystyle Delta w ij t 1 nbsp die Anderung des Gewichts w i j t 1 displaystyle w ij t 1 nbsp der Verbindung von Neuron i displaystyle i nbsp zu Neuron j displaystyle j nbsp zum Zeitpunkt t 1 displaystyle t 1 nbsp h displaystyle eta nbsp eine Lernrate d j displaystyle delta j nbsp das Fehlersignal des Neurons j displaystyle j nbsp und x i displaystyle x i nbsp die Eingabe des Neurons i displaystyle i nbsp a displaystyle alpha nbsp der Einfluss des Tragheitsterms D w i j t displaystyle Delta w ij t nbsp Dieser entspricht der Gewichtsanderung zum vorherigen Zeitpunkt Damit hangt die aktuelle Gewichtsanderung t 1 displaystyle t 1 nbsp sowohl vom aktuellen Gradienten der Fehlerfunktion Steigung des Berges 1 Summand als auch von der Gewichtsanderung des vorherigen Zeitpunktes ab eigene Tragheit 2 Summand Durch den Tragheitsterm werden unter anderem Probleme der Backpropagation Regel in steilen Schluchten und flachen Plateaus vermieden Da zum Beispiel in flachen Plateaus der Gradient der Fehlerfunktion sehr klein wird kame es ohne Tragheitsterm unmittelbar zu einem Abbremsen des Gradientenabstiegs dieses Abbremsen wird durch die Addition des Tragheitsterms verzogert so dass ein flaches Plateau schneller uberwunden werden kann Sobald der Fehler des Netzes minimal wird kann das Einlernen abgeschlossen werden und das mehrschichtige Netz ist nun bereit die erlernten Muster zu klassifizieren Gleichungen der Backpropagation Bearbeiten Die Gleichungen der Backpropagation lassen sie wie folgt zusammenfassen d j L E o j L f net j L d j l w l 1 T d j 1 f net j l E t j L d j l E w i j L o j l 1 d i l displaystyle begin aligned delta j L amp frac partial E partial o j L varphi mbox net j L delta j l amp w l 1 T delta j 1 circ varphi mbox net j l frac partial E partial t j L amp delta j l frac partial E partial w ij L amp o j l 1 delta i l end aligned nbsp Diese Gleichungen bieten eine Moglichkeit den Gradienten der Kostenfunktion zu berechnen Daraus ergibt sich folgender Algorithmus 23 Setze die Aktivierung o 1 displaystyle o 1 nbsp fur die Eingabeschicht Berechne z l w l o l 1 t l displaystyle z l w l o l 1 t l nbsp und o l f net j l displaystyle o l varphi mbox net j l nbsp fur l 2 3 L displaystyle l 2 3 ldots L nbsp Berechne den Vektor E o j L f net j L displaystyle frac partial E partial o j L varphi mbox net j L nbsp Berechne den Vektor d j l w l 1 T d j 1 f net j l displaystyle delta j l w l 1 T delta j 1 circ varphi mbox net j l nbsp fur l L 1 L 2 2 displaystyle l L 1 L 2 ldots 2 nbsp Der Gradient der Kostenfunktion ist E w i j L o j l 1 d i l displaystyle frac partial E partial w ij L o j l 1 delta i l nbsp und E t j L d j l displaystyle frac partial E partial t j L delta j l nbsp Biologischer Kontext BearbeitenAls Verfahren des maschinellen Lernens ist Backpropagation ein mathematisch fundierter Lernmechanismus kunstlicher neuronaler Netze und versucht nicht tatsachliche neuronale Lernmechanismen biologistisch zu modellieren Es ist kein Resultat neurophysiologischer Experimente und wird deshalb haufig von Neurowissenschaftlern kritisiert Es gibt keine neurophysiologische Evidenz die nahelegt dass Backpropagation oder ein ahnliches Verfahren von biologischen Neuronen benutzt wird Dies gilt nicht fur Gradientenverfahren im Allgemeinen Im Folgenden werden einige Grunde fur die biologische Inplausibilitat von Backpropagation dargelegt entnommen aus Y Bengio et al 24 Es ist unklar wie Information uber die Zielwerte t i displaystyle t i nbsp in den synaptischen Spalt der letzten Neuronenschicht gelangen kann Biologische Neuronen kommunizieren uber binare Zustandsanderungen spikes nicht uber kontinuierliche Werte Biologische Neuronen sind zeitsensibel d h ihre Aktivitat variiert nicht nur abhangig von der Intensitat der Eingangs Informationen sondern von dessen Zeitverhalten timing Spike Time Dependent Plasticity STDP Backpropagation setzt zeitlich perfekt synchronisierte diskrete Schritte voraus Ein potenzieller Feedbackmechanismus musste uber die exakten nicht linearen Ableitungen der im Gehirn in Struktur und Selektivitat immens variierenden Neuronen im Vorwartsteil verfugen Der Feedbackmechanismus musste uber exakt symmetrische Gewichte verfugen weight transport problem Siehe auch BearbeitenResilient PropagationLiteratur BearbeitenDavid E Rumelhart Geoffrey E Hinton Ronald J Williams Learning representations by back propagating errors In Nature Band 323 1986 S 533 536 nature com Raul Rojas Theorie der Neuronalen Netze Springer 1996 ISBN 3 540 56353 9 E Book der englischen Version PDF 4 6 MB S 151 ff Burkhard Lenze Einfuhrung in die Mathematik neuronaler Netze Logos Verlag Berlin 2003 ISBN 3 89722 021 0 Robert Callan Neuronale Netze im Klartext Pearson Studium Munchen 2003 Andreas Zell Simulation neuronaler Netze R Oldenbourg Verlag Munchen 1997 ISBN 3 486 24350 0 Weblinks BearbeitenMichael Nielsen Neural Networks and Deep Learning Determination Press 2015 Kapitel 2 e book Backpropagator s Review lange nicht gepflegt Ein kleiner Uberblick uber Neuronale Netze David Kriesel kostenloses Skriptum in Deutsch zu Neuronalen Netzen Reich illustriert und anschaulich Enthalt ein Kapitel uber Backpropagation samt Motivation Herleitung und Variationen wie z B Tragheitsterm Lernratenvariationen u a Membrain freier Neuronale Netze Editor und Simulator fur Windows Blogbeitrag zum Thema Backpropagation und Gradient Descent inkl ProgrammierbeispieleEinzelnachweise Bearbeiten Werner Kinnebrock Neuronale Netze Grundlagen Anwendungen Beispiele R Oldenbourg Verlag Munchen 1994 ISBN 3 486 22947 8 a b Brent Scarff Towards Data Science Understanding Backpropagation Stuart Dreyfus Artificial Neural Networks Back Propagation and the Kelley Bryson Gradient Procedure In J Guidance Control and Dynamics 1990 Eiji Mizutani Stuart Dreyfus Kenichi Nishio On derivation of MLP backpropagation from the Kelley Bryson optimal control gradient formula and its application In Proceedings of the IEEE International Joint Conference on Neural Networks IJCNN 2000 Como Italy July 2000 a b c Jurgen Schmidhuber Deep learning in neural networks An overview In Neural Networks 61 2015 S 85 117 ArXiv a b c Jurgen Schmidhuber Deep Learning In Scholarpedia 10 11 2015 S 328 332 Section on Backpropagation Henry J Kelley Gradient theory of optimal flight paths In Ars Journal 30 10 1960 S 947 954 online Arthur E Bryson A gradient method for optimizing multi stage allocation processes In Proceedings of the Harvard Univ Symposium on digital computers and their applications April 1961 Stuart Dreyfus The numerical solution of variational problems In Journal of Mathematical Analysis and Applications 5 1 1962 S 30 45 online A E Bryson W F Denham S E Dreyfus Optimal programming problems with inequality constraints I Necessary conditions for extremal solutions In AIAA J 1 11 1963 S 2544 2550 Stuart Russell Peter Norvig Artificial Intelligence A Modern Approach S 578 englisch The most popular method for learning in multilayer networks is called Back propagation Arthur Earl Bryson Yu Chi Ho Applied optimal control optimization estimation and control Blaisdell Publishing Company or Xerox College Publishing 1969 S 481 Seppo Linnainmaa The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors Master s Thesis in Finnish Univ Helsinki 1970 S 6 7 Seppo Linnainmaa Taylor expansion of the accumulated rounding error In BIT Numerical Mathematics 16 2 1976 S 146 160 Andreas Griewank Who Invented the Reverse Mode of Differentiation Optimization Stories In Documenta Matematica Extra Volume ISMP 2012 S 389 400 Andreas Griewank Andrea Walther Principles and Techniques of Algorithmic Differentiation 2 Auflage SIAM 2008 Stuart Dreyfus The computational solution of optimal control problems with time lag In IEEE Transactions on Automatic Control 18 4 1973 S 383 385 Paul Werbos Beyond regression New tools for prediction and analysis in the behavioral sciences PhD thesis Harvard University 1974 Paul Werbos Applications of advances in nonlinear sensitivity analysis In System modeling and optimization Springer Berlin Heidelberg 1982 S 762 770 online David E Rumelhart Geoffrey E Hinton Ronald J Williams Learning representations by back propagating errors In Nature Band 323 1986 S 533 536 Eric A Wan Time series prediction by using a connectionist network with internal delay lines In Santa Fe Institute Studies in the Sciences of Complexity Proceedings Vol 15 Addison Wesley Publishing Co 1993 S 195 195 Freie Universitat Berlin The Backpropagation Algorithm Neural Networks and Deep Learning How the backpropagation algorithm works Y Bengio et al Towards Biologically Plausible Deep Learning arxiv 1502 04156 2016 Abgerufen von https de wikipedia org w index php title Backpropagation amp oldid 236202919