www.wikidata.de-de.nina.az
Das Perzeptron nach engl perception Wahrnehmung ist ein vereinfachtes kunstliches neuronales Netz das zuerst von Frank Rosenblatt 1957 vorgestellt wurde Es besteht in der Grundversion einfaches Perzeptron aus einem einzelnen kunstlichen Neuron mit anpassbaren Gewichtungen und einem Schwellenwert Unter diesem Begriff werden heute verschiedene Kombinationen des ursprunglichen Modells verstanden dabei wird zwischen einlagigen und mehrlagigen Perzeptren engl multi layer perceptron MLP unterschieden Perzeptron Netze wandeln einen Eingabevektor in einen Ausgabevektor um und stellen damit einen einfachen Assoziativspeicher dar Einfaches zweilagiges feed forward Perzeptron mit funf Input Neuronen drei Hidden Neuronen und einem Output Neuron sowie zwei Bias Neuronen Inhaltsverzeichnis 1 Geschichte 2 Einlagiges Perzeptron 2 1 Berechnung der Ausgabewerte 2 2 Perzeptron Lernregel 2 3 XOR Problem 2 4 Varianten der Perzeptron Lernregel 2 5 Das Perzeptron als linearer Klassifikator 3 Mehrlagiges Perzeptron 4 Literatur 5 Weblinks 6 EinzelnachweiseGeschichte Bearbeiten nbsp Einfaches Perzeptron das ein logisches ODER realisiert Input Neuronen Output Neuron1943 fuhrten der Neurophysiologe Warren McCulloch und der Logiker Walter Pitts das Neuron als logisches Schwellwert Element mit mehreren Eingangen und einem einzigen Ausgang in die Informatik ein 1 Es konnte als Boolesche Variable die Zustande wahr und falsch annehmen und feuerte wahr wenn die Summe der Eingangssignale einen Schwellenwert uberschritt siehe McCulloch Pitts Zelle Dies entsprach der neurobiologischen Analogie eines Aktionspotentials das eine Nervenzelle bei einer kritischen Anderung ihres Membranpotentials aussendet McCulloch und Pitts zeigten dass durch geeignete Kombination mehrerer solcher Neuronen jede einfache aussagenlogische Funktion UND ODER NICHT beschreibbar ist 1949 stellte der Psychologe Donald O Hebb die Hypothese auf Lernen beruhe darauf dass sich die aktivierende oder hemmende Wirkung einer Synapse als Produkt der pra und postsynaptischen Aktivitat berechnen lasse 2 Es gibt Anhaltspunkte dass die Langzeit Potenzierung und das sogenannte spike timing dependent plasticity STDP die biologischen Korrelate des Hebbschen Postulates sind Uberzeugende Evidenz fur diese These steht aber noch aus 1957 schliesslich publizierte Frank Rosenblatt das Perzeptron Modell das bis heute die Grundlage kunstlicher neuronaler Netze darstellt 3 Einlagiges Perzeptron BearbeitenBeim einlagigen Perzeptron gibt es nur eine einzige Schicht aus kunstlichen Neuronen welche zugleich den Ausgabevektor reprasentiert Jedes Neuron wird dabei durch eine Neuronenfunktion reprasentiert und erhalt den gesamten Eingabevektor als Parameter Die Verarbeitung erfolgt ganz ahnlich zur sogenannten Hebbschen Lernregel fur naturliche Neuronen Allerdings wird der Aktivierungsfaktor dieser Regel durch eine Differenz zwischen Soll und Istwert ersetzt Da die Hebbsche Lernregel sich auf die Gewichtung der einzelnen Eingangswerte bezieht erfolgt also das Lernen eines Perzeptrons durch die Anpassung der Gewichtung eines jeden Neurons Sind die Gewichtungen einmal gelernt so ist ein Perzeptron auch in der Lage Eingabevektoren zu klassifizieren die vom ursprunglich gelernten Vektor leicht abweichen Gerade darin besteht die gewunschte Klassifizierungsfahigkeit des Perzeptrons der es seinen Namen verdankt Berechnung der Ausgabewerte Bearbeiten Mit einem Bias b displaystyle b nbsp den Eingaben x i displaystyle x i nbsp und den Gewichten w i j displaystyle w ij nbsp berechnen sich die Ausgabewerte o j displaystyle o j nbsp zu o j 1 i w i j x i b gt 0 0 ansonsten displaystyle o j begin cases 1 amp sum i w ij x i b gt 0 0 amp text ansonsten end cases nbsp 4 Anmerkungen Der Bias b displaystyle b nbsp ist als Schwellenwert 8 displaystyle theta nbsp engl threshold mit einem negativen Vorzeichen festgelegt Verwendet man stattdessen den Schwellenwert 8 displaystyle theta nbsp so ergibt sich die erste Bedingung zu i w i j x i gt 8 displaystyle sum i w ij x i gt theta nbsp und es andert sich auch beim zugehorigen Funktionsterm das entsprechende Vorzeichen Perzeptron Lernregel Bearbeiten Es gibt verschiedene Versionen der Lernregel um auf die unterschiedlichen Definitionen des Perzeptrons einzugehen Fur ein Perzeptron mit binaren Ein und Ausgabewerten wird hier die Lernregel angegeben Diese Regel konvergiert nur wenn der Trainings Datensatz linear separierbar ist siehe dazu unten unter Varianten Folgende Uberlegungen liegen der Lernregel des Perzeptrons zu Grunde Wenn die Ausgabe eines Neurons 1 bzw 0 ist und den Wert 1 bzw 0 annehmen soll dann werden die Gewichtungen nicht geandert Ist die Ausgabe 0 soll aber den Wert 1 annehmen dann werden die Gewichte inkrementiert Ist die Ausgabe 1 soll aber den Wert 0 annehmen dann werden die Gewichte dekrementiert Mathematisch wird der Sachverhalt folgendermassen ausgedruckt w i j n e u w i j a l t D w i j displaystyle w ij mathrm neu w ij mathrm alt Delta w ij nbsp D w i j a t j o j x i displaystyle Delta w ij alpha cdot t j o j cdot x i nbsp Dabei ist D w i j displaystyle Delta w ij nbsp die Anderung des Gewichts w i j displaystyle w ij nbsp fur die Verbindung zwischen der Eingabezelle i displaystyle i nbsp und Ausgabezelle j displaystyle j nbsp t j displaystyle t j nbsp die gewunschte Ausgabe des Neurons j displaystyle j nbsp o j displaystyle o j nbsp die tatsachliche Ausgabe x i displaystyle x i nbsp die Eingabe des Neurons i displaystyle i nbsp und a gt 0 displaystyle alpha gt 0 nbsp die Lernrate Eine Gewichtsaktualisierung im Schritt k displaystyle k nbsp verlauft danach wie folgt w i j k 1 w i j k displaystyle w ij k 1 w ij k nbsp bei korrekter Ausgabe w i j k 1 w i j k a x i displaystyle w ij k 1 w ij k alpha x i nbsp bei Ausgabe 0 und gewunschter Ausgabe 1 und w i j k 1 w i j k a x i displaystyle w ij k 1 w ij k alpha x i nbsp bei Ausgabe 1 und gewunschter Ausgabe 0 Rosenblatt konnte im Konvergenztheorem nachweisen dass mit dem angegebenen Lernverfahren alle Losungen eingelernt werden konnen die ein Perzeptron reprasentieren kann XOR Problem Bearbeiten Frank Rosenblatt zeigte dass ein einfaches Perzeptron mit zwei Eingabewerten und einem einzigen Ausgabeneuron zur Darstellung der einfachen logischen Operatoren AND OR und NOT genutzt werden kann Marvin Minsky und Seymour Papert wiesen jedoch 1969 nach dass ein einlagiges Perzeptron den XOR Operator nicht auflosen kann Problem der linearen Separierbarkeit Dies fuhrte zu einem Stillstand in der Forschung der kunstlichen neuronalen Netze Die in diesem Zusammenhang zum Teil ausserst polemisch gefuhrte Diskussion war letztlich ein Richtungsstreit zwischen den Vertretern der symbolischen Kunstlichen Intelligenz und der Konnektionisten um Forschungsgelder Frank Rosenblatt hatte zwar gezeigt dass logische Operatoren wie XOR identisch zur Zusammensetzung OR but NOT AND durch Verwendung eines mehrlagigen Perzeptrons beschrieben werden konnen er starb jedoch zu fruh um sich gegen die Angriffe seiner KI Kollegen zu wehren Varianten der Perzeptron Lernregel Bearbeiten Die oben angegebene Standard Lernregel konvergiert nur wenn der Trainings Datensatz linear separierbar ist Ist dies nicht der Fall so wird die Standard Lernregel keine approximative Losung erzeugen zum Beispiel eine Losung mit moglichst wenigen falsch zugeordneten Daten Stattdessen wird der Lernvorgang vollstandig versagen Da lineare Separierbarkeit des Trainings Datensatzes oft nicht vor Trainingsbeginn bekannt ist sollten daher Varianten des Trainingsalgorithmus benutzt werden die robust sind in dem Sinne dass sie im nicht linear separablen Fall zu einer approximativen Losung konvergieren Ein solches robustes Verfahren ist der Maxover Algorithmus 5 Im linear separablen Fall lost er das Trainingsproblem vollstandig auch unter weiteren Optimierungsbedingungen wie maximaler Stabilitat maximaler Abstand zwischen den Daten mit Ausgabe 0 und 1 Im nicht linear separablen Fall erzeugt er eine Losung mit wenigen falsch zugeordneten Daten In beiden Fallen geschieht eine graduelle Annaherung an die Losung im Laufe des Lernvorganges Der Algorithmus konvergiert zu einer global optimalen Losung im linear separablen Fall bzw zu einer lokal optimalen Losung im nicht linear separablen Fall Der Pocket Algorithmus 6 lernt mit einer Standard Perzeptron Lernregel Er behalt diejenige Losung die bisher die wenigsten falsch zugeordneten Daten produzierte in seiner Tasche pocket und gibt diese als approximative Losung aus Im linear separablen Fall lernt dieser Algorithmus vollstandig Im nicht linear separablen Fall wird ausgenutzt dass die Standard Perzeptron Lernregel zufallige Losungen produziert unter denen stochastisch solche approximativen Losungen auftauchen Der Pocket Algorithmus hat somit Nachteile Zum einen erfolgt keine graduelle Annaherung an die Losung sondern stochastische Sprunge werden ausgenutzt Da diese zu unvorhersehbaren Zeitpunkten im Lernvorgang auftreten gibt es keine Sicherheit daruber wie weit sich der Algorithmus nach einer bestimmten Anzahl von Lernschritten einer optimalen Losung angenahert hat Zum anderen muss in jedem Lernschritt die Gesamtzahl der richtig zugeordneten Daten ermittelt werden Der Algorithmus arbeitet also nicht lokal wie fur neuronale Netze typisch Ist die lineare Separabilitat des Trainingsdatensatzes bekannt so konnen verschiedene Varianten der Standard Perzeptron Lernregel genutzt werden Das Perzeptron der optimalen Stabilitat maximaler Abstand zwischen den Daten mit Ausgabe 0 und 1 kann erzeugt werden mit dem Min Over Algorithmus Krauth und Mezard 1987 7 Ein besonders schneller Algorithmus der auf quadratischer Optimierung basiert ist das AdaTron Anlauf and Biehl 1989 8 Optimale Stabilitat zusammen mit dem Kernel Trick sind die konzeptuellen Voraussetzungen der Support Vector Machine Das Perzeptron als linearer Klassifikator Bearbeiten Jenseits aller pseudo biologischen Analogien ist ein einlagiges Perzeptron letztlich nichts weiter als ein linearer Klassifikator der Form x a 1 y 1 a 2 y 2 a n y n displaystyle x a 1 y 1 a 2 y 2 cdots a n y n nbsp lineare Diskriminanzfunktion multiple lineare Regression In der Nomenklatur der kunstlichen neuronalen Netze werden a 1 displaystyle a 1 nbsp bis a n displaystyle a n nbsp als Gewichte und y 1 displaystyle y 1 nbsp bis y n displaystyle y n nbsp als Eingangssignale bezeichnet wobei letztere nur Werte von 1 oder 0 wahr oder falsch annehmen konnen Uberschreitet die Summe x displaystyle x nbsp einen Schwellenwert so wird die Zuordnung der gesuchten Klasse auf wahr bzw 1 gesetzt sonst auf falsch bzw 0 Mehrlagiges Perzeptron Bearbeiten nbsp Zweilagiges Perzeptron zur Berechnung der XOR FunktionDie Beschrankung des einlagigen Perzeptrons konnte spater mit dem mehrlagigen Perzeptron Multi Layer Perzeptron gelost werden bei dem es neben der Ausgabeschicht auch noch mindestens eine weitere Schicht verdeckter Neuronen gibt engl hidden layer Sind die Ausgange nur mit Eingangen einer nachfolgenden Schicht verknupft so dass der Informationsfluss nur in einer Richtung verlauft spricht man von Feed forward Netzen Dabei haben sich folgende Topologien bewahrt Fully connected Die Neuronen einer Schicht werden mit allen Neuronen der direkt folgenden Schicht verbunden Short Cuts Einige Neuronen sind nicht nur mit allen Neuronen der nachsten Schicht verbunden sondern daruber hinaus mit weiteren Neuronen der ubernachsten Schichten Sind im Netz Neuronen vorhanden deren Ausgange mit Neuronen derselben oder einer vorangegangenen Schicht verbunden sind handelt es sich um ein Rekurrentes neuronales Netz Mehrlagige Perzeptronen benotigen komplexere Lernregeln als einlagige Perzeptronen Backpropagation ist ein moglicher Algorithmus fur Uberwachtes Lernen Die Erweiterung dieser Netztopologien um weitere verborgene Schichten und Einfuhrung anderer Architekturen zum Beispiel rekurrente neuronale Netze die ebenfalls meist mittels backpropagation trainiert werden wird heute unter dem Schlagwort Deep Learning zusammengefasst Literatur BearbeitenRosenblatt Frank 1958 The perceptron a probabilistic model for information storage and organization in the brain Psychological Reviews 65 1958 386 408 M L Minsky und S A Papert Perceptrons 2nd Edition MIT Press 1988 ISBN 0 262 63111 3 Weblinks BearbeitenBlogbeitrag zum Perzeptron in deutscher Sprache mit Beispielen und Code Mehrteilige Tutorial Serie in einfacher Sprache zum PerzeptronEinzelnachweise Bearbeiten A logical calculus of the ideas immanent in nervous activity WS McCulloch W Pitts Bull Math Biophys 5 115 133 1943 Organization of Behaviour D Hebb Wiley New York 1949 Frank Rosenblatt The perceptron A perceiving and recognizing automaton Cornell Aeronautical Laboratory Report No 85 460 1 Januar 1957 Siehe dazu auch Frank Rosenblatt The perceptron a probabilistic model for information storage and organization in the brain Psychological Review 65 1958 doi 10 1037 h0042519 Michael Nielsen Chapter 1 Using neural nets to recognize handwritten digits Abschnitt Perceptrons Abgerufen am 9 August 2019 englisch Andreas Wendemuth Learning the Unlearnable In Journal of Physics A Math Gen 28 1995 S 5423 5436 PDF Memento vom 5 Marz 2016 im Internet Archive abgerufen am 14 Marz 2016 S I Gallant Perceptron based learning algorithms IEEE Transactions on Neural Networks vol 1 no 2 S 179 191 1990 W Krauth and M Mezard Learning algorithms with optimal stability in neural networks J of Physics A Math Gen 20 L745 L752 1987 J K Anlauf and M Biehl The AdaTron an Adaptive Perceptron algorithm Europhysics Letters 10 1989 S 687 692 Normdaten Sachbegriff GND 4173941 3 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Perzeptron amp oldid 238705080