www.wikidata.de-de.nina.az
Ein Convolutional Neural Network CNN oder ConvNet zu Deutsch etwa faltendes neuronales Netzwerk ist ein kunstliches neuronales Netz Es handelt sich um ein von biologischen Prozessen inspiriertes Konzept im Bereich des maschinellen Lernens 1 Convolutional Neural Networks finden Anwendung in zahlreichen Technologien der kunstlichen Intelligenz vornehmlich bei der maschinellen Verarbeitung von Bild oder Audiodaten Die CNN Architektur wurde von Kunihiko Fukushima unter dem Namen Neocognitron eingefuhrt 2 3 Alex Waibels CNN namens TDNN 1987 wurde durch Backpropagation trainiert und erzielte Bewegungsinvarianz 4 Auch Yann LeCun publizierte wichtige Beitrage zu CNNs 5 6 Inhaltsverzeichnis 1 Aufbau 1 1 Convolutional Layer 1 2 Pooling Layer 1 3 Fully connected Layer 1 4 Convolution Operator 2 Training 3 Expressivitat und Notwendigkeit 4 Biologische Plausibilitat 5 Anwendung 5 1 Bilderkennung 5 2 Spracherkennung 5 3 Reinforcement Learning 5 4 Landwirtschaft 6 Literatur 7 Weblinks 8 EinzelnachweiseAufbau Bearbeiten nbsp Struktur eines typischen CNNs zur Bildklassifikation Subsampling entspricht Pooling Dieses Netz besitzt pro Convolutional Layer mehrere Filterkernel sodass Schichten an Feature Maps entstehen die jeweils die gleiche Eingabe bekommen jedoch aufgrund unterschiedlicher Gewichtsmatrizen unterschiedliche Features extrahieren Grundsatzlich besteht die Struktur eines klassischen Convolutional Neural Networks aus einem oder mehreren Convolutional Layer gefolgt von einem Pooling Layer Diese Einheit kann sich prinzipiell beliebig oft wiederholen bei ausreichend Wiederholungen spricht man dann von Deep Convolutional Neural Networks die in den Bereich Deep Learning fallen Architektonisch konnen im Vergleich zum mehrlagigen Perzeptron Multi Layer Perzeptron drei wesentliche Unterschiede festgehalten werden Details hierzu siehe Convolutional Layer 2D oder 3D Anordnung der Neuronen Geteilte Gewichte Lokale KonnektivitatConvolutional Layer Bearbeiten In der Regel liegt die Eingabe als zwei oder dreidimensionale Matrix z B die Pixel eines Graustufen oder Farbbildes vor Dementsprechend sind die Neuronen im Convolutional Layer angeordnet Die Aktivitat jedes Neurons wird uber eine diskrete Faltung daher der Zusatz convolutional berechnet Dabei wird schrittweise eine vergleichsweise kleine Faltungsmatrix Filterkernel uber die Eingabe bewegt Die Eingabe eines Neurons im Convolutional Layer berechnet sich als inneres Produkt des Filterkernels mit dem aktuell unterliegenden Bildausschnitt Dementsprechend reagieren benachbarte Neuronen im Convolutional Layer auf sich uberlappende Bereiche ahnliche Frequenzen in Audiosignalen oder lokale Umgebungen in Bildern 7 nbsp Animation einer 2D Convolution Die Werte im Kernel werden selbststandig erlernt Zur Behandlung der Randregionen des Inputs existieren verschiedene Padding Methoden Hervorzuheben ist dass ein Neuron in diesem Layer nur auf Reize in einer lokalen Umgebung des vorherigen Layers reagiert Dies folgt dem biologischen Vorbild des rezeptiven Feldes Zudem sind die Gewichte fur alle Neuronen eines Convolutional Layers identisch geteilte Gewichte englisch shared weights Dies fuhrt dazu dass beispielsweise jedes Neuron im ersten Convolutional Layer codiert zu welcher Intensitat eine Kante in einem bestimmten lokalen Bereich der Eingabe vorliegt Die Kantenerkennung als erster Schritt der Bilderkennung besitzt hohe biologische Plausibilitat 8 Aus den shared weights folgt unmittelbar dass Translationsinvarianz eine inharente Eigenschaft von CNNs ist Der mittels diskreter Faltung ermittelte Input eines jeden Neurons wird nun von einer Aktivierungsfunktion bei CNNs ublicherweise Rectified Linear Unit kurz ReLU f x max 0 x displaystyle f x max 0 x nbsp in den Output verwandelt der die relative Feuerfrequenz eines echten Neurons modellieren soll Da Backpropagation die Berechnung der Gradienten verlangt wird in der Praxis eine differenzierbare Approximation von ReLU benutzt f x ln 1 e x displaystyle f x ln 1 e x nbsp Analog zum visuellen Cortex steigt in tiefer gelegenen Convolutional Layers sowohl die Grosse der rezeptiven Felder siehe Sektion Pooling Layer als auch die Komplexitat der erkannten Features beispielsweise Teile eines Gesichts Pooling Layer Bearbeiten nbsp Max pooling mit einem 2 2 Filter und Schrittgrosse 2 Die Schrittgrosse gibt an wie viele Pixel der Filter pro Operation verschiebt Im folgenden Schritt dem Pooling werden uberflussige Informationen verworfen Zur Objekterkennung in Bildern etwa ist die exakte Position einer Kante im Bild von vernachlassigbarem Interesse die ungefahre Lokalisierung eines Features ist hinreichend Es gibt verschiedene Arten des Poolings Mit Abstand am starksten verbreitet ist das Max Pooling 9 10 11 wobei aus jedem 2 2 Quadrat aus Neuronen des Convolutional Layers nur die Aktivitat des aktivsten daher Max Neurons fur die weiteren Berechnungsschritte beibehalten wird die Aktivitat der ubrigen Neuronen wird verworfen siehe Bild Trotz der Datenreduktion im Beispiel 75 verringert sich in der Regel die Performance des Netzwerks nicht durch das Pooling Im Gegenteil es bietet einige signifikante Vorteile Verringerter Platzbedarf und erhohte Berechnungsgeschwindigkeit Daraus resultierende Moglichkeit zur Erzeugung tieferer Netzwerke die komplexere Aufgaben losen konnen Automatisches Wachstum der Grosse der rezeptiven Felder in tieferen Convolutional Layers ohne dass dafur explizit die Grosse der Faltungsmatrizen erhoht werden musste Praventionsmassnahme gegen OverfittingAlternativen wie das Mean Pooling haben sich in der Praxis als weniger effizient erwiesen 12 Das biologische Pendant zum Pooling ist die laterale Hemmung im visuellen Cortex Fully connected Layer Bearbeiten Nach einigen sich wiederholenden Einheiten bestehend aus Convolutional und Pooling Layer kann das Netzwerk mit einem oder mehreren Fully connected Layer entsprechend der Architektur des mehrlagigen Perzeptrons abschliessen Dies wird vor allem bei der Klassifizierung angewendet Die Anzahl der Neuronen im letzten Layer korrespondiert dann ublicherweise zu der Anzahl an Objekt Klassen die das Netz unterscheiden soll Dieses sehr redundante sogenannte One Hot encoding hat den Vorteil dass keine impliziten Annahmen uber Ahnlichkeiten von Klassen gemacht werden Die Ausgabe der letzten Schicht des CNNs wird in der Regel durch eine Softmax Funktion einer translations aber nicht skaleninvarianten Normalisierung uber alle Neuronen im letzten Layer in eine Wahrscheinlichkeitsverteilung uberfuhrt Convolution Operator Bearbeiten Der Convolution Operator ist definiert als Faltung x w displaystyle x w nbsp auf den reellen Funktionen x displaystyle x nbsp und w displaystyle w nbsp 13 s t w x t x a w t a d a displaystyle s t w x t int x a w t a mathrm d a nbsp Die Zeit wird meistens diskret definiert s t w x t a x a w t a displaystyle s t w x t sum a infty infty x a w t a nbsp In Anwendungen mit mehrdimensionalen Arrays als Input und Kern gilt S i j I K i j m n I m n K i m j n displaystyle S i j I K i j sum m sum n I m n cdot K i m j n nbsp Der Convolution Operator ist kommutativ d h es gilt S i j K I i j m n I i m j n K m n displaystyle S i j K I i j sum m sum n I i m j n cdot K m n nbsp Ausserdem gilt die Cross Relation 14 S i j K I i j m n I i m j n K m n displaystyle S i j K I i j sum m sum n I i m j n cdot K m n nbsp Training BearbeitenCNNs werden in aller Regel uberwacht trainiert Wahrend des Trainings wird dabei fur jeden gezeigten Input der passende One Hot Vektor bereitgestellt Via Backpropagation wird der Gradient eines jeden Neurons berechnet und die Gewichte werden in Richtung des steilsten Abfalls der Fehleroberflache angepasst Interessanterweise haben drei vereinfachende Annahmen die den Berechnungsaufwand des Netzes massgeblich verringern und damit tiefere Netzwerke zulassen wesentlich zum Erfolg von CNNs beigetragen Pooling Hierbei wird der Grossteil der Aktivitat eines Layers schlicht verworfen ReLU Die gangige Aktivierungsfunktion die jeglichen negativen Input auf 0 projiziert Dropout Eine Regularisierungsmethode beim Training die Overfitting verhindert Dabei werden pro Trainingsschritt zufallig ausgewahlte Neuronen aus dem Netzwerk entfernt Expressivitat und Notwendigkeit BearbeitenDa CNNs eine Sonderform von mehrlagigen Perzeptrons darstellen 15 sind sie prinzipiell identisch in ihrer Ausdrucksstarke Der Erfolg von CNNs lasst sich mit ihrer kompakten Reprasentation der zu lernenden Gewichte shared weights erklaren Grundlage ist die Annahme dass ein potentiell interessantes Feature In Objekterkennung etwa Kanten an jeder Stelle des Inputsignals des Bildes interessant ist Wahrend ein klassisches zweilagiges Perzeptron mit jeweils 1000 Neuronen pro Ebene fur die Verarbeitung von einem Bild im Format 32 32 insgesamt 2 Millionen Gewichte benotigt verlangt ein CNN mit zwei sich wiederholenden Einheiten bestehend aus insgesamt 13 000 Neuronen nur 160 000 geteilte zu lernende Gewichte wovon der Grossteil im hinteren Bereich fully connected Layer liegt Neben dem wesentlich verringerten Arbeitsspeicherbedarf haben sich geteilte Gewichte als robust gegenuber Translations Rotations Skalen und Luminanzvarianz erwiesen 15 Um mithilfe eines mehrlagigen Perzeptrons eine ahnliche Performance in der Bilderkennung zu erreichen musste dieses Netzwerk jedes Feature fur jeden Bereich des Inputsignals unabhangig erlernen Dies funktioniert zwar ausreichend fur stark verkleinerte Bilder etwa 32 32 aufgrund des Fluchs der Dimensionalitat scheitern MLPs jedoch an hoher auflosenden Bildern Biologische Plausibilitat BearbeitenCNNs konnen als ein vom visuellen Cortex inspiriertes Konzept verstanden werden sind jedoch weit davon entfernt neuronale Verarbeitung plausibel zu modellieren Einerseits gilt das Herzstuck von CNNs der Lernmechanismus Backpropagation als biologisch unplausibel da es bis heute trotz intensiver Bemuhungen nicht gelungen ist neuronale Korrelate von backpropagation ahnlichen Fehlersignalen zu finden 16 17 Neben dem starksten Gegenargument zur biologischen Plausibilitat der Frage wie der Kortex Zugriff auf das Zielsignal Label bekommt listen Bengio et al weitere Grunde darunter die binare zeitkontinuierliche Kommunikation biologischer Neurone sowie die Berechnung nicht linearer Ableitungen der Vorwartsneuronen 17 Andererseits konnte durch Untersuchungen mit fMRT gezeigt werden dass Aktivierungsmuster einzelner Schichten eines CNNs mit den Neuronenaktivitaten in bestimmten Arealen des visuellen Cortex korrelieren wenn sowohl das CNN als auch die menschlichen Testprobanden mit ahnlichen Aufgaben aus der Bildverarbeitung konfrontiert werden 18 19 Neuronen im primaren visuellen Cortex die sogenannten simple cells reagieren auf Aktivitat in einem kleinen Bereich der Retina Dieses Verhalten wird in CNNs durch die diskrete Faltung in den convolutional Layers modelliert Funktional sind diese biologischen Neuronen fur die Erkennung von Kanten in bestimmten Orientierungen zustandig Diese Eigenschaft der simple cells kann wiederum mithilfe von Gabor Filtern prazise modelliert werden 20 21 Trainiert man ein CNN zur Objekterkennung konvergieren die Gewichte im ersten Convolutional Layer ohne jedes Wissen uber die Existenz von simple cells gegen Filtermatrizen die Gabor Filtern erstaunlich nahe kommen 22 was als Argument fur die biologische Plausibilitat von CNNs verstanden werden kann Angesichts einer umfassenden statistischen Informationsanalyse von Bildern mit dem Ergebnis dass Ecken und Kanten in verschiedenen Orientierungen die am starksten voneinander unabhangigen Komponenten in Bildern und somit die fundamentalsten Grundbausteine zur Bildanalyse sind ist dies jedoch zu erwarten 23 Somit treten die Analogien zwischen Neuronen in CNNs und biologischen Neuronen primar behavioristisch zutage also im Vergleich zweier funktionsfahiger Systeme wohingegen die Entwicklung eines unwissenden Neurons zu einem beispielsweise gesichtserkennenden Neuron in beiden Systemen diametralen Prinzipien folgt Anwendung BearbeitenSeit dem Einsatz von Grafikprozessor Programmierung konnen CNNs erstmals effizient trainiert werden 24 Sie gelten als State of the Art Methode fur zahlreiche Anwendungen im Bereich der Klassifizierung Bilderkennung Bearbeiten CNNs erreichen eine Fehlerquote von 0 23 auf eine der am haufigsten genutzten Bilddatenbanken MNIST was Stand 2016 der geringsten Fehlerquote aller jemals getesteten Algorithmen entspricht 25 Im Jahr 2012 verbesserte ein CNN AlexNet die Fehlerquote beim jahrlichen Wettbewerb der Benchmark Datenbank ImageNet ILSVRC von dem vormaligen Rekord von 25 8 auf 16 4 Seitdem nutzen alle vorne platzierten Algorithmen CNN Strukturen Im Jahr 2016 wurde eine Fehlerquote lt 3 erreicht 26 Auch im Bereich der Gesichtserkennung konnten bahnbrechende Resultate erzielt werden 27 Spracherkennung Bearbeiten CNNs werden erfolgreich zur Spracherkennung eingesetzt und haben hervorragende Resultate in folgenden Bereichen erzielt semantisches Parsen 28 Suchanfragenruckerkennung 29 Satzmodellierung 30 Satzklassifizierung 31 Part of speech Tagging 32 Maschinelle Ubersetzung z B verwendet im Online Dienst DeepL 33 Reinforcement Learning Bearbeiten Angewendet werden konnen CNNs auch im Bereich Reinforcement Learning bei dem ein CNN mit Q Learning kombiniert wird Das Netzwerk wird darauf trainiert zu schatzen welche Aktionen bei einem gegebenen Zustand zu welchem zukunftigen Gewinn fuhren Durch die Verwendung eines CNNs konnen so auch komplexe hoher dimensionale Zustandsraume betrachtet werden wie etwa die Bildschirmausgabe eines Videospiels 34 Landwirtschaft Bearbeiten CNNs werden heutzutage auch eingesetzt um die Auswirkungen von Dungung vorherzusagen und Dungungsempfehlungen abzugeben 35 36 Literatur BearbeitenIan Goodfellow Yoshua Bengio Aaron Courville Deep Learning Adaptive Computation and Machine Learning MIT Press 2016 ISBN 978 0 262 03561 3 9 Convolutional Networks Online Weblinks BearbeitenTED Talk How we are teaching computers to understand pictures Fei Fei Li Marz 2015 abgerufen am 17 November 2016 2D Visualisierung der Aktivitat eines zweilagigen CNNs abgerufen am 17 November 2016 Tutorial zur Implementierung eines CNN mithilfe der Python Bibliothek TensorFlow CNN Tutorial der University of Stanford inklusive Visualisierung erlernter Faltungsmatrizen abgerufen am 17 November 2016 Gradient Based Learning Applied to Document Recognition Y Le Cun et al PDF 933 kB erste erfolgreiche Anwendung eines CNN abgerufen am 17 November 2016 ImageNet Classification with Deep Convolutional Neural Networks A Krizhevsky I Sutskever and G E Hinton AlexNet Durchbruch in der Bilderkennung Gewinner der ILSVRC Challenge 2012 Einzelnachweise Bearbeiten Masakazu Matsugu Katsuhiko Mori Yusuke Mitari Yuji Kaneda Subject independent facial expression recognition with robust face detection using a convolutional neural network In Neural Networks Band 16 Nr 5 2003 S 555 559 doi 10 1016 S0893 6080 03 00115 1 Online PDF abgerufen am 28 Mai 2017 Kunihiko Fukushima Neocognitron A Self organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position In Biological Cybernetics Band 36 Nr 4 1980 S 193 202 doi 10 1007 BF00344251 Online PDF Jurgen Schmidhuber Deep Learning in Neural Networks An Overview In Neural Networks Band 61 2015 S 85 117 doi 10 1016 j neunet 2014 09 003 arxiv 1404 7828 Alex Waibel Phoneme Recognition Using Time Delay Neural Networks Meeting of the Institute of Electrical Information and Communication Engineers IEICE Tokyo Japan 1987 1987 englisch Y LeCun B Boser J S Denker D Henderson R E Howard W Hubbard L D Jackel Backpropagation Applied to Handwritten Zip Code Recognition AT amp T Bell Laboratories 1989 Yann LeCun Leon Bottou Yoshua Bengio Patrick Haffner Gradient based Learning Applied to Document Recognition In Proceedings of the IEEE 1998 lecun com PDF unknown Convolutional Neural Networks LeNet Nicht mehr online verfugbar Archiviert vom Original am 28 Dezember 2017 abgerufen am 17 November 2016 englisch nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot deeplearning net D H Hubel T N Wiesel Receptive fields and functional architecture of monkey striate cortex In The Journal of Physiology Band 195 Nr 1 1 Marz 1968 ISSN 0022 3751 S 215 243 doi 10 1113 jphysiol 1968 sp008455 PMID 4966457 PMC 1557912 freier Volltext J Weng N Ahuja TS Huang Learning recognition and segmentation of 3 D objects from 2 D images In Proc 4th International Conf Computer Vision 1993 S 121 128 doi 10 1109 ICCV 1993 378228 Kouichi Yamaguchi Kenji Sakamoto Toshio Sakamoto Yoshiji Fujimoto A Neural Network for Speaker Independent Isolated Word Recognition First International Conference on Spoken Language Processing ICSLP 1990 Kobe Japan November 1990 englisch isca speech org Memento des Originals vom 7 Marz 2021 im Internet Archive abgerufen am 13 August 2022 nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot www isca speech org Benjamin Graham Fractional Max Pooling 18 Dezember 2014 arxiv 1412 6071 Dominik Scherer Andreas C Muller Sven Muller Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition Artificial Neural Networks ICANN 20th International Conference on Springer Thessaloniki Greece 2010 S 92 101 englisch uni bonn de PDF Josif Grabocka Stiftung Universitat Hildesheim Convolutional Neural Networks CNN Zoran Nikolic Universitat zu Koln Convolutional Neural Networks a b Yann LeCun LeNet 5 convolutional neural networks Abgerufen am 17 November 2016 P Mazzoni R A Andersen M I Jordan A more biologically plausible learning rule than backpropagation applied to a network model of cortical area 7a In Cerebral cortex Band 1 Nummer 4 1991 Jul Aug S 293 307 doi 10 1093 cercor 1 4 293 PMID 1822737 a b Yoshua Bengio Towards Biologically Plausible Deep Learning Februar 2015 arxiv 1502 04156v3 englisch Haiguang Wen Neural Encoding and Decoding with Deep Learning for Dynamic Natural Vision August 2016 arxiv 1608 03425 englisch Sandy Wiraatmadja Modeling the Visual Word Form Area Using a Deep Convolutional Neural Network PDF Abgerufen am 17 September 2017 englisch J G Daugman Uncertainty relation for resolution in space spatial frequency and orientation optimized by two dimensional visual cortical filters In Journal of the Optical Society of America A 2 7 1160 1169 July 1985 S Marcelja Mathematical description of the responses of simple cortical cells In Journal of the Optical Society of America Band 70 Nr 11 1980 S 1297 1300 doi 10 1364 JOSA 70 001297 ImageNet Classification with Deep Convolutional Neural Networks A Krizhevsky I Sutskever and G E Hinton PDF 1 4 MB The Independent Components of Scenes are Edge Filters PDF 1 3 MB A Bell T Sejnowski 1997 abgerufen am 17 November 2016 ImageNet Classification with Deep Convolutional Neural Networks PDF 1 4 MB Dan Ciresan Ueli Meier Jurgen Schmidhuber Multi column deep neural networks for image classification In 2012 IEEE Conference on Computer Vision and Pattern Recognition Institute of Electrical and Electronics Engineers IEEE New York NY Juni 2012 S 3642 3649 doi 10 1109 CVPR 2012 6248110 arxiv 1202 2745v1 Online abgerufen am 9 Dezember 2013 ILSVRC 2016 Results Improving multiview face detection with multi task deep convolutional neural networks A Deep Architecture for Semantic Parsing Abgerufen am 17 November 2016 englisch Learning Semantic Representations Using Convolutional Neural Networks for Web Search Microsoft Research In research microsoft com Abgerufen am 17 November 2016 englisch A Convolutional Neural Network for Modelling Sentences 17 November 2016 abgerufen im 1 Januar 1 englisch Convolutional Neural Networks for Sentence Classification Abgerufen am 17 November 2016 englisch Natural Language Processing almost from Scratch Abgerufen am 17 November 2016 englisch heise online Maschinelle Ubersetzer DeepL macht Google Translate Konkurrenz 29 August 2017 abgerufen am 18 September 2017 Volodymyr Mnih Koray Kavukcuoglu David Silver Andrei A Rusu Joel Veness Human level control through deep reinforcement learning In Nature Band 518 Nr 7540 Februar 2015 ISSN 0028 0836 S 529 533 doi 10 1038 nature14236 Rani G E Venkatesh E Balaji K Yugandher B Kumar A N amp SakthiMohan M 2022 April An automated prediction of crop and fertilizer disease using Convolutional Neural Networks CNN In 2022 2nd International Conference on Advance Computing and Innovative Technologies in Engineering ICACITE pp 1990 1993 IEEE Sethy P K Barpanda N K Rath A K amp Behera S K 2020 Nitrogen deficiency prediction of rice crop based on convolutional neural network Journal of Ambient Intelligence and Humanized Computing 11 11 5703 5711 Abgerufen von https de wikipedia org w index php title Convolutional Neural Network amp oldid 234475057