www.wikidata.de-de.nina.az
Long short term memory LSTM deutsch langes Kurzzeitgedachtnis ist in der Informatik eine Technik die zur Verbesserung der Entwicklung von kunstlicher Intelligenz wesentlich beigetragen hat Beim Trainieren von kunstlichen neuronalen Netzen werden Verfahren des Fehlersignalabstiegs genutzt die man sich wie die Suche eines Bergsteigers nach dem tiefsten Tal vorstellen kann Beim Deep Learning kann dies zu kurz greifen so wie ein vergesslicher Bergsteiger beim Abstieg im ersten besten Tal landet und sein Dorf in einem tieferen Tal nicht finden kann Das LSTM Verfahren lost dieses Problem indem es fur eine LSTM Zelle zur besseren Erinnerung drei Torsorten verwendet Ein Eingangstor Input Gate ein Merk und Vergesstor Forget Gate und ein Ausgangstor Output Gate LSTM ermoglicht auf diese Weise im Gegensatz zu herkommlichen rekurrenten neuronalen Netzen eine Art Erinnerung an fruhere Erfahrungen Ein Kurzzeitgedachtnis das lange anhalt weil das prinzipielle Verhalten des Netzes in den Gewichten kodiert ist 1997 wurden LSTM Netze von Sepp Hochreiter und Jurgen Schmidhuber in einer Veroffentlichung vorgestellt 1 und 1999 von Felix Gers Schmidhuber und Fred Cummins verbessert 2 Seit etwa 2016 feiert LSTM bedeutende Erfolge da seitdem grosse Datenmengen zum Training genutzt werden konnen weitere Verbesserungen der LSTM Technik durchgefuhrt wurden hinreichend leistungsfahige Rechner zur Verfugung stehen und Grafikprozessor Programmierung angewendet wird Neuronale Netze mit vielen Schichten sind extrem lernfahig LSTM sorgt dafur dass genau solche mehrschichtigen Netze gut funktionieren konnen Dies hat einen Durchbruch bei der kunstlichen Intelligenz ermoglicht Inhaltsverzeichnis 1 Verschwindender oder explodierender Gradient 2 Drei Gates und eine innere Zelle 3 Aufbau eines LSTM 4 Varianten und Alternativen 5 Erfolge 6 Literatur 7 Weblinks 8 EinzelnachweiseVerschwindender oder explodierender Gradient Bearbeiten nbsp Im ersten Schritt wird vorwarts ein Signal erzeugt roter Pfeil Dann wird grun als Fehlerjustierung ruckwarts die Gewichtung korrigiert Eine Moglichkeit kunstliche neuronale Netze zu trainieren ist die Fehlerruckfuhrung In der fruhen Trainingsphase macht ein Netz beispielsweise bei der Mustererkennung manches falsch Auf einem Bild mit Katze soll eine Katze erkannt werden und kein Hund Zur Korrektur des Fehlers werden die Ausloser der Abweichungen Fehler zwischen erzeugter Zuordnung Hund und Losungszuordnung Katze zuruckverfolgt und wiederholt steuernde Faktoren Gewichte in den Schichten des Netzes jeweils so verandert dass die Zuordnungsfehler kleiner und kleiner werden Im sogenannten Gradientenverfahren wird dieser Fehler minimiert Die Zahlen in den steuernden Gewichten werden neu justiert Neuronale Netze bestehen aus hintereinandergeschalteten Modulen die klassischerweise jeweils nur eine einzige Aktivierungsfunktion besitzen die dafur sorgt dass die Ausgabe zwischen 0 und 1 liegt Bei jeder Fehlerkorrektur wird das Fehlersignal durch die Ableitung der Aktivierungsfunktion bestimmt Durch diese Ableitung wird die Abstiegssteigung und die Richtung bestimmt mit der das Fehlertal ermittelt wird Sepp Hochreiter erkannte 1991 dass dieses bis dahin ubliche Verfahren bei mehrschichtigen Netzen ungeeignet ist 3 Je weiter namlich der Fehler im Prozess von hinten nach vorne gesehen berechnet wird desto ofter wird der Skalierungsfaktor mit dem Fehlerterm multipliziert Wenn der Faktor hier der Spektralradius einer Gewichtsmatrix stets kleiner als 1 ist verschwindet der Fehler und fuhrt zu ineffektiven Gewichtsaktualisierungen Denn wenn Zahlen zwischen 0 und 1 miteinander multipliziert werden so ist das Produkt kleiner als der kleinere der beiden Faktoren Ein ursprunglich hoher Wert verschwindet also auf lange Sicht Wenn die Faktoren andererseits grosser als 1 waren wurde der Fehlerwert auf die Dauer explodieren Die Module in der Mitte des Netzes sogenannte Hidden Layer die der Eingabeschicht naher sind als der Ausgabeschicht werden also bei der ruckwarts berechneten Fehlerjustierung zu wenig berucksichtigt Das fuhrt dazu dass sie kaum trainiert werden so als wenn beim Fussball nur die Sturmer dazulernen wenn es um das Toreschiessen geht nicht jedoch die Mittelfeldspieler oder Verteidiger Drei Gates und eine innere Zelle BearbeitenUm dieses Problem zu losen wurde ein LSTM Modul entworfen das einen relativ konstanten und anwendbaren Fehlerfluss ermoglicht 1 Man schaut sich genau an welche Informationen in die innere Zelle hineinlaufen und hinauslaufen sollen Das LSTM hat die Fahigkeit Informationen zum Zellzustand zu entfernen oder hinzuzufugen sorgfaltig reguliert durch Strukturen die Tore oder Gates genannt werden LSTM Module sind zwar ebenso wie herkommliche Module kettenartig hintereinandergeschaltet aber sie haben intern eine andere Struktur Die zusatzlichen Gates sind eine Moglichkeit Informationen optional durchzulassen Statt einer einzigen neuronalen Funktion im LSTM Modul gibt es vier die auf eine ganz besondere Art und Weise miteinander interagieren Ein LSTM Modul enthalt die genannten drei Gates und eine innere Zelle Kurz gesagt steuert das Input Gate das Ausmass in dem ein neuer Wert in die Zelle fliesst das Forget Gate das Ausmass in dem ein Wert in der Zelle verbleibt bzw vergessen wird 4 5 und das Output Gate das Ausmass in dem der Wert in der Zelle zur Berechnung fur das nachste Modul der Kette verwendet wird Diese Netzelemente werden mit sigmoiden neuronalen Funktionen und diversen Vektor und Matrixoperationen verbunden und ineinander uberfuhrt Aufbau eines LSTM Bearbeiten nbsp Grober Aufbau eines LSTM Moduls mit der inneren Zelle im Zentrum Die displaystyle bigotimes nbsp Symbole reprasentieren hier den Faltungsoperator Die grossen Kreise mit S artiger Kurve sind die Sigmoidfunktionen Die Pfeile die von der Zelle jeweils zu den Gates zeigen sind die Gucklochinformationen vom letzten Durchlauf Es gibt verschiedene Arten von LSTM Architekturen Ublich ist besonders bei der Bildverarbeitung das convolutionale LSTM Netz das hier skizziert wird 6 Es unterscheidet sich vom blossen Peephole LSTM das die Matrixmultiplikation verwendet dadurch dass die Aktivitat jedes Neurons uber eine diskrete Faltung daher der Zusatz convolutional berechnet wird Intuitiv wird dabei schrittweise eine vergleichsweise kleine Faltungsmatrix Filterkernel uber das Inputbild bewegt Guckloch Peephole heissen diese Netze weil die Gates den Zellstatus sehen konnen also auch die Informationen aus der Zelle verarbeiten Index t ist jeweils der aktuelle Durchlauf t 1 bezeichnet den vorherigen Durchlauf d und e sind jeweils die Anzahlen der Spalten und Zeilen von Vektoren und Matrizen Der Datenfluss zwischen den verschiedenen Gates und ihrer inneren Zelle ist durch Vektor und Matrizenoperationen bestimmt Zunachst wird hier die mathematische Struktur des Forget Gates beschrieben f t displaystyle f t nbsp ist der dazugehorende e stellige Aktivierungsvektor f t s g W f x t U f h t 1 V f c t 1 b f displaystyle begin aligned f t amp sigma g W f x t U f h t 1 V f circ c t 1 b f end aligned nbsp x t displaystyle x t nbsp ist der d stellige Inputvektor In der Kette aufeinander folgender Neuronen ist er zusammen mit dem Outputvektor h t 1 displaystyle h t 1 nbsp des vorigen Durchlaufs die Schnittstelle zum vorher in der Kette agierenden Neuron Die drei e displaystyle times nbsp d stelligen Gewichtsmatrizen weight matrices W U V displaystyle W U V nbsp bilden den wertvollen Teil jedes Netzes weil sie das Trainingswissen enthalten b displaystyle b nbsp ist der Bias Vektor Wenn kein starker Input von anderen Einheiten erfolgt dann stellt das Bias sicher dass die Einheit bei starkem Gewicht aktiv bleibt und bei schwachem inaktiv s g displaystyle sigma g nbsp stellt eine Sigmoidfunktion der Gates dar die nichtlinear Werte zwischen 0 und 1 aus dem Ganzen bildet Es gibt hier drei verschiedene Arten von Matrizenoperatoren Matrizenaddition displaystyle circ nbsp Hadamard Produkt fur die Gucklochinformationen des vorigen Durchlaufs displaystyle nbsp Matrizenmultiplikation Diese formelhaften Darstellungen erscheinen zwar kompliziert aber das tatsachliche Rechnen ubernehmen die jeweiligen Programmbibliotheken der Anbieter fur KI Die Aktivierungsvektoren des Input Gates i t displaystyle i t nbsp und des Output Gates o t displaystyle o t nbsp entsprechen beide dem Aufbau des Forget Gate Vektors f t displaystyle f t nbsp i t s g W i x t U i h t 1 V i c t 1 b i o t s g W o x t U o h t 1 V o c t 1 b o displaystyle begin aligned i t amp sigma g W i x t U i h t 1 V i circ c t 1 b i o t amp sigma g W o x t U o h t 1 V o circ c t 1 b o end aligned nbsp Der Zellzustand ist so etwas wie ein Forderband Die Information verlauft geradlinig uber die gesamte Kette mit nur geringen linearen Wechselwirkungen Die innere Zelle mit dem Zellstatusvektor c t displaystyle c t nbsp hat folgenden Aufbau c t f t c t 1 i t s c W c x t U c h t 1 b c displaystyle begin aligned c t amp f t circ c t 1 i t circ sigma c W c x t U c h t 1 b c end aligned nbsp Fur die Sigmoidfunktionen s c displaystyle sigma c nbsp und s h displaystyle sigma h nbsp wird ublicherweise der hyperbolische Tangens auch tanh verwendet h t 1 displaystyle h t 1 nbsp ist der Outputvektor des vorigen Durchlaufs nicht im groben Schaubild zu sehen Die Anfangswerte fur c 0 displaystyle c 0 nbsp und h 0 displaystyle h 0 nbsp werden jeweils mit Nullvektoren initialisiert Der Outputvektor berechnet sich folgendermassen h t o t s h c t displaystyle begin aligned h t amp o t circ sigma h c t end aligned nbsp Varianten und Alternativen BearbeitenBevor LSTMs sich allgemein durchsetzten wurden verzogerte Netze sogenannte Time Delay Neural Networks verwendet spater Hidden Markov Models Seit ihren Anfangen kamen immer mehr Varianten des LSTM hinzu Wie oben beschrieben wurde zusatzlich das Forget Gate und die Peepholetechnik entwickelt sowie die Faltungstechnik LSTM Netze werden insbesondere in der Spracherkennung fur die Klassifikation von Phonemen eingesetzt Die erste Arbeit die sich mit der Klassifikation von Phonemen mittels LSTM befasst wurde 2005 von Alex Graves und seinem Betreuer Schmidhuber veroffentlicht 7 Seit 2007 wurde LSTM fur die Analyse und Erkennung kontinuierlicher Sprache eingesetzt 8 9 Forscher wie Hasim Sak 10 und Wojciech Zaremba 11 arbeiteten LSTM Techniken fur die akustische Modellierung und die Spracherkennung weiter aus Als Alternative zu LSTM wurden 2014 von Kyunghyun Cho und seinem Team Gated Recurrent Units entwickelt 12 Diese werden besonders bei der Musikmodellierung eingesetzt Sie kombinieren das Forget Gate und das Input Gate zu einem einzigen Update Gate Das resultierende Modell ist einfacher als herkommliche LSTM Modelle und die Gates werden auf eine andere Art angeordnet Rupesh Kumar Srivastava Klaus Greff und ihr Betreuer Schmidhuber schufen unter Verwendung der LSTM Prinzipien 1 das Highway network ein kunstliches neuronales Netz mit Hunderten von Schichten das somit viel tiefer war als fruhere vorwartsgerichtete Netzwerke 13 14 Sieben Monate spater gewannen Kaiming He Xiangyu Zhang Shaoqing Ren und Jian Sun den ImageNet 2015 Wettbewerb mit einer Highway Network Variante namens Residual Network ResNet 15 Letzteres wurde zum meistzitierten neuronalen Netz des 21 Jahrhunderts 16 Erfolge BearbeitenIn den Jahren nach 2010 verbesserte sich die technische Situation fur LSTM ausserordentlich Die Einfuhrung von Big Data stellte riesige Mengen von Daten zum Trainieren der Netze zur Verfugung Der Boom von grafisch aufwendigeren Computerspielen fuhrte zu immer besseren und gunstigeren Grafikkarten Auf diesen Grafikkarten konnen fur die Grafikberechnungen sehr viele Matrixmultiplikationen gleichzeitig durchgefuhrt werden Genau das braucht man fur KI und LSTM Schnelle GPU Implementierungen dieser Kombination wurden 2011 durch Dan Ciresan und Kollegen in Schmidhubers Gruppe eingefuhrt 17 Sie gewannen seither zahlreiche Wettbewerbe u a die ISBI 2012 Segmentation of Neuronal Structures in Electron Microscopy Stacks Challenge 18 und den ICPR 2012 Contest on Mitosis Detection in Breast Cancer Histological Images 19 Google entwickelte alternativ zum Grafikprozessor Tensor Processing Units um Anwendungen im Rahmen von maschinellem Lernen zu beschleunigen Sie werden unter anderem angewendet um effektiv LSTMs zu verarbeiten Seit etwa 2016 setzen grosse Technologieunternehmen wie Google Apple und Microsoft LSTM als grundlegende Komponente fur neue Produkte ein So verwendete Google beispielsweise LSTM fur die Spracherkennung auf dem Smartphone 20 fur den Smart Assistant Allo 21 und fur Google Translate Apple verwendet LSTM fur die Quicktype Funktion auf dem iPhone und fur Siri 22 Amazon verwendet LSTM fur Amazon Alexa 23 LSTM wird heutzutage auch in der Landwirtschaft eingesetzt z B um die Auswirkungen von Dungung vorherzusagen und Dungungsempfehlungen abzugeben 24 25 Es gibt unzahlige weitere LSTM Anwendungen Laut Google Scholar wurde LSTM allein im Jahre 2021 uber 16000 mal zitiert Dies spiegelt u a zahlreiche Anwendungen in der Medizin und im Gesundheitswesen wider 26 Literatur BearbeitenRamon Wartala Praxiseinstieg Deep Learning Mit Python Caffe TensorFlow und Spark eigene Deep Learning Anwendungen erstellen Heidelberg 2018 ISBN 978 3 96009 054 0 Weblinks BearbeitenBlog von Christopher Olah uber LSTM Recurrent Neural Networks mit uber 30 LSTM Beitragen von Jurgen Schmidhubers Team am IDSIA Olusola Adeniyi Abidogun Fraud detection paper mit zwei Kapiteln die speziell LSTM behandeln Lernhilfe wie man LSTM in Python mit Theano einrichtetEinzelnachweise Bearbeiten a b c Sepp Hochreiter Jurgen Schmidhuber Long Short Term Memory In Neural Computation 9 Jahrgang Nr 8 1 November 1997 ISSN 0899 7667 S 1735 1780 doi 10 1162 neco 1997 9 8 1735 PMID 9377276 englisch Felix Gers Jurgen Schmidhuber Fred Cummins 9th International Conference on Artificial Neural Networks ICANN 99 Band 1999 1999 ISBN 0 85296 721 7 Learning to forget Continual prediction with LSTM S 850 855 doi 10 1049 cp 19991218 Sepp Hochreiter Untersuchungen zu dynamischen neuronalen Netzen Diplomarbeit PDF Technische Universitat Munchen 1991 Betreuer J Schmidhuber Das Forget Gate wurde 2000 von Felix A Gers und Kollegen in einem Journal publiziert Felix A Gers Jurgen Schmidhuber Fred Cummins Learning to Forget Continual Prediction with LSTM In Neural Computation journal vol 12 issue 10 S 2451 2471 2000 online Felix Gers Dissertation uber LSTM Netze mit Forget Gate Xingjian Shi Zhourong Chen Hao Wang Dit Yan Yeung Wai kin Wong Wang chun Woo Convolutional LSTM Network A Machine Learning Approach for Precipitation Nowcasting In Proceedings of the 28th International Conference on Neural Information Processing Systems online S 802 810 2015 Alex Graves Jurgen Schmidhuber Framewise Phoneme Classification with Bidirectional LSTM Networks In Proc of IJCNN 2005 Montreal Canada pp 2047 2052 2005 online Santiago Fernandez Alex Graves Jurgen Schmidhuber An Application of Recurrent Neural Networks to Discriminative Keyword Spotting In Proceedings of the 17th International Conference on Artificial Neural Networks ICANN 07 Springer Verlag Berlin Heidelberg 2007 ISBN 978 3 540 74693 5 S 220 229 Online Martin Wollmer Florian Eyben Bjorn Schuller Gerhard Rigoll Recognition of Spontaneous Conversational Speech using Long Short Term Memory Phoneme Predictions In Proc of Interspeech 2010 ISCA pp 1946 1949 Makuhari Japan 2010 online Memento des Originals vom 17 Marz 2018 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot pdfs semanticscholar org Hasim Sak Andrew Senior Francoise Beaufays Long Short Term Memory Based Recurrent Neural Network Architectures for Large Vocabulary Speech Recognition arxiv 2014 Wojciech Zaremba Ilya Sutskever Oriol Vinyals Recurrent Neural Network Regularization arxiv 2014 2015 Cho Kyunghyun van Merrienboer Bart Gulcehre Caglar Bahdanau Dzmitry Bougares Fethi Schwenk Holger Bengio Yoshua Learning Phrase Representations using RNN Encoder Decoder for Statistical Machine Translation arxiv 2014 Rupesh Kumar Srivastava Klaus Greff Jurgen Schmidhuber Highway Networks arXiv TR 1505 00387 In arXiv 2 Mai 2015 arxiv 1505 00387 Rupesh K Srivastava Klaus Greff Juergen Schmidhuber Training Very Deep Networks In Advances in Neural Information Processing Systems 28 Band 28 Curran Associates Inc 2015 S 2377 2385 Online Kaiming He Xiangyu Zhang Shaoqing Ren Jian Sun 2016 IEEE Conference on Computer Vision and Pattern Recognition CVPR IEEE Las Vegas NV USA 2016 ISBN 978 1 4673 8851 1 Deep Residual Learning for Image Recognition S 770 778 doi 10 1109 CVPR 2016 90 arxiv 1512 03385 ieee org Jurgen Schmidhuber The most cited neural networks all build on work done in my labs In AI Blog 2021 abgerufen am 15 August 2022 englisch Dan C Ciresan U Meier J Masci L M Gambardella J Schmidhuber Flexible High Performance Convolutional Neural Networks for Image Classification International Joint Conference on Artificial Intelligence IJCAI 2011 Barcelona 2011 Dan Ciresan A Giusti L Gambardella J Schmidhuber Deep Neural Networks Segment Neuronal Membranes in Electron Microscopy Images In Advances in Neural Information Processing Systems NIPS 2012 Lake Tahoe 2012 Dan Ciresan A Giusti L Gambardella J Schmidhuber Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks MICCAI 2013 Francoise Beaufays The neural networks behind Google Voice transcription In Research Blog 11 August 2015 abgerufen am 27 Juni 2017 amerikanisches Englisch Pranav Khaitan Chat Smarter with Allo In Research Blog 18 Mai 2016 abgerufen am 27 Juni 2017 amerikanisches Englisch Amir Efrati Apple s Machines Can Learn Too In The Information 13 Juni 2016 abgerufen am 27 Juni 2017 englisch Werner Vogels Bringing the Magic of Amazon AI and Alexa to Apps on AWS All Things Distributed In www allthingsdistributed com 30 November 2016 abgerufen am 27 Juni 2017 englisch Nie J Wang N Li J Wang K amp Wang H 2021 Meta learning prediction of physical and chemical properties of magnetized water and fertilizer based on LSTM Plant Methods 17 1 1 13 Baek S S Pyo J amp Chun J A 2020 Prediction of water level and water quality using a CNN LSTM combined deep learning approach Water 12 12 3399 Jurgen Schmidhuber The 2010s Our Decade of Deep Learning Outlook on the 2020s In AI Blog 2021 abgerufen am 30 April 2022 Abgerufen von https de wikipedia org w index php title Long short term memory amp oldid 236735231