www.wikidata.de-de.nina.az
Ein Sprachmodell A 1 englisch language model ist ein mathematisches Modell das die Abfolge von Elementen in einer Sequenz zum Beispiel von Buchstaben oder Wortern in naturlichsprachlichen Texten modelliert meist in Form eines stochastischen Prozesses Sprachmodelle spielen eine zentrale Rolle in der modernen Computerlinguistik und sind eine entscheidende Komponente dortiger Praxisanwendungen etwa zur maschinellen Ubersetzung oder Spracherkennung 1 2 Auch ChatGPT ist ein Sprachmodell Inhaltsverzeichnis 1 Mathematische Beschreibung 1 1 N Gramme 1 2 Neuronale Sprachmodelle 2 Generierung mit Sprachmodellen 3 Sprachmodelle und kunstliche Intelligenz 4 Literatur 5 Einzelnachweise 6 AnmerkungenMathematische Beschreibung BearbeitenSprachmodelle modellieren Sequenzen zum Beispiel Satze als Abfolgen von Elementen zum Beispiel Buchstaben oder Wortern In stochastischen Sprachmodellen sind diese Elemente Zufallsgrossen X 1 X 2 displaystyle X 1 X 2 ldots nbsp und bilden einen zeitdiskreten stochastischen Prozess Um dasselbe Modell fur Sequenzen unterschiedlicher Lange n displaystyle n nbsp einsetzen zu konnen werden ihr Beginn und ihr Ende typischerweise durch zusatzliche Zufallsgrossen X 0 displaystyle X 0 nbsp und X n 1 displaystyle X n 1 nbsp markiert die einen speziellen Wert mogliche Notation displaystyle bot nbsp annehmen Die Wahrscheinlichkeit einer konkreten Sequenz w 1 w n displaystyle w 1 ldots w n nbsp lasst sich dann formulieren als die Wahrscheinlichkeit der Konjunktion P X 0 X 1 w 1 X n w n X n 1 displaystyle P left X 0 bot wedge X 1 w 1 wedge cdots wedge X n w n wedge X n 1 bot right nbsp Eine haufige Kurzschreibweise A 2 fur diese Wahrscheinlichkeit lautet P w 1 w n displaystyle P left bot w 1 ldots w n bot right nbsp Nach dem Gesetz der totalen Wahrscheinlichkeit lasst sich diese Wahrscheinlichkeit auch so schreiben P X 0 X 1 w 1 X n w n X n 1 P X 0 P X 1 w 1 X 0 P X 2 w 2 X 0 X 1 w 1 P X n w n X 0 X 1 w 1 X n 1 w n 1 P X n 1 X 0 X 1 w 1 X n w n displaystyle begin alignedat 3 amp P left X 0 bot wedge X 1 w 1 wedge cdots wedge X n w n wedge X n 1 bot right amp amp amp amp P left X 0 bot right amp amp amp amp cdot amp P left X 1 w 1 mid X 0 bot right amp amp amp amp cdot amp P left X 2 w 2 mid X 0 bot wedge X 1 w 1 right amp amp amp amp amp vdots amp amp amp amp cdot amp P left X n w n mid X 0 bot wedge X 1 w 1 wedge cdots wedge X n 1 w n 1 right amp amp amp amp cdot amp P left X n 1 bot mid X 0 bot wedge X 1 w 1 wedge cdots wedge X n w n right text end alignedat nbsp Oder kurz P w 1 w n P P w 1 P w 2 w 1 P w n w 1 w n 1 P w 1 w n displaystyle P left bot w 1 ldots w n bot right P left bot right cdot P left w 1 mid bot right cdot P left w 2 mid bot w 1 right cdot cdots cdot P left w n mid bot w 1 ldots w n 1 right cdot P left bot mid bot w 1 ldots w n right nbsp In Worten Die Wahrscheinlichkeit der Sequenz ist das Produkt der Wahrscheinlichkeiten fur das jeweils nachste Element gegeben die bisherigen Elemente Da in der Modellierung fur X 0 displaystyle X 0 nbsp stets der Wert displaystyle bot nbsp verwendet wird X 0 displaystyle X 0 bot nbsp fast sicher gilt P X 0 1 displaystyle P left X 0 bot right 1 nbsp Der entsprechende Faktor kann daher entfallen Unterschiedliche Arten stochastischer Sprachmodelle unterscheiden sich darin wie sie die bedingten Wahrscheinlichkeiten P w i w 1 w i 1 displaystyle P left w i mid bot w 1 ldots w i 1 right nbsp modellieren Der Fall w i displaystyle w i bot nbsp wird dabei haufig nicht gesondert betrachtet sondern so getan als ob auch displaystyle bot nbsp ein gultiges Sequenzelement zum Beispiel ein Wort ware N Gramme Bearbeiten Hauptartikel N Gramm Die Modellierung der bedingten Wahrscheinlichkeiten P w i w 1 w i 1 displaystyle P left w i mid bot w 1 ldots w i 1 right nbsp muss mit beliebig langen Sequenzen w 1 w i 1 displaystyle w 1 ldots w i 1 nbsp im Bedingungsteil umgehen konnen i displaystyle i nbsp kann beliebig gross sein Es stehen aber nur endlich viele Modellparameter zur Verfugung Ein klassischer Umgang damit ist die Markov Annahme englisch markov assumption laut der die Wahrscheinlichkeit des nachsten Elements nur von einer begrenzten Anzahl N displaystyle N nbsp unmittelbar vorhergehender Elemente abhangt 3 Markow Kette N displaystyle N nbsp ter Ordnung Die Wahrscheinlichkeit dass w i displaystyle w i nbsp auf w 1 w i 1 displaystyle bot w 1 ldots w i 1 nbsp folgt hangt fur i N displaystyle i geq N nbsp also nur von w i N 1 w i 1 displaystyle w i N 1 ldots w i 1 nbsp ab A 3 P w i w 1 w i 1 P w i w i N 1 w i 1 displaystyle P left w i mid bot w 1 ldots w i 1 right P left w i mid w i N 1 ldots w i 1 right nbsp Die N displaystyle N nbsp Tupel w i N 1 w i displaystyle left w i N 1 ldots w i right nbsp werden N displaystyle N nbsp Gramme genannt Fur i lt N displaystyle i lt N nbsp ergibt sich keine Vereinfachung der bedingten Wahrscheinlichkeit sie hangt vom kompletten Prafix w 1 w i 1 displaystyle bot w 1 ldots w i 1 nbsp ab Um auch diesen Fall mit N displaystyle N nbsp Grammen w i N 1 w i displaystyle left w i N 1 ldots w i right nbsp abdecken zu konnen definiert man haufig w k displaystyle w k bot nbsp fur k 0 displaystyle k leq 0 nbsp Die Modellparameter sind dann die bedingten Wahrscheinlichkeiten P w N w 1 w N 1 displaystyle P left w N mid w 1 ldots w N 1 right nbsp fur alle N displaystyle N nbsp Gramme w 1 w N displaystyle left w 1 ldots w N right nbsp die sich leicht als relative Haufigkeiten aus Textkorpora abschatzen lassen Vor allem fur grosse N displaystyle N nbsp konnen bestimmte N displaystyle N nbsp Gramme aber so selten sein dass sie in einem betrachteten Korpus uberhaupt nicht vorkommen Beispiel das 8 Gramm Buffalo buffalo Buffalo buffalo buffalo buffalo Buffalo buffalo Ein Grossteil der Forschung zu N displaystyle N nbsp Grammen hat sich daher mit Techniken im Englischen smoothing techniques genannt beschaftigt mit denen positive Wahrscheinlichkeiten auch fur solche unbeobachteten N displaystyle N nbsp Gramme geschatzt werden konnen 4 5 2 Obwohl naturliche Sprache die Markov Annahme im Allgemeinen nicht erfullt liefern bereits relativ kleine N displaystyle N nbsp gute Sprachmodelle N displaystyle N nbsp Gramme waren jahrzehntelang der dominierende Ansatz zur Sprachmodellierung 3 Neuronale Sprachmodelle Bearbeiten In neuronalen Sprachmodellen werden die Wahrscheinlichkeiten P w i w 1 w i 1 displaystyle P left w i mid bot w 1 ldots w i 1 right nbsp von kunstlichen neuronalen Netzen berechnet Statt Wahrscheinlichkeiten direkt abzuschatzen werden also Parameter Gewichte des Netzes geschatzt Die Berechnungsstruktur kann etwa durch Verwendung von Softmax als Aktivierungsfunktion der letzten Schicht so vorgegeben werden dass Nullwahrscheinlichkeiten ausgeschlossen sind Auch neuronalen Sprachmodellen kann die Markov Annahme zugrunde liegen Ein Ansatz Wahrscheinlichkeiten von Trigrammen 3 Grammen nicht direkt aus einem Korpus zu schatzen sondern von einem neuronalen Netzwerk berechnen zu lassen findet sich bereits 1988 6 In einer neueren Architektur von Bengio et al 2003 gibt es fur jedes Element Wort und auch fur den Start und Endmarker je einen Parametervektor zur Berechnung werden die Vektoren der N 1 displaystyle N 1 nbsp Worter aus dem Bedingungsteil w i N 1 w i 1 displaystyle w i N 1 ldots w i 1 nbsp konkateniert und uber eine oder mehrere Netzwerkschichten englisch hidden layers in eine Wahrscheinlichkeitsverteilung fur das nachste Wort w i displaystyle w i nbsp transformiert Sowohl die Komponenten der Vektoren fur die Worter als auch die Gewichte der Netzwerkschichten werden als Modellparameter geschatzt 7 8 Die Wahrscheinlichkeiten P w i w 1 w i 1 displaystyle P left w i mid bot w 1 ldots w i 1 right nbsp werden also mit einer Formel der Berechnungsvorschrift des neuronalen Netzes berechnet statt aus einer Tabelle zum Beispiel ausgezahlter relativer Haufigkeiten abgelesen zu werden Vorteile dieser Modellierung gegenuber gewohnlichen N displaystyle N nbsp Grammen sind 9 8 Das Modell kann deutlich weniger Parameter haben Die Anzahl der N displaystyle N nbsp Gramme uber einem Vokabular zum Beispiel Menge aller vorkommenden Worter inklusive Start und Endmarker der Grosse k displaystyle k nbsp betragt k N displaystyle k N nbsp Ein kunstliches neuronales Netz der beschriebenen Form kann schon mit k 2 d displaystyle k 2 d nbsp Parametern auskommen wobei d displaystyle d nbsp die Dimension der Parametervektoren fur die Worter ist Das Modell kann uber die Parametervektoren jedes einzelnen Wortes Worter zusammenfassen die ahnliche Auswirkungen auf die Wahrscheinlichkeit des folgenden Wortes haben Beispielsweise braucht keine eigene Wahrscheinlichkeit dafur gespeichert zu werden dass Auto auf blaues grunes rotes oder schwarzes folgt die Wahrscheinlichkeit ist jedes Mal ahnlich Das Modell kann uber die Gewichte der hidden layers verschiedenen Wortern unterschiedlich starken Einfluss auf die Wahrscheinlichkeit des folgenden Wortes zumessen beispielsweise nahere Worter starker gewichten als weiter entfernte Mithilfe rekurrenter neuronaler Netze wie LSTMs ist es sogar moglich auf die Markov Annahme zu verzichten Dabei wird die komplette Sequenz w 1 w i 1 displaystyle w 1 ldots w i 1 nbsp vom neuronalen Netz verarbeitet um die Wahrscheinlichkeitsverteilung fur das i displaystyle i nbsp te Wort zu berechnen Die Transformer Architektur 10 wurde speziell fur diese Aufgabe entwickelt Generierung mit Sprachmodellen BearbeitenStochastische Sprachmodelle berechnen Wahrscheinlichkeiten von Sequenzen als Produkt der bedingten Wahrscheinlichkeiten jedes einzelnen Elements gegeben die jeweils vorhergehenden Elemente Aus der so spezifizierten Wahrscheinlichkeitsverteilung konnen umgekehrt auch Sequenzen erzeugt werden englisch sampling Dazu wird zunachst das erste Element zum Beispiel das erste Wort in einem Satz w 1 displaystyle w 1 nbsp entsprechend der Verteilung w P X 1 w X 0 displaystyle w mapsto P left X 1 w mid X 0 bot right nbsp bestimmt Ist beispielsweise P X 1 Der X 0 1 2 P X 1 Die X 0 1 6 P X 1 Das X 0 1 3 displaystyle begin alignedat 2 amp P left X 1 text Der mid X 0 bot right amp amp frac 1 2 text amp P left X 1 text Die mid X 0 bot right amp amp frac 1 6 text amp P left X 1 text Das mid X 0 bot right amp amp frac 1 3 text end alignedat nbsp so wird mit Wahrscheinlichkeit 1 2 displaystyle frac 1 2 nbsp das Wort Der als erstes Wort gewahlt mit Wahrscheinlichkeit 1 6 displaystyle frac 1 6 nbsp das Wort Die und mit Wahrscheinlichkeit 1 3 displaystyle frac 1 3 nbsp das Wort Das Ist das erste Element Wort w 1 displaystyle w 1 nbsp gewahlt wird analog das zweite entsprechend der Verteilung w P X 2 w X 0 X 1 w 1 displaystyle w mapsto P left X 2 w mid X 0 bot wedge X 1 w 1 right nbsp bestimmt Wurde im obigen Beispiel etwa das Wort Die gewahlt so konnten diese Wahrscheinlichkeiten P X 2 Frau X 0 X 1 Die 1 10 P X 2 Sonne X 0 X 1 Die 1 9 P X 2 Huhn X 0 X 1 Die 1 100 displaystyle begin alignedat 2 amp P left X 2 text Frau mid X 0 bot wedge X 1 text Die right amp amp frac 1 10 text amp P left X 2 text Sonne mid X 0 bot wedge X 1 text Die right amp amp frac 1 9 text amp P left X 2 text Huhn mid X 0 bot wedge X 1 text Die right amp amp frac 1 100 amp vdots end alignedat nbsp lauten So wird sukzessive das jeweils nachste Element Wort bestimmt bis die Wahl auf den Endmarker displaystyle bot nbsp fallt dann endet die Sequenz 11 Mitunter wird das nachste Element nicht anhand der gesamten Wahrscheinlichkeitsverteilung bestimmt sondern es werden nur die k displaystyle k nbsp Elemente mit der hochsten Wahrscheinlichkeit betrachtet bzw nur die wahrscheinlichsten Elemente deren Wahrscheinlichkeit aufsummiert gerade noch p displaystyle p nbsp ergibt Diese Strategie nennt man Top k displaystyle k nbsp bzw Top p displaystyle p nbsp Sampling Sie ist vor allem dann von Vorteil wenn das Vokabular sehr gross ist bei linguistischen Sprachmodellen deren Elemente Worter sind meist der Fall weil ansonsten haufig recht unwahrscheinliche Worter ausgewahlt werden 12 k displaystyle k nbsp bzw p displaystyle p nbsp ist im Prinzip frei wahlbar und steuert die Balance zwischen Kreativitat und Koharenz je hoher der Wert desto kreativer konnen die Antworten sein ChatGPT nutzt das Top k displaystyle k nbsp Sampling 13 Wenn nicht irgendeine Sequenz erzeugt werden soll sondern ein Bezug zu Eingangsdaten gewunscht ist etwa bei der maschinellen Ubersetzung hier bestehen die Eingangsdaten aus dem zu ubersetzenden Text in der Ausgangssprache muss das Modell zusatzlich die Abhangigkeit von den Eingangsdaten ausdrucken Die zu modellierenden Wahrscheinlichkeiten haben dann nicht nur die Form P w i w 1 w i 1 displaystyle P left w i mid bot w 1 ldots w i 1 right nbsp sondern P w i w 1 w i 1 E e displaystyle P left w i mid bot w 1 ldots w i 1 wedge E e right nbsp fur Eingangsdaten e displaystyle e nbsp In neueren Architekturen wird das mitunter bewerkstelligt indem mit der Generierung der Ausgabesequenz nicht beim Startmarker displaystyle bot nbsp begonnen wird sondern als Fortsetzung einer Eingabesequenz getrennt durch ein weiteres spezielles Element mogliche Notation displaystyle nbsp 14 Soll beispielsweise der englische Satz Time flies like an arrow ins Deutsche ubersetzt werden so beginnt die Generierung der deutschen Ubersetzung als Fortfuhrung der Sequenz Time flies like an arrow displaystyle left bot text Time text flies text like text an text arrow right nbsp das erste Wort der deutschen Ausgabe richtet sich nach der Verteilung w P w Time flies like an arrow displaystyle w mapsto P left w mid bot text Time text flies text like text an text arrow right nbsp und so weiter Auch GPT Architekturen zur Sprachgenerierung auf denen unter anderem ChatGPT basiert nutzen diese Strategie 15 Sprachmodelle und kunstliche Intelligenz BearbeitenLaut Yoav Goldberg kann die Fahigkeit das nachste Wort nach einer vorgegebenen Folge von Wortern mit grosser Genauigkeit vorherzusagen als Indikator fur Intelligenz auf menschlichem Niveau gesehen werden da auch jedes Prafix der Form Die Antwort auf Frage X ist vervollstandigt werden konnen musse und die Losung dieser Aufgabe daher nicht nur Ausnutzung linguistischer Regularitaten sondern auch eine grosse Menge an Weltwissen erfordere 16 Literatur BearbeitenYoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 105 114 doi 10 2200 S00762ED1V01Y201703HLT037 englisch Michael Collins Language Modeling Course notes for NLP Columbia University 2013 englisch columbia edu PDF 203 kB Einzelnachweise Bearbeiten Yoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 105 doi 10 2200 S00762ED1V01Y201703HLT037 englisch a b Stanley Chen Joshua Goodman An Empirical Study of Smoothing Techniques for Language Modeling In Aravind Joshi Martha Palmer Hrsg Proceedings of the 34th Annual Meeting of the ACL Juni 1996 englisch arxiv org PDF 227 kB a b Yoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 106 doi 10 2200 S00762ED1V01Y201703HLT037 englisch Yoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 107 doi 10 2200 S00762ED1V01Y201703HLT037 englisch Collins 2013 Abschnitt 1 4 Masami Nakamura Kiyohiro Shikano A study of English word category prediction based on neural networks In Journal of the Acoustical Society of America Band 84 Nr S1 1988 S 60 61 doi 10 1121 1 2026400 aip org PDF 842 kB Yoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 109 doi 10 2200 S00762ED1V01Y201703HLT037 englisch a b Yoshua Bengio Rejean Ducharme Pascal Vincent Christian Janvin A neural probabilistic language model In Journal of Machine Learning Research Band 3 2003 ISSN 1532 4435 S 1137 1155 doi 10 1007 10985687 6 neurips cc PDF 1 6 MB Yoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 109 doi 10 2200 S00762ED1V01Y201703HLT037 englisch Ashish Vaswani Noam Shazeer Niki Parmar Jakob Uszkoreit Llion Jones Aidan Gomez Lukasz Kaiser Illia Polosukhin Attention Is All You Need In 31st Conference on Neural Information Processing Systems 2017 neurips cc PDF 556 kB Yoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 112 doi 10 2200 S00762ED1V01Y201703HLT037 englisch Gerhard Paass Sven Giesselbach Pre trained Language Models In Foundation Models for Natural Language Processing Springer International Publishing Cham 2023 ISBN 978 3 03123189 6 S 19 78 hier S 41 doi 10 1007 978 3 031 23190 2 2 englisch Top k Sampling in ChatGPT 2 Mai 2023 abgerufen am 16 Juli 2023 deutsch Peter Liu Mohammad Saleh Etienne Pot Ben Goodrich Ryan Sepassi Lukasz Kaiser Noam Shazeer Generating Wikipedia by Summarizing Long Sequences 2018 S 5 doi 10 48550 arXiv 1801 10198 arxiv org PDF 1 2 MB Alec Radford Karthik Narasimhan Tim Salimans Ilya Sutskever Improving Language Understanding by Generative Pre Training 2018 S 4 openai com PDF 528 kB Yoav Goldberg Neural Network Methods for Natural Language Processing Graeme Hirst Hrsg Synthesis Lectures on Human Language Technologies Nr 37 Morgan amp Claypool Publishers 2017 ISBN 978 1 62705 295 5 Chapter 9 Language Modeling S 105 doi 10 2200 S00762ED1V01Y201703HLT037 englisch insbesondere Fussnote 2 Anmerkungen Bearbeiten Wie meistens in der modernen Informatik ist auch hier die englische Bezeichnung prasenter Die deutsche Bezeichnung Sprachmodell findet sich beispielhaft in Franziska Meyer Sprachmodelle im Natural Language Processing Seminararbeit an der Universitat Leipzig 2020 uni leipzig de PDF 344 kB Sina Schmitt Einfluss dynamischer Kontexterweiterungen auf die Schlussfolgerungsfahigkeiten neuronaler Sprachmodelle Bachelorarbeit am Karlsruher Institut fur Technologie 2021 archive org PDF 2 8 MB Alena Behrens Evaluation des Sprachmodells GPT 3 fur den Einsatz an der ZBW Leibniz Informationszentrum Wirtschaft Masterarbeit an der Technischen Hochschule Wildau 2022 kobv de PDF 3 3 MB so auch in Goldberg 2017 verwendet allerdings teilweise ohne Start und Endmarker der Startmarker ist dort ansonsten lt s gt statt displaystyle bot nbsp und der Endmarker lt s gt bei Collins 2013 heisst der Endmarker STOP Je nachdem ob w i displaystyle w i nbsp selbst mitgezahlt wird oder nicht kann es auch w i N w i 1 displaystyle w i N ldots w i 1 nbsp sein Dieser Artikel verwendet die bei N displaystyle N nbsp Grammen ubliche Konvention dass w i displaystyle w i nbsp mitgezahlt wird d h Unigramme 1 Gramme betrachten die Wahrscheinlichkeiten der Elemente vollig unabhangig von ihrem Kontext Abgerufen von https de wikipedia org w index php title Sprachmodell amp oldid 237737189