www.wikidata.de-de.nina.az
Uberwachtes Lernen ist ein Teilgebiet des maschinellen Lernens Mit Lernen ist dabei die Fahigkeit einer kunstlichen Intelligenz gemeint Gesetzmassigkeiten nachzubilden Die Ergebnisse sind durch Naturgesetze oder Expertenwissen bekannt und werden benutzt um das System anzulernen Ein Lernalgorithmus versucht eine Hypothese zu finden die moglichst zielsichere Voraussagen trifft Unter Hypothese ist dabei eine Abbildung zu verstehen die jedem Eingabewert den vermuteten Ausgabewert zuordnet 1 Die Methode richtet sich also nach einer im Vorhinein festgelegten zu lernenden Ausgabe deren Ergebnisse bekannt sind Die Ergebnisse des Lernprozesses konnen mit den bekannten richtigen Ergebnissen verglichen also uberwacht werden 2 Liegen die Ergebnisse der Ausgabe in einer stetigen Verteilung vor deren Ergebnisse beliebige quantitative Werte eines vorgegebenen Wertebereiches annehmen kann spricht man meistens von einem Regressionsproblem 3 Ein Beispiel fur ein solches Regressionsproblem ist die Vorhersage der Preisentwicklung von Hausern auf Basis von bestimmten Variablen oder das Bestimmen des Alters einer Person aus anderen Informationen uber die Person Es geht demnach meistens um Vorhersagen 3 Liegen die Ergebnisse hingegen in diskreter Form vor bzw sind die Werte qualitativ spricht man von einem Klassifikationsproblem Ein Beispiel hierfur ist zu bestimmen ob es sich bei einer E Mail um Spam oder keinen Spam handelt 4 Dieser folgende Artikel beschreibt das Vorgehen bei der Implementierung von uberwachtem Lernen und stellt einige Methoden zur Losung von Regressionsproblemen respektive zur Losung von Klassifikationsproblemen vor Inhaltsverzeichnis 1 Definitionen 2 Vorgehen 3 Regressionsprobleme 3 1 Lineare Regression 3 2 Weitere Beispiele fur uberwachte Lernalgorithmen zur Losung von Regressionsproblemen 4 Klassifikationsprobleme 4 1 Logistische Regression 4 2 Perzeptron Algorithmus 4 3 Weitere Beispiele fur uberwachte Lernalgorithmen zur Klassifikation 5 Zu berucksichtigende Faktoren 5 1 Verzerrung Varianz Dilemma 5 2 Menge an Daten und Komplexitat der wahren Funktion 5 3 Ausnahmeerscheinungen in den Ausgabewerten 6 Siehe auch 7 EinzelnachweiseDefinitionen BearbeitenUm im folgenden mathematische Zusammenhange besser darstellen zu konnen werden folgende Definitionen verwendet 5 x i displaystyle x i nbsp Input Variablen auch erklarende Variablen genannt y i displaystyle y i nbsp Output Ziel Variablen auch erklarte Variablen genannt x i y i displaystyle x i y i nbsp Trainingspaar Trainingsbeispiel x i y i i 1 m displaystyle x i y i i 1 ldots m nbsp Datensatz der zum Lernen verwendet wird auch Lerndatensatz genannt h x displaystyle h x nbsp Die Hypothesenfunktion die vom Algorithmus gelernt werden soll um y displaystyle y nbsp moglichst genau zu approximierenVorgehen BearbeitenUm ein bestimmtes Problem mit uberwachtem Lernen zu losen muss man die folgenden Schritte durchfuhren Die Art der Trainingsbeispiele bestimmen Das heisst es muss zunachst bestimmt werden welche Art von Daten der Trainingsdatensatz enthalten soll Bei der Handschriftanalyse kann es sich z B um ein einzelnes handschriftliches Zeichen ein ganzes handschriftliches Wort oder eine ganze Zeile Handschrift handeln Eine Datenerhebung der vorangegangenen Auswahl entsprechend durchfuhren Es mussen sowohl die erklarenden Variablen als auch die erklarten Variablen erhoben werden Diese Erhebung kann von menschlichen Experten durch Messungen und andere Methoden vollzogen werden Die Genauigkeit der gelernten Funktion hangt stark davon ab wie die erklarenden Variablen dargestellt werden Typischerweise werden diese in einen Vektor transformiert der eine Reihe von Merkmalen enthalt die das Objekt beschreiben Die Anzahl der Features sollte nicht zu gross sein sie sollte aber genugend Informationen enthalten um die Ausgabe genau vorhersagen zu konnen Daraufhin muss die Struktur der gelernten Funktion und der dazugehorige Lernalgorithmus bestimmt werden Bei einem Regressionsproblem zum Beispiel sollte an dieser Stelle entschieden werden ob eine Funktion mit oder ohne Parameter besser geeignet ist um die Approximation durchzufuhren Anschliessend wird der Lernalgorithmus auf dem gesammelten Trainingsdatensatz ausgefuhrt Einige uberwachte Lernalgorithmen erfordern vom Anwender die Festlegung bestimmter Regelparameter Diese Parameter konnen entweder durch die Optimierung einer Teilmenge des Datensatzes Validierungsdatensatz genannt oder durch Kreuzvalidierung angepasst werden Als letztes muss die Genauigkeit der gelernten Funktion bestimmt werden Nach der Parametrierung und dem Erlernen der Parameter sollte die Leistung der resultierenden Funktion an einem Test Datensatz gemessen werden der vom Trainingsdatensatz getrennt ist Es steht eine breite Palette von uberwachten Lernalgorithmen zur Verfugung von denen jeder seine Starken und Schwachen hat Es gibt dabei keinen Lernalgorithmus der bei allen uberwachten Lernproblemen am besten funktioniert siehe No free Lunch Theoreme Im Folgenden werden sowohl fur Regressions als auch fur Klassifikationsprobleme die gelaufigsten Lernalgorithmen vorgestellt und weitere Algorithmen verlinkt Regressionsprobleme BearbeitenDas Ziel von uberwachtem Lernen im Falle von Regressionsproblemen ist meist auf Basis von bestimmten erklarenden Variablen wie Grosse oder Farbe eines Hauses etwas uber diesen Sachverhalt vorauszusagen Der Sachverhalt kann dabei grundlegend verschieden sein beispielsweise der Preis von Hausern in bestimmter Umgebung oder die Entwicklung des Preises einer Aktie am nachsten Tag Das Ziel ist es dementsprechend den Zusammenhang zwischen der erklarenden und der erklarten Variable anhand eines Trainingsdatensatzes zu erlernen und mit Hilfe dieses Zusammenhangs zukunftige Ereignisse die noch nicht bekannt sind vorherzusagen Ein Beispiel fur einen solchen Lernalgorithmus der Vorhersagen treffen kann ist die lineare Regression Lineare Regression Bearbeiten Die lineare Regression ist die gelaufigste Form zur Durchfuhrung einer Regression 3 Das dazu verwendete Modell ist linear in den Parametern wobei die abhangige Variable eine Funktion der unabhangigen Variablen ist 3 Bei der Regression sind die Ausgaben der unbekannten Funktion verrauscht fehlerbehaftet y h 8 x e displaystyle y h theta x varepsilon nbsp wobei h 8 x R displaystyle h theta x in mathbb R nbsp die unbekannte Funktion darstellt und e displaystyle varepsilon nbsp fur zufalliges Rauschen steht Die Erklarung fur das Rauschen liegt darin dass es zusatzliche verborgene Variablen gibt die unbeobachtbar sind 6 Hierzu wird die folgende Regressionsfunktion verwendet h 8 x 8 0 8 1 x 1 8 n x n displaystyle h theta x theta 0 theta 1 x 1 ldots theta n x n nbsp bzw in Vektorschreibweise h 8 x i 0 n 8 i x i 8 x displaystyle h theta x sum i 0 n theta i x i boldsymbol theta top mathbf x nbsp Die 8 i displaystyle theta i nbsp sind dabei die Parameter der Funktion und x displaystyle x nbsp ist der Vektor welcher die erklarenden Variablen enthalt Dementsprechend gewichten die Parameter die einzelnen erklarenden Variablen und werden deshalb auch oft als Regressionsgewichte bezeichnet Um nun aus den erklarenden Variablen eine moglichst genaue Annaherung an den Output y displaystyle y nbsp zu erhalten muss eine sogenannte Kostenfunktion aufgestellt werden Diese Funktion beschreibt die mittlere quadratische Abweichung die dadurch entsteht dass die Hypothesenfunktion die zu erklarende Variable y displaystyle y nbsp nur approximiert und nicht genau darstellt Insofern muss die Kostenfunktion welche durch die folgende Gleichung beschrieben wird J 8 1 m i 1 m h 8 x i y i 2 displaystyle J theta frac 1 m sum i 1 m h theta x i y i 2 nbsp angewendet werden um den Fehler der bei jeder Approximation von y displaystyle y nbsp gemacht wird zu berechnen Das Ziel ist es nun die Kostenfunktion zu minimieren Um die Funktion zu minimieren mussen die Parameter so gewahlt werden dass sie die jeweiligen x Werte richtig gewichten um dem gewunschten y Wert moglichst nahe zu kommen Das Minimum kann an dieser Stelle auf zwei verschiedene Weisen berechnet werden Eine Methode ist das sogenannte Gradientenverfahren Diese Methode umfasst folgende Schritte 7 Es werden beliebige Werte fur die Parameter gewahlt An diesem Punkt wird die Ableitung der Kostenfunktion gebildet und die steilste Steigung ermittelt Man geht diese Steigung in die negative Richtung entlang Dabei wird die Grosse der Schritte durch eine Lernrate bestimmt Dieser Prozess wird so lange wiederholt bis man am Minimum der Kostenfunktion angekommen ist Dies ist in der folgenden Gleichung fur ein einzelnes Beispiel dargestellt Alpha steht hierbei fur die Lernrate 8 j 8 j a y i h 8 x i x j i displaystyle theta j theta j alpha y i h theta x i x j i nbsp Diese Gleichung wird so oft wiederholt bis y i h x 0 displaystyle y i h x 0 nbsp bzw bis diese Differenz minimiert wurde und der Parameter somit seinen optimalen Wert gefunden hat Eine weitere Methode die verwendet werden kann sind die sogenannten Normalgleichungen siehe Multiple lineare Regression Mit dieser kann die Minimierung der Kostenfunktion explizit und ohne Ruckgriff auf einen iterativen Algorithmus durchgefuhrt werden indem die folgende Formel implementiert wird 8 X X 1 X y displaystyle mathbf theta mathbf X top mathbf X 1 mathbf X top mathbf y nbsp Diese Formel liefert uns die optimalen Werte der Parameter In der folgenden Tabelle 7 sind die Vor und Nachteile von Gradientenverfahren und der Normalgleichung dargestellt Gradientenverfahren NormalverteilungDie Lernrate Alpha muss festgelegt werden Es wird kein Alpha benotigtBenotigt viele Schritte und Wiederholungen Kommt ohne Wiederholungen ausFunktioniert gut auch bei vielen Daten Ab 10000 Beobachtungen wird die Berechnung langsam und die erforderte Rechenleistung sehr gross da die Inverse gebildet werden muss Weitere Beispiele fur uberwachte Lernalgorithmen zur Losung von Regressionsproblemen Bearbeiten Glattungs Splines Polynomiale Regression Regressions Splines Kunstliches neuronales NetzKlassifikationsprobleme BearbeitenIm Gegensatz zu Regressionsproblemen erkennt man Klassifikationsprobleme daran dass der Output y nur wenige diskrete Werte annehmen kann Meistens liegen diese Werte in qualitativer Form vor beispielsweise wenn es darum geht auf der Basis von mehreren erklarenden Variablen zu bestimmen ob es sich bei einer E Mail um Spam oder keinen Spam handelt In diesem Beispiel waren die erklarenden Variablen dann x i displaystyle x i nbsp und der Output y displaystyle y nbsp ware 1 wenn es sich um eine Spam E Mail handelt und 0 wenn keine Spam E Mail vorliegt Man unterscheidet zudem zwischen Binaren Klassifikationsproblemen und Klassifikationsproblemen bei denen multiple Klassen vorliegen Ein Beispiel hierfur ware zu klassifizieren von welcher von drei Marken ein gekauftes Produkt ist Die Klassen sind in diesem Fall Marke A B oder C Logistische Regression Bearbeiten Die gelaufigste Methode um Klassifikationsprobleme im uberwachten maschinellen Lernen zu bewaltigen ist die logistische Regression Obwohl es sich hier wie der Name sagt ebenfalls um eine Regression handelt ist sie sehr gut dafur geeignet einem Computer Programm die Losung von Klassifikationsproblemen beizubringen 7 Wie bereits an dem Beispiel zur Klassifikation von Spam E Mails erklart nimmt der Output entweder Werte von 1 oder 0 an Wurde man nun zur Losung dieses Klassifikationsproblems eine lineare Regression verwenden dann wurde man vermutlich viele Werte erhalten die uber 1 oder unter 0 liegen Die logistische Regression hingegen verwendet die Sigmoidfunktion gegeben durch folgende Gleichung g z exp z 1 exp z 1 1 exp z displaystyle g z frac exp z 1 exp z frac 1 1 exp z nbsp Dies lasst sich auf die Hypothesenfunktion folgendermassen anwenden h 8 x g 8 x 1 1 exp 8 x displaystyle h theta x g theta top x frac 1 1 exp boldsymbol theta top mathbf x nbsp Da g z immer Werte zwischen 0 und 1 liefert liegen auf diese Weise auch die Werte von h x displaystyle h x nbsp zwischen 0 und 1 Dies lasst sich im folgenden Graphen erkennen nbsp Die Werte der Sigmoid Funktion liegen immer zwischen 0 und 1 und werden im Kontext der logistischen Regression als Wahrscheinlichkeit fur die Zugehorigkeit zu einer bestimmten Klasse interpretiert Die Einteilung einer Beobachtung in eine bestimmte Klasse erfolgt folgendermassen g z 0 5 Y 1 displaystyle g z geq 0 5 Rightarrow Y 1 nbsp g z lt 0 5 Y 0 displaystyle g z lt 0 5 Rightarrow Y 0 nbsp Um nun eine moglichst akkurate Zuordnung der Inputs in die Zielklassen zu ermoglichen mussen die Parameter wie bei der linearen Regression optimiert werden Wir nehmen dazu den folgenden Zusammenhang an P y 1 x 8 h 8 x displaystyle P y 1 mid x theta h theta x nbsp P y 0 x 8 1 h 8 x displaystyle P y 0 mid x theta 1 h theta x nbsp Diese Gleichungen bedeuten dass die Wahrscheinlichkeit dass ein bestimmter Input der Klasse 1 angehort durch das Ergebnis der Hypothesenfunktion h x displaystyle h x nbsp gegeben ist Daraus folgt dass die allgemeine bedingte Wahrscheinlichkeit fur einen bestimmten Output y unter der Bedingung eines bestimmten Inputs x durch die folgende Funktion gegeben ist p y x 8 h 8 x y 1 h 8 x 1 y displaystyle p y mid x theta h theta x y 1 h theta x 1 y nbsp Multipliziert man diese Wahrscheinlichkeit nun fur alle Beobachtungen in dem Datensatz zusammen erhalt man die Formel fur die sogenannte Likelihood eines bestimmten Parameters L 8 p y X 8 displaystyle L theta p mathbf y mid X theta nbsp i 1 m p y i x i 8 displaystyle prod i 1 m p y i mid x i theta nbsp i 1 m h 8 x i y i 1 h 8 x i 1 y i displaystyle prod i 1 m h theta x i y i 1 h theta x i 1 y i nbsp Hat man bei der linearen Regression die mittlere quadratische Abweichung minimiert um die optimalen Werte fur die Parameter zu erhalten maximiert man bei der logistischen Regression die Likelihood Funktion um die optimalen Werte der Parameter zu erhalten Dieses Verfahren wird als Maximum Likelihood Methode bezeichnet Um die Maximierung zu erleichtern wird oft auch die Log Likelihood Funktion gebildet ℓ 8 log L 8 displaystyle ell theta log L theta nbsp i 1 m y i log h x i 1 y i log 1 h x i displaystyle sum i 1 m y i log h x i 1 y i log 1 h x i nbsp Von dieser Funktion muss nun die Steigung berechnet werden wozu der sogenannte gradient ascent verwendet wird Er funktioniert ahnlich wie das bei der linearen Regression angewendete Gradientenverfahren ausser dass er eine Addition anstatt einer Subtraktion durchfuhrt da die Log Likelihood Funktion maximiert und nicht minimiert werden soll Durch die folgende Gleichung erhalt man somit den optimierten Wert des Parameters 8 j 8 j a y i h 8 x i x j i displaystyle theta j theta j alpha y i h theta x i x j i nbsp Perzeptron Algorithmus Bearbeiten In den 1960er Jahren wurde der sogenannte Perzeptron Algorithmus entwickelt Er wurde entsprechend den Vorstellungen der damaligen Zeit uber die Funktionsweise des Gehirns aufgebaut 5 Der wesentliche Unterschied zwischen dem Perzepton Algorithmus und der logistischen Regression ist dass die Funktion h x displaystyle h x nbsp entweder den Wert 0 oder den Wert 1 annimmt aber nicht wie bei der logistischen Regression einen beliebigen Wert zwischen 0 und 1 5 Dies wird sichergestellt indem die Funktion g z displaystyle g z nbsp nicht wie bei der logistischen Regression mit Hilfe einer Sigmoid Funktion einen Wert zwischen 0 und 1 annimmt sondern entsprechend der Formeln g z 1 displaystyle g z 1 nbsp wenn z 0 displaystyle z geq 0 nbsp g z 0 displaystyle g z 0 nbsp wenn z lt 0 displaystyle z lt 0 nbsp entweder genau 0 oder genau 1 entspricht Es gilt weiterhin h 8 x g 8 x displaystyle h theta x g boldsymbol theta top mathbf x nbsp Und die Updating Regel ist ebenfalls beschrieben durch 8 j 8 j a y i h 8 x i x j i displaystyle theta j theta j alpha y i h theta x i x j i nbsp Diese Gleichung sieht sehr ahnlich aus zu den Lernprozessen der vorherigen Algorithmen Es muss jedoch beachtet werden dass durch die Definition von g z displaystyle g z nbsp Perzeptron einen nicht sonderlich fliessenden Lernprozess hat da der Fehler der entsteht wenn ein Input durch den Algorithmus falsch klassifiziert wird entweder wesentlich uberschatzt oder unterschatzt werden kann in dem h x displaystyle h x nbsp nur 1 oder 0 annehmen kann So wird beispielsweise wenn z 0 000 1 displaystyle z 0 0001 nbsp betragt sowie wenn z 100 displaystyle z 100 nbsp betragt in beiden Fallen die Klasse 0 vorhergesagt Gehoren die Beobachtungen allerdings in Wahrheit Klasse 1 an so werden die Parameter in beiden Fallen um den gleichen Wert angepasst 5 Weitere Beispiele fur uberwachte Lernalgorithmen zur Klassifikation Bearbeiten Bayes Klassifikator Naiver Bayes Klassifikator Nachste Nachbarn Klassifikation Diskriminanzanalyse Kunstliches neuronales Netz Gradient Boosted Trees Entscheidungsbaum Zu berucksichtigende Faktoren BearbeitenVerzerrung Varianz Dilemma Bearbeiten Hauptartikel Verzerrung Varianz Dilemma Bei uberwachtem Lernen kommt es oftmals zu einem Kompromiss zwischen Verzerrung und Varianz 8 Die Varianz bezieht sich auf den Betrag um den sich h x displaystyle h x nbsp verandern wurde wenn wir es mit Hilfe eines anderen Trainingsdatensatzes schatzen wurden Da die Trainingsdaten zur Anpassung an die statistische Lernmethode verwendet werden fuhren unterschiedliche Trainingsdatensatze zu unterschiedlichen h x displaystyle h x nbsp Im Idealfall sollte die Schatzung fur y displaystyle y nbsp jedoch nicht zu viel zwischen den Trainingssets variieren Hat eine Methode jedoch eine hohe Varianz dann konnen kleine Anderungen in den Trainingsdaten zu einer viel schlechteren Abbildung des Testdatensatzes fuhren Grundsatzlich haben flexiblere statistische Methoden eine hohere Varianz da sie den Trainingsdatensatz sehr gut abbilden dadurch aber viele Fehler machen wenn sie zuvor unbekannte Daten vorhersagen mussen 3 Auf der anderen Seite bezieht sich die Verzerrung auf den Fehler der durch die Annaherung an ein reales Problem das sehr kompliziert sein kann durch ein einfacheres Modell entstehen kann Zum Beispiel geht die lineare Regression davon aus dass ein Problem vorliegt das eine lineare Beziehung zwischen Y displaystyle Y nbsp und X 1 X 2 X p displaystyle X 1 X 2 ldots X p nbsp aufweist In der Realitat liegen jedoch selten Probleme vor die eine einfache lineare Beziehung aufweisen und so fuhrt die Durchfuhrung einer linearen Regression zweifellos zu einer gewissen Verzerrung zwischen h x displaystyle h x nbsp und y displaystyle y nbsp 3 Menge an Daten und Komplexitat der wahren Funktion Bearbeiten Die zweite Frage ist die Menge der verfugbaren Trainingsdaten in Relation zur Komplexitat der wahren Funktion Klassifikator oder Regressionsfunktion Wenn die wahre Funktion einfach ist dann kann ein unflexibler Lernalgorithmus mit hoher Verzerrung und geringer Varianz aus einer kleinen Datenmenge lernen Wenn die wahre Funktion jedoch sehr komplex ist z B weil sie komplexe Interaktionen zwischen vielen verschiedenen Eingabemerkmalen beinhaltet und sich in verschiedenen Teilen des Eingaberaums unterschiedlich verhalt dann wird die Funktion nur aus einer sehr grossen Menge von Trainingsdaten und unter Verwendung eines flexiblen Lernalgorithmus mit geringer Vorspannung und hoher Varianz erlernbar sein 3 Ausnahmeerscheinungen in den Ausgabewerten Bearbeiten Ein weiteres mogliches Problem sind sogenannte Ausreisser in den Zielwerten Wenn die Zielwerte y displaystyle y nbsp oft falsch sind aufgrund von menschlichen Fehlern oder Sensorfehlern dann sollte der Lernalgorithmus nicht versuchen eine Funktion zu finden die genau zu den Trainingsbeispielen passt Der Versuch die Daten zu sorgfaltig anzupassen fuhrt zu einer Uberanpassung Auch wenn keine Messfehler vorliegen kann es zu Fehlern kommen wenn die zu erlernende Funktion fur den gewahlten Lernalgorithmus zu komplex ist In einer solchen Situation kann ein Teil der Zielfunktion nicht modelliert werden wodurch die Trainingsdaten nicht korrekt abgebildet werden konnen Wenn eine der beiden Probleme vorliegt ist es besser mit einer starkeren Verzerrung und einer niedrigeren Varianz zu arbeiten In der Praxis gibt es mehrere Ansatze Probleme mit den Ausgabewerten zu verhindern wie z B fruhzeitiges Anhalten des Algorithmus zur Vermeidung von Uberanpassung sowie das Erkennen und Entfernen der Ausreisser vor dem Training des uberwachten Lernalgorithmus Es gibt mehrere Algorithmen die Ausreisser identifizieren und deren Entfernen ermoglichen 3 Siehe auch BearbeitenSelbstuberwachtes Lernen Unuberwachtes LernenEinzelnachweise Bearbeiten Rostamizadeh Afshin Talwalkar Ameet Foundations of machine learning MIT Press Cambridge MA 2012 ISBN 978 0 262 01825 8 Guido Sarah Rother Kristian Einfuhrung in Machine Learning mit Python Praxiswissen Data Science Heidelberg ISBN 978 3 96009 049 6 a b c d e f g h James Gareth Gareth Michael An introduction to statistical learning with applications in R New York NY ISBN 978 1 4614 7137 0 Alex Smola Introduction to Machine Learning Hrsg Cambridge University Press Cambridge 2008 ISBN 0 521 82583 0 a b c d Andrew Ng CS229 Lecture notes PDF Nicht mehr online verfugbar 2012 archiviert vom Original am 23 Juli 2013 abgerufen am 12 November 2017 nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot cs229 stanford edu Ethem Alpaydin Maschinelles Lernen 2 erweiterte Auflage De Gruyter Berlin 2019 ISBN 978 3 11 061789 4 abgerufen uber De Gruyter Online S 37 a b c Andrew Ng Introduction to Machine Learning Abgerufen am 12 November 2017 S Geman E Bienenstock and R Doursat Neural networks and the bias variance dilemma In Neural Computation Band 4 S 1 58 Abgerufen von https de wikipedia org w index php title Uberwachtes Lernen amp oldid 233213801