www.wikidata.de-de.nina.az
Reinforcement learning from human feedback RLHF deutsch Bestarkendes Lernen durch menschliche Ruckkopplung steht fur maschinelles Lernen bei dem ein Software Agent selbstandig eine Strategie Policy erlernt um erhaltene Belohnungen zu maximieren Dabei wird dem Agenten nicht vorgezeigt welche Aktion in welcher Situation die beste ist sondern er erhalt durch eine Bewertungseinheit zu bestimmten Zeitpunkten durch Ruckkopplung Feedback aus der Umwelt eine reellwertige Belohnung die auch negativ sein kann Im Gegensatz zum klassischen bestarkenden Lernen bestimmt zusatzlich eine Bewertungseinheit eine weitere Belohnung nach Uberprufen von Resultaten des Software Agents durch Personen welche das sogenannte Alignment 1 mit menschlicher Denkweise Erwartung und Wertvorstellung beurteilen 2 3 4 Das Unternehmen Open AI hat diese zusatzliche nachtragliche Feineinstellung mittels RLHF bei der Weiterentwicklung von ChatGPT Version 3 5 auf Version 4 0 eingefuhrt 5 Inhaltsverzeichnis 1 Ruckkopplungsverfahren 1 1 Direkte Ruckkopplung der einzelnen Bewertungsresultate 1 2 Indirekte Ruckkopplung der Bewertungsresultate 2 Vorteile gegenuber klassischem bestarkendem Lernen 3 Potentielle Nachteile und Herausforderungen 4 Siehe auch 5 Weblinks 6 EinzelnachweiseRuckkopplungsverfahren BearbeitenDem bereits durch bestarkendes Lernen mit umfassenden Daten trainierten Agent werden durch einen Tester mit gesundem Menschenverstand Common sense zu problematischen Themen Aufgaben gestellt Prompts Inputs Die Resultate Outputs werden durch den Tester nach einer Bewertungsskala beurteilt und in ein Bewertungsmodell eingefugt Die Resultate werden dem Agent mitgeteilt Der Agent berucksichtigt diese Ruckmeldungen bei kunftigen Aufgaben und verbessert derart die Resultate des Agents nach menschlichen Kriterien Direkte Ruckkopplung der einzelnen Bewertungsresultate Bearbeiten Die direkte Ruckkopplung einzelner Bewertungsresultate ist nicht optimal Dadurch konnte der Agent eine einzelne Antwort unmittelbar zu stark gewichten und darauf fixiert bleiben Eine langerfristig ausgerichtete Optimierung wurde so nicht erreicht Indirekte Ruckkopplung der Bewertungsresultate Bearbeiten Um eine langerfristig ausgerichtete Optimierung der Resultate und genugend Flexibilitat fur veranderte Anforderungen zu erreichen werden Testergebnisse kumuliert und vorverarbeitet bevor sie dem Agenten mitgeteilt werden Dies kann uber ein zusatzliches kunstliches neuronales Netz und oder zur Anpassung der Strategie uber Proximal Policy Optimization PPO 6 geschehen Vorteile gegenuber klassischem bestarkendem Lernen BearbeitenVerbesserte Leistung durch die Einbeziehung menschlicher Eingaben in den Lernprozess genauere schlussigere und kontextbezogenere Resultate generieren 7 Werkzeug zur Berucksichtigung schwer zu kalkulierender Werte wie Ethik Moral und Humor Unerwunschte gefahrliche oder verbotene Aussagen konnen blockiert werden 8 Minimieren von schadlichen unwahren und oder voreingenommenen Ergebnisse durch menschliche Ruckkopplung in der Trainingsschleife 2 Das Unternehmen Open AI hat 2023 das Projekt Superalignment ins Leben gerufen um mittels RLHF KI Halluzinationen des Systems ChatGPT zu minimieren 9 Anpassungsfahigkeit ermoglicht sich an neue Situationen anzupassen und die Leistung im Laufe der Zeit kontinuierlich zu verbessern 10 Potentielle Nachteile und Herausforderungen BearbeitenSkalierbarkeit und Kosten der menschlichen Interaktion Im Vergleich zum unuberwachten Lernen kann das Sammeln menschlicher Beurteilung langsam und teuer sein 11 Die Qualitat und Konsistenz der menschlichen Interaktion konnen je nach Aufgabe und individuellen Vorlieben der Menschen variieren Es konnen Vorurteile und unausgewogene Ansichten einfliessen 12 Herausforderungen beim Lernen eines Belohnungsmodells aus menschlicher Interaktion um Vorlieben der Menschen vorherzusagen wenn die Interaktion unvollstandig oder widerspruchlich ist Heikle Personendaten werden zu wenig sicher geschutzt und manchmal als Ausgabe vom Chatbot weiter gegeben 13 Die Implementierung der menschlich beeinflussten Ruckkopplung Human Feedback ist zu einem entscheidenden und teuren Wettbewerbsfaktor geworden sodass die entsprechenden Losungen nicht mehr allgemein als Open Source zuganglich sind und damit deren Reproduzierbarkeit nicht mehr gegeben ist 11 Neben der Software der verwendeten Algorithmen ist der Zugang zu den verwendeten Daten ebenfalls eingeschrankt 14 Eine Zusammenstellung noch vorhandener Probleme und grundsatzlicher Beschrankungen von RLHF ist durch Forscher von Technischen Hochschulen MIT und ETH Zurich sowie mehrerer Universitaten gemeinsam erarbeitet worden 13 Siehe auch BearbeitenBestarkendes Lernen ChatGPT KI AusrichtungWeblinks BearbeitenYuntao Bai et al Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback Cornell University 12 April 2022 Abgerufen am 16 August 2023 englisch Constantin Sanders Reinforcement Learning from Human Feedback alexanderthamm com 4 Juli 2023 Abgerufen am 10 August 2023 Understanding Reinforcement Learning from Human Feedback Analytics Vidhya 24 Mai 2023 Abgerufen am 10 August 2023 englisch Einzelnachweise Bearbeiten Samuel Dylan Martin Ten Levels of AI Alignment Difficulty alignmentforum org 3 Juli 2023 Abgerufen am 30 August 2023 englisch a b Long Ouyang et al Training language models to follow instructions with human feedback InstructGPT NeurIPS 2022 Conference 31 Oktober 2022 Abgerufen am 10 August 2023 englisch Kevin Roose How Does ChatGPT Really Work In New York Times 28 Marz 2023 Abgerufen am 16 August 2023 englisch Paul F Christiano et al Deep Reinforcement Learning from Human Preferences arXiv org 17 Februar 2023 Abgerufen am 16 August 2023 englisch Steven Basart et al GPT 4 Technical Report OpenAI S 2 12 14 27 Marz 2023 Abgerufen am 28 August 2023 englisch John Schulman et al Proximal Policy Optimization openai com Abgerufen am 18 September 2023 englisch Carlos Celemin et al A fast hybrid reinforcement learning framework with human corrective feedback In Autonomous Robots Band 43 S 1173 1186 2019 9 August 2019 Abgerufen am 16 August 2023 englisch Kevin Roose GPT 4 Is Exciting and Scary In New York Times 15 Marz 2023 Abgerufen am 23 August 2023 englisch Craig S Smith AI Hallucinations Could Blunt ChatGPT s Success IEEE Spectrum 13 Marz 2023 englisch Austin Wang und Howard Chen Training Language Models to Follow Instructions with Human Feedback Princeton University Lecture cos597G S 70 116 14 November 2022 Abgerufen am 16 August 2023 englisch a b Michael Nolan Llama and ChatGPT Are Not Open Source IEEE Spectrum 27 Juli 2023 Abgerufen am 16 August 2023 englisch Andea Azzo Measuring Safety in Artificial Intelligence Positionality Matters Northwestern University 9 August 2023 englisch a b Stephen Casper Xander Davies et al Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback MIT Harvard University 27 Juli 2023 Abgerufen am 16 August 2023 englisch Wir werden massive gesellschaftliche Umwalzungen erleben Gesprach mit David Shrier In Handelszeitung 15 August 2023 Abgerufen am 28 August 2023 Abgerufen von https de wikipedia org w index php title Reinforcement learning from human feedback amp oldid 237881334