Was ist RLHF und wie funktioniert es?

Geschrieben von Manuel Herranz | 09/22/23

Bestärkendes Lernen durch menschliche Rückkopplung (Reinforcement Learning from Human Feedback, RLHF), das heißt, durch menschliches Feedback, ist für uns alle im Bereich der KI ein sehr aktuelles Thema. Im Grunde ist jeder, der in irgendeiner Form mit machine translation training (Training der maschinellen Übersetzung) zu tun hatte, sei es offline oder online, mit dem Konzept und den Verfahren ziemlich vertraut. Dies hat zu einem massiven Wissenstransfer geführt, bei dem die Erfahrungen mit der maschinellen Übersetzung als NLP-Aufgabe für die Feinabstimmung von großen Sprachmodellen (Large Language Models, LLMs) genutzt werden. In diesem Artikel werden wir in einfacher Sprache beschreiben, was Reinforcement Learning from Human Feedback (RLHF) ist und wie es funktioniert, wobei wir Parallelen zur maschinellen Übersetzung ziehen und auf einige praktische, reale Anwendungen hinweisen.

 

Die Grundlagen: Was ist Reinforcement Learning?

Reinforcement Learning ist ein Zweig des maschinellen Lernens, bei dem ein Algorithmus („der Agent“) lernt, sich in einer bestimmten Weise in einer Umgebung zu verhalten, indem er bestimmte Aktionen ausführt und als Reaktion auf diese Aktionen Belohnungen oder Bestrafungen erhält. Beim Reinforcement Learning wird versucht, ein vielschichtiges Problem durch „trial and error“ zu lösen. Das Ziel besteht darin, dass der Agent lernt, wie er Entscheidungen treffen muss, um eine kumulative Belohnung über die Zeit zu maximieren. Überlegen Sie mal - so lernen wir Menschen instinktiv. Wir nennen das „Lernen aus Erfahrung“ oder „trial and error“, und so wissen wir schon mit sechs oder sieben Jahren, dass eine Pfanne, ein Heizkörper oder ein Ofen heiß sind und wir sie nicht berühren sollten, ohne sicherzustellen, dass sie ausgeschaltet oder zumindest nicht brennend heiß sind. Wir wissen, dass wir fallen könnten, wenn wir an der Kante von etwas stehen. Maschinen werden anhand realer Szenarien darauf trainiert, eine Reihe von Entscheidungen zu treffen.

Stellen Sie sich zum Beispiel ein Spiel vor, bei dem ein kleiner Roboter (per Definition keine denkende Maschine) einen Ausweg aus einem Labyrinth finden muss. Jedes Mal, wenn der Roboter eine richtige Entscheidung trifft und sich dem Ausgang nähert, erhält er eine positive Belohnung. Trifft er jedoch eine Entscheidung, die ihn vom Ausgang wegführt, erhält er eine Bestrafung (negative Belohnung). Früher oder später wird der Roboter auf der Grundlage der Belohnungen oder Bestrafungen, die er erfahren hat, die optimale Strategie lernen, um aus dem Labyrinth herauszukommen. Stellen Sie sich vor, dieser Roboter ist mit einem Staubsauger ausgestattet, der, mit mehreren Näherungssensoren ausgestattet, Ihr Haus abtastet, während er es reinigt. Mit der Zeit wird er Ihr Haus, die Wände und die optimale Reinigungsroute kennen.

Das ist das Grundkonzept des bestärkenden Lernens: Lernen durch Erfahrung und Feedback. 

Um den Menschen in der Übersetzungsdienstleistungsbranche (translation services industry) das Konzept näher zu bringen: Stellen Sie sich eine maschinelle Übersetzungsmaschine vor, die ständig (oder häufig) mit immer mehr Daten aus Videospielübersetzungen (video game translations) gefüttert wird. Es kann sein, dass sie am ersten Tag ausreichend gut ist, aber nicht genau die Terminologie oder den Stil findet, den wir mögen, und auf dem Weg dorthin einige Fehler macht. Mit genügend Material wird sie anfangen zu lernen, was wir bevorzugen. Reinforcement Learning wird auf viele weitere Bereiche des maschinellen Lernens angewendet: Computer Vision, automatische Texterkennung (Optical Character Recognition, OCR), Datenklassifizierung (data classification), usw.

Fügen Sie nun menschliches Feedback hinzu...

Nachdem wir nun wissen, was Reinforcement Learning ist, wollen wir den Menschen in den Feedback-Prozess einbeziehen. Eine Standarddefinition für RLHF lautet: Reinforcement Learning from Human Feedback (RLHF) ist ein maschineller Lernansatz, der Reinforcement-Learning-Techniken wie Belohnungen und Bestrafungen mit menschlicher Anleitung kombiniert, um einen Agenten für künstliche Intelligenz zu trainieren.

RLHF funktioniert, indem zunächst ein „Belohnungsmodell“ direkt mit menschlichem Feedback trainiert wird. Der Algorithmus ist darauf ausgerichtet, Entscheidungen in einer Umgebung zu treffen, um die kumulativen Belohnungen zu maximieren (im Grunde machen wir den Algorithmus zu einem Hund, der nach Beute sucht und ein Leckerli bekommt, wenn er sie findet). Das Belohnungsmodell ist eine Funktion, die den Output eines Agenten (den Output des Algorithmus) betrachtet und vorhersagt, wie gut oder schlecht er ist. Sobald das Belohnungsmodell trainiert ist, kann es verwendet werden, um den Agenten mithilfe von Reinforcement Learning zu trainieren.

Beim bestärkenden Lernen lernt ein Agent, eine Aufgabe auszuführen, indem er mit seiner Umgebung interagiert und Belohnungen für Aktionen erhält, die zu den gewünschten Ergebnissen führen. Der Agent lernt durch „trial and error“, seine Belohnungen zu maximieren, und entwickelt schließlich eine Strategie, die Zustände mit Aktionen verknüpft.

Dieses „Belohnungsmodell“, das direkt anhand des menschlichen Feedbacks trainiert wird, ist dafür verantwortlich, die Belohnungsfunktion zu bestimmen, um die Strategie des Agenten mithilfe von Algorithmen des Reinforcement Learnings zu optimieren, wie z. B. die Proximal Policy Optimization.

Somit haben wir jetzt ein System, das menschliche Entscheidungen und das, was Menschen bevorzugen, nutzt, um zu bestimmen, wie und was der Agent lernen soll. Dies verleiht den menschenähnlichen Entscheidungen möglicherweise mehr „Gewicht“.

Es ist in der Tat eine Frage von „trial and error“, wenn man mit der Umwelt interagiert und die Belohnungen oder Bestrafungen beobachtet, die man für seine Handlungen erhält (Leckerli/kein Leckerli, wenn es um einen Hund gehen würde!).

 

Mehr zu diesem Thema: AutoML and LLM self-training (AutoML und LLM-Selbsttraining)

Schlüsselkomponenten des bestärkenden Lernens 

Lassen Sie uns die Schlüsselkonzepte rekapitulieren, bevor wir uns mit der Funktionsweise von RLHF befassen.

  1. Agent: der Algorithmus oder die Maschine, die Aktionen ausführt, die die Umgebung beeinflussen. Wenn Sie zum Beispiel eine Maschine bauen, die Go, Poker oder Schach spielen soll, ist die Maschine, die das Spielen lernt, der Agent.

  2. Zustand: Die Beobachtung der Umgebung durch den Agenten.

  3. Aktion: Die Entscheidung oder Handlung des Agenten, die er aufgrund seiner Beobachtung der Umgebung trifft.

  4. Umgebung - Jede Aktion des RF-Agenten wirkt sich direkt auf die Umgebung aus. Hier ist das Go-Brett eine Umgebung. Das Kartendeck oder das Schachbrett sind Umgebungen. Die Umgebung nimmt den aktuellen Zustand des Agenten (die Beobachtung) und die Aktion als Information und gibt die Belohnung mit einem neuen Zustand an den Agenten zurück.

    Dies ist sehr wichtig, da sich die Umgebung durch die Aktion des Agenten verändert haben kann.

    Die vom System gespielte oder gezogene Karte, die bewegte Figur beim Go oder einer Schachpartie, die Entdeckung eines Balls oder eines Kindes in einem selbstfahrenden Auto verändern zwangsläufig das Szenario und wirken sich negativ/positiv auf die gesamte Situation aus. Potenziell könnte sich sowohl das Spiel als auch die Anordnung der Figuren auf dem Brett verändert haben. Ein Ball oder ein Kind auf der Straße sollte eine Reihe von Entscheidungen auslösen. In der Tat entscheidet die Bewegung bzw. der aktuelle Zustand über die nächste Aktion und den Zustand auf der Straße, im Spiel oder auf dem Spielbrett.

  5. Belohnung: Die Rückmeldung, die der Agent von der Umgebung erhält, nachdem er eine Handlung ausgeführt hat. Belohnungen können positiv oder negativ sein (für unerwünschte Aktionen) und müssen nicht unbedingt von Menschen kommen. Es gibt viele Szenarien, in denen wir wollen, dass die Maschine ganz von selbst lernt. In diesen Fällen ist die einzige Kritik, die den Lernprozess steuert, die Rückmeldung/Belohnung, die sie erhält.

  6. Strategie: Die Strategie, die festlegt, wie der Agent angesichts seines aktuellen Zustands Aktionen auswählt, mit dem Ziel, die kumulative Gesamtbelohnung zu maximieren.

  7. Abzinsungsfaktor - Im Laufe der Zeit verändert der Abzinsungsfaktor die Bedeutung der Anreize. Angesichts der Ungewissheit der Zukunft ist es besser, eine Varianz zu den Wertschätzungen hinzuzufügen. Der Abzinsungsfaktor trägt dazu bei, das Ausmaß zu verringern, in dem zukünftige Belohnungen unsere Werteinschätzungen beeinflussen.

  8. Q-Wert oder Aktionswert - Der Q-Wert ist ein Maß für die erwartete Gesamtbelohnung, wenn sich der Agent in einem bestimmten Zustand befindet, eine Aktion ausführt und dann bis zum Ende der Episode gemäß einer bestimmten Strategie spielt.

 

Wie Sie sehen, gibt es zahlreiche Anwendungen in der Industrie und in der Entwicklung, bei denen Reinforcement Learning aufgrund seiner Fähigkeit, von sich selbst zu lernen, absolut Sinn macht und eine sehr attraktive Option darstellt.

Wie funktioniert Reinforcement Learning from Human Feedback (RLHF)?

In einem typischen Reinforcement-Learning-Setup wird zunächst ein "Belohnungsmodell" direkt anhand des menschlichen Feedbacks trainiert. Der Agent beginnt in einem Anfangszustand und führt Aktionen gemäß seiner Strategie aus. Die Umgebung reagiert auf die Aktionen des Agenten, indem sie Belohnungen bereitstellt und den Zustand aktualisiert. Dieses Belohnungsmodell wird trainiert, um vorherzusagen, wie hoch ein Mensch den Agenten für eine bestimmte Aktion oder ein bestimmtes Verhalten belohnen würde. Das Belohnungsmodell kann verwendet werden, um den Agenten mithilfe von Reinforcement Learning zu trainieren.

Der Agent aktualisiert dann seine Strategie auf Grundlage der beobachteten Belohnungen und des neuen Zustands, und der Prozess wird fortgesetzt, bis eine Abbruchbedingung erfüllt ist (das Auto hat sein Ziel erreicht, Schachmatt, optimale Bedingungen zur Maximierung des Verkaufs von Aktien, usw.)

Ein entscheidender Unterschied besteht darin, dass der Agent lernt, die vom Belohnungsmodell vorhergesagten Belohnungen zu maximieren, sobald wir dem Reinforcement Learning menschliches Feedback hinzufügen. Dies ermöglicht es dem Agenten, direkt vom menschlichen Feedback zu lernen, ohne dass explizit eine Belohnungsfunktion definiert werden müsste, d.h. der Schwerpunkt liegt darin, die menschlichen Vorlieben und Entscheidungen zu erkennen, die vielleicht nicht unbedingt die „optimalen“ Entscheidungen sind, die automatisch ermittelt werden. Das Ergebnis ist immer ein „menschenähnlicheres“ Ergebnis und Verhalten.

Der Ausbildungsprozess für RLHF besteht typischerweise aus drei Hauptschritten

  1. Vorbereitung eines Sprachmodells (LM): Das anfängliche Modell wird mit einem großen Korpus von Textdaten vortrainiert.

  2. Sammeln von Daten und Trainieren eines Belohnungsmodells: Menschliches Feedback wird gesammelt, indem Menschen gebeten werden, Instanzen des Agentenverhaltens zu bewerten. Diese Einstufungen können verwendet werden, um die Ergebnisse zu bewerten, z. B. mit dem Elo-Rating-System (die Elo-Zahl). Andere Arten von menschlichem Feedback, die umfassendere Informationen liefern, sind numerisches Feedback, Feedback in natürlicher Sprache, Bearbeitungsrate, usw.

  3. Feinabstimmung des LMs mit Reinforcement Learning: Das vortrainierte Sprachmodell wird mit Hilfe des Belohnungsmodells als Belohnungsfunktion feinabgestimmt, um die Strategie des Agenten zu optimieren.

RLHF wurde in verschiedenen Bereichen der natürlichen Sprachverarbeitung angewandt, z.B. bei Gesprächsbots, Textzusammenfassungen und dem Verständnis natürlicher Sprache.

Sie hat es Sprachmodellen ermöglicht, sich an komplexen menschlichen Werten auszurichten und ihre Leistung bei benutzerdefinierten Aufgaben zu verbessern.

 

Algorithmen des Reinforcement Learnings

 

Es gibt verschiedene Algorithmen für das bestärkende Lernen, wie Q-Learning, SARSA und Deep Q Network (DQN), die sich in ihren Ansätzen zum Erlernen der optimalen Strategie unterscheiden, aber diese werden Gegenstand eines anderen Artikels sein!

Praktische Anwendungen von Reinforcement Learning

Wir wissen heute, dass Agenten (Algorithmen) durch Reinforcement Learning lernen können, wie sie sich in einer Umgebung verhalten sollen. Diese KI-Agenten können eine breite Palette von Aufgaben erfüllen, darunter:

  • Aufgaben der Verarbeitung natürlicher Sprache, wie z. B. maschinelle Übersetzung, Textzusammenfassung und Beantwortung von Fragen
  • Robotikaufgaben, wie das Greifen von Objekten und das Navigieren durch komplexe Umgebungen
  • Spielaufgaben

RLHF ist eine leistungsfähige Technik, mit der KI-Agenten für eine Vielzahl von Aufgaben trainiert werden können, und sie wird in Zukunft wahrscheinlich eine immer wichtigere Rolle bei der Entwicklung von KI-Systemen spielen.

Sehen wir uns zwei Beispiele dafür an, wie RLHF bei sehr einfachen Aufgaben eingesetzt werden kann.

Wie man einen Chatbot mit RLHF trainiert

  1. Wir trainieren ein Belohnungsmodell, um vorherzusagen, wie hoch ein Mensch den Chatbot für eine bestimmte Antwort belohnen würde. Das Belohnungsmodell wird anhand eines Datensatzes mit menschlichem Feedback trainiert, bei dem Menschen die Qualität von Chatbot-Antworten bewerten.

  2. Wir initialisieren den Chatbot mit einer zufälligen Strategie.

  3. Der Chatbot interagiert mit dem menschlichen Nutzer und erhält Feedback zu seinen Antworten.

  4. Der Chatbot nutzt das Belohnungsmodell, um seine Strategie auf Grundlage des erhaltenen Feedbacks zu aktualisieren.

  5. Die Schritte 3 und 4 werden so lange wiederholt, bis der Chatbot in der Lage ist, konsistent hochwertige Antworten zu generieren.

Wie man einen Chatbot darauf trainiert, kreative Textformate zu erzeugen

  1. Es wird ein großer Datenbestand an kreativen Textformaten gesammelt. Dabei kann es sich um Bücher, Romane, spezifische Dokumente aus dem juristischen Bereich oder technische Dokumentationen handeln.

  2. Ein Belohnungsmodell wird auf diesem Datensatz trainiert, um vorherzusagen, wie gut oder schlecht ein bestimmtes kreatives Textformat ist.

  3. Der Chatbot wird mit einer Zufallsstrategie zur Erzeugung kreativer Textformate initialisiert.

  4. Der Chatbot interagiert mit dem Belohnungsmodell, indem er kreative Textformate erzeugt und Belohnungen erhält.

  5. Die Strategie des Chatbots wird mithilfe von Reinforcement Learning aktualisiert, um die erwartete Belohnung zu maximieren.

  6. Die Schritte 4 und 5 werden so lange wiederholt, bis der Chatbot in der Lage ist, kreative Textformate zu generieren, die von Menschen durchweg als hochwertig bewertet werden.

Anwendungsszenarien für RLHF

Reinforcement Learning ist ein leistungsfähiges Werkzeug, das zur Lösung einer Vielzahl von Problemen in der Praxis eingesetzt werden kann. Es handelt sich noch um eine relativ neue Technologie, die sich jedoch rasch weiterentwickelt und das Potenzial hat, viele Branchen und die Art und Weise, wie wir KI-Agenten trainieren, zu revolutionieren.

  • Industrielle Fertigung: Reinforcement Learning wird eingesetzt, um Roboter für die Ausführung komplexer Aufgaben in der Industrie zu trainieren, z. B. für die Arbeit am Fließband oder die Wartung von Maschinen. Dies kann dazu beitragen, die Arbeitskosten zu senken, die Produktqualität zu verbessern und Ausfallzeiten zu verringern.

  • Selbstfahrende Autos: Mit Hilfe von Reinforcement Learning werden selbstfahrende Autos darauf trainiert, auf der Straße zu navigieren und Entscheidungen in Echtzeit zu treffen. Dies kann dazu beitragen, die Sicherheit und Effizienz zu verbessern.

  • Handel und Finanzen: Reinforcement Learning wird verwendet, um Algorithmen zu trainieren und Handelsentscheidungen zu treffen. Dies kann dazu beitragen, Erträge zu verbessern und Risiken zu verringern.

  • Verarbeitung natürlicher Sprache (NLP): Reinforcement Learning wird verwendet, um NLP-Modelle für Aufgaben wie die Beantwortung von Fragen (die oben genannten Chatbots), Zusammenfassungen und Übersetzungen zu trainieren. Dies kann die Leistung von Chatbots und anderen NLP-Anwendungen verbessern.

  • Gesundheitswesen: Reinforcement Learning wird eingesetzt, um neue Methoden zur Diagnose und Behandlung von Krankheiten zu entwickeln. So werden mit Hilfe von Reinforcement Learning beispielsweise Roboter für die Durchführung von Operationen trainiert und personalisierte Behandlungspläne für Patienten entwickelt.

Grenzen des Reinforcement Learnings durch menschliches Feedback 

RLHF ist eine leistungsstarke Technik für das Training von KI-Agenten, hat aber Grenzen. Eine Einschränkung besteht darin, dass für das Training des Belohnungsmodells menschliches Feedback erforderlich ist. Dies kann teuer und zeitaufwändig sein. Die Skalierung des Prozesses zum Trainieren größerer und anspruchsvollerer Modelle ist aufgrund der Abhängigkeit von menschlichem Feedback sehr zeit- und ressourcenintensiv.

Außerdem kann es schwierig sein, RLHF zu implementieren und abzustimmen.

Techniken zur Automatisierung oder Halbautomatisierung des Feedback-Prozesses können helfen, diese Herausforderung zu bewältigen.