Qu’est-ce que l’apprentissage par renforcement avec retour humain (RLHF) et comment fonctionne-t-il ?

Rédigé par Manuel Herranz | 02/20/25

L'apprentissage par renforcement à partir du feedback humain (RLHF) est un sujet très brûlant pour nous tous dans le domaine de l'IA. Toute personne exposée à une forme ou une autre de re-training de traduction automatique, hors ligne ou en ligne, connaît bien le concept et les procédures. Cela a entraîné un transfert massif de talents qui mettent à profit leur expérience de la traduction automatique en tant que tâche de traitement du langage naturel (TLN) pour affiner les grands modèles de langage (GML). Dans cet article, nous décrirons en langage clair ce qu'est l'apprentissage par renforcement à partir du feedback humain (RLHF) et comment il fonctionne, en établissant des parallèles avec la traduction automatique et en indiquant quelques applications pratiques et concrètes.

Concepts de base : Qu’est-ce que l’apprentissage par renforcement ?

L'apprentissage par renforcement est une branche de l'apprentissage automatique dans laquelle un algorithme, souvent appelé "l'agent", apprend à se comporter d'une manière spécifique au sein d'un environnement donné. Cela se fait en exécutant certaines actions et en recevant des récompenses ou des punitions en réponse à ces actions. L'apprentissage par renforcement vise à résoudre un problème à plusieurs niveaux par le biais d'essais et d'erreurs. L'objectif est que l'agent apprenne à prendre des décisions qui maximisent une récompense cumulative au fil du temps. Réfléchissez-y un instant, c'est ainsi que nous, les humains, apprenons instinctivement. Nous appelons cela "apprendre par l'expérience" ou "essais et erreurs". Par exemple, dès l'âge de six ou sept ans, nous savons qu'une poêle, un radiateur ou un four sont chauds et qu'il ne faut pas les toucher sans s'assurer qu'ils sont éteints ou du moins pas brûlants. Nous savons également que si nous nous tenons au bord de quelque chose, nous risquons de tomber. De la même manière, les machines sont formées sur des scénarios de la vie réelle pour prendre une série de décisions. Par exemple, un agent pourrait être formé pour naviguer dans un environnement complexe, comme un robot devant traverser un labyrinthe. À chaque décision correcte qui le rapproche de la sortie, il reçoit une récompense positive.

En revanche, une décision qui l'éloigne de la sortie entraîne une punition, ou une récompense négative. Avec le temps, l'agent apprend la stratégie la plus optimale pour atteindre son objectif, en s'appuyant sur les récompenses et les punitions qu'il a expérimentées. Ce processus d'apprentissage par renforcement est fondamentalement similaire à la manière dont nous, en tant qu'êtres humains, apprenons à travers nos expériences quotidiennes, en ajustant nos comportements en fonction des résultats que nous observons.

Par exemple, imaginez un jeu où un petit robot (qui, par définition, n’est pas une machine pensante) doit trouver une sortie dans un labyrinthe. Chaque fois que le robot prend une décision correcte et se rapproche de la sortie, il reçoit une récompense positive. Mais s’il prend une décision qui l’éloigne de la sortie, il reçoit une punition (récompense négative). Tôt ou tard, le robot apprendra la stratégie optimale pour sortir du labyrinthe en se basant sur les récompenses ou punitions qu’il a expérimentées. Imaginez que ce robot ait un aspirateur attaché, avec plusieurs dispositifs de détection de proximité pour cartographier votre maison tout en la nettoyant. Donnez-lui du temps, et il connaîtra votre maison, vos murs et le chemin optimal pour le nettoyage.

C’est le concept de base de l’apprentissage par renforcement : apprendre par l’expérience et les retours.

Pour rendre le concept plus familier aux personnes de l’industrie des services de traduction : pensez à un moteur de traduction automatique qui est constamment (ou fréquemment) alimenté avec plus de données de traductions de jeux vidéo. Il peut être assez bon le premier jour, mais il ne trouvera pas la terminologie ou le style que nous aimons, commettant quelques erreurs en chemin. Avec suffisamment de matériel, il commencera à apprendre ce que nous préférons. L’apprentissage par renforcement s’applique à bien d’autres domaines de l’apprentissage automatique : vision par ordinateur, OCR, classification de données, etc.

Maintenant, intégrons les retours humains…

Maintenant que nous savons ce qu’est l’apprentissage par renforcement, ajoutons une dimension humaine au processus de feedback. Une définition standard du RLHF (Apprentissage par renforcement à partir de retours humains) est qu’il s’agit d’une approche d’apprentissage automatique qui combine des techniques d’apprentissage par renforcement, telles que les récompenses et les punitions, avec des indications humaines pour entraîner un agent d’intelligence artificielle (IA). Le RLHF fonctionne en entraînant d’abord un « modèle de récompense » directement à partir des retours humains. L’algorithme est conçu pour prendre des décisions dans un environnement afin de maximiser les récompenses cumulées (en somme, nous transformons l’algorithme en un chien de chasse reniflant une proie, que nous récompensons avec un biscuit lorsqu’il la trouve). Le modèle de récompense est une fonction qui prend le résultat d’un agent (la sortie de l’algorithme) et prédit sa qualité, c’est-à-dire s’il est bon ou mauvais. Une fois le modèle de récompense entraîné, il peut être utilisé pour entraîner l’agent à l’aide de l’apprentissage par renforcement.

Dans l’apprentissage par renforcement, un agent apprend à exécuter une tâche en interagissant avec son environnement et en recevant des récompenses pour les actions qui aboutissent aux résultats souhaités. L’agent maximise ses récompenses par essais et erreurs et finit par développer une politique qui associe des états à des actions.

Ce « modèle de récompense », entraîné directement à partir des retours humains, permet de définir la fonction de récompense qui guidera l’optimisation de la politique de l’agent via des algorithmes d’apprentissage par renforcement, comme l’Optimisation Proximale de Politique (PPO).

Ainsi, nous avons désormais un système qui s’appuie sur les préférences humaines pour orienter l’apprentissage de l’agent. Cela accentue potentiellement l’influence des choix humains dans son comportement.

Il s’agit bien d’un processus d’apprentissage par essais et erreurs, où l’agent interagit avec son environnement et observe les récompenses ou pénalités associées à ses actions (et, s’il s’agissait d’un chien, biscuit ou pas de biscuit !).

Pour en savoir plus : The Future of Machine Translation

Composants clés de l’apprentissage par renforcement

Résumons les concepts clés avant de plonger dans le fonctionnement du RLHF :

Agent : L’algorithme ou la machine qui effectue des actions influençant l’environnement. Par exemple, si vous concevez une machine pour jouer au Go, au poker ou aux échecs, la machine qui apprend à jouer est l’agent.
État : L’observation de l’environnement par l’agent.
Action : La décision ou l’action prise par l’agent dans l’environnement en fonction de son observation.
Environnement : Chaque action effectuée par l’agent en apprentissage par renforcement (RL) a un impact direct sur l’environnement. Par exemple, le plateau de Go est un environnement. Un jeu de cartes ou un échiquier sont aussi des environnements. L’environnement prend l’état actuel de l’agent (son observation) et son action comme informations, puis renvoie une récompense à l’agent avec un nouvel état.

Cela est crucial, car l’environnement peut évoluer en réponse à l’action de l’agent.

Par exemple, une carte jouée ou prise par le système, une pièce déplacée dans un jeu de Go ou d’échecs, ou encore la détection d’une balle ou d’un enfant par une voiture autonome modifient nécessairement le scénario. Ces changements peuvent avoir un effet positif ou négatif sur l’ensemble de la situation. Le jeu et la disposition des pièces sur le plateau peuvent être modifiés. De même, la présence d’une balle ou d’un enfant sur la route doit déclencher une série de décisions. En effet, ces éléments détermineront l’action et l’état suivants dans le contexte routier, ludique ou stratégique.
Récompense : C’est le retour que l’agent reçoit de l’environnement après avoir effectué une action. Les récompenses peuvent être positives ou négatives (pour les actions non désirées) et ne proviennent pas nécessairement des humains. Il existe de nombreux scénarios où nous pourrions vouloir que la machine apprenne par elle-même. Dans ces cas, le seul critère qui guide le processus d’apprentissage est le retour/la récompense qu’elle reçoit.
Politique : Une stratégie qui définit comment l’agent sélectionne les actions en fonction de son état actuel, dans le but de maximiser la récompense cumulative totale.
Facteur d’escompte : Au fil du temps, le facteur d’escompte modifie l’importance des incitations. Compte tenu de l’incertitude de l’avenir, il est préférable d’ajouter de la variance aux estimations de valeur. Le facteur d’escompte aide à réduire le degré auquel les récompenses futures affectent nos estimations de la fonction de valeur.
Valeur-Q ou valeur-action : La valeur-Q est une mesure de la récompense totale attendue si l’agent se trouve dans un certain état, effectue une action, puis poursuit jusqu’à la fin de l’épisode selon une certaine politique.

Comme vous pouvez commencer à le voir, il peut y avoir de nombreuses applications dans les environnements industriels et de développement où l’apprentissage par renforcement a tout son sens et devient une option très attrayante en raison de sa capacité à apprendre de lui-même.

Comment fonctionne l’apprentissage par renforcement avec retour humain (RLHF) ?

Dans une configuration typique d’apprentissage par renforcement, un “modèle de récompense” est d’abord entraîné directement à partir des retours humains. L’agent commence dans un état initial et effectue des actions selon sa politique. L’environnement répond aux actions de l’agent en lui fournissant des récompenses et en mettant à jour l’état. Ce modèle de récompense est entraîné pour prédire combien un humain récompenserait l’agent pour une action ou un comportement donné. Une fois le modèle de récompense entraîné, il peut être utilisé pour entraîner l’agent via l’apprentissage par renforcement.

L’agent met ensuite à jour sa politique en fonction des récompenses observées et du nouvel état, et le processus se poursuit jusqu’à ce qu’une condition d’arrêt soit atteinte (par exemple, la voiture atteint sa destination, échec et mat, conditions optimales pour maximiser la vente d’actions, etc.).

Une différence clé lors de l’ajout de retours humains dans l’apprentissage par renforcement est que l’agent apprend à maximiser les récompenses prédites par le modèle de récompense. Cela permet à l’agent d’apprendre directement des retours humains sans avoir à définir explicitement une fonction de récompense. Par exemple, l’effort consiste à faire correspondre les préférences et les choix humains, qui peuvent ne pas être exactement les choix “optimaux” classés automatiquement. Le résultat est toujours une sortie et un comportement plus “humain”.

Le processus d’entraînement pour le RLHF se compose généralement de trois étapes de base :

Pré-entraînement d’un modèle de langage (LM) : Le modèle initial est pré-entraîné sur un grand corpus de données textuelles.
Collecte de données et entraînement d’un modèle de récompense : Les retours des humains sont collectés en leur demandant de classer des instances du comportement de l’agent. Ces classements peuvent être utilisés pour noter les résultats, par exemple, avec le système de classement Elo. D’autres types de retours humains fournissant des informations plus riches sont les retours numériques, les retours en langage naturel, le taux d’édition, etc.
Ajustement du modèle linguistique via l’apprentissage par renforcement : Le modèle linguistique pré-entraîné est ajusté en utilisant le modèle de récompense comme fonction de récompense, optimisant la politique de l’agent.

Le RLHF a été appliqué à divers domaines du traitement du langage naturel, tels que les agents conversationnels, le résumé de textes et la compréhension du langage naturel.

Il a permis aux modèles linguistiques de s’aligner sur des valeurs humaines complexes et d’améliorer leurs performances dans des tâches spécifiées par l’utilisateur.

Algorithmes d’apprentissage par renforcement

Il existe plusieurs algorithmes d’apprentissage par renforcement, tels que Q-Learning, SARSA et Deep Q Network (DQN), qui diffèrent dans leurs approches d’apprentissage de la politique optimale, mais ceux-ci feront l’objet d’un autre article !

Applications pratiques de l’apprentissage par renforcement

Nous savons maintenant que l’apprentissage par renforcement permet aux agents (algorithmes) d’apprendre comment se comporter dans un environnement par essais et erreurs. Ces agents d’IA peuvent effectuer un large éventail de tâches, notamment :

Tâches de traitement du langage naturel, comme la traduction automatique, le résumé de textes et la réponse aux questions.
Tâches de robotique, comme saisir des objets et naviguer dans des environnements complexes.
Tâches de jeu.

Le RLHF est une technique puissante qui peut être utilisée pour entraîner des agents d’IA à effectuer un large éventail de tâches, et il est susceptible de jouer un rôle de plus en plus important dans le développement des systèmes d’IA à l’avenir.

Voyons deux exemples illustrant comment le RLHF peut être utilisé dans des tâches très simples.

Comment entraîner un chatbot avec le RLHF :

Un modèle de récompense est entraîné pour prédire combien un humain récompenserait le chatbot pour une réponse donnée. Le modèle est entraîné sur un ensemble de données de retours humains, où les humains évaluent la qualité des réponses du chatbot.
Le chatbot est initialisé avec une politique aléatoire.
Le chatbot interagit avec l’utilisateur humain et reçoit des retours sur ses réponses.
Le chatbot utilise le modèle de récompense pour mettre à jour sa politique en fonction des retours reçus.
Les étapes 3 et 4 sont répétées jusqu’à ce que le chatbot soit capable de générer des réponses de haute qualité de manière cohérente.

Comment entraîner un chatbot à générer des formats de texte créatifs :

Un grand ensemble de données de formats de texte créatifs est collecté. Cela peut inclure des livres, des romans, des documents juridiques spécifiques ou des manuels techniques.
Un modèle de récompense est entraîné sur cet ensemble de données pour prédire à quel point un format de texte créatif donné est bon ou mauvais.
Le chatbot est initialisé avec une politique aléatoire pour générer des formats de texte créatifs.
Le chatbot interagit avec le modèle de récompense en générant des formats de texte créatifs et en recevant des récompenses.
La politique du chatbot est mise à jour en utilisant l’apprentissage par renforcement pour maximiser sa récompense attendue.
Les étapes 4 et 5 sont répétées jusqu’à ce que le chatbot soit capable de générer des formats de texte créatifs constamment évalués de haute qualité par des humains.

Cas d’usage du RLHF

L’apprentissage par renforcement est un outil puissant qui peut être utilisé pour résoudre un large éventail de problèmes du monde réel. Bien que ce soit encore une technologie relativement nouvelle, elle se développe rapidement et a le potentiel de révolutionner de nombreuses industries et la façon dont nous entraînons les agents d’IA.

Fabrication industrielle : L’apprentissage par renforcement est utilisé pour entraîner des robots à effectuer des tâches complexes dans des environnements industriels, comme le travail sur des lignes d’assemblage et la maintenance des machines. Cela peut aider à réduire les coûts de main-d’œuvre, à améliorer la qualité des produits et à réduire les temps d’arrêt.
Voitures autonomes : L’apprentissage par renforcement est utilisé pour entraîner des voitures autonomes à naviguer sur la route et à prendre des décisions en temps réel. Cela peut contribuer à améliorer la sécurité et l’efficacité.
Commerce et finance : L’apprentissage par renforcement est utilisé pour entraîner des algorithmes à prendre des décisions de trading. Cela peut aider à améliorer les rendements et à réduire les risques.
Traitement du langage naturel (TLN) : L'apprentissage par renforcement est utilisé pour entraîner des modèles de TALN à effectuer des tâches telles que la réponse à des questions (les chatbots ci-dessus), la synthèse et la traduction. Cela peut améliorer les performances des chatbots et d'autres applications de TLN.
Santé : L’apprentissage par renforcement est utilisé pour développer de nouvelles méthodes de diagnostic et de traitement des maladies. Par exemple, il est utilisé pour entraîner des robots à effectuer des opérations chirurgicales et à élaborer des plans de traitement personnalisés pour les patients.

Limites de l’apprentissage par renforcement avec retour humain

Le RLHF est une technique puissante pour entraîner des agents d’IA, mais il présente certaines limites. L’une d’elles est qu’il nécessite des retours humains pour entraîner le modèle de récompense, ce qui peut être coûteux et long à collecter. L’extension du processus pour entraîner des modèles plus grands et plus sophistiqués demande énormément de temps et de ressources en raison de cette dépendance aux retours humains.

De plus, la mise en œuvre et l’ajustement du RLHF peuvent s’avérer complexes.

Des techniques visant à automatiser ou semi-automatiser le processus de feedback pourraient contribuer à relever ce défi.

Voir l'article complet