¿Qu'est-ce qu'un LLM (Grand Modèle de Langage) ?

Rédigé par Manuel Herranz | 01/15/26

Les LLM ou Grands Modèles de Langage sont des algorithmes avancés d'apprentissage profond capables d'accomplir un large éventail de tâches liées au traitement du langage naturel (NLP). Chez Pangeanic, nous avons une expertise dans ce domaine, car depuis 2010, nous développons (de manière plus modeste :) des modèles de langage dédiés à la traduction automatique, à l'anonymisation ou à la classification de données. La distinction que nous avons tous notée depuis la fin de 2022 ou le début de 2023 réside dans la taille et la quantité des données d'entraînement. Les nouveaux modèles, basés sur l'architecture Transformers, actuellement la plus populaire, sont formés sur d'énormes ensembles de données, leur conférant une capacité impressionnante à reconnaître, résumer, traduire, prédire et générer du texte. Ajoutez à cela une fonctionnalité de chatbot pour interagir, comme l'a fait OpenAI avec ChatGPT, Meta avec Llama2, ou Google avec Bart, et vous obtenez une nouvelle expérience, une expérience cognitive que les humains n'ont jamais eue avec une machine auparavant. C'est pourquoi nous prenons tant de plaisir et devenons si attachés à des modèles comme ChatGPT : pour notre cerveau, nous vivons une expérience cognitive, une conversation, tout comme celle que nous pourrions avoir avec un bibliothécaire très compétent ou avec n'importe qui d'autre.

Cela a entraîné une explosion virale de l'intérêt pour les grands modèles de langage, et certains non-experts ont exprimé qu'ils contenaient des capacités de raisonnement, confondant la capacité de génération de langage et la technologie d'un chatbot avec une véritable intelligence. Un grand modèle linguistique ne raisonne pas, il ne pense pas. Cependant, il peut extraire des informations de manière admirable car il a été formé avec l'équivalent de 20 000 ans de lecture.

Il est crucial de faire la distinction entre les LLM et les réseaux neuronaux en général. Bien que les LLM soient un type spécifique de réseau neuronal, il existe de nombreuses autres formes de réseaux neuronaux, tels que les réseaux neuronaux convolutifs et récurrents, conçus pour différents types de tâches et de données.

Tabla de contenido

1. Les LLM sont-ils sûrs et quels sont les garde-fous ?

2. Listes vertes, listes rouges

3. Arquitectura de Transformers y su significado

4. Componentes clave de los LLM

5. Tipos de LLMs

6. Cómo se entrena un LLM

7. ¿Qué se puede hacer con un LLM una vez entrenado?

8. Chinchilla y el punto óptimo para el entrenamiento de LLMs

9. Clarifiquemos conceptos: ¿Los LLMs alucinan?

10. La famosa ventana de atención

11. Los LLMs y la AI Generativa no son lo mismo

12. Ejemplos de modelos de lenguaje grandes populares

13. Una mirada integral al uso de los LLMs, beneficios y desafíos

14. Casos de uso de Grandes Modelos de Lenguaje (LLM) ahora y en el futuro

15. Implicaciones sociales de los modelos de lenguaje grandes

16. Algunos desafíos pendientes

Les LLM sont-ils sûrs et quels sont les garde-fous ?

Les garde-fous au sein des LLM regroupent un ensemble de contrôles et de barrières de sécurité qui surveillent l'interaction d'un utilisateur avec un grand modèle linguistique (LLM), dans le but d'assurer que le LLM reste sur la bonne voie et de garantir ainsi sa qualité et sa cohérence.

Essentiellement, les garde-fous des LLM établissent un ensemble de systèmes programmables basés sur des règles, agissant comme une interface entre les utilisateurs et les modèles de base. Ces systèmes fonctionnent comme des règles, garantissant que le modèle d'IA opère conformément aux principes définis par l'organisation. Ils définissent des limites claires et précises pour son comportement, empêchant ainsi la génération de réponses inappropriées ou nuisibles qui pourraient découler des données d'apprentissage. Par exemple, les premiers modèles GPT ont été critiqués pour la quantité de contenu toxique qu'ils pouvaient générer.

Les garde-fous peuvent être envisagés comme une manière de "corriger" le modèle lorsqu'il génère un contenu trop éloigné des normes établies. Les règles et les restrictions auxquelles le modèle doit se conformer sont définies à l'avance. Il s'agit, par exemple, d'éviter les grossièretés, le langage sexiste ou discriminatoire, et de veiller à ce que les réponses du modèle soient rédigées dans un ton approprié et respectueux.

Image 1, réalisé avec l'aide de Bing Image Creator

Lorsque le modèle génère une réponse, celle-ci est évaluée par rapport aux garde-fous établis. Si elle ne les respecte pas, il est demandé au LLM de générer une nouvelle réponse conforme aux exigences définies.

L'importance des garde-fous dans les LLM réside dans le fait qu'ils permettent aux développeurs et aux utilisateurs de ces modèles de contrôler et d'orienter leur comportement, garantissant ainsi une utilisation responsable et éthique des modèles. De plus, les garde-fous contribuent à éviter les erreurs et les problèmes potentiels qui pourraient découler d'un manque de contrôle sur le modèle, tels que la génération d'un contenu inapproprié ou nuisible.

Les garde-fous peuvent être déployés pour :

Empêcher les LLM de générer des contenus nuisibles ou offensants ;
Veiller à ce que les LLM soient utilisés conformément aux valeurs et à la mission de l'organisation ;
Protéger la confidentialité et la sécurité des données des utilisateurs ;
Améliorer la fiabilité et la précision des résultats obtenus.

Voici quelques exemples de mécanismes de sécurité dans les LLM :

Listes noires et listes blanches : Guardrails peuvent être utilisés pour créer des listes noires comprenant des mots et des phrases que les LLM ne peuvent pas générer, ainsi que des listes blanches spécifiant les mots et les phrases qu'ils peuvent générer ;
Filtres de contenu : Lils servent à filtrer le contenu généré par un LLM afin d'éviter toute création de contenu nuisible ou offensant ;
Détection des biais : Les garde-fous sont utiles pour repérer les biais dans les résultats du LLM et les filtrer ou les signaler en vue d'une révision humaine ;
Fact-checking : Les garde-corps peuvent être mis en place pour vérifier les résultats du LLM et assurer leur exactitude.

Les garde-fous constituent un élément crucial du développement et du déploiement responsables d'un modèle de langage profond (LLM). En implémentant ces contrôles, les organisations peuvent contribuer à garantir une utilisation sûre et éthique des LLM.

Saviez-vous que Pangeanic a collaboré à la création de LLM avec le Barcelona SuperComputing Center ? Voir l'étude de cas

Listes vertes, listes rouges

Dans le contexte des grands modèles linguistiques (LLM), les "listes vertes" désignent une méthode utilisée pour intégrer des filigranes dans le texte généré par ces modèles. L'idée sous-jacente à cette méthode vise à atténuer les dommages potentiels pouvant découler du texte généré par les LLM. Dans le cadre des grands modèles de langage, les listes vertes font référence à un ensemble de mots, expressions ou phrases considérés comme acceptables ou souhaitables pour être générés par le modèle. Ces listes sont généralement élaborées par des humains et guident le modèle vers un texte cohérent et significatif.

Les listes vertes peuvent être utilisées de différentes manières au cours du processus de formation d'un LLM. Voici quelques exemples :

Amorçage : Au début de la formation, le modèle peut être initialisé avec un petit ensemble de mots ou d'expressions prédéfinis de la liste verte. Cela permet au modèle de commencer à générer des textes cohérents et réduit le risque de produire des résultats aléatoires ou dénués de sens.
Ingénierie pédagogique : Les chercheurs conçoivent souvent soigneusement des questions visant à obtenir des réponses spécifiques du modèle. Les listes vertes peuvent être utilisées pour garantir que les instructions contiennent le langage et les concepts appropriés, facilitant ainsi au modèle la génération de réponses pertinentes et cohérentes.
Mesures d'évaluation : Les listes vertes peuvent être utilisées dans le cadre de mesures d'évaluation pour évaluer la qualité et la pertinence des résultats du modèle. Par exemple, les chercheurs peuvent comparer le texte généré par le modèle à une liste verte de mots clés ou de phrases pertinentes afin de déterminer dans quelle mesure le modèle comprend le sujet en question.
Orientation du modèle : Les listes vertes peuvent être activement utilisées pendant l'inférence (génération) pour orienter le modèle vers les sujets, les styles ou les formats souhaités. Cela peut se faire en conditionnant l'entrée du modèle ou en fournissant des signaux supplémentaires encourageant le modèle à se concentrer sur des aspects spécifiques de la tâche.
Sécurité et éthique : Les listes vertes peuvent contribuer à atténuer les risques potentiels associés aux LLM, tels que les résultats biaisés ou préjudiciables. En définissant un ensemble de mots, phrases ou concepts approuvés, le modèle est moins susceptible de générer un contenu considéré comme inapproprié ou offensant.

Il est important de noter que bien que les listes vertes puissent être utiles pour guider le comportement du LLM, elles ne sont pas toujours efficaces pour éviter les résultats indésirables. Les modèles peuvent produire des réponses inattendues ou indésirables, surtout lorsqu'ils sont exposés à des entrées contradictoires ou ambiguës. Il est donc essentiel de continuer à contrôler et à évaluer la performance des LLM même en utilisant des listes vertes.

La création d'une distribution de probabilité pour le prochain mot à générer, en ajustant le processus pour intégrer un filigrane. Un code de hachage généré à partir d'un jeton précédent classe le vocabulaire en mots de la "liste verte" et de la "liste rouge".
Une méthode proposée par Kirchenbauer et al. (2023) divise le vocabulaire en listes rouge et verte, et le système apprend à préférer générer des jetons à partir de la liste verte, améliorant ainsi la robustesse des algorithmes fournissant un filigrane pour les LLM.
Un nombre aléatoire spécifique (graine dans le domaine de l'IA) peut diviser aléatoirement l'ensemble du vocabulaire en deux listes de taille égale, une "liste verte" et une "liste rouge". Le token suivant est alors généré à partir de la liste verte, dans le cadre d'une méthode de détection des textes générés par de grands modèles de langage (LLM).
Dans une autre méthode, la division entre « liste verte » et « liste rouge » est basée sur le jeton (token) de préfixe, ce qui augmente subtilement la probabilité de choisir dans la liste verte. Si, dans une phrase comportant un filigrane, chaque deuxième jeton est édité et remplacé par son synonyme, il devient difficile de déterminer les listes vertes/rouges pour chaque jeton. Cette méthode pour détecter le texte généré par les LLM repose sur l'exploitation du fait que les LLM ont une plus grande probabilité de générer des jetons similaires à ceux qu'ils ont déjà produits. Cela s'explique par le fait que les LLM sont entraînés sur de vastes ensembles de données textuelles et apprennent à prédire le prochain jeton d'une séquence en se basant sur les jetons précédemment générés.

Dans cette méthode, un filigrane est créé en divisant de manière aléatoire le vocabulaire en une « liste verte » et une « liste rouge ». La liste verte contient les jetons les plus susceptibles d'être générés par les LLM, et la liste rouge les jetons les moins probables, de sorte que lorsqu'un LLM génère un texte, il est contraint de choisir des jetons dans la liste verte. Cela crée un filigrane subtil dans le texte, que certains utilisateurs fréquents de LLM détectent par le « style neutre et poli » caractérisé par des réponses superficielles, non conflictuelles, sans prise de position, et l'utilisation de certaines expressions et conjonctions. Au sein du système, la détection s'effectue en vérifiant la proportion de jetons appartenant à la liste verte.

Si le texte est édité en remplaçant chaque deuxième jeton par son synonyme, il devient plus difficile de détecter le filigrane. En effet, il est probable que les synonymes figurent également sur la liste verte.

Certaines études actuelles se concentrent sur l'utilisation de méthodes sophistiquées, telles que l'analyse statistique, pour détecter les textes générés par l'intelligence artificielle.

L'architecture des Transformers et sa signification

Un LLM est un grand modèle linguistique (Large Language Model). Il s'agit d'un type de modèle d'apprentissage automatique capable de réaliser diverses tâches de traitement du langage naturel (TLN), telles que la génération et la classification de textes, la réponse à des questions conversationnelles et la traduction de textes d'une langue à une autre.

Image 2, Les Transformers ont changé la façon de traiter le langage. Gracieuseté de Bing Image Creator

Le terme « grand » fait référence au nombre de valeurs (paramètres) que le modèle peut modifier par lui-même au cours du processus d'apprentissage. Certains des LLM les plus performants possèdent des centaines de milliards de paramètres.

Le cœur d'un LLM est généralement un modèle Transformers. Ceux-ci sont composés d'un encodeur et d'un décodeur et sont réputés pour leur capacité à gérer des dépendances à longue distance grâce à ce que l'on appelle des mécanismes d'auto-attention. Comme son nom l'indique, l'auto-attention, et en particulier l'attention multi-tête, permet au modèle de prendre en compte simultanément plusieurs parties du texte, offrant ainsi une compréhension plus holistique et plus riche du contenu.

Composants clés des LLM

Au sein de ces modèles, nous trouvons diverses couches de réseaux neuronaux qui travaillent de concert :

Couche d'imbrication (Embedding) : Elle transforme le texte d'entrée en vecteurs, capturant sa signification sémantique et syntaxique.
Couche Feedforward : Elle est formée de réseaux entièrement connectés qui traitent les imbrications et aident à comprendre l'intention derrière une entrée.
Couche récurrente : Traditionnellement, elles interprètent les mots en séquence, établissant des relations entre eux.
Mécanisme d'attention : Il se focalise sur des parties spécifiques du texte pertinentes pour la tâche en cours, améliorant ainsi la précision des prédictions.

Types de LLM

Il existe divers types de LLM, parmi lesquels :

Modèles de langage génériques : Ils se concentrent sur la prédiction du mot suivant en fonction du contexte d'entraînement.
Modèles entraînés par instructions : Ils sont formés spécifiquement pour des tâches telles que l'analyse de sentiment ou la génération de code.
Modèles de dialogue : Actuellement les plus populaires et les plus utilisés. Ils sont conçus pour simuler des conversations, comme les chatbots ou les assistants basés sur l'IA.

Compte tenu de la naturalité de leur expression, les solutions basées sur les LLM ont reçu d'importants financements. De nombreuses entreprises de toutes tailles investissent dans la personnalisation des LLM, avec la promesse de résoudre des problèmes à grande échelle dans de multiples secteurs, de la santé — où ils peuvent aider au diagnostic — au marketing, où l'analyse de sentiment peut s'avérer cruciale.

Comment un LLM est-il entraîné ?

Les LLM sont entraînés sur de vastes quantités de données. La quantité de données utilisée pour entraîner GPT-1, GPT-2, GPT-3, GPT-3.5, GPT-4, Llama et Llama 2 n'a cessé de croître, tout comme le besoin d'acquérir davantage de données propres, de qualité, originales et fiables. Par exemple :

GPT-1 a été entraîné sur 40 Go de données textuelles (600 milliards de mots) ;
GPT-2 avec 40 Go de données textuelles ;
GPT-3 a multiplié par plus de 16 la quantité de données textuelles^[3][4] pour atteindre 570 Go ;
GPT-3.5 : Aucune information spécifique n'a été trouvée sur la quantité de données utilisées pour entraîner ce modèle.
GPT-4 : Entraîné sur une quantité de données supérieure à celle de GPT-3, mais aucune information spécifique n'a été trouvée.
Llama : Aucune information spécifique n'a été trouvée sur la quantité de données utilisées pour ce modèle.
Llama 2 : Entraîné avec 40 % de données en plus que son prédécesseur Llama, ce qui lui permet d'apprendre d'un éventail plus large de sources publiques^{[1] [2]}.

Rappelons que la quantité de données utilisées n'est pas le seul facteur déterminant les performances d'un modèle linguistique, pas plus que les milliards de paramètres. D'autres facteurs, tels que l'architecture du modèle, la qualité et la propreté des données, ainsi que le processus d'entraînement, jouent également un rôle majeur.

Prenons l'exemple de deux des LLM les plus connus au monde : Llama 2 (open source) et ChatGPT (code fermé et usage commercial).

Llama 2

L'objectif était de construire un modèle unique capable de bien fonctionner sur plusieurs tâches de texte à texte, telles que la classification, l'analyse de sentiment, la reconnaissance d'entités nommées, la réponse aux questions et, dans une moindre mesure, la traduction automatique ^{[5] [6]}. L'équipe de Meta souhaitait explorer les limites de l'évolutivité des modèles basés sur les Transformers et étudier l'impact de la taille et de la complexité sur les performances. Son but était de créer un modèle servant de base solide pour de futures recherches sur la transformation de texte à texte.

Image 3, META a lancé Llama 2 à l'été 2023. Gracieuseté de Bing Image Creator

Architecture et composants :

Llama 2 utilise une architecture Transformers avec une combinaison novatrice de réseaux d'auto-attention multi-tête et de réseaux feedforward. Il se compose de plusieurs modèles de composants, chacun conçu pour une tâche spécifique : BERT pour les imbrications contextualisées, RoBERTa pour la compréhension sémantique au niveau de la phrase, DistilBERT pour la réponse aux questions, et un module encodeur-décodeur conçu sur mesure pour les tâches de séquence à séquence. Le modèle a été entraîné en combinant la modélisation du langage masqué, la prédiction de la phrase suivante et des objectifs spécifiques à chaque tâche.

Processus d'entraînement :

Les auteurs ont utilisé un cadre informatique distribué pour entraîner Llama 2 sur un ensemble de données composé de textes provenant de diverses sources, notamment des livres, des articles et des sites web.

Image 4, Données utilisées pour Llama 2. Source : Article descriptif de Meta Llama 2.

Une stratégie d'apprentissage curriculaire a été employée, commençant par un petit sous-ensemble de données et augmentant progressivement la taille du lot et le nombre d'étapes pendant l'entraînement. Un mélange de nombres à virgule flottante de 16 et 32 bits a été utilisé pour stocker les poids du modèle, et un contrôle de gradient a été effectué pour réduire l'utilisation de la mémoire.

Résultats expérimentaux :

Llama 2 a obtenu les meilleurs résultats sur plusieurs ensembles de données de référence tels que GLUE, SuperGLUE et WMT.

Dans le test GLUE, Llama 2 a surpassé le modèle précédent, BERT, de 4,8 % en moyenne.

Dans le test SuperGLUE, Llama 2 a amélioré les performances de BERT de 7,7 % en moyenne.

Pour la tâche de traduction WMT, Llama 2 a obtenu des résultats compétitifs par rapport aux modèles les plus avancés.

Composant essentiel : Apprentissage par renforcement à partir du feedback humain (RLHF)

Llama 2 a été pré-entraîné à l'aide de données publiques sur Internet (principalement CommonCrawl, et dans une moindre mesure des livres et du contenu Wikipedia, mais pas des données des utilisateurs de Meta). Ensuite, une version initiale de Llama-2-chat a été créée par un réglage fin supervisé. Llama-2-chat a ensuite été affiné de manière itérative à l'aide de l'apprentissage par renforcement à partir du feedback humain (RLHF), incluant l'échantillonnage de rejet et l'optimisation des politiques proximales (PPO). Les auteurs ont utilisé un algorithme d'optimisation multi-objectifs pour trouver les paramètres optimaux équilibrant des objectifs contradictoires tels que la perplexité, la qualité de la réponse et la sécurité. Ils ont intégré le RLHF pour ajuster le modèle aux préférences humaines et au suivi des instructions.

Image 5, Llama 2 RLHF. Meta

Le processus RLHF a consisté à recueillir des commentaires humains sous forme d'évaluations et de comparaisons entre des réponses alternatives générées par le modèle. Les auteurs ont utilisé ces informations pour mettre à jour les poids du modèle et améliorer ses performances. Ils ont également ajouté des données supplémentaires à l'ensemble d'entraînement, notamment des conversations Internet et du texte généré par des humains, pour accroître la diversité des données d'entraînement.

L'un des principaux défis lors de l'entraînement de Llama 2 a été de résoudre le problème du biais d'exposition, où le modèle génère des réponses trop similaires à celles observées lors de l'entraînement. Pour y remédier, les auteurs ont introduit une technique novatrice appelée Latent Adversarial Training (LAT), qui ajoute du bruit aux instructions d'entrée pour encourager le modèle à générer des réponses plus diversifiées.

Un autre défi consistait à garantir que le modèle soit sûr et respectueux, un sujet que la documentation de Meta traite en profondeur. Les auteurs ont développé un filtre de sécurité rejetant les réponses inappropriées ou non conformes. Ils ont également intégré un mécanisme de « tampon » arrêtant temporairement l'entraînement en cas de détection de réponses dangereuses.

En termes d'itérations, les auteurs ont effectué plusieurs cycles d'ajustement et d'évaluation, affinant progressivement les paramètres du modèle. Ils ont également expérimenté différents hyperparamètres et techniques, comme l'ajout de couches supplémentaires ou la modification de la fonction de récompense, pour optimiser les performances.

Globalement, le succès de Llama 2 repose sur une combinaison de facteurs, notamment l'utilisation du RLHF, l'optimisation des itérations à grande échelle, le choix judicieux des hyperparamètres et des techniques innovantes pour relever des défis spécifiques.

ChatGPT

ChatGPT est un service lancé le 30 novembre 2022 par OpenAI et est actuellement proposé sous forme de GPT-3.5 ou GPT-4, membres de la série de modèles de Transformers génératifs pré-entraînés (GPT) appartenant à OpenAI. ChatGPT n'est pas un modèle entraîné à partir de zéro, mais une version améliorée de GPT-3 dotée de capacités de conversation (chatbot) et d'une mémoire étendue. Le modèle GPT-3 original a été entraîné sur un immense ensemble de données Internet (570 gigaoctets de texte et 175 milliards de paramètres), incluant Wikipedia, Twitter et Reddit.

Image 6, Quantité de données utilisées par OpenAI pour l'entraînement de ChatGPT.

Pour perfectionner ChatGPT, l'équipe a utilisé une méthodologie similaire à celle d'InstructGPT. En ce qui concerne les données, le développement de ChatGPT a utilisé des informations publiques sur Internet, des informations sous licence tierce et des données fournies par des utilisateurs ou des formateurs humains. Voici la description du processus.

Le développement et l'entraînement ont été multifacettes : apprentissage supervisé, modèle de récompense, pré-entraînement génératif et apprentissage par renforcement avec feedback humain. Comme l'équipe de Meta le fera plus tard, OpenAI a utilisé le RLHF pour ajuster ChatGPT aux préférences humaines.

1. Pré-entraînement génératif

Initialement, ChatGPT a été pré-entraîné sur un vaste corpus de données textuelles, provenant principalement de CommonCrawl et, dans une moindre mesure, de Wikipedia et de livres. L'idée centrale était d'apprendre un modèle statistique du langage capable de générer des textes grammaticalement corrects et sémantiquement cohérents. L'apprentissage non supervisé a été utilisé pour que le modèle apprenne à prédire le mot suivant. L'architecture Transformer joue un rôle fondamental dans cette phase car elle permet au modèle de comprendre les relations entre les mots, apprenant ainsi la syntaxe et la sémantique.

2. Ajustement supervisé

Après le pré-entraînement, le modèle a subi une phase d'ajustement supervisé sur un ensemble de données plus spécifique aux dialogues conversationnels. Cet ensemble de données est généralement généré avec l'aide d'instructeurs humains en IA qui engagent des conversations et fournissent les réponses correctes. Cette phase affine la capacité du modèle à générer des réponses contextuellement pertinentes et cohérentes.

3. Apprentissage par renforcement à partir du feedback humain (RLHF)

La phase finale consiste en l'apprentissage par renforcement, où le modèle est affiné via la méthode RLHF. Ici, les formateurs d'IA interagissent avec le modèle et les réponses générées par ChatGPT sont classées selon leur qualité. Ce classement forme un modèle de récompense qui guide le processus d'apprentissage par renforcement. En utilisant cette boucle de rétroaction, la méthode RLHF aide à minimiser la génération de textes jugés nuisibles, biaisés ou faux. Plusieurs itérations sont réalisées pour améliorer continuellement les performances.

L'ensemble de données utilisé pour entraîner ChatGPT a surpris la communauté scientifique par son ampleur. Grâce au RLHF, il inclut un riche ensemble de données conversationnelles sélectionnées pour apprendre les nuances du dialogue humain. Les données ont subi un pré-traitement par jetonisation (tokenization) et normalisation. La jetonisation décompose le texte en unités plus petites, et la normalisation assure la cohérence de la représentation, ce qui est crucial pour un modèle robuste.

De plus, les créateurs de ChatGPT ont employé un modèle de récompense pour renforcer l'apprentissage. Ce mécanisme itératif est fondamental pour affiner le modèle et générer des réponses de meilleure qualité, plus précises et plus sûres au fil du temps.

Le processus de formation de ChatGPT a été méticuleusement conçu pour doter le modèle d'une compréhension étendue du langage, perfectionner ses capacités d'interaction et affiner ses réponses selon les commentaires humains.

Que peut-on faire avec un LLM une fois entraîné ?

Une fois qu'un LLM a été entraîné, il peut être affiné pour une large gamme de tâches de TLN, notamment :

Création de chatbots comme ChatGPT.
Génération de textes pour des descriptions de produits, des articles de blog et des articles de presse.
Réponse aux questions fréquemment posées (FAQ) et orientation des demandes clients vers la personne appropriée.
Analyse des commentaires clients dans les e-mails, les réseaux sociaux et les avis produits.
Traduction de contenus professionnels ou conversationnels dans différentes langues (bien que les langues moins représentées aient une qualité inférieure et que la traduction soit plus lente et plus coûteuse qu'avec les réseaux neuronaux classiques).
Classification et catégorisation de grands volumes de données textuelles pour une analyse plus efficace.

Chinchilla et le point optimal pour l'entraînement des LLM

Le document « Chinchilla » ^[1], une contribution majeure au domaine de l'IA, offre des perspectives intéressantes sur l'entraînement des LLM. Les expériences indiquent qu'il existe un « point optimal » (sweet spot) et qu'au-delà de ce point, investir plus de ressources dans des paramètres supplémentaires ne conduit pas nécessairement à une augmentation proportionnelle des performances. Le document souligne que ce n'est pas seulement la taille d'un modèle qui compte, mais aussi la qualité et la quantité des données utilisées.

Les auteurs ont découvert que pour un entraînement optimal en termes de calcul, la taille du modèle et le nombre de jetons d'entraînement doivent évoluer de pair : pour chaque doublement de la taille du modèle, le nombre de jetons d'entraînement doit également doubler.

Pour tester cette hypothèse, ils ont entraîné Chinchilla, un modèle de 70 milliards de paramètres entraîné sur 1,4 billion de jetons. Bien qu'il soit plus petit que Gopher, comme on le voit dans le tableau suivant, Chinchilla surpasse Gopher dans presque toutes les évaluations.

Image 7, Données d'entraînement de Chinchilla.

Clarifions les concepts : les LLM hallucinent-ils ?

Dans un sens, les LLM « hallucinent » effectivement car ils ont été entraînés sur de vastes quantités de données pouvant contenir des informations erronées ou biaisées. Lorsqu'ils génèrent du texte, ils peuvent incorporer ces erreurs. Cela peut donner l'impression qu'ils hallucinent, car ils produisent des informations qui ne sont pas réelles, mais de manière si catégorique qu'elles peuvent tromper l'utilisateur.

Presque tous les efforts lors de l'application du RLHF visent à éviter la production de textes dangereux ou inutiles, comme décrit dans l'article de Meta sur Llama 2 ou celui d'OpenAI sur ChatGPT.

Tous les LLM utilisent CommonCrawl et diverses sources Internet comme base d'apprentissage. Malgré le nettoyage, il est impossible de vérifier chaque information sur des téraoctets de texte. C'est pourquoi un LLM a une « date de coupure » (cut-off date) de connaissances, bien que des efforts soient faits pour intégrer des résultats web en temps réel.

Image 8, Les LLM peuvent halluciner. Gracieuseté de Bing Image Creator

Par exemple, un LLM entraîné avec des données météo obsolètes pourrait affirmer que la température moyenne d'un pays est de 20°C alors qu'elle est de 17°C. Ce serait une hallucination.

Les LLM peuvent aussi halluciner car ils sont conçus pour être créatifs et « génératifs ». Leurs autres capacités (coder, traduire) sont apparues de manière non intentionnelle suite à la reconnaissance de motifs linguistiques.

Lorsqu'on lui pose une nouvelle question, il peut générer une réponse intéressante mais inexacte. Au début de l'année, les critiques qualifiaient souvent ChatGPT de « perroquet stochastique ».

Enfin, les LLM ne sont pas des êtres conscients. L'information qu'ils génèrent est simplement une fonction des données sur lesquelles ils ont été formés.

La fameuse fenêtre d'attention

La fenêtre d'attention est un concept fondamental qui définit la portée des jetons auxquels un LLM peut se référer lors de la génération du jeton suivant. Cette fenêtre détermine la quantité de contexte prise en compte.

À leurs débuts, les modèles avaient des fenêtres d'attention de quelques jetons seulement. Par exemple, à l'époque de la traduction automatique statistique, elle se limitait à quelques n-grammes (mots). Avec la traduction automatique neuronale, elle s'est étendue à une phrase entière. ChatGPT et les LLM modernes ont porté cette fenêtre à environ 64 000 jetons (plus de 50 000 mots), soit la taille d'une thèse de doctorat.

Image 9, Les fenêtres d'attention de la traduction automatique statistique à la neuronale puis aux LLM. Présentation de Pangeanic à l'Université de Surrey (Convergence Lectures), octobre 2023.

Cette augmentation a permis de générer des textes cohérents au niveau global d'un document entier, et non plus seulement localement.

La taille de la fenêtre impacte la génération :

Une petite fenêtre peut mener à des répétitions ou à un manque de sens contextuel.
Une grande fenêtre permet un texte plus riche et original. Cependant, une fenêtre excessivement grande pourrait ralentir la génération ou produire de l'incohérence si le modèle est submergé.

LLM et IA générative : ce n'est pas la même chose

Il est crucial de distinguer les LLM de l'IA générative. Alors que les LLM se concentrent sur le texte, l'IA générative englobe un spectre plus large et multimodal (images, musique, etc.). Tous les LLM font partie de l'IA générative, mais toute l'IA générative n'est pas un LLM.

Par exemple, Claude 2 d'Anthropic ou ChatGPT sont des LLM, tandis que Stable Diffusion ou Bing Image Creator sont de l'IA générative produisant des images.

Exemples de modèles de langage populaires

ChatGPT : le chatbot d'OpenAI.
PaLM : Pathways Language Model de Google, capable de raisonnements arithmétiques et d'expliquer des blagues.
BERT : développé par Google pour comprendre le langage naturel.
XLNet : un modèle de permutation qui prédit les jetons dans un ordre aléatoire.
GPT : les modèles fondateurs d'OpenAI (GPT-3, GPT-4, etc.).

Regard intégral sur l'utilisation des LLM, avantages et défis

Les LLM redéfinissent l'interaction homme-machine et les processus industriels.

Applications polyvalentes

Récupération d'informations : Google et Bing les utilisent pour résumer les données.
Analyse de sentiment : précieux pour le marketing.
Génération de texte et de code : une polyvalence étonnante.
Chatbots : révolution du service client.

Secteurs d'activité

Technologie : assistance au codage.
Santé : interprétation d'informations génétiques.
Juridique et finance : détection de fraudes et interprétation des lois.

Défis et limites

Hallucinations : réponses factuellement fausses.
Sécurité et biais : risque de désinformation.
Droits d'auteur : préoccupations sur l'obtention des données d'entraînement (clauses « anti-crawl »).
Déploiement : nécessite une infrastructure complexe.

Cas d'utilisation des LLM aujourd'hui et demain

Selon Gartner, le potentiel d'application ne cesse de croître.

Cas d'utilisation actuels :

TLN : classification, traduction, reconnaissance vocale.
Chatbots : réduction des coûts de support.
Traduction : suppression des barrières linguistiques.
Résumé : gain de temps.
Génération de contenu : accélération de la création.
Révision juridique : analyse de contrats.

Cas d'utilisation futurs :

IA conversationnelle améliorée : dialogues plus sophistiqués.
Reconnaissance des émotions : réponses empathiques.
IA explicable (XAI) : transparence des décisions.
Communication multimodale : mélange de texte, image et vidéo.
Edge AI : traitement local sur appareils mobiles.

Implications sociales des grands modèles de langage

Les LLM peuvent transformer l'éducation et la créativité, mais posent des risques de manipulation et de création de faux contenus. À mesure qu'ils évoluent, leur rôle dans nos vies deviendra central.

Défis restants

Le biais et la sécurité restent les principaux obstacles. Il est crucial de développer des mesures de protection contre l'utilisation malveillante (discours de haine, propagande).

Nous ne pouvons terminer sans citer Yann LeCun, responsable de l'IA chez Meta :

« Une chose que nous savons, c'est que si les futurs systèmes d'IA sont construits sur le même modèle que les LLM autorégressifs actuels, ils pourront avoir beaucoup de connaissances, mais ils resteront stupides. »

« Ils continueront d'halluciner, seront difficiles à contrôler et se contenteront de régurgiter ce sur quoi ils ont été formés. »

« PLUS IMPORTANT ENCORE, ils seront toujours incapables de raisonner, d'inventer des choses nouvelles ou de planifier des actions. »

« Les systèmes du futur "devront" utiliser une architecture différente, capable de comprendre le monde, de raisonner et de planifier. »

« Ils seront plus intelligents que nous, mais resteront sous notre contrôle. Ils nous rendront "plus" intelligents. »

- Yann LeCun, VP de l'IA chez Meta

Sources :

[1] How Does Llama-2 Compare to GPT-4/3.5 and Other AI Language Models https://www.promptengineering.org/how-does-llama-2-compare-to-gpt-and-other-ai-language-models/

[2] Llama 2 is about as factually accurate as GPT-4 for summaries and is 30X cheaper https://www.anyscale.com/blog/llama-2-is-about-as-factually-accurate-as-gpt-4-for-summaries-and-is-30x-cheaper

[3] The Battle for AI Brilliance! Llama 2 vs. ChatGPT | by Stephen - Medium https://weber-stephen.medium.com/unleashing-the-ultimate-ai-battle-llama-2-vs-chatgpt-gpt-3-5-a-creative-showdown-9919608200d7

[4] 6 main differences between Llama 2, GPT-3.5 & GPT-4 - Neoteric https://neoteric.eu/blog/6-main-differences-between-llama2-gpt35-and-gpt4/

[5] Fine-tune your own Llama 2 to replace GPT-3.5/4 | Hacker News https://news.ycombinator.com/item?id=37484135

[6] GPT-3.5 is still better than fine tuned Llama 2 70B (Experiment using prompttools) - Reddit https://www.reddit.com/r/OpenAI/comments/16i1lxp/gpt35_is_still_better_than_fine_tuned_llama_2_70b/

Voir l'article complet