11 lecture des minutes
03/03/2024
Démystifier le mélange d'experts (MoE) : L'avenir des systèmes GenAI profonds
Comprendre ce qu'est un Mélange d'Experts, comment cela fonctionne et pourquoi il est à la base des meilleures architectures LLM.
Comprendre le concept de Mélange d'Experts
La structure MoE est apparue bien avant que l'apprentissage profond et l'IA ne deviennent des concepts populaires. Initialement proposé en 1991 par Robert A. Jacobs et Michael I. Jordan du Département des Sciences Cognitives et Cérébrales du MIT, ainsi que Steven J. Nowlan et Geoffrey E. Hinton (lauréat du prix Turing, ancien responsable de l'IA chez Google, poste qu'il a quitté en mai 2023) du Département d'Informatique de l'Université de Toronto, le concept de « Mélange d'Experts » (MoE) est une technique d'apprentissage automatique basée sur l'utilisation de masses importantes de données. Elle implique la formation de plusieurs modèles. L'architecture adopte un paradigme de calcul conditionnel, sélectionnant et activant seulement certaines parties d'un ensemble connu sous le nom d'« experts » en fonction des données ou de la tâche. Chaque modèle ou 'expert' se spécialise dans une partie différente de l'espace d'entrée, lui permettant de faire une prédiction pour une entrée donnée. Les prédictions sont ensuite combinées en une sortie finale basée sur les niveaux de confiance des experts. Le MoE se comporte néanmoins comme un seul grand modèle.
Pourquoi utiliser un mélange d'experts ?
Le MoE a été utilisé avec succès dans diverses applications dans différents domaines. Dans le domaine du traitement du langage naturel, les modèles linguistiques ont été utilisés pour la traduction automatique, l'analyse des sentiments et les tâches de réponse aux questions. En combinant les prédictions de plusieurs modèles de langage, MoE peut améliorer la précision des traductions et comprendre le sentiment de textes complexes.
Dans le domaine de la vision artificielle, MoE a été utilisé pour la reconnaissance d'objets, le sous-titrage d'images et l'analyse de vidéos. En combinant les résultats de plusieurs modèles, MoE peut identifier avec précision des objets dans des images, générer des légendes descriptives et analyser le contenu de vidéos.
MoE a également trouvé des applications dans les systèmes de recommandation, où il est utilisé pour personnaliser les recommandations en fonction des préférences et du comportement de l'utilisateur. En combinant les prédictions de plusieurs modèles de recommandation, MoE peut fournir des recommandations plus précises et plus diversifiées, ce qui améliore la satisfaction de l'utilisateur.
Les avantages de l'utilisation des MoE dans ces applications sont notamment une plus grande précision, la robustesse aux données complexes et l'adaptabilité aux différentes préférences des utilisateurs. La MoE peut capturer des modèles et des relations complexes dans les données, ce qui permet d'obtenir des prédictions plus précises. Elle est également résistante aux données diverses et bruyantes, ce qui la rend adaptée aux applications du monde réel. En outre, la MoE peut s'adapter aux préférences de l'utilisateur en attribuant des poids aux experts sur la base du retour d'information de l'utilisateur, ce qui permet de fournir des recommandations personnalisées.
Quel est l'objectif d'un mélange d'experts (MoE) dans l'apprentissage automatique ?
Dans l'apprentissage automatique, nous utilisons le terme MoE pour désigner une méthode d'apprentissage d'ensemble qui combine les prédictions de plusieurs modèles "experts" afin d'obtenir des prédictions plus précises et plus robustes. Par exemple, ChatGPT (qui serait un système à huit experts avec 277B paramètres) ou Mixtral 8x7B (qui se présente comme un système à huit experts, mais entraîné sur 7B paramètres). Gardez à l'esprit que le nombre de paramètres ne garantit pas nécessairement de meilleures performances. Des systèmes plus petits et spécialisés qui surpassent ChatGPT dans plusieurs tâches ont déjà vu le jour.
L'idée derrière MoE est que différents modèles peuvent être plus performants pour effectuer des prédictions précises sur des sous-ensembles spécifiques des données, ce qui permet à l'ensemble de dépasser les limites de tout modèle individuel et d'offrir de meilleures performances globales.
“Nous verrons que les petits modèles avec de grandes fenêtres contextuelles, une meilleure attention et l'accès à des référentiels de données privés seront l'avenir de l'IA. Cela permettra aux systèmes d'IA d'utiliser des outils tels que des bases de données vectorielles et des graphes de connaissances pour exploiter les données en temps réel, plutôt que de s'appuyer uniquement sur un apprentissage statique ou dépassé.” - Manuel Herranz, CEO
Comment fonctionne un mélange d'experts
Le fonctionnement d'un MoE repose sur la division des données d'entrée en plusieurs sous-ensembles, ou "groupes," basés sur une métrique de similarité. Chaque groupe est ensuite attribué à un modèle d'expert spécifique, qui est formé pour se spécialiser dans la prévision des données de ce groupe. Chaque expert est formé indépendamment sur un sous-ensemble des données d'entraînement à l'aide d'un algorithme ou d'une architecture spécifique adaptée à ses points forts particuliers. Par exemple, un expert pourrait utiliser un réseau de neurones profonds avec plusieurs couches pour capturer des relations complexes dans les données, tandis qu'un autre pourrait utiliser un modèle de régression linéaire plus simple pour gérer les cas plus simples.
Une fois que tous les experts sont formés, ils sont combinés dans un seul système via un mécanisme de mise en grappe, qui détermine l'importance ou le poids attribué à la sortie de chaque expert en fonction des caractéristiques d'entrée et du niveau de confiance de chaque expert.
Dans la prévision, le MoE détermine d'abord dans quelle région tombe l'entrée, puis utilise le modèle d'expert correspondant pour effectuer la prévision. Cela permet au MoE d'exploiter les points forts de différents modèles pour différentes parties de l'espace d'entrée, ce qui se traduit par des prévisions plus précises et plus robustes. La prévision finale du modèle MoE est une combinaison pondérée des projections de tous les modèles d'expert. Le mécanisme de mise en grappe détermine généralement les poids pour la combinaison.
Composants clés d'un mélange d'experts
Un mélange d'experts est composé de plusieurs composants clés qui travaillent ensemble pour effectuer des prévisions précises. Ces composants comprennent :
-
Experts : Il s'agit de modèles individuels spécialisés dans des sous-tâches spécifiques ou des sous-ensembles de l'espace d'entrée. Chaque expert est responsable de la prévision basée sur ses connaissances spécialisées.
-
Réseau de mise en grappe : Le réseau de mise en grappe détermine les contributions de chaque expert en fonction des données d'entrée. Il attribue des poids à la prévision de chaque expert, garantissant que la sortie de l'expert le plus pertinent soit considérée comme plus importante.
-
Méthode de combinaison : La méthode de combinaison combine les prévisions de tous les experts pour former la prévision finale. Cela peut être aussi simple que la moyenne des sorties ou utiliser des techniques plus sophistiquées, telles que la moyenne pondérée ou l'empilement.
-
Algorithme d'entraînement : L'algorithme d'entraînement est responsable de l'optimisation des paramètres des experts et du réseau de mise en grappe. Il vise à minimiser l'erreur de prévision et à maximiser les performances globales du modèle MoE.
La Porte
Le réseau de mise en grappe ou mécanisme de mise en grappe prend généralement la forme d'un réseau neuronal séparé qui apprend
- à prédire la probabilité qu'une entrée appartienne à chaque groupe, et
- à prédire quel expert donnera les meilleurs résultats pour une entrée particulière.
Cela permet au système dans son ensemble de s'adapter dynamiquement aux nouvelles entrées et d'ajuster les contributions relatives de chaque expert en conséquence. Pendant l'entraînement, à la fois les experts et le mécanisme de mise en grappe sont mis à jour simultanément pour minimiser l'erreur globale sur l'ensemble des données.
Le réseau de mise en grappe prend l'entrée et produit un vecteur de probabilités, qui est ensuite utilisé pour calculer une somme pondérée des prévisions des modèles d'experts. Si vous y réfléchissez, ce Mélange d'Experts commence à mieux refléter le fonctionnement du cerveau des mammifères, avec des zones distinctes pour traiter l'odeur, la vision, le son, etc. Notre propre cerveau active certaines zones pour certaines tâches : nos cerveaux ne sont pas toujours "allumés" à pleine capacité, mais ils travaillent sur de nombreuses tâches en permanence. Les neurologues ont démystifié le "mythe des 10%", une croyance populaire infondée qui affirmait autrefois que les humains n'utilisaient qu'une petite fraction de leur cerveau et pourraient acquérir des pouvoirs magiques seulement s'ils pouvaient réveiller le reste du cerveau. Plutôt que d'agir comme une masse unique, le cerveau a des régions distinctes pour différents types de traitement de l'information. Des décennies de recherche ont été consacrées à la cartographie des fonctions sur des zones du cerveau, et aucune zone sans fonction n'a été trouvée.
La vérité est que certaines zones sont plus "activées" lors de la lecture, d'autres lors de la préparation des aliments et de la cuisson, et d'autres lorsque nous écoutons de la musique ou sommes engagés dans une conversation profonde - mais tout le cerveau est actif même pendant les périodes de sommeil et échange en permanence des informations : régulation, surveillance, sens, interprétation, raisonnement, planification et action. Même les personnes atteintes de troubles neurologiques dégénératifs tels que la maladie d'Alzheimer et la maladie de Parkinson utilisent toujours plus de 10 % de leur cerveau.
En démystifiant le mythe des 10 %, Gabrielle-Ann Torre de Knowing Neurons écrit qu'utiliser tout le cerveau ne serait pas souhaitable non plus, ce qui est exactement comme un MoE fonctionne (alors que plusieurs zones peuvent être actives pour une tâche, seuls deux agents sont utilisés pour l'inférence). Si tout le cerveau était utilisé sans réserve pour toutes les tâches, cela déclencherait presque certainement une crise d'épilepsie. Torre écrit que, même au repos, une personne utilise probablement autant de son cerveau que raisonnablement possible grâce au réseau du mode par défaut, un réseau cérébral étendu qui est actif et synchronisé même en l'absence de toute tâche cognitive. Torre dit que "de grandes portions du cerveau ne sont jamais vraiment inactives, comme le mythe des 10 % pourrait autrement le suggérer."
Le réseau de mise en grappe agit presque comme un maître de cérémonie, sachant quelle expert et zone faire confiance davantage à chaque fois : ce n'est pas la même chose de se concentrer sur la course à pied que d'écrire un texte facile. Ce n'est pas la même chose de demander à un système de traduire le catalan que de lui demander d'écrire du code Python ou de lui faire expliquer le concept de la taxe du conseil au Royaume-Uni.
Avantages d'un mélange d'experts (MoE)
L'un des avantages clés des MoE par rapport à d'autres méthodes d'ensemble comme le bagging ou le boosting est qu'il permet une plus grande flexibilité et une personnalisation accrue des experts individuels. En permettant à chaque expert de se spécialiser dans un aspect particulier de l'espace du problème, les MoE peuvent atteindre une plus grande précision et une meilleure généralisation que cela ne serait possible avec un modèle monolithique unique "bon pour tout", qu'il s'agisse d'un 7B, d'un 13B, d'un 32B ou d'un 70B. La complexité accrue de la méthode s'accompagne également de certains inconvénients, tels que des exigences de calcul accrues et des difficultés potentielles pour optimiser le mécanisme de mise en grappe.
Les modèles MoE se sont révélés efficaces dans une variété d'applications, telles que le traitement du langage naturel, la vision par ordinateur et la reconnaissance de la parole. Ils sont particulièrement utiles dans les situations où les données sont complexes et peuvent être divisées en sous-ensembles distincts, et où différents modèles peuvent être mieux adaptés pour faire des prévisions pour différents sous-ensembles.
L'un des principaux avantages des modèles MoE réside dans leur utilisation plus efficace des ressources de calcul. En spécialisant chaque modèle d'expert dans un cluster spécifique, le système global peut être rendu plus efficace en évitant la nécessité de former un modèle monolithique unique sur l'ensemble du jeu de données. De plus, les modèles MoE peuvent présenter une meilleure robustesse aux changements de distribution des données, car le réseau de mise en grappe peut s'adapter aux changements de données et allouer plus de ressources aux modèles d'experts qui sont les mieux adaptés pour gérer les nouvelles données.
Cependant, les modèles MoE sont beaucoup plus complexes à former et à déployer par rapport aux modèles d'apprentissage automatique traditionnels, car ils nécessitent la formation de plusieurs modèles et un réseau de mise en grappe. De plus, les modèles MoE peuvent être plus enclins à se surajuster si le nombre de clusters ou de modèles d'experts n'est pas choisi judicieusement.
Un autre avantage des modèles MoE réside dans leur grande flexibilité et leur capacité à être facilement adaptés à une large gamme de tâches et de domaines d'entrée. En ajoutant ou en supprimant des modèles d'experts, et en ajustant le réseau de mise en grappe, le MoE peut être facilement personnalisé pour répondre aux besoins d'une tâche ou d'une application particulière.
La formation et la mise en œuvre d'un Mélange d'Experts
La formation d'un Mélange d'Experts implique deux étapes principales : la formation des experts et la formation du réseau de contrôle.
Pour former les experts, les données sont divisées en sous-ensembles en fonction des sous-tâches ou des sous-ensembles de l'espace d'entrée. Chaque expert est formé sur son sous-ensemble correspondant, optimisant ses paramètres pour réaliser des prédictions précises pour cette sous-tâche spécifique.
Une fois que les experts sont formés, le réseau de contrôle est entraîné à l'aide des données d'entrée et des prédictions des experts. Le réseau de contrôle apprend à attribuer des poids à la prédiction de chaque expert en fonction des données d'entrée, garantissant ainsi que la sortie de l'expert le plus pertinent reçoit plus d'importance. Le réseau de contrôle est généralement formé à l'aide de techniques telles que la rétropropagation ou l'apprentissage par renforcement.
La mise en œuvre d'un Mélange d'Experts implique la conception et l'implémentation des experts, du réseau de contrôle et de la méthode de combinaison. Les experts peuvent être n'importe quel modèle d'apprentissage automatique, comme des réseaux neuronaux, des arbres de décision ou des machines à vecteurs de support. Le réseau de contrôle peut être implémenté à l'aide de réseaux neuronaux ou d'autres techniques permettant d'attribuer des poids aux prédictions des experts. La méthode de combinaison peut être aussi simple que la moyenne des résultats ou l'utilisation de techniques plus sophistiquées, selon l'application spécifique.
Il est important d'ajuster soigneusement les paramètres et l'architecture des experts et du réseau de contrôle pour obtenir les meilleures performances. De plus, le processus de formation peut nécessiter une grande quantité de données étiquetées et de ressources informatiques, en fonction de la complexité du problème et des modèles utilisés.
Mélange d'experts traditionnel ou épars
La différence entre les modèles traditionnels de Mélange d'experts (MdE) et les modèles MdE épars réside principalement dans leur architecture et dans la manière dont ils allouent les ressources informatiques. Décortiquons les principales distinctions :
Modèles Mélange d'experts traditionnels :
-
Utilisation d'experts dense : Dans les modèles MdE traditionnels, un nombre significatif d'experts sont généralement actifs pour chaque entrée. Cela signifie que pour tout élément de données donné, plusieurs experts fournissent leurs résultats, qui sont ensuite combinés pour produire le résultat final.
-
Frais généraux de calcul : Étant donné que de nombreux experts sont impliqués dans le traitement de chaque entrée, les modèles MdE traditionnels peuvent être coûteux en termes de calcul. Cela peut conduire à des inefficacités, en particulier lors de l'extension du modèle à de grands ensembles de données ou à des tâches complexes.
-
Expertise uniforme : Souvent, les experts des modèles MdE traditionnels ne sont pas hautement spécialisés. Ils peuvent avoir des compétences ou des connaissances qui se chevauchent, ce qui entraîne un traitement redondant.
Modèles d'experts épars :
-
Activation sélective des experts : Les modèles de MdE épars sont conçus pour n'activer qu'un petit sous-ensemble d'experts pour chaque entrée. Le réseau de contrôle du modèle décide intelligemment quels experts sont les plus pertinents pour la tâche spécifique en cours, réduisant ainsi le nombre d'experts actifs à tout moment.
-
Efficacité et évolutivité : La rareté de l'activation des experts rend ces modèles plus efficaces et plus évolutifs. Ils conviennent mieux au traitement de tâches de grande envergure car ils réduisent la charge de calcul en n'utilisant que les experts nécessaires.
-
Expertise spécialisée : Dans les modèles de MdE épars, les experts sont souvent plus spécialisés. Chaque expert est adapté à un type de tâche ou de données spécifique, ce qui garantit que le modèle exploite les connaissances et les compétences les plus pertinentes pour chaque entrée.
-
Équilibrage de charge et gestion des ressources : Les modèles MdE épars comprennent généralement des mécanismes permettant d'équilibrer la charge entre les différents experts et de gérer les ressources informatiques de manière plus efficace. Ceci est crucial dans les applications à grande échelle, où l'optimisation des ressources est essentielle et notre expérience de l'hébergement à Pangeanic nous montre qu'il est essentiel d'avoir un bon équilibreur de charge fiable lorsque des centaines ou des milliers d'utilisateurs à des heures de pointe ont besoin d'accéder à vos ressources. (Nous ne sommes pas encore à l'échelle des millions d'utilisateurs).
En résumé, alors que les modèles de MdE traditionnels et épars utilisent un ensemble d'experts pour traiter les données, les modèles de MdE épars (la dernière génération) sont plus efficaces dans la manière dont ils utilisent ces experts. En activant de manière sélective un nombre limité d'experts hautement spécialisés pour chaque tâche, les modèles de MdE épars atteignent une plus grande efficacité de calcul et une plus grande évolutivité, ce qui les rend plus adaptés aux applications complexes et à grande échelle.
Les défis et le futur d'un mélange d'experts (MoE) :
Un défi est la sélection et la conception des experts. Il est important de choisir des experts qui se complètent et couvrent différents aspects du problème. La conception d'experts efficaces nécessite une connaissance du domaine et de l'expertise, ainsi qu'un ingénierie des caractéristiques soignée.
Un autre défi est l'entraînement et l'optimisation du réseau de mise en grappe (mécanisme de mise en grappe). Le réseau de mise en grappe doit apprendre à attribuer les poids appropriés à chaque prédiction d'expert en fonction des données d'entrée. Cela nécessite une grande quantité de données étiquetées et de ressources de calcul, ainsi qu'un réglage soigné de l'architecture du réseau et de l'algorithme d'entraînement.
L'avenir du mélange d'experts s'annonce très prometteur et c'est là que Pangeanic concentre ses efforts en matière de personnalisation. Avec les avancées en matière d'apprentissage profond et d'IA, il existe des opportunités d'améliorer les performances et l'efficacité des modèles MoE. Les recherches futures peuvent se concentrer sur le développement de modèles d'experts plus avancés, l'exploration de nouvelles méthodes de combinaison et la recherche de moyens de réduire les exigences de calcul de formation des modèles MoE.
Dans l'ensemble, l'architecture MoE a le potentiel de révolutionner le domaine des systèmes GenAI profonds en exploitant les forces de plusieurs modèles et en capturant des relations complexes dans les données. C'est une zone de recherche passionnante avec des applications prometteuses dans divers domaines.