9 lecture des minutes

04/09/2024

Word embeddings : Un guide facile à comprendre

EXPERT

LinkedIn, les articles de blog et les médias sociaux regorgent de contenus décrivant comment les word embeddings sont à la base de GenAI - la pierre angulaire de tout ce qui concerne l'IA. Si vous parlez à un ingénieur en machine learning, à un data scientist ou à un mathématicien, vous trouverez probablement le concept de "word embeddings" derrière une grande partie de la science du NLP et de l'IA générative qui nous entourent depuis fin 2022 et les ondes de changement qu'elle a envoyées à travers le monde tel que nous le connaissions.

Si, en 2021, nous avions prédit que "l'IA lira du texte pour découvrir des informations pour vous", cette affirmation était basée sur la compréhension du fonctionnement des word embeddings et des premières expériences.

Les word embeddings sont des représentations numériques de mots dans un espace vectoriel à haute dimension. Ils capturent les relations sémantiques entre les mots en fonction de leurs modèles d'utilisation dans de grands corpus de texte. Mais tout le monde n'a pas une formation en ingénierie ou en mathématiques pour comprendre.

En tant que traducteur, vous comprenez que les mots ont des significations et des relations complexes. Les word embeddings sont un moyen de représenter mathématiquement ces complexités, ce qui aide les ordinateurs à traiter et à comprendre le langage de manière plus proche des humains.

imagen (2)

Imaginez un vaste espace multidimensionnel où chaque mot d'une langue est représenté par un point unique. Ce point est défini par une liste de nombres (un vecteur). Les mots ayant des significations ou des modèles d'utilisation similaires se retrouvent plus proches dans cet espace.

Par exemple, "chien" et "chat" pourraient être relativement proches dans cet espace parce qu'ils sont tous deux des animaux de compagnie courants. "Félin" serait très proche de "chat", tandis qu'"automobile" serait loin des deux.

Ces représentations sont créées en analysant d'énormes quantités de texte (corpora) pour voir comment les mots sont utilisés en contexte. Si deux mots apparaissent souvent dans des contextes similaires, l'ordinateur suppose qu'ils sont liés et les positionne plus près dans cet espace mathématique.

Pour un traducteur, ce concept est précieux car :

Il aide à capturer les nuances de sens qui pourraient exister entre les langues.
Il peut suggérer des synonymes ou des mots connexes qui pourraient être utiles dans la traduction.
Il constitue la base de nombreux systèmes de traduction automatique modernes.

Comprendre les word embeddings peut vous donner un aperçu du fonctionnement des outils de traduction automatique et des raisons pour lesquelles ils font certains choix dans les traductions.

Voici quelques points de base pour une lecture plus approfondie sur les word embeddings :

Représentation vectorielle : Chaque mot est représenté comme un vecteur dense de nombres réels.
Similarité sémantique : Les mots ayant des significations similaires sont placés plus près les uns des autres dans l'espace vectoriel.
Dimensionnalité : Ils varient généralement de 50 à 300 dimensions, permettant une riche représentation des relations entre les mots.
Utilisations : Courant dans les tâches de natural language processing comme la traduction automatique, l'analyse de sentiment et la classification de texte.
Méthodes d'entraînement : Peuvent être créés en utilisant des techniques telles que Word2Vec, GloVe ou FastText.
Analogies : Peuvent capturer des relations sémantiques, permettant des opérations comme "roi - homme + femme = reine".

Comment les word embeddings sont-ils entraînés ?

Les word embeddings sont généralement entraînés sur de grands corpus de texte. Le principe sous-jacent est que les mots apparaissant dans des contextes similaires ont tendance à avoir des significations similaires.

Il existe deux méthodes d'entraînement populaires :

Continuous Bag of Words (CBOW) : Prédit un mot cible en fonction de ses mots de contexte.
Skip-gram : Prédit les mots de contexte étant donné un mot cible.

Propriétés et capacités des word embeddings

Compositionnalité : Les vecteurs de mots peuvent être combinés (par exemple, en faisant la moyenne) pour représenter des phrases ou des paragraphes. C'est une excellente fonctionnalité pour aller au-delà du niveau des mots au niveau de la phrase ou du paragraphe, et ainsi "transmettre un message".
Embeddings multilingues : C'est très intéressant pour la traduction automatique ou pour transférer des connaissances d'une langue à une autre, car l'embedding de mots peut cartographier des mots de différentes langues dans un espace vectoriel partagé (par exemple, le concept de "car" et "coche" en espagnol européen ou "carro" en espagnol latino-américain, le concept d'"automobile" et "automóvil", "means of transport" et "medio de transporte", etc.)
Gestion des mots hors vocabulaire : Certains modèles comme FastText peuvent générer des embeddings pour des mots invisibles basés sur des informations de sous-mots. C'est utile quand vous faites face à de nouveaux mots comme "Fitfluencer".

Limitations des word embeddings

Polysémie : Les word embeddings standard ont du mal avec les mots qui ont plusieurs significations, c'est-à-dire le phénomène des mots ayant plusieurs significations distinctes.

Les modèles traditionnels de word embeddings comme Word2Vec ou GloVe attribuent un seul vecteur à chaque mot, indépendamment de ses multiples significations potentielles. Cette approche conduit à une conflation de sens, où le vecteur devient une représentation moyenne de tous les sens possibles du mot. En conséquence, l'embedding peut ne pas représenter avec précision une seule signification, diluant la précision sémantique de la représentation.

Le problème est aggravé par la nature insensible au contexte de ces embeddings. Dans le langage naturel, la signification d'un mot polysémique est souvent déterminée par son contexte environnant. Les word embeddings standard, cependant, ne tiennent pas compte de ces informations contextuelles, ce qui peut conduire à des interprétations erronées potentielles dans les applications en aval.

Considérez des mots comme "banque", qui pourrait faire référence à une institution financière ou au bord d'une rivière, ou "usine", qui pourrait signifier végétation ou une fabrique. Dans ces cas, le word embedding a du mal à différencier ces significations distinctes, ce qui peut entraîner des erreurs dans des tâches telles que la traduction automatique, la récupération d'informations ou l'analyse de sentiment où la compréhension du sens correct d'un mot est cruciale.

Cette limitation peut avoir des effets quantitatifs significatifs sur la performance des modèles de NLP. La recherche a montré que la précision des modèles de word embeddings diminue souvent de façon marquée pour les mots polysémiques par rapport aux mots monosémiques (à sens unique). Cette diminution des performances peut se produire en cascade à travers diverses tâches de NLP telles que la traduction automatique ou l'analyse de sentiment, affectant la fiabilité et l'efficacité globales des systèmes s'appuyant sur ces embeddings. Cette nature statique est un problème important dans les embeddings traditionnels, car ils attribuent un vecteur fixe à chaque mot, quel que soit le contexte.

Mais cette limitation reste un domaine de recherche actif dans le domaine du natural language processing. C'est pourquoi les glossaires, une fonction de glossaire et la gestion de la terminologie restent un domaine d'expertise en traduction automatique pour les entreprises de traduction et les traducteurs.

Encodages positionnels :

Les encodages positionnels sont toujours ajoutés aux embeddings de tokens pour incorporer l'ordre des tokens dans la séquence, permettant au modèle de comprendre la structure du texte.

Couches de Transformer :

Les tokens intégrés (plus les encodages positionnels) passent à travers plusieurs couches de Transformer, où les mécanismes d'auto-attention permettent au modèle de considérer l'ensemble du contexte d'une séquence, améliorant la pertinence contextuelle des embeddings.

Techniques avancées pour surmonter ces limites initiales : Retrofitting pour améliorer les word embeddings avec des connaissances externes

Le retrofitting est une technique sophistiquée dans le domaine du natural language processing qui vise à affiner les word embeddings pré-entraînés en incorporant des informations provenant de sources de connaissances externes. Cette méthode aborde certaines des limitations inhérentes aux word embeddings standard, en particulier leur difficulté à gérer la polysémie et le manque d'informations sémantiques ou relationnelles explicites.

À la base, le retrofitting ajuste les vecteurs de word embeddings pré-entraînés pour mieux s'aligner sur les relations sémantiques définies dans les ressources lexicales externes. Ces ressources peuvent inclure des bases de données linguistiques complètes comme WordNet ou FrameNet, ou même des ontologies spécifiques à un domaine. Le processus commence par des word embeddings pré-entraînés, tels que ceux générés par des algorithmes populaires comme Word2Vec, GloVe ou FastText. Ces embeddings initiaux capturent la sémantique distributionnelle basée sur les co-occurrences de mots dans de grands corpus de texte.

La procédure de retrofitting utilise ensuite un lexique sémantique ou une base de connaissances qui définit les relations entre les mots. Cette ressource externe fournit des informations structurées sur les significations et les connexions des mots qui peuvent ne pas être entièrement capturées par les seules méthodes distributionnelles. L'algorithme met à jour les vecteurs de mots de manière itérative, rapprochant les mots sémantiquement liés dans l'espace vectoriel tout en conservant la similarité avec leurs embeddings originaux.

Mathématiquement, le retrofitting implique généralement de minimiser une fonction de coût qui équilibre deux objectifs principaux. Le premier consiste à garder les vecteurs adaptés proches de leurs valeurs originales pré-entraînées, en préservant les précieuses informations distributionnelles apprises des grands corpus de texte. Le second consiste à s'assurer que les mots connectés dans la ressource sémantique ont des représentations vectorielles similaires, incorporant ainsi la connaissance structurée dans l'espace d'embedding.

Cette approche offre plusieurs avantages par rapport aux word embeddings standard. Premièrement, elle améliore la précision sémantique en capturant des relations de mots plus nuancées qui sont explicitement définies dans la ressource de connaissances. Cela peut conduire à de meilleures performances dans diverses tâches de natural language processing, en particulier celles nécessitant une compréhension sémantique fine.

Deuxièmement, le retrofitting facilite l'adaptation au domaine. Les embeddings à usage général peuvent être adaptés à des domaines spécifiques en utilisant des ressources de connaissances spécifiques au domaine, ce qui les rend plus pertinents et précis pour des applications spécialisées. Ceci est particulièrement utile dans des domaines tels que la médecine, le droit ou la finance, où la terminologie et l'utilisation des mots peuvent être très spécialisées.

Troisièmement, le retrofitting peut potentiellement améliorer les représentations des mots rares. Ces mots ont souvent de mauvaises représentations dans les embeddings standard en raison d'occurrences limitées dans le corpus d'entraînement. En tirant parti des connaissances externes, le retrofitting peut améliorer la qualité de ces représentations, ce qui conduit à une meilleure gestion des termes peu communs.

Enfin, le retrofitting préserve les précieuses informations distributionnelles apprises à partir de grands corpus de texte tout en ajoutant des connaissances structurées. Cette combinaison d'approches axées sur les données et basées sur les connaissances aboutit à des embeddings qui bénéficient à la fois des modèles statistiques dans l'utilisation du langage et des informations sémantiques organisées.

En conclusion, le retrofitting représente une technique puissante pour améliorer les word embeddings, comblant le fossé entre les méthodes purement distributionnelles et les ressources de connaissances structurées. Alors que le natural language processing continue d'avancer, des techniques telles que le retrofitting jouent un rôle crucial dans le développement de représentations plus sophistiquées et sémantiquement riches du langage.

Retrofitting: Défis et orientations futures

Le retrofitting des word embeddings est devenu une technique puissante pour améliorer la richesse sémantique des représentations de mots distributionnelles. Cependant, comme toute méthode avancée dans le natural language processing, elle comporte son propre ensemble de défis et de limitations que les chercheurs et les praticiens doivent surmonter.

L'une des principales préoccupations en matière de retrofitting est la qualité de la source de connaissances utilisée. L'efficacité du processus de retrofitting est intrinsèquement liée à l'exhaustivité, à l'exactitude et à la pertinence de la base de connaissances externe utilisée. Si la source de connaissances est incomplète, obsolète ou contient des erreurs, ces lacunes peuvent se propager dans les embeddings adaptés. Cette dépendance souligne l'importance de sélectionner et de vérifier soigneusement les sources de connaissances, en particulier lorsque l'on travaille dans des domaines spécialisés ou dans des contextes multilingues.

Une autre considération est le coût de calcul associé au retrofitting. Alors que les embeddings pré-entraînés sont facilement disponibles et peuvent être utilisés tels quels, le retrofitting introduit une étape supplémentaire dans le pipeline de préparation des embeddings. Ce processus peut être intensif sur le plan informatique, en particulier lorsqu'il s'agit de vocabulaires volumineux ou de graphes de connaissances complexes. Les exigences informatiques accrues peuvent poser des défis dans des environnements à ressources limitées ou lorsqu'un déploiement rapide est nécessaire.

Malgré les améliorations offertes par le retrofitting, les embeddings résultants conservent toujours une limitation fondamentale des word embeddings traditionnels : leur nature statique. Les embeddings retrofittés, comme leurs homologues non retrofittés, attribuent un vecteur fixe à chaque mot, quel que soit le contexte. Cette approche ne répond pas pleinement au défi de la polysémie ou du sens dépendant du contexte. Les mots avec plusieurs sens ou modèles d'utilisation sont toujours représentés par un seul vecteur, qui peut ne pas capturer tout le spectre de leurs nuances sémantiques.

Néanmoins, les embeddings retrofittés ont démontré des améliorations tangibles dans diverses tâches de natural language processing. Dans les jugements de similarité sémantique, ils présentent souvent une meilleure corrélation avec les évaluations humaines, capturant plus précisément les relations nuancées entre les mots. Les tâches de désambiguïsation des sens des mots bénéficient des informations sémantiques supplémentaires incorporées par le retrofitting, permettant une différenciation plus précise entre plusieurs sens des mots. Dans la reconnaissance d'entités nommées, les embeddings retrofittés peuvent tirer parti des connaissances externes pour mieux représenter les noms propres et la terminologie spécifique au domaine. Les tâches de classification de texte montrent également des améliorations, en particulier lorsque la classification repose sur des distinctions sémantiques fines.

À l'avenir, le domaine du retrofitting continue d'évoluer, avec plusieurs directions de recherche prometteuses. Un domaine d'intérêt est la combinaison efficace de multiples sources de connaissances. Les chercheurs explorent des moyens d'intégrer des informations provenant de diverses ressources lexicales, ontologies et graphes de connaissances pour créer des embeddings retrofittés plus complets et robustes. Cette approche vise à tirer parti des forces des différentes sources de connaissances tout en atténuant leurs limites individuelles.

Une autre avenue passionnante est le développement de techniques de retrofitting dynamiques. Ces méthodes visent à remédier à la nature statique des embeddings traditionnels en adaptant le processus de retrofitting au contexte. L'objectif est de créer des embeddings qui peuvent représenter de manière flexible les mots en fonction de leur utilisation dans des contextes spécifiques, résolvant potentiellement les ambiguïtés et capturant plus efficacement les variations de sens subtiles.

En outre, des travaux sont en cours pour intégrer des concepts de retrofitting avec des modèles d'embedding plus avancés tels que BERT ou GPT. Ces modèles d'embedding contextualisés ont révolutionné de nombreuses tâches de NLP, et les chercheurs explorent des moyens d'incorporer des connaissances externes dans ces architectures. Cette intégration pourrait potentiellement combiner les forces des représentations contextuelles profondes avec les informations sémantiques structurées fournies par le retrofitting.

Le retrofitting représente une étape importante pour combler le fossé entre les méthodes purement distributionnelles de représentation des mots et les approches plus structurées pour capturer le sens sémantique dans le natural language processing. Bien que des défis subsistent, la recherche et le développement en cours dans ce domaine promettent de produire des représentations de mots encore plus puissantes et nuancées, améliorant davantage notre capacité à traiter et à comprendre le langage naturel de manière de plus en plus sophistiquée.