Qu'est-ce que les réseaux de neurones pour la traduction automatique?

Rédigé par Mercedes García | 01/15/26

Le processus de traduction d'une langue à une autre n'est pas une mince affaire. Les professionnels de la traduction et de l'interprétation ont besoin de plusieurs années d'études pour maîtriser parfaitement une langue et réaliser des traductions simultanées. Créer un système informatique capable d'exécuter ce processus de manière automatique est un défi, car chaque langue dépend non seulement de son vocabulaire, mais aussi de normes et de règles qu'il faut traiter. Ce sont pourtant les réseaux de neurones pour la traduction automatique qui semblent avoir trouvé la solution pour traduire des structures de manière intelligente au-delà d'un simple groupe de mots, en imitant les structures syntaxiques et grammaticales entre des langues sans lien de parenté.

Évolution de la traduction automatique

La traduction automatique est un domaine de l'informatique qui étudie l'utilisation d'outils logiciels pour traduire du texte ou du langage parlé. Au début, les traductions reposaient sur le remplacement de mots atomiques d'une langue à l'autre, avec peu de notion du contexte. Il s'agissait de traductions mécaniques, « mot à mot », qui, dans la plupart des cas, ne s'adaptaient pas au contexte. De ce fait, les systèmes de traduction automatique ne fonctionnaient que comme des outils utiles pour traduire du vocabulaire ou entre des langues d'une même famille aux structures similaires, mais jamais comme une forme d'interprétation fiable pour des phrases ou des textes moyennement complexes, où se combinent différents types de mots : noms, adjectifs, adverbes, prépositions, verbes, etc.

Avec l'évolution des programmes, de nouveaux outils logiciels sont apparus, permettant de choisir une profession ou un secteur concret pour lequel on souhaite réaliser une traduction. Il est ainsi possible de mieux délimiter les aspects de substitution des termes, chaque secteur utilisant généralement certains mots de manière spécifique ou appliquée à des processus particuliers : mots polysémiques, expressions, nomenclatures, etc. Cela s'apparente à la traduction d'un jargon déterminé.

 

 

Un saut qualitatif dans le domaine de la traduction

Actuellement, dans un monde de plus en plus globalisé, la société manifeste un grand intérêt pour le développement des systèmes de traduction automatique. La possibilité de compter sur des outils ou des dispositifs permettant des traductions fiables de phrases et d'expressions est vitale pour que les citoyens puissent voyager et communiquer de manière fluide. Pour mener à bien cette tâche, les dernières avancées reposent sur l'utilisation de réseaux de neurones comme étant la meilleure façon d'automatiser tout type de processus nécessitant un apprentissage. Ces réseaux font partie du domaine de l'intelligence artificielle et semblent offrir des résultats bien supérieurs à la technique dominante jusqu'à récemment : la traduction automatique statistique.

Sur le plan linguistique, les réseaux de neurones pour la traduction automatique offrent des résultats réellement étonnants.

Informatique et réseaux de neurones

En quoi consiste ce modèle ? Un ordinateur ou un système informatique peut-il reproduire le processus d'apprentissage ?


Le concept de réseau de neurones n'est pas réellement complexe : il consiste à imiter le fonctionnement des réseaux neuronaux des organismes vivants. En revanche, la création de cette intelligence artificielle, les poids et les prépondérances de chacun des nœuds ainsi que leurs relations le sont. Nous parlons d'un ensemble de liens qui travaillent ensemble, sans qu'aucun n'ait une tâche spécifique assignée. Pour tirer profit du fonctionnement des réseaux de neurones, il faut comprendre que le processus repose sur l'établissement d'une série de paramètres qui, combinés, sont capables de fournir une conclusion ou un résultat exact. Les programmes doivent être capables d'apprendre en profondeur (deep learning) et d'ajuster leur fonctionnement au fil du temps.

Le problème principal n'est pas d'analyser les paramètres que l'on souhaite mettre en relation, mais de déterminer comment établir la combinaison entre les différents paramètres au moment de générer une réponse.

Biologie et informatique : le germe des réseaux de neurones

Si l'on demandait à une personne de calculer la racine carrée de 7 avec plusieurs décimales de précision sans l'aide d'une feuille ni d'un stylo, cela serait impossible pour n'importe qui. Un ordinateur peut réaliser ce type de calculs mathématiques en un instant et sans erreur. C'est une tâche extrêmement simple dans le domaine de l'informatique. Même une simple calculatrice peut le faire.


En changeant de perspective et en prenant une tâche humaine comme point de départ, il existe des actions que n'importe qui peut accomplir. Lancer une pièce en l'air ou reconnaître la différence entre un arbre et une plante est un processus extrêmement simple pour tout humain (indépendamment de certaines limitations physiques ou cognitives). Cependant, pour une machine, chacun de ces aspects est réellement complexe. Elle doit apprendre à reconnaître des motifs, des caractéristiques, des différences et parvenir à une conclusion.


Un ordinateur, contrairement à un être vivant (et pas seulement l'humain), a besoin d'effectuer une quantité immense de calculs et de temps pour traiter des paramètres simples d'un point de vue biologique, tels que :


- La reconnaissance de formes.
- La classification de formes et d'objets.
- Le contrôle automatique d'appareils ou de dispositifs.

À titre d'exemple, les meilleurs ingénieurs dédiés au développement de radars et de systèmes sonars envient réellement une simple chauve-souris. La capacité de ce mammifère à déterminer la vitesse relative d'une proie, sa taille et la position des obstacles environnants est un véritable miracle du point de vue informatique.


Ce type de questions est à l'origine des réseaux de neurones et du deep learning (apprentissage profond). Ce domaine étudie la manière de mettre en relation des concepts et de faire en sorte que les machines puissent réaliser des processus d'association aussi rapidement que les êtres vivants. Pour cela, il est nécessaire de rechercher quels avantages possède le cerveau au moment d'associer des concepts que les ordinateurs ont tant de mal à identifier.


Il est curieux de noter que les réseaux de neurones sont beaucoup plus simples et lents qu'un processeur (CPU). De plus, ils ne sont pas totalement fiables car, dans les processus cognitifs, il existe souvent des points d'erreur. Ce fait est très visible à travers les énigmes visuelles que l'on trouve partout sur Internet. Sans aller plus loin, cette « erreur cognitive » ou ce raccourci perceptif peut être illustré par un tour de magie : même le plus simple profite des défauts de notre capacité visuelle pour nous faire croire qu'un objet peut apparaître et disparaître.

Types de réseaux de neurones

1- Réseau de neurones récurrent

Il repose sur les relations d'entrée et de sortie de concepts. Il s'appuie sur un algorithme composé d'une entrée X et d'une sortie Y. Ces réseaux ne peuvent apprendre que des relations statiques, où l'on cherche à établir un ordre de prédiction (entrée-sortie), ce qui donne pour résultat un scalaire, une « prédiction d'étape ». La variable temps doit être assumée par le réseau et, pour ce faire, deux paramètres sont appliqués :

  • Le retard.
  • La récurrence.


2- Réseau de neurones convolutif

Ces réseaux travaillent en modélisant consécutivement de petites portions d'informations de manière similaire au processus de perception visuelle humaine.

L'information reçue est combinée en couches, de sorte que, dans la première couche, les bords et leurs motifs sont détectés ; dans les couches suivantes, les formes plus simples sont divisées et les motifs liés à la position, à l'éclairage, etc., sont appliqués. Le résultat final ou la « prédiction » obtenue est une somme pondérée de toute l'information manipulée et de la manière dont elle a été traitée.

Plus d'un demi-siècle de recherche

Les réseaux de neurones ne sont pas un domaine nouveau, leurs débuts remontant aux années 40 et 50. Malheureusement, ils n'ont pas obtenu de bons résultats à l'époque en raison de la quantité de ressources informatiques nécessaires pour entraîner et exécuter un réseau performant. Tel était le scénario il y a plus de cinquante ans. Cependant, aujourd'hui, il existe des systèmes de traitement de données capables d'analyser des millions de variables à la fois sans faiblir.


Ces dernières années, de grandes avancées ont été réalisées dans ce domaine grâce à l'amélioration des systèmes informatiques pour ce type de processus.

Traduction simultanée 2.0

Il reste encore un long chemin à parcourir dans le développement des réseaux de neurones, mais des progrès significatifs ont déjà été accomplis dans certains domaines. C'est le cas de la traduction automatique statistique. Connue en anglais sous le nom de SMT (Statistical Machine Translation), elle consiste à envisager la traduction sur la base de modèles statistiques qui établissent des relations entre des groupes de mots. Lorsqu'un programme statistique interprète une phrase, il prend en compte les mots individuels, des groupes de mots et, grâce au modèle de langage appris, les différentes parties de la phrase, en essayant de reconstruire les structures grammaticales dans chaque langue. Mais la traduction automatique statistique a atteint ses limites lorsqu'il s'est agi de traduire entre des langues sans lien de parenté, comme les langues européennes en général et le japonais, ou avec des langues morphologiquement riches, car la casuistique des déclinaisons faisait chuter les statistiques et la fiabilité du système, ou bien le mot n'était tout simplement pas trouvé.

Dans le cas de la traduction neuronale, les principaux réseaux sont :

  • TensorFlow
TensorFlow est une ressource logicielle libre. Il s'agit d'une bibliothèque pour le calcul numérique qui, à travers des formules mathématiques à l'architecture flexible, permet de créer des processus de calcul : sur un ou plusieurs CPU ou GPU, serveurs ou appareils mobiles, avec une simple API. Ce programme a été développé par l'équipe de Google travaillant sur la numérisation des processus cérébraux et l'intelligence artificielle. TensorFlow peut être appliqué dans de nombreux domaines, mais ceux qui travaillent dans le secteur de la traduction automatique savent en tirer le meilleur parti.
  • OpenNMT


OpenNMT est une source ouverte basée sur des systèmes de traduction neuronale via des outils mathématiques. De nombreuses entreprises intéressées par les possibilités qu'il offre collaborent et investissent dans son développement.

Cette source est conçue pour une utilisation simple et facilement extensible à différents types d'applications et de dispositifs, tout en maintenant une efficacité et une fiabilité élevées dans les traductions proposées. Ses avantages et caractéristiques sont :

- Interface d'une grande polyvalence, nécessitant uniquement une source et des fichiers de destination.
- Optimisation de la vitesse et de la mémoire pour le deep learning sur GPU.
- Un modèle de traducteur C++ modifiable.
- Les dernières recherches en modèles de traduction.
- Des extensions pour générer des séquences dans les tâches de résumé.
- Une communauté très active de développeurs, d'institutions et d'entreprises.