Langues qui défient les initiatives de traduction automatique

Rédigé par Laurent Bié | 05/21/24

Parmi plus de 7 000 langues qui existent dans le monde, certaines permettent une application de traduction automatique plus simple, tandis que d'autres présentent un défi important face aux initiatives de traduction automatisée.

Le concept de traduction automatique repose sur la capacité d'un système de traduction à recevoir un texte dans une langue source et à générer un texte de sortie dans une langue cible. Pour ce faire, il applique des règles logiques et statistiques (simples ou plus complexes), et son objectif ultime est de s'approcher le plus possible de la parité avec la traduction professionnelle humaine.

Les techniques actuelles et la disponibilité de nombreuses données bilingues permettent d'atteindre cet objectif dans de nombreux cas. Cependant, certaines langues minoritaires posent toujours des défis à la technologie de traduction actuelle. Nous analysons ce problème et ses solutions potentielles grâce aux systèmes de traduction automatique neuronale.

Les principaux défis de la traduction automatique

Aujourd'hui, les techniques de traduction automatique ont évolué pour inclure plusieurs options : 

  • L'option traditionnelle est connu sous le nom de Rule-based Machine Translation (RBMT) : elle utilise des règles établies pour convertir un texte source dans une nouvelle langue cible. Ces règles sont mises en œuvre par des linguistes et se réfèrent à des aspects sémantiques, syntaxiques et lexicaux.

Le défi ou la limitation la plus importante de cette option est qu'elle nécessite une quantité énorme de règles, qui, en outre, pour être élaborées, nécessitent des linguistes experts.

Dans ce contexte, de nombreux défis importants apparaissent lors de la traduction de langues présentant un alphabet différent du latin ou présentant des systèmes syntaxiques ou verbaux complexes.

  • La deuxième option pour la traduction automatique concerne la traduction automatique statistique (SMT, pour son sigle en anglais). Il s'agit d'une option efficace qui continue de présenter un grand potentiel de nos jours. 

Dans ce cas, le système repose sur de grandes quantités de données à partir desquelles il est capable d'apprendre et de générer des traductions. Cela nécessite un entraînement spécialisé.

Dans les travaux de traduction automatique statistique (SMT), les linguistes humains se limitent à superviser le travail des machines. Cependant, le principal défi réside dans l'accès à des données de qualité : s'il existe des langues où les matériaux traduits sont abondants (anglais, espagnol, français, allemand…), les langues minoritaires sont plus limitées, car il n'existe pas beaucoup de traductions ou les traductions existantes ne sont pas de grande qualité.

Cette limitation correspond en outre à la demande réelle de traductions. Les combinaisons les plus courantes incluent l'anglais et l'espagnol, l'espagnol et l'allemand, l'espagnol et le français, ainsi que l'italien et l'espagnol, pour n'en citer que quelques-unes. Cependant, s'écarter des langues les plus courantes implique un effort supplémentaire, non seulement pour recueillir des données, mais aussi pour le temps nécessaire à la réalisation de ces traductions.

Langues minoritaires

Afin que la traduction automatique statistique soit applicable, il est nécessaire que la langue présente des données suffisantes pour nourrir les algorithmes. Des langues comme l'anglais et l'espagnol ne représentent aucun défi, car il existe des modèles linguistiques de 50 millions de segments ou plus.

Toutefois, comme mentionné, les langues minoritaires (par exemple, le birman ou le gujarati) présentent généralement une moindre disponibilité de données bilingues. Cette limitation restreint la capacité du moteur de traduction automatique et entraîne une baisse de la qualité de la traduction produite.

 

 

Contenu associé : Comment entraîner votre moteur de traduction

 

Comment entraîner une machine à traduire des langues minoritaires

Le manque de données bilingues (la matière première de tout processus de traduction) oblige à l'application de techniques spéciales dans le cas des langues minoritaires. Parmi elles, on distingue l'application de techniques de traduction automatique neuronale.

Traduction automatique neuronale

La traduction neuronale utilise des réseaux de neurones entraînés via l'apprentissage automatique comme algorithme de traduction. Il s'agit donc de l'application de techniques statistiques raffinées permettant de définir un modèle de traduction avec des millions de paramètres, qui convertit finalement le texte original en texte traduit.

Cette forme d'Intelligence Artificielle imite le fonctionnement de la pensée dans le cerveau humain. L'objectif est donc de permettre aux machines d'apprendre la signification des mots, plutôt que de simplement mémoriser des mots ou des phrases. Ce type de traduction automatique ouvre la voie à la gestion de données et de modèles linguistiques plus complexes.

Aujourd'hui, ce type de systèmes est entraîné à partir de millions de pages de texte. L'objectif futur sera de réduire la quantité de données nécessaires à cette formation.

Ainsi, à l'heure actuelle, dans les langues minoritaires, ou devrais-je dire, avec peu de ressources disponibles, la traduction neuronale fonctionne de la même manière qu'avec d'autres langues, bien que le modèle utilisé doive être formé (créé) avec des techniques spéciales.

Parmi ces techniques, on distingue notamment :

  • Génération de données linguistiques synthétiques, c'est-à-dire des données linguistiques spécifiquement créées pour améliorer le processus de traduction automatique. Cette approche s'est avérée efficace pour les traductions du coréen vers l'anglais, selon une étude de Guanghao Xu, Youngjoong Ko et Jungyun Seo de l'université de Séoul.
  • Augmentation de la quantité de données fournies au moteur de traduction automatique, en générant des données via des linguistes natifs de chaque langue.
  • Utilisation de données monolingues

Malgré l'absence de grandes quantités de textes traduits, ou comme on les appelle également, données parallèles, les moteurs de traduction automatique sont capables d'apprendre les relations entre les langues et de générer des traductions de qualité.

Toutefois, les systèmes de traduction automatique neuronaux font également face à une série de défis au cours des prochaines années, tels que l'amélioration de la précision ou l'accélération de l'apprentissage.

Par conséquent, bien que les systèmes de traduction automatique neuronale soient aujourd'hui indispensables dans le secteur de la traduction automatique, ils nécessitent toujours une intervention humaine, une médiation qui dans de nombreux cas est critique.

Comment fonctionne la plateforme ECO de Pangeanic ?

ECO est la plateforme de services linguistiques de Pangeanic qui fournit un service de traduction automatique ou hybride.

En plus d'un logiciel précis et doté des dernières technologies disponibles, Pangeanic dispose également d'une équipe de linguistes professionnels natifs. Ces derniers sont chargés non seulement de former les machines, mais aussi de relire les résultats automatiques avant de les remettre au client.

En combinant le travail et les connaissances de notre équipe humaine avec la technologie de pointe en intelligence artificielle, nous sommes en mesure de répondre aux demandes de nos clients, quelle que soit la langue, même si elle est rarement utilisée ou présente une grande difficulté de traduction.

ECO fonctionne dans le cloud et est accessible à tout utilisateur disposant d'un navigateur et d'une connexion Internet. Conçu pour être intuitif, l'utilisateur peut ainsi traiter directement des textes ou utiliser des fichiers au format souhaité

Nos permettant de traduire automatiquement des centaines de millions de mots en un temps record (mille pages par heure), d'anonymiser le contenu, de résumer, d'extraire des connaissances et des données clés et de convertir des données non structurées en contenu structuré, nos ressources élastiques sont inégalées.

De plus, il s'agit d'un service adapté au e-commerce, aux communications internationales de nature judiciaire et à d'autres solutions de traduction spécifiques.