8 lecture des minutes

22/05/2024

Traduction automatique neuronale contre traduction LLM basée sur des prompts - À quel point sommes-nous proches ?

TRADUCTION ACTUALITÉS BLOG EXPERT

La récente conférence annuelle de l'association GALA à Valence a officiellement lancé la saison des conférences. Et bien sûr, le sujet dominant (l’unique sujet, je dirais) était l'IA, ou plutôt la GenAI (IA générative) et son impact sur l'industrie linguistique, ainsi que le fait de savoir si cette industrie existera encore dans quelques années et la valeur et le rôle des humains dans un monde où l'IA peut produire un contenu fluide aussi bon que les humains.

Je résumerai séparément la contribution de Pangeanic à la conférence et ma participation à trois présentations sur « L'éthique de l'IA dans l'industrie de la traduction », présidées par l’admirable Olga Beregovaya de Smartling, notre cas pratique avec l'agence de presse EFE et « Marcher sur la voie de la résistance à l'utilisation de la GenAI dans la production » avec l’admirable Kirti Vashee de Translated.

L'industrie de la localisation a connu une transition à partir de modèles entraînés sur des corpus bilingues vers des glossaires, la traduction automatique adaptative et maintenant la traduction automatique à partir de grands modèles de langage (LLM) grâce à l'utilisation de la traduction automatique par LLM basée sur des prompts. La traduction automatique neuronale (NMT) reste populaire en raison de sa flexibilité, de son évolutivité et de sa rentabilité.

En 2024, l'approche la plus efficace pour la traduction automatique personnalisée reste la NMT. Je ne parierai pas sur où nous en serons en 2025, pas même à la fin de 2024. Cependant, la traduction automatique adaptative reste la solution de traduction automatique la plus rapide et la plus économique pour la plupart des demandes, et c’est la référence absolue. C'est indubitablement la technologie la plus facile à contrôler et à adapter, et ce ne sont que quelques-unes des raisons de sa validité. Je ne suis pas le seul à défendre la validité de cette technologie : Christian Federmann de Microsoft a toujours défendu la flexibilité des modèles de NMT.

Pourquoi la traduction automatique adaptative (neuronale) règne-t-elle ?

Il y a quatre raisons principales à cela et les personnes présentes à la table ronde « Marcher sur la voie de la résistance » (Kirti Vashee, Jose Palomares et Helena Moniz) les ont abordées progressivement.

1. Évolutivité économique : la NMT a atteint un niveau de maturité qui permet la création de moteurs de traduction automatique à des coûts considérablement réduits, grâce à la disponibilité des corpus parallèles. Cette maturité rend la NMT économiquement abordable pour de nombreuses entreprises, que ce soit sur site ou dans le cloud, ce qui permet aux sociétés de déployer des solutions de traduction automatique de haute qualité sans frais exorbitants.

2. Adaptabilité : les modèles de NMT peuvent être personnalisés rapidement en injectant des données dans un modèle de base à différents niveaux d'adaptation (nous l'appelons « agressivité » car le processus est automatisé par un algorithme). Chez Pangeanic, par exemple, nous pouvons personnaliser des modèles en quelques minutes grâce à différents niveaux d'injection de corpus parallèle, ce qui permet de s'assurer que la sortie de traduction est alignée de près avec les exigences spécifiques des clients. Cette adaptabilité est essentielle pour maintenir la pertinence et la précision des traductions dans différents domaines. Les moteurs adaptés produisent exactement le contenu que les utilisateurs souhaitent.

3. Sortie contrôlée : la NMT excelle dans la production de sorties contrôlées, ce qui la rend idéale dans des domaines spécifiques tels que le commerce en ligne, les logiciels, les soins de santé et même le sous-titrage, rempli de nuances idiomatiques. Le maintien d'une terminologie et d'un style cohérents est essentiel dans ces domaines. Il peut y avoir de nombreux cas de conflits terminologiques entre ces domaines, c'est pourquoi il fait sens de conserver des moteurs différents. Malgré les capacités impressionnantes de la GenAI, le contrôle de la terminologie et du style est essentiel pour les utilisateurs en entreprise. La capacité de la NMT à adhérer à des glossaires et à des guides de style prédéfinis garantit que les traductions répondent aux normes de précision et de cohérence requises.

4. Vérification humaine : un flux de travail professionnel dans le domaine des NMT implique la vérification par un humain des fichiers TMX avant de les injecter dans des moteurs NMT adaptatifs pour un réentrainement. Cette étape est essentielle pour s'assurer que le modèle personnalisé produit des traductions de haute qualité qui répondent aux normes du client. La supervision humaine agit comme une garantie contre les erreurs et les incohérences potentielles, améliorant ainsi la fiabilité globale du système de traduction automatique.

Traduction par LLM basée sur des prompts

La traduction par LLM basée sur des prompts est très populaire. Cependant, il y a des avantages et des inconvénients. L'inconvénient le plus important, selon moi, est le manque de contrôle sur la sortie (et je parle d’après notre expérience de personnalisation de notre modèle ECO LLM 8x7B pour la traduction).

N'oublions pas que les LLM sont de la GenAI, conçus pour être génératifs. Nous sommes habitués à obtenir les mêmes résultats dans les sciences et l'ingénierie si nous appliquons la même formule. Nous savons tous qu'il n'est pas nécessairement garanti d'obtenir la même traduction en posant la même question à un LLM. Ce n’est pas un inconvénient si vous êtes un utilisateur occasionnel, une agence, un cabinet ou une petite entreprise ou bien si vous avez simplement besoin de traduire un e-mail. Je ne me lasse pas d'être surpris de la fluidité de notre ECO LLM pour traduire du japonais ou de l'arabe vers le français, le catalan ou encore l’espagnol, par exemple. Il est bien plus fluide que Google ! La question est donc : pourquoi ne pas utiliser la traduction basée sur des prompts à grande échelle ?

Défis de la traduction par LLM basée sur des prompts

De nombreuses entreprises de traduction automatique et de gestion de traduction (TMS) intègrent la GenAI dans leurs flux de travail. Cette intégration offre des possibilités passionnantes, mais elle comporte également des défis. Selon McKinsey : « La phase de lune de miel de la GenAI est révolue. Alors que la plupart des entreprises l'apprennent, il est relativement facile de construire des démonstrations éblouissantes de la GenAI, mais les transformer en capacités à grande échelle est une autre histoire. La difficulté à faire cette transition explique en grande partie pourquoi seulement 11 % des entreprises ont adopté la GenAI à grande échelle. »

Arabic into English translation by Pangeanics ECO

Arabic into English translation by Pangeanics ECO LLM

Un aperçu de la traduction de l’arabe vers l’anglais par ECO NMT versus la traduction par LLM basée sur des prompts par ECO LLM

J'ai choisi une traduction en anglais pour que la plupart des gens puissent apprécier les différences subtiles.

كما يناقشان كيفية مواجهة الرؤساء التنفيذيين للتحديات الجيوسياسية المتغيرة، وتأثير الذكاء الاصطناعي التوليدي داخل المؤسسات، وكيفية الانتقال نحو استخدام الطاقة المستدامة، بالإضافة إلى ذلك، نستعرض في عدد هذا الشهر مجموعة من الموضوعات البارزة الأخرى التي تدور حول:
كيف تستطيع المؤسسات في مجال التصنيع الاستفادة من الإمكانات الهائلة لتقنيات الذكاء الاصطناعي.

دور المدراء الماليون المهم في تحويل استراتيجيات الشركات من أجل تعزيز قيمتها وخلق فائدة أكبر لها.
استراتيجيات وتقنيات يمكن لمديري عمليات الاستحواذ على صناديق الأسهم الخاصة استخدامها لزيادة القيمة التشغيلية للشركات التي يستحوذون عليها.

أولويات الرؤساء التنفيذيون لتحقيق التميز والريادة خلال فترة قيادتهم.

They also discuss how CEOs face changing geopolitical challenges, and the impact of generative AI within organizations, How to move towards sustainable energy use, In addition, In this month's issue, we will cover a range of other high-profile topics that revolve around:

How can manufacturing organizations take advantage of the enormous potential of AI technologies?

The important role of financial managers in transforming corporate strategies in order to enhance their value and create greater utility for them.

Strategies and techniques that private equity fund acquisition managers can use to increase the operational value of the companies they acquire.

CEO priorities for achieving excellence and leadership during their leadership period.

كما يناقشان كيفية مواجهة الرؤساء التنفيذيين للتحديات الجيوسياسية المتغيرة، وتأثير الذكاء الاصطناعي التوليدي داخل المؤسسات، وكيفية الانتقال نحو استخدام الطاقة المستدامة، بالإضافة إلى ذلك، نستعرض في عدد هذا الشهر مجموعة من الموضوعات البارزة الأخرى التي تدور حول:
كيف تستطيع المؤسسات في مجال التصنيع الاستفادة من الإمكانات الهائلة لتقنيات الذكاء الاصطناعي.
دور المدراء الماليون المهم في تحويل استراتيجيات الشركات من أجل تعزيز قيمتها وخلق فائدة أكبر لها.
استراتيجيات وتقنيات يمكن لمديري عمليات الاستحواذ على صناديق الأسهم الخاصة استخدامها لزيادة القيمة التشغيلية للشركات التي يستحوذون عليها.

أولويات الرؤساء التنفيذيون لتحقيق التميز والريادة خلال فترة قيادتهم

As they discuss how to address the changing geopolitical challenges, the impact of generative AI within institutions, and the transition towards sustainable energy, we will also explore other prominent topics in this month's issue, including:

How manufacturing companies can leverage the immense opportunities provided by AI technologies.

The crucial role of financial managers in translating corporate strategies to enhance a company's value and create greater benefits for it.

Strategies and techniques that corporate raiders can use to increase the operational value of the companies they take over.

Priorities of executives to achieve distinction and leadership during their tenure.

C'est précisément le carrefour où se trouve l'industrie de la traduction. Bien que l'utilisation de ChatGPT pour la traduction soit relativement simple, cela devient beaucoup plus difficile à grande échelle lorsque d'autres facteurs sont pris en compte. La GenAI, bien qu'elle offre un potentiel d’automatisation élevé, ne garantit pas toujours la personnalisation et la cohérence requises pour les traductions professionnelles. Les entreprises expérimentent la GenAI, mais sa mise en œuvre est encore en évolution. En voici quelques inconvénients (mais ne vous inquiétez pas, les avantages suivent) :

1. Manque de contrôle : l'un des défis les plus significatifs avec la traduction par LLM basée sur des prompts est le manque de contrôle sur la sortie. Contrairement à la NMT, qui fournit des résultats cohérents lorsque les mêmes entrées sont utilisées, les LLM, étant de la GenAI, ils peuvent produire des traductions différentes pour des entrées identiques sans aucune raison. Cette imprévisibilité peut être problématique pour les projets de traduction à grande échelle nécessitant une cohérence terminologique.

2. Nature générative : les LLM sont conçus pour être génératifs, ce qui signifie qu'ils peuvent produire des sorties variées qui ne s'alignent pas toujours sur la terminologie et les guides de style. Par exemple, dans les tâches de traduction professionnelles qui exigent un strict respect des terminologies spécifiques et une cohérence de style, les LLM peuvent avoir du mal à fournir la cohérence souhaitée.

3. Cas d'utilisation : bien que les LLM excellent dans la génération de traductions fluides pour les besoins occasionnels ou à petite échelle, leur efficacité diminue pour les traductions cohérentes et à grande échelle. Ils sont adaptés à la traduction d'e-mails, de conversations informelles ou de documents à usage unique, mais peuvent ne pas fonctionner correctement lorsque la terminologie et la cohérence de style sont essentielles. Assurer la cohérence segment après segment est un défi : les LLM semblent avoir une conscience propre, se lasser des tâches répétitives. Sans aucune raison particulière, ils peuvent soudainement commencer à « générer ».

Le potentiel de la traduction basée sur les LLM

La mise en œuvre de la technologie de la traduction automatique a toujours nécessité une compréhension approfondie du point de départ (flux de travail de la mémoire de traduction) et de l'objectif final. Il en va de même pour le passage de la traduction neuronale à la traduction basée sur les LLM. Nous devons être conscients des capacités actuelles et du potentiel futur. La double utilisation peut être une option, en tirant parti des atouts de la NMT tout en explorant les possibilités de la GenAI. L'industrie de la localisation, qui n'est pas connue pour son adoption rapide de nombreuses technologies, doit continuer à livrer des traductions de haute qualité, personnalisées qui répondent aux demandes évolutives de la communication globale.

C'est vrai, l'approche de la traduction automatique basée sur des prompts utilisant des grands modèles de langage (LLM) offre des traductions plus naturelles et pertinentes sur le plan contextuel que la NMT, en particulier lorsque les données d'entraînement spécifiques au domaine sont limitées ou inexistantes. La traduction basée sur les LLM est excellente pour les paires de langues telles que le japonais <> français ou le polonais <> mandarin, sur l'instant. J’y vois la valeur ajoutée (ne plus passer par l'anglais et obtenir des traductions culturellement pertinentes).

La question est… combien de temps allons-nous conserver la NMT ? Pas longtemps, je dirais. Les budgets d’impulsion et d'investissement sont sur la GenAI, malgré le fait que 11 % de toutes les preuves de concept et les projets deviennent des mises en œuvre réussies, selon McKinsey. Je peux donc imaginer des systèmes de GenAI qui, à un coût similaire ou supérieur, offrent beaucoup plus d'automatisation à partir d'une seule connexion API, bénéficiant de la fluidité et de la post-édition en contexte à grande échelle.

Pour des tâches spécialisées, les LLMs entraînés de manière personnalisée peuvent fournir des traductions de haute qualité. Cependant, pour y parvenir, il faut des techniques sophistiquées de prompting et des flux de travail éprouvés, et souvent, des ressources informatiques importantes. Sans cela, les LLMs peuvent produire des traductions trop libres qui manquent de la précision et de l'exactitude requises par les traducteurs professionnels.

Perspectives futures : Passer de la traduction automatique neuronale (NMT) à la traduction basée sur le prompting utilisant des LLMs

Que cela nous plaise ou non, il est possible que l'industrie migre progressivement de la NMT à l'IA générative à mesure que ses capacités s'améliorent. L'IA générative promet des niveaux plus élevés d'automatisation, une fluidité contextuelle et la capacité de gérer des tâches de traduction complexes via une seule connexion API. De mon point de vue, la capacité à fournir une fluidité contextuelle est le point le plus important pour commencer à envisager l'adoption de la traduction basée sur le prompting utilisant des LLMs.

Conclusion

L'avenir de la traduction automatique personnalisée est prometteur, car tant la traduction neuronale que la GenAI offrent des avantages uniques. Bien que la traduction neuronale soit actuellement en tête en termes de contrôle, de cohérence et de rentabilité, la GenAI promet des traductions plus naturelles et contextuellement pertinentes. À mesure que l'industrie continue d'innover, l'équilibre entre la traduction neuronale et la GenAI façonnera l'avenir des services de traduction professionnels. En restant informés sur ces technologies et leurs capacités en constante évolution, les professionnels de la traduction peuvent prendre des décisions éclairées qui répondent au mieux aux besoins de leurs clients.

Pensez-vous à passer de votre NMT actuelle à la GenAI ? Faites route avec Pangeanic. Contactez-nous pour découvrir comment nous mettons en œuvre la post-édition automatique basée sur la GenAI à l'Agence de Presse EFE.