5 lecture des minutes
15/01/2026
Qu'est-ce que la traduction automatique statistique?
La traduction automatique statistique (SMT ou Stat MT) est une approche de traduction automatique (TA) qui sélectionne la sortie (traduction) la plus probable pour chaque élément composant une phrase, en se basant sur l'utilisation de modèles statistiques qui analysent et recherchent des relations entre deux textes de contenu identique, l'un dans la langue d'origine et l'autre dans la langue de destination.
Il s'agit d'un type de modèle de TA qui présente des avantages, mais aussi certains défis qu'il convient de connaître. Il est également important de détailler les différences entre la traduction automatique statistique et la traduction automatique neuronale (NMT).
Pour en savoir plus :
Origine de la traduction automatique statistique
C'est en 1949 que Warren Weaver a introduit les premières notions de la SMT. Mais, en réalité, la traduction automatique statistique est née en 1992, lorsque des chercheurs du Centre de recherche Thomas J. Watson ont réintroduit cette approche. Après avoir utilisé des techniques stochastiques dans le développement d'un système de reconnaissance vocale, ils ont décidé d'expérimenter dans le domaine de la traduction.
La recherche a été menée à partir de traductions humaines existantes (corpus bilingues), plus précisément avec les Actes du Parlement du Canada en anglais et en français.
L'expérience s'est avérée être un succès : elle a permis d'aligner des phrases, des groupes de mots et des mots isolés pour effectuer le calcul probabiliste de correspondance entre les mots de la langue source et ceux de la langue cible. Ce fut le système de traduction automatique le plus étudié avant l'introduction de la NMT.
Bases et règles
La SMT repose principalement sur la théorie de l'information, une étude sur le stockage, le traitement, l'extraction et l'utilisation de l'information qui fait appel aux statistiques, à l'informatique, à l'ingénierie de l'information, à l'ingénierie électrique et à la mécanique statistique.
Ainsi, un texte est traduit en fonction de la probabilité qu'une chaîne de mots dans la langue cible soit la traduction de la chaîne de mots dans la langue source. C'est-à-dire sur la base de la probabilité p(e|f), où :
-
f : est la chaîne de la langue source.
-
e : est la chaîne de la langue cible.
Ce modèle de distribution probabiliste a été abordé sous différents angles. Le plus utilisé est le Théorème de Bayes :
p(e|f) ∝ p(f/e)p(e)
Ce théorème décompose le modèle en deux sous-problèmes, et la meilleure traduction est obtenue en choisissant le résultat ayant la probabilité la plus élevée.
Types de traduction automatique statistique
Les types de SMT sont les suivants :
Traduction basée sur les mots
Dans ce cas, l'unité de base de la traduction est un mot dans la langue source. Il s'agit d'un modèle qui traduit mot à mot. Cependant, en raison des expressions idiomatiques, de la morphologie et des mots composés, le nombre de mots dans le texte traduit peut différer de celui du texte source.
La fertilité est le nombre de mots dans la langue cible produits par un mot de la langue source. Par exemple, le mot anglais « nail » peut être traduit en français par « ongle » ou « clou ». Avec une fertilité élevée, il est possible d'attribuer un mot de la langue source à plusieurs mots de la langue cible, mais on ne peut pas regrouper deux mots de la langue source pour n'en former qu'un seul dans la langue cible.
Traduction basée sur les segments (phrases)
Ce type de technologie de traduction automatique traduit des séquences complètes de mots, cherchant à réduire les limites de la SMT basée sur les mots. Ces séquences sont appelées segments ou blocs. Il s'agit de phrases qui ne suivent pas nécessairement des structures linguistiques, mais des méthodes statistiques, afin de ne pas réduire la qualité de la traduction.
Traduction basée sur la syntaxe
Dans ce type de technologie, le modèle SMT délaisse les mots individuels et les blocs pour traduire des unités syntaxiques. Cela signifie qu'il traduit en analysant des phrases ou des expressions.
Sur le même sujet :
Human-in-the-loop (HITL) : tirer parti de l'intelligence humaine et des machines
Traduction basée sur des modèles de langage
Les modèles de langage aident à rendre la traduction plus fluide et naturelle. Il s'agit d'une fonction qui, à partir d'une phrase traduite, sélectionne celle qui est la plus susceptible d'être utilisée par un locuteur natif. Elle facilite également le choix du mot le plus approprié face à plusieurs traductions possibles.
Fonctionnement par phases de la traduction automatique statistique
Cette traduction automatique se divise en trois phases principales :
Élaboration du texte parallèle
La création du texte parallèle comprend les étapes suivantes :
-
Sélection. On choisit deux textes ou documents ayant le même contenu, l'un dans la langue source et l'autre dans la langue cible. Plus le volume de texte est important, plus la qualité de la traduction finale sera élevée.
-
Extraction. On extrait des sections de contenu du texte source et leur section correspondante dans la langue cible.
-
Séparation. Chaque section est décomposée en phrases.
-
Préparation. Les entrées sont préparées pour être intégrées au système.
-
Alignement. Chaque phrase d'une langue est mise en correspondance avec la phrase correspondante dans l'autre langue.
Modélisation
Dans cette phase, on exécute :
-
Le modèle de traduction. Il détermine l'ensemble des traductions possibles pour chacune des phrases.
-
Le modèle de langage. Il détermine la fluidité de chaque phrase étudiée. Ce modèle attribue une probabilité plus élevée à la phrase présentant le langage le plus naturel.
-
La recherche. C'est le processus par lequel le système parcourt toutes les phrases alignées afin de trouver la traduction la plus probable pour une phrase donnée.
Estimation et affinage
Dans la phase d'estimation et d'affinage, on minimise toute erreur possible pour obtenir un résultat de meilleure qualité. Pour cela, on utilise des connecteurs grammaticaux et des algorithmes heuristiques.
Différences entre la SMT et la NMT
Il existe les différences suivantes entre la traduction automatique statistique et neuronale :
-
La traduction automatique neuronale nécessite un entraînement plus long et un corpus plus important que la traduction automatique statistique.
-
La NMT a une plus grande capacité que la SMT pour gérer la morphologie, la syntaxe, l'ordre des mots et la concordance.
-
La SMT est un modèle qui génère la traduction en divisant les phrases en segments et en mots, tandis que la NMT utilise des phrases complètes.
Fondamentalement, on peut dire que la SMT fonctionne par collecte de statistiques, c'est-à-dire qu'elle base sa méthode sur le comptage des répétitions, c'est pourquoi elle compte les segments et les mots.
D'un autre côté, la NMT utilise une technologie de traduction automatique qui additionne les occurrences d'événements, mais utilise également des paramètres avec des nombres réels et les met à jour lorsqu'elle observe quelque chose de nouveau, incluant les phrases complètes.
Avantages de la traduction automatique statistique sur d'autres méthodes
Par rapport à la traduction traditionnelle, et dans certains contextes, la SMT présente les avantages suivants :
-
Bien que de manière partielle et avec des erreurs possibles, la SMT traduit le texte rapidement, ce qui permet :
-
D'accéder aux données de manière urgente.
-
De faciliter le travail des traducteurs humains, puisqu'ils n'ont plus qu'à effectuer des corrections.
De plus, la SMT offre des traductions plus naturelles et utilise mieux les ressources, bien que sa qualité ne soit pas égale à celle des traducteurs professionnels.
Les défis de la SMT aujourd'hui
La traduction automatique statistique doit faire face à deux défis majeurs : l'ordre des mots dans chaque langue et les mots inconnus.
L'ordre des mots au sein d'une phrase n'est pas le même selon les langues. Par exemple, l'ordre typique (sujet, verbe, objet) peut varier. De plus, d'autres éléments modifient l'ordre, comme les noms.
Comme la SMT doit tenir compte de l'ordre des mots, des modèles de réordonnancement sont utilisés pour offrir un meilleur alignement entre les deux textes.
D'autre part, la SMT stocke les mots de manière séparée, sans établir de relation. Ainsi, les phrases ou mots inconnus (hors vocabulaire ou OOV, par son sigle en anglais), qui ne figuraient pas dans les ressources d'entraînement, ne peuvent pas être traduits.
Pour aborder ce second problème, on utilise, entre autres méthodes, des plongements de mots (word embeddings) et des ressources lexicales sémantiques.
La SMT a été la technique dominante jusqu'à il y a quelques années. Le domaine de la traduction automatique a fait un saut qualitatif vers des modèles neuronaux basés sur l'intelligence artificielle (IA), qui permettent des traductions fidèles et facilitent la communication mondiale.
Chez Pangeanic, nous combinons le savoir-faire de nos traducteurs professionnels avec le meilleur de l'IA pour offrir une traduction automatique neuronale de qualité humaine.
Contactez-nous. Nous concevons et livrons la solution dont vous avez besoin.

