5 minutos de lectura
21/12/2022
Qué es la traducción automática estadística
La traducción automática estadística (SMT o Stat MT) es un enfoque de traducción automática (TA) que selecciona la salida (traducción) más probable de cada elemento que compone una oración, en base al empleo de modelos estadísticos que analizan y buscan relaciones entre dos textos de igual contenido, pero uno en el idioma de origen y el otro en la lengua de destino.
Es un tipo de modelo de TA que presenta sus ventajas, pero también ciertos desafíos que conviene conocer. También resulta importante detallar las diferencias que existen entre la traducción automática estadística y la neuronal (NMT).
Amplíe información:
Origen de la traducción automática estadística
Fue en el año 1949 cuando Warren Weaver introdujo las primeras nociones de la SMT. Pero, en realidad, la traducción automática estadística se originó en 1992, cuando investigadores del Centro de Investigación Thomas J. Watson reintrodujeron este enfoque y, tras el uso de técnicas estocásticas en el desarrollo de un sistema de reconocimiento del habla, decidieron experimentar en el campo de la traducción.
La investigación se llevó a cabo con traducciones humanas existentes (corpus bilingües), en concreto, con las Actas del Parlamento de Canadá en el idioma inglés y el francés.
El experimento resultó ser un éxito: permitió alinear oraciones, conjuntos de palabras y palabras aisladas para efectuar el cálculo probabilístico de correspondencia entre las palabras en la lengua de origen con las de la lengua de destino. Fue el sistema de traducción automática de idiomas más estudiado antes de la introducción de la NMT.
Bases y reglas
La SMT tiene como base principal la teoría de la información, un estudio sobre el almacenamiento, el procesamiento, la extracción y el uso de la información que emplea la estadística, la informática, la ingeniería de la información, la ingeniería eléctrica y la mecánica estadística.
De esta forma, un texto se traduce en base a la probabilidad de que una cadena de palabras del idioma de destino resulte ser la traducción de la cadena de palabras en el idioma de origen. Es decir, en base a la probabilidad p(e|f), donde:
-
f: Es la cadena del idioma origen.
-
e: Es la cadena del idioma de llegada.
Este modelo de distribución probabilística se ha planteado desde diferentes enfoques. El más implementado es el Teorema de Bayes:
p(e|f) ∝ p(f/e)p(e)
Este teorema realiza una descomposición del modelo en dos subproblemas, y la mejor traducción se obtiene al elegir el resultado de mayor probabilidad.
Tipos de traducción automática estadística
Los tipos de SMT son los siguientes:
Traducción basada en palabras
En este caso, la unidad básica de la traducción es una palabra en el idioma de origen. Es decir, se trata de un modelo que traduce palabra por palabra. Aunque debido a los modismos, a la morfología y a las palabras compuestas, la cantidad de palabras del texto traducido puede ser distinta a la del texto de origen.
La fertilidad es la cantidad de palabras en la lengua de destino producidas por una palabra en la lengua de origen. Por ejemplo, la voz inglesa “nail” se puede traducir al español como “uña” o “clavo”. Con una alta fertilidad, es posible asignar una palabra en la lengua de origen a varias palabras en la lengua de destino, pero no se pueden agrupar dos palabras de la lengua de destino que signifiquen una sola en la lengua de origen.
Traducción basada en frases
Este tipo de tecnología de traducción automática traduce secuencias completas de palabras, buscando disminuir las restricciones de la SMT en palabras. Estas secuencias se denominan frases o bloques. Se trata de frases que no atienden a estructuras lingüísticas, sino a métodos estadísticos, con el fin de no reducir la calidad de traducción.
Traducción basada en sintaxis
En este tipo de tecnología de traducción automática, el modelo de SMT deja a un lado las palabras individuales y los bloques para traducir unidades sintácticas. Esto significa que traduce mediante el análisis de oraciones o expresiones.
Relacionado:
Human-in-the-loop (HITL) aprovechando la inteligencia humana y de las máquinas
Traducción basada en modelos de lenguaje
Los modelos de lenguaje ayudan a que la traducción resulte más fluida y natural. Se trata de una función que, en base a una oración traducida, selecciona la que es más probable que sea usada por un hablante nativo. También facilita elegir la palabra más adecuada ante la posibilidad de múltiples traducciones.
Funcionamiento por fases de la traducción automática estadística
Esta traducción automática de idiomas se divide en tres fases principales:
Elaboración del texto paralelo
La creación del texto paralelo lleva los siguientes pasos:
-
Elección. Se eligen dos textos o documentos con el mismo contenido, uno en el idioma nativo y el otro en el idioma de destino. Cuanto mayor sea el volumen del texto, mayor será la calidad de la traducción final.
-
Extracción. Se extraen secciones del contenido en el texto con idioma nativo y su correspondiente sección en la lengua de destino.
-
Separación. Cada sección se desglosa en oraciones.
-
Preparación. Las entradas se preparan para el ingreso al sistema.
-
Alineación. Se mapea cada oración de un idioma con la oración correspondiente en la otra lengua.
Modelado
En esta fase se ejecuta:
-
El modelo de traducción. Determina el conjunto de traducciones posibles para cada una de las oraciones.
-
El modelo de lenguaje. Determina la fluidez de cada oración estudiada. Este modelo es el que le otorga mayor probabilidad a la oración que presenta un lenguaje más natural.
-
La búsqueda. Es el proceso en el que el sistema navega a través de todas las oraciones alineadas, con el fin de buscar la traducción de mayor probabilidad para una determinada oración.
Amplíe información:
Estimación y refinado
En la fase de estimación y refinado se minimiza cualquier posible error para obtener una mayor calidad en el resultado. Para esto se emplean conectores gramaticales y algoritmos heurísticos.
Diferencias entre la SMT y la NMT
Entre la traducción automática estadística y neuronal existen las siguientes diferencias:
-
La traducción automática neuronal requiere mayor entrenamiento y mayor cantidad de corpus que la traducción automática estadística.
-
La NMT tiene mayor capacidad que la SMT para manejar la morfología, la sintaxis, el orden de las palabras y la concordancia
-
La SMT es un modelo que genera la traducción en base a la división de las oraciones en frases y palabras, mientras que la NMT emplea oraciones completas.
Básicamente, se puede decir que la SMT funciona a través de la recopilación de estadísticas, es decir, que basa su método en contar lo que se repite, por esto cuenta frases y palabras.
Por otro lado, la NMT trabaja con tecnología de traducción automática que suma ocurrencias de eventos, pero también utiliza parámetros con números reales y los actualiza al observar algo nuevo, incluyendo las oraciones completas.
Ventajas de la traducción automática estadística sobre otros métodos
En comparación con la traducción tradicional, y en ciertos contextos, la SMT cuenta con las siguientes ventajas:
-
Aunque de forma parcial y con la posibilidad de contener errores, la SMT traduce el texto de manera rápida, lo que permite:
-
Acceder a datos de manera urgente.
-
Facilitar el trabajo a los traductores humanos, puesto que solo deben realizar correcciones.
Además, la SMT ofrece traducciones de mayor naturalidad y emplea mejor los recursos, aunque su calidad no es igual a la de los traductores profesionales.
Los desafíos del SMT en la actualidad
La traducción automática estadística debe enfrentarse a dos principales desafíos: el orden de las palabras en cada idioma y las palabras desconocidas.
El orden que presentan las palabras dentro de una oración no es igual entre los distintos idiomas. Por ejemplo, el orden típico (sujeto, verbo y objeto) puede ser diferente. Además, existen otros elementos modificadores del orden, como los sustantivos.
Como la SMT debe tener en cuenta el orden de palabras, se utilizan modelos de reordenación para ofrecer una mejor alineación entre los dos textos.
Por otro lado, la SMT realiza un almacenamiento de palabras de manera separada, sin establecer ninguna relación. De este modo, las frases o palabras desconocidas (fuera de vocabulario u OOV, por sus siglas en inglés), las que no estaban en los recursos de formación, no se pueden traducir.
Para abordar este segundo problema se emplean, entre otros métodos, incrustaciones de palabras y de recursos léxicos semánticos.
La SMT fue la técnica dominante hasta hace varios años. El campo de la traducción automática de idiomas dio un salto cualitativo hacia modelos neuronales en base a la Inteligencia Artificial (IA), que permiten traducciones fidedignas y facilitan la comunicación global.
En Pangeanic combinamos el conocimiento de nuestros traductores profesionales con lo mejor de la IA para ofrecer una traducción automática neuronal de calidad humana.
Póngase en contacto con nosotros. Ideamos y entregamos la solución que necesita.