Técnicas para medir la calidad de la traducción automática

El avance tecnológico en el campo de la traducción automática (TA) es indiscutible. Así, el procesamiento de grandes volúmenes de textos para trasladar el contenido en un idioma origen a un idioma de destino en solo unos instantes es un mecanismo que cada vez resulta más rápido y preciso.

La TA se encuentra actualmente en todas partes y cada día resulta más indispensable para que empresas, organizaciones, científicos, etc., puedan compartir información de manera global.

Pero a la par que se produce este avance, surgen otras cuestiones: ¿cómo saber si se mantiene la calidad en la traducción? ¿Qué técnicas existen para medir la calidad de la traducción automática?

¿Por qué es importante medir la calidad de la traducción automática?

Por un lado, la traducción automática está disponible en distintos canales públicos al alcance de todos. Y, por el otro, existen múltiples ofertas de proveedores de servicios lingüísticos para la traducción a gran escala y el abordaje de textos especializados.

En este contexto, se hace imprescindible para las empresas de alcance global conocer qué ofertas le brindan TA de gran calidad y qué sistema de TA se adapta mejor a la terminología y al lenguaje especializado que utilizan.

Además, están los propios desarrolladores de la traducción automática, que necesitan conocer el resultado tanto de las métricas de evaluación automáticas como de la evaluación humana para evaluar la salida de los sistemas de TA.

De esta forma, los desarrolladores evalúan la memoria, la fluidez, la adecuación y la precisión del sistema, con lo que obtienen una estimación de la calidad de la TA. Y, ¿qué hacen con esto? Utilizan los resultados de la evaluación para modificar y optimizar las respuestas de los algoritmos iniciales del sistema.

¿Cómo medir la calidad de la traducción automática?

La estimación de la calidad de la traducción automática es vital. Esta estimación se realiza mediante métodos automatizados o técnicas aplicadas por traductores humanos.

La selección de los métodos de evaluación de la calidad de la TA depende de lo que se desea conocer. En el caso de que sea necesario saber si el texto que se ha traducido de manera automática cumple con la calidad exigida, debe aplicarse una técnica humana.

Pero si lo que se necesita es conocer la calidad de la TA de un sistema, deben utilizarse métodos automatizados como el BLEU.

Técnicas humanas

Entre las técnicas aplicadas por los traductores humanos (evaluadores) para realizar la evaluación de la calidad de la traducción automática están las siguientes:

La evaluación con posedición. Es el proceso de edición del texto traducido. Consiste en mostrar al evaluador tanto la traducción automática como la traducción de referencia realizada por un humano. El evaluador debe escribir una paráfrasis de esta última traducción.
La clasificación de oraciones completas. Al evaluador se le presentan varias opciones de traducciones para una misma oración del texto fuente y debe clasificarlas por orden (1.ª, 2.ª, etc.) según la calidad de la traducción.
La clasificación de errores. En este caso, los evaluadores clasifican los tipos de errores de una determinada traducción. Además, pueden realizar el comentario que consideren pertinente ante un error muy complejo.
La clasificación de frases. Consiste en presentar al evaluador la oración de origen y su traducción de referencia, más dos opciones de traducción para que proceda a clasificar las frases.

Métricas automatizadas

En la estimación de la calidad de la traducción automática se utilizan sistemas de puntajes también automáticos. Son indispensables para la evaluación objetiva y rápida, a diferencia de las técnicas humanas. Por ejemplo:

BLEU o suplente de evaluación bilingüe. Es la métrica más utilizada al evaluar la calidad de un sistema de TA. Mediante la comparación del texto traducido y una traducción humana de referencia, se hace un cálculo de la precisión, que da como resultado una puntuación entre el 0 y 1.
TER o tasa de error de traducción. Esta métrica hace el cálculo de la cantidad de ediciones que se necesitarían para que una traducción generada por un sistema de TA pudiera convertirse en la traducción de referencia que ha realizado un traductor humano.
WER o tasa de error de palabras. Este método automatizado mide el error a nivel de palabra.
METEOR o métrica para la evaluación de la traducción con ordenación explícita. Es un método que trabaja en función tanto de la precisión como del recuerdo del unigrama. También tiene en cuenta la derivación y la sinonimia.

Cabe mencionar que estas métricas se basan normalmente en la distancia de edición con respecto a una traducción de referencia realizada por un humano, por lo que solo son una estimación de cuán buena es la traducción.

Siga leyendo: Garantizar una buena traducción automática mediante la puntuación BLEU

Mitos y conceptos erróneos sobre la TA

En el ámbito de la calidad de la traducción automática existen muchos mitos y conceptos erróneos que se deben corregir o desmontar.

Uno de ellos es que “Google posee los mejores sistemas de TA”. Es verdad que Google cuenta con excelentes sistemas de traducción automática, pero son genéricos y no respetan la privacidad de los datos, así que para una traducción personalizada o especializada existen opciones mejores.

Otro concepto erróneo es el que afirma que los puntajes de calidad de los sistemas de TA son estáticos, algo que no es cierto. Los sistemas de TA, siempre que estén a cargo de empresas especializadas, se actualizan de forma frecuente. Por eso, las comparaciones instantáneas resultan verdaderas solo en un momento dado y para un exclusivo grupo de pruebas.

También debe desterrarse la idea de que solo mediante la calidad lingüística de la traducción de salida es posible determinar cuál es el mejor sistema de traducción automática. En realidad, la calidad lingüística solo es uno de los criterios necesarios en la evaluación de un sistema de TA.

Este sistema también debe evaluarse de acuerdo con los requisitos de las empresas que solicitan el servicio. Por ejemplo, debe tomarse en cuenta la seguridad y la privacidad de los datos que ofrece el sistema, así como la velocidad y la facilidad de personalización.

Pangeanic garantiza la calidad de la traducción automática

En Pangeanic garantizamos la calidad de nuestras traducciones automáticas mediante el empleo de modelos no estáticos, la posedición realizada por lingüísticos expertos —imprescindible para el aprendizaje continuo del sistema de TA— y la evaluación de calidad a través de las métricas BLEU, ChrF y TER, principalmente.

Para aplicar las técnicas de evaluación de la calidad de la traducción automática, se traduce automáticamente un corpus de prueba con el sistema de TA y luego se compara dicha traducción con una de referencia realizada por un lingüista nativo.

Este análisis nos permite obtener las métricas necesarias para detectar posibles fallos del modelo y modificar los algoritmos. Es un proceso iterativo para la mejora continua del sistema.

En Pangeanic conocemos la importancia de la calidad y la precisión en las traducciones. Nos especializamos en distintos tipos de servicios de traducción y podemos asesorarle sobre los servicios que su empresa necesita.