Estimación de la Calidad en Traducción Automática: Un Análisis Exhaustivo

Escrito por Daniel Herranz-Carr | 04/03/25

La demanda de servicios de traducción rápidos, precisos y confiables nunca ha sido tan alta. A medida que las organizaciones se expanden a nivel global, el volumen de contenido que requiere traducción ha crecido exponencialmente, lo que hace que los flujos de trabajo tradicionales, basados exclusivamente en traductores humanos, sean insostenibles. En este contexto, la Estimación de Calidad en Traducción Automática (MTQE) se presenta como una tecnología clave dentro de los nuevos flujos de trabajo automatizados impulsados por la inteligencia artificial. Su adopción permite a las organizaciones optimizar sus estrategias de entrega de contenido global y comprender mejor a sus clientes, garantizando al mismo tiempo traducciones de calidad a gran escala. Después de todo, una implementación sólida y eficiente de Traducción Automática en toda una empresa no es tan simple como conectar un modelo de lenguaje (LLM).

Por qué la Estimación de Calidad en Traducción Automática (MTQE) es esencial en el mundo actual

Seamos realistas: hoy en día, todos lidiamos con más comunicación internacional que nunca. Ya sea que dirija una empresa en proceso de expansión global, colabore en investigaciones con colegas internacionales o simplemente intente comprender contenido en otro idioma, la necesidad de una traducción automática confiable está en todas partes. Pero surge un desafío clave: ¿cómo saber si una traducción automática es lo suficientemente buena sin que un experto humano revise cada fragmento? Aquí es donde entra en juego la Estimación de Calidad en Traducción Automática. Actúa como un sistema inteligente de control de calidad que puede predecir con qué nivel de precisión se ha traducido un texto, incluso antes de que lo revise un humano. Es como contar con un asistente experto que le indica rápidamente qué traducciones requieren más atención y cuáles están listas para su uso. En Pangeanic, nos enorgullecemos del ciclo virtuoso que genera la Traducción Adaptativa Profunda con IA, lo que nos ha valido menciones consecutivas en el Hype Cycle de Gartner para Tecnologías de PLN en el ámbito de la Traducción Automática Neuronal en 2023 y 2024.

La evolución de la MTQE

El desarrollo de la MTQE es fascinante porque refleja nuestra propia evolución en la relación con la tecnología. En sus inicios, la MTQE era como un corrector ortográfico básico: analizaba patrones y reglas simples para determinar si una traducción era aceptable, verificando si todas las palabras estaban traducidas y si la gramática parecía correcta. Sin embargo, al igual que los teléfonos inteligentes han evolucionado, la MTQE también lo ha hecho. Los sistemas actuales funcionan más como expertos lingüísticos capaces de comprender el contexto, los matices y hasta referencias culturales. Gracias a la inteligencia artificial avanzada, pueden analizar traducciones de una manera sorprendentemente similar a la de los humanos. Las tecnologías más recientes, impulsadas por los mismos principios que sustentan los modelos de IA de última generación, pueden incluso detectar diferencias sutiles en el significado y reconocer expresiones idiomáticas.

Un excelente ejemplo de la MTQE moderna es CometKiwi, ganador del WMT22 en Estimación de Calidad y actualmente el estándar de oro en este campo. La mayoría de los sistemas de MTQE utilizados por las empresas lo incorporan y ajustan según sus necesidades.

Las características más destacadas de la MTQE de CometKiwi incluyen:

  • Arquitectura Predictor-Estimator (evalúa la calidad de la traducción tanto a nivel de oración como de documento).

  • Etiquetado Secuencial a Nivel de Palabra (identifica áreas problemáticas dentro de las traducciones).

  • Aprendizaje con Pocos Ejemplos (Few-Shot Learning) (se adapta rápidamente a nuevos idiomas y dominios de texto).

  • Extracción de Explicaciones (proporciona información detallada sobre las predicciones de calidad de la traducción).

Estimación de Calidad en Traducción Automática Basada en Referencias Tradicionales

Antes de la introducción de los sistemas de estimación de calidad en traducción automática (MTQE), la evaluación de traducciones se realizaba mediante métricas basadas en referencias humanas. Este enfoque comparaba las traducciones generadas por máquina con traducciones realizadas por profesionales, utilizando métricas ampliamente reconocidas como:

  • BLEU (Bilingual Evaluation Understudy)

    BLEU es una métrica basada en un algoritmo que mide la superposición de palabras entre la traducción automática y la referencia humana, aunque carece de sensibilidad al contexto. Fue desarrollada inicialmente para la traducción automática estadística y se basa en la premisa de que, cuanto más se asemeje una traducción automática a una traducción profesional humana, mayor será su calidad. BLEU fue una de las primeras métricas en mostrar una fuerte correlación con la evaluación humana y sigue siendo ampliamente utilizada debido a su automatización y bajo costo. Evalúa segmentos traducidos individualmente (generalmente oraciones) en comparación con traducciones de referencia de alta calidad y promedia las puntuaciones en todo el corpus para estimar la calidad general de la traducción. Sin embargo, BLEU no considera factores como la inteligibilidad o la corrección gramatical. Aun así, sigue siendo un indicador útil para medir el rendimiento de un modelo a lo largo del tiempo.

  • TER (Translation Edit Rate / Tasa de Edición de Traducción)

    Esta métrica, también conocida como Tasa de Error de Traducción (TER, por sus siglas en inglés), cuantifica el número de ediciones necesarias (como inserciones, eliminaciones, sustituciones y desplazamientos) para transformar una salida de traducción automática (hipótesis) en una traducción de referencia. Su propósito es proporcionar una medida intuitiva y eficiente para evaluar la calidad de la traducción automática, evitando la complejidad de los enfoques basados en significado y la naturaleza laboriosa de las evaluaciones humanas. TER calcula la cantidad de modificaciones que un humano tendría que realizar para que la salida del sistema coincida exactamente con la referencia. TER se encuentra implementado en herramientas como sacreBLEU, inspirado en TERCOM, y admite formatos de entrada como SGML (formato NIST), XML o Trans. Se ha demostrado que tiene una buena correlación con las evaluaciones humanas de calidad de traducción, a menudo con un rendimiento igual o superior al de BLEU, incluso con un menor número de referencias. Una variante denominada TER dirigido por humanos (HTER, por sus siglas en inglés) mejora aún más la correlación con los juicios humanos, superando en algunos casos a métricas como BLEU y HMETEOR. Tanto TER como HTER son alternativas automatizadas eficaces para evaluar la calidad de la traducción automática.
  • METEOR (Métrica para la Evaluación de Traducción con Ordenación Explícita)

    Métrica para la Evaluación de Traducción con Ordenación Explícita es una métrica automática para evaluar la calidad de la traducción automática mediante la comparación de una traducción generada por máquina con traducciones de referencia realizadas por humanos. Utiliza un concepto generalizado de coincidencia de unigramas, considerando coincidencias exactas de palabras, formas derivadas, sinónimos y variantes morfológicas. METEOR calcula una puntuación basada en una combinación de precisión de unigramas, recuperación de unigramas y una medida de fragmentación, que evalúa el grado de orden de las palabras coincidentes en la traducción automática en comparación con la referencia. A diferencia de las métricas simples basadas en precisión y recuperación, METEOR mejora la evaluación al incorporar estas estrategias adicionales de coincidencia y medidas de fragmentación. Se ha demostrado que METEOR tiene una mayor correlación con los juicios humanos sobre la calidad de la traducción en comparación con las métricas básicas basadas en unigramas, alcanzando valores de correlación de Pearson R de 0.347 para conjuntos de datos de árabe a inglés y 0.331 para chino a inglés.

An Overview of MTQE over the years

Si bien estos enfoques fueron válidos y útiles en su momento, presentaban varias limitaciones:

  • Dependencia de traducciones de referencia realizadas por humanos.
  • Incapacidad para considerar el contexto y los matices semánticos.
  • Aplicabilidad limitada en escenarios del mundo real.

¿Qué hace que la Estimación de Calidad en Traducción Automática Moderna sea tan poderosa?

La estimación de calidad en traducción automática moderna (MTQE, por sus siglas en inglés) se basa en un análisis exhaustivo de la traducción desde múltiples perspectivas. El proceso comienza con un examen detallado de palabras y frases individuales, similar a la revisión de un documento en busca de elecciones léxicas cuestionables. Estos sistemas emplean modelos de lenguaje para garantizar que el vocabulario, la gramática y las posibles traducciones erróneas sean precisos y fieles al significado original. A continuación, el análisis se amplía al nivel de las oraciones, evaluando su fluidez y coherencia dentro del contexto. Esto implica revisar la estructura sintáctica, las expresiones idiomáticas y la cohesión general para asegurarse de que la traducción se perciba como un texto original en el idioma de destino. Pero no se detiene ahí: los sistemas más avanzados pueden evaluar documentos completos, manteniendo la coherencia estilística y asegurando el uso correcto de términos especializados.

La mayoría de estos sistemas son de código abierto, lo que permite a las empresas mejorar y ajustar los modelos base utilizando corpus bilingües aprobados y certificados o archivos con correcciones humanas tras la posedición.

La precisión de la estimación de calidad en traducción automática es fundamental en sectores como el legal, el médico y el tecnológico, donde la exactitud es esencial. Además, los sistemas modernos de MTQE pueden mejorar con el tiempo gracias a la retroalimentación, aumentando su fiabilidad y precisión. En esencia, MTQE funciona como un equipo de editores especializados, cada uno enfocado en diferentes aspectos del proceso de traducción, como la selección de palabras, la gramática, el tono y la terminología específica del sector. Este enfoque colaborativo garantiza traducciones precisas, contextualmente adecuadas y con un acabado profesional.

MTQE Mejora los Flujos de Trabajo en Traducción

Los sistemas de estimación de calidad en traducción automática ofrecen varias ventajas que facilitan y optimizan el proceso de traducción. Una de sus principales ventajas es la capacidad de evaluar la calidad de la traducción prácticamente en tiempo real, siempre que se utilicen servidores con CPU o GPU de alto rendimiento.

Esto permite a los traductores recibir retroalimentación inmediata sobre la precisión de la traducción sin necesidad de contar con traducciones de referencia. Gracias a esta evaluación rápida, es posible determinar si se requiere una revisión humana, lo que agiliza significativamente el proceso de traducción. Además, MTQE reduce costos al disminuir la dependencia de revisores humanos, optimizando el uso de recursos y acelerando la publicación de contenido en múltiples idiomas. Más allá del ahorro económico, MTQE desempeña un papel clave en la garantía de calidad. Ayuda a mantener la coherencia en las traducciones, detecta posibles errores antes de su publicación y mejora la satisfacción del cliente al ofrecer traducciones más precisas y fiables.

Los Desafíos que Aún Enfrentamos

Sin embargo, la estimación de calidad en traducción automática no está exenta de fallos. El principal desafío es su fuerte dependencia de datos de alta calidad para su aprendizaje, especialmente en idiomas menos comunes. Es similar a aprender un nuevo idioma: cuanto más se practica, mejor se domina. Los sistemas de MTQE necesitan una amplia exposición a diversos ejemplos lingüísticos para alcanzar una evaluación precisa. Si no cuentan con un conjunto de datos sólido y diverso, pueden tener dificultades para evaluar correctamente las traducciones, particularmente en idiomas con pocos recursos digitales o textuales. Esta carencia de datos puede reducir la efectividad de las evaluaciones de calidad en lenguas con menor respaldo, ampliando aún más la brecha entre los idiomas bien documentados y aquellos subrepresentados.

Otro desafío es que estos sistemas, aunque a menudo pueden detectar que una traducción es incorrecta, no siempre pueden explicar con claridad qué está mal. Es como escuchar una oración que suena extraña o fuera de lugar, pero sin poder precisar exactamente por qué. Esta falta de claridad dificulta que los traductores humanos confíen plenamente en la retroalimentación, ya que no reciben una comprensión detallada de los errores específicos que deben corregir. MTQE también tiene dificultades para identificar errores contextuales, como matices en el tono, referencias culturales o expresiones idiomáticas que requieren un conocimiento más profundo del contexto en el que se utilizan. Estos matices son esenciales para una traducción precisa, ya que pueden alterar significativamente el significado original si no se comprenden y transmiten adecuadamente. A esto se suma el problema de la “caja negra” en muchos sistemas de inteligencia artificial: incluso sus propios desarrolladores pueden tener dificultades para comprender cómo se toman las decisiones. Esta opacidad en el proceso de toma de decisiones complica la mejora de la precisión del sistema con el tiempo, ya que tanto los desarrolladores como los usuarios quedan en gran parte a ciegas respecto a la lógica interna del modelo. Para abordar estos desafíos, es fundamental impulsar la investigación en modelos de inteligencia artificial más transparentes y explicables, que proporcionen información detallada sobre sus procesos de decisión. Además, recopilar datos de alta calidad en una amplia variedad de idiomas y contextos es esencial para entrenar estos sistemas de manera efectiva, garantizando que puedan manejar con precisión las diversas complejidades lingüísticas y culturales que enfrentan. Un enfoque integral como este contribuirá a desarrollar sistemas de MTQE más confiables y transparentes, capaces de ofrecer traducciones de alta calidad con mayor precisión y claridad.

"MTQE se ha convertido en un paso esencial dentro de la estrategia de las organizaciones para automatizar los procesos de traducción. Es el primer paso para determinar si la calidad obtenida es lo suficientemente buena como para aprobarla directamente o enviarla a revisión humana. Sin embargo, este es solo el inicio; la incorporación de un LQA agente cerrará el ciclo para muchos equipos de localización. Este tipo de control se alinea perfectamente con los principios de LangOps, donde los profesionales asumen un papel activo en la gestión de procesos lingüísticos nuevos y fiables, en lugar de ser considerados equipos de localización pasivos."

-María Ángeles García Escrivà, Directora de Traducción Automática en Pangeanic

 

 

What This Means For You

Ya sea que sea propietario de un negocio, creador de contenido o alguien que trabaje frecuentemente con traducciones, comprender el papel de la Estimación de Calidad en Traducción Automática es fundamental. MTQE es una herramienta vital para mejorar la accesibilidad y fiabilidad de las traducciones de calidad, superando efectivamente las barreras lingüísticas. Al automatizar las fases iniciales de la evaluación de calidad, MTQE reduce significativamente el tiempo y los recursos necesarios para la revisión manual, lo que permite a las empresas expandir sus operaciones y llegar a audiencias globales de manera más eficiente. Es importante reconocer que MTQE no está diseñado para reemplazar la experiencia humana, sino para mejorarla y focalizarla. Los traductores y editores humanos pueden entonces concentrarse en los aspectos más complejos del lenguaje que las máquinas pueden pasar por alto, como el contexto cultural, el tono y la expresión creativa. MTQE funciona como un asistente inteligente, ayudándole a gestionar su tiempo y energía de manera eficaz en la gestión de traducciones, identificando las áreas que requieren atención e inspirando confianza en aquellas que cumplen con altos estándares. Esta sinergia entre la eficiencia de la máquina y la visión humana resulta en tiempos de entrega más rápidos, ahorro de costos y, en última instancia, traducciones de mayor calidad que resuenan con audiencias diversas.

Como menciona nuestra Directora de Traducción Automática, MTQE se ha convertido en una herramienta "indispensable" para cualquier organización y departamento de localización que dependa de procesos automatizados, pero que aún involucra la intervención humana. El siguiente paso es incluir una garantía de calidad lingüística personalizada que detecte errores más allá de la fluidez del lenguaje y el contexto, tales como el cumplimiento de la terminología.

Mirando Hacia el Futuro

En Pangeanic, estamos comprometidos con romper las barreras lingüísticas y fomentar la comunicación global a través de tecnología de traducción innovadora. Como parte de esta misión, anunciamos con orgullo el próximo lanzamiento de una tecnología propietaria que fusiona Estimación de Calidad en Traducción Automática (MTQE) y Garantía de Calidad Lingüística (LQA) en un flujo de trabajo sofisticado y autónomo con Deep Adaptive AI Translation v2.

Este sistema innovador detectará y corregirá errores de contexto y fluidez en las traducciones automáticas, además de identificar y abordar errores específicos adaptados a los requisitos únicos de cada cliente. Al integrar estas tecnologías avanzadas en un flujo de trabajo autónomo, nuestro objetivo es redefinir el proceso de traducción, asegurando que cada resultado preserve fielmente el significado, contexto e intención originales.

Creemos que el futuro de la traducción va más allá de simplemente convertir palabras de un idioma a otro: se trata de permitir una comunicación fluida, precisa y significativa entre idiomas. Con cada iteración, nuestra tecnología de MTQE se encuentra a la vanguardia de esta revolución, volviéndose cada vez más sofisticada y fácil de usar. Trabaja incansablemente detrás de escena para garantizar que las traducciones automáticas no solo sean traducidas, sino traducidas de manera correcta.

En Pangeanic, estamos comprometidos en empoderar a las empresas y a los individuos para que se comuniquen de manera más eficaz y segura a través de las barreras lingüísticas. Nuestro flujo de trabajo autónomo ya está detectando errores y corrigiéndolos para clientes de vista previa, entregando traducciones de alta calidad que cumplen con los más altos estándares de precisión y fiabilidad.

Estamos orgullosos de liderar esta evolución en la tecnología de traducción, construyendo puentes entre idiomas y culturas en un mundo cada vez más interconectado. Nuestro enfoque innovador está dando forma a un futuro en el que el lenguaje ya no sea una barrera, sino una puerta de acceso a la comprensión global y la colaboración.

Juntos, transformemos la forma en que el mundo se comunica.