El
consorcio NTEU que lidera Pangeanic desde 2019 ha completado la carga masiva de datos a la ELRC, lo que ha permitido poner los motores neuronales a disposición de las Administraciones Públicas europeas a través del
European Language Grid. Los objetivos del
proyecto NTEU eran la recopilación y reutilización de muchos de los recursos lingüísticos de varios proyectos europeos de CEF para crear motores de traducción automática de calidad casi humana, destinados para el uso por parte de las Administraciones Públicas de los Estados miembros de la Unión Europea. Esta ingente labor de creación de motores abarcó todas las combinaciones posibles entre todas las lenguas oficiales de la UE, en direcciones tales como del inglés al español, el alemán o el francés hasta combinaciones de lenguas de las que existen pocos recursos, como del letón, el finlandés o el búlgaro al griego, el croata o el maltés. Todos los motores han sido probados con la herramienta de evaluación específica del proyecto, MTET (por sus siglas en inglés, Machine Translation Evaluation Tool), desarrollada
ad hoc. Con MTET se puntuó el rendimiento de los motores de combinación directa (es decir, sin utilizar el inglés como idioma puente) comparados con un conjunto de motores gratuitos en línea. Dos revisores debían clasificar cada uno de los motores (combinación de idiomas) para normalizar el criterio humano y evaluar la similitud del resultado de los motores con una expresión humana de referencia.
Un vistazo a la herramienta de evaluación de la traducción automática MTET Los revisores podían dejar algunas evaluaciones que consideraran poco claras sin terminar (en caso de que necesitaran parar y retomar la tarea más tarde), aunque preferiblemente debían llevar a cabo la evaluación de segmentos de forma consecutiva, una frase tras otra. Como se puede ver a continuación, algunas combinaciones de idiomas (en este caso, del gaélico irlandés al griego) supusieron todo un reto.
Fig. 2 Pantalla típica de evaluación Para garantizar la calidad final, los revisores humanos no sabían qué resultados procedían de los motores NTEU y qué resultados procedían de una segunda traducción realizada por un proveedor de TA generalista en línea que se utilizó como referencia. Clasificaron cada uno de los resultados mediante un botón deslizante, moviéndolo de derecha a izquierda y de 0 a 100. El objetivo era que, durante la evaluación, pudieran valorar si la frase generada por la máquina expresaba adecuadamente el significado contenido en el idioma de origen, es decir, cómo de parecida era a lo que habría escrito un humano.
Criterios de evaluación
Otro de los retos que se planteaban era estandarizar los criterios humanos. Cada persona es susceptible de tener distintas preferencias lingüísticas que pueden afectar a la evaluación de las frases. Por ello, era importante seguir desde el principio las mismas pautas de puntuación. Para estandarizar los criterios, Pangeanic estableció una serie de instrucciones, junto con el Centro Nacional de Supercomputación de Barcelona, y que habían sido probadas como métodos académicos para garantizar que todos los evaluadores siguieran los mismos métodos de puntuación en todos los idiomas. A diferencia de los métodos empleados con TA estadística (basados en la puntuación BLEU), los motores de TA neuronal debían clasificarse en función de la precisión, la fluidez y la terminología. Estos 3 elementos clave se definieron de la siguiente manera.
Precisión: definida a partir de si la frase contiene el significado del texto original, aunque se hayan utilizado sinónimos.
Fluidez: la corrección gramatical de la frase (concordancia de género, plural/singular, declinación de casos, etc.).
Adecuación [terminología]: el uso adecuado de los términos en el dominio acordado por el cliente y el desarrollador y cuya utilización está destinada a la producción, pero pueden no ser términos estándar o generales (la jerga específica). A la hora de puntuar una frase, se suelen aplicar las siguientes ponderaciones:
- Precisión: 33 %
- Fluidez: 33 %
- Adecuación [terminología]: 33 %
En general, los revisores evaluamos de 5 a 10 puntos cada error grave. La evaluación fue el resultado de aplicar estos descuentos. Por ejemplo, un revisor podría haber encontrado dos errores de precisión en una frase (falta algo de información y se ha añadido información adicional no relacionada). El revisor resta del total, por tanto, un 5 % por el error leve y un 20 % por el error grave. Si el revisor (evaluador) hubiera encontrado, además, un error leve de fluidez, podría haber deducido también otro -5 %.
“Estamos muy contentos de que este esfuerzo enorme se haya materializado en resultados tangibles para los usuario
s potenciales, las Administraciones Públicas europeas, que ahora pueden utilizar TA de forma privada como infraestructura interna. Estos motores también pueden servir como herramienta de evaluación comparativa para la comunidad académica de TA en general”. Declaraciones de Manuel Herranz, CEO de Pangeanic.