El consorcio NTEU que lidera Pangeanic desde 2019 ha completado la carga masiva de datos a la ELRC, lo que ha permitido poner los motores neuronales a disposición de las Administraciones Públicas europeas a través del European Language Grid. Los objetivos del proyecto NTEU eran la recopilación y reutilización de muchos de los recursos lingüísticos de varios proyectos europeos de CEF para crear motores de traducción automática de calidad casi humana, destinados para el uso por parte de las Administraciones Públicas de los Estados miembros de la Unión Europea. Esta ingente labor de creación de motores abarcó todas las combinaciones posibles entre todas las lenguas oficiales de la UE, en direcciones tales como del inglés al español, el alemán o el francés hasta combinaciones de lenguas de las que existen pocos recursos, como del letón, el finlandés o el búlgaro al griego, el croata o el maltés. Todos los motores han sido probados con la herramienta de evaluación específica del proyecto, MTET (por sus siglas en inglés, Machine Translation Evaluation Tool), desarrollada ad hoc. Con MTET se puntuó el rendimiento de los motores de combinación directa (es decir, sin utilizar el inglés como idioma puente) comparados con un conjunto de motores gratuitos en línea. Dos revisores debían clasificar cada uno de los motores (combinación de idiomas) para normalizar el criterio humano y evaluar la similitud del resultado de los motores con una expresión humana de referencia.
Otro de los retos que se planteaban era estandarizar los criterios humanos. Cada persona es susceptible de tener distintas preferencias lingüísticas que pueden afectar a la evaluación de las frases. Por ello, era importante seguir desde el principio las mismas pautas de puntuación. Para estandarizar los criterios, Pangeanic estableció una serie de instrucciones, junto con el Centro Nacional de Supercomputación de Barcelona, y que habían sido probadas como métodos académicos para garantizar que todos los evaluadores siguieran los mismos métodos de puntuación en todos los idiomas. A diferencia de los métodos empleados con TA estadística (basados en la puntuación BLEU), los motores de TA neuronal debían clasificarse en función de la precisión, la fluidez y la terminología. Estos 3 elementos clave se definieron de la siguiente manera. Precisión: definida a partir de si la frase contiene el significado del texto original, aunque se hayan utilizado sinónimos. Fluidez: la corrección gramatical de la frase (concordancia de género, plural/singular, declinación de casos, etc.). Adecuación [terminología]: el uso adecuado de los términos en el dominio acordado por el cliente y el desarrollador y cuya utilización está destinada a la producción, pero pueden no ser términos estándar o generales (la jerga específica). A la hora de puntuar una frase, se suelen aplicar las siguientes ponderaciones:
Precisión: 33 %
Fluidez: 33 %
Adecuación [terminología]: 33 %
En general, los revisores evaluamos de 5 a 10 puntos cada error grave. La evaluación fue el resultado de aplicar estos descuentos. Por ejemplo, un revisor podría haber encontrado dos errores de precisión en una frase (falta algo de información y se ha añadido información adicional no relacionada). El revisor resta del total, por tanto, un 5 % por el error leve y un 20 % por el error grave. Si el revisor (evaluador) hubiera encontrado, además, un error leve de fluidez, podría haber deducido también otro -5 %. “Estamos muy contentos de que este esfuerzo enorme se haya materializado en resultados tangibles para los usuario s potenciales, las Administraciones Públicas europeas, que ahora pueden utilizar TA de forma privada como infraestructura interna. Estos motores también pueden servir como herramienta de evaluación comparativa para la comunidad académica de TA en general”. Declaraciones de Manuel Herranz, CEO de Pangeanic.