Investigadora en traducción automática neuronal: Mercedes García-Martínez

Pangeanic es una empresa en constante evolución tecnológica. Tenemos un área I+D en la que se investigan y se desarrollan nuevos servicios para ofrecer al cliente la mejor calidad. Para seguir innovando, recientemente se ha incorporado a nuestro equipo la doctora en informática especializada en traducción automática neuronal Mercedes García-Martínez.

Mercedes hizo su doctorado en el laboratorio de informática de la universidad de Le Mans en Francia. Su tesis llamada “Factored Neural Machine Translation” fue de las primeras en el mundo donde se investigan modelos de traducción neuronal y donde por primera vez se aplican modelos factoriales en este tipo de traducción automática. En general, consiste en ayudar a mejorar la calidad de traducción, mediante conocimiento lingüístico, aumentando el vocabulario disponible sin tener que aumentar el tamaño de la red neuronal. Además, ha realizado cursos especializados en redes neuronales, como el impartido en Montreal, Canadá en el prestigioso laboratorio MILA y otro sobre traducción automática (MT Marathon 2012). También ha participado en cursos sobre tecnologías en la traducción e investigación sobre el proceso de traducción en la escuela de negocios de Copenhague. Por si fuera poco, tiene más de 20 publicaciones científicas en revistas y conferencias internacionales y 166 citas en Google Scholar.

Hoy hablamos con ella y nos da su opinión sobre los cambios que veremos en el futuro próximo gracias a los motores de traducción automática neuronal.

¿Cómo ves el cambio tecnológico que experimenta la sociedad?

Mercedes García La sociedad está evolucionando a pasos agigantados gracias a la inteligencia artificial. Simplemente mirando unos pocos años atrás, vemos grandes cambios en todas las disciplinas. La tecnología hoy en día es muy sofisticada, las máquinas son capaces de aprender grandes cantidades de datos, automatizar tareas y hacer predicciones con bastante exactitud.

Una de las ramas principales de la inteligencia artificial son las redes neuronales artificiales. Éstas están inspiradas en el funcionamiento físico del cerebro humano. De esta manera, la máquina es capaz de memorizar muchos datos y aprender a resolver una tarea mediante ejemplos dados. Las arquitecturas neuronales están en continua evolución y es una de las áreas de investigación de mayor actualidad. Estas pueden aprender cualquier tarea y el único handicap es la necesidad de un gran volumen de datos. Aunque no creo que lo sea por mucho tiempo, ya que hoy en día se recogen cada vez más datos, por lo que las redes neuronales van a estar muy presentes en los próximos años.

¿Cuál es tu experiencia como investigadora en traducción automática neuronal?

He estado involucrada en proyectos de traducción automática durante más de siete años. He realizado proyectos para incorporar motores de traducción automática en empresas (PangeaMT y Celer Soluciones) y proyectos europeos de investigación (CASMACAT). Además, he organizado escuelas de verano sobre tecnologías de la traducción en la escuela de negocios de Copenhague (Copenhagen Business School): Translation Data Analytics (TDA) y Speech and Eye-tracking enabled computer aided tool (SEECAT). También he participado en el Workshop de Machine Translation donde compiten universidades y empresas para conseguir la mayor calidad de traducción automática en una tarea dada.

¿Qué te ves haciendo de aquí a 5 años?

Estoy segura que en 5 años la traducción automática neuronal habrá cambiado mucho. En estos últimos años, cada mes hay alguna mejora que se va integrando al proceso de traducción automática neuronal. Aún queda mucho margen de mejora y muchas áreas donde investigar porque es una tecnología muy novedosa y necesita tiempo para conseguir un uso óptimo. En las estrategias estadísticas anteriores a las neuronales, se tardó unos 10 años en conseguir una madurez del sistema. Así que en 5 años me veo mejorando los modelos neuronales e integrando nuevas funcionalidades para que la calidad sea todavía mejor.

¿Cómo auguras el futuro de la industria de la traducción?

La industria del lenguaje ha cambiado mucho en los últimos años. Por ejemplo, ya no se concibe trabajar sin ordenador. Desde que ha surgido el paradigma de las redes neuronales en traducción automática, la industria de la traducción ha mostrado un gran interés dada su mayor calidad, más cercana a la traducción generada por un traductor humano que la que se obtenía de la traducción automática estadística. Las máquinas automatizan y facilitan las tareas arduas, repetitivas y poco interesantes que el traductor humano no necesita hacer, permitiendo una mayor rapidez en entregas de trabajos de traducción. Sin embargo, seguirá haciendo falta un traductor humano especialista que revise las traducciones automáticas ya que no son perfectas y así poder conseguir la calidad demandada por el cliente.

Algunos dominios, como pueden ser catálogos, son fáciles de traducir automáticamente y casi no requerirá intervención humana. Por el contrario, los textos literarios, en los cuales se emplean muchas expresiones y metáforas, son muy complicados de traducir automáticamente y se necesitará el trabajo profesional humano a muy largo plazo.

Además, la traducción de lenguas cercanas y muy utilizadas son más sencillas de traducir automáticamente, pero para traducir lenguas de diferentes familias y con pocos hablantes, la traducción automática todavía no consigue una buena calidad y depende de la intervención de un traductor humano profesional.