Hablamos con Mercedes García: Líder del Departamento de Investigación de Pangeanic

Hoy tenemos el placer de charlar con Mercedes García, nuestra Líder del Departamento de Investigación sobre su experiencia en el campo de la Traducción Automática Neuronal y su rol dentro de Pangeanic. Con una larga trayectoria en el desarrollo y estudio de modelos factoriales de traducción automática, Mercedes también comparte con nosotros su visión del mundo de la investigación como mujer científica y experta en el sector.

¿En qué consiste y qué beneficios aporta la Traducción Automática Neuronal y los modelos factoriales de traducción automática?

La traducción automática neuronal consiste en traducir automáticamente empleando modelos basados en redes neuronales. Las arquitecturas de estos modelos son profundas y tienen en cuenta más contexto que los métodos de traducción automática estadísticos empleados en la tecnología anterior. Por lo tanto, las traducciones que generan los modelos de traducción automática neuronal son más fluidas y consiguen una calidad mejor. Los modelos factoriales de traducción automática usan la descomposición gramatical y morfológica de las palabras en lugar de las palabras conjugadas. Esto resulta muy útil para idiomas altamente morfológicos que utilizan muchas personas, géneros, números para conjugar verbos donde podemos aprender su conjugación simplemente usando la palabra base (por ejemplo, el infinitivo de un verbo como puede ser “ir”) indicando sus factores gramaticales (por ejemplo, 1ª persona del singular del presente de indicativo) en lugar de la conjugación “voy”. De esta forma, podemos generar palabras que no tenemos en nuestro corpus de datos o no son frecuentes consiguiendo una traducción de más calidad.

Como experta en la materia, ¿Cómo definirías el impacto de la traducción automática neuronal en nuestra vida diaria?

La traducción automática neural ha mejorado nuestras vidas pudiendo traducir idiomas que desconocemos sin ayuda humana y en un tiempo récord que no podrían hacerlo ni todos los traductores humanos que existen en el mundo. La calidad de la traducción automática neuronal está llegando a calidad casi humana en muchos ámbitos, a veces no puede distinguirse si la traducción ha sido realizada por una persona o una máquina. Esto permite que vayas a vivir o visitar otro país que hablen otro idioma que desconoces y puedas entenderlo sin necesidad de ayuda . También permite a las corporaciones traducir grandes cantidades de documentos en un tiempo casi inmediato . Recuerdo también la crisis que hubo en Haití a causa de un huracán cuando no encontraban a traductores y mediante el empleo de la traducción automática pudieron entender a la población nativa y rescatarla.

Hablemos sobre Pangeanic, ¿En qué consiste tu rol como líder del departamento de investigación?

En el departamento de investigación hacemos experimentos con técnicas nuevas para mejorar nuestros productos y poder ofrecer nuevas funcionalidades. Tenemos varias líneas de investigación como son la traducción automática neuronal con información externa adicional, sumarización que consiste en hacer resúmenes automáticamente y la inserción de información con modelos del lenguaje enormes entrenados con mucha cantidad de datos. Llevamos proyectos con la universidad politécnica de Valencia sobre tratamiento de textos multilingüe. Y tenemos varios proyectos con universidades europeas, administraciones y otras empresas internacionales de la industria del lenguaje. También asistimos a conferencias internacionales donde presentamos nuestro trabajo y escribimos artículos científicos. En mi rol de líder del departamento coordino y superviso todas estas actividades y proyectos tan ambiciosos.

PangeaMT como división científica de Pangeanic, está en constante desarrollo de nuevas tecnologías. ¿Cuál dirías que es el proyecto más ambicioso de vuestro equipo?

Nos gustaría poder entrenar modelos enormes que permitan una calidad superior y generar texto muy fluido que sea muy difícil distinguir si lo ha escrito una persona o una máquina.

Como líder en un campo de investigación como la Traducción Automática Neuronal, ¿Cuál ha sido tu experiencia para formarte y avanzar en un campo tan especializado y poco conocido por el público general?

Llevo más de 10 años de experiencia laboral en la traducción automática. Empecé estudiando el máster de inteligencia artificial de la universidad politécnica de Valencia y trabajando en el ITI que es el instituto tecnológico de informática de Valencia donde Pangeanic era uno de nuestros clientes con un proyecto muy ambicioso que era llevar los modelos de traducción estadísticos a la industria del lenguaje, de lo más novedoso en esa época. Más tarde, continué investigando con el grupo de ingeniería del lenguaje natural y reconocimiento de formas del departamento de informática y fui a la Copenhagen Business School en Dinamarca donde seguí formándome en cursos de tecnología para la traducción y participé en un proyecto europeo sobre investigación cognitiva en una herramienta para la asistencia en la traducción. Seguí mis estudios haciendo el doctorado en la Universidad de Le Mans en Francia sobre la traducción automática neuronal usando modelos factoriales, realizando cursos especializados en aprendizaje profundo en Canadá y participando en conferencias como el workshop internacional de traducción automática. Finalmente, volví a Valencia para trabajar en Pangeanic donde continúo escribiendo artículos y formándome en nuevos métodos para la traducción automática neuronal ya que es un campo en continuo desarrollo donde contribuyen las grandes empresas como Google, Microsoft, Apple, Amazon, Facebook, etc.

¿Cuál es tu opinión sobre la investigación en este sector? ¿Existen suficientes recursos y foros en los que crecer como profesional? (A nivel nacional, europeo e internacional)

Si, es un sector muy interesante y ambicioso, con muchos recursos a nivel global, europeo porque existen muchos lenguajes oficiales en Europa y también a nivel nacional. Hoy en día, hay muchos foros y cursos abiertos en la web para formarte y compartir tus investigaciones. Además, la misma arquitectura de los modelos de traducción automática neuronal se está empleando para otras tareas de procesamiento del lenguaje natural como es la sumarización que consiste en realizar resúmenes automáticamente abriendo nuevas líneas de investigación y posibilidades de negocio.

Cuéntanos tu experiencia como mujer científica, desde tu formación como doctora por el laboratorio de informática de la Universidad de Le Mans en Francia, la publicación de papers científicos y la especialización en un campo como la traducción automática neuronal.

Este mundo es apasionante ya que va mejorando a pasos agigantados, hay momentos en los que cada mes te encuentras una arquitectura nueva que funciona mejor que la anterior. En el laboratorio de informática de la universidad de Le Mans mi profesor tenía relación con Facebook y contábamos con máquinas muy potentes que nos permitían crear y experimentar con muchos tipos de modelos neuronales. La publicación de artículos en revistas internacionales te da mucha visibilidad y publicar en conferencias te permite conocer a gente de todo el mundo investigando en este campo.

¿Es aún el ámbito científico un campo mayoritariamente masculino? ¿Crees que esta premisa está cambiando? ¿A qué crees que se debe?

Estudié ingeniería informática que es un mundo bastante masculino, la gran mayoría de los estudiantes son hombres y lo mismo pasa con los informáticos en las empresas tecnológicas y administraciones. Esto hace que sea más complicado para una mujer y tengas que esforzarte más. En la enseñanza universitaria se pueden ver más mujeres pero queda mucho que cambiar, hay un estigma que no hace que sea un campo atractivo para las mujeres . En otras ingenierías se pueden ver más mujeres y nuevas carreras como la biotecnología o el grado en ingeniería de datos simplemente quitando la palabra informática ya cuentan con más mujeres. Es importante darse cuenta de que las mujeres somos imprescindibles en el desarrollo de la tecnología porque sino se hará solo pensada para hombres y es el futuro que nos espera a todos y todas. En general, hay muchas científicas en España en otros campos pero en otros países brillan por su ausencia y en algunos países las mujeres ni siquiera tienen la opción de estudiar.

¿Cuál es tu mensaje para las futuras generaciones de científicas e investigadoras?

Tenemos que seguir presentes para ser cada vez más visibles y participar en el desarrollo de nuevas tecnologías que nos permitan conseguir un mundo mejor.

Si lanzamos la mirada hacia el futuro de la Traducción Automática Neuronal, ¿Cómo crees que evolucionará la tecnología? ¿Hasta dónde crees que llegará la innovación en traducción e inteligencia artificial?

Los modelos neuronales seguirán mejorando y aprendiendo cada vez con más datos y más parámetros mientras el hardware vaya mejorando y se puedan hacer todos los cálculos matemáticos que se requieren. La traducción automática seguirá mejorando pero en un futuro cercano se seguirá necesitando supervisión humana para conseguir traducciones buenas en textos más complicados como la literatura o la poesía. Se espera también que haya más interacción entre traductores humanos y máquinas alimentándose unos de otros . Al final, las máquinas seguramente serán capaces de aprender por sí mismas mediante observación de datos y experiencia cambiando el mundo y creando otro tipo de trabajos para las personas.