Todo sobre tecnologías del lenguaje y traducción automática con Maite Melero

Sipnosis: Maite Melero es investigadora senior especializada en el ámbito de las tecnologías del lenguaje, la traducción automática y el procesamiento de lenguaje natural. Actualmente, desarrolla su carrera investigadora en el Centro de Supercomputación de Barcelona y a su vez, en la Universidad Pompeu Fabra. En esta entrevista a Pangeanic nos da a conocer su vida como investigadora, desgrana el presente y el futuro de la tecnología del lenguaje, y habla sobre las lenguas minoritarias o minorizadas. Además ofrece su opinión sobre la convivencia entre los traductores humanos y los traductores automáticos.

Entrevista a la investigadora Maite Melero sobre tecnologías del lenguaje y traducción automática

Maite Melero: “mi sueño es que la tecnología resuelva el dilema que hay entre la supervivencia de la diversidad lingüística del planeta, y la comunicación más allá de las barreras lingüísticas”.

Maite Melero es investigadora senior con un amplio historial de trabajo académico y en la industria en el ámbito de las tecnologías del lenguaje, la traducción automática y el procesamiento de lenguaje natural. Actualmente, desarrolla su carrera investigadora en el Centro de Supercomputación de Barcelona y a su vez, en la Universidad Pompeu Fabra.

La carrera profesional de Maite Melero comenzó, tras finalizar sus estudios, en un proyecto europeo pionero en traducción simultánea. Eran finales de los años ochenta, y este proyecto, de gran envergadura, tenía como objetivo crear sistemas de traducción automática entre todas las lenguas de la Unión europea (por aquel entonces, nueve lenguas). Aunque reconoce que no tuvo mucho éxito “sirvió para poner los cimientos de lo que hoy es la investigación del procesamiento natural del lenguaje en Europa”.

En 1998, marchó a Estados Unidos para trabajar como lingüista computacional donde, entre otras actividades, desarrolló la herramienta de corrección gramatical para el español que incorpora el Word.

Posteriormente, y de regreso a España, trabajó durante algunos años en un centro vinculado a la Universidad Pompeu Fabra en el ámbito del procesamiento de lenguaje natural, y entre los proyectos en los que estuvo inmersa, destaca una iniciativa que desarrolló “herramientas de extracción de información de material audiovisual tanto de audio como de la imagen”.

A partir de 2017, ha estado vinculada con el Plan de Impulso de las Tecnologías del Lenguaje y la Secretaria de Estado de Digitalización e Inteligencia Artificial, perteneciente al Ministerio de Asuntos Económicos y Transformación Digital.

Desde entonces, se ha dedicado sobre todo a la traducción automática pero también a otras tareas del procesamiento del lenguaje, “intentando acercar la tecnología tanto de traducción automática como de la lengua, en general, a la administración pública”.

La investigación sobre la tecnología del lenguaje: presente y futuro

Maite Melero reconoce que la tecnología del lenguaje natural ha evolucionado mucho “porque los sistemas de traducción simultánea iniciales consistían en colecciones de diccionarios y reglas gramáticas formales donde se analizaba el texto a todos los niveles, morfológico, sintáctico y semántico”. Esto implicaba sistemas basados en reglas que necesitaban del trabajo de lingüistas y por lo tanto, eran sistemas muy costosos y limitados.

En los años noventa aparecieron los primeros sistemas estadísticos que se aprovechaban de la gran cantidad de datos que había en formato digital. En el campo de la traducción supuso “aprovechar las traducciones existentes que ya habían hecho los traductores humanos y suministrar esas traducciones a la máquina que calculaba cuál sería la traducción más probable de una determinada palabra o una secuencia de palabras”.

Aunque realmente la revolución en este ámbito llegó en 2014 con la aplicación de las llamadas redes neuronales de aprendizaje profundo. “Estos algoritmos no eran nuevos pero se pudieron empezar a aplicar pues la potencia computacional se incrementó muchísimo, teniendo un auténtico impacto en muchas áreas distintas como: la identificación de imagen, el reconocimiento del habla y por supuesto, en la traducción automática”.

Esta revolución ha permitido avances tan importantes como, por ejemplo, los modelos masivos de lenguaje que “permiten construir modelos pre-entrenados que serán posteriormente aplicables adaptándolos a cualquier tarea de procesamiento como el análisis de opinión, el resumen automático o los sistemas comerciales”.

Para Maite Melero las previsiones de futuro son enormes en este campo “diría que ahora todavía estamos en plena revolución y es un momento interesantísimo donde se producen avances continuamente”. Aunque reconoce que hay aún un desfase entre la investigación y el mercado. “Hay que dar más énfasis a la transferencia tecnológica que, a pesar de que los avances son muy rápidos, tarda en llegar a los sitios donde se trabaja con ellos como la administración pública”.

Lenguas minoritarias o minorizadas

Según la Unesco, de las 6000 lenguas que se hablan en el mundo, alrededor del 96 por ciento de estas lenguas las hablan solo un 3 por ciento de la población mundial.

Maite Melero, entre sus líneas de investigación, está centrada en el estudio de las lenguas minoritarias o minorizadas (lenguas que han sido marginadas, en muchos casos, por no tener un interés político). “Estas lenguas encuentran una dificultad porque la tecnología necesita comercialmente de los datos para aprender. Cuanto más datos, más variados y de más calidad, mejor será la tecnología”.

En este sentido, Maite Melero resalta que las redes neuronales son sistemas complejos que aprenden de inmensas cantidades de datos, “son capaces de interiorizar el conocimiento lingüístico general a partir de muchos datos de una lengua determinada, y después, ese conocimiento transferirlo a lenguas de las cuales se disponen de pocos datos”. Este hecho es de relevante importancia para las lenguas minoritarias porque las lenguas que aportan más datos ayudan a las que cuentan con menos datos.

Maite Melero afirma que una de las líneas de investigación donde está actualmente centrada es la del aprendizaje no supervisado donde “el sistema aprende sin ver las traducciones previamente” que es lo que sucede, contrariamente, en el aprendizaje supervisado donde el sistema aprende a partir de traducciones previas.

Investigación europea sobre traducción automática

El proyecto europeo NTEU, donde Pangeanic lideró el consorcio, se centró en el desarrollo de motores de lenguas de traducción automática de calidad casi humana basados en redes neuronales hacia y desde todos los idiomas oficiales de la Unión Europea (24 lenguas oficiales). En este aspecto, Maite Melero participó activamente y reconoce que este proyecto “fue muy ambicioso porque pretendía desarrollar motores de lenguas para las veinticuatro lenguas oficiales de la Unión Europea, lo que supone un total de 552 sistemas de traducción automática consiguiendo que más del 80% de los motores de búsqueda superara la calidad que proporciona Google para esos pares”.

Otra de las iniciativas europeas donde ha participado Maite Melero es el proyecto MAPA sobre anonimización de datos para las administraciones públicas, y donde también Pangeanic lideró el consorcio. Con esta herramienta los datos de contacto se eliminan automáticamente para que los identificadores personales no puedan rastrearse. Esta iniciativa “es una herramienta muy útil porque las administraciones públicas tienen la obligación de ocultar los datos según la Ley de Protección de Datos y también porque hay una directiva de reutilización de la información del servicio público”. Actualmente estas herramientas, desarrolladas gracias a este proyecto, se han incorporado a los servicios lingüísticos centrales de la Comisión Europea y en España, lo utiliza el Ministerio de Justicia.

Una de las cuestiones que preocupa a Maite Melero es lo relacionado con el sesgo de género en los datos. Ésta es una línea de investigación incipiente en Europa porque se trata de un asunto complejo “los modelos aprenden del sesgo que ya está presente en los datos pero además lo amplifican”.

“Desde la tecnología hay que hacer un esfuerzo para reequilibrar los datos que dan como resultado esos sesgos”.

La convivencia entre la traducción automática y la traducción humana

El futuro de la convivencia entre la traducción automática y la traducción humana “ya es presente” para Maite Melero. Según ella resulta “inconcebible abordar la traducción sin el uso de la tecnología”. La figura del traductor se va a redefinir pasando a ser “un validador, con la excepción de aquellas traducciones que por su naturaleza requieran una recreación del contenido original”.