Iniciativas Pangeanic: Covid-19 MLIA Eval al detalle con Mercedes García.

La crisis de la pandemia de COVID-19 ha afectado innumerables aspectos de la sociedad, desde nuestro día a día o la forma en la que la gran mayoría de empresas trabajan hasta el modo en el que nos relacionamos. El COVID-19 supuso un gran reto para la comunidad científica, incluido el campo de la investigación, que se vio sumido en una situación que avanzaba día a día de forma distinta en múltiples lugares del planeta y que conllevó una abrumadora necesidad de extracción y recopilación de datos. Una de estas necesidades fue la de agregar y resumir fuentes de información para resolver incoherencias y evitar información errónea crucial para, en esta crisis concreta, seguir avanzando en la lucha contra el virus. Iniciativas como Covid-19 MLIA Eval surgen en momentos críticos como este, donde profesionales de todo el mundo unen esfuerzos en beneficio de todos. Mercedes García , Líder del departamento de investigación de Pangeanic, nos acompaña hoy en esta entrevista para conocer a fondo Covid-19 MLIA Eval.

¿Qué es Covid-19 MLIA Eval y cuál es su misión?

Covid-19 MLIA Eval tiene como objetivo organizar un esfuerzo de evaluación comunitaria destinado a acelerar la creación de recursos y herramientas para mejorar el acceso a la información multilingüe (MLIA) en la situación de emergencia actual. Esta iniciativa tiene tres tareas de procesamiento del lenguaje natural: 1) information extraction o extracción de información, 2) multilingual semantic search o búsqueda semántica multilingüe y 3) machine translation o traducción automática. Esta acción contó con el apoyo de la Comisión Europea, ELRC , ELRA , CLARIN y CLEF (instituciones europeas de recursos lingüísticos).

¿Cómo surge esta iniciativa? ¿Cómo llegas a formar parte de ella y a dirigir el área de traducción automática?

Durante la primera cuarentena del COVID-19 (marzo 2020), cuando no podíamos salir de nuestras casas, los investigadores de procesamiento del lenguaje natural también pensamos en cómo podíamos ayudar en la crisis teletrabajando. Nos pusimos en contacto rápidamente para formar esta iniciativa diferentes grupos de investigación de toda Europa (ELDA, CLARIN y LIMSI en Francia, la Universidad de Padua en Italia, ILSP en Grecia, DFKI en Alemania y PRHLT y Pangeanic en España). Pangeanic, como empresa de tecnologías del lenguaje especializada en traducciones, y el grupo de investigación PRHLT de la Universidad Politécnica de Valencia, como investigadores en traducción automática, son los organizadores de la tarea de traducción automática de la iniciativa Covid-19 MLIA Eval. En calidad de responsable del departamento de investigación, me encargo de liderar la iniciativa de Pangeanic.

Vemos que el equipo está formado por profesionales de multitud de países y disciplinas. ¿Cómo ha sido la experiencia de formar parte de esta iniciativa, tanto a nivel personal como profesional?

Sí, el equipo está formado por investigadores de toda Europa, como hemos mencionado antes. La experiencia es muy enriquecedora, estamos escribiendo artículos científicos sobre la iniciativa y haciendo workshops para exponer el trabajo desarrollado.

¿Cuáles han sido los mayores retos y obstáculos a la hora de desarrollar este proyecto?

Lo más complicado es preparar los datos y organizar a los equipos en un tiempo récord para un tema tan novedoso. No teníamos datos recopilados porque, aunque trata un tema muy importante, empezó en 2020.

¿Nos puedes contar los logros alcanzados y los objetivos cumplidos con éxito del proyecto?

En la primera ronda organizamos un workshop donde los participantes presentaron sus sistemas de traducción automática. El workshop para la segunda se ha celebrado el 17 de febrero de 15:00 a 18:00h CET. Además, estamos escribiendo un artículo científico conjunto sobre la iniciativa y otro específico para la tarea de traducción automática. En este proyecto hemos experimentado con datos específicos sobre el COVID-19 y hemos concluido que los modelos con mayor éxito han sido los multilingües que usaban datos de múltiples pares de idiomas para obtener mayor información.

Quizás nuestro público no haya conocido hasta ahora esta iniciativa. ¿Cuál crees, como experta en el sector, que es el mayor beneficio que aporta este proyecto al público general y a las empresas? ¿Y a las empresas del sector del procesamiento del lenguaje?

Los sistemas que se han desarrollado se han optimizado para la tarea y han obtenido buenos resultados. Los artículos que describen estos sistemas son de acceso público. El público general y las empresas pueden beneficiarse de los hallazgos de esta iniciativa.