“Soy experto en modelos más que experto en Inteligencia Artificial”
A pesar de definirse como experto en modelos, Emilio Soria es un experto en Inteligencia Artificial y una de las personas que más sabe en España sobre esta materia. Es catedrático por la Universidad de Valencia, fundador del grupo de investigación IDAL (Intelligent data analysis laboratory – IDAL) de la Escuela Técnica Superior de Ingeniería de Valencia, director del Máster en Inteligencia Artificial Avanzada y Aplicada: IA^3 y escritor de obras como “Inteligencia Artificial: casos prácticos con aprendizaje profundo”.
Estudió Física porque le gustaba la relación entre las matemáticas y el mundo real. Cuando finalizó su carrera, continuó vinculado al ámbito académico y "como en el mundo virtual, algo así como en Matrix, me ofrecieron dos libros. Como siempre me han gustado los retos, elegí el de filtros adaptativos. Eso decidió mi vida profesional”.
Aunque inició su investigación en filtros adaptativos -dispositivo que intenta modelar la relación entre señales en tiempo real de forma iterativa- pasó después a centrarse en las redes neuronales, resultado de ello fue su tesis doctoral relacionada con problemas aplicados a electrocardiografías. De esta forma, su vida académica fue evolucionando “fuimos aplicando modelos más complicados: lógica borrosa, sistemas neuro-borrosos,… llegando hasta el día de hoy”. Emilio, por todo ello, se reconoce experto en modelos más que experto en Inteligencia Artificial.
La investigación aplicada a todo tipo de datos
Como fundador del grupo de investigación IDAL en la Universidad de Valencia, hace un llamamiento desde el pódcast Pangea AI & Languages de Pangeanic: “tenemos las puertas abiertas para aquellas personas que quieren trabajar en datos porque proyectos no nos faltan”.
IDAL tiene como principal objetivo el estudio y aplicación de métodos inteligentes de análisis de datos para el reconocimiento de patrones, con aplicaciones en problemas de predicción, clasificación o determinación de tendencias.
“IDAL es un grupo de investigación en el que hacemos todo tipo de aplicaciones con todo tipo de datos, estamos usando datos estructurados y datos no estructurados, en general, grandes cantidades datos. Pero es verdad que se nos está empezando a olvidar que con 100 o 200 patrones de datos puedes desarrollar un modelo que puede serte de utilidad en tu problema”.
Inteligencia Artificial Avanzada y Aplicada: ¿Cuáles son los modelos aplicados a la traducción automática?
Emilio Soria es, además, director del Máster en Inteligencia Artificial Avanzada y Aplicada: IA^3 de la Universidad de Valencia, y a él le hemos preguntado en este pódcast cuáles son los modelos que se están aplicando en traducción automática. Emilio nos cuenta que “desde el ámbito de la investigación, nos hemos quedado paralizados en el 2017, cuando sale un modelo que está relacionado con la famosa película Transformers. Es un modelo que funciona bien en todas las aplicaciones, que tiene en cuenta el contexto”.
Para Emilio hay una aspiración vinculada a esta situación de estancamiento en cuanto a la investigación: “debe venir alguien que levante la mano y que ofrezca algo diferente a lo que hay”.
La Inteligencia Artificial y el marco normativo que regula su desarrollo
España ha creado recientemente la Agencia de Supervisión de la IA y está impulsando en Europa un proyecto en un entorno de pruebas en Inteligencia Artificial, en el que participan entidades públicas y privadas para la regulación y prácticas sobre abuso. Para Emilio es evidente que “España se ha convertido en un referente mundial en cuanto a ética e Inteligencia Artificial, lo que pasa es que creo que hemos empezado la casa por el tejado”. En este aspecto, él refiere que el tamaño del tejado productivo “no es tan denso para crear algo así cuando aún no tenemos, por ejemplo, una agencia de aplicaciones en IA en LP”.
Los modelos multimodales: su aplicación
Emilio Soria, entre sus líneas de investigación, está centrado también en el trabajo de los modelos multimodales en Deep Learning: “quizás con un ejemplo sea más visual, por ejemplo, en medicina están los sistemas de diagnóstico basados en imágenes. Si de un determinado paciente tengo historial clínico e imagen, ¿por qué tengo que dividir la información? Con el modelo multimodal atacas el modelo con imágenes, con texto, con grafo. Y ahí puedes decidir con mayor precisión lo que más le conviene a un paciente”.
Incluso este tipo de modelo sirve para reconocer un fraude en un accidente “usas los grafos para ver el nivel de relación de las personas implicadas en el accidente. Facilitando información más fidedigna y evitar los fraudes”.
Las tendencias en Procesamiento del Lenguaje Natural
Las tendencias en PLN para Emilio Soria están centradas en “los diferentes avances de conversión de voz a texto, por ejemplo, Whisper, de OpenAI, que permite que toda la voz la puedas plasmar a texto”.
Whisper es un sistema de reconocimiento automático del habla (ASR), entrenado a partir de 680.000 horas de datos multilingües y multitarea supervisados, recogidos en la web. Aunque también reconoce la importancia de “los avances en voz clonada”.
Para él, “con estos dos elementos clave, incorporándolos a la traducción automática, saldrá una cantidad de aplicaciones que generará un importante impacto en tendencias a corto y medio plazo en el Procesamiento del Lenguaje Natural”.