Seguimos creciendo como empresa de PLN y decimos “¡Hola!” a Marina Souto, nuestra nueva Machine Learning Engineer

En Pangeanic estamos orgullosos de poder decir que nos encontramos en pleno proceso de expansión y evolución. La apertura de la nueva oficina en Japón y los nuevos proyectos en los que nos embarcamos, son pasos hacia delante en nuestro objetivo de adaptarnos a las nuevas necesidades del mercado para poder proponer nuevas alternativas y soluciones globales para el procesamiento del lenguaje natural.

Esta expansión no sería posible sin el trabajo que desarrolla el departamento de investigación de Inteligencia Artificial aplicada al conocimiento lingüístico. Actualmente, este equipo de profesionales está trabajando en varias líneas de investigación sobre Procesamiento del Lenguaje Natural (PLN). Estamos desarrollando proyectos de traducción automática neuronal (con más de 250 pares de idiomas), recuperación de información, reconocimiento de entidades nombradas, así como la clasificación, el resumen o la generación de texto.

El crecimiento que está experimentando Pangeanic ha propiciado la entrada de Marina Souto, nueva Machine Learning Engineer, que aplicará sus conocimientos de IA avanzada en el desarrollo de nuevas herramientas que nos ayuden a continuar aprendiendo sobre el procesamiento del lenguaje natural.

Hablamos con Marina Souto para conocer más sobre su trabajo y lo que va a hacer en Pangeanic.

1. Háblanos de tu experiencia en PLN y qué te gustaría hacer o desarrollar en Pangeanic

Durante mi máster desarrollé pequeños proyectos de PLN como generación de texto utilizando redes LSTM, modelado de temas y análisis de sentimiento o clasificación de texto. En mi etapa en Pangeanic, espero aumentar mis conocimientos sobre arquitecturas transformers y traducción automática.

2. ¿Te gusta la ciencia de datos? ¿Qué opinión tienes sobre la IA como ayuda o substituta de labores mundanas que ahora realizan las personas?

Creo que la ciencia de datos es necesaria en todos los lugares donde se trabaje con datos. La inteligencia artificial precisa de una gran cantidad de datos y, por lo tanto, la ciencia de datos es necesaria para almacenar, administrar y limpiar toda esa información.

En mi opinión, las personas son buenas para encontrar soluciones creativas y realizar trabajos únicos, y deberían centrarse en eso y dejar que la IA realice todas las tareas repetitivas y sistemáticas.

3. Aplicada al lenguaje, la IA ha desarrollado tecnologías admirables y sorprendentes ¿cuál admiras más?

Traducción automática, porque tiene un impacto más amplio. Aunque Internet ha puesto el conocimiento al alcance de todos, la traducción automática permite que todos lo comprendan sin necesidad de hablar inglés.

4. Es muy difícil predecir lo que puede traer el futuro, pero ¿crees que tendremos "alter egos" virtuales que aprenderán de todo lo que escribimos o decimos?

Supongo que sí. Hoy en día, muchas aplicaciones en mi teléfono ya me sugieren las palabras y expresiones que suelo usar, además de anuncios que recomiendan productos que he buscado. Nuestros perfiles online son cada vez más complejos y, aunque no nos sustituyan, nos conocerán muy bien.

Háblanos acerca del "Sesgo en el aprendizaje automático":

¿Qué es el sesgo en el aprendizaje automático y por qué es un problema?

En el aprendizaje automático, sesgo se refiere a un error sistemático. Normalmente, este tipo de error se debe a la distribución de los datos utilizados para entrenar el modelo. Por ejemplo, si el modelo intenta predecir un regalo de cumpleaños ideal solo con datos sobre niños, todas las predicciones estarán sesgadas hacia juguetes infantiles. Otro ejemplo, quizás más preocupante, es que si se intenta predecir qué tipo de persona sería un jefe ideal para una empresa basándose en jefes anteriores, el modelo probablemente se inclinará hacia los candidatos masculinos si la mayoría de los jefes anteriores fueron hombres.

6. ¿Qué aspecto tiene una salida de IA sesgada?

Una salida sesgada reflejará los datos que se han utilizado y dará buenos resultados para esa muestra en concreto. Pero no obtendrá un buen resultado para otros grupos más amplios. En la actualidad, la sociedad ha cambiado de opinión sobre algunos temas y es importante recordar que los datos antiguos pueden no reflejar los valores actuales.

7. ¿Se producen problemas de sesgo en Pangeanic en los modelos lingüísticos para la traducción automática neuronal?

En general para la traducción automática existe un problema de sesgo con el género. En diferentes idiomas, el género afecta a distintas partes de una oración y, para algunas traducciones, es un desafío mantener neutral el género o la connotación original.

8. ¿Por qué se producen sesgos? Entonces, si la raíz de todos los problemas está en los datos. ¿Cómo exactamente se vuelve sesgado el modelo ML?

Al entrenar un modelo, le das un problema y una solución. Por ejemplo, tomemos el tema de contratar al mejor candidato. Si todas las respuestas comparten atributos que apuntan a que el mejor candidato es hombre o blanco, es fácil para el modelo asociar esas características con la solución. Este problema exacto ocurrió con la selección automática de currículums de Amazon en 2015, que se demostró que discriminaba a las mujeres.

9. ¿Cuál es tu experiencia con el sesgo en el etiquetado de datos? ¿Existe una solución para el problema del sesgo en el aprendizaje automático? ¿Qué pueden hacer las empresas para garantizar una mayor equidad en sus modelos de aprendizaje automático?

En primer lugar, necesitamos obtener datos que reflejen la situación y los valores actuales y, si eso no es posible, al menos debe tenerse en cuenta a la hora de valorar los resultados del modelo. En segundo lugar, probar el modelo en una la población lo suficientemente grande como para valorar los problemas potenciales que podrían surgir. Por último, a veces es mejor dejar de lado las métricas (como la precisión o la sensibilidad) y centrarse en las consecuencias en el mundo real y evaluar los dilemas éticos.

10. ¿Por qué es tan importante estar al tanto del sesgo en IA?

Cuando las predicciones de un modelo tienen implicaciones en la vida real de las personas, es importante valorar si esos modelos discriman a un grupo o refuerzan prejuicios existentes. A veces, los datos pueden dar una perspectiva limitada de la realidad y confundir correlación con la causalidad. Por ejemplo, cuanto mayor sea la cantidad de bomberos en un incendio, mayor será el daño. Si bien eso es cierto, los bomberos no causan el daño. Pero cuánto mayor sea el incendio, mayor será el número de bomberos que asistirán. Una comprensión superficial de los datos y el problema puede terminar reforzando ideas obsoletas.