3 minutos de lectura

14/12/2022

¿Qué conocemos como sesgo?

El término sesgo se define como una desviación o cambio en la dirección de un asunto, hecho o evento a favor o en contra de algo o alguien. Existen diversos subgrupos y tipos de sesgos, tales como el sesgo de género o sesgos culturales, políticos, estadísticos, cognitivos, etc.

Sesgo en el área de la inteligencia artificial

En el campo de la IA, esto ocurre cuando los algoritmos producen resultados injustos o discriminatorios debido a suposiciones erróneas en el proceso de aprendizaje automático. Estos sistemas de IA son creados por humanos, por lo que a menudo reflejan diferentes características personales y sociales, como pueden ser la religión, la raza, el género, etc.

Según investigadores del Penn State College of Information Sciences and Technology (IST), dentro del campo del procesamiento del lenguaje natural, el cual engloba varias aplicaciones como pueden ser los filtros de correos spam o asistentes virtuales, existe un sesgo implícito que influye de manera ofensiva en personas con discapacidad. Este estudio se llevó a cabo mediante la exploración de 13 modelos de carácter público, según afirmó Pranav Venkit, uno de los investigadores involucrados.

El fenómeno afecta incluso a las grandes empresas. Según informa Reuters, Amazon lleva años construyendo programas informáticos para revisar los currículos de los solicitantes de empleo con el fin de encontrar los candidatos más idóneos de forma automática. La herramienta de reclutamiento de la empresa emplea inteligencia artificial para analizar a los candidatos, puntuándolos de una a cinco estrellas.

En 2015, la compañía se percató de que el modelo que estaban empleando presentaba cierto sesgo de género. El motivo es que se entrenó mediante la observación de patrones en CV enviados a la empresa durante un período de 10 años, que en su mayoría eran hombres.

En el área de la traducción automática se da asimismo este fenómeno. Existen ejemplos que tienden a asignar profesiones que en el pasado solían estar más asociadas al género femenino en su traducción, y aunque los traductores automáticos han mejorado, todavía encontramos ejemplos de sesgos como el siguiente:

El sesgo, asimismo, puede darse dentro del área de la clasificación automática. Este fue el caso de la plataforma Kaggle, que organizó una competición para clasificar las reseñas en función de su puntuación de toxicidad. Como resultado, se obtuvo que los modelos clasificaban los comentarios no tóxicos como tóxicos. La razón es que comentarios que a menudo se refieren a grupos minoritarios como "feministas", "musulmanes", "negros", "gays", etc. se clasifican como tóxicos, a pesar de que no son tóxicos por sí mismos.

¿Se puede eliminar el sesgo de los algoritmos de IA?

Tal y como señaló el Dr. Sanjiv M. Narayan de la Stanford University School of Medicine, “Todos los datos están sesgados. Esto no es paranoia. Es un hecho.”

Eliminar el sesgo de manera definitiva es una tarea complicada, pero algunos de los pasos para poder corregirlo o mitigarlo en los sistemas de IA consisten en explorar el algoritmo y los datos. Por ejemplo, se debe determinar si el conjunto de datos de entrenamiento es lo suficientemente representativo. De esta manera, durante la creación de modelos se pueden identificar los sesgos y comprender las razones de su aparición.

Se debe, además, considerar los procesos en los que resulta óptimo emplear la IA y aquellos otros en los que es preferible involucrar a los humanos. Tareas como la investigación en este campo también son fundamentales. Los modelos de IA están creados por personas y cada una tiene una visión y unos valores diferentes, y, por tanto, sesgos, que adquiere a lo largo de su vida. Por ello, la diversidad implica tomar en cuenta una gran variedad de visiones. El hecho de que una persona no detecte la presencia de sesgos no significa que otra no pueda detectarlo. Este fue el caso de la informática Joy Buolamwini, quien descubrió la presencia de sesgo racial en sistemas de detección facial al usarlos en su propio rostro.

Pangeanic y el sesgo

Pangeanic ofrece varios servicios en el campo de la inteligencia artificial, incluida la clasificación automática, la traducción, el análisis de sentimientos o la anonimización. Estos servicios son propensos al sesgo si no emplean conjuntos de datos representativos.

Los sistemas de IA aprenden a tomar decisiones en función de los datos, por lo que es esencial que los conjuntos de datos utilizados para entrenar los algoritmos se desarrollen de manera controlada y responsable. Por este motivo, en varias tareas se apuesta por la etiquetación manual de datos llevada a cabo por personas cualificadas.

Unos datos sesgados implican un algoritmo sesgado y con ello resultados injustos o discriminatorios.

El vídeo a continuación muestra dos frases casi idénticas cuya única diferencia radica en el nombre del sujeto: “Jack Smith” y “Abdul Rehman”. Aunque cada nombre se asocia con una raza o país diferente, nuestro servicio anonimiza ambos casos con éxito.

En resumen, es esencial utilizar conjuntos de datos suficientemente grandes y representativos para poder evitar así sesgos como puede ser el sesgo cultural o racial.