Zero-shot learning en el PLN

Introducción

En el paradigma del aprendizaje supervisado es necesario tener conjuntos de datos que tengan una etiqueta asociada que los defina para poder así ayudar a la inteligencia artificial a encontrar patrones en los datos etiquetados.

Sin embargo, en la realidad que nos rodea, la mayoría de los datos se encuentran sin etiquetar (o sin clasificar) y, además, dicho proceso de etiquetado conlleva el uso de muchos recursos, tiempo y coste.

Con el objetivo de solventar este problema, se planteó el uso de una técnica llamada zero-shot learning (ZSL), que se ha empleado en el campo de la visión por computador y que en los últimos años ha tenido un gran impacto en el sector del procesamiento del lenguaje natural (PLN).

¿Qué es el zero-shot learning?

El zero-shot learning es una configuración de problemas en el aprendizaje automático en la que, en el momento de la prueba, un alumno observa muestras de clases que no fueron observadas durante el entrenamiento y necesita predecir la clase a la que pertenecen.

Recientemente, sobre todo en el PLN, se ha utilizado de forma mucho más amplia para conseguir que un modelo haga algo para lo que no ha sido entrenado explícitamente. Un ejemplo bien conocido de esto es el modelo de lenguaje GPT-2, que fue empleado en tareas posteriores como la traducción automática sin afinación previa en estas tareas.

Tipos de zero-shot learning

El problema de ZSL puede dividirse en categorías basadas en los datos presentes durante la fase de entrenamiento y la fase de prueba.

Datos presentes en la fase de entrenamiento:
- Inductivo: El objetivo principal en este escenario es transferir el conocimiento del espacio semántico al espacio de la imagen visual para que el modelo pueda reconocer objetos de clases no vistas en el momento de la prueba.
- Transductor: Esta configuración es útil en situaciones prácticas en las que tenemos acceso a una gran cantidad de imágenes, pero en las que anotar o etiquetar cada una de ellas no es posible o requiere mucho trabajo. En comparación con la configuración inductiva, la configuración transductiva es un poco más fácil, ya que el modelo tiene algún conocimiento sobre la distribución de las características visuales de las clases no vistas.
Datos presentes durante la fase de prueba:
- Convencional: Esta configuración es, desde una perspectiva práctica, menos útil, ya que, en escenarios realistas, la suposición de que los datos en el momento de la prueba provienen únicamente de clases no vistas es difícil de garantizar.
- Generalizado: Esta configuración es, desde una perspectiva práctica, más útil, realista y mucho más difícil que la configuración convencional. La razón es que el modelo ha sido entrenado solamente con datos de clases vistas y, por tanto, sus predicciones están sesgadas hacia las clases que ha observado durante el entrenamiento. Esto lleva a que muchos datos de clases no vistas se clasifiquen erróneamente en clases vistas en el momento de la prueba, lo que reduce drásticamente el rendimiento.

Cómo se aplica el zero-shot learning en Pangeanic

Como ya hemos dicho, obtener grandes cantidades de datos etiquetados de alta calidad es difícil. Por este motivo aplicar el zero-shot learning nos permite disminuir la dependencia de nuestros modelos en los datos etiquetados. Esta forma de evaluar los modelos para observar cómo se comportan con datos que no han visto durante el entrenamiento es interesante y brinda evaluaciones más reales al forzarlo a encontrar patrones que no ha visto antes, es decir, datos que no ha encontrado durante el entrenamiento.

En Pangeanic experimentamos con diferentes aproximaciones de shot y estamos siempre al tanto de las nuevas tecnologías y experimentos que se van realizando con el objetivo de mejorar la salida de nuestros modelos.

Somos su empresa de procesamiento del lenguaje natural especializada en software de anonimización, traducción automática privada de calidad próxima a la humana, clasificación automática de datos, análisis de relevancia y sentimiento y sumarización. Combinamos la IA con la creatividad humana para ofrecer las mejores soluciones tecnológicas.