Un dato se entiende como una representación simbólica de un atributo o variable cuantitativa o cualitativa, es decir, son unidades de información.
Actualmente, la necesidad de utilizar grandes cantidades de datos de calidad es un hecho irrefutable para conseguir acercarnos a la paridad humana en el campo de la inteligencia artificial (IA). Aunque cada vez hay más datos, el procesamiento y limpieza de dichos datos para su posterior uso durante el entrenamiento es un proceso costoso y en muchas ocasiones conlleva al descarte de muchos, aparte de que no se puede asegurar su calidad.
El principal objetivo de emplear técnicas de AD (aumento de datos) es mejorar la diversidad del conjunto de datos de entrenamiento, además de ayudar al modelo a mejorar la generalización de datos de prueba que no ha visto durante el entrenamiento. Por ello, es de extrema relevancia tener una forma de obtener grandes cantidades de datos y de calidad para poder conseguir modelos de IA que produzcan salidas relevantes.
El aumento de datos es ampliamente empleado en el campo de visión por computador y en el área del procesamiento del lenguaje natural (PLN), donde logra mejoras en varias tareas, aunque el procedimiento es más complejo debido a su naturaleza.
En el área del procesamiento del lenguaje natural se emplean varias técnicas de aumento de datos con el objetivo de diversificalos y ayudar a mejorar los modelos de IA en diferentes tareas y dominios. Estás técnicas se clasifican en:
Parafraseo. Los métodos basados en parafraseo generan datos aumentados que tienen una diferencia semántica limitada de los datos originales, basada en cambios adecuados y restringidos en las oraciones. Los datos aumentados transmiten información muy similar a la forma original.
Añadir ruido. Estos métodos añaden ruido discreto o continuo bajo la premisa de garantizar la validez. El objetivo de tales métodos es mejorar la robustez del modelo.
Muestreo. Los métodos basados en el muestreo dominan las distribuciones de datos y muestrean datos novedosos dentro de ellas. Estos métodos producen datos más diversos y satisfacen más necesidades de tareas posteriores basadas en heurísticas artificiales y modelos entrenados.
En Pangeanic estamos trabajando para conseguir un sistema robusto de aumento de datos en el campo del PLN con el objetivo de llegar a generar corpus monolingüe y bilingüe. Por este motivo desarrollamos, investigamos y experimentamos con diferentes técnicas para encontrar las que mejor se adapten dependiendo de las necesidades que se nos presenten.
Debido a que se prevé que los datos van a marcar la diferencia entre la calidad de los modelos, estamos invirtiendo esfuerzos para conseguir generar nuevos datos de calidad.
Pangeanic es su empresa de procesamiento del lenguaje. Desarrollamos e implementamos tecnología propia combinando la IA con la creatividad humana para ofrecer las soluciones que mejor se adapten al mercado.