Datos sintéticos vs Datos anonimizados

¿Qué son los datos sintéticos?

Los datos sintéticos son aquellos que han sido generados artificialmente a partir de un modelo que ha sido entrenado para reproducir las características y la estructura de los datos originales. El objetivo es que los datos sintéticos sean lo suficientemente parecidos a los originales, de manera que los resultados del análisis estadístico tengan la misma performance. Es importante, por ejemplo, mantener un control de calidad analizando que las tablas de distribución de los valores de las variables más relevantes sean iguales, o si dos características eran codependientes en los datos originales, que lo sigan siendo en los datos sintéticos.

La necesidad de generar datos parecidos a los originales surge de querer alimentar los modelos con una mayor cantidad de muestras y evitar con ello los problemas de precisión del modelo ocasionados al ser entrenado con pocos datos. En ocasiones la cantidad de datos es limitada e incluso difícil de conseguir sí tiene que ser generada por seres humanos, es por ello que generar datos sintéticos es más rápido, flexible y escalable.

Para entrenar un modelo no importa cuál sea la naturaleza de los datos siempre que se preserven las características y patrones intrínsecos de los datos. Estas características que conforman la “esencia” del dato son la calidad, el equilibrio y el sesgo. Los datos reales además de ser limitados y difíciles de conseguir son muy sensibles a errores, imperfecciones y sesgo, es por ello que utilizando datos sintéticos se puede mejorar la calidad del modelo.

Existen múltiples formas para generar datos sintéticos, desde árboles de decisión hasta aprendizaje profundo. El ejemplo más común son las Generative Adversarial Networks que fueron introducidas recientemente, y son usadas comúnmente en el campo de reconocimiento de imágenes. Tienen aplicaciones como por ejemplo transformar una imagen a un cuadro con el estilo de Monet, crear imágenes de personas que no existen, o convertir un caballo en una cebra.

Amplíe Información: ¿Cuáles son los mejores algoritmos de aprendizaje automático para PLN?

Este método no sólo es eficaz para generar imágenes, sino también es una buena forma para generar texto sintético, preservando las características intrínsecas de los datos.

¿Qué son los datos anonimizados?

La anonimización de datos es un procedimiento que elimina o modifica información que vincula información personal identificable, es decir, los datos anonimizados no pueden ser asociados a ninguna persona física. Anonimizar un fichero significa reemplazar estos datos originales por otro patrón de sustitución, generando el fichero original nuevamente con los datos privados reemplazados, y un fichero adicional o índice de anonimización que se puede utilizar para construir en reversa el fichero original.

Durante los últimos años hemos tenido un gran avance tecnológico que nos permite compartir información y evolucionar como sociedad, pero también estamos más expuestos ante los avances tecnológicos del hacking. Es común que exista información sensible en los datos dependiendo de la naturaleza de los mismos, aumentando el riesgo ante un posible ataque de ciberseguridad relacionando la información con personas reales.

Pese a que el concepto de información sensible resulte ambiguo, en el año 2018 la Unión Europea presentó el Reglamento General de Protección de Datos (RGPD) definiendo y limitando a aquellos datos que se entienden como sensibles, para proteger la privacidad de los individuos dando lugar a que la información esté sujeta a una regularización de protección de datos.

Algunos datos sensibles son, por ejemplo, el nombre de una persona, el sexo, detalles de la tarjeta de crédito, número de teléfono, contraseñas, entre otros. Son datos que identifican a una persona física y que, por lo tanto, deben ser anonimizados.

Amplíe información: Cómo tratar los datos anonimizados según el RGPD

Existen diferentes técnicas de anonimización, entre ellas las más conocidas son la permutación, aleatorización y generalización. Por otro lado, existe otra técnica llamada pseudoanonimización de datos. La Unión Europea define la pseudoanonimización como aquellos datos que ya no pueden atribuirse a una persona física sin el uso de información adicional (ver Artículo 4 (3) de la RGPD). Esta definición incluye algunos elementos de encriptación que no corresponden con la definición más utilizada en Pangeanic.

Llamaremos, en este texto, seudoanonimización a la anonimización que se produce al reemplazar un dato privado por uno similar, de carácter real, que permite la lectura corrida de un texto sin obstaculizar su entendimiento ante la presencia de etiquetas o secciones tachadas. Este método no utiliza técnicas de encriptación, y los datos de reemplazo pueden ser generados sintéticamente o mediante diccionarios o algoritmos cuya salida tiene un patrón exacto, como es el caso de las fechas.

Contenido relacionado: Cumplir con la seudonimizacion según el RGPD

Análisis comparativo entre datos sintéticos y datos anonimizados

Principales diferencias

La principal diferencia entre los datos sintéticos y los anonimizados es la vulnerabilidad de los mismos. No solo son los clientes los que están preocupados por la privacidad de la información, también es fundamental cumplir con las políticas de protección de datos.

Como se ha explicado en las anteriores secciones, los conceptos de datos sintéticos y anonimizados están enlazados, una forma de obtener datos anonimizados es utilizando las mismas técnicas para generar datos sintéticos, pero con el propósito de proteger la información sensible al compartir con terceros dentro del marco de protección de privacidad.

¿Cuándo utilizar cada tipo de dato?

La mayoría de las técnicas utilizadas para la anonimización de datos actuales, en realidad, no son más que métodos de pseudoanonimización. Según la definición de pseudoanonimización de la RGPD comentada anteriormente, al poder atribuir la información a un individuo mediante el uso de información adicional, debe considerarse información sobre una persona física identificable y, por lo tanto, los datos resultantes de un proceso de pseudoanonimización no son anónimos. Por lo tanto, si se tienen las herramientas y los modelos lo suficientemente buenos para evitar la pseudoanonimización, la mejor opción son los datos anonimizados. En cambio, si es necesario utilizar datos e información adicional para completar o revelar los datos sensibles, entonces la mejor opción son los datos sintéticos.

Ventajas y desventajas

La principal ventaja de los datos sintéticos es que es una forma de optimizar y enriquecer los datos, generando más datos con las mismas características que los originales.

Por otro lado, la principal desventaja de los datos sintéticos es que la privacidad de los datos resultantes debe estar asegurada y no coincidir con información de la persona real. Se debe realizar una evaluación de garantía de privacidad que evalúe hasta qué punto los interesados pueden identificarse en los datos sintéticos y cuántos datos nuevos sobre esos interesados se revelarían tras una identificación exitosa.

Otra desventaja de los datos sintéticos, consecuencia de la primera, es el temor al compartir con terceros datos insuficientemente anonimizados y estar incurriendo en un riesgo relacionado con la privacidad de los clientes o de los empleados. Por último, los datos pueden perder coherencia y ser menos significativos. Algunas de las técnicas que generan datos sintéticos tienen el inconveniente de que pueden eliminar más información de la necesaria debido a la agresividad de los métodos, perdiendo de este modo significatividad.

Los datos anonimizados tienen la principal ventaja de ser una medida contra los riesgos que supone compartir datos sensibles con terceros, cumpliendo de este modo con la normativa establecida por la RGPD. Es una forma de garantizar la seguridad de los datos y el cumplimiento de las políticas de privacidad, al mismo tiempo que se reduce la exposición ante los posibles ataques de ciberseguridad. La seudoanonimización por su parte permite además mantener los documentos y fuentes de datos en un estado legible similar al original, haciendo incluso imperceptible el enmascaramiento. Los datos enmascarados con esta técnica pueden pasar a procesos de producción de forma inmediata y ser útiles para terceros como es el caso de investigadores o auditores externos. Por último, utilizar la anonimización de datos revela que la empresa entiende la importancia de proteger los datos, lo cual genera confianza en sus clientes y seguridad en el negocio.

Amplíe información: Anonimización de bases de datos: herramientas y técnicas

La anonimización podría resultar una forma bastante fiable de asegurar los datos y combinarse con otros aspectos de la gestión de datos, pero presenta también algunas desventajas. Una de ellas menos evidente es que requiere tiempo pedir permiso a los usuarios para manipular y realizar cualquier operación con los datos.

Conclusión: ¿datos anonimizados o sintéticos?

Las instituciones o empresas cuyos datos son necesarios para procesos en los que participan actores humanos que podrían constituir una fuente de riesgo para esos datos originales, podrían ver en los datos anonimizados una opción viable y muy eficiente para poder mantener sus procesos con terceros actores sin riesgo. El uso de datos sintéticos puede alterar en algunos casos los patrones subyacentes en los datos que podrían ser el interés fundamental en la investigación o utilización de estos orígenes de datos, como por ejemplo estudios demográficos, estudios de salud relacionadas con enfermedades de alta incidencia, etc. Los datos anonimizados conservan, por la naturaleza del método, todos los patrones no sensibles de los individuos, y no se puede inferir los datos privados a partir de ellos a menos que se tenga un índice adicional de anonimización.

Tras haber repasado y diferenciado ambos conceptos, se ha descrito qué son los datos sintéticos y anonimizados, cuáles son sus principales diferencias, en qué casos es de utilidad utilizar cada uno de ellos, y sus principales ventajas y desventajas, se puede concluir que la mejor forma de asegurar la privacidad de los datos es utilizando datos anonimizados. Garantizan la protección de los datos sensibles, cumplen con la normativa RGPD y conservan mejor la coherencia y significatividad del texto.

Desde 2020 Pangeanic lidera el proyecto "Multilingual Anonymization toolkit for Public Administrations", que cuenta con el apoyo del programa CEF (Connecting Europe Facility) de la Unión Europea y del proyecto NTEU (Neural Translation for the EU). El objetivo de MAPA es desarrollar una herramienta de Anonimización multilingüe, basada en el reconocimiento de entidades nombradas (NER) y aplicable a todos los idiomas de la UE. Conozca más en este vídeo:

Si bien las técnicas de anonimización son las recomendadas por Pangeanic para garantizar la privacidad de los datos, los datos sintéticos son una buena técnica para generar datos con características y patrones intrínsecos similares al de los datos originales para alimentar los propios modelos que se entrenan para generar los datos anonimizados.