Las entidades generan y almacenan una gran cantidad de información en todos sus departamentos, desde datos personales hasta comportamientos de compra y detalles de localización. Esta información puede ser muy valiosa a la hora de llevar a cabo proyectos de investigación y desarrollo, sin embargo, esto preocupa cada vez más a los usuarios, sobre todo en Internet.
Como consecuencia, la privacidad garantizada hoy en día requiere técnicas de anonimización de datos; a veces incluso exigiendo eliminar la posibilidad de ingeniería inversa para la recuperación de estos. Tanto es así, que en 2018 el RGPD de la UE hizo obligatoria la eliminación de datos personales para empresas y organizaciones.
Tabla de contenidos |
2. Ventajas y limitaciones de las técnicas de anonimización |
Las técnicas de anonimización monolingües y multilingües ayudan a empresas y organizaciones a cumplir con la legislación y evitar sanciones relacionadas con la publicación y divulgación de los datos.
A continuación, proponemos una lista de los principales métodos de anonimización y su particular uso en cada uno de los escenarios en los que se trate información sensible, como detalles personales y bancarios, contraseñas o datos del domicilio.
El enmascaramiento de datos permite ocultar ciertos elementos de los datos colocando caracteres aleatorios u otros datos en su lugar. De esta forma, utiliza la sustitución para alterar valor clave, permitiendo que se sigan identificando los datos sin que se revele su identidad.
Se implementan estrategias de alteración, como el barajado de caracteres, el cifrado, o la sustitución de caracteres o términos. Por ejemplo, un carácter de valor puede ser sustituido por un símbolo, y el nombre de una persona puede reemplazarse por un número.
El enmascaramiento de datos garantiza que la información sensible del cliente no esté disponible fuera del entorno de producción. Uno de sus usos más extendidos se da en los escenarios de facturación.
En este caso, la información de la tarjeta de crédito es enmascarada para modificar parte de los dígitos por una X. Debe utilizarse si se busca proteger conjuntos de datos que no afectarán al desempeño de las funciones, como información de identificación personal o de pago.
Mientras que otras técnicas de anonimización, como el enmascaramiento de datos, garantizan que los conjuntos de datos anonimizados sean difícilmente recuperables, la seudonimización se limita a reducir la vinculación de los datos personales con la identidad del individuo. Sustituye identificadores privados por identificadores falsos o seudónimos, pero mantiene un identificador específico que permite acceder a los datos originales.
La seudonimización de datos mantiene la precisión estadística y la confidencialidad de los datos. Por una parte, cumple con la ética y con la legislación impuesta, y por otra, sigue permitiendo que se utilicen los datos modificados para estudios, investigaciones, estadísticas u otras acciones beneficiosas.
La seudonimización impide la ruptura de la cadena de identificación, por lo que, incluso si los datos se disocian, es posible lograr la reidentificación. Suele encontrarse en el ámbito sanitario, donde se separa el dato identificativo del dato de salud, impidiendo que pueda trazarse la información sensible.
La seudonimización es útil, por ejemplo, para verificar problemas específicos y únicos en un entorno de prueba. Suele ser, por tanto, la única solución que permite el funcionamiento normal de las aplicaciones y la integridad de los escenarios de prueba.
También conocido como barajado o permutación de datos, el intercambio de datos supone una variación en el orden o posición de los elementos de un conjunto ordenado de elementos.
Esta técnica introduce una distorsión aleatoria en un conjunto de microdatos, manteniendo el detalle y la estructura de la información original. Se dedica, por tanto, a reordenar los valores de los atributos de modo que sigan estando presentes, pero no se correspondan con sus registros originales.
En general, el enfoque en el intercambio de datos se implementa creando pares de registros con atributos similares y luego intercambiando valores de datos confidenciales o de identificación entre los pares.
El proceso de mezclar conjuntos de datos personales para reorganizarlos hace que estos dejen de ajustarse a la información original. Se utiliza comúnmente en las encuestas, donde se cambian atributos (columnas) que incluyen valores reconocibles, como la fecha de nacimiento.
Aunque los datos sintéticos técnicamente no son una herramienta de anonimización, estos son cada vez más utilizados a la hora de tratar datos personales de manera que su uso no interfiera con la ley.
Los datos sintéticos se refieren a conjuntos de datos creados por un algoritmo sin relación alguna con los eventos existentes o la realidad. Modelos estadísticos potenciados por la inteligencia artificial son capaces de crear prototipos sintéticos a partir de los conjuntos de datos originales.
El método de datos sintéticos incluye la construcción de modelos matemáticos basados en patrones contenidos en el conjunto de datos original. Apoyándose en el aprendizaje profundo, utiliza métodos como desviaciones estándar, regresión lineal o medianas, entre otros, para producir los resultados sintéticos.
Los datos sintéticos ofrecen entornos de simulación muy exactos, permitiendo utilizar conjuntos de datos para adquirir perspectivas estratégicas sobre el futuro de, por ejemplo, los mercados, sin poner en riesgo la privacidad de los usuarios.
Se utilizan para construir conjuntos de datos artificiales en lugar de modificar o utilizar el conjunto de datos original y comprometer la privacidad. Algunos expertos consideran que esto es más sencillo que realizar modificaciones en los conjuntos de datos originales.
Podría interesarle:
La perturbación de datos es una técnica de seguridad de datos que agrega «ruido» a las bases de datos, abogando por la confidencialidad de los registros individuales. Este método para anonimizar conjuntos de datos es aplicable a las entradas de datos numéricos, alterando los conjuntos de datos con un valor y una operación específicos.
Esta técnica cambia ligeramente el conjunto de datos inicial mediante el uso de métodos de redondeo y ruido aleatorio. Los valores utilizados deben ser siempre proporcionales a la perturbación empleada.
La perturbación de datos puede agregar una suma a todos los valores numéricos en su base de datos o utilizar una cifra determinada como base de su operación; dividiendo todos los valores numéricos por esta.
Es importante seleccionar con cuidado la base utilizada para modificar los valores originales, ya que, si la base es demasiado pequeña, los datos no se anonimizarán lo suficiente y, si es demasiado grande, es posible que los datos no se reconozcan ni pueda extraerse su valor.
La generalización de datos es el proceso de crear una categorización más amplia de los datos en una base de datos, creando una imagen más general de las tendencias o los conocimientos que proporciona. La generalización implica excluir algunos datos deliberadamente para hacerlos menos identificables.
Los datos pueden modificarse dentro de una serie de rangos con límites lógicos. El resultado es una reducida granularidad de los datos, dificultando o incluso imposibilitando la recuperación de los valores exactos asociados con un individuo.
El objetivo es eliminar ciertos identificadores sin comprometer la precisión de los datos. Por ejemplo, se puede eliminar o reemplazar el número de casa en una dirección específica, pero no se eliminará el nombre de la calle.
En ciertos casos, se puede generalizar la información clasificándola en grupos, como sucedería al reemplazar las edades exactas de individuos en una base de datos por grupos de edad (65-74, 75-84, 85+, etc.)
Además de permitir que las organizaciones cumplan con las leyes reguladoras, incluido el RGPD, las técnicas de anonimización impulsan la transformación digital en las empresas, proporcionando datos anonimizados y protegidos que se utilizarán para generar un nuevo valor de mercado.
Ninguna organización puede hacer nada sin una base de datos segura y coherente. Estas técnicas aíslan la gobernanza de los datos y ayudan a mantener la privacidad frente a los intrusos, actuando a su vez como barrera contra la influencia externa.
La anonimización absoluta es muy difícil de conseguir, puesto que anonimizar de forma garantizada e irreversible un conjunto de datos es prácticamente imposible en la mayoría de casos.
Teniendo esto en cuenta, es necesario que, como mínimo, la reidentificación que pudiese darse conlleve un esfuerzo tan elevado que no sea algo asumible ni factible para quien intente recuperarla.
Por otro lado, las formas de anonimización de datos no reversibles y más estrictas pueden restringir la capacidad de extraer información significativa de los resultados, por lo que su uso en algunos casos pierde valor respecto a la versión original.
Por eso es importante estudiar cada caso y encontrar el equilibrio entre proteger herméticamente la seguridad y privacidad del usuario, y mantener parte del carácter de los datos de forma que sigan resultando útiles.
Si necesita ayuda al respecto, contacte con nosotros y le asesoraremos en materia de anonimización de datos.