6 técnicas de anonimização de dados pessoais que você deve conhecer

Escrito por Carles Durá Santonja | 08/24/23

Organizations generate and store a large amount of information across their departments, from personal data to purchasing behavior and location details. This information can be very valuable when carrying out research and development projects, however, it is of increasing concern to users, especially on the Internet.

Índice:

A importância da anonimização de dados no contexto atual
Técnicas de anonimização de dados

3. As vantagens e limitações das técnicas de anonimização

Como consequência, atualmente, a garantia de privacidade exige técnicas de anonimização de dados e, às vezes, até procedimentos para eliminar a possibilidade de engenharia reversa para recuperação de dados. Tanto é assim que, em 2018, o GDPR da UE tornou a remoção de dados pessoais obrigatória para empresas e organizações.

Este artigo discutirá algumas das técnicas mais comuns de anonimização de dados pessoais que todos devem conhecer. Desde o mascaramento de dados e a pseudonimização até técnicas como a perturbação de dados ou o uso de dados sintéticos. Este artigo lhe dará uma visão geral das diferentes técnicas de anonimização de dados que são usadas para proteger a privacidade dos dados pessoais. Continue lendo!

A importância da anonimização de dados no contexto atual

À medida que a quantidade de dados pessoais coletados e armazenados digitalmente aumenta, o risco desses dados caírem nas mãos erradas também aumenta e pode comprometer a privacidade e a segurança dos dados pessoais. Além disso, as regulamentações sobre dados pessoais estão se tornando mais rigorosas, exigindo que empresas e organizações tratem os dados pessoais com mais cuidado.

A anonimização de dados pessoais é uma técnica que ajuda a proteger a privacidade e a segurança do indivíduo, ocultando sua identidade nos dados coletados. Ao anonimizar dados pessoais, os dados que podem identificar uma pessoa são removidos ou modificados, mas os dados relacionados ao uso são mantidos. Isso permite que empresas e organizações usem os dados sem comprometer a privacidade e a segurança dos indivíduos.

Técnicas de anonimização de dados

As técnicas de anonimização monolíngue e multilíngue ajudam as empresas e organizações a cumprir a legislação e evitar multas relacionadas à publicação e divulgação de dados.

A seguir, propomos uma lista dos principais métodos de anonimização e seu uso específico em cada cenário que envolve informações confidenciais, como detalhes pessoais e bancários, senhas ou dados de endereço residencial.

1. Mascaramento de dados

O mascaramento de dados permite ocultar determinadas partes dos dados, colocando caracteres aleatórios ou outros dados em seu lugar. Dessa forma, a substituição é usada para alterar os valores-chave, permitindo que os dados continuem a ser identificados sem revelar a identidade.

São implementadas estratégias de alteração, como embaralhamento de caracteres, criptografia ou substituição de caracteres ou termos. Por exemplo, um caractere de valor pode ser substituído por um símbolo, e o nome de uma pessoa pode ser substituído por um número.

Dicas e recomendações

O mascaramento de dados garante que as informações confidenciais dos clientes não estejam disponíveis fora do ambiente de produção. Um de seus usos mais difundidos é em cenários de faturamento.

Nesse caso, as informações do cartão são mascaradas, alterando parte dos dígitos para um X. Ele deve ser usado se você estiver procurando proteger conjuntos de dados que não afetarão o desempenho de funções, como identificação pessoal ou informações de pagamento.

2. Pseudonimização de dados

Enquanto outras técnicas de anonimização, como o mascaramento de dados, garantem que os conjuntos de dados anônimos sejam difíceis de recuperar, a pseudonimização apenas reduz a vinculação de dados pessoais à identidade do indivíduo. Ela substitui identificadores privados por identificadores falsos ou pseudônimos, mas mantém um identificador específico que permite o acesso aos dados originais.

A pseudonimização de dados mantém a precisão estatística e a confidencialidade dos dados. Por um lado, ela está em conformidade com a ética e a legislação imposta e, por outro, continua permitindo que os dados modificados sejam usados para estudos, pesquisas, estatísticas ou outras ações benéficas.

Dicas e recomendações

A pseudonimização impede a quebra da cadeia de identificação, de modo que, mesmo que os dados sejam dissociados, é possível obter uma reidentificação. Geralmente é encontrada no campo da saúde, onde os dados de identificação são separados dos dados de saúde, evitando que informações confidenciais sejam rastreadas.

A pseudonimização é útil, por exemplo, para verificar problemas específicos e exclusivos em um ambiente de teste. Portanto, muitas vezes é a única solução que permite que os aplicativos operem normalmente e realizem a integridade dos cenários de teste.

3. Data swapping

Também conhecida como embaralhamento de dados ou permutação, a troca de dados envolve a alteração da ordem ou posição dos elementos de um conjunto ordenado.

Esta técnica introduz uma distorção aleatória em um conjunto de microdados, mantendo o detalhe e a estrutura da informação original. Sua principal característica é, portanto, reordenar os valores dos atributos de modo que eles ainda estejam presentes, mas não correspondam aos seus registros originais.

Dicas e recomendações

Em geral, a abordagem de troca de dados é implementada criando pares de registros com atributos semelhantes e, em seguida, trocando valores de dados confidenciais ou identificadores entre os pares.

O processo de misturar conjuntos de dados pessoais para reorganizá-los faz com que eles não mais correspondam à informação original. É comumente usado em pesquisas, onde atributos (colunas) que incluem valores reconhecíveis, como data de nascimento, são alterados. 

4. Dados sintéticos

Embora os dados sintéticos tecnicamente não façam parte das ferramentas de anonimização, eles são cada vez mais usados no processamento de dados pessoais para que seu uso não interfira na lei.

Dados sintéticos se referem a conjuntos de dados criados por um algoritmo sem relação com eventos existentes ou realidade. Modelos estatísticos alimentados por inteligência artificial são capazes de criar protótipos sintéticos a partir dos conjuntos de dados originais.

O método de dados sintéticos envolve a construção de modelos matemáticos com base em padrões contidos no conjunto de dados original. Baseando-se em aprendizado profundo, ele utiliza métodos como desvios padrão, regressão linear ou medianas, entre outros, para produzir resultados sintéticos.

Dicas e recomendações

Os dados sintéticos oferecem ambientes de simulação altamente precisos, permitindo que os conjuntos de dados sejam usados para obter percepções estratégicas sobre o futuro, por exemplo, dos mercados, sem colocar em risco a privacidade dos usuários.

Eles são usados para criar conjuntos de dados artificiais em vez de modificar ou usar o conjunto de dados original e comprometer a privacidade. Alguns especialistas consideram isso mais simples do que fazer modificações nos conjuntos de dados originais.

Talvez você se interesse por:

Software de anonimização de dados: Discover Masker

5. Perturbação de dados

A perturbação de dados é uma técnica de segurança de dados que adiciona "ruído" aos bancos de dados, defendendo a confidencialidade de registros individuais. Esse método de anonimização de conjuntos de dados é aplicável a entradas de dados numéricos, alterando os conjuntos de dados com um valor e uma operação específicos.

Essa técnica altera ligeiramente o conjunto de dados inicial usando métodos de arredondamento e ruído aleatório. Os valores usados devem ser sempre proporcionais à perturbação usada.

Dicas e recomendações

A perturbação de dados pode adicionar um valor a todos os valores numéricos em seu banco de dados ou usar um determinado número como base de sua operação, dividindo todos os valores numéricos por ele.

É importante selecionar cuidadosamente a base usada para modificar os valores originais, pois se a base for muito pequena, os dados não serão suficientemente anônimos e, se for muito grande, os dados podem não ser reconhecidos e seu valor pode não ser extraído.

6. Generalização

A generalização de dados é o processo de criação de uma categorização mais ampla dos dados em um banco de dados, criando uma imagem mais geral das tendências ou percepções que eles fornecem. A generalização envolve a exclusão deliberada de alguns dados para torná-los menos identificáveis.

Os dados podem ser modificados em uma série de intervalos com limites lógicos. O resultado é uma granularidade reduzida dos dados, dificultando ou mesmo impossibilitando a recuperação dos valores exatos associados a um indivíduo.

Dicas e recomendações

O objetivo é remover determinados identificadores sem comprometer a precisão dos dados. Por exemplo, você pode remover ou substituir o número da casa de um endereço específico, mas o nome da rua não será removido.

Em certos casos, é possível generalizar as informações classificando-as em grupos, como no caso da substituição das idades exatas dos indivíduos em um banco de dados por grupos de idade (65-74, 75-84, 85, etc.).

Leia mais:

O que é anonimização de dados e para que serve?

As vantagens e limitações das técnicas de anonimização

As principais vantagens da anonimização de dados

Além de permitir que as organizações cumpram as leis regulatórias, incluindo o GDPR, as técnicas de anonimização promovem a transformação digital nas empresas, fornecendo dados anônimos e protegidos que serão usados para gerar um novo valor de mercado.

Nenhuma organização pode fazer nada sem um banco de dados seguro e consistente. Essas técnicas isolam a governança de dados e ajudam a manter a privacidade contra invasores, ao mesmo tempo em que atuam como uma barreira contra influências externas.

Desde 2020, a Pangeanic lidera o projeto "Multilingual Anonymization toolkit for Public Administrations", que é apoiado pelo programa CEF (Connecting Europe Facility) da União Europeia e pelo projeto NTEU (Neural Translation for the EU).

O objetivo do MAPA é desenvolver uma ferramenta de anonimização de dados multilíngue, baseada no reconhecimento de entidades nomeadas (NER) e aplicável a todos os idiomas da UE. Com essa ferramenta, as administrações públicas europeias poderão compartilhar dados em conformidade com as exigências do GDPR e, ao mesmo tempo, proteger a privacidade de seus usuários. Esse projeto está sendo realizado com código-fonte aberto compartilhado para facilitar o desenvolvimento dessa tecnologia de anonimização de dados.

As principais limitações

A anonimização absoluta é muito difícil de ser obtida, pois a anonimização garantida e irreversível de um conjunto de dados é praticamente impossível na maioria dos casos.

Levando isso em conta, é necessário que, no mínimo, a reidentificação que poderia ocorrer implicaria em um esforço tão grande que não seria viável para a pessoa que estivesse tentando recuperar os dados.

Por outro lado, formas não reversíveis e mais rigorosas de anonimização de dados podem restringir a capacidade de extrair informações significativas dos resultados, de modo que seu uso em alguns casos perde valor em comparação com a versão original.

Portanto, é importante estudar cada caso e encontrar o equilíbrio certo entre proteger hermeticamente a segurança e a privacidade do usuário e manter algumas das características dos dados de forma que continuem a ser úteis.

Visualizar publicação completa