Dados sintéticos são dados que foram gerados artificialmente a partir de um modelo treinado para reproduzir as características e a estrutura dos dados originais.
O objetivo é que os dados sintéticos sejam suficientemente semelhantes aos dados originais para que os resultados da análise estatística tenham a mesma usabilidade. É importante, por exemplo, manter o controle de qualidade no qual as tabelas de distribuição dos valores das variáveis mais relevantes são analisadas para garantir que sejam as mesmas ou, se duas características forem co-dependentes nos dados originais, que elas permaneçam assim nos dados sintéticos.
A necessidade de gerar dados semelhantes aos dados originais decorre do desejo de alimentar os modelos com um número maior de amostras e, assim, evitar problemas de precisão do modelo causados pelo treinamento com uma pequena quantidade de dados. Ocasionalmente, a quantidade de dados é limitada e até difícil de obter se tiver que ser gerada por humanos, portanto, a geração de dados sintéticos é mais rápida, flexível e dimensionável.
Para treinar um modelo, não importa qual seja a natureza dos dados, desde que as características e os padrões intrínsecos dos dados sejam preservados. Essas características, que constituem a "essência" dos dados, são qualidade, equilíbrio e viés. Os dados reais, além de serem limitados e difíceis de obter, são muito sensíveis a erros, imperfeições e vieses, portanto, o uso de dados sintéticos pode melhorar a qualidade do modelo.
Há várias maneiras de gerar dados sintéticos, desde árvores de decisão até aprendizagem profunda. Os exemplos mais comuns são as Redes Adversárias Generativas, que foram introduzidas recentemente e são comumente usadas no campo do reconhecimento de imagens. Alguns exemplos de sua aplicação são a transformação de uma imagem em uma pintura no estilo de Monet, a criação de imagens de pessoas que não existem ou a transformação de um cavalo em uma zebra.
Mais informações:
Esse método não é eficaz apenas para gerar imagens, mas também é uma boa maneira de gerar texto sintético, preservando as características intrínsecas dos dados.
A anonimização de dados é um procedimento que remove ou modifica informações que vinculam informações pessoalmente identificáveis; em outras palavras, os dados anonimizados não podem ser associados a nenhuma pessoa física. Anonimizar um arquivo significa substituir esses dados originais por outro padrão de substituição.
Nos últimos anos, fizemos grandes avanços tecnológicos que nos permitem compartilhar informações e evoluir como sociedade, mas também estamos mais expostos aos avanços tecnológicos do hacking. É comum que informações confidenciais estejam contidas nos dados, dependendo da natureza deles, o que aumenta o risco de um possível ataque de segurança cibernética que pode relacionar as informações a pessoas reais.
Apesar de o conceito de informação sensível ser ambíguo, em 2018, a União Europeia apresentou o Regulamento Geral de Proteção de Dados (GDPR), que define e delimita os dados entendidos como sensíveis, para proteger a privacidade dos indivíduos, resultando na regularização da proteção de dados das informações.
Alguns dados confidenciais incluem, por exemplo, o nome de uma pessoa, gênero, detalhes do cartão de crédito, número de telefone, senhas, entre outros. Esses são dados que identificam uma pessoa física e, portanto, devem ser anonimizados.
Amplíe información:Como lidar com dados anônimos de acordo com a LGPD no Brasil
Há diferentes técnicas de anonimização, sendo as mais conhecidas a permutação, a randomização e a generalização. Por outro lado, há outra técnica chamada pseudonimização de dados, definida pela UE como dados que não podem mais ser atribuídos a uma pessoa física sem o uso de informações adicionais (consulte o Artigo 4 (3) do GDPR). Essa definição inclui alguns elementos de criptografia que não correspondem à definição mais comumente usada na Pangeanic.
Deseja saber mais sobre anonimização de dados?
Neste texto, chamaremos de pseudonimização a anonimização que ocorre quando um dado privado é substituído por um dado semelhante, de natureza real, que permite que um texto seja lido em sequência sem dificultar sua compreensão pela presença de rótulos ou seções riscadas. Esse método não usa técnicas de criptografia e os dados de substituição podem ser gerados sinteticamente ou por dicionários ou algoritmos cuja saída tenha um padrão exato, como é o caso das datas.
Conteúdo relacionado: Conformidade com a pseudonimização de acordo com o GDPR
Conforme explicado nas seções anteriores, os conceitos de dados sintéticos e anônimos estão vinculados, pois uma forma de obter dados anônimos é usar as mesmas técnicas usadas na geração de dados sintéticos, mas com o objetivo de proteger informações confidenciais ao compartilhá-las com terceiros dentro da estrutura de proteção da privacidade.
A maioria das técnicas usadas para anonimização de dados atualmente não passa de métodos de pseudonimização. De acordo com a definição de pseudonimização do GDPR discutida acima, como as informações podem ser atribuídas a um indivíduo por meio do uso de informações adicionais, elas devem ser consideradas informações sobre uma pessoa física identificável e, portanto, os dados pseudonimizados não são anônimos. Nesse sentido, se houver ferramentas e modelos suficientemente bons disponíveis para evitar a pseudonimização, os dados anônimos são a melhor opção. Por outro lado, se for necessário usar dados e informações adicionais para completar ou revelar dados confidenciais, então os dados sintéticos são a melhor opção.
A principal vantagem dos dados sintéticos é que eles são uma maneira de otimizar e enriquecer os dados, gerando mais dados com as mesmas características dos dados originais.
Por outro lado, a principal desvantagem dos dados sintéticos é que a privacidade dos dados resultantes deve ser garantida e não deve corresponder às informações da pessoa real. Deve ser realizada uma avaliação de garantia de privacidade que avalie até que ponto os titulares dos dados podem ser identificados nos dados sintéticos e quantos dados novos sobre esses titulares seriam revelados após a identificação bem-sucedida.
Outra desvantagem dos dados sintéticos, uma consequência da primeira, é o medo de compartilhar dados insuficientemente anônimos com terceiros e incorrer em um risco relacionado à privacidade do cliente ou do funcionário. Por fim, os dados podem perder a coerência e se tornar menos significativos. Algumas das técnicas que geram dados sintéticos têm a desvantagem de remover mais informações do que o necessário devido à agressividade dos métodos, perdendo assim o significado.
Os dados anônimos têm a principal vantagem de ser uma medida contra os riscos de compartilhar dados confidenciais com terceiros, cumprindo assim as normas estabelecidas pelo GDPR. É uma forma de garantir a segurança dos dados e a conformidade com as políticas de privacidade, além de reduzir a exposição a possíveis ataques de segurança cibernética. A pseudonimização, por outro lado, também permite manter documentos e fontes de dados em um estado legível semelhante ao original, até mesmo tornando o mascaramento imperceptível. Os dados mascarados com essa técnica podem entrar imediatamente nos processos de produção e ser úteis para terceiros, como pesquisadores ou auditores externos. Por fim, o uso da anonimização de dados indica que a empresa entende a importância de proteger os dados, o que gera confiança em seus clientes e segurança nos negócios.
Mais informações: Anonimização de bancos de dados: Ferramentas e técnicas
A anonimização pode ser uma maneira bastante confiável de garantir dados e combiná-los com outros aspectos do gerenciamento de dados, mas também tem algumas desvantagens. Uma das menos óbvias é que é demorado pedir permissão aos usuários para manipular e executar qualquer operação nos dados.
Instituições ou empresas cujos dados são necessários para processos que envolvem atores humanos que poderiam constituir uma fonte de risco para os dados originais poderiam usar dados anônimos como uma opção viável e muito eficiente para manter seus processos com terceiros sem assumir riscos. O uso de dados sintéticos pode alterar, em alguns casos, os padrões subjacentes nos dados que podem ser o interesse fundamental na pesquisa ou no uso dessas fontes de dados, como, por exemplo, estudos demográficos, estudos de saúde relacionados a doenças de alta incidência etc. Os dados anonimizados retêm, devido à natureza do método, todos os padrões não sensíveis dos indivíduos, e os dados privados não podem ser inferidos a partir deles, a menos que você tenha informações adicionais.
Depois de analisar e diferenciar os dois conceitos e suas principais vantagens e desvantagens, podemos concluir que a melhor maneira de garantir a privacidade dos dados é usar dados anônimos. Eles garantem a proteção de dados confidenciais, estão em conformidade com o GDPR e preservam melhor a consistência e o significado do texto.
Desde 2020, a Pangeanic vem liderando o projeto MAPA (Multilingual Anonymization toolkit for Public Administrations), que é apoiado pelo programa CEF (Connecting Europe Facility) da União Europeia e pelo projeto NTEU (Neural Translation for the EU). O objetivo do MAPA é desenvolver uma ferramenta de anonimização multilíngue, baseada no reconhecimento de entidades nomeadas (NER) e aplicável a todos os idiomas da UE. Saiba mais neste vídeo:
Embora a Pangeanic recomende o uso de técnicas de anonimização para garantir a privacidade dos dados, os dados sintéticos são uma boa técnica para gerar dados com características intrínsecas e padrões semelhantes aos dados originais para alimentar os próprios modelos, que são treinados para gerar os dados anonimizados.