Le cerveau sous-jacent de l’intelligence artificielle (IA) fait l’objet d’un débat populaire permanent. Le développement d’algorithmes et de machines capables de penser comme des humains s’accompagne de la nécessité d’aligner les connaissances techniques avec certains objectifs moraux.
Par conséquent, alors que les pratiques en matière d’intelligence artificielle (IA) se développent de manière constante, la protection des données personnelles dans ce domaine est devenue une question très importante. Les aspects éthiques communs aux secteurs privé et public, tels que la confidentialité, la responsabilité et la sécurité des données, se retrouvent désormais au centre de l’attention.
Selon un rapport de février 2021 sur la communauté internationale de la sécurité de l’information publié par le Data Privacy Institute (DPI) de l’ISMS Forum, plus de 78 % des délégués à la protection des données des entreprises ont revu leur modèle de protection de la vie privée suite aux amendes astronomiques qui leur ont été récemment infligées.
Ainsi, les données anonymisées ne sont plus un défi uniquement pour les entités publiques, mais pour toute entreprise soucieuse de se conformer au Règlement général sur la protection des données (RGPD) et d’utiliser ses données de manière responsable.
Les technologies d’anonymisation ont été développées afin de faire face au volume croissant de données sensibles que les organisations utilisent et stockent. Les techniques modernes d’anonymisation sont une branche du traitement automatique des langues (TAL) qui fonctionne avec des règles et des dictionnaires pour affiner la détection de tout terme pouvant être considéré comme une donnée personnelle.
L’anonymisation génère donc des jeux de données non identifiables qui peuvent être utilisés et divulgués sans qu’il soit nécessaire d’obtenir un consentement supplémentaire, étant donné qu’ils ne sont plus considérés comme contenant des informations personnelles.
En éliminant toute caractéristique d’identification personnelle de leurs données, les entreprises peuvent procéder à des analyses de données et au « big data » avec la garantie qu’en cas de fuite d’informations ou de piratage de l’entreprise, les données ne contiendront aucun type d’informations compromettantes en matière de vie privée et de confidentialité.
L’émergence d’outils d’anonymisation des données qui protègent l’activité privée des individus et des entreprises permet de préserver la crédibilité des données collectées, manipulées et échangées.
Les limites des méthodes traditionnelles de désidentification deviennent de plus en plus évidentes, ce qui favorise certaines technologies améliorant la confidentialité (TAC) plus modernes qui fonctionnent efficacement avec des données structurées et non structurées dans un large éventail de domaines et de secteurs.
Bien qu’il existe de nombreuses techniques d’anonymisation des données, pour lesquelles vous trouverez plus de détails ci-dessous, elles sont toutes principalement basées sur la classification des noms d’entité et sur d’autres techniques auxiliaires connues sous le nom de masquage (des numéros de sécurité sociale, des numéros de téléphone, des e-mails, des cartes de crédit, etc.).
Sous toutes leurs formes, les techniques de pseudonymisation et d’anonymisation des données cherchent à réduire l’identifiabilité des données appartenant à une personne à partir d’un certain jeu de données original, en la ramenant à un niveau qui ne dépasse pas un seuil de risque préétabli.
La pseudonymisation est un outil de désidentification des données qui remplace les identifiants privés par de faux identifiants ou des pseudonymes, par exemple en remplaçant l’identifiant « AB » par l’identifiant « CD ». Ce procédé permet de maintenir la précision statistique et la confidentialité des données, et les données modifiées peuvent ainsi être utilisées à des fins de création, de formation, de tests et d’analyse.
Cela n’est pas considéré comme une forme stricte d’anonymisation car cette méthode permet seulement de réduire le lien entre les données personnelles et l’identité de l’individu. Toutefois, il ne s’agit pas de données anonymes, et les règles de protection des données peuvent donc s’appliquer.
La pseudonymisation empêche donc la rupture de la chaîne d’identification. Cela signifie que, même si les données étaient dissociées, il serait possible de parvenir à une réidentification. Le principal avantage de cette technique est qu’une fois généré, le document peut être lu, et les informations privées ne sont plus traçables.
Également connue sous le nom de masquage de caractères, cette technique désigne la divulgation de données dont les valeurs ont été modifiées. L’anonymisation des données est réalisée en créant une image miroir à partir d’une base de données et en mettant en œuvre des stratégies d’altération, telles que le brassage de caractères, le cryptage, ou encore la substitution de termes ou de caractères. Par exemple, un caractère peut être remplacé par un symbole tel que « . » ou « x ».
Cette technique rend l’identification ou l’ingénierie inverse difficile, elle est donc plus typiquement utilisée pour ce qui concerne la facturation, via le masquage des informations de carte de crédit (le numéro de compte ou le CVV, par exemple).
Plus connue sous le nom de permutation et de brassage, cette technique réorganise les valeurs des attributs d’un jeu de données de manière à ce qu’elles restent présentes mais ne correspondent pas aux données d’origine. La permutation des attributs (colonnes) qui comprennent des valeurs reconnaissables, comme la date de naissance, peut avoir un impact énorme sur l’anonymisation tout en respectant les informations originales.
Cette méthode est facilement réversible et n’est efficace que s’il n’est pas nécessaire d’évaluer les données en fonction des relations entre les informations contenues dans chaque archive.
Contrairement aux autres techniques d’anonymisation des données, les jeux de données synthétiques correspondent à des imitations complexes des données réelles plutôt qu’à des données modifiées. Les jeux de données synthétiques ont de nombreux points communs avec les données réelles, comme le format et les relations présentes entre les différents attributs.
Les données synthétiques sont des informations générées par des algorithmes, sans rapport avec un cas réel. Les données sont utilisées pour construire des jeux de données artificiels via des méthodes statistiques, plutôt que pour modifier ou utiliser le jeu de données original et risquer de compromettre la vie privée et la protection.
Comme son nom l’indique, cet outil permet aux utilisateurs de remplacer le contenu d’une colonne dans une base de données par des valeurs aléatoires provenant d’une liste prédéfinie de données fausses, mais d’apparence similaire, de sorte que les informations ne puissent pas être reliées à un individu reconnaissable.
Cette technique présente l’avantage de préserver l’intégrité des informations d’origine. Toutefois, pour exploiter cette méthode avec succès, les utilisateurs doivent disposer de listes contenant un nombre de données égal ou supérieur à la quantité de données qui doivent être anonymisées.
Le brouillage des données fonctionne de manière très similaire à la généralisation, en réduisant la précision des données divulguées pour minimiser la possibilité d’identification. Comme le terme le suggère, le brouillage utilise une approximation des valeurs des données au lieu des identifiants originaux, ce qui rend difficile l’identification des individus avec certitude.
Ceci est souvent réalisé par l’utilisation de plages de données (en ne donnant pas de valeurs spécifiques) et en éliminant les faits concrets des documents.
La technique de cryptage des données traduit les données personnelles en une forme ou un code entièrement différents. De cette façon, les informations sensibles sont remplacées par des données dans un format illisible. Les utilisateurs autorisés peuvent avoir accès à une clé confidentielle ou à un mot de passe qui leur permet de récupérer les données sous leur forme originale.
Ce procédé est largement utilisé pour les informations stockées dans le cloud, car cela permet de sécuriser les sites distants, l’externalisation et les licences. Il empêche également les prestataires de services d’accéder à vos données ou de les exposer par inadvertance.
L’anonymisation des données présente une multitude d’avantages, quel que soit le secteur d’activité dans lequel votre entreprise évolue.
De la recherche en médecine aux améliorations médicales, en passant par le développement de logiciels et la performance des entreprises, les données anonymisées sont la seule issue possible dans un avenir proche, car elles offrent certains avantages clés aux entreprises du monde entier :
Bien qu’il n’existe pas de méthode universelle pour traiter l’anonymisation, les techniques mixtes basées sur des modèles neuronaux et des profils d’anonymisation personnalisables constituent toujours la meilleure solution pour toute organisation.
Compte tenu de la variété des techniques actuellement disponibles, nous recommandons fortement de rechercher un équilibre entre le degré de risque lié à la réidentification ou à l’exposition d’informations confidentielles et l’optique dans laquelle les données sont utilisées.
Chez Pangeanic, nous travaillons avec une combinaison de méthodes d’anonymisation et de pseudonymisation pour vous fournir des solutions sur mesure, adaptées à vos besoins individuels. Souhaitez-vous savoir quelle est la meilleure option pour votre entreprise ? Discutons-en !