5 minute gelesen
11/03/2022
6 Techniken zur Anonymisierung personenbezogener Daten, die Sie kennen sollten
Unternehmen generieren und speichern abteilungsübergreifend eine große Menge an Informationen, von personenbezogenen Daten über das Kaufverhalten bis hin zu Standortdetails. Diese Informationen können bei der Durchführung von Forschungs- und Entwicklungsprojekten sehr wertvoll sein, stoßen jedoch bei den Nutzern, insbesondere im Internet, auf zunehmende Bedenken.
| Inhaltsverzeichnis: |
|
|
Infolgedessen erfordert die Gewährleistung des Datenschutzes heutzutage Techniken zur Datenanonymisierung und mitunter sogar Verfahren, um die Möglichkeit einer Datenwiederherstellung durch Reverse Engineering auszuschließen. Dies geht so weit, dass die EU-DSGVO (Datenschutz-Grundverordnung) Unternehmen und Organisationen seit 2018 zur Löschung personenbezogener Daten verpflichtet.
In diesem Artikel werden einige der gängigsten Techniken zur Anonymisierung personenbezogener Daten erörtert, die jeder kennen sollte. Von der Datenmaskierung und Pseudonymisierung bis hin zu Techniken wie der Datenverfälschung oder der Nutzung synthetischer Daten. Dieser Artikel gibt Ihnen einen Überblick über die verschiedenen Anonymisierungstechniken, die zum Schutz personenbezogener Daten eingesetzt werden. Lesen Sie weiter!
Die Bedeutung der Datenanonymisierung im aktuellen Kontext
Mit der zunehmenden Menge an digital erfassten und gespeicherten personenbezogenen Daten steigt auch das Risiko, dass diese in falsche Hände geraten und den Datenschutz sowie die Datensicherheit gefährden. Darüber hinaus werden die Vorschriften für personenbezogene Daten immer strenger, was von Unternehmen und Organisationen einen sorgfältigeren Umgang mit diesen Daten erfordert.
Die Anonymisierung personenbezogener Daten ist eine Technik, die dazu beiträgt, die Privatsphäre und Sicherheit einer Person zu schützen, indem ihre Identität in den erfassten Daten verborgen wird. Durch die Anonymisierung personenbezogener Daten werden persönlich identifizierbare Daten entfernt oder modifiziert, die nutzungsbezogenen Daten bleiben jedoch erhalten. Dies ermöglicht es Unternehmen und Organisationen, die Daten zu nutzen, ohne die Privatsphäre und Sicherheit der Einzelpersonen zu gefährden.
Techniken zur Datenanonymisierung
Ein- und mehrsprachige Anonymisierungstechniken helfen Unternehmen und Organisationen, die Gesetzgebung einzuhalten und Bußgelder im Zusammenhang mit der Veröffentlichung und Offenlegung von Daten zu vermeiden.
Nachfolgend schlagen wir eine Liste der wichtigsten Anonymisierungsverfahren und ihres spezifischen Einsatzes im jeweiligen Szenario mit sensiblen Informationen vor, wie z. B. persönlichen Daten und Bankverbindungen, Passwörtern oder Adressdaten.
1. Datenmaskierung
Die Datenmaskierung ermöglicht es, bestimmte Datenteile zu verbergen, indem an ihre Stelle Zufallszeichen oder andere Daten gesetzt werden. Auf diese Weise wird die Substitution genutzt, um Schlüsselwerte zu verändern, wodurch die Daten weiterhin identifiziert werden können, ohne die Identität preiszugeben.
Es werden Veränderungsstrategien implementiert, wie z. B. die Vermischung von Zeichen (Character Shuffling), die Verschlüsselung oder die Ersetzung von Zeichen oder Begriffen. Beispielsweise kann ein Zeichen eines Werts durch ein Symbol und der Name einer Person durch eine Zahl ersetzt werden.
Tipps und Empfehlungen
Die Datenmaskierung stellt sicher, dass sensible Kundeninformationen außerhalb der Produktivumgebung nicht verfügbar sind. Einer der häufigsten Anwendungsbereiche sind Abrechnungsszenarien.
In diesem Fall werden die Karteninformationen maskiert, indem ein Teil der Ziffern in ein X geändert wird. Sie sollte eingesetzt werden, wenn Datensätze geschützt werden sollen, die sich nicht auf die Leistung von Funktionen auswirken, wie z. B. persönliche Identifikations- oder Zahlungsinformationen.
2. Datenpseudonymisierung
Während andere Anonymisierungstechniken, wie die Datenmaskierung, sicherstellen, dass anonymisierte Datensätze nur schwer wiederhergestellt werden können, verringert die Pseudonymisierung lediglich die Verknüpfbarkeit personenbezogener Daten mit der Identität der betreffenden Person. Sie ersetzt private Identifikatoren durch falsche Identifikatoren oder Pseudonyme, behält aber einen spezifischen Identifikator bei, der den Zugriff auf die Originaldaten ermöglicht.
Die Datenpseudonymisierung erhält die statistische Genauigkeit und die Vertraulichkeit der Daten. Einerseits entspricht sie der Ethik und der geltenden Gesetzgebung, andererseits ermöglicht sie weiterhin die Nutzung der modifizierten Daten für Studien, Forschung, Statistiken oder andere nützliche Zwecke.
Tipps und Empfehlungen
Die Pseudonymisierung verhindert den Bruch der Identifikationskette, sodass auch bei getrennten (dissoziierten) Daten eine Re-Identifizierung möglich ist. Sie wird häufig im Gesundheitswesen eingesetzt, wo Identifikationsdaten von Gesundheitsdaten getrennt werden, was die Rückverfolgung sensibler Informationen verhindert.
Die Pseudonymisierung ist beispielsweise nützlich, um spezifische und einzigartige Probleme in einer Testumgebung zu überprüfen. Sie ist daher oft die einzige Lösung, die es Anwendungen ermöglicht, normal zu funktionieren und die Integrität von Testszenarien zu gewährleisten.
3. Data Swapping (Datenvertauschung)
Auch bekannt als Data Shuffling (Datenmischung) oder Permutation, beinhaltet Data Swapping die Änderung der Reihenfolge oder Position der Elemente einer geordneten Menge.
Diese Technik führt eine zufällige Verzerrung in einen Satz von Mikrodaten ein, wobei der Detaillierungsgrad und die Struktur der ursprünglichen Informationen erhalten bleiben. Ihr Hauptmerkmal ist daher die Neuordnung der Attributwerte, sodass diese zwar noch vorhanden sind, aber nicht mehr ihren ursprünglichen Datensätzen (Records) entsprechen.
Tipps und Empfehlungen
Im Allgemeinen wird der Data-Swapping-Ansatz umgesetzt, indem Paare von Datensätzen mit ähnlichen Attributen gebildet und anschließend vertrauliche oder identifizierende Datenwerte zwischen diesen Paaren ausgetauscht werden.
Der Prozess der Mischung personenbezogener Datensätze zur Reorganisation führt dazu, dass sie nicht mehr mit den ursprünglichen Informationen übereinstimmen. Dies wird häufig bei Umfragen angewandt, bei denen Attribute (Spalten), die wiedererkennbare Werte enthalten (wie das Geburtsdatum), verändert werden.
4. Synthetische Daten
Obwohl synthetische Daten technisch gesehen nicht zu den Anonymisierungswerkzeugen gehören, werden sie zunehmend bei der Verarbeitung personenbezogener Daten eingesetzt, damit ihre Verwendung nicht gegen geltendes Recht verstößt.
Synthetische Daten bezeichnen Datensätze, die von einem Algorithmus erstellt werden und keinen Bezug zu realen Ereignissen oder der Realität haben. Statistische Modelle, die auf künstlicher Intelligenz basieren, sind in der Lage, synthetische Prototypen aus den ursprünglichen Datensätzen zu erstellen.
Die Methode der synthetischen Daten umfasst die Erstellung mathematischer Modelle, die auf Mustern des ursprünglichen Datensatzes basieren. Sie stützt sich auf Deep Learning und nutzt Methoden wie Standardabweichungen, lineare Regression oder Mediane, um synthetische Ergebnisse zu erzeugen.
Tipps und Empfehlungen
Synthetische Daten bieten hochpräzise Simulationsumgebungen. Sie ermöglichen die Nutzung von Datensätzen, um strategische Einblicke in die Zukunft von beispielsweise Märkten zu gewinnen, ohne die Privatsphäre der Nutzer zu gefährden.
Sie werden verwendet, um künstliche Datensätze zu erstellen, anstatt den ursprünglichen Datensatz zu modifizieren oder zu nutzen und dadurch den Datenschutz zu gefährden. Einige Experten halten dies für einfacher, als Änderungen an den ursprünglichen Datensätzen vorzunehmen.
5. Datenverfälschung (Data Perturbation)
Die Datenverfälschung ist eine Datensicherheitstechnik, die Datenbanken „Rauschen“ hinzufügt und so die Vertraulichkeit einzelner Datensätze wahrt. Diese Methode zur Anonymisierung von Datensätzen ist auf numerische Dateneinträge anwendbar, indem die Datensätze durch einen bestimmten Wert und eine Rechenoperation verändert werden.
Diese Technik verändert den ursprünglichen Datensatz geringfügig durch die Anwendung von Rundungs- und Zufallsrauschmethoden (Random Noise). Die verwendeten Werte müssen immer proportional zur eingesetzten Verfälschung sein.
Tipps und Empfehlungen
Bei der Datenverfälschung kann zu allen numerischen Werten in Ihrer Datenbank ein Betrag addiert oder eine bestimmte Zahl als Grundlage für die Operation verwendet werden, indem alle numerischen Werte durch diese geteilt werden.
Es ist wichtig, die zur Modifizierung der Originalwerte verwendete Basis sorgfältig auszuwählen, denn wenn die Basis zu klein ist, werden die Daten nicht ausreichend anonymisiert, und wenn sie zu groß ist, werden die Daten möglicherweise nicht erkannt und ihr Wert kann nicht extrahiert werden.
6. Generalisierung
Bei der Datengeneralisierung wird eine breitere Kategorisierung der Daten in einer Datenbank vorgenommen, wodurch ein allgemeineres Bild der Trends oder Erkenntnisse entsteht, die sie liefern. Die Generalisierung beinhaltet den bewussten Ausschluss einiger Daten, um sie weniger identifizierbar zu machen.
Die Daten können innerhalb einer Reihe von Bereichen (Ranges) mit logischen Grenzen modifiziert werden. Das Ergebnis ist eine geringere Granularität der Daten, was es schwierig oder sogar unmöglich macht, die genauen, einer Einzelperson zugeordneten Werte wiederherzustellen.
Tipps und Empfehlungen
Ziel ist es, bestimmte Identifikatoren zu entfernen, ohne die Datengenauigkeit zu beeinträchtigen. Beispielsweise können Sie die Hausnummer einer bestimmten Adresse entfernen oder ersetzen, der Straßenname wird jedoch nicht entfernt.
In bestimmten Fällen ist es möglich, die Informationen durch eine Einteilung in Gruppen zu generalisieren, wie es beim Ersetzen des genauen Alters von Personen in einer Datenbank durch Altersgruppen (65-74, 75-84, 85+, usw.) der Fall wäre.
Die Vorteile und Grenzen von Anonymisierungstechniken
Die Hauptvorteile der Datenanonymisierung
Anonymisierungstechniken ermöglichen es Organisationen nicht nur, gesetzliche Vorschriften wie die DSGVO einzuhalten, sondern fördern auch die digitale Transformation in Unternehmen, indem sie anonymisierte und geschützte Daten bereitstellen, die zur Schaffung neuer Marktwerte genutzt werden.
Keine Organisation kann ohne eine sichere und konsistente Datenbank agieren. Diese Techniken isolieren die Data Governance und helfen, die Privatsphäre vor Eindringlingen zu schützen, während sie gleichzeitig als Barriere gegen äußere Einflüsse wirken.
Seit 2020 leitet Pangeanic das Projekt „Multilingual Anonymization toolkit for Public Administrations“ (MAPA), das durch das CEF-Programm (Connecting Europe Facility) der Europäischen Union und das NTEU-Projekt (Neural Translation for the EU) unterstützt wird.
Das Ziel von MAPA ist die Entwicklung eines mehrsprachigen Tools zur Datenanonymisierung, das auf der Erkennung benannter Entitäten (Named Entity Recognition, NER) basiert und auf alle EU-Sprachen anwendbar ist. Mit diesem Tool können öffentliche Verwaltungen in Europa Daten konform mit den Anforderungen der DSGVO teilen und gleichzeitig die Privatsphäre ihrer Nutzer schützen. Dieses Projekt wird mit geteiltem Open-Source-Code durchgeführt, um die Entwicklung dieser Technologie zur Datenanonymisierung zu erleichtern.
Die wesentlichen Grenzen
Eine absolute Anonymisierung ist sehr schwer zu erreichen, da eine garantierte und unumkehrbare Anonymisierung eines Datensatzes in den meisten Fällen praktisch unmöglich ist.
Vor diesem Hintergrund ist es notwendig, dass eine eventuelle Re-Identifizierung zumindest einen so großen Aufwand erfordern würde, dass sie für die Person, die versucht, die Daten wiederherzustellen, nicht praktikabel wäre.
Andererseits können nicht-reversible und strengere Formen der Datenanonymisierung die Fähigkeit einschränken, aussagekräftige Informationen aus den Ergebnissen zu extrahieren, sodass ihre Verwendung in manchen Fällen im Vergleich zur Originalversion an Wert verliert.
Daher ist es wichtig, jeden Fall einzeln zu untersuchen und die richtige Balance zu finden zwischen dem hermetischen Schutz der Sicherheit und Privatsphäre des Nutzers und der Beibehaltung einiger Dateneigenschaften in einer Weise, die weiterhin nützlich ist.

