4 minute gelesen
09/12/2021
Die besten Werkzeuge und Techniken zur Datenanonymisierung
In der Gesellschaft gibt es eine Debatte über das „Gehirn“, das der Künstlichen Intelligenz (KI) zugrunde liegt. Die Entwicklung von Algorithmen und Maschinen, die in der Lage sind, wie Menschen zu denken, geht einher mit der Notwendigkeit, ein Gleichgewicht zwischen technischem Fachwissen und moralischen Zielen zu wahren.
|
Inhalt: |
Da sich die Operationen der Künstlichen Intelligenz (KI) konstant weiterentwickeln, ist der Schutz personenbezogener Daten in diesem Bereich zu einer Angelegenheit von entscheidender Bedeutung geworden. Ethische Aspekte, die sowohl im privaten als auch im öffentlichen Sektor von Bedeutung sind, wie Datenschutz, Rechenschaftspflicht und Datensicherheit, stehen nun im Mittelpunkt.
Laut einem Bericht des Data Privacy Institute (DPI) des ISMS Forum vom Februar 2021 über die Internationale Gemeinschaft für Informationssicherheit haben über 78 % der Datenschutzbeauftragten in Unternehmen ihr Datenschutzmodell angesichts der kürzlich verhängten Geldstrafen in Millionenhöhe überprüft.
Daher ist die Datenanonymisierung nicht länger nur eine Herausforderung für öffentliche Einrichtungen, sondern auch für jedes Unternehmen, das die Datenschutz-Grundverordnung (DSGVO) einhalten und seine Daten verantwortungsvoll nutzen möchte.
Was ist Datenanonymisierung?
Anonymisierungstechnologien wurden entwickelt, um das wachsende Volumen sensibler Daten zu bewältigen, das von Organisationen genutzt und gespeichert wird. Moderne Anonymisierungstechniken sind ein Zweig der Verarbeitung natürlicher Sprache (NLP), der mit Regeln und Wörterbüchern arbeitet, um jeden Begriff, der als personenbezogenes Datum gelten könnte, präzise zu erkennen.
Somit generiert die Anonymisierung nicht identifizierbare Datensätze, die ohne die gesetzliche Notwendigkeit einer zusätzlichen Einwilligung verwendet und offengelegt werden können, da diese Datensätze nicht länger als persönliche Informationen gelten.
Durch die Trennung der Daten von ihren persönlich identifizierbaren Merkmalen können Unternehmen Datenanalysen und „Big Data“ mit der Gewissheit durchführen, dass die Daten im Falle eines Informationslecks oder eines Hackerangriffs keine kompromittierenden Informationen in Bezug auf Privatsphäre und Vertraulichkeit enthalten.
Das Aufkommen moderner Tools zur Datenanonymisierung
Das Aufkommen von Datenanonymisierungs-Tools, die die privaten Aktivitäten von Einzelpersonen und Unternehmen schützen, ermöglicht es, die Glaubwürdigkeit der gesammelten, verarbeiteten und ausgetauschten Daten zu wahren.
Die Grenzen traditioneller De-Identifizierungsmethoden werden immer deutlicher, was Raum für moderne datenschutzfördernde Technologien (Privacy-Enhancing Technologies, PETs) schafft, die effektive Ergebnisse bei strukturierten und unstrukturierten Daten in einer Vielzahl von Bereichen und Sektoren liefern.
Obwohl es viele Techniken zur Datenanonymisierung gibt, die wir im Folgenden erläutern werden, basieren sie alle hauptsächlich auf der Klassifizierung von benannten Entitäten und anderen Hilfstechniken, bekannt als Maskierung (z. B. von Sozialversicherungsnummern, Telefonnummern, E-Mail-Adressen oder Kreditkartennummern).
Gängige Techniken zur Datenanonymisierung und Pseudonymisierung
In all ihren Formen zielen Anonymisierungs- und Pseudonymisierungstechniken darauf ab, die Identifizierbarkeit von Daten, die zu einer Person gehören, aus einem gegebenen Originaldatensatz zu reduzieren und sie auf ein Niveau herunterzubrechen, das die festgelegte Risikoschwelle nicht überschreitet.
1. Unterschiede zwischen Pseudonymisierung und Anonymisierung
Die Pseudonymisierung ist ein Instrument zur De-Identifizierung von Daten, das private Identifikatoren durch falsche Identifikatoren oder Pseudonyme ersetzt, wie z. B. den Austausch des Identifikators „AB“ durch den Identifikator „CD“. Auf diese Weise bleiben die statistische Genauigkeit und die Vertraulichkeit der Daten gewahrt, sodass die geänderten Daten für die Erstellung, das Training, Tests und Analysen verwendet werden können.
Sie wird nicht als strikte Form der Anonymisierung betrachtet, da bei dieser Methode die Verknüpfung der personenbezogenen Daten mit der Identität der Person nur reduziert wird. Es handelt sich jedoch nicht um anonyme Daten, weshalb die Datenschutzbestimmungen Anwendung finden könnten.
Daher verhindert die Pseudonymisierung den Bruch der Identifikationskette, was bedeutet, dass selbst bei einer Dissoziation der Daten eine Re-Identifizierung möglich ist. Der Hauptvorteil dieser Technik besteht darin, dass das Dokument nach seiner Erstellung gelesen werden kann und die privaten Informationen nicht mehr rückverfolgbar sind.
2. Datenmaskierung
Diese Technik, auch als Zeichenmaskierung bekannt, bezieht sich auf die Offenlegung von Daten mit geänderten Werten. Die Datenanonymisierung erfolgt durch die Erstellung eines Spiegelbildes einer Datenbank und die Implementierung von Änderungsstrategien, wie z. B. Zeichen-Scrambling, Verschlüsselung oder Ersetzung von Zeichen oder Begriffen. Beispielsweise kann ein Wertzeichen durch ein Symbol wie „.“ oder „x“ ersetzt werden.
Diese Technik erschwert die Identifizierung oder das Reverse Engineering erheblich und wird daher typischerweise in Abrechnungsszenarien verwendet; beispielsweise ist die Maskierung von Kreditkarteninformationen (Kontonummer oder CVV) üblich.
3. Datenaustausch (Data Swapping)
Oft als Permutation oder Shuffling bezeichnet, ordnet diese Technik die Attributwerte von Datensätzen neu an, sodass sie zwar weiterhin vorhanden sind, aber nicht mehr ihren ursprünglichen Datensätzen entsprechen. Das Ändern von Attributen (Spalten), die erkennbare Werte wie das Geburtsdatum enthalten, kann einen großen Einfluss auf die Anonymisierung haben, während gleichzeitig die ursprünglichen Informationen respektiert werden.
Diese Methode ist leicht umkehrbar und nur dann effektiv, wenn es nicht notwendig ist, die Daten basierend auf den Beziehungen zwischen den in jedem Datensatz enthaltenen Informationen auszuwerten.
4. Synthetische Daten
Im Gegensatz zu anderen Datenanonymisierungstechniken bestehen synthetische Datensätze aus komplexen Imitationen realer Daten anstelle von modifizierten Daten. Synthetische Datensätze haben viele Gemeinsamkeiten mit realen Daten, wie z. B. das Format und die Beziehungen zwischen den Datenattributen.
Synthetische Daten sind algorithmisch generierte Informationen ohne Bezug zu realen Fällen. Die Daten werden verwendet, um künstliche Datensätze auf der Grundlage statistischer Methoden zu erstellen, anstatt den ursprünglichen Datensatz zu modifizieren oder zu verwenden und dabei Datenschutz und Sicherheit zu gefährden.
5. Datensubstitution
Wie der Name schon sagt, ermöglicht dieses Tool den Benutzern, den Inhalt einer Spalte in einer Datenbank durch Zufallswerte aus einer vordefinierten Liste falscher – aber ähnlich aussehender – Daten zu ersetzen, sodass die Informationen nicht zu einer erkennbaren Person zurückverfolgt werden können.
Diese Technik hat den Vorteil, dass die Integrität der ursprünglichen Informationen intakt bleibt. Um diese Methode jedoch erfolgreich zu nutzen, müssen Benutzer über Listen mit einer Datenmenge verfügen, die gleich groß oder größer ist als die zu anonymisierende Datenmenge.
6. Datenunschärfe (Data Blurring)
Die Datenunschärfe funktioniert sehr ähnlich wie die Generalisierung, indem sie die Genauigkeit der offengelegten Daten reduziert, um die Möglichkeit einer Identifizierung zu minimieren. Wie der Begriff andeutet, verwendet die Unschärfe eine Annäherung der Datenwerte anstelle der ursprünglichen Identifikatoren, wodurch es schwierig wird, Einzelpersonen mit Sicherheit zu identifizieren.
Dies wird oft durch die Verwendung von Bereichen (statt spezifischer Werte) und die Entfernung konkreter Daten aus den Dokumenten erreicht.
7. Datenverschlüsselung
Die Technik der Datenverschlüsselung transformiert das Format oder den Code personenbezogener Daten vollständig. Auf diese Weise werden sensible Informationen durch Daten in einem unlesbaren Format ersetzt. Autorisierte Benutzer haben Zugriff auf einen vertraulichen Schlüssel oder ein Passwort, mit dem sie die Daten in ihrem Originalformat wiederherstellen können.
Sie wird in hohem Maße für in der Cloud gespeicherte Informationen verwendet und ermöglicht den Schutz von Remote-Standorten sowie von Outsourcing- und Lizenzierungsdaten. Sie verhindert auch, dass Dienstanbieter auf Ihre Daten zugreifen oder sie versehentlich preisgeben.
Warum sollten Sie Ihre Daten anonymisieren?
Unabhängig von der Branche, in der Ihr Unternehmen tätig ist, bietet die Datenanonymisierung zahlreiche Vorteile.
Ob in der medizinischen Forschung oder bei Fortschritten, in der Softwareentwicklung oder bei der Unternehmensleistung – anonymisierte Daten sind die einzige Lösung für die nahe Zukunft, da sie Unternehmen weltweit entscheidende Vorteile bieten:
-
Schutz der Unternehmen vor einem möglichen Vertrauensverlust und damit verbundenen Marktanteilsverlusten aufgrund von Risiken durch Datenausnutzung und -missbrauch.
-
Förderung der digitalen Transformation durch die Bereitstellung geschützter Daten, die zur Generierung neuen Marktwerts genutzt werden.
-
Verbesserung der Data Governance und Wahrung der Privatsphäre gegenüber Eindringlingen, während gleichzeitig als Barriere gegen externe Einflussnahme agiert wird.
-
Einhaltung regulatorischer Gesetze (einschließlich der DSGVO) und Gewährleistung einer ethischen Datenhandhabung und -übertragung.
Pangeanic: Ihr Partner bei der Datenanonymisierung
Obwohl es keinen universellen Ansatz für die Anonymisierung gibt, sind gemischte Techniken, die auf neuronalen Modellen und anpassbaren Anonymisierungsprofilen basieren, immer die beste Lösung für jede Organisation.
Angesichts der Vielzahl der derzeit verfügbaren Techniken empfehlen wir, ein Gleichgewicht zu finden zwischen dem Risiko einer Re-Identifizierung oder der Offenlegung vertraulicher Informationen und dem Zweck, für den die Daten verwendet werden.
Bei Pangeanic arbeiten wir mit einer Kombination aus Anonymisierungs- und Pseudonymisierungsmethoden, um Ihnen eine maßgeschneiderte Lösung anzubieten, die auf Ihre spezifischen Bedürfnisse zugeschnitten ist. Möchten Sie wissen, welche Option die beste für Ihr Unternehmen ist?

