Einführung in die Anonymisierung und Pseudonymisierung

1. Einführung in die Anonymisierung und Pseudonymisierung

Viele Unternehmen oder Organisationen besitzen personenbezogene Daten, die sie gerne analysieren oder weiterverarbeiten würden. Doch dies ist aufgrund des Datenschutzes nicht so einfach möglich, denn personenbezogene Daten müssen mit äußerster Vorsicht behandelt werden. Zu diesen Daten zählen alle, die eine Person identifizieren können. Dabei denkt man vielleicht zunächst nur an den Vor- und Zunahmen, vielleicht in Kombination mit Geburtsdatum, Telefonnummer, Email-Adresse und Adresse, aber es gibt auch weitere Angaben, die eine Person eindeutig identifizieren können, beispielsweise, wenn von einem Kinderarzt in einem kleinen Ort die Rede ist, in dem es nur einen Kinderarzt gibt. Nur wenn diese personenbezogenen Daten ausreichend anonymisiert und/oder pseudonymisiert sind, dürfen sie weitergeleitet und von Dritten bearbeitet und ausgewertet werden. Die Rechtsgrundlage hierfür ist die Datenschutz-Grundverordnung (DSGVO).

2. Definition und Unterschiede

Was ist Anonymisierung?

Anonymisieren ist das Verändern personenbezogener Daten derart, dass die Einzelangaben über persönliche oder sachliche Verhältnisse nicht mehr oder nur mit einem unverhältnismäßig großen Aufwand an Zeit, Kosten und Arbeitskraft einer bestimmten oder bestimmbaren natürlichen Person zugeordnet werden können. (BDSG a.F. § 3 Abs. 6) Sind Daten vollständig anonymisiert, findet die Datenschutz-Grundverordnung keine Anwendung, ein Personenbezug und damit eine Re-Identifizierung ist fast unmöglich. Erst wenn jede mögliche Datenkombination zu zwei oder mehr Personen in einem Datensatz führt, ist ein Datensatz anonymisiert.

Was ist Pseudonomisierung?

Pseudonymisieren ist das Ersetzen des Namens und anderer Identifikationsmerkmale durch ein Kennzeichen zu dem Zweck, die Bestimmung des Betroffenen auszuschließen oder wesentlich zu erschweren. (BDSG a.F. § 3 Abs. 6a)

3. Arten der Anonymisierung

Zwei Hauptpunkte müssen durch die Anonymisierung gewährleistet werden: Die Daten müssen irreversibel und die eindeutige Zuordnung zu einer Person unmöglich sein. Generell werden drei Arten der Anonymisierung unterschieden, die im Folgenden beschrieben werden: die absolute, formale und faktische Anonymisierung.

Absolute Anonymisierung

Hierbei handelt es sich um die stärkste Art der Anonymisierung, alle personenbezogenen Angaben werden entfernt, sodass eine Identifizierung unmöglich ist. Absolut anonymisierte Daten können für alle Datenanalysen öffentlich bereitgestellt werden, allerdings sind die Daten durch die Anonymisierung häufig so stark verfremdet, dass der Nutzen, der aus den Daten gezogen werden kann, gering ist.

Formale Anonymisierung

Hierbei handelt es sich um die einfachste Form der Anonymisierung. Es werden in diesem Fall nur die direkten Identifikatoren einer Person entfernt, wie beispielsweise Name, Telefonnummer und Adresse.

Faktische oder relative Anonymisierung

Die Anonymisierung wird soweit durchgeführt, dass die Zuordnung der Daten zu einer Person nahezu unmöglich ist oder nur mit einem unverhältnismäßig hohen Aufwand durchgeführt werden kann, aber trotzdem ausreichend Informationen zur Verfügung stehen, um eine Analyse der Daten bezüglich nicht-personenbezogener Inhalte durchzuführen. Diese Daten dürfen nicht allgemein zur Verfügung gestellt werden, sondern nach Bundesstatistikgesetz nur für wissenschaftliche Vorhaben benutzt werden. Wann nun die Daten ausreichend anonymisiert sind, ändert sich mit den Informationen, die im Datensatz enthalten sind, aber auch mit den Bedingungen oder Techniken, die zur Anonymisierung verwendet werden. Dabei spielt zum Beispiel eine entscheidende Rolle, welche Zusatzinformationen wie Schlüssel vorliegen oder ob die Daten extern oder intern genutzt werden. Dementsprechend kann entschieden werden, wie stark die Informationen anonymisiert sein sollen oder müssen. Es sollte für jede Analyse der Aufwand der Anonymisierung und der Nutzen der Daten bestimmt werden.

4. Anonymisierungstechniken

Verschiedene Anonymisierungstechniken können angewandt werden, um eine faktische Anonymisierung zu erfüllen. In der DSGVO gibt es keine Vorgaben welche Anonymisierungstechniken anzuwenden sind. Damit nicht gegen die DSGVO verstoßen wird, ist es ratsam einen Datenschutzbeauftragten einzubeziehen.

Entfernen der Identifier

Dazu werden Daten, die eine Person identifizieren können, vollständig aus einem Datensatz gelöscht, dies sind beispielsweise, Name, Adresse, Geburtsdatum, Kontodaten, Sozialversicherungsnummer, Lichtbild, aber auch sensible Attribute wie zum Beispiel Krankheiten oder ein sehr hohes Alter.

Randonomisierung

Mithilfe verschiedener Techniken werden die Daten soweit gestört, dass die Verbindung zwischen Daten und Personen aufgehoben wird. Zu diesen Techniken zählen unter anderem das Vertauschen von Daten (die Werte einer Person werden zufällig oder pseudozufällig mit den Werten einer anderen Person vertauscht, wobei darauf zu achten ist, dass durch das Vertauschen die Daten nicht zufällig wieder die Ausgangsdaten einer Person sind), synthetische Datengeneration (künstliche Datensätze werden anhand der Merkmale des Ausgangsdatensatzes erstellt), oder Perturbation (Daten werden mit künstlich erzeugten Werten ersetzt, so dass statistische Merkmale des Originaldatensatzes bestehen bleiben.)

Aggregation

Unterschiedliche Ansätze stehen zur Verfügung um den Datensatz zu generalisieren. Dabei werden zum Beispiel Zahlendaten, wie etwas Alter, in Intervalle eingeordnet, oder ein Frauennamen wird mit ‚Frau‘ oder eine Berufsbezeichnung durch ‚Beruf‘ ersetzt. Es sollte zu Beginn festgelegt werden, wie stark ein Datensatz bzw. einzelne Angaben generalisiert werden soll.

5. Pseudonomisierungstechniken

Platzhalter und Schlüssel

Neben der Anonymisierung spielt die Pseudonymisierung eine große Rolle, allerdings gibt es einige Punkte, die im Zusammenhang mit der Pseudonymisierung zu beachten sind. Bei der Pseudonymisierung wird der Bezug zwischen einer Person und den angegebenen Werten nicht vollkommen aufgehoben, sondern es werden Platzhalter eingesetzt, die mithilfe eines Schlüssel auf die Person zurückgeführt werden können. Wird der Schlüssel nicht mit dem pseudonymisierten Datensatz mitgeschickt, ist der Datensatz für den Rezipienten anonymisiert.

Allgemein gilt jedoch, dass pseudonymisierte Daten immer noch personenbezogenen Daten sind, da sie mithilfe eines Schlüssel einer Person zugeordnet werden können.

Um diese Daten für eine Analyse zur Verfügung zu stellen, muss also besonders darauf geachtet werden, dass der nötige Schlüssel gesichert aufbewahrt wird, aber auch nicht verloren geht.

Wird die Pseudonymisierung anstelle der Anonymisierung eingesetzt, ist es wichtig das Datenschutzgesetz genau anzusehen oder einen Datenschutzbeauftragten einzubeziehen, damit es zu keinen Verstößen kommt.

Kombinierte Ansätze

Es kann auch eine Kombination aus Anonymisierung und Pseudonymisierung auf einen Datensatz angewandt werden, so dass nur die Daten, die absolut nicht anonymisiert werden können, durch Pseudonyme ersetzt werden. Dies erhöht die Sicherheit, dass keine Verstöße gegen das Datenschutzgesetz auftreten.

Der folgende Infograph zeigt die Unterschiede zwischen Anonymisierung und Pseudonymisierung.

6. Künstliche Intelligenz in der anonymisierten Datenanalyse

Fortschritte im Bereich künstlicher Intelligenz ermöglichen darüber hinaus neue Ansätze zur anonymisierten Datenanalyse. Mehrere Möglichkeiten können in Betracht gezogen werden, von denen im folgenden zwei beschrieben werden.

Synthetische Werte oder Datensätze erstellen

Mithilfe dieses Ansatzes werden künstliche Daten erstellt, die beispielsweise ähnliche statistische Eigenschaften haben, wie der Originaldatensatz. Damit kann ein Datensatz erstellt werden, dessen Daten anonymisiert sind, aber ausreichend Daten zur Analyse aufweist.

Featured Learning

Die Idee hierbei ist, dass Datensätze nicht auf einen zentralen Server kopiert werden, um die Analyse durchzuführen, sondern dass das Training auf jedem einzelnen Rechner eines Nutzers stattfindet. Die dabei erstellten Modelle werden dann auf einem zentralen Server gesammelt und zu einem Modell aggregiert. Die Originaldaten verbleiben also auf dem Rechner des Nutzers und kommen nie in die Hand des Analysten. Der große Vorteil ist hierbei, dass die Datenmenge nicht reduziert werden muss.

Automatisierte formale Anonymisierung

Weiterhin kann künstliche Intelligenz genutzt werden um Datensätze formal zu anonymisieren oder zu pseudonymisieren, so dass in Texten die direkten Identifikatoren von Personen, also Name, Adresse, Geburtstag, etc., automatisch gefunden und gelöscht werden, auf Fotos Nummernschilder, Gesichter, etc. automatisch erkannt und verrauscht werden, oder in Audios Namen, Adressen, etc. automatisch erkannt und verrauscht werden.

7. Anwendungen der Anonymisierung

Alle Daten, die eine Person identifizieren, müssen anonymisiert werden, bevor Datenanalysen durchgeführt oder die Daten für einen anderen Zweck weitergegeben werden. Dabei handelt es sich nicht nur um personenbezogene Daten in Texten, sondern auch um Daten auf Fotos oder in Audiodateien, die eine Person identifizieren.

Anonymisierung in Texten

Textdaten können personenbezogene Informationen enthalten, wie Namen, Adressen oder andere eindeutige Identifikatoren. Diese Informationen müssen entfernt oder unkenntlich gemacht werden, bevor die Daten weiterverarbeitet oder analysiert werden können. KI-gestützte Systeme können effektiv solche Identifikatoren automatisch erkennen und entweder entfernen oder durch Platzhalter ersetzen. Diese Verfahren werden insbesondere bei der Analyse von Umfragedaten oder Dokumenten mit sensiblen Informationen eingesetzt.

Anonymisierung in Fotos

Fotos und Bilder können ebenfalls personenbezogene Daten enthalten, insbesondere wenn Personen oder Fahrzeuge darauf abgebildet sind. In solchen Fällen müssen Gesichter, Nummernschilder und andere eindeutige Merkmale unkenntlich gemacht werden, bevor die Bilder weitergegeben oder veröffentlicht werden können. KI-Technologien können genutzt werden, um solche Identifikatoren automatisch zu erkennen und zu verpixeln oder zu verwischen, um die Privatsphäre der betroffenen Personen zu schützen.

Anonymisierung in Audiodateien

Audiodaten können personenbezogene Informationen enthalten, wie Namen, Adressen oder andere Identifikatoren, die in Gesprächen oder Aufnahmen vorkommen. Um solche Daten zu anonymisieren, können KI-Systeme eingesetzt werden, die diese Informationen erkennen und durch Rauschen oder andere Formen von Geräuschen überdecken. Diese Methode wird oft bei der Verarbeitung von Interviews oder Kundenservice-Aufnahmen verwendet.

Anonymisierung in medizinischen Daten

Medizinische Daten sind besonders sensibel, da sie oft detaillierte Informationen über die Gesundheit von Personen enthalten. Bei der Anonymisierung von medizinischen Daten müssen personenbezogene Informationen entfernt oder pseudonymisiert werden, um die Privatsphäre der Patienten zu schützen, während gleichzeitig wichtige Daten für die Forschung erhalten bleiben. Dieser Prozess erfordert sorgfältige Planung und die Anwendung von speziellen Anonymisierungstechniken, um sicherzustellen, dass die Daten ausreichend geschützt sind.

8. Schlussfolgerungen und Empfehlungen

Die Anonymisierung und Pseudonymisierung von personenbezogenen Daten ist ein komplexes, aber wesentliches Thema, insbesondere im Hinblick auf die Datenschutz-Grundverordnung (DSGVO).

Unternehmen und Organisationen, die mit personenbezogenen Daten arbeiten, müssen sich bewusst sein, welche Informationen als personenbezogen gelten und wie sie diese Daten angemessen schützen können. Die Wahl der geeigneten Anonymisierungstechnik hängt von mehreren Faktoren ab, einschließlich der Art der Daten, des Zwecks der Analyse und der verfügbaren Ressourcen.

Empfehlungen

  1. Datenschutzbeauftragte konsultieren:

    Bei der Anonymisierung oder Pseudonymisierung von Daten ist es ratsam, einen Datenschutzbeauftragten zu Rate zu ziehen, um sicherzustellen, dass alle gesetzlichen Anforderungen erfüllt werden.

  2. Geeignete Anonymisierungstechniken auswählen:

    Die Wahl der richtigen Technik ist entscheidend, um den optimalen Kompromiss zwischen Datenschutz und Datenqualität zu finden.

  3. KI-gestützte Anonymisierung erkunden:

    Fortschritte in der künstlichen Intelligenz bieten neue Möglichkeiten zur Anonymisierung und Datenanalyse. Unternehmen sollten diese Technologien in Betracht ziehen, um ihre Daten effektiv und sicher zu verwalten.

  4. Sicherheitsmaßnahmen implementieren:

    Insbesondere bei der Pseudonymisierung ist es wichtig, geeignete Sicherheitsmaßnahmen zu ergreifen, um den Schlüssel vor unberechtigtem Zugriff zu schützen.
  5. Regelmäßige Überprüfung und Anpassung: Datenschutzanforderungen und Anonymisierungstechnologien ändern sich im Laufe der Zeit. Unternehmen sollten ihre Datenanonymisierungspraktiken regelmäßig überprüfen und anpassen, um mit den aktuellen Best Practices Schritt zu halten.

Durch die Umsetzung dieser Empfehlungen können Unternehmen sicherstellen, dass sie personenbezogene Daten verantwortungsvoll und in Übereinstimmung mit den geltenden Datenschutzbestimmungen behandeln.

Nach oben scrollen