Datenschutz: Ohne Pseudonymisierung und Anonymisierung geht es nicht.

 

Einleitung
Die Datenschutzgrundverordnung sorgt weiterhin für viele spannende Debatten. Manche dieser Diskussionen sind darauf zurückzuführen, dass einige Konzepte und Begriffe der Verordnung nicht sofort ersichtlich sind. Dies liegt unter anderem daran, dass in der Verordnung juristische und informationstechnische Inhalte zusammenfließen. Zwei Konzepte, die beim Datenschutz eine bedeutsame Rolle spielen, sind die Pseudonymisierung und die Anonymisierung. Diese Techniken erlauben demjenigen, der für die Datenverarbeitung verantwortlich ist (oder dem Auftragsverarbeiter), die Anforderungen der DSGVO zu erfüllen. Trotzdem kann es für Juristen schwierig zu begreifen sein, wie die zwei Methoden sich umsetzen lassen. In diesem Zusammenhang nimmt der hiesige Artikel diese Problematik auf und erklärt, warum diese zwei Konzepte wichtig sind, hebt hervor, was sie untereinander unterscheidet und gibt anfängliche Ansätze für ihre Umsetzung in der Praxis.


Kopie+von+Kopie+von+Interviewreihe-3.jpg

Célio de Assis Picanço Filho schloss sein Jurastudium an der Universidade Federal do Pará in Brasilien ab und war über ein Jahr als Rechtsanwalt dort tätig. In Deutschland machte er eine Weiterbildung in Datenschutz (LL.M) an der Goethe-Universität-Frankfurt. Zur Zeit arbeitet er als Assessor im Bereich Legal Data bei Gansel Rechtsanwälte und ist Mitglied bei eLegal.


Bedeutung der Techniken

Gemäß dem im Art. 5, Abs. 1, lit. "a" DSGVO enthaltenen Prinzip der Rechtmäßigkeit bedarf jede Verarbeitung entweder der Einwilligung der betroffenen Person oder einer rechtlichen Grundlage, welche die Verarbeitung gestattet. Der Grund hierfür ist, dass jede Verarbeitung personenbezogener Daten einen Eingriff in die Privatsphäre des Betroffenen darstellt. Deswegen ist der Umgang mit diesen Daten nur erlaubt, wenn die betroffene Person im Rahmen ihres Rechtes auf informationelle Selbstbestimmung ihr Einverständnis mit der Verarbeitung erteilt oder wenn der Gesetzgeber die Verarbeitung mittels eines Gesetzes legitimiert.

Von einer sozialen Perspektive lässt sich nun schlussfolgern, dass die Anonymisierung und die Pseudonymisierung der Daten zwei wichtige Techniken sind, um die Privatheit derjenigen zu gewährleisten, denen die Daten gehören. Ist eine Datenbank nicht ordentlich anonymisiert oder pseudonymisiert, kann jemand, der Zugriff auf diese Informationen hat, die Daten einer bestimmten Person zuordnen und somit in Besitz höchstpersönlicher Auskünfte über diese Person gelangen.

Aus rechtlicher Perspektive sind Anonymisierung und Pseudonymisierung wichtig, um die Anforderungen der DSGVO einzuhalten. Das Ziel der Verordnung ist es, die von der betroffenen Person erwartete Privatheit sicherzustellen. Deshalb verpflichtet die DSGVO die für die Verarbeitung verantwortliche Stelle dazu, Maßnahmen zu ergreifen, um die Risiken eines Datenlecks oder eines unbefugten Angriffs zu reduzieren. Zu diesen "technischen und organisatorischen Maßnahmen" gehören die Anonymisierung und Pseudonymisierung.


Unterschiede zwischen Anonymisierung und Pseudonymisierung

Der Unterschied lässt sich anhand des Begriffs "personenbezogene Daten" erklären.


Personenbezoge Daten

Personenbezoge Daten sind gemäß der Art. 4 Nr. 1 DSGVO "alle Informationen, die sich auf eine identifizierte oder identifizierbare natürliche Person beziehen".

Der erste wichtige Punkt ist, dass Daten von Unternehmen, also von juristischen Personen, nicht unter den Anwendungsbereich der DSGVO fallen.

Der zweite wichtige Punkt ist der Begriff "Identifizierbarkeit". Art. 4, Nr. 1 der DSGVO zufolge gilt eine Person als identifizierbar, wenn sie mittels der Zuordnung zu einem Namen, zu einer Kennnummer, zu einem Standort usw. identifiziert werden kann. Der Europäische Gerichtshof (EuGH ECLI:EU:C:2016:779, Rs. C-582/14) hat den Begriff noch präzisiert und gesagt, dass in Anbetracht des Stands der Technik eine Person als identifizierbar gilt, wenn ein Dritter durch die Verwendung von verhältnismäßigen finanziellen, personellen und zeitlichen Mittel in der Lage ist, den Bezug zu der betroffenen Person herzustellen.

Diese Definition seitens des Gerichts unterstreicht die Wichtigkeit von Anonymisierung und Pseudonymisierung, denn diese Maßnahmen erschweren die Herstellung der Verbindung zwischen der betroffenen Person und ihren Daten durch einen Dritten.


Pseudonymisierung

Pseudonymisierung bezeichnet die "Verarbeitung in einer Weise, dass die personengezogene Daten ohne Hinzuziehung zusätzlicher Informationen nicht mehr einer spezifischen betroffenen Person zugeordnet werden können, sofern diese zusätzlichen Informationen gesondert aufbewahrt werden und technischen und organisatorischen Maßnahmen unterliegen [...]."

Um die Daten zu anonymisieren, muss der Verantwortliche "ein Stück" der Daten entfernen und beispielsweise durch einen Code ersetzen, so dass die betroffene Person nicht mehr erkannt werden kann.

Beispielhaft kann es mithilfe eines auf Kaggle öffentlich zugänglichen Datensatzes visualisiert werden, der aus einer Umfrage der Voter Study Group aus dem Jahr 2016 stammt. Dieser enthält Angaben von 8000 Wählern aus dem Vereinigten Staaten und sieht folgendermaßen aus:

import pandas as pd
survey = pd.read_csv(r"C:\Users\celio\Data Analysis\Projects\Random\Voter_Survey/VOTER_Survey_December16_Release1.csv", low_memory = False)
survey.head()
1_survey_head.png

Jede Zeile im Datensatz entspricht den Angaben eines Umfrageteilnehmers. Wir können prinzipiell dennoch nicht herausfinden, wer diese Person ist, denn der Name der betroffenen Person wurde durch den Code in der Spalte "case_identifier" ersetzt.


Anonymisierung

Daten sind anonym, wenn sie keinen Bezug mehr zu der betroffenen Person haben. Sie unterliegen deshalb nicht mehr dem Anwendungsbereich der DSGVO, denn es handelt sich nicht mehr um personenbezogene Daten. Die Anonymisierung ist zudem eng mit zwei wichtigen Grundsätzen der DSGVO verbunden, nämlich die Zweckbindung und die Datenminimierung:

Zweckbindung (Art. 5, Abs. 1, lit. "b" DSGVO): Jede Datenverarbeitung setzt die Festlegung eines Zwecks voraus. Die anlasslos Erhebung personenbezogener Daten ist verboten.

Datenminimierung (Art. 5, Abs. 1, lit. "c"): Es dürfen nur diejenigen Daten erhoben werden, die für die Erfüllung dieses Zwecks erforderlich sind

In manchen Fällen ist die Erhebung von personenbezogenen Daten nicht erforderlich, um den Zweck der Verarbeitung zu erfüllen. In diesen Fällen kommt die Anonymisierung zum Einsatz.

Als Beispiel können wir einen Politiker nennen, der wissen will, wo seine Wähler wohnhaft sind, um seine Wahlkampagne dementsprechend zu gestalten. Bei der Erhebung der Daten muss er nicht nach dem Namen des Wählers, der Haus- oder Telefonnummer fragen. Ausreichend zur Zweckerfüllung ist vermutlich bereits eine Kombination aus politischer Gesinnung und Straßennamen.

Wenn anonyme Daten schon ausreichen, den Zweck der Verarbeitung zu erfüllen, dürfen personenbezogene Daten nicht erhoben werden. Selbst wenn personenbezogene Daten erhoben werden müssen, dürfen nur diejenigen gesammelt werden, welche unbedingt zur Erreichung des Zwecks nötig sind.


Probleme bei der Umsetzung

Problematisch sind die zusätzlichen Anforderung des Europäischen Gerichtshofs. In manchen Fällen reicht es nicht, einige Angaben durch einen Code zu ersetzen (Pseudonymisierung), weil ein Bezug zu der betroffenen Person immer noch hergestellt werden kann

Wir können das mithilfe einer kurzen Analyse des Datensatzes visualisieren, den wir oben bereits kennengelernt haben. Um das Beispiel jedoch nicht zu kompliziert zu gestalten, stellen wir eine Annahme voran: Wir wissen bereits, dass eine Person aus "Sherwood, North Dakota stammt und an der Umfrage teilgenommen hat. Das ist jene zusätzliche Information, die wir zu dem bestehenden Daten hinzuziehen können, um die Person "identifizierbar zu machen". Sherwood ist eine kleine Stadt mit 242 Einwohnern an der kanadischen Grenze, die wir gezielt als Beispiel genommen haben, um das Problem der Anonymisierung und Pseudonymisierung zu verdeutlichen.


The "inputstate_2016" Column

Diese Spalte enthält Informationen zum Wohnort der Umfrageteilnehmer.

survey["inputstate_2016"].value_counts().tail()
2_freq_table_tail.png

Der Bundesstaat mit den wenigsten Teilnehmern ist North Dakota - hier haben nur 13 Teilnehmer teilgenommen. Die Ergebnisse aus diesem Bundesstaat können wir noch näher betrachten.


North Dakota

nd = survey.loc[survey["inputstate_2016"]=="North Dakota"]

The "PARTY_AGENDAS_rand_2016" column enthält Angaben über die Parteiaffinität der Teilnehmer. In North Dakota gibt es mehr Anhänger der republikanischen Partei als der demokratischen Partei.

nd = survey.loc[survey["inputstate_2016"]=="North Dakota"]

Democrats in North Dakota

In North Dakota gibt es nur 4 Anhänger der demokratischen Partei, die an der Umfrage teilgenommen haben. Die "izip_2016" Spalte hilft uns dabei, herauszufinden, in welchen Städten die Teilnehmer wohnen (bereits hier sind einige Pseudonymisierungsprobleme zu sehen, denn es gibt nur einen Teilnehmer für jede Postleitzahl).

nd.loc[nd["PARTY_AGENDAS_rand_2016"]== "Democratic Party"]

Die Postleitzahl von Sherwood ist 58782. Wir können nun gezielt nach der Person suchen, von der wir wissen, dass sie an der Umfrage teilgenommen hat.


Sherwood, North Dakota

sherwood = nd.loc[nd["izip_2016"]==58782]
cols =["case_identifier","PARTY_AGENDAS_rand_2016","pp_primary16_2016",
"pp_demprim16_2016","pp_repprim16_2016", "presvote16post_2016", "inputstate_2016","izip_2016","milstat_1_2016","milstat_2_2016","milstat_3_2016","milstat_4_2016", "race_baseline","gender_baseline","birthyr_baseline"]
sherwood[cols]

Ohne viel Zeitaufwand konnten wir so unsere gesuchte Person aus Sherwood identifizieren. Jetzt haben wir Zugriff auf viele relevante und sensible Informationen und können diese analysieren:

  • Geburtsjahr: 1954 (und folglich auch das Alter)

  • Geschlecht: weiblich

  • Ethnie: Weiß

  • Wohnort: Sherwood, North Dakota (war bereits bekannt)

  • Politische Gesinnung: Wähler der "Democratic Party"

Besonders sensibel sind die Daten über die Ethnie und die politische Gesinnung, die nach Art. 9 Abs.1 DSGVO aufgrund des Diskriminierungspotenzials, dass mit der Preisgabe dieser Informationen einhergeht, besonders schutzwürdig sind. Andere besondere Kategorien personenbezogener Daten sind Gesundheitsdaten, sexuelle Orientierung, Gewerkschaftszugehörigkeit usw.) (Voigt, Paul; von dem Bussche, Axel, EU-Datenschutzgrundverordnung (DSGV) - Praktikerhandbuch, s. 145-147).

Würden wir den Datensatz weiter analysieren, wären uns noch weitere Informationen verfügbar (z.B. welche Themen sind dieser Person wichtig, Einkommen, wie Drogen bzw. Alkoholkonsum usw. - eine ausführliche Liste aller erfassten Merkmale ist hier zu finden)


Zwischenfazit

Das erwähnte Beispiel ist natürlich vereinfacht, dies soll aber keinesfalls bedeuten, dass Anonymisierungs- Pseudonymisierungsprobleme nur bei kleinen Datensätzen vorkommen. Beispielweise hat Netflix 2007 angeblich anonymisierte Daten von 500.000 Nutzerbewertungen Programmierern zur Verfügung gestellt, damit sie den Filmempfehlungsalgorithmus von Netflix verbessern konnten. Forscher der Austin University in Texas konnten dennoch die Bewertungen den Nutzern zuordnen und somit Informationen über Sexualität, Religion und sogar politische Gesinnung der Nutzer ableiten (Für immer Anonym: wie kann De-Anonymisierung verhindert werden, s.16-17). Ausreichende Anonymisierung und Pseudonymisierung sollten also nicht unterschätzt werden.


Lösungsansätze

Bevor Sie jetzt nun als Datenverarbeiter in Anbetracht dieser Herausforderung auf die Idee kommen, ihre Tätigkeit zu kündigen und in die Bergen zu ziehen, sollten Sie wissen, dass es Maßnahmen gibt, um die Daten zu schützen - ausreichende technische und organisatorische Maßnahmen sind ja am Stand der Technik zu messen.


K-Anonymität

Um dieses Kriterium zu verstehen, gehen wir davon aus, dass die Umfrageteilnehmer nach einigen Merkmalen - wie beispielsweise Postleitzahl - gruppiert werden können. Nach der K-Anonymität soll jede Gruppe wenigstens die betroffene Person plus eine Anzahl k weiterer Personen geben, ansonsten können die Daten nicht in die Analyse einbezogen werden.

Um den Datensatz dann tatsächlich anonym zu gestalten, muss man entweder die Einträge, welche das Kriterium der K-Anonymität nicht einhalten löschen (suppression) oder das Kriterium verallgemeinern (generalisation). Wir können ein konkretes Beispiel davon in einem anderen Datensatz der Voter Study Group aus dem Jahr 2019 sehen. Hier wurden keine Angaben zur Postleitzahl, sondern lediglich zur Region gesammelt.

survey_2019 = pd.read_csv(r"C:\Users\celio\Data Analysis\Projects\Random\Voter_Survey\VOTER_Survey_Jan217_Release1-csv.csv", encoding = "mbcs", low_memory = False)
pd.DataFrame(survey_2019["region_2019"].replace({1:"Northeast", 2:"Midwest", 3:"South", 4:"West"}).value_counts())

L-Diversity

L-Diversity heißt, dass jede identifizierende Angabe eine Vielfaltigkeit von L in der Gruppe haben soll. Beispielhaft ziehen wir erneut den Datensatz der Voter Study Group aus dem Jahr 2016 heran. Angenommen wir wüssten, dass eine bestimmte Person aus West Fargo an der Umfrage teilgenommen hat, so könnten wir herausfinden, welche politische Gesinnung diese Person hat. Das ergibt sich daraus, dass die beiden Umfrageteilnehmer aus North Dakota mit der Agenda der "Republican Party" einverstanden sind.

survey.loc[(survey["inputstate_2016"]=="North Dakota")&(survey["izip_2016"]==58078)]

In dieser Konstellation ist das Kriterium der K-Anonymität erfüllt, weil es mehr als eine Person innerhalb der anvisierten Gruppe gibt. Allerdings zeigt der vorliegende Datensatz, dass es immer noch möglich ist, einen Rückschluss auf die Parteiaffinität der betroffenen Person zu ziehen. Der Grund dafür liegt darin, dass es sich um eine homogene Wählergruppe handelt und alle Befragten die Republican Party gewählt haben

Um den Datensatz zu korrigieren könnte man entweder die Einträge löschen oder eine Verallgemeinerung der Daten herbeiführen. In dem zweiten Fall würden die Daten nach allgemeineren Gruppen sortiert werden, wie Bundesstaat oder Region, sodass sie in einer heterogeneren Datenlandschaft ausgeblendet sind. In Anbetracht des Zweiparteiensystems ist dies in den USA aber durchaus schwierig. Alternativ könnten die beiden Einträge daher auch gelöscht werden, um zum gewünschten Ergebnis zu kommen.

T-Closeness

Nach diesem Maßstab muss die Verteilung einer Angabe in einer bestimmten Gruppe, der Verteilung einer Angabe im gesamten Datensatz ähnlich sei.

Hier können wir sehen, wie die Verteilung innerhalb des Datensatzes aussieht:

verteilung_total = survey["presvote16post_2016"].value_counts().reset_index() verteilung_total["Percentage(%)"]
=verteilung_total["presvote16post_2016"]/verteilung_total["presvote16post_2016"].sum()*100 verteilung_total

Die Lage sieht in North Dakota hingegend wie folgt aus:

verteilung_nd = survey.loc[survey["inputstate_2016"]=="North Dakota","presvote16post_2016"].value_counts().reset_index() verteilung_nd["Percentage(%)"]
=verteilung_nd["presvote16post_2016"]/verteilung_nd["presvote16post_2016"].sum()*100 verteilung_nd

Aus den Unterschieden ergibt sich, dass sich die Anzahl der Wähler von Donald Trump und Hillary Clinton in der Gesamtbevölkerung nicht stark unterscheidet. Wenn man aber den Bundesstaat North Dakota näher betrachtet, hat Trump einen gewissen Vorsprung und es lässt sich darüber streiten, ob die Verteilung der Wähler das T-Closeness Prinzip einhält.

Die Anwendung des T-Closeness Prinzips führt also zu weniger Abweichungen der Daten untereinander. Ein dadurch entstehender homogener Datensatz ist aber zugleich für einen Data-Scientist oder Data Analyst nicht besonders wertvoll. Auffälligkeiten in den Daten sind diejenigen Stellen, nach denen man beim Data Mining sucht und aus denen man die meisten Schlüsse ziehen kann. T-Closeness führt mithin dazu, den Wert der Daten enorm zu reduzieren.

Hier ist allerdings zu beachten, dass die DSGVO eine Verarbeitung nicht verbietet. Es heißt, dass die Daten immer noch präzise genug sein müssen , um den Zweck der Verarbeitung zu erfüllen.


Fazit

Pseudonymisierung und Anonymisierung sind sehr wichtige Maßnahmen für die Einhaltung der datenschutzrechtlichen Anforderungen. Während anonymisierte Daten dem Anwendungsbereich der DSGVO nicht mehr unterliegen, müssen pseudonymisierte Daten weiterhin geschützt werden.

In beiden Fällen muss die für die Verarbeitung verantwortliche Stelle dennoch eine ausreichende Umsetzung dieser Techniken beachten, ansonsten können die Daten Rückschlüsse auf die betroffene Person erlauben, die von der DSGVO nicht gestattet sind.

Die K-Anonymität, L-Diversity und T-Closeness Kriterien (diese Liste ist jedoch nicht abschließend) bieten Maßstäbe zur Prüfung des Anonymisierungsniveaus eines Datensatzes, dennoch muss die Art und Weise wie diese Techniken durchgeführt werden sorgfältig bestimmt sein, ansonsten verlieren die Daten an Wert. Deswegen ist es wichtig, dass Informatiker und Juristen die Datenverarbeitung gemeinsam gestalten, denn nur durch eine interdisziplinäre Zusammenarbeit kann im Einzelfall der Ausgleich zwischen den Chancen des Data Mining und den Risiken der Datenverarbeitung gelingen.