Zum Hauptinhalt springen

7b Risiko kontrollieren

Ergebnis nach erfolgreicher Durchführung

In diese Komponente wird eine Auswahl von Datenschutz-Maßnahmen erarbeitet, um das Risiko für

The fallback content to display on prerendering
auf ein vernachlässigbares Niveau zu reduzieren.

Das Risiko für die Privatsphäre der Datensubjekte kann im Wesentlichen auf zwei Weisen kontrolliert werden:

  1. Ändern der Daten(-spezifikation)
  2. Rekonfiguration der Datenumgebung

Nicht in allen Projekten sind beide Möglichkeiten verfügbar. Wenn beispielsweise das definierte Zeil des Projektes ist, einen Datensatz offen bereitzustellen, dann kann die Datenumgebung nur bedingt beeinflusst werden. Daher ist es nötig speziell für das jeweilige Projekt zu evaluieren, welche Möglichkeiten verfügbar sind, und, welche Möglichkeiten den besten Kompromiss zwischen Schutz der Privatsphäre und Aussagekraft des Datensatzes darstellt.

Rechtliche Einordnung

Zur Implementierung technisch-organisatorischer Maßnahmen zur Risikominimierung sind die Verantwortlichen einer Datenverarbeitung in gewissem Umfang ohnehin rechtlich verpflichtet - gemäß dem Prinzip des Datenschutzes durch Technikgestaltung aus Art. 25 DSGVO und "unter Berücksichtigung des Stands der Technik, der Implementierungskosten und der Art, des Umfangs, der Umstände und der Zwecke der Verarbeitung sowie der unterschiedlichen Eintrittswahrscheinlichkeit und Schwere der mit der Verarbeitung verbundenen Risiken für die Rechte und Freiheiten natürlicher Personen".

Daten ändern

Mobilitätsdaten-spezifische Informationen

Bei Mobilitätsdaten sind oft einige Variablen gleichzeitig

The fallback content to display on prerendering
, Teil der
The fallback content to display on prerendering
für den Angreifer und Ziel der Analyse im angestrebten Projekt. Beispielsweise kann eine Person identifiziert werden, indem die häufig angefahrenen Orte aus anderen Wissensquellen mit den Bewegungen in dem Datensatz abgeglichen werden. Gleichzeitig sind die Bewegungen maßgeblich für die Ergebnisse einer Bewegungsanalyse. Jede Reduktion der Genauigkeit der Daten zum Schutz der Privatsphäre geht damit auch häufig mit einer Reduktion der Nützlichkeit der Daten einher. Daher ist es bei Mobilitätsdaten insbesondere nötig, bei jeder möglichen Maßnahme der Datenveränderung zu evaluieren, wie sich die Veränderung sowohl auf die Aussagekraft der Analyse als auch auf mögliche Angriffsszenarien auswirkt. Es ist wichtig ein sinnvolles Mittel für die Verringerung der Genauigkeit zu finden: gering genug um die Privatsphäre zu schützen, aber so genau wie möglich um die Aussagekraft der Analyse zu erhalten.

Grundlegende Datenschutzmechanismen

Datensparsamkeit / Entfernen von Variablen

Soweit noch nicht geschehen, sollte als erstes jede vorhandene Variable des Datensatzes kritisch hinsichtlich ihrer Notwendigkeit für den Anwendungsfall betrachtet werden. Wird diese nicht benötigt oder liefert nur einen geringen Mehrwert, sollte sie entfernt werden. Bei Mobilitätsdaten stellt sich hier häufig die Frage, ob Nutzer:inneninformationen benötigt werden, d. h. eine User-ID, die einzelne Datensätze oder Datensatzeinträge, die von derselben Person stammen, verknüpft. Ohne User-ID in den Einträgen wird sowohl die Identifizierung von Personen im Datensatz erschwert als auch die Möglichkeiten, neue Informationen über eine erfolgreich identifizierte Person offenzulegen, stark eingegrenzt. Dadurch wird das Risiko für die Privatsphäre gesenkt.

Beispiel:

In dem Beispiel des Anbieters Scoooot wurden vor Weitergabe an den ÖPNV-Anbieter bereits unnötige Variablen entfernt. Insbesondere wurden die Variablen Username und Adresse, sowie die hierarchische Struktur des Gruppenaccounts entfernt, da diese als indirekte Indikatoren zu einem erhöhten Risiko für eine Identifizierung führen, aber gleichzeitig keinen Mehrwert für die Analyse von Bewegungsmustern bieten.

Die User-ID wird für die Zwecke des ÖPNV-Anbieters nicht benötigt, sodass selbst die pseudonymisierte User-ID an dieser Stelle entfernt werden kann.

VariableDirekter IdentifierIndirekter IdentifierZielinformation
pseudonymisierte User_ID-X-
Zeitpunkt MietbeginnXX
Zeitpunkt MietendeXX
Koordinaten MietbeginnXX
Koordinaten MietendeXX
Preis
Fahrzeug_ID

Sampling

Beim Sampling wird nur ein Teil des Datensatzes weitergegeben. Während beim Konzept der Datensparsamkeit ausgewählte Variablen aus dem Datensatz entfernt werden, wird beim Sampling ein Teil der Daten komplett entfernt und damit nur eine Stichprobe verwendet.

Um sinnvoll Einträge aus dem Datensatz zu entfernen, sollte überlegt werden, ob der gesamte Datensatz für den Anwendungsfall benötigt wird, oder ob ein Teil das Datensatz auch ausreichen würde. Insbesondere gilt das für Daten, die über eine gewisse Zeit gesammelt wurden und mit Zeitstempeln versehen sind. Hier ist es oft sogar sinnvoll für die Aussagekraft des Anwendungsfalls, die Zeitspanne zu beschränken, in der die Daten für die Analyse herangezogen werden.

Sampling hat mehrere positive Einflüsse auf das Risiko für die Privatsphäre. Ähnlich wie bei der Entfernung der User-ID, enthält der Datensatz nach dem Sampling weniger Einträge, die zu einer Person zurückgeführt werden können. Dadurch wird die Identifizierung einer Person in den Daten unwahrscheinlicher. Außerdem reduziert das Sampling die Menge der Informationen, die nach einer Identifizierung neu mit der identifizierten Person verknüpft werden können. Zusätzlich wird durch das Sampling die Teilnahmekenntnis reduziert, sprich, Angreifer:innen können sich nicht sicher sein, ob die Zielperson im reduzierten Datensatz enthalten ist.

Mobilitätsdaten-spezifische Informationen

Wie schon in Komponente 4 erwähnt sind Mobilitätsdaten in der Regel Längsschnittdaten, d. h. es gibt mehrere Einträge derselben Person über einen gewissen Zeitraum. Je mehr Einträge es gibt, desto höher ist das Datenschutzrisiko. Hier ist es sinnvoll die Zeitspanne einzuschränken, in denen Daten herangezogen werden, d.h. nur eine zeitbasierte Stichprobe der Daten zu nutzen. Unabhängig von der Zeitspanne ist es sinnvoll eine Grenze für die maximale Anzahl der Einträge festzulegen, die eine Person zu dem veröffentlichten Datensatz beisteuert.

Die Anzahl verfügbarer räumlich-zeitlicher Punkte pro Person ist einer der größten Einflussfaktoren für die Einzigkartigkeit in Mobilitätsdaten und somit for das Risiko in wieder identifiziert zu werden (Montjoye, 2013 [5]]). Da jedoch meistens bereits wenige Punkte ausreichend sind, um Personen in einem Datensatz zu identifizieren, kann Sampling das Risiko zwar reduzieren, aber es reicht alleine (meist) nicht aus, um eine technische Anonymisierung zu gewährleisten.

Beispiel:

In dem Datensatz von Scoooot wird der Zeitraum der übermittelten Daten auf einen Monat verkürzt.

Darüber hinaus, wird weiteres Sampling als Methode verworfen. Durch ein Sampling würde die Anzahl der belastbaren Daten, besonders an weniger stark besuchten Haltestellen, weiter reduziert. Zusätzlich besteht eine vertragliche Verpflichtung zur Übermittlung aller Transaktionen in dem beschriebenen Zeitraum.

Generalisierung

Bei einer Generalisierung wird die Genauigkeit oder der Detailgrad der weitergegebenen Daten reduziert. Variablen mit einem hohen Detailgrad begünstigen die Einzigartigkeit von Personen im Datensatz. Daher sollte der Detailgrad auf das Minimum reduziert werden, das für den Anwendungsfall notwendig ist.

Häufigkeitstabellen und deskriptive Statistiken sollten ebenfalls untersucht werden. Gibt es Variablen, deren Verteilung stark verzerrt ist? Verteilt sich beispielsweise der Großteil des Datensatzes auf wenige Kategorien einer Variablen, während alle anderen Kategorien nur in wenigen Einträgen in dem Datensatz vorkommen? Hier wäre es sinnvoll die kleineren Kategorien sinnvoll zusammenzufassen, um zu verhindern, dass diese Kategorien Einträge einzigartig machen. Oder sind die Werte einer Variablen so genau, dass jeder Wert von nur einem Eintrag angenommen wird? Dann wäre es sinnvoll die Werte dieser Variablen in Bereiche zusammenzufassen, sodass in jedem Bereich mehrere Einträge in dem Datensatz liegen.

Mobilitätsdaten-spezifische Informationen

Bei Mobilitätsdaten sollte in Bezug auf die räumliche und zeitliche Granularität insbesondere betrachtet werden, ob es Orte gibt, die nur von wenigen oder sogar nur von einer Person besucht wurden.

Die Verringerung der zeitlichen und räumlichen Granularität ist eine naheliegende Methode zur Erhaltung der Privatsphäre. Statt exakte Orte oder Zeitpunkte anzugeben werden nur Wertebereiche gespeichert. Räumliche Generalisierung findet dabei meist entweder auf Rasterzellen oder vordefinierten Zellen (z.B. Postleitzahlen) statt. Zeitliche Generalisierung findet über die Definition von Zeitfenstern (z.B. Stundenfenstern) statt. Exakte Zeitpunkte und Orte sind somit nicht mehr vorhanden, um Personen zu identifizieren, oder um sensible Informationen zu einer identifizierten Person zu erlangen.

Auswirkung auf Mobilitätsdaten als Identifikator:
Generalisierung verringert zwar das Risiko der Identifizierung anhand einzelner räumlich-zeitlichen Punkte, jedoch führt selbst eine starke Reduktion der Granularität nur bedingt zu einer Verringerung der Einzigartigkeit von ganzen Bewegungsmustern (siehe Komponente 7a).

Auswirkung auf Mobilitätsdaten als Zielinformation:
Die Sensibilität von zeitlich-räumlichen Punkten als Teil der Zielinformation wird entsprechend der gewählten Granularität reduziert. So kann beispielsweise nicht mehr die exakte Wohnadresse bestimmt werden, sondern nur noch die entsprechende Rasterzelle.
Es ist jedoch anzumerken, dass es bei Mobilitätsdaten extrem schwierig ist, ein gutes allgemeingültiges Granularitätslevel für ausreichende Privatsphäre festzulegen: so kann beispielsweise eine 100 m x 100 m Rasterzelle in einem dichten Zentrum den Wohnort mehrerer hundert Menschen umfassen, während es auf dem Land nur ein einziges Wohnhaus umfasst. Zusätzlich gibt es diverse Kontextinformationen, die schwer zu kontrollieren sind. Beispielsweise könnten in einer Rasterzelle zwar mehrere Gebäude liegen, jedoch gibt es dort nur einen einzigen Nachtclub, der nachts um 1 Uhr geöffnet hat, während alle umliegenden Bürogebäude bereits geschlossen sind. Somit lässt sich mit hoher Wahrscheinlichkeit ableiten, dass eine Fahrt, die in dieser Rasterzelle zu dieser Zeit endet, diesen Nachtclub als Ziel hat.

Beispiel

Die Generalisierung wird von Scoooot in Betracht gezogen, um das Privatsphärerisiko zu reduzieren. Die räumliche Granularität ist durch das genutzte GPS-Signal sehr hoch. Diese wird jedoch für Analysezwecke von dem ÖPNV-Betreiber benötigt, um exakte Abstellorte von Fahrzeugen rund um Haltestellen bestimmen zu können und somit Mobility Hubs bedarfsgerecht einrichten zu können. Es werden jedoch keine exakten Zeitstempel benötigt, sodass diese auf 3-Stunden-Zeitfenster generalisiert werden.

Aggregation

Für viele Anwendungsfälle werden Daten nicht im originalen Datenformat (einzelne Einträge) benötigt. Aggregationen fassen daher die originalen Daten bereits in Auswertungen zusammen. Wenn der Verwendungszweck der Daten bereits feststeht, reichen oft spezifische Aggregationen aus, um die Fragen zu beantworten. Aggregation bietet zwar keine Garantie für Privatsphäre, es verbessert diese aber im Normalfall deutlich.
Der verbliebene Personenbezug hängt hierbei stark vom räumlichen und zeitlichen Aggregationslevel ab. Bleibt hier eine hohe Granularität erhalten, bleiben entsprechend der Erläuterungen zu Generalisierung und Einzigartigkeit, viele Kombinationen, in denen nur ein Eintrag gezählt wurde.

Mobilitätsdaten-spezifische Informationen

Mobilitätsdaten haben eine Reihe von typischen Aggregationen. Beispielsweise stellen sogenannte Quelle-Ziel Matrizen dar, wie viele Bewegungen es zwischen jedem Paar von räumlichen Zellen gibt, ohne die genauen Bewegungen zu teilen.

Auswirkung auf Mobilitätsdaten als Identifikator:
Da sich bei hinreichender Aggregationen das ursprüngliche Format einzelner Einträge auflöst, sind Identifizierungen von Personen über eine direkte Verknüpfung (Linkage-Attack) von Schlüsselvariablen nicht mehr möglich. Das bedeutet nicht, dass Angriffe allgemein unmöglich sind. Beispielweise gibt es selbst mit aggregierten Daten in bestimmten Fällen immer noch Möglichkeiten herauszufinden, ob eine Person in dem Datensatz enthalten ist (Membership-Inference Attack). Je nach Datensatz könnte diese Information bereits sensibel sein, beispielsweise bei einem Datensatz von HIV-Patient:innen.
Forschende haben außerdem gezeigt, dass anhand vermeintlich hoch aggregierter Mobilfunkdaten ganze Trajektorien wieder rekonstruiert werden konnten (Xu, 2017 [6]).

Auswirkung auf Mobilitätsdaten als Zielinformation:
Ähnlich wie bei der Generalisierung, ist die Sensibilität der Bewegungsdaten für die Offenlegung von Zielinformation abhängig von der Granularität und Art der Aggregation. Korrekt angewandte Generalisierung kann hier also ein effektives Mittel darstellen.

Beispiel

Aggregation ist für diesen Anwendungsfall mit Scoooot keine mögliche Methode, da sich das ÖPNV-Unternehmen die Möglichkeit zur Analyse der einzelnen Abstellorte zur Planung der Mobility Hub-Standorte in dem Kooperationsvertrag vorbehält.

Unterdrückung (Suppression)

Ausreißer, also Einträge in den Daten, die signifikant anders sind als die Mehrheit der Daten, ermöglichen mit dem richtigen Hintergrundwissen eine einfache Identifizierung von Einzelpersonen. Auch auf der Seite der Zielinformation gibt es oft eine kleine Menge an Werten in den Daten, die besonders sensibel sind. Bei der Unterdrückung werden daher gezielt einige Einträge entfernt. Entweder weil sie als Ausreißer leicht identifiziert werden könnten, oder weil sie für die Zielinformation zu sensibel sind.

Mobilitätsdaten-spezifische Informationen

Auswirkung auf Mobilitätsdaten als Identifikator:
Mobilitätsdatensätze enthalten oft viele Daten in einem Ballungsgebiet, beispielsweise ein Stadtgebiet, und nur einige wenige Ausreißer, die in verschiedene Richtungen außerhalb dieses Gebiets liegen. Durch die Unterdrückung dieser Ausreißer kann die Einzigartigkeit und damit das Identifizierungsrisiko reduziert werden. Beispielsweise könnte ein Car Sharing-Anbieter alle Fahrten, die aus dem Stadtgebiet herausführen, aus dem Datensatz löschen.

Auswirkung auf Mobilitätsdaten als Zielinformation:
Zusätzlich kann die Sensibilität der Daten reduziert werden, indem sensible Zielorte entfernt werden. Beispielsweise könnten alle Daten im Umkreis von 50 Metern um Krankenhäuser aus dem Datensatz entfernt werden, um die Privatsphäre der Patient:innen zu schützen. Das Problem hierbei ist, dass es oftmals schwierig ist, alle sensiblen Orte im Vorhinein zu kennen. Zusätzlich sind diese häufig personenspezifisch, wie Wohn- und Arbeitsorte.

Um dieses Problem zu beheben, können individuelle Privatsphäreeinstellungen der Nutzer:innen eingesetzt werden. In der Praxis werden bereits sogenannte Privacy-Zones verwendet. Hierbei werden keine Daten innerhalb eines Radius um einen User-definierten sensiblen Punkt (z.B. Heimadresse) erfasst. Jedoch wurde hier bereits gezeigt, dass diese Methode kaum Schutz bietet. Bei mehreren Fahrten von verschiedenen Seiten, die alle am Umkreis dieses Kreises enden, lässt sich der Kreis und damit der Mittelpunkt leicht berechnen (Hassan, 2018[7a]) oder sogar erraten (Mink, 2022[7b]).

Beispiel

Um Einträge, die nicht relevant für die Bestimmung von Mobility Hubs sind, zu eliminieren, könnten Punkte gelöscht werden, deren Standort nur vereinzelt aufgesucht wird. Beispielsweise, alle Punkte bei denen im Umkreis von 100 Metern kein anderer Punkt vorhanden ist. Dadurch würden gleichzeitig räumliche Ausreißer eliminiert werden, die eine Identifizierung potenziell vereinfachen würden.
Aufgrund der vertraglichen Verpflichtung, müsste so eine Anpassung jedoch mit dem ÖPNV-Unternehmen abgesprochen werden.

Verzerren (Obfuscation)

Bei Datenverzerrungen werden statt Einträge zu löschen, die echten Werte des Datensatzes verändert. Das wird häufig erreicht, indem Rauschen auf die Daten gelegt wird, also die echten Werte mit einer gewissen Wahrscheinlichkeit leicht nach oben oder unter verändert werden. Beispielsweise kann bei der Variablen "Alter" eine zufällige Zahl zwischen -5 und +5 zu jedem Alter hinzugefügt werden. Dadurch wird eine 25-jährige Person also zum Beispiel mit einem Alter von 23 oder 28 im Datensatz erfasst. Im Gegensatz zu Generalisierungen (z.B. durch das Bilden von Altersgruppen '20-30-Jährige') erlaubt die Datenverzerrung weiterhin numerische Auswertungen (z.B. Mittelwert, Korrelationskoeffizient). Durch die Verzerrung wird die Unsicherheit für Angreifer:innen bei einer potentiellen Identifizierung und damit die Abstreitbarkeit aus Sicht der Zielperson erhöht. Da allerdings die Verzerrung jedes Wertes durch einen Zufallsmechanismus geschieht, sollten sich die Veränderungen bei statistischen Auswertungen, wie zum Beispiel einer Mittelwertbildung, gegenseitig aufheben. Statt das Rauschen aus einem festen Bereich zu wählen (z.B. zwischen -5 und +5), wird das Rauschen oft anhand einer Wahrscheinlichkeitsverteilung über den gesamten Wertebereich gewählt (z.B. der Laplace-Verteilung). In diesem Fall kann der Wert theoretisch jeden möglichen Wert annehmen, aber Werte um den echten Wert herum sind am wahrscheinlichsten, es gibt aber auch eine (sehr geringe) Wahrscheinlichkeit, dass die veränderten Werte weit entfernt vom echten Wert liegen. Die genaue Form dieser Wahrscheinlichkeitsverteilung kann an die Privatsphärebedürfnisse und die benötigte Genauigkeit in dem jeweiligen Anwendungsfall angepasst werden.

Mobilitätsdaten-spezifische Informationen

Bei Mobilitätsdaten wird die Verzerrung in der Regel erreicht, indem die Koordinaten (oder auch Zeitstempeln) mit Rauschen verzerrt werden, das heißt die Koordinaten (oder Zeitstempel) werden durch einen Zufallsmechanismus leicht in eine zufällige Richtung verändert (siehe hierzu z.B. 'Geo-indistinguishability', Anrés, 2013 [8]). Dies führt jedoch leicht zu unplausiblen Koordinaten: Koordinaten von Autofahrten liegen potenziell auf Gebäuden, Adressdaten auf der Straße oder Daten der Restaurant-App in Flüssen oder Parks.

Bei Mobilitätsdaten kommt erschwerend hinzu, dass Personen oftmals die gleichen Orte mehrfach aufsuchen. Wird jedes Mal Rauschen entsprechend der gleichen Funktion auf diese Koordinaten gelegt, erhält man eine schöne Streuung rund um den wahren Wert, der es Angreifer:innen ermöglicht, das Zentrum dieser Verteilung zu ermitteln und so den echten Wert zu erkennen.

Neben zufälligem Rauschen können Daten auch gezielter verzerrt werden. Beispielsweise könnte der Zeitstempel von Einträgen, die mitten in der Nacht liegen, zu Uhrzeiten geändert werden, in denen mehr Einträge vorhanden sind. Solche Änderungen sind jedoch mit Vorsicht zu genießen, da sie schnell intransparent werden und ungeahnte Auswirkungen auf den Nutzen der Daten haben. Zusätzlich stellt sich die Frage, ob man die Information über die Verzerrungen veröffentlichen sollte und damit die Identifizierungen von Personen potenziell erleichtert.

Eine andere Möglichkeit im Mobilitätsdatenkontext Rauschen anzuwenden, ist durch das Verzerren aggregierter Werte. Dies ist insbesondere im Kontext von Differential Privacy relevant und wird im folgenden Unterkapitel (Privatsphäre-Garantien) behandelt.

Auswirkung auf Mobilitätsdaten als Identifikator und Zielinformation: Bei Mobilitätsdatensätzen mit Teilnahmekenntnis, kann zufälliges Rauschen nicht die Einzigartigkeit reduzieren, da die verzerrten Werte wahrscheinlich in der Nähe der echten Werte liegen. Dafür erhöht Verzerren aber die Abtreitbarkeit der inferierten besuchten Orte, sobald eine Identifizierung stattgefunden hat, falls die Abweichung von den echten Werten groß genug gewählt wird, dass mehrere Orte der Ursprungsort zu einem verzerrten Wert sein können.

Beispiel

Verrauschen der Koordinaten würde den Anwendungsfall der Ermittlung häufiger Abstellorte und damit der bedarfsgerechten Platzierung von Mobility Hubs stark erschweren. Somit ist die Verzerrung keine Option für Scoooot in der gegebenen Situation.

Fazit zu den grundlegenden Datenschutzmechanismen

Keine der genannten Maßnahmen bietet einen perfekten Schutz der Privatsphäre, da erfolgreiche Angriffe gegen jede einzelne Maßnahme existieren. Dennoch erhöhen sie den Aufwand für eine erfolgreiche Identifizierung von Personen in den Daten deutlich und reduzieren die Sicherheit mit der Angreifer:innen Schlussfolgerungen ziehen können. Daher sind die Datenschutzmechanismen eine sinnvolle Ergänzung zu organisatorischen Maßnahmen in einer kontrollieren Datenumgebung. Wenn Daten in eine offene Datenumgebung veröffentlicht werden sollen, müssen allerdings weitere Vorsichtsmaßnahmen getroffen werden. Hier ist mindestens die Wahl einer sehr groben Granularitätsstufe oder starken Aggregation nötig, wie beispielsweise die Veröffentlichung der Anzahl der Kund:innen eines ÖPNV-Unternehmens je Bezirk pro Monat statt Trajektorien.

Privatsphäre-Modell

Ein starker Fokus der aktuellen Forschung liegt vor allem darauf, Datenschutzrisiken zu quantifizieren und Aussagen über Privatsphäre-Garantien zu ermöglichen. Datenschutzkriterien legen Anforderungen fest, die erfüllt werden müssen, um eine bessere Bewertung des Datenschutzes zu ermöglichen. Datenschutzkriterien können nach dem Datenschutzprinzip (einer abstrakten Definition des Datenschutzes) klassifiziert werden. Hierbei werden vor allem zwei Datenschutzprinzipien betrachtet: Ununterscheidbarkeit und Uninformiertheit. Im folgenden werden je ein Datenschutzkriterium für diese beiden Prinzipien zusammengefasst.

Ununterscheidbarkeit mittels K-Anonymität

Die Ununterscheidbarkeit verlangt, dass jeder Eintrag in einer Datenbank von einer ausreichend großen Gruppe anderer Einträge anhand der indirekten Identifikatoren nicht unterscheidbar sein darf. Dies wird in der Regel durch das Kriterium der K-Anonymität erreicht.

K-Anonymität ist gegeben, wenn die Identifikatoren von jeder enthaltenen Person sich von mindestens k-1 Personen nicht unterscheidet (Sweeney, 2002 [9]). Beispielsweise, in einem Datensatz mit 2-Anonymität, gibt es zu jedem Eintrag mindestens einen anderen, der die gleiche Kombination aus indirekten Identifikatoren aufweist. Je größer das k gewählt wird, desto uneindeutiger muss also jeder Eintrag sein, um K-Anonymität zu erreichen. Diese Eigenschaft wird meist durch Generalisierung und Unterdrückung erreicht.

Mobilitätsdaten-spezifische Informationen

Um K-Anonymität für Mobilitätsdaten zu gewährleisten, muss sichergestellt werden, dass jede Kombination an räumlich-zeitlichen Punkten mindestens k-mal im Datensatz vorkommt. Wie bereits zuvor beschrieben, sind selbst bei grober räumlicher und zeitlicher Granularität die Bewegungsmuster vieler Personen einzigartig. So kann, ohne erhebliche Einbußen der Nützlichkeit der Daten nicht einmal 2-Anonymität erreicht werden.

K-Anonymität ist für ganze Bewegungsmuster daher meist wenig zielführend, sondern eher im Kontext von Quelle-Ziel-Matrizen hilfreich. K-Anonymität kann dann gewährleistet werden, wenn eine für den Datensatz geeignete Wahl von räumlichen und zeitlichen Einteilungen (Generalisierung) erfolgt und verbleibenden Einträge, die auch nach sinnvoller Generalisierung unterhalb eines gewählten k liegen müssten, unterdrückt werden.

Beispiel

Für den gegebenen Anwendungsfall kann keine K-Anonymität gewährleistet werden.

Würde das Shared-Mobility-Unternehmen Nutzungsdaten offen bereit stellen, so könnte dies mittels K-Anonymität gewährleistet werden, indem beispielsweise Startpunkte anhand eines räumlichen Rasters generalisiert werden, Zeitpunkte anhand von Stundenfenstern generalisiert werden, und alle Transaktionen aus dem Datensatz gelöscht werden (Unterdrückung), bei denen beispielsweise nicht mindestens 10 andere Ausleihen am gleichen Ort (Rasterzelle) und zur gleichen Zeit (Zeitfenster) gestartet haben (unter der Annahme, dass der Datensatz keine weiteren Spalten mit Identifikatoren beinhaltet).

Uninformiertheit mittels Differential Privacy (DP)

Uninformiertheit besagt, dass der Unterschied zwischen dem Wissen von Angreifer:innen vor und nach dem Zugriff auf eine Datenbank gering sein muss. Im Gegensatz zur Ununterscheidbarkeit setzt es keine Annahmen über das Vorwissen eines Angreifers voraus und bietet daher viel stärkere Datenschutzgarantien. Die Uninformiertheit wird meist über Differential Privacy (DP) erreicht, die zum de-facto-Standard für Datenschutzgarantien geworden ist (Dwork et al., 2006 [10a]).

DP ist deutlich komplexer als K-Anonymität, da es sich nicht über eine klare Anzahl gleicher Einträge definiert, sondern über Wahrscheinlichkeiten: Eine Methode zur Datenanalyse wird als differentially private bezeichnet, wenn man anhand des Outputs nicht erkennen kann, ob die Daten einer Person im ursprünglichen Datensatz enthalten waren oder nicht. Dazu wird in die Datenanalyse ein Zufallsmechanismus integriert, der das Ergebnis der Analyse zufällig verändert. Dieser Zufallsmechanismus wird in der Regel durch Hinzufügen von kalibriertem Rauschen zu aggregierten Daten umgesetzt. Die Garantie von Differential Privacy ist, dass sich das Ergebnis dieser zufälligen Ergebnisse nur leicht ändert, wenn eine einzelne Person dem Datensatz hinzugefügt oder entfernt wird. Dadurch wird es Angreifer:innen erschwert anhand der Ergebnisse gewiss herauszufinden, ob eine Person überhaupt in dem Datensatz enthalten ist, und selbst wenn eine Erkennung stattgefunden hat, kann jede gelernte sensible Information auf das zufällige Element der Analyse abgestritten werden.

Um den Privatsphäreschutz von DP auf den Anwendungsfall abzustimmen besitzt DP das sogenannte Privatsphärebudget, was individuell eingestellt werden kann. Je geringer das Privatsphärebudget gewählt wird, desto geringer ist der Einfluss der Daten einer Person auf das Ergebnis der Analyse und desto größer ist der Schutz der Privatsphäre.

Mobilitätsdaten-spezifische Informationen

Im Kontext von Mobilitätsdaten findet DP meist Anwendung auf dem Level von Aggregationen, z.B. der Anzahl von Besuchen an einem Ort oder in Quelle-Ziel Matrizen, und nicht auf den originalen Datensätzen. Nichtsdestotrotz gibt es auch Adaptionen auf dem Level der originalen Daten, z.B. beim Verrauschen von Koordinaten (siehe Geo-indistinguishability, Anrés, 2013 [8]) oder zum Teil in Kombination mit synthetischen Daten (siehe folgenden Abschnitt).

Da DP eine starke Privatsphäregarantie bietet, ist es besonders für frei zugängliche Veröffentlichungen empfohlen, die Daten mit DP zu schützen.

Besonders bei einer anfänglichen Sichtung oder Beschreibung der Daten gegenüber weiteren Partnern, die die Daten eventuell nutzen möchten, treten bei Mobilitätsdaten immer wieder ähnliche Analysen und Visualisierungen auf. Zu diesem Zweck wurde das dp_mobility_report Python Package entwickelt. Es stellt die Ergebnisse der typischen Analysen unter DP-Garantien in einem einfach wiederverwertbaren Rahmen zusammen.

Beispiel

Für den Anwendungsfall der Mobility Hubs ist DP keine geeignete Option, da der originale datensatz weitergegeben werden soll und nicht nur Statistiken.

DP könnte nur mit einer Abwandlung des Vorgehens im Projekt umgesetzt werden: Statt die Auswertung der Bewegungsdaten in der Datenumgebung des ÖPNV-Betreiber auszuführen, könnte Scoooot dem ÖPNV-Betreiber eine Auswertungsschnittstelle anbieten. Über diese Schnittstelle kann der ÖPNV-Betreibers gezielt die nötigen Anfragen an die Daten stellen, ohne selbst Zugriff auf die Daten zu erhalten. Das Risiko für die Privatsphäre könnte dann geschützt werden, indem die Anfragen auf folgende Weise beantwortet werden: Im ersten Schritt werden die Startpunkte anhand des definierten Rasters und der Zeitfenster aggregiert. Anschließend wird mittels eines festgelegten Privacy Budgets jeder aggregierte Wert verrauscht. Dafür werden aus der entsprechend kalibrierten Laplace-Verteilung zufällige Werte gezogen und mit den tatsächlichen Werten addiert. Große Werte verändern sich dabei relativ gesehen (mit hoher Wahrscheinlichkeit) kaum. So wird eine stark besuchte Zelle zu einer bestimmten Uhrzeit mit z.B. 530 Startpunkten durch Rauschen von z.B. +8 auf 538 abgeändert. Der Wert ändert sich nur um 1,5%. Wird jedoch eine wenig besuchte Zelle mit nur 5 Fahrten um -3 geändert, so entspricht dies einer Änderung von 60%. Diese verrauschten, aggregierten Werte können nun unter der DP-Garantie an den ÖPNV-Betreiber weitergegeben oder sogar veröffentlicht werden.

Synthetische Daten

Bei der Datensynthetisierung werden neue synthetische Daten nach dem Vorbild der Originaldaten erstellt. Die neuen Daten sollen ähnliche Eigenschaften wie die Originaldaten haben, aber können nicht mehr eindeutig den Personen in den Originaldaten zugeordnet werden. Allerdings können die synthetischen Daten nicht immer alle Eigenschaften eines Datensatzes abbilden. Die synthetischen Daten werden dann anstelle der originalen Daten in der weiteren Analyse verwendet oder veröffentlicht.

Die Datensynthese ist ein aktueller Forschungsbereich und stellt derzeit für die meisten Datensituationen keine praktikable Lösung für eine Analyse dar. Synthetische Daten könnten aber dazu dienen, einen ersten Eindruck verfügbarer Daten offen bereitzustellen und Analysemethoden zu testen. So können, wenn dieser Datensatz für geeignet befunden wird, Analysen auf weniger stark manipulierten Daten in geschützterer Umgebung ausgeführt werden.

Mobilitätsdaten-spezifische Informationen

Mobilitätsdaten ethalten eine Reihe an Zusammenhängen, beispielsweise die Wahrscheinlichkeiten von Zielpunkten abhängig vom Startpunkt, die Verteilung von Quelle-Ziel-Verbindungen über verschiedene Uhrzeiten hinweg oder die variierende Geschwindigkeit je Uhrzeit. Diese vielfältigen Zusammenhänge können (höchstwahrscheinlich) nicht alle in dem Prozess synthetischer Datengenerierung erhalten bleiben, bei gleichzeitiger Wahrung der Privatsphäre. Daher können synthetische Daten aktuell nur selten im Mobilitätskontext angewandt werden.

Beispiel

Auch synthetische Daten stellen für unseren Anwendungsfall keine geeignete Methode dar.

Ein geeigneter Anwendungsfall könnte beispielsweise der folgende sein: Scoooot beauftragt eine externe Firma für die Entwicklung einer Analyse-Software ihrer Daten. Hierfür benötigen die Entwickler:innen representative Daten, um die Software passend entwickeln und testen zu können. Scoooot kann jedoch keine echten Kund:innendaten weitergeben. Ein Dummy-Datensatz mit gänzlich unplausiblen Daten ist jedoch nicht praktikabel, da es für die Entwickler:innen dadurch erschwert wird, ihre Anwendung auf Plausibilität zu prüfen. *Scoooot** erstellt daher einen synthetischen Datensatz und gibt diesen an das externe Unternehmen weiter.

freemove Inhalte

Siehe zu synthetischen Mobilitätsdaten unsere zwei Veröffentlichungen:

Alexandra Kapp, Julia Hansmeyer, und Helena Mihaljević: Generative Models for Synthetic Urban Mobility Data: A Systematic Literature Review, ACM Comput. Surv., Juli 2023, doi: 10.1145/3610224.

Alexandra Kapp and Helena Mihaljevic. 2023. Reconsidering utility: unveiling the limitations of synthetic mobility data generation algorithms in real-life scenarios. In Proceedings of the 31st ACM International Conference on Advances in Geographic Information Systems (SIGSPATIAL '23). Association for Computing Machinery, New York, NY, USA, Article 93, 1–12. https://doi.org/10.1145/3589132.3625661

2. Datenumgebung anpassen

Neben einer Änderung der Daten selbst, kann auch eine Neukonfiguration der Datenumgebung zu einer besseren Risikokontrolle führen. Abhängig davon, wie groß die Einfluss- und Kontrollmöglichkeiten der Verantwortlichen einer Datenverarbeitung auf eine bestimmte (vorher spezifizierte) Datenumgebung sind, können gezielt eingeführte technische und organisatorische Maßnahmen die verbleibenden (Rest-) Risiken kompensieren und auf ein angemessenes und rechtlich zulässiges Niveau absenken.

Dazu muss zunächst auf die bereits spezifizierte Datenumgebung dahingehend evaluiert werden, wie groß die Einflussmöglichkeiten der Verantwortlichen auf diese sind. Hierfür bietet sich eine Kategorisierung der Datenumgebung wie folgt an:

a. Datenverarbeitungen innerhalb einer kontrollierten Entität

Verbleiben Daten innerhalb des Unternehmens der Verantwortlichen (z.B. physisch auf den lokalen Servern des Unternehmens oder mit entsprechenden Zugangshürden auf den Servern eines Cloud-Dienstleisters), bestehen umfassende Möglichkeiten, um verbleibende Offenlegungs- und Identifizierungsrisiken mit technischen und organisatorischen Maßnahmen zu kompensieren. Die folgenden Möglichkeiten sind Beispiele für solche Maßnahmen:

  • Zugang und Berechtigungen zu den Daten kann so eingeschränkt werden, dass Personen(gruppen) nur so Zugang zu den Daten haben, wie es für die üblichen Einsatzzwecke der Daten erforderlich ist. Für atypische Verwendungszwecke müssen Datenanalyst:innen dann z.B. gesonderte Zugriffsrechte durch eine entscheidungsbefugte Stelle (z.B. die Verwaltungsleitung oder Datenschutzbeauftragte) erfragen. Ein solches Managementsystem kann zudem vorsehen, dass nur bestimmte Parameter aus einer Datenbank abgefragt werden können - z.B. durch die Verwendung einer entsprechend konfigurierten Dialogmaske.

  • Die zugangsberechtigter Personen können vertraglich verpflichtet werden, die Daten nur im Rahmen der vorgesehenen (festgelegten) Zwecke zu verarbeiten, beispielsweise keine indirekten Identifikatoren aus einem Datensatz zu entnehmen. Bei Datenverarbeitungen zu abweichende Zwecken kann auch hier der Umweg über eine entscheidungsbefugte Stelle genommen werden.

  • Ein Loggingsystem kann die vertraglichen Pflichten absichern, indem alle Datenabfragen der zugriffsberechtigten Personen aufgezeichnet werden. Bei atypischen Datenabfragen kann dies an die Pflicht gekoppelt werden, die konkreten Erwägungen der Datenanalyst:in festzuhalten, warum die Datenabfrage im konkreten Fall erforderlich ist.

  • Ein Überwachungsverfahren kann implementiert werden, in dem die Logs z.B. einer regelmäßigen stichprobenartigen Überprüfung zugänglich gemacht werden. Diese kann entweder durch entscheidungsbefugte Stellen innerhalb eines Unternehmens oder durch unabhängige Dritte durchgeführt werden.

  • Auch unternehmensinterne Richtlinien und regelmäßige Schulungen zum Umgang des zugriffsberechtigten Personals mit bestimmten Daten können zu einer Verringerung der (Rest-)Risiken beitragen.

Beispiel

In Datenumgebung 2 und 3 in dem Beispiel von Scoooot sind die Daten unter der Kontrolle von Scoooot. So kann Scoooot selbst technische und organisatorische Maßnahmen einsetzen, um zu beschränken, wer (welches Team) Zugang zu den Daten erhalten darf, unter welchen Bedingungen diese gespeichert werden, und welche Zugriffe auf die Daten gemacht wurden.

b. Datenverarbeitungen bei einem vertrauenswürdigen Dritten

Auch bei Datenverarbeitungen außerhalb dieser kontrollierten Entität verbleiben den Verantwortlichen Kontrollmechanismen zur Kontrolle der verbleibenden (Rest-)Risiken. Insofern hier aktive Gestaltungs- und Kontrollmöglichkeiten fehlen, können diese insbesondere durch vertragliche Absprachen oder Nutzungsbedingungen kompensiert werden:

  • Vertragliche Nutzungsbedingungen können die Implementierung der eben vorgestellten Verfahren auch bei Dritten verlangen. Zwar verfügen die Verantwortlichen hier in der Regel nur über eingeschränkte Kontrollmöglichkeiten (z.B. über Berichtspflichten der Dritten), insofern kann aber auch eine entsprechende vertragliche Ausgestaltung und z.B. die Aufnahme von Vertragsstrafen in nicht unerheblichem Maße zu einer Risikokontrolle beitragen.

  • Die entsprechenden Maßnahmen können auch mithilfe unabhängiger Instanzen nachwiesen werden - z.B. durch Unterwerfung unter einen Code of Conduct oder eine DSGVO-Zertifizierung.

Beispiel

Da der Datensatz von Scoooot weiterhin exakte Koordinaten der Kund:innen beinhaltet, kann er nicht als vollständig technisch anonymisiert betrachtet werden. Daher wird mit dem ÖPNV-Unternehmen schriftlich festgehalten, wer (welches Team) Zugang zu den Daten erhalten darf, unter welchen technischen Bedingungen diese gespeichert werden müssen, welche Analysen damit gemacht werden dürfen und für welche Zwecke die Ergebnisse eingesetzt werden dürfen. Jede zukünftige Änderung muss schriftlich mit Scoooot erfolgen.

c. Veröffentlichung der Daten

Sollen die Daten veröffentlicht werden, ist die Möglichkeit kontrollierender Maßnahmen auf ein Minimum reduziert. Ein Mindestmaß an Sorgfalt im Umgang mit den Daten kann hier lediglich über die (allgemeinen) Nutzungsbedingungen gewährleistet werden, ohne dass deren Einhaltung weiter kontrolliert werden könnte. Für ein höheres Maß an Kontrolle kommt die Beschränkung der Freigabe der Daten auf ein bestimmtes Feld von Nutzenden in Betracht (z.B. Behörden oder Forschungseinrichtungen), die sodann wieder den Mechanismen des Absatzes b. ausgesetzt werden können.

freemove Inhalte

[1] DP Mobility Report: Ein Python Package zum Erstellen eines Mobilitätsberichts mit Differential Privacy (DP)-Garantien, insbesondere für städtische Daten zur menschlichen Mobilität.

[2] Alexandra Kapp, Saskia Nuñez von Voigt, Helena Mihaljević, und Florian Tschorsch: Towards mobility reports with user-level privacy, Journal of Location Based Services, Bd. 0, Nr. 0, S. 1–27, 2022, DOI: 10.1080/17489725.2022.2148008.

[3] Daniel Franzen, Saskia Nuñez von Voigt, Peter Söres, Florian Tschorsch, Claudia Müller-Birn (2022): "Am I Private and If So, how Many?" - Using Risk Communication Formats for Making Differential Privacy Understandable, ACM Conference on Computer and Communications Security (CCS), DOI: 10.48550/arXiv.2204.04061.

Weitere Ressourcen
Survey zu Privacy von Trajektorien-Mikrodaten

[4]: "Privacy in trajectory micro-data publishing: a survey" Fiore et al., 2020

Einzigartigkeit von Mobilitätsdaten

[5]: Y.-A. de Montjoye, C. A. Hidalgo, M. Verleysen, und V. D. Blondel, „Unique in the Crowd: The privacy bounds of human mobility“, Sci Rep, Bd. 3, Nr. 1, S. 1376, März 2013, doi: 10.1038/srep01376.

Rekonstruktion von Trajektorien anhand aggregierter Daten

[6]: F. Xu, Z. Tu, Y. Li, P. Zhang, X. Fu, und D. Jin, „Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data“, Proceedings of the 26th International Conference on World Wide Web, S. 1241–1250, Apr. 2017, doi: 10.1145/3038912.3052620.

Warum Privacy Zones keinen ausreichenden Schutz bieten

[7a]: W. U. Hassan, S. Hussain, und A. Bates, „Analysis of Privacy Protections in Fitness Tracking Social Networks -or- You can run, but can you hide?“, Proceedings of the 27th USENIX Security Symposium, S. 497–512, 2018.

[7b]: J. Mink, A. R. Yuile, U. Pal, A. J. Aviv, und A. Bates, „Users can deduce sensitive locations protected by privacy zones on fitness tracking apps“, in Proceedings of the 2022 CHI conference on human factors in computing systems, New York, NY, USA, 2022. doi: 10.1145/3491102.3502136.

Geo-indistinguishability: Differential privacy für Standort

[8]: M. E. Andrés, N. E. Bordenabe, K. Chatzikokolakis, und C. Palamidessi, „Geo-indistinguishability: differential privacy for location-based systems“, in CCS 2013: proceedings of the 20th ACM Conference on Computer and Communications Security, 2013, S. 901–914. doi: 10.1145/2508859.2516735.

K-Anonymität

[9]: L. Sweeney, „k-anonymity: a model for protecting privacy“, Int. J. Uncertain. Fuzziness Knowl.-Based Syst., Bd. 10, Nr. 5, S. 557–570, Okt. 2002, doi: 10.1142/S0218488502001648.

Differential Privacy

[10a]: C. Dwork, F. McSherry, K. Nissim, und A. Smith, „Calibrating Noise to Sensitivity in Private Data Analysis“, gehalten auf der Theory of Cryptography, Jan. 2006, S. 265–284. doi: 10.1007/11681878_14.

[10b]: D. Desfontaines, „A friendly, non-technical introduction to differential privacy“. September 2021. [Online]. Verfügbar unter: https://desfontain.es/privacy/friendly-intro-to-differential-privacy.html