Zum Hauptinhalt springen

4 Daten beschreiben

Ergebnis nach erfolgreicher Durchführung

In dieser Komponente wird für jede Datenumgebung eine detaillierte Beschreibung der enthaltenen Daten und deren Eigenschaften angefertigt.

Benötigte Vorlage: Datenbeschreibung

In den vorherigen Komponenten wurden die

The fallback content to display on prerendering
definiert und die Datenflüsse zwischen diesen Datenumgebungen erfasst. Der nächste Schritt beschäftigt sich mit den Daten in jeder Datenumgebung, d.h. für jede Datenumgebung wird evaluiert welche Daten verfügbar sind und deren Eigenschaften beschrieben. An dieser Stelle sollte bereits auf das Prinzip der Datensparsamkeit aufmerksam gemacht werden, welches besagt, dass nur so viele personenbezogene Variablen verwendet werden sollten, die tatsächlich für den Anwendungsfall benötigt werden. Es sollte stets die Standardannahme gelten, dass eine Variable, die nicht benötigt wird, gelöscht werden sollte. Wenn bereits in diesem Schritt darauf geachtet wird, die Komplexität des Datensatzes in kritischen Datenumgebungen zu reduzieren, kann wiederum die Komplexität der folgenden Analysen und Risikobewertungen bereits reduziert werden.

Die folgenden Fragen helfen dabei, alle wichtigen Eigenschaften der Daten jeder Datenumgebung zu erfassen.

Datenbeschreibung

Um die Daten zu beschreiben, werden sie anhand vier verschiedener Kategorien analysiert: grundlegende Eigenschaften, Datensubjekte, Datentypen und Arten der Variablen.

Eigenschaften des Datensatzes

Die grundlegenden Eigenschaften des Datensatzes umfassen die Bedingungen, unter denen die Daten erhoben wurden, sowie den Zusammenhang zwischen den Daten und möglichen anderen Datensätzen.

  • Genauigkeit / Datenqualität
    Daten weisen in der Regel eine gewisse Ungenauigkeit auf, die durch verschiedene Faktoren verursacht werden kann. Dazu gehören sowohl unbeabsichtigte als auch absichtliche falsche Angaben seitens der Nutzer:innen, ungenaue Sensoren oder Fehler bei der Datenübertragung. Bei Umfragen, wie beispielsweise Haushaltsbefragungen, wird zwar eine hohe Datenqualität angenommen, dennoch können sich im Erhebungsprozess einige Fehler eingeschlichen haben. Bei sensorbasierten Daten hängt die Genauigkeit von dem jeweiligen System ab, das verwendet wird (z.B. Infrarot, WLAN, GPS, Mobilfunk) sowie von der erwarteten Durchdringung der Technologie (z. B. wie viele Personen haben die WLAN-Funktion auf ihren Smartphones aktiviert?).
  • Alter
    Das Alter der Daten kann eine bedeutende Rolle für das Risiko der Privatsphäre der Datensubjekte spielen. Mit zunehmendem Alter der Daten wird es einerseits immer schwieriger, eine Person durch Identifizierung zurückzuverfolgen, da sich ihre Lebensumstände im Laufe der Zeit geändert haben könnten (z. B. durch Umzüge). Andererseits, falls eine Identifizierung dennoch erfolgreich ist, sind auch der Informationen, die durch die Identifizierung gewonnen werden, immer weniger aktuell. Es ist jedoch wichtig zu beachten, dass das Alter der Daten nur ein Faktor für das Risiko der Privatsphäre der Datensubjekte ist und keine umfassende Risikoanalyse ersetzt. Eine detaillierte Risikoanalyse sollte weitere Aspekte berücksichtigen.
  • Bündelungen in den Daten
    Einige Datensätze enthalten Informationen über Mitglieder von Gruppen, die miteinander verbunden sind. Ein Beispiel dafür sind Daten, die verschiedene Personen innerhalb eines Haushalts betreffen. Durch diese Information über die Verknüpfung zwischen verschiedenen Dateneinträgen wird es potenziell einfacher, Personen zu identifizieren. Daher gelten Daten, bei denen solche Gruppenzugehörigkeiten vorliegen, als risikoreicher. Die Verknüpfung von Daten innerhalb einer Gruppe kann zu einer erhöhten Gefahr für die Privatsphäre der Einzelpersonen führen. Es besteht die Möglichkeit, dass durch die Analyse dieser Daten sensible Informationen über einzelne Personen offengelegt werden, die andernfalls anonym geblieben wären. Daher ist bei der Handhabung solcher Daten besondere Vorsicht geboten, um die Privatsphäre der betroffenen Personen zu schützen.
  • Längsschnitts- oder Querschnitts-Daten
    Grundsätzlich kann ein Datensatz entweder einen Längsschnitt oder einen Querschnitt der Bevölkerung abbilden. Bei Längsschnittdaten werden über einen bestimmten Zeitraum hinweg für eine begrenzte Anzahl von Personen mehrere Datenpunkte gesammelt. Bei Querschnittsdaten hingegen werden für eine größere Anzahl von Personen entweder weniger oder sogar nur einzelne Datenpunkte erfasst. Es gibt jedoch auch Datensätze, die sowohl Längsschnitts- als auch Querschnittsdaten kombinieren. In solchen Fällen können beispielsweise die meisten Datenpunkte wenige Personen betreffen, während viele andere Personen nur einen einzigen Datenpunkt beitragen. Längsschnittdaten gelten als risikoreicher, da sie im Laufe der Zeit mehr Informationen über Einzelpersonen sammeln. Selbst wenn die Daten anonymisiert werden, besteht die Möglichkeit, dass Einzelpersonen anhand anderer Attribute zugeordnet werden können. Dies erhöht das Risiko der Identifizierung und potenziellen Verletzung der Privatsphäre, selbst wenn Maßnahmen zur Anonymisierung ergriffen wurden.
Mobilitätsdaten sind Längsschnitt-Daten

Bei den meisten Mobilitätsdaten handelt es sich eher um Längsschnitt-Daten, da meist immer wieder Standortdaten aufgezeichnet werden (im Gegensatz zu bspw. einer Kundendatenbank, in der jede:r Kund:in nur mit einer einzigen Position vertreten ist). Durch häufig angefahrene Start- bzw. Zielorte kann eine Zuordnung der Daten zu einzelnen Datensubjekten möglich werden.

  • Abdeckung der Daten
    Einige Datensätze decken die Daten der gesamten Zielgruppe ab, andere Datensätze enthalten nur Daten bezüglich einer (repräsentativen) Teilmenge der Zielgruppe. Zum Beispiel umfassen bestimmte Bevölkerungsdaten Informationen über alle Personen einer bestimmten Gruppe, wie Empfänger:innen einer öffentlichen Leistung oder Krankenhauspatient:innen. Solche Datensätze gelten als risikoreicher, weil wenig Unsicherheit darüber besteht, wer in dem Datensatz vertreten ist.
Beispiel

In dem Beispiel des Shared Mobility-Unternehmen Scoooot, das seine Nutzungsdaten mit dem regionalen ÖPNV-Unternehmen im Rahmen eines Kooperationsvertrags zur Förderung intermodaler Mobilität teilt, hat der Datensatz die folgenden Eigenschaften:

  • Genauigkeit: Die *Scoooot*-Daten wurden mittels GPS gesammelt und müssen für die Wartung und Verwaltung der E-Scooter bis auf mindestens drei Meter genau aufgezeichnet werden. Es werden aber nur die Start- und Zielpunkte jeder Fahrt aufgezeichnet.
  • Alter: Die Daten beziehen sich auf einen Zeitraum der letzten zwei Jahre. Die neusten Daten sind zwei Wochen alt. Durch diese Aktualität ist eine besondere Betrachtung des Risikos nötig.
  • Bündelung: Anhand gleicher Ankunftszeiten bei großen Veranstaltungsorten ist es potentiell möglich, verschiedenen Einträge in dem Datensatz zu bündeln. Sonst sind keine Informationen in den Daten enthalten, die eine Bündelung zulassen.
  • Längsschnitts- oder Querschnitts-Daten: Bei den Daten handelt es sich vor allem um Längsschnitts-Daten, da die meisten Kund:innen von *Scoooot* den Dienst in der betroffenen Zeit mehrfach benutzt haben. Dadurch könnte es einfacher werden, Einzelpersonen zu identifizieren.
  • Abdeckung: *Scoooot* teilt die Daten aller seiner Kund:innen. Dadurch ergibt sich in diesem Personenkreis eine volle Abdeckung. Da die E-Scooter im öffentlichen Raum benutzt werden, könnte die Zugehörigkeit zu diesem Personenkreis auch beobachtet werden. Dieser zusätzliche Risiko-Faktor sollte bei der Analyse beachtet werden.

Betroffene Personen / Datensubjekte

Mobilitätsdaten beschreiben die Bewegungen von Personen (den sogenannten

The fallback content to display on prerendering
) und stellen damit ein Risiko für diese Personen da. Um dieses Risiko einschätzen zu können, ist es wichtig zunächst zu verstehen, wer diese Personen sind. Hier sind direkt und indirekt betroffene Personen zu berücksichtigen und vulnerable Gruppen besonders zu beachten. Beispielsweise können Mobilitätsdaten von Eltern indirekt Informationen über deren Kinder beinhalten. Außerdem ist es wichtig zu evaluieren, in welcher Beziehung die Personen zu diesen Daten stehen. Haben sie diese Daten für den Datensatz und die Weitergabe gesammelt oder wurden die Daten bei anderen Aktivitäten aufgezeichnet und wurden erst später für die Weitergabe in Betracht gezogen. Wissen die Personen welche Daten aufgezeichnet wurden oder können sie die Daten jederzeit einsehen?

Datentyp

Daten können in verschiedenen Formen vorliegen und diese Form hat Einfluss auf das Risiko der Daten. Zum Beispiel gehen Mikrodaten mit anderen Offenlegungsrisiken einher als bereits aggregierte Daten? Bei der Aggregation von Daten gibt es weitere Abstufungen.

Typische Mobilitäts-Datentypen (siehe [1]):

Mikrodaten:

  • Traditionell werden Mobilitätsdaten über Haushaltsbefragungen (z.B. MiD [2a], SrV [2b]), erhoben. Diese werden ca. alle 5 Jahre von Forschungseinrichtungen durchgeführt. Hierbei wird eine repräsentativ ausgewählte Anzahl von Haushalten und Personen zu getätigten Wegen (Ort und Zeit der Start- und Zielpunkte aller Fahrten) an einem Stichtag (Werktag außerhalb der Schulferien) inklusive Wegezwecke und Verkehrsmittel befragt. Zusätzlich wird eine Reihe an demographischen Eigenschaften und mobilitätsbezogenen Informationen (z.B. verfügbare Fahrzeuge) abgefragt. Die Datenqualität gilt als sehr hoch.
  • Mittels WLAN können Verbindungen von mobilen Geräten (z.B. Smartphones) zu Access Points aufgezeichnet werden und über eine eindeutige MAC-Adresse zwischen verschiedenen Sensoren zu einem Bewegungsprofil verknüpft werden. Theoretisch können Personen damit über längere Zeiträume getrackt werden, sofern sie das gleiche Gerät bei sich tragen und die WLAN-Funktion aktiviert ist. Die Genauigkeit und Vollständigkeit der erfassten Bewegungsprofile hängen hierbei stark von der Anzahl und Abdeckung der Access Points ab. Rechtlich ist diese Form des Trackings kritisch, da dies zumeist ohne das Wissen oder die informierte Zustimmung der Betroffenen geschieht. Auch via Bluetooth sind Tracking-Applikationen denkbar.
  • Routing-Anwendungen liefern Informationen über die optimale Route und mögliche Alternativen, basierend auf zeitlichen und örtlichen Angaben zu Start und Ziel. Routenplanungs-Abfragen innerhalb solcher Anwendungen gehen vielen tatsächlichen Fahrten voraus und können als eine Annäherung für tatsächliche Mobilitätsdaten betrachtet werden. Inwiefern es sich hierbei um kritische Daten handelt, ist strittig: Einerseits werden häufig exakte Start- und Zielorte verwendet (bspw. die Heimadresse); andererseits handelt es sich nicht zwangsläufig um tatsächlich getätigte Fahrten, und einzelne Anfragen einer Person werden, soweit kein User-Profil verknüpft ist, nicht miteinander in Verbindung gebracht.
  • GPS-Tracking ist eine weit verbreitete Technologie, mit der Smartphones, Wearables oder Fahrzeuge geortet und getrackt werden können. Im Gegensatz zu allen anderen Technologien ermöglicht GPS ein Tracking in Intervallen von wenigen Sekunden und von Standorten mit nur wenigen Metern Ungenauigkeit. Somit ist bei GPS-basierten Daten besonders zu berücksichtigen, in welcher Frequenz und zu welchen Gelegenheiten Standorte von Personen gespeichert werden.
  • Transaktionsdaten werden durch Apps produziert, die bezahlte Mobilitätsdienstleistungen (z.B. Car Sharing) zur Verfügung stellen. Diese Daten werden in erster Linie für die Abwicklung der Buchungstransaktion mit dem Zahlungsdienstleister benötigt. Da die Abrechnung von der gefahrenen Strecke abhängt, enthalten diese Daten genaue Start- und Zielort sowie Zeitangaben, die mit Nutzerinformationen (Name, Email, Kontodetails) verknüpft und somit sehr sensibel sind. Je nach Nutzungsfrequenz lassen sich mehr oder weniger vollständige Bewegungsprofile rekonstruieren.
  • Mobilfunkdaten (Call-Detail-Records) decken dank weitreichender Durchdringung von Handys bereits in vielen Ländern nahezu 100% der Bevölkerung ab [3], und liefern durch regelmäßige Nutzung von Smartphones relativ vollständige Bewegungsprofile. Die räumliche Granularität entspricht der Dichte von Mobilfunkantennen, die je nach Gebiet stark variiert. In dicht besiedelten Stadtgebieten kann diese wenige hundert Meter betragen. Auch hier dienen die Rohdaten primär der Zahlungsabwicklung des Mobilfunkanbieters.

Aggregationen:

  • Fahrgastzahlen oder Verkehrsdichte können automatisch mit stationären Sensoren wie Kontaktschleifen oder Infrarotsensoren oder manuell erfasst werden. Das Ergebnis sind aggregierte Daten, sodass nur in wenigen Randfällen ein Personenbezug hergestellt werden kann.
  • Quelle-Ziel-Matrizen sind eine typische Methode zur Aggregation eines Mobilitäts-Mikrodatensatzes. Die Granularität kann hier je nach räumlicher und zeitlicher Auflösung stark variieren. Personen werden hier meist in demografischen oder verhaltenshomogenen Gruppen zusammengefasst. Je nachdem schwankt auch das verbleibende Re-Identifizierungsrisiko.
  • Räumliche Aggregationen fassen die Bewegungsdaten in Zellen von einem auf die Stadt gelegtes Raster zusammen. Statt beispielsweise die genauen Start- und Zielorte einer Fahrt zu speichern, wird nur noch angegeben, in welchen Zellen des Rasters die Fahrt startete und endete. Der verbliebene Personenbezug hängt hier stark von räumlicher und zeitlicher Granularität ab. Selbst aus vermeintlich hoch aggregierten Daten konnten bereits Fahrten rekonstruiert werden [5].

Arten von Variablen

Schließlich sollen die Informationen in jedem Dateneintrag beschrieben werden. Jeder Eintrag besteht aus verschiedenen Variablen, jede mit eigenen Eigenschaften.

Implikation auf die Privatsphäre

Bei Variablen unterscheidet man drei besondere Kategorien bezüglich des Einflusses auf die Privatsphäre der Datensubjekte:

  • direkte Identifikatoren: Einige Variablen identifizieren eine Person direkt und ohne weitere Informationen (z.B. Name, Adresse)
  • indirekte Identifikatoren: Andere Variablen können eine Person zwar nicht alleine, aber in Kombination mit anderen Informationen identifizieren (z.B. Wohnort und Alter)
  • sensible Attribute: Diese Variablen enthalten Informationen, die eine Person nicht öffentlich über sich preisgeben möchte, weil die Informationen Nachteile für die Person haben könnte. Damit ist diese Information ein potenzielles Ziel für
    The fallback content to display on prerendering
    .

Nicht jede Variable gehört zwangsläufig in einer dieser drei Kategorien, allerdings ist es schwer vorauszusagen, welche Daten mit zusätzlichen Informationen in Zukunft zu indirekten Identifikatoren werden könnte. Über diese Kategorien hinaus, können Variablen auch mit Bezug auf die Angreifer:innen eingeordnet werden.

Schlüsselvariablen

The fallback content to display on prerendering
stellen den entscheidenden Link bereit, der es Angreifer:innen erlaubt, eine Zielperson in einem anonymisierten Mobilitätsdatensatz zu identifizieren. Es handelt sich hier um Variablen, die sowohl in dem Mobilitätsdatensatz als auch in anderen verfügbaren Datensätzen oder im Hintergrundwissen der Angreifer:innen enthalten sind. Durch den Vergleich der Werte, die in dem Mobilitätsdatensatz und anderen Datensätzen in den Schlüsselvariablen gespeichert sind, können Angreifer:innen Datensubjekte identifizieren. Dazu muss die Kodierung der Schlüsselvariablen im Angriffs- und Zieldatensatz gleich (oder zumindest harmonisierbar sein). Im Wesentlichen gibt es vier Quellen für Hilfsinformationen: (i) Datensätze, die dieselben Informationen für dieselbe (oder eine hinreichend ähnliche) Population enthalten, (ii) Informationen, die öffentlich zugänglich sind (z. B. in öffentlichen Registern oder in sozialen Medien), (iii) Informationen, die aus lokalem Wissen gewonnen werden (z. B. der Wohnort, der durch physische Beobachtung gewonnen wird), und (iv) Informationen, die durch persönliches Wissen gewonnen werden (z. B. Dinge, die ich über meine Nachbar:innen oder Arbeitskolleg:innen weiß). Natürlich gibt es terminologische Überschneidungen zwischen dem Begriff der Schlüsselvariablen und dem des indirekten Identifikators. Der Unterschied besteht darin, dass eine Schlüsselvariable spezifisch für ein bestimmtes Szenario ist (z. B. eine bestimmte Kombination von Datensätzen), während sich der Begriff des indirekten Identifikators auf den Datensatz selbst konzentriert und darauf, welche Variablen in jedem Szenario als Identifikatoren verwendet werden können. Die Menge der indirekten Identifikatoren ist also die Menge aller möglichen Schlüsselvariablen für alle möglichen Szenarien. Aber - und das ist entscheidend - man wird nur sehr selten (wenn überhaupt) auf eine Situation stoßen, in der man alle potenziellen indirekten Identifikatoren gleichzeitig in Betracht zieht, da die meisten Szenarien nur eine Teilmenge - die Schlüsselvariablen für dieses Szenario - umfassen. Häufige Schlüsselvariablen sind beispielsweise Alter, Geschlecht, Adresse, Beziehungsstatus, Wohnort, Arbeitsort. Jedoch hängen die Schlüsselvariablen auch von dem Kontext der Daten ab. Schlüsselvariablen erhöhen das Privatsphärerisiko für die Datensubjekte und sollten daher als solche markiert werden.

Das ADF stellt für verschiedene Szenarien eine Liste von Standard-Schlüsselvariablen zusammen: ADF Companion Document A

Zielinformation

Als Zielinformation werden die Informationen bezeichnet, die Angreifer:innen über ihre Zielperson herausfinden wollen. Die Zielinformation könnte eine oder eine Kombination aus mehreren Variablen umfassen. Zielinformation enthält oft die Information, die im sensiblen Attribut angegeben wird. Je nach Szenario kann die Zielinformation allerdings auch andere Variablen enthalten oder sogar nur die Teilnahmekenntnis. In einem Datensatz über Patienten einer bestimmten Krankheit, kann zum Beispiel bereits die Erkenntnis, dass die Zielperson enthalten ist, dazu führen, dass die Privatsphäre der Zielperson verletzt wird.

Gerade Bewegungsdaten können prinzipiell unbedenklich sein, aber in Verbindung mit Wissen zu den typischen Aktivitäten an einem besuchten Ort zu der Offenlegung der Zielinformation beitragen. Wenn zum Beispiel eine Person öfter abends in der Nähe eines Nachtclubs identifiziert werden kann, kann geschlossen werden, dass diese Person den Nachtclub besucht hat, was eine Verletzung der Privatsphäre sein kann.

Variablen, die Teil der Zielinformation sein könnten oder Rückschlüsse auf Zielinformation zulassen, müssen mit besonderer Vorsicht behandelt werden.

Besonderheit von Mobilitätsdaten

Die räumlich-zeitlichen Punkte sind eine typische Schlüsselvariable im Kontext von Mobilitätsdaten. Diese räumlich-zeitlichen Punkte stellen dabei allerdings gleichzeitig häufig auch die Zielinformation des Angriffs dar. Beispielsweise, wenn der Arbeitsort einer Person bekannt ist (Schlüsselvariable) und genutzt wird um den damit verknüpften besuchten sensiblen Ort (Zielinformation) mit der Person in Verbindung zu bringen.

Verfügbarkeit

Eine weitere Eigenschaft der Daten ist die Verfügbarkeit. Variablen können generell als definitiv vorhanden, wahrscheinlich vorhanden und möglicherweise vorhanden eingestuft werden.

Mobilitätsdaten als Identifikator

Im Falle von Standortdaten handelt es sich (meist) um indirekte Identifikatoren. Diese sind als solche explizit in der DSGVO genannt. Da Bewegungsmuster extrem einzigartig sind, reichen meist nur wenige Punkte (~2-4) mit Ort und Zeitinformation aus, um Personen eindeutig in einem Datensatz identifizieren zu können, auch wenn direkte Identifikatoren entfernt wurden (siehe z.B. [5]).

Wie kritisch die Mobilitätsdaten zu bewerten sind, hängt von verschiedenen Faktoren ab:

  • Wie vollständig ist das aufgezeichnete Bewegungsmuster? Zum Beispiel zeichnen Mobilfunkdaten oder GPS-Tracking in einem privaten Auto sehr vollständige Bewegungsprofile auf, während sporadische Transaktionen, beispielsweise bei selten verwendeten Sharing-Fahrzeugen, Bewegungsverhalten nur sehr unvollständig speichern.
  • Welche Standorte werden aufgezeichnet und wie stehen diese im Verhältnis zum Personenbezug? Beispielsweise sind Start- und Zielpunkt bei einem stationsbasierten Bike-Sharing Dienst weniger personenspezifisch als bei einem Dienst, wo Fahrzeuge potenziell direkt vor der Haustür abgestellt werden.
Beispiel

Ein Shared Mobility-Unternehmen teilt seine Nutzungsdaten mit dem regionalen ÖPNV-Unternehmen, das für die Bereitstellung von Mobility Hubs für die Förderung intermodaler Mobilität verantwortlich ist. Durch den Kooperationsvertrag besteht eine Verpflichtung zur Übermittlung dieser Daten an das ÖPNV-Unternehmen. Das Shared Mobility-Unternehmen nutzt einen Dienstleister zum Betreiben der App, der entsprechend die Rohdaten sammelt.


Für die Übersicht sind die Informationen für jede Datenumgebung in eine eigene Tabelle eingetragen, die mit den Registerkarten "Datenumgebung 1" bis "Datenumgebung 4" ausgewählt werden können.
Eigenschaft / FrageAntwort/Aktion
Eigenschaften des DatensatzesGenauigkeit /
Datenqualität
Bei jeder Transaktion über die App werden der genaue Zeitpunkt des Mietbeginns und der Standort entsprechend der GPS-Genauigkeit gespeichert und mit den hinterlegten Kundendaten verknüpft. Hier ist eine hohe Genauigkeit der Daten anzunehmen.
Alter des Datensatzes?0-24 Monate. Löschfrist nach 24 Monaten.
Bündelungen in den DatenDurch Firmen- und Familienaccounts gibt es hierarchische Verknüpfungen; beispielsweise alle Mitarbeiter:innen einer Firma.
Längsschnitts- oder Querschnitts-Daten?Ja, die Kundendaten werden kontinuierlich bis zu 24 Monate gespeichert.
AbdeckungTeilmenge der Bevölkerung; gesamte Menge der Kund:innen.
BetroffenePersonengruppenKund:innen von Scoooot, die Transaktionen getätigt haben.
DatentypMikrodaten, Aggregation oder etwas anderes?Tabellarische Mikroaten. Jede Transaktion ist ein Eintrag der Datenbank. Technische Daten zur Speicherung in der Datenbank sind ebenfalls enthalten
Variablenklassifikation
VariableDirekter IdentifikatorIndirekter Identifikatorsensibles AttributNotizen
DB Eintrag-ID
KundennameX
AdresseX
User_IDX
Gruppenaccountname (z.B. Familie / Firma)X
Gruppenaccount_IDX
Zeitpunkt MietbeginnXXStandortinformationen (Quelle-Ziel Ort und Zeit) können gleichzeitig dazu verwendet werden, Personen im Datensatz zu identifizieren (indirekte Identifier), beispielsweise wenn bekannt ist, wann sich eine Person wo aufgehalten hat. Gleichzeitig stellt es die Zielinformation dar, da weitere, potenziell sensible, Aufenthaltsorte identifiziert werden können.
Zeitpunkt MietendeXX
Koordinaten MietbeginnXX
Koordinaten MietendeXX
Preis
Fahrzeug_ID
freemove Inhalte

Typische Mobilitätsdatensätze:

[1] A. Kapp, „Collection, usage and privacy of mobility data in the enterprise and public administrations“, PoPETs, Bd. 2022, Nr. 4, S. 440–456, Okt. 2022, doi: 10.56553/popets-2022-0117.

Weitere Ressourcen
Weitere Informationen zu verschiedenen Datensatztypen:
Haushaltsbefragung

[2a] Mobilität in Deutschland: https://www.mobilitaet-in-deutschland.de

[2b] System repräsentativer Verkehrsbefragungen (SrV): https://tu-dresden.de/bu/verkehr/ivs/srv/das-srv/srv-standard

Mobilfunk

[3] V. D. Blondel, A. Decuyper, und G. Krings, „A survey of results on mobile phone datasets analysis“, EPJ Data Sci., Bd. 4, Nr. 1, Art. Nr. 1, Dez. 2015, doi: 10.1140/epjds/s13688-015-0046-0.

Rekonstruktion von Trajektorien anhand hoch aggregierter Daten

[4] F. Xu, Z. Tu, Y. Li, P. Zhang, X. Fu, und D. Jin, „Trajectory Recovery From Ash: User Privacy Is NOT Preserved in Aggregated Mobility Data“, Proceedings of the 26th International Conference on World Wide Web, S. 1241–1250, Apr. 2017, doi: 10.1145/3038912.3052620.

Einzigartigkeit von Mobilitätsdaten - nur wenige Punkte reichen aus um eine Person eindeutig in einem Datensatz zu identifizieren

[5a] Y.-A. de Montjoye, C. A. Hidalgo, M. Verleysen, und V. D. Blondel, „Unique in the Crowd: The privacy bounds of human mobility“, Sci Rep, Bd. 3, Nr. 1, S. 1376, März 2013, doi: 10.1038/srep01376.

[5b] D. C. Culnane, A. B. I. P. Rubinstein, und A. V. Teague, „Stop the Open Data Bus, We Want to Get Off“. arXiv, 14. August 2019. doi: 10.48550/arXiv.1908.05004.