Generalisierung reicht nicht, um Daten zu anonymisieren

Das Tracking des Surfverhaltens gehört zum Alltag der Internetnutzung. Viele Anbieter von Tracking-Diensten generalisieren und anonymisieren ihre Datensätze und werben so mit sicherem Datenschutz. Informatiker des Karlsruher Instituts für Technologie (KIT) und der Universität Dresden (TUD) haben untersucht, wie sicher dieses Verfahren ist. Anlässlich der IEEE Security and Privacy-Konferenz haben die Forscher jetzt ihre Ergebnisse in einem wissenschaftlichen Paper veröffentlicht.

Tracking-Dienste sammeln große Datenmengen der Internetnutzer. Dazu gehören etwa besuchte Websites, Informationen zu den verwendeten Endgeräten, der Zeitpunkt des Abrufes (Zeitstempel) oder Ortsinformationen.

66 Millionen Nutzerdaten, zwei Milliarden Seitenaufrufe

„Da diese Daten sehr sensibel sind und einen hohen Personenbezug haben, nutzen viele Unternehmen die Generalisierung, um sie scheinbar zu anonymisieren und damit Datenschutzregelungen zu umgehen“, sagt Professor Thorsten Strufe, Leiter der Forschungsgruppe „Praktische IT-Sicherheit“ am KIT.

Bei einer Generalisierung wird der Detailgrad der Informationen reduziert. Eine Identifizierung von Einzelpersonen soll so nicht mehr möglich sein. So werden etwa die Ortsinformationen auf die Region beschränkt, die Abrufzeit auf den Tag oder die IP-Adressen um einige Zahlen gekürzt. Ob so wirklich keine Rückschlüsse mehr auf das Individuum gezogen werden können, hat die Forschergruppe um Strufe untersucht.

Den Informatikern stand für die Untersuchung eine Vielzahl an Metadaten deutscher Websites mit etwa 66 Millionen Nutzern und mehr als zwei Milliarden Seitenaufrufen zur Verfügung.

So konnten die Forscher Rückschlüsse auf die aufgerufenen Seiten und auf die Verkettung der einzelnen Seitenaufrufe, sogenannten „Click Traces“, ziehen.

Click Trace ermöglicht genaue Zuordnung des Nutzers

„Um die Wirksamkeit der Generalisierung zu testen, haben wir zwei unterschiedliche Anwendungsszenarien betrachtet“, sagt Strufe.

Zum einen wurden die gesamten Click Traces auf ihre Eindeutigkeit hin untersucht. Ein Click Trace, also der Verlauf vieler aufeinanderfolgender Seitenaufrufe, ist nämlich nicht mehr anonym, wenn er klar von anderen abgrenzbar ist.

Das Ergebnis: Nur wenn Informationen zu besuchten Websites und benutztem Browser aus den Daten gelöscht werden, können keine Rückschlüsse mehr gezogen werden.

IT-Sicherheit

„Die Daten werden erst dann anonym, wenn die Sequenzen entweder zu einzelnen Klicks verkürzt, also völlig ohne Zusammenhang gespeichert werden, oder alle Informationen mit Ausnahme des Zeitstempels entfernt werden“, erklärt Strufe.

„Selbst wenn lediglich die Domain, die Themenzuordnung, wie ‚Politik‘ oder ‚Sport‘, und die Zeit nur tagesgenau gespeichert werden, können 35 bis 40 Prozent der Daten individuellen Personen zugeordnet werden“, gibt Strufe zu bedenken.

Die Forscher konnten in diesem Szenario zeigen, dass Generalisierung nicht ausreicht, um Anonymität zu gewährleisten.

Wenige Beobachtungen reichen, um Nutzerprofile zu identifizieren

Die Wissenschaftler haben außerdem untersucht, wie man auch nur mit Teilmengen eines Click Traces Rückschlüsse auf ein Individuum ziehen kann.

„Wir haben die generalisierten Informationen aus der Datenbank mit weiteren Beobachtungen wie auf den Sozialen Medien oder in Chats geteilten Links verbunden. Wird beispielsweise die Zeit auf eine Minute genau generalisiert, reicht mit dieser Methode eine Beobachtung, um über 20 Prozent der Click Traces eindeutig einer Person zuzuordnen“, erklärt Clemens Deusser, der als Doktorand in Strufes Arbeitsgruppe maßgeblich an der Studie beteiligt war.

„Zwei weitere Beobachtungen steigern diesen Erfolg auf über 50 Prozent. In der Datenbank kann dann einfach abgelesen werden, welche anderen Webseiten die Person noch besucht und welche Inhalte sie betrachtet hat“, so Deusser.

Selbst wenn der Zeitstempel nur tagesgenau gespeichert werde, benötige man für die Personenerkennung nur fünf weitere Beobachtungen.

Anonymisierung durch einfache Generalisierung nicht gewährleistet

„Unsere Ergebnisse zeigen, dass einfache Generalisierung nicht geeignet ist, um Webtrackingdaten wirksam zu anonymisieren“, sagt Strufe. Die Daten könnten einzelnen Personen zugeordnet werden. Die Anonymisierung sei damit ineffektiv.

„Um einen effektiven Datenschutz zu erreichen, müssten Verfahren angewandt werden, die darüber hinausgehen, wie beispielsweise eine Verrauschung durch zufälliges Einfügen kleiner Fehlbeobachtungen in die Daten“, empfiehlt Strufe.

Die Ergebnisse hat das Forscherteam um Strufe innerhalb der „IEEE Security and Privacy“ vorgestellt. (wag)

Kontakt zum KIT

Karlsruher Institut für Technologie
Kaiserstraße 12
76131 Karlsruhe
Tel.: +49 721 6080
E-Mail: info@kit.edu
Website: www.kit.edu

Ebenfalls interessant:

https://industrie.de/it-sicherheit/phishing-versuche-nahmen-im-vergangenen-jahr-um-640-prozent-zu/

Unsere Whitepaper-Empfehlung

Whitepaper: Aerzen Digital Systems GmbH

So realisieren Sie das Potenzial Ihrer Maschinendaten

Lohnen sich datenbasierte Services für meine Maschinen und wie integriere ich sie in mein Kerngeschäft? Dieses Whitepaper liefert wertvolle Tipps aus der Praxis, um praktische Umsetzungshürden zu meistern und das Investitionsrisiko zu reduzieren. Aus dem Maschinenbau, für den…

Zurück zur Startseite

KIT-Forschung zum Internet-Tracking: Generalisierung reicht nicht, um Daten zu anonymisieren

66 Millionen Nutzerdaten, zwei Milliarden Seitenaufrufe

Click Trace ermöglicht genaue Zuordnung des Nutzers

Wenige Beobachtungen reichen, um Nutzerprofile zu identifizieren

Anonymisierung durch einfache Generalisierung nicht gewährleistet

So realisieren Sie das Potenzial Ihrer Maschinendaten