Startseite » IT-Sicherheit »

KIT-Forschung zum Internet-Tracking: Generalisierung reicht nicht, um Daten zu anonymisieren

KIT-Forschung
Generalisierung reicht nicht, um Daten zu anonymisieren

Das KIT und die TU Dresden haben untersucht, inwieweit beim täglichen Surfen Anonymität gegeben ist. Bild: beeboys via Adobe Stock
Das KIT und die TU Dresden haben untersucht, inwieweit beim täglichen Surfen Anonymität gegeben ist.
Bild: beeboys/stock.adobe.com
Anzeige

Das Tracking des Surfverhaltens gehört zum Alltag der Internetnutzung. Viele Anbieter von Tracking-Diensten generalisieren und anonymisieren ihre Datensätze und werben so mit sicherem Datenschutz. Informatiker des Karlsruher Instituts für Technologie (KIT) und der Universität Dresden (TUD) haben untersucht, wie sicher dieses Verfahren ist. Anlässlich der IEEE Security and Privacy-Konferenz haben die Forscher jetzt ihre Ergebnisse in einem wissenschaftlichen Paper veröffentlicht.

Tracking-Dienste sammeln große Datenmengen der Internetnutzer. Dazu gehören etwa besuchte Websites, Informationen zu den verwendeten Endgeräten, der Zeitpunkt des Abrufes (Zeitstempel) oder Ortsinformationen.

66 Millionen Nutzerdaten, zwei Milliarden Seitenaufrufe

„Da diese Daten sehr sensibel sind und einen hohen Personenbezug haben, nutzen viele Unternehmen die Generalisierung, um sie scheinbar zu anonymisieren und damit Datenschutzregelungen zu umgehen“, sagt Professor Thorsten Strufe, Leiter der Forschungsgruppe „Praktische IT-Sicherheit“ am KIT.

Bei einer Generalisierung wird der Detailgrad der Informationen reduziert. Eine Identifizierung von Einzelpersonen soll so nicht mehr möglich sein. So werden etwa die Ortsinformationen auf die Region beschränkt, die Abrufzeit auf den Tag oder die IP-Adressen um einige Zahlen gekürzt. Ob so wirklich keine Rückschlüsse mehr auf das Individuum gezogen werden können, hat die Forschergruppe um Strufe untersucht.

Den Informatikern stand für die Untersuchung eine Vielzahl an Metadaten deutscher Websites mit etwa 66 Millionen Nutzern und mehr als zwei Milliarden Seitenaufrufen zur Verfügung.

So konnten die Forscher Rückschlüsse auf die aufgerufenen Seiten und auf die Verkettung der einzelnen Seitenaufrufe, sogenannten „Click Traces“, ziehen.

Click Trace ermöglicht genaue Zuordnung des Nutzers

„Um die Wirksamkeit der Generalisierung zu testen, haben wir zwei unterschiedliche Anwendungsszenarien betrachtet“, sagt Strufe.

Zum einen wurden die gesamten Click Traces auf ihre Eindeutigkeit hin untersucht. Ein Click Trace, also der Verlauf vieler aufeinanderfolgender Seitenaufrufe, ist nämlich nicht mehr anonym, wenn er klar von anderen abgrenzbar ist.

Das Ergebnis: Nur wenn Informationen zu besuchten Websites und benutztem Browser aus den Daten gelöscht werden, können keine Rückschlüsse mehr gezogen werden.

IT-Sicherheit

„Die Daten werden erst dann anonym, wenn die Sequenzen entweder zu einzelnen Klicks verkürzt, also völlig ohne Zusammenhang gespeichert werden, oder alle Informationen mit Ausnahme des Zeitstempels entfernt werden“, erklärt Strufe.

„Selbst wenn lediglich die Domain, die Themenzuordnung, wie ‚Politik‘ oder ‚Sport‘, und die Zeit nur tagesgenau gespeichert werden, können 35 bis 40 Prozent der Daten individuellen Personen zugeordnet werden“, gibt Strufe zu bedenken.

Die Forscher konnten in diesem Szenario zeigen, dass Generalisierung nicht ausreicht, um Anonymität zu gewährleisten.

Wenige Beobachtungen reichen, um Nutzerprofile zu identifizieren

Die Wissenschaftler haben außerdem untersucht, wie man auch nur mit Teilmengen eines Click Traces Rückschlüsse auf ein Individuum ziehen kann.

„Wir haben die generalisierten Informationen aus der Datenbank mit weiteren Beobachtungen wie auf den Sozialen Medien oder in Chats geteilten Links verbunden. Wird beispielsweise die Zeit auf eine Minute genau generalisiert, reicht mit dieser Methode eine Beobachtung, um über 20 Prozent der Click Traces eindeutig einer Person zuzuordnen“, erklärt Clemens Deusser, der als Doktorand in Strufes Arbeitsgruppe maßgeblich an der Studie beteiligt war.

„Zwei weitere Beobachtungen steigern diesen Erfolg auf über 50 Prozent. In der Datenbank kann dann einfach abgelesen werden, welche anderen Webseiten die Person noch besucht und welche Inhalte sie betrachtet hat“, so Deusser.

Selbst wenn der Zeitstempel nur tagesgenau gespeichert werde, benötige man für die Personenerkennung nur fünf weitere Beobachtungen.

Anonymisierung durch einfache Generalisierung nicht gewährleistet

„Unsere Ergebnisse zeigen, dass einfache Generalisierung nicht geeignet ist, um Webtrackingdaten wirksam zu anonymisieren“, sagt Strufe. Die Daten könnten einzelnen Personen zugeordnet werden. Die Anonymisierung sei damit ineffektiv.

„Um einen effektiven Datenschutz zu erreichen, müssten Verfahren angewandt werden, die darüber hinausgehen, wie beispielsweise eine Verrauschung durch zufälliges Einfügen kleiner Fehlbeobachtungen in die Daten“, empfiehlt Strufe.

Die Ergebnisse hat das Forscherteam um Strufe innerhalb der „IEEE Security and Privacy“ vorgestellt. (wag)


Kontakt zum KIT


Karlsruher Institut für Technologie
Kaiserstraße 12
76131 Karlsruhe
Tel.: +49 721 6080
E-Mail: info@kit.edu
Website: www.kit.edu

Ebenfalls interessant:

Phishing-Versuche nahmen im vergangenen Jahr um 640 Prozent zu


Industrie.de Infoservice
Vielen Dank für Ihre Bestellung!
Sie erhalten in Kürze eine Bestätigung per E-Mail.
Von Ihnen ausgesucht:
Weitere Informationen gewünscht?
Einfach neue Dokumente auswählen
und zuletzt Adresse eingeben.
Wie funktioniert der Industrie.de Infoservice?
Zur Hilfeseite »
Ihre Adresse:














Die Konradin Verlag Robert Kohlhammer GmbH erhebt, verarbeitet und nutzt die Daten, die der Nutzer bei der Registrierung zum Industrie.de Infoservice freiwillig zur Verfügung stellt, zum Zwecke der Erfüllung dieses Nutzungsverhältnisses. Der Nutzer erhält damit Zugang zu den Dokumenten des Industrie.de Infoservice.
AGB
datenschutz-online@konradin.de