Thema heute:

KIT: Datenschutz beim Website-Tracking

Das Tracking des Surfverhaltens gehört zum Alltag der Internetnutzung. Unternehmen verwenden es beispielsweise, um Werbeanzeigen auf die persönlichen Belange der potenziellen Kunden zuzuschneiden oder ihre Reichweite zu messen. Viele Anbieter von Trackingdiensten werben mit sicherem Datenschutz, indem sie Datensätze generalisieren und so anonymisieren. Wie sicher dieses Verfahren ist, haben Informatikerinnen und Informatiker des Karlsruher Instituts für Technologie (KIT) und Kolleginnen und Kollegen der Technischen Universität Dresden (TUD) untersucht.

Trackingdienste sammeln große Datenmengen der Internetnutzerinnen und -nutzer. Darunter fallen neben den besuchten Webseiten beispielsweise auch Informationen zu den verwendeten Endgeräten, der Zeitpunkt des Abrufes (Zeitstempel) oder Ortsinformationen. "Da diese Daten sehr sensibel sind und einen hohen Personenbezug haben, nutzen viele Unternehmen die Generalisierung, um sie scheinbar zu anonymisieren und damit Datenschutzregelungen zu umgehen", sagt Professor Thorsten Strufe, Leiter der Forschungsgruppe "Praktische IT-Sicherheit" am KIT. Bei einer Generalisierung wird der Detailgrad der Informationen reduziert, sodass eine Identifizierung von Einzelpersonen nicht mehr möglich sein soll. So werden beispielsweise die Ortsinformationen auf die Region beschränkt, die Abrufzeit auf den Tag oder die IP-Adressen um einige Zahlen gekürzt.

Der Verlauf von Seitenaufrufen hat große Aussagekraft

"Um die Wirksamkeit der Generalisierung zu testen, haben wir zwei unterschiedliche Anwendungsszenarien betrachtet", sagt Strufe. "Zum einen haben wir die gesamten Click Traces, also Seitenaufrufe, auf ihre Eindeutigkeit untersucht. Denn ist ein Click Trace, also der Verlauf vieler aufeinanderfolgender Seitenaufrufe, klar von anderen abgrenzbar, so ist er nicht mehr anonym." Dabei zeigte sich, dass Informationen zur besuchten Webseite und benutztem Browser komplett aus den Daten entfernt werden müssen, um Rückschlüsse auf Personen zu vermeiden.

"Die Daten werden erst dann anonym, wenn die Sequenzen entweder zu einzelnen Klicks verkürzt, also völlig ohne Zusammenhang gespeichert werden, oder alle Informationen mit Ausnahme des Zeitstempels entfernt werden", so Strufe. "Selbst wenn lediglich die Domain, die Themenzuordnung, wie "Politik" oder "Sport", und die Zeit nur tagesgenau gespeichert werden, können 35 bis 40 Prozent der Daten individuellen Personen zugeordnet werden." In diesem Szenario konnten die Forscherinnen und Forscher zeigen, dass der Ansatz der Generalisierung nicht der Definition der Anonymität entspricht.

