Debatte Big Data und Datenschutz: Das Unbehagen im Datenhaufen
Große Datensätze sind toll für die Forschung, doch der Rückschluss auf Personen wird immer einfacher. Unser Umgang mit persönlichen Daten muss sich ändern.
D erzeit gibt es einen Hype um das Buzzword „Big Data“, letzte Woche sprach die taz vom „nächsten großen Ding.“ Tatsächlich sind große Datenmengen nur die logische Konsequenz der fortschreitenden Digitalisierung unserer Gesellschaft. Kaum ein Lebensbereich wird nicht durch vernetzte Computersysteme durchdrungen, und dabei fallen immer mehr Daten an, die natürlich auch verarbeitet werden.
Geheimdienste und Großkonzerne machen das schon länger. Banken wenden statistische Verfahren auf die Finanztransaktionen ihrer Kunden an, um Unregelmäßigkeiten zu entdecken. Die amerikanische Einzelhandels-Kette Walmart verarbeitete schon vor zwei Jahren eine Million Kunden-Transaktionen, pro Stunde. Facebook speichert mehr als 200 Milliarden Fotos seiner Nutzer, täglich kommen zehn Millionen neue dazu. Die scannt es nach Gesichtern – und trainiert damit seinen Algorithmus zur Gesichtserkennung. Und der amerikanische Geheimdienst NSA baut gerade im abgelegenen Utah das größte Spionage-Rechenzentrum der Welt, zum Sammeln und Rastern von Datenmengen in unvorstellbaren Ausmaßen.
Das neue ist nur, dass große Datensätze auch immer mehr Forschern und sogar Endanwendern zur Verfügung stehen. Teilweise lassen sich daraus tolle Erkenntnisse ziehen. Forscher der Elite-Uni Harvard haben die Handydaten von 15 Millionen Kenianern über den Zeitraum von einem Jahr //www.sciencemag.org/content/338/6104/267:ausgewertet und mit Karten über die Ausbreitung von Malaria verglichen. Damit konnten die den Ursprung der Tropenkrankheit sowie ihren Ausbreitungsweg nachvollziehen – und dass Menschen ebenso zur Verbreitung beitragen wie Moskitos.
Auch Polio soll mit Big Data bekämpft werden. Eine private Datenanalyse-Firma will mit Handydaten Impfpläne verbessern und bisher nicht verzeichnete Dörfer einbeziehen. In Großbritannien sollen die Krankenakten aller Einwohner zentral gesammelt und mit anderen Datenbanken verknüpft werden. Das wird als Revolution der medizinischen Forschung gefeiert.
Drei Daten, eine Identität
Dabei wird immer versprochen, dass die Datensätze natürlich anonymisiert sind. Doch die Kehrseite von Big Data ist auch, dass eine herkömmliche Anonymisierung, also das Entfernen von eindeutig identifizierbaren Informationen wie Name und Anschrift, nicht ausreichend ist und immer leichter rückgängig gemacht werden kann. Bereits in den Neunziger Jahren versicherte der Gouverneur von Massachusetts, dass die veröffentlichten Krankendaten seines Staates datenschutzrechtlich unbedenklich sind, weil personenbezogene Informationen entfernt wurden.
ist Sozialwissenschafter, Systemadministrator und Journalist. Er schreibt seit 2007 regelmäßig auf Netzpolitik.org über Fragestellungen der digitalen Welt und hat den Verein Digitale Gesellschaft mitgegründet.
Die Forscherin Latanya Sweeney machte diese Anonymisierung rückgängig, in dem sie nicht anonymisierte, scheinbar harmlose Informationen des Datenbergs mit weiteren Datensätzen verknüpfte. So war sie in der Lage, die persönliche Krankenakte des Gouverneurs herauszufinden und ihm zuzuschicken.
Im Jahr 2000 fand Sweeney heraus, dass 87 Prozent aller Amerikaner mit nur drei kleinen Daten eindeutig identifiziert werden können: Geschlecht, Geburtsdatum und Postleitzahl. Seitdem haben immer mehr Studien gezeigt, dass man aus scheinbar anonymisierten Datensätzen Einzelpersonen “re-identifizieren” oder “de-anonymisieren” kann, oft mit erstaunlicher Leichtigkeit. Die Königliche Gesellschaft Großbritanniens kam kürzlich in einem Bericht zu dem Fazit, „dass die Sicherheit von persönlichen Daten in Datenbanken durch Anonymisierung nicht garantiert werden kann, wenn aktiv nach Identitäten gesucht wird.“
Der Chaos Computer Club erweiterte schon in den Achtziger Jahren die Hackerethik um den Grundsatz: „Öffentliche Daten nützen, private Daten schützen“. Auch bei diesem Thema stellt sich also erneut die Frage: Was ist privat, was ist öffentlich? Die Sozialforscherin Danah Boyd beschäftigte sich vor zwei Jahren mit der Frage nach Datenschutz im Zeitalter von Big Data. Eine ihrer fünf Überzeugungen ist: „Nur weil man Zugriff auf Daten hat, ist es noch nicht ethisch vertretbar, diese auch zu verwenden.“
Mobilfunk-Anbieter speichern Verbindungs- und Ortsdaten ihrer Kunden zu Abrechnungszwecken. Als der Telefónica-Konzern mit seiner deutschen Tochter O2 aus diesen Daten Bewegungsprofile erstellen zu Werbezwecken erstellen wollte, musste sich erst das Wirtschaftsministerium einmischen, bis der Konzern die Pläne für Deutschland zurückzog. Im deutschen Recht existiert das Konzept der Zweckbindung, nach der Daten nur für vor der Erhebung definierte Zwecke verwendet werden dürfen.
Datenbriefe sind dringender denn je
Ein großes Problem dabei ist jedoch, dass wir in der digitalen Gesellschaft gar nicht mehr überblicken können, wer welche Daten über uns erhebt, verarbeitet und weitergibt. Die Grundvoraussetzung für eine bewusste Entscheidung ist jedoch genau dieses Wissen. Verbraucher sollten regelmäßig von Firmen, Behörden und Institutionen informiert werden, welche personenbezogenen Daten über sie dort gespeichert sind. Dieses Konzept des so genannten Datenbriefs ist nicht neu – aber dringender denn je.
Zudem sollten Verbraucher frei und selbstbestimmt entscheiden dürfen, für welche Zwecke sie welche Daten zur Verfügung stellen. Die derzeit gängige Praxis, alle möglichen Verwendungszwecke in undurchsichtigen und ellenlangen Geschäftsbedingungen zu verstecken und absegnen zu lassen muss durch einfache und offene Fragen ersetzt werden. Dienste müssen auch nutzbar sein, wenn man der unbestimmten Verarbeitung und Weitergabe meiner Daten widerspricht. Das schafft einen fairen Ausgleich zwischen dem Erkenntnisinteresse der Datenforscher und dem Selbstbestimmungsrecht des Einzelnen.
Schließlich muss an neuen und wirksamen Methoden zur Anonymisierung geforscht werden. Der vom Polio-Forscher Dave Menninger ausgemachte Gegensatz, entweder Datenschutz oder die Bekämpfung der Kinderlähmung, muss aufgelöst werden. Wir wollen natürlich beides.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert
Paragraf 218 im Rechtsausschuss
CDU gegen Selbstbestimmung von Frauen
Partei stellt Wahlprogramm vor
Linke will Lebenshaltungskosten für viele senken
FDP stellt Wahlkampf Kampagne vor
Lindner ist das Gesicht des fulminanten Scheiterns
Wahlkampf-Kampagne der FDP
Liberale sind nicht zu bremsen
Sednaya Gefängnis in Syrien
Sednaya, Syriens schlimmste Folterstätte
Syrische Geflüchtete in Deutschland
Asylrecht und Ordnungsrufe