Anonymität bei Gendatenbanken: Verräterische Verwandschaft
Menschen sind selbst über anonymisierte Genomdaten identifizierbar, zeigen Studien. Schon entfernte Verwandte verraten ganze Stammbäume.
BERLIN taz | Was kann schon ein Neffe dritten Grades über einen verraten? Viele Menschen werden den Enkel des Cousins ihres Vaters vermutlich gar nicht erst getroffen haben. Doch genau der könnte durch seine Genetik männliche Verwandte bloßstellen.
Das zumindest geht aus Studien des US-Forschers Yaniv Erlich hervor. In den USA, wo viele Menschen private Ahnenforschung betreiben, können so Menschen identifiziert werden, die beispielsweise für sensible medizinische Studien ihre Gendaten gespendet haben.
Anstoß für Erlichs Experimente war ein Bericht über den Sohn eines anonymen Samenspenders, sagt Erlich. Der Junge hatte 2005 in einer kommerziellen Genom-Datenbank nach Hinweisen auf seine Vorfahren gesucht. Bei der Abfrage bekam er einen Nachnamen zurück, der mit großer Wahrscheinlichkeit seinem leiblichen Vater gehörte. Zugleich hatte er von seiner Mutter das Geburtsdatum und den Geburtsort des Spenders. Innerhalb von Tagen war der Mann identifiziert.
Die Basis solcher Nachforschungen ist die Tatsache, dass in den USA sowohl Nachnamen als auch Y-Chromosome von Vater zu Sohn weitergegeben werden. „Short Tandem Repeats“, im Volksmund der „genetische Fingerabdruck“, des Y-Chromosoms können deshalb Aufschluss über Verwandtschaften geben. Kommerzielle Ahnendatenbanken arbeiten mit genau diesem Prinzip: Dort können Gendaten eingegeben werden und die Namen möglicher Verwandter ermittelt werden. So auch die Datenbank, in der der junge Mann 2005 nach seinem leiblichen Vater suchte.
Nur vier Datenpunkte sind notwendig
„Wir haben uns gefragt: ist das ein Einzelfall oder kann man das systematisch machen?“, sagt Erlich in einem Online-Video, das seine Forschung ausführlich beschreibt. Als Testperson nahmen sie sich den Biochemiker Craig Venter, der seine vollständige DNA-Sequenz 2007 publiziert hatte. Der Vergleich seiner DNA mit öffentlich zugänglichen, kommerziellen Datenbanken zeigte, dass der wahrscheinlichste Name für die gesuchte Person tatsächlich „Venter“ sei, allerdings mit einer Herkunft aus Großbritannien.
Doch unter der Annahme, Venters Geschlecht, Geburtsjahr und Heimatbundesland seien bekannt, konnte er als einzige Person identifiziert werden. Erlichs Fazit: Nur vier Datenpunkte sind notwendig, um das Genom eines Menschen zu entanonymisieren.
Empfohlener externer Inhalt
Dass nur wenige Datenpunkte nötig sind, um Menschen zu identifizieren, wies Ende der 90er Jahre die damalige Doktorandin Latanya Sweeney nach. Aus öffentlich zugänglichen Wählerlisten und veröffentlichten medizinischen Daten identifizierte sie die Daten des Gouverneurs von Massachusetts, William Weld.
Weld hatte zuvor die Veröffentlichung der anonymisierten Daten verteidigt. Dafür brauchte Sweeney drei Daten: das Geburtsdatum von Weld, seine Postleitzahl und sein Geschlecht. Im Jahr 2000 wies sie dann nach, dass 87 Prozent aller US-Amerikaner mit diesen Daten identifiziert werden können.
Geht das auch mit Unbekannten?
Doch die Entanonymisierung Venters reichte nicht. Schließlich war die Zielperson ja bekannt. Würde das Konzept auch mit Unbekannten funktionieren? Um die Frage zu beantworten, suchten sich Erlich und seine Kollegen drei Datenbanken heraus: das 1000-Genome-Projekt, das anonymisierte Gendaten publiziert und zwei kommerzielle Genomdatenbanken. Ein Vergleich der Gendaten ergab die wahrscheinlichsten Nachnahmen in jedem Fall – aber auch die wahrscheinliche Verwandtschaft mit der gesuchten Person.
„Um identifiziert zu werden, reicht es, wenn ein Verwandter seine Gendaten in eine Datenbank eingepflegt hat“, sagt Erlich. Bei einem der gesuchten Personen war das ein Neffe dritten Grades, der Enkel vom Cousin des Vaters. Sein Team konnte etwa 50 Menschen namentlich identifizieren, darunter neben den Gendaten-Spendern des 1000-Genome-Projekts auch deren Verwandte.
„Es reicht, wenn man die Zahl der möglichen Kandidaten auf ein Dutzend reduzieren kann“, sagt Erlich. Dann sei der Aufwand sie anzurufen und direkt zu fragen, ob sie mal an einer Genomstudie teilgenommen hätten, gar nicht groß.
taz lesen kann jede:r
Als Genossenschaft gehören wir unseren Leser:innen. Und unser Journalismus ist nicht nur 100 % konzernfrei, sondern auch kostenfrei zugänglich. Texte, die es nicht allen recht machen und Stimmen, die man woanders nicht hört – immer aus Überzeugung und hier auf taz.de ohne Paywall. Unsere Leser:innen müssen nichts bezahlen, wissen aber, dass guter, kritischer Journalismus nicht aus dem Nichts entsteht. Dafür sind wir sehr dankbar. Damit wir auch morgen noch unseren Journalismus machen können, brauchen wir mehr Unterstützung. Unser nächstes Ziel: 40.000 – und mit Ihrer Beteiligung können wir es schaffen. Setzen Sie ein Zeichen für die taz und für die Zukunft unseres Journalismus. Mit nur 5,- Euro sind Sie dabei! Jetzt unterstützen
meistkommentiert
Sozialabgaben auf Kapitalerträge
Keine Zahlen sind auch keine Lösung
Krieg und Frieden in der Ukraine
Was vom Pazifismus übrig bleibt
Wendung im Fall Gelbhaar/Grüne
Multiples Organversagen
Trumps Amtseinführung
Der Geruch von Machtergreifung
Wende in der Causa Stefan Gelbhaar
#MeToo als Waffe
Aufstieg rechter Unternehmer
Galionsfigur des Tech-Faschismus