# taz.de -- Anonymität bei Gendatenbanken: Verräterische Verwandschaft
> Menschen sind selbst über anonymisierte Genomdaten identifizierbar,
> zeigen Studien. Schon entfernte Verwandte verraten ganze Stammbäume.
IMG Bild: Kann man Genomdaten systematisch entanonymisieren?
BERLIN taz | Was kann schon ein Neffe dritten Grades über einen verraten?
Viele Menschen werden den Enkel des Cousins ihres Vaters vermutlich gar
nicht erst getroffen haben. Doch genau der könnte durch seine Genetik
männliche Verwandte bloßstellen.
Das zumindest geht [1][aus] [2][Studien] des US-Forschers Yaniv Erlich
hervor. In den USA, wo viele Menschen private Ahnenforschung betreiben,
können so Menschen identifiziert werden, die beispielsweise für sensible
medizinische Studien ihre Gendaten gespendet haben.
Anstoß für Erlichs Experimente war [3][ein Bericht über den Sohn] eines
anonymen Samenspenders, sagt Erlich. Der Junge hatte 2005 in einer
kommerziellen Genom-Datenbank nach Hinweisen auf seine Vorfahren gesucht.
Bei der Abfrage bekam er einen Nachnamen zurück, der mit großer
Wahrscheinlichkeit seinem leiblichen Vater gehörte. Zugleich hatte er von
seiner Mutter das Geburtsdatum und den Geburtsort des Spenders. Innerhalb
von Tagen war der Mann identifiziert.
Die Basis solcher Nachforschungen ist die Tatsache, dass in den USA sowohl
Nachnamen als auch Y-Chromosome von Vater zu Sohn weitergegeben werden.
„Short Tandem Repeats“, im Volksmund der „genetische Fingerabdruck“, des
Y-Chromosoms können deshalb Aufschluss über Verwandtschaften geben.
Kommerzielle Ahnendatenbanken arbeiten mit genau diesem Prinzip: Dort
können Gendaten eingegeben werden und die Namen möglicher Verwandter
ermittelt werden. So auch die Datenbank, in der der junge Mann 2005 nach
seinem leiblichen Vater suchte.
## Nur vier Datenpunkte sind notwendig
„Wir haben uns gefragt: ist das ein Einzelfall oder kann man das
systematisch machen?“, sagt Erlich [4][in einem Online-Video], das seine
Forschung ausführlich beschreibt. Als Testperson nahmen sie sich den
Biochemiker Craig Venter, der seine [5][vollständige DNA-Sequenz 2007
publiziert hatte]. Der [6][Vergleich seiner DNA] mit öffentlich
zugänglichen, kommerziellen Datenbanken zeigte, dass der wahrscheinlichste
Name für die gesuchte Person tatsächlich „Venter“ sei, allerdings mit einer
Herkunft aus Großbritannien.
Doch unter der Annahme, Venters Geschlecht, Geburtsjahr und
Heimatbundesland seien bekannt, konnte er als einzige Person identifiziert
werden. Erlichs Fazit: Nur vier Datenpunkte sind notwendig, um das Genom
eines Menschen zu entanonymisieren.
Dass nur wenige Datenpunkte nötig sind, um Menschen zu identifizieren, wies
Ende der 90er Jahre [7][die damalige Doktorandin Latanya Sweeney] nach. Aus
öffentlich zugänglichen Wählerlisten und veröffentlichten medizinischen
Daten identifizierte sie die Daten des Gouverneurs von Massachusetts,
William Weld.
Weld hatte zuvor die Veröffentlichung der anonymisierten Daten verteidigt.
Dafür brauchte Sweeney drei Daten: das Geburtsdatum von Weld, seine
Postleitzahl und sein Geschlecht. Im Jahr 2000 wies sie dann nach, dass 87
Prozent aller US-Amerikaner mit diesen Daten identifiziert werden können.
## Geht das auch mit Unbekannten?
Doch die Entanonymisierung Venters reichte nicht. Schließlich war die
Zielperson ja bekannt. Würde das Konzept auch mit Unbekannten
funktionieren? Um die Frage zu beantworten, suchten sich Erlich und seine
Kollegen drei Datenbanken heraus: [8][das 1000-Genome-Projekt], das
anonymisierte Gendaten publiziert und zwei kommerzielle Genomdatenbanken.
Ein Vergleich der Gendaten ergab die wahrscheinlichsten Nachnahmen in jedem
Fall – aber auch die wahrscheinliche Verwandtschaft mit der gesuchten
Person.
„Um identifiziert zu werden, reicht es, wenn ein Verwandter seine Gendaten
in eine Datenbank eingepflegt hat“, sagt Erlich. Bei einem der gesuchten
Personen war das ein Neffe dritten Grades, der Enkel vom Cousin des Vaters.
Sein Team konnte etwa 50 Menschen namentlich identifizieren, darunter neben
den Gendaten-Spendern des 1000-Genome-Projekts auch deren Verwandte.
„Es reicht, wenn man die Zahl der möglichen Kandidaten auf ein Dutzend
reduzieren kann“, sagt Erlich. Dann sei der Aufwand sie anzurufen und
direkt zu fragen, ob sie mal an einer Genomstudie teilgenommen hätten, gar
nicht groß.
28 Nov 2013
## LINKS
DIR [1] http://www.ncbi.nlm.nih.gov/pubmed/23329047
DIR [2] http://www.ncbi.nlm.nih.gov/pubmed/22522390
DIR [3] http://www.washingtonpost.com/wp-dyn/content/article/2005/11/12/AR2005111200958.html
DIR [4] http://www.youtube.com/watch?v=DNgwy1vNn2c
DIR [5] http://www.plosbiology.org/article/info:doi/10.1371/journal.pbio.0050254
DIR [6] http://bit.ly/craig_venter_haplotype_updated
DIR [7] http://latanyasweeney.org/work/identifiability.html
DIR [8] http://www.1000genomes.org/
## AUTOREN
DIR Lalon Sander
## TAGS
DIR Big Data
DIR Genetik
DIR Verwandtschaft
DIR Anonymität
DIR Gentest
DIR Big Data
DIR USA
DIR NSA
DIR Big Data
DIR Datenschutz
## ARTIKEL ZUM THEMA
DIR Genetiker über Herkunftsnachweise: „Eindeutige Zuordnung nicht möglich“
Gentests, um etwas über die Vorfahren und die eigene Herkunft zu erfahren,
sind derzeit in Mode. Alles Unsinn, sagt der Genetiker Mark Stoneking aus
Leipzig.
DIR Nutzung von Forschungsdaten: Big Data für die Forscher
Forscher sollen besseren Zugang zu Datensammlungen erhalten. In einer
Initiative wollen Bund und Länder die Infrastruktur dafür aufbauen.
DIR US-Mörder mit DNA-Datenbanken gefasst: Der Stammbaum des Sadisten
Jahrzehnte nach seinen Taten ist ein Serienmörder mit kommerziellen
DNA-Datenbanken überführt worden. Der Erfolg zeigt die Macht von „Big
Data“.
DIR Forscher bauen Chromosom nach: Die Erbgut-Designer
Forscher der John Hopkins University in Baltimore haben ein Chromosom der
Bäckerhefe nachgebaut. Mit Hilfe der Methode könnten bald künstliche
Lebewesen entstehen.
DIR Hype um Big Data: Big Brothers große Schwester
Die Stasi wollte noch jedes Individuum „kennenlernen“. Heutige
Geheimdienste machen sich diese Mühe nicht mehr: Sie glauben „Big Data“ sei
die Lösung.
DIR Hype um Big Data: Metafehler Mensch
Prism! Big Data! Politik, Geheimdienste und Wirtschaft spähen unsere Daten
aus. Das unberechenbare Verhalten des Menschen steht dem entgegen.
DIR Debatte Big Data und Datenschutz: Das Unbehagen im Datenhaufen
Große Datensätze sind toll für die Forschung, doch der Rückschluss auf
Personen wird immer einfacher. Unser Umgang mit persönlichen Daten muss
sich ändern.
DIR Umwelt und Gene: Wie wir werden wie wir sind
Die Eigenschaften des Nachwuchses werden nicht nur von der Sequenz der Gene
bestimmt. Auch Umweltfaktoren verändern und vererben Aktivitätsmuster.
DIR Neuer Erbguttest beim Embryo: Donnerschlag mit ethischen Problemen
Die DNA vor der Geburt entziffert: Genomforscher haben einen Weg gefunden,
die komplette DNA eines ungeborenen Kindes ohne Eingriff in den Mutterleib
zu entschlüsseln.