Zweitnutzung von Forschungsdaten : Das Netz der Datenfischer

Mühsam ermittelte Daten werden oftmals nur von einem Forscherteam genutzt. Mit dem Ausbau von Netzwerken für Forschungsdaten soll sich das ändern.

BERLIN taz | Daten sind der Rohstoff moderner Forschung. Sie werden zu Informationen verdichtet, aus denen im Kontext Wissen entsteht, das letztlich Fortschritt generieren soll. So die Theorie. In der Praxis wird derzeit in der deutschen Wissenschaft ein System aufgebaut, das den Durchlauf durch diese Wissenspyramide beschleunigen und effizienter machen soll: die Nationale Forschungsdateninfrastruktur (NFDI). Hinter dem Begriffsungetüm verbirgt sich eine der erfolgreichsten Wissenschaftsinnovationen der letzten Jahre.

Welchen Nutzen eine bessere Nutzung von Daten mittels digitaler Technologien und künstlicher Intelligenz (KI) bewirken kann, zeigt ein Beispiel aus der Medizin, wo eine Open-Science-Plattform bei der Entwicklung des Covid-19-Impfstoffs eingesetzt wurde. „Was sonst rund zehn Jahre benötigt, wurde um den Faktor 10 verkürzt“, berichtete die TU Darmstadt zum Start des von ihr koordinierten NFDI-Konsortiums für die Ingenieurwissenschaften (NFDI4Ing).

Mittlerweile gibt es 19 derartige Verbünde, die in den letzten drei Jahren von Universitäten, Forschungsinstituten, Bibliotheken und Rechenzentren gebildet wurden, jeweils zu einer bestimmten Wissenschaftsdisziplin und mit nationaler Reichweite. Ihre Mission: die in ihrem Fach in der Vergangenheit angefallenen Forschungsdaten aus der Vielzahl von Projekten zu sammeln und besser sichtbar zu machen.

Mit neuen Software-Tools sollen die Daten auch miteinander kombiniert werden („Interoperabilität“) und letztlich über eine Zweitnutzung auch zusätzliche Forschungserkenntnisse bewirken. Das Recyclingprinzip hält Einzug in den Forschungsprozess.

„Das Ziel von NFDI ist, ein nachhaltiges Forschungsdatenmanagement mit einheitlichen Standards zu etablieren und in die Breite der Wissenschaftsdisziplinen zu tragen“, formuliert es der Kopf der Gesamtoperation, um nicht zu sagen: das Gehirn: der Informatik-Professor York Sure-Vetter vom Karlsruher Institut für Technologie (KIT).

Große Resonanz

Im Auftrag der Gemeinsamen Wissenschaftskonferenz von Bund und Ländern (GWK) fungiert Sure-Vetter seit dem Start 2019 als Direktor der Nationalen Forschungsdateninfrastruktur (NFDI), die in Form eines eingetragenen Vereins organisiert ist, mit inzwischen an die 200 Mitgliedern und einer Geschäftsstelle in Karlsruhe mit 13 Mitarbeitern.

„Neu ist der Anspruch, alle Wissenschaftsdisziplinen in Deutschland an einen Tisch zu bringen“, hebt Sure-Vetter hervor. Inzwischen hat die Deutsche Forschungsgemeinschaft (DFG) mit ihrer wissenschaftlichen Expertise 19 Fachkonsortien ausgewählt, die bis zum Jahr 2028 aus dem GWK-Topf eine Förderung von bis zu 90 Millionen Euro jährlich erhalten.

Im Oktober sind zehn neue Konsortien aus den Sozial- und Verhaltenswissenschaften, der Physik, Informatik, System- und Elektrotechnik, Materialwissenschaft und Werkstofftechnik, den Lebenswissenschaften sowie den Geisteswissenschaften dazugekommen. Im Mai 2022 wird über die dritte Tranche entschieden, sodass die Endzahl von 30 NFDI-Netzwerken erreicht sein wird.

Wie in jedem Neuland, dem virtuellen zumal, ist auch auf dem Datenfeld Erschließungsarbeit vonnöten. „Die Mobilisierung von Daten ist schon innerhalb der Wissenschaft kein leichtes Geschäft, wo viele Forschende und Forschungsgruppen verständlicherweise hohen Wert auf die Kontrolle über ihre Daten legen und der Aufwand für deren Erschließung und Publikation noch wenig gewürdigt wird“, haben die Betreiber des am Umweltforschungszentrum Leipzig (UFZ) angesiedelten Artenschutz-Netzwerks „NFDI4BioDiversity“ erfahren müssen.

Das Konsortium mit 49 Partnern aus Wissenschaft, Behörden und Bürgerwissenschaften ist aus dem Vorgängerprojekt German Federation for Biological Data (GFBio) entstanden, das schon länger Daten über die Artenvielfalt der Tiere, Pflanzen und Mikroorganismen sammelt.

Zum Verbund gehört auch die Gesellschaft für Ichthyologie, die als zoologische Fachgesellschaft für Fischkunde die „wissenschaftliche Beschäftigung mit Fischen in allen Bereichen von Forschung, Praxis und Hobby“ fördert. Sie verfügt über rund 100.000 Datensätze aus Literatur, Datenbankabfragen und originären Citizen-Science-Daten aus der Anglerwelt, die zu Verbreitungskarten aller in Deutschland vorkommenden Süßwasser- und Meeresfischarten aggregiert werden.

Citizen-Science-Daten von Angler

„Wir möchten die Kommunikation zwischen fischkundlichen Arbeitsgruppen fördern, suchen den Austausch mit anderen faunistischen Initiativen und möchten uns aktiv in die Initiativen der Biodiversitätsinformatik einbringen“, begründen die Fischfreunde ihr Interesse, vom Anglernetz ins Datennetzwerk zu wechseln.

Das Artenschutz-Konsortium hat Großes vor. „Wir wollen 450 Observatorien in einem Datenverbund zusammenführen und zum Hostpot der Biodiversitätsforschung ausbauen“, kündigte UFZ-Chef Georg Teutsch auf der Jahreskonferenz von „NFDI4BioDiversity“ im September an. Man möchte auch an der europäischen Vision „Destination Earth“ mitwirken, die das Ziel hat, „digitale Zwillinge“ für Klimaschutzmaßnahmen zu entwickeln, um ökologische Folgewirkungen besser abschätzen zu können. „Biodiversitätsdaten werden bei diesem Vorhaben eine zentrale Rolle spielen“, ist sich Teutsch sicher.

Die Daten bleiben dort, wo sie erhoben wurden: an den einzelnen Instituten

An der ZB MED in Köln, der Deutschen Zentralbibliotek Medizin, leitet die Bioinformatikerin Juliane Fluck den Bereich Wissensmanagement und amtiert zugleich als Sprecherin des Konsortiums „NFDI4Health“, das Infrastrukturen für Gesundheitsdaten entwickelt.

„Wir fokussieren auf personenbezogene Gesundheitsdaten und möchten diese in Deutschland auffindbar und besser nutzbar machen“, sagt Fluck und hat damit schon die Hälfte des „FAIR“-Prinzips beschrieben, nach dem alle NFDI-Konsortien arbeiten. Unter der englischen Abkürzung „FAIR“ (Findable, Accessible, Interoperable, Reusable) wird verstanden, Forschungsdaten besser zu finden, zugänglich zu machen, sie miteinander kombinieren und erneut nutzen zu können.

Die Gesundheitsdaten stammen aus zwei großen Quellen: der klinischen Forschung an Patienten und der epidemiologischen Forschung aus Public-Health-Überwachungen, die in den Corona-News täglich über die Fernsehschirme flimmern. Bei personenbezogenen Daten bestehen generell Zugriffbeschränkungen durch den Datenschutz.

„Unser Vorteil ist, dass wir für die klinischen Studien schon eine Patienteneinwilligung haben“, erklärt Fluck. Zwar gibt es schon ein Zentralregister für klinische Forschungsdaten, verbessert werden muss aber durch neue Software die interoperationelle Vergleichbarkeit der Daten, auch mit den Gesundheitsbefunden der Epidemiologen.

Zentrale Datenspeicher sind nicht nötig

Geplant ist aber „keine zentrale Datenbevorratung“, so die NFDI4Health-Sprecherin, sondern die Daten bleiben dort, wo sie erhoben wurden: „an verschiedenen Instituten, die auch die entsprechenden Sicherheitsmaßnahmen dort etabliert haben“, so Informatikerin Fluck. „Aber wir wollen eine verteilte Datenanalyse zulassen, bei der sozusagen die Software zu den Daten geht, unter datenschutzgerechten Bedingungen dort die Analysen macht und dann weiterwandert“. So funktioniert KI in der Medizin-Translation zwischen Diagnose und Therapie.

In der Karlsruher Vereinszentrale, dem NFDI-Direktorium, findet vor allem organisatorische Vernetzung statt. „Die einzelnen Communitys sind auf einem sehr unterschiedlichen Entwicklungsstand“, hat Sure-Vetter festgestellt. Um dies auszugleichen, wurden im Oktober vier erste „Sektionen“ im Verein eingerichtet, die Basiswissen vermitteln und Kooperationen antriggern wollen. Dazu zählen die Themen Metadaten und Datenherkunft, Infrastrukturen und Software-Komponenten, die Ausbildung von Datenkompetenz schon im Studium sowie ethische, soziale und rechtliche Aspekte des Forschungsdatenmanagements.

Wenn die begonnene Vernetzung und Synergien Früchte tragen, so Sure-Vetters Blick in die Zukunft, wird der Umgang mit Daten nach den FAIR-Prinzipien dann „nahtlos in die Forschungsprozesse eingebunden sein“. Auf diese Weise, so die Erwartung des NFDI-Direktors, „werden zunehmend schneller Forschungsergebnisse erzielt“.