Zum Inhalt springen
Benedikt Fecher
09 Mai 2013

Data sharing: Warum es sinnvoll ist, weshalb es trotzdem keiner tut und wozu es führen könnte

Laut einer Studie von Tenopir et al. (2011) bezeichnen 67 Prozent der befragten Wissenschaftler den fehlenden Zugang zu Forschungsdaten als ein Haupthemmnis für wissenschaftlichen Fortschritt. In der gleichen Studie geben nur 36 Prozent der befragten Wissenschaftler an, dass sie ihre Forschungsdaten anderen Forschern zur Verfügung stellen. Man könnte die beiden Zahlen milchmädchenartig zusammenfassen: Obwohl die meisten Forscher die Bedeutung von Data sharing erkennen, teilen nur wenige ihre Daten.

Warum Data sharing sinnvoll ist

Dabei liegen die Vorteile für offen zugängliche Forschungsdaten auf der Hand. Mittels offener Daten könnten andere Wissenschaftler eine Studie mit vergleichsweise geringem Aufwand reproduzieren und die Ergebnisse überprüfen. Hard scientists lägen sich freudetrunken in den Armen, denn offen verfügbare Forschungsdaten könnten eine quasi ad hoc-Analyse von Reliabilität und Objektivität ermöglichen. Zudem könnten andere Wissenschaftler mit dem gleichen Datenset auf neue Erkenntnisse stoßen. Synergien also wohin man auch blickt – Die Quintessenz ist klar: Teilen macht Wissenschaft effizienter.

Hinzu kommt das gleiche Erklärungsmantra, welches auch in der Open Access Bewegung Anwendung findet: Daten, deren Erhebung aus öffentlichen Mitteln finanziert wurden, müssen auch der Öffentlichkeit zur Verfügung stehen.  Wenn ein Wissenschaftler von Steuergeldern finanziert wird, muss er auch seine Daten allen zur Verfügung stellen. Basta.

Warum Wissenschaftler dennoch nicht Daten teilen

Interessanterweise begründen sowohl das Effizienz- als auch das Finanzierungsargument eine individuelle Handlung, nämlich das Teilen von Forschungsdaten, mit einem gesamtgesellschaftlichen Benefit. Dem Forschenden wird gewissermaßen eine generelle Gemeinwohlverpflichtung unterstellt, welche sein Handeln bestimmt. Diese spiegelt aber nicht die Forschungspraxis wieder. In der Praxis erfährt der einzelne Forscher eine ganze Reihe individueller Hemmnisse, wie Studien belegen.

Daten sind noch keine Währung

Haeussler et al. (2011) ahmten in einer spieltheoretischen Studie das klassische Gefangenendilemma für Wissenschaftler nach: Im Experiment solle ein Forscher davon ausgehen, dass er einen Teil eines wissenschaftlichen Problems gelöst habe. Nun müsse er entscheiden, ob er diese Erkenntnis teilt oder nicht. Ein interessantes Ergebnis: Je höher der erwartete Gewinn, desto geringer die Wahrscheinlichkeit, dass er Daten teilt. Übersetzt auf Forschungsdaten bedeutet das: Je höher ein Forscher den Wert seiner Daten einschätzt, desto geringer ist die Wahrscheinlichkeit, dass er sie weitergibt – zumindest bevor er nicht selbst Profit aus den Daten gezogen hat. Es offenbart sich also ein tatsächliches Problem: Der Profit bemisst sich in der Regel an einer Publikation, nicht an deren zu Grunde liegenden Daten. Damit erfahren die Daten erst nach einer narrativen Veredelung ihren wahren Wert. Und dass, obwohl für andere Datenanalysten ein sauberes Datenset vermutlich einen höheren Wert hätte als eine Erzählung. Das Teilen von Daten hängt also von der individuellen Bemessung des eigenen Datenwertes ab; es hat eine sozialökonomische Dimension. Wissenschaftler teilen nicht, weil sie davon kaum was haben (wie Stanley und Stanley schon 1988 feststellten).

Nun könnte man ja argumentieren, dass ein Forscher zumindest nach der eigenen Verwertung, also nach der Publikation, die zu Grunde liegenden Daten öffentlich macht und damit anderen zur Verfügung stellt, schließlich hätte er dann bereits seinen Nutzen gezogen. Aber auch das tritt nicht ein. Tenopir et al. (ibid) verweisen auf den Aufwand, der mit der Datenaufbereitung steht. Dieser bestünde nicht nur aus der Bereinigung des Datensets und dem Verstauen bei einem Repositorium, sondern auch bei der Ausstattung mit Metadaten. Hier offenbart sich ein weiteres Problem.

Fehlende Datenstandards

Es mangelt in den einzelnen Disziplinen an Konventionen, die glasklar formulieren wie Informationen formatiert und welche Metadaten gelistet sein müssen. Dies trägt dazu bei, dass es kaum anwendbaren Softwaretools und Repositorien gibt – ein Problem, dass auch Nelson (2009) aufgreift. Zu viele Daten lagern ihmnach unbenutzt auf CDs und Festplatten. Zwar nützten Disziplinen wie die Physik oder Mathematik schon eifrig Repositorien wie arXiv.org – dies sei allerdings eher die Ausnahme. Warum auch sollte sich ein Wissenschaftler die Mühe machen, seine Daten aufzubereiten und für andere nutzbar zu machen, wenn es in seiner Disziplin keine allgemeinen Standards – also keine Qualitätskriterien, Metadatenstruktur, keinen zentralen Datenbroker gibt? Im schlimmsten Fall wäre das das vergebliche Liebesmüh; eine Sisyphoserviceleistung von der keiner was hat. Es zeigt sich also, dass das Teilen von Daten auch eine infrastrukturelle und Policy Dimension besitzt. Womöglich erfährt das Teilen von Daten erst sein volles Potenzial, wenn sich geeignete Standards durchsetzen (oder durchgesetzt werden?).

Freilich decken diese Argumente noch nicht die Gesamtheit möglicher Hemmnisse des Datenteilens ein. Neben den skizzierten, gibt es beispielsweise noch disziplinäre Eigenheiten, wie etwa Datenschutzbedenken bei sozialwissenschaftlichen Erhebungen (z.B. bei kleinen Samples oder persönlichen Daten). In diesem Fall hat das Teilen von Daten auch eine ethische Dimension. Bei proprietären Daten (z.B. im Zusammenhang mit Drittmittelforschung) stellen sich zudem auch Fragen der Verwertungsrechte. Auch die ceteris paribus Tendenz in meiner Argumentation ist kritikwürdig – schließlich ist ‘der Forscher an sich’ kein rein interessengeleitetes Individuum.

4 Säulen einer Data sharing Kultur

Dennoch glaube ich, dass die Partizipationsbedingungen ein Hauptansatzpunkt für das sind, was man bisweilen ‘Data sharing culture’ nennt. Ich glaube, dass diese nur dann funktionieren, wenn der individuelle Partizipationsaufwand für den Forscher überschaubar gehalten und dessen Ertrag erhöht wird. Wie könnte das funktionieren?

Anreize schaffen: Wenn Wissenschaftler ihre Daten nicht teilen, weil sie sich davon keinen persönlichen Mehrwert erwarten (siehe Haeusslers et. al) beziehungsweise weil ihnen dadurch erst ein möglicher Gewinn entgeht (Stichwort Ideenklau), dann bedarf es einer Gratifikationsstruktur für die Wissenschaftler. Zählen muss nicht mehr (nur) die verschriftlichte Publikation, sondern gleichfalls deren zu Grunde liegenden Daten. Es bedarf Impact metrics für wissenschaftliche Daten (siehe hier).

Datenstandards: Wenn Wissenschaftler ihre Daten nicht teilen, weil es keine disziplinär anerkannte Datenstandards gibt, dann bedarf es eindeutiger Qualitätsstandards und Metadatenstrukturen. Diese müssen klar ersichtlich und möglichst anwendbar sein. (Die Frage ist allerdings, wer diese Standards setzt: Politik? Infrastrukturprovider? Journals?)

Aufwand gering halten: Im Zusammenhang mit den Datenstandards muss der Aufwand für die Datenaufbereitung und -bereitstellung möglichst gering gehalten werden. Der Wissenschaftler soll nicht länger mit der Aufbereitung und dem Verfügenstellen beschäftigt sein, als mit dem Auswerten.

Auffindbarkeit: Das Teilen von Daten ist nicht mit dem Akt des Verfügenstellens beendet. Die ‘offenen’ Daten müssen leicht auffind- (z.B. suchmaschinengestützt) und abrufbar sein. Es bedarf also eines Datenbrokers; einem Mittler und Sortierer wissenschaftlicher Daten. (Die Frage ist: Wer könnte das sein? Forschungsbibliotheken? Suchmaschinen?)

Führt Data Sharing zu Factory Science?

Betrachtet man die obigen Forderungen im Zusammenhang mit Datasharing genauer, so erkennt man auch gewisse Entkopplungstendenzen: Wer sagt denn, dass derjenige, der Daten erhebt auch derjenige sein muss, der sie verwertet? Wenn es genügend Anreize gibt, nur Daten zu erheben und zur Verfügung zu stellen, dann erübrigt sich auch die Kopplung zwischen dem Produzenten und dem Produkt; dann begleitet ein Wissenschaftler nicht mehr seine Arbeit von der Idee bis zur Publikation, sondern nur noch in Abschnitten.

Und dieser Gedanke lässt sich weiterspinnen: Denkbar sind solche Spezialisierungen theoretisch an allen Modulen des Datenkreislaufs: Daten erheben, Daten verwalten und pflegen (z.B. Repositories), Daten auffindbar machen (z.B. Metasuchmaschinen), Daten analysieren und Daten verwerten (Verschriftlichung) – all das sind im Grunde Schritte eines modularisierbaren Prozesses. Factory science kann man es deshalb nennen, weil ähnlich einer industriellen Produktion das Produkt nicht mehr von einem Einzelnen gefertigt wird, sondern von spezialisierten Einheiten. Wissenschaft hätte somit erstaunliche Ähnlichkeiten mit einer Autoproduktion; und bei einem Mercedes ist auf dem Kühler auch nicht genügend Platz für die Namen all derer, die daran mitgeschraubt haben.

Dieser Beitrag ist Teil der wöchentlichen Blogartikel der Doktoranden des Alexander von Humboldt Institutes für Internet und Gesellschaft. Er spiegelt weder notwendigerweise noch ausschließlich die Meinung des Institutes wieder. Für mehr Informationen zu den Inhalten dieser Artikel und den assoziierten Forschungsprojekten kontaktieren sie bitte info@hiig.de.

Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de

Benedikt Fecher, Dr.

Associate Researcher & Former Head of Research Programme: Knowledge & Society

Auf dem Laufenden bleiben

HIIG-Newsletter-Header

Jetzt anmelden und  die neuesten Blogartikel einmal im Monat per Newsletter erhalten.

Aktuelle HIIG-Aktivitäten entdecken

Forschungsthemen im Fokus

Das HIIG beschäftigt sich mit spannenden Themen. Erfahren Sie mehr über unsere interdisziplinäre Pionierarbeit im öffentlichen Diskurs.

Weitere Artikel

Drei Gruppen von Menschen haben Formen über sich, die zwischen ihnen und in Richtung eines Papiers hin und her reisen. Die Seite ist ein einfaches Rechteck mit geraden Linien, die Daten darstellen. Die Formen, die auf die Seite zusteuern, sind unregelmäßig und verlaufen in gewundenen Bändern.

Beschäftigte durch Daten stärken

Arbeitsplätze werden zunehmend datafiziert. Doch wie können Beschäftigte und Gewerkschaften diese Daten nutzen, um ihre Rechte zu vertreten?

Eine stilisierte Illustration mit einem großen „X“ in einer minimalistischen Schriftart, mit einem trockenen Zweig und verblichenen Blättern auf der einen Seite und einem leuchtend blauen Vogel im Flug auf der anderen Seite. Das Bild symbolisiert einen Übergangsprozess, wobei der Vogel das frühere Twitter-Logo darstellt und das „X“ das Rebranding der Plattform und Änderungen im Regelwerk von X symbolisiert.

Zwei Jahre nach der Übernahme: Vier zentrale Änderungen im Regelwerk von X unter Musk

Der Artikel beschreibt vier zentrale Änderungen im Regelwerk der Plattform X seit Musks Übernahme 2022 und deren Einfluss auf die Moderation von Inhalten.

Das Bild zeigt einen Traktor von oben, der ein Feld bestellt. Eine Seite des Feldes ist grün bewachsen, die andere trocken und erdig. Das soll zeigen, dass nachhaltige KI zwar im Kampf gegen den Klimawandel nützlich sein, selbst aber auch hohe Kosten für die Umwelt verursacht.

Zwischen Vision und Realität: Diskurse über nachhaltige KI in Deutschland

Der Artikel untersucht die Rolle von KI im Klimawandel. In Deutschland wächst die Besorgnis über ihre ökologischen Auswirkungen. Kann KI wirklich helfen?