27 Januar 2014

Ein Einblick in ein laufendes Forschungsprojekt: Die Systematic Review und das Teilen von Forschungsdaten

Mein Kollege Sascha Friesike und ich haben in den letzten zwei Monaten an einer systematischen Übersichtsarbeit (Systematic Review) zu ‚Datasharing in der Forschung’ gearbeitet. Das Ganze ist Teil meiner Dissertation. Ganz Open Science, möchte ich in diesem Blogeintrag einen Einblick in unsere Arbeit gewähren, also wie und weshalb wir die Systematic Review verwendet haben. Damit das nicht so langweilig wird, werde ich am Ende noch auf ein Ergebnis der Review eingehen, dass ich spannend finde: Datasharing-Angst.

Die Systematic Review in empirischen Untersuchungen

Systematic Reviews haben sich besonders im Rahmen der evidenzbasierten Medizin bewährt. Dort wird die Methode verwendet, um Forschungsergebnisse zu einem bestimmten Thema zu sammeln und zu strukturieren. Dabei geht man in etwa so vor: Man definiert Auswahlkriterien, grast dann sämtliche Datenbanken nach passenden Studien ab und analysiert diese wiederum. Man betrachtet Forschungsliteratur sozusagen als Rohdaten. Eine wesentlich bessere Beschreibung der Systematic Review findet sich hier.

Meiner Meinung nach ist eine Systematic Review auch ein eleganter Einstieg in eine empirische Arbeit. Man kann sie beispielsweise anwenden, um Studien nachvollziehbar auszuwählen und die Ergebnisse für weitere Untersuchungen vorzubereiten. In Kombination mit einer Netzwerkanalyse der Bibliografie kann man Denkschulen identifizieren, mit einer Inhaltsanalyse die Textinhalte strukturieren… Kurzum: Ich finde, die Systematic Review recht nützlich. Mittlerweile wird sie quer durch alle wissenschaftlichen Disziplinen angewendet, auch in der Innovationsforschung.

So haben wir die Systematic Review verwendet

Wir haben eine Systematic Review verwendet, um Faktoren zu identifizieren, die das Teilen von Forschungsdaten beeinflussen. Datasharing in der Wissenschaft wird ein enormer Nutzen zugeschrieben, vor allem was die Überprüfung von Ergebnisse und die Anwendung alter Daten für neue Fragen betrifft. Nur machen es nicht so viele Wissenschaftler.

Das Thema ist entsprechend en vogue. Juristen reden über Eigentum von Forschungsdaten, Programmierer über Ontologien, Datenbankexperten über Metadatenstrukturen. Die Literatur zum Thema ist also recht bunt gemischt. Unter den 101 Artikeln in unserem Sample, fanden sich beispielsweise 8 aus der Ethnologie und 9 aus den Neurowissenschaften.

Wir mussten die Systematic Review also etwas abändern, um den verschiedenen Arten von Daten gerecht zu werden. Für unsere Zwecke (Welche Faktoren beeinflussen das Teilen von Forschungsdaten?) bot sich eine induktive Inhaltsanalyse an. Induktiv einfach deshalb, weil wir ein eigenes Kategoriensystem erstellen wollten. Gemäß der traditionellen systematischen Übersichtsarbeit (so heißt die tatsächlich auf Deutsch), haben wir noch eine Meta-Analyse durchgeführt. Im Folgenden beziehe ich mich aber auf die Inhaltsanalyse.

Codiert haben wir letztlich 101 Artikel aus 7 Literaturdatenbanken (siehe Tabelle 1), die zwischen dem 1. Dezember 2001 und dem 1. Dezember 2013 veröffentlicht wurden.

Datenbank	Verwendete Abhandlungen
Ebsco	Butler 2007; Chokshi et al. 2006; De Wolf et al. 2005 (auch JSTOR, ProQuest); De Wolf et al. 2006 (auch ProQuest); Feldman et al. 2012; Harding et al. 2011; Nelson 2009; Perrino et al. 2013; Pitt & Tang 2012; Sarathy & Muralidhar 2006; Sieber 1988; Stanley & Stanley 1988; Teeters et al. 2008; Xiaoqian et al. 2013
JSTOR	Axelsson & Schroeder 2009 (auch ProQuest); Cooper 2007; Costello 2009; Duke 2006; Fulk et al. 2004; Guralnick & Constable 2010; Linkert et al. 2010; Ludman et al. 2010; Parr 2007; Resnik 2010; Rodgers & Nolte 2006; Sheather 2009; Whitlock et al. 2010; Zimmerman 2008
PLOS	Alsheikh-Ali et al. 2011; Chandramohan et al. 2008; Constable et al. 2010; Drew et al. 2013; Haendel et al. 2012; Masum et al. 2013; Milia et al. 2012; Molloy 2011; Noor et al. 2006; Piwowar 2011; Piwowar et al. 2007; Piwowar et al. 2008; Savage & Vickers 2009; Tenopir et al. 2011; Wallis et al. 2013; Wicherts et al. 2011
ProQuest	Acord & Harley 2013; Belmonte et al. 2007; Edwards et al. 2011; Elman et al. 2010; Foley et al. 2006; Kim & Shanton 2013; Nicholson & Bennett 2011; Piatek 2011; Rai & Eisenberg 2006; Reidpath & Allotey 2001; Tucker 2009
ScienceDirect	Anagnostou 2013; Brakewood & Poldrack 2013; Enke et al. 2011; Fisher & Fortman 2010; Karami et al. 2012; Par & Cummings 2008; Piwowar & Chapman 2009; Rohlfing & Poline 2011; Sayogo & Pardo 2012; Van Horn & Gazzaniga 2012; Wicherts & Bakker 2011
Springer	Albert 2012; Bezuidenhout 2013; Breeze et al. 2012; Fernandez et al. 2012; Freymann et al. 2012; Gardner et al. 2003; Jarnevich et al. 2007; Jones et al. 2012; Pearce & Smith 2011; Sansone & Rocca-Serra 2012; Teeters et al. 2008
Wiley	Borgman 2012; Daiglesh et al. 2012; Delson et al. 2007; Eschenfelder & Johnson 2008; Haddow 2010; Hayman et al. 2011; Huang et al. 2012; Kowalcyk & Shankar 2013; Levenson 2010; NIH 2002; NIH 2003; Ostelle & Beckmann 2009; Overbey 1999; Piwowar 2010; Reidpath & Allotey 2001; Rushby 2013; Samson 2008; Weber 2013;
Misc.	Cragen et al. 2010

Die Ergebnisse

Nachdem wir die Faktoren codiert und zugeordnet hatten, erhielten wir ein Kategorienbaum mit 6 Hauptkategorien. Zur Veranschaulichung habe ich jede Überkategorie mit typischen Hindernissen versehen.

Normen: Faktoren in Bezug auf rechtliche Normen.
Hindernisse: Unklare Nutzungsrechte, Unklare Urheberrechtsfragen, Verletzen der Persönlichkeitsrechte der Forschungssubjekte
Individuelle Ressourcen: Faktoren in Bezug auf den Kapitalaufwand des Forschenden.
Hindernisse: Hoher Aufwand bei der Datenkuration, Hoher Lernaufwand
Disziplinäre Praxis: Faktoren in Bezug auf die wissenschaftliche Disziplin des Forschers.
Hindernisse: Fehlende Datenstandards, fehlende allgemeine Datasharingkultur
Forschungsorganisationen: Faktoren im Bezug die eigene Organisation, Drittmittelgeber, Forschungsgemeinschaften und Publikationsorganisationen.
Hindernisse: Lückenhafte Datasharing-Policy bei Journals
Daten-Infrastruktur: Faktoren in Bezug auf die für den Datenaustausch notwendige technische Infrastruktur.
Hindernisse: Fehlende Standards für Meta-Daten, Usability der Repositorien, Datensicherheitsbedenken
Ergebnis: Faktoren in Bezug auf die Konsequenzen des Teilens für den Forschenden selbst.
Hindernisse: Wettbewerbsnachteile im Vgl. zu anderen Wissenschaftlern, Kritik oder Falsifikation, Mangelhafte Dateninterpretation Dritter

Eine qualitative Inhaltsanalyse lässt keine Aussagen über die Gewichtung der einzelnen Faktoren im Kategoriensystem zu. Auch muss das Kategoriensystem noch überprüft werden. Daran arbeiten wir gerade. Dennoch finde ich es spannend, dass die Kategorien bereits ein recht komplexes Interaktionssystem andeuten. Mit Hilfe des Kategoriensystems kann man schon recht gut zuordnen, wo es noch zwickt.

Datasharing-Angst und Grenzen der Offenheit

Eine Stelle, an der es noch zwickt, ist der Forscher selbst. Zwar ist das Teilen von Primärdaten gut für alle, weil dann mehr und besser geforscht werden kann. Für den Einzelnen, liegen die Vorteile aber nicht unbedingt auf der Hand. Die Kategorie Ergebnisse legt sogar nahe, dass das Teilen von Forschungsdaten eher mit negativen Konsequenzen in Verbindung gebracht wird als mit positiven. Ich habe diesen ganzen Strauß an Bedenken plakativ unter Datasharing-Angst zusammengefasst.

Unter diesen Befürchtungen finden sich zum Beispiel Wettbewerbsnachteile gegenüber anderen Wissenschaftlern, missbräuchliche kommerzielle Verwendung der eigenen Daten, Kritik der eigenen Dateninterpretation oder fehlerhafte Interpretation der Daten durch Dritte.

Es ist nicht verwunderlich, dass ein (freiwilliges) Austauschsystem, in dem die vermuteten negativen Konsequenzen des Tausches, die individuellen Vorteile überwiegen, nicht funktioniert wie es sollte. Es bedarf sicherlich noch weiterer Forschung, inwiefern diese Befürchtungen gerechtfertigt sind oder nicht.
Dennoch lassen sich fast alle dieser Befürchtungen auf einen Kontrollverlust seitens des Wissenschaftlers zurückführen, also die Angst davor was mit meinen Daten passiert, wenn alle darauf Zugriff haben.

Hier stellen sich letztlich Fragen der Grenzen der Offenheit, beispielsweise,

ob ein Embargo auf Forschungsdaten den befürchtenden Wettbewerbsnachteil beseitigen würde?
Oder ob eine Absichtserklärung der Datennutzer die Angst vor kommerziellen Missbrauch nehmen würde?
Ob eine dezentrale Speicherung (z.B. auf dem eigenen Server), die Bedenken über die Datenbanksicherheit beseitigen würde?
Und schließlich inwiefern Forscher selbst darüber entscheiden, ob sie ihre Daten teilen wollen oder nicht?

Ich habe auf diese Fragen selbst noch keine intelligenten Antworten gefunden. Auch ist der Aspekt der Datasharing-Angst allenfalls als Hypothese zu verstehen. Für mich gilt es daher in weiteren Untersuchungen festzustellen, ob diese Befürchtungen tatsächlich bestehen. Und falls sie das tun, wie man sie los wird.

Einschränkungen

Es muss einschränkend festgehalten werden, dass der Fokus unserer Untersuchung (wissenschaftliche Forschungsarbeiten) sowie die methodische Umsetzung (mit Schwerpunkt auf den Wissenschaftler) nur einen eingeschränkten Blick auf das komplexe Thema bietet. Das von uns erarbeitete Kategoriensystem bedarf empirischer Tests.

Dieser Beitrag ist Teil der regelmäßig erscheinenden Blogartikel der Doktoranden des Alexander von Humboldt Institutes für Internet und Gesellschaft. Er spiegelt weder notwendigerweise noch ausschließlich die Meinung des Institutes wieder. Für mehr Informationen zu den Inhalten dieser Artikel und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de.

Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de