24 November 2015

Big Data: Vom Totengräber zur Methode der Soziologie

Dieser Artikel ist zuerst in der Internet Policy Review erschienen.

Mike Savage war einst der Prophet des Untergangs der Soziologie – heute revidiert er seinen Pessimismus. 2007 schlug sein berühmter Aufsatz „The coming crisis of empirical sociology“ große Wellen. Sein damaliger Befund: Sozialwissenschaftler und Sozialwissenschaftlerinnen geraten gegenüber Naturwissenschaftlern und Naturwissenschaftlerinnen ins Hintertreffen, da sie nicht das Öl des 21. Jahrhunderts nutzen: Big Data.

Aber heute revidiert der Soziologe von der London School of Economics and Political Sciences (LSE) seine damalige pessimistische Sicht der Dinge. Bei einem Vortrag der Reihe „Big Data: big power shifts?“ in Berlin kommt er zum Schluss, dass die heute erfolgreichsten und populärsten Sozialwissenschaftler und Sozialwissenschaftlerinnen vor allem auf Datenanalyse setzen.

Undenkbar wären heute Intellektuelle wie Michel Foucault oder Jürgen Habermas, die Theorien aufstellen oder große Erzählungen verfechten. Der neue Star am Sozialwissenschaftler-Himmel ist hingegen Thomas Piketty mit seinem Buch „Das Kapital im 21. Jahrhundert“.

Piketty als Vorreiter für Big Data

Piketty nutze Daten aus unterschiedlichen Quellen zur Einkommensverteilung und veranschaulicht die komplexen Zusammenhänge in etlichen simplen Datenvisualisierungen. „Piketty verwendet Big Data, aber er nennt es nicht Big Data,“ sagt Savage.

Der französische Wirtschaftswissenschaftler baue seine kritische Argumentation auf beschreibende Datenvisualisierungen auf. So verbindet er einen deskriptiven Ansatz mit der Kritik an den herrschenden Verhältnissen.

Ähnlich gehe auch Robert Putnam in seinem Buch “Bowling Alone” vor: An Hand von Mitgliederzahlen in Vereinen und anderen Statistiken untermauere er seine These zur abnehmenden sozialen Integration. Ein weiteres Beispiel für den sozialwissenschaftliche Arbeit mit Big Data ist das Buch “The Spirit Level” zu sozialer Ungleichheit von Richard Wilkinson und Kate Pickett.

Die fehlenden technischen Kenntnisse können Sozialwissenschaftler und Sozialwissenschaftlerinnen nur mit einer besseren Kontextualisierung wettmachen. „Sozialwissenschaftler können im Gegensatz zu Computerwissenschaftlern an einen Datensatz mit einem größeren historischen und komplexen Wissen herangehen,“ sagt Savage.

In eine ähnliche Kerbe schlägt Isabelle Sonnenfeld vom Google News Lab. Mit Angeboten wie google.com/trends mache der Konzern seine wichtigsten Datensätze teilweise zugänglich: Suchdaten. Entscheidend seien aber nicht die Daten selbst, sondern deren Interpretation. „Wir stellen Google Trends Daten in aggregierter und anonymisierter Form zur Verfügung, aber es sind die Journalisten und Forscher, die sie kontextualisieren,“ sagt Sonnenfeld.

Wieso Big Data noch einen langen Weg vor sich hat

Doch der Ansatz von Google, einen Teil seiner Daten mit der Öffentlichkeit zu teilen, macht umso deutlicher, dass der Zugang zu Big Data weiterhin ungleich verteilt ist. Erfreulicherweise setzten immer mehr große Unternehmen wie zuletzt beispielsweise die Deutsche Bahn aber auch staatliche Institutionen auf Offenheit und machen große Datensätze in maschinenlesebarer Form zugänglich wie die Google Suche nach “gov data” zeigt. Großes Problem bleibt aber, dass diese Daten wenig aussagekräftig seien, weil ihnen in aller Regel die Relevanz und Granularität fehlt.

Die Deutsche Bahn hat beispielsweise bisher gerade einmal sieben Datensätze veröffentlicht – darunter ein Verzeichnis mit der Länge und Höhe der Bahnsteige in Deutschland. Gleichzeitig bleiben spannende und aussagekräftige Daten zu dem Konsum- und Mobilitätsverhalten der Deutschen weiterhin der Allgemeinheit verschlossen. Der Datenjournalist Lorenz Matzat bezeichnet die bisher veröffentlichten Datensätze deshalb als “Schnarchdaten”. Auch die staatliche Verwaltung hält die interessantesten Datensätzen bisher zurück: Die Stadt Köln veröffentlicht beispielsweise Budgetdaten in maschinenlesbarer Form. Da die Budgetposten aber lediglich in groben Kategorien anstatt in nachvollziehbaren Posten veröffentlicht werden, bleiben die Daten aber schwierig zu entschlüsseln.

Während viele Datensätze überhaupt nicht veröffentlicht werden, gibt es auch Probleme mit zugänglichen Datensätzen. In der Regel werden Datensätze in anonymisierter Form veröffentlicht, was für den Schutz der Privatsphäre auch wichtig ist. Dadurch ist es aber nahezu unmöglich, einen anonymisierten Datensatz mit einem anderen Datensatz zu verschränken. Dabei ist diese Verschränkung und Integration verschiedener Daten entscheidend dafür, welche Erkenntnisse man daraus ziehen kann.

Ein Beispiel: Eine Supermarktkette zeichnet über die Kundenkarte die Einkaufsgewohnheiten seiner Kunden auf. Die Kundenkarte erfasst aber nur relativ wenige demografische und persönliche Daten: Name und Adresse beispielsweise. Für sich alleine genommen, ist der Datensatz so wenig interessant. Damit die Konsumdaten besser verstanden werden können, kauft die Supermarktkette zusätzliche Datensätze zur Demografie, Haushaltsgröße, Alter, Hobbies, Interesse usw. von Drittanbietern zu. Nur so lassen sich die Konsumprofile mit Leben füllen und erlauben Rückschlüsse auf die Motive hinter den Kaufentscheidungen. Erst durch die Integration verschiedener Datensätze entfaltet Big Data sein volles Potential.

Der entscheidende Faktor, um unterschiedliche Datensätze mit einander verknüpfen zu können, ist ein sogenannter unique identifier, der dieselbe Person in verschiedenen Datensätzen eindeutig zugeordnet werden kann. In unserem Beispiel wohl Name und Adresse.

Während Unternehmen und Sicherheitsbehörden darauf bauen verschiedene Datensätze miteinander zu integrieren, fehlt Forschern und Forscherinnnen sowie Journalisten und Journalistinnen oft diese Möglichkeit. Zum einen weil teilweise das Geld fehlt, zum anderen weil ethische Bedenken das Untersuchen und Veröffentlichen solcher Daten verbieten.

Große Chance vs. ethische Bedenken

Eine ethisches Dilemma aber gleichzeitig auch eine große Chance für die Sozialwissenschaften ist, dass die Menschen beim Produzieren der Daten unbeobachtet sind und nicht ahnen, dass sie zum Forschungsobjekt werden. So könnten beispielsweise Felder wie Einkommen oder Prostitution erforscht werden, bei denen die Selbstauskunft und -beschreibung etwa in Umfrage oft zu ungenauen Ergebnissen führen.

Natürlich lässt sich auch argumentieren, dass Sozialwissenschaftler und Sozialwissenschaftlerinnen immer schon mit großen Datenmengen – also, Big Data – gearbeitet haben: bei Volkszählungen, Wahlanalysen oder großen Umfragen. Neu an Big Data ist aber, dass viele Daten nun scheinbar nebenbei anfallen und nicht gezielt erhoben, gemessen oder gesammelt werden wie bei einer Volkszählung. So verkauft der Internethändler Amazon in erster Linie Produkte – dabei werden aber auch etliche Daten über die Konsumenten gesammelt. Wie ein Rohstoff werden die Daten also gehoben und aufbewahrt mit dem Glauben, dass es ein Potential gibt, diese früher oder später sinnvoll auswerten zu können.

Sozialwissenschaftlerinnen als eierlegende Wollmilchsau

Nicht nur der Zugang zu großen Datensätzen, sondern auch die Fertigkeiten mit diesen zu arbeiten ist ungleich verteilt. Während bei Firmen wie Google unzählige Programmierer und Datenanalysten an der Interpretation von Daten arbeiten, sind Sozialwissenschaftler und Sozialwissenschaftlerinnen oft auf sich alleine gestellt.

Sollte daher angehende Soziologen auch programmieren lernen? Savage verneint das. „Solche Big Data-Fertigkeiten zu lernen, wäre eine zu große Aufgabe und dabei würde man wohl auch viel an substanziellem theoretischem Wissen verlieren“, sagt Savage. Stattdessen brauche es Allianzen mit Programmierern und Datenanalysten. In solchen gemischten Teams könnte das theoretische, kritische und historische Wissen von Soziologen bei der Deutung der Daten helfen.

Der Vortrag fand am 5. November 2015 in der britischen Botschaft in Berlin statt. Die Veranstaltungsreihe „Big Data: Big power shifts?“ vom Humboldt Institut für Internet und Gesellschaft wird von dem Vodafone Institute for Society and Communications unterstützt. Mehr unter: https://www.hiig.de/big-data-big-power-shifts/

Originalzitate auf Englisch:

„Piketty is using Big Data but he is not calling it Big Data,“ Savage said.

„Social scientists unlike computer scientist can come to a data source with a more complex and historical understanding,“ Savage said.

„We provide aggregated and anonymized Google Trends data but it is the journalists and academics who are contextualizing it,“ Sonnenfeld said.

„If you actually had to learn those Big Data skills that would be a big commitment and you would loose a lot of theoretical and substantive skills too,” said Savage.

Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de