Zum Inhalt springen
BigData_6x9_News
24 November 2015

Big Data: Vom Totengräber zur Methode der Soziologie

Dieser Artikel ist zuerst in der Internet Policy Review erschienen.

Mike Savage war einst der Prophet des Untergangs der Soziologie – heute revidiert er seinen Pessimismus. 2007 schlug sein berühmter Aufsatz „The coming crisis of empirical sociology“ große Wellen. Sein damaliger Befund: Sozialwissenschaftler und Sozialwissenschaftlerinnen geraten gegenüber Naturwissenschaftlern und Naturwissenschaftlerinnen ins Hintertreffen, da sie nicht das Öl des 21. Jahrhunderts nutzen: Big Data.

Aber heute revidiert der Soziologe von der London School of Economics and Political Sciences (LSE) seine damalige pessimistische Sicht der Dinge. Bei einem Vortrag der Reihe „Big Data: big power shifts?“ in Berlin kommt er zum Schluss, dass die heute erfolgreichsten und populärsten Sozialwissenschaftler und Sozialwissenschaftlerinnen vor allem auf Datenanalyse setzen.

Undenkbar wären heute Intellektuelle wie Michel Foucault oder Jürgen Habermas, die Theorien aufstellen oder große Erzählungen verfechten. Der neue Star am Sozialwissenschaftler-Himmel ist hingegen Thomas Piketty mit seinem Buch „Das Kapital im 21. Jahrhundert“.

Piketty als Vorreiter für Big Data

Piketty nutze Daten aus unterschiedlichen Quellen zur Einkommensverteilung und veranschaulicht die komplexen Zusammenhänge in etlichen simplen Datenvisualisierungen. „Piketty verwendet Big Data, aber er nennt es nicht Big Data,“ sagt Savage.

Der französische Wirtschaftswissenschaftler baue seine kritische Argumentation auf beschreibende Datenvisualisierungen auf. So verbindet er einen deskriptiven Ansatz mit der Kritik an den herrschenden Verhältnissen.

Ähnlich gehe auch Robert Putnam in seinem Buch “Bowling Alone” vor: An Hand von Mitgliederzahlen in Vereinen und anderen Statistiken untermauere er seine These zur abnehmenden sozialen Integration. Ein weiteres Beispiel für den sozialwissenschaftliche Arbeit mit Big Data ist das Buch “The Spirit Level” zu sozialer Ungleichheit von Richard Wilkinson und Kate Pickett.

Die fehlenden technischen Kenntnisse können Sozialwissenschaftler und Sozialwissenschaftlerinnen nur mit einer besseren Kontextualisierung wettmachen. „Sozialwissenschaftler können im Gegensatz zu Computerwissenschaftlern an einen Datensatz mit einem größeren historischen und komplexen Wissen herangehen,“ sagt Savage.

In eine ähnliche Kerbe schlägt Isabelle Sonnenfeld vom Google News Lab. Mit Angeboten wie google.com/trends mache der Konzern seine wichtigsten Datensätze teilweise zugänglich: Suchdaten. Entscheidend seien aber nicht die Daten selbst, sondern deren Interpretation. „Wir stellen Google Trends Daten in aggregierter und anonymisierter Form zur Verfügung, aber es sind die Journalisten und Forscher, die sie kontextualisieren,“ sagt Sonnenfeld.


Wieso Big Data noch einen langen Weg vor sich hat

Doch der Ansatz von Google, einen Teil seiner Daten mit der Öffentlichkeit zu teilen, macht umso deutlicher, dass der Zugang zu Big Data weiterhin ungleich verteilt ist. Erfreulicherweise setzten immer mehr große Unternehmen wie zuletzt beispielsweise die Deutsche Bahn aber auch staatliche Institutionen auf Offenheit und machen große Datensätze in maschinenlesebarer Form zugänglich wie die Google Suche nach “gov data” zeigt. Großes Problem bleibt aber, dass diese Daten wenig aussagekräftig seien, weil ihnen in aller Regel die Relevanz und Granularität fehlt.

Die Deutsche Bahn hat beispielsweise bisher gerade einmal sieben Datensätze veröffentlicht – darunter ein Verzeichnis mit der Länge und Höhe der Bahnsteige in Deutschland. Gleichzeitig bleiben spannende und aussagekräftige Daten zu dem Konsum- und Mobilitätsverhalten der Deutschen weiterhin der Allgemeinheit verschlossen. Der Datenjournalist Lorenz Matzat bezeichnet die bisher veröffentlichten Datensätze deshalb als “Schnarchdaten”. Auch die staatliche Verwaltung hält die interessantesten Datensätzen bisher zurück: Die Stadt Köln veröffentlicht beispielsweise Budgetdaten in maschinenlesbarer Form. Da die Budgetposten aber lediglich in groben Kategorien anstatt in nachvollziehbaren Posten veröffentlicht werden, bleiben die Daten aber schwierig zu entschlüsseln.

Während viele Datensätze überhaupt nicht veröffentlicht werden, gibt es auch Probleme mit zugänglichen Datensätzen. In der Regel werden Datensätze in anonymisierter Form veröffentlicht, was für den Schutz der Privatsphäre auch wichtig ist. Dadurch ist es aber nahezu unmöglich, einen anonymisierten Datensatz mit einem anderen Datensatz zu verschränken. Dabei ist diese Verschränkung und Integration verschiedener Daten entscheidend dafür, welche Erkenntnisse man daraus ziehen kann.

Ein Beispiel: Eine Supermarktkette zeichnet über die Kundenkarte die Einkaufsgewohnheiten seiner Kunden auf. Die Kundenkarte erfasst aber nur relativ wenige demografische und persönliche Daten: Name und Adresse beispielsweise. Für sich alleine genommen, ist der Datensatz so wenig interessant. Damit die Konsumdaten besser verstanden werden können, kauft die Supermarktkette zusätzliche Datensätze zur Demografie, Haushaltsgröße, Alter, Hobbies, Interesse usw. von Drittanbietern zu. Nur so lassen sich die Konsumprofile mit Leben füllen und erlauben Rückschlüsse auf die Motive hinter den Kaufentscheidungen. Erst durch die Integration verschiedener Datensätze entfaltet Big Data sein volles Potential.

Der entscheidende Faktor, um unterschiedliche Datensätze mit einander verknüpfen zu können, ist ein sogenannter unique identifier, der dieselbe Person in verschiedenen Datensätzen eindeutig zugeordnet werden kann. In unserem Beispiel wohl Name und Adresse.

Während Unternehmen und Sicherheitsbehörden darauf bauen verschiedene Datensätze miteinander zu integrieren, fehlt Forschern und Forscherinnnen sowie Journalisten und Journalistinnen oft diese Möglichkeit. Zum einen weil teilweise das Geld fehlt, zum anderen weil ethische Bedenken das Untersuchen und Veröffentlichen solcher Daten verbieten.

 Große Chance vs. ethische Bedenken

Eine ethisches Dilemma aber gleichzeitig auch eine große Chance für die Sozialwissenschaften ist, dass die Menschen beim Produzieren der Daten unbeobachtet sind und nicht ahnen, dass sie zum Forschungsobjekt werden. So könnten beispielsweise Felder wie Einkommen oder Prostitution erforscht werden, bei denen die Selbstauskunft und -beschreibung etwa in Umfrage oft zu ungenauen Ergebnissen führen.

Natürlich lässt sich auch argumentieren, dass Sozialwissenschaftler und Sozialwissenschaftlerinnen immer schon mit großen Datenmengen – also, Big Data – gearbeitet haben: bei Volkszählungen, Wahlanalysen oder großen Umfragen. Neu an Big Data ist aber, dass viele Daten nun scheinbar nebenbei anfallen und nicht gezielt erhoben, gemessen oder gesammelt werden wie bei einer Volkszählung. So verkauft der Internethändler Amazon in erster Linie Produkte – dabei werden aber auch etliche Daten über die Konsumenten gesammelt. Wie ein Rohstoff werden die Daten also gehoben und aufbewahrt mit dem Glauben, dass es ein Potential gibt, diese früher oder später sinnvoll auswerten zu können.

Sozialwissenschaftlerinnen als eierlegende Wollmilchsau

Nicht nur der Zugang zu großen Datensätzen, sondern auch die Fertigkeiten mit diesen zu arbeiten ist ungleich verteilt. Während bei Firmen wie Google unzählige Programmierer und Datenanalysten an der Interpretation von Daten arbeiten, sind Sozialwissenschaftler und Sozialwissenschaftlerinnen oft auf sich alleine gestellt.

Sollte daher angehende Soziologen auch programmieren lernen? Savage verneint das. „Solche Big Data-Fertigkeiten zu lernen, wäre eine zu große Aufgabe und dabei würde man wohl auch viel an substanziellem theoretischem Wissen verlieren“, sagt Savage. Stattdessen brauche es Allianzen mit Programmierern und Datenanalysten. In solchen gemischten Teams könnte das theoretische, kritische und historische Wissen von Soziologen bei der Deutung der Daten helfen.


Der Vortrag fand am 5. November 2015 in der britischen Botschaft in Berlin statt. Die Veranstaltungsreihe „Big Data: Big power shifts?“ vom Humboldt Institut für Internet und Gesellschaft wird von dem Vodafone Institute for Society and Communications unterstützt. Mehr unter: https://www.hiig.de/big-data-big-power-shifts/

Originalzitate auf Englisch:

„Piketty is using Big Data but he is not calling it Big Data,“ Savage said.

„Social scientists unlike computer scientist can come to a data source with a more complex and historical understanding,“ Savage said.

„We provide aggregated and anonymized Google Trends data but it is the journalists and academics who are contextualizing it,“ Sonnenfeld said.

„If you actually had to learn those Big Data skills that would be a big commitment and you would loose a lot of theoretical and substantive skills too,” said Savage.

Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de

Dominik Wurnig

Auf dem Laufenden bleiben

HIIG-Newsletter-Header

Jetzt anmelden und  die neuesten Blogartikel einmal im Monat per Newsletter erhalten.

Forschungsthema im Fokus Entdecken

Du siehst eine Bibliothek mit einer runden Treppe die sich in die höhe schraubt. Sie steht sinnbildlich für die sich stetig weiterentwickelnden digitalen Infrastrukturen unserer Wissensgesellschaft. You see a library with a round staircase that spirals upwards. It symbolises the constantly evolving digital infrastructures of our knowledge society.

Offene Hochschulbildung

Wir erforschen den Einsatz von offener Hochschulbildung, um Wissen für alle in unserer zu fördern, zu teilen und zu verbreiten.

Weitere Artikel

Drei Gruppen von Menschen haben Formen über sich, die zwischen ihnen und in Richtung eines Papiers hin und her reisen. Die Seite ist ein einfaches Rechteck mit geraden Linien, die Daten darstellen. Die Formen, die auf die Seite zusteuern, sind unregelmäßig und verlaufen in gewundenen Bändern.

Beschäftigte durch Daten stärken

Arbeitsplätze werden zunehmend datafiziert. Doch wie können Beschäftigte und Gewerkschaften diese Daten nutzen, um ihre Rechte zu vertreten?

Eine stilisierte Illustration mit einem großen „X“ in einer minimalistischen Schriftart, mit einem trockenen Zweig und verblichenen Blättern auf der einen Seite und einem leuchtend blauen Vogel im Flug auf der anderen Seite. Das Bild symbolisiert einen Übergangsprozess, wobei der Vogel das frühere Twitter-Logo darstellt und das „X“ das Rebranding der Plattform und Änderungen im Regelwerk von X symbolisiert.

Zwei Jahre nach der Übernahme: Vier zentrale Änderungen im Regelwerk von X unter Musk

Der Artikel beschreibt vier zentrale Änderungen im Regelwerk der Plattform X seit Musks Übernahme 2022 und deren Einfluss auf die Moderation von Inhalten.

Das Bild zeigt einen Traktor von oben, der ein Feld bestellt. Eine Seite des Feldes ist grün bewachsen, die andere trocken und erdig. Das soll zeigen, dass nachhaltige KI zwar im Kampf gegen den Klimawandel nützlich sein, selbst aber auch hohe Kosten für die Umwelt verursacht.

Zwischen Vision und Realität: Diskurse über nachhaltige KI in Deutschland

Der Artikel untersucht die Rolle von KI im Klimawandel. In Deutschland wächst die Besorgnis über ihre ökologischen Auswirkungen. Kann KI wirklich helfen?