auswahl_digsal1120131127_digsal_11__0487

22 April 2014

Die Logik der Kaskade

Wie verbreiten sich Informationen im Internet, und welche Faktoren spielen dabei eine Rolle? Über diese Frage haben sich meine Kollegin Isabella Peters von der Universität Kiel und ich Gedanken gemacht, und dazu für ein Buchkapitel einige aktuelle Forschungsergebnisse gesichtet, die ich in diesem Beitrag kurz zusammenfassen und kommentieren möchte.

Im Internet und speziell in den sozialen Medien werden im Sekundentakt aktuelle Nachrichten, politische Aufrufe, und unterhaltsame Neuigkeiten geteilt. Meldungen jeder Art verbreiten sich zum Teil rasend schnell, was etwa im Fall von Naturkatastrophen, Umstürzen, oder anderen breaking news von allgemeinem Interesse sein kann, aber auch für die kommunikations-, medien-, und informationswissenschaftliche Forschung einen neuartigen und spannenden Untersuchungsbereich darstellt. Soziale Medien ermöglichen einerseits den schnellen Austausch von Informationen und können andererseits auch manipuliert werden, etwa durch sogenannten Bots, oder das gezielte Hacken zentraler Accounts. Anbieter sozialer Netzwerke müssen zunehmend auf Versuche staatlicher Stellen reagieren, die darauf abzielen, die Verbreitung von Informationen einzuschränken, wie etwa jüngst in der Türkei.

Warum verbreiten sich bestimmte Informationen deutlich stärker als andere, und welche Faktoren spielen dabei eine Rolle? Wissenschaftler aus unterschiedlichen Fachdisziplinen untersuchen solche Prozesse inzwischen gemeinsam unter Bezeichnungen wie Web Science und Computational Social Science. Sie werten große Datenmengen unter anderem mit den Ziel aus, die Faktoren berechnen zu können, die zu der starken Verbreitung bestimmter Inhalte führen. Gerade in Plattformen wie Twitter, Facebook oder Google Plus lassen sich solche Prozesse inzwischen in Echtzeit nachzeichnen und zum Teil auch vorhersagen, sofern man Zugriff auf die entsprechenden Daten hat. So lässt sich die Beliebtheit einer Werbekampagne ebenso abbilden, wie der Erfolg einer politischen Bewegung oder die Popularität von Katzenbildern (wobei Verbreitung nicht mit unbedingt mit nachhaltiger Wirkung gleichgesetzt werden sollte).

In einem kürzlich erschienen Konferenzbeitrag beschreiben die Autoren die Entstehung sogenannter Kaskaden, also sehr plötzlicher und heftiger Verbreitungsausschläge bestimmter Inhalte, am Beispiel der Weitergabe von Bildern auf Facebook (Cheng et al, 2014). Es wird zwar oft davon gesprochen, dass sich Informationen im Internet “viral” verbreiten, echte Kaskaden sind aber extrem selten und bislang nur sehr schwer vorherzusagen. Die Autoren betonen zwar, dass genaue Prognosen schwierig sind, können aber in ihrem Datensatz nach insgesamt fünf Weitergaben die Gesamtgröße einer Kaskade mit einer Genauigkeit von 80% vorausberechnen. Dabei spielen ganz verschiedene Faktoren eine Rolle. So ist die Popularität des Teilenden in der Tendenz wichtiger, als der Inhalt selbst, wenn es um die Verbreitung geht. Auch zahlreiche weitere Faktoren, die nichts mit dem Inhalt an sich zu tun haben, sind von Bedeutung. Die Tiefe und Breite der Kaskade hat ebenso Auswirkungen, wie die Sprache des Originalbeitrags oder die Art des Inhalts (etwa religiöse vs. politische Motive). Der wichtigste Einzelfaktor ist allerdings die Zeit: wie schnell die ersten fünf Reshares erreicht werden, gibt relativ zuverlässigen Aufschluss darüber, wie viele Menschen die Information insgesamt erreichen wird.

Was in einer Plattform gilt, muss dabei nicht genauso auf andere Umgebungen zutreffen. Schon vor vier Jahren untersuchten koreanische Wissenschaftler Twitter um festzustellen, ob der Dienst eher wie ein soziales Netzwerk im soziologischen Sinne oder wie ein Massenmedium funktioniert (Kwak et al, 2010). Sie stellten aus heutiger Sicht kaum überraschend fest, dass in Twitter eine extreme Konzentration der Aufmerksamkeit auf vergleichbar wenige Akteure vorliegt, Twitter also eher mit einem Massenmedium als mit einem sozialen Netzwerk vergleichbar ist. Dadurch, dass die Beziehungsstruktur von Facebook reziprok, die von Twitter aber nicht-reziprok ist, verbreiten sich Informationen ganz unterschiedlich in beiden Plattformen. In Twitter ist die Sichtbarkeit einzelner Nutzer vergleichsweise größer, und sehr viele Informationen, die stark weitergegeben werden, stammen originär aus den Massenmedien. Die Unterschiede im Design der Plattformen haben also maßgeblichen Einfluss darauf, wie sich Informationen in ihnen verbreiten.

Ganz besonders interessant finde ich kulturelle und sprachliche Unterschiede bei der Verbreitung von Informationen, denn diese spielen eine große Rolle und sind gleichzeitig bislang noch kaum erforscht. In einer weiteren Studie zu Twitter vergleichen die Autoren den Anteil von Tweets mit URLs, den Gebrauch von Hashtags, @-Nachrichten, und Retweets in unterschiedlichen Sprachen (Hong et al, 2011). Sie stellen fest: deutschsprachige Tweets enthalten dreimal so häufig URLs wie japanische oder portugiesische Beiträge. Auch Hashtags sind unter deutschsprachigen Nutzern offenbar populärer als anderswo – vielleicht ein Indikator dafür, dass man den Dienst im deutschsprachigen Raum im Vergleich eher für die Informationsverbreitung nutzt als für den persönlichen Austausch, der in vielen anderen Ländern auch über Twitter sehr aktiv stattfindet. Aber: solche Nutzungsweisen sind Momentaufnahmen und ändern sich schnell. Und neben sich ändernden Nutzungsgewohnheiten sind Aspekte wie die Reproduzierbarkeit bei solchen Untersuchungen mitunter problematisch, da sie auf Daten beruhen, die primär die Plattformbetreiber selbst nutzen können. Bei der genannten Studie zu Facebook sind zwei der Autoren beim Unternehmen selbst beschäftigt. Große Konferenzen, auf denen derartige Forschung vorgestellt wird, werden stark von Wissenschaftlern aus internen Forschungsabteilungen frequentiert.

Das wirft für die Zukunft viele Fragen auf. Exemplarisch für die drei vorgestellten Untersuchung sind einerseits die riesigen Datenmengen, die in ihnen ausgewertet werden. So analysieren Hong et al 62 Millionen Tweets in über 100 Sprachen, Kwak et al haben in ihrer inzwischen bereits vergleichsweise “alten” Studie 42 Millionen Nutzerprofile und 1,48 Milliarden soziale Beziehungen unter die Lupe genommen, und Cheng et al werten die Verbreitung von 150.000 Fotos aus, die insgesamt rund neun Millionen mal geteilt wurden. Es geht dabei aber nicht nur um Masse, sondern auch um die Verknüpfbarkeit ganz unterschiedlicher Informationen miteinander, um Korrelationen zu finden, die zuverlässige Vorhersagen erlauben. Der Erfolg einer Kaskade lässt sich nicht auf einen einzelnen Faktor zurückführen, vor allem lässt er sich nicht kausal herleiten. Aber die Fähigkeit, das zukünftige Aussehen einer Kaskade in Echtzeit zu berechnen, ist in Ansätzen jetzt schon vorhanden.

Diese Entwicklung birgt große Herausforderungen für die Wissenschaft, nicht nur mit Blick auf die Privatsphäre der Nutzer. Zum einen wird der privilegierte Zugang zu Forschungsdaten immer wichtiger, wie beispielsweise eine kürzlich von Twitter gestartete Initiative belegt, die sechs internationalen Forscherteams die Gelegenheit gibt, mit Daten zu arbeiten, die direkt vom Plattformanbieter selbst kommen. Andererseits findet aber auch eine merkliche Verschiebung hin zu einer Forschung statt, welche die Modellierung komplexer Systeme in den Mittelpunkt stellt, und dementsprechend nicht unbedingt viel “Erklärung” im traditionellen Sinne leistet, dafür aber Voraussagen in Echtzeit ermöglichen soll. Auf die sich daraus ergebenen komplexen rechtlichen, ethischen und epistemologischen Fragen zur reagieren ist die Aufgabe der sozialwissenschaftlichen Internetforschung – wenn nicht in Echtzeit, dann wenigstens etwas schneller, als dies bislang geschieht.

Quellen

Cheng, J., Adamic, L. A., Dow, P. A., Kleinberg, J., & Leskovec, J. (2014). Can cascades be predicted? In W. Lee, H.-C. Rim, & D. Schwabe (Eds.), Proceedings of the 23rd International World Wide Web Conference (WWW ’14) (pp. 1–11). Seoul, Republic of Korea: ACM Press. doi:10.1145/2566486.2567997
Hong, L., Convertino, G., & Chi, E. H. (2011). Language matters in Twitter: A large scale study characterizing the top languages in Twitter characterizing differences across languages including URLs and hashtags. In Proceedings of the Fifth International AAAI Conference on Weblogs and Social Media (ICWSM ’11) (pp. 518–521). Menlo Park, CA: The AAAI Press.
Kwak, H., Lee, C., Park, H., & Moon, S. (2010). What is Twitter, a social network or a news media? Categories and subject descriptors. In J. Freire & S. Chakrabarti (Eds.), Proceedings of the 19th International Conference on the World Wide Web (WWW ’10) (pp. 591–600). Raleigh, NC: ACM Press.

Dies ist ein Beitrag von Cornelius Puschmann, assoziierter Forscher des Alexander von Humboldt Institut für Internet und Gesellschaft. Er spiegelt weder notwendigerweise noch ausschließlich die Meinung des Institutes wieder. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de.

Dieser Beitrag spiegelt die Meinung der Autorinnen und Autoren und weder notwendigerweise noch ausschließlich die Meinung des Institutes wider. Für mehr Informationen zu den Inhalten dieser Beiträge und den assoziierten Forschungsprojekten kontaktieren Sie bitte info@hiig.de