Unter Federführung der Cornell University (Chenhao Tan et al) ist in Kooperation mit Microsoft Research Asia ein aufschlussreiches wissenschaftliches Paper erschienen: „User-Level Sentiment Analysis Incorporating Social Networks“.
Link zum Artikel
Bei der Sentiment Analysis geht es darum, aus Posts und Kommentaren auf ein positives bzw. negatives Stimmungsbild zu schließen. In den USA wird dies zum Beispiel bei politischen Kampagnen angewandt. Aktuell ist von Interesse, welche Meinungen im Vorwahlkampf über Rick Santorum und Mitt Romney kursieren.
Bei ironischen oder zweideutigen Meinungen und wenn Slang-Ausdrücke oder gruppenspezifische Kürzel in einem Tweet oder einem Facebook-Kommentar verwendet werden, fällt es einem Computerprogramm mitunter schwer, den Text richtig zu deuten. Ist es nun eine eher positive oder negative Meinungsbekundung?
Ein typisches Beispiel ist in der oben genannten Studie aufgeführt:
„Obama is making the repubs look silly and petty.“
Weil in dem Satz negative Attribute verwendet werden (ohne Negation wie etwa „not silly“), würde ein Computerprogramm zur Sentiment Analysis auf eine negative Meinungsäußerung schließen.
Die Idee von Chenhao Tan und Kollegen besteht nun darin, dass das soziale Netzwerk einer Person die richtige Tendenz zur Interpretation liefert. Ist eine Person vorwiegend mit Obama-Fans befreundet, dann wäre es naheliegend, dass die Person selbst ebenfalls Obama-Fan ist.
Die Idee ist nicht unbedingt ganz neu. ABER: Hier wurde dieser Ansatz erstmals umfassend mit wissenschaftlichen Methoden überprüft.
Eine Vorgänger-Studie hat am Beispiel MySpace bereits aufgezeigt, dass sich der Ansatz der Homophily (wikipedia: Homophily (i.e., „love of the same“) is the tendency of individuals to associate and bond with similar others.) bestätigt.
Am Beispiel Twitter wurden nun 128.373 Tweets zum Thema „Obama“, 21.571 Tweets zu „Sarah Palin“ sowie weitere Tweets u.a. zu „Fox News“ und den „Lakers“ untersucht.
Die Studie unterscheidet vier Arten der Verknüpfung auf Twitter:
- directed t-Follow Graph: Person A folgt Person B
- mutual t-Follow-Graph: A folgt B und B folgt A.
- directed @-Graph: A zitiert, adressiert oder forwarded B mittels @-Symbol
- mutual @-Graph: beidseitiger @-Graph (B zitiert ebenfalls A).
Mit welcher Wahrscheinlichkeit haben nun zwei über einen der vier Graphen verbundene Personen die gleiche Grundhaltung (positiv/negativ) zu Barack Obama oder Sarah Palin?
Beim t-Follow Graph ergaben sich für Obama Werte von etwa 90 % (in der mutual-Version sogar etwas darüber)! Für den @-Graphen ergeben sich Werte von etwa 80 % (ebenfalls in der mutual-Version etwas darüber). Hier zeigt sich beim Folgen also ein stärkerer Homophily-Faktor als beim Zitieren.
Aufgrund dieser sehr eindeutigen Korrelationen kann man sagen: Die Vorlieben der Freunde verraten also einiges über einen selbst.

Bildquelle: thebluntblogger.com
Wir begegnen also einem Szenario wie bei der „Chain Gang“ oben: Die Herrschaften sind mutual connected und stimmen in ihren Grundhaltungen (insbesondere bei der Hutmode) überein.
Ist die Welt der sozialen Netzwerke tatsächlich so einfach zu entblößen?
Eine Entwarnung folgt, sobald man sich die weiteren Ergebnisse der Studie näher ansieht.
Es wurde die Wahrscheinlichkeit berechnet, mit der zwei User, die die gleiche Grundhaltung teilen, auch eine Verbindung teilen. Beim t-Follow-Graph ergaben sich hier wieder die höchsten Werte für die Themenfelder Obama und Palin. Bei den anderen Themen – zum Beispiel „Lakers“ – fiel diese Wahrscheinlichkeit aber deutlich geringer aus. In den USA sind Freunde offenbar eher beim Sport als in der Politik verschiedener Meinung. ABER: Beim @-Graph gleichen sich die Ergebnisse für „Obama“ und „Lakers“ an. Das erscheint plausibel. Ich kann in Deutschland Freunde haben, die sowohl Fans vom FC Bayern München als auch vom FC Schalke 04 sind. Mein eigenes aktives Interesse zeigt sich erst im Zitieren oder forwarden von Nachrichten, die sich auf meinen Verein beziehen.
Es deutet sich an, dass der Ansatz von Chenhao Tan nur bei stark polarisierenden Themen sehr gut funktioniert. In Deutschland würde sich ähnliches wohl bei der Analyse der Facebook-Fan- und Gegner-Seiten zum Thema Guttenberg ergeben.

Bildquelle: eternia-united.blogspot.com
In der komplexen, realen Welt sagt eine Verbindung in einem sozialen Netzwerk dann doch nur begrenzt etwas über einen selbst aus. Es bleibt also zu hoffen, dass die obige „Chain Gang“ näher an der Wirklichkeit ist. Homophily und Pluralität sollten kein Widerspruch sein!
In Bezug auf Sentiment Analysis konnte gezeigt werden, dass sich die Performance der Algorithmen durch Einbeziehen der Information aus sozialen Netzwerken spürbar verbessern lässt.
Hier ein negatives Zitat, das mit dem klassischen Algorithmus falsch zugeordnet wurde:
„Look up Chicago Climate Exchange, an organization formed years ago by Obama & his Marxist-Commie Cronies to form a profit off cap & trade“
Durch Einbeziehen des Anti-Obama-Sentiments der Freunde konnte dieser Tweet korrekt als negatives Statement gedeutet werden.
Die Autoren wollen nun auf Basis eines größeren Datenraums und unter Einbeziehung anderer sozialer Netzwerke Ihren Ansatz auch auf andere Themen ausweiten. Es dürfte für Datenschützer hierzulande interessant sein, die Entwicklung dieser Ansätze näher zu verfolgen.