Wie ich mit R und Tweets rummachte: Ein Protokoll

Ich versuche „Mapping a Revolution“  nachzumachen, indem ich Benedikt Köhlers Code auf github folge. 1) Ich muss libraries in R installieren. Mit der Anleitung vom r-blog klappt das ganz schnell. Noch kurz ein paar Mal „y“ für Yes geklickt und meine R-Installation kann Karten darstellen.

„Wie ich mit R und Tweets rummachte: Ein Protokoll“ weiterlesen

Lesenswertes: Daten und ihre Visualisierung

The Power of Visualization’s „Aha!“ Moments

Amanda Cox ist eine der Großen im Datenjournalismus. Sie arbeitet für die New York Times und erzählt im Interview von ihrer Arbeit.

Der Datenmythos
Was sind Daten? Warum braucht man Kontext? Der Unterschied zu Phänomenen und was das mit Journalismus zu tun hat. Sehr, sehr interessant!

Daten haben nur in Zusammenhang mit ihrem experimentellen Kontext Sinn, ohne diesen Kontext können sie nicht verstanden werden. Phänomene dagegen sind das, was sich in verschiedenen Experimenten zeigt, was stabil und reproduzierbar ist.

Lesenswertes: Big Data und Big Algorithmen

Wenn Daten sprechen

Big Data, Big Data, Big Data. Der Begriff flutet die Debatten um die digitale Zukunft. Aber was sind das eigentlich, diese großen Daten? Bernd Graff von der SZ vergleicht den Status Quo mit dem Mittelalter, als Karl der Große mit Erdöl konfrontiert war.

Der Buzz um Big Data ist also erst einmal schiere Verzweiflung an der großen Zahl, verkauft als Freude. Es ist das ungläubige Staunen auch darüber, dass sich die Serverfarmen mit ihren riesigen Daten-Reservoirs wie von selbst füllen. Angeblich verdoppelt sich das Gesamt-Datenvolumen alle zwei Jahre. Das Heu ist also da, aber man will die Stecknadeln darin.

 

How algorithms shape our world

Ein Video, das meiner Meinung nach zu den Best-of TED-Videos gehört:

via

Gephi: Netzwerk bei Facebook visualisieren

Spielen am ersten Tag des neuen Jahres: Mein soziales Netzwerk bei Facebook. Voilà:

facebook networkwhite

Die Grafik habe ich mit Gephi erstellt, einem Open-Source-Programm, um Netzwerke zu visualisieren.

Erkennbar ist: Es gibt drei Zentren bzw. Subnetzwerke innerhalb meiner Freunde: Schule, Familie und Studium, in denen sich die Leute auch untereinander kennen. Daneben ein paar Grüppchen oder einzelne Menschen. So weit so wenig überraschend.

Die ersten Schritte mit Gephi sind nicht schwer, auch dank einem guten Einführungstutorial, auch wenn klar ist, dass das Programm viel mehr kann als sich zum Beispiel ein paar Cluster ausgeben zu lassen. Man kann Filter drüber legen, sich statistische Werte ausgeben lassen …

An die eigenen Facebook-Daten kommt man über eine App namens Netvizz. Man kann sich dort eine Datei mit den eigenen Freunden, deren angegebenes Geschlecht und Region (Deutschland, USA etc) runterladen. Optional kann man sich auch Gruppen oder Seiten, die einem gefallen und deren Posts holen, was aber schon eine Weile dauert – und ich deshalb abgebrochen habe. Auch weil ich diese Daten ja eigentlich auch gar nicht brauche.

Nachdem ich mir meine Daten heruntergeladen habe, habe ich mich an ein Tutorial gehalten: Getting Started With The Gephi Network Visualisation App – My Facebook Network, Part I. Insgesamt gibt es vier Teile (Teil 2, Teil 3, Teil 4), wobei der dritte Teil eigentlich obsolet ist, denn Teil 4 zeigt eine bessere Methode für das Clustering als die im dritten Teil vorgestellte Art.

Aufmerksam wurde ich auf Gephi durch “Die 250 meistgenannten Personen 2012” im Open Data Blog von Zeit Online.

Darf ich bitten? Ein Graph von 1786

William Playfair was the first person to display demographic and economic data in graph form. His clearly drawn, color-coded line graphs show time on the horizontal axis and economic data or quantities on the vertical axis. (via Brain Pickings)

impexp 

Mehr zu Playfield bei der Wikipedia.

Statistiken, um die Welt zu erklären

“Numbers alone don’t tell you anything. You have to analyze them. And that’s what makes statistics.” Der schwedische World Health Professor Hans Rosling zeigt in dem 60 Minuten Film warum Daten wichtig sind und wie Statistiken die Welt erklären, wie Durchschnitte, Varianz oder Korrelationen funktionieren. Hätte ich den Film vor meiner Statistik I Vorlesung in ersten Semester gesehen, wäre ich mit Sicherheit motivierter gewesen.

Ein paar Dinge, die mir im Gedächtnis geblieben sind:

  • Die Schweden waren die ersten die ihre Bevölkerung statistisch erfassten, und zwar schon seit 1749.
  • Die Britin Florence Nightingale ist die Mutter der Visualisierung von Daten.
  • Googles Translator ist reine Statistik.

Rosling ist einer der Gründer von Gapminder, einer Organisation, die sich für eine auf fakten-basierte Weltansicht einsetzt.

There has been a market failure in distributing global data. A lot of people are interested in the data, but don’t get access to it (and if they manage to access the data, they need to be advanced skilled statisticians to analyze it). Gapminder wants to make data more accessible and easier to use for instant visual analysis. We believe decision makers, politicians as well as education at almost all levels lack adequate tools.

Gapminder hat eine Software zur Datenanylse entwickelt, die von Google übernommen wurde und heute von Google unter dem Namen Motion Chart genutzt werden kann.