Pros and Cons of a Social Index

Heather Krause writes one of my favorite newsletter. She works at Datassist, a company working with NGOs and data journalists.

Recently, she wrote about social indices:

A social index is a summary of a complex issue (or issues). Generally, social indexes take a large number of variables related to a specific topic or situation and combine them to get one number. It’s often a single number, but can also be a rank (#1 country out of 180) or a category (“high performing”).

Heather Krause

Pros of social indices:

  • attract public interest
  • allow comparisons over time
  • provide a big picture
  • „reduce vast amounts of information to a manageable size“

Cons:

  • „disguise a massive amount of inequality in the data“
  • simplistic interpretations
  • hide emerging problems of some variables

So, should we use them?

Krause says, „yes“, but …

If we’re using an index to understand a trend or situation, we also need to look at the individual elements that make up that index.

Datassist published a list with various indicators here.

Sorry, auch Datenanalysen sind nicht der Heilige Gral der Objektivität

Datenanalysen sind nicht neutral: Jede Entscheidung über Variablen oder Methodik ist schlussendlich auch eine inhaltliche Entscheidung. Das zeigt anschaulich eine Studie, über die das Spektrum Magazin schreibt:

Bekommen schwarze Fußballspieler häufiger rote Karten als Nicht-Schwarze? Das war die Frage, auf die Forscherinnen und Forscher 29 verschiedene Antworten gaben. Die Ergebnisse unterscheiden sich zum Teil deutlich und widersprachen sich auch. Und das, obwohl alle den exakt gleichen Datensatz zur Verfügung hatten.

Die Unterschiede ergeben sich zum Beispiel aus folgenden Punkten:

  • Was sind die Annahmen über die Verteilung der Daten?
  • Können sich Schiedsrichter und Spieler beeinflussen?
  • Sind rote Karten voneinander unabhängig?
  • Werden alle Variablen in die Analyse miteinbezogen? „Gut zwei Drittel der Teams hatten beispielsweise die Position des Spielers auf dem Platz berücksichtigt, aber nur drei Prozent die Gesamtzahl der Platzverweise, die ein Schiedsrichter verhängte.“

Und was folgt daraus? Sind Analysen nicht mehr zu trauen? Natürlich nicht, aber wie so oft hilft ein Bewusstsein, dass auch Datenanalysen keine in Stein gemeisselten Ergebnisse produzieren. Wie im Journalismus gilt auch hier: Transparenz erhöht die Glaubwürdigkeit.

The best defense against subjectivity in science is to expose it. Transparency in data, methods, and process gives the rest of the community opportunity to see the decisions, question them, offer alternatives, and test these alternatives in further research.

Studie „Many Analysts, One Data Set“

Hat eine schwarze Hautfarbe nun Einfluss auf Platzverweise? Zwei Drittel der Analysen sagen „ja“, ein Drittel „nein“.

via WZB Data Science Blog

Eine kurze Leseliste zu Algorithmen

Die sieben Todsünden der Prognosen über die Zukunft der KI
Ein langer, schlauer Text des MIT-Professors Rodney Brooks, der gängige Annahmen zur Künstlichen Intelligenz auseinanander nimmt.

In Kürze auf diesem Bild:

A.I. Is Our Future. What Happens When the Data It’s Trained on Is Biased and Old?
Algorithmen können unfair sein und gesellschaftliche Vorurteile weitertragen. Das sagt sich leicht, aber wie funktioniert das konkret? Zum Beispiel über die Trainingsdaten. Ein häufig benutzter Datensatz, um E-Mails zu analysieren, sind Mails der Firma Enron. Also derjenigen Firma, die noch immer als der Inbegriff des Bilanzbetrugs gilt. Die Mails hat 2003 die amerikanische Federal Energy Regulatory Commission veröffentlicht: 1,6 Millionen E-Mails zwischen Enron-Mitarbeitern.

„If you think there might be significant biases embedded in emails sent among employees of a Texas oil-and-gas company that collapsed under federal investigation for fraud stemming from systemic, institutionalized unethical culture, you’d be right. (…) Researchers have used the Enron emails specifically to analyze gender bias and power dynamics.“ In other words, the most popular email data set for training A.I. has also been recognized by researchers as something that’s useful for studying misogyny, and our machines may be learning to display the same toxic masculinity as the Enron execs.

The algorithm is innocent

Googles „Top Stories“-Box, ganz oben unten dem Suchfenster, ist für Nachrichten gedacht. Wenn dort ein Link zu 4chan erscheint, einer Seite, die – nun ja – nicht gerade für validierte Informationen steht, dann ist etwas schief gelaufen. Googles Reaktion? Der Algorithmus war schuld. „Blaming the algorithm has gotten pretty common“, heißt es bei The Outline. Doch das ist falsch: Der Algorithmus, die Anweisung an den Computer hat funktioniert, er kann ausgeführt werden. Das Problem sind die Annahmen dahinter:

A truly faulty algorithm would be like a computer program that does not compile or catches itself in an infinite loop. These algorithms are executing; they are doing what they were designed to do. The problem is that they are not designed to exclude misinformation or account for bias.

So lässt sich die potenzielle Wirkung algorithmischer Entscheidungen bestimmen

Wie groß ist der Einfluss von Algorithmen auf die Gesellschaft? Und wie groß soll deshalb im Umkehrschluss die gesellschaftliche Teilhabe sein? Bei „Algorithmenethik“, einer Webseite der Bertelsmann Stiftung, haben sich zwei Wissenschaftler an einem Index versucht. Das Prinzip: je höher der Einfluss der Akteure, je stärker die soziale Einbettung und je gewichtiger die Konsequenzen, desto höher ist das Teilhabewirkungspotenzial.

Daten sind das neue Öl: Hier tauchte der viel zu oft genutzte Satz das erste Mal auf

Ein Marketing-Mensch namens Clive Humby ist für die beliebte Bezeichnung verantwortlich. Damals, im November 2006:

Data is just like crude. It’s valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc to create a valuable entity that drives profitable activity; so must data be broken down, analyzed for it to have value.

Die gesammelten Quartz-Regeln zu y-Achsen

Eine der ersten Regeln bei Datenvisualisierungen: Die y-Achse vollständig angeben.

Wer die Regeln, darf sie auch brechen: Quartz erläutert, warum sie nicht immer die y-Achse bis zu 0 anzeigen

„Charts should convey information and make a point. We make charts to illustrate ideas that have context beyond their x- and y-axes. Forcing the y-axis to start at zero can do just as much to obscure and confuse the point as the opposite.“

(…)

First, this is why charts have scales. Blaming a chart’s creator for a reader who doesn’t look at clearly labeled axes is like blaming a supermarket for selling someone food he’s allergic to.

Second, the degree to which the chart emphasizes certain aspects of the data is a judgement of storytelling not chart-making. Sure, this mindset can yield misleading displays, but how is that different than words? Charts should be fair, not impartial.“

Zusammengefasst die fünf Quartz-Regeln zu y-Achsen:

  • Truncate the y-axis when small movements are important.
  • Truncate the y-axis when zero values are ridiculous.
  • Use a zeroed y-axis when it doesn’t matter.
  • Always use a zeroed y-axis with column and bar charts.
  • Never use a zeroed axis on a log scale.

via @a_sator

Leaflet.js: Regensburg und seine Migranten

Ein bisschen mit Karten spielen Teil 2322: Dieses Mal mit Migranten in Regensburg.

Die Daten habe ich mit Tabula aus dem Vierteljahresbericht 2013 der Stadt Regensburg gescrapt. Sie waren die ersten, die Angaben zu Stadtteilen hatten und mir untergekommen sind. Die Geodaten der Stadtteile habe ich ebenfalls von offizieller Stelle.

In der Vergangenheit hatte ich immer das Problem, diese zwei Datensätze zusammenzufügen. Nachdem ich im letzten Wintersemester eine Vorlesung zu GIS belegt habe, war mir klar, dass das der way to go ist: Mit GIS-Software mergen – und nicht in der Kommandozeile, so wie ich das vor etwa einem Jahr probiert hatte. Das Ende vom Lied waren zwei neue Benutzer auf meinem Computer. Das passiert, wenn man Copy-Pasted und keine Ahnung hat davon …

Also: Wie Geodaten, zum Beispiel eine im Geojson-Format und eine csv-Datei zusammenfügen? Mit der Open-Source-Software QGIS. In der Uni haben wir ArcGIS benutzt, aber QGIS ist dem sehr, sehr ähnlich.

Aber dabei gibt es ein Problem: Alle Einträge der csv-Datei sind automatisch Strings. Es gibt aber einen Weg, das zu verhindern. Dazu muss man eine zweite Datei erstellen, die denselben Namen wie die .csv-Datei trägt, jedoch mit der Endlung .csvt. In diese .csvt-Datei werden dann in einer Zeile die Datentypen notiert. Zum Beispiel:

"string", "integer", "real"

Danach muss die Datei über Layer –> Delimited Tab Layer importiert werden. Dadurch werden die Datentypen automatisch erkannt, solange die .csv und .csvt-Datei den gleichen Namen haben und im gleichen Ordner liegen.

Andere Varianten, um die .csv-Datei in QGIS zu laden, wie einfach reinziehen oder als Vector Layer zu laden, haben bei immer dazu geführt, dass alle Datenpunkte wieder Strings waren.

Wo waren wir? Wir haben eine Datensatz mit passenden Datentypen und die Geodaten zusammengeführt. Diese kann nun exportiert werden und dann als Geojson-Datei zum Beispiel in Leaflet weiterverarbeitet werden.

Doch halt! So leicht ging es nicht. Die direkt aus QGIS exportierte Datei wurde bei mir über Leaflet nicht ausgespielt. Erst wenn ich sie bei CartoDB hochgeladen und wieder exportiert habe, hat es funktioniert. Weiß der Geier, warum.

Das Ergebnis: Eine Karte mit Leaflet. Für die Klassifizierung, Infobox und Legende habe ich das Leaflet-Tutorial benutzt.

Und nun? So ganz ohne Kontext ist das ein bisschen langweilig. Deshalb habe ich mir überlegt, Texte zum Thema von der Mittelbayerischen Zeitung und Regensburg Digital einfließen zu lassen. Doch: Bei beiden Medien ist nicht möglich, Artikel zu diesem Thema einigermaßen automatisiert, z.B. via Feed, auszulesen. Bei Regensburg-Digital finde ich zum Beispiel nur das Schlagwort „Flüchtlinge“, bei der Mittelbayerischen gar keine Tags. Über einen Alert bei Google News würde zu viel Unpassendes mitgeschwemmt und für eine händische Auswahl, die in zwei Tagen wieder obsolet wäre, fehlt mir die Motivation. Dann eben nur die Karte.

NewsLynx: Neues Tool soll Erfolg von Journalismus qualitativ und quantitativ ermitteln

Die Frage nach dem Erfolg von Online-Journalismus ist nur oberflächig leicht zu beantworten. Selbst die Einsicht, dass Klickzahlen nicht das gelbe vom Ei sind und eine Menge Fehlanreize in sich bergen, bringen den ambitionierten Online-Journalismus-Versteher nur in das Basislager des Wie-einflußreich-ist-Journalismus-Berges.

Drei junge News-Nerds versuchen nun, gesponsort mit Geldern des Tow-Centers for Digital Journalism, das Problem, wie Einfluss online gemessen werden kann, zu verstehen.

  • Brian Abelson hat bei der New York Times PAR („Pageviews above replacement“) entwickelt. Vor ein paar Monaten schrieb ich dazu bei den Netzpiloten:

    Im Sommer veröffentlichte Abelson seinen Ansatz. Er nennt ihn PAR, kurz für “Pageviews above replacement”. Die grundlegene Überlegung ist folgende: Der Erfolg eines Artikels – gemessen in Page Views – hängt nicht nur von Zugriffen ab, sondern auch davon, wie viel Werbung dafür gemacht wurde. Es muss also herausgerechnet werden, wenn Facebook- und Twitter-Accounts der NY Times den Text geteilt haben oder ob er auf der Startseite stand. Der PAR-Indikator stellt die Page Views in Relation zu den getroffenen Werbemaßnahmen. Abelson ist sich der begrenzten Aussagekraft bewusst: “Der PAR-Ansatz ist ein Pflaster.” Ein Pflaster das helfe, den Aufwand zu messen, den eine Nachrichtenseite aufbringen müsse, um ein bestimmtes Ziel zu erreichen.

  • Der zweite im Bunde ist Stijn Debrouwere, dessen Serie zur Informationsarchitektur bei Nachrichtenseiten zum Besten gehört, was ich zu diesem Themenbereich je gelesen habe.

  • Der dritte ist Michael Keller, den ich bis zur Google-Suche vor einer halben Minute nicht kannte. Er ist offenbar Multimedia-Journalist bei Al-Jazeera. Mehr zu ihm auf seiner Webseite.

Diese drei arbeiten zusammen an NewsLynx, das quantitativ und qualitativ auswerten soll, welchen Einfluß bestimmte journalistische Inhalte haben.

Noch sind die Aussagen ziemlich wage, aber die „Preliminary Feature List“ lässt auf einiges hoffen:

While we’re just getting started, here’s a sense of what NewsLynx will include:

  • Tracking of social media “mentions” and “likes” over time on Twitter and Facebook.
  • Tracking of mentions by lists of people, e.g. local and national representatives, other journalists, or institutional representatives.
  • Integration with Google Analytics and other metric providers.
  • A Google Alert-like river of mentions that can be approved and associated with a given article.
  • A Customizable qualitative taxonomy and tagging system.
  • An interface for recording “impact” events not tied to automatic processes.
  • “If-This-Then-Impact” recipes for custom combinations of events that should trigger an event to be recorded.
  • A report generator for distributing impact assessments to staff, board members, and financial backers.

Warum dieses Vorhaben nicht trivial ist, schreiben die drei in einem Blogbeitrag bei Tow auf: Das Hyperlinks-System, wie es der Erfinder des WWW, Tim Berners Lee, erdacht hat, ist nicht darauf ausgelegt, getrackt zu werden. Denn diese Links sind Einbahnstraßen. Sie zeigen in eine Richtung; das Ziel hat aber nicht gespeichert, woher der Verweis kam.

The inefficiency of one-way links left a hole at the center of the web for a powerful player to step in and play librarian. As a result, if you want to know how your content lives online, you have to go shopping for analytics. To effectively monitor the life of an article, newsrooms currently use a host of services from trackbacks and Google Alerts to Twitter searches and ad hoc scanning. Short link services break web links even further. Instead of one canonical URL for a page, you can have a bit.ly, t.co, j.mp or thousands of other custom domains.

Mit sogenannten „recipes“ wollen sie dieses Problem lösen, indem sie dadurch eine Art „two-way-linking-system“ entwickeln. Die Serpentinen auf den Everest der Erfolgsmessung sollen damit, um in der Metapher der Einbahnstraße zu bleiben, in beide Richtungen befahrbar sein.

Noch kann an NewsLynx nicht ausprobieren, aber Medien können eine Umfrage ausfüllen und unten ankreuzen, dass sie das Tool gerne ausprobieren würden. Wäre ich Head-of-Data-Analysis von I-wanna-own-online-Media, ich würde keine Sekunde zögern …

IT im Gesundheitsbereich: Software und Algorithmen im Klinik-Alltag

Dass die Digitalisierung alle Bereiche umfasst, ist eine Binsenweisheit. Doch wie das jetzt so in Branchen abläuft, mit denen man nicht oft zu tun hat, bleibt dann doch meistens ein Rätsel.

Einen Einblick in die Software und Algorithmen bei Krankenhäusern bietet das Projekt „Looking into Black Bloxes“. „Algorithmen, Triage und Mobile Visite“ ist die erste Folge von „Looking into Black Boxes“, das ich vor ein paar Monaten bei ihrer Crowdfunding-Aktion unterstützt habe.

Ihre Selbstbeschreibung:

Wir rechnen nicht nur mit Computern, wir leben auch mit ihnen. Aber wie geht das eigentlich?

Eine Aussage aus dem Video:

Reporterin: „Verlässt man sich nicht viel zu sehr auf diese Software?“

IT-Leiter des Unfallkrankenhauses Berlin: „Das hoffe ich mal, dass das die Kollegen nicht tun. IT kann denken nicht ersetzen. Es ist nur eine Unterstützung. Ein Patient braucht immer einen Arzt und die Pflege.“

Lesenswertes: Daten, VWL und der erste Satz

Lesenswertes der letzten Tage. Mehr lesenswerte Links findest du in der gleichnamigen Kategorie Lesenswertes.

  • Warum versagt die Volkswirtschaftslehre? – SWR2 :: Kultur Info | SWR.de – Das alte Thema: Ist die Volkswirtschaftslehre zu monothematisch, zu ideologisch, zu neoklassisch? Die Professoren Michel Burda und Helge Peukert und der Wirtschaftsjournalist Thomas Fricke streiten sich herrlich über die VWL.
  • Alberto Cairo: Data journalism needs to up its own standards » Nieman Journalism Lab – Kritik am Datenjournalismus vom Visualierungsexperten Alberto Cairo: „It is tempting for a news startup to try to be both BuzzFeed and The Economist at the same time, no matter how chimerical that goal is. Lighthearted blahblah can be done quickly and nonchalantly. Proper analytical journalism can’t. If you have a small organization, you may have to choose between producing a lot of bad stuff or publishing just a small amount of excellent stories.“
  • The Rhetoric of Data | Tow Center for Digital Journalism – Immer drandenken: „Who produced the data and what was their intent? Did it come from a reputable source, like a government or inter-governmental agency such as the UN, or was it produced by a third party corporation with an uncertain source of funding? Consider the possible political or advocacy motives of a data provider as you make inferences from that data, and do some reporting if those motives are unclear. When was the data collected? Sometimes there can be temporal drift in what data means, how it’s measured, or how it should be interpreted. Is the age of your data relevant to your interpretation? For example, in 2010 the Bureau of Labor Statistics changed the definition of long-term unemployment, which can make it important to recognize that shift when comparing data from before and after the change. Most importantly it’s necessary to ask what is measured in the data, how was it sampled, and what is ultimately depicted? Are data measurements defined accurately and in a way that they can be consistently measured? How was the data sampled from the world? Is the dataset comprehensive or is it missing pieces? If the data wasn’t randomly sampled how might that reflect a bias in your interpretation? Or have other errors been introduced into the data, for instance through typos or mistaken OCR technology? Is there uncertainty in the data that should be communicated to the reader? Has the data been cropped or filtered in a way that you have lost a potentially important piece of context that would change its interpretation? And what about aggregation or transformation? If a dataset is offered to you with only averages or medians (i.e. aggregations) you’re necessarily missing information about how the data might be distributed, or about outliers that might make interesting stories. For data that’s been transformed through some algorithmic process, such as classification, it can be helpful to know the error rates of that transformation as this can lead to additional uncertainty in the data.“
  • Der verfluchte erste Satz, Teil 1: Was ist Dein Problem? | Deadline – „In dem Drama Mensch gegen Wirklichkeit gibt es roh kartografiert vier Grossgebiete für Treibsand: Die Wirklichkeit entspricht nicht den Erwartungen des Lesers. Das Material ist absurd, abstossend, unerwartet, also gegen die Intuition oder den Geschmack des Publikums. Das heisst: Es muss mit List und Zucker präsentiert werden. Die Wirklichkeit ist sich selbst nicht klar. Das Material ist verwickelt, undeutlich, ausfasernd, unvollständig, uferlos, kurz: objektiv komplex. Das heisst: Man muss ein Ordnungssystem erfinden. Die Wirklichkeit entspricht nicht den Plänen des Autors. Die zentrale These bewahrheitet sich nur halb; die vorgesehene Hauptfigur bleibt blass; der Interviewpartner spricht wie ein Aktenordner; die Nebensache ist interessanter als die Hauptsache. Das heisst: Man muss seine Pläne ändern. Der Autor ist nicht einig mit sich selbst. Alles ist deprimierend eindeutig. Oder von einem selbst schon mehrmals beschrieben. Jeder Satz laaaaaangweilt. Das heisst: Man muss sich selbst eine Schwierigkeit einbauen. Etwa, indem man das Genre ändert. Klar ist nur eins: Das Problem, das man hat, muss am Anfang des Artikels angepackt werden, nicht in der Mitte, nicht am Schluss.“