Kategorien
Data + Code Politik + Wirtschaft

Die Zukunft suchen und nicht finden

Vorhersagen auf Basis von Berechnungen sind ein Spiel mit der Zeit.

Die Polizei ist auf einer Art Zeitreise. Sie will Verdächtige schon möglichst früh ausmachen – und das nicht nur im Flugverkehr. „Vor die Lage kommen“, nannte das der ehemalige BKA-Chef Jörg Ziercke.

Morgen ein Mörder

Und außerdem: Das Problem mit den Falsch-Positiven (SZ). Bei Prognose-Algorithmen kommt es nicht nur darauf an, welche Personen richtig erkannt werden, sondern auch darauf, welche Personen zu unrecht verdächtigt werden. Mathematisch nennt man diesen Fehler bei binären Entscheidungen (ja – nein, verdächtig, unverdächtig) die false-positve rate.

Bei der Gesichtserkennung am Berliner Bahnhof Südkreuz gibt die Polizei eine Falschtrefferrate von 0,1 Prozent an. Klingt wenig, die Zahl kleiner 1 führt aber in die Irre. In Wahrheit ist das ein unglaublich hoher, ein zu hoher Wert. Vanessa Wormer und Christian Endt rechnen das in der SZ vor:

  • Etwa 12 Millionen Bahnfahrer pro Tag
  • eine Falschpositivrate von 0,1 Prozent ergibt 12 000 unschuldig Verdächtige

Das ist das Problem an derartigen Systemen, die auf anlassloser Massenüberwachung fußen: Selbst bei sehr geringen Fehlerraten geraten ungleich viele Personen fälschlicherweise ins Visier der Fahnder.

Kategorien
Data + Code

Sorry, auch Datenanalysen sind nicht der Heilige Gral der Objektivität

Datenanalysen sind nicht neutral: Jede Entscheidung über Variablen oder Methodik ist schlussendlich auch eine inhaltliche Entscheidung. Das zeigt anschaulich eine Studie, über die das Spektrum Magazin schreibt:

Bekommen schwarze Fußballspieler häufiger rote Karten als Nicht-Schwarze? Das war die Frage, auf die Forscherinnen und Forscher 29 verschiedene Antworten gaben. Die Ergebnisse unterscheiden sich zum Teil deutlich und widersprachen sich auch. Und das, obwohl alle den exakt gleichen Datensatz zur Verfügung hatten.

Die Unterschiede ergeben sich zum Beispiel aus folgenden Punkten:

  • Was sind die Annahmen über die Verteilung der Daten?
  • Können sich Schiedsrichter und Spieler beeinflussen?
  • Sind rote Karten voneinander unabhängig?
  • Werden alle Variablen in die Analyse miteinbezogen? „Gut zwei Drittel der Teams hatten beispielsweise die Position des Spielers auf dem Platz berücksichtigt, aber nur drei Prozent die Gesamtzahl der Platzverweise, die ein Schiedsrichter verhängte.“

Und was folgt daraus? Sind Analysen nicht mehr zu trauen? Natürlich nicht, aber wie so oft hilft ein Bewusstsein, dass auch Datenanalysen keine in Stein gemeisselten Ergebnisse produzieren. Wie im Journalismus gilt auch hier: Transparenz erhöht die Glaubwürdigkeit.

The best defense against subjectivity in science is to expose it. Transparency in data, methods, and process gives the rest of the community opportunity to see the decisions, question them, offer alternatives, and test these alternatives in further research.

Studie „Many Analysts, One Data Set“

Hat eine schwarze Hautfarbe nun Einfluss auf Platzverweise? Zwei Drittel der Analysen sagen „ja“, ein Drittel „nein“.

via WZB Data Science Blog

Kategorien
Politik + Wirtschaft

Statistiken, um die Welt zu erklären

“Numbers alone don’t tell you anything. You have to analyze them. And that’s what makes statistics.” Der schwedische World Health Professor Hans Rosling zeigt in dem 60 Minuten Film warum Daten wichtig sind und wie Statistiken die Welt erklären, wie Durchschnitte, Varianz oder Korrelationen funktionieren. Hätte ich den Film vor meiner Statistik I Vorlesung in ersten Semester gesehen, wäre ich mit Sicherheit motivierter gewesen.

Ein paar Dinge, die mir im Gedächtnis geblieben sind:

  • Die Schweden waren die ersten die ihre Bevölkerung statistisch erfassten, und zwar schon seit 1749.
  • Die Britin Florence Nightingale ist die Mutter der Visualisierung von Daten.
  • Googles Translator ist reine Statistik.

Rosling ist einer der Gründer von Gapminder, einer Organisation, die sich für eine auf fakten-basierte Weltansicht einsetzt.

There has been a market failure in distributing global data. A lot of people are interested in the data, but don’t get access to it (and if they manage to access the data, they need to be advanced skilled statisticians to analyze it). Gapminder wants to make data more accessible and easier to use for instant visual analysis. We believe decision makers, politicians as well as education at almost all levels lack adequate tools.

Gapminder hat eine Software zur Datenanylse entwickelt, die von Google übernommen wurde und heute von Google unter dem Namen Motion Chart genutzt werden kann.