Lesenswertes: China, EU, Open Data

Why do young rural women in China become mistresses?

Über die Motive, Herkunft und Folgen für die Frauen. Sich eine Freundin zu halten ist ein Zeichen von Macht:

Keeping a woman is common among powerful Chinese men. A study by the Crisis Management Centre at Renmin University in Beijing, published this January, showed that 95 per cent of corrupt officials had illicit affairs, usually paid for, and 60 per cent of them had kept a mistress.

Was hat diese Frau mit dem Brexit zu tun? – Zeit

Die Frau aus der Überschrift ist ein syrischer Flüchtling mit Kind im Arm. Bernd Ulrich versucht sich in der Zeit daran, sie mit der schlechten Situation der EU in Verbindung zu bringen.

„Und doch, es gibt sie noch, die Außenwelt, die Wirklichkeit, und in der geht etwas vor, das die sogenannte Krise der EU erklärt: Die Mauer zwischen Erster und Dritter Welt ist dabei zu fallen. Die Globalisierung ist an ihrem dialektischen Punkt angekommen, sie geht nicht mehr nur in eine Richtung, von Norden nach Süden, sie kommt jetzt auch zurück: in Gestalt von wirtschaftlicher Konkurrenz wie auch in der von Flüchtlingen und von Terrorismus.

Zugleich hat dieselbe Globalisierung die realen und erst recht die gefühlten Unterschiede zwischen Arm und Reich in den westlichen Ländern zuweilen bis ins Obszöne hinein vergrößert. Zwei Gerechtigkeitsfragen kommen jetzt zusammen, nein, sie prallen brutal aufeinander.
(…)

Liberale Internationalisten gegen autoritäre Nationalisten, so ließe sich die aktuelle globale Alternative umreißen.

Die Macht dieser neuen politischen Polarisierung ist so groß, dass sie in den meisten westlichen Staaten gerade in hohem Tempo das bisherige Parteiensystem zerschmettert. Die konservativen Parteien spalten sich, die sozialdemokratischen zerbröseln, die Ränder bedrängen die Mitte.

Eine globale Revolution findet also statt, die Überwindung der letzten großen Grenze, der letzten Mega-Ungerechtigkeit – oder aber eine globale Konterrevolution, der Versuch also, dies mit immensen aggressiven Energien zu verhindern.“

 

The Power of Open Data

Open Data und Transparanz müssen nichts miteinander zu tun haben, argumentiert Nicolas Kayser-Bril. Es war ein Fehler der Open-Data-Bewegung, diese beiden Dinge so eng miteinander in Verbindung zu bringen.

Denn: Wenn staatliche Institutionen selbst aussuchen, welche Datensätze sie ins Internet stellen, muss das nicht unbedingt die Transparenz erhöhen. Auch wenn mit den Standorten von öffentlichen Toiletten in maschinenlesbarer Form Projekte umgesetzt werden können – der große Wurf, Entscheidungen des Staates zu überprüfen, ist das sicherlich nicht.

„Infrastructure data is needed, and it should be free. However, it does not imply in the least that the government providing it commits to transparency. The two issues – infrastructure data and transparency – must be addressed independently. If not, open data offers governments a handy excuse to cramp down on existing transparency laws.“

 

 

 

 

Wie ungleich hätten Sie’s denn gern?

Makronom über verschiedene Wege Ungleichheit zu messen: Die nächste Stufe der Ungleichheitsmessung

  1. die horizontale Ungleichheit,
  2. die Mittelschicht und die Verteilung von Einkommen mit Ausnahme der Spitzengruppe
  3. und die Spitzengruppe der Einkommensverteilung.

Diese Entwicklung korrespondiert mit der Entwicklung der gesellschaftlichen Interessen: Von der Frage, wie ein typischer Arbeiter im Vergleich zu einem typischen Bauern abschneidet, über die Frage, wie ungleich eine Gesellschaft und wie groß die Mittelschicht ist, hin zu der Frage, wie reich die obersten 1% sind.

Jetzt, nicht zuletzt durch Piketty:

  • allgemeine Verteilung, die z.B. Gini-Koeffizient zeigt, ist out
  • jetzt im Trend: Anteil der Spitzenverdiener mit Hilfe von Steuerdaten (anstatt Haushaltsbefragungen, die i.d.R. Reiche unterschätzen)

Probleme mit Steuerdaten:

  • jeder hat Anreiz seine Steuerlast zu minimieren
  • gerade sehr reiche Menschen verstecken nicht selten ihr Vermögen

Daten sind das neue Öl: Hier tauchte der viel zu oft genutzte Satz das erste Mal auf

Ein Marketing-Mensch namens Clive Humby ist für die beliebte Bezeichnung verantwortlich. Damals, im November 2006:

Data is just like crude. It’s valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc to create a valuable entity that drives profitable activity; so must data be broken down, analyzed for it to have value.

Die gesammelten Quartz-Regeln zu y-Achsen

Eine der ersten Regeln bei Datenvisualisierungen: Die y-Achse vollständig angeben.

Wer die Regeln, darf sie auch brechen: Quartz erläutert, warum sie nicht immer die y-Achse bis zu 0 anzeigen

„Charts should convey information and make a point. We make charts to illustrate ideas that have context beyond their x- and y-axes. Forcing the y-axis to start at zero can do just as much to obscure and confuse the point as the opposite.“

(…)

First, this is why charts have scales. Blaming a chart’s creator for a reader who doesn’t look at clearly labeled axes is like blaming a supermarket for selling someone food he’s allergic to.

Second, the degree to which the chart emphasizes certain aspects of the data is a judgement of storytelling not chart-making. Sure, this mindset can yield misleading displays, but how is that different than words? Charts should be fair, not impartial.“

Zusammengefasst die fünf Quartz-Regeln zu y-Achsen:

  • Truncate the y-axis when small movements are important.
  • Truncate the y-axis when zero values are ridiculous.
  • Use a zeroed y-axis when it doesn’t matter.
  • Always use a zeroed y-axis with column and bar charts.
  • Never use a zeroed axis on a log scale.

via @a_sator

Leaflet.js: Regensburg und seine Migranten

Eine Karte, die den Anteil von Migranten an der Gesamtbevölkerung in Regensburg angibt. Dabei gelernt: Shapefile mit .csv-Datei mit QGIS mergen.

Ein bisschen mit Karten spielen Teil 2322: Dieses Mal mit Migranten in Regensburg.

Die Daten habe ich mit Tabula aus dem Vierteljahresbericht 2013 der Stadt Regensburg gescrapt. Sie waren die ersten, die Angaben zu Stadtteilen hatten und mir untergekommen sind. Die Geodaten der Stadtteile habe ich ebenfalls von offizieller Stelle.

In der Vergangenheit hatte ich immer das Problem, diese zwei Datensätze zusammenzufügen. Nachdem ich im letzten Wintersemester eine Vorlesung zu GIS belegt habe, war mir klar, dass das der way to go ist: Mit GIS-Software mergen – und nicht in der Kommandozeile, so wie ich das vor etwa einem Jahr probiert hatte. Das Ende vom Lied waren zwei neue Benutzer auf meinem Computer. Das passiert, wenn man Copy-Pasted und keine Ahnung hat davon …

Also: Wie Geodaten, zum Beispiel eine im Geojson-Format und eine csv-Datei zusammenfügen? Mit der Open-Source-Software QGIS. In der Uni haben wir ArcGIS benutzt, aber QGIS ist dem sehr, sehr ähnlich.

Aber dabei gibt es ein Problem: Alle Einträge der csv-Datei sind automatisch Strings. Es gibt aber einen Weg, das zu verhindern. Dazu muss man eine zweite Datei erstellen, die denselben Namen wie die .csv-Datei trägt, jedoch mit der Endlung .csvt. In diese .csvt-Datei werden dann in einer Zeile die Datentypen notiert. Zum Beispiel:

"string", "integer", "real"

Danach muss die Datei über Layer –> Delimited Tab Layer importiert werden. Dadurch werden die Datentypen automatisch erkannt, solange die .csv und .csvt-Datei den gleichen Namen haben und im gleichen Ordner liegen.

Andere Varianten, um die .csv-Datei in QGIS zu laden, wie einfach reinziehen oder als Vector Layer zu laden, haben bei immer dazu geführt, dass alle Datenpunkte wieder Strings waren.

Wo waren wir? Wir haben eine Datensatz mit passenden Datentypen und die Geodaten zusammengeführt. Diese kann nun exportiert werden und dann als Geojson-Datei zum Beispiel in Leaflet weiterverarbeitet werden.

Doch halt! So leicht ging es nicht. Die direkt aus QGIS exportierte Datei wurde bei mir über Leaflet nicht ausgespielt. Erst wenn ich sie bei CartoDB hochgeladen und wieder exportiert habe, hat es funktioniert. Weiß der Geier, warum.

Das Ergebnis: Eine Karte mit Leaflet. Für die Klassifizierung, Infobox und Legende habe ich das Leaflet-Tutorial benutzt.

Und nun? So ganz ohne Kontext ist das ein bisschen langweilig. Deshalb habe ich mir überlegt, Texte zum Thema von der Mittelbayerischen Zeitung und Regensburg Digital einfließen zu lassen. Doch: Bei beiden Medien ist nicht möglich, Artikel zu diesem Thema einigermaßen automatisiert, z.B. via Feed, auszulesen. Bei Regensburg-Digital finde ich zum Beispiel nur das Schlagwort „Flüchtlinge“, bei der Mittelbayerischen gar keine Tags. Über einen Alert bei Google News würde zu viel Unpassendes mitgeschwemmt und für eine händische Auswahl, die in zwei Tagen wieder obsolet wäre, fehlt mir die Motivation. Dann eben nur die Karte.

NewsLynx: Neues Tool soll Erfolg von Journalismus qualitativ und quantitativ ermitteln

Hyperlinks sind Einbahnstraßen. Das macht es schwierig, den Einfluss von Online-Journalismus zu tracken. Ein neues Tool, will das Problem lösen und Links in beide Richtungen befahrbar machen.

Die Frage nach dem Erfolg von Online-Journalismus ist nur oberflächig leicht zu beantworten. Selbst die Einsicht, dass Klickzahlen nicht das gelbe vom Ei sind und eine Menge Fehlanreize in sich bergen, bringen den ambitionierten Online-Journalismus-Versteher nur in das Basislager des Wie-einflußreich-ist-Journalismus-Berges.

Drei junge News-Nerds versuchen nun, gesponsort mit Geldern des Tow-Centers for Digital Journalism, das Problem, wie Einfluss online gemessen werden kann, zu verstehen.

  • Brian Abelson hat bei der New York Times PAR („Pageviews above replacement“) entwickelt. Vor ein paar Monaten schrieb ich dazu bei den Netzpiloten:

    Im Sommer veröffentlichte Abelson seinen Ansatz. Er nennt ihn PAR, kurz für “Pageviews above replacement”. Die grundlegene Überlegung ist folgende: Der Erfolg eines Artikels – gemessen in Page Views – hängt nicht nur von Zugriffen ab, sondern auch davon, wie viel Werbung dafür gemacht wurde. Es muss also herausgerechnet werden, wenn Facebook- und Twitter-Accounts der NY Times den Text geteilt haben oder ob er auf der Startseite stand. Der PAR-Indikator stellt die Page Views in Relation zu den getroffenen Werbemaßnahmen. Abelson ist sich der begrenzten Aussagekraft bewusst: “Der PAR-Ansatz ist ein Pflaster.” Ein Pflaster das helfe, den Aufwand zu messen, den eine Nachrichtenseite aufbringen müsse, um ein bestimmtes Ziel zu erreichen.

  • Der zweite im Bunde ist Stijn Debrouwere, dessen Serie zur Informationsarchitektur bei Nachrichtenseiten zum Besten gehört, was ich zu diesem Themenbereich je gelesen habe.

  • Der dritte ist Michael Keller, den ich bis zur Google-Suche vor einer halben Minute nicht kannte. Er ist offenbar Multimedia-Journalist bei Al-Jazeera. Mehr zu ihm auf seiner Webseite.

Diese drei arbeiten zusammen an NewsLynx, das quantitativ und qualitativ auswerten soll, welchen Einfluß bestimmte journalistische Inhalte haben.

Noch sind die Aussagen ziemlich wage, aber die „Preliminary Feature List“ lässt auf einiges hoffen:

While we’re just getting started, here’s a sense of what NewsLynx will include:

  • Tracking of social media “mentions” and “likes” over time on Twitter and Facebook.
  • Tracking of mentions by lists of people, e.g. local and national representatives, other journalists, or institutional representatives.
  • Integration with Google Analytics and other metric providers.
  • A Google Alert-like river of mentions that can be approved and associated with a given article.
  • A Customizable qualitative taxonomy and tagging system.
  • An interface for recording “impact” events not tied to automatic processes.
  • “If-This-Then-Impact” recipes for custom combinations of events that should trigger an event to be recorded.
  • A report generator for distributing impact assessments to staff, board members, and financial backers.

Warum dieses Vorhaben nicht trivial ist, schreiben die drei in einem Blogbeitrag bei Tow auf: Das Hyperlinks-System, wie es der Erfinder des WWW, Tim Berners Lee, erdacht hat, ist nicht darauf ausgelegt, getrackt zu werden. Denn diese Links sind Einbahnstraßen. Sie zeigen in eine Richtung; das Ziel hat aber nicht gespeichert, woher der Verweis kam.

The inefficiency of one-way links left a hole at the center of the web for a powerful player to step in and play librarian. As a result, if you want to know how your content lives online, you have to go shopping for analytics. To effectively monitor the life of an article, newsrooms currently use a host of services from trackbacks and Google Alerts to Twitter searches and ad hoc scanning. Short link services break web links even further. Instead of one canonical URL for a page, you can have a bit.ly, t.co, j.mp or thousands of other custom domains.

Mit sogenannten „recipes“ wollen sie dieses Problem lösen, indem sie dadurch eine Art „two-way-linking-system“ entwickeln. Die Serpentinen auf den Everest der Erfolgsmessung sollen damit, um in der Metapher der Einbahnstraße zu bleiben, in beide Richtungen befahrbar sein.

Noch kann an NewsLynx nicht ausprobieren, aber Medien können eine Umfrage ausfüllen und unten ankreuzen, dass sie das Tool gerne ausprobieren würden. Wäre ich Head-of-Data-Analysis von I-wanna-own-online-Media, ich würde keine Sekunde zögern …

IT im Gesundheitsbereich: Software und Algorithmen im Klinik-Alltag

Wie Software und Algorithmen im Gesundheitsbereich genutzt werden. Ein Besuch im Unfallkrankenhaus Berlin des Video-Projekts „Looking into Black Boxes“.

Dass die Digitalisierung alle Bereiche umfasst, ist eine Binsenweisheit. Doch wie das jetzt so in Branchen abläuft, mit denen man nicht oft zu tun hat, bleibt dann doch meistens ein Rätsel.

Einen Einblick in die Software und Algorithmen bei Krankenhäusern bietet das Projekt „Looking into Black Bloxes“. „Algorithmen, Triage und Mobile Visite“ ist die erste Folge von „Looking into Black Boxes“, das ich vor ein paar Monaten bei ihrer Crowdfunding-Aktion unterstützt habe.

Ihre Selbstbeschreibung:

Wir rechnen nicht nur mit Computern, wir leben auch mit ihnen. Aber wie geht das eigentlich?

Eine Aussage aus dem Video:

Reporterin: „Verlässt man sich nicht viel zu sehr auf diese Software?“

IT-Leiter des Unfallkrankenhauses Berlin: „Das hoffe ich mal, dass das die Kollegen nicht tun. IT kann denken nicht ersetzen. Es ist nur eine Unterstützung. Ein Patient braucht immer einen Arzt und die Pflege.“

Lesenswertes: Daten, VWL und der erste Satz

Lesenswertes der letzten Tage.

Lesenswertes der letzten Tage. Mehr lesenswerte Links findest du in der gleichnamigen Kategorie Lesenswertes.

  • Warum versagt die Volkswirtschaftslehre? – SWR2 :: Kultur Info | SWR.de – Das alte Thema: Ist die Volkswirtschaftslehre zu monothematisch, zu ideologisch, zu neoklassisch? Die Professoren Michel Burda und Helge Peukert und der Wirtschaftsjournalist Thomas Fricke streiten sich herrlich über die VWL.
  • Alberto Cairo: Data journalism needs to up its own standards » Nieman Journalism Lab – Kritik am Datenjournalismus vom Visualierungsexperten Alberto Cairo: „It is tempting for a news startup to try to be both BuzzFeed and The Economist at the same time, no matter how chimerical that goal is. Lighthearted blahblah can be done quickly and nonchalantly. Proper analytical journalism can’t. If you have a small organization, you may have to choose between producing a lot of bad stuff or publishing just a small amount of excellent stories.“
  • The Rhetoric of Data | Tow Center for Digital Journalism – Immer drandenken: „Who produced the data and what was their intent? Did it come from a reputable source, like a government or inter-governmental agency such as the UN, or was it produced by a third party corporation with an uncertain source of funding? Consider the possible political or advocacy motives of a data provider as you make inferences from that data, and do some reporting if those motives are unclear. When was the data collected? Sometimes there can be temporal drift in what data means, how it’s measured, or how it should be interpreted. Is the age of your data relevant to your interpretation? For example, in 2010 the Bureau of Labor Statistics changed the definition of long-term unemployment, which can make it important to recognize that shift when comparing data from before and after the change. Most importantly it’s necessary to ask what is measured in the data, how was it sampled, and what is ultimately depicted? Are data measurements defined accurately and in a way that they can be consistently measured? How was the data sampled from the world? Is the dataset comprehensive or is it missing pieces? If the data wasn’t randomly sampled how might that reflect a bias in your interpretation? Or have other errors been introduced into the data, for instance through typos or mistaken OCR technology? Is there uncertainty in the data that should be communicated to the reader? Has the data been cropped or filtered in a way that you have lost a potentially important piece of context that would change its interpretation? And what about aggregation or transformation? If a dataset is offered to you with only averages or medians (i.e. aggregations) you’re necessarily missing information about how the data might be distributed, or about outliers that might make interesting stories. For data that’s been transformed through some algorithmic process, such as classification, it can be helpful to know the error rates of that transformation as this can lead to additional uncertainty in the data.“
  • Der verfluchte erste Satz, Teil 1: Was ist Dein Problem? | Deadline – „In dem Drama Mensch gegen Wirklichkeit gibt es roh kartografiert vier Grossgebiete für Treibsand: Die Wirklichkeit entspricht nicht den Erwartungen des Lesers. Das Material ist absurd, abstossend, unerwartet, also gegen die Intuition oder den Geschmack des Publikums. Das heisst: Es muss mit List und Zucker präsentiert werden. Die Wirklichkeit ist sich selbst nicht klar. Das Material ist verwickelt, undeutlich, ausfasernd, unvollständig, uferlos, kurz: objektiv komplex. Das heisst: Man muss ein Ordnungssystem erfinden. Die Wirklichkeit entspricht nicht den Plänen des Autors. Die zentrale These bewahrheitet sich nur halb; die vorgesehene Hauptfigur bleibt blass; der Interviewpartner spricht wie ein Aktenordner; die Nebensache ist interessanter als die Hauptsache. Das heisst: Man muss seine Pläne ändern. Der Autor ist nicht einig mit sich selbst. Alles ist deprimierend eindeutig. Oder von einem selbst schon mehrmals beschrieben. Jeder Satz laaaaaangweilt. Das heisst: Man muss sich selbst eine Schwierigkeit einbauen. Etwa, indem man das Genre ändert. Klar ist nur eins: Das Problem, das man hat, muss am Anfang des Artikels angepackt werden, nicht in der Mitte, nicht am Schluss.“