Menu

Katharina Brunner

Bloggin' since 2007

Lesenswertes: Daten, VWL und der erste Satz

Lesenswertes der letzten Tage. Mehr lesenswerte Links findest du in der gleichnamigen Kategorie Lesenswertes.

  • Warum versagt die Volkswirtschaftslehre? – SWR2 :: Kultur Info | SWR.de – Das alte Thema: Ist die Volkswirtschaftslehre zu monothematisch, zu ideologisch, zu neoklassisch? Die Professoren Michel Burda und Helge Peukert und der Wirtschaftsjournalist Thomas Fricke streiten sich herrlich über die VWL.
  • Alberto Cairo: Data journalism needs to up its own standards » Nieman Journalism Lab – Kritik am Datenjournalismus vom Visualierungsexperten Alberto Cairo: „It is tempting for a news startup to try to be both BuzzFeed and The Economist at the same time, no matter how chimerical that goal is. Lighthearted blahblah can be done quickly and nonchalantly. Proper analytical journalism can’t. If you have a small organization, you may have to choose between producing a lot of bad stuff or publishing just a small amount of excellent stories.“
  • The Rhetoric of Data | Tow Center for Digital Journalism – Immer drandenken: „Who produced the data and what was their intent? Did it come from a reputable source, like a government or inter-governmental agency such as the UN, or was it produced by a third party corporation with an uncertain source of funding? Consider the possible political or advocacy motives of a data provider as you make inferences from that data, and do some reporting if those motives are unclear. When was the data collected? Sometimes there can be temporal drift in what data means, how it’s measured, or how it should be interpreted. Is the age of your data relevant to your interpretation? For example, in 2010 the Bureau of Labor Statistics changed the definition of long-term unemployment, which can make it important to recognize that shift when comparing data from before and after the change. Most importantly it’s necessary to ask what is measured in the data, how was it sampled, and what is ultimately depicted? Are data measurements defined accurately and in a way that they can be consistently measured? How was the data sampled from the world? Is the dataset comprehensive or is it missing pieces? If the data wasn’t randomly sampled how might that reflect a bias in your interpretation? Or have other errors been introduced into the data, for instance through typos or mistaken OCR technology? Is there uncertainty in the data that should be communicated to the reader? Has the data been cropped or filtered in a way that you have lost a potentially important piece of context that would change its interpretation? And what about aggregation or transformation? If a dataset is offered to you with only averages or medians (i.e. aggregations) you’re necessarily missing information about how the data might be distributed, or about outliers that might make interesting stories. For data that’s been transformed through some algorithmic process, such as classification, it can be helpful to know the error rates of that transformation as this can lead to additional uncertainty in the data.“
  • Der verfluchte erste Satz, Teil 1: Was ist Dein Problem? | Deadline – „In dem Drama Mensch gegen Wirklichkeit gibt es roh kartografiert vier Grossgebiete für Treibsand: Die Wirklichkeit entspricht nicht den Erwartungen des Lesers. Das Material ist absurd, abstossend, unerwartet, also gegen die Intuition oder den Geschmack des Publikums. Das heisst: Es muss mit List und Zucker präsentiert werden. Die Wirklichkeit ist sich selbst nicht klar. Das Material ist verwickelt, undeutlich, ausfasernd, unvollständig, uferlos, kurz: objektiv komplex. Das heisst: Man muss ein Ordnungssystem erfinden. Die Wirklichkeit entspricht nicht den Plänen des Autors. Die zentrale These bewahrheitet sich nur halb; die vorgesehene Hauptfigur bleibt blass; der Interviewpartner spricht wie ein Aktenordner; die Nebensache ist interessanter als die Hauptsache. Das heisst: Man muss seine Pläne ändern. Der Autor ist nicht einig mit sich selbst. Alles ist deprimierend eindeutig. Oder von einem selbst schon mehrmals beschrieben. Jeder Satz laaaaaangweilt. Das heisst: Man muss sich selbst eine Schwierigkeit einbauen. Etwa, indem man das Genre ändert. Klar ist nur eins: Das Problem, das man hat, muss am Anfang des Artikels angepackt werden, nicht in der Mitte, nicht am Schluss.“

WordPress-Zugriffszahlen analysieren: Bye-Bye Google Analytics! Hi Piwik!

Piwik ist eine Alternative zu Google Analytics

Wer auf Datenschutz Wert legt, für den ist Google Analytics nicht ideal, um die Zugriffszahlen eines Blogs zu analysieren. Die Alternative dazu heißt Piwik mit einem großen Vorteil: Die Open-Source-Software wird auf deinem eigenen Webserver installiert. Das Unabhängige Landeszentrum für Datenschutz Schleswig-Holstein schreibt in seiner Analyse von Piwik:

„Der Hauptvorteil von Piwik besteht darin, dass eine Web-Analyse-Lösung unter der vollständigen Kontrolle und Steuerung der verantwortlichen Stelle umgesetzt werden kann und die Daten allein bei dem Piwik-Verwender verbleiben. Eine Weitergabe von Nutzerdaten an Dritte mit den entsprechenden datenschutzrechtlichen Folgeproblematiken (Übermittlung oder Auftragsdatenverarbeitung) erfolgt nicht.“

Anleitung zur Installation von Piwik

Wie WordPress wird Piwik auf dem eigenen Server installiert. In Anlehnung an WordPress verweist auch Piwik auf seine „Fünf-Minuten-Installation“ – und in der Tat: Wer WordPress kann, für den ist Piwik auch kein Problem. Hier eine Anleitung in vier Schritten:

1. Schritt: Piwik via FTP auf den Server kopieren

Die Dateien auf der Piwik-Seite herunterladen und auf den eigene Server kopieren. Idealerweise in einen Unterordner der WordPress-Installation.

2. Schritt: Der Anleitung folgen

Sind die Piwik-Dateien auf dem Server muss die URL aufgerufen werden und einer Anleitung gefolgt werden. Da Piwik – wie auch WordPress – auf MySQL zurückgreift, solltest du die Zugangsdaten zu deiner Datenbank parat haben.

3. Schritt: WordPress-Plugin installieren

Nach erfolgreicher Installation ist Piwik als Web-App zu erreichen, bequemer ist natürlich der Zugriff über das WordPress-Backend. Das schaffst du mit dem „WP Piwik“-Plugin.

4. Schritt:

Standardmäßig entspricht auch Piwik nicht deutschen Datenschutzanforderungen. Deshalb musst du an zwei Stellen Anpassungen vornehmen:

  • IP-Adressen anonymisieren in der Piwik-Web-App unter Einstellungen –> Privatssphäre –> Anonymisiere die IP-Adresse von Besuchern –> „Ja“ auswählen
  • Datenschutzhinweis im Impressum inkl. Opt-Out-Funktion hinzufügen. Der Rechtsanwalt Thomas Schwenke bietet dafür auf seiner Webseite einen Text an:

    „Diese Website benutzt Piwik, eine Open-Source-Software zur statistischen Auswertung der Besucherzugriffe. Piwik verwendet sog. “Cookies”, Textdateien, die auf Ihrem Computer gespeichert werden und die eine Analyse der Benutzung der Website durch Sie ermöglichen. Die durch den Cookie erzeugten Informationen über Ihre Benutzung dieses Internetangebotes werden auf dem Server des Anbieters in Deutschland gespeichert. Die IP-Adresse wird sofort nach der Verarbeitung und vor deren Speicherung anonymisiert. Sie können die Installation der Cookies durch eine entsprechende Einstellung Ihrer Browser-Software verhindern; wir weisen Sie jedoch darauf hin, dass Sie in diesem Fall gegebenenfalls nicht sämtliche Funktionen dieser Website vollumfänglich nutzen können. [IFRAME mit Opt-Out Cookie entsprechend obiger Anleitung einsetzen]“

    Deinen Iframe-Code findest du in deinen Privatssphäre-Einstellungen ganz unten.

Fertig!

Weitere Informationen:

Lesenswertes: Homepages, Datenjournalismus und was mit Wirtschaft

Lesenswertes der letzten Tage. Mehr lesenswerte Links findest du in der gleichnamigen Kategorie Lesenswertes.

  • The death of the homepage in one simple graph – Jede. Seite. Muss. Eine. Homepage. Sein. Punkt.
  • Rebellious Economics Students Have a Point : The New Yorker – Einmal mehr haben VWL-Studenten zu einer Reform der Lehrpläne aufgerufen – mit relativ großen Presseecho. Schließlich war unter den Erstunterzeichnern des offenen Briefs auch Thomas Piketty, der mit seinem Buch "Capital in the 21st Century" die Feuilletons dominiert. Aus dem Artikel des New Yorker ein pathetischer Absatz:

    "Technical expertise is valuable. Nobody should be allowed to graduate in economics without at least a rudimentary knowledge of statistics. Exposure to theories of finance, such as the capital asset pricing model, explains a good deal about Wall Street and the business world that would otherwise remain mysterious. But economics should surely aspire to more than providing foot soldiers for the financial industry and Big Data companies."

  • How the euro was saved – FT series – FT.com

    "To the astonishment of almost everyone in the room, Angela Merkel began to cry. “Das ist nicht fair.” That is not fair, the German chancellor said angrily, tears welling in her eyes. “Ich bringe mich nicht selbst um.” I am not going to commit suicide."

  • Why Normal People Don’t Trust Data Journalism – Business Insider

    „For a start, this kind of reporting doesn’t obey any of the four golden rules of attention-seeking: novelty, controversy, celebrity and sex. Another way of putting it is: they’re boring, written by boring people and they cover boring subjects. Let’s be honest: this stuff is written for other journalists. If you’ve signed up to a life of crafting explainer tabs for Vox, or landed a gig at the Guardian writing for its datablog, good for you. But know that your work will only ever be read by dorks.“

Structured Journalism im Innovation Report der New York Times

Als ich den Tweet über den Innovation Report der New York Times gelesen habe, dachte ich an eine Übertreibung, daran, dass sich das Nieman Lab am Clickbaiting versucht. Ich lag falsch.

Es ist lustig, dass ein Bericht über die digitale Strategie der renommiertesten Zeitung der Welt schlecht lesbar in schwarz-weiß daherkommt: Ausgedruckt und eingescannt, auf manchen Seiten sind die letzten Buchstaben auf der linken Seiten abgeschnitten.

Ein paar bemerkenswerte Punkte aus dem ersten Drittel des über 80-seitigen Reports handeln von Structured Journalism:

Das Archiv ausnutzen

Die NYTimes hat 14 Millionen Artikel seit 1850, die können wiederverwertet werden und neue Entwicklungen in einen Kontext stellen. Packaging nennen sie das im Innovation Report. Das funktioniert aber nur, wenn die Artikel schnell zu finden sind.

Strukturierte Daten

Potenzial für structured journalim bei der New York Times.

Potenzial für structured journalim bei der New York Times.

Die New York Times, so steht im Bericht, verschlagwortet seine Artikel schon seit 100 Jahren – und war damit analog ein Vorreiter. Doch in der digitalen Welt sei der Umgang mit Metadaten noch nicht ideal, auch weil das teuer ist. „And here is an ugly truth about structured data: there are substantial cost to waiting.“

Beispiele aus dem Report:

  • Rezeptsammlungen konnten nie ausgenutzt werden, weil sie keine Schlagworte hatten. Schließlich wurde das per Hand nachgeholt.
  • Es wird dafür argumentiert, den Ort des Artikels festzuhalten, damit können z.B. Leser per Smartphone Geschichte auf ihren Standpunkt ausgerichtet bekommen

Wiederholbarkeit

Ein Snowfall ist cool, doch hat die Arbeit daran Wochen gedauert. Um solche aufwendigen Dinge regelmäßig machen zu können, müssen sie replizierbar sein. Die NYTimes zitiert Kevin Delaney von Quartz: „I’d rather have a Snowfall builder than a Snowfall.“ Auch das hat mit strukturierten Informationen zu tun: Code, den man mehr als einmal benutzen wird, sollte als Template zur Verfügung stehen.

Links zur Berichterstattung über den Innovation Report:

Der Innovation Report der “New York Times” – ein historisches Dokument schreibt Thomas Knüwer und fasst den gesamten Bericht zusammen

The homepage is dead, and the social web has won—even at the New York Times: Die Zugriffe auf die Startseite haben in den letzten zwei Jahren um 50 Prozent abgenommen: „That’s not necessarily a reflection of any problems at the Times but the reality of how news is now distributed on the internet“, schreibt Quartz.

The leaked New York Times innovation report is one of the key documents of this media age: Ausführliche Zusammenfassung beim Nieman Lab

Lesenswertes: Daten, Politik und Drogen

  • Lexington: When facts are weapons | The Economist – Daten nehmen auch in der politschen Debatte immer mehr Raum ein. Warum die Streitereien trotzdem verhärtet bleiben, v.a. in den USA, der Perspektive des Textes im Economist? Ganz klar: Auch Daten sind nicht neutral, je nach Methode der Erhebung kann das Ergebnis beeinflusst werden: "Alas, there is a gap between the high-minded empiricism all around, and the nasty tone of political debate. Poisonous distrust is part of the puzzle: each faction distrusts the other’s methodologies. (…) Tribal instincts nearly always trump the careful weighing of facts, especially when partisans stress that experts disagree among themselves."
  • Exclusive: Meet the Fed’s First Line of Defense Against Cyber Attacks – "The Fed is perhaps the best of the federal agencies in developing their cyber skills, outside the FBI and the National Security Agency," said Alan Paller, the director of research at the SANS Institute, which teaches cyber security courses for government employees.
  • Ralf Dahrendorf on The Politics of Frustration – Project Syndicate – "Extreme poverty breeds apathy, not rebellion. (…) What we call “terrorism” has many causes, and one must beware of facile explanations. However, the politics of frustration, of ambitions raised and then thwarted, is clearly one such cause."
  • Patrick Radden Keefe: Catching the World’s Most Notorious Drug Lord : The New Yorker – Der Aufstieg, die jahrelange Flucht und schließlich die Festnahme des mächtigsten Drogenboss' in Mexiko beschreibt der relativ lange Text im New Yorker. Einmal wurde Guzmán, genannt Chapo, fast geschnappt, weil sein BlackBerry geortet wurde. Daraufhin entwickelte er ein System, bei dem jede Nachricht an ihn, über ein zweistufiges System von Mittelsmännern ging, die über ständig wechselnde öffentliche WLAN-Zugänge Kontakt mit Guzmán aufbauten. Die D.E.A., die US-Strafvollzugsbehörde nur für Drogen, beschreibt den Analphabeten Guzmán: "He’s an illiterate son of a bitch, but he’s a street-smart motherfucker."
  • Thomas Piketty and Our New Economic Worldview — NYMag – Ökonomisches Denken, das auf Daten basiert, greift auch im politischen und medialen Diskurs immer weiter um sich. Neuestes Anzeichen: Der Erfolg von Thomas Pikettys Buch "Capital in the 21st century".

Vergleich von Texteditoren für iOS und Mac OS

Marcel Weiss von neunetz.com hat auf seinem Jahresabschluss-2013-und-gleichzeitig-Jahresausblick-2014-Podcast mehrmals das hohe Lied auf einen Texteditor gesungen: Man könne mit Python Workflows erstellen, mit WordPress integrieren und überhaupt eine ganz neue Art zu schreiben. Doch ohne iPad bleibt mir das Markdown-Paradies namens Editorial verwehrt. Auf der Suche nach Alternativen fand ich eine Liste mit iOS-Texteditoren, praktisch sortierbar nach 33 Eigenschaften in den Kategorien Synchronisation, Export, Geräten, Features.

texteditoren-ios

Dazu gibt eine Einzeldarstellung zu jedem Editor – mit den gleichen Informationen wie in der Tabelle.

Ein gutes Beispiel, um einen Datensatz sinnvoll zweimal auf einer Webseite auszugeben: Einmal als Übersicht, das andere mal als lesbare Einzelansicht.

Daten alleine sind nichts wert, gut müssen sie sein

Eines steht fest: Tech-Unternehmen wollen und brauchen die Daten ihrer Kunden, um ihre Services zu verbessern und mehr Geld zu verdienen. Daten allein sind aber kein Wert an sich. Nur gute Daten, bringen Vorteile. Im Falle von Netflix heißt das: Das Alter und Geschlecht der Nutzer ist nicht von Interesse – sind also schlechte Daten. Die Menschen sind viel zu individuell, als dass Netflix mit diesen Angaben valide Rückschlüsse auf Film- und Seriengeschmack machen könnte. Stattdessen: Was schauen die Leute? Was finden sie gut, was schlecht? Nur auf dieser Basis kann Netflix treffende Empfehlungen machen. Das ist wichtig, schreibt das Magazin Mashable:

„Between 75% to 80% of the videos that Netflix users end up watching on the service come directly from the company’s recommendations about what to watch next. To put that another way, just one fifth of the content viewed on the site is from users visiting Netflix and choosing to go through the steps of typing out the name of something they want to see. The better the suggestions Netflix can make, the more videos users will stream, and the more customers will want to continue paying for the service.“

Also, nochmal zum Mitschreiben: Gute Daten im Falle Netflix‘ sind die, die sagen, was die Leute mögen oder nicht mögen. Eigentlich ganz simpel.

And that is why we need journalists

„If we overload people with the information, and overload them with data and we just focus on the data, we do not provide any further information. So the danger to me is to create fancy visualizations just because you can without really connecting it to a narrative. If you want to provide an additional value, you always need to take data and you visualization and put it into context. And that is why we need journalists.“

Michael Bauer von School of Data

Deutschlandkarte von Lokalblogs mit D3.js

Die Drehschreibe, ein Portal der Bundeszentrale für politische Bildung für Lokaljournalismus, hat eine Deutschland-Karte mit allen Lokalzeitungen veröffentlich. Standesgemäß mit statischen Karten und weiterführenden Informationen als pdf – den Sinn davon werde ich wohl nicht verstehen. Ich gehe wohlwollend davon aus, dass es diese Auflistung auch gedruckt gibt und diese Dateien einfach exportiert und online gestellt wurden: Für Faulheit habe ich Verständnis. (mehr …)

Making of: Sitzverteilung im bayerischen Landtag

Fast wären ersten Gehversuche mit D3.js in dem ewigen Unter-unter-unter-Ordner verschwunden. Doch gestern habe ich mich doch noch einmal zusammengerissen und eine Visualisierung der Sitzverteilung im bayerischen Landtag seit 1946 fertiggestellt.
(mehr …)