Menu

Katharina Brunner

Bloggin' since 2007

Zeit, was neues zu lernen

Was man so hört, sollen Datenjournalisten vor allem drei Dinge können:

      1. Generell den Umgang mit Datensätzen in Excel, csvs oder anderen Formaten
      2. Visualisierern/Darstellen/Damit Geschichten erzählen
      3. Webscraping: Denn es gibt auch interessante Dinge, die nicht schon als .xls oder .csv auf Webseiten bereit liegen.

Letzteres kann ich gar nicht. Ich hab mich vor Monaten schon einmal an Webscraping versucht. Gleich von 0 auf 100 mit Python im Terminal und R. Natürlich bin ich gnadenlos gescheitert.

Dieses Mal will ich es langsamer angehen. Erstes Projekt: Mit Tabula eine Tabelle aus einem pdf auslesen und dann die gewonnenen Daten mit Datawrapper in eine Webseite einbinden.

Here we go: Der Bundesverband deutscher Zeitungsverleger hat das Jahrbuch „Zeitungen 2012/13“ veröffentlicht. Darin befindet sich auf Seite 4 eine Tabelle mit Zahlen zur „Entwicklung der Tages-, Sonntags- und Wochenzeitungen“.

Mit dem Tool Tabula konnte ich die Daten als .csv-Datei speichern.

Nächster Schritt: Die Variablen verstehen. Sie bestehen aus folgendem: Jahr, Publizistische Einheiten, Verlage als Herausgeber, Ausgaben, Verkaufte TZ-Auflage in Mio., Sonntagszeitungen, Wochenzeitungen. Zwei davon habe ich nicht verstanden:

  • Publizistische Einheit: Dazu sagt die Wikipedia: „Die Publizistische Einheit (PE) ist ein pressestatistischer Zählbegriff, der in Deutschland jene Tageszeitungen bezeichnet, die in ihrem Mantelteil, nicht aber im Zeitungstitel weitestgehend übereinstimmen.“
  • Verlage als Herausgeber: Klingt erstmal ganz einfach, aber so klar ist es dann doch nicht. Google brachte mich auf ein Buch, indem steht, dass das alle Ausgaben sind, indem der gleiche Herausgeber im Impressum steht

Das Ergebnis:

Drei Dinge, die man daran auf die Schnelle sehen kann:

  • Das bereits seit Jahren prognostizierte Zeitungssterben ist (noch?) nicht eingetreten. Die Publizistischen Einheiten und die Verlage als Herausgeber blieben einigermaßen konstant in den letzten Jahren.
  • Auch wenn die Anzahl der Zeitungen nicht sinkt, deren Auflagen tun es allemal: Zwischen 2001 und 2012 um 5,4 Millionen.
  • Wie bei allen Zeitreihendaten zu Deutschland ist die Wiedervereinigung deutlich zu erkennen. Will man Dinge mit anderen Ländern vergleichen, sollte man das miteinbeziehen.

Schreibe einen Kommentar