Kategorien
Data + Code Kultur + Gesellschaft Medien + Internet Politik + Wirtschaft

Wo das Internet vergraben ist

Wenn ich einen Newsletter verschicke, wird die Mail auch automatisch hier veröffentlicht:


Wenn du mit deiner Fingerspitze ein 💚 in die Familien-Whatsapp-Gruppe schickst, wird die Nachricht nicht direkt von deinem Handy auf ein anderes geschickt. Sondern das 💚 passiert noch mindestens ein Rechenzentrum auf dem Weg*.

Diese Rechenzentren sind das Rückgrat des Internets. Dort lagen riesigen Hallen lagern auf blinkenden Computer unsere Daten. Firmen, Organisationen und Privatleute besitzen oder mieten solche Speicher. Und die Standorte sind vor allem von zwei Faktoren abhängig:

  • ein möglichst kurzer Weg zu schnellem Internet
  • ein möglichst effizientes Kühlen der Server

Das bedeutet zum einen: In Island, Schweden und andere kühlere Länder gibt es viele solcher Rechenzentren, zum Beispiel von Facebook und vielen anderen Firmen.

Zum anderen heißt das: Die Rechenzentren stehen da, wo es Glasfaserkabel gibt. Und wo sind diese Kabel häufig vergraben? An Eisenbahnlinien.

Für die USA zeigt das George Moore von Microsoft an der „41st parallel“, der ersten transkontinentalen Eisenbahnstrecke der Vereinigten Staaten.


Die Glasfaserkabel hat eine Tradition: Die ersten Kabel wurden für Telegramme verlegt, danach Telefonleitungen.

Moore schreibt:

After the first railway was completed, Western Union immediately established the first telecommunications corridor within the railroad right of way and was soon carrying all transcontinental telegrams. Later, as AT&T established long distance voice lines in the early-20th century, those same lines were also placed along the first transcontinental railroad. This collection of early lines grew and expanded to the vast collection of telecommunication options available in this corridor today.

In Deutschland war das ähnlich: Seit den späten Jahrzehnten des 19. Jahrhunderts wurden Telegrafen- und Telefonleitungen häufig an Eisenbahnlinien verlegt – muss man nur einmal umgraben.

* Direkt von einem Handy auf das andere werden Daten in einem sogenannten Peer-to-Peer-Netzwerk verschickt. Ein Thema für eine nächste Mail.

Andere Artikel, die ich empfehlen will:

In Schweden untersuchen Archäologen schon seit Jahrzehnten ein prächtig geschmücktes Wikinger-Grab. Selbstverständlich gingen sie dabei immer von einem Kämpfer aus. Dass es für eine Frau so ein Grab geben könnte – undenkbar. So brauchte es fast 150 Jahre bis jemand auf die Idee kam, das Geschlecht zu bestimmen. Und siehe da, es ward eine Frau. Die ganze Geschichte bei National Geographic.

Die tragische Lebensgeschichte einer Frau, die sich Eve Adams nannte und die erste Lesben-Bar in New York betrieb. Nachdem eine Undercover-Polizistin sie ihrer Homosexualität „überführt“ hatte, wurde sie deshalb nach Polen deportiert. Sie zog nach Paris und starb – sie war Jüdin, die Deutschen überfielen Frankreich – in Ausschwitz. Bei Atlas Obscura ist der Text erschienen.

Was ist Protest? Der Soziologe Dieter Rucht gibt eine Einführung in der Sendung Hörsaal des Deutschlandfunks.

Eine unfassbare Geschichte: Er gilt als der Facharzt für HIV- und AIDS-Patienten, er spricht auf Konferenzen, Journalisten fragen ihn als Experten an. Und genau dieser Arzt ist es auch, der in seiner Praxis Männer mutmaßlich belästigt und sexuell missbraucht haben soll. Ein offenes Geheimnis war das in der schwulen Szene, heißt es. Buzzfeed hat den Fall recherchiert und mit Opfern gesprochen.

Mehr oder weniger Datenschutz? In der Süddeutschen Zeitung gab es einen Pro und einen Kontra-Text. Sieger für mich: Dirk von Gehlen, der dem Mantra des Chaos Computer Clubs folgt: „Private Daten schützen, öffentliche Daten nützen“. Was kann das konkret heißen? Zum Beispiel mit allen technisch zur Verfügung stehenden Mitteln Autobahnen überwachen (das böse Wort!), damit niemand schneller als die erlaubte Höchstgeschwindigkeit fährt. In Deutschland wird sie ja weiterhin gern als Mindestgeschwindigkeit interpretiert. Und was passiert dann mit diesen Daten? Also welchen Auto mit welchem Kennzeichen fährt wo wie schnell? Das sind Dinge, die ausgehandelt werden müssen.

Und hier beginnt meine Skepsis: Ob das klappt? Gegenbeispiele gibt es genug. So hat der Bayerische Rundfunk gerade zusammen mit ProPublica herausgefunden, dass viele Patieninformationen aus der Radiologie einfach so im Internet liegen. Die Geräte wie ein MRT schicken die Bilder an einen Server und wer weiß, wie dieser Rechner zu finden ist, kann sich auch die Bilder und Daten holen.

Zum Abschluss:

Das Bild zeigt Flüge innerhalb von 24 Stunden in Europa. Topi Tjukanov visualisiert geografische Informationen wunderschön.

Eine schöne Zeit,

Katharina

Kategorien
Data + Code

Einen neuen Begriff gelernt. Heute: Data Craft

Data Craft, auf Deutsch vielleicht zu übersetzen mit Datenhandwerk (Wer weiß was besseres?), bezeichnet die Taktik, die Wirkungsmechanismen digitaler Plattformen zu den eigenen Gunsten auszunutzen.

Der Kern der Data Craft ist es, die Metadaten der Plattformen zu manipulieren. Der einfachste Zusammenhang: Mehr Likes –> mehr Sichtbarkeit –> mehr Einfluss.

Dem Begriff bin ich im Aufsatz „Data craft: a theory/methods package for critical internet studies“ begegnet, der diese Manipulationen am Beispiel der „Black Lives Matter“-Bewegung erläutert.

Ein Beispiel: Facebook-Seiten, die sich als der „Black Lives Matter“-Bewegung zugehörig ausgeben. Sie posten, erstellen Veranstaltungen, agieren nicht als Bots, sondern als händisch gefüllte Facebook-Page. Doch sie linken auf Konservative Medien, verkaufen Merchandise oder posten Spam.

Cloaked accounts (deutsch: getarnte Accounts) nennen das die Autorinnen. Und das Ausnutzen der Metdadaten-Manipulation machte sie, erstens, überhaupt möglich. Und führte, zweitens, dazu, dass diese Daten schlussendlich auch aufgeflogen sind:

By closely reading for spammy or noisy data and comparing these signals with legitimate organizing and user interactions on the platform, these manipulation tactics were caught by activists, researchers, and journalists before Facebook discovered these pages as coordinated inauthentic behavior. Without reading these manipulated metadata within the organic context of the platform and alongside other social movement organizing, it is unlikely that the data craft tactics from these exploited pages would have been identified automatically as coordinated inauthentic behavior by platform corporations.

Eine Übersicht von Methoden, Manipulationen auf die Spur zu kommen:

P.S.: Eine der Autorinnen, Joan Donavan, hat eine der besten Webseiten. Have a look <3

Kategorien
Data + Code

Mit Daten arbeiten und ihnen gegenüber skeptisch sein, ist kein Widerspruch – im Gegenteil

I’m a data scientist who is skeptical about data schreibt Andrea Jones-Rooy bei Quartz. Da gibts viel zu zitieren:

Whether it’s curing cancer, solving workplace inequality, or winning elections, data is now perceived as being the Rosetta stone for cracking the code of pretty much all of human existence.

But in the frenzy, we’ve conflated data with truth. And this has dangerous implications for our ability to understand, explain, and improve the things we care about.

(…)

“What does the data say?”

Data doesn’t say anything. Humans say things. They say what they notice or look for in data—data that only exists in the first place because humans chose to collect it, and they collected it using human-made tools.

Data can’t say anything about an issue any more than a hammer can build a house or almond meal can make a macaron. Data is a necessary ingredient in discovery, but you need a human to select it, shape it, and then turn it into an insight.

(…)

Data is an imperfect approximation of some aspect of the world at a certain time and place.

(…)
Companies—and my students—are so obsessed with being on the cutting edge of methodologies that they’re skipping the deeper question: Why are we measuring this in this way in the first place? Is there another way we could more thoroughly understand people? And, given the data we have, how can we adjust our filters to reduce some of this bias?

(…)

This doesn’t mean throw out data. It means that when we include evidence in our analysis, we should think about the biases that have affected their reliability. We should not just ask “what does it say?” but ask, “who collected it, how did they do it, and how did those decisions affect the results?”

We need to question data rather than assuming that just because we’ve assigned a number to something that it’s suddenly the cold, hard Truth. When you encounter a study or dataset, I urge you to ask: What might be missing from this picture? What’s another way to consider what happened? And what does this particular measure rule in, rule out, or incentivize?

Kategorien
Data + Code Medien + Internet Politik + Wirtschaft

Pros and Cons of a Social Index

Heather Krause writes one of my favorite newsletter. She works at Datassist, a company working with NGOs and data journalists.

Recently, she wrote about social indices:

A social index is a summary of a complex issue (or issues). Generally, social indexes take a large number of variables related to a specific topic or situation and combine them to get one number. It’s often a single number, but can also be a rank (#1 country out of 180) or a category (“high performing”).

Heather Krause

Pros of social indices:

  • attract public interest
  • allow comparisons over time
  • provide a big picture
  • „reduce vast amounts of information to a manageable size“

Cons:

  • „disguise a massive amount of inequality in the data“
  • simplistic interpretations
  • hide emerging problems of some variables

So, should we use them?

Krause says, „yes“, but …

If we’re using an index to understand a trend or situation, we also need to look at the individual elements that make up that index.

Datassist published a list with various indicators here.

Kategorien
Data + Code

Sorry, auch Datenanalysen sind nicht der Heilige Gral der Objektivität

Datenanalysen sind nicht neutral: Jede Entscheidung über Variablen oder Methodik ist schlussendlich auch eine inhaltliche Entscheidung. Das zeigt anschaulich eine Studie, über die das Spektrum Magazin schreibt:

Bekommen schwarze Fußballspieler häufiger rote Karten als Nicht-Schwarze? Das war die Frage, auf die Forscherinnen und Forscher 29 verschiedene Antworten gaben. Die Ergebnisse unterscheiden sich zum Teil deutlich und widersprachen sich auch. Und das, obwohl alle den exakt gleichen Datensatz zur Verfügung hatten.

Die Unterschiede ergeben sich zum Beispiel aus folgenden Punkten:

  • Was sind die Annahmen über die Verteilung der Daten?
  • Können sich Schiedsrichter und Spieler beeinflussen?
  • Sind rote Karten voneinander unabhängig?
  • Werden alle Variablen in die Analyse miteinbezogen? „Gut zwei Drittel der Teams hatten beispielsweise die Position des Spielers auf dem Platz berücksichtigt, aber nur drei Prozent die Gesamtzahl der Platzverweise, die ein Schiedsrichter verhängte.“

Und was folgt daraus? Sind Analysen nicht mehr zu trauen? Natürlich nicht, aber wie so oft hilft ein Bewusstsein, dass auch Datenanalysen keine in Stein gemeisselten Ergebnisse produzieren. Wie im Journalismus gilt auch hier: Transparenz erhöht die Glaubwürdigkeit.

The best defense against subjectivity in science is to expose it. Transparency in data, methods, and process gives the rest of the community opportunity to see the decisions, question them, offer alternatives, and test these alternatives in further research.

Studie „Many Analysts, One Data Set“

Hat eine schwarze Hautfarbe nun Einfluss auf Platzverweise? Zwei Drittel der Analysen sagen „ja“, ein Drittel „nein“.

via WZB Data Science Blog

Kategorien
Data + Code Lesenswertes

Eine kurze Leseliste zu Algorithmen

Die sieben Todsünden der Prognosen über die Zukunft der KI
Ein langer, schlauer Text des MIT-Professors Rodney Brooks, der gängige Annahmen zur Künstlichen Intelligenz auseinanander nimmt.

In Kürze auf diesem Bild:

A.I. Is Our Future. What Happens When the Data It’s Trained on Is Biased and Old?
Algorithmen können unfair sein und gesellschaftliche Vorurteile weitertragen. Das sagt sich leicht, aber wie funktioniert das konkret? Zum Beispiel über die Trainingsdaten. Ein häufig benutzter Datensatz, um E-Mails zu analysieren, sind Mails der Firma Enron. Also derjenigen Firma, die noch immer als der Inbegriff des Bilanzbetrugs gilt. Die Mails hat 2003 die amerikanische Federal Energy Regulatory Commission veröffentlicht: 1,6 Millionen E-Mails zwischen Enron-Mitarbeitern.

„If you think there might be significant biases embedded in emails sent among employees of a Texas oil-and-gas company that collapsed under federal investigation for fraud stemming from systemic, institutionalized unethical culture, you’d be right. (…) Researchers have used the Enron emails specifically to analyze gender bias and power dynamics.“ In other words, the most popular email data set for training A.I. has also been recognized by researchers as something that’s useful for studying misogyny, and our machines may be learning to display the same toxic masculinity as the Enron execs.

The algorithm is innocent

Googles „Top Stories“-Box, ganz oben unten dem Suchfenster, ist für Nachrichten gedacht. Wenn dort ein Link zu 4chan erscheint, einer Seite, die – nun ja – nicht gerade für validierte Informationen steht, dann ist etwas schief gelaufen. Googles Reaktion? Der Algorithmus war schuld. „Blaming the algorithm has gotten pretty common“, heißt es bei The Outline. Doch das ist falsch: Der Algorithmus, die Anweisung an den Computer hat funktioniert, er kann ausgeführt werden. Das Problem sind die Annahmen dahinter:

A truly faulty algorithm would be like a computer program that does not compile or catches itself in an infinite loop. These algorithms are executing; they are doing what they were designed to do. The problem is that they are not designed to exclude misinformation or account for bias.

So lässt sich die potenzielle Wirkung algorithmischer Entscheidungen bestimmen

Wie groß ist der Einfluss von Algorithmen auf die Gesellschaft? Und wie groß soll deshalb im Umkehrschluss die gesellschaftliche Teilhabe sein? Bei „Algorithmenethik“, einer Webseite der Bertelsmann Stiftung, haben sich zwei Wissenschaftler an einem Index versucht. Das Prinzip: je höher der Einfluss der Akteure, je stärker die soziale Einbettung und je gewichtiger die Konsequenzen, desto höher ist das Teilhabewirkungspotenzial.

Kategorien
Data + Code

Daten sind das neue Öl: Hier tauchte der viel zu oft genutzte Satz das erste Mal auf

Ein Marketing-Mensch namens Clive Humby ist für die beliebte Bezeichnung verantwortlich. Damals, im November 2006:

Data is just like crude. It’s valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc to create a valuable entity that drives profitable activity; so must data be broken down, analyzed for it to have value.

Kategorien
Data + Code Politik + Wirtschaft

The Fallen of WW II

Kategorien
Data + Code

Die gesammelten Quartz-Regeln zu y-Achsen

Eine der ersten Regeln bei Datenvisualisierungen: Die y-Achse vollständig angeben.

Wer die Regeln, darf sie auch brechen: Quartz erläutert, warum sie nicht immer die y-Achse bis zu 0 anzeigen

„Charts should convey information and make a point. We make charts to illustrate ideas that have context beyond their x- and y-axes. Forcing the y-axis to start at zero can do just as much to obscure and confuse the point as the opposite.“

(…)

First, this is why charts have scales. Blaming a chart’s creator for a reader who doesn’t look at clearly labeled axes is like blaming a supermarket for selling someone food he’s allergic to.

Second, the degree to which the chart emphasizes certain aspects of the data is a judgement of storytelling not chart-making. Sure, this mindset can yield misleading displays, but how is that different than words? Charts should be fair, not impartial.“

Zusammengefasst die fünf Quartz-Regeln zu y-Achsen:

  • Truncate the y-axis when small movements are important.
  • Truncate the y-axis when zero values are ridiculous.
  • Use a zeroed y-axis when it doesn’t matter.
  • Always use a zeroed y-axis with column and bar charts.
  • Never use a zeroed axis on a log scale.

via @a_sator

Kategorien
Data + Code

Leaflet.js: Regensburg und seine Migranten

Ein bisschen mit Karten spielen Teil 2322: Dieses Mal mit Migranten in Regensburg.

Die Daten habe ich mit Tabula aus dem Vierteljahresbericht 2013 der Stadt Regensburg gescrapt. Sie waren die ersten, die Angaben zu Stadtteilen hatten und mir untergekommen sind. Die Geodaten der Stadtteile habe ich ebenfalls von offizieller Stelle.

In der Vergangenheit hatte ich immer das Problem, diese zwei Datensätze zusammenzufügen. Nachdem ich im letzten Wintersemester eine Vorlesung zu GIS belegt habe, war mir klar, dass das der way to go ist: Mit GIS-Software mergen – und nicht in der Kommandozeile, so wie ich das vor etwa einem Jahr probiert hatte. Das Ende vom Lied waren zwei neue Benutzer auf meinem Computer. Das passiert, wenn man Copy-Pasted und keine Ahnung hat davon …

Also: Wie Geodaten, zum Beispiel eine im Geojson-Format und eine csv-Datei zusammenfügen? Mit der Open-Source-Software QGIS. In der Uni haben wir ArcGIS benutzt, aber QGIS ist dem sehr, sehr ähnlich.

Aber dabei gibt es ein Problem: Alle Einträge der csv-Datei sind automatisch Strings. Es gibt aber einen Weg, das zu verhindern. Dazu muss man eine zweite Datei erstellen, die denselben Namen wie die .csv-Datei trägt, jedoch mit der Endlung .csvt. In diese .csvt-Datei werden dann in einer Zeile die Datentypen notiert. Zum Beispiel:

"string", "integer", "real"

Danach muss die Datei über Layer –> Delimited Tab Layer importiert werden. Dadurch werden die Datentypen automatisch erkannt, solange die .csv und .csvt-Datei den gleichen Namen haben und im gleichen Ordner liegen.

Andere Varianten, um die .csv-Datei in QGIS zu laden, wie einfach reinziehen oder als Vector Layer zu laden, haben bei immer dazu geführt, dass alle Datenpunkte wieder Strings waren.

Wo waren wir? Wir haben eine Datensatz mit passenden Datentypen und die Geodaten zusammengeführt. Diese kann nun exportiert werden und dann als Geojson-Datei zum Beispiel in Leaflet weiterverarbeitet werden.

Doch halt! So leicht ging es nicht. Die direkt aus QGIS exportierte Datei wurde bei mir über Leaflet nicht ausgespielt. Erst wenn ich sie bei CartoDB hochgeladen und wieder exportiert habe, hat es funktioniert. Weiß der Geier, warum.

Das Ergebnis: Eine Karte mit Leaflet. Für die Klassifizierung, Infobox und Legende habe ich das Leaflet-Tutorial benutzt.

Und nun? So ganz ohne Kontext ist das ein bisschen langweilig. Deshalb habe ich mir überlegt, Texte zum Thema von der Mittelbayerischen Zeitung und Regensburg Digital einfließen zu lassen. Doch: Bei beiden Medien ist nicht möglich, Artikel zu diesem Thema einigermaßen automatisiert, z.B. via Feed, auszulesen. Bei Regensburg-Digital finde ich zum Beispiel nur das Schlagwort „Flüchtlinge“, bei der Mittelbayerischen gar keine Tags. Über einen Alert bei Google News würde zu viel Unpassendes mitgeschwemmt und für eine händische Auswahl, die in zwei Tagen wieder obsolet wäre, fehlt mir die Motivation. Dann eben nur die Karte.