Links concerning the Internet

  • Building a data culture: „self-service learning program to facilitate fun, creative introductions for the non-technical folks in your organization“
  • verwandt dazu: Data Playbook: „The Data Playbook (Beta) builds on social learning and modularized activities already developed to promote data literacy via workshops“
  • A manifesto for the Internet Age:

  • Immer wieder das gleiche Problem: Wer selbstlernende Algorithmen braucht, muss vorher Daten in guter Qualität haben. Bei der Gesichtserkennung heißt das: Viele, viele, viele Fotos mit Angaben zu Hautfarbe, Alter, Geschlecht und einer Menge anderer Eigenschaften. Und woher bekommen Firmen und Forscherinnen diese Bilder? Zum Beispiel durch Scrapen oder Bulk-Dateien der ehemaligen Foto-Plattform Flickr. Das hat zwei Probleme: Erstens ein Einbruch in die Privatssphäre. Zweitens können die Bilder dafür verwendet werden, Überwachungssoftware zu trainieren. Mehr: Facial recognition’s ‚dirty little secret‘: Millions of online photos scraped without consent

Amazons wahre Marktmacht zeigt sich an digitalen Paketen, nicht denen, die beim Nachbarn liegen

Die Journalistin Kashmir Hill macht ein Experiment: Alle Dienste der großen Internetfirmen – Amazon, Facebook, Apple, Google und Microsoft – blocken. Erst eine Woche pro Firma, am Ende eine Woche lang alle gemeinsam. Den Anfang macht Amazon. Und das erweist sich als äußerst schwierig, denn Amazon ist mit seinem Cloud-Dienst eine AWS eine unsichtbare Macht im Internet.

Die Methode, um Amazon aus ihrem Leben auszusperren: Jeglicher Traffic geht duch ein VPN, das alle IP-Adressen von Amazon sperrt: „Ultimately, though, we found Amazon was too huge to conquer.“

Und das liegt an Amazons Cloud Service AWS. Dort kann jeder seine Webseite hosten und muss sich so zum Beispiel nicht selbst darum kümmern, dass die Webseiten auch bei hohen Zugriffszahlen noch erreichbar sind. Das ist bequem (und überzeugt auch die Bundespolizei, die bei AWS die Aufnahmen von Bodycams speichert). Es ist dieser Service, der Amazon überhaupt zu einem Unternehmen macht, das Gewinn einfährt. „Tech is where the money is, baby“, schreibt Hill.

Doch Hill musste feststellen: Auch Seiten wie Airbnb, die auf AWS liegen, kann sie erreichen. Das liegt an einem zweiten Layer von Servern, die vor dem eigentlichen Sitz einer Webseite vorgeschalten werden können. Sie heißen CDN’s, das steht für Content Deliviery Networks.

The internet may seem like invisible vapor in the air around us, but it has a crucial physicality, too. AWS has huge buildings of servers around the world, while CDNs have a larger number of smaller ones. Think of AWS as the central warehouse for a site’s digital packets; the CDNs are the storefronts around the world that help people get the packets faster so that web visitors don’t have to wait for their data to come all the way from the main warehouse.

Wer seine Seite bei AWS hostet, kann auch Amazons CDN namens Cloudfare nutzen, aber genauso auch irgendeinen anderen CDN-Dienst. Der Endpunkt ist dann eine IP-Adresse des CDN-Anbieters und nicht mehr von Amazons AWS-Servern – und schwupps – das VPN-Blocking von Amazon-IP-Adressen funktioniert nicht mehr.

Links:

Viele Daten, nix dahinter

Also, dieses Maschinelle Lernen ist ja überall. Aber ist es auch überall notwendig? Oder sind die Ergebnisse oftmals, nun ja, erwartbar. Und mit ein bisschen nachdenken und präzisen Algorithmen nicht mindestens genauso zu erreichen?

This is, by the way, the dirty secret of the machine learning movement: almost everything produced by ML could have been produced, more cheaply, using a very dumb heuristic you coded up by hand, because mostly the ML is trained by feeding it examples of what humans did while following a very dumb heuristic. There’s no magic here. If you use ML to teach a computer how to sort through resumes, it will recommend you interview people with male, white-sounding names, because it turns out that’s what your HR department already does. If you ask it what video a person like you wants to see next, it will recommend some political propaganda crap, because 50% of the time 90% of the people do watch that next, because they can’t help themselves, and that’s a pretty good success rate.

Das Zitat stammt aus einem Blogpost der Gattung „schöne Mischung aus Rant und Analyse“ und hat die These: Für Empfehlungsalgorithmen braucht’s jetzt dieses viele Daten sammeln eigentlich wirklich nicht.

Mehr aus Forget privacy: you’re terrible at targeting anyway:

Probably what it does is infer my gender, age, income level, and marital status. After that, it sells me cars and gadgets if I’m a guy, and fashion if I’m a woman. Not because all guys like cars and gadgets, but because some very uncreative human got into the loop and said „please sell my car mostly to men“ and „please sell my fashion items mostly to women.“ Maybe the AI infers the wrong demographic information (I know Google has mine wrong) but it doesn’t really matter, because it’s usually mostly right, which is better than 0% right, and advertisers get some mostly demographically targeted ads, which is better than 0% targeted ads.


You know this is how it works, right? It has to be. You can infer it from how bad the ads are. Anyone can, in a few seconds, think of some stuff they really want to buy which The Algorithm has failed to offer them, all while Outbrain makes zillions of dollars sending links about car insurance to non-car-owning Manhattanites. It might as well be a 1990s late-night TV infomercial, where all they knew for sure about my demographic profile is that I was still awake.

The illusion of the Cloud

  • „[The] “cloud” is a massive interconnected physical infrastructure which exists across the world.“
  • By using cloud services from Amazon, Google, Microsoft one can outsource one’s own infrastructure setup with all it’s challenges
  • now: Infrastructure-as-a-Service
  • super-cheap hosting with a price that depends on usage and is scalable
  • „The actual infrastructure at the heart of AWS’ infrastructure-as-a-service isn’t the thing that makes it important to developers; it’s the services and APIs built on top of that infrastructure.“ (Ingrid Burrington)

Links:

Pros and Cons of a Social Index

Heather Krause writes one of my favorite newsletter. She works at Datassist, a company working with NGOs and data journalists.

Recently, she wrote about social indices:

A social index is a summary of a complex issue (or issues). Generally, social indexes take a large number of variables related to a specific topic or situation and combine them to get one number. It’s often a single number, but can also be a rank (#1 country out of 180) or a category (“high performing”).

Heather Krause

Pros of social indices:

  • attract public interest
  • allow comparisons over time
  • provide a big picture
  • „reduce vast amounts of information to a manageable size“

Cons:

  • „disguise a massive amount of inequality in the data“
  • simplistic interpretations
  • hide emerging problems of some variables

So, should we use them?

Krause says, „yes“, but …

If we’re using an index to understand a trend or situation, we also need to look at the individual elements that make up that index.

Datassist published a list with various indicators here.

Zuboff und das Zeitalter des Überwachungskapitalismus

Shoshanna Zuboff beobachtet und interpretiert die Digitalisierung seit 40 Jahren. Die Professorin an der Harvard Business School hat ein Buch geschrieben, das der Guardian in eine Reihe mit Adam Smith, Karl Marx, Max Weber, Karl Polanyi und Thomas Piketty stellt. Es heißt The Age of Surveillance Capital und es sollte bald in meinem Buchregal stehen, wie ich finde.

Ein Auszug aus einem Interview mit dem Guardian:

In my early fieldwork in the computerising offices and factories of the late 1970s and 80s, I discovered the duality of information technology: its capacity to automate but also to “informate”, which I use to mean to translate things, processes, behaviours, and so forth into information. This duality set information technology apart from earlier generations of technology: information technology produces new knowledge territories by virtue of its informating capability, always turning the world into information. The result is that these new knowledge territories become the subject of political conflict. The first conflict is over the distribution of knowledge: “Who knows?” The second is about authority: “Who decides who knows?” The third is about power: “Who decides who decides who knows?”

(…)

Surveillance capitalists were the first movers in this new world. They declared their right to know, to decide who knows, and to decide who decides. In this way they have come to dominate what I call “the division of learning in society”, which is now the central organising principle of the 21st-century social order, just as the division of labour was the key organising principle of society in the industrial age.

Shoshanna Zuboff

Ein paar Links

Year Five at Stamen: Some interessting projects and short overviews from the mapmakers of stamen

Podcast: Let’s Talk About Natural Language Processing (Data Skeptic)

Ein Rädchen in einer unendlichen Maschinerie von Checks and Balances: Finanzierungen über Kleinbeträge ist immer noch wichtig, auch wenn Blendle etc nicht so wirklich zünden. Denn Mikro-Finanzierungen sind was für kleine Medien in der Nische.

Es gibt nicht nur eine Zukunft, sondern viele Zukünfte. Sie sehen aus wie ein Trichter, je ferner, desto mehr mögliche Szenarien gibt es. Zukünfte gestalten

Pen Plotter Artwork | Gunther Kleinert

„Spinne ich, wenn ich denke, dass sie ausschließlich meine Arbeit genutzt haben?“ – SZ: Angenommen, jemand nutzt Open-Source-Code, erstellt damit Kunst – wer ist dann Urheber? Die Person, die den Code geschrieben hat? Oder die, die ihn ausgeführt hat?

Automatisierter Journalismus: Schreiben nach Zahlen

Radar ist eine Presseagentur aus Großbritannien, deren Quelle offene Daten sind. Mit Hilfe von Software schreiben Journalisten dann nicht einen Text, sondern viele Texte gleichzeitig:

Our journalists select the most promising data, mine the data to find the story, develop the different angles and then compose a template that instructs the technology on what sentence to write as it computes the numbers in the spread sheet. We are writing stories as mini-algorithms for each new set of data.


Mehr dazu in diesem Text: How RADAR became front page news: Lessons from the first year of an automated news agency

Bei der Süddeutschen Zeitung haben wir das für die Landtagswahlen im Herbst auch gemacht: Ein statistisches Modell hat jedes Stimmkreisergebnis mit allen anderen Stimmkreisen verglichen und vom Resultat abhängige Texte formuliert. Zum Beispiel für München-Mitte:

Unsere Tweets damals nach der Wahl:

Wenn die Vergangenheit aus dem Chatfenster grüßt

„Kein Hallo, kein Tschüss“ hieß ein Vortrag, den ich zusammen mit Elisabeth Gamperl beim Netzkongress 2017 hielt. Darin ging es um Freundschaft in digitalen Zeiten, diesem endlosen Strom an Nachrichten, Halbsätzen, Emojis.

Alle Nachrichten liegen auf Servern, jederzeit abrufbar und nachzulesen. Bei Facebook haben das in den letzten Tagen viele gemacht, denn durch einen Bug in Facebooks Software wurden Nutzerinnen auf alte Nachrichten aufmerksam. The Atlantic hat darüber geschrieben: The Infinite Weirdness of Never-Ending Chat Histories heißt der Text, der beides aufgreift: Das wohlige Gefühl, wenn man in die eigene Vergangenheit eintaucht, die digitale Kiste mit Briefen, Eintrittskarten, sonstigen Souvenieren des eigenen Lebens. Und das harte Aufschlagen in einer Vergangenheit :

But these threads are just as often unnerving. Chat provides an immediate portal into your past in a way that a photo doesn’t. When you look at an old picture, you’re never remembering things the way they really were—you’re projecting your own memory of that event or day. Revisiting the same period through an old chat history is different. Chat records offer concrete evidence of the way things really felt in that moment: the embarrassing slang you used, the plans you made, the idle thoughts you shared with friends. A chat history forces you to confront a version of who you are that you probably forgot about. Part of what made Facebook users affected by the bug so uncomfortable was seeing an old version of themselves pop up without warning.


Die Werkzeuge, die wir benutzen, prägen unsere Verhaltensweisen. Und mit den digitalen Nachrichtenlieferanten passieren einige neue Dinge, wie zum Beispiel:

“I switch chat platforms to avoid ever getting back to that context,” says Anushk Mittal, a developer and student in Georgia. Mittal says that if he has a bad interaction or ghosted someone on Instagram DM, for instance, he’ll often just add them on a different platform to start fresh instead of reopening the old wound. Facebook, for its part, appears to have realized how awkward these eternal histories can be. Now, when you click to message someone via their profile, a new chat window, devoid of history, appears. When that person responds, however, you’re forced back into the thread.

In die Vergangenheit gestoßen werden, das gibt es auch bei anderen Dienstleistern, wie Amazon: Schon mal alle Adressen durchgescrollt, an die du Sachen liefern lassen hast?