Menu

Katharina Brunner

Bloggin' since 2007

Eine kurze Leseliste zu Algorithmen

Die sieben Todsünden der Prognosen über die Zukunft der KI
Ein langer, schlauer Text des MIT-Professors Rodney Brooks, der gängige Annahmen zur Künstlichen Intelligenz auseinanander nimmt.

In Kürze auf diesem Bild:

A.I. Is Our Future. What Happens When the Data It’s Trained on Is Biased and Old?
Algorithmen können unfair sein und gesellschaftliche Vorurteile weitertragen. Das sagt sich leicht, aber wie funktioniert das konkret? Zum Beispiel über die Trainingsdaten. Ein häufig benutzter Datensatz, um E-Mails zu analysieren, sind Mails der Firma Enron. Also derjenigen Firma, die noch immer als der Inbegriff des Bilanzbetrugs gilt. Die Mails hat 2003 die amerikanische Federal Energy Regulatory Commission veröffentlicht: 1,6 Millionen E-Mails zwischen Enron-Mitarbeitern.

„If you think there might be significant biases embedded in emails sent among employees of a Texas oil-and-gas company that collapsed under federal investigation for fraud stemming from systemic, institutionalized unethical culture, you’d be right. (…) Researchers have used the Enron emails specifically to analyze gender bias and power dynamics.“ In other words, the most popular email data set for training A.I. has also been recognized by researchers as something that’s useful for studying misogyny, and our machines may be learning to display the same toxic masculinity as the Enron execs.

The algorithm is innocent

Googles „Top Stories“-Box, ganz oben unten dem Suchfenster, ist für Nachrichten gedacht. Wenn dort ein Link zu 4chan erscheint, einer Seite, die – nun ja – nicht gerade für validierte Informationen steht, dann ist etwas schief gelaufen. Googles Reaktion? Der Algorithmus war schuld. „Blaming the algorithm has gotten pretty common“, heißt es bei The Outline. Doch das ist falsch: Der Algorithmus, die Anweisung an den Computer hat funktioniert, er kann ausgeführt werden. Das Problem sind die Annahmen dahinter:

A truly faulty algorithm would be like a computer program that does not compile or catches itself in an infinite loop. These algorithms are executing; they are doing what they were designed to do. The problem is that they are not designed to exclude misinformation or account for bias.

So lässt sich die potenzielle Wirkung algorithmischer Entscheidungen bestimmen

Wie groß ist der Einfluss von Algorithmen auf die Gesellschaft? Und wie groß soll deshalb im Umkehrschluss die gesellschaftliche Teilhabe sein? Bei „Algorithmenethik“, einer Webseite der Bertelsmann Stiftung, haben sich zwei Wissenschaftler an einem Index versucht. Das Prinzip: je höher der Einfluss der Akteure, je stärker die soziale Einbettung und je gewichtiger die Konsequenzen, desto höher ist das Teilhabewirkungspotenzial.

Lesenswertes: China, EU, Open Data

Why do young rural women in China become mistresses?

Über die Motive, Herkunft und Folgen für die Frauen. Sich eine Freundin zu halten ist ein Zeichen von Macht:

Keeping a woman is common among powerful Chinese men. A study by the Crisis Management Centre at Renmin University in Beijing, published this January, showed that 95 per cent of corrupt officials had illicit affairs, usually paid for, and 60 per cent of them had kept a mistress.

Was hat diese Frau mit dem Brexit zu tun? – Zeit

Die Frau aus der Überschrift ist ein syrischer Flüchtling mit Kind im Arm. Bernd Ulrich versucht sich in der Zeit daran, sie mit der schlechten Situation der EU in Verbindung zu bringen.

„Und doch, es gibt sie noch, die Außenwelt, die Wirklichkeit, und in der geht etwas vor, das die sogenannte Krise der EU erklärt: Die Mauer zwischen Erster und Dritter Welt ist dabei zu fallen. Die Globalisierung ist an ihrem dialektischen Punkt angekommen, sie geht nicht mehr nur in eine Richtung, von Norden nach Süden, sie kommt jetzt auch zurück: in Gestalt von wirtschaftlicher Konkurrenz wie auch in der von Flüchtlingen und von Terrorismus.

Zugleich hat dieselbe Globalisierung die realen und erst recht die gefühlten Unterschiede zwischen Arm und Reich in den westlichen Ländern zuweilen bis ins Obszöne hinein vergrößert. Zwei Gerechtigkeitsfragen kommen jetzt zusammen, nein, sie prallen brutal aufeinander.
(…)

Liberale Internationalisten gegen autoritäre Nationalisten, so ließe sich die aktuelle globale Alternative umreißen.

Die Macht dieser neuen politischen Polarisierung ist so groß, dass sie in den meisten westlichen Staaten gerade in hohem Tempo das bisherige Parteiensystem zerschmettert. Die konservativen Parteien spalten sich, die sozialdemokratischen zerbröseln, die Ränder bedrängen die Mitte.

Eine globale Revolution findet also statt, die Überwindung der letzten großen Grenze, der letzten Mega-Ungerechtigkeit – oder aber eine globale Konterrevolution, der Versuch also, dies mit immensen aggressiven Energien zu verhindern.“

 

The Power of Open Data

Open Data und Transparanz müssen nichts miteinander zu tun haben, argumentiert Nicolas Kayser-Bril. Es war ein Fehler der Open-Data-Bewegung, diese beiden Dinge so eng miteinander in Verbindung zu bringen.

Denn: Wenn staatliche Institutionen selbst aussuchen, welche Datensätze sie ins Internet stellen, muss das nicht unbedingt die Transparenz erhöhen. Auch wenn mit den Standorten von öffentlichen Toiletten in maschinenlesbarer Form Projekte umgesetzt werden können – der große Wurf, Entscheidungen des Staates zu überprüfen, ist das sicherlich nicht.

„Infrastructure data is needed, and it should be free. However, it does not imply in the least that the government providing it commits to transparency. The two issues – infrastructure data and transparency – must be addressed independently. If not, open data offers governments a handy excuse to cramp down on existing transparency laws.“

 

 

 

 

Wie ungleich hätten Sie’s denn gern?

Makronom über verschiedene Wege Ungleichheit zu messen: Die nächste Stufe der Ungleichheitsmessung

  1. die horizontale Ungleichheit,
  2. die Mittelschicht und die Verteilung von Einkommen mit Ausnahme der Spitzengruppe
  3. und die Spitzengruppe der Einkommensverteilung.

Diese Entwicklung korrespondiert mit der Entwicklung der gesellschaftlichen Interessen: Von der Frage, wie ein typischer Arbeiter im Vergleich zu einem typischen Bauern abschneidet, über die Frage, wie ungleich eine Gesellschaft und wie groß die Mittelschicht ist, hin zu der Frage, wie reich die obersten 1% sind.

Jetzt, nicht zuletzt durch Piketty:

  • allgemeine Verteilung, die z.B. Gini-Koeffizient zeigt, ist out
  • jetzt im Trend: Anteil der Spitzenverdiener mit Hilfe von Steuerdaten (anstatt Haushaltsbefragungen, die i.d.R. Reiche unterschätzen)

Probleme mit Steuerdaten:

  • jeder hat Anreiz seine Steuerlast zu minimieren
  • gerade sehr reiche Menschen verstecken nicht selten ihr Vermögen

Information, Wissen, Verschwörungstheorie

Daten sind das neue Öl: Hier tauchte der viel zu oft genutzte Satz das erste Mal auf

Ein Marketing-Mensch namens Clive Humby ist für die beliebte Bezeichnung verantwortlich. Damals, im November 2006:

Data is just like crude. It’s valuable, but if unrefined it cannot really be used. It has to be changed into gas, plastic, chemicals, etc to create a valuable entity that drives profitable activity; so must data be broken down, analyzed for it to have value.

The Fallen of WW II

Die gesammelten Quartz-Regeln zu y-Achsen

Eine der ersten Regeln bei Datenvisualisierungen: Die y-Achse vollständig angeben.

Wer die Regeln, darf sie auch brechen: Quartz erläutert, warum sie nicht immer die y-Achse bis zu 0 anzeigen

„Charts should convey information and make a point. We make charts to illustrate ideas that have context beyond their x- and y-axes. Forcing the y-axis to start at zero can do just as much to obscure and confuse the point as the opposite.“

(…)

First, this is why charts have scales. Blaming a chart’s creator for a reader who doesn’t look at clearly labeled axes is like blaming a supermarket for selling someone food he’s allergic to.

Second, the degree to which the chart emphasizes certain aspects of the data is a judgement of storytelling not chart-making. Sure, this mindset can yield misleading displays, but how is that different than words? Charts should be fair, not impartial.“

Zusammengefasst die fünf Quartz-Regeln zu y-Achsen:

  • Truncate the y-axis when small movements are important.
  • Truncate the y-axis when zero values are ridiculous.
  • Use a zeroed y-axis when it doesn’t matter.
  • Always use a zeroed y-axis with column and bar charts.
  • Never use a zeroed axis on a log scale.

via @a_sator

Leaflet.js: Regensburg und seine Migranten

Ein bisschen mit Karten spielen Teil 2322: Dieses Mal mit Migranten in Regensburg.

Die Daten habe ich mit Tabula aus dem Vierteljahresbericht 2013 der Stadt Regensburg gescrapt. Sie waren die ersten, die Angaben zu Stadtteilen hatten und mir untergekommen sind. Die Geodaten der Stadtteile habe ich ebenfalls von offizieller Stelle.

In der Vergangenheit hatte ich immer das Problem, diese zwei Datensätze zusammenzufügen. Nachdem ich im letzten Wintersemester eine Vorlesung zu GIS belegt habe, war mir klar, dass das der way to go ist: Mit GIS-Software mergen – und nicht in der Kommandozeile, so wie ich das vor etwa einem Jahr probiert hatte. Das Ende vom Lied waren zwei neue Benutzer auf meinem Computer. Das passiert, wenn man Copy-Pasted und keine Ahnung hat davon …

Also: Wie Geodaten, zum Beispiel eine im Geojson-Format und eine csv-Datei zusammenfügen? Mit der Open-Source-Software QGIS. In der Uni haben wir ArcGIS benutzt, aber QGIS ist dem sehr, sehr ähnlich.

Aber dabei gibt es ein Problem: Alle Einträge der csv-Datei sind automatisch Strings. Es gibt aber einen Weg, das zu verhindern. Dazu muss man eine zweite Datei erstellen, die denselben Namen wie die .csv-Datei trägt, jedoch mit der Endlung .csvt. In diese .csvt-Datei werden dann in einer Zeile die Datentypen notiert. Zum Beispiel:

"string", "integer", "real"

Danach muss die Datei über Layer –> Delimited Tab Layer importiert werden. Dadurch werden die Datentypen automatisch erkannt, solange die .csv und .csvt-Datei den gleichen Namen haben und im gleichen Ordner liegen.

Andere Varianten, um die .csv-Datei in QGIS zu laden, wie einfach reinziehen oder als Vector Layer zu laden, haben bei immer dazu geführt, dass alle Datenpunkte wieder Strings waren.

Wo waren wir? Wir haben eine Datensatz mit passenden Datentypen und die Geodaten zusammengeführt. Diese kann nun exportiert werden und dann als Geojson-Datei zum Beispiel in Leaflet weiterverarbeitet werden.

Doch halt! So leicht ging es nicht. Die direkt aus QGIS exportierte Datei wurde bei mir über Leaflet nicht ausgespielt. Erst wenn ich sie bei CartoDB hochgeladen und wieder exportiert habe, hat es funktioniert. Weiß der Geier, warum.

Das Ergebnis: Eine Karte mit Leaflet. Für die Klassifizierung, Infobox und Legende habe ich das Leaflet-Tutorial benutzt.

Und nun? So ganz ohne Kontext ist das ein bisschen langweilig. Deshalb habe ich mir überlegt, Texte zum Thema von der Mittelbayerischen Zeitung und Regensburg Digital einfließen zu lassen. Doch: Bei beiden Medien ist nicht möglich, Artikel zu diesem Thema einigermaßen automatisiert, z.B. via Feed, auszulesen. Bei Regensburg-Digital finde ich zum Beispiel nur das Schlagwort „Flüchtlinge“, bei der Mittelbayerischen gar keine Tags. Über einen Alert bei Google News würde zu viel Unpassendes mitgeschwemmt und für eine händische Auswahl, die in zwei Tagen wieder obsolet wäre, fehlt mir die Motivation. Dann eben nur die Karte.

NewsLynx: Neues Tool soll Erfolg von Journalismus qualitativ und quantitativ ermitteln

Die Frage nach dem Erfolg von Online-Journalismus ist nur oberflächig leicht zu beantworten. Selbst die Einsicht, dass Klickzahlen nicht das gelbe vom Ei sind und eine Menge Fehlanreize in sich bergen, bringen den ambitionierten Online-Journalismus-Versteher nur in das Basislager des Wie-einflußreich-ist-Journalismus-Berges.

Drei junge News-Nerds versuchen nun, gesponsort mit Geldern des Tow-Centers for Digital Journalism, das Problem, wie Einfluss online gemessen werden kann, zu verstehen.

  • Brian Abelson hat bei der New York Times PAR („Pageviews above replacement“) entwickelt. Vor ein paar Monaten schrieb ich dazu bei den Netzpiloten:

    Im Sommer veröffentlichte Abelson seinen Ansatz. Er nennt ihn PAR, kurz für “Pageviews above replacement”. Die grundlegene Überlegung ist folgende: Der Erfolg eines Artikels – gemessen in Page Views – hängt nicht nur von Zugriffen ab, sondern auch davon, wie viel Werbung dafür gemacht wurde. Es muss also herausgerechnet werden, wenn Facebook- und Twitter-Accounts der NY Times den Text geteilt haben oder ob er auf der Startseite stand. Der PAR-Indikator stellt die Page Views in Relation zu den getroffenen Werbemaßnahmen. Abelson ist sich der begrenzten Aussagekraft bewusst: “Der PAR-Ansatz ist ein Pflaster.” Ein Pflaster das helfe, den Aufwand zu messen, den eine Nachrichtenseite aufbringen müsse, um ein bestimmtes Ziel zu erreichen.

  • Der zweite im Bunde ist Stijn Debrouwere, dessen Serie zur Informationsarchitektur bei Nachrichtenseiten zum Besten gehört, was ich zu diesem Themenbereich je gelesen habe.

  • Der dritte ist Michael Keller, den ich bis zur Google-Suche vor einer halben Minute nicht kannte. Er ist offenbar Multimedia-Journalist bei Al-Jazeera. Mehr zu ihm auf seiner Webseite.

Diese drei arbeiten zusammen an NewsLynx, das quantitativ und qualitativ auswerten soll, welchen Einfluß bestimmte journalistische Inhalte haben.

Noch sind die Aussagen ziemlich wage, aber die „Preliminary Feature List“ lässt auf einiges hoffen:

While we’re just getting started, here’s a sense of what NewsLynx will include:

  • Tracking of social media “mentions” and “likes” over time on Twitter and Facebook.
  • Tracking of mentions by lists of people, e.g. local and national representatives, other journalists, or institutional representatives.
  • Integration with Google Analytics and other metric providers.
  • A Google Alert-like river of mentions that can be approved and associated with a given article.
  • A Customizable qualitative taxonomy and tagging system.
  • An interface for recording “impact” events not tied to automatic processes.
  • “If-This-Then-Impact” recipes for custom combinations of events that should trigger an event to be recorded.
  • A report generator for distributing impact assessments to staff, board members, and financial backers.

Warum dieses Vorhaben nicht trivial ist, schreiben die drei in einem Blogbeitrag bei Tow auf: Das Hyperlinks-System, wie es der Erfinder des WWW, Tim Berners Lee, erdacht hat, ist nicht darauf ausgelegt, getrackt zu werden. Denn diese Links sind Einbahnstraßen. Sie zeigen in eine Richtung; das Ziel hat aber nicht gespeichert, woher der Verweis kam.

The inefficiency of one-way links left a hole at the center of the web for a powerful player to step in and play librarian. As a result, if you want to know how your content lives online, you have to go shopping for analytics. To effectively monitor the life of an article, newsrooms currently use a host of services from trackbacks and Google Alerts to Twitter searches and ad hoc scanning. Short link services break web links even further. Instead of one canonical URL for a page, you can have a bit.ly, t.co, j.mp or thousands of other custom domains.

Mit sogenannten „recipes“ wollen sie dieses Problem lösen, indem sie dadurch eine Art „two-way-linking-system“ entwickeln. Die Serpentinen auf den Everest der Erfolgsmessung sollen damit, um in der Metapher der Einbahnstraße zu bleiben, in beide Richtungen befahrbar sein.

Noch kann an NewsLynx nicht ausprobieren, aber Medien können eine Umfrage ausfüllen und unten ankreuzen, dass sie das Tool gerne ausprobieren würden. Wäre ich Head-of-Data-Analysis von I-wanna-own-online-Media, ich würde keine Sekunde zögern …

IT im Gesundheitsbereich: Software und Algorithmen im Klinik-Alltag

Dass die Digitalisierung alle Bereiche umfasst, ist eine Binsenweisheit. Doch wie das jetzt so in Branchen abläuft, mit denen man nicht oft zu tun hat, bleibt dann doch meistens ein Rätsel.

Einen Einblick in die Software und Algorithmen bei Krankenhäusern bietet das Projekt „Looking into Black Bloxes“. „Algorithmen, Triage und Mobile Visite“ ist die erste Folge von „Looking into Black Boxes“, das ich vor ein paar Monaten bei ihrer Crowdfunding-Aktion unterstützt habe.

Ihre Selbstbeschreibung:

Wir rechnen nicht nur mit Computern, wir leben auch mit ihnen. Aber wie geht das eigentlich?

Eine Aussage aus dem Video:

Reporterin: „Verlässt man sich nicht viel zu sehr auf diese Software?“

IT-Leiter des Unfallkrankenhauses Berlin: „Das hoffe ich mal, dass das die Kollegen nicht tun. IT kann denken nicht ersetzen. Es ist nur eine Unterstützung. Ein Patient braucht immer einen Arzt und die Pflege.“