Auch bei Datenarbeit geht’s nicht ohne: Kontext, Kontext, Kontext

data management is the art of manipulating, destroying, preserving, transmitting context.

Das schreibt Randy Au in der aktuellen Ausgabe seines sehr lesenswerten Newsletters.

Wer mit Daten arbeitet, weiß: Die Werte in Zeilen, Spalten, die keys und die dazugehörigen values, das ist die eine Sache. Die andere, unterschwellige, nicht so sichtbare und deshalb leichter zu übersehende: der Kontext. Darunter fallen verschiedenste Aspekte: Wann wurden die Daten von wem unter welchen Umständen erhoben? Was sind die Grenzen der Aussagekraft? Was bedeuten fehlende Werte? Wurden bestimmte Werte rausgefiltert und warum?

Zusammengefasst heißt das oft Domänenwissen. Und das lässt sich nicht so leicht weitergeben wie eine Tabelle, die in zwei Augenblicken bei jemand anderen angekommen ist.

Passing this context along is the “Last Boss” of data work. It involves a lot of documentation work that few people want to do. All those hours spent writing up careful notes, articulating assumptions, diagraming all the states that complicated processes can take, can all disappear with the next code release. This leads to the situation we’re all too familiar with — lots of this domain knowledge becomes tacit and eventually lost.

Even if documentation were updated religiously by everyone, it also requires people to actually read the documentation (gasp!) that is already produced. How many if us have actually read the handbooks for data users of the US Census data? I certainly haven’t. This presents a whole different set of issues which have nothing to do with actually doing analysis, but the process of preparing to do analysis.

Es braucht also Dokumentation. Gut. Wie kann man das machen? Es gibt Codebooks, in der alle Variablen und Datenquellen aufgelistet werden. Es gibt den Ansatz von Knowledge Graphs und verlinktem Wissen, bei dem durch Ontologien die Interpretationsspielräume für einzelne Datenpunkte eingeschränkt und damit präzisiert werden. Und ganz wichtig: Woher kommt der einzelne Datenpunkt? Data provenance heißen die Metadaten zu einem einzelnen Wert. Im Diffbot-Glossar ist aufgeschrieben, was damit gemeint ist und wie das bei Diffbot umgesetzt ist.

Schreibe einen Kommentar