Von März bis August 2022 arbeite ich an einem Knowledge Graph zur queeren Geschichte. Das Projekt, das ich “Remove NA” überführt ein analoges Archiv in ein digitales Eigenleben. Es wird vom Prototype Fund in Runde 11 der Open Knowledge Foundation Deutschland gefördert.
Das Forum Queeres Archiv München ist ein Community-Archiv: Regalmeter voller Nachlässe, Aktenordner, Bücher, Zeitschriften, Objekte … Das Sammeln ist kein Selbstzweck: Alle können die Materialen vor Ort nutzen – Open Source im Analogen quasi.
Die digitale Transformation und Best-Practice-Methoden der großen GLAMs (Galleries, Libraries, Archives, Museums) sickern langsam zu den kleineren Organisationen durch. Wie auch dem Münchner Verein, bei dem ich seit einigen Jahren aktiv bin, und der sich als das “Gedächtnis für LGBTIQ*-Geschichte” versteht. Wir machen erste Schritte ins Digitale, etwa einer Online-Ausgabe des Archivs mit Büchern und Postern oder einer Chronik der Münchner LGBTIQ*-Geschichte.
Queere Geschichte wurde lange Zeit von großen Archiven eher ignoriert und kaum strukturiert erfasst, v.a. nicht außerhalb des Narrativs der Perversion oder Kriminalisierung. Das Forum München dokumentiert seit mehr als 20 Jahren die LGBTIQ*-Geschichte und liefert so queeren Kontext zu Personen, Organisationen, Ereignissen, Orten, Zeitpunkten – bislang vor allem im analogen Raum.
Im Digitalen fehlen diese Zusammenhänge weiterhin. Mein Projekt habe ich deshalb Remove NA genannt. Die englische Abkürzung NA steht für „not available“ und wird verwendet, wenn Informationen nicht verfügbar sind.
Daten zur Geschichte von nicht-heterosexuellen Menschen sind häufig NA und das, was die nigerianische Künstlerin Mimi Onuoha als „missing data“ bezeichnet: “Missing impliziert sowohl einen Mangel als auch ein Sollen: etwas fehlt, sollte aber existieren.”
Daten, Informationen und Wissen zur queeren Geschichte sollten existieren. Nur so kann queere Geschichte in den komplexeren, datenbasierten Algorithmen sichtbar werden, die zunehmend Teil unseres Alltags sind. Diese Technologien setzen direkt auf Quellen wie etwa Wikidata auf. Fehlt dort queere Geschichte, dann fehlt sie in den Anwendungen, die darauf aufbauen und wir benutzen.
Zwei Beispiele für fehlende Daten
Beispiel 1:
Max Spohr war ein Pionier schwuler Literatur. Ab 1893 veröffentlichte er im “Verlag Max Spohr” Bücher zur Homosexualität. In der Normdatei der Deutschen Nationalbibliothek (GND) ist der Eintrag zu Max Spohr jedoch nur mit zwei anderen Verlagen affiliiert. Die Verbindung zwischen Max Spohr und seinem für die Homosexuellenbewegung so wichtigen Verlag fehlt. Wichtig: Der “Verlag Max Spohr” existiert als Körperschaft in den Daten, doch die Verbindung zur Person Max Spohr fehlt.
Beispiel 2:
Das Lesbenfrühlingstreffen ist seit fast 50 Jahren eine Veranstaltung lesbischer Frauen. Unabhängig von Kontroversen in den letzten Jahren hat das LFT eine herausragende Stellung für die (west-)deutsche Frauen- und Lesbenbewegung. Ist das bei Wikidata erkennbar? Eher nicht. Es fehlen sehr viele Information: Seit wann gibt es das LFT? Wann findet es statt? Auch ein LGBTIQ*-Bezug ist nicht explizit vorhanden.
Ein Positiv, um das Negativ, aufleuchten zu lassen
Um mit maschineller Hilfe fehlende Daten aufzuspüren, braucht es ein Positiv (den Knowledge Graph zur LGBTIQ*-Geschichte), um durch einen Abgleich mit Linked-Open-Data wie GND oder WikiData das Negativ (die Leerstellen) aufleuchten zu lassen.
Die so identifizierten Personen, Ereignisse oder Orte, die sich bisher nicht in Wikidata finden lassen, können dann in das System offener digitaler Informationen eingewebt werden, um die Vergangenheit für die Zukunft zu erhalten. Die Daten, die es dafür braucht, können auf Grund knapper Ressourcen nur mit Data Science erkämpft werden. Das möchte ich in den kommenden Monaten tun. Die Vision von „Remove NA“: LGBTIQ*-Geschichte als offene, verlinkte Daten.

Methodische Skizze
Technisch liegt der Fokus von „Remove NA“ auf Datenverknüpfung, Entitätenextraktion und Konstruktion des Knowledge Graphs mit R und Python.
- Als erstes will ich heterogene Daten, die im besten Fall als Citavi-Dumps, im schlechtesten als Fließtexte (und immer allerschlechtesten nur analog) vorliegen, in einer Datenbank zusammenführen.
- Ein Teil der Daten kommt aus dem Bücherbestand Forums und der Postersammlung, dessen thematisches Beziehungsgeflecht Martina Schories visualisiert hat.
- Das Bereinigen und Transformieren der Daten benötigt multiple Methoden; von einfachen Joins, Scrapern und Text-Mining bis zu komplexeren NLP-Anwendungen.
- Danach kann ich einen ersten Knowledge Graph erstellen, im Standardformat RDF mit gängigen Ontologien.
- Diesen internen Knowledge Graph will ich dann mit anderen Linked-Data-Quellen verknüpfen, etwa mit Wikidata und/oder GND. Das ist der entscheidender Schritt Richtung Linked Open Data.
- Methodisch besteht dabei die Schwierigkeit im sogenannten Entity Linking. Ein Beispiel: Entspricht die Partei Rosa Liste München eher dieser Rosa Liste oder dieser Rosa Liste?
- Unter der Annahme, dass LGBTIQ*-Themen in GND und WikiData unterrepräsentiert sind, können durch einen Abgleich mit Graph-Data-Science Lücken sichtbar werden (siehe Spohr).
- Idealerweise entsteht so zum einen ein Konzept, um systematisch NAs aufzufüllen. Und zum anderen die dafür notwendige technische Lösung für andere Wissensträger marginalisierter Gruppen, ihre jeweiligen Leerstellen zu detektieren.
Anmerkungen, Ideen, Anregungen?
Ich freue mich über Austausch.
Mehr zum Projekt
- Projekt auf der Seite des Prototype Funds
- Github-Repository
- Präsentation zur Motivation
- Linkliste zu Knowledge Graphs

3 Kommentare