Abschluss des FDMLab@LABW

2023-07-31 10 min Lesezeit

Nach drei Jahren endet das Projekt FDMLab@LABW. Wir nutzen die Gelegenheit, um hier im Blog noch einmal einen Überblick über unsere Ergebnisse und Projekte zu geben.

Einen ausführlichen Rückblick über die Arbeit in den ersten beiden Jahren des FDMlab haben wir schon letztes Jahr geschrieben.

In der “Phase II” unserer Förderzeit haben wir uns mehr auf praktische Aufgaben konzentriert.

KI im Archiv

Das FDMLab wurde dazu eingeladen an den EDV-Tagen 2022 einen Vortrag zum Thema KI im Archiv zu halten. Das Thema beschäftigte uns auch mit dem Aufkommen eines allgemeinen Zugangs zu Large Language Modellen via ChatGPT bei einer Gastvorlesung bei der VU Digitalisierung an der Universität Wien im Wintersemester 2022/2023.

Gerade das Thema Künstliche Intelligenz ist ein Bereich, für den es scheinbar schon viele fertige Lösungen gibt. In der Domäne von archivischem Material liefern diese fertigen Lösungen häufig noch nicht die benötigte Qualität. Umso wichtiger ist ein regelmäßiger Austausch zu funktionierenden und nicht funktionierenden Ansätzen. Bei unserem Vortrag an den EDV-Tagen konnten wir nicht nur über unsere Erfahrungen berichten, sondern darauf aufbauend Feedback, Ideen und weitere Datenservices anderer Projekte kennen lernen.

OpenRefine

Die OpenRefine Workshops wurden mit weiteren Anleitungen versehen. Zum Beispiel, wie man komplexe Datenabgleiche mit Wikidata und den Getty Thesauri durchführen kann. Außerdem wurden weitere Tricks zum Abgleich von Daten zwischen Projekten ergänzt.

Neben der Begleitung von Workshops, führte das FDMLab zusammen mit Verena Mack von der GND-Agentur LEO-BW-Regional einen Normdatenworkshop beim 82. Südwestdeutscher Archivtag durch.

Die Inhalte der OpenRefine Workshops bleiben vorerst mit dem FDMLab Blog online verfügbar. Es gibt jedoch Überlegungen die Workshop Inhalte vom Blog zu entkoppeln und in einem anderen Format anzubieten.

Dokument-, Layout- und Texterkennung

Mit unseren eher durchwachsenen Erfahrungen bei der Layouterkennung von tabellarischen Inhalten in Transkribus, beschäftigten wir uns mit Technologien, die für uns für die Formular- und Tabellenerkennung besser geeignet sein könnten. Außerdem beschäftigte uns nach wie vor die Erkennung von Texten, die aus unterschiedlichen Handschriften bestehen.

Dabei betrachteten wir unter anderem Detectron2 und die Transformer basierte Texterkennung (TrOCR bzw. TrHTR). Da diese Technologien noch 2023 in Transkribus selbst verfügbar sein werden, verzichteten wir auf umfangreichere Experimente.

Unsere Erkenntnisse konnten wir weiterhin bei der Unterstützung und der nun vertieften Zusammenarbeit im Projekt Transformation der Wiedergutmachung anwenden.

Provenienzforschung

In der Phase II kooperierte das FDMLab intensiv mit Katharina Hardt bei der Bearbeitung des Projektes Provenienzforschung im Landesarchiv.

Konkret ging es um eine Aufarbeitung von Metadaten mit Methoden des maschinellen Lernens.

Extraktion von Schlagwörten zu Kunst- und Kulturobjekten

Es sollten automatisiert aus relevanten Akten spezifische Schlagwörter extrahiert werden. Dabei konnten wir zeigen, dass wir mit einem selbst trainierten Modell zum Named-entity Recognition mit überschaubarem Mehraufwand deutlich bessere Ergebnisse erzielen konnten, als mit lexikon- oder regelbasierten Ansätzen. Details zum Vorgehen und dem Diagramm in Abbildung 1 finden sich unter NER Modell mit GND Starthilfe trainieren.

Scatterplot für Precision und Recall für die einzelnen Datensätze.

Massenabgleich mit GND

Die extrahierten Schlagwörter wurden anschließend mit den Daten der Gemeinsamen Normdatei (GND) angereichert. Fehlende Begriffe wurden in Kooperation mit der GND-Agentur LEO-BW-Regional in der GND angelegt.

--- title: Workflow GND config: look: handDrawn theme: neutral --- flowchart LR filtern["Filtern"] ner["NER"] normalisieren["Normalisieren"] gnd_abgleich["GND Abgleich"] gnd_netzwerk["Netzwerk erstellen"] gnd_beantragen["Begriffe Beantragen"] netzwerk_anpassen["Netzwerk anpassen"] import["Importieren"] filtern --> ner --> normalisieren --> gnd_abgleich --> gnd_netzwerk & gnd_beantragen --> netzwerk_anpassen --> import

Neben dem Vorteil, dass Normdaten durch einheitliche Benennung und Identifizierung die Auffindbarkeit erhöhen, konnten wir die Netzwerkstruktur der GND verwenden, um die Schlagwörter durch weitere relevanten Schlagwörter anzureichern. Details zum Vorgehen finden sich im Artikel Named-entity Recognition und Gemeinsame Normdatei zur Verbesserung der Erschließung.

flowchart LR 4175414-1(["Porzellantasse"]):::initial click 4175414-1 href "https://lobid.org/gnd/4175414-1" "4175414-1" _blank 4184488-9["Tasse"] click 4184488-9 href "https://lobid.org/gnd/4184488-9" "4184488-9" _blank 4124863-6["Essgeschirr"] click 4124863-6 href "https://lobid.org/gnd/4124863-6" "4124863-6" _blank 4186181-4["Trinkgefäß"] click 4186181-4 href "https://lobid.org/gnd/4186181-4" "4186181-4" _blank 4140542-0["Geschirr #lt;Hausrat#gt;"] click 4140542-0 href "https://lobid.org/gnd/4140542-0" "4140542-0" _blank 4128003-9["Gefäß"] click 4128003-9 href "https://lobid.org/gnd/4128003-9" "4128003-9" _blank 4132060-8["Hausrat"] click 4132060-8 href "https://lobid.org/gnd/4132060-8" "4132060-8" _blank 4020299-9["Gerät"] click 4020299-9 href "https://lobid.org/gnd/4020299-9" "4020299-9" _blank 4175414-1 --> 4184488-9 4184488-9 --> 4124863-6 4184488-9 --> 4186181-4 4124863-6 --> 4140542-0 4186181-4 --> 4128003-9 4140542-0 --> 4132060-8 4128003-9 --> 4020299-9 classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000; classDef category fill:#FFF,stroke:#1fbeb8,stroke-width:3px,color:#000; classDef initial fill:#FFF,stroke:#4dbd05,stroke-width:3px,color:#000;

Schlagwörter Netzwerk

Die Anreicherung mit Oberbegriffen, funktionierte nicht in allen Schlagwortbereichen wie erwartet. Darüber haben wir ausführlich unter GND Hierarchieinformationen zur Verbesserung der Erschließung berichtet. Bei einer erweiterten Analyse der Netzwerkstrukturen der Schlagwörter in der GND konnten wir nicht nur zeigen, dass es sehr viele unverknüpfte Schlagwörter gibt. Wie in Abbildung 2 zu sehen, gibt es viele Strukturen, die nur aus einem Oberbegriff und sehr vielen direkten Unterbegriffen bestehen.

Boxplot zur Darstellung der Verteilung der Anzahl von Kindknoten pro Komponentengröße.

Mit Methoden der Netzwerkanalyse und manuellen Verknüpfungen erarbeiteten wir das in Abbildung 3 annotierte Netzwerk von verknüpften Schlagwörten für relevante Akten für die Provenienzforschung in den Archivabteilungen des Landesarchivs Baden-Württemberg.

Annotierte Visualisierung des Schlagwortnetzwerkes von Prov. relevanten Akten.

NER für Metadaten im Archiv

Neben der Erkennung von spezifischen Objekten experimentierten wir auch mit der Möglichkeit ein allgemeineres Modell für NER zu trainieren.

Hier ein mit einem Standard NER Modell verarbeiteter Beispieltext über das Landesarchiv Baden-Württemberg, welcher von der englischsprachigen Wikipedia angepasst wurde. ¹

The State Archives ORG of Baden-Württemberg ( LABW ORG ) encompasses all state archives in Baden-Württemberg GPE .
The State Archives ORG of Baden-Württemberg is part of the portfolio of the Baden-Württemberg Ministry for Science, Research and Arts FAC .
It keeps historic documents that reach back to the middle ages DATE .
The current President of the State Archives ORG of Baden-Württemberg has been Prof. Dr. Gerald Maier PERSON since February 1st, 2018 DATE .
It employs around 250 CARDINAL people at 8 CARDINAL locations.

Das Model en_core_web_lg hat generell einen f-score von 0,85 und unterscheidet 18 Arten von Entitäten: CARDINAL, DATE, EVENT, FAC, GPE, LANGUAGE, LAW, LOC, MONEY, NORP, ORDINAL, ORG, PERCENT, PERSON, PRODUCT, QUANTITY, TIME und WORK_OF_ART. ²

Eine ähnliche Auswahl an Entitätenklassen und Qualität wäre natürlich auch für unsere Daten im Archiv wünschenswert. Daher haben wir zusätzliche Experimente mit dem Training eines spezifischen NER Modells mit den folgenden Klassen durchgeführt:

PER: Person - Personen und fiktive Personen wie z.B. Künstlernamen
ORG: Organization - Firmen, Behörden, Institutionen, Vereine, …
FAC: Facility - Gebäude, Flughäfen, Straßen, Brücken, …
GPE: Geopolitical Entities - Länder, Bundesländer, Landkreise, Städte
LOC: Location - Non-GPE Locations - Berge, Landschaftsgebiete, Flüsse, Seen, …
EVENT: Benannte Events - Weltmeisterschaften, Zweiter Weltkrieg, …

Mit dem auf Transformern basierten Modell von spaCy konnten wir auf unseren Testdaten die in der folgenden Tabelle gelisteten Werte erzielen:

Label	Precision	Recall	F1-Score
GPE	96,10	97,14	96,62
PER	96,45	96,62	96,54
FAC	95,11	94,40	94,76
ORG	91,72	89,78	90,74
LOC	90,48	89,76	90,12
EVENT	94,41	90,00	92,15

Das Modell hat für die Klassen EVENT, FAC und LOC jedoch zu wenig Beispiele in den Trainings- und Testdaten, um verlässliche Aussagen zu treffen. Auch sind die Metadaten für die für die Provenienzforschung relevanten Akten sehr spezifisch, so dass das Modell für die Anwendbarkeit auf anderen Beständen ein Nachtraining erfordert.

Im Vergleich zum Training des spezifischen NER Modells für die Erkennung von Kunst- und Kulturobjekten war das Training deutlich aufwendiger. Wir gehen jedoch davon aus, die Trainingsdaten in anderen Projekten ergänzen zu können und so Schritt für Schritt zu einem generischen Modell für unsere Daten zu kommen.

Da etwas mehr als die Hälfte der für die Provenienzforschung relevanten Akten noch einer Sperrfrist unterliegen, können wir weder die Trainings- bzw. Testdaten noch das Modell veröffentlichen.

SpanCat für Personendaten

Ein komplexerer Fall stellt die Erkennung von semi-strukturierten Pesonendaten in den Akten und Metadaten unserer Aktenbestände dar. Hier hatten wir Probleme mit klassischen NER Ansätzen, da wir teilweise sehr lange Entitäten haben, die sich auch überlappen können.

Hier experimentierten wir mit SpanCat und konnten initial recht gute Ergebnisse erzielen.

Erkennung von strukturierten Personendaten mit SpanCat.

Es stellte sich jedoch heraus, dass wir im Vergleich zu unserem oben beschriebenen NER Modell deutlich mehr und diversere Trainingsdaten benötigen. Besonders das Trainieren von proportional unterrepräsentierten Features, wie zum Beispiel Berufsangaben, Titel und Aliasen, stellte sich als problematisch heraus. Als Zwischenlösung trainierten wir für diese Features separate Modelle und fassten sie mit dem ursprünglichen SpanCat Modell in einer Pipeline zusammen. Dies stellte sich als komplizierter raus, als ursprünglich erwartet. ³

--- title: Pipeline für Personendaten config: look: handDrawn theme: neutral --- flowchart LR text["Text"] ---> spancat1 custom_component --> entities["Entities"] subgraph pipeline["Pipeline"] direction LR spancat1["SpanCat1"] --> spancat2["SpanCat2"] spancat2 --> custom_component subgraph custom_component["Custom Component"] sc end end subgraph pipeline_spancat1["Pipeline SpanCat1"] subgraph component_spancat1["Spancat1"] direction LR spancat1_tok2vec["Tok2Vec"] sc_spancat1 end end subgraph pipeline_spancat2["Pipeline SpanCat2"] subgraph component_spancat2["Spancat2"] direction LR spancat2_tok2vec["Tok2Vec"] sc_spancat2 end end sc_spancat1 -.merge-.-> sc sc_spancat2 -.merge-.-> sc component_spancat1 -.source-.-> spancat1 component_spancat2 -.source-.-> spancat2

Insgesamt ist der Ansatz jedoch sehr vielversprechend und wir hätten gerne mehr Zeit gehabt, ausführlicher über unsere Ansätze zu berichten und sie weiter zu vertiefen.

Hierzu standen wir auch im fachlichen Austausch mit dem Provenance Lab an der Leuphana, die in Hidden Value: Provenance as a Source for Economic and Social History die Umsetzung einer ähnlichen Anwendung von SpanCat beschreiben.

Weitere Datenprojekte

Reichskammergericht

--- title: Workflow Reichskammergericht config: look: handDrawn theme: neutral --- flowchart LR text[fas:fa-file-alt Text] data[fas:fa-table Table] gnd[fas:fa-database GND] semantic[fas:fa-project-diagram Graph] text --> data --> semantic gnd --> semantic

Wir hatten schon in Phase I über die Retrodigitalisierung von analogen Findbüchern berichtet. Unter anderem haben wir exemplarisch einen Findbuch Index mit OpenRefine aufbereitet.

Für Findbücher zu den Akten des Reichskammergerichts⁴ haben wir nun die Personen- und Orts-Indizes ebenfalls in Tabellenform überführt und mit Normdaten der Gemeinsamen Normdatei abgeglichen.

Neben weiteren Erfahrungen mit dem Massenabgleich von Daten über die OpenRefine Schnittstell der lobid-gnd, konnten wir dabei zusammen mit Verena Mack von der GND-Agentur LEO-BW-Regional einige Dubletten identifizieren und fehlende Einträge ergänzen.

Digitalisierung von Heimlisten

Für das Projekt Aufarbeitung von Heimerziehung und Zwangsunterbringungen wurden ursprünglich analog vorliegende Adresslisten von Heimen digitalisiert, tabellarisch aufbereitet und die Ortsangaben mit Normdaten, sowie Geokoordinaten versehen.

Abgleich von Findbüchern mit Dateistrukturen

Im AV Archiv im Hauptstaatsarchiv Stuttgart werden digitale Medien erfasst und archiviert. Das FDMLab unterstützte das AV Archiv bei einer Analyse der vorliegenden Dateistruktur und einem Abgleich mit den zugehörigen Findmitteln.

Verlinkung der Tomi Actorum

Bei der Digitalisierung der Verhandlungsprotokolle der württembergischen Landstände wurden im Hauptstaatsarchiv Stuttgart Protokolle digitalisiert und die Sachregister zusätzlich transkribiert. Es konnte in dem Online Findmittelsystem jedoch keine direkte Verbindung zwischen einem Eintrag im Sachregister zu dem zugehörigen Digitalisat des Protokolleintrags genutzt werden. Das FDMLab unterstützte das Projekt, indem etwa 50.000 Verlinkungen von Sachregistereinträgen zu den zurgehörigen Protokolleinträgen mit der Unterstützung von Methoden der Mustererkennung automatisch vorgenommen wurde.

Veröffentlichung von Forschungsdaten

Das FDMLab unterstützte das Staatsarchiv Wertheim bei der Veröffentlichung einer Forschungsdatenbank auf Radar4Culture. Dazu gehörte die Auswahl eines geeigneten Forschungsdatenrepositoriums, die Konvertierung in ein geeignetes Veröffentlichungsformat, sowie Hinweise zur Datenbeschreibung, Lizenzierung und Anreicherung mit Normdaten.

Schluss ⛔

In den drei Jahren FDMLab@LABW konnten wir viele Projekte bei der Umsetzung von Digitalisierungsaufgaben unterstützen. Dabei versuchten wir neue Wege zu gehen und dabei nachvollziehbare Beschreibungen unserer Wanderungen zu hinterlassen.

Ohne die fachliche Zusammenarbeit mit Kolleginnen und Kollegen hätte das FDMLab nicht funktionieren können. Vielen Dank an alle, die sich mit Fragen, Beiträgen und fachlicher Unterstützung an den Projekten des FDMLabs beteiligt haben.

Finanziert wurde das FDMLab@LABW aus Mitteln der Zukunftsoffensive III durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg.

Nach drei Jahren endet die Förderung und wir schließen das FDMLab@LABW.

Die Inhalte des FDMLab Blogs werden wir vorläufig in einer statischen Form weiter vorhalten.

Wikipedia Autoren, „Landesarchiv Baden-Württemberg“, Wikipedia – Die freie Enzyklopädie, https://de.wikipedia.org/w/index.php?title=Landesarchiv_Baden-W%C3%BCrttemberg&oldid=223510351 (aufgerufen am 20. Juli 2022). ↩︎
NER erstellt mit spaCy 3.3 en_core_web_lg. ↩︎
Siehe auch https://github.com/explosion/spaCy/discussions/12462 ↩︎
Akten des Reichskammergerichts im Hauptstaatsarchiv Stuttgart: Inventar des Bestands C. Bearb. von A. Brunotte, R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg, Band 46 Nr.1-8, Stuttgart 1993-2008. Außerdem: Akten des Reichskammergerichts im Staatsarchiv Sigmaringen: Inventar des Bestands R 7. Bearb. von R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg; Band 57, Stuttgart 2004. ↩︎