Abschluss des FDMLab@LABW
Nach drei Jahren endet das Projekt FDMLab@LABW. Wir nutzen die Gelegenheit, um hier im Blog noch einmal einen Überblick über unsere Ergebnisse und Projekte zu geben.
In der “Phase II” unserer Förderzeit haben wir uns mehr auf praktische Aufgaben konzentriert.
KI im Archiv
Das FDMLab wurde dazu eingeladen an den EDV-Tagen 2022 einen Vortrag zum Thema KI im Archiv zu halten. Das Thema beschäftigte uns auch mit dem Aufkommen eines allgemeinen Zugangs zu Large Language Modellen via ChatGPT bei einer Gastvorlesung bei der VU Digitalisierung an der Universität Wien im Wintersemester 2022/2023.
Gerade das Thema Künstliche Intelligenz ist ein Bereich, für den es scheinbar schon viele fertige Lösungen gibt. In der Domäne von archivischem Material liefern diese fertigen Lösungen häufig noch nicht die benötigte Qualität. Umso wichtiger ist ein regelmäßiger Austausch zu funktionierenden und nicht funktionierenden Ansätzen. Bei unserem Vortrag an den EDV-Tagen konnten wir nicht nur über unsere Erfahrungen berichten, sondern darauf aufbauend Feedback, Ideen und weitere Datenservices anderer Projekte kennen lernen.
OpenRefine
Die OpenRefine Workshops wurden mit weiteren Anleitungen versehen. Zum Beispiel, wie man komplexe Datenabgleiche mit Wikidata und den Getty Thesauri durchführen kann. Außerdem wurden weitere Tricks zum Abgleich von Daten zwischen Projekten ergänzt.
Neben der Begleitung von Workshops, führte das FDMLab zusammen mit Verena Mack von der GND-Agentur LEO-BW-Regional einen Normdatenworkshop beim 82. Südwestdeutscher Archivtag durch.
Dokument-, Layout- und Texterkennung
Mit unseren eher durchwachsenen Erfahrungen bei der Layouterkennung von tabellarischen Inhalten in Transkribus, beschäftigten wir uns mit Technologien, die für uns für die Formular- und Tabellenerkennung besser geeignet sein könnten. Außerdem beschäftigte uns nach wie vor die Erkennung von Texten, die aus unterschiedlichen Handschriften bestehen.
Dabei betrachteten wir unter anderem Detectron2 und die Transformer basierte Texterkennung (TrOCR bzw. TrHTR). Da diese Technologien noch 2023 in Transkribus selbst verfügbar sein werden, verzichteten wir auf umfangreichere Experimente.
Unsere Erkenntnisse konnten wir weiterhin bei der Unterstützung und der nun vertieften Zusammenarbeit im Projekt Transformation der Wiedergutmachung anwenden.
Provenienzforschung
In der Phase II kooperierte das FDMLab intensiv mit Katharina Hardt bei der Bearbeitung des Projektes Provenienzforschung im Landesarchiv.
Konkret ging es um eine Aufarbeitung von Metadaten mit Methoden des maschinellen Lernens.
Extraktion von Schlagwörten zu Kunst- und Kulturobjekten
Es sollten automatisiert aus relevanten Akten spezifische Schlagwörter extrahiert werden. Dabei konnten wir zeigen, dass wir mit einem selbst trainierten Modell zum Named-entity Recognition mit überschaubarem Mehraufwand deutlich bessere Ergebnisse erzielen konnten, als mit lexikon- oder regelbasierten Ansätzen. Details zum Vorgehen und dem Diagramm in Abbildung 1 finden sich unter NER Modell mit GND Starthilfe trainieren.
Massenabgleich mit GND
Die extrahierten Schlagwörter wurden anschließend mit den Daten der Gemeinsamen Normdatei (GND) angereichert. Fehlende Begriffe wurden in Kooperation mit der GND-Agentur LEO-BW-Regional in der GND angelegt.
Neben dem Vorteil, dass Normdaten durch einheitliche Benennung und Identifizierung die Auffindbarkeit erhöhen, konnten wir die Netzwerkstruktur der GND verwenden, um die Schlagwörter durch weitere relevanten Schlagwörter anzureichern. Details zum Vorgehen finden sich im Artikel Named-entity Recognition und Gemeinsame Normdatei zur Verbesserung der Erschließung.
Schlagwörter Netzwerk
Die Anreicherung mit Oberbegriffen, funktionierte nicht in allen Schlagwortbereichen wie erwartet. Darüber haben wir ausführlich unter GND Hierarchieinformationen zur Verbesserung der Erschließung berichtet. Bei einer erweiterten Analyse der Netzwerkstrukturen der Schlagwörter in der GND konnten wir nicht nur zeigen, dass es sehr viele unverknüpfte Schlagwörter gibt. Wie in Abbildung 2 zu sehen, gibt es viele Strukturen, die nur aus einem Oberbegriff und sehr vielen direkten Unterbegriffen bestehen.
Mit Methoden der Netzwerkanalyse und manuellen Verknüpfungen erarbeiteten wir das in Abbildung 3 annotierte Netzwerk von verknüpften Schlagwörten für relevante Akten für die Provenienzforschung in den Archivabteilungen des Landesarchivs Baden-Württemberg.
NER für Metadaten im Archiv
Neben der Erkennung von spezifischen Objekten experimentierten wir auch mit der Möglichkeit ein allgemeineres Modell für NER zu trainieren.
Hier ein mit einem Standard NER Modell verarbeiteter Beispieltext über das Landesarchiv Baden-Württemberg, welcher von der englischsprachigen Wikipedia angepasst wurde. 1
The State Archives ORG of Baden-Württemberg ( LABW ORG ) encompasses all state archives in Baden-Württemberg GPE .
The State Archives ORG of Baden-Württemberg is part of the portfolio of the Baden-Württemberg Ministry for Science, Research and Arts FAC .
It keeps historic documents that reach back to the middle ages DATE .
The current President of the State Archives ORG of Baden-Württemberg has been Prof. Dr. Gerald Maier PERSON since February 1st, 2018 DATE .
It employs around 250 CARDINAL people at 8 CARDINAL locations.
Das Model en_core_web_lg hat generell einen f-score von 0,85 und unterscheidet 18 Arten von Entitäten: CARDINAL, DATE, EVENT, FAC, GPE, LANGUAGE, LAW, LOC, MONEY, NORP, ORDINAL, ORG, PERCENT, PERSON, PRODUCT, QUANTITY, TIME und WORK_OF_ART. 2
Eine ähnliche Auswahl an Entitätenklassen und Qualität wäre natürlich auch für unsere Daten im Archiv wünschenswert. Daher haben wir zusätzliche Experimente mit dem Training eines spezifischen NER Modells mit den folgenden Klassen durchgeführt:
- PER: Person - Personen und fiktive Personen wie z.B. Künstlernamen
- ORG: Organization - Firmen, Behörden, Institutionen, Vereine, …
- FAC: Facility - Gebäude, Flughäfen, Straßen, Brücken, …
- GPE: Geopolitical Entities - Länder, Bundesländer, Landkreise, Städte
- LOC: Location - Non-GPE Locations - Berge, Landschaftsgebiete, Flüsse, Seen, …
- EVENT: Benannte Events - Weltmeisterschaften, Zweiter Weltkrieg, …
Mit dem auf Transformern basierten Modell von spaCy konnten wir auf unseren Testdaten die in der folgenden Tabelle gelisteten Werte erzielen:
Label | Precision | Recall | F1-Score |
---|---|---|---|
GPE | 96,10 | 97,14 | 96,62 |
PER | 96,45 | 96,62 | 96,54 |
FAC | 95,11 | 94,40 | 94,76 |
ORG | 91,72 | 89,78 | 90,74 |
LOC | 90,48 | 89,76 | 90,12 |
EVENT | 94,41 | 90,00 | 92,15 |
Das Modell hat für die Klassen EVENT, FAC und LOC jedoch zu wenig Beispiele in den Trainings- und Testdaten, um verlässliche Aussagen zu treffen. Auch sind die Metadaten für die für die Provenienzforschung relevanten Akten sehr spezifisch, so dass das Modell für die Anwendbarkeit auf anderen Beständen ein Nachtraining erfordert.
Im Vergleich zum Training des spezifischen NER Modells für die Erkennung von Kunst- und Kulturobjekten war das Training deutlich aufwendiger. Wir gehen jedoch davon aus, die Trainingsdaten in anderen Projekten ergänzen zu können und so Schritt für Schritt zu einem generischen Modell für unsere Daten zu kommen.
SpanCat für Personendaten
Ein komplexerer Fall stellt die Erkennung von semi-strukturierten Pesonendaten in den Akten und Metadaten unserer Aktenbestände dar. Hier hatten wir Probleme mit klassischen NER Ansätzen, da wir teilweise sehr lange Entitäten haben, die sich auch überlappen können.
Hier experimentierten wir mit SpanCat und konnten initial recht gute Ergebnisse erzielen.
Es stellte sich jedoch heraus, dass wir im Vergleich zu unserem oben beschriebenen NER Modell deutlich mehr und diversere Trainingsdaten benötigen. Besonders das Trainieren von proportional unterrepräsentierten Features, wie zum Beispiel Berufsangaben, Titel und Aliasen, stellte sich als problematisch heraus. Als Zwischenlösung trainierten wir für diese Features separate Modelle und fassten sie mit dem ursprünglichen SpanCat Modell in einer Pipeline zusammen. Dies stellte sich als komplizierter raus, als ursprünglich erwartet. 3
Insgesamt ist der Ansatz jedoch sehr vielversprechend und wir hätten gerne mehr Zeit gehabt, ausführlicher über unsere Ansätze zu berichten und sie weiter zu vertiefen.
Hierzu standen wir auch im fachlichen Austausch mit dem Provenance Lab an der Leuphana, die in Hidden Value: Provenance as a Source for Economic and Social History die Umsetzung einer ähnlichen Anwendung von SpanCat beschreiben.
Weitere Datenprojekte
Reichskammergericht
Wir hatten schon in Phase I über die Retrodigitalisierung von analogen Findbüchern berichtet. Unter anderem haben wir exemplarisch einen Findbuch Index mit OpenRefine aufbereitet.
Für Findbücher zu den Akten des Reichskammergerichts4 haben wir nun die Personen- und Orts-Indizes ebenfalls in Tabellenform überführt und mit Normdaten der Gemeinsamen Normdatei abgeglichen.
Neben weiteren Erfahrungen mit dem Massenabgleich von Daten über die OpenRefine Schnittstell der lobid-gnd, konnten wir dabei zusammen mit Verena Mack von der GND-Agentur LEO-BW-Regional einige Dubletten identifizieren und fehlende Einträge ergänzen.
Digitalisierung von Heimlisten
Für das Projekt Aufarbeitung von Heimerziehung und Zwangsunterbringungen wurden ursprünglich analog vorliegende Adresslisten von Heimen digitalisiert, tabellarisch aufbereitet und die Ortsangaben mit Normdaten, sowie Geokoordinaten versehen.
Abgleich von Findbüchern mit Dateistrukturen
Im AV Archiv im Hauptstaatsarchiv Stuttgart werden digitale Medien erfasst und archiviert. Das FDMLab unterstützte das AV Archiv bei einer Analyse der vorliegenden Dateistruktur und einem Abgleich mit den zugehörigen Findmitteln.
Verlinkung der Tomi Actorum
Bei der Digitalisierung der Verhandlungsprotokolle der württembergischen Landstände wurden im Hauptstaatsarchiv Stuttgart Protokolle digitalisiert und die Sachregister zusätzlich transkribiert. Es konnte in dem Online Findmittelsystem jedoch keine direkte Verbindung zwischen einem Eintrag im Sachregister zu dem zugehörigen Digitalisat des Protokolleintrags genutzt werden. Das FDMLab unterstützte das Projekt, indem etwa 50.000 Verlinkungen von Sachregistereinträgen zu den zurgehörigen Protokolleinträgen mit der Unterstützung von Methoden der Mustererkennung automatisch vorgenommen wurde.
Veröffentlichung von Forschungsdaten
Das FDMLab unterstützte das Staatsarchiv Wertheim bei der Veröffentlichung einer Forschungsdatenbank auf Radar4Culture. Dazu gehörte die Auswahl eines geeigneten Forschungsdatenrepositoriums, die Konvertierung in ein geeignetes Veröffentlichungsformat, sowie Hinweise zur Datenbeschreibung, Lizenzierung und Anreicherung mit Normdaten.
Schluss ⛔
In den drei Jahren FDMLab@LABW konnten wir viele Projekte bei der Umsetzung von Digitalisierungsaufgaben unterstützen. Dabei versuchten wir neue Wege zu gehen und dabei nachvollziehbare Beschreibungen unserer Wanderungen zu hinterlassen.
Ohne die fachliche Zusammenarbeit mit Kolleginnen und Kollegen hätte das FDMLab nicht funktionieren können. Vielen Dank an alle, die sich mit Fragen, Beiträgen und fachlicher Unterstützung an den Projekten des FDMLabs beteiligt haben.
Finanziert wurde das FDMLab@LABW aus Mitteln der Zukunftsoffensive III durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg.
Nach drei Jahren endet die Förderung und wir schließen das FDMLab@LABW.
Die Inhalte des FDMLab Blogs werden wir vorläufig in einer statischen Form weiter vorhalten.
Wikipedia Autoren, „Landesarchiv Baden-Württemberg“, Wikipedia – Die freie Enzyklopädie, https://de.wikipedia.org/w/index.php?title=Landesarchiv_Baden-W%C3%BCrttemberg&oldid=223510351 (aufgerufen am 20. Juli 2022). ↩︎
NER erstellt mit spaCy 3.3 en_core_web_lg. ↩︎
Siehe auch https://github.com/explosion/spaCy/discussions/12462 ↩︎
Akten des Reichskammergerichts im Hauptstaatsarchiv Stuttgart: Inventar des Bestands C. Bearb. von A. Brunotte, R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg, Band 46 Nr.1-8, Stuttgart 1993-2008. Außerdem: Akten des Reichskammergerichts im Staatsarchiv Sigmaringen: Inventar des Bestands R 7. Bearb. von R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg; Band 57, Stuttgart 2004. ↩︎