<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Bericht | FDMLab@LABW</title><link>https://fdmlab.landesarchiv-bw.de/tag/bericht/</link><atom:link href="https://fdmlab.landesarchiv-bw.de/tag/bericht/index.xml" rel="self" type="application/rss+xml"/><description>Bericht</description><generator>Wowchemy (https://wowchemy.com)</generator><language>de-de</language><lastBuildDate>Mon, 31 Jul 2023 00:00:00 +0000</lastBuildDate><image><url>https://fdmlab.landesarchiv-bw.de/media/sharing.jpg</url><title>Bericht</title><link>https://fdmlab.landesarchiv-bw.de/tag/bericht/</link></image><item><title>Abschluss des FDMLab@LABW</title><link>https://fdmlab.landesarchiv-bw.de/post/2023-07-abschluss-des-fdmlab/</link><pubDate>Mon, 31 Jul 2023 00:00:00 +0000</pubDate><guid>https://fdmlab.landesarchiv-bw.de/post/2023-07-abschluss-des-fdmlab/</guid><description>&lt;p>Nach drei Jahren endet das Projekt FDMLab@LABW.
Wir nutzen die Gelegenheit, um hier im Blog noch einmal einen Überblick über unsere Ergebnisse und Projekte zu geben.&lt;/p>
&lt;div class="alert alert-">
&lt;div>
Einen ausführlichen &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/">Rückblick über die Arbeit in den ersten beiden Jahren des FDMlab&lt;/a> haben wir schon letztes Jahr geschrieben.
&lt;/div>
&lt;/div>
&lt;p>In der &amp;ldquo;Phase II&amp;rdquo; unserer Förderzeit haben wir uns mehr auf praktische Aufgaben konzentriert.&lt;/p>
&lt;h2 id="ki-im-archiv">KI im Archiv&lt;/h2>
&lt;p>Das FDMLab wurde dazu eingeladen an den EDV-Tagen 2022 einen &lt;a href="https://fdmlab.landesarchiv-bw.de/event/2022-ki-fuer-erschliessung/">Vortrag zum Thema KI im Archiv&lt;/a> zu halten.
Das Thema beschäftigte uns auch mit dem Aufkommen eines allgemeinen Zugangs zu Large Language Modellen via ChatGPT bei einer Gastvorlesung bei der &lt;a href="https://ufind.univie.ac.at/de/course.html?lv=070185&amp;amp;semester=2022W" target="_blank" rel="noopener">VU Digitalisierung an der Universität Wien im Wintersemester 2022/2023&lt;/a>.&lt;/p>
&lt;p>Gerade das Thema Künstliche Intelligenz ist ein Bereich, für den es scheinbar schon viele fertige Lösungen gibt.
In der Domäne von archivischem Material liefern diese fertigen Lösungen häufig noch nicht die benötigte Qualität.
Umso wichtiger ist ein regelmäßiger Austausch zu funktionierenden und nicht funktionierenden Ansätzen.
Bei unserem Vortrag an den EDV-Tagen konnten wir nicht nur über unsere Erfahrungen berichten, sondern darauf aufbauend Feedback, Ideen und weitere Datenservices anderer Projekte kennen lernen.&lt;/p>
&lt;h2 id="openrefine">OpenRefine&lt;/h2>
&lt;p>Die OpenRefine Workshops wurden mit weiteren Anleitungen versehen.
Zum Beispiel, wie man &lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-fortgeschrittene/16-erweiterter-abgleich-mit-wikidata/">komplexe Datenabgleiche mit Wikidata&lt;/a> und den &lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-fortgeschrittene/17-erweiterter-abgleich-mit-getty/">Getty Thesauri&lt;/a> durchführen kann.
Außerdem wurden weitere Tricks zum &lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-fortgeschrittene/12-daten-zwischen-projekten-abgleichen/">Abgleich von Daten zwischen Projekten&lt;/a> ergänzt.&lt;/p>
&lt;p>Neben der Begleitung von Workshops, führte das FDMLab zusammen mit &lt;a href="https://fdmlab.landesarchiv-bw.de/author/verena-mack/">Verena Mack&lt;/a> von der &lt;a href="https://www.leo-bw.de/web/guest/gnd-agentur" target="_blank" rel="noopener">GND-Agentur LEO-BW-Regional&lt;/a> einen &lt;a href="https://fdmlab.landesarchiv-bw.de/event/2023-normdatenworkshop/">Normdatenworkshop beim 82. Südwestdeutscher Archivtag&lt;/a> durch.&lt;/p>
&lt;div class="alert alert-">
&lt;div>
Die Inhalte der OpenRefine Workshops bleiben vorerst mit dem FDMLab Blog online verfügbar.
Es gibt jedoch Überlegungen die Workshop Inhalte vom Blog zu entkoppeln und in einem anderen Format anzubieten.
&lt;/div>
&lt;/div>
&lt;h2 id="dokument--layout--und-texterkennung">Dokument-, Layout- und Texterkennung&lt;/h2>
&lt;p>Mit unseren eher &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2021-09-training-strukturmodell-tabellen-mit-p2pala/">durchwachsenen Erfahrungen bei der Layouterkennung von tabellarischen Inhalten in Transkribus&lt;/a>, beschäftigten wir uns mit Technologien, die für uns für die Formular- und Tabellenerkennung besser geeignet sein könnten.
Außerdem beschäftigte uns nach wie vor die Erkennung von Texten, die aus unterschiedlichen Handschriften bestehen.&lt;/p>
&lt;p>Dabei betrachteten wir unter anderem &lt;a href="https://github.com/facebookresearch/detectron2/" target="_blank" rel="noopener">Detectron2&lt;/a> und die Transformer basierte Texterkennung (TrOCR bzw. TrHTR).
Da diese Technologien noch 2023 in Transkribus selbst verfügbar sein werden, verzichteten wir auf umfangreichere Experimente.&lt;/p>
&lt;p>Unsere Erkenntnisse konnten wir weiterhin bei der Unterstützung und der nun vertieften Zusammenarbeit im Projekt &lt;a href="https://www.landesarchiv-bw.de/de/landesarchiv/projekte/transformation-der-wiedergutmachung/71002" target="_blank" rel="noopener">Transformation der Wiedergutmachung&lt;/a> anwenden.&lt;/p>
&lt;h2 id="provenienzforschung">Provenienzforschung&lt;/h2>
&lt;p>In der Phase II kooperierte das FDMLab intensiv mit &lt;a href="https://fdmlab.landesarchiv-bw.de/author/katharina-hardt/">Katharina Hardt&lt;/a> bei der Bearbeitung des Projektes &lt;a href="https://www.landesarchiv-bw.de/de/landesarchiv/projekte/provenienzforschung-im-landesarchiv/projektueberblick-/61576" target="_blank" rel="noopener">Provenienzforschung im Landesarchiv&lt;/a>.&lt;/p>
&lt;p>Konkret ging es um eine Aufarbeitung von Metadaten mit Methoden des maschinellen Lernens.&lt;/p>
&lt;h3 id="extraktion-von-schlagwörten-zu-kunst--und-kulturobjekten">Extraktion von Schlagwörten zu Kunst- und Kulturobjekten&lt;/h3>
&lt;p>Es sollten automatisiert aus relevanten Akten spezifische Schlagwörter extrahiert werden.
Dabei konnten wir zeigen, dass wir mit einem selbst trainierten Modell zum Named-entity Recognition mit überschaubarem Mehraufwand deutlich bessere Ergebnisse erzielen konnten, als mit lexikon- oder regelbasierten Ansätzen. Details zum Vorgehen und dem Diagramm in Abbildung 1 finden sich unter &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2022-09-ner-modell-mit-gnd-starthilfe-trainieren/">NER Modell mit GND Starthilfe trainieren&lt;/a>.&lt;/p>
&lt;figure id="figure-scatterplot-für-precision-und-recall-für-die-einzelnen-datensätze">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Scatterplot für Precision und Recall für die einzelnen Datensätze." srcset="
/post/2023-07-abschluss-des-fdmlab/metrics_hu25f59ad08821a07f7e62d84347c9b3d7_25695_670776311626ecdef0eb7da8ead0b65c.webp 400w,
/post/2023-07-abschluss-des-fdmlab/metrics_hu25f59ad08821a07f7e62d84347c9b3d7_25695_015a3bc5bbc9919d78426f9f78d34840.webp 760w,
/post/2023-07-abschluss-des-fdmlab/metrics_hu25f59ad08821a07f7e62d84347c9b3d7_25695_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2023-07-abschluss-des-fdmlab/metrics_hu25f59ad08821a07f7e62d84347c9b3d7_25695_670776311626ecdef0eb7da8ead0b65c.webp"
width="423"
height="432"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Scatterplot für Precision und Recall für die einzelnen Datensätze.
&lt;/figcaption>&lt;/figure>
&lt;h3 id="massenabgleich-mit-gnd">Massenabgleich mit GND&lt;/h3>
&lt;p>Die extrahierten Schlagwörter wurden anschließend mit den Daten der Gemeinsamen Normdatei (GND) angereichert.
Fehlende Begriffe wurden in Kooperation mit der &lt;a href="https://www.leo-bw.de/web/guest/gnd-agentur" target="_blank" rel="noopener">GND-Agentur LEO-BW-Regional&lt;/a> in der GND angelegt.&lt;/p>
&lt;div class="mermaid">---
title: Workflow GND
config:
look: handDrawn
theme: neutral
---
flowchart LR
filtern["Filtern"]
ner["NER"]
normalisieren["Normalisieren"]
gnd_abgleich["GND Abgleich"]
gnd_netzwerk["Netzwerk erstellen"]
gnd_beantragen["Begriffe Beantragen"]
netzwerk_anpassen["Netzwerk anpassen"]
import["Importieren"]
filtern --> ner --> normalisieren --> gnd_abgleich --> gnd_netzwerk &amp; gnd_beantragen --> netzwerk_anpassen --> import
&lt;/div>
&lt;p>Neben dem Vorteil, dass Normdaten durch einheitliche Benennung und Identifizierung die Auffindbarkeit erhöhen, konnten wir die Netzwerkstruktur der GND verwenden, um die Schlagwörter durch weitere relevanten Schlagwörter anzureichern.
Details zum Vorgehen finden sich im Artikel &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2023-02-ner-und-gnd-zur-verbesserung-der-erschliessung/">Named-entity Recognition und Gemeinsame Normdatei zur Verbesserung der Erschließung&lt;/a>.&lt;/p>
&lt;div class="mermaid">flowchart LR
4175414-1(["Porzellantasse"]):::initial
click 4175414-1 href "https://lobid.org/gnd/4175414-1" "4175414-1" _blank
4184488-9["Tasse"]
click 4184488-9 href "https://lobid.org/gnd/4184488-9" "4184488-9" _blank
4124863-6["Essgeschirr"]
click 4124863-6 href "https://lobid.org/gnd/4124863-6" "4124863-6" _blank
4186181-4["Trinkgefäß"]
click 4186181-4 href "https://lobid.org/gnd/4186181-4" "4186181-4" _blank
4140542-0["Geschirr #lt;Hausrat#gt;"]
click 4140542-0 href "https://lobid.org/gnd/4140542-0" "4140542-0" _blank
4128003-9["Gefäß"]
click 4128003-9 href "https://lobid.org/gnd/4128003-9" "4128003-9" _blank
4132060-8["Hausrat"]
click 4132060-8 href "https://lobid.org/gnd/4132060-8" "4132060-8" _blank
4020299-9["Gerät"]
click 4020299-9 href "https://lobid.org/gnd/4020299-9" "4020299-9" _blank
4175414-1 --> 4184488-9
4184488-9 --> 4124863-6
4184488-9 --> 4186181-4
4124863-6 --> 4140542-0
4186181-4 --> 4128003-9
4140542-0 --> 4132060-8
4128003-9 --> 4020299-9
classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000;
classDef category fill:#FFF,stroke:#1fbeb8,stroke-width:3px,color:#000;
classDef initial fill:#FFF,stroke:#4dbd05,stroke-width:3px,color:#000;
&lt;/div>
&lt;h3 id="schlagwörter-netzwerk">Schlagwörter Netzwerk&lt;/h3>
&lt;p>Die Anreicherung mit Oberbegriffen, funktionierte nicht in allen Schlagwortbereichen wie erwartet.
Darüber haben wir ausführlich unter &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2023-03-gnd-hierarchie-zur-verbesserung-der-erschliessung/">GND Hierarchieinformationen zur Verbesserung der Erschließung&lt;/a> berichtet.
Bei einer erweiterten Analyse der Netzwerkstrukturen der Schlagwörter in der GND konnten wir nicht nur zeigen, dass es sehr viele unverknüpfte Schlagwörter gibt. Wie in Abbildung 2 zu sehen, gibt es viele Strukturen, die nur aus einem Oberbegriff und sehr vielen direkten Unterbegriffen bestehen.&lt;/p>
&lt;figure id="figure-boxplot-zur-darstellung-der-verteilung-der-anzahl-von-kindknoten-pro-komponentengröße">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Boxplot zur Darstellung der Verteilung der Anzahl von Kindknoten pro Komponentengröße." srcset="
/post/2023-07-abschluss-des-fdmlab/gnd-hierarchy-analyze-boxplot-degree_hu87aeaab33c49bee17e43933941fdaea1_99270_f3f65ead298de022d683cbda529f81c3.webp 400w,
/post/2023-07-abschluss-des-fdmlab/gnd-hierarchy-analyze-boxplot-degree_hu87aeaab33c49bee17e43933941fdaea1_99270_7d4d0a7e2424787f62b2d02185cce7b4.webp 760w,
/post/2023-07-abschluss-des-fdmlab/gnd-hierarchy-analyze-boxplot-degree_hu87aeaab33c49bee17e43933941fdaea1_99270_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2023-07-abschluss-des-fdmlab/gnd-hierarchy-analyze-boxplot-degree_hu87aeaab33c49bee17e43933941fdaea1_99270_f3f65ead298de022d683cbda529f81c3.webp"
width="760"
height="507"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Boxplot zur Darstellung der Verteilung der Anzahl von Kindknoten pro Komponentengröße.
&lt;/figcaption>&lt;/figure>
&lt;p>Mit Methoden der Netzwerkanalyse und manuellen Verknüpfungen erarbeiteten wir das in Abbildung 3 annotierte Netzwerk von verknüpften Schlagwörten für relevante Akten für die Provenienzforschung in den Archivabteilungen des Landesarchivs Baden-Württemberg.&lt;/p>
&lt;figure id="figure-annotierte-visualisierung-des-schlagwortnetzwerkes-von-prov-relevanten-akten">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Annotierte Visualisierung des Schlagwortnetzwerkes von Prov. relevanten Akten." srcset="
/post/2023-07-abschluss-des-fdmlab/netzwerk-nach-restrukturierung_hu21ac6ff23c36a1c7eb015ad7158805e9_574541_37eade792fef720490e5a67bad2f4603.webp 400w,
/post/2023-07-abschluss-des-fdmlab/netzwerk-nach-restrukturierung_hu21ac6ff23c36a1c7eb015ad7158805e9_574541_07db364cd2f153c52910d2524e938d90.webp 760w,
/post/2023-07-abschluss-des-fdmlab/netzwerk-nach-restrukturierung_hu21ac6ff23c36a1c7eb015ad7158805e9_574541_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2023-07-abschluss-des-fdmlab/netzwerk-nach-restrukturierung_hu21ac6ff23c36a1c7eb015ad7158805e9_574541_37eade792fef720490e5a67bad2f4603.webp"
width="683"
height="760"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Annotierte Visualisierung des Schlagwortnetzwerkes von Prov. relevanten Akten.
&lt;/figcaption>&lt;/figure>
&lt;h3 id="ner-für-metadaten-im-archiv">NER für Metadaten im Archiv&lt;/h3>
&lt;p>Neben der Erkennung von spezifischen Objekten experimentierten wir auch mit der Möglichkeit ein allgemeineres Modell für NER zu trainieren.&lt;/p>
&lt;p>Hier ein mit einem Standard NER Modell verarbeiteter Beispieltext über das Landesarchiv Baden-Württemberg, welcher von der englischsprachigen Wikipedia angepasst wurde. &lt;sup id="fnref:1">&lt;a href="#fn:1" class="footnote-ref" role="doc-noteref">1&lt;/a>&lt;/sup>&lt;/p>
&lt;div class="entities" style="line-height: 2.5; direction: ltr">&lt;br>
&lt;mark class="entity" style="background: #cedb9c; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
The State Archives
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">ORG&lt;/span>
&lt;/mark>
of Baden-Württemberg (
&lt;mark class="entity" style="background: #cedb9c; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
LABW
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">ORG&lt;/span>
&lt;/mark>
) encompasses all state archives in
&lt;mark class="entity" style="background: #e7ba52; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
Baden-Württemberg
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">GPE&lt;/span>
&lt;/mark>
.&lt;br>
&lt;mark class="entity" style="background: #cedb9c; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
The State Archives
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">ORG&lt;/span>
&lt;/mark>
of Baden-Württemberg is part of the portfolio of
&lt;mark class="entity" style="background: #d6616b; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
the Baden-Württemberg Ministry for Science, Research and Arts
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">FAC&lt;/span>
&lt;/mark>
.&lt;br>It keeps historic documents that reach back to
&lt;mark class="entity" style="background: #e7cb94; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
the middle ages
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">DATE&lt;/span>
&lt;/mark>
.&lt;br>The current President of
&lt;mark class="entity" style="background: #cedb9c; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
the State Archives
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">ORG&lt;/span>
&lt;/mark>
of Baden-Württemberg has been Prof. Dr.
&lt;mark class="entity" style="background: #a55194; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
Gerald Maier
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">PERSON&lt;/span>
&lt;/mark>
since
&lt;mark class="entity" style="background: #e7cb94; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
February 1st, 2018
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">DATE&lt;/span>
&lt;/mark>
.&lt;br>It employs
&lt;mark class="entity" style="background: #843c39; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
around 250
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">CARDINAL&lt;/span>
&lt;/mark>
people at
&lt;mark class="entity" style="background: #843c39; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;">
8
&lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">CARDINAL&lt;/span>
&lt;/mark>
locations.&lt;br>&lt;/div>
&lt;hr>
&lt;p>Das Model &lt;em>en_core_web_lg&lt;/em> hat generell einen &lt;strong>f-score&lt;/strong> von &lt;strong>0,85&lt;/strong> und unterscheidet &lt;strong>18&lt;/strong> Arten von &lt;strong>Entitäten&lt;/strong>: CARDINAL, DATE, EVENT, FAC, GPE, LANGUAGE, LAW, LOC, MONEY, NORP, ORDINAL, ORG, PERCENT, PERSON, PRODUCT, QUANTITY, TIME und WORK_OF_ART. &lt;sup id="fnref:2">&lt;a href="#fn:2" class="footnote-ref" role="doc-noteref">2&lt;/a>&lt;/sup>&lt;/p>
&lt;hr>
&lt;p>Eine ähnliche Auswahl an Entitätenklassen und Qualität wäre natürlich auch für unsere Daten im Archiv wünschenswert.
Daher haben wir zusätzliche Experimente mit dem Training eines spezifischen NER Modells mit den folgenden Klassen durchgeführt:&lt;/p>
&lt;ul>
&lt;li>PER: Person - Personen und fiktive Personen wie z.B. Künstlernamen&lt;/li>
&lt;li>ORG: Organization - Firmen, Behörden, Institutionen, Vereine, &amp;hellip;&lt;/li>
&lt;li>FAC: Facility - Gebäude, Flughäfen, Straßen, Brücken, &amp;hellip;&lt;/li>
&lt;li>GPE: Geopolitical Entities - Länder, Bundesländer, Landkreise, Städte&lt;/li>
&lt;li>LOC: Location - Non-GPE Locations - Berge, Landschaftsgebiete, Flüsse, Seen, &amp;hellip;&lt;/li>
&lt;li>EVENT: Benannte Events - Weltmeisterschaften, Zweiter Weltkrieg, &amp;hellip;&lt;/li>
&lt;/ul>
&lt;p>Mit dem auf Transformern basierten Modell von &lt;a href="https://spacy.io/" target="_blank" rel="noopener">spaCy&lt;/a> konnten wir auf unseren Testdaten die in der folgenden Tabelle gelisteten Werte erzielen:&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>Label&lt;/th>
&lt;th style="text-align:right">Precision&lt;/th>
&lt;th style="text-align:right">Recall&lt;/th>
&lt;th style="text-align:right">F1-Score&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>GPE&lt;/td>
&lt;td style="text-align:right">96,10&lt;/td>
&lt;td style="text-align:right">97,14&lt;/td>
&lt;td style="text-align:right">96,62&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>PER&lt;/td>
&lt;td style="text-align:right">96,45&lt;/td>
&lt;td style="text-align:right">96,62&lt;/td>
&lt;td style="text-align:right">96,54&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>FAC&lt;/td>
&lt;td style="text-align:right">95,11&lt;/td>
&lt;td style="text-align:right">94,40&lt;/td>
&lt;td style="text-align:right">94,76&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>ORG&lt;/td>
&lt;td style="text-align:right">91,72&lt;/td>
&lt;td style="text-align:right">89,78&lt;/td>
&lt;td style="text-align:right">90,74&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>LOC&lt;/td>
&lt;td style="text-align:right">90,48&lt;/td>
&lt;td style="text-align:right">89,76&lt;/td>
&lt;td style="text-align:right">90,12&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>EVENT&lt;/td>
&lt;td style="text-align:right">94,41&lt;/td>
&lt;td style="text-align:right">90,00&lt;/td>
&lt;td style="text-align:right">92,15&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Das Modell hat für die Klassen EVENT, FAC und LOC jedoch zu wenig Beispiele in den Trainings- und Testdaten, um verlässliche Aussagen zu treffen.
Auch sind die Metadaten für die für die Provenienzforschung relevanten Akten sehr spezifisch, so dass das Modell für die Anwendbarkeit auf anderen Beständen ein Nachtraining erfordert.&lt;/p>
&lt;p>Im Vergleich zum Training des spezifischen NER Modells für die Erkennung von Kunst- und Kulturobjekten war das Training deutlich aufwendiger. Wir gehen jedoch davon aus, die Trainingsdaten in anderen Projekten ergänzen zu können und so Schritt für Schritt zu einem generischen Modell für unsere Daten zu kommen.&lt;/p>
&lt;div class="alert alert-">
&lt;div>
Da etwas mehr als die Hälfte der für die Provenienzforschung relevanten Akten noch einer Sperrfrist unterliegen, können wir weder die Trainings- bzw. Testdaten noch das Modell veröffentlichen.
&lt;/div>
&lt;/div>
&lt;h3 id="spancat-für-personendaten">SpanCat für Personendaten&lt;/h3>
&lt;p>Ein komplexerer Fall stellt die Erkennung von semi-strukturierten Pesonendaten in den Akten und Metadaten unserer Aktenbestände dar. Hier hatten wir Probleme mit klassischen NER Ansätzen, da wir teilweise sehr lange Entitäten haben, die sich auch überlappen können.&lt;/p>
&lt;p>Hier experimentierten wir mit &lt;a href="https://explosion.ai/blog/spancat" target="_blank" rel="noopener">SpanCat&lt;/a> und konnten initial recht gute Ergebnisse erzielen.&lt;/p>
&lt;figure id="figure-erkennung-von-strukturierten-personendaten-mit-spancat">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Erkennung von strukturierten Personendaten mit SpanCat." srcset="
/post/2023-07-abschluss-des-fdmlab/labw-span-per-example_hu38b48133166d875a38630c05e607b05a_12036_ecb2520151642ac7f9bdac2e6e1302c3.webp 400w,
/post/2023-07-abschluss-des-fdmlab/labw-span-per-example_hu38b48133166d875a38630c05e607b05a_12036_9fe6547ceae69780f5201cc5529be1ca.webp 760w,
/post/2023-07-abschluss-des-fdmlab/labw-span-per-example_hu38b48133166d875a38630c05e607b05a_12036_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2023-07-abschluss-des-fdmlab/labw-span-per-example_hu38b48133166d875a38630c05e607b05a_12036_ecb2520151642ac7f9bdac2e6e1302c3.webp"
width="759"
height="71"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Erkennung von strukturierten Personendaten mit SpanCat.
&lt;/figcaption>&lt;/figure>
&lt;p>Es stellte sich jedoch heraus, dass wir im Vergleich zu unserem oben beschriebenen NER Modell deutlich mehr und diversere Trainingsdaten benötigen. Besonders das Trainieren von proportional unterrepräsentierten Features, wie zum Beispiel Berufsangaben, Titel und Aliasen, stellte sich als problematisch heraus.
Als Zwischenlösung trainierten wir für diese Features separate Modelle und fassten sie mit dem ursprünglichen SpanCat Modell in einer Pipeline zusammen. Dies stellte sich als komplizierter raus, als ursprünglich erwartet. &lt;sup id="fnref:3">&lt;a href="#fn:3" class="footnote-ref" role="doc-noteref">3&lt;/a>&lt;/sup>&lt;/p>
&lt;div class="mermaid">---
title: Pipeline für Personendaten
config:
look: handDrawn
theme: neutral
---
flowchart LR
text["Text"] ---> spancat1
custom_component --> entities["Entities"]
subgraph pipeline["Pipeline"]
direction LR
spancat1["SpanCat1"] --> spancat2["SpanCat2"]
spancat2 --> custom_component
subgraph custom_component["Custom Component"]
sc
end
end
subgraph pipeline_spancat1["Pipeline SpanCat1"]
subgraph component_spancat1["Spancat1"]
direction LR
spancat1_tok2vec["Tok2Vec"]
sc_spancat1
end
end
subgraph pipeline_spancat2["Pipeline SpanCat2"]
subgraph component_spancat2["Spancat2"]
direction LR
spancat2_tok2vec["Tok2Vec"]
sc_spancat2
end
end
sc_spancat1 -.merge-.-> sc
sc_spancat2 -.merge-.-> sc
component_spancat1 -.source-.-> spancat1
component_spancat2 -.source-.-> spancat2
&lt;/div>
&lt;p>Insgesamt ist der Ansatz jedoch sehr vielversprechend und wir hätten gerne mehr Zeit gehabt, ausführlicher über unsere Ansätze zu berichten und sie weiter zu vertiefen.&lt;/p>
&lt;p>Hierzu standen wir auch im fachlichen Austausch mit dem &lt;a href="https://www.leuphana.de/institute/ipk/provenance-lab.html" target="_blank" rel="noopener">Provenance Lab an der Leuphana&lt;/a>, die in &lt;a href="https://doi.org/10.1515/jbwg-2023-0005" target="_blank" rel="noopener">Hidden Value: Provenance as a Source for Economic and Social History&lt;/a> die Umsetzung einer ähnlichen Anwendung von SpanCat beschreiben.&lt;/p>
&lt;h2 id="weitere-datenprojekte">Weitere Datenprojekte&lt;/h2>
&lt;h3 id="reichskammergericht">Reichskammergericht&lt;/h3>
&lt;div class="mermaid">---
title: Workflow Reichskammergericht
config:
look: handDrawn
theme: neutral
---
flowchart LR
text[fas:fa-file-alt Text]
data[fas:fa-table Table]
gnd[fas:fa-database GND]
semantic[fas:fa-project-diagram Graph]
text --> data --> semantic
gnd --> semantic
&lt;/div>
&lt;p>Wir hatten schon in Phase I über die Retrodigitalisierung von analogen Findbüchern berichtet.
Unter anderem haben wir exemplarisch einen &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2021-07-findbuch-index-mit-openrefine-aufbereiten/">Findbuch Index mit OpenRefine aufbereitet&lt;/a>.&lt;/p>
&lt;p>Für Findbücher zu den Akten des Reichskammergerichts&lt;sup id="fnref:4">&lt;a href="#fn:4" class="footnote-ref" role="doc-noteref">4&lt;/a>&lt;/sup> haben wir nun die Personen- und Orts-Indizes ebenfalls in Tabellenform überführt und mit Normdaten der Gemeinsamen Normdatei abgeglichen.&lt;/p>
&lt;p>Neben weiteren Erfahrungen mit dem Massenabgleich von Daten über die OpenRefine Schnittstell der &lt;a href="https://lobid.org/gnd/reconcile/" target="_blank" rel="noopener">lobid-gnd&lt;/a>, konnten wir dabei zusammen mit &lt;a href="https://fdmlab.landesarchiv-bw.de/author/verena-mack/">Verena Mack&lt;/a> von der &lt;a href="https://www.leo-bw.de/web/guest/gnd-agentur" target="_blank" rel="noopener">GND-Agentur LEO-BW-Regional&lt;/a> einige Dubletten identifizieren und fehlende Einträge ergänzen.&lt;/p>
&lt;h3 id="digitalisierung-von-heimlisten">Digitalisierung von Heimlisten&lt;/h3>
&lt;p>Für das Projekt &lt;a href="https://www.landesarchiv-bw.de/de/landesarchiv/projekte/aufarbeitung-von-heimerziehung-und-zwangsunterbringungen/projektueberblick/61032" target="_blank" rel="noopener">Aufarbeitung von Heimerziehung und Zwangsunterbringungen&lt;/a> wurden ursprünglich analog vorliegende Adresslisten von Heimen digitalisiert, tabellarisch aufbereitet und die Ortsangaben mit Normdaten, sowie Geokoordinaten versehen.&lt;/p>
&lt;h3 id="abgleich-von-findbüchern-mit-dateistrukturen">Abgleich von Findbüchern mit Dateistrukturen&lt;/h3>
&lt;p>Im AV Archiv im Hauptstaatsarchiv Stuttgart werden digitale Medien erfasst und archiviert.
Das FDMLab unterstützte das AV Archiv bei einer Analyse der vorliegenden Dateistruktur und einem Abgleich mit den zugehörigen Findmitteln.&lt;/p>
&lt;h3 id="verlinkung-der-tomi-actorum">Verlinkung der Tomi Actorum&lt;/h3>
&lt;p>Bei der &lt;a href="https://www.landesarchiv-bw.de/de/aktuelles/nachrichten/74877" target="_blank" rel="noopener">Digitalisierung der Verhandlungsprotokolle der württembergischen Landstände&lt;/a> wurden im Hauptstaatsarchiv Stuttgart Protokolle digitalisiert und die Sachregister zusätzlich transkribiert.
Es konnte in dem &lt;a href="http://www.landesarchiv-bw.de/plink/?f=1-2861" target="_blank" rel="noopener">Online Findmittelsystem&lt;/a> jedoch keine direkte Verbindung zwischen einem Eintrag im Sachregister zu dem zugehörigen Digitalisat des Protokolleintrags genutzt werden.
Das FDMLab unterstützte das Projekt, indem etwa 50.000 Verlinkungen von Sachregistereinträgen zu den zurgehörigen Protokolleinträgen mit der Unterstützung von Methoden der Mustererkennung automatisch vorgenommen wurde.&lt;/p>
&lt;h3 id="veröffentlichung-von-forschungsdaten">Veröffentlichung von Forschungsdaten&lt;/h3>
&lt;p>Das FDMLab unterstützte das Staatsarchiv Wertheim bei der Veröffentlichung einer &lt;a href="https://www.landesarchiv-bw.de/de/aktuelles/nachrichten/75633" target="_blank" rel="noopener">Forschungsdatenbank auf Radar4Culture&lt;/a>. Dazu gehörte die Auswahl eines geeigneten Forschungsdatenrepositoriums, die Konvertierung in ein geeignetes Veröffentlichungsformat, sowie Hinweise zur Datenbeschreibung, Lizenzierung und Anreicherung mit Normdaten.&lt;/p>
&lt;h2 id="schluss-">Schluss ⛔&lt;/h2>
&lt;p>In den drei Jahren FDMLab@LABW konnten wir viele Projekte bei der Umsetzung von Digitalisierungsaufgaben unterstützen.
Dabei versuchten wir neue Wege zu gehen und dabei nachvollziehbare Beschreibungen unserer Wanderungen zu hinterlassen.&lt;/p>
&lt;p>Ohne die fachliche Zusammenarbeit mit Kolleginnen und Kollegen hätte das FDMLab nicht funktionieren können.
Vielen Dank an alle, die sich mit Fragen, Beiträgen und fachlicher Unterstützung an den Projekten des FDMLabs beteiligt haben.&lt;/p>
&lt;p>Finanziert wurde das FDMLab@LABW aus Mitteln der Zukunftsoffensive III durch das Ministerium für Wissenschaft, Forschung und Kunst Baden-Württemberg.&lt;/p>
&lt;p>Nach drei Jahren endet die Förderung und wir schließen das FDMLab@LABW.&lt;/p>
&lt;p>Die Inhalte des FDMLab Blogs werden wir vorläufig in einer statischen Form weiter vorhalten.&lt;/p>
&lt;div class="footnotes" role="doc-endnotes">
&lt;hr>
&lt;ol>
&lt;li id="fn:1">
&lt;p>Wikipedia Autoren, „Landesarchiv Baden-Württemberg“, Wikipedia – Die freie Enzyklopädie, &lt;a href="https://de.wikipedia.org/w/index.php?title=Landesarchiv_Baden-W%C3%BCrttemberg&amp;amp;oldid=223510351" target="_blank" rel="noopener">https://de.wikipedia.org/w/index.php?title=Landesarchiv_Baden-W%C3%BCrttemberg&amp;oldid=223510351&lt;/a> (aufgerufen am 20. Juli 2022).&amp;#160;&lt;a href="#fnref:1" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:2">
&lt;p>NER erstellt mit spaCy 3.3 &lt;a href="https://spacy.io/models/en#en_core_web_lg" target="_blank" rel="noopener">en_core_web_lg&lt;/a>.&amp;#160;&lt;a href="#fnref:2" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:3">
&lt;p>Siehe auch &lt;a href="https://github.com/explosion/spaCy/discussions/12462" target="_blank" rel="noopener">https://github.com/explosion/spaCy/discussions/12462&lt;/a>&amp;#160;&lt;a href="#fnref:3" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:4">
&lt;p>Akten des Reichskammergerichts im Hauptstaatsarchiv Stuttgart: Inventar des Bestands C. Bearb. von A. Brunotte, R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg, Band 46 Nr.1-8, Stuttgart 1993-2008. Außerdem: Akten des Reichskammergerichts im Staatsarchiv Sigmaringen: Inventar des Bestands R 7. Bearb. von R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg; Band 57, Stuttgart 2004.&amp;#160;&lt;a href="#fnref:4" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;/ol>
&lt;/div></description></item><item><title>Ein Rückblick auf zwei Jahre FDMLab</title><link>https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/</link><pubDate>Tue, 26 Jul 2022 00:00:00 +0000</pubDate><guid>https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/</guid><description>&lt;p>Nach zwei Jahren steht das FDMLab@LABW kurz vor dem Ende der ersten Projektlaufzeit. Dies nehmen wir zum Anlass, zurückzublicken und eine Zwischenbilanz zu ziehen: Was waren unsere wichtigsten Projekte? Was haben wir erreicht und was war schwierig? Was würden wir in Zukunft gerne tun?&lt;/p>
&lt;h2 id="formung-des-projektteams-und-einarbeitung">Formung des Projektteams und Einarbeitung&lt;/h2>
&lt;p>Das FDMLab hat den Auftrag, am &lt;a href="https://www.landesarchiv-bw.de/" target="_blank" rel="noopener">Landesarchiv Baden-Württemberg&lt;/a> eine Basisinfrastruktur im Bereich &lt;a href="https://mwk.baden-wuerttemberg.de/de/forschung/forschungslandschaft/e-science/" target="_blank" rel="noopener">E-Science&lt;/a> und &lt;a href="https://www.forschungsdaten.info/" target="_blank" rel="noopener">Forschungsdatenmanagement (FDM)&lt;/a> aufzubauen, welche einen Beitrag zur &lt;a href="https://www.nfdi.de/" target="_blank" rel="noopener">NFDI&lt;/a> leistet. Das zentrale Ziel ist dabei stets, die Auffindbarkeit, Zugänglichkeit und Nutzbarkeit unseres Archivguts zu erhöhen und die Nutzungsmöglichkeiten an einer zunehmend digitalen Forschungspraxis auszurichten. Dazu haben wir bereits vorhandene Konzepte und Technologien aus dem Data Science und KI-Bereich für den Einsatz im Landesarchiv evaluiert, einige geeignete Instrumente (ggf. mit Anpassungen) testweise implementiert und uns aktiv in die GLAM-Labs-Community eingebracht, um die Bedarfe der Archive zu kommunizieren und Impulse für die Weiterentwicklung relevanter Werkzeuge zu liefern.&lt;/p>
&lt;p>Um diese Aufgaben anzugehen, braucht es einerseits das Verständnis archivischer Quellen und der Arbeitsprozesse rund um die Erschließung, Digitalisierung und Bereitstellung im Archiv. Andererseits sind umfangreiche Kenntnisse in den Bereichen Data Science und Maschinelles Lernen wichtig. Das Kernteam unseres Projekts besteht aus einer &lt;a href="https://fdmlab.landesarchiv-bw.de/author/elisabeth-klindworth/">Archivarin&lt;/a> und einem &lt;a href="https://fdmlab.landesarchiv-bw.de/author/benjamin-rosemann/">Data Scientist&lt;/a>. Diese Kombination von Expertisen ist für das FDMLab ein wichtiger Erfolgsfaktor. Besonders die Anfangszeit des Projekts war geprägt von einem Kommunikationsprozess, in dessen Verlauf das Projektteam zu einer gemeinsamen Sprache fand und viel aus der Denkweise der Teammitglieder lernte. Hierbei gab es auch immer wieder wertvollen Input von zahlreichen Kolleginnen und Kollegen aus ganz unterschiedlichen Abteilungen des Landesarchivs.&lt;/p>
&lt;p>Das FDMLab war von vornherein als experimentelles Forschungsprojekt geplant. Daher entschieden wir uns für ein iteratives Vorgehen. Anstatt einen starren Projektplan zu entwerfen, bearbeiteten wir verschiedene inhaltlich stark verzahnte Themenfelder parallel. Dies hatte den Vorteil, dass wir auf Erfolge und Rückschläge bei Experimenten flexibel reagieren konnten. Auch konnte das FDMLab immer wieder kurzfristig Hilfe leisten, wenn andere Projekte oder Abteilungen des Landesarchivs eine Frage zur Datenaufbereitung stellten. Dadurch konnten wir unsere Arbeitsweise und unseren Fokus auf die direkten Bedürfnisse unserer Kolleginnen und Kollegen anpassen.&lt;/p>
&lt;h2 id="volltextgenerierung">Volltextgenerierung&lt;/h2>
&lt;p>Die Volltexterkennung bildete einen der thematischen Schwerpunkte der vergangenen Projektlaufzeit. Das FDMLab hat verschiedene OCR- und HTR-Werkzeuge für die Erkennung von Text in digitalisiertem Archivgut getestet.&lt;sup id="fnref:1">&lt;a href="#fn:1" class="footnote-ref" role="doc-noteref">1&lt;/a>&lt;/sup>
Als Testmaterial dienten hierbei die digitalisierten Kriegs- und Friedensstammrollen aus dem Hauptstaatsarchiv Stuttgart (&lt;a href="https://www2.landesarchiv-bw.de/ofs21/olb/struktur.php?archiv=1&amp;amp;klassi=1.12.002.002&amp;amp;anzeigeKlassi=1.12.002.002&amp;amp;zeigehauptframe=1" target="_blank" rel="noopener">Bestände LABW HStA M 430/1 – M 631&lt;/a>) und dem Generallandesarchiv Karlsruhe (&lt;a href="http://www.landesarchiv-bw.de/plink/?f=4-7883" target="_blank" rel="noopener">Beständegruppe XIV. (Badisches) Armeekorps&lt;/a>) und die ebenfalls digitalisierten Kriegsgräberlisten aus der Abteilung Staatsarchiv Ludwigsburg (&lt;a href="http://www.landesarchiv-bw.de/plink/?f=2-2362044&amp;amp;a=fb" target="_blank" rel="noopener">Bestand LABW StAL EL 20/1 VI&lt;/a>). Diese Bestände weisen einige Merkmale auf, die für einen größeren Teil des jüngeren Archivguts im Landesarchiv Baden-Württemberg charakteristisch sind: ein komplexes tabellarisches Layout, sowie eine Mischung aus Handschrift, Druckschrift und Schreibmaschinenschrift, wie in Abbildung 1 gezeigt.&lt;sup id="fnref:2">&lt;a href="#fn:2" class="footnote-ref" role="doc-noteref">2&lt;/a>&lt;/sup>&lt;/p>
&lt;figure id="figure-beispiel-für-mischung-aus-druck--und-maschinenschrift-2fn2">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Beispiel für Mischung aus Druck- und Maschinenschrift [[2](#fn:2)]." srcset="
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/personalblatt_hua229dce7e6a679abb9314318f4089406_985121_e3e584e5cc042ae1080b49dea033a767.webp 400w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/personalblatt_hua229dce7e6a679abb9314318f4089406_985121_7b60937e75f0c40f0acd0939fd36d46c.webp 760w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/personalblatt_hua229dce7e6a679abb9314318f4089406_985121_1200x1200_fit_q75_h2_lanczos.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/personalblatt_hua229dce7e6a679abb9314318f4089406_985121_e3e584e5cc042ae1080b49dea033a767.webp"
width="507"
height="760"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Beispiel für Mischung aus Druck- und Maschinenschrift [&lt;a href="#fn:2">2&lt;/a>].
&lt;/figcaption>&lt;/figure>
&lt;p>Anhand dieser Testbestände konnten wir wertvolle Erfahrungen mit dem Aufbau geeigneter Workflows für die Volltexterkennung sammeln. Für gedruckte Archivalien des Landesarchivs eignen sich vor allem die Werkzeuge von &lt;a href="https://ocr-d.de/" target="_blank" rel="noopener">OCR-D&lt;/a> und &lt;a href="http://www.ocr4all.org/" target="_blank" rel="noopener">OCR4All&lt;/a>.&lt;/p>
&lt;div class="mermaid">---
title: OCR Tools
config:
look: handDrawn
theme: neutral
---
flowchart LR
subgraph ocr[fas:fa-font OCR-Tools]
OCRopus --> Kraken --> Calamari
OCRopus --> Calamari
OCRopus -.-> Tesseract
Qurator
end
subgraph gui[far:fa-window-maximize GUI-Tools]
Calamari --> OCR4All
Kraken --> eScriptorium
Tesseract --> tesseractXplore
end
subgraph cli[fas:fa-terminal CLI-Tools]
ocr-d
Calamari &amp; Qurator --> origami
end
ocr --> ocr-d
&lt;/div>
&lt;p>Bei handschriftlichem Archivgut hat sich die Software &lt;a href="https://transkribus.eu" target="_blank" rel="noopener">Transkribus&lt;/a> bewährt. Eine “One fits all”-Lösung für alle Bestände des Landesarchivs kann es dabei nicht geben, was wir bereits zu Projektbeginn auch vermutet hatten. Unser Archivgut aus verschiedenen Jahrhunderten ist sowohl im Schriftbild als auch im Layout sehr heterogen. Daher müssen für unterschiedliche Bestände jeweils eigene Workflows aufgebaut und die Parameter der Erkennungssoftware darauf angepasst werden.&lt;/p>
&lt;figure id="figure-bildschirmfoto-der-oberfläche-von-transkribus">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Bildschirmfoto der Oberfläche von Transkribus." srcset="
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-transkribus-stammrolle_hue3f8d6066532e7486957a122047e26a2_1486919_395ae6c679f7503278a5f8035ee41520.webp 400w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-transkribus-stammrolle_hue3f8d6066532e7486957a122047e26a2_1486919_11eb8a6699816af3216c4f08369480c0.webp 760w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-transkribus-stammrolle_hue3f8d6066532e7486957a122047e26a2_1486919_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-transkribus-stammrolle_hue3f8d6066532e7486957a122047e26a2_1486919_395ae6c679f7503278a5f8035ee41520.webp"
width="760"
height="408"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Bildschirmfoto der Oberfläche von Transkribus.
&lt;/figcaption>&lt;/figure>
&lt;p>Um komplexere Layouts wie das der militärischen Stammrollen zu verarbeiten, führt nach dem aktuellen Stand der Technik außerdem kein Weg daran vorbei, eigene &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2021-09-training-strukturmodell-tabellen-mit-p2pala/">Erkennungsmodelle zur Layouterkennung zu trainieren&lt;/a>. Transkribus besitzt zwar auch eine eingebaute Layouterkennung. Diese kann mit Tabellen und Formularen jedoch nicht ohne Weiteres umgehen. Um ein eigenes Modell zu trainieren, muss man zunächst umfangreiche Ground Truth-Daten manuell erstellen, die dem Algorithmus der Texterkennungssoftware als “Übungsbeispiele” dienen können. Hierfür sind erhebliche Personal- und Zeitressourcen notwendig. Auch nach Abschluss eines Modelltrainings fällt weiterhin eine intellektuelle Nachbearbeitung der automatisch generierten Volltexte an, soweit das Ergebnis noch nicht den Qualitätsansprüchen genügt.&lt;/p>
&lt;p>Die Bewertung von Ergebnissen einer Volltexterfassung von unserem Archivmaterial gestaltete sich zunächst aufwendiger als gedacht. Die Standardmetrik &lt;em>Character Error Rate&lt;/em> (CER) berücksichtigt auch das Layout, was in den meisten Fällen auch Sinn ergibt. Im Falle von tabellarischen Inhalten, kann jedoch schon eine Abweichung der Lesart (zeilenweise vs. spaltenweise) zu sehr schlechten Bewertungen bei eigentlich guten OCR-Ergebnissen führen. In der folgenden Tabelle ist ein Beispiel mit neun Zahlen, wo nur auf Grund der unterschiedlichen Lesart eine Fehlerrate von über 66 Prozent erzeugt wird.&lt;/p>
&lt;table>
&lt;thead>
&lt;tr>
&lt;th>1&lt;/th>
&lt;th>2&lt;/th>
&lt;th>3&lt;/th>
&lt;th>-&lt;/th>
&lt;th>Lesart&lt;/th>
&lt;th>Reihenfolge&lt;/th>
&lt;/tr>
&lt;/thead>
&lt;tbody>
&lt;tr>
&lt;td>4&lt;/td>
&lt;td>5&lt;/td>
&lt;td>6&lt;/td>
&lt;td>-&lt;/td>
&lt;td>zeilenweise&lt;/td>
&lt;td>&lt;strong>1&lt;/strong> 2 3 4 &lt;strong>5&lt;/strong> 6 7 8 &lt;strong>9&lt;/strong>&lt;/td>
&lt;/tr>
&lt;tr>
&lt;td>7&lt;/td>
&lt;td>8&lt;/td>
&lt;td>9&lt;/td>
&lt;td>-&lt;/td>
&lt;td>spaltenweise&lt;/td>
&lt;td>&lt;strong>1&lt;/strong> 4 7 3 &lt;strong>5&lt;/strong> 8 3 6 &lt;strong>9&lt;/strong>&lt;/td>
&lt;/tr>
&lt;/tbody>
&lt;/table>
&lt;p>Daher haben wir uns mit alternativen Metriken zur Bewertung von OCR-Ergebnissen beschäftigt und für uns die &lt;em>Flexible Character Accuracy&lt;/em> entdeckt.&lt;sup id="fnref:3">&lt;a href="#fn:3" class="footnote-ref" role="doc-noteref">3&lt;/a>&lt;/sup> Diese ist zwar weitaus aufwendiger zu berechnen, lässt sich dafür aber von Abweichungen von der Lesart eines Formates nicht so stark beeinflussen.&lt;/p>
&lt;p>Als hilfreich beim Aufbau von speziellen Workflows zur OCR-Erkennung hat sich das Projekt &lt;a href="https://ocr-d.de/" target="_blank" rel="noopener">OCR-D&lt;/a> erwiesen, mit dem sich verschiedenste Open-Source-Anwendungen aus dem Texterkennungsbereich über eine einheitliche Schnittstelle bedienen lassen. So können zum Beispiel unterschiedliche Werkzeuge zur Layoutbestimmung und Zeichenerkennung miteinander kombiniert und mit eigenen Modulen, ergänzt werden.
Als Oberfläche zur Erstellung von so genannten Ground Truth Daten haben wir uns zu Beginn unseres Projektes für &lt;a href="http://www.ocr4all.org/" target="_blank" rel="noopener">OCR4All&lt;/a> entschieden, welches in &lt;a href="https://ocr-d.de/en/phase3" target="_blank" rel="noopener">Phase III&lt;/a> auch ein Teil des OCR-D Projektes wurde.&lt;/p>
&lt;div class="mermaid">---
title: OCR Prozess
config:
look: handDrawn
theme: neutral
---
flowchart LR
original[fas:fa-archive Original]
scan(fas:fa-camera Scannen)
subgraph manual[fas:fa-hand-paper semi-manuell]
preprocessing_m(fas:fa-file-image Vorverarbeitung)
layout_m(fas:fa-draw-polygon Layout-Seg.)
lines_m(fas:fa-align-justify Zeilen-Seg.)
transcription(fas:fa-pencil-alt Transkription)
end
subgraph engine[fas:fa-magic automatisch]
preprocessing[fas:fa-file-image Vorverarbeitung]
layout(fas:fa-draw-polygon Layout-Seg.)
lines(fas:fa-align-justify Zeilen-Seg.)
ocr(fas:fa-font OCR)
end
quality(fas:fa-search Qualitätskontrolle)
text[fas:fa-file-word Text]
original --> scan
scan --> preprocessing &amp; preprocessing_m
preprocessing_m --> layout_m --> lines_m --> transcription --> quality
preprocessing --> layout --> lines --> ocr --> quality
quality --> text
&lt;/div>
&lt;p>Neben der vollständigen Digitalisierung von analogem Material, sind wir manchmal auch an Teildigitalisierungen interessiert. Beispielsweise werden bei der Digitalisierung von Findmitteln oder Übergabelisten nicht alle analogen Inhalte in der digitalen Version benötigt. Für diesen Zweck haben wir mit dem Einsatz von Scanstiften experimentiert. Diese sind ähnlich groß wie Textmarker und können einzelne Wörter, Phrasen oder Zeilen scannen, OCR erfassen und z.B. direkt in das zugehörige Formularfeld einer Erfassungssoftware übertragen. Es benötigt etwas Eingewöhnung, bis man den richtigen Winkel und die richtige Geschwindigkeit zur Bedienung herausgefunden hat. Bei richtiger Bedienung funktionieren die Scanstifte für moderne Drucke ähnlich gut wie kommerzielle Software für die OCR-Erfassung (die unter der Haube teilweise auch eingesetzt wird). Es gibt jedoch keine direkte und für technische Laien verständliche Möglichkeit die Scanstifte für die Erfassung behördlicher Schreibmaschinenschrift, Handschriften oder historischer Drucke anzupassen.&lt;sup id="fnref:4">&lt;a href="#fn:4" class="footnote-ref" role="doc-noteref">4&lt;/a>&lt;/sup>&lt;/p>
&lt;p>Neben der Erfassung von Volltexten beschäftigten wir uns auch mit verschiedenen Möglichkeiten der Darstellung von Volltexten in Webanwendungen. Dafür setzten wir die Anzeige von Volltexten für den Bestand &lt;a href="https://www.landesarchiv-bw.de/plink/?f=4-8457" target="_blank" rel="noopener">Abschiedsrede von Anton Geiß, GLAK N Geiss Nr. 6&lt;/a> in einem Prototyp für verschiedene Möglichkeiten wie &lt;a href="https://github.com/kba/hocr-spec" target="_blank" rel="noopener">hOCR&lt;/a> und den &lt;a href="https://dfg-viewer.de/" target="_blank" rel="noopener">DFG-Viewer&lt;/a> um und testeten die Bedienung der verschiedenen Anzeigevarianten, wobei der Fokus auf der Benutzung und nicht der Qualität des Volltextes bzw. des Designs lag (siehe Abbildungen 3 und 4).&lt;/p>
&lt;p>
&lt;figure id="figure-bildschirmfoto-der-übersicht-unseres-prototypen-zur-darstellung-von-volltexten">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Bildschirmfoto der Übersicht unseres Prototypen zur Darstellung von Volltexten." srcset="
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-overview_hu2d8379ef29ba97a4b8f17a7a2b6240a5_369313_d0ffeb462e701f6addde35baed383828.webp 400w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-overview_hu2d8379ef29ba97a4b8f17a7a2b6240a5_369313_715923775f1228c48062e50bd2834612.webp 760w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-overview_hu2d8379ef29ba97a4b8f17a7a2b6240a5_369313_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-overview_hu2d8379ef29ba97a4b8f17a7a2b6240a5_369313_d0ffeb462e701f6addde35baed383828.webp"
width="760"
height="746"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Bildschirmfoto der Übersicht unseres Prototypen zur Darstellung von Volltexten.
&lt;/figcaption>&lt;/figure>
&lt;figure id="figure-bildschirmfoto-der-detailsansicht-unseres-prototypen-zur-darstellung-von-volltexten-mit-hocr">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Bildschirmfoto der Detailsansicht unseres Prototypen zur Darstellung von Volltexten mit hOCR." srcset="
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-detail_hu89be6a5423a2a5818a272c25c8f6b0ff_1392172_a3f29fbf26b6b74f21e4dbafc62f315a.webp 400w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-detail_hu89be6a5423a2a5818a272c25c8f6b0ff_1392172_940b32a65d6d365bb9238fb01cb1e26e.webp 760w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-detail_hu89be6a5423a2a5818a272c25c8f6b0ff_1392172_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-fulltext-viewer-detail_hu89be6a5423a2a5818a272c25c8f6b0ff_1392172_a3f29fbf26b6b74f21e4dbafc62f315a.webp"
width="760"
height="514"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Bildschirmfoto der Detailsansicht unseres Prototypen zur Darstellung von Volltexten mit hOCR.
&lt;/figcaption>&lt;/figure>
&lt;/p>
&lt;h2 id="datenanalyse-und--anreicherung">Datenanalyse und -anreicherung&lt;/h2>
&lt;p>Eine Aufgabe im Archiv ist die Retrodigitalisierung, also die zur Verfügungstellung analog vorliegender Daten in digitaler Form für die wissenschaftliche Nutzung. Dies ermöglicht in der Regel nicht nur einen einfacheren Zugang zu den Daten, sondern unterstützt zusätzlich auch die Bestandserhaltung. Neben der (Retro)Digitalisierung von Archivalien gehört hier auch die Digitalisierung der entsprechenden Metadaten, also der Findmittel dazu, aber auch die Umwandlung von schon digital vorliegenden Daten in strukturierte Formate oder semantisch beschriebene Datensätze.&lt;/p>
&lt;p>Eines unserer ersten Projekte im FDMLab war die Überführung des gedruckten Findbuches “Fürstlich Thurn und Taxissches Archiv Obermarchtal Grafschaft Friedberg-Scheer&amp;quot; in unser archivisches Fachinformationssystem (AFIS).&lt;sup id="fnref:5">&lt;a href="#fn:5" class="footnote-ref" role="doc-noteref">5&lt;/a>&lt;/sup> Hierbei konnten wir schnell feststellen, dass vermeintlich durchstrukturierte Findbücher in vielen Punkten minimal vom vermeintlich einheitlichen Schema abweichen, sodass eine komplett automatische Einsortierung der einzelnen Textbestandteile in die entsprechenden Formularfelder nicht sinnvoll ist.&lt;/p>
&lt;div class="mermaid">---
title: Prozess Datenextraktion
config:
look: handDrawn
theme: neutral
---
flowchart LR
text[fas:fa-file-word Text]
corr(Korrekturen)
subgraph entries[fas:fa-address-card Einträge]
extraction(Extraktion)
line_breaks(Zeilenumbrüche)
structure(Strukturerkennung)
conversion(Mapping)
end
subgraph index[fas:fa-address-book Index]
extraction_i(Extraktion)
classification(Klassifizierung)
person[fas:fa-user Personen]
place[fas:fa-map-marker Orte]
extend(Anreicherung)
end
combine(Zusammenführen)
afis[(AFIS)]
db[(Externe DBs)]
text --> corr --> extraction &amp; extraction_i
extraction --> line_breaks --> structure --> conversion --> combine
extraction_i --> classification --> person &amp; place --> extend --> combine --Import--> afis
db --> extend
&lt;/div>
&lt;p>Bei unserem Folgeprojekt, der &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2021-07-findbuecher-mit-openrefine-in-datenbank-uebernehmen/">(Retro)Digitalisierung der Findbücher zu den Reichskammergerichtsakten&lt;/a>, haben wir daher OpenRefine eingesetzt. Das hat den Vorteil, dass wir einerseits automatisch strukturierte Daten in Massenbearbeitungen aus dem Text extrahieren können, andererseits die problematischen Abweichungen schnell identifizieren und separat behandeln können.&lt;sup id="fnref:6">&lt;a href="#fn:6" class="footnote-ref" role="doc-noteref">6&lt;/a>&lt;/sup>&lt;/p>
&lt;blockquote>
&lt;div class="entities" style="line-height: 2.5; direction: ltr">1 &lt;mark class="entity" style="background: #b3e2cd; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;"> 1 &lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">Nr&lt;/span> &lt;/mark> ( &lt;mark class="entity" style="background: #f4cae4; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;"> C 2145 &lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">Altsignatur&lt;/span> &lt;/mark> ) &lt;mark class="entity" style="background: #e6f5c9; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;"> 1597 – 1600 &lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">Laufzeit&lt;/span> &lt;/mark> &lt;br> Vorsignatur: &lt;mark class="entity" style="background: #cbd5e8; padding: 0.45em 0.6em; margin: 0 0.25em; line-height: 1; border-radius: 0.35em;"> R Rep. 9 Nr. 230 &lt;span style="font-size: 0.8em; font-weight: bold; line-height: 1; border-radius: 0.35em; vertical-align: middle; margin-left: 0.5rem">Vorsignatur&lt;/span> &lt;/mark> &lt;/div>
&lt;p>Strukturbeispiel (Abschnitt 1) für Findbuch zu Akten des Reichskammergerichts.&lt;/p>
&lt;/blockquote>
&lt;p>OpenRefine hat uns dabei so gefallen und wir haben so positiv davon berichtet, dass wir von mehreren Kolleginnen und Kollegen gebeten wurden dazu doch einen internen &lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-einsteiger/warum-openrefine/">OpenRefine Einsteigerworkshop&lt;/a> anzubieten. Dieser wurde wiederum so positiv aufgenommen, dass wir den &lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-einsteiger/warum-openrefine/">OpenRefine Einsteigerworkshop&lt;/a> inzwischen schon viermal durchgeführt haben und darauf aufbauend einen &lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-fortgeschrittene/warum-openrefine/">OpenRefine Fortgeschrittenenworkshop&lt;/a> erstellt und ebenfalls bereits zweimal durchgeführt haben. Die zugehörigen Materialien und Anleitungen haben wir zusätzlich für unseren Blog aufbereitet und dort &lt;a href="https://fdmlab.landesarchiv-bw.de/workshops/">zur Verfügung gestellt&lt;/a>.&lt;/p>
&lt;p>&lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-einsteiger/warum-openrefine/">
&lt;figure id="figure-link-zum-einsteiger-workshop-für-openrefine">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img src="https://fdmlab.landesarchiv-bw.de/post/2022-04-openrefine-workshop-veroeffentlicht/einsteiger-workshop.png" alt="Folie zum Einsteiger Workshop zu OpenRefine" loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption>
Link zum Einsteiger Workshop für OpenRefine
&lt;/figcaption>&lt;/figure>
&lt;/a>&lt;/p>
&lt;p>Die Resonanz aus dem deutschsprachigen GLAM-Bereich (Galerien, Bibliotheken (Libraries), Archive und Museen) zu OpenRefine ist bisher recht positiv und uns erreichen aus dem deutschsprachigen Raum auch immer mal wieder Anfragen zu konkreten Problemen oder Projekten, bei denen wir im Rahmen unserer Möglichkeiten gerne weiterhelfen.&lt;/p>
&lt;p>&lt;a href="https://fdmlab.landesarchiv-bw.de/workshop/openrefine-fortgeschrittene/warum-openrefine/">
&lt;figure id="figure-link-zum-fortgeschrittenen-workshop-für-openrefine">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img src="https://fdmlab.landesarchiv-bw.de/post/2022-04-openrefine-workshop-veroeffentlicht/fortgeschrittenen-workshop.png" alt="Folie zum Fortgeschrittenen Workshop zu OpenRefine" loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption>
Link zum Fortgeschrittenen Workshop für OpenRefine
&lt;/figcaption>&lt;/figure>
&lt;/a>&lt;/p>
&lt;p>Ein weiteres Daten-Projekt, welches wir im FDMLab technisch begleiten durften, ist das &lt;a href="https://www.leo-bw.de/themenmodul/juedisches-leben-im-suedwesten/gurs" target="_blank" rel="noopener">Themenmodul Gurs&lt;/a> im &lt;a href="https://www.leo-bw.de/" target="_blank" rel="noopener">Landeskundlichen Informationssystem Baden-Württemberg (LEO-BW)&lt;/a>. Konkret wurde hier mit OpenRefine eine von mehreren Kolleginnen und Kollegen zusammengetragene Excel-Datei inhaltlich und strukturell vereinheitlicht und für die Veröffentlichung als Datenbank im XML-Format aufbereitet. Dazu gehörte auch die Einbindung von Bildern, die Anreicherung von Orten mit Normdaten und Geokoordinaten sowie die Recherche und Normdatenerstellung in Kooperation mit &lt;a href="https://fdmlab.landesarchiv-bw.de/author/verena-mack/">Verena Mack&lt;/a> von der &lt;a href="https://www.leo-bw.de/gnd-agentur" target="_blank" rel="noopener">GND-Agentur LEO-BW-Regional&lt;/a>.&lt;/p>
&lt;figure id="figure-bildschirmfoto-der-kartenansicht-des-themenmodul-gurshttpswwwleo-bwdethemenmoduljuedisches-leben-im-suedwestengurs-in-leo-bw">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Bildschirmfoto der Kartenansicht des [Themenmodul Gurs](https://www.leo-bw.de/themenmodul/juedisches-leben-im-suedwesten/gurs) in LEO-BW." srcset="
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-leo-bw-gurs-karte_hu1719a32351d11bd69bc5dc8ef81202ab_914267_995786493ec5f6e626b3833b07d4b4c3.webp 400w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-leo-bw-gurs-karte_hu1719a32351d11bd69bc5dc8ef81202ab_914267_75d018831b6c7b47cbeb7f6a315e243d.webp 760w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-leo-bw-gurs-karte_hu1719a32351d11bd69bc5dc8ef81202ab_914267_1200x1200_fit_q75_h2_lanczos_3.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/screenshot-leo-bw-gurs-karte_hu1719a32351d11bd69bc5dc8ef81202ab_914267_995786493ec5f6e626b3833b07d4b4c3.webp"
width="760"
height="483"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Bildschirmfoto der Kartenansicht des &lt;a href="https://www.leo-bw.de/themenmodul/juedisches-leben-im-suedwesten/gurs" target="_blank" rel="noopener">Themenmodul Gurs&lt;/a> in LEO-BW.
&lt;/figcaption>&lt;/figure>
&lt;p>Ähnlich wurde vom FDMLab das &lt;a href="https://www.leo-bw.de/web/guest/themen/landesgeschichte/der-erste-weltkrieg/winterberg-tunnel" target="_blank" rel="noopener">Projekt Winterberg-Tunnel auf LEO-BW&lt;/a> unterstützt.&lt;sup id="fnref:7">&lt;a href="#fn:7" class="footnote-ref" role="doc-noteref">7&lt;/a>&lt;/sup> Wobei hier der Fokus auf der Restrukturierung der Personendaten lag, damit diese auf LEO-BW als Datenbank angeboten werden können, sowie die Ergänzung und Erstellung von Normdaten für Orte wiederum in Kooperation mit &lt;a href="https://fdmlab.landesarchiv-bw.de/author/verena-mack/">Verena Mack&lt;/a>.&lt;/p>
&lt;p>Bei unserer Arbeit mit Normdaten zu Orten in Baden-Württemberg in der &lt;a href="https://www.dnb.de/DE/Professionell/Standardisierung/GND/gnd_node.html" target="_blank" rel="noopener">Gemeinsamen Normdatei (GND)&lt;/a> stolperten wir hin und wieder über Dubletten. Gemeinsam mit &lt;a href="https://fdmlab.landesarchiv-bw.de/author/verena-mack/">Verena Mack&lt;/a> führten wir ein Experiment mit SPARQL auf einem &lt;a href="https://jena.apache.org/" target="_blank" rel="noopener">Apache Jena Triple Store&lt;/a> durch, um solche Orte zu identifizieren und eine Bereinigung der Daten beauftragen zu können. Dabei konnten wir circa 600 eindeutige Dubletten bei 33.000 Ortsdatensätzen für Baden-Württemberg identifizieren. Details dazu unter unserem &lt;a href="https://fdmlab.landesarchiv-bw.de/post/2022-06-doppelte-orte-in-gnd/">Bericht zum Experiment zur Identifikation von doppelten Orten in der GND&lt;/a>.&lt;/p>
&lt;p>Weitere Erfahrungen bei der Arbeit mit Normdaten konnten wir bei der Unterstützung der Aufbereitung des Bestandes &lt;a href="http://www.landesarchiv-bw.de/plink/?f=2-5684305" target="_blank" rel="noopener">StAL EL 68 IX Landesvermessungsamt Baden-Württemberg: Landesbefliegung Baden-Württemberg 1968 - Luftbilder und digitales Orthophoto&lt;/a> sammeln. Hier wurden 21.132 Datensätze mit 19.569 digitalisierten Luftbildern und 30.000 georeferenzierten Orthofotokacheln automatisiert mit insgesamt 195.988 teils neuen, normierten Ortsdeskriptoren verknüpft. Siehe dazu auch &lt;a href="https://landesarchiv-bw.de/de/aktuelles/nachrichten/72620" target="_blank" rel="noopener">Luftbilder aus der Sammlung des Landesvermessungsamts Baden-Württemberg online&lt;/a>.&lt;/p>
&lt;p>Auch die Überführung in neuere Datenformate gehört zu unseren Aufgaben im Archiv. Zum Beispiel liegen die Daten der &lt;a href="http://www.landesarchiv-bw.de/plink/?f=2-1915280" target="_blank" rel="noopener">Volkszählung 1961 (Bestand StAL EL 413/4)&lt;/a> seit 2005 in Form von Textdateien im Staatsarchiv Ludwigsburg. Dort wurden sie als alternative Repräsentation in CSV mit ergänzenden XML-Metadaten gespeichert. Zur besseren Zugänglichkeit wurden die Daten im FDMLab zusätzlich in eine SQLite-Datenbank überführt, wobei eine Verknüpfung der Daten in den CSV-Dateien mit den XML-Metadaten vorgenommen wurde. Dadurch erhoffen wir uns eine bessere Nutzbarkeit durch Forschende.&lt;/p>
&lt;p>Die Unterstützung bei der Aufbereitung von Metadaten für die Datenweitergabe an Portale, die Daten zu einem bestimmten Thema aggregieren, gehört ebenfalls zu den Routineaufgaben des FDMLab. Eine Anforderung solcher Portale ist häufig die Ergänzung von Geodaten, um die einzelnen Bestände auf einer Karte visualisieren zu können. Hierfür vervollständigen wir im FDMLab Bestände des Landesarchivs mit Ortsnormdaten und ergänzen die Metadaten für die Weitergabe mit für das Zielsystem passenden Geokoordinaten.&lt;/p>
&lt;p>Weitere Kooperationen bei der Datenverarbeitung gab es mit der &lt;a href="https://pro.deutsche-digitale-bibliothek.de/team/abteilung/fachstellen-40/abteilung/fachstelle-archiv-42" target="_blank" rel="noopener">Fachstelle Archiv des DDB-Teams&lt;/a> bei der Aufbereitung und der Automatisierung des Imports von Archivdaten in das &lt;a href="https://www.archivportal-d.de/" target="_blank" rel="noopener">Archivportal-D&lt;/a>.&lt;/p>
&lt;p>Neben Erfolgsgeschichten hatten wir auch Projekte, die wir von Beginn an abgelehnt, verworfen oder nach kurzer Evaluation abgebrochen haben. Hier ein Projekt, welches erst nach einer mehrtätigen Evaluationsphase verworfen wurde. Das Ziel des Projektes war es, über einen Dublettenabgleich zwischen zwei digital vorliegenden Findbüchern mit insgesamt etwa 64.000 verzeichneten Personenakten, Dubletten über im Titel genannte Personendaten automatisch zu identifizieren. Auf den ersten Blick schien das direkt umsetzbar. Es stellte sich jedoch heraus, dass die 30 unterschiedlichen Informationsbestandteile zu Personen- und Ortsdaten von Orten weltweit, in unterschiedlicher Tiefe und Reihenfolge erfasst waren. Der Dublettenabgleich konnte in der erforderlichen Qualität also nicht vollautomatisch durchgeführt werden. Eine Evaluation basierend auf Vor- und Nachnamen ergab, dass der Anteil an (möglichen) Dubletten höchstens bei 10 Prozent lag und damit weitaus geringer war als erwartet, jedoch zu groß um eine manuelle Prüfung durchzuführen. Im Nachhinein wäre es sinnvoller gewesen, die Prüfung auf mögliche Dubletten zuerst durchzuführen und sich dadurch die langwierige Arbeit mit den vielen Informationsbestandteilen zu den einzelnen Personen zu sparen.&lt;/p>
&lt;h2 id="fair-prinzipien-für-die-datenbereitstellung">FAIR-Prinzipien für die Datenbereitstellung&lt;/h2>
&lt;p>Das FDMLab arbeitete nicht nur an der Generierung und Analyse von Daten, sondern evaluierte auch die bisherige Praxis des Landesarchivs bei der Datenbereitstellung über das &lt;a href="https://www2.landesarchiv-bw.de/ofs21/home.php" target="_blank" rel="noopener">Online-Findmittelsystem (OLF)&lt;/a>. Richtschnur waren dabei die sogenannten FAIR-Prinzipien für die Datenbereitstellung, die in der Forschungsdatenmanagementcommunity inzwischen eine weite Verbreitung gefunden haben. Die Abkürzung “FAIR” setzt sich zusammen aus den englischen Adjektiven &lt;em>findable&lt;/em> (auffindbar), &lt;em>accessible&lt;/em> (zugänglich), &lt;em>interoperable&lt;/em> (interoperabel) und &lt;em>reusable&lt;/em> (nachnutzbar). Diese Eigenschaften sollten Daten bzw. die Datenbereitstellung besitzen, um eine nachhaltige (wissenschaftliche) Nutzung zu gewährleisten.&lt;sup id="fnref:8">&lt;a href="#fn:8" class="footnote-ref" role="doc-noteref">8&lt;/a>&lt;/sup>&lt;/p>
&lt;figure id="figure-die-fair-leitprinzipien-für-daten-8fn8">
&lt;div class="d-flex justify-content-center">
&lt;div class="w-100" >&lt;img alt="Die FAIR Leitprinzipien für Daten [[8](#fn:8)]." srcset="
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/fair_data_principles_hu4960df34c0cdf9a6c6ba50e723c5ac83_41875_bacb4382dd9c913bdf74ed166cfb8593.webp 400w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/fair_data_principles_hu4960df34c0cdf9a6c6ba50e723c5ac83_41875_1a1a38c4712626a71647a2928d297d41.webp 760w,
/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/fair_data_principles_hu4960df34c0cdf9a6c6ba50e723c5ac83_41875_1200x1200_fit_q75_h2_lanczos.webp 1200w"
src="https://fdmlab.landesarchiv-bw.de/post/2022-07-ein-rueckblick-auf-zwei-jahre-fdmlab/fair_data_principles_hu4960df34c0cdf9a6c6ba50e723c5ac83_41875_bacb4382dd9c913bdf74ed166cfb8593.webp"
width="760"
height="258"
loading="lazy" data-zoomable />&lt;/div>
&lt;/div>&lt;figcaption data-pre="Abbildung&amp;nbsp;" data-post=":&amp;nbsp;" class="numbered">
Die FAIR Leitprinzipien für Daten [&lt;a href="#fn:8">8&lt;/a>].
&lt;/figcaption>&lt;/figure>
&lt;p>Die Untersuchung ergab, dass das Online-Findmittelsystem einige der 15 FAIR-Kriterien bereits erfüllt, sie jedoch noch nicht in vollem Umfang umsetzt. Bei der anstehenden Neuentwicklung eines archivischen Fachinformationssystems, welches künftig auch das jetzige Online-Findmittelsystem ablösen wird, sollen die FAIR-Prinzipien vollständig berücksichtigt werden. Das FDMLab lieferte hier Impulse für die Definition von Anforderungen an das neue AFIS. Die Präsentationskomponente des neuen AFIS soll archivische Daten unter transparenten und leicht verständlichen Nutzungsbedingungen bereitstellen – und dies so offen wie möglich. Dabei gilt es selbstverständlich auf der anderen Seite auch, den Datenschutz, das Urheberrecht und andere Schutzrechte zu wahren.&lt;/p>
&lt;p>Eine der bei der Evaluation definierten Anforderungen ist die Einführung eines global eindeutigen &lt;em>Persistent Identifiers&lt;/em> (PID), der sowohl die Daten als auch die Metadaten des Landesarchivs weltweit und zeitlich unbegrenzt kennzeichnet und somit eine sichere Zitation ermöglicht.&lt;/p>
&lt;p>Die rechtlichen Nutzungsbedingungen sollen über die derzeitige zentrale Infoseite auf der Homepage des Landesarchivs hinaus auch auf den Detailseiten der einzelnen digitalen Objekte verlinkt werden. Dadurch soll es noch einfacher werden, sich über Lizenzen etc. zu informieren.&lt;sup id="fnref:9">&lt;a href="#fn:9" class="footnote-ref" role="doc-noteref">9&lt;/a>&lt;/sup>&lt;/p>
&lt;p>Außerdem soll das neue AFIS eine frei zugängliche Schnittstelle besitzen, über die Daten in einem maschinenlesbaren Format und in flexiblem Umfang (einzelne Digitalisate oder Batch-Verarbeitung) zum Download bereitstehen. Dies wäre dann eine ergänzende Möglichkeit zum Download, zusätzlich zu den bereits heute verfügbaren Downloadmöglichkeiten über die DDB bzw. das Archivportal-D.&lt;/p>
&lt;p>Weiter wurden die Voraussetzungen zur Verwendung eines &lt;a href="https://iiif.io/" target="_blank" rel="noopener">IIIF&lt;/a>-kompatiblen Viewers untersucht. Um Metadaten auch in einem semantischen Datenmodell anzubieten, soll im neuen AFIS der neue archivische Erschließungsstandard &lt;a href="https://www.ica.org/standards/RiC/ontology" target="_blank" rel="noopener">Records in Context (RiC)&lt;/a> des &lt;a href="https://www.ica.org/" target="_blank" rel="noopener">International Council on Archives (ICA)&lt;/a> genutzt werden.&lt;/p>
&lt;h2 id="konferenzen-und-veranstaltungen">Konferenzen und Veranstaltungen&lt;/h2>
&lt;p>Neben unserer praktischen Tätigkeit waren wir als FDMLab auch auf einigen Veranstaltungen, wie dem Südwestdeutschen Archivtag und der Konferenz &amp;ldquo;Offene Archive&amp;rdquo; sowohl als Teilnehmende, als auch zur fachlichen und technischen Unterstützung oder als Vortragende aktiv.
Eine Liste von Vorträgen und Präsentationen des FDMLab haben wir auf unserer Webseite unter dem Menüpunkt &lt;a href="https://fdmlab.landesarchiv-bw.de/event/">Vorträge&lt;/a> veröffentlicht.&lt;/p>
&lt;p>Im Bereich Forschungsdatenmanagement waren wir während unserer ersten Projektlaufzeit eher in der Orientierungs- und Planungsphase und haben die tatsächliche Implementierung und Umsetzung in Form von Vorarbeiten an andere Projekte innerhalb des Landesarchives weitergegeben.&lt;/p>
&lt;p>Eine abwechslungsreiche Ausnahme unserer Tätigkeiten war die &lt;a href="https://landesarchiv-bw.de/de/aktuelles/nachrichten/73476" target="_blank" rel="noopener">Unterstützung von Datenberaterinnen und Datenberatern für Archive in Baden-Württemberg&lt;/a> für den &lt;a href="https://codingdavinci.de/de/tags/cdv-baden-wuerttemberg-2022" target="_blank" rel="noopener">Kultur-Hackathon Coding da Vinci Baden-Württemberg 2022&lt;/a>.&lt;/p>
&lt;h2 id="ausblick">Ausblick&lt;/h2>
&lt;p>Das FDMLab hat sich in seiner ersten Projektlaufzeit mit verschiedenen Themen beschäftigt, die für Archive noch weitestgehend Neuland sind. Bei der automatischen Erstellung von Volltexten und der Datenanalyse und –anreicherung mit Hilfe verschiedener Tools und Technologien konnte wertvolles Wissen und bei vielen praktischen Projekten Erfahrungen gesammelt werden. Dennoch bleibt auch weiterhin viel zu tun: Ergebnisse aus Experimenten und Prototypen sollen in den Produktivbetrieb überführt werden, Volltexte und angereicherte Metadaten in größerem Umfang generiert werden. Und so freuen wir uns außerordentlich, dass das Projekt FDMLab@LABW nach der ersten Projektlaufzeit verlängert wird und wir mit der Unterstützung des &lt;a href="https://mwk.baden-wuerttemberg.de/" target="_blank" rel="noopener">Ministeriums für Wissenschaft, Forschung und Kunst Baden-Württemberg&lt;/a> ein weiteres Jahr von August 2022 bis Juli 2023 das Thema &lt;em>Maschinelles Lernen im Archiv&lt;/em> vorantreiben dürfen.&lt;/p>
&lt;div class="footnotes" role="doc-endnotes">
&lt;hr>
&lt;ol>
&lt;li id="fn:1">
&lt;p>Eine Übersicht über die im FDMLab getesteten Tools finden Sie unter &lt;a href="https://fdmlab.landesarchiv-bw.de/event/2021-werkzeuge-zur-texterkennung/">Werkzeuge zur Texterkennung: ein Blick in die digitale Werkstatt des FDMLab am Landesarchiv Baden-Württemberg&lt;/a> und unter &lt;a href="https://fdmlab.landesarchiv-bw.de/event/2021-ocr-im-archiv/">OCR im Archiv – ein Blick in das FDMLab@LABW&lt;/a>.&amp;#160;&lt;a href="#fnref:1" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:2">
&lt;p>GLAK 465 c Nr. 418, &lt;a href="https://www.leo-bw.de/themenmodul/sudwestdeutschearchivalienkunde/querschnittsartikel/ns-uberlieferung" target="_blank" rel="noopener">NS Überlieferung in staatlichen Archiven&lt;/a>.&amp;#160;&lt;a href="#fnref:2" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:3">
&lt;p>C. Clausner, S. Pletschacher, A. Antonacopoulos , &lt;a href="https://www.primaresearch.org/publications/PRL_Clausner_FlexibleCharacterAccuracy" target="_blank" rel="noopener">&amp;ldquo;Flexible character accuracy measure for reading-order-independent evaluation&amp;rdquo;&lt;/a>, Pattern Recognition Letters, Volume 131, March 2020, Pages 390-397, &lt;a href="https://doi.org/10.1016/j.patrec.2020.02.003" target="_blank" rel="noopener">https://doi.org/10.1016/j.patrec.2020.02.003&lt;/a>&amp;#160;&lt;a href="#fnref:3" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:4">
&lt;p>Theoretisch ist es möglich die vom Scanstift gescannten Bilder in einen Zielordner zu speichern und dann automatisiert zum Beispiel mit einem OCR-D Workflow weiter zu verarbeiten. Das setzt jedoch ein recht tieferes technisches Grundverständnis voraus.&amp;#160;&lt;a href="#fnref:4" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:5">
&lt;p>Dep. 30/1 T1 Fürstlich Thurn und Taxissches Archiv Obermarchtal Grafschaft Friedberg-Scheer. Urkundenregesten 1304-1802. Bearb. Von Robert Kretzschmar. Stuttgart 1993 (Inventare der nichtstaatlichen Archive in Baden-Württemberg ; Bd. 18), &lt;a href="https://www2.landesarchiv-bw.de/ofs21/olf/struktur.php?bestand=2240&amp;amp;klassi=001" target="_blank" rel="noopener">Online-Version&lt;/a> des gedruckten Inventars.&amp;#160;&lt;a href="#fnref:5" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:6">
&lt;p>Akten des Reichskammergerichts im Hauptstaatsarchiv Stuttgart: Inventar des Bestands C. Bearb. von A. Brunotte, R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg, Band 46 Nr.1-8, Stuttgart 1993-2008. Außerdem: Akten des Reichskammergerichts im Staatsarchiv Sigmaringen: Inventar des Bestands R 7. Bearb. von R.J. Weber, Veröffentlichungen der Staatlichen Archivverwaltung Baden-Württemberg; Band 57, Stuttgart 2004.&amp;#160;&lt;a href="#fnref:6" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:7">
&lt;p>Bestände GLAK 456 C Nr. 2656-2661, GLAK 456 C Nr. 2664 und GLAK 456 D Nr. 226-228&amp;#160;&lt;a href="#fnref:7" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:8">
&lt;p>&amp;ldquo;&lt;a href="https://de.wikipedia.org/wiki/Datei:FAIR_data_principles.jpg" target="_blank" rel="noopener">FAIR data principles&lt;/a>&amp;rdquo; von SangyaPundir ist lizenziert unter einer &lt;a href="https://creativecommons.org/licenses/by-sa/4.0/deed.de" target="_blank" rel="noopener">CC BY-SA 4.0 Lizenz&lt;/a>.&amp;#160;&lt;a href="#fnref:8" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;li id="fn:9">
&lt;p>Die Metadaten des Landesarchivs stehen unter der &lt;a href="https://creativecommons.org/publicdomain/zero/1.0/" target="_blank" rel="noopener">Creative Commons-Lizenz CC0&lt;/a>. Die Digitalisate werden, wenn dem aus rechtlicher Sicht nichts entgegensteht und sie nicht sowieso gemeinfrei sind, unter der &lt;a href="http://creativecommons.org/licenses/by/" target="_blank" rel="noopener">Creative Commons-Lizenz CC-BY&lt;/a> weitergegeben. Siehe dazu die &lt;a href="https://landesarchiv-bw.de/de/recherche/rechtsgrundlagen---nutzungsbedingungen/auf-einen-blick/46047" target="_blank" rel="noopener">Nutzungsbedingungen auf einen Blick&lt;/a>.&amp;#160;&lt;a href="#fnref:9" class="footnote-backref" role="doc-backlink">&amp;#x21a9;&amp;#xfe0e;&lt;/a>&lt;/p>
&lt;/li>
&lt;/ol>
&lt;/div></description></item></channel></rss>