Das Projekt FDMLab@LABW lief vom 01. August 2020 bis zum 31. Juli 2023.

Die Inhalte des Blogs bleiben vorläufig erhalten, werden voraussichtlich jedoch nicht mehr aktualisiert. Mehr dazu in unserem Rückblick.

Unser ehemaliges Projektteam

Mitarbeiter

Avatar

Benjamin Rosemann

Data Scientist

Barbara Koller

Werkstudentin

Leitung

Avatar

Daniel Fähle

Referatsleiter

Dr. Andreas Neuburger

Referatsleiter

Berater

Mitwirkende

Katharina Hardt

Projektbearbeiterin

Avatar

Verena Mack

Projektbearbeiterin

Über das Projekt

Laufzeit: August 2020 bis Juli 2023

Das Projekt unternimmt einen großen Schritt in Richtung Zukunft und soll maschinelles Lernen in Form automatisierter Erkennung und Annotation digitaler Texte und Bilder in den Archivalltag integrieren. Maschinelles Lernen bezeichnet den Vorgang, dass ein aus Algorithmen bestehendes System mit Trainingsdaten versorgt wird und dadurch die Muster eines Sachverhalts lernt. Nach Abschluss der Lernphase kann das System auch Beispiele erkennen, die bisher nicht im Training vorgekommen sind. So können enorme Datenmengen miteinander in Beziehung gesetzt und analysiert werden.

Das im Rahmen der Zukunftsoffensive III geförderte Projekt (Laufzeit I von August 2020 bis Juli 2022, Laufzeit II von August 2022 bis Juli 2023) dient dem Aufbau eines Forschungsdatenzentrums und entsprechender Infrastruktur im Bereich E-Science sowie der Etablierung eines Forschungsdatenmanagements. Dabei werden folgende Fragen geklärt:

  • Wie können aus digitalisiertem Archivgut Informationen (Metadaten, Volltexte) generiert werden?
  • Wie können die Daten für alle auffindbar, zugänglich, interoperabel und wiederverwendbar gemacht werden (FAIR-Prinzipien)?
  • Wie können die generierten Daten weiter ausgewertet, strukturiert und angereichert werden (Entitätenerkennung, Normdatenverknüpfungen, automatisierte Klassifikation)?
  • Welche Verfahren/Technologien sind dafür geeignet?
  • Wie können die Verfahren in die Digitalisierungs-/Erschließungsworkflows im Landesarchiv integriert werden?

Das Projekt leistet einen Beitrag zum Aufbau der Nationalen Forschungsdateninfrastruktur. Es soll eine Standardisierung, Sicherung und Verbreitung von Daten erreicht werden, um der Forschung und allen Interessierten übergreifend auswertbare digitale Daten zur Verfügung zu stellen.

Die einzelnen Arbeitspakete und Maßnahmen befassen sich mit den Anwendungsbereichen maschinellen Lernens in der archivischen Erschließung und Forschung:

Recherchierbarkeit von Volltexten

  • Handschriftliches und gedrucktes Archivgut wird durchsuchbar gemacht (Volltextsuche, Hervorhebung von Treffern), wodurch die verfügbare Datenmenge für die Forschung diversifiziert und maßgeblich gesteigert wird.
  • Evaluierung und Einsatz einschlägiger Technologien zur Erkennung, Erfassung und Strukturierung von Volltexten (optical character recognition (OCR), handwritten text recognition (HTR))
  • Konzeptentwicklung zur Anpassung der Datenhaltung sowie der Recherche- und Präsentationsoberflächen

Werkzeuge zur Datenanalyse, -auswertung und -anreicherung

  • Die Datenqualität wird durch Datenauswertung und Generierung zusätzlicher Erschließungsinformationen mittels maschinellem Lernen verbessert. Außerdem wird Bildmustererkennung eingesetzt, um digitalisierte Fotobestände automatisch mit zusätzlichen Erschließungsinformationen anzureichern.
  • Aufbau einer leistungsfähigen Hard- und Software-Umgebung
  • Weiterentwicklung vorhandener Werkzeuge
  • Evaluierung von Werkzeugen zur Annotation und Transkription historischer Quellen