Unser Projektteam

Mitarbeiter

Avatar

Benjamin Rosemann

Data Scientist

Über das Projekt

Laufzeit: Juli 2020 bis Juni 2022

Das Projekt unternimmt einen großen Schritt in Richtung Zukunft und soll maschinelles Lernen in Form automatisierter Erkennung und Annotation digitaler Texte und Bilder in den Archivalltag integrieren. Maschinelles Lernen bezeichnet den Vorgang, dass ein aus Algorithmen bestehendes System mit Trainingsdaten versorgt wird und dadurch die Muster eines Sachverhalts lernt. Nach Abschluss der Lernphase kann das System auch Beispiele erkennen, die bisher nicht im Training vorgekommen sind. So können enorme Datenmengen miteinander in Beziehung gesetzt und analysiert werden.

Das im Rahmen der Zukunftsoffensive III geförderte Projekt (Laufzeit von Juli 2020 bis Juni 2022) dient dem Aufbau eines Forschungsdatenzentrums und entsprechender Infrastruktur im Bereich E-Science sowie der Etablierung eines Forschungsdatenmanagements. Dabei werden folgende Fragen geklärt:

  • Wie können aus digitalisiertem Archivgut Informationen (Metadaten, Volltexte) generiert werden?
  • Wie können die Daten für alle auffindbar, zugänglich, interoperabel und wiederverwendbar gemacht werden (FAIR-Prinzipien)?
  • Wie können die generierten Daten weiter ausgewertet, strukturiert und angereichert werden (Entitätenerkennung, Normdatenverknüpfungen, automatisierte Klassifikation)?
  • Welche Verfahren/Technologien sind dafür geeignet?
  • Wie können die Verfahren in die Digitalisierungs-/Erschließungsworkflows im Landesarchiv integriert werden?

Das Projekt leistet einen Beitrag zum Aufbau der Nationalen Forschungsdateninfrastruktur. Es soll eine Standardisierung, Sicherung und Verbreitung von Daten erreicht werden, um der Forschung und allen Interessierten übergreifend auswertbare digitale Daten zur Verfügung zu stellen.

Die einzelnen Arbeitspakete und Maßnahmen befassen sich mit den Anwendungsbereichen maschinellen Lernens in der archivischen Erschließung und Forschung:

Recherchierbarkeit von Volltexten:

  • Handschriftliches und gedrucktes Archivgut wird durchsuchbar gemacht (Volltextsuche, Hervorhebung von Treffern), wodurch die verfügbare Datenmenge für die Forschung diversifiziert und maßgeblich gesteigert wird.
  • Evaluierung und Einsatz einschlägiger Technologien zur Erkennung, Erfassung und Strukturierung von Volltexten (optical character recognition (OCR), handwritten text recognition (HTR))
  • Konzeptentwicklung zur Anpassung der Datenhaltung sowie der Recherche- und Präsentationsoberflächen

Werkzeuge zur Datenanalyse, -auswertung und -anreicherung:

  • Die Datenqualität wird durch Datenauswertung und Generierung zusätzlicher Erschließungsinformationen mittels maschinellem Lernen verbessert. Außerdem wird Bildmustererkennung eingesetzt, um digitalisierte Fotobestände automatisch mit zusätzlichen Erschließungsinformationen anzureichern.
  • Aufbau einer leistungsfähigen Hard- und Software-Umgebung
  • Weiterentwicklung vorhandener Werkzeuge
  • Evaluierung von Werkzeugen zur Annotation und Transkription historischer Quellen

Austausch zwischen verschiedenen Systemen mittels Schnittstellen:

  • Es besteht ein Bedarf zur Nachnutzung von Forschungsdaten im Kontext der jeweiligen Forschungsfrage. Das bedeutet, dass einheitliche Lizenzierungsmodelle notwendig sind und offene Schnittstellen (APIs) für die Bereitstellung von Daten an Bedeutung gewinnen, um einfachen Zugang zu den Daten zu ermöglichen. Die Bereitstellung archivalischer Daten über Schnittstellen ermöglicht deren Integration, Auswertung und Anreicherung in anderen Forschungsumgebungen (Transkriptionen, Annotationen, Georeferenzierungen der digital vorliegenden historischen Quellen etc.)
  • Erarbeitung einer Schnittstelle zur standardisierten Bereitstellung von Digitalisaten eines Bestandes
  • Erarbeitung einer Schnittstelle zur bedarfsspezifischen Auslieferung von Erschließungsdaten