OCR

Ist NER robust gegenüber OCR Fehlern?

Wir haben schon mehrfach die Behauptung gehört, dass Named Entity Recognition (NER) robust gegenüber OCR Fehlern ist. Daher werden wir in diesem Beitrag die Named Entity Recognition anhand einiger Beispiele genauer betrachten.

Analyse tabellarischer Layoutstrukturen mit Transkribus

Eine gute Layouterkennung ist die Voraussetzung für eine gute OCR- oder HTR-Erfassung von Dokumenten. Anhand von Stammrollen aus dem LABW testen wir, welche Möglichkeiten Transkribus bei der Layouterkennung komplexer Tabellenstrukturen bietet.

Einträge analoger Findbüchern automatisiert in Datenbanken übernehmen - Reguläre Ausdrücke

Im FDMLab haben wir einige analoge Findbücher digitalisiert und die Einträge automatisiert in unsere Datenbanksysteme übernommen. Dieser Blogbeitrag konzentriert sich auf die Extraktion der Informationen mit regulären Ausdrücken.

80. Südwestdeutscher Archivtag 2021

Beim Südwestdeutschen Archivtag stellt das FDMLab sich und seine Arbeitsbereiche vor. Insbesondere wird ein Einblick in die Arbeit mit Werkzeugen zur Volltexterkennung von Handschriften (HTR) und Druckschriften (OCR) gegeben.

Wie wir gedruckte Findbücher in unsere Datenbank bekommen, ohne zu viel Zeit in manuelle Arbeiten zu investieren

Viele Archive kennen diese Situation: Es gibt ein archivisches Fachinformationssystem (AFIS), über das Archivgut erschlossen und für eine Online-Recherche bereitgestellt wird. Doch gleichzeitig existiert zu einigen Beständen auch noch eine Reihe älterer gedruckter Findbücher im Lesesaal.

2. Workshop des OCR-BW-Projektes 2021

Bei diesem Workshop stellt das FDMLab sich und seine Arbeitsbereiche vor. Insbesondere wird auf das Thema Qualitätskontrolle eingegangen und ein Einblick in die Digitalisierung von Findbüchern gegeben.

Wie wir Docker einsetzen

Programme haben Anforderungen an ihre Umgebung. Dies kann ein bestimmtes Betriebssystem sein (Windows, Linux, macOS), eine Laufzeitumgebung für eine Programmiersprache (Python, Java, C#), oder die Verfügbarkeit bestimmter Bibliotheken (GTK, .NET, Qt). Wir wollen uns beim Testen und Evaluieren aber nicht einschränken!