Python

Workshop - Python in OpenRefine

Wir verwenden Python zusammen mit OpenRefine.

Benjamin Rosemann

2025-05-14

Workshop - Erweitertes Clustering

Wir verwenden eigene Clustering Methoden in OpenRefine, um Schreibweisen zu vereinheitlichen.

Benjamin Rosemann

2025-05-05

Named-entity Recognition und Gemeinsame Normdatei zur Verbesserung der Erschließung

Das FDMLab unterstützt das Projekt Provenienzforschung im Landesarchiv bei der Verbesserung der Auffindbarkeit von relevanten Akten. In diesem Blogbeitrag fassen wir unsere Erfahrungen beim Einsatz von Named-entity Recognition (NER) zur Extraktion von spezifischen Sachbegriffen und der Verknüpfung dieser Sachbegriffe mit der Gemeinsamen Normdatei (GND) zusammen.

Benjamin Rosemann, Katharina Hardt

2023-02-21 10 min Lesezeit

Named-entity Recognition und Gemeinsame Normdatei zur Verbesserung der Erschließung

NER Modell mit GND Starthilfe trainieren

In diesem Artikel beschäftigen wir uns mit dem Thema Named Entity Recognition. Wir trainieren ein eigenes Modell zur Erkennung von Kunst- und Kulturobjekten in unseren Erschließungsdaten und verwenden als Starthilfe die Gemeinsame Normdatei.

Benjamin Rosemann, Katharina Hardt

2022-09-27 13 min Lesezeit

NER Modell mit GND Starthilfe trainieren

Warum wir Jupyter lieben

Beim Einsatz von Jupyter Notebooks gibt es einiges an Konfliktpotential zum Beispiel zwischen traditionellen Softwareentwicklern und experimentierenden Wissenschaftlern. In der binären Welt von “hate it or love it” schlagen wir uns auf die Seite von “love it”.

Benjamin Rosemann

2021-08-31 2 min Lesezeit

Findbuchdaten mit OpenRefine wiederverwenden

In diesem Artikel behandeln wir die Frage, wie wir schon aufbereitete Daten mit OpenRefine wiederverwenden können.

Benjamin Rosemann

2021-08-24 7 min Lesezeit

Findbuchdaten mit OpenRefine wiederverwenden

Weshalb wir Python nutzen

Wir nutzen eine inzwischen 30 Jahre alte Programmiersprache und werden hin und wieder mit der Frage konfrontiert: Weshalb Python? Daher gibt es hier eine Liste von Alternativen und unsere Gründe bei Python zu bleiben.

Benjamin Rosemann

2021-08-17 2 min Lesezeit

Named Entity Recognition mit OpenRefine und spaCy

In diesem Artikel beschreiben wir unsere Versuche mit OpenRefine ein “Named Entity Recognition” mit spaCy durchzuführen, um die Entities anschließend mit der Gemeinsamen Normdatei (GND) abzugleichen.

Benjamin Rosemann

2021-08-10 7 min Lesezeit

Named Entity Recognition mit OpenRefine und spaCy

Ist NER robust gegenüber OCR Fehlern?

Wir haben schon mehrfach die Behauptung gehört, dass Named Entity Recognition (NER) robust gegenüber OCR Fehlern ist. Daher werden wir in diesem Beitrag die Named Entity Recognition anhand einiger Beispiele genauer betrachten.

Benjamin Rosemann

2021-08-03 5 min Lesezeit

Einträge analoger Findbüchern automatisiert in Datenbanken übernehmen - Reguläre Ausdrücke

Im FDMLab haben wir einige analoge Findbücher digitalisiert und die Einträge automatisiert in unsere Datenbanksysteme übernommen. Dieser Blogbeitrag konzentriert sich auf die Extraktion der Informationen mit regulären Ausdrücken.

Benjamin Rosemann

2021-07-06 7 min Lesezeit

Einträge analoger Findbüchern automatisiert in Datenbanken übernehmen - Reguläre Ausdrücke