Workshop - Erweiterter Abgleich mit Getty

Folie - Erweiterter Abgleich mit Getty Folie - Erweiterter Abgleich mit Getty

In diesem Tutorial vertiefen wir den Abgleich von Daten mit den Vokabularen von Getty.

Einführung

Reconciling in der OpenRefine Dokumentation.
Getty Research Institute zu OpenRefine Reconciliation.
Tutorial zur Verwendung des Getty Vokabulars in OpenRefine.
Portal zu Getty Vokabularen in ihrer LOD Form.
Sammlung von Beispielanfragen mit SPARQL.

Dieser Workshop wurde erstellt mit OpenRefine Version 3.5.0.
Dieser Workshop wurde zuletzt getestet mit OpenRefine Version 3.8.5.

Das Getty Research Institute verwaltet verschiedene Vokabulare:

Anders als die quasi gemeinfrei verfügbaren Daten in der GND und in Wikidata, sind die Daten von Getty unter der Open Data Commons Attribution License (OCD-BY) v1.0 veröffentlicht.

Die Getty Vokabulare stehen in verschiedenen Formaten zum Download zur Verfügung und sind über unterschiedliche APIs abrufbar. Wir interessieren uns hier explizit für die OpenRefine Reconciliation API. Bei entsprechenden Kenntnissen ist es womöglich interessanter direkt über die SPARQL Oberfläche mit den Vokabularen zu arbeiten, oder über OpenRefine den SPARQL Endpunkt anzusprechen. Für die Arbeit mit SPARQL gibt es auch eine Sammlung von Beispielanfragen.

Im FDMLab verwenden wir die Vokabulare von Getty bisher nicht, so dass die hier gezeigten Methoden sehr wahrscheinlich unvollständig sind.

Aufgabe 1: Daten verknüpfen

Projekt anlegen

Hier verwenden wir das gleiche Datenbeispiel, wie bei Aufgabe 2 von 07 Reconciling mit OpenRefine und Wikidata.

Es handelt sich um eine Liste der Mitgliedstaaten der Europäischen Union (Stand März 2023).

 - Belgien
 - Bulgarien
 - Dänemark
 - Deutschland  
 - Estland
 - Finnland
 - Frankreich
 - Griechenland
 - Irland
 - Italien
 - Kroatien
 - Lettland
 - Litauen
 - Luxemburg
 - Malta
 - Niederlande
 - Österreich
 - Polen
 -  Portugal
 - Rumänien
 - Schweden
 - Slowakei
 - Slowenien
 - Spanien
 - Tschechien
 - Ungarn
 - Zypern

Wir legen diese Liste via Zwischenablage (“Clipboard”) als OpenRefine Projekt an.

Einfacher Abgleich

Nachdem wir die Daten aufgeräumt haben, starten wir den Abgleich mit Getty via “Land" "Reconcile" "Start reconciling” und fügen den folgenden Standard Service hinzu:

https://services.getty.edu/vocab/reconcile/
Bildschirmfoto der Einstellungen für den Reconciliation Vorgang mit Getty - Typeinschränkung.
Bildschirmfoto der Einstellungen für den Reconciliation Vorgang mit Getty - Typeinschränkung.

Wie in Abbildung 1 zu sehen, gibt es bei den Getty Vokabularen keine spezifischen Typeinschränkungen, wie wir sie von der lobid gnd oder Wikidata kennen. Wir können uns hier lediglich auf einzelne Vokabulare beschränken.

Trotz englischsprachigem Vokabular und deutschsprachigen Suchbegriffen, bekommen wir bei unserem Reconciliation Vorgang passende Ergebnisse von TGN vorgeschlagen.

Das liegt daran, dass der gesuchte Begriff nicht nur im Namen der Entität gesucht wird, sondern in mehreren Feldern. 1 So finden wir mit dem deutschsprachigen Begriff “Deutschland” auch das passende “Germany” im TGN. Gleichzeitig können dadurch auch unerwartete Ergebnisse mit hoher Trefferquote auftauchen, da wir nicht beeinflussen können, welche Felder alles durchsucht werden sollen.

Erweiterter Abgleich

Wir können bei den Getty Vokabularen zwar nicht explizit nach Typen filtern, wir können die Bewertung der Suchergebnisse jedoch positiv beeinflussen. Dazu erweitern wir das Projekt.

  1. Wir fügen eine Kopie der Spalte “Land” via “Land" "Edit column" "Add column based on this column…” mit dem Namen “Land2” hinzu.
  2. Von der Spalte “Land2” legen wir eine weitere Kopie via “Land2" "Edit column" "Add column based on this column…” an und nennen die neue Spalte “Label”.
  3. Neben der Spalte “Label” erzeugen wir eine neue Spalte via “Label" "Edit column" "Add column based on this column…” und nennen die neue Spalte “Art des Ortes” und verwenden als Wert den Text "nation".

Das Ergebnis der drei Operationen kann in einem Ausschnitt in Abbildung 3 betrachtet werden.

Anschließend können wir einen neuen Reconciliation Vorgang auf der Spalte “Land2” starten und zusätzlich wie in Abbildung 2 die Spalte “Label” als Eigenschaft label und die Spalte “Art des Ortes” als Eigenschaft placeTypePref verwenden.

Bildschirmfoto der Einstellungen für den Reconciliation Vorgang mit Getty - Zusätzliche Eigenschaften.
Bildschirmfoto der Einstellungen für den Reconciliation Vorgang mit Getty - Zusätzliche Eigenschaften.

Das hat zur Folge, dass die von uns gesuchten Länder im Vergleich zu den anderen Ergebnissen deutlich besser bewertet werden und in der Sortierung nach oben rutschen.

Mit der Spalte “Label”, bzw. dem Mapping auf die Eigenschaft label beim Reconciliation Vorgang, geben wir den Ergebnissen einen “boost”, die den deutschsprachigen Namen des Landes explizit als deutsche Übersetzung haben.

Mit der Spalte “Art des Ortes”, bzw. dem Mapping auf die Eigenschaft placeTypePref, bekommen die Ergebnisse einen “boost”, die als Land eingestuft werden.

Wie in Abbildung 3 an den Beispielen Luxemburg und Malta zu sehen, können wir die gesuchten Länder somit von den restlichen Treffern differenzieren und einfacher zuordnen.

Bildschirmfoto der Ergebnisse des Abgleichs mit Getty.
Bildschirmfoto der Ergebnisse des Abgleichs mit Getty.

Fazit

Die Bewertung der Suchtreffer bei Getty ist etwas gewöhnungsbedürftig, jedoch können wir uns das zu Nutze machen, um die Bewertung der Suchanfragen auf unsere Daten anzupassen.

Die dann doch recht eingeschränkten Such- und Filteroptionen könnten erklären, weshalb Wissenschaftler dann doch lieber direkt mit einem Datendownload der Vokabulare, oder der SPARQL Schnittstelle arbeiten.

Lizenzhinweise

Dieser Artikel und die Bildschirmfotos enthalten Informationen aus dem Thesaurus of Geographic Names (TGN) ®, welcher verfügbar ist unter der ODC Attribution License v1.0.


Im nächsten Teil beschäftigen wir uns mit dem Nachladen von Geokoordinaten für Orte.


  1. Wir konnten keine aktuellen Informationen finden, welche Felder bei welchen Vokabularen standardmäßig durchsucht werden. ↩︎

Benjamin Rosemann
Benjamin Rosemann
Data Scientist

Ich evaluiere KI- und Software-Lösungen und integriere sie in den Archivalltag.

Ähnliches