Workshop - Erweiterter Abgleich mit Getty
In diesem Tutorial vertiefen wir den Abgleich von Daten mit den Vokabularen von Getty.
Einführung
Reconciling in der OpenRefine Dokumentation.
Getty Research Institute zu OpenRefine Reconciliation.
Tutorial zur Verwendung des Getty Vokabulars in OpenRefine.
Portal zu Getty Vokabularen in ihrer LOD Form.
Sammlung von Beispielanfragen mit SPARQL.
Dieser Workshop wurde zuletzt getestet mit OpenRefine Version 3.8.5.
Das Getty Research Institute verwaltet verschiedene Vokabulare:
- Art & Architecture Thesaurus (AAT) ®
- Cultural Objects Name Authority (CONA) ® (noch nicht veröffentlicht)
- Getty Thesaurus of Geographic Names (TGN) ®
- Union List of Artist Names (ULAN) ®
Die Getty Vokabulare stehen in verschiedenen Formaten zum Download zur Verfügung und sind über unterschiedliche APIs abrufbar. Wir interessieren uns hier explizit für die OpenRefine Reconciliation API. Bei entsprechenden Kenntnissen ist es womöglich interessanter direkt über die SPARQL Oberfläche mit den Vokabularen zu arbeiten, oder über OpenRefine den SPARQL Endpunkt anzusprechen. Für die Arbeit mit SPARQL gibt es auch eine Sammlung von Beispielanfragen.
Aufgabe 1: Daten verknüpfen
Projekt anlegen
Hier verwenden wir das gleiche Datenbeispiel, wie bei Aufgabe 2 von 07 Reconciling mit OpenRefine und Wikidata.
Es handelt sich um eine Liste der Mitgliedstaaten der Europäischen Union (Stand März 2023).
- Belgien
- Bulgarien
- Dänemark
- Deutschland
- Estland
- Finnland
- Frankreich
- Griechenland
- Irland
- Italien
- Kroatien
- Lettland
- Litauen
- Luxemburg
- Malta
- Niederlande
- Österreich
- Polen
- Portugal
- Rumänien
- Schweden
- Slowakei
- Slowenien
- Spanien
- Tschechien
- Ungarn
- Zypern
Wir legen diese Liste via Zwischenablage (“Clipboard”) als OpenRefine Projekt an.
Einfacher Abgleich
Nachdem wir die Daten aufgeräumt haben, starten wir den Abgleich mit Getty via “Land" "Reconcile" "Start reconciling” und fügen den folgenden Standard Service hinzu:
https://services.getty.edu/vocab/reconcile/
Wie in Abbildung 1 zu sehen, gibt es bei den Getty Vokabularen keine spezifischen Typeinschränkungen, wie wir sie von der lobid gnd oder Wikidata kennen. Wir können uns hier lediglich auf einzelne Vokabulare beschränken.
Trotz englischsprachigem Vokabular und deutschsprachigen Suchbegriffen, bekommen wir bei unserem Reconciliation Vorgang passende Ergebnisse von TGN vorgeschlagen.
Das liegt daran, dass der gesuchte Begriff nicht nur im Namen der Entität gesucht wird, sondern in mehreren Feldern. 1 So finden wir mit dem deutschsprachigen Begriff “Deutschland” auch das passende “Germany” im TGN. Gleichzeitig können dadurch auch unerwartete Ergebnisse mit hoher Trefferquote auftauchen, da wir nicht beeinflussen können, welche Felder alles durchsucht werden sollen.
Erweiterter Abgleich
Wir können bei den Getty Vokabularen zwar nicht explizit nach Typen filtern, wir können die Bewertung der Suchergebnisse jedoch positiv beeinflussen. Dazu erweitern wir das Projekt.
- Wir fügen eine Kopie der Spalte “Land” via “Land" "Edit column" "Add column based on this column…” mit dem Namen “Land2” hinzu.
- Von der Spalte “Land2” legen wir eine weitere Kopie via “Land2" "Edit column" "Add column based on this column…” an und nennen die neue Spalte “Label”.
- Neben der Spalte “Label” erzeugen wir eine neue Spalte via
“Label"
"Edit column"
"Add column based on this column…”
und nennen die neue Spalte “Art des Ortes” und verwenden als Wert den Text
"nation"
.
Das Ergebnis der drei Operationen kann in einem Ausschnitt in Abbildung 3 betrachtet werden.
Anschließend können wir einen neuen Reconciliation Vorgang auf der Spalte “Land2” starten und zusätzlich wie in Abbildung 2 die Spalte “Label” als Eigenschaft label
und die Spalte “Art des Ortes” als Eigenschaft placeTypePref
verwenden.
Das hat zur Folge, dass die von uns gesuchten Länder im Vergleich zu den anderen Ergebnissen deutlich besser bewertet werden und in der Sortierung nach oben rutschen.
Mit der Spalte “Label”, bzw. dem Mapping auf die Eigenschaft label
beim Reconciliation Vorgang, geben wir den Ergebnissen einen “boost”, die den deutschsprachigen Namen des Landes explizit als deutsche Übersetzung haben.
Mit der Spalte “Art des Ortes”, bzw. dem Mapping auf die Eigenschaft placeTypePref
, bekommen die Ergebnisse einen “boost”, die als Land eingestuft werden.
Wie in Abbildung 3 an den Beispielen Luxemburg und Malta zu sehen, können wir die gesuchten Länder somit von den restlichen Treffern differenzieren und einfacher zuordnen.
Fazit
Die Bewertung der Suchtreffer bei Getty ist etwas gewöhnungsbedürftig, jedoch können wir uns das zu Nutze machen, um die Bewertung der Suchanfragen auf unsere Daten anzupassen.
Die dann doch recht eingeschränkten Such- und Filteroptionen könnten erklären, weshalb Wissenschaftler dann doch lieber direkt mit einem Datendownload der Vokabulare, oder der SPARQL Schnittstelle arbeiten.
Lizenzhinweise
Dieser Artikel und die Bildschirmfotos enthalten Informationen aus dem Thesaurus of Geographic Names (TGN) ®, welcher verfügbar ist unter der ODC Attribution License v1.0.
Im nächsten Teil beschäftigen wir uns mit dem Nachladen von Geokoordinaten für Orte.
Wir konnten keine aktuellen Informationen finden, welche Felder bei welchen Vokabularen standardmäßig durchsucht werden. ↩︎