GND Hierarchieinformationen zur Verbesserung der Erschließung

Zwei Figuren beenden gemeinsam ein Puzzle. Bild von Alexa auf Pixabay.

In der Gemeinsamen Normdatei (GND) sind für Sachbegriffe Hierarchieinformationen enthalten. In diesem Blogbeitrag berichten wir, wie wir diese Informationen verwenden, um die Verschlagwortung von relevanten Akten für die Provenienzforschung zu verbessern.

Wir berichteten bereits, wie wir ein Named-entity Recognition Modell mit Starthilfe durch die Gemeinsame Normdatei trainieren und wie wir die dadurch extrahierten Sachbegriffe normalisieren und mit der GND Sachbegriffen verknüpfen.

In diesem Blogbeitrag geht es um den letzten Workflowschritt, nämlich die Anreicherung von Oberbegriffen aus der GND zur Verbesserung der Verschlagwortung. 1

flowchart LR filtern["1. Filtern"] ner["2. NER"] normalisieren["3. Normalisieren"] gnd_abgleich["4. GND Abgleich"] begriffe_nachladen["5. Oberbegriffe"] filtern --> ner --> normalisieren --> gnd_abgleich --> begriffe_nachladen style begriffe_nachladen stroke:#000,stroke-width:4px

Schritt 5: Oberbegriffe nachladen

Wir haben 1.753 Begriffe aus der GND verlinkt. Aus diesen wollen wir basierend auf den Hierarchieinformationen in der GND ein hierarchisches Netzwerk aufbauen. Dafür müssen für die 1.753 Begriffe alle verknüpften Oberbegriffe sowie deren Oberbegriffe usw., nachgeladen werden. Da das potentiell ein recht großes Netzwerk werden könnte, haben wir das Netzwerk mit einer lokalen Kopie der GND in ihrer LOD-Form in Oxigraph berechnet. Dafür wurden mit SPARQL die relevanten Knoten und Verbindungen extrahiert, anschließend mit NetworkX zu einem Netzwerk zusammengefügt, und mit PyVis visualisiert.

Konkret haben wir alle Knoten vom Typ SubjectHeading und den entsprechenden Subtypen geladen. Als Verbindungen haben wir broaderTerm, broaderTermGeneral, broaderTermGeneric, broaderTermInstantial, broaderTermPartitive, broaderTermWithMoreThanOneElement und complexSeeReferenceSubject verwendet.

Dieses Netzwerk verwendeten wir zum einen für unsere Analysen. Zum anderen extrahierten wir daraus einen Teilgraphen mit den für uns relevanten Begriffen.

Die folgenden Analysen basieren auf der Linked Open Data Variante der GND. Abweichungen von den tatsächlichen Daten in der GND sind daher möglich.
Bildschirmfoto der ersten Version unseres GND Teilgraphen.
Bildschirmfoto der ersten Version unseres GND Teilgraphen.

In dem von uns in Abbildung 1 gezeigten, extrahierten Teilgraphen sind zwar hierarchische Strukturen zu erkennen. Insgesamt sind jedoch sehr viele Einzelknoten um den Wurzelknoten herum zu sehen, und die üblichen Algorithmen zur Darstellung von Hierarchien weigerten sich das vermeintlich hierarchische Netzwerk verständlich darzustellen.

Im Folgenden besprechen wir die Probleme, über die wir gestolpert sind und prüfen, ob einige (problematische) Eigenschaften unseres extrahierten Teilgraphen auch im Gesamtnetzwerkes aller Sachbegriffe zu finden sind.

Typen von Oberbegriffen

Bildschirmfoto der Unterklassen von *Authority Resources* in der GND Ontologie.
Bildschirmfoto der Unterklassen von Authority Resources in der GND Ontologie.

In Abbildung 2 sind noch einmal die Unterklassen (Typen) von Normdatenressourcen (Authority Resource) in der GND Ontologie gezeigt. Wir arbeiten mit Schlagworten (SubjectHeading) und den zugehörigen Unterklassen.

Die Diagramme wurden mit unserer experimentellen Webanwendung zur GND Hierarchie Visualisierung von Sachbegriffen erstellt. Hier die Legende:

flowchart LR initial(["Fokussierter Begriff"]):::initial broader["Oberbegriff"] initial --> broader broaderMarked["Oberbegriff mit anderem Typ"]:::nonHeading initial --> broaderMarked narrower["Unterbegriff"] narrower --> initial similar["#Auml;hnlicher Begriff"] initial <-.-> similar broader <-.-> similar broaderMarked <-.-> similar classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000; classDef category fill:#FFF,stroke:#1fbeb8,stroke-width:3px,color:#000; classDef initial fill:#FFF,stroke:#4dbd05,stroke-width:3px,color:#000; classDef nonHeading fill:#FFF,stroke:#F04D0E,stroke-width:3px,color:#000;

Wir hatten im letzten Blogbeitrag schon den Perserteppich erwähnt, der über complexSeeReferenceSubject mit den Begriffen Teppich und Iran verknüpft ist. Im folgenden Diagramm haben wir einige weitere Beispiele für Begriffe, die über Komposita definiert sind. Darüber werden als Oberbegriffe auch GND Konzepte nachgeladen, die nicht vom Typ Subject heading oder einem Untertypen davon sind. Diese können zum Beispiel vom Typ oder einem Untertypen von Conference or Event, Corporate Body, Person, Place or geographic name oder Work sein.

flowchart LR 7505070-5(["Perserteppich"]):::initial click 7505070-5 href "https://lobid.org/gnd/7505070-5" "7505070-5" _blank 4059482-8["Teppich"] click 4059482-8 href "https://lobid.org/gnd/4059482-8" "4059482-8" _blank 4027653-3["Iran"]:::nonHeading click 4027653-3 href "https://lobid.org/gnd/4027653-3" "4027653-3" _blank 7608344-5(["Venustempel"]):::initial click 7608344-5 href "https://lobid.org/gnd/7608344-5" "7608344-5" _blank 11876800X["Venus, Göttin"]:::nonHeading click 11876800X href "https://lobid.org/gnd/11876800X" "11876800X" _blank 4059416-6["Tempel"] click 4059416-6 href "https://lobid.org/gnd/4059416-6" "4059416-6" _blank 7509659-6(["Osterweiterung / Europäische Union"]):::initial click 7509659-6 href "https://lobid.org/gnd/7509659-6" "7509659-6" _blank 4128080-5["Erweiterung"] click 4128080-5 href "https://lobid.org/gnd/4128080-5" "4128080-5" _blank 4075739-0["Osteuropa"]:::nonHeading click 4075739-0 href "https://lobid.org/gnd/4075739-0" "4075739-0" _blank 5098525-5["Europäische Union"]:::nonHeading click 5098525-5 href "https://lobid.org/gnd/5098525-5" "5098525-5" _blank 7505070-5 -->|complexSeeReferenceSubject| 4059482-8 7505070-5 -->|complexSeeReferenceSubject| 4027653-3 7608344-5 -->|complexSeeReferenceSubject| 11876800X 7608344-5 -->|complexSeeReferenceSubject| 4059416-6 7509659-6 -->|complexSeeReferenceSubject| 4128080-5 7509659-6 -->|complexSeeReferenceSubject| 4075739-0 7509659-6 -->|complexSeeReferenceSubject| 5098525-5 classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000; classDef category fill:#FFF,stroke:#1fbeb8,stroke-width:3px,color:#000; classDef initial fill:#FFF,stroke:#4dbd05,stroke-width:3px,color:#000; classDef nonHeading fill:#FFF,stroke:#F04D0E,stroke-width:3px,color:#000;

Dies betrifft jedoch nicht nur die Verbindungen vom Typ complexSeeReferenceSubject. In den folgenden Diagrammen ist das Beispiel der Thora und des islamische Feiertags Maulid an-Nabi gezeigt. Hier werden jeweils Sachbegriffe mit Werken über Verbindungen vom Typ broaderTermGeneral verknüpft.

flowchart LR 4226122-3(["Thora"]):::nonHeading click 4226122-3 href "https://lobid.org/gnd/4226122-3" "4226122-3" _blank 7849405-9["Thorakrone"] click 7849405-9 href "https://lobid.org/gnd/7849405-9" "7849405-9" _blank 4590779-1["Thorakapsel"] click 4590779-1 href "https://lobid.org/gnd/4590779-1" "4590779-1" _blank 4457982-2["Thorawimpel"] click 4457982-2 href "https://lobid.org/gnd/4457982-2" "4457982-2" _blank 4617346-8["Thoramantel"] click 4617346-8 href "https://lobid.org/gnd/4617346-8" "4617346-8" _blank 7526823-1["Thorazeiger"] click 7526823-1 href "https://lobid.org/gnd/7526823-1" "7526823-1" _blank 4232170-0["Thoraschrein"] click 4232170-0 href "https://lobid.org/gnd/4232170-0" "4232170-0" _blank 4185330-1["Thorarolle"] click 4185330-1 href "https://lobid.org/gnd/4185330-1" "4185330-1" _blank 7849405-9 -->|broaderTermGeneral| 4226122-3 4590779-1 -->|broaderTermGeneral| 4226122-3 4457982-2 -->|broaderTermGeneral| 4226122-3 4617346-8 -->|broaderTermGeneral| 4226122-3 7526823-1 -->|broaderTermGeneral| 4226122-3 4232170-0 -->|broaderTermGeneral| 4226122-3 4185330-1 -->|broaderTermGeneral| 4226122-3 classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000; classDef category fill:#FFF,stroke:#1fbeb8,stroke-width:3px,color:#000; classDef initial fill:#FFF,stroke:#4dbd05,stroke-width:3px,color:#000; classDef nonHeading fill:#FFF,stroke:#F04D0E,stroke-width:3px,color:#000;
flowchart LR 7566591-8(["Maulid an-Nabi"]):::initial click 7566591-8 href "https://lobid.org/gnd/7566591-8" "7566591-8" _blank 4310274-8["Maulid"]:::nonHeading click 4310274-8 href "https://lobid.org/gnd/4310274-8" "4310274-8" _blank 4121583-7["Religiöses Fest"] click 4121583-7 href "https://lobid.org/gnd/4121583-7" "4121583-7" _blank 7566591-8 -->|broaderTermGeneral| 4310274-8 7566591-8 -->|broaderTermInstantial| 4121583-7 classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000; classDef category fill:#FFF,stroke:#1fbeb8,stroke-width:3px,color:#000; classDef initial fill:#FFF,stroke:#4dbd05,stroke-width:3px,color:#000; classDef nonHeading fill:#FFF,stroke:#F04D0E,stroke-width:3px,color:#000;

Nach unseren Analysen kommen wir auf 558 Knoten mit mindestens einem Oberbegriff, der nicht vom Typ SubjectHeading ist. Das ist bei 204.560 Sachbegriffen ein recht kleiner Anteil von circa 0,27 Prozent. Die entsprechenden Oberbegriffe mit anderem Typ müssen beim Netzwerkaufbau und der anschließenden Analyse jedoch mit berücksichtigt werden.

Mehrere Oberbegriffe

Die Verknüpfung von mehreren Oberbegriffen sorgt für Probleme bei der Berechnung von Hierarchielayouts. Wir haben zur Visualisierung unseres Teilgraphen die Anzahl an Oberbegriffen pro Knoten auf einen Oberbegriff begrenzt. Dadurch verlieren wir zwar Informationen in der Visualisierung, können den Teilgraphen jedoch besser visuell inspizieren.

Keine Oberbegriffe

In unserem Teilgraphen haben etwa 25 Prozent der Begriffe keinen Oberbegriff. Das hat unter anderem damit zu tun, dass die GND in vielen Bereichen entweder gar keine Hierarchieinformationen beinhaltet, oder sie inkonsequent gepflegt werden.

Zu den in unserem Projekt verwendeten Begriffen ohne Hierarchieinformationen gehören zum Beispiel Akte, Archivalie, Antiquität, Feuerzeug, Kamm, Nähzeug, Säge, …

Ähnliche Begriffe

Manchmal lassen sich für verwandte Begriffe Hierarchieinformationen ermitteln. Beispielsweise ist der Begriff Sofa unter den Sitzmöbeln einsortiert. Der Begriff Couch hingegen ist ohne jede Hierarchieinformation als verwandter Begriff zu Sofa erfasst. Verknüpft man eine Couch mit der GND, so erhält man keine Hierarchieinformationen, verknüpft man hingegen ein Sofa, dann erhält man umfangreiche Hierarchieinformationen. Es liegt also nahe, die Couch ebenfalls unter den Sitzmöbeln einzuordnen.

Nach unseren Beobachtungen ist es jedoch keine allgemeine Regel, dass die Hierarchieinformationen bei verwandten Begriffen weggelassen werden. Im folgenden Diagramm ist ein (reduziertes) Beispiel zu den Begriffen Tasse und Untertasse gezeigt.

flowchart LR 4197693-9(["Couch"]):::initial click 4197693-9 href "https://lobid.org/gnd/4197693-9" "4197693-9" _blank 4181725-4(["Sofa"]):::initial click 4181725-4 href "https://lobid.org/gnd/4181725-4" "4181725-4" _blank 4055183-0["Sitzmöbel"] click 4055183-0 href "https://lobid.org/gnd/4055183-0" "4055183-0" _blank 4039860-2["Möbel"] click 4039860-2 href "https://lobid.org/gnd/4039860-2" "4039860-2" _blank 4190181-2["Wohnungseinrichtung"] click 4190181-2 href "https://lobid.org/gnd/4190181-2" "4190181-2" _blank 4132060-8["Hausrat"] click 4132060-8 href "https://lobid.org/gnd/4132060-8" "4132060-8" _blank 4181725-4 --> 4055183-0 4055183-0 --> 4039860-2 4039860-2 --> 4190181-2 4190181-2 --> 4132060-8 4181725-4 <-.-> 4197693-9 4184488-9(["Tasse"]):::initial click 4184488-9 href "https://lobid.org/gnd/4184488-9" "4184488-9" _blank 4124863-6["Essgeschirr"] click 4124863-6 href "https://lobid.org/gnd/4124863-6" "4124863-6" _blank 4697377-1(["Untertasse"]):::initial click 4697377-1 href "https://lobid.org/gnd/4697377-1" "4697377-1" _blank 4184660-6["Teller"] click 4184660-6 href "https://lobid.org/gnd/4184660-6" "4184660-6" _blank 4140542-0["Geschirr #lt;Hausrat#gt;"] click 4140542-0 href "https://lobid.org/gnd/4140542-0" "4140542-0" _blank 4132060-8["Hausrat"] click 4132060-8 href "https://lobid.org/gnd/4132060-8" "4132060-8" _blank 4184488-9 --> 4124863-6 4697377-1 --> 4184660-6 4124863-6 --> 4140542-0 4184660-6 --> 4124863-6 4140542-0 --> 4132060-8 4184488-9 <-.-> 4697377-1 classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000; classDef category fill:#FFF,stroke:#1fbeb8,stroke-width:3px,color:#000; classDef initial fill:#FFF,stroke:#4dbd05,stroke-width:3px,color:#000;

Wir konnten in dem GND Graphen 3.907 Knoten identifizieren, die ggf. auf diese Art mit weiteren Hierarchieinformationen versehen werden könnten. In unseren Daten waren es 105 Knoten, die wir mit dieser Strategie in die Hierarchie einbinden konnten. Dabei ist jedoch zu beachten, dass durch die Einbindung über relatedTerm Zyklen entstehen können. Im folgenden Diagramm wird dies am Beispiel der Begriffe Körper und Leib dargestellt, wo Leib sowohl ein Oberbegriff, als auch ein verwandter Begriff zu Körper ist.

flowchart LR 4031575-7(["Körper"]) click 4031575-7 href "https://lobid.org/gnd/4031575-7" "4031575-7" _blank 4132852-8(["Leib"]) click 4132852-8 href "https://lobid.org/gnd/4132852-8" "4132852-8" _blank 4031575-7 -->|broaderTermGeneral| 4132852-8 4132852-8 -.->|relatedTerm| 4031575-7 classDef default fill:#FFF,stroke:#0088c9,stroke-width:3px,color:#000;

Analyse Subgraph

Mit den oben beschriebenen Erfahrungen und Anpassungen konnten wir aus dem Netzwerk eine darstellbare Hierarchie erzeugen, die wir visuell inspizieren können. Dabei ist uns aufgefallen, dass die Hierarchie in vielen Bereichen ziemlich flach ausfällt. Abbildung 3 zeigt einen kleinen Ausschnitt der Hierarchie.

Bildschirmfoto der zweiten Version unseres GND Teilgraphen als Hierarchie.
Bildschirmfoto der zweiten Version unseres GND Teilgraphen als Hierarchie.

Der Radius der grauen Knoten gibt ungefähr an, wie viele Akten mit diesem Begriff direkt gefunden werden würden. Die Skalierung musste jedoch nach unten auf 5 Treffer und oben auf 50 Treffer begrenzt werden. Ansonsten wären Kreise mit einem kleineren Durchmesser nicht mehr sichtbar, und einzelne Begriffe mit mehr als 1.000 betroffenen Akten würden große Teile des Graphen überdecken.

Die roten Knoten zeigen Begriffe, für die wir keine direkten Treffer in den Akten haben. Diese wurden über die Hierarchieinformationen der GND als zusätzliche Begriffe nachgeladen. Diese zusätzlichen Begriffe machen in manchen Bereichen Sinn.

In den Bereichen Biologie und Chemie, die sehr ausführliche und tiefe Hierarchieinformationen haben, sollten die Begriffe in unserem Teilgraphen jedoch reduziert werden. So ist es fachlich zwar korrekt, dass Messing eine Kupferlegierung ist, die zu den Buntmetalllegierungen gehört, welche zu den Schwermetallegierungen gehört, welches eine Legierung ist… diese Informationen bieten in unserem Kontext jedoch keinen Mehrwert.

Hier werden wir in Nachfolgearbeiten versuchen, mit verschiedenen Algorithmen aus der Netzwerkanalyse “überflüssige” Knoten wieder aus der Hierarchie zu entfernen.

Bildschirmfoto der dritten Version unseres GND Teilgraphen als Hierarchie mit Einfärbungen.
Bildschirmfoto der dritten Version unseres GND Teilgraphen als Hierarchie mit Einfärbungen.

In einer weiteren Verbesserung der Visualisierung der Hierarchie in unserem GND Teilgraphen in Abbildung 4 haben wir einzelne Knoten zusätzlich eingefärbt.

  • Orange: Gegenstand
  • Grün: Material
  • Blau: Marke/Herkunft
  • Lila: Stil
  • Gemischt Rot: mehrere Kategorien

So konnten bei der visuellen Prüfung schon einige Probleme und fehlerhafte GND Abgleiche identifiziert werden, die in der Liste der mehr als 67.500 Einzelbegriffe untergegangen waren. In Abbildung 4 ist zum Beispiel das Glas in einem gemischten Rot markiert, weil der Begriff sowohl für den Gegenstand Glas, als auch für das Material Glas verwendet wurde. 2

Analyse GND SubjectHeading Graph

Wir haben uns gefragt, ob wir bei der Extraktion unseres GND Teilgraphen Fehler gemacht haben, oder einfach Pech mit unseren Daten hatten, oder ob sich manche Eigenschaften unseres GND Teilgraphen auch im großen Graphen der GND SubjectHeadings wiederfinden.

Daher haben wir eine oberflächliche Analyse des SubjectHeadings Graphen durchgeführt.

Komponenten und Größen

Streudiagramm zur Darstellung der Eigenschaften von Komponenten im GND *SubjectHeading* Graph.
Streudiagramm zur Darstellung der Eigenschaften von Komponenten im GND SubjectHeading Graph.

Unsere erste Feststellung war, dass der Gesamtgraph der GND SubjectHeadings mit 204.560 Knoten in 47.388 Teilgraphen (Komponenten) zerfällt, die nicht miteinander verbunden sind.

In Abbildung 5 ist ein Streudiagramm gezeigt, wo auf der X-Achse die Größe der Komponente und auf der Y-Achse die Anzahl an Komponenten dieser Größe dargestellt ist. Die Größe des Symbols zeigt, wie viele unterschiedliche (Sub)Typen von SubjectHeading betroffen sind.

Auf Grund der enormen Größenunterschiede ist das Diagram logarithmisch skaliert, so dass die Interpretation schwierig(er) ist.

Der Stern ganz links oben stellt 41.465 Komponenten dar, die jeweils nur aus einem Knoten bestehen. Dies umfasst die Typen CharactersOrMorphemes (2.912), EthnographicName (1.257), GroupOfPersons (158), HistoricSingleEventOrEra (635), Language (5), MeansOfTransportWithIndividualName (8), NomenclatureInBiologyOrChemistry (15.132), ProductNameOrBrandName (422), SoftwareProduct (134), SubjectHeading (12), SubjectHeadingSensoStricto (20.900).

Der Stern ganz rechts unten stellt eine Komponente mit einer Größe von 140.105 Knoten dar, welche die Typen CharactersOrMorphemes (261), EthnographicName (2.510), GroupOfPersons (589), HistoricSingleEventOrEra (4.031), Language (5.942), MeansOfTransportWithIndividualName (1.479), NomenclatureInBiologyOrChemistry (11.428), ProductNameOrBrandName (6.994), SoftwareProduct (8.056), SubjectHeading (8.220) und SubjectHeadingSensoStricto (91.381) umfasst.

Anteil von Komponenten bestimmter Größen

Aus dem Diagramm in Abbildung 5 lässt sich ablesen, dass der Graph nicht vollständig verbunden ist und sich in zwei Extreme verteilt. Viele Knoten sind gar nicht, oder nur wenig in Hierarchien eingebunden, andere sind in einem Netzwerk mit 140.105 Knoten zusammengefasst. In dem Diagramm in Abbildung 6 ist dies noch einmal visuell dargestellt. Der letzte große Teilgraph mit den 140.105 Knoten ist im Diagramm abgeschnitten.

Diagramm zur kumulierten Darstellung des prozentualen Anteils von Komponenten bestimmter Größen.
Diagramm zur kumulierten Darstellung des prozentualen Anteils von Komponenten bestimmter Größen.

Auf der X-Achse ist wieder die Größe der Komponenten abgebildet und auf der Y-Achse der prozentuale Anteil an Knoten, den Komponenten dieser Größe im Gesamtgraphen innehaben.

  • Etwa 20 Prozent der Knoten haben keine Hierarchieinformationen.
  • Etwa 30 Prozent der Knoten sind in Teilgraphen mit weniger als 20 Knoten verbunden.
  • Etwa 68 Prozent der Knoten sind in einem Teilgraphen mit 140.105 Knoten zu finden.

Tiefe der Hierarchie

Es wäre zu erwarten, dass mit Zunahme der Größe der Komponenten auch die Tiefe der Hierarchie steigt. Daher haben wir in einem Boxplot in Abbildung 7 die maximale Tiefe der Hierarchie jeder Komponente analysiert und sortiert nach Komponentengröße ausgewertet.

Boxplot zur Darstellung der Verteilung der max. Tiefe pro Komponentengröße.
Boxplot zur Darstellung der Verteilung der max. Tiefe pro Komponentengröße.

Prinzpiell steigt die Tiefe der Hierarchie mit steigender Komponentengröße etwas. Jedoch wäre bei einer Komponente mit 114 Knoten mehr als 2 Hierarchiestufen zu erwarten. Oder bei einer Komponente mit 140.105 Knoten mehr als 13 Hierarchiestufen.

Kindknoten pro Knoten

Wenn es relativ wenig Hierachiestufen gibt, liegt die Vermutung nahe, dass es in den einzelnen Komponenten Knoten gibt, die sehr viele direkte Unterknoten haben. Daher haben wir noch einmal die Anzahl an Kindknoten pro Knoten analysiert und sortiert nach Komponentengröße in einem Boxplot in Abbildung 8 ausgewertet.

Boxplot zur Darstellung der Verteilung der Anzahl von Kindknoten pro Komponentengröße.
Boxplot zur Darstellung der Verteilung der Anzahl von Kindknoten pro Komponentengröße.

Die graue Linie markiert die maximale Anzahl an Kindknoten, die ein Knoten in einer Komponente einer bestimmten Größe haben kann. Auffällig ist, dass es bei vielen Komponenten Knoten gibt, die nahe an dieser Grenze liegen. Die Komponente besteht dann aus einem Oberknoten mit dem (fast) alle restlichen Knoten der Komponente verbunden sind.

Interessant sind auch die drei Knoten in der größten Komponente, die mehr als 1.000 direkte Kindknoten haben. Hierbei handelt es sich um eine große Anzahl an Verbindungen des Typs Broader term (instantial), die im GND Explorer als “Ist ein Beispiel für andere Entität” angezeigt werden.

Fazit

Nach anfänglichen Schwierigkeiten konnten wir eine für uns in großen Teilen brauchbare Hierarchie aus der GND extrahieren, die wir für unser Projekt weiter bearbeiten können.

Wir waren in unserem Teilgraphen verwundert über die doch vielen Begriffe, die ohne Hierarchieinformationen in der GND liegen. Mit unserer Analyse des Gesamtgraphen konnten wir bestätigen, dass dies wohl ein generelles Problem bei GND Sachbegriffen ist.

Auch sind die Hierarchien in unserem Teilgraphen selbst relativ flach, was sich bei der Analyse des Gesamtgraphen ebenfalls als Eigenschaft der GND bestätigte.

Alternativ könnte es sich auch um ein systematisches Problem in unserer LOD Variante der GND oder unserer Auswahl von Verbindungsarten zwischen GND Sachbegriffen liegen. Wir konnten in unseren Stichproben jedoch keine Hinweise auf solche Fehler finden.

Es würde sich jetzt anbieten die Analyse ausführlicher zu gestalten und dabei zum Beispiel zusätzlich GND Sachgruppen, die einzelnen Subtypen von SubjectHeading, sowie die unterschiedlichen Verbindungsarten weiter zu analysieren. Dies würde jedoch den Rahmen unseres aktuellen Projektes übersteigen.

Prinzipiell kommt es nach unseren Beobachtungen darauf an, in welchem (Fach-)Bereich man sich innerhalb der GND Sachbegriffen bewegt. So fanden wir für unseren Anwendungsfall die Hierarchieinformationen für Haushaltsgegenstände unzureichend, die zu Musikinstrumenten passend und hilfreich, und die für Begriffe aus der Biologie und Chemie zu ausführlich.


  1. Details zur Motivation und unserem generellen Vorgehen haben wir schon unter NER und GND zur Verbesserung der Erschließung berichtet. ↩︎

  2. Details zum Glas als Material und Gegenstand, sowie zu den Kategorien, finden sich im Artikel NER und GND zur Verbesserung der Erschließung↩︎

Benjamin Rosemann
Benjamin Rosemann
Data Scientist

Ich evaluiere KI- und Software-Lösungen und integriere sie in den Archivalltag.

Katharina Hardt
Projektbearbeiterin

Themenorientierte Erschließung von Quellen zur Provenienzforschung.

Ähnliches