Workshop - Daten mit OpenRefine filtern und sortieren

Folie - Daten mit OpenRefine filtern und sortieren Folie - Daten mit OpenRefine filtern und sortieren

Wir erkunden Datensätze mit OpenRefine, indem wir sie filtern und sortieren.

Facets in der OpenRefine Dokumentation.

Sortieren in der OpenRefine Dokumentation.

Wir verwenden in diesem Workshop OpenRefine in Version 3.5.2.

Hintergrund

OpenRefine bietet umfangreiche Möglichkeiten Daten zu sortieren und zu filtern. So können Filter kombiniert und Teilmengen des Datensatzes gesammelt bearbeitet werden.

Wir fokussieren uns in diesem Workshop auf die Funktionen, mit denen man Text ordnen und filtern kann. Um Daten zu filtern gibt es in OpenRefine so genannte “Facets”. Diese lassen sich über das Spaltenmenü via “Facet” aktivieren.

Bildschirmfoto von OpenRefine Text Facet.

Das “Text Facet” zeigt alle Werte einer Spalte an. Man kann die Werte nach Name oder Anzahl sortieren lassen, ein oder mehrere Werte auswählen oder die Auswahl umkehren (“invert”).

Das “Text Facet” über der Spalte Vorname in Abbildung 1 informiert uns, dass der häufigste Vorname “Max” lautet. Von den Personen mit Vornamen “Max” haben laut der Spalte “akad. Grad/Titel” zwei einen Doktortitel.

Bildschirmfoto von OpenRefine Text Facet.

Facets lassen sich auch kombinieren. Wählen wir zusätzlich im “Text Facet” zum Titel den “Dr. med.” aus und aktivieren das “Text Facet” auf der Spalte “Beruf”, so erfahren wir in Abbildung 2, dass ein Max Arzt und ein Max Zahnarzt war.

Die Gurs-Daten wurden zur Veröffentlichung im Blog aufbereitet. Die Spalten für die Namen und Berufe wurden dabei entfernt!

Aufgabe 1: Spalten mit Facets analysieren

Wir arbeiten mit dem Gurs-Datensatz, den wir in “Projekte in OpenRefine laden und verwalten” geladen haben.

Untersuchen Sie mit “Text Facets” die einzelnen Spalten. Diese rufen Sie auf über “Spalte" "Facet" "Text facet”. Fällt Ihnen bei den Werten einzelner Spalten etwas auf?

Besteht Bedarf die Werte einzelner Spalten zu korrigieren?

Notieren Sie Ihre Beobachtungen.

Aufgabe 2: Andere Facets

Was gibt es noch für “Facets”?

Gibt es Spalten mit passenden Daten um die “Facets” darauf anzuwenden?

Hinweis: Um ein spezielles Facet für “Number” oder “Date” zu verwenden, muss die entsprechende Spalte zuerst in diesen Datentyp umgewandelt werden. Das geht zum Beispiel über “Spalte" "Edit cells" "Common transforms" "To number”.

Aufgabe 3: Facets auf alle Spalten

Es gibt eine “All” Spalte, wo Aktionen für alle Spalten verfügbar sind.

Wir verwenden das “Facet by blank (null or empty string)” um Leerzeilen zu identifizieren. In den 4.000 Einträgen (rows) sollte es fünf Leerzeilen geben. Das Facet wird geöffnet über “All" "Facet" "Facet by blank (null or empty string)”.

Warum werden diese fünf Leerzeilen mit dem Facet nicht gefunden?

Hinweise:

  • Sollten Ihnen nur 3.995 Zeilen angezeigt werden, so haben Sie die Leerzeilen beim Importieren der Daten schon gelöscht.
  • Es gibt in dem Datensatz fünf Zeilen, die lediglich Leerzeichen enthalten. Diese sind aus Sicht von OpenRefine nicht “leer”. Wir werden in einer späteren Aufgabe lernen, wie wir diese Leerzeichen und Zeilen automatisiert entfernen können.

Aufgabe 4: Zeilen sortieren

Wir sortieren die Spalte “Geburtsort” via “Geburtsort" "Sort…” und sortieren die Spalte als alphabetisch aufsteigenden Text. Dadurch erscheint ein neues Menü in der Kopfzeile namens “Sort”, welches wir in Abbildung 3 markiert haben.

Wird dadurch eine Aktion in der “History” hinterlegt? Was passiert in der “History”, wenn wir in dem Menü “Sort” die Aktion “Reorder rows permanently” ausführen?

Bildschirmfoto von OpenRefine mit dem Menü zum Sortieren.

Machen Sie abschließend die Sortierung wieder rückgängig.

Hinweis: In der Spalte Geburtsort gibt es einige Orte, die nur eine GND-ID haben. Darum kümmern wir uns in einer späteren Aufgabe.

Aufgabe 5: Spalten löschen / ausblenden

Wir haben in Aufgabe 1 festgestellt, dass die Spalte “Geburtsdatum (beschreibend)” leer ist.

Wir können diese Spalte entweder via “Geburtsdatum (beschreibend)“ "Edit column" "Remove this column” löschen oder via “Geburtsdatum (beschreibend)“ "View" "Collapse this column” ausblenden.

Testen Sie die beiden Varianten. Was sind die Vor- und Nachteile davon?

Aufgabe 6: Spalten sortieren

Um Spalten umzusortieren gibt es zwei Möglichkeiten:

  1. Im Spaltenmenü unter “Edit column” die Spalte nach links oder rechts verschieben.
  2. Im “All” Menü unter “Edit columns” den Dialog “Re-order / remove columns…” aufrufen.

Testen Sie die Funktionen und machen Sie sie anschließend wieder rückgängig.

Fazit

Die Möglichkeit Daten mit Facets zu filtern und sie mit anderen Facets oder Filtern zu kombinieren ist ein häufig genutztes Feature von uns. Das Umbenennen und Sortieren von Spalten fühlt sich manchmal jedoch etwas aufwendiger an, als es sein sollte.


Im nächsten Teil löschen wir Daten in OpenRefine, wandeln sie um und Bearbeiten sie.

Benjamin Rosemann
Benjamin Rosemann
Data Scientist

Ich evaluiere KI- und Software-Lösungen und integriere sie in den Archivalltag.

Ähnliches