Workshop - Daten mit OpenRefine exportieren

Folie - Daten mit OpenRefine exportieren Folie - Daten mit OpenRefine exportieren

Wir exportieren Daten mit OpenRefine in unterschiedliche Formate.

Daten exportieren in der OpenRefine Dokumentation.

Wir verwenden in diesem Workshop OpenRefine in Version 3.5.2.

Hintergrund

OpenRefine bietet sowohl verschiedene fertige Exportmöglichkeiten an als auch die Möglichkeit, eigene Formate (JSON, XML) zu erstellen. Wir konzentrieren uns in diesem Workshop auf tabellenartige Formate.

Aufgabe 1: Daten als Excel exportieren

Wir verwenden das Projekt “Kretschmann Kabinett III”, das wir in Projekte in OpenRefine laden und verwalten erstellt haben.

Dort erstellen wir ein “Text Facet” auf der Spalte “Geschlecht” und wählen darüber alle weiblichen Kabinettsmitglieder aus.

Über “Export" "Excel 2007+ (.xlsx)” erzeugen wir eine Excel Datei.

Aufgabe 2: Daten als CSV exportieren

Wir verwenden das gleiche Setup wie in Aufgabe 1.

Über “Export" "Comma-separated value” erzeugen wir eine CSV Datei.

Aufgabe 3: Datenexport spezifizieren

Wir verwenden das gleiche Setup wie in Aufgabe 1.

Über “Export" "Custom tabular exporter…” erzeugen wir eine spezielle Datei.

Die Einstellungen sind mit Bildschirmfotos in Abbildung 1 und 2 dokumentiert.

Bildschirmfoto von OpenRefine Export Einstellungen 1.
Bildschirmfoto von OpenRefine Export Einstellungen 2.

Die Dateiendung der heruntergeladenen Datei ändern wir anschließend von .txt nach .csv.

Aufgabe 4: Datenexporte vergleichen

Wir öffnen die drei exportierten Dateien mit Excel.

Was sind die Unterschiede zwischen den Dateien?

Welcher Export eignet sich für welchen Anwendungsfall?

Hinweise/Lösungen:

  • Der normale Export berücksichtigt die momentan aktiven “Facets” und Filter.
  • Excel erwartet bei CSV ein Semikolon ; als Trennzeichen und windows-1252 als Kodierung. Daher sieht die erste CSV-Datei in Excel “seltsam” aus. 1
  • Der normale CSV Export von OpenRefine ist mit Komma , getrennt und verwendet utf-8 als Kodierung, wie es von den meisten Anwendungen erwartet wird.
  • Beim spezifischen Datenexport hat man die Kontrolle darüber, was exportiert wird und kann Trennzeichen, Kodierungen, … beeinflussen.
  • Im FDMLab verwenden wir xlsx, wenn die Daten in Excel weiter bearbeitet werden sollen, und csv, wenn wir die Daten mit anderen Anwendungen weiter bearbeiten.

  1. Microsoft Excel hat einen Textimport-Assistenten, mit dem auch andere Formate importiert werden können. ↩︎

Fazit

OpenRefine kann die Projekte in gängige Formate exportieren. Das ist schnell und bequem. Komplexer wird es bei verschachtelten Formaten wie XML. Das behandeln wir in unserem Workshop für Fortgeschrittene.


Im nächsten Teil beschäftigen wir uns mit den Mechanismen zum Clustering in OpenRefine.

Benjamin Rosemann
Benjamin Rosemann
Data Scientist

Ich evaluiere KI- und Software-Lösungen und integriere sie in den Archivalltag.

Ähnliches