Workshop - Daten mit OpenRefine exportieren
Wir exportieren Daten mit OpenRefine in unterschiedliche Formate.
Daten exportieren in der OpenRefine Dokumentation.
Dieser Workshop wurde zuletzt getestet mit OpenRefine Version 3.8.2.
Hintergrund
OpenRefine bietet sowohl verschiedene fertige Exportmöglichkeiten an als auch die Möglichkeit, eigene Formate (JSON, XML) zu erstellen. Wir konzentrieren uns in diesem Workshop auf tabellenartige Formate.
Aufgabe 1: Daten als Excel exportieren
Wir verwenden das Projekt “Kretschmann Kabinett III”, das wir in Projekte in OpenRefine laden und verwalten erstellt haben.
Dort erstellen wir ein “Text Facet” auf der Spalte “Geschlecht” und wählen darüber alle weiblichen Kabinettsmitglieder aus.
Über “Export" "Excel 2007+ (.xlsx)” erzeugen wir eine Excel Datei.
Aufgabe 2: Daten als CSV exportieren
Wir verwenden das gleiche Setup wie in Aufgabe 1.
Über “Export" "Comma-separated value” erzeugen wir eine CSV Datei.
Aufgabe 3: Datenexport spezifizieren
Wir verwenden das gleiche Setup wie in Aufgabe 1.
Über “Export" "Custom tabular exporter…” erzeugen wir eine spezielle Datei.
Die Einstellungen sind mit Bildschirmfotos in Abbildung 1 und 2 dokumentiert.
Die Dateiendung der heruntergeladenen Datei ändern wir anschließend von .txt
nach .csv
.
Aufgabe 4: Datenexporte vergleichen
Wir öffnen die drei exportierten Dateien mit Excel.
Was sind die Unterschiede zwischen den Dateien?
Welcher Export eignet sich für welchen Anwendungsfall?
Hinweise/Lösungen:
- Der normale Export berücksichtigt die momentan aktiven “Facets” und Filter.
- Excel erwartet bei CSV ein Semikolon
;
als Trennzeichen undwindows-1252
als Kodierung. Daher sieht die erste CSV-Datei in Excel “seltsam” aus. 1 - Der normale CSV Export von OpenRefine ist mit Komma
,
getrennt und verwendetutf-8
als Kodierung, wie es von den meisten Anwendungen erwartet wird. - Beim spezifischen Datenexport hat man die Kontrolle darüber, was exportiert wird und kann Trennzeichen, Kodierungen, … beeinflussen.
- Im FDMLab verwenden wir
xlsx
, wenn die Daten in Excel weiter bearbeitet werden sollen, undcsv
, wenn wir die Daten mit anderen Anwendungen weiter bearbeiten.
Microsoft Excel hat einen Textimport-Assistenten, mit dem auch andere Formate importiert werden können. ↩︎
Fazit
OpenRefine kann die Projekte in gängige Formate exportieren. Das ist schnell und bequem. Komplexer wird es bei verschachtelten Formaten wie XML. Das behandeln wir in unserem Workshop für Fortgeschrittene.
Im nächsten Teil beschäftigen wir uns mit den Mechanismen zum Clustering in OpenRefine.