ETL-Prozess
Was ist ein ETL-Prozess?
ETL steht für „Extract, Transform, Load“ oder im Deutschen „Extraktion, Transformation, Laden“. Jeder Buchstabe steht für einen Einzelschritt. Es handelt sich um eine Methode aus der Informatik, mit der Daten aus unterschiedlichen Quellen gelesen, aufbereitet und in einem zentralen System zur Verfügung gestellt werden.
Wie funktioniert ein ETL-Prozess?
Ein ETL-Prozess dient dazu, Daten unterschiedlicher Ausprägungen aus verschiedenen Quellen zu vereinen. Dabei ist es wichtig, den Prozess in kurzer Zeit abzuwickeln, um die zugrunde liegenden Daten nur kurz durch den Zugriff zu sperren. Zudem beinhalten die ETL-Schritte ein Repositorium – also einen Ort, an dem Daten verwaltet werden. Hier werden die übertragenden Daten übergangsweise aufbewahrt. Typischerweise umfassen ETL-Prozesse außerdem Data-Profiling-Routinen. Hierin wird die Datenqualität gemessen.
Was sind die Hauptphasen des ETL-Prozesses?
Der ETL-Prozess teilt sich in die drei Phasen:
Extract - Extraktion
Dieser Schritt extrahiert Daten aus unterschiedlichen Datenquellen. Die Extraktion findet meist regelmäßig statt, um Informationen auf dem Laufenden zu halten. Sie kann periodisch, ereignisgesteuert oder anfragegesteuert erfolgen.
Transform - Transformation
Die zweite Phase ist dafür zuständig, Datenstruktur und -inhalte in das passende Format für die Zieldatenbank umzuwandeln. Daten werden dabei an die Zielstrukturen angepasst, bereinigt und in einer Staging-Area umgewandelt. Es lassen sich die syntaktische Transformation, also die Optimierung von Daten, sowie die semantische Transformation, also die Überprüfung auf inhaltliche Punkte, unterschieden.
Load - Laden
Schritt drei lädt die transformierten Daten in die Datenbank, die als Ziel angegeben wurde. Um die Datenbank beim Laden möglichst kurz zu blockieren, sollte der Prozess in kurzer Zeit erfolgen. Um Änderungen zu protokollieren, dient eine Versionshistorie.
Wann ist ein ETL-Prozess sinnvoll?
-
Verarbeitung von großen Datenmengen
Ein ETL-Prozess kommt zum Einsatz, wenn große Datenmengen verarbeitet werden müssen. Häufig liegen Informationen auf mehreren Systemen redundant ab. ETL-Prozesse stellen sicher, dass diese zusammengeführt und aufbereitet werden, ohne Wiederholungen zu umfassen. Der so erstellte Datensatz wird dann in einem Data Warehouse zur Verfügung gestellt.
-
Big Data-Analysen
Big Data-Analysen setzen ebenso ETL-Prozesse ein. Hier werden extrem umfangreiche Daten in ganz unterschiedlichen Formaten ausgewertet. In diesem Zusammenhang wird oft auf Methoden der künstlichen Intelligenz oder Data Mining zurückgegriffen.
-
Datenmigration
Ein dritter Anwendungsbereich ist die Migration von Daten. Der ETL-Prozess ermöglicht es, diese zwischen verschiedenen Anwendungen zu verschieben. Dabei wird die Datensicherung sichergestellt.
Warum ist ETL wichtig?
Welche Einsatzbereiche für ETL gibt es?
Typische Einsatzbereiche für ETL finden sich dort, wo Daten in großen Mengen verarbeitet, bereitgestellt und analysiert werden müssen. Beispiele für Anwendungsgebiete sind:
- Datenspeicherung in einem Data Warehouse
- Datenbereitstellung für BI-Anwendungen
- Datenextraktion aus verteilten Datenbankumgebungen oder cloudbasierten Datenbanken
- Migration von Daten zwischen verschiedenen Anwendungen
- Replikation von Daten zu Sicherungs- und Redundanzzwecken
Welche Eigenschaften sollte ein ETL-Tool haben?
Einige Eigenschaften erleichtern es, die drei Phasen des ETL-Prozesses effizient abzuwickeln. Dazu zählen:
- Schnittstellen zu möglichst vielen Datenbanksystemen
- Verwendbarkeit mit Private und Public Cloud-Modellen und hybrider Cloudarchitektur
- Intuitive User Experience
- ETL-Phasen sollten visualisiert werden können
- Auch große Datenmengen sollten problemlos verarbeitet werden können
Was ist der Unterschied zwischen dem ETL- und dem ELT-Prozess?
Während das Vorgehen beim ETL-Prozess „Extract, Transform, Load“ ist, geht der ELT-Prozess nach dem Prinzip „Extract, Load, Transform“ vor. Beim ELT-Prozess werden Daten zunächst in ihrer Rohform in die Zieldatenbank geladen. Sammelstelle für diese Daten unterschiedlichster Art ist ein Data Lake. Die Transformation erfolgt im darauf folgenden Schritt im Zielsystem. Der ELT-Prozess kommt insbesondere im Big Data-Umfeld zum Einsatz.
Dreischritt zur passgenauen Entscheidung
Extract, transform, load: die Basis für Ihre Datenauswertung mit Microsoft Power BI. Die Basis für hilfreiche Analysen. Die Basis für bessere Entscheidungen.
Beitrag teilen
Autor
Weitere interessante Beiträge