Bücherregal symbolisiert Glossar

YAVEON  »  Glossar  » ETL-Prozess

ETL-Prozess

Was ist ein ETL-Prozess?

ETL steht für „Extract, Transform, Load“ oder im Deutschen „Extraktion, Transformation, Laden“. Jeder Buchstabe steht für einen Einzelschritt. Es handelt sich um eine Methode aus der Informatik, mit der Daten aus unterschiedlichen Quellen gelesen, aufbereitet und in einem zentralen System zur Verfügung gestellt werden.  

Wie funktioniert ein ETL-Prozess?

Ein ETL-Prozess dient dazu, Daten unterschiedlicher Ausprägungen aus verschiedenen Quellen zu vereinen. Dabei ist es wichtig, den Prozess in kurzer Zeit abzuwickeln, um die zugrunde liegenden Daten nur kurz durch den Zugriff zu sperren. Zudem beinhalten die ETL-Schritte ein Repositorium – also einen Ort, an dem Daten verwaltet werden. Hier werden die übertragenden Daten übergangsweise aufbewahrt. Typischerweise umfassen ETL-Prozesse außerdem Data-Profiling-Routinen. Hierin wird die Datenqualität gemessen.

Was sind die Hauptphasen des ETL-Prozesses?

Der ETL-Prozess teilt sich in die drei Phasen:

Extract - Extraktion

Dieser Schritt extrahiert Daten aus unterschiedlichen Datenquellen. Die Extraktion findet meist regelmäßig statt, um Informationen auf dem Laufenden zu halten. Sie kann periodisch, ereignisgesteuert oder anfragegesteuert erfolgen.

Transform - Transformation

Die zweite Phase ist dafür zuständig, Datenstruktur und -inhalte in das passende Format für die Zieldatenbank umzuwandeln. Daten werden dabei an die Zielstrukturen angepasst, bereinigt und in einer Staging-Area umgewandelt. Es lassen sich die syntaktische Transformation, also die Optimierung von Daten, sowie die semantische Transformation, also die Überprüfung auf inhaltliche Punkte, unterschieden.

Load - Laden

Schritt drei lädt die transformierten Daten in die Datenbank, die als Ziel angegeben wurde. Um die Datenbank beim Laden möglichst kurz zu blockieren, sollte der Prozess in kurzer Zeit erfolgen. Um Änderungen zu protokollieren, dient eine Versionshistorie.

Grafik eines ETL-Prozesses aufgeteilt in drei Schritte
Grafik eines ETL-Prozesses aufgeteilt in drei Schritte im Hochformat

Wann ist ein ETL-Prozess sinnvoll?

  • Verarbeitung von großen Datenmengen

    Ein ETL-Prozess kommt zum Einsatz, wenn große Datenmengen verarbeitet werden müssen. Häufig liegen Informationen auf mehreren Systemen redundant ab. ETL-Prozesse stellen sicher, dass diese zusammengeführt und aufbereitet werden, ohne Wiederholungen zu umfassen. Der so erstellte Datensatz wird dann in einem Data Warehouse zur Verfügung gestellt.

  • Big Data-Analysen

    Big Data-Analysen setzen ebenso ETL-Prozesse ein. Hier werden extrem umfangreiche Daten in ganz unterschiedlichen Formaten ausgewertet.

  • Datenmigration

    Ein dritter Anwendungsbereich ist die Migration von Daten. Der ETL-Prozess ermöglicht es, diese zwischen verschiedenen Anwendungen zu verschieben. Dabei wird die Datensicherung sichergestellt.

Warum ist ETL wichtig?

Wettbewerbsvorteil

Rohdaten können in wertvolles Wissen transformiert werden. Das ermöglicht es, Entscheidungen fundierter und datengetrieben zu treffen.

Höhere Datenqualität

Über einen ETL-Prozess werden Daten nur in konsistenter und bereinigter Form verarbeitet und geraten so nur „sauber“ ins Data Warehouse.

Einheitlichkeit

ETL-Prozesse stellen sicher, dass alle Unternehmensbereiche auf einheitliche Daten zugreifen.

Geschwindigkeit

Der Datenzugriff erfolgt mittels eines ETL-Prozesses deutlich schneller.

Welche Einsatzbereiche für ETL gibt es?

Typische Einsatzbereiche für ETL finden sich dort, wo Daten in großen Mengen verarbeitet, bereitgestellt und analysiert werden müssen. Beispiele für Anwendungsgebiete sind:

  • Datenspeicherung in einem Data Warehouse
  • Datenbereitstellung für BI-Anwendungen
  • Datenextraktion aus verteilten Datenbankumgebungen oder cloudbasierten Datenbanken
  • Migration von Daten zwischen verschiedenen Anwendungen
  • Replikation von Daten zu Sicherungs- und Redundanzzwecken

Welche Eigenschaften sollte ein ETL-Tool haben?

Einige Eigenschaften erleichtern es, die drei Phasen des ETL-Prozesses effizient abzuwickeln. Dazu zählen:

  • Schnittstellen zu möglichst vielen Datenbanksystemen
  • Verwendbarkeit mit Private und Public Cloud-Modellen und hybrider Cloudarchitektur
  • Intuitive User Experience
  • ETL-Phasen sollten visualisiert werden können
  • Auch große Datenmengen sollten problemlos verarbeitet werden können
Figur, die auf etwas zeigt

Was ist der Unterschied zwischen dem ETL- und dem ELT-Prozess?

Während das Vorgehen beim ETL-Prozess „Extract, Transform, Load“ ist, geht der ELT-Prozess nach dem Prinzip „Extract, Load, Transform“ vor. Beim ELT-Prozess werden Daten zunächst in ihrer Rohform in die Zieldatenbank geladen. Sammelstelle für diese Daten unterschiedlichster Art ist ein Data Lake. Die Transformation erfolgt im darauf folgenden Schritt im Zielsystem. Der ELT-Prozess kommt insbesondere im Big Data-Umfeld zum Einsatz.

Autor

Ingo Dörrie, Leitung Digitale Transformationsberatung bei YAVEON, weiß, worauf es ankommt: die individuelle und detaillierte Betrachtung Ihrer Situation, passgenaue Lösungen und einen Weg, mit dem Sie sich wohlfühlen. Lassen Sie sich von ihm zeigen, welche Möglichkeiten in Ihrem Unternehmen schlummern und wie die Digitalisierung Ihr Unternehmen voranbringt.

Weitere interessante Beiträge

Business Intelligence

Was ist Business Intelligence und wo spielt sie eine Rolle? Vorteile, Funktionen, Beispiele und mehr. Jetzt informieren!

Data Warehouse

Was ist ein Data Warehouse und wie ist es aufgebaut? Erklärung, Vorteile, Aufgaben und mehr. Jetzt informieren!

BI Dashboard

Was ist ein BI Dashboard und welche Vorteile hat es? Definition, Ziel, Best Practices und mehr. Jetzt informieren!

© 2022 - YAVEON | All rights reserved

Nach oben