Data Warehouse
Was ist ein Data Warehouse?
Data Warehouse ist ein Baustein im “Business Intelligence-System” (BI-System), das Daten aus verschiedenen Datenquellen vereint. Data Warehouses kommen bei besonders komplexen Geschäftsdaten zum Einsatz und analysieren diese. Das Ziel sind umfassende Auswertungen, die die Entscheidungsfindung in Unternehmen unterstützen.
Wie unterscheidet sich ein Data Warehouse von einer klassischen Business Intelligence-Lösung?
Klassische Business Intelligence-Lösungen eignen sich für wenig komplexe, übersichtliche Datensammlungen. Ein Data Warehouse hingegen kommt bei komplexeren Datenmengen zum Einsatz, indem es über eine Schnittstelle auf externe Systeme, wie ERP oder CRM, zugreift.
Wie ist ein Data Warehouse aufgebaut?
Der Aufbau eines Data Warehouse besteht in den meisten Fällen aus einem Quellsystem, der Data Staging Area, der Data Presentation Area und Data Access Tools. Jedoch hängt die Architektur auch von spezifischen Unternehmensanforderungen ab und können daher abweichen. Beispielsweise gibt es eine globale Architektur für komplette Unternehmen sowie ein sogenanntes Hub-and-Spoke-System – also eine Art Speicherarchitektur - , in dem mit Data Marts – also Teildatenbestände von ganzen Datenlagern - gearbeitet wird. Eine dritte Variante ist eine Sandbox, also ein privater, sicherer Bereich, in dem neue Datasets gesucht und Datenanalysen erfolgen können.
Woher stammen die Daten in einem Data Warehouse?
Die Daten in einem Data Warehouse können aus einer Vielzahl an Quellen gezogen werden. Typische Beispiele sind ERP- oder CRM-Systeme. Der Prozess, diese Daten zu sammeln, wird als „Staging“ bezeichnet. Im nächsten Schritt, dem ETL-Prozess, werden die Daten in ein einheitliches Format überführt – ETL steht dabei für „Extract, Transform, Load“. Daten werden also ausgelesen, umgewandelt und geladen.
Wie funktioniert ein Data Warehouse?
Data Warehousing, also das Speichern und Zusammenführen von Daten in einem Data Warehouse, besteht aus vier Schritten:
- Datenbeschaffung: Aus den vorhandenen Quellen werden Daten extrahiert, transformiert und in das jeweilige Data Warehouse geladen ETL).
- Datenhaltung: Daten werden langfristig im Data Warehouse gespeichert.
- Datenauswertung: Alle Daten werden analysiert.
- Datenbereitstellung: Für nötige Datenbestände werden Daten zu Analysezwecken erhalten.
Zu erwähnen ist, dass sich durch die andere Verteilung von Daten im Kontext von Cloud-Angeboten neuere Formen des klassischen ETL-Prozesses entwickelt haben, die heute unterschieden werden. Einer berücksichtigt die aktuellen Entwicklungen, indem Daten jeder Entität aus verschiedenen Quellen zusammengeführt werden. Dies ist der “entity-based ETL” (eETL).
Zuverlässige Auswertungen auch für komplexe Daten
Kommen besonders viele Daten oder unterschiedliche Datenquellen zusammen, sind Auswertungen meist aufwändig und fehleranfällig. Aber das muss nicht sein. Die Lösung: einfache Analysen mit einem Data Warehouse.
Welche Aufgaben hat ein Data Warehouse?
Es gibt zahlreiche Ergebnisse, die sich mit einem Data Warehouse erzielen lassen. Typischerweise handelt es sich dabei um:
-
Ermittlung von Kosten und Ressourcen
-
Auswertung von Produktions- und Geschäftsprozessen
-
Reports und Statistiken
-
Darstellung von Unternehmenskennzahlen sowie Daten für weiterführende Analysen
-
Schaffen von Strukturen für komplexe Datenbestände, eine globale Unternehmenssicht zu ermöglichen
Welche Vorteile spüren Unternehmen mit einem Data Warehouse?
- Vollständige Daten in höchster Güte, da das System auf eine breite Datenmenge zugreift und diese zuverlässig bearbeitet.
- Schnellere und verlässlichere Entscheidungen, da die benötigten Auswertungen vorliegen.
- Zeitersparnis, da Auswertungen nicht aufwändig manuell erstellt werden müssen.
- Unkomplizierter Umgang auch mit komplexen Datenmengen, da ein Data Warehouse genau dafür gedacht ist.
- Zentrales Datenformat sowohl für strukturierte als auch für unstrukturierte Daten, da ein Data Warehouse verschiedene Datenformate in eines umwandelt.
Was ist der Zusammenhang zwischen einem Data Warehouse und einem Data Lake?
Ein Data Lake ist der Ort, an dem die Daten gesammelt werden, die in einem Data Warehouse verarbeitet werden. Somit ist der Data Lake ein Teil des Data Warehouse.
Ein Data Lake speichert verschiedene, ungefilterte und Daten, die aus Unternehmensanwendungen, Apps, Social Media und weiteren als Rohdaten erfasst wurden. Sie können als unstrukturierte Daten vorliegen und werden über einen Zwischenschritt in strukturierte Datenbestände transformiert. Bei Bedarf können die im Data Lake gespeicherten Daten zu Analysezwecken genutzt werden.
Was ist der Unterschied zwischen Data Mart und Data Warehouse?
Ein Data Warehouse beinhaltet alle Informationen eines Unternehmens. Data Marts hingegen erfüllen ausschließlich Anforderungen ausgewählter Abteilungen bzw. Funktionen. Ziel von Data Marts ist es, kleine Teildatensätze vom vollständigen Datenzusatz isoliert darzustellen.
Ist ein Data Warehouse eine Datenbank?
Nein. Während des sich bei einer Datenbank um eine klassische Technik zur Datenspeicherung handelt, eignet sich ein Data Warehouse zur Datenanalyse.
Beitrag teilen
Autor
Weitere interessante Beiträge