Die flexible Modellierungs-
technik für Data Warehouses
Data Vault ist eine Modellierungstechnik für Data Warehouses, die besonders für agile Data Warehouses geeignet ist. Sie bietet maximale Flexibilität bei Erweiterungen und ermöglicht eine starke Parallelisierung der Datenladeprozesse sowie eine vollständige temporale Datenhaltung. Damit erfüllt Data Vault zudem die Anforderungen an die Revisionssicherheit eines Informationssystems.
Entwickelt wurde die Data-Vault-Modellierung bereits in den Neunzigerjahren von Dan Linstedt mit dem Ziel, ein skalierbares, flexibles und in sich konsistentes Warehouse zu entwickeln. Ein statisches Data Warehouse wird mit der Zeit immer komplexer, was bei Erweiterungen oder Änderungen zu hohen Kosten führt.
Im Vergleich zur klassischen oder auch dimensionalen Modellierung nach Kimball liegt der Fokus bei Data Vault 2.0 auf Flexibilität und einer einfachen, schrittweisen Integration von Daten durch eine konsequente Zerlegung in klar strukturierte Komponenten mit eindeutigen Zuständigkeiten. Dies führt zu überschaubaren Ladeprozessen, die automatisierbar sind.
Das Data-Vault-Modell
Bei der Data Vault-Modellierung werden alle zu einem Objekt gehörenden Informationen (Bspw. Kundendaten, Produkte, Prozesse) in drei Kategorien eingeteilt und voneinander getrennt. Diese Informationen befinden sich in unterschiedlichen Tabellen, sind aber durch einen gemeinsamen Schlüssel verbunden. Somit ist es einfach möglich, neue Kategorien zu erstellen und damit das gesamte Data Warehouse zu erweitern.
In der ersten Kategorie „Hub“ sind Informationen abgelegt, die ein Objekt eindeutig beschreiben und ihm somit eine Identität geben. In unserem Beispiel - ein Fahrradverleih - wären dies die Station mit eindeutigem Namen und das Terminal mit ID.
In der zweiten Kategorie „Link“ befinden sich alle Arten von Beziehungen zwischen einzelnen Geschäftskonzepten. In unserer Grafik wird beschrieben, welche Fahrten von/zu welcher Station mit welchem Fahrrad durchgeführt werden. Grundsätzlich können in der Kagtegorie "Link" nebst Vorgängen auch hierarchische Beziehungen oder Idenititätsbeziehungen beschrieben werden (Bspw. Fahrrad A gehört zu Station X).
Alle Attribute, die ein Geschäftskonzept oder eine Beziehung beschreiben - in unserer Abbildung beispielsweise die Länge einer Fahrt - gehören in die dritte Kategorie „Satellite“. Ein Hub, bzw. auch ein Link können mehrere Satelliten haben, die beispielsweise nach Quelle der Daten oder Häufigkeit der Änderungen aufgeteilt sind. In den Satelliten findet zudem die unitemporale Historisierung statt, danke welcher das Data Warehouse die Anforderungen an die Revisionssicherheit erfüllt.
Warum sollten Unternehmen auf Data Vault setzen?
Das Ziel von Data Vault ist es, die Organisation bei einer schnellen Bereitstellung von integrierten Daten für Analysen und Berichte zu unterstützen.
Die Vorteile von Data Vault 2.0:
- Ermöglicht ein schnelles Datenverständnis im Unternehmen mit nachvollziehbaren
und transparenten Daten - Erhebliche Reduzierung der Entwicklungszeit für Anforderungen aus dem Business
- Kurze Wartezeiten für wichtige Analyseergebnisse, auch bei grossen Datenvolumen
- Standardisierte Architektur und automatisierbare Datenbereitstellung
- Nahtlose Integration unterschiedlichster Datenquellen mit Nachverfolgung bis zum Quellsystem
- Unveränderte und vollständige Historisierung zur Erfüllung von Compliance- und Auditanforderungen
- Darstellung und Auswertung von stichtagsbezogenen Daten
- Agile, iterative Entwicklungszyklen mit schrittweisem Ausbau des Data Warehouse
- Ermöglicht auch den Aufbau eines vorgelagerten Data Warehouse in einer
bestehenden Silo-Architektur
In technischer Hinsicht ist hervorzuheben, dass Data Vault eine klassische Batch-Verarbeitung ebenso unterstützt wie Near-Realtime-Loads. Im Vergleich zu klassischen DWH-Architekturen wird die Geschäftslogik getrennt in einem eigenem Layer, dem "Business Vault" definiert. Später in der Information Delivery zum End-User können exakt für den Anwendungsfall definierte Marts daraus abgeleitet werden. Entsprechend findet eine „späte“ sowie sauber getrennte Abbildung statt und das DWH enthält exakt alle Daten, wie sie im Quellsystem vorliegen sowie deren Anpassungen für die spätere Nutzung.
Banian & Data Vault 2.0
Beim Entwickeln eines BI-Umfelds braucht man einen ganzheitlichen Ansatz. Wir von Banian betrachten nebst der Methodik den gesamten Entwicklungsprozess und die Architektur.
Warum Banian:
- Erfolgreiche Zusammenarbeit und Anwendung von Datavault Builder, Wherescape, MID Innovator und anderen Modellierungswerkzeugen
- Eigene Templates für die Anwendung von Data Vault in Wherescape, MID, Matillion, Exasol und Snwoflake
- Eigenes Data Vault Plug-in für den MID Innovator, welches mit Hilfe graphischer Modellierung die DWH Entwicklung automatisiert
- Kontinuierliche Weiterbildung mit Zertifizierungen, internationalen Gremien und Konferenzen
- Mit-Organisator der führenden Data Vault User Gruppe im deutschsprachigen Raum DDVUG (deutschsprachige Data Vault User Gruppe)
- Bereits verschiedene erfolgreich umgesetzte Data Vault-Projekte - viele davon mit eigenem Data Vault Plug-in. Mehr dazu unter den Referenzen hier.
Unser Vorgehen:
In einem ersten Schritt modellieren wir zusammen mit dir dein Geschäftsmodell mit den relevanten Objekten und den Beziehungen. Der zweite Schritt besteht darin, die Quellsysteme zu identifizieren, zu integrieren und die Informationen zu analysieren. Darauf basierend werden die definierten Geschäftsobjekte mit den Daten verbunden und das Data Vault Modell modelliert. Bei der Integration der Daten, der Modellierung und im Aufbau des DWH unterstützen uns unsere vorgefertigten Templates und beschleunigen so den Gesamtprozess. Gleichzeitig sind der ganze Prozess, die Geschäftsobjekte und auch die Business-Rules nachhaltig dokumentiert.