Skip to main content

Data Vault im Vergleich zu klassischen DWH Methoden

Data Vault ist eine Weiterentwicklung der klassischen Data Warehouse Methoden von Ralph Kimball und Bill Inmon:

Ralph Kimball

Dimensional

dimensionale Modellierung,

Star Schema, Cube

optimiert für

Datenanalysen

 

Bill Inmon

3NF

3. Normalform, historisiert

Dan Linstedt

Data Vault

flexible, pattern-basierte

Hub & Spoke Architektur

optimiert für

Datenintegration

Die dimensionale Modellierung von Kimball hat den Fokus auf einfache Datenanalysen und ist optimal für die Zugriffsschicht eines Data Warehouses.

Die Inmon Schule propagierte eine Enterprise- Integrationsschicht in 3. Normalform, die alle Quellsysteme in ein einheitliches, historisiertes Fachbereichsmodell transformiert. Die Modellierung in 3. Normalform ist optimiert für operative Systeme und stößt bei Datenintegration schnell an seine Grenzen. Seit 2010 empfiehlt auch Bill Inmon die Data Vault Modellierung für die Integrationsschicht.

Die größten Nachteile der klassischen Data Warehouse Methoden sind:

  • Frühe Transformation in das Fachbereichsmodell.
  • Enge Kopplung des Datenmodells. 
  • Komplexe Ladeprozesse, die zu viele Aufgaben übernehmen.

Änderungen haben dadurch große Auswirkungen und sind entsprechend teuer. Das behindert das Wachstum des Data Warehouses, da notwendige Änderungen aus Kostengründen vermieden werden.

 

Cubicon Datenpyramide

Die Datenpyramide symbolisert dass nur ein Teil der vorhandenen Daten für Entscheidungen relevant ist und über mehrere Layer in hochwertige Informationen transformiert wird. 

Durch kleinere Transformationsschritte wird die Architektur standardisiert, die Wiederverwendung der Daten gefördert und die Agilität erhöht. Änderungen werden dadurch billiger.

Cubicon Informationspyramide mit Data Vault Layer

Im Raw Vault werden harte Geschäftsregeln angewendet. Das bedeutet es werden keine inhaltlichen Transformationen gemacht. Die Rohdaten werden anhand identifizierter Geschäftschlüssel und Geschäftsbeziehungen angeordnet und historisiert. Erlaubt sind Deduplizierung, Datentypkonversionen sowie Normalisierung/Denormalisierung der Daten.

Der Raw Vault speichert die "Single Version of Facts". Diese ist immer gültig, da sie der Wahrheit in den operativen Quellsystemen entspricht.

Im Business Vault werden die weichen Geschäftsregeln angewendet.  Daten werden anhand der Spezifikation des Fachbereichs harmonisiert, angereichert bzw. berechnet.

Der Business Vault kann jederzeit gelöscht werden und aus dem Raw Vault neu berechnet werden. D.h. im Gegensatz zu klassischen Data Warehouse Architekturen, wo Geschäftsregeln sofort angewendet werden,  werden Änderungen der Spezifikation im Data Vault schnell und effizient umgesetzt. 

Data Vault Modellierung erhöht die Flexibilität der Integrationsschicht durch konsequente Zerlegung in klar strukturierte Komponenten mit eindeutigen Zuständigkeiten. Das führt zu einfachen, überschaubaren Ladeprozessen, die automatisierbar sind.

 

Zerlegung in Komponenten mit klaren Zuständigkeiten

Einfache Integration der Komponenten

Automatisierung