Donnerstag – 930 bis ca. 1700 Uhr (mit anschließender Abendveranstaltung) um 830 ist die jährliche Mitgliederversammlung unseres Vereins
Kosten:
Bis zum 12. September 2024: 100,- für Mitglieder, 120,- für Nicht-Mitglieder.
Late Bird (ab dem 13. September 2024): 120,- für Mitglieder, 140,- für Nicht-Mitglieder.
Themen:
Uhrzeit
Titel
8:30 - 09:30
Mitgliederversammlung der DDVUG
09:30 - 9:45
Kaffee - Get together
9:45 - 9:50
Begrüssung
Vorstand der DDVUG
9:50 - 10:50
Data Contracts
Data Contracts sind so ähnlich wie OpenAPI- oder AsyncAPI-Spezifikationen, aber die Datenwelt funktioniert etwas anders. Ein Data Contract definiert das Schema der bereitgestellten Daten und deren Qualitätsattribute in einem YAML-Format. Datenverträge können auch Beispieldaten und eine semantische Beschreibung enthalten. Data Contracts legen zudem die Nutzungsbedingungen für die Verwendung von Daten fest.
Data Contracts sind in erster Linie auch ein Kommunikationsinstrument, um ein gemeinsames Verständnis darüber auszudrücken, wie Daten strukturiert und interpretiert werden sollten. Sie machen implizite semantische und qualitative Erwartungen explizit. Später in der Entwicklung und Produktion dienen sie auch als Grundlage für die Codegenerierung, das Testen, die Schemavalidierung, die Qualitätskontrolle, die Überwachung, die Zugriffskontrolle und die Richtlinien für die Verwaltung der Datenverarbeitung.
In diesem Vortrag werden die Data Contract Specification (datacontract.com) und das Data Contract CLI zur Validierung von Data Contracts in CI/CD-Pipelines vorstellen.
Jochen Christ, InnoQ
11:05 - 12:05
Data Vault Pipeline Description(DVPD) – Ein Dokumentformat zur Entkopplung von DWH Entwicklungswerkzeugen
Vorstellung der DVPD als offener Standard zur Beschreibung der Transformation einer Datenquelle in ein Data Vault Modell, und wie damit eine dauerhaft anpassbare DWH Plattform ermöglicht wird.
Beim Aufbau von Data Warehouse Plattformen stoßen viele Projekte auf das Problem, dass die verschiedenen Werkzeuge zur Modellierung, Beladungsimplementierung und Dokumentation in seltensten Fällen unmittelbar zusammenarbeiten.
Die Folge: Projekte beschränken die Werkzeugauswahl auf die wenigen untereinander kompatiblen Werkzeuge oder implementieren proprietäre Konverter in ihren Arbeitsprozess. Für die weitere Lebenszeit des DWH wird später nur ungern eine Anpassung der eng gekoppelten Werkzeuge an neue Gegebenheiten und Weiterentwicklungen vorgenommen, da dies meist eine komplexe Migration beinhaltet.
Im Vortrag wird gezeigt, wie durch die standardisierte Kopplung bei Verwendung der DVPD eine DWH Plattform auf die Anforderungen des Projektes ausgelegt werden kann und anpassungsfähig bleibt. Im weiteren wird auf die Einfachheit der DVPD Syntax eingegangen (auch manuell pflegbar) sowie deren Vollständigkeit bezüglich der Data Vault Modellierungsmethode vorgestellt. In einer Live Demo wird gezeigt, wie aus einem DVPD Dokument alle Tabellen und Beladungsprozessdaten abgeleitet werden. Referenzen aus Projekteinsätzen des Verfahren geben Einblick in den Einsatzalltag.
Flow.BI ist eine GenAI, die speziell für die datengetriebene Definition des Raw Data Vaults entwickelt wurde. Um dies zu erreichen, imitiert sie den menschlichen Datenmodellierer und definiert die Hubs, Links, Satelliten, einschließlich der Geschäftsschlüssel für die analysierten Quellsysteme. Die Lösung, welche von Michael Olschimke federführend entwickelt wurde, integriert mit bestehenden Automatisierungslösungen, um die datengetriebenen Schichten einer Data Vault-basierten Datenplattform zu generieren.
Ulf Mattern, scalefree
14:15 - 15:15
Combining Data Fabric and Data Mesh - Advancing Data Management with Hybrid Architecture
According to the Gartner Hype Cycle, the data mesh is Dead before the plateau. This was the statement made in 2022, and now, in 2024, it is still the case, but certain concepts that are part of the Data Mesh approach are very much alive, according to a recent survey amongst 2000 Enterprise customers. In recent years, the data mesh concept has shifted towards a data product approach, which has gained significant traction among organizations. This white paper introduces a solution for Data Vault Automation with distributed teams, merging elements of data mesh and data fabric methodologies.
The proposed architecture in this presentation employs a hybrid model that integrates a centralized foundation layer with decentralized domain teams. This model supports master data management, interdomain data integration, and standardized logic across domains, allowing senior data scientists to focus on value creation rather than data transformations. Automation templates enable the implementation of repetitive data product logic, ensuring high data quality and consistency.
The architecture aligns with the Medallion architecture, comprising bronze, silver, and gold layers, each improving data quality incrementally. An automated data ingestion strategy minimizes duplication and optimizes Change Data Capture (CDC) from sources, addressing both structured and unstructured data needs.
The foundation layer, spanning the bronze and silver layers, presents an integrated enterprise view of business entities and transactions. With Data Vault, you can automate over 85% of this layer, while (abstract) data transformations handle the remaining complex logic, ensuring rapid implementation and standardization in the gold layer.
The architecture centralizes common services across three planes:
- the Utility Plane (access to infrastructural resources),
- the Data Product Experience Plane (manages data product lifecycle),
- and the Mesh Experience Plane (marketplace for data products).
By providing both hybrid and decentralized approaches, you can empower organizations to optimize their data architecture, offering a scalable and efficient solution to meet evolving business needs. This strategic vision is endorsed by industry leaders and supported by Gartner's recent findings.
Dirk Vermeiren (VaultSpeed CTO) and/or Jonas De Keuster (VP Product Marketing), vaultspeed
15:30 - 16:30
Datenlandkarte x Data Vault - Dissonanz oder Harmonie?
Was versteht man unter einer Datenlandkarte? Wieso brauche ich eine fachliche Sicht auf Daten? Was hat das mit Data Vault zu tun? SInd das widersprüchliche Themen oder greift das ineinander? Und wenn ja - wie? Die Beantwortung all dieser Fragen erwarten uns in diesem Vortrag.
Barbara Kainz dataspot
16:30 - 17:00
„Data Catalog++ trifft Data Vault Automation
Der Vortrag präsentiert die Kombination von dataspot (Data Catalog++) und Vaultspeed Data Vault Automation zur Optimierung des Datenmanagements. Metadaten zu Geschäftsprozessen, Datenmodellen und Transformationsregeln im dataspot. Metadaten-Hub steuern über eine fachliche Metadatenbrücke die Vaultspeed Automation.
Dieser Ansatz reduziert Missverständnisse zwischen Fachanwendern und Entwicklern, indem Fachdatenmodelle direkt in Vaultspeed umgesetzt werden, was das Vertrauen in die gelieferten Daten stärkt.
Klare Kennzahlen und transparente Fachdatenmodelle verbessern zudem die Datenqualität und erleichtern die Identifikation von Inkonsistenzen, was den Entwicklungszyklus beschleunigt und die datengetriebene Entscheidungsfindung unterstützt.“