Ort: | Frankfurt |
Datum: | Donnerstag, 29. September 2022 – Freitag, 30. September 2022 (optional) |
Zeit: | Donnerstag – 845 bis 1700 Uhr Freitag – 900 bis 1630 |
Agenda:
Donnerstag, 29. September:
Uhrzeit | Titel |
---|---|
09:00 - 09:15 | Begrüßung Vorstand der DDVUG |
09:15 - 10:15 | Schema on Read in der historical Stage Eine Implementierung der Persistent Staging Area (PSA) oder Historic Stage, die Schema-On-Read mittels SQL Abfragen im RDBMS realisiert. Die Ingestion (Extract & Load) läuft über Airbyte, ein inkrementelles Modell in DBT (Data Build Tool) sorgt für die Historisierung der Schnittstellendaten im DWH / der PSA und DBT-Modelle (SQL Abfragen) greifen auf die generische Struktur der PSA zu, um die Quelldaten zu lesen. Durch dieses Vorgehen sind die Schnittstellen im DWH - unabhängig von der Methode der Ingestion (Batch oder Streaming, Delta oder Full) mittels SQL immer gleich abrufbar - historisiert verfügbar im jeweils definierten Intervall - Schemaänderungen der Quellsysteme werden im Schema-On-Read fehlertolerant ignoriert und über Alerter überwacht - alle Metadaten werden strukturiert über YAML zusammen mit den DBT Metadaten erfasst Die modernen, leistungsfähigen Implementierungen der RDBMS (Postgres, Exasol, SQLServer oder Snowflake) , sind durch - die Verwendung von kostengünstigen, S3-ähnlichen Speichersystemen - flexible Skalierung der Zugriffe auf die Daten (compute) - nativ unterstützten JSON Datentypen in der Lage die PSA zur Delta-Lake Alternative zu machen - nur ohne zusätzliche Infrastruktur und Middleware (Beam, Delta-Lake, Flink, Spark, usw.) - das RDBMS reicht aus. Torsten Glunde, Alligator Company |
10:30 - 12:00 | From business definition to DWH implementation – Die metadatengetriebene Erweiterung der DWH-Automatisierung mit dem dataspot.-Approach Nach 30 Jahren DWH-Erfahrung ist es für Early Adopter klar, dass dies der einzig funktionierende Weg für eine nachhaltig implementierte Datenplattform ist: dataspot. Organisiert die Fachlichkeit, liefert den Input für die Umsetzung und damit den Input für jedes Automatisierungswerkzeug. Die fachlichen und technischen Metadaten werden sauber in einem zentralen Metadatenmanagement zur Verfügung gestellt. Und mit einer starken Governance werden die Datenmodelle so betreut, dass nicht nur die Übergabe und Generierung fehlerfrei läuft, sondern das DWH auch aktuell gehalten werden kann und „lebt“. Barbara Kainz, dataspot |
12:00 - 13:15 | Gemeinsames Mittagessen |
13:15 - 14:15 | O tempora, o mores – Zeitlinien im Data Warehouse Die ursprüngliche Data-Warehouse-Definition von Bill Inmon verlangt, dass ein Data Warehouse zugleich time-variant (sich über die Zeit verändernd) und non-volatile (nicht-flüchtig, permanent) ist. Aber was heißt das in der Praxis? Time-variant bedeutet, dass sich die Daten über die Zeit verändern. Aber auf welcher Zeitlinie? In vielen Data-Warehouse-Projekten wird nie eine explizite Entscheidung über die für die Historisierung verwendete(n) Zeitlinie(n) getroffen. Das kann später zu Verwirrung und allerlei Problemen führen. Zudem wird der inhärente Konflikt zwischen time-variant (veränderlich) und non-volatile (stabil) oft übersehen. Was ist mit Daten, die aus irgendeinem Grund später als erwartet ankommen? Was ist, wenn nachträglich ein Attributwert oder gar die Zeitlinie selbst korrigiert werden muss? In diesem Vortrag schauen wir uns die verschiedenen Zeitlinien an, die für ein Data Warehouse relevant sein können, und diskutieren welche (und wie viele) dieser Zeitlinien sinnvollerweise verwendet werden sollten. Christian Kaul, Obaysch |
14:30 - 15:15 | 5 Thesen für einen entspannten Start in das Datavault Projekt Nervig ist, wenn zu einem natürlicherweise arbeitsintensiven Projektstart, dann noch unerwartete Themen dem Projektteam den Wind aus den Segeln nehmen. Durch die Berücksichtigung einer Hand voll (und nur einer Hand voll) Thesen, bei der Planung und vor allem der Konzeption und dem Beginn der Implementierung, kann sich das Team aber sicher sein von keiner Unwägbarkeit in Unruhe versetzt zu werden. Der Vortrag ist eine sortierte Abhandlung der aus Erfahrung erkauften Einsichten meiner ersten 10 Jahre Projekterfahrung und dem für mich mittlerweile etablierten Vorgehensmodell beim Aufbau einer Data Vault Architektur. Zielgruppe sind alle im Projektteam beteiligten Personen. Simon Dudanski, Peer M. Carlson, b.telligent |
15:30 - 16:45 | Kalender-Dimension hat jeder - Datums-Arithmetik ist cool! Ohne Zeitbezüge taugt das beste DWH nix. Deshalb zunächst ein kurzer Abriß von der simplen Datumsliste bis hin zur ausführlichen Kalender-Dimension, inklusive der automatischen Ermittlung der "schwimmenden" Feier- oder Brauchtumstage (wie z.B. Ostern oder Buß- und Bet-Tag). Besonders spannend wird es allerdings, wenn Bezüge zum Kalender dann bei der Berechnung von Kennzahlen auftauchen, also z.B. "durchschnittlicher Umsatz meiner Filialen pro Öffnungstag zwischen 1. August und zum 1. Advent unter Berücksichtigung bundeslandspezifischer Feiertage". Da hat man dann richtig Freude, besonders bzgl. der Performanz solcher Berechnungen - und hier kommt die Datums-Arithmetik ins Spiel, seien Sie gespannt! Sebastian Flucke, LinkedIn Profil |
16:45 - 17:00 | Wrap-Up des ersten Tages Vorstand der DDVUG |
17:00 - 18:00 | Mitgliederversammlung der DDVUG |
Freitag, 30. September:
Uhrzeit | Titel |
---|---|
9:00 - 16:00 | Fachliches Datenmodell als Input für Implementierung und Output für Datennutzer: ein End-to-End Use Case mit der dataspot. Software Um den Next Level der Professionalisierung zu erreichen, wählen Unternehmen zunehmend einen fachlichen Ansatz, wenn es um die Implementierung eines DWHs geht: Geschäftsfunktionen und -objekte werden im Fachdatenmodell abgebildet und direkt als Data Vault-Modell realisiert. So kann die Time-to-Market deutlich reduziert, sowie Wartbarkeit und Transparenz markant gesteigert werden. Vor allem: die Datennutzer verstehen die Daten und können deren fachliche und technische Lineage nachvollziehen. • Metadaten als Grundlage der Data Governance • Fachliche Definitionen1 • Harmonisierung mehrerer Entitäten • Datenqualität • Data Lineage & Impact • Mapping fachlicher zu technischen Definitionen • KPI & Data Product Katalog Barbara Kainz, dataspot |
dazwischen | Gemeinsames Mittagessen |
Tagungsort:
MEET/N/WORK 2
FRANKFURT GMBH
Am Hauptbahnhof 16
60329 FRANKFURT
TEL. 069 90 02 16 33-0
Networking
Am Abend nach der Tagung treffen wir uns ab ca. 18:30 Uhr im ISOLETTA Promis PMP, Gartenstraße 17, 60594 Frankfurt am Main.