www.wikidata.de-de.nina.az
Data Lineage bzw Datenherkunft auch Data Provenance oder Data Pedigree deutsch auch Datenabstammung und stammbaum bezeichnet in einem Data Warehouse System Datenlager die Fragestellung zu gegebenen aggregierten Datensatzen die ursprunglichen Datensatze zu bestimmen aus denen sie entstanden sind Zusammen mit Informationen uber die weitere Verarbeitung der Daten bildet die Aufstellung uber die Datenherkunft eine wichtige Grundlage fur verantwortungsvolle KI Systeme 1 Ublicherweise werden in einem Data Warehouse System Daten aus verschiedenen Quellen extrahiert nach bestimmten Regeln transformiert und zur Analyse bereitgestellt siehe ETL Prozess Beim Data Lineage muss der umgekehrte Weg beschrieben werden siehe auch E Pedigree um von Analyseergebnissen zu den Quellen zu gelangen Dazu werden die Transformationen mathematisch modelliert um fur gegebene Ausgabewerte einer Transformation die dazugehorenden Eingabewerte zu bestimmen siehe auch EVA Prinzip Inhaltsverzeichnis 1 Transformationen 1 1 Blackbox 1 2 Dispatcher 1 3 Aggregator 2 Berechnung der Data Lineage 3 Literatur 4 EinzelnachweiseTransformationen BearbeitenAlle Verarbeitungsschritte werden als Transformation T displaystyle T nbsp modelliert die aus einer Eingabe E displaystyle E nbsp eine Ausgabe A displaystyle A nbsp erzeugen T E A displaystyle T E A nbsp Die Lineage T displaystyle T nbsp eines Datensatzes a displaystyle a nbsp der Ausgabe ist definiert als die Teilmenge E displaystyle E nbsp der Eingabe die an der Konstruktion von a displaystyle a nbsp beteiligt war E T a E displaystyle E T a E nbsp Die Lineage einer Menge von Datensatzen setzt sich aus der Lineage ihrer Elemente zusammen Alle Transformationen lassen sich in drei Klassen einteilen Dabei wird davon ausgegangen dass die Transformationen stabil und deterministisch sind das heisst es werden keine neuen Ausgabeobjekte erfunden und die Ausgabe ist bei gleicher Eingabe konstant nbsp BlackboxBlackbox Bearbeiten Eine Blackbox ist eine Transformation uber die sich keine speziellen Eigenschaften angeben lassen Jedes Element der Ausgabe kann von jedem Element der Eingabe abhangen Ein Beispiel fur eine Blackbox ist eine Funktion die fur jede Zahl einer Menge die Abweichung vom Mittelwert angibt Die Data Lineage ist somit die gesamte Eingabe T a E E displaystyle T a E E nbsp nbsp DispatcherDispatcher Bearbeiten Ein Dispatcher ist eine Transformation die Elemente der Eingabe unabhangig voneinander behandelt Jedes Eingabeelement kann beliebig viele Ausgabeelemente erzeugen auch Null Die Lineage eines Elements der Ausgabe eines Dispatchers setzt sich aus allen Elementen e displaystyle e nbsp der Eingabe zusammen fur die gilt dass e displaystyle e nbsp an der Transformation zu a displaystyle a nbsp beteiligt war T a E e E a T e displaystyle T a E e in E a in T e nbsp Ein Spezialfall eines Dispatchers ist ein Filter In einem Filter erzeugt jedes Eingabeelement entweder sich selbst oder gar keine Ausgabe Die Lineage eines Filters entspricht genau der Ausgabe T a E a displaystyle T a E a nbsp nbsp AggregatorAggregator Bearbeiten Ein Aggregator ist eine Transformation bei der jedes Eingabeelement an mindestens einem Ausgabeelement beteiligt ist und sich die Eingabe so in disjunkte Partitionen teilen lasst dass jede Partition genau fur ein Ausgabeelement verantwortlich ist Jedes Element der Ausgabe lasst sich so eindeutig einer Gruppe von Eingabeelementen zuordnen Die Lineage eines bestimmten Ausgabeelements a k displaystyle a k nbsp entspricht seiner Eingabepartition T a k E E k displaystyle T a k E E k nbsp Ein spezielles Beispiel von Aggregatoren sind schlusselerhaltende Aggregatoren bei denen nur Eingabeelemente mit einem ubereinstimmenden Schlusselattribut das gleiche Ausgabeelement erzeugen in dem der gleiche Schlussel vorkommt Eine weitere Klasse von Aggregatoren sind kontextfreie Aggregatoren bei denen die Zuordnung eines Eingabeelements zu einer bestimmten Partition unabhangig von den Werten anderer Eingabeelemente erfolgt Eine Transformation die alle Eingabeobjekte auf sich selber abbildet Identitat oder jedes Eingabeelement einer einfachen Berechnung unterwirft z B Formatumwandlung ist gleichzeitig Dispatcher und Aggregator und wird auch als Filter bezeichnet Berechnung der Data Lineage BearbeitenDie Data Lineage einer gegebenen Ausgabe lasst sich bei bekannter Eigenschaft der Transformation mit einer Tracing Prozedur bestimmen Fur Dispatcher wird jedes Element der Eingabe gepruft ob es die Ausgabe erzeugt und in diesem Fall zur Data Lineage hinzugefugt Fur kontextfreie Aggregatoren werden zunachst die Partitionen gebildet und dann diejenige gewahlt die zur Ausgabe fuhrt Die Partitionen werden ermittelt indem die Eingabeelemente sukzessive zu bereits vorhandenen Partitionen hinzugefugt werden falls dabei die Grosse der Ausgabe gleich einem Element bleibt Fur schlusselerhaltende Aggregatoren werden die Schlussel der Eingabeelemente uberpruft Fur Filter entspricht die Data Lineage der AusgabeFur allgemeine Aggregatoren oder Black Boxes ist der Aufwand fur ein Tracing zu gross da Potenzmengen der Eingabeelemente gebildet werden mussten Deshalb muss zur effektiven Ermittlung der Data Lineage einer Transformation entweder eine explizite Tracingprozedur bekannt sein oder eine Inverse Funktion benutzt werden Die Inverse Funktion einer Transformation ist nur bei Aggregatoren als Tracingprozedur nutzbar da sie nicht unbedingt eindeutig ist Um fur eine ganze Kette von Transformationen die Data Lineage zu bestimmen ohne alle Zwischenergebnisse speichern zu mussen werden die Transformationen normalisiert indem man einige von ihnen zusammenfasst ohne dass die speziellen Eigenschaften Aggregator Dispatcher Filter verloren gehen so dass ein effektives Tracing moglich ist Die Bestimmung der optimalen Sequenz fur das Tracing einer hintereinander geschalteten Reihe von Transformationen hangt auch von dem jeweiligen Kostenmodell ab Literatur BearbeitenYingwei Cui Jennifer Widom Lineage Tracing for General Data Warehouse Transformations In Proceedings of the 27th International Conference on Very Large Data Bases VLDB 01 2001 Einzelnachweise Bearbeiten Karl Werder Balasubramaniam Ramesh Rongen Sophia Zhang Establishing Data Provenance for Responsible Artificial Intelligence Systems In ACM Transactions on Management Information Systems Band 13 Nr 2 30 Juni 2022 ISSN 2158 656X S 1 23 doi 10 1145 3503488 acm org abgerufen am 29 Juni 2023 Abgerufen von https de wikipedia org w index php title Data Lineage amp oldid 235041691