www.wikidata.de-de.nina.az
Extract Transform Load ETL ist ein Prozess bei dem Daten aus mehreren gegebenenfalls unterschiedlich strukturierten Datenquellen in einer Zieldatenbank vereinigt werden ETL Datenfluss und unterstutzende ProgrammeExtraktion der relevanten Daten aus verschiedenen Quellen Transformation der Daten in das Schema und Format der Zieldatenbank Laden der Daten in die ZieldatenbankBekannt ist der Prozess vor allem durch die Verwendung beim Betrieb eines Data Warehouses Hier mussen grosse Datenmengen aus mehreren operationalen Datenbanken konsolidiert werden um dann im Data Warehouse gespeichert zu werden Inhaltsverzeichnis 1 Funktionsweise 1 1 Extraktion 1 2 Transformation 1 3 Laden 1 4 Weiterentwicklung 2 Tools Hersteller 3 Literatur 4 EinzelnachweiseFunktionsweise BearbeitenDas Verfahren lasst sich als allgemeiner Prozess der Informationsintegration auch auf andere Datenbanken ubertragen Dabei gilt es heterogen strukturierte Daten aus unterschiedlichen Quellen zusammenzufuhren Der Prozess muss sowohl effizient ablaufen um Sperrzeiten bei den Quellen zu minimieren als auch die Qualitat der Daten sichern damit sie trotz moglicher Anderungen der Quellen vollstandig und konsistent im Data Warehouse gehalten werden konnen Neuere Einsatzgebiete von Data Warehouses erfordern das beschleunigte Hinzufugen von Daten Der Fokus von ETL richtet sich daher zunehmend auf die Minimierung der Latenzzeit bis die Daten aus den Quellsystemen zur Verfugung stehen Hierzu ist eine haufigere Durchfuhrung des Prozesses notwendig Im Allgemeinen wird bei allen Schritten ein Repositorium eingebunden das insbesondere die notwendigen Datenbereinigungs und Transformationsregeln sowie die Schemadaten als Metadaten aufnimmt und langfristig halt Die meisten ETL Programmsysteme haben Routinen zum Data Profiling Bei Migrationen aus Altsystemen ist oft die Datenqualitat der Quellsysteme nicht absehbar Diese wird im Data Profiling gemessen Die Mappingregeln in der Transformation mussen darauf abgestimmt sein um ein Funktionieren des Zielsystems nach dem Load zu gewahrleisten Extraktion Bearbeiten Bei der Extraktion wird in der Regel ein Ausschnitt der Daten aus den Quellen extrahiert und fur die Transformation bereitgestellt Die Quellen konnen aus verschiedenen Informationssystemen mit verschiedenen Datenformaten und strukturen bestehen Hierbei findet eine Schematransformation vom Schema der Quelldaten in das Schema des Arbeitsbereichs statt Um das Data Warehouse mit aktuellen Daten zu versorgen muss die Extraktion regelmassig stattfinden Dies kann synchron mit den Quellen oder asynchron geschehen Bei synchroner Extraktion wird jede Anderung am Quellsystem sofort an das Data Warehouse propagiert Dieser Ansatz ermoglicht das Konzept des Real Time Data Warehousing welches den Bedarf nach sofort verfugbaren Daten unter Wahrung der Trennung von operativen und auswertenden Systemen deckt Die asynchrone Extraktion kann periodisch ereignisgesteuert oder anfragegesteuert erfolgen periodisch Die Quelle erzeugt in regelmassigen Abstanden Auszuge ihrer Daten die regelmassig abgefragt werden ereignisgesteuert Die Quelle erzeugt bei bestimmten Ereignissen beispielsweise nach einer bestimmten Anzahl von Anderungen einen Auszug anfragegesteuert Die Quelle stellt Auszuge erst auf Anfrage bereit Hierbei ist zu beachten dass der Zugriff auf die Quellsysteme nur wahrend deren Ruhezeit stattfinden sollte also nach der Nachverarbeitung Bei den Auszugen aus den Quellen kann es sich um ganze oder teilweise Snapshots handeln oder um Teile von Logdateien in denen alle Anderungen zum jeweils letzten Snapshot aufgelistet sind Transformation Bearbeiten Die aus den unterschiedlich strukturierten Quellen stammenden Daten denen unterschiedliche Wertebereiche zugrunde liegen konnen mussen in ein einheitliches Datenschema transformiert werden Die Transformation besteht im Wesentlichen aus der Anpassung der Daten an die vorgegebenen Zielstrukturen Schema Mapping des Arbeitsspeichers Unter Transformation fallt hierbei auch die meist aufwandige Datenbereinigung Die Transformation findet in einem eigenen Arbeitsbereich Staging Area statt Typische Transformationen und Transformationsschritte kann man in zwei Bereiche einteilen Syntaktische Transformationen Hier geht es um die Verbesserung Umsetzung oder Korrektur der Daten basierend auf formalen Aspekten Die Daten werden gemass der im Zielsystem notwendigen und angewandten Syntax modifiziert Ein Beispiel dafur ist die Anpassung von Datentypen z B numerische Darstellung des Tagesdatums YYYYMMDD hin zu einem standardisierten Datumsformat wie ISO 8601 Semantische Transformationen Hierbei werden die Daten auf inhaltliche Aspekte uberpruft und wenn notig modifiziert und angereichert Hierunter fallen z B Eliminierung von Duplikaten Objektidentifizierung Schlusselanpassung z B unterschiedliche Landercodierungen hin zu DIN ISO Landercodes Anpassung von Datenwerten z B unterschiedliche Codierung des Geschlechts wie 1 weiblich 2 mannlich hin zu f female und m male Umrechnung von Masseinheiten z B unterschiedliche Volumina wie Gallone und Hektoliter hin zu Liter Aggregation z B Einzelumsatze eines Vertriebsprodukts hin zu monatlichen Umsatzen je Vertriebsprodukt Anreicherung der gelesenen Daten aus den Quellsystemen mit Zusatzinformation Beispiele fur Zusatzinformationen sind extern beschaffte demographische Daten eindeutige Firmenkennzeichner wie D amp B Nummer die sogenannte D U N S Nummer und alle anderen Daten deren Kombination mit den Daten der eigenen Systeme zu einer informativen Aufwertung der verarbeiteten Daten fuhren konnen Laden Bearbeiten Beim Laden mussen die Daten aus dem Arbeitsbereich in das Data Warehouse eingebracht werden Dies soll in der Regel moglichst effizient geschehen so dass die Datenbank wahrend des Ladens nicht oder nur kurz blockiert wird und ihre Integritat gewahrt wird Zusatzlich kann eine Versionshistorie angefertigt werden in der Anderungen protokolliert werden so dass auf Daten zuruckgegriffen werden kann die zu fruheren Zeitpunkten gultig waren Siehe Slowly Changing Dimensions Im Hinblick auf die Integration der Daten im Data Warehouse ist eine weitere Schematransformation vom Schema des Arbeitsbereichs in das Schema des Data Warehouses notwendig Weiterentwicklung Bearbeiten Beim ELT Prozess Extract Load Transform werden die Originaldaten im Zielsystem noch beibehalten Moglichkeit der nachtraglichen Korrektur bzw Verbesserung und dort weiterverarbeitet Effizienz mit weniger Ubertragen und Zwischentools bei der Transformation einheitlicheres Vorgehen Tools Hersteller BearbeitenAuch wenn man ETL Prozesse mit eigenen Programmen umsetzen kann sprechen folgende Grunde fur den Einsatz von Standardwerkzeugen Jedes Standardwerkzeug unterstutzt den Zugriff auf die gangigen Datenbanksysteme sowie ERP und Dateisysteme Die Entwicklung wird durch geeignete Transformationen Methoden und Verfahren wie Visualisierung des Datenflusses Fehlerbehandlung Scheduling unterstutzt Meist sind auch fur High Performance Loading die entsprechenden Voraussetzungen bereits im Standardwerkzeug implementiert Eine genaue Kenntnis der Mechanismen der Zielsysteme entfallt dadurch meistens Entwicklung und Wartung der ETL Prozesse sind in der Regel durch visualisierende Standardwerkzeuge einfacher und kostengunstiger durchzufuhren als bei Systemen auf Basis entwickelter Programme unter Verwendung von Programmiersprachen Fuhrende Hersteller von Programmen zur Datenintegration SAS Institute IBM Produkt Information Server Informatica PowerCenter SAP Business Objects BusinessObjects Data Integrator SAP Data Services Altova MapForce Oracle Oracle Warehouse Builder Oracle Data Integrator und Microsoft SQL Server Integration Services Ein weiterer Anbieter ist Comit mit der Data Management Suite DMS Die bekanntesten Tools im Open Source Umfeld sind Kettle Pentaho Data Integration Scriptella ETL CloverETL Talend Open Studio Apache Hop 1 und Apache NiFi Sowohl das Perl Framework Catmandu 2 als auch das Java Framework Metafacture 3 stammen aus dem Bibliotheksumfeld Literatur BearbeitenAndreas Bauer Holger Gunzel Data Warehouse Systeme Architektur Entwicklung Anwendung dpunkt Heidelberg 2013 ISBN 978 3 89864 785 4 online Memento vom 30 Dezember 2013 im Internet Archive Wolfgang Lehner Datenbanktechnologie fur Data Warehouse Systeme Konzepte und Methoden dpunkt Heidelberg 2003 ISBN 3 89864 177 5 Einzelnachweise Bearbeiten Apache Hop 12 Juni 2023 abgerufen am 23 August 2023 englisch LibreCat ein offenes Konsortium aus anfanglich 3 Universitatsbibliotheken die an Catmandu arbeiten Metafacture Abgerufen von https de wikipedia org w index php title ETL Prozess amp oldid 236665315