www.wikidata.de-de.nina.az
Unter Informationsintegration versteht man das Zusammenfuhren von Informationen aus verschiedenen Datenbestanden Datenquellen mit in der Regel unterschiedlichen Datenstrukturen in eine gemeinsame einheitliche Datenstruktur Dabei sollen vor allem heterogene Quellen moglichst vollstandig und effizient zu einer strukturierten Einheit zusammengefuhrt werden die sich effektiver nutzen lasst als dies bei direktem Zugriff auf die einzelnen Quellen moglich ware Informationsintegration ist vor allem dort notwendig wo mehrere gewachsene Systeme miteinander verbunden werden sollen also beispielsweise bei der Zusammenfuhrung von Unternehmen Arbeitsablaufen und Anwendungen oder bei der Informationssuche im Internet Die Integration komplexerer Systeme ist erst in den 1990er Jahren in den Blickpunkt der informatischen Forschung geruckt und somit in der Entwicklung begriffen Inhaltsverzeichnis 1 Geschichte 2 Methoden 3 Moglichkeiten und Ziele 4 Materialisierte vs Virtuelle Integration 5 Integrationsarchitekturen 6 Verwandte Themengebiete 7 Siehe auch 8 Literatur 9 EinzelnachweiseGeschichte BearbeitenDie rasche Entwicklung in der Technologie von Datenbanken seit den 1960er Jahren fuhrte zum Bedarf vorhandene Daten zu teilen und zu kombinieren Diese Kombination kann auf einer Vielzahl von Ebenen in der Datenbankstruktur stattfinden Eine populare Losung beruht auf dem Prinzip des Data Warehouse welches die Daten aus heterogenen Quellen extrahiert transformiert und in ein vereinheitlichtes System ladt Seit 2009 geht der Trend der Informationsintegration in Richtung von standardisierten Abfrageinterfaces um die Daten in Echtzeit abzufragen Dies erlaubt die Daten direkt aus den heterogenen Quellen abzufragen was einen Vorteil in der Aktualitat der Daten liefert aber erhohte Zugriffszeiten abverlangt Seit 2010 beschaftigen sich einige Forschungsarbeiten auf diesem Gebiet mit dem Problem der semantischen Integration Diese beschaftigt sich weniger mit der Struktur der Architektur verschiedener Datenbanken als mit der Losung semantischer Konflikte zwischen heterogenen Datenquellen Wenn zum Beispiel zwei Unternehmen ihre Datenbanken vereinen mochten haben bestimmte Konzepte und Definitionen beispielsweise Einnahmen unter Umstanden verschiedene Bedeutungen Losungsansatze in dieser Richtung beinhalten die Verwendung von Ontologie und Benchmarking 1 Die seit 2011 bestehenden Modelle zur Datenverarbeitung fuhren zu Datenisolation in Form von Dateninseln von versprengten Daten Diese Inseln sind ein ungewolltes Artefakt bedingt durch die Methodik der Datenmodellierung welche zu ungleichen Datensatzen fuhrt 2 Um diesem Problem entgegenzuwirken wurden Methoden entwickelt um Datenisolierungsartefakte zu vermeiden und in die Datenstruktur zu integrieren 3 4 Methoden BearbeitenDie Integration heterogener Informationen aus unterschiedlichen Quellen betrifft sowohl die Integration konkreter Daten als auch der Strukturen Schemata in denen sie vorliegen Zunachst mussen in der Regel die lokalen Schemata integriert werden Schemaintegration wozu auch teil automatische Verfahren herangezogen werden konnen Schema Matching Zur anschliessenden Integration der Daten sind Verfahren der Datenfusion und Duplikaterkennung notwendig Beispiele fur verfugbare Technologien um Informationen zu integrieren beinhalten Ahnlichkeitsanalysen welche die Erfassung von ahnlichem Text in verschiedenen Quellen uber Fuzzy String Suche erlauben 5 Moglichkeiten und Ziele BearbeitenDie Informationsintegration wird in einer Reihe von unterschiedlichen Situationen signifikant sowohl im kommerziellen als auch im wissenschaftlichen Bereich 6 Beispiele fur die praktische Anwendung von Informationsintegration finden sich in der Integration von Produktinformationen aus Herstellerangaben und der Abruf dieser Informationen durch Produktsuchmaschinen oder in der Auswertung von verschiedenen geologischen Datensatzen zur Feststellung grenzuberschreitenden Oberflachenbeschaffenheit 7 Bei Redundanz zwischen den Daten verschiedener Quellen extensionale Redundanz lassen sich Zusammengehorigkeiten teilweise automatisch bestimmen und fur die Komplettierung von Datensatzen Datenfusion nutzen So konnen beispielsweise die Eintrage einer Telefonliste und eines Mitarbeiterverzeichnisses bei Ubereinstimmung von Personennamen kombiniert werden Da somit mehr Informationen uber einzelne Objekte zur Verfugung stehen spricht man auch von Verdichtung Ziel der Integration ist eine konsistente globale Sicht auf alle Datenquellen zu ermoglichen Redundante Datenquellen lassen sich dabei zur Verifikation nutzen Die Zusammenfuhrung von intensional redundanten Quellen fuhrt zu einer hoheren Abdeckung Coverage und die Komplettierung von Datensatzen bei extensionaler Redundanz von Quellen zu einer hoheren Dichte Density Materialisierte vs Virtuelle Integration BearbeitenGrundsatzlich lassen sich zwei Arten der Integration unterscheiden Materialisierte oder physische Integration Daten aus unterschiedlichen Datenquellen mit in der Regel verschiedenen Datenstrukturen werden in die Zielstruktur transformiert und in eine zentrale Datenbasis kopiert wo sie dann fur Auswertungen zur Verfugung stehen Dieses Prinzip findet sich beispielsweise in Data Warehouses oder auch im Projekt zum Datenaustausch der Open Archives Initiative Virtuelle oder logische Integration Die Daten verbleiben in den unterschiedlichen Quellen und die Integration findet erst bei einer Anfrage statt Foderiertes Informationssystem Im Vergleich ergeben sich folgende Vor und Nachteile Aktualitat Bei materialisierter Integration ergibt sich die Aktualitat der Daten aus dem zeitlichen Abstand der Datenaktualisierungen aus den Quellen ein virtuell integriertes System ist dagegen stets auf dem aktuellen Stand da die Daten zum Anfragezeitpunkt integriert werden Antwortzeit Da in einem materialisierten System alle Daten zentral gehalten werden konnen sie auf schnelle Antwortzeiten optimiert abgelegt werden Bei virtueller Integration hangt die Antwortzeit stark von der Verfugbarkeit des Datenverwaltungssystems und der Zugriffsgeschwindigkeit auf die Quelldaten der Ubertragungswege sowie den zusatzlich stattfindenden Aufgaben wie Datentransformation Mapping und Datenbereinigung ab Flexibilitat Als grosse Datenspeicher sind materialisierte Systeme zumeist schwieriger zu warten als virtuell integrierte Systeme bei denen die Wartung der Daten Aufgabe der Quellen ist Ausserdem kann das Hinzufugen einer Quelle die gesamte Integration beeinflussen Global as View wahrend bei virtueller Integration das Hinzufugen Entfernen oder Andern einer Quelle nur auf ihr Mapping auf ein globales Schema Auswirkungen hat Local as View Autonomie der Datenquellen Bei materialisierter als auch virtueller Datenintegration wird nicht direkt Einfluss auf die Datenquellen genommen bspw bleibt deren Struktur unverandert Durch den erforderlichen Zugriff konnen sich jedoch an sie gestellte Anforderungen wie Erreichbarkeit und Performanz andern virtuelle Datenintegration scheint hierbei einen starkeren Einfluss zu haben da bei physischer Integration der Zugriff bspw gezielt zu Zeiten mit im Allgemeinen schwacherer Auslastung erfolgen konnte Hardware Bedarf Materialisierte Integration erfordert in der Regel die Beschaffung dedizierter Hardware Datenqualitat Bei materialisierter Integration steht im Allgemeinen mehr Zeit zur Transformation der Daten zur Verfugung dadurch sind im Vergleich zur virtuellen Datenintegration aufwendigere Analysen moglich die erreichbare Datenqualitat ist deshalb hoher Integrationsarchitekturen BearbeitenMaterialisierte IntegrationsarchitekturenBei materialisierten Systemen werden Daten aus den Quellen importiert bereinigt und zentral abgelegt Die in den Quellsystemen vorhandenen Daten werden dabei in der Regel nicht verandert Data Warehouses DWH Sind die wichtigsten Vertreter materialisierter Datenbanksysteme Die fur den Informationsbedarf eines Unternehmens erforderlichen Daten werden direkt in einem zentralen Data Warehouse persistent gespeichert um eine globale einheitliche Sicht auf die relevanten Daten zu ermoglichen Um die Quelldaten in die DWH Basisdatenbank zu integrieren muss zu diesem Zweck eine Integrationsschicht implementiert werden ETL Prozess Operational Data Stores ODS Wahrend Data Warehouse Systeme primar den Erfordernissen eines Unternehmensmanagement angepasst ist und somit die zur Verfugung stehenden Informationen den strategischen Entscheidungsprozessen dienen stehen bei Operationalen Data Stores die integrierten Daten operativen Geschaftsprozessen zur Verfugung Dies impliziert bereits dass die in einem zentralen Data Warehouse gespeicherten Daten operativ eingesetzt werden sollen d h nach der abgeschlossenen Integration Import Bereinigung Speicherung unterliegen diese Daten Veranderungen Daher stehen im Mittelpunkt der Betrachtung bei ODS Systemen auch nicht historische sondern primar aktuelle Daten Insofern ergibt sich ein weiteres wesentliches Unterscheidungsmerkmal zu DWH da die Synchronisation zu den Quelldaten entweder bei Anfragen oder zumindest in haufigen regelmassigen Abstanden zu erfolgen hat ODS werden von Unternehmen zumeist in jenen Geschaftsbereichen eingesetzt in denen die Aktualitat der Daten eine wesentliche Rolle spielt wie z B in Kunden und Lieferanten Kommunikationsbereichen und in Lagerverwaltungsprozessen Mit dem Trend zum Realtime Data Warehouse und zu leistungsstarkeren Datenbankmanagementsystemen durfte der Operational Data Store im Data Warehouse aufgehen Virtuelle IntegrationsarchitekturenIm Gegensatz zu materialisierten Systemen werden Daten in virtuellen Datenbanksystemen nicht im integrierten System selbst gespeichert sondern verbleiben physisch in den Datenquellen und werden nur bei Anfragen in das Integrationssystem geladen virtueller Datenspeicher Foderierte Datenbanksysteme FDBS Im Mittelpunkt eines Foderierten Datenbanksystems steht ein globales konzeptionelles kanonisches Schema Dieses Schema stellt einerseits die Schnittstelle zu den lokalen verteilten Datenbanken und ihren lokalen Schemata dar und bietet andererseits anfragenden Anwendungen mittels geeigneter Dienste eine integrierte globale Sicht auf die foderierten Quelldaten FDBS entstehen zumeist durch die Vereinigung mehrerer Datenbanksysteme Multidatenbanksysteme mit dem Ziel einer zentralen foderierten Koordination gemeinsamer Aufgaben Mediator basiertes Informationssystem amp Wrapper MBS Mediatoren dienen als Vermittler zwischen Datenquellen und Anwendungen Der Mediator nimmt hierbei Anfragen der Anwendung entgegen und beantwortet diese indem er mit den massgeblichen Datenquellen kommuniziert Dies impliziert bereits ein grosses Wissen uber den Aufbau aller foderierten Datenquellen hinsichtlich Schemata und moglichen Inkonsistenzen der verbundenen Entitaten Im Gegensatz zu foderierten Datenbanksystemen bieten mediatorbasierte Informationssysteme jedoch nur einen lesenden Zugriff auf die integrierten Systeme Mediatorbasierte Systeme in Verbindung mit Wrappern stellen bereits eine konkrete Softwareauspragung von Middleware dar Prinzipiell konnen Mediatoren auch als Teil eines materialisierten Informationssystems eingesetzt werden etwa als Vermittler zwischen der Integrationsschicht oder dem zentralen Data Warehouse um die Heterogenitat der angeschlossenen Quellsysteme zu uberwinden Da jedoch das wesentliche Charakteristikum von materialisierten Systemen ein im Mittelpunkt stehendes Data Warehouse in mediatorbasierten Systemen fehlt werden sie den virtuellen Informationsarchitekturen zugeordnet Peer Daten Management Systeme PDMS Als letztes in der Praxis relevantes Integrationssystem sollen Peer Daten Management Systeme angefuhrt werden Der innere Aufbau einer Peer Komponente ist wie folgt definiert Peers konnen ein oder mehrere eigene Data Warehouses verwalten Es stehen Schema Mappings zwischen den eigenen Datenstrukturen und Strukturen anderer Peers zur Verfugung durch die Datenelemente miteinander in Beziehung gebracht werden konnen Zur Kommunikation mit verbundenen Komponenten stellt jeder Peer ein Exportschema oder Funktionen zur Verfugung Peers fungieren als eigenstandige autonome Komponenten die Anfragen sowohl mit eigenen Datenbestanden als auch mit Daten bzw Anfrageergebnissen anderer verbundener Peers zu beantworten versuchen Verwandte Themengebiete BearbeitenDie Informationsintegration weist unter anderem Uberschneidungen und Verwandtschaften mit folgenden Themengebieten auf Data Mining WissensmanagementSiehe auch BearbeitenDatenbankschema SchemaSQL Data Lineage Dataspaces Data Warehouse Foderiertes Datenbanksystem Portal Informatik Verteilte Datenbank ETL Prozess Mashup Internet Master Data Management Semantic Web und Linked Open Data Das Web als verteilte DatenbankLiteratur BearbeitenUlf Leser Felix Naumann Informationsintegration dpunkt 2007 ISBN 978 3 89864 400 6 Stefan Conrad Foderierte Datenbanksysteme Konzepte der Datenintegration Springer 1997 ISBN 3 540 63176 3 M Tamer Ozsu Patrick Valduriez Principles of Distributed Database Systems Prentice Hall 1999 ISBN 0 13 659707 6 Einzelnachweise Bearbeiten Shubhra S Ray u a Combining Multi Source Information through Functional Annotation based Weighting Gene Function Prediction in Yeast In IEEE Transactions on Biomedical Engineering Band 56 Nr 2 2009 S 229 236 doi 10 1109 TBME 2008 2005955 Duane Nickull Modeling Method to Harmonize Disparate Data Models 2003 Michael Mireku Kwakye A Practical Approach To Merging Multidimensional Data Models 2011 Rapid Architectural Consolidation Engine The enterprise solution for disparate data models iri en 2011 Dave L Hall James Llinas Introduction to Multisensor Data Fusion In Proc of IEEE Vol 85 No 1 Jan 1997 S 6 23 Scott Weidman Thomas Arrison Steps Toward Large Scale Data Integration in the Sciences Summary of a Workshop National Research Council 2010 ISBN 978 0 309 15443 7 Bertram Ludascher u a Managing Scientific Data From Data Integration to Scientific Workflows PDF 2 3 MB sds edu en Normdaten Sachbegriff GND 4197730 0 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Informationsintegration amp oldid 225748705