www.wikidata.de-de.nina.az
Als Semistrukturierte Daten bezeichnet man in der Datenbankforschung Informatik Informationen die keiner allgemeinen Struktur unterliegen sondern einen Teil der Strukturinformation mit sich tragen Wahrend bei der strukturierten Datenhaltung ein Datenbankmodell zugrunde liegen muss das das Aussehen der Datenelemente Objekte enthalt fehlt ein solches bei semistrukturierten Daten Semistrukturierte Daten mussen keinem Typenmodell unterworfen werden somit kann sich eine Datensammlung aus semistrukturierten Daten beliebig erweitern Ein Strukturmodell kann nachfolgend impliziert werden Semistrukturierte Daten konnen mit Hilfe von Grammatik und Lexik in eine Form gebracht werden die folgende Charakteristika aufweist E1 Die Datensammlung besteht aus einer oder mehreren Folgen von Objekten dd E2 Objekte konnen entweder in Attribute zerlegt werden komplexe Objekte oder sie sind atomare Objekte dd E3 Atomare Objekte enthalten Werte eines bekannten elementaren Datentyps dd Semistrukturierte Daten mit den Eigenschaften E1 E2 und E3 werden als wohlgeformte semistrukturierte Daten bezeichnet Das Object Exchange Model OE Modell hat sich de facto als Modell fur semistrukturierte Daten durchgesetzt Daten die diese Eigenschaften aufweisen konnen auch als wohlgeformte XML Dokumente beschrieben werden Inhaltsverzeichnis 1 Ist semistrukturiert nicht auch strukturiert 2 ssd Notation 3 XML 4 Document Type Definitions 5 LiteraturIst semistrukturiert nicht auch strukturiert BearbeitenSemistrukturierte Daten lassen sich bis auf eine im Folgenden beschriebenen Ausnahme nicht in einem strukturierten Datenbank Modell unterbringen Jedoch existieren Verfahren mit denen Datentypen von semistrukturierten Daten erkannt werden konnen Wenn die Datentypen Klassen und damit auch die Relationen bekannt sind hat man ein Entity Relationship Modell Jedoch gilt fur dieses Modell dass es danach nur noch mit Daten in dieser Struktur gefullt werden kann nicht mehr mit weiteren semistrukturierten Daten Bei semistrukturierten Dateien die in einem OE Modell geformt sind kann auch behauptet werden Die formale Beschreibung eines OE Modells ermoglicht es ein ubereinstimmendes strukturiertes Datenmodell zu erstellen das folgendermassen aussehen kann nbsp Relationales Datenmodell zur Abbildung von semistrukturierten ObjektenDieses Datenmodell enthalt nur drei grundlegende Typen die Knoten die die Objekte reprasentieren die Kanten die Attribute bzw Referenzen referenzieren und Blatter die die Eigenschaften der Referenz reprasentieren Somit lassen sich alle semistrukturierten Objekte eines OEM Modells auch in dieses Datenmodell hineinschreiben Im Folgenden soll dieses OEM DB Modell genannt werden Semistrukturierte Daten lassen sich in kein DB Modell hineinschreiben ausser in Modelle die nur einen abstrakten Datentyp fur alle Objekte bereithalten ssd Notation BearbeitenSerge Abiteboul Peter Buneman und Dan Suciu verwenden in ihrer Ausgabe Data on the Web die sog ssd semi structured data Notation1 die allerdings weniger bekannt ist als die Notation XML Jedoch bietet diese Notation fur semistrukturierte Daten eine sehr kurze und ubersichtliche Darstellung Datensatze mit Attribut Werte Tupels werden folgendermassen notiert Hersteller Volkswagen Modell Passat km Stand 35 600 Die Werte der Attribute konnen nun wiederum anhand eines Unterdatensatzes definiert sein Fahrzeug Hersteller Name Volkswagen Ort Wolfsburg Modell Passat km Stand 35 600 Bis jetzt ist es moglich dass ein Element Daten bzw Attribute Werte Paare enthalten kann und diesem weitere Elemente untergeordnet sein konnen Somit ermoglicht die bis jetzt vorgestellte Notation die Darstellung von Daten in Baumen Nach der Beschreibung der semistrukturierten Daten als OEM Modell konnen zumindest die Knoten Elemente alle weiteren Elemente der semistrukturierten Datensammlung referenzieren Dies ist dadurch moglich dass allen Elementen eine eindeutige ID zugewiesen wird Z B Fahrzeug amp o1 Um von einem Element zu einem anderen zu referenzieren wird ein Attribut zusammen mit einer eindeutigen ID angegeben z B Hersteller amp o2 Alle Referenzen die nicht dem Element selbst untergeordnete Elemente referenzieren werden in dieser Arbeit als Quer Referenz bezeichnet Weil es somit moglich ist sich innerhalb des Graphen durch die gerichteten Kanten zyklisch zu bewegen werden solche Datensammlungen als zyklisch bezeichnet 2 Ein zyklischer Graph ist im Folgenden in der ssd Notation dargestellt Fahrzeug amp o1 Modell Passat km Stand 35 600 Erstzulassung 02 2007 Hersteller amp o2 Motor amp o3 Hersteller amp o2 Name Volkswagen Ort Wolfsburg Produkte Gebrauchtwagen amp o1 Motor amp o3 Motor amp o3 Name OttoV2 Kraftstoff Benzin Hubraum 2 0 Liter PS 120 XML BearbeitenSehr weit verbreitet ist hingegen die Notation von semistrukturierten Daten mit XML die vom W3 Konsortium standardisiert worden ist Diese dient als Datenaustausch Format im Internet und wird zusatzlich in vielen Applikationen als Datenablageformat verwendet In XML lassen sich mit folgender Notation Attribute bei sog Elementen notieren deren Name frei festgelegt werden kann lt element attribut 1 wert 1 attribut 2 wert 2 attribut n wert n gt Der ssd Datensatz Fahrzeug Modell Passat sieht in XML wie folgt aus lt Fahrzeug Modell Passat gt Ein Element kann weitere Inhalte und oder weitere Unterelemente enthalten lt element attribut 1 wert 1 attribut 2 wert 2 attribut n wert n gt inhalt1 lt unterelement 1 gt lt unterelement 2 gt lt element gt Somit existieren innerhalb von XML zwei Moglichkeiten Eigenschaften von Objekten zu spezifizieren durch XML Attribute durch UnterelementeDer ssd Datensatz s o kann auch mit einem weiteren Unterelement beschrieben werden lt Fahrzeug gt lt Modell gt Passat lt Modell gt lt Fahrzeug gt Document Type Definitions Bearbeiten Hauptartikel Dokumenttypdefinition Fur die XML Dokumente existiert eine weitere Notation welche die Bezeichnung DTD Document Type Definition tragt Diese Notation beschreibt die Struktur eines XML Dokuments XML Dateien mit DTD sind strukturierter als XML Dateien ohne DTD XML Dateien ohne DTD haben keine Typisierung Innerhalb eines XML Dokumentes konnen Elemente bzw Tags und deren Attribute beliebig definiert werden ohne Einschrankungen Es ist prinzipiell moglich dass die DTD nur einen Teil der Elemente innerhalb des XML Dokumentes festlegt Mit Hilfe einer DTD kann definiert werden welche Elemente es geben darf und welche Attribute diese Elemente haben durfen oder mussen ebenso kann die Menge der moglichen Werte eingeschrankt werden Zusatzlich kann die Menge moglicher untergeordneter Elemente mit DTDs definiert werden Die in der DTD beschriebenen Typen konnen impliziert werden Obwohl das XML Dokument einer Objektbeschreibung unterliegt kann nicht von strukturierten Daten gesprochen werden Trotz der Moglichkeit der weiteren Strukturierung mit DTDs befinden wir uns immer noch auf der semistrukturierten Ebene der Datenhaltung Dies ist damit begrundet dass strukturierte Daten aus technischer Sicht einem sogenannten Data Dictionary unterliegen der die Struktur der Daten beschreibt Zur Struktur der Entities gehoren u a die Beziehungen Attribute und Werte mit ihren Datentypen Ein Zugriff auf die abgelegten Daten ohne Data Dictionary ist nicht moglich Anders ist es bei semistrukturierten Daten die grundsatzlich wie eine Textdatei aufgebaut sind Auch sind die Werte der Attribute nicht mit Datenstrukturvorgaben wie String Integer Float Date Number etc definiert sondern werden grundsatzlich als Zeichenketten Strings dargestellt Somit kann eine XML Datei die mit einer DTD validiert wurde unabhangig von der DTD bearbeitet und verandert werden Verschiedene XML Dateien die wiederum mit ein und derselben DTD validiert werden konnen gehoren somit einer gleichen Aquivalenzklasse an Da die Struktur der DTD von den verarbeitenden Algorithmen abgeleitet wird konnen semistrukturierte Daten in XML mit DTD nur von einem Programm in einer Version erzeugt und auch mit einem Programm und einer Version weiterverarbeitet werden es sei denn bei der Weiterverarbeitung werden semantisch orientierte Abfragen oder Verarbeitungsmethoden eingesetzt Moglicherweise konnen DTDs auch durch Typenerkennungsverfahren wie Simulation Abiteboul erzeugt werden da mit diesem Verfahren Typen von Objekten Klassen erkannt werden Programmanderungen wie hier im Analysesystem fuhren auch zur Anpassung der DTD Zusatzlich bietet die semistrukturierte Konzeption die Moglichkeit dass Elemente die in diesem Fall Worter und Satzphrasen beschreiben beliebig aufeinanderfolgen konnen Die DTD Notation bietet Parameter Entities an die eine beliebige Reihenfolge und Anzahl von Unterelementen eines ubergeordneten Elementes ermoglichen Dies ist bei der strukturierten ER Modellierung nicht auf direktem Wege moglich Literatur BearbeitenSerge Abiteboul Peter Buneman Dan Suciu Data on the Web From Relations to Semistructured Data and XML Morgan Kaufmann Publishers San Francisco California 2000 ISBN 1 55860 622 X Francois Bry Michael Kraus Dan Olteanu Sebastian Schaffert Aktuelles Schlagwort Semi strukturierte Daten 2001 PDF abgerufen am 26 April 2011 Abgerufen von https de wikipedia org w index php title Semistrukturierte Daten amp oldid 221347307