www.wikidata.de-de.nina.az
Aggregation auch Konsolidierung oder Verdichtung bezeichnet im Zusammenhang mit der Verwaltung grosser Datenmengen in einem Data Warehouse das Zusammenfassen einer Reihe von Fakten zu einem einzelnen Fakt Beispielsweise lassen sich aus einer Menge von Zahlen der Mittelwert das Minimum bzw Maximum oder die Summe bestimmen Solche Funktionen die einer Menge von Zahlen einen einzelnen Wert zuordnen nennt man Aggregationsfunktionen oder Zusammenfassungsfunktionen Das Ergebnis wird dann stellvertretend fur die Quelldaten verwendet Der umgekehrte Weg wird als Verfeinerung bezeichnet Aggregation und Verfeinerung sind Operationen des Online Analytical Processing OLAP Sie bilden einen OLAP Wurfel englisch cube auf einen kleineren Aggregation oder grosseren Verfeinerung Wurfel ab Die Operationen finden entlang von Klassifikationspfaden statt und verandern somit die Klassifikationsstufen auch Konsolidierungsebenen der einzelnen Dimensionen Die entsprechenden Operationen in einem DBMS werden auch als Roll up und Roll Drill down bezeichnet Eine einfache Aggregation ist in SQL mittels GROUP BY moglich Einige Multidimensionale Datenbanken verwenden eine memory basierte Analyse Sie ermoglichen durch die hohe Performance des Speichermediums und der begrenzten Datenmenge Aggregationen zum Zeitpunkt der Abfrage Berechnung on the fly Inhaltsverzeichnis 1 Beispiel 2 Aggregatfunktionen 3 Aggregierbarkeit 3 1 Anforderungen an die Dimensionen 3 2 Datentypen der Fakten sind 3 3 Dimensionshierarchie und Aggregationspfade 4 Siehe auch 5 LiteraturBeispiel BearbeitenEin Data Warehouse enthalt als einzelne Fakten Verkaufe nach Datum Branche und Geschaft Die Datumsdimension enthalt einen Klassifikationspfad mit den Klassifikationsstufen Tag Monat Jahr TOP Durch Aggregation entlang dieses Pfades lasst sich bei Verwendung der Summenfunktion beispielsweise die Anzahl der Verkaufe nach Jahr Branche und Geschaft ermitteln Bei Aggregation auf die oberste Klassifikationsstufe TOP fallt die Datumsdimension zusammen der Ergebniscube enthalt die Gesamtanzahl der Verkaufe aller Zeiten nach Branche und Geschaft Die Anwendung von Aggregat Funktionen und ggfs weiterer arithmetischer Operationen zur Ermittlung einer einzigen Zahl nennt man auch die Ermittlung einer Kennzahl oder eines Key Performance Indicators KPI Aggregatfunktionen Bearbeiten Hauptartikel Aggregatfunktion Aggregatfunktionen sind Funktionen die gewisse Eigenschaften zusammenfassen Die bei einer Aggregation verwendeten Funktionen lassen sich unterteilen in Distributive Funktionen Summe SUM Anzahl COUNT Maximum MAX Minimum MIN Formal lasst sich eine distributive Funktion F displaystyle F nbsp wie folgt beschreiben Man teilt den zu aggregierenden Datenbestand in J displaystyle J nbsp Partitionen auf und es sei X i displaystyle X i nbsp das Attribut welches aggregiert werden soll Dann gibt es eine Funktion G displaystyle G nbsp die auf einer Menge derselben Ergebnisse wie F displaystyle F nbsp operiert und F displaystyle F nbsp lasst sich darstellen als F X i G F X i j j 1 J displaystyle F X i G F X i j j 1 dots J nbsp Dabei ist X i displaystyle X i nbsp die Gesamtheit aller Attributwerte im Datenbestand und X i j displaystyle X i j nbsp sind diejenigen Attributwerte die in der Partition j displaystyle j nbsp liegen Man berechnet also erst die Kardinalitat der einzelnen Partitionen und summiert dann die Einzelergebnisse auf Algebraische Funktionen Mittelwert AVG gestutzter Mittelwert truncated AVG Standardabweichung Top N Ganz analog zu vorher werden algebraisch Funktionen definiert jedoch hat man hier grossere Freiheit was die Funktion betrifft die auf den einzelnen Partitionen arbeitet Musste man hier zuvor dieselbe Funktion F displaystyle F nbsp anwenden die auch auf dem gesamten Datenbestand angewendet wird so kann man hier eine andere Funktion H displaystyle H nbsp wahlen Damit besitzt eine algebraische Aggregationsfunktion F displaystyle F nbsp folgende Darstellung F X i G H X i j j 1 J displaystyle F X i G H X i j j 1 dots J nbsp Dabei ist G displaystyle G nbsp eine Funktion die auf einer Menge von Ergebnistupeln der Funktion H displaystyle H nbsp operiert X i displaystyle X i nbsp und X i j displaystyle X i j nbsp sind definiert wie oben Die Ausdrucke x f i r s t displaystyle x first nbsp und x s e c o n d displaystyle x second nbsp bezeichnen dabei das erste beziehungsweise zweite Element eines 2 Tupels Holistische Funktionen Median Rang Percentile haufigster Wert Holistische Funktionen sind Aggregationsfunktionen fur die keine der beiden vorhergehenden Definitionen zutrifft Aggregierbarkeit BearbeitenAnforderungen an die Dimensionen Bearbeiten Uberlappungsfreiheit der Zuordnung von Klassifikationsknoten Beispiel die Fachrichtung eines Studenten ist nicht uberlappungsfrei denn man kann nicht ausschliessen dass ein Student fur mehrere Fachrichtungen eingeschrieben ist Vollstandigkeit der Zerlegung pro Klassifikationsstufe Beispiele Die Postleitzahl vom Hauptwohnsitz eines Einwohners ist nicht vollstandig denn es gibt auch Einwohner die keinen festen Wohnsitz haben Sie erfordern die Erweiterung der Dimension um eine null Auspragung oder eine sonstige Auspragung Typvertraglichkeit von Fakt und Aggregatfunktion Beispiel fur Durchschnittswerte ist eine nochmalige Durchschnittsbildung auf einer hoheren Aggregationsebene meist nicht moglich Datentypen der Fakten sind Bearbeiten voll aggregierbar wenn alle Fakten die einen Fluss eines Gutes in einer bestimmten Zeiteinheit quantitativ beschreiben Hier sind alle Aggregat Funktionen sinnvoll einsetzbar Beispiele Umsatz Kosten Stromverbrauch Warenausgang teilaggregierbar wenn alle Fakten bei denen einige Aggregat Funktionen nicht oder nur eingeschrankt eingesetzt werden konnen Das sind 1 alle Fakten vom Typ Stuck oder Bestand Sie beschreiben eine vorhandene Menge zu einem bestimmten Zeitpunkt Beispiel Anzahl der Einwohner Hochwasserpegel Kontostand Diese Fakten konnen nicht uber die Zeit Dimension summiert werden Uber andere Dimensionen die den Bezug zum selben Zeitpunkt erhalten konnen sie schon summiert werden 2 gibt es noch weitere Grunde die die Anwendung einiger Aggregat Funktionen einschranken Beispiele Schulnoten Datumsangaben Durchschnittswerte Hier sind Summierung grundsatzlich nicht sinnvoll oder uberhaupt nicht definiert Die meisten anderen Aggregat Funktionen konnen schon angewendet werden nicht aggregierbar wenn alle Fakten bei denen uberhaupt keine Aggregatfunktionen sinnvoll eingesetzt werden konnen Beispiel Warengruppen Postleitzahlen Kontonummern Nachnamen Wenn fur den Datentyp keine Ordnung Sortierbarkeit definiert ist dann sind noch nicht einmal die Funktionen Maximum und Minimum anwendbar Dimensionshierarchie und Aggregationspfade Bearbeiten Dimensionen lassen sich oft als Hierarchien gliedern Wenn jeder Knoten funktional abhangig ist von seinen Vorgangern dann kann sich ein linearer Aggregationspfad ergeben Beispiel Tag Monat Quartal Jahr Es kann vorkommen dass in einer Dimension unterschiedliche Aggregationspfade moglich sind Beispiel Tag Woche Jahr Tag Monat Jahr Es gibt zwei verschiedene Aggregationspfade um vom Tag zum Jahr zu fuhren Beide liefern dasselbe Ergebnis Von der Woche kann man jedoch nicht zum Monat gelangen und auch umgekehrt nicht An diesem Beispiel wird auch deutlich dass unterschiedliche Aggregationspfade oft die Gefahr beinhalten dass die Ergebnisse doch nicht exakt ubereinstimmen Wenn der Jahreswechsel nicht gleichzeitig mit dem Wechsel einer Woche zusammenfallt dann kann es bei den beiden Aggregationspfaden zu Abweichungen kommen Fur die Behandlung der letzten Woche im Jahr muss eine eindeutige Handhabung gefunden werden sonst ist der Aggregationspfad Tag Woche Jahr falsch Siehe auch BearbeitenOnline Analytical ProcessingLiteratur BearbeitenLenz und Shoshani Summarizability in OLAP and Statistical Databases SSDBM 1997 Abgerufen von https de wikipedia org w index php title Aggregation OLAP amp oldid 173451964