www.wikidata.de-de.nina.az
Dieser Artikel behandelt die hierarchische Clusteranalyse in der Statistik zu anderen Clusteranalyseverfahren siehe Clusteranalyse Als hierarchische Clusteranalyse bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse Strukturentdeckung in Datenbestanden Cluster bestehen hierbei aus Objekten die zueinander eine geringere Distanz oder umgekehrt hohere Ahnlichkeit aufweisen als zu den Objekten anderer Cluster Man kann die Verfahren in dieser Familie nach den verwendeten Distanz bzw Proximitatsmassen zwischen Objekten aber auch zwischen ganzen Clustern und nach ihrer Berechnungsvorschrift unterscheiden Untergliedert man nach der Berechnungsvorschrift so unterscheidet man zwei wichtige Typen von Verfahren die divisiven Clusterverfahren in denen zunachst alle Objekte als zu einem Cluster gehorig betrachtet und dann schrittweise die bereits gebildeten Cluster in immer kleinere Cluster aufgeteilt werden bis jeder Cluster nur noch aus einem Objekt besteht Auch bezeichnet als Top down Verfahren die agglomerativen Clusterverfahren in denen zunachst jedes Objekt einen Cluster bildet und dann schrittweise die bereits gebildeten Cluster zu immer grosseren zusammengefasst werden bis alle Objekte zu einem Cluster gehoren Auch bezeichnet als Bottom up Verfahren Fur beide Verfahren gilt dass einmal gebildete Cluster nicht mehr verandert werden konnen Die Struktur wird entweder stets nur verfeinert divisiv oder nur vergrobert agglomerativ so dass eine strikte Cluster Hierarchie entsteht An der entstandenen Hierarchie kann man nicht mehr erkennen wie sie berechnet wurde Inhaltsverzeichnis 1 Vorteile und Nachteile 2 Dendrogramm 3 Distanz und Ahnlichkeitsmasse 3 1 Beispiele 4 Agglomerative Berechnung 4 1 Fusionierungsalgorithmen 4 2 Beispiele zu Fusionierungsalgorithmen 4 3 Density Linkage 4 4 Effiziente Berechnung von Fusionierungsalgorithmen 4 4 1 Lance und Williams Formel 4 4 2 SLINK und CLINK 4 5 Beispiel 5 Divisive Berechnung 6 Siehe auch 7 Literatur 8 EinzelnachweiseVorteile und Nachteile BearbeitenDie Vorteile der hierarchischen Clusteranalyse sind die Flexibilitat durch Verwendung komplexer Distanzmasse dass das Verfahren ausser der Distanzfunktion und der Fusionierungsmethode keine eigenen Parameter hat und dass das Ergebnis eine Cluster Hierarchie ist die auch Unterstrukturen erlaubt Der Nachteil ist der Analyseaufwand des Ergebnisses Andere Verfahren wie z B der k Means Algorithmus DBSCAN oder der ebenfalls hierarchische OPTICS Algorithmus liefern eine einzelne Partitionierung der Daten in Cluster Eine hierarchische Clusteranalyse liefert zahlreiche solcher Partitionierungen und der Anwender muss sich entscheiden wie er partitioniert Dies kann aber auch ein Vorteil sein da dem Anwender so eine Zusammenfassung des qualitativen Verhaltens des Clusterings gegeben wird Diese Erkenntnis ist grundlegend fur die topologische Datenanalyse im Allgemeinen und persistenter Homologie im Speziellen Ein weiterer Nachteil der hierarchischen Clusteranalyse ist die Laufzeit Komplexitat Eine agglomerative Berechnung kommt in der Praxis und Forschung sehr viel haufiger vor da es in jedem Schritt O n 2 displaystyle O n 2 nbsp Moglichkeiten gibt Cluster zusammenzufassen was zu einer naiven Gesamtkomplexitat von O n 3 displaystyle O n 3 nbsp fuhrt In speziellen Fallen sind jedoch Verfahren mit einer Gesamtkomplexitat von O n 2 displaystyle O n 2 nbsp bekannt Divisiv gibt es aber naiv in jedem Schritt O 2 n displaystyle O 2 n nbsp Moglichkeiten den Datensatz zu teilen Als weiterer Nachteil der hierarchischen Clusteranalyse gilt dass sie keine Clustermodelle liefert So entstehen beispielsweise je nach verwendeten Massen Ketteneffekte single link effekt und es werden aus Ausreissern oft winzige Cluster erzeugt die nur aus wenigen Elementen bestehen Die gefundenen Cluster mussen daher meist nachtraglich analysiert werden um Modelle zu erhalten Dendrogramm BearbeitenDatensatz und Dendrogramm nbsp Datensatz Die Objekte b displaystyle b nbsp und c displaystyle c nbsp sowie d displaystyle d nbsp und e displaystyle e nbsp liegen sehr dicht zusammen nbsp Dendrogramm fur single linkage b displaystyle b nbsp und c displaystyle c nbsp sowie d displaystyle d nbsp und e displaystyle e nbsp werden als erstes zusammengefasst Zur Visualisierung der bei einer hierarchischen Clusterung entstehenden Baumstruktur kann das Dendrogramm griech dendron dendron Baum genutzt werden Das Dendrogramm ist ein Baum der die hierarchische Zerlegung der Datenmenge O displaystyle O nbsp in immer kleinere Teilmengen darstellt Die Wurzel reprasentiert ein einziges Cluster das die gesamte Menge O displaystyle O nbsp enthalt Die Blatter des Baumes reprasentieren Cluster in denen sich je ein einzelnes Objekt der Datenmenge befindet Ein innerer Knoten reprasentiert die Vereinigung aller seiner Kindknoten Jede Kante zwischen einem Knoten und einem seiner Kindknoten hat als Attribut noch die Distanz zwischen den beiden reprasentierenden Mengen von Objekten nbsp DendrogrammDas Dendrogramm wird informativer wenn eine Achse zur Darstellung der Distanz oder Un ahnlichkeit verwendet wird Wenn zwei Cluster zusammengefugt werden dann haben diese Cluster eine bestimmte Distanz oder Un ahnlichkeit zueinander Auf dieser Hohe wird der Verbindungsstrich gezeichnet Im nebenstehenden Beispiel wurden z B die Objekte RR1 und RR4 bei einem Wert des Ahnlichkeitsmasses von ca 62 zusammengefugt Die Hohe ist hier die horizontale Achse In dieser Darstellung kann man eine gewunschte Zahl von Clustern auswahlen indem man das Dendrogramm auf einer geeigneten Hohe durchschneidet Typischerweise sucht man eine Stelle wo es zwischen zwei Fusionierungen einen grossen Sprung der Distanz oder Un ahnlichkeit gibt z B im rechten Dendrogramm auf der Hohe 40 Dann ergeben sich vier Cluster von denen 2 nur einzelne Objekte enthalten RR2 RR5 ein Cluster enthalt zwei Objekte RR3 und RR6 und das letzte Cluster enthalt alle ubrigen Objekte Gibt es hierarchische Cluster mit deutlich unterschiedlichen Grossen so kann es notwendig sein auf unterschiedlichen Hohen zu zerlegen wahrend ein Cluster auf einer Hohe noch mit seinen Nachbarn verbunden ist zerfallt ein anderer dunnerer Cluster auf dieser Hohe schon in einzelne Objekte Distanz und Ahnlichkeitsmasse BearbeitenSowohl in der agglomerativen als auch bei den divisiven hierarchischen Clusteranalysen ist es notwendig Abstande bzw Un ahnlichkeiten zwischen zwei Objekten einem Objekt und einem Cluster oder zwei Clustern zu berechnen Je nach Skalenniveau der zugrunde liegenden Variablen kommen verschiedene Masse zum Einsatz Bei kategorialen nominalen und ordinalen Variablen werden Ahnlichkeitsmasse benutzt d h ein Wert von Null bedeutet dass die Objekte eine maximale Unahnlichkeit haben Diese konnen in Distanzmasse umgewandelt werden Bei metrischen Variablen werden Distanzmasse benutzt d h ein Wert von Null bedeutet dass die Objekte einen Abstand von Null also maximale Ahnlichkeit haben Hauptartikel Ahnlichkeitsanalyse Die folgende Tabelle zeigt einige Ahnlichkeits bzw Distanzmasse fur binare und metrische Variablen Kategorielle Variablen mit mehr als zwei Kategorien konnen in mehrere binare Variablen umgewandelt werden Die Gower Distanz kann auch fur nominal skalierte Variablen definiert werden Ahnlichkeitsmass s i j displaystyle s i j nbsp Distanzmass d i j displaystyle d i j nbsp Jaccard n 11 n 01 n 10 n 11 displaystyle frac n 11 n 01 n 10 n 11 nbsp L r displaystyle L r nbsp k 1 p x i k x j k r 1 r displaystyle left sum k 1 p x ik x jk r right 1 r nbsp Tanimoto n 00 n 11 n 00 2 n 01 n 10 n 11 displaystyle frac n 00 n 11 n 00 2 n 01 n 10 n 11 nbsp EuklidischL 2 displaystyle L 2 nbsp k 1 p x i k x j k 2 displaystyle sqrt sum k 1 p x ik x jk 2 nbsp Simple Matching n 00 n 11 p displaystyle frac n 00 n 11 p nbsp Pearson k 1 p x i k x j k 2 s k 2 displaystyle sqrt sum k 1 p frac x ik x jk 2 s k 2 nbsp mit s k displaystyle s k nbsp die Standardabweichung der Variable k displaystyle k nbsp Russel Rao n 11 p displaystyle frac n 11 p nbsp City BlockManhattanL 1 displaystyle L 1 nbsp k 1 p x i k x j k displaystyle sum k 1 p x ik x jk nbsp Dice 2 n 11 n 01 n 10 2 n 11 displaystyle frac 2n 11 n 01 n 10 2n 11 nbsp Gower k 1 p x i k x j k r k displaystyle sum k 1 p frac x ik x jk r k nbsp mit r k displaystyle r k nbsp die Spannweite der Variable k displaystyle k nbsp Kulczynski n 11 n 01 n 10 displaystyle frac n 11 n 01 n 10 nbsp Mahalanobis x i x j T S 1 x i x j displaystyle sqrt x i x j T S 1 x i x j nbsp mit S displaystyle S nbsp die Kovarianzmatrix der Variablen x i displaystyle x i nbsp Beispiele Bearbeiten Ein Internetbuchhandler weiss fur zwei Besucher welche Buch Webseiten sie sich angesehen haben fur jede der p displaystyle p nbsp Webseiten wird also eine 0 nicht angesehen oder 1 angesehen gespeichert Welches Ahnlichkeitsmass bietet sich an um zu erfahren wie ahnlich die beiden Besucher sind Die Anzahl der Buch Webseiten die sich keiner der beiden Besucher angesehen hat n 00 displaystyle n 00 nbsp von denen es viele gibt sollten in die Berechnung nicht einfliessen Ein moglicher Koeffizient ware der Jaccard Koeffizient d h die Anzahl der Buch Webseiten die sich beide Besucher angesehen haben n 11 displaystyle n 11 nbsp dividiert durch die Anzahl der Buch Webseiten die sich mindestens einer der beiden Besucher angesehen hat n 10 displaystyle n 10 nbsp Anzahl der Buch Webseiten die sich nur der erste Besucher angesehen hat und n 01 displaystyle n 01 nbsp Anzahl der Buch Webseiten die sich nur der zweite Besucher angesehen hat In den ALLBUS Daten wird u a nach der Einschatzung der aktuellen Wirtschaftslage mit den Antwortmoglichkeiten Sehr gut Gut Teils Teils Schlecht und Sehr Schlecht gefragt Fur jede der moglichen Antworten wird nun eine binare Variable gebildet so dass die binaren Ahnlichkeitsmasse verwendet werden konnen Zu beachten ist dass bei mehreren Variablen mit unterschiedlichen Kategorienzahl noch eine Gewichtung bzgl der Kategorienzahl stattfinden sollte Im Iris Datensatz werden die vier p displaystyle p nbsp Abmessungen von Schwertlilienblutenblattern betrachtet Um Abstande zwischen zwei Blutenblattern i displaystyle i nbsp und j displaystyle j nbsp zu berechnen kann z B der euklidische Abstand benutzt werden Welches Ahnlichkeits bzw Distanzmass verwendet wird hangt letztlich von der gewunschten inhaltlichen Interpretation des Ahnlichkeits bzw Distanzmasses ab Agglomerative Berechnung BearbeitenDie agglomerative Berechnung einer hierarchischen Clusteranalyse ist der einfachste und flexibelste Fall Zu Beginn wird zunachst jedes Objekt als ein eigener Cluster aufgefasst Nun werden in jedem Schritt die jeweils einander nachsten Cluster zu einem Cluster zusammengefasst Besteht ein Cluster aus mehreren Objekten dann muss angegeben werden wie die Distanz zwischen Clustern berechnet wird Hier unterscheiden sich die einzelnen agglomerativen Verfahren Das Verfahren kann beendet werden wenn alle Cluster eine bestimmte Distanz Ahnlichkeit zueinander uberschreiten unterschreiten oder wenn eine genugend kleine Zahl von Clustern ermittelt worden ist Dies ist bei Clustern mit nur einem Objekt wie sie zu Anfang vorgegeben sind trivial Fur die Durchfuhrung einer agglomerativen Clusteranalyse mussen ein Distanz oder Ahnlichkeitsmass zur Bestimmung des Abstandes zwischen zwei Objekten und ein Fusionierungsalgorithmus zur Bestimmung des Abstandes zwischen zwei Clustern ausgewahlt werden Dabei ist die Wahl des Fusionierungsalgorithmus oft wichtiger als die des Distanz oder Ahnlichkeitsmasses Fusionierungsalgorithmen Bearbeiten nbsp Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Die hier angegebenen Formeln fur WPGMA UPGMA sind evtl vertauscht Siehe Diskussionsseite Die folgende Tabelle zeigt eine Ubersicht uber gangige Fusionierungsalgorithmen Der Abstand D displaystyle D nbsp zwischen Cluster A displaystyle A nbsp und dem neuen Cluster B displaystyle B nbsp wird oft uber den Abstand oder die Unahnlichkeit d displaystyle d nbsp von zwei Objekten berechnet Der neue Cluster B entsteht aus der Fusion des grunen und blauen Clusters Single Linkage 1 2 3 4 nbsp Minimaler Abstand aller Elementpaare aus den beiden ClusternD single linkage A B min a A b B d a b displaystyle D text single linkage A B min a in A b in B d a b nbsp Dieses Verfahren neigt zur Kettenbildung Complete Linkage 5 nbsp Maximaler Abstand aller Elementpaare aus den beiden ClusternD complete linkage A B max a A b B d a b displaystyle D text complete linkage A B max a in A b in B d a b nbsp Dieses Verfahren neigt zur Bildung kleiner Gruppen Average Linkage Weighted Pair Group Method using arithmetic Averages WPGMA 6 nbsp Durchschnittlicher Abstand aller Elementpaare aus den beiden ClusternD average linkage A B 1 A B a A b B d a b displaystyle D text average linkage A B tfrac 1 A B sum a in A b in B d a b nbsp Average Group Linkage McQuitty Unweighted Pair Group Method using arithmetic Averages UPGMA 6 nbsp Durchschnittlicher Abstand aller Elementpaare aus der Vereinigung von A und BD average group linkage A B 1 A B A B 1 x y A B d x y displaystyle D text average group linkage A B tfrac 1 A B A B 1 sum x y in A cup B d x y nbsp Centroid Method Unweighted Pair Group Method using Centroids UPGMC 6 nbsp Abstand der Zentren der beiden ClusterD centroid distance A B d a b displaystyle D text centroid distance A B d bar a bar b nbsp wobei a displaystyle bar a nbsp das Zentrum des Clusters A displaystyle A nbsp sei b displaystyle bar b nbsp das des Clusters B displaystyle B nbsp Median Method Weighted Pair Group Method using Centroids WPGMC 7 nbsp Abstand der Zentren der beiden ClusterD centroid distance A B d a m displaystyle D text centroid distance A B d bar a bar m nbsp wobei a displaystyle bar a nbsp das Zentrum des Clusters A displaystyle A nbsp sei m displaystyle bar m nbsp der Mittelwert aus den Clusterzentren des grunen und blauen Clusters Weitere Methoden sind Ward s minimum variance 8 Zunahme der Varianz beim Vereinigen von A und BD Ward A B d a b 2 1 A 1 B displaystyle D text Ward A B frac d bar a bar b 2 1 A 1 B nbsp wobei a displaystyle bar a nbsp das Zentrum des Clusters A displaystyle A nbsp sei b displaystyle bar b nbsp das des Clusters B displaystyle B nbsp Dieses Verfahren neigt zur Bildung von gleich grossen Clustern EML Die Distanz zwischen zwei Clustern wird bestimmt durch die Maximierung der likelihood unter den Annahmen dass die Cluster multivariat normalverteilt mit gleichen Kovarianzmatrizen aber unterschiedlichen Grossen Das Verfahren ist ahnlich wie Ward s minimum variance jedoch neigt zur Bildung unterschiedlich grosser Cluster Von praktischer Relevanz ist hierbei vor allem single linkage da es mit dem Algorithmus SLINK eine effiziente Berechnungsmethode erlaubt Beispiele zu Fusionierungsalgorithmen Bearbeiten Besonders deutlich wird dies im zweiten Schritt des Algorithmus Bei der Verwendung eines bestimmten Distanzmasses wurden im ersten Schritt die beiden einander nachsten Objekte zu einem Cluster fusioniert Dies kann wie folgt als Distanzmatrix dargestellt werden Distanz zw Cluster1Objekt1 Cluster2Objekt2 Cluster3Objekt3 Cluster4Objekt4Objekt1 0Objekt2 4 0Objekt3 7 5 0Objekt4 8 10 9 0Die kleinste Distanz findet sich zwischen dem Objekt1 und Objekt2 rot in der Distanzmatrix und man wurde daher Objekt1 und Objekt2 zu einem Cluster zusammenfassen fusionieren Nun muss die Matrix neu erstellt werden o steht fur oder das heisst die Distanz zwischen dem neuen Cluster und Objekt3 bzw Objekt4 muss neu berechnet werden gelb in der Distanzmatrix Distanz zw Cluster1Objekt1 amp 2 Cluster2Objekt3 Cluster3Objekt4Objekt1 amp 2 0Objekt3 7 o 5 0Objekt4 8 o 10 9 0Welcher der beiden Werte fur die Distanzbestimmung relevant ist bestimmt das Verfahren Verfahren Distanz zw Cluster1Objekt1 amp 2 Cluster2Objekt3 Cluster3Objekt4Single Linkage Das Single Linkage Verfahren wurde den kleinsten kleineren Wert aus dem Cluster zur Bestimmung der neuen Abstande zu den anderen Objekten verwenden also min 5 7 5 displaystyle min 5 7 5 nbsp und min 8 10 8 displaystyle min 8 10 8 nbsp Objekt1 amp 2 0Objekt3 5 0Objekt4 8 9 0Complete Linkage Das Complete Linkage Verfahren wurde den grossten Wert aus dem Cluster zur Bestimmung der neuen Abstande zu den anderen Objekten verwenden also max 5 7 7 displaystyle max 5 7 7 nbsp und max 8 10 10 displaystyle max 8 10 10 nbsp Objekt1 amp 2 0Objekt3 7 0Objekt4 10 9 0Average Linkage Das Average Linkage Verfahren verwendet einen Durchschnittswert auf Basis aller Distanzen zwischen dem neuen Cluster und dem betrachteten Cluster 1 2 1 7 5 7 5 2 6 displaystyle tfrac 1 2 1 7 5 tfrac 7 5 2 6 nbsp und 1 2 1 8 10 8 10 2 9 displaystyle tfrac 1 2 1 8 10 tfrac 8 10 2 9 nbsp Objekt1 amp 2 0Objekt3 6 0Objekt4 9 9 0Average Group Linkage Das Average Group Linkage Verfahren verwendet einen Durchschnittswert auf Basis aller Distanzen der Objekte des neuen Cluster und des betrachteten Cluster 1 3 4 5 7 5 3 displaystyle tfrac 1 3 4 5 7 5 bar 3 nbsp und 1 3 4 8 10 7 3 displaystyle tfrac 1 3 4 8 10 7 bar 3 nbsp Objekt1 amp 2 0Objekt3 5 3 0Objekt4 7 3 9 0Centroid Verfahren Dieses Verfahren verwendet eine gewichtete Distanz zwischen den Clusterzentren und aufgrund der Formel unten ergibt sich 1 2 7 1 2 5 1 4 4 5 displaystyle tfrac 1 2 7 tfrac 1 2 5 tfrac 1 4 4 5 nbsp und 1 2 8 1 2 10 1 4 4 8 displaystyle tfrac 1 2 8 tfrac 1 2 10 tfrac 1 4 4 8 nbsp Objekt1 amp 2 0Objekt3 5 0Objekt4 8 9 0Density Linkage Bearbeiten nbsp Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst In diesem Abschnitt fehlen Quellenangaben Chire Diskussion 09 54 3 Feb 2014 CET Beim Density Linkage wird fur jedes Objekt ein Dichtewert geschatzt Zur Berechnung wird eines der ublichen Distanzmasse z B euklidischer Abstand Manhattan Distanz zwischen den Objekten benutzt Auf Basis der Dichtewerte zweier Objekte wird dann eine neue Distanz d i j displaystyle d i j nbsp zwischen ihnen berechnet Diese hangen auch von der Umgebung der Objekte i displaystyle i nbsp und j displaystyle j nbsp ab Fur das agglomerative Clustering kann dann eine der vorhergehenden Fusionierungsmethoden verwendet werden Uniform kernel Lege den Radius r displaystyle r nbsp fest Schatze die Dichte f i displaystyle hat f i nbsp als den Anteil der Beobachtungen die eine Entfernung kleiner gleich r displaystyle r nbsp vom Objekt i displaystyle i nbsp haben Berechne die Distanz zwischen Objekt i displaystyle i nbsp und j displaystyle j nbsp alsd i j 1 2 1 f i 1 f j falls d x i x j r sonst displaystyle d i j begin cases frac 1 2 left frac 1 hat f i frac 1 hat f j right amp text falls d x i x j leq r infty amp text sonst end cases nbsp dd dd k displaystyle k nbsp nearest neighbour Lege die Anzahl der Nachbarn k displaystyle k nbsp fest Berechne die Distanz r k i displaystyle r k i nbsp zum k displaystyle k nbsp nachsten Nachbarn des Objektes i displaystyle i nbsp Schatze die Dichte f i displaystyle hat f i nbsp als den Anteil der Beobachtungen die eine Entfernung kleiner gleich r k i displaystyle r k i nbsp vom Objekt i displaystyle i nbsp haben dividiert durch das Volumen der Sphare mit dem Radius r k i displaystyle r k i nbsp Berechne die Distanz zwischen den Objekten i displaystyle i nbsp und j displaystyle j nbsp alsd i j 1 2 1 f x i 1 f x j falls d x i x j max r k i r k j sonst displaystyle d i j begin cases frac 1 2 left frac 1 hat f x i frac 1 hat f x j right amp text falls d x i x j leq max r k i r k j infty amp text sonst end cases nbsp dd dd Wongs Hybrid Fuhre zunachst ein k means Clustering durch und betrachte nur die k displaystyle k nbsp Cluster Schwerpunkt x i displaystyle bar x i nbsp Berechne fur jeden Cluster die totale Varianz w i displaystyle w i nbsp Berechne die Distanz zwischen Cluster Schwerpunkten i displaystyle i nbsp und j displaystyle j nbsp alsd i j w i w j 0 25 n i n j d x i x j p 2 n i n j 1 p 2 falls i und j benachbart sonst displaystyle d i j begin cases displaystyle frac w i w j 0 25 n i n j d bar x i bar x j p 2 n i n j 1 p 2 amp text falls i text und j text benachbart infty amp text sonst end cases nbsp Die Cluster i displaystyle i nbsp und j displaystyle j nbsp heissen benachbart wenn gilt d 2 x i x j d 2 x i x m d 2 x m x j displaystyle d 2 bar x i bar x j leq d 2 bar x i bar x m d 2 bar x m bar x j nbsp dd dd Ein Problem der Density linkage Algorithmen ist die Festlegung der Parameter Die Algorithmen OPTICS und HDBSCAN eine hierarchische Variante von DBSCAN clustering konnen ebenfalls als hierarchisches Density Linkage clustering interpretiert werden Effiziente Berechnung von Fusionierungsalgorithmen Bearbeiten Lance und Williams Formel Bearbeiten Zum Fusionieren der Cluster ist es jedoch nicht notwendig immer wieder die Distanzen zwischen den Objekten neu zu berechnen Stattdessen startet man wie in obigem Beispiel mit einer n n displaystyle n times n nbsp Distanzmatrix Steht fest welche Cluster fusioniert werden so mussen nur die Distanzen zwischen dem fusionierten Cluster und allen anderen Clustern neu berechnet werden Jedoch kann die neue Distanz zwischen dem fusionierten Cluster A B displaystyle A cup B nbsp und einem anderen Cluster C displaystyle C nbsp aus den alten Distanzen mit Hilfe der Formel von Lance und Williams berechnet werden D A B C a 1 d A C a 2 d B C b d A B g d A C d B C displaystyle D A cup B C alpha 1 d A C alpha 2 d B C beta d A B gamma d A C d B C nbsp Lance und Williams haben auch eine eigene Fusionierungsmethode auf Basis ihrer Formel angegeben Lance Williams Flexible Beta Fur die verschiedenen Fusionierungsmethoden ergeben sich verschiedene Konstanten a 1 displaystyle alpha 1 nbsp a 2 displaystyle alpha 2 nbsp b displaystyle beta nbsp und g displaystyle gamma nbsp die der folgenden Tabelle entnommen werden konnen Dabei bedeutet A displaystyle A nbsp die Anzahl der Objekte im Cluster A displaystyle A nbsp Methode a 1 displaystyle alpha 1 nbsp a 2 displaystyle alpha 2 nbsp b displaystyle beta nbsp g displaystyle gamma nbsp Single linkage 1 2 1 2 0 1 2Complete linkage 1 2 1 2 0 1 2Median 1 2 1 2 1 4 0Unweighted Group Average linkage UPGMA A A B displaystyle tfrac A A B nbsp B A B displaystyle tfrac B A B nbsp 0 0Weighted Group Average linkage 1 2 1 2 0 0Centroid A A B displaystyle tfrac A A B nbsp B A B displaystyle tfrac B A B nbsp A B A B 2 displaystyle tfrac A B A B 2 nbsp 0Ward A C A B C displaystyle tfrac A C A B C nbsp B C A B C displaystyle tfrac B C A B C nbsp C A B C displaystyle tfrac C A B C nbsp 0Lance Williams Flexible Beta 1 b 2 displaystyle tfrac 1 beta 2 nbsp 1 b 2 displaystyle tfrac 1 beta 2 nbsp Standardwert oft 1 4 displaystyle 1 4 nbsp 0SLINK und CLINK Bearbeiten Wahrend die naive Berechnung einer hierarchischen Clusteranalyse eine schlechte Komplexitat hat bei komplexen Ahnlichkeitmassen kann eine Laufzeit von O n 3 displaystyle O n 3 nbsp oder O n 2 log n displaystyle O n 2 log n nbsp auftreten so gibt es fur manche Falle effizientere Losungen So gibt es fur single linkage ein agglomeratives optimal effizientes Verfahren namens SLINK 9 mit der Komplexitat O n 2 displaystyle O n 2 nbsp und eine Verallgemeinerung davon auf complete linkage CLINK 10 ebenfalls mit der Komplexitat O n 2 displaystyle O n 2 nbsp Fur andere Fusionierungsmethoden wie Average Linkage sind keine effizienten Algorithmen bekannt 11 Beispiel Bearbeiten nbsp 1000 Schweizer Franken Banknote Der Schweizer Banknoten Datensatz besteht aus 100 echten und 100 gefalschten Schweizer 1000 Franken Banknoten An jeder Banknote wurden sechs Variablen erhoben Die Breite der Banknote WIDTH die Hohe an der Banknote an der linken Seite LEFT die Hohe an der Banknote an der rechten Seite RIGHT der Abstand des farbigen Drucks zur Oberkante der Banknote UPPER der Abstand des farbigen Drucks zur Unterkante der Banknote LOWER und die Diagonale links unten nach rechts oben des farbigen Drucks auf der Banknote DIAGONAL Als Distanzmass bietet sich hier die euklidische Distanz an d i j k 1 6 x i k x j k 2 displaystyle d ij sqrt sum k 1 6 x ik x jk 2 nbsp und fur die folgende Grafiken wurden dann verschiedene hierarchische Clustermethoden angewandt Jede Grafik besteht aus zwei Teilen Im linken Teil werden die ersten zwei Hauptkomponenten der Daten gezeigt Diese Darstellung wird gewahlt weil bei dieser zweidimensionalen Darstellung die Abstande in der Flache gut den Abstanden in sechsdimensionalen Raum entsprechen Gibt es also zwei klar getrennte Cluster Abstande zwischen den Clustern sind gross so hofft man diese auch in dieser Darstellung zu sehen Die Datenpunkte die zu demselben Cluster gehoren sind mit der gleichen Farbe markiert lediglich bei den schwarzen Datenpunkten ist es so dass jeder Datenpunkt ein Cluster bildet Im rechten Teil sehen wir das zugehorige Dendrogramm Die Height auf der y Achse gibt an bei welcher Distanz Beobachtungen bzw Cluster zu einem neuen Cluster zusammengefugt werden entsprechend dem Fusionierungsalgorithmus Gehoren die beiden Teilcluster fur eine Fusionierung zum selben Cluster ist das Dendrogramm in der entsprechenden Farbe des Clusters gezeichnet gehoren sie zu unterschiedlichen Clustern dann wird die Farbe schwarz benutzt Die grauen Punkte links im Dendrogramm geben nochmal an bei welcher Distanz eine Fusionierung stattfand Um eine gute Clusterzahl zu bestimmen wird eine moglichst grosse Lucke bei den grauen Punkten gesucht Denn eine grosse Lucke bedeutet dass bei der nachsten Fusionierung eine grosse Distanz zwischen den zu fusionierenden Clustern besteht nbsp Daten und Dendrogramm fur das Average linkage Verfahren nbsp Daten und Dendrogramm mit der Ward Methode nbsp Daten und Dendrogramm fur das Complete linkage Verfahren nbsp Daten und Dendrogramm fur das Single linkage Verfahren nbsp Daten und Dendrogramm mit der Median Methode nbsp Daten und Dendrogramm mit der Centroid Methode Divisive Berechnung BearbeitenWie oben angesprochen gibt es theoretisch O 2 n displaystyle mathcal O 2 n nbsp Moglichkeiten einen Datensatz mit n displaystyle n nbsp Objekten in zwei Teile zu teilen Divisive Verfahren brauchen daher normalerweise eine Heuristik um Kandidaten zu generieren die dann beispielsweise mit denselben Massen wie in der agglomerativen Berechnung bewertet werden konnen Kaufman und Rousseeuw 1990 beschreiben eine Divisive Clustering Procedure Diana wie folgt 12 Starte mit einem Cluster der alle Beobachtungen enthalt Berechne den Durchmesser aller Cluster Der Durchmesser ist die maximale Distanz oder Unahnlichkeit aller Objekte innerhalb des Clusters Der Cluster mit dem grossten Durchmesser wird in zwei Cluster geteilt Dazu wird das Objekt in dem Cluster bestimmt das die grosste durchschnittliche Distanz oder Unahnlichkeit zu allen anderen Objekten hat Es bildet den Kern der Splittergruppe Jedes Objekt das naher an der Splittergruppe liegt als an den restlichen Objekten wird nun der Splittergruppe zugeordnet Die Schritte 2 5 werden solange wiederholt bis alle Cluster nur noch ein Objekt enthalten Ein weiterer spezieller Algorithmus ist die Spektrale Relaxation Siehe auch BearbeitenClusteranalyse Data Mining Knowledge Discovery in Databases KlasseneinteilungLiteratur BearbeitenGrundlagen und Verfahren M Ester J Sander Knowledge Discovery in Databases Techniken und Anwendungen Springer Berlin 2000 K Backhaus B Erichson W Plinke R Weiber Multivariate Analysemethoden Springer S Bickel T Scheffer Multi View Clustering Proceedings of the IEEE International Conference on Data Mining 2004 J Shi J Malik Normalized Cuts and Image Segmentation in Proc of IEEE Conf on Comp Vision and Pattern Recognition Puerto Rico 1997 L Xu J Neufeld B Larson D Schuurmans Maximum margin clustering In Advances in Neural Information Processing Systems 17 NIPS 2004 2004Anwendung J Bacher A Poge K Wenzig Clusteranalyse Anwendungsorientierte Einfuhrung in Klassifikationsverfahren 3 Auflage Oldenbourg Munchen 2010 ISBN 978 3 486 58457 8 J Bortz Statistik fur Sozialwissenschaftler Kap 16 Clusteranalyse Springer Berlin 1999 W Hardle L Simar Applied Multivariate Statistical Analysis Springer New York 2003 C Homburg H Krohmer Marketingmanagement Strategie Instrumente Umsetzung Unternehmensfuhrung 3 Auflage Kapitel 8 2 2 Gabler Wiesbaden 2009 H Moosbrugger D Frank Clusteranalytische Methoden in der Personlichkeitsforschung Eine anwendungsorientierte Einfuhrung in taxometrische Klassifikationsverfahren Huber Bern 1992 ISBN 3 456 82320 7 Einzelnachweise Bearbeiten K Florek J Lukasiewicz J Perkal H Steinhaus S Zubrzycki Taksonomia wroclawska In Przeglad Antropol 17 1951 S 193 211 K Florek J Lukaszewicz J Perkal H Steinhaus S Zubrzycki Sur la liaison et la division des points d un ensemble fini In Colloquium Mathematicae Vol 2 No 3 4 1951 S 282 285 Institute of Mathematics Polish Academy of Sciences L L McQuitty Elementary linkage analysis for isolating orthogonal and oblique types and typal relevancies Educational and Psychological Measurement 1957 P H Sneath The application of computers to taxonomy In Journal of general microbiology 17 1 1957 S 201 226 P N M Macnaughton Smith Some Statistical and Other Numerical Techniques for Classifying Individuals Research Unit Report 6 London Her Majesty s Stationary Office 1965 a b c R R Sokal C D Michener A statistical method for evaluating systematic relationships In University of Kansas Science Bulletin 38 1958 S 1409 1438 J C Gower A Comparison of Some Methods of Cluster Analysis In Biometrics 23 4 1967 S 623 J H Ward Jr Hierarchical grouping to optimize an objective function In Journal of the American statistical association 58 301 1963 S 236 244 R Sibson SLINK an optimally efficient algorithm for the single link cluster method In The Computer Journal Band 16 Nr 1 British Computer Society 1973 S 30 34 web archive org PDF 3 1 MB abgerufen am 25 Oktober 2021 D Defays An efficient algorithm for a complete link method In The Computer Journal Band 20 Nr 4 British Computer Society 1977 S 364 366 Johannes Assfalg Christian Bohm Karsten Borgwardt Martin Ester Eshref Januzaj Karin Kailing Peer Kroger Jorg Sander Matthias Schubert Arthur Zimek Knowledge Discovery in Databases Kapitel 5 Clustering In Skript KDD I 2003 dbs ifi lmu de PDF L Kaufman P J Rousseeuw Finding Groups in Data An Introduction to Cluster Analysis Wiley New York 1990 Abgerufen von https de wikipedia org w index php title Hierarchische Clusteranalyse amp oldid 216671075 Dendrogramm