www.wikidata.de-de.nina.az
Unter Clusteranalyse Clustering Algorithmus gelegentlich auch Ballungsanalyse versteht man ein Verfahren zur Entdeckung von Ahnlichkeitsstrukturen in meist relativ grossen Datenbestanden Die so gefundenen Gruppen von ahnlichen Objekten werden als Cluster bezeichnet die Gruppenzuordnung als Clustering Die gefundenen Ahnlichkeitsgruppen konnen graphentheoretisch hierarchisch partitionierend oder optimierend sein Die Clusteranalyse ist eine wichtige Disziplin des Data Minings des Analyseschritts des Knowledge Discovery in Databases Prozesses Das Ziel der Clusteranalyse ist neue Gruppen in den Daten zu identifizieren im Gegensatz zur Klassifikation bei der Daten bestehenden Klassen zugeordnet werden Man spricht von einem uninformierten Verfahren da es nicht auf Klassen Vorwissen angewiesen ist Diese neuen Gruppen konnen anschliessend beispielsweise zur automatisierten Klassifizierung zur Erkennung von Mustern in der Bildverarbeitung oder zur Marktsegmentierung eingesetzt werden oder in beliebigen anderen Verfahren die auf ein derartiges Vorwissen angewiesen sind Ergebnis einer Clusteranalyse mit NormalverteilungenDie zahlreichen Algorithmen unterscheiden sich vor allem in ihrem Ahnlichkeits und Gruppenbegriff ihrem Cluster Modell ihrem algorithmischen Vorgehen und damit ihrer Komplexitat und der Toleranz gegenuber Storungen in den Daten Ob das von einem solchen Algorithmus generierte Wissen nutzlich ist kann jedoch in der Regel nur ein Experte beurteilen Ein Clustering Algorithmus kann unter Umstanden vorhandenes Wissen reproduzieren beispielsweise Personendaten in die bekannten Gruppen mannlich und weiblich unterteilen oder auch fur den Anwendungszweck nicht hilfreiche Gruppen generieren Die gefundenen Gruppen lassen sich oft auch nicht verbal beschreiben anders als z B bei mannliche Personen gemeinsame Eigenschaften werden in der Regel erst durch eine nachtragliche Analyse identifiziert Bei der Anwendung von Clusteranalyse ist es daher oft notwendig verschiedene Verfahren und verschiedene Parameter abzufragen die Daten vorzuverarbeiten und beispielsweise Attribute auszuwahlen oder wegzulassen Inhaltsverzeichnis 1 Beispiel 2 Geschichte 3 Prinzip Funktionsweise 3 1 Mathematische Modellierung 3 2 Grundsatzliche Vorgehensweise 3 3 Unterschiedliche Proximitatsmasse Skalen 3 4 Formen der Gruppenbildung Gruppenzugehorigkeit 3 5 Unterscheidung der Clusterverfahren 4 Verfahren 4 1 Partitionierende Clusterverfahren 4 2 Hierarchische Clusterverfahren 4 3 Dichtebasierte Verfahren 4 4 Gitterbasierte Verfahren 4 5 Kombinierte Verfahren 4 6 Biclustering 5 Evaluation 5 1 Interne Metriken 5 1 1 Silhouette Score 5 2 Externe Metriken 5 2 1 Rand Index 5 2 2 Matthews Korrelationskoeffizient 5 2 3 Mutual Information 6 Siehe auch 7 Literatur 7 1 Grundlagen und Verfahren 7 2 Anwendung 8 EinzelnachweiseBeispiel Bearbeiten nbsp Dieser Artikel oder Abschnitt bedarf einer grundsatzlichen Uberarbeitung Naheres sollte auf der Diskussionsseite angegeben sein Bitte hilf mit ihn zu verbessern und entferne anschliessend diese Markierung Angewendet auf einen Datensatz von Fahrzeugen konnte ein Clustering Algorithmus und eine nachtragliche Analyse der gefundenen Gruppen beispielsweise folgende Struktur liefern Fahrzeuge Fahrrader LKW PKW Rikschas Rollermobile Dabei ist Folgendes zu beachten Der Algorithmus selbst liefert keine Interpretation LKW der gefundenen Gruppen Hierzu ist eine separate Analyse der Gruppen notwendig Ein Mensch wurde eine Fahrradrikscha als Untergruppe der Fahrrader ansehen Fur einen Clustering Algorithmus aber sind 3 Rader oft ein signifikanter Unterschied den sie mit einem Dreirad Rollermobil teilen Die Gruppen sind oft nicht rein es konnen also beispielsweise kleine LKW in der Gruppe der PKW sein Es treten oft zusatzliche Gruppen auf die nicht erwartet wurden Polizeiautos Cabrios rote Autos Autos mit Xenon Scheinwerfern Manche Gruppen werden nicht gefunden beispielsweise Motorrader oder Liegerader Welche Gruppen gefunden werden hangt stark vom verwendeten Algorithmus sowie von den Parametern und verwendeten Objekt Attributen ab Oft wird auch nichts Sinnvolles gefunden In diesem Beispiel wurde nur bekanntes Wissen wieder gefunden als Verfahren zur Wissensentdeckung ist die Clusteranalyse hier also gescheitert Geschichte BearbeitenHistorisch gesehen stammt das Verfahren aus der Taxonomie in der Biologie wo uber eine Clusterung von verwandten Arten eine Ordnung der Lebewesen ermittelt wird Allerdings wurden dort ursprunglich keine automatischen Berechnungsverfahren eingesetzt Inzwischen konnen zur Bestimmung der Verwandtschaft von Organismen unter anderem ihre Gensequenzen verglichen werden Siehe auch Kladistik Spater wurde das Verfahren fur die Zusammenhangsanalyse in die Sozialwissenschaften eingefuhrt weil es sich wegen des in den Gesellschaftswissenschaften in der Regel niedrigen Skalenniveaus der Daten in diesen Disziplinen besonders eignet 1 Prinzip Funktionsweise BearbeitenMathematische Modellierung Bearbeiten Die Eigenschaften der zu untersuchenden Objekte werden mathematisch als Zufallsvariablen aufgefasst Sie werden in der Regel in Form von Vektoren als Punkte in einem Vektorraum dargestellt deren Dimensionen die Eigenschaftsauspragungen des Objekts bilden Bereiche in denen sich Punkte anhaufen Punktwolke werden Cluster genannt Bei Streudiagrammen dienen die Abstande der Punkte zueinander oder die Varianz innerhalb eines Clusters als sogenannte Proximitatsmasse welche die Ahnlichkeit bzw Unterschiedlichkeit zwischen den Objekten zum Ausdruck bringen Ein Cluster kann auch als eine Gruppe von Objekten definiert werden die in Bezug auf einen berechneten Schwerpunkt eine minimale Abstandssumme haben Dazu ist die Wahl eines Distanzmasses erforderlich In bestimmten Fallen sind die Abstande bzw umgekehrt die Ahnlichkeiten der Objekte untereinander direkt bekannt sodass sie nicht aus der Darstellung im Vektorraum ermittelt werden mussen Grundsatzliche Vorgehensweise Bearbeiten In einer Gesamtmenge gruppe mit unterschiedlichen Objekten werden die Objekte die sich ahnlich sind zu Gruppen Clustern zusammengefasst Als Beispiel sei folgende Musikanalyse gegeben Die Werte ergeben sich aus dem Anteil der Musikstucke die der Nutzer pro Monat online kauft Person 1 Person 2 Person 3Pop 2 1 8Rock 10 8 1Jazz 3 3 1In diesem Beispiel wurde man die Personen intuitiv in zwei Gruppen einteilen Gruppe 1 besteht aus Person 1 amp 2 und Gruppe 2 besteht aus Person 3 Das wurden auch die meisten Clusteralgorithmen machen Dieses Beispiel ist lediglich aufgrund der gewahlten Werte so eindeutig spatestens mit naher zusammenliegenden Werten und mehr Variablen hier Musikrichtungen und Objekten hier Personen ist leicht vorstellbar dass die Einteilung in Gruppen nicht mehr so trivial ist Etwas genauer und abstrakter ausgedruckt Die Objekte einer heterogenen beschrieben durch unterschiedliche Werte ihrer Variablen Gesamtmenge werden mit Hilfe der Clusteranalyse zu Teilgruppen Clustern Segmenten zusammengefasst die in sich moglichst homogen die Unterschiede der Variablen moglichst gering sind In unserem Musikbeispiel kann die Gruppe aller Musikhorer eine sehr heterogene Gruppe in die Gruppen der Jazzhorer Rockhorer Pophorer etc jeweils relativ homogen unterteilt werden bzw werden die Horer mit ahnlichen Praferenzen zu der entsprechenden Gruppe zusammengefasst Eine Clusteranalyse z B bei der Marktsegmentierung erfolgt dabei in folgenden Schritten Schritte zur Clusterbildung Variablenauswahl Auswahl und Erhebung der fur die Untersuchung geeigneten Variablen Sofern die Variablen der Objekte Elemente noch nicht bekannt vorgegeben sind mussen alle fur die Untersuchung wichtigen Variablen bestimmt und anschliessend ermittelt werden Proximitatsbestimmung Wahl eines geeigneten Proximitatsmasses und Bestimmung der Distanz bzw Ahnlichkeitswerte je nach Proximitatsmass zwischen den Objekten uber das Proximitatsmass Abhangig von der Art der Variablen bzw der Skalenart der Variablen wird eine entsprechende Distanzfunktion zur Bestimmung des Abstandes Distanz zweier Elemente oder eine Ahnlichkeitsfunktion zur Bestimmung der Ahnlichkeit verwendet Die Variablen werden zunachst einzeln verglichen und aus der Distanz der einzelnen Variablen die Gesamtdistanz oder Ahnlichkeit berechnet Die Funktion zur Bestimmung von Distanz oder Ahnlichkeit wird auch Proximitatsmass genannt Der durch ein Proximitatsmass ermittelte Distanz bzw Ahnlichkeitswert nennt sich Proximitat Werden alle Objekte miteinander verglichen ergibt sich eine Proximitatsmatrix die jeweils zwei Objekten eine Proximitat zuweist Clusterbildung Bestimmung und Durchfuhrung eines der geeigneten Clusterverfahren s um anschliessend mit Hilfe des dieser Verfahren s Gruppen Cluster bilden zu konnen die Proximitatsmatrix wird hierdurch reduziert Im Regelfall werden hierbei mehrere Verfahren kombiniert z B Finden von Ausreissern durch das Single Linkage Verfahren hierarchisches Verfahren Bestimmung der Clusterzahl durch das Ward Verfahren hierarchisches Verfahren Bestimmung der Clusterzusammensetzung durch das Austauschverfahren partitionierendes Verfahren Weitere Schritte der Clusteranalyse Bestimmung der Clusterzahl durch Betrachtung der Varianz innerhalb und zwischen den Gruppen Hier wird bestimmt wie viele Gruppen tatsachlich gebildet werden denn bei der Clusterung selbst ist keine Abbruchbedingung vorgegeben Z B wird bei einem agglomerativen Verfahren folglich so lange fusioniert bis nur noch eine Gesamtgruppe vorhanden ist Interpretation der Cluster abhangig von den inhaltlichen Ergebnissen z B durch t Wert Beurteilung der Gute der Clusterlosung Bestimmung der Trennscharfe der Variablen Gruppenstabilitat Unterschiedliche Proximitatsmasse Skalen Bearbeiten Die Skalen bezeichnen den Wertebereich den die betrachtete n Variable n des Objektes annehmen kann konnen Je nachdem welche Art von Skala vorliegt muss man ein passendes Proximitatsmass verwenden Es gibt drei Hauptkategorien von Skalen Binare SkalenDie Variable kann zwei Werte annehmen z B 0 oder 1 mannlich oder weiblich Verwendete Proximitatsmasse Beispiele Jaccard Koeffizient Ahnlichkeitsmass Lance Williams Mass Distanzmass Nominale SkalenDie Variable kann unterschiedliche Werte annehmen um eine qualitative Unterscheidung zu treffen z B ob Pop Rock oder Jazz bevorzugt wird Verwendete Proximitatsmasse Beispiele Chi Quadrat Mass Distanzmass Phi Quadrat Mass Distanzmass Metrische SkalenDie Variable nimmt einen Wert auf einer vorher festgelegten Skala ein um eine quantitative Aussage zu treffen z B wie gerne eine Person Pop auf einer Skala von 1 bis 10 hort Verwendete Proximitatsmasse Beispiele Pearson Korrelationskoeffizient Ahnlichkeitsmass Euklidische Metrik Distanzmass Minkowski Metrik Distanzmass Formen der Gruppenbildung Gruppenzugehorigkeit Bearbeiten Hauptartikel Cluster Datenanalyse Es sind drei unterschiedliche Formen der Gruppenbildung Gruppenzugehorigkeit moglich Bei den uberlappenden Gruppen kann ein Objekt mehreren Gruppen zugeordnet werden bei den nicht uberlappenden Gruppen hingegen wird jedes Objekt nur einer einzelnen Gruppe Segment Cluster zugeordnet In den Fuzzy Gruppen gehort ein Element jeder Gruppe mit einem bestimmten Grad des Zutreffens an Nichtuberlappend Formen der Gruppenbildung Uberlappend Fuzzy Man unterscheidet zwischen harten und weichen Clustering Algorithmen Harte Methoden z B k means Spektrales Clustering Kernbasierte Hauptkomponentenanalyse kernel principal component analysis kurz kernel PCA ordnen jeden Datenpunkt genau einem Cluster zu wohingegen bei weichen Methoden z B EM Algorithmus mit Gaussschen Mischmodellen gaussian mixture models kurz GMMs jedem Datenpunkt fur jeden Cluster ein Grad zugeordnet wird mit der dieser Datenpunkt in diesem Cluster zugeordnet werden kann Weiche Methoden sind insbesondere dann nutzlich wenn die Datenpunkte relativ homogen im Raum verteilt sind und die Cluster nur als Regionen mit erhohter Datenpunktdichte in Erscheinung treten d h wenn es z B fliessende Ubergange zwischen den Clustern oder Hintergrundrauschen gibt harte Methoden sind in diesem Fall unbrauchbar Unterscheidung der Clusterverfahren Bearbeiten Clusterverfahren lassen sich in graphentheoretische hierarchische partitionierende und optimierende Verfahren sowie in weitere Unterverfahren einteilen nbsp Diese Klassifikation bedarf einer grundsatzlichen Uberarbeitung Naheres sollte auf der Diskussionsseite angegeben sein Bitte hilf mit ihn zu verbessern und entferne anschliessend diese Markierung Partitionierende Verfahren verwenden eine gegebene Partitionierung und ordnen die Elemente durch Austauschfunktionen um bis die verwendete Zielfunktion ein Optimum erreicht Zusatzliche Gruppen konnen jedoch nicht gebildet werden da die Anzahl der Cluster bereits am Anfang festgelegt wird vgl hierarchische Verfahren Hierarchische Verfahren gehen von der feinsten agglomerativ bzw bottom up bzw grobsten divisiv bzw top down Partition aus vgl Top down und Bottom up Die grobste Partition entspricht der Gesamtheit aller Elemente und die feinste Partition enthalt lediglich ein Element bzw jedes Element bildet seine eigene Gruppe Partition Durch Aufteilen bzw Zusammenfassen lassen sich anschliessend Cluster bilden Einmal gebildete Gruppen konnen nicht mehr aufgelost oder einzelne Elemente getauscht werden vgl partitionierende Verfahren Agglomerative Verfahren kommen in der Praxis z B bei der Marktsegmentierung im Marketing sehr viel haufiger vor graphentheoretisch divisiv hierarchisch agglomerativ Clusterverfahren Austauschverfahren partitionierend iterierte Minimaldistanzverfahren optimierend Zu beachten ist dass man noch diverse weitere Verfahren und Algorithmen unterscheiden kann unter anderem uberwachte supervised und nicht uberwachte unsupervised Algorithmen oder modellbasierte Algorithmen bei denen eine Annahme uber die zugrundeliegende Verteilung der Daten gemacht wird z B Gaussian mixture model Verfahren BearbeitenEs sind eine Vielzahl von Clustering Verfahren in den unterschiedlichsten Anwendungsgebieten entwickelt worden Man kann folgende Verfahrenstypen unterscheiden zentrumsbasierte partitionierende Verfahren hierarchische Verfahren dichte basierte Verfahren gitter basierte Verfahren und kombinierte Verfahren Die ersten beiden Verfahrenstypen sind die klassischen Clusterverfahren wahrend die anderen Verfahren eher neueren Datums sind Partitionierende Clusterverfahren Bearbeiten Partitionierende Clusteranalyse nbsp K means teilt die Daten in Voronoi Zellen und nimmt an dass die Cluster etwa gleich gross sind hier nicht gerechtfertigt nbsp K means kann dichtebasierte Cluster nicht gut trennen nbsp Normalverteilte Cluster konnen von EM Clustering gut erkannt werden nbsp Nicht konvexe Cluster werden auch vom EM Algorithmus nicht gut erkannt Die Gemeinsamkeit der partitionierenden Verfahren ist dass zunachst die Zahl der Cluster k displaystyle k nbsp festgelegt werden muss Nachteil Dann werden k displaystyle k nbsp Clusterzentren bestimmt und diese iterativ so lange verschoben bis sich die Zuordnung der Beobachtungen zu den k displaystyle k nbsp Clusterzentren nicht mehr verandert wobei eine vorgegebene Fehlerfunktion minimiert wird Ein Vorteil ist dass Objekte wahrend der Verschiebung der Clusterzentren ihre Clusterzugehorigkeit wechseln konnen k Means Algorithmus Die Clusterzentren werden zufallig festgelegt und die Summe der quadrierten euklidischen Abstande der Objekte zu ihrem nachsten Clusterzentrum wird minimiert Das Update der Clusterzentren geschieht durch Mittelwertbildung aller Objekte in einem Cluster k Means 2 Als Clusterzentren werden auch zufallig Objekte so ausgewahlt sodass sie etwa uniform im Raum der Objekte verteilt sind Dies fuhrt zu einem schnelleren Algorithmus k Median Algorithmus Hier wird die Summe der Manhattan Distanzen der Objekte zu ihrem nachsten Clusterzentrum minimiert Das Update der Clusterzentren geschieht durch die Berechnung des Medians aller Objekte in einem Cluster Ausreisser in den Daten haben dadurch weniger Einfluss k Medoids oder Partitioning Around Medoids PAM 3 Die Clusterzentren sind hier immer Objekte Durch Verschiebung von Clusterzentren auf ein benachbartes Objekt wird die Summe der Distanzen zum nachstgelegenen Clusterzentrum minimiert Im Gegensatz zum k Means Verfahren werden nur die Distanzen zwischen den Objekten benotigt und nicht die Koordinaten der Objekte dd Fuzzy c Means Algorithmus 4 Fur jedes Objekt wird ein Zugehorigkeitsgrad zu einem Cluster berechnet oft aus dem reellwertigen Intervall 0 1 Zugehorigkeitsgrad 1 Objekt gehort vollstandig zu einem Cluster Zugehorigkeitsgrad 0 Objekt gehort nicht zu dem Cluster Dabei gilt Je weiter ein Objekt vom Clusterzentrum entfernt ist desto kleiner ist auch sein Zugehorigkeitsgrad zu diesem Cluster Wie im k Median Verfahren werden die Clusterzentren dann verschoben jedoch haben weit entfernte Objekte kleiner Zugehorigkeitsgrad einen geringeren Einfluss auf die Verschiebung als nahe Objekte Damit wird auch eine weiche Clusterzuordnung erreicht Jedes Objekt gehort zu jedem Cluster mit einem entsprechenden Zugehorigkeitsgrad EM Clustering 5 Die Cluster werden als k displaystyle k nbsp multivariate Normalverteilungen modelliert Mit Hilfe des EM Algorithmus werden die unbekannten Parameter m i S i displaystyle mu i Sigma i nbsp mit i 1 k displaystyle i 1 ldots k nbsp der Normalverteilungen iterativ geschatzt Im Gegensatz zu k Means wird damit eine weiche Clusterzuordnung erreicht Mit einer gewissen Wahrscheinlichkeit gehort jedes Objekt zu jedem Cluster und jedes Objekt beeinflusst so die Parameter jedes Clusters Affinity Propagation 6 Affinity Propagation AP ist ein deterministischer Message Passing Algorithmus der automatisch eine Anzahl Clusterzentren findet Als Ahnlichkeitsfunktion kann je nach Art der Daten z B die negative euklidische Distanz verwendet werden Abstande der Objekte zu ihrem nachsten Clusterzentrum werden minimiert Das Update der Clusterzentren geschieht durch Berechnung der Responsibility und Availability aller Objekte gegeneinander sowie deren Summe wobei ein zusatzlicher Dampfungsfaktor numerische Instabilitaten vermeiden soll Die Anzahl der Cluster wird automatisch ermittelt das Ergebnis hangt aber von den manuell gesetzten Werten fur Dampfung und Selbstahnlichkeit der einzelnen Datenpunkte ab sodass damit die ermittelte Anzahl der Cluster nicht die optimale sein muss Hierarchische Clusterverfahren Bearbeiten Hauptartikel Hierarchische Clusteranalyse Hierarchische Clusteranalyse nbsp Single Linkage auf normalverteilten Daten Durch den Single Link Effekt trennen sich die beiden grossten Cluster erst bei insgesamt 35 Clustern nbsp Single Linkage mit dichtebasierten Clustern Zusatzlich zu den zwei Clustern werden noch 18 weitere einelementige Cluster gefunden Als hierarchische Clusteranalyse bezeichnet man eine bestimmte Familie von distanzbasierten Verfahren zur Clusteranalyse Cluster bestehen hierbei aus Objekten die zueinander eine geringere Distanz oder umgekehrt hohere Ahnlichkeit aufweisen als zu den Objekten anderer Cluster Dabei wird eine Hierarchie von Clustern aufgebaut auf der einen Seite ein Cluster der alle Objekte enthalt und auf der anderen Seite so viele Cluster wie man Objekte hat d h jedes Cluster enthalt genau ein Objekt Man unterscheidet zwei wichtige Typen von Verfahren Die divisiven Clusterverfahren in denen zunachst alle Objekte als zu einem Cluster gehorig betrachtet werden und dann schrittweise die Cluster in immer kleinere Cluster aufgeteilt werden bis jeder Cluster nur noch aus einem Objekt besteht auch Top down Verfahren Divisive Analysis Clustering DIANA 7 Man beginnt mit einem Cluster das alle Objekte enthalt Im Cluster mit dem grossten Durchmesser wird das Objekt gesucht das die grosste mittlere Distanz oder Unahnlichkeit zu den anderen Objekten des Clusters aufweist Dies ist der Kern des Splitterclusters Iterativ wird jedes Objekt das nahe genug am Splittercluster ist diesem hinzugefugt Der gesamte Prozess wird wiederholt bis jeder Cluster nur noch aus einem Objekt besteht dd Die agglomerativen Clusterverfahren in denen zunachst jedes Objekt einen Cluster bildet und dann schrittweise die Cluster in immer grossere Cluster zusammengefasst werden bis alle Objekte zu einem Cluster gehoren auch Bottom up Verfahren Die Verfahren in dieser Familie unterscheiden zum einen nach den verwendeten Distanz bzw Ahnlichkeitsmassen zwischen Objekten aber auch zwischen ganzen Clustern und meist wichtiger nach ihrer Fusionsvorschrift welche Cluster in einem Schritt zusammengefasst werden Die Fusionierungsmethoden unterscheiden sich in der Art und Weise wie die Distanz des fusionierten Clusters zu allen anderen Clustern berechnet wird Wichtige Fusionierungsmethoden sind Single Linkage 8 9 10 11 Die Cluster deren nachste Objekte die kleinste Distanz oder Unahnlichkeit haben werden fusioniert dd Ward Methode 12 Die Cluster die den kleinsten Zuwachs der totalen Varianz haben werden fusioniert dd Fur beide Verfahren gilt einmal gebildete Cluster konnen nicht mehr verandert oder einzelne Objekte getauscht werden Es wird die Struktur entweder stets nur verfeinert divisiv oder nur verallgemeinert agglomerativ sodass eine strikte Cluster Hierarchie entsteht An der entstandenen Hierarchie kann man nicht mehr erkennen wie sie berechnet wurde Dichtebasierte Verfahren Bearbeiten Beispiele fur dichtebasiertes Clustering nbsp Dichte basiertes clustering mit DBSCAN nbsp Da DBSCAN nur einen Dichte Schwellwert verwendet kann es benachbarte Cluster nicht immer gut trennen nbsp OPTICS ist eine DBSCAN Variante die besser mit Dichtevariationen umgehen kann Bei dichtebasiertem Clustering werden Cluster als Objekte in einem d dimensionalen Raum betrachtet die dicht beieinander liegen getrennt durch Gebiete mit geringerer Dichte DBSCAN 13 Density Based Spatial Clustering of Applications with Noise Objekte die in einem vorgegebenen Abstand ϵ displaystyle epsilon nbsp mindestens k displaystyle k nbsp weitere Objekte haben sind Kernobjekte Zwei Kernobjekte deren Distanz kleiner als ϵ displaystyle epsilon nbsp ist gehoren dabei zum selben Cluster Nicht Kern Objekte die nahe einem Cluster liegen werden diesem als Randobjekte hinzugefugt Objekte die weder Kernobjekte noch Randobjekte sind sind Rauschobjekte OPTICS 14 Ordering Points To Identify the Clustering Structure Der Algorithmus erweitert DBSCAN sodass auch verschieden dichte Cluster erkannt werden Die Wahl des Parameters ϵ displaystyle epsilon nbsp ist nicht mehr so ausschlaggebend um die Clusterstruktur der Objekte zu finden dd Maximum Margin Clustering 15 Es werden leere Bereiche im Raum der Objekte gesucht die zwischen zwei Clustern liegen Daraus werden Clustergrenzen bestimmt und damit auch die Cluster Die Technik ist eng angebunden an Support Vektor Maschinen Gitterbasierte Verfahren Bearbeiten Bei gitterbasierten Clusterverfahren wird der Datenraum unabhangig von den Daten in endlich viele Zellen aufgeteilt Der grosste Vorteil dieses Ansatzes ist die geringe asymptotische Komplexitat im Niedrigdimensionalen da die Laufzeit von der Anzahl der Gitterzellen abhangt Mit steigender Anzahl der Dimensionen wachst jedoch die Zahl der Gitterzellen exponentiell Vertreter sind STING und CLIQUE Zudem konnen Gitter zur Beschleunigung anderer Algorithmen eingesetzt werden bspw zur Approximation von k means oder zur Berechnung von DBSCAN GriDBSCAN Der Algorithmus STING 16 STatistical INformation Grid based Clustering teilt den Datenraum rekursiv in rechteckige Zellen Statistische Informationen fur jede Zelle werden auf der untersten Rekursionsebene vorausberechnet Relevante Zellen werden anschliessend mit einem Top Down Ansatz berechnet und zuruckgegeben CLIQUE 17 CLustering In QUEst arbeitet in zwei Phasen Zunachst wird der Datenraum in dicht besetzte d dimensionale Zellen partitioniert Die zweite Phase bestimmt aus diesen Zellen grossere Cluster indem durch eine Greedy Strategie grosstmogliche Regionen dicht besetzter Zellen ermittelt werden Kombinierte Verfahren Bearbeiten In der Praxis werden oft auch Kombinationen von Verfahren benutzt Ein Beispiel ist es erst eine hierarchische Clusteranalyse durchzufuhren um eine geeignete Clusterzahl zu bestimmen und danach noch ein k Means Clustering um das Resultat des Clusterings zu verbessern Oft lasst sich in speziellen Situation zusatzliche Information ausnutzen sodass z B die Dimension oder die Anzahl der zu clusternden Objekte reduziert wird Spektrales Clustering 18 19 Die zu clusterenden Objekte konnen auch als Knoten eines Graphs aufgefasst werden und die gewichteten Kanten geben Distanz oder Unahnlichkeit wieder Die Laplace Matrix eine spezielle Transformierte der Adjazenzmatrix Matrix der Ahnlichkeit zwischen allen n displaystyle n nbsp Objekten hat bei k displaystyle k nbsp Zusammenhangskomponenten Clustern den Eigenwert Null mit der Vielfachheit k displaystyle k nbsp Daher untersucht man die k displaystyle k nbsp kleinsten Eigenwerte der Laplace Matrix und den zugehorigen k displaystyle k nbsp dimensionalen Eigenraum k n displaystyle k ll n nbsp Statt in einem hochdimensionalen Raum wird nun in dem niedrigdimensionalen Eigenraum z B mit dem k Means Verfahren geclustert Multiview Clustering 20 Hierbei wird davon ausgegangen dass man mehrere Distanz oder Ahnlichkeitsmatrizen sog views der Objekte generieren kann Ein Beispiel sind Webseiten als zu clusternde Objekte eine Distanzmatrix kann auf Basis der gemeinsam verwendeten Worte berechnet werden eine zweite Distanzmatrix auf Basis der Verlinkung Dann wird ein Clustering oder ein Clustering Schritt mit der einen Distanzmatrix durchgefuhrt und das Ergebnis als Input fur ein Clustering oder ein Clustering Schritt mit der anderen Distanzmatrix benutzt Dies wird wiederholt bis sich die Clusterzugehorigkeit der Objekte stabilisiert Balanced iterative reducing and clustering using hierarchies BIRCH Fur sehr grosse Datensatze wird zunachst ein Preclustering durchgefuhrt Die so gewonnenen Cluster nicht mehr die Objekte werden dann z B mit einer hierarchischen Clusteranalyse weitergeclustert Dies ist die Basis des eigens fur SPSS entwickelten und dort eingesetzten Two Step clusterings Biclustering Bearbeiten Hauptartikel Biclustering Biclustering Co Clustering oder Two Mode Clustering ist eine Technik die das gleichzeitige Clustering von Zeilen und Spalten einer Matrix ermoglicht Zahlreiche Biclustering Algorithmen wurden fur die Bioinformatik entwickelt darunter Block Clustering CTWC Coupled Two Way Clustering ITWC Interrelated Two Way Clustering d Bicluster d pCluster d Pattern FLOC OPC Plaid Model OPSMs Order preserving Submatrices Gibbs SAMBA Statistical Algorithmic Method for Bicluster Analysis Robust Biclustering Algorithm RoBA Crossing Minimization cMonkey PRMs DCC LEB Localize and Extract Biclusters QUBIC QUalitative BIClustering BCCA Bi Correlation Clustering Algorithm und FABIA Factor Analysis for Bicluster Acquisition Auch in anderen Anwendungsgebieten werden Biclustering Algorithmen vorgeschlagen und eingesetzt Dort sind sie unter den Bezeichnungen Co Clustering Bidimensional Clustering sowie Subspace Clustering zu finden Evaluation BearbeitenDie Ergebnisse eines jeden Cluster Verfahrens mussen wie bei allen Verfahren des maschinellen Lernens einer Evaluation unterzogen werden Die Gute einer fertig berechneten Einteilung der Datenpunkte in Gruppen kann anhand verschiedener Metriken eingeschatzt werden Die Auswahl einer geeigneten Metrik muss immer im Hinblick auf die verwendeten Daten die vorgegebene Fragestellung sowie die gewahlte Clustering Methode erfolgen Es wird zwischen internen externen und relativen Metriken unterschieden 21 Interne Metriken bewerten die Cluster rein anhand des vorliegenden Datensatzes und dem internen Zusammenhang der Daten Externe Metriken ziehen zusatzlich externe Daten z B Experten Label hinzu Relative Metriken vergleichen die Ergebnisse zweier Cluster Algorithmen Interne Metriken Bearbeiten Internen Validitatsmetriken haben den Vorteil dass kein Wissen uber die korrekte Zuordnung vorhanden sein muss um das Ergebnis zu bewerten Silhouette Score Bearbeiten Zu den in der Praxis haufig verwendeten Evaluations Kennzahlen gehort der 1987 von Peter J Rousseeuw vorgestellte Silhouettenkoeffizient Dieser berechnet pro Datenpunkt einen Wert der angibt wie gut die Zuordnung zur gewahlten Gruppe im Vergleich zu allen deren Gruppen erfolgt ist 22 Mit einer Laufzeitkomplexitat von O n ist der Silhouettenkoeffizient aber langsamer als viele Clusterverfahren und kann so nicht auf grossen Daten verwendet werden Externe Metriken Bearbeiten Rand Index Bearbeiten Der Rand Index kann zur Bewertung der Ubereinstimmung gefundener Cluster mit einer Ground Truth herangezogen werden z B konnen Clusterzugehortigkeiten explizit in einer Laplace Matrix festgehalten werden Beim Rand Index handelt es sich um die Korrektklassifikationsrate fur die Klassifikation das Paar A und B tritt gemeinsam im Cluster auf Matthews Korrelationskoeffizient Bearbeiten Hauptartikel Matthews Korrelationskoeffizient Mutual Information Bearbeiten Hauptartikel Mutual InformationSiehe auch BearbeitenFaktorenanalyseLiteratur BearbeitenGrundlagen und Verfahren Bearbeiten Martin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Springer Berlin 2000 ISBN 3 540 67328 8 K Backhaus B Erichson W Plinke R Weiber Multivariate Analysemethoden Eine anwendungsorientierte Einfuhrung Springer 2003 ISBN 3 540 00491 2 S Bickel T Scheffer Multi View Clustering In Proceedings of the IEEE International Conference on Data Mining 2004 J Shi J Malik Normalized Cuts and Image Segmentation In Proc of IEEE Conf on Comp Vision and Pattern Recognition Puerto Rico 1997 Otto Schlosser Einfuhrung in die sozialwissenschaftliche Zusammenhangsanalyse Rowohlt Reinbek bei Hamburg 1976 ISBN 3 499 21089 4 Hennig C M Meila F Murtagh and R Rocci Handbook of Cluster Analysis Chapman and Hall CRC ISBN 978 0 429 18547 2Anwendung Bearbeiten J Bacher A Poge K Wenzig Clusteranalyse Anwendungsorientierte Einfuhrung in Klassifikationsverfahren 3 Auflage Oldenbourg Munchen 2010 ISBN 978 3 486 58457 8 J Bortz Statistik fur Sozialwissenschaftler Springer Berlin 1999 Kap 16 Clusteranalyse W Hardle L Simar Applied Multivariate Statistical Analysis Springer New York 2003 C Homburg H Krohmer Marketingmanagement Strategie Instrumente Umsetzung Unternehmensfuhrung 3 Auflage Gabler Wiesbaden 2009 Kapitel 8 2 2 H Moosbrugger D Frank Clusteranalytische Methoden in der Personlichkeitsforschung Eine anwendungsorientierte Einfuhrung in taxometrische Klassifikationsverfahren Huber Bern 1992 ISBN 3 456 82320 7 Einzelnachweise Bearbeiten Vgl unter anderem Otto Schlosser Einfuhrung in die sozialwissenschaftliche Zusammenhangsanalyse Rowohlt Reinbek bei Hamburg 1976 ISBN 3 499 21089 4 D Arthur S Vassilvitskii k means The advantages of careful seeding In Proceedings of the eighteenth annual ACM SIAM Symposium on Discrete algorithms Society for Industrial and Applied Mathematics 2007 S 1027 1035 S Vinod Integer programming and the theory of grouping In Journal of the American Statistical Association Band 64 1969 S 506 517 doi 10 1080 01621459 1969 10500990 JSTOR 2283635 J C Bezdek Pattern recognition with fuzzy objective function algorithms Plenum Press New York 1981 A P Dempster N M Laird D B Rubin Maximum Likelihood from Incomplete Data via the EM algorithm In Journal of the Royal Statistical Society Series B 39 1 1977 S 1 38 doi 10 1111 j 2517 6161 1977 tb01600 x Frey B J amp Dueck D 2007 Clustering by passing messages between data points Science New York N Y 315 5814 972 976 doi 10 1126 science 1136800 L Kaufman P J Roussew Finding Groups in Data An Introduction to Cluster Analysis John Wiley amp Sons 1990 K Florek J Lukasiewicz J Perkal H Steinhaus S Zubrzycki Taksonomia wroclawska In Przeglad Antropol 17 1951 S 193 211 K Florek J Lukaszewicz J Perkal H Steinhaus S Zubrzycki Sur la liaison et la division des points d un ensemble fini In Colloquium Mathematicae Vol 2 No 3 4 Institute of Mathematics Polish Academy of Sciences 1951 S 282 285 L L McQuitty Elementary linkage analysis for isolating orthogonal and oblique types and typal relevancies In Educational and Psychological Measurement 1957 S 207 229 doi 10 1177 001316445701700204 P H Sneath The application of computers to taxonomy In Journal of General Microbiology 17 1 1957 S 201 226 doi 10 1099 00221287 17 1 201 J H Ward Jr Hierarchical grouping to optimize an objective function In Journal of the American Statistical Association 58 301 1963 S 236 244 doi 10 1080 01621459 1963 10500845 JSTOR 2282967 M Ester H P Kriegel J Sander X Xu A density based algorithm for discovering clusters in large spatial databases with noise In KDD 96 Proceedings Vol 96 1996 S 226 231 Mihael Ankerst Markus M Breunig Hans Peter Kriegel Jorg Sander OPTICS Ordering Points To Identify the Clustering Structure In ACM SIGMOD international conference on Management of data ACM Press 1999 S 49 60 CiteSeerX abgerufen am 3 Februar 2023 L Xu J Neufeld B Larson D Schuurmans Maximum margin clustering In Advances in neural information processing systems 2004 S 1537 1544 Wei Wang Jiog Yang Richard R Muntz STING A Statistical Information Grid Approach to Spatial Data Mining In Proceedings of the 23rd International Conference on Very Large Data Bases 25 August 1997 abgerufen am 3 Februar 2023 englisch Rakesh Agrawal Johannes Gehrke Dimitrios Gunopulos Prabhakar Raghavan Automatic subspace clustering of high dimensional data for data mining applications In Proceedings of the 1998 ACM SIGMOD international conference on Management of data Abgerufen am 3 Februar 2023 englisch W E Donath A J Hoffman Lower bounds for the partitioning of graphs In IBM Journal of Research and Development 17 5 1973 S 420 425 doi 10 1147 rd 175 0420 M Fiedler Algebraic connectivity of graphs In Czechoslovak Mathematical Journal 23 2 1973 S 298 305 S Bickel T Scheffer Multi View Clustering In ICDM Vol 4 Nov 2004 S 19 26 doi 10 1109 ICDM 2004 10095 Mohammed J Zaki Wagner Meira Jr Data mining and analysis fundamental concepts and algorithms Cambridge University Press 2014 ISBN 978 0 511 81011 4 S 425 ff lagout org PDF abgerufen am 3 Februar 2023 Peter J Rousseeuw Silhouettes A graphical aid to the interpretation and validation of cluster analysis In Journal of Computational and Applied Mathematics Band 20 Elsevier November 1987 S 53 65 doi 10 1016 0377 0427 87 90125 7 Abgerufen von https de wikipedia org w index php title Clusteranalyse amp oldid 238728220