www.wikidata.de-de.nina.az
Die Silhouette gibt fur eine Beobachtung an wie gut die Zuordnung zu den beiden nachstgelegenen Clustern ist Der Silhouettenkoeffizient gibt eine von der Cluster Anzahl unabhangige Masszahl fur die Qualitat eines Clusterings an Der Silhouettenplot visualisiert sowohl alle Silhouetten eines Datensatzes als auch den Silhouettenkoeffizient fur die einzelnen Cluster und den Gesamtdatensatz Inhaltsverzeichnis 1 Silhouette 2 Silhouettenkoeffizient 3 Silhouettenplot 4 Beispiel 5 Literatur 6 Weblinks 7 EinzelnachweiseSilhouette BearbeitenGehort das Objekt o displaystyle o nbsp zum Cluster A displaystyle A nbsp so ist die Silhouette von o displaystyle o nbsp definiert als 1 S o 0 wenn o einziges Element von A ist dist B o dist A o max dist A o dist B o sonst displaystyle S o begin cases 0 amp text wenn o text einziges Element von A text ist frac operatorname dist B o operatorname dist A o max operatorname dist A o operatorname dist B o amp text sonst end cases nbsp mit dist A o displaystyle operatorname dist A o nbsp als seinem mittleren Abstand zu den anderen Objekten des Clusters A displaystyle A nbsp und dist B o displaystyle operatorname dist B o nbsp dem mittleren Abstand zu den Objekten des nachstgelegenen anderen Clusters Strukturierung Wertebereich von S o displaystyle S o nbsp stark 0 75 lt S o 1 displaystyle 0 75 lt S o leq 1 nbsp mittel 0 5 lt S o 0 75 displaystyle 0 5 lt S o leq 0 75 nbsp schwach 0 25 lt S o 0 5 displaystyle 0 25 lt S o leq 0 5 nbsp keine Struktur 0 lt S o 0 25 displaystyle 0 lt S o leq 0 25 nbsp Dabei wird die Differenz dieser Abstande dist B o dist A o displaystyle operatorname dist B o operatorname dist A o nbsp normiert mit dem grosseren der beiden Abstande sodass S o displaystyle S o nbsp zwischen 1 und 1 liegt Negative Werte zeigen an dass o displaystyle o nbsp eher zum Cluster B displaystyle B nbsp passt bei Werten um null ist eine Zugehorigkeit nicht deutlich und grosse Werte ergeben sich wenn o displaystyle o nbsp wohl korrekt dem Cluster A displaystyle A nbsp zugeordnet wurde Silhouettenkoeffizient BearbeitenDer Silhouettenkoeffizient s C displaystyle s C nbsp ist definiert als s C 1 n C o C s o displaystyle s C tfrac 1 n C sum o in C s o nbsp also als das arithmetische Mittel aller n C displaystyle n C nbsp Silhouetten des Clusters C displaystyle C nbsp definiert Der Silhouettenkoeffizient kann fur jeden Cluster oder fur den Gesamtdatensatz berechnet werden Beim k means oder k medoid Algorithmus kann man mit ihm die Ergebnisse mehrerer Durchlaufe des Algorithmus vergleichen um bessere Parameter zu erhalten Dies bietet sich insbesondere fur die genannten Algorithmen an da sie randomisiert starten und so unterschiedliche lokale Maxima finden konnen Der Einfluss des Parameters k displaystyle k nbsp kann so reduziert werden da der Silhouettenkoeffizient von der Cluster Anzahl unabhangig ist und somit Ergebnisse vergleichen kann die mit unterschiedlichen Werten fur k displaystyle k nbsp erhalten wurden Silhouettenplot Bearbeiten nbsp Die grafische Darstellung der Silhouetten erfolgt fur alle Beobachtungen gemeinsam in einem Silhouettenplot Fur alle Beobachtungen die zu einem Cluster gehoren wird der Wert der Silhouette als waagerechte oder senkrechte Linie dargestellt Die Beobachtungen in einem Cluster werden dabei nach der Grosse der Silhouetten geordnet In der rechten Grafik werden fur vier verschiedene Datensatze die Daten das Dendrogramm fur eine hierarchische Clusteranalyse euklidische Distanz Single Linkage und der Silhouettenplot fur die Losung mit zwei Clustern dargestellt von oben nach unten Die Zuordnung der Datenpunkte durch die hierarchische Clusteranalyse in der Zwei Cluster Losung wird durch die Farben rot Zuordnung zu Cluster 1 und blau Zuordnung zu Cluster 2 symbolisiert Je besser die beiden Cluster in den Daten getrennt sind von links nach rechts desto besser kann die hierarchische Clusteranalyse die Datenpunkte korrekt zuordnen Auch der Silhouettenplot verandert sich Wahrend fur den linken Datensatz negative Silhouetten vorkommen finden sich im ganz rechten Datensatz nur positive Silhouetten Auch die Silhouettenkoeffizienten werden von links nach ganz rechts grosser sowohl fur die einzelnen Cluster als auch fur den gesamten Datensatz Beispiel Bearbeiten nbsp Der Iris flower Datensatz besteht aus jeweils 50 Beobachtungen dreier Arten von Schwertlilien Iris Setosa Iris Virginica und Iris Versicolor an denen jeweils vier Attribute der Bluten erhoben wurden Die Lange und die Breite des Sepalum Kelchblatt und des Petalum Kronblatt Rechts zeigt eine Streudiagramm Matrix die Daten fur die vier Variablen nbsp Dendrogramm und Silhouettenplot fur eine Zwei Drei und Vier Cluster Losung Fur die vier Grossen wurde eine hierarchische Clusteranalyse mit der euklidischen Distanz und der Single Linkage Methode durchgefuhrt Oben sind folgenden Grafiken dargestellt Links oben Ein Dendrogramm der Clusterlosung Hier sieht man dass sich eine Zwei oder Vier Cluster Losung anbote Rechts oben Grafische Darstellung der Silhouetten der Zwei Cluster Losung Im ersten Cluster sind negative Silhouetten S o displaystyle S o nbsp zu finden sodass diese Beobachtungen eher falsch zugeordnet sind Eventuell ist eine Losung mit mehr Clustern besser geeignet Links unten Grafische Darstellung der Silhouetten der Drei Cluster Losung Der erste Cluster wird in zwei Teilcluster zerlegt 78 50 28 displaystyle 78 50 28 nbsp zwar sind im ersten Cluster die negativen Silhouetten verschwunden jedoch haben Beobachtungen im zweiten Cluster nun negative Silhouetten Rechts unten Grafische Darstellung der Silhouetten der Vier Cluster Losung Der zweite Cluster der Zwei Cluster Losung wird nun in zwei Teilcluster zerlegt 72 60 12 displaystyle 72 60 12 nbsp Es gibt fast keine negativen Silhouetten mehr Es ergeben sich folgende Silhouettenkoeffizienten Silhouettenkoeffizientenn C s C displaystyle n C s C nbsp Anzahl Cluster Total2 150 0 52 78 0 39 72 0 663 150 0 51 50 0 76 28 0 59 72 0 314 150 0 50 50 0 76 28 0 52 60 0 27 12 0 51Literatur BearbeitenMartin Ester Jorg Sander Knowledge Discovery in Databases Techniken und Anwendungen Springer Hamburg Berlin 2000 ISBN 3 540 67328 8 S 66 Online eingeschrankte Vorschau in der Google Buchsuche Peter J Rousseeuw Silhouettes a Graphical Aid to the Interpretation and Validation of Cluster Analysis In Computational and Applied Mathematics 20 1987 S 53 65 doi 10 1016 0377 0427 87 90125 7 Weblinks Bearbeitensilhouette Berechnen von Silhouettenkoeffizienten und plots mit R Einzelnachweise Bearbeiten Peter J Rousseeuw Silhouettes A graphical aid to the interpretation and validation of cluster analysis In Journal of Computational and Applied Mathematics Nr 20 1987 S 53 65 online Abgerufen von https de wikipedia org w index php title Silhouettenkoeffizient amp oldid 230755417