www.wikidata.de-de.nina.az
Scagnostics aus engl Scatterplot diagnostics bezeichnet eine Reihe von Masszahlen die bestimmte Eigenschaften einer Punktwolke in einem Streudiagramm kennzeichnen die in der Praxis haufiger auftreten Der Begriff wurde von John W Tukey und Paul A Tukey gepragt und spater von Wilkison Anand und Grossmann ausgearbeitet 1 2 3 Folgende neun Masszahlen werden betrachtet Fur die Ausreisser in den Daten Ausreisseranteil outlying Fur die Dichte der Datenpunkte Schiefe skewed Klumpigkeit clumpy Sparlichkeit sparse Gestreiftheit striated Fur die Form der Punktwolke Konvexitat convex Dunnheit skinny Faserigkeit stringy Fur einen Zusammenhang in den Daten Monotonie monotonic Inhaltsverzeichnis 1 Tukeys Idee 2 Berechnung der Koeffizienten 2 1 Ausreisseranteil 2 2 Schiefe 2 3 Klumpigkeit 2 4 Sparlichkeit 2 5 Gestreiftheit 2 6 Konvexitat 2 7 Dunnheit 2 8 Faserigkeit 2 9 Monotonie 3 Beispiel 4 Weblinks 5 EinzelnachweiseTukeys Idee Bearbeiten nbsp Eine Moglichkeit einen multivariaten Datensatz mit p displaystyle p nbsp Variablen zu visualisieren ist eine Streudiagramm Matrix siehe das Beispiel rechts fur funf Variablen Der Nachteil dieser Darstellung ist es dass das Diagramm nur wenig Variablen enthalten darf sonst wird es unubersichtlich bzw man kann kaum noch Datenstrukturen erkennen Die Idee der Bruder Tukey war es das Problem von p p 1 2 displaystyle p p 1 2 nbsp Streudiagrammen auf eine kleinere Zahl von k k 1 2 displaystyle k k 1 2 nbsp Streudiagrammen fur die Masszahlen zu reduzieren Denn die k displaystyle k nbsp Koeffizienten der p p 1 2 displaystyle p p 1 2 nbsp Streudiagramme konnen dann wieder in einer Streudiagramm Matrix dargestellt werden und mit Linking Methoden konnen die Streudiagramme der Daten herausgegriffen werden die ungewohnlich Werte der Koeffizienten zeigen Die Tukey Bruder haben verschiedene Koeffizienten benutzt z B Masse beruhend auf einer geschalten konvexen Hulle der Daten Flache Durchmesser auf geschlossenen Hohenlinien der geschatzten Dichtefunktion Flache Durchmesser Modalitat Konvexitat nicht lineare principal curves usw Damit wollten sie Besonderheiten der Punktwolken in Bezug auf der Dichte der Daten Form Richtung usw aufdecken Ihre Masszahlen wiesen jedoch ein paar Probleme auf Einige der Masszahlen hatten eine Berechnungskomplexitat der Ordnung O n 3 displaystyle mathcal O n 3 nbsp n displaystyle n nbsp Anzahl der Beobachtungen im Datensatz der sie fur Datensatze mit vielen Beobachtungen ungeeignet macht Implizit wurde angenommen dass fur jedes Paar von Variablen eine bivariate stetige Dichtefunktion existierte In der Praxis sind jedoch viele Variablen diskret oder klassiert Berechnung der Koeffizienten Bearbeiten nbsp Delaunay Triangulation und minimaler Spannbaum eines Datensatzes Um diesen Problemen zu umgehen haben Wilkinson Anand und Grossman fur die Berechnung der Masszahlen graphentheoretische Ansatze gewahlt Eine Delaunay Triangulation der Daten und einen darauf aufbauend minimalen Spannbaum siehe Grafik rechts In einem minimalen Spannbaum werden alle Datenpunkte mit ihren Nachbarn so verbunden dass ein Graph mit minimaler Lange entsteht der alle Datenpunkte umfasst Die konvexe Hulle der Datenpunkte die sich als die ausseren Kanten in der Grafik rechts ergibt Die a displaystyle alpha nbsp Form der Datenpunkte Sie ergibt sich als die Grenzen der Dreiecke der Delaunay Triangulation deren Umkreis einen Radius a displaystyle leq alpha nbsp hat Im Gegensatz zur konvexen Hulle kann die a displaystyle alpha nbsp Form auch zu Lochern fuhren a displaystyle alpha nbsp ist hierbei das 90 Quantil der Kantenlangen des minimalen Spannbaums Da Ausreisser in den Daten die Masszahlen stark beeinflussen konnen wurden diese zum einen auf robusten Methoden basiert wie auch schon bei den Tukeybrudern und zum anderen wurden sie bei der Triangulation ausgeschlossen Des Weiteren wurden die Masszahlen so gewahlt dass die Berechnungkomplexitat O n log n displaystyle mathcal O n log n nbsp nicht uberschritt Um die Berechnung weiter zu beschleunigen wurde noch Binning angewandt d h nahe beieinanderliegende Datenpunkte wurden zusammengefasst nbsp Konvexe Hulle a displaystyle alpha nbsp Hulle und minimaler Spannbaum eines Datensatzes Alle Masszahlen liegen im Intervall von Null bis Eins Um dies zu erreichen werden in einem ersten Schritt alle Variablen des Datensatze auf das Intervall 0 1 displaystyle 0 1 nbsp reskaliert U i X i min X i max X i min X i displaystyle U i frac X i min X i max X i min X i nbsp Mit den reskalierten Daten werden dann die folgenden Masszahlen berechnet Ausreisseranteil Bearbeiten Man berechnet zunachst das 25 Quantil q 25 displaystyle q 25 nbsp und das 75 Quantil q 75 displaystyle q 75 nbsp der Kantenlangen im minimalen Spannbaum MST Kanten deren Lange grosser als q 75 1 5 q 75 q 25 displaystyle q 75 1 5 q 75 q 25 nbsp werden als lange Kanten gekennzeichnet c outlying Gesamtlange der langen Kanten im MST Gesamtlange aller Kanten im MST displaystyle c text outlying frac text Gesamtlange der langen Kanten im MST text Gesamtlange aller Kanten im MST nbsp Dies ist ein Mass fur den Anteil der langen Kanten an allen Kanten im MST und nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Schiefe Bearbeiten Man berechnet das 10 Quantil q 10 displaystyle q 10 nbsp das 50 Quantil q 50 displaystyle q 50 nbsp und das 90 Quantil q 90 displaystyle q 90 nbsp der Kantenlangen im MST c skewed q 90 q 50 q 90 q 10 displaystyle c text skewed frac q 90 q 50 q 90 q 10 nbsp Dies ist ein robustes Mass fur die Schiefe der Verteilung der Kantenlangen im MST Dies gibt eine Information uber die relative Dichte der Datenpunkte nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Klumpigkeit Bearbeiten Eine schiefe Verteilung der Kantenlangen im MST heisst nicht unbedingt dass die Daten in Teilgruppen zerfallen Daher wird dafur ein Mass der Klumpigkeit definiert Wird jeweils eine Kante e j displaystyle e j nbsp aus dem MST entfernt dann zerfallt der MST in zwei Teilgraphen In dem kleineren der beiden Teilgraphen wird nun die langste Kante gesucht c clumpy max j 1 max k im kleineren Teilgraph Kantenlange k Kantenlange j displaystyle c text clumpy max j left 1 frac max k text im kleineren Teilgraph text Kantenlange k text Kantenlange j right nbsp Die Masszahl liegt nahe Eins wenn z B eine lange Kante zwischen zwei Clustern entfernt wird Innerhalb eines Cluster sind die Distanzen klein so dass das Verhaltnis nahe bei Null liegt und daher c clumpy displaystyle c text clumpy nbsp gross wird nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Sparlichkeit Bearbeiten Die Sparlichkeit ist definiert als das 90 Quantil der Kantenlangen des MST c sparse min 1 q 90 displaystyle c text sparse min 1 q 90 nbsp nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Gestreiftheit Bearbeiten Hierbei werden alle Kanten der Delaunay Triangulation betrachtet Haben zwei benachbarte Kanten einen Winkel von mehr als 138 5 Grad genauer cos Winkel lt 0 75 displaystyle cos text Winkel lt 0 75 nbsp dann werden sie als gestreift bezeichnet c striated Anzahl der gestreiften Kantenpaare Anzahl aller Kanten in der Delaunay Triangulation displaystyle c text striated frac text Anzahl der gestreiften Kantenpaare text Anzahl aller Kanten in der Delaunay Triangulation nbsp nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Konvexitat Bearbeiten Um die Konvexitat der Daten zu beurteilen wird die Flache der a displaystyle alpha nbsp Form mit der Flache der konvexen Hulle verglichen c convex Flache der a Form Flache der konvexen Hulle displaystyle c text convex frac text Flache der alpha text Form text Flache der konvexen Hulle nbsp nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Dunnheit Bearbeiten Um zu prufen wie dunn die Datenpunkte verteilt sind wird die a displaystyle alpha nbsp Form genutzt c skinny 1 4 p Flache der a Form Umfang der a Form displaystyle c text skinny 1 frac sqrt 4 pi text Flache der alpha text Form text Umfang der alpha text Form nbsp Dies ist ein normiertes Mass Wenn die a displaystyle alpha nbsp Form ein Kreis ist dann ergibt sich c skinny displaystyle c text skinny nbsp als Null nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Faserigkeit Bearbeiten Die Faserigkeit pruft ob der MST aus einem durchgehenden Pfad besteht d h keine Abzweigungen besitzt Dafur wird der Durchmesser des MST als die Lange des langsten durchgehenden Pfades bestimmt c stringy Durchmesser des MST Gesamtlange im MST displaystyle c text stringy frac text Durchmesser des MST text Gesamtlange im MST nbsp Besitzt der MST keine Verzweigungen dann ergibt sich ein Wert fur c stringy displaystyle c text stringy nbsp von Eins nbsp Vorlage Panorama Wartung Bildbeschreibung fehlt Monotonie Bearbeiten Um einen Trend in den Daten zu sehen wird Spearmans Rangkorrelationskoeffizient genutzt c monotonic r s 2 displaystyle c text monotonic r s 2 nbsp nbsp Vorlage Panorama Wartung Bildbeschreibung fehltBeispiel Bearbeiten nbsp Die rechte Grafik zeigt bezirksweise den mittleren Hauspreis medv in Abhangigkeit vom Anteil der Unterschichtbevolkerung lstat der Boston Housing Daten Folgende Scagnostics Masszahlen wurden berechnet und die Ergebnisse mit den Beispieldatensatzen von oben verglichen c outlying displaystyle c text outlying nbsp 0 1459 Der Wert erreicht fast den maximale Wert der Beispieldatensatze Dies weist auf einige Ausreisser in den Daten hin tatsachlich gibt es grosse Abstande zwischen den Datenpunkten am rechten Rand c skewed displaystyle c text skewed nbsp 0 7755 Auch hier wird fast der maximale Wert der Beispieldatensatze erreicht Man sieht deutlich in den Daten eine zentrale Region in der die Datenpunkte dichter sind und ausserhalb weniger dicht c clumpy displaystyle c text clumpy nbsp 0 0322 Dieser Wert ist relativ klein Die Daten zerfallen auch nicht in einzelne Cluster c sparse displaystyle c text sparse nbsp 0 0353 Der Wert liegt noch unterhalb des kleinsten Wertes der Beispieldatensatze D h die Daten bedecken nur einen Teil der Gesamtflache c striated displaystyle c text striated nbsp 0 0463 Der Wert liegt an der unteren Grenzen der Beispieldatensatze Eine klare streifige Struktur ist daher nicht zu erkennen c convex displaystyle c text convex nbsp 0 3501 Der Wert liegt im Mittelfeld der Beispieldatensatze Insbesondere bei nicht linearen Zusammenhangen tritt dieser Wert in den Beispieldatensatzen auf c skinny displaystyle c text skinny nbsp 0 5833 Auch dieser Wert liegt im Mittelfeld der Beispieldatensatze Dies weist auf eine Struktur hin die einen Zusammenhang vermuten lasst zwischen diesen Variablen c stringy displaystyle c text stringy nbsp 0 3557 Dieser Wert liegt am unteren Rand der Beispieldatensatze Eine glatte Struktur gibt es in den Daten nicht d h der Datensatz enthalt etwas Streuung c monotonic displaystyle c text monotonic nbsp 0 7484 Dieser Wert liegt am oberen Rand der Beispieldatensatze Da es einen deutlichen Zusammenhang zwischen beiden Variablen ist das nicht uberraschend Zusammenfassend kann also gesagt werden Dieses Streudiagramm enthalt einen deutlichen nicht linearen Zusammenhang mit vermutlich starkerer Streuung Die Daten zerfallen in eine zentralere dichte Region und eine weniger dichtere aussere Region die einige Ausreisser enthalt Die Boston Housing Daten bestehen aus 14 Variablen daher ergeben sich 91 Streudiagramme die man betrachten kann In der folgenden Streudiagramm Matrix sind die neun Masszahlen fur die 91 Streudiagramme dargestellt Z B bei Sparse fallt ein extremer Wert auf Dies ist das Streudiagramm der Variablen Charles River Index mit zwei Merkmalsauspragungen Bezirk grenzt an den Charles River oder nicht und Index des Zugangs zu den radialen Autobahnen mit acht Merkmalsauspragungen D h alle Beobachtungen im Streudiagramm dieser beiden Variablen mussen sich auf 16 Punkte konzentrieren nbsp Weblinks BearbeitenR package scagnosticsEinzelnachweise Bearbeiten Leland Wilkinson Anushka Anand Robert Grossman High Dimensional Visual Analytics Interactive Exploration Guided by Pairwise Views of Point Distributions In IEEE Transactions on Visualization and Computer Graphics Band 12 Nr 6 2006 S 1363 1372 doi 10 1109 TVCG 2006 94 J W Tukey P A Tukey Computer graphics and exploratory data analysis An introduction In National Computer Graphics Association Hrsg Proceedings of the Sixth Annual Conference and Exposition Computer Graphics85 Band III Fairfax VA 1985 Leland Wilkinson Anushka Anand Robert Grossman Graph Theoretic Scagnostics In Proceedings of the 2005 IEEE Symposium on Information Visualization 2005 S 157 164 doi 10 1109 INFOVIS 2005 14 psu edu PDF abgerufen am 6 Oktober 2012 Abgerufen von https de wikipedia org w index php title Scagnostics amp oldid 221345593