www.wikidata.de-de.nina.az
Die Multidimensionale Skalierung auch Mehrdimensionale Skalierung oder Ahnlichkeitsstrukturanalyse abgekurzt MDS ist ein Bundel von Verfahren der multivariaten Statistik Ihr formales Ziel ist es die Objekte raumlich so anzuordnen dass die Abstande Distanzen zwischen den Objekten im Raum moglichst exakt den erhobenen Un Ahnlichkeiten entsprechen Je weiter die Objekte voneinander entfernt sind desto unahnlicher sind sie und je naher sie beieinander sind desto ahnlicher sind sie Es werden also Informationen uber Paare von Objekten erhoben um daraus metrische Informationen uber die Objekte zu ermitteln Die Losung der multidimensionalen Skalierung die sogenannte Konfiguration wird meist in zwei oder drei Dimensionen geschatzt was die Interpretierbarkeit erleichtert Prinzipiell kann die Konfiguration fur n displaystyle n Objekte in einem bis zu n 1 displaystyle n 1 dimensionalen Raum bestimmt werden Neben der raumlichen Konfiguration von Objekten liefert die multidimensionale Skalierung eine Reihe von Kennziffern z B Stress1 S Stress ALSCAL Bestimmtheitsmass usw welche die Gute der Konfiguration beurteilen Die multidimensionale Skalierung geht zuruck auf den Psychologen Warren S Torgerson Veroffentlichungen 1952 1968 Die wichtigsten statistischen Verfahren sind die metrische bzw die nicht metrische multidimensionale Skalierung nach Kruskal 1 Ein Anwendungsbeispiel fur die multidimensionale Skalierung ist das Property Fitting im Marketing Inhaltsverzeichnis 1 Verschiedene Verfahren der MDS 2 Metrische multidimensionale Skalierung 2 1 Algorithmus 2 2 Beispiel 3 Nicht metrische multidimensionale Skalierung 3 1 Shepard Kruskal Algorithmus 3 1 1 Pool Adjacent Violators Algorithmus 3 1 2 Berechnung der neuen Positionen 3 2 Beispiel 3 3 Abbruch bzw Gutekriterien 3 3 1 STRESS Masse 3 3 2 Bestimmtheitsmass 3 3 3 Energie 4 Software 5 Literatur 6 EinzelnachweiseVerschiedene Verfahren der MDS BearbeitenBei den verschiedenen Verfahren der MDS kann allgemein zwischen solchen fur quadratische Matrizen und solchen fur rechteckige Matrizen unterschieden werden Dabei konnen bei als matrixkonditional bezeichneten Daten maximal die Werte innerhalb einer Matrix miteinander verglichen werden und entsprechend bei zeilenkonditionalen Daten nur die Werte innerhalb einer Zeile Es konnen drei Modellkonstellationen unterschieden werden einfache MDS eine Matrix und eine Konfiguration Es wird von einem allen Subjekten inharenten Wahrnehmungsraum ausgegangen was nicht durch das Modell gepruft wird wiederholte MDS mehr als eine Matrix aber ebenfalls nur eine Konfiguration Gleiche Hypothese wie bei der einfachen MDS aber hier wird diese durch das Modell gepruft INDSCAL mehr als eine Matrix und mehr als eine Konfiguration genauer werden jeder individuellen Matrix fur jede Dimension Stauchungs bzw Streckungsfaktoren zugewiesen und auf eine allgemeine Konfiguration angewandt Es wird von einem allen Subjekten inharenten Wahrnehmungsraum ausgegangen dessen Dimensionen aber individuell als unterschiedliche wichtig bewertet werden was durch das Verfahren gepruft wird Zu den Verfahren fur zeilenkonditionale Daten zahlen Ankerpunktmethode ein Objekt dient als Referenzpunkt fur alle anderen Objekte Die Matrix ist dann zwar quadratisch aber asymmetrisch und daher zeilenkonditional Multidimensionale Entfaltung MDU nicht ein Objekt sondern jedes Subjekt wird als Ankerpunkt interpretiert Metrische multidimensionale Skalierung BearbeitenZiel der metrischen multidimensionalen Skalierung ist es Objekte mit Abstanden d i j displaystyle d ij nbsp im hoch dimensionalen Raum so in einem kleineren m displaystyle m nbsp dimensionalen Raum anzuordnen dass die euklidischen Distanzen in diesem Raum moglichst genau den Distanzen d i j displaystyle d ij nbsp gleichen Diese Konfiguration lasst sich durch die Verwendung der euklidischen Metrik leicht interpretieren da Distanzen d i j displaystyle d ij nbsp zwischen den Objekten ihrer Entfernung per Luftlinie entsprechen Neben euklidischen Distanzmassen sind auch die in Faktorenanalysen verwendeten Metriken gebrauchlich In diskreten Modellen kommt unter anderem die Manhattan Metrik zum Einsatz Sind als Startwerte anstatt Distanzen Ahnlichkeitsmasse c i j displaystyle c ij nbsp zwischen Objekten gegeben so lassen sich diese durch die Transformation d i j c i i c j j 2 c i j displaystyle d ij sqrt c ii c jj 2c ij nbsp in Distanzen uberfuhren Algorithmus Bearbeiten Das Verfahren zur multidimensionalen Skalierung lasst sich in 4 Schritten beschreiben Definiere Matrix A a i j displaystyle A a ij nbsp mit a i j 1 2 d i j 2 displaystyle a ij frac 1 2 d ij 2 nbsp Definiere Matrix B b i j displaystyle B b ij nbsp mit b i j a i j a i a j a displaystyle b ij a ij a i bullet a bullet j a bullet bullet nbsp wobei a i 1 n j 1 n a i j displaystyle a i bullet frac 1 n sum j 1 n a ij nbsp den Durchschnitt der Zeile i displaystyle i nbsp a j 1 n i 1 n a i j displaystyle a bullet j frac 1 n sum i 1 n a ij nbsp den Durchschnitt der Spalte j displaystyle j nbsp und a 1 n 2 i 1 n j 1 n a i j displaystyle a bullet bullet frac 1 n 2 sum i 1 n sum j 1 n a ij nbsp den Durchschnitt aller Elemente von A displaystyle A nbsp bezeichne Bestimme die Eigenwerte l i displaystyle lambda i nbsp und die zugehorigen Eigenvektoren g i g i j displaystyle gamma i gamma ij nbsp der Matrix B b i j displaystyle B b ij nbsp mit der Eigenschaft j 1 n g i j 2 l i displaystyle sum j 1 n gamma ij 2 lambda i nbsp Die Koordinaten der zu skalierenden Datenpunkte im m displaystyle m nbsp dimensionalen Raum ergeben sich dann aus den Eigenvektoren zu den m displaystyle m nbsp grossten Eigenwerten x i g i displaystyle x i gamma i nbsp Beispiel Bearbeiten Gegeben sind die Distanzen der schnellsten Autoverbindungen zwischen verschiedenen Stadten und gesucht werden die Koordinaten der Stadte Berlin Frankfurt Hamburg Koln MunchenBerlin 0 548 289 576 586Frankfurt 548 0 493 195 392Hamburg 289 493 0 427 776Koln 576 195 427 0 577Munchen 586 392 776 577 0Die metrische multidimensionale Skalierung fur eine Konfiguration in zwei Dimensionen mit einer Statistiksoftware ergibt Stadt X Y Grafische KonfigurationBerlin 0 8585 1 1679 nbsp Frankfurt 0 6363 0 6660Hamburg 1 5036 0 0800Koln 0 0438 1 1760Munchen 1 6821 0 7542Die gefundene Konfiguration ist eindeutig bis auf Rotation und Skalierung Jede rotierte Losung liefert naturlich die gleichen euklidischen Distanzen zwischen den Stadten und damit sind diese Losungen gleichwertig Aufgrund der Standardisierung im Algorithmus j 1 n g i j 2 l i displaystyle left textstyle sum j 1 n gamma ij 2 lambda i right nbsp liefert eine gleichmassige Vervielfachung des Abstandes aller Stadte vom Nullpunkt die gleichen Koordinaten fur die Stadte Nicht metrische multidimensionale Skalierung BearbeitenDie nicht metrische multidimensionale Skalierung will die metrische multidimensionale Skalierung in zwei Aspekten erweitern keine Angabe einer expliziten Funktion zur Umwandlung von Un Ahnlichkeiten in Distanzen und die Nutzung nicht euklidischer Geometrien zur Auffindung von Konfigurationen Hangen die Unahnlichkeiten d i j displaystyle delta ij nbsp mit den Distanzen d i j displaystyle d ij nbsp uber d i j f d i j displaystyle d ij f delta ij nbsp zusammen so muss diese Funktion f displaystyle f nbsp schwach monoton sein Gilt d i j lt d k l displaystyle delta ij lt delta kl nbsp dann muss gelten d i j f d i j lt f d k l d k l displaystyle d ij f delta ij lt f delta kl d kl nbsp Bringt man daher die Paare von Unahnlichkeiten in eine Rangfolge d i 1 j 1 lt lt d i k j k displaystyle delta i 1 j 1 lt dots lt delta i k j k nbsp so ergibt sich die Monotonie Bedingung f d i 1 j 1 lt lt f d i k j k displaystyle f delta i 1 j 1 lt dots lt f delta i k j k nbsp Shepard Kruskal Algorithmus Bearbeiten Der Shepard Kruskal Algorithmus ermittelt die Konfiguration iterativ Initialisierung t 0 displaystyle t 0 nbsp Wahle gewunschte Dimensionalitat m displaystyle m nbsp und ordne Objekte zufallig im Zielraum an Fur m 2 3 displaystyle m 2 3 nbsp lassen sich die Ergebnisse oft einganglich darstellen Berechne die Distanzen d i j 0 displaystyle d ij 0 nbsp zwischen allen Objekten i displaystyle i nbsp und j displaystyle j nbsp Schritt t displaystyle t nbsp Schatze Disparitaten d i j t displaystyle hat d ij t nbsp der Objekte i displaystyle i nbsp und j displaystyle j nbsp unter Verwendung ihrer Distanz d i j t displaystyle d ij t nbsp Hierfur kann der Pool Adjacent Violators Algorithmus siehe unten benutzt werden Abbruchbedingung Sobald eines der ausgewahlten Abbruchkriterien siehe folgenden Abschnitt fur den iterativen Prozess erreicht ist endet der iterative Prozess mit der gefundenen Konfiguration die eventuell nur lokal optimal ist Andernfalls fahre mit Punkt 4 fort Anpassung der Positionen x i displaystyle x i nbsp an die Disparitaten Berechne die neuen Koordinatenwerte x i t 1 displaystyle x i t 1 nbsp fur alle Objektpaare i displaystyle i nbsp und j i displaystyle j neq i nbsp siehe unten z B ahnlich einem Gradientenverfahren Ermittle die Distanzen d i j t 1 displaystyle d ij t 1 nbsp fur die neuen Positionen x i t 1 displaystyle x i t 1 nbsp und fahre mit Punkt 2 fort Pool Adjacent Violators Algorithmus Bearbeiten Wenn die Monotoniebedingung zwischen zwei benachbarten Punkten nicht verletzt ist verwenden wir die jeweiligen Distanz als Disparitat also d i j t d i j t displaystyle hat d ij t d ij t nbsp Wenn die Monotonie Bedingung zwischen zwei p 2 displaystyle p 2 nbsp oder mehr p gt 2 displaystyle p gt 2 nbsp benachbarten Punkten verletzt ist so verwenden wir den Mittelwert der entsprechenden Distanzen als Disparitaten also d i l j l t 1 p q 1 p d i l q j l q t displaystyle hat d i l j l t 1 p sum q 1 p d i l q j l q t nbsp 2 Welche Transformationen bei der Berechnung der Disparitaten zulassig sind hangt vom Skalenniveau der Rohdaten ab Die Distanzen im Wahrnehmungsraum konnen aber durchaus ein anderes Skalenniveau annehmen Inwieweit eine Anhebung des Skalenniveaus zulassig ist wird mittels des Verdichtungsquotienten Q Zahl der Ahnlichkeiten Zahl der Dimensionen Zahl der Objekte beurteilt Bei der einfachen MDS liegen die Rohdaten schon in aggregierter Form vor stellen also meist die Mittelwerte uber die Antworten der Befragten dar Berechnung der neuen Positionen Bearbeiten Die neue Position x i t 1 displaystyle x i t 1 nbsp wird berechnet als x i t 1 x i t a j i 1 d i j t d i j t x i t x j t displaystyle x i t 1 x i t alpha sum j neq i left 1 frac hat d ij t d ij t right x i t x j t nbsp Dabei ist x i t displaystyle x i t nbsp die Position von Objekt i displaystyle i nbsp zum Zeitpunkt t displaystyle t nbsp und a displaystyle alpha nbsp ein Gewichtungsfaktor nicht zu gross wahlen da sich der Stress Wert auch verschlechtern kann in der Regel 0 2 Wenn nun zwei Objekte im Verhaltnis zu ihrer Ahnlichkeit zu weit auseinanderliegen d i j t d i j t displaystyle hat d ij t d ij t nbsp ist grosser 1 wodurch der Ausdruck in der Klammer negativ wird werden sie aufeinander zu geschoben die Richtung wird dabei durch die Differenz in der zweiten Klammer bestimmt Zwei eher unahnliche Objekte die zu nahe beieinander liegen bewegt man voneinander weg Dadurch wird der Stress Wert in der Regel gesenkt und die Iteration wird mit Schritt 2 fortgefuhrt wodurch sich der Stress Wert in der Regel erneut senkt Beispiel Bearbeiten Basierend auf dem obigen Beispiel konnen wir eine Rangfolge der Distanzen erstellen und die Monotoniebedingung aufstellen Distanz 195 displaystyle 195 nbsp lt 289 displaystyle 289 nbsp lt 392 displaystyle 392 nbsp lt 427 displaystyle 427 nbsp lt 493 displaystyle 493 nbsp lt 548 displaystyle 548 nbsp lt 576 displaystyle 576 nbsp lt 577 displaystyle 577 nbsp lt 586 displaystyle 586 nbsp lt 776 displaystyle 776 nbsp Monotoniebedingung d F K displaystyle d F K nbsp lt d B H H displaystyle d B HH nbsp lt d F M displaystyle d F M nbsp lt d H H K displaystyle d HH K nbsp lt d F H H displaystyle d F HH nbsp lt d B F displaystyle d B F nbsp lt d B K displaystyle d B K nbsp lt d K M displaystyle d K M nbsp lt d B M displaystyle d B M nbsp lt d H H M displaystyle d HH M nbsp Es wurde zu Beginn eine zufallige Konfiguration gewahlt Position Distanz zuOrt X Y Berlin Frankfurt Hamburg Koln MunchenBerlin 0 9961 1 5759 0Frankfurt 1 1453 0 7840 3 1866 0Hamburg 0 7835 0 9408 3 0824 0 3942 0Koln 0 1025 0 0208 1 9041 1 3172 1 1783 0Munchen 1 0352 0 1281 1 4483 2 3635 2 1096 1 1428 0daraus ergibt sich Monotoniebed d F K displaystyle d F K nbsp displaystyle leq nbsp d B H H displaystyle d B HH nbsp displaystyle leq nbsp d F M displaystyle d F M nbsp displaystyle leq nbsp d H H K displaystyle d HH K nbsp displaystyle leq nbsp d F H H displaystyle d F HH nbsp displaystyle leq nbsp d B F displaystyle d B F nbsp displaystyle leq nbsp d B K displaystyle d B K nbsp displaystyle leq nbsp d K M displaystyle d K M nbsp displaystyle leq nbsp d B M displaystyle d B M nbsp displaystyle leq nbsp d H H M displaystyle d HH M nbsp d i j 0 displaystyle d ij 0 nbsp 1 3172 displaystyle 1 3172 nbsp displaystyle leq nbsp 3 082 4 displaystyle 3 0824 nbsp displaystyle not leq nbsp 2 363 5 displaystyle 2 3635 nbsp displaystyle not leq nbsp 1 178 3 displaystyle 1 1783 nbsp displaystyle not leq nbsp 0 394 2 displaystyle 0 3942 nbsp displaystyle leq nbsp 3 186 6 displaystyle 3 1866 nbsp displaystyle not leq nbsp 1 904 1 displaystyle 1 9041 nbsp displaystyle not leq nbsp 1 142 8 displaystyle 1 1428 nbsp displaystyle not leq nbsp 1 448 3 displaystyle 1 4483 nbsp displaystyle not leq nbsp 2 109 6 displaystyle 2 1096 nbsp PAV 3 082 4 2 363 5 1 178 3 0 394 2 4 displaystyle 3 0824 2 3635 1 1783 0 3942 4 nbsp 3 186 6 1 904 1 1 142 8 1 448 3 2 109 6 5 displaystyle 3 1866 1 9041 1 1428 1 4483 2 1096 5 nbsp 1 754 6 displaystyle 1 7546 nbsp 1 944 7 displaystyle 1 9447 nbsp d i j 0 displaystyle hat d ij 0 nbsp 1 317 2 displaystyle 1 3172 nbsp displaystyle leq nbsp 1 754 6 displaystyle 1 7546 nbsp displaystyle leq nbsp 1 754 6 displaystyle 1 7546 nbsp displaystyle leq nbsp 1 754 6 displaystyle 1 7546 nbsp displaystyle leq nbsp 1 754 6 displaystyle 1 7546 nbsp displaystyle leq nbsp 1 944 7 displaystyle 1 9447 nbsp displaystyle leq nbsp 1 944 7 displaystyle 1 9447 nbsp displaystyle leq nbsp 1 944 7 displaystyle 1 9447 nbsp displaystyle leq nbsp 1 944 7 displaystyle 1 9447 nbsp displaystyle leq nbsp 1 944 7 displaystyle 1 9447 nbsp nbsp Losung der nicht metrischen multidimensionalen SkalierungAus den berechneten euklidischen Distanzen ergibt sich dass die Monotoniebedingung in zwei Bereichen verletzt ist d B H H d F M d H H K d F H H displaystyle d B HH leq d F M leq d HH K leq d F HH nbsp und d B F d B K d K M d B M d H H M displaystyle d B F leq d B K leq d K M leq d B M leq d HH M nbsp Die Disparitaten d i j 0 displaystyle hat d ij 0 nbsp werden daher als Mittelwerte 1 7546 bzw 1 9447 der entsprechenden Bereiche berechnet Mit den Disparitaten konnen nun die Punktpositionen verschoben werden Dieses Verfahren wird iteriert und fuhrt zur nebenstehenden Losung Abbruch bzw Gutekriterien Bearbeiten Ziel des Verfahrens ist eine optimale Anpassung der MDS Losung an die Rohdaten und somit ein moglichst geringer STRESS oder Energiewert bzw ein moglichst grosses Bestimmtheitsmass Diese Werte sind als Unterschied zwischen Disparitat und Distanz zu verstehen Verandern sich die Werte nicht mehr oder nur geringfugig wird das Iterationsverfahren abgebrochen STRESS Masse Bearbeiten Der STRESS Wert STRESS fur STandardized REsidual Sum of Squares deutsch standardisierte Residuenquadratsumme berechnet sich nach Kruskal als Wurzel aus der Summe der Abweichungsquadrate der Disparitaten von den Distanzen geteilt durch die Summe der quadrierten Distanzen Damit ist STRESS ein normiertes Varianzmass Anpassungsgute STRESS 1 STRESS 2gering 0 2 0 4ausreichend 0 1 0 2gut 0 05 0 1ausgezeichnet 0 025 0 05perfekt 0 0S T R E S S 1 i lt j d i j d i j 2 i lt j d i j 2 1 2 displaystyle STRESS 1 left frac sum i lt j d ij hat d ij 2 sum i lt j d ij 2 right frac 1 2 nbsp Ein alternatives STRESS Mass ist S T R E S S 2 i lt j d i j d i j 2 i lt j d i j d 2 1 2 displaystyle STRESS 2 left frac sum i lt j d ij hat d ij 2 sum i lt j d ij overline d 2 right frac 1 2 nbsp mit d displaystyle overline d nbsp der Mittelwert aller Distanzen Prinzipiell gibt es keine exakten Vorgaben dafur welcher STRESS Wert noch akzeptabel ist und welchen man als gut bezeichnen kann Um uberhaupt eine Norm zu haben hat man die nullste aller Nullhypothesen untersucht und tausende von Zufallsdaten per MDS skaliert und dabei registriert welche Stress Werte sich ergeben vgl BORG STAUFENBIEL 1989 Kruskal 1 hat Anhaltswerte fur den STRESS Wert erstellt an denen man sich orientieren kann Bestimmtheitsmass Bearbeiten Neben den einfachen Kostenkriterien STRESS wird ein alternatives Mass als Gutekriterium fur die Anpassung der Konfiguration an die Rohdaten verwendet Das Bestimmtheitsmass ist die quadrierte Korrelation der Distanzen mit den Disparitaten und als Pegel der linearen Anpassung der Disparitaten an die Distanzen zu sehen In der Praxis gelten Werte die grosser sind als 0 9 fur das Bestimmtheitsmass als akzeptabel Energie Bearbeiten Die Gewichtung der Summanden in der S T R E S S 1 displaystyle STRESS 1 nbsp Formel fuhrt zu Energiemassen 3 E i lt j w i j d i j d i j 2 i lt j w i j d i j 2 1 2 displaystyle E left frac sum i lt j w ij d ij hat d ij 2 sum i lt j w ij d ij 2 right frac 1 2 nbsp Software BearbeitenIn Statistikprogrammen wie SPSS kann die MDS automatisch durchgefuhrt werden In R fuhrt die Funktion cmdscale eine MDS durch Ebenso verhalt es sich mit Matlab welches MDS durch die Funktion mdscale bereitstellt Literatur BearbeitenThomas A Runkler Data Mining Methoden und Algorithmen intelligenter Datenanalyse Vieweg Teubner 2010 S 41 47 W S Torgerson Theory amp Methods of Scaling Wiley New York 1958 I Borg Th Staufenbiel Theorien und Methoden der Skalierung Huber Bern 2007 Backhaus Erichson Plinke Weiber Multivariate Analysemethoden Springer Verlag Berlin 2000 R Mathar Multidimensionale Skalierung Teubner Stuttgart 1997 I Borg P Groenen Modern Multidimensional Scaling Theory and Applications Springer New York 2005 Einzelnachweise Bearbeiten a b J B Kruskal Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis In Psychometrika 29 1 1964 S 1 27 doi 10 1007 BF02289565 Kappelhoff Multidimensionale Skalierung Beispiel zur Datenanalyse PDF 404 kB Lehrstuhl fur empirische Wirtschafts und Sozialforschung 2001 Wojciech Basalaj Proximity Visualization of Abstract Data PDF 7 3 MB 2001 abgerufen am 19 Juni 2013 Abgerufen von https de wikipedia org w index php title Multidimensionale Skalierung amp oldid 216909212