www.wikidata.de-de.nina.az
Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Dieser Artikel oder Abschnitt bedarf einer grundsatzlichen Uberarbeitung Naheres sollte auf der Diskussionsseite angegeben sein Bitte hilf mit ihn zu verbessern und entferne anschliessend diese Markierung Die Hauptkomponentenanalyse kurz HKA englisch Principal Component Analysis kurz PCA das mathematische Verfahren ist auch als Hauptachsentransformation oder Singularwertzerlegung bekannt ist ein Verfahren der multivariaten Statistik Sie strukturiert umfangreiche Datensatze durch Benutzung der Eigenvektoren der Kovarianzmatrix Dadurch konnen Datensatze vereinfacht und veranschaulicht werden indem eine Vielzahl statistischer Variablen durch eine geringere Zahl moglichst aussagekraftiger Linearkombinationen die Hauptkomponenten genahert wird Speziell in der Bildverarbeitung wird die Hauptkomponentenanalyse auch Karhunen Loeve Transformation genannt benutzt Sie ist von der Faktorenanalyse zu unterscheiden mit der sie formale Ahnlichkeit hat und in der sie als Naherungsmethode zur Faktorenextraktion verwendet werden kann der Unterschied der beiden Verfahren wird im Artikel Faktorenanalyse erlautert Hauptkomponentenanalyse als Faktorenanalyse Zwei Hauptkomponenten einer zweidimensionalen Normalverteilung mit Mittelwert 1 3 und Standardabweichung circa 3 in 0 866 0 5 Richtung und 1 in die dazu orthogonale Richtung Die Vektoren sind die Eigenvektoren der Kovarianzmatrix und haben als Lange die Wurzel des zugehorigen Eigenwertes Sie sind so verschoben dass sie am Mittelwert ansetzen Es gibt verschiedene Verallgemeinerungen der Hauptkomponentenanalyse z B die Principal Curves die Principal Surfaces t distributed stochastic neighbor embedding oder die Kernbasierte Hauptkomponentenanalyse kernel principal component analysis kurz kernel PCA Inhaltsverzeichnis 1 Geschichte 2 Konzeption der Hauptkomponentenanalyse 3 Verfahren 3 1 Idee 3 1 1 Beste lineare Approximation an den Datensatz 3 1 2 Maximierung der Varianz 3 2 Statistisches Modell 3 3 Schatzung der Modellparameter 4 Beispiele 4 1 Beispiel mit drei Variablen 4 2 Beispiel mit acht Variablen 5 Anwendung in der Clusteranalyse und Dimensionsreduktion 5 1 Zusammenhang mit der multidimensionalen Skalierung 6 Siehe auch 7 Literatur 8 Weblinks 9 EinzelnachweiseGeschichte BearbeitenDie Hauptkomponentenanalyse wurde von Karl Pearson 1901 eingefuhrt 1 und in den 1930er Jahren von Harold Hotelling weiterentwickelt Wie andere statistische Analysemethoden erlangte sie weite Verbreitung erst mit der zunehmenden Verfugbarkeit von Computern im dritten Viertel des 20 Jahrhunderts Die ersten Anwendungen entstammten der Biologie Konzeption der Hauptkomponentenanalyse BearbeitenDer zugrundeliegende Datensatz hat typischerweise die Struktur einer Matrix An n displaystyle n nbsp Versuchspersonen oder Gegenstanden wurden jeweils p displaystyle p nbsp Merkmale gemessen Ein solcher Datensatz kann als Menge von n displaystyle n nbsp Punkten im p displaystyle p nbsp dimensionalen Raum R p displaystyle mathbb R p nbsp veranschaulicht werden Ziel der Hauptkomponentenanalyse ist es diese Datenpunkte so in einen q displaystyle q nbsp dimensionalen Unterraum R q displaystyle mathbb R q nbsp q lt p displaystyle q lt p nbsp zu projizieren dass dabei moglichst wenig Information verloren geht und vorliegende Redundanz in Form von Korrelation in den Datenpunkten zusammengefasst wird Mathematisch wird eine Hauptachsentransformation durchgefuhrt Man minimiert die Korrelation mehrdimensionaler Merkmale durch Uberfuhrung in einen Vektorraum mit neuer Basis Die Hauptachsentransformation lasst sich durch eine orthogonale Matrix angeben die aus den Eigenvektoren der Kovarianzmatrix gebildet wird Die Hauptkomponentenanalyse ist damit problemabhangig weil fur jeden Datensatz eine eigene Transformationsmatrix berechnet werden muss Die Rotation des Koordinatensystems wird so ausgefuhrt dass die Kovarianzmatrix diagonalisiert wird d h die Daten werden dekorreliert die Korrelationen sind die Ausserdiagonaleintrage der Kovarianzmatrix Fur normalverteilte Datensatze bedeutet dies dass die einzelnen Komponenten jedes Datensatzes nach der PCA voneinander statistisch unabhangig sind da die Normalverteilung durch das nullte Normierung erste Erwartungswert und zweite Moment Kovarianzen vollstandig charakterisiert wird Sind die Datensatze nicht normalverteilt werden die Daten auch nach der PCA obwohl nun dekorreliert noch immer statistisch abhangig sein Die PCA ist also nur fur normalverteilte Datensatze eine optimale Methode Verfahren Bearbeiten nbsp Erste Hauptkomponente der Daten schwarz dunkelrote Linie und der Mittelpunkt der Daten dicker schwarzer Punkt Idee Bearbeiten Die Daten liegen als Punktwolke in einem p displaystyle p nbsp dimensionalen kartesischen Koordinatensystem vor Beste lineare Approximation an den Datensatz Bearbeiten Das Berechnen der Hauptkomponenten kann man als iterativen Prozess auffassen In der rechten Grafik wird fur die Datenpunkte nicht ausgefullte Kreise diejenige Gerade gesucht die die Daten am besten approximiert Der Fehler eines Datenpunktes ist der euklidische Abstand zwischen der Geraden und den Datenpunkten Fur den Datenpunkt rechts oben ist der Fehler die rote Linie die senkrecht auf der schwarzen Geraden steht Die erste Hauptkomponente ist die Gerade bei der die Summe der Quadrate dieser Fehler minimal ist Vergleiche Deming Regression Danach wird eine weitere Gerade gesucht die auch durch den Mittelwert der Datenpunkte geht und orthogonal zur ersten Geraden ist die zweite Hauptkomponente Im Falle zweidimensionaler Daten ist dies einfach die senkrecht auf der ersten Hauptkomponente stehende Gerade Ansonsten ist die jeweils nachste Hauptkomponente senkrecht zu allen bisherigen Hauptkomponenten mit dieser Bedingung wird wieder die Gerade bestimmt bei der die Quadratsumme der Abstande minimal ist So konnen die weiteren Geraden bis zur p displaystyle p nbsp ten Hauptkomponente bestimmt werden Maximierung der Varianz Bearbeiten Die Distanz zwischen dem Zentrum der Daten und einem Datenpunkt ist unabhangig davon welche Gerade durch das Zentrum als Referenz betrachtet wird siehe die rote Linie vom Zentrum der Daten zum Datenpunkt rechts oben Mittels des Satzes von Pythagoras konnen wir aber den Abstand zerlegen in den Anteil in Richtung der schwarzen Geraden und einen weiteren Anteil rechtwinklig dazu Eine Minimierung der Abstande rechtwinklig zur Geraden unter Beibehaltung des Abstands zum Datenzentrum Lange der roten Linie bedeutet also eine Maximierung der Abstande in Richtung der schwarzen Geraden a 2 b 2 c 2 displaystyle a 2 b 2 c 2 nbsp muss erhalten bleiben Die aufsummierten Quadrate der Abstande in Richtung der schwarzen Geraden bilden die Varianz der Daten in dieser Richtung Dies fuhrt zum folgenden Algorithmus Die erste Achse soll so durch die Punktwolke gelegt werden dass die Varianz der Daten in dieser Richtung maximal wird Die zweite Achse steht auf der ersten Achse senkrecht In ihrer Richtung ist die Varianz am zweitgrossten usw Fur die p displaystyle p nbsp dimensionalen Daten gibt es also grundsatzlich p displaystyle p nbsp Achsen die aufeinander senkrecht stehen sie sind orthogonal Die totale Varianz der Daten ist die Summe dieser Achsenvarianzen Mit den p displaystyle p nbsp Achsen wird nun ein neues Koordinatensystem in die Punktwolke gelegt Das neue Koordinatensystem kann als Rotation der Variablenachsen dargestellt werden Wird nun durch die ersten r displaystyle r nbsp r lt p displaystyle r lt p nbsp Achsen ein hinreichend grosser Prozentsatz der totalen Varianz abgedeckt erscheinen die Hauptkomponenten die durch die neuen Achsen reprasentiert werden ausreichend fur den Informationsgehalt der Daten Die totale Varianz der Daten ist also ein Mass fur ihren Informationsgehalt Haufig konnen die Hauptkomponenten inhaltlich nicht interpretiert werden In der Statistik spricht man davon dass ihnen keine verstandliche Hypothese zugeschrieben werden kann siehe Faktorenanalyse Statistisches Modell Bearbeiten Man betrachtet p displaystyle p nbsp Zufallsvariablen X j displaystyle X j nbsp die bezuglich ihrer Erwartungswerte zentriert sind Das heisst ihre Erwartungswerte wurden von der Zufallsvariablen subtrahiert Diese Zufallsvariablen werden in einem p displaystyle p nbsp dimensionalen Zufallsvektor X displaystyle mathbf X nbsp zusammengefasst Dieser hat als Erwartungswertvektor den Nullvektor und die p p displaystyle p times p nbsp Kovarianzmatrix S E X X T displaystyle mathbf Sigma E mathbf X mathbf X T nbsp die symmetrisch und positiv semidefinit ist Die Eigenwerte l j displaystyle lambda j nbsp j 1 p displaystyle j 1 dots p nbsp der Matrix S displaystyle mathbf Sigma nbsp sind absteigend der Grosse nach geordnet haufig werden die Eigenwerte dann in einem Paretodiagramm dargestellt Sie werden als Diagonalelemente in der Diagonalmatrix L displaystyle mathbf Lambda nbsp aufgefuhrt Die zu ihnen gehorenden Eigenvektoren bilden die orthogonale Matrix G displaystyle mathbf Gamma nbsp Es gilt dann L G T S G displaystyle mathbf Lambda mathbf Gamma T mathbf Sigma mathbf Gamma nbsp Wird der Zufallsvektor X displaystyle mathbf X nbsp linear transformiert zu X Y G T X displaystyle mathbf X mapsto mathbf Y mathbf Gamma T mathbf X nbsp dann ist die Kovarianzmatrix von Y displaystyle mathbf Y nbsp gerade die Diagonalmatrix L displaystyle mathbf Lambda nbsp da fur die die Kovarianzmatrix des transformierten Zufallsvektors gilt E G T X G T X T E G T X X T G G T E X X T G G T S G L displaystyle E mathbf Gamma T mathbf X mathbf Gamma T mathbf X T E mathbf Gamma T mathbf X mathbf X T mathbf Gamma mathbf Gamma T E mathbf X mathbf X T mathbf Gamma mathbf Gamma T Sigma mathbf Gamma mathbf Lambda nbsp Zur Verdeutlichung betrachten wir einen dreidimensionalen Zufallsvektor X X 1 X 2 X 3 displaystyle mathbf X begin pmatrix X 1 X 2 X 3 end pmatrix nbsp Die Matrix der Eigenwerte der Kovarianzmatrix S displaystyle mathbf Sigma nbsp von X displaystyle mathbf X nbsp ist L l A 0 0 0 l B 0 0 0 l C displaystyle mathbf Lambda begin pmatrix lambda A amp 0 amp 0 0 amp lambda B amp 0 0 amp 0 amp lambda C end pmatrix nbsp wobei l A l B l C displaystyle lambda A geq lambda B geq lambda C nbsp ist Die normierten 3 1 displaystyle 3 times 1 nbsp Eigenvektoren g j displaystyle boldsymbol gamma j nbsp lassen sich als Spalten der Matrix G displaystyle mathbf Gamma nbsp zusammenfassen G g A g B g C displaystyle mathbf Gamma begin pmatrix boldsymbol gamma A amp boldsymbol gamma B amp boldsymbol gamma C end pmatrix nbsp g 1 A g 1 B g 1 C g 2 A g 2 B g 2 C g 3 A g 3 B g 3 C displaystyle begin pmatrix gamma 1A amp gamma 1B amp gamma 1C gamma 2A amp gamma 2B amp gamma 2C gamma 3A amp gamma 3B amp gamma 3C end pmatrix nbsp Die Matrix Vektor Multiplikation X Y G T X displaystyle mathbf X rightarrow mathbf Y mathbf Gamma T mathbf X nbsp ergibt die Gleichungen Y A g 1 A X 1 g 2 A X 2 g 3 A X 3 displaystyle Y A gamma 1A X 1 gamma 2A X 2 gamma 3A X 3 nbsp Y B g 1 B X 1 g 2 B X 2 g 3 B X 3 displaystyle Y B gamma 1B X 1 gamma 2B X 2 gamma 3B X 3 nbsp Y C g 1 C X 1 g 2 C X 2 g 3 C X 3 displaystyle Y C gamma 1C X 1 gamma 2C X 2 gamma 3C X 3 nbsp Die Varianz von Y A displaystyle Y A nbsp ist Var Y A l A displaystyle operatorname Var Y A lambda A nbsp Also hat die Hauptkomponente Y A displaystyle Y A nbsp den grossten Anteil an der Gesamtvarianz der Daten Y B displaystyle Y B nbsp den zweitgrossten Anteil usw Die Elemente g j k displaystyle gamma jk nbsp j 1 2 3 displaystyle j 1 2 3 nbsp k A B C displaystyle k A B C nbsp konnte man als Beitrag der Variablen X j displaystyle X j nbsp am Faktork displaystyle k nbsp bezeichnen Die MatrixG displaystyle mathbf Gamma nbsp bezeichnet man in diesem Zusammenhang als Ladungsmatrix sie gibt an wie hoch eine VariableX displaystyle X nbsp auf einen Faktor Y displaystyle Y nbsp ladt Schatzung der Modellparameter Bearbeiten Liegen konkret erhobene Daten mit p displaystyle p nbsp Merkmalen vor d h jeder Datenpunkt ist ein p displaystyle p nbsp dimensionaler Vektor wird aus den Merkmalswerten die Stichproben Korrelationsmatrix errechnet Aus dieser Matrix bestimmt man dann die Eigenwerte und Eigenvektoren fur die Hauptkomponentenanalyse Da die Kovarianzmatrix eine symmetrische p p displaystyle p times p nbsp Matrix ist sind fur ihre Berechnung insgesamt p 2 p 2 displaystyle p 2 p 2 nbsp Parameter zu schatzen Dies ist nur dann sinnvoll wenn die Anzahl N displaystyle N nbsp der Datenpunkte im Datensatz deutlich grosser ist d h wenn N p 2 p 2 displaystyle N gg p 2 p 2 nbsp Anderenfalls ist die Bestimmung der Kovarianzmatrix stark fehlerbehaftet und diese Methode sollte nicht angewandt werden Beispiele BearbeitenBetrachtet werden Artillerieschiffe des Zweiten Weltkriegs siehe Kriegsschiffsdaten Sie sind eingeteilt in die Klassen Schlachtschiffe schwere Kreuzer leichte Kreuzer und Zerstorer Es liegen Daten fur ca 200 Schiffe vor Es wurden die Merkmale Lange Breite Wasserverdrangung Tiefgang Leistung der Maschinen Geschwindigkeit langerfristig mogliche Hochstgeschwindigkeit Aktionsradius und Mannschaftsstarke erfasst Die Merkmale Lange Breite Wasserverdrangung und Tiefgang konnen so aufgefasst werden dass sie alle einen ahnlichen Sachverhalt messen den man als den Faktor Grosse beschreiben konnte Die Frage ist ob noch andere Faktoren die Daten bestimmen Es gibt tatsachlich noch einen zweiten deutlichen Faktor der vor allem durch die Leistung der Maschinen und die Hochstgeschwindigkeit bestimmt wird Man konnte ihn zu einem Faktor Geschwindigkeit zusammenfassen Andere Beispiele fur Anwendungen der Hauptkomponentenanalyse sind Wendet man die Hauptkomponentenanalyse auf das Kaufverhalten von Konsumenten an gibt es moglicherweise latente Faktoren wie sozialer Status Alter oder Familienstand die bestimmte Kaufe motivieren Hier konnte man durch gezielte Werbung die Kauflust entsprechend kanalisieren Hat man ein statistisches Modell mit sehr vielen Merkmalen konnte mit Hilfe der Hauptkomponentenanalyse gegebenenfalls die Zahl der Variablen im Modell reduziert werden was meistens die Modellqualitat steigert Anwendung findet die Hauptkomponentenanalyse auch in der Bildverarbeitung insbesondere bei der Fernerkundung Dabei kann man Satellitenbilder analysieren und Ruckschlusse daraus ziehen Ein weiteres Gebiet ist die Kunstliche Intelligenz zusammen mit den Neuronalen Netzen Dort dient die PCA zur Merkmalstrennung im Rahmen der automatischen Klassifizierung bzw in der Mustererkennung Beispiel mit drei Variablen Bearbeiten Das oben genannte Anwendungsbeispiel wird jetzt in Zahlen verdeutlicht Wir betrachten die Variablen Lange Breite und Geschwindigkeit Die Streudiagramme geben einen Eindruck uber die gemeinsame Verteilung der Variablen wieder nbsp nbsp Mit diesen drei Variablen wurde mithilfe eines Statistikprogramms eine Hauptkomponentenanalyse durchgefuhrt Die Ladungsmatrix G displaystyle Gamma nbsp ist Faktor A B CLange 0 862 0 977 0 679Breite 0 481 0 083 0 730Geschwindigkeit 0 159 0 198 0 082Der Faktor y A displaystyle y A nbsp setzt sich also zusammen aus Y A 0 862 Lange 0 481 Breite 0 159 Geschwindigkeit displaystyle Y A 0 862 cdot text Lange 0 481 cdot text Breite 0 159 cdot text Geschwindigkeit nbsp Vor allem die Beitrage von Lange und Breite zum ersten Faktor sind gross Beim zweiten Faktor ist vor allem der Beitrag der Lange gross Der dritte Faktor wird am starksten von der Variable Breite geladen Die Gesamtvarianz der Daten verteilt sich wie folgt auf die Hauptkomponenten Faktor Eigenwert l j displaystyle lambda j nbsp Prozent der Gesamtvarianz Prozentualer Anteil derKumulierten Varianzan GesamtvarianzA 2 16 71 97 71 97B 0 77 25 67 97 64C 0 07 2 36 100 00Es werden also durch die ersten zwei Hauptkomponenten bereits 97 64 der gesamten Varianz der Daten abgedeckt Der dritte Faktor tragt nichts Nennenswertes zum Informationsgehalt bei Beispiel mit acht Variablen Bearbeiten Es wurden nun acht Merkmale der Artillerieschiffe einer Hauptkomponentenanalyse unterzogen Die Tabelle der Ladungsmatrix hier Komponentenmatrix genannt zeigt dass vor allem die Variablen Lange Breite Tiefgang Wasserverdrangung und Mannschaftsstarke hoch auf die erste Hauptkomponente laden Diese Komponente konnte man als Grosse bezeichnen Die zweite Komponente wird zum grossten Teil durch PS und Knoten erklart Sie konnte Geschwindigkeit genannt werden Eine dritte Komponente ladt noch hoch auf Aktionsradius Die beiden ersten Faktoren decken bereits ca 84 der Information der Schiffsdaten ab der dritte Faktor erfasst noch einmal ca 10 Der zusatzliche Beitrag der restlichen Komponenten ist unerheblich KomponentenmatrixKomponente1 2 3 4 5 6 7 8Wasserverdrangung BRT 0 948 0 094 0 129 0 228 0 040 0 036 0 136 0 055Lange m 0 906 0 302 0 064 0 209 0 128 0 144 0 007 0 050Breite m 0 977 0 128 0 031 0 032 0 103 0 017 0 014 0 129Tiefgang m 0 934 0 276 0 061 0 014 0 074 0 129 0 154 0 0381000 PS 0 552 0 779 0 196 0 133 0 099 0 143 0 038 0 018Knoten sm h 0 520 0 798 0 157 0 222 0 109 0 038 0 071 0 004Aktionsradius 100 sm 0 398 0 311 0 862 0 038 0 008 0 022 0 002 0 005Mannschaftsstarke 0 955 0 063 0 052 0 108 0 226 0 121 0 067 0 002Extraktionsmethode HauptkomponentenanalyseAcht Komponenten extrahiertVarianz der KomponentenKomponente EigenwerteTotal der Varianz Kumulativ1 5 19 64 88 64 882 1 54 19 22 84 103 0 83 10 43 94 534 0 18 2 22 96 745 0 11 1 34 98 086 0 08 0 95 99 037 0 05 0 67 99 708 0 02 0 30 100 00Anwendung in der Clusteranalyse und Dimensionsreduktion Bearbeiten nbsp Zweidimensionales Beispiel fur eine PCA Die beiden Cluster haben eine geringe interne Streuung Die erste Hauptkomponente wird x 1 displaystyle x 1 nbsp sein die zweite x 2 displaystyle x 2 nbsp Der Hauptanteil der Gesamtstreuung liegt zwischen den Clustern Signalvarianz bzw englisch signal variance nbsp Zweidimensionales Beispiel fur eine PCA Die beiden Cluster haben eine sehr grosse interne Streuung Die erste Hauptkomponente wird x 2 displaystyle x 2 nbsp sein die zweite x 1 displaystyle x 1 nbsp Der Hauptanteil der Gesamtstreuung liegt innerhalb der Cluster Rauschvarianz bzw englisch noise variance Die Hauptkomponentenanalyse PCA wird auch haufig in der Clusteranalyse und zur Reduzierung der Dimension des Parameterraums verwendet insbesondere dann wenn man noch keinerlei Vorstellung Modell von der Struktur der Daten hat Dabei macht man sich zunutze dass die PCA das orthogonale Koordinatensystem so dreht dass die Kovarianzmatrix diagonalisiert wird Ausserdem sortiert die PCA die Reihenfolge der Koordinatenachsen die Hauptkomponenten so um dass die erste Hauptkomponente den grossten Anteil der Gesamtstreuung Totale Varianz im Datensatz enthalt die zweite Hauptkomponente den zweitgrossten Anteil usw Wie an den Beispielen im vorigen Abschnitt illustriert wurde kann man meist die hinteren Hauptkomponenten also diejenigen welche nur einen geringen Anteil an der Gesamtstreuung enthalten ersatzlos streichen ohne dass dadurch ein nennenswerter Informationsverlust entsteht Die Grundannahme fur die Verwendung der PCA zur Clusteranalyse und Dimensionsreduktion lautet Die Richtungen mit der grossten Streuung Varianz beinhalten die meiste Information In diesem Zusammenhang ist sehr wichtig dass diese Grundannahme lediglich eine Arbeitshypothese ist welche nicht immer zutreffen muss Um diesen Sachverhalt zu veranschaulichen folgen zwei Beispiele Signal Variance deutsch Signalvarianz Die Grafik rechts mit dem Titel PCA Signal Variance zeigt ein Beispiel bei dem die Annahme zutrifft Der Datensatz besteht aus zwei Clustern rot und grun die klar voneinander getrennt sind Die Streuung der Datenpunkte innerhalb jedes Clusters ist sehr klein verglichen mit dem Abstand der beiden Cluster Entsprechend wird die erste Hauptkomponente x 1 displaystyle x 1 nbsp sein Ausserdem ist klar ersichtlich dass die erste Hauptkomponente x 1 displaystyle x 1 nbsp vollig ausreichend ist um die beiden Cluster voneinander zu trennen wahrend die zweite Hauptkomponente x 2 displaystyle x 2 nbsp dazu keinerlei nutzliche Information enthalt Die Anzahl der Dimensionen kann also von 2 auf 1 reduziert werden durch Vernachlassigung von x 2 displaystyle x 2 nbsp ohne dass man dabei wesentliche Informationen uber die beiden Cluster verlieren wurde Die Gesamtvarianz des Datensatzes wird also vom Signal dominiert zwei getrennte Cluster Noise Variance deutsch Rauschvarianz Die Grafik rechts mit dem Titel PCA Noise Variance zeigt ein Beispiel bei dem die Annahme nicht zutrifft und die PCA nicht zur Dimensionsreduktion verwendet werden kann Die Streuung innerhalb der beiden Cluster ist nun deutlich grosser und tragt den Hauptanteil an der Gesamtstreuung Unter der Annahme dass diese Streuung innerhalb der Cluster durch Rauschen verursacht wird nennt man diesen Fall noise variance Die erste Hauptkomponente wird x 2 displaystyle x 2 nbsp sein welche keinerlei Information uber die Trennbarkeit beider Cluster beinhaltet Diese beiden Beispiele zeigen wie man die PCA zur Reduzierung der Dimension und zur Clusteranalyse einsetzen kann bzw dass dies nicht immer moglich ist Ob die Grundannahme dass die Richtungen der grossten Streuung auch wirklich die interessantesten sind zutrifft oder nicht hangt vom jeweils gegebenen Datensatz ab und lasst sich oft nicht uberprufen gerade dann wenn die Anzahl der Dimensionen sehr hoch ist und sich die Daten demzufolge nicht mehr vollstandig visualisieren lassen Zusammenhang mit der multidimensionalen Skalierung Bearbeiten Sowohl die multidimensionale Skalierung als auch die Hauptkomponentenanalyse verdichten die Daten Werden in der metrischen multidimensionalen Skalierung euklidische Distanzen verwendet und ist die Dimension der Konfiguration gleich der Zahl der Hauptkomponenten so liefern beide Verfahren die gleiche Losung Dies liegt daran dass die Diagonalisierung der Kovarianzmatrix bzw Korrelationsmatrix falls mit standardisierten Daten gearbeitet wird bei der Hauptkomponentenanalyse einer Rotation des Koordinatensystems entspricht Dadurch bleiben die Distanzen zwischen den Beobachtungen die den Ausgangspunkt in der multidimensionalen Skalierung bilden gleich In der multidimensionalen Skalierung konnen jedoch auch andere Distanzen verwendet werden insofern kann die Hauptkomponentenanalyse als Spezialfall der multidimensionalen Skalierung betrachtet werden Siehe auch BearbeitenClusteranalyse Diskriminanzanalyse Nichtnegative Matrixfaktorisierung Projection Pursuit Rotationsverfahren Statistik Literatur BearbeitenG H Dunteman Principal Component Analysis Sage Publications 1989 L Fahrmeir A Hamerle G Tutz Hrsg Multivariate statistische Verfahren New York 1996 A Handl T Kuhlenkasper Multivariate Analysemethoden Theorie und Praxis mit R 3 Auflage Springer Berlin 2017 ISBN 978 3 662 54753 3 J Hartung B Elpelt Multivariate Statistik Munchen Wien 1999 T Hastie R Tibshirani J Friedman The Elements of Statistical Learning Data Mining Inference and Prediction 2001 W Kessler Multivariate Datenanalyse Weinheim 2007 Eine Einfuhrung in die PCA mit Beispiel CD W J Krzanowski Principles of Multivariate Analysis Rev ed Oxford University Press Oxford 2000 K V Mardia J T Kent J M Bibby Multivariate Analysis New York 1979Weblinks BearbeitenLindsay I Smith A tutorial on Principal Components Analysis PDF 117 kB Internet Archive archiviert am 9 Marz 2021 Einzelnachweise Bearbeiten Karl Pearson On lines and planes of closest fit to a system of points in space In The London Edinburgh and Dublin Philosophical Magazine and Journal of Science Series 6 2 1901 S 559 572 doi 10 1080 14786440109462720 Abgerufen von https de wikipedia org w index php title Hauptkomponentenanalyse amp oldid 238709370