www.wikidata.de-de.nina.az
Die Faktorenanalyse oder Faktoranalyse ist ein Verfahren der multivariaten Statistik Es dient dazu aus empirischen Beobachtungen vieler verschiedener manifester Variablen Observablen Statistische Variablen auf wenige zugrundeliegende latente Variablen Faktoren zu schliessen Die Entdeckung dieser voneinander unabhangigen Variablen oder Merkmale ist der Sinn des datenreduzierenden auch dimensionsreduzierenden Verfahrens der Faktorenanalyse Unterschieden wird zwischen explorativer und konfirmatorischer Faktorenanalyse Letztere ist ein inferenz statistisches Verfahren und kann als Spezialfall eines Strukturgleichungsmodells aufgefasst werden Inhaltsverzeichnis 1 Hintergrund 1 1 Geschichte 1 2 Anwendungen 2 Mathematischer Rahmen 2 1 Geometrische Bedeutung 2 2 Lineares Faktorenmodell 2 3 Hauptsatz 2 4 Beispiel 3 Explorative Faktorenanalyse 3 1 Faktorenextraktion 3 1 1 Hauptachsenmethode 3 1 2 Maximum Likelihood Schatzung 3 2 Bestimmung der Faktorenzahl 3 3 Faktorrotation 3 4 Faktoren versus Hauptkomponentenanalyse 3 5 Siehe auch 4 Literatur 5 Weblinks 6 EinzelnachweiseHintergrund BearbeitenGeschichte Bearbeiten Die Faktorenanalyse wurde vom Psychologen Charles Spearman fur die Auswertung von Intelligenztests entwickelt 1904 zeigte er dass Testergebnisse zu einem guten Teil durch ein eindimensionales Personlichkeitsmerkmal den general factor g Faktor erklart werden konnten Die Verallgemeinerung auf eine Analyse mit mehreren Faktoren wird James Clerk Maxwell Garnett zugeschrieben Steiger 1979 popularisiert wurde sie in den 1940er Jahren von Louis Leon Thurstone der 1938 seine Unterscheidung zwischen der Wortflussigkeit verbal fluency und der Teilfahigkeit des Sprachverstehens verbal comprehension 1 publiziert hatte Maximum Likelihood Schatzmethoden wurden in den 1930er und 40er Jahren von Lawley und Victor Barnett vorgeschlagen ein stabiler Algorithmus wurde in den 1960ern von Gerhard Derflinger und Karl Gustav Joreskog entwickelt 2 Bis heute wird jedoch trotz schlechter Konvergenzeigenschaften auch eine iterative Variante der Hauptkomponentenanalyse zur Faktorenextraktion eingesetzt Ungenauigkeiten bis hin zur volligen Gleichsetzung von Faktoren und Hauptkomponentenanalyse sind weit verbreitet Anwendungen Bearbeiten Die Faktorenanalyse ist ein universell einsetzbares Werkzeug um von den sichtbaren Erscheinungen auf die diesen Erscheinungen zugrunde liegenden unbeobachtbaren Ursachen zu schliessen So sind zum Beispiel Konstrukte wie Intelligenz oder Ehrgeiz nicht messbar werden aber als Ursache vieler Verhaltensweisen angesehen Allerdings setzt die Faktorenanalyse um keine fehlerhaften Ergebnisse zu liefern fur die verwendeten Daten mindestens Intervallskalenniveau voraus Sozialwissenschaftliche Daten erreichen ein solches Skalenniveau nur selten und sind meist nominal oder ordinalskaliert Gelegentlich wird die Faktorenanalyse auch fur naturwissenschaftliche Probleme eingesetzt Es gibt Beispiele fur die faktorenanalytische Bearbeitung von Klangsignalen Spracherkennung bei denen akustische Hauptfaktoren herausgezogen werden Hiermit werden Sprachuberlagerungen Flughafenansage Konferenzmitschnitte oder uberlagerte Musikaufnahmen verstandlicher gemacht Blind Source Separation Unabhangigkeitsanalyse ICA siehe auch Weblinks Die Faktorenanalyse verfolgt nach Markus Wirtz und Christof Nachtigall im Allgemeinen drei Ziele 3 Reduktion der Variablenanzahl Die Faktorenanalyse erkennt Variablengruppen in denen jeweils alle Variablen ahnliche Informationen erfassen Werden die Variablen innerhalb jeder homogenen Gruppe zusammengefasst ergibt sich eine okonomischere Darstellung der Gesamtinformation Ermittlung verlasslicher Messgrossen Werden die Variablen zu einem Faktor zusammengefasst so besitzt dieser Faktor gunstigere messtechnische Eigenschaften als die einzelnen Variablen Analytische Zielsetzung Die Faktorenanalyse ermoglicht es von den manifesten Variablen den Indikatorvariablen auf ubergeordnete latente Variablen z B Intelligenz zu schliessen Die explorative Faktorenanalyse dient ausschliesslich der Erkundung verdeckter Strukturen einer Stichprobe bzw der Dimensionsreduktion Sie ist nicht dazu geeignet bereits vorhandene Theorien zu uberprufen Das geeignete Verfahren hierzu stellt die konfirmatorische Faktorenanalyse dar Mathematischer Rahmen BearbeitenGeometrische Bedeutung Bearbeiten Dieser Artikel oder Abschnitt bedarf einer grundsatzlichen Uberarbeitung Naheres sollte auf der siehe Diskussion Geometrische Bedeutung angegeben sein Bitte hilf mit ihn zu verbessern und entferne anschliessend diese Markierung Geometrisch gesehen werden die in die Berechnung miteinbezogenen Items als Vektoren angesehen die allesamt vom selben Ursprung ausgehen Die Lange dieser p Vektoren wird durch die Kommunalitat der jeweiligen Items und die Winkel zwischen den Vektoren werden durch deren Korrelation bestimmt Die Korrelation r zweier Items x i displaystyle x i nbsp x j displaystyle x j nbsp und der Winkel a displaystyle alpha nbsp zwischen deren Vektoren hangen folgendermassen zusammen r x i x j cos a displaystyle r x i x j cos alpha nbsp Eine Korrelation von 1 stellt also einen Winkel von 0 eine Unkorreliertheit hingegen einen rechten Winkel dar Ein Modell aus p Variablen spannt somit einen p dimensionalen Raum auf Ziel der Faktorenanalyse ist es dieses Konstrukt geometrisch zu vereinfachen also einen q dimensionalen Unterraum zu finden q lt p displaystyle q lt p nbsp Es sollen durch das Extraktionsverfahren irrelevante Faktoren ausgeblendet werden Die Losung dieses Verfahrens sind sogenannte Punktwolken in einem q dimensionalen Koordinatensystem Die Koordinaten dieser Punkte stellen die sogenannten Faktorladungen dar Durch ein Rotationsverfahren sollen die q extrahierten Faktoren so nahe wie moglich in diese Punktwolken gedreht werden Lineares Faktorenmodell Bearbeiten Der Faktorenanalyse liegt stets ein lineares Modell zugrunde x m G z ϵ displaystyle x mu Gamma z epsilon nbsp mit x displaystyle x nbsp Vektor der p displaystyle p nbsp zu erklarenden Variablen m displaystyle mu nbsp Vektor mit konstanten Werten G displaystyle Gamma nbsp Matrix der Faktorladungen z displaystyle z nbsp Vektor der q displaystyle q nbsp Faktorwerte ϵ displaystyle epsilon nbsp Zufallsvektor mit Erwartungswert 0 Es wird gefordert dass die Komponenten von z displaystyle z nbsp zentriert normiert und untereinander sowie mit ϵ displaystyle epsilon nbsp unkorreliert sind In der Regel wird ausserdem gefordert dass die Komponenten von ϵ displaystyle epsilon nbsp nicht miteinander korreliert sind Wird diese Forderung fallengelassen ist das Modell invariant unter orthogonaler Transformation der G displaystyle Gamma nbsp z displaystyle z nbsp und ϵ displaystyle epsilon nbsp Das empirische Datenmaterial besteht aus n displaystyle n nbsp Realisierungen des Variablenvektors x displaystyle x nbsp z B Fragebogen mit p displaystyle p nbsp Fragen die von n displaystyle n nbsp Probanden bearbeitet wurden Zur Notationsvereinfachung kann angenommen werden dass die Rohdaten in einem ersten Schritt der Auswertung zentriert wurden so dass m 0 displaystyle mu 0 nbsp gilt Im Rahmen einer Faktorenanalyse sind zu schatzen die Anzahl q displaystyle q nbsp der Faktoren die p q displaystyle p times q nbsp Faktorladungen aus G displaystyle Gamma nbsp die p displaystyle p nbsp Varianzen der Residuen aus ϵ displaystyle epsilon nbsp die n q displaystyle n times q nbsp Realisierungen des Faktorvektors z displaystyle z nbsp Die Schatzung erfolgt typischerweise in drei oder mehr Schritten Es werden mogliche Faktoren identifiziert extrahiert es wird entschieden welche Anzahl q displaystyle q nbsp von Faktoren berucksichtigt werden soll eventuell werden Faktoren rotiert um ihre Interpretation zu vereinfachen zuletzt werden die Faktorvektoren z displaystyle z nbsp fur die einzelnen Realisierungen von x displaystyle x nbsp z B personliche Werte fur einzelne Probanden geschatzt Hauptsatz Bearbeiten Aus den Modellannahmen folgt nach kurzer Rechnung der Hauptsatz der Faktoranalyse Cov x i x j G G i j Cov ϵ i ϵ j displaystyle operatorname Cov left x i x j right left Gamma Gamma top right ij operatorname Cov left epsilon i epsilon j right nbsp Fur i j displaystyle i j nbsp vereinfacht sich dieser Satz zu Var x i k 1 q G i k 2 Var ϵ i displaystyle operatorname Var left x i right sum k 1 q Gamma ik 2 operatorname Var left epsilon i right nbsp Hier steht Var fur die Varianz Cov displaystyle operatorname Cov cdot nbsp fur die Kovarianz und displaystyle top nbsp fur Matrixtransposition Der Term Var ϵ i displaystyle operatorname Var epsilon i nbsp ist derjenige Anteil der Varianz der Observablen x i displaystyle x i nbsp der durch das Faktorenmodell nicht erklart wird Der erklarte Anteil Var x i Var ϵ i displaystyle operatorname Var x i operatorname Var epsilon i nbsp also die Summe der quadrierten Faktorladungen heisst Kommunalitat der Variablen x i displaystyle x i nbsp Beispiel Bearbeiten In einer Mullsortierungsanlage seien zur Trennung des Mulls ein Magnet mit vertikaler Wirkungsrichtung und ein Geblase mit horizontaler Wirkungsrichtung installiert Die geometrischen Koordinaten der Mullstucke beim Niederfallen mogen Teil der erhobenen Daten sein Man findet Richtungskorrelationen bei Stucken ohne Metall und grosser Windanfalligkeit sowie bei Stucken mit Metallgehalt und geringer Windanfalligkeit Mit der Faktorenanalyse kann man dann zunachst finden dass es zwei orthogonale Einflusse gibt die die Bewegungsrichtung beeinflussen Die Applikation der Untersuchungsmethode mag dann sein zunachst die Anzahl der Faktoren zu schatzen s u Es ist sicher nicht interessant fur jedes einzelne Stuck die Flugbahn zu dokumentieren und fur jedes Stuck einen eigenen Faktor anzunehmen sondern aus den Korrelationen der Daten wesentliche gemeinsame Faktoren zu extrahieren sehr wahrscheinlich bilden sich zwei Faktoren aus dem Datenmaterial heraus die Starke und die Orientierung dieser Einflusse zu bestimmen noch ohne Theorie uber die Art der Einflusse oderaus der Kenntnis der Stuckeigenschaften metallisch kompakt vs nichtmetallisch windanfallig die Faktoren inhaltlich zu beschreiben und fur die kontinuierlichen Eigenschaften Metallanteil und Windwiderstand die Ladungen auf den Faktoren deren Korrelationen mit der Magnetkraft und der Geblasestarke zu beschreiben Es wird an diesem Beispiel auch der Unterschied zwischen orthogonaler und schiefwinkliger Faktorenanalyse deutlich vor allem in den Sozialwissenschaften wird in der Regel von nicht orthogonalen Faktoren ausgegangen die sozialwissenschaftlichen Analoge zu Geblase und Magnet im Beispiel mussen nicht unbedingt im Winkel von 90 Grad zueinander angeordnet sein und entsprechend einwirken In einer explorativen Situation in der man noch keine Hypothesen uber die Grunde fur das Auftreten korrelierter Auftreffpunkte hat wird man sich mit dem Auffinden und Markieren von zwei Faktoren zufriedengeben und versuchen einzugrenzen worauf diese Richtungskorrelationen zuruckzufuhren sind In einer konfirmatorischen Situation wird man untersuchen ob die aufgefundenen Korrelationen tatsachlich mit zwei Faktoren wie vielleicht aus einer Theorie her anzunehmen zu erklaren sind oder ob man einen dritten Faktor annehmen muss oder tatsachlich nur ein Faktor wirkt Explorative Faktorenanalyse BearbeitenDie explorative Faktorenanalyse wird in vier Schritten durchgefuhrt Schatzung einer Korrelationsmatrix oder Kovarianzmatrix Schatzung der Faktorladungen Bestimmung der Zahl der Faktoren und Rotation der Faktorladungen zur Verbesserung der Faktorinterpretation Faktorenextraktion Bearbeiten Der erste Schritt der Faktorenanalyse die Identifikation moglicher Faktoren ist die Schatzung der Faktorladungen und der residuellen Varianzen Fur eine solche Schatzung benotigt man ein Gutekriterium Diese essentielle theoretische Grundlage wird in weiten Teilen der Literatur nicht klar benannt Das Gewicht eines Faktors wird daraus bestimmt wie stark die Messvariablen mit ihm korrelieren d h wie hoch sie auf diesem Faktor laden Quantifiziert wird dies durch die Summe der Ladungsquadrate dies stimmt im orthogonalen Fall mit den Eigenwerten der Ladungsmatrix G displaystyle Gamma nbsp uberein Hierbei kann man die Faktoren nach der Hohe der Ladungsquadratsumme LQS sortieren Findet man gut separierbar zwei Gruppen von Faktoren einer mit hoher LQS und ein weiterer mit niedriger LQS wird man die Anzahl der Faktoren des Modells mit der Anzahl der LQS hohen Faktoren gleichsetzen Die Separierbarkeit dieser Gruppen kann man sich an einem Linien Plot uber die LQS ansehen gibt es einen erkennbaren Knick kann dieser als Trennungskriterium dienen Scree Test Ein anderes Kriterium ist dass die LQS eines gemeinsamen Faktors grosser als die Varianz einer einzelnen Messvariablen sein sollte sonst ware er schlecht als gemeinsamer Faktor zu verstehen Dies meint dann i d R LQS 1 Kriterium nach Kaiser Hauptachsenmethode Bearbeiten Bei der Hauptachsenmethode werden zunachst die Kommunalitaten geschatzt Entweder als Bestimmtheitsmass der Regression der betrachteten Messvariablen auf alle anderen Messvariablen oder als das Maximum der Betrage der Korrelationen der betrachteten Messvariablen mit allen anderen Messvariablen Danach wird ein iteratives Verfahren durchgefuhrt Die Varianzen der Residuen werden geschatzt als Differenz der Varianz der Messvariablen und der entsprechenden Kommunalitat Fur die reduzierte Kovarianzmatrix werden die Eigenwerte und vektoren berechnet Die reduzierte Kovarianzmatrix enthalt im Gegensatz zur Kovarianzmatrix auf der Hauptdiagonalen die Kommunalitaten Mit den Eigenvektoren der q displaystyle q nbsp grossten Eigenwerte wird die reproduzierte Korrelationsmatrix berechnet Die Hauptdiagonale der reproduzierten Korrelationsmatrix ergibt eine neue Schatzung der Kommunalitaten Die ersten drei Schritte werden wiederholt bis sich die Schatzungen der Ladungen Kommunalitaten und Varianzen der Residuen stabilisiert haben Bei der Hauptachsenmethode werden also erst die Kommunalitaten und Varianzen der Residuen geschatzt und danach die Eigenwertzerlegung durchgefuhrt In der Hauptkomponentenanalyse wird erst die Eigenwertzerlegung durchgefuhrt und danach werden die Kommunalitaten und Varianzen der Residuen geschatzt Fur die Interpretation bedeutet das dass bei der Hauptkomponentenanalyse die gesamte Varianz einer Messvariablen vollstandig durch die Komponenten erklart werden kann wahrend bei der Hauptachsenmethode ein Anteil der Varianz einer Messvariablen existiert der nicht durch die Faktoren erklart werden kann Ein Nachteil der Hauptachsenmethode ist dass im Laufe des Iterationsprozesses die Varianz der Residuen negativ oder grosser als die Varianz der Messvariablen werden kann Das Verfahren wird dann ohne Ergebnis abgebrochen 4 Maximum Likelihood Schatzung Bearbeiten Die Parameterschatzung steht auf einer sicheren Grundlage wenn man die G die z Var ϵ displaystyle zeta operatorname Var epsilon nbsp und die in den vorigen Abschnitten nicht mitnotierten m so bestimmt dass sie die Likelihood L x m G z displaystyle L x mu Gamma zeta nbsp der beobachteten Realisierungen von x maximieren Allerdings muss man bei diesem Schatzverfahren Annahmen uber die Wahrscheinlichkeitsverteilung der manifesten Variablen x treffen in der Regel also eine Normalverteilung annehmen Bestimmung der Faktorenzahl Bearbeiten Bei der Extraktion entstehen je nach Option und Verfahren sehr viele Faktoren Nur wenige von ihnen erklaren genug Varianz um ihre weitere Verwendung rechtfertigen zu konnen Die Auswahl der Faktoren dient in erster Linie der Gewinnung von aussagekraftigen gut interpretierbaren Ergebnissen und ist damit nur eingeschrankt objektivierbar Anhaltspunkte konnen folgende Kriterien liefern Kaiser Kriterium Scree Test auch Ellenbogenkriterium genannt Parallelanalyse eine Modifikation des Scree Tests Grundsatzlich sollten mehrere Kriterien herangezogen werden Insbesondere im Zweifelsfall bietet es sich an mehrere Faktorenzahlen durchzurechnen und im Hinblick auf Ladungen und Interpretierbarkeit zu uberprufen Gibt die der Untersuchung zugrundeliegende Theorie eine bestimmte Faktorenanzahl vor kann diese auch in der Faktorenanalyse verwendet werden Auch kann seitens des Untersuchenden mehr oder minder willkurlich festgelegt werden welcher Anteil der Gesamtvarianz erklart werden soll die hierfur erforderliche Faktorenzahl leitet sich dann daraus ab Jedoch ist auch bei einer theorie oder varianzgeleiten Festlegung die Faktorenzahl anhand der genannten Kriterien auf Plausibilitat zu prufen Faktorrotation Bearbeiten Hauptartikel Rotationsverfahren Statistik Die Rotation soll die Faktoren inhaltlich besser interpretierbar machen Zur Verfugung stehen verschiedene Verfahren darunter orthogonale d h die rotierten Faktoren sind weiterhin unkorreliert Varimax Quartimax Equamax und schiefwinklige d h die rotierten Faktoren sind korreliert Oblimin PromaxDiese Verfahren nahern sich der Rotationslosung iterativ an und erfordern meist zwischen 10 und 40 Iterationsrechnungen Grundlage fur die Berechnung ist eine Korrelationsmatrix Faktoren versus Hauptkomponentenanalyse Bearbeiten Die Faktorenanalyse und die Hauptkomponentenanalyse besitzen eine Reihe von Gemeinsamkeiten Beide Verfahren dienen der Dimensionsreduktion Beide Verfahren sind lineare Modelle zwischen den Komponenten Faktoren und Variablen Beide Verfahren konnen sowohl auf eine Kovarianz als auch auf eine Korrelationsmatrix angewendet werden Beide Verfahren ergeben oft ahnliche Resultate wenn bei der Faktorenanalyse keine Rotation angewandt wird Jedoch gibt es auch eine Reihe von Unterschieden Die Hauptkomponentenanalyse beginnt damit dass sie einen niedrigdimensionalen linearen Unterraum sucht der die Daten am besten beschreibt Da der Unterraum linear ist kann er durch ein lineares Modell beschrieben werden Sie ist daher ein deskriptiv exploratives Verfahren Die Faktorenanalyse legt ein lineares Modell zugrunde und versucht die beobachtete Kovarianz oder Korrelationsmatrix zu approximieren Sie ist daher ein modellbasiertes Verfahren In der Hauptkomponentenanalyse gibt es eine klare Rangfolge der Vektoren gegeben durch die absteigenden Eigenwerte der Kovarianz oder Korrelationsmatrix In der Faktorenanalyse wird zunachst die Dimension des Faktorraums festgelegt und alle Vektoren stehen gleichberechtigt nebeneinander In der Hauptkomponentenanalyse wird ein p dimensionaler Zufallsvektor x durch eine Linearkombination von Zufallsvektoren z k displaystyle z k nbsp dargestellt die so gewahlt werden dass der erste Summand einen moglichst grossen Anteil der Varianz von x erklart der zweite Summand moglichst viel von der verbleibenden Varianz und so weiter Wenn man diese Summe nach q Gliedern abbricht erhalt man als Darstellung von xx i k 1 q G i k z k e i displaystyle x i sum k 1 q G ik z k e i nbsp mit dem Restterm e i k q 1 p G i k z k displaystyle e i sum k q 1 p G ik z k nbsp Auf den ersten Blick sieht x wie das lineare Modell der Faktorenanalyse aus Jedoch sind die Komponenten von e miteinander korreliert da sie von denselben z k displaystyle z k nbsp abhangen Da dies die Voraussetzung der Faktorenanalyse verletzt erhalt man aus einer Hauptkomponentenanalyse kein korrektes Faktorenmodell Die Hauptkomponentenanalyse modelliert nur die Varianzen nicht aber die Kovarianzen der x 5 Die totale Varianz das Optimalitatskriterium der Hauptkomponentenanalyse lasst sich schreiben als der aufsummierte Abstand zwischen den Beobachtungen und dem Mittelwert der Beobachtungen Die genaue Anordnung der Beobachtungen im hochdimensionalen Raum deren linearer Teil mit der Kovarianz oder Korrelationsmatrix beschrieben wird spielt jedoch keine Rolle Siehe auch Bearbeiten Kaiser Meyer Olkin Kriterium KMK oder KMO auch measure of sampling adequacy MSA Literatur BearbeitenDirk Revenstorf Lehrbuch der Faktorenanalyse Kohlhammer Stuttgart 1976 ISBN 3 17 001359 9 Karl Uberla Faktorenanalyse Springer Verlag Berlin 1968 S Mulaik The foundations of factor analysis 2 ed CRC Press Boca Raton u a 2010 ISBN 978 1 4200 9961 4 Klaus Backhaus et al Multivariate Analysemethoden 14 Auflage Springer Verlag Heidelberg 2016 ISBN 978 3 662 46075 7 S 385 452 doi 10 1007 978 3 662 46076 4 8 W J Krzanowski Principles of Multivariate Analysis A User s Perspective rev ed reprint Oxford u a Oxford University Press 2008 ISBN 978 0 19 850708 6 James H Steiger Factor indeterminacy in the 1930 s and the 1970 s Some interesting parallels Psychometrika 44 1979 157 167 doi 10 1007 BF02293967 online Weblinks BearbeitenExplorative Faktorenanalyse ausfuhrliche MethodendarstellungEinzelnachweise Bearbeiten George A Miller Worter Streifzuge durch die Psycholinguistik Herausgegeben und aus dem Amerikanischen ubersetzt von Joachim Grabowski und Christiane Fellbaum Spektrum der Wissenschaft Heidelberg 1993 Lizenzausgabe Zweitausendeins Frankfurt am Main 1995 2 Auflage ebenda 1996 ISBN 3 86150 115 5 50 und 303 Krzanowski S 487 Markus Wirtz Christof Nachtigall Deskriptive Statistik 3 Auflage Juventa Verlag Weinheim 2004 S 199 200 SPSS 16 0 Algorithms SPSS Inc Chicago Illinois 2007 S 280 W J Krzanowski Principles of multivariate analysis a user s perspective 2000 S 482 Normdaten Sachbegriff GND 4016338 6 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Faktorenanalyse amp oldid 233233912