www.wikidata.de-de.nina.az
Die Diskriminanzanalyse ist eine Methode der multivariaten Verfahren in der Statistik und dient der Unterscheidung von zwei oder mehreren Gruppen die mit mehreren Merkmalen auch Variablen beschrieben werden Dabei kann sie Gruppen auf signifikante Unterscheidungen ihrer Merkmale prufen und dafur geeignete oder ungeeignete Merkmale benennen 1 Sie wurde 1936 von R A Fisher zum ersten Mal in The use of multiple measurements in taxonomic problems 2 beschrieben Eingesetzt wird die Diskriminanzanalyse in der Statistik und im Maschinellen Lernen um durch Raumtransformation eine gute Darstellung von Merkmalen zu erreichen und dient als Klassifikator Diskriminanzfunktion oder zur Dimensionsreduzierung Die Diskriminanzanalyse ist verwandt mit der Hauptkomponentenanalyse PCA welche ebenfalls eine gute Darstellungsmoglichkeit finden soll beachtet aber im Gegensatz zu dieser die Klassenzugehorigkeit der Daten Inhaltsverzeichnis 1 Problemstellung 2 Klassifikation bei bekannten Verteilungsparametern 2 1 Maximum Likelihood Methode 2 1 1 Ein Merkmal Zwei Gruppen Gleiche Varianzen 2 1 1 1 Beispiel 2 1 2 Wunschenswerte Verteilungseigenschaften der Merkmale 2 1 2 1 Gleiche Varianzen 2 1 2 2 Grosse Intergruppenvarianz 2 1 2 3 Kleine Intragruppenvarianz 2 1 3 Mehrere Merkmale Zwei Gruppen Gleiche Kovarianzmatrizen 2 1 3 1 Beispiel 2 1 4 Mehrere Merkmale Mehrere Gruppen Gleiche Kovarianzmatrizen 2 1 5 Fishersche Diskriminanzfunktion 2 2 Bayessche Diskriminanzanalyse 3 Klassifikation bei unbekannten Verteilungsparametern 3 1 Beispiel 4 Weitere Stichworte 5 Literatur 6 Weblinks 7 EinzelnachweiseProblemstellung BearbeitenWir betrachten Objekte die jeweils genau einer von mehreren gleichartigen Klassen angehoren Es ist bekannt welcher Klasse jedes einzelne Objekt angehort An jedem Objekt werden Auspragungen von Merkmalen beobachtet Aus diesen Informationen sollen lineare Grenzen zwischen den Klassen gefunden werden um spater Objekte deren Klassenzugehorigkeit unbekannt ist einer der Klassen zuordnen zu konnen Die lineare Diskriminanzanalyse ist also ein Klassifikationsverfahren Beispiele Kreditnehmer konnen z B in kreditwurdig und nicht kreditwurdig eingeteilt werden Wenn ein Bankkunde einen Kredit beantragt versucht das Institut anhand von Merkmalen wie Hohe des Einkommens Zahl der Kreditkarten Beschaftigungsdauer bei der letzten Arbeitsstelle etc auf die zukunftige Zahlungsfahigkeit und willigkeit des Kunden zu schliessen Kunden einer Supermarktkette konnen als Markenkaufer und Noname Kaufer klassifiziert werden In Frage kommende Merkmale waren etwa die jahrlichen Gesamtausgaben in diesen Laden der Anteil von Markenprodukten an den Ausgaben etc An diesem Objekt kann mindestens ein statistisches metrisch skaliertes Merkmal X displaystyle X nbsp beobachtet werden Dieses Merkmal wird im Modell der Diskriminanzanalyse als eine Zufallsvariable X displaystyle X nbsp interpretiert Es gibt mindestens zwei verschiedene Gruppen Populationen Grundgesamtheiten Aus einer dieser Grundgesamtheiten stammt das Objekt Mittels einer Zuordnungsregel der Klassifikationsregel wird das Objekt einer dieser Grundgesamtheiten zugeordnet Die Klassifikationsregel kann oft durch eine Diskriminanzfunktion angegeben werden Klassifikation bei bekannten Verteilungsparametern BearbeitenFur das bessere Verstandnis wird die Vorgehensweise anhand von Beispielen erlautert Maximum Likelihood Methode Bearbeiten Hauptartikel Maximum Likelihood Methode Eine Methode der Zuordnung ist die Maximum Likelihood Methode Man ordnet das Objekt der Gruppe zu deren Likelihood am grossten ist Ein Merkmal Zwei Gruppen Gleiche Varianzen Bearbeiten Beispiel Bearbeiten Eine Gartnerei hat die Moglichkeit eine grossere Menge Samen einer bestimmten Sorte Nelken gunstig zu erwerben Um den Verdacht auszuraumen dass es sich dabei um alte uberlagerte Samen handelt wird eine Keimprobe gemacht Man sat also 1 g Samen aus und zahlt wie viele dieser Samen keimen Aus Erfahrung ist bekannt dass die Zahl der keimenden Samen pro 1 g Saatgut annahernd normalverteilt ist Bei frischem Saatgut Population I keimen im Durchschnitt 80 Samen bei altem Population II sind es nur 40 Samen Population I Die Zahl der frischen Samen die keimen ist verteilt als X I N 80 10 2 displaystyle X I sim N 80 10 2 nbsp Population II Die Zahl der alten Samen die keimen ist verteilt als X I I N 40 10 2 displaystyle X II sim N 40 10 2 nbsp Die Keimprobe hat nun x 70 displaystyle x 70 nbsp ergeben Die Grafik zeigt dass bei dieser Probe die Likelihood der Population I am grossten ist Man ordnet also diese Keimprobe als frisch ein nbsp Aus der Grafik ersieht man dass man als Klassifikationsregel Entscheidungsregel auch angeben kann Ordne das Objekt der Population I zu wenn der Abstand von x displaystyle x nbsp zum Erwartungswert m I displaystyle mu I nbsp am kleinsten ist bzw wenn x m I lt x m I I displaystyle x mu I lt x mu II nbsp dd ist Der Schnittpunkt der Verteilungsdichten bei x 60 displaystyle x 60 nbsp entspricht so der Entscheidungsgrenze Wunschenswerte Verteilungseigenschaften der Merkmale Bearbeiten Gleiche Varianzen Bearbeiten Die Merkmale der beiden Gruppen sollten die gleiche Varianz haben Bei verschiedenen Varianzen ergeben sich mehrere Zuordnungsmoglichkeiten nbsp Unterschiedliche Gruppenvarianzen In der obigen Grafik sind zwei Gruppen mit verschiedenen Varianzen gezeigt Die flache Normalverteilung hat eine grossere Varianz als die schmale hohe Man erkennt wie die Varianz der Gruppe I die Normalverteilung der Gruppe II unterlauft Wenn nun in der Stichprobe beispielsweise x 10 displaystyle x 10 nbsp resultierte musste man die Samen als frisch einordnen da die Wahrscheinlichkeitsdichte fur Gruppe I grosser ist als fur Gruppe II Im Standardmodell der Diskriminanzanalyse wird von gleichen Varianzen und Kovarianzen ausgegangen Grosse Intergruppenvarianz Bearbeiten Die Varianz zwischen den Gruppenmittelwerten die Intergruppenvarianz sollte gross sein weil sich dann die Verteilungen nicht durchmischen Die Trennung der Gruppen ist scharfer nbsp nbsp Schlechter Kleine Varianz zwischen den Gruppen Besser Grosse Varianz zwischen den Gruppen Kleine Intragruppenvarianz Bearbeiten Die Varianz innerhalb einer Gruppe die Intragruppenvarianz sollte moglichst klein sein dann durchmischen sich die Verteilungen nicht die Trennung ist besser nbsp nbsp Schlechter Grosse Varianz in einer Gruppe Besser Kleine Varianz in einer Gruppe Mehrere Merkmale Zwei Gruppen Gleiche Kovarianzmatrizen Bearbeiten Das interessierende Objekt kann mehrere zu beobachtende Merkmale x j j 1 m displaystyle x j j 1 dots m nbsp aufweisen Man erhalt hier als modellhafte Verteilungsstruktur einen Zufallsvektor X displaystyle X nbsp Dieser Vektor ist verteilt mit dem Erwartungswertvektor m displaystyle mu nbsp und der Kovarianzmatrix S displaystyle Sigma nbsp Die konkrete Realisierung ist der Merkmalsvektor x displaystyle x nbsp dessen Komponenten die einzelnen Merkmale x j displaystyle x j nbsp enthalten Bei zwei Gruppen ordnet man analog zu oben das beobachtete Objekt der Gruppe zu bei der die Distanz des Merkmalsvektors x displaystyle x nbsp zu dem Erwartungswertvektor minimal wird Verwendet wird hier teilweise etwas umgeformt die Mahalanobis Distanz als Distanzmass Beispiel Bearbeiten In einem grossen Freizeitpark wird das Ausgabeverhalten von Besuchern ermittelt Insbesondere interessiert man sich dafur ob die Besucher in einem parkeigenen Hotel nachtigen werden Jeder Familie entstehen bis 16 Uhr Gesamtausgaben Merkmal x 1 displaystyle x 1 nbsp und Ausgaben fur Souvenirs Merkmal x 2 displaystyle x 2 nbsp Die Marketingleitung weiss aus langjahriger Erfahrung dass die entsprechenden Zufallsvariablen X 1 displaystyle X 1 nbsp und X 2 displaystyle X 2 nbsp gemeinsam annahernd normalverteilt sind mit den Varianzen 25 2 und der Kovarianz C o v 12 20 displaystyle Cov 12 20 nbsp 2 Bezuglich der Hotelbuchungen lassen sich die Konsumenten in ihrem Ausgabeverhalten in zwei Gruppen I und II einteilen so dass die bekannten Verteilungsparameter in der folgenden Tabelle aufgefuhrt werden konnen Gruppe Gesamtausgabe Ausgaben fur SouvenirsErwartungswert E X 1 displaystyle E X 1 nbsp Erwartungswert E X 2 displaystyle E X 2 nbsp Varianzen von X 1 displaystyle X 1 nbsp und X 2 displaystyle X 2 nbsp Hotelbucher I 70 40 25Keine Hotelbucher II 60 20 25Fur die Gruppe I ist also der Zufallsvektor multivariat normalverteilt mit dem Erwartungswertvektor m I 70 40 displaystyle mu I begin pmatrix 70 40 end pmatrix nbsp und der Kovarianzmatrix S I 25 20 20 25 displaystyle Sigma I begin pmatrix 25 amp 20 20 amp 25 end pmatrix nbsp Fur die Gruppe II gilt Entsprechendes Die Grundgesamtheiten der beiden Gruppen sind in der folgenden Grafik als dichte Punktwolken angedeutet Die Ausgaben fur Souvenirs werden als Luxusausgaben bezeichnet Der rosa Punkt steht fur die Erwartungswerte der ersten Gruppe der hellblaue fur die Gruppe II nbsp Eine weitere Familie hat den Freizeitpark besucht Sie hat bis 16 Uhr insgesamt 65 ausgegeben und fur Souvenirs 35 gruner Punkt in der Grafik Soll man fur diese Familie ein Hotelzimmer bereithalten Ein Blick auf die Grafik lasst schon erahnen dass der Abstand des grunen Punktes zum Erwartungswertvektor der Gruppe I minimal ist Deshalb vermutet die Hotelverwaltung dass die Familie ein Zimmer nehmen wird Fur die Mahalanobis Distanz d I x d x m I x m I T S 1 x m I displaystyle d I x d x mu I x mu I T Sigma 1 x mu I nbsp des Merkmalsvektors x displaystyle x nbsp zum Zentrum der Gruppe I errechnet man d I x 65 70 35 40 0 111 0 089 0 089 0 111 65 70 35 40 1 11 displaystyle d I x begin pmatrix 65 70 amp 35 40 end pmatrix begin pmatrix 0 111 amp 0 089 0 089 amp 0 111 end pmatrix begin pmatrix 65 70 35 40 end pmatrix 1 11 nbsp und von x displaystyle x nbsp zum Zentrum der Gruppe II d I I x 65 60 35 20 0 111 0 089 0 089 0 111 65 60 35 20 14 44 displaystyle d II x begin pmatrix 65 60 amp 35 20 end pmatrix begin pmatrix 0 111 amp 0 089 0 089 amp 0 111 end pmatrix begin pmatrix 65 60 35 20 end pmatrix 14 44 nbsp Mehrere Merkmale Mehrere Gruppen Gleiche Kovarianzmatrizen Bearbeiten Es konnen der Analyse mehr als zwei Populationen zu Grunde liegen Auch hier ordnet man analog zu oben das Objekt der Population zu bei der die Mahalanobis Distanz des Merkmalsvektors x displaystyle x nbsp zu dem Erwartungswertvektor minimal wird Fishersche Diskriminanzfunktion Bearbeiten In der Praxis ist es umstandlich bei jedem zu klassifizierenden Merkmal die Mahalanobis Distanz zu ermitteln Einfacher ist die Zuordnung mittels einer linearen Diskriminanzfunktion Ausgehend von der Entscheidungsregel Ordne das Objekt der Gruppe I zu wenn die Distanz des Objektes zur Gruppe I kleiner ist d I I x gt d I x displaystyle d II x gt d I x nbsp dd resultiert durch Umformen dieser Ungleichung die Entscheidungsregel mit Hilfe der Diskriminanzfunktion f x displaystyle f x nbsp Ordne das Objekt der Gruppe I zu wenn gilt f x gt 0 displaystyle f x gt 0 nbsp dd Die Diskriminanzfunktion errechnet sich im Fall zweier Gruppen und gleicher Kovarianzmatrizen als f x x 1 2 m I m I I T S 1 m I m I I 1 2 d I I x d I x displaystyle f x x tfrac 1 2 mu I mu II T Sigma 1 mu I mu II tfrac 1 2 d II x d I x nbsp Die Diskriminanzfunktion resultiert auch als empirischer Ansatz wenn man die Varianz zwischen den Gruppen maximiert und die Varianz innerhalb der Gruppen minimiert Dieser Ansatz heisst Fisher sche Diskriminanzfunktion weil sie von R A Fisher 1936 vorgestellt worden ist Bayessche Diskriminanzanalyse Bearbeiten Bisher wurde von der Annahme ausgegangen dass die Gruppen in der Grundgesamtheit gleich gross sind Dies ist aber nicht der Regelfall Man kann die Zugehorigkeit zu einer Gruppe auch als zufallig betrachten Die Wahrscheinlichkeit mit der ein Objekt Gruppe i displaystyle i nbsp angehort wird als A priori Wahrscheinlichkeit p i displaystyle pi i nbsp bezeichnet Bei K displaystyle K nbsp Gruppen beruht die lineare Diskriminanzregel auf der Annahme dass X displaystyle X nbsp in Gruppe i displaystyle i nbsp multivariat normalverteilt ist mit Erwartungswert m i displaystyle mu i nbsp und Kovarianzmatrix S displaystyle Sigma nbsp die in allen Gruppen gleich ist d h X N m i S displaystyle X sim N mu i Sigma nbsp Die Bayes Regel fur die lineare Diskriminanzanalyse LDA lautet dann d x a r g min j 1 K i 1 i j K log c j i log p i x T S 1 m i 1 2 m i T S 1 m i displaystyle delta x arg min j in 1 K sum i 1 i neq j K log c j i log pi i x T Sigma 1 mu i frac 1 2 mu i T Sigma 1 mu i nbsp wobei die c j i displaystyle c j i nbsp Kosten bezeichnen die entstehen wenn ein Objekt das zu Gruppe i gehort irrtumlicherweise zu Gruppe j zugeordnet wird Nimmt man im obigen Modell nicht an dass die Kovarianzmatrizen in den Gruppen identisch sind sondern dass sie sich unterscheiden konnen d h X N m i S i displaystyle X sim N mu i Sigma i nbsp so lautet die Bayes Regel fur die quadratische Diskriminanzanalyse QDA d x a r g min j 1 K i 1 i j K log c j i log p i 1 2 log S i 1 2 x m i T S i 1 x m i displaystyle delta x arg min j in 1 K sum i 1 i neq j K log c j i log pi i frac 1 2 log Sigma i frac 1 2 x mu i T Sigma i 1 x mu i nbsp Die Grenzen bei Durchfuhrung der linearen Diskriminanzanalyse sind linear in x displaystyle x nbsp bei der quadratischen quadratisch Siehe auch Bayes KlassifikatorKlassifikation bei unbekannten Verteilungsparametern BearbeitenMeistens werden die Verteilungen der zu Grunde liegenden Merkmale unbekannt sein Sie mussen also geschatzt werden Man entnimmt beiden Gruppen eine so genannte Lernstichprobe im Umfang n I displaystyle n I nbsp bzw n I I displaystyle n II nbsp Mit diesen Daten werden die Erwartungswertvektoren m i i I I I displaystyle mu i i I II nbsp und die Kovarianzmatrix S i displaystyle Sigma i nbsp geschatzt Analog zum oberen Fall verwendet man die Mahalanobisdistanz oder die Diskriminanzfunktion mit den geschatzten anstelle der wahren Parameter Geht man von dem Standardmodell mit gruppengleichen Kovarianzmatrizen aus muss erst mit Hilfe des Boxschen M Tests die Gleichheit der Kovarianzmatrizen bestatigt werden Beispiel Bearbeiten Freizeitpark Beispiel von oben Die Grundgesamtheit ist nun unbekannt Es wurden in jeder Gruppe je 16 Familien naher untersucht Es ergaben sich in der Stichprobe die folgenden Werte Ausgaben von Familien in einem FreizeitparkGruppe 1 Gruppe 2Gesamt Souvenirs Gruppe Gesamt Souvenirs Gruppe64 78 37 08 1 54 78 17 08 267 12 38 44 1 57 12 18 44 271 58 44 08 1 61 58 24 08 263 66 37 40 1 53 66 17 40 253 80 19 00 1 43 80 7 99 273 21 41 17 1 63 21 29 10 263 95 31 40 1 53 95 11 40 278 33 45 92 1 68 33 34 98 272 36 38 09 1 62 36 18 09 264 51 34 10 1 54 51 14 10 266 11 34 97 1 56 11 14 97 266 97 36 90 1 56 97 16 90 269 72 41 24 1 59 72 21 24 264 47 33 81 1 54 47 13 81 272 60 19 05 1 62 60 30 02 272 69 39 88 1 62 69 19 88 2Die Mittelwerte fur jede Gruppe der Gesamtmittelwert die Kovarianzmatrizen und die gepoolte vereinte Kovarianz errechneten sich wie folgt Variable Pooled Mean Means forGroup 1 Group 2Gesamt 62 867 67 867 57 867Souvenir 27 562 35 783 19 342Pooled Covariance MatrixGesamt SouvenirGesamt 32 59Souvenir 30 58 54 01Covariance Matrix for Group 1Gesamt SouvenirGesamt 32 59Souvenir 25 34 56 90Covariance Matrix for Group 2Gesamt SouvenirGesamt 32 59Souvenir 35 82 51 11Daraus erhalt man nach obiger Formel die Diskriminanzfunktion f x 4 690 0 020 Gesamt 0 124 Souvenir displaystyle f x 4 690 0 020 cdot text Gesamt 0 124 cdot text Souvenir nbsp Die Klassifikationsregel lautet jetzt Ordne das Objekt der Gruppe I zu wennf x gt 0 displaystyle f x gt 0 nbsp dd ist Um die Gute des Modells zu uberprufen kann man die Stichprobenwerte klassifizieren Es ergibt sich hier die Klassifikationsmatrix Gruppe Richtig zugeordnet falsch zugeordnetI 14 2II 13 3Nun soll wieder die Familie mit den Beobachtungen 65 35 displaystyle 65 35 nbsp eingeordnet werden Die folgende Grafik zeigt das Streudiagramm der Lernstichprobe mit den Gruppenmittelwerten Der grune Punkt ist die Lokalisation des Objekts 65 35 displaystyle 65 35 nbsp nbsp Schon aus der Grafik ist zu erkennen dass dieses Objekt zu Gruppe I gehort Die Diskriminanzfunktion ergibt f x 4 690 0 020 65 0 124 35 0 967 displaystyle f x 4 690 0 020 cdot 65 0 124 cdot 35 0 967 nbsp Da f x gt 0 displaystyle f x gt 0 nbsp ist ordnet man das Objekt der Gruppe I zu Weitere Stichworte BearbeitenWilks Lambda Flexible Diskriminanzanalyse Kerndichteschatzer Support Vector MachineLiteratur BearbeitenMaurice M Tatsuoka Multivariate Analysis Techniques for Educational and psychological Research John Wiley amp Sons Inc New York 1971 ISBN 0 471 84590 6 K V Mardia J T Kent J M Bibby Multivariate Analysis New York 1979 Ludwig Fahrmeir Alfred Hamerle Gerhard Tutz Hrsg Multivariate statistische Verfahren New York 1996 Joachim Hartung Barbel Elpelt Multivariate Statistik Munchen Wien 1999 Backhaus Klaus Erichson Bernd Plinke Wulff u a Multivariate Analysemethoden Weblinks BearbeitenSpringer Encyclopaedia of Mathematics Discriminant analysis englisch Einzelnachweise Bearbeiten Klaus Backhaus SpringerLink Online service Multivariate Analysemethoden eine anwendungsorientierte Einfuhrung Springer Berlin 2006 ISBN 978 3 540 29932 5 R A Fisher 1936 The use of multiple measurements in taxonomic problems Annals Eugen Vol 7 pp 179 188 doi 10 1111 j 1469 1809 1936 tb02137 x Abgerufen von https de wikipedia org w index php title Diskriminanzanalyse amp oldid 230517403