www.wikidata.de-de.nina.az
Proportionale Fehlerreduktionsmasse proportionale Fehlerreduktion PFR englisch proportionate reduction of error kurz PRE daher auch PRE Masse geben indirekt die Starke des Zusammenhangs zwischen zwei Variablen X displaystyle X und Y displaystyle Y an Inhaltsverzeichnis 1 Definition 2 Bestimmtheitsmass 3 Goodman und Kruskals l und t 3 1 Goodman und Kruskals l 3 2 Goodman und Kruskals t 3 3 Symmetrische Masse 4 Unsicherheitskoeffizient 4 1 Entropie 4 2 Asymmetrischer Unsicherheitskoeffizient 4 3 Symmetrischer Unsicherheitskoeffizient 5 Goodman und Kruskals g 6 h2 7 Literatur 8 EinzelnachweiseDefinition BearbeitenProportionale Fehlerreduktionsmasse werden definiert als P R E E 1 E 2 E 1 1 E 2 E 1 displaystyle PRE frac E 1 E 2 E 1 1 frac E 2 E 1 nbsp wobei E 1 displaystyle E 1 nbsp der Fehler bei der Vorhersage der abhangigen Variablen Y displaystyle Y nbsp ohne Kenntnis des Zusammenhangs und E 2 displaystyle E 2 nbsp der Fehler bei der Vorhersage der abhangigen Variablen Y displaystyle Y nbsp mit Kenntnis des Zusammenhangs mit X displaystyle X nbsp ist Da 0 E 2 E 1 displaystyle 0 leq E 2 leq E 1 nbsp gilt weil man annimmt dass die Kenntnis des Zusammenhangs korrekt ist der Vorhersagefehler nimmt also bei Verwendung der Kenntnis ab folgt 0 P R E 1 displaystyle 0 leq PRE leq 1 nbsp Ein Wert von Eins bedeutet dass bei Kenntnis der unabhangigen Variable der Wert der abhangigen Variable perfekt vorhergesagt werden kann Ein Wert von Null bedeutet dass die Kenntnis der unabhangigen Variablen keine Verbesserung in der Vorhersage der abhangigen Variable ergibt Der Vorteil ist dass damit alle proportionalen Fehlerreduktionsmasse in gleicher Weise unabhangig vom Skalenniveau interpretiert werden konnen Als Vergleichsmassstab kann daher das Bestimmtheitsmass dienen da es ein proportionales Fehlerreduktionsmass ist oder folgende Daumenregel 1 P R E lt 0 1 displaystyle PRE lt 0 1 nbsp Keine Beziehung 0 1 P R E lt 0 3 displaystyle 0 1 leq PRE lt 0 3 nbsp Schwache Beziehung 0 3 P R E lt 0 5 displaystyle 0 3 leq PRE lt 0 5 nbsp Mittlere Beziehung und 0 5 P R E displaystyle 0 5 leq PRE nbsp Starke Beziehung Der Nachteil ist dass die Richtung des Zusammenhangs nicht berucksichtigt werden kann da Richtungen nur bei ordinalen oder metrischen Variablen angegeben werden konnen und die Grosse der Fehlerreduktion davon abhangt wie die Vorhersage unter Kenntnis des Zusammenhangs gemacht wird Ein kleiner Wert des proportionalen Fehlerreduktionmasses bedeutet nicht dass es keinen Zusammenhang zwischen den Variablen gibt Da eine Variable abhangig und die andere unabhangig ist unterscheidet man zwischen symmetrischen und asymmetrischen proportionalen Fehlerreduktionsmassen Skalenniveau der Massunabhangigen Variable X abhangigen Variable Y Name Bemerkungnominal nominal Goodman und Kruskals l displaystyle lambda nbsp 2 Es gibt ein symmetrisches und ein asymmetrisches Mass nominal nominal Goodman und Kruskals t displaystyle tau nbsp 2 Es gibt ein symmetrisches und ein asymmetrisches Mass nominal nominal Unsicherheitskoeffizient oder Theils U 3 Es gibt ein symmetrisches und ein asymmetrisches Mass ordinal ordinal Goodman und Kruskals g displaystyle gamma nbsp 2 Es gibt nur ein symmetrisches Mass nominal metrisch h 2 displaystyle eta 2 nbsp Es gibt nur ein asymmetrisches Mass metrisch metrisch Bestimmtheitsmass R 2 displaystyle R 2 nbsp Es gibt nur ein symmetrisches Mass Bestimmtheitsmass BearbeitenFur die Vorhersage unter Unkenntnis des Zusammenhangs zwischen zwei metrischen Variablen X displaystyle X nbsp und Y displaystyle Y nbsp durfen nur Werte der abhangigen Variablen Y displaystyle Y nbsp benutzt werden Der einfachste Ansatz ist y i 1 c displaystyle hat y i 1 c nbsp also die Annahme eines konstanten Wertes Dieser Wert soll die Optimalitatseigenschaft c min c i 1 n y i c 2 displaystyle c min tilde c sum i 1 n y i tilde c 2 nbsp erfullen also die Summe der Abweichungsquadrate minimieren Daraus folgt dass c displaystyle c nbsp das arithmetische Mittel ist also c y displaystyle c bar y nbsp Daher ist der Vorhersagefehler unter Unkenntnis des Zusammenhangs E 1 i 1 n y i y i 1 2 i 1 n y i y 2 displaystyle E 1 sum i 1 n y i hat y i 1 2 sum i 1 n y i bar y 2 nbsp Fur die Vorhersage unter Kenntnis des Zusammenhangs nutzen wir die lineare Regression y i 2 b 0 b 1 x i displaystyle hat y i 2 b 0 b 1 x i nbsp aus E 2 i 1 n y i y i 2 2 i 1 n y i b 0 b 1 x i 2 displaystyle E 2 sum i 1 n y i hat y i 2 2 sum i 1 n y i b 0 b 1 x i 2 nbsp Das Bestimmtheitsmass R 2 displaystyle R 2 nbsp ist dann ein proportionales Fehlerreduktionsmass da gilt R 2 1 E 2 E 1 1 i 1 n y i y i 2 2 i 1 n y i y 2 displaystyle R 2 1 frac E 2 E 1 1 frac displaystyle sum i 1 n y i hat y i 2 2 displaystyle sum i 1 n y i bar y 2 nbsp Werden die Rollen der abhangigen und unabhangigen Variable vertauscht so ergibt sich der gleiche Wert fur R 2 displaystyle R 2 nbsp Daher gibt es nur ein symmetrisches Mass Goodman und Kruskals l und t Bearbeiten nbsp Berechnung von Goodman und Kruskals l displaystyle lambda nbsp und t displaystyle tau nbsp fur die Variablen Subjektive Schichteinstufung des Befragten und Wahlabsicht in der Bundestagswahl der ALLBUS Daten 2006 Goodman und Kruskals l Bearbeiten Die Vorhersage unter Unkenntnis des Zusammenhangs ist die Modalkategorie der abhangigen Variable und der Vorhersagefehler E 1 1 h M n displaystyle E 1 1 frac h M n nbsp mit h M displaystyle h M nbsp die absolute Haufigkeit in der Modalkategorie und n displaystyle n nbsp die Anzahl der Beobachtungen Die Vorhersage unter Kenntnis des Zusammenhangs ist die Modalkategorie der abhangigen Variable in Abhangigkeit von den Kategorien der unabhangigen Variablen und der Vorhersagefehler ist E 2 j h j n 1 h M j h j displaystyle E 2 sum j frac h bullet j n left 1 frac h M j h bullet j right nbsp mit h j displaystyle h bullet j nbsp die absolute Haufigkeit fur die jeweilige Kategorie der unabhangigen Variablen und h M j displaystyle h M j nbsp die absolute Haufigkeit der Modalkategorie in Abhangigkeit von den Kategorien der unabhangigen Variablen BeispielIm Beispiel rechts ergibt sich fur die abhangige Variable Wahlabsicht Bundestagswahl bei Unkenntnis des Zusammenhangs als der Vorhersagewert CDU CSU und damit eine Fehlervorhersage E 1 1 770 2660 0 711 displaystyle E 1 1 770 2660 0 711 nbsp Je nach Auspragung der Variablen Subjektive Schichteinstufung ergibt sich fur die abhangige Variable Wahlabsicht Bundestagswahl der Vorhersagewert CDU CSU Kategorie Mittelschicht Obere Mittelschicht Oberschicht SPD Kategorie Arbeiterschicht oder Andere Partei Nichtwahler alle anderen Kategorien Der Vorhersagefehler E 2 91 2660 1 27 91 953 2660 1 264 953 21 2660 1 6 21 0 689 displaystyle E 2 91 2660 cdot 1 27 91 953 2660 cdot 1 264 953 dots 21 2660 cdot 1 6 21 0 689 nbsp und l 1 0 689 0 711 0 031 displaystyle lambda 1 0 689 0 711 0 031 nbsp Das heisst im vorliegenden Beispiel kann der Fehler bei der Vorhersage der Wahlabsicht der Bundestagswahl des Befragten um 3 1 reduziert werden wenn man seine eigene subjektive Schichteinstufung kennt Goodman und Kruskals t Bearbeiten Bei Goodman und Kruskals t displaystyle tau nbsp wird als Vorhersagewert statt der Modalkategorie ein zufalliger gezogener Wert aus der Verteilung von Y angenommen d h mit Wahrscheinlichkeit h 1 n displaystyle h 1 bullet n nbsp wird Kategorie 1 gezogen mit Wahrscheinlichkeit h 2 n displaystyle h 2 bullet n nbsp wird Kategorie 2 gezogen und so weiter Der Vorhersagefehler ergibt sich dann als E 1 k h k n 1 h k n displaystyle E 1 sum k frac h k bullet n left 1 frac h k bullet n right nbsp mit h k displaystyle h k bullet nbsp die absolute Haufigkeit der Kategorie k displaystyle k nbsp der abhangigen Variablen Analog ergibt sich der Vorhersagefehler E 2 displaystyle E 2 nbsp nur dass jetzt die Vorhersage entsprechend fur jede Kategorie der unabhangigen Variablen gemacht wird und der Vorhersagefehler E 2 displaystyle E 2 nbsp ergibt sich als Summe der gewichteten Vorhersagefehler in jeder Kategorie der unabhangigen Variablen E 2 j h j n k h k j h j 1 h k j h j displaystyle E 2 sum j frac h bullet j n left sum k frac h k j h bullet j left 1 frac h k j h bullet j right right nbsp mit h k j displaystyle h k j nbsp die absolute Haufigkeit fur das gemeinsame Auftreten der Kategorien i displaystyle i nbsp und j displaystyle j nbsp Symmetrische Masse Bearbeiten Fur Goodman und Kruskals l displaystyle lambda nbsp und t displaystyle tau nbsp konnen die Vorhersagefehler E 1 Y displaystyle E 1 Y nbsp und E 2 Y displaystyle E 2 Y nbsp wenn Y displaystyle Y nbsp die abhangige Variable ist und E 1 X displaystyle E 1 X nbsp und E 2 X displaystyle E 2 X nbsp wenn X displaystyle X nbsp die abhangige Variable ist berechnet werden Die symmetrischen Masse fur Goodman und Kruskals l displaystyle lambda nbsp und t displaystyle tau nbsp ergeben sich dann als E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y displaystyle frac E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y nbsp Unsicherheitskoeffizient BearbeitenEntropie Bearbeiten Der Unsicherheitskoeffizient misst die Unsicherheit der Information mit Hilfe der Entropie Wenn f k displaystyle f k nbsp die relative Haufigkeit des Auftretens der Kategorie k displaystyle k nbsp ist dann ist die Entropie oder Unsicherheit definiert als U k f k log f k displaystyle U sum k f k log f k nbsp Die Unsicherheit U displaystyle U nbsp ist Null wenn fur alle moglichen Kategorien bis auf eine f k 0 displaystyle f k 0 nbsp ist Die Vorhersage welchen Kategorienwert eine Variable annimmt ist dann trivial Ist f k 1 k displaystyle f k 1 k nbsp Gleichverteilung dann ist die Unsicherheit U log k displaystyle U log k nbsp und auch maximal Asymmetrischer Unsicherheitskoeffizient Bearbeiten Das Fehlermass unter Unkenntnis des Zusammenhangs ist daher die Unsicherheit U Y displaystyle U Y nbsp fur die abhangige Variable E 1 k h k n log h k n U Y displaystyle E 1 sum k frac h k bullet n log left frac h k bullet n right U Y nbsp Das Fehlermass unter Kenntnis des Zusammenhangs ist die gewichtete Summe der Unsicherheit fur jede Kategorie der abhangigen Variablen E 2 j h j n k h k j h j log h k j h j Unsicherheit in Kategorie j der unabhangigen Variable displaystyle E 2 sum j frac h bullet j n underbrace left sum k frac h k j h bullet j log left frac h k j h bullet j right right begin matrix text Unsicherheit in Kategorie j text der unabhangigen Variable end matrix nbsp Dieser Ausdruck lasst auch schreiben als E 2 U X Y U X j k h k j n log h k j n j h j n log h j n displaystyle E 2 U XY U X left sum j k frac h k j n log left frac h k j n right right left sum j frac h bullet j n log left frac h bullet j n right right nbsp mit U X Y displaystyle U XY nbsp die Unsicherheit basierend auf der gemeinsamen Verteilung von X displaystyle X nbsp und Y displaystyle Y nbsp und U X displaystyle U X nbsp die Unsicherheit der unabhangigen Variable X displaystyle X nbsp Der Unsicherheitskoeffizient ergibt sich dann als U asym E 1 E 2 E 1 U X U Y U X Y U Y displaystyle U text asym frac E 1 E 2 E 1 frac U X U Y U XY U Y nbsp Symmetrischer Unsicherheitskoeffizient Bearbeiten Fur den Unsicherheitskoeffizient konnen die Vorhersagefehler E 1 Y displaystyle E 1 Y nbsp und E 2 Y displaystyle E 2 Y nbsp wenn Y displaystyle Y nbsp die abhangige Variable ist und E 1 X displaystyle E 1 X nbsp und E 2 X displaystyle E 2 X nbsp wenn X displaystyle X nbsp die abhangige Variable ist berechnet werden Der symmetrische Unsicherheitskoeffizient ergibt sich wie bei Goodman and Kruskals l displaystyle lambda nbsp und t displaystyle tau nbsp als U sym E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y 2 U X U Y U X Y U X U Y displaystyle U text sym frac E 1 X E 2 X E 1 Y E 2 Y E 1 X E 1 Y frac 2 U X U Y U XY U X U Y nbsp Goodman und Kruskals g BearbeitenC displaystyle C nbsp sei die Zahl konkordanten Paare x i lt x j displaystyle x i lt x j nbsp und y i lt y j displaystyle y i lt y j nbsp und D displaystyle D nbsp die Zahl diskordanten Paare x i lt x j displaystyle x i lt x j nbsp und y i gt y j displaystyle y i gt y j nbsp Wenn wir keine gemeinsamen Rangzahlen Ties haben und n displaystyle n nbsp die Anzahl der Beobachtungen ist dann gilt C D n n 1 2 displaystyle C D n n 1 2 nbsp Unter Unkenntnis des Zusammenhangs konnen wir keine Aussage daruber machen ob ein Paar konkordant oder diskordant ist Daher sagen wir Wahrscheinlichkeit 0 5 ein konkordantes bzw diskordantes Paar vorher Der Gesamtfehler fur alle moglichen Paare ergibt sich als E 1 C D 2 displaystyle E 1 frac C D 2 nbsp Unter Kenntnis des Zusammenhangs wird immer Konkordanz vorhergesagt falls C D displaystyle C geq D nbsp oder immer Diskordanz wenn C lt D displaystyle C lt D nbsp Der Fehler ist E 2 min C D D falls C D C falls C lt D displaystyle E 2 min C D left begin matrix D amp text falls C geq D C amp text falls C lt D end matrix right nbsp und es folgt E 1 E 2 E 1 C D 2 min C D C D 2 C D C D g displaystyle frac E 1 E 2 E 1 frac frac C D 2 min C D frac C D 2 frac C D C D gamma nbsp Der Betrag von Goodman and Kruskals g displaystyle gamma nbsp ist damit ein symmetrisches proportionales Fehlerreduktionsmass h2 Bearbeiten nbsp Berechnung von h displaystyle eta nbsp fur die Variablen Nettoeinkommen des Befragten abhangig und Subjektive Schichteinstufung des Befragten unabhangig der ALLBUS Daten 2006 Wie bei dem Bestimmtheitsmass ist der Vorhersagewert fur die abhangige metrische Variable unter Unkenntnis des Zusammenhangs y displaystyle bar y nbsp und der Vorhersagefehler E 1 i 1 n y i y 2 displaystyle E 1 sum i 1 n y i bar y 2 nbsp Bei Kenntnis zu welcher der Gruppen der nominale oder ordinale unabhangigen Variable die Beobachtung gehort ist der Vorhersagewert gerade der Gruppenmittelwert y k displaystyle bar y k nbsp Der Vorhersagefehler ergibt sich als E 2 k i 1 n y i y k 2 d i k displaystyle E 2 sum k sum i 1 n y i bar y k 2 delta ik nbsp mit d i k 1 falls i k 0 sonst displaystyle delta ik left begin matrix 1 amp text falls i k 0 amp text sonst end matrix right nbsp wenn die Beobachtung i displaystyle i nbsp zur Gruppe k displaystyle k nbsp gehort und sonst Null Damit ergibt sich h 2 1 E 2 E 1 1 k i 1 n y i y k 2 d i k i 1 n y i y 2 displaystyle eta 2 1 frac E 2 E 1 1 frac sum k sum i 1 n y i bar y k 2 delta ik sum i 1 n y i bar y 2 nbsp Die Rollen der abhangigen und unabhangigen Variablen konnen nicht vertauscht werden da sie unterschiedliche Skalenniveaus haben Deswegen gibt es nur ein asymmetrisches Mass In Cohen 1988 1 wird als Daumenregel angegeben h 2 lt 0 01 displaystyle eta 2 lt 0 01 nbsp kein Zusammenhang 0 01 h 2 lt 0 06 displaystyle 0 01 leq eta 2 lt 0 06 nbsp geringer Zusammenhang 0 06 h 2 lt 0 14 displaystyle 0 06 leq eta 2 lt 0 14 nbsp mittlerer Zusammenhang und 0 14 h 2 displaystyle 0 14 leq eta 2 nbsp starker Zusammenhang BeispielIn dem Beispiel kann der Fehler bei der Vorhersage des Nettoeinkommens bei Kenntnis der Schichteinstufung um 0 306 2 0 094 displaystyle 0 306 2 0 094 nbsp also knapp 10 reduziert werden Das zweite h displaystyle eta nbsp ergibt sich wenn man die Rolle der Variablen vertauscht was aber hier unsinnig ist Daher muss dieser Wert ignoriert werden Literatur BearbeitenY M M Bishop S E Feinberg P W Holland 1975 Discrete Multivariate Analysis Theory and Practice Cambridge MA MIT Press L C Freemann 1986 Order based Statistics and Monotonicity A Family of Ordinal Measures of Association Journal of Mathematical Sociology 12 1 S 49 68 J Bortz 2005 Statistik fur Human und Sozialwissenschaftler 6 Auflage Springer Verlag B Ronz 2001 Skript Computergestutzte Statistik II Humboldt Universitat zu Berlin Lehrstuhl fur Statistik Einzelnachweise Bearbeiten a b J Cohen 1988 Statistical Power Analysis for Behavioral Science Erlbaum Hilsdale a b c L A Goodman W H Kruskal 1954 Measures of association for cross classification Journal of the American Statistical Association 49 S 732 764 H Theil 1972 Statistical Decomposition Analysis Amsterdam North Holland Publishing Company diskutiert den Unsicherheitskoeffizient Abgerufen von https de wikipedia org w index php title Proportionale Fehlerreduktionsmasse amp oldid 237631456