www.wikidata.de-de.nina.az
Cohens Kappa ist ein statistisches Mass fur die Interrater Reliabilitat von Einschatzungen von in der Regel zwei Beurteilern Ratern das Jacob Cohen 1960 vorschlug Dieses Mass kann aber auch fur die Intrarater Reliabilitat verwendet werden bei dem derselbe Beobachter zu zwei verschiedenen Zeitpunkten die gleiche Messmethode anwendet 1 Inhaltsverzeichnis 1 Definition 2 Wertebereich 3 Nominalskalen zwei Rater 4 Fleiss Kappa 5 Mehrfachstufung der Messobjekte zwei Rater 6 Kardinalskalen Kappa 7 Einzelnachweise 8 Literatur und Quellen 9 WeblinksDefinition BearbeitenDie Gleichung fur Cohens Kappa lautet k p 0 p c 1 p c displaystyle kappa frac p 0 p c 1 p c nbsp wobei p 0 displaystyle p 0 nbsp der gemessene Ubereinstimmungswert der beiden Schatzer und p c displaystyle p c nbsp die zufallig erwartete Ubereinstimmung ist Wertebereich BearbeitenWenn die Rater in allen ihren Urteilen ubereinstimmen ist k 1 displaystyle kappa 1 nbsp Sofern sich nur Ubereinstimmungen zwischen den beiden Ratern feststellen lassen die mathematisch dem Ausmass des Zufalls entsprechen nimmt es einen Wert von k 0 displaystyle kappa 0 nbsp an Negative Werte weisen dagegen auf eine Ubereinstimmung hin die noch kleiner ist als eine zufallige Ubereinstimmung Greve und Wentura 1997 S 111 schlagen vor dass k displaystyle kappa nbsp Werte von 0 40 bis 0 60 noch annehmbar sind aber Werte unter 0 40 mit Skepsis betrachtet werden sollten Interrater Reliabilitatswerte von k 0 75 displaystyle kappa geq 0 75 nbsp seien gut bis ausgezeichnet Landis und Koch 1977 schlagen vor k lt 0 displaystyle kappa lt 0 nbsp schlechte Ubereinstimmung poor agreement 0 lt k lt 0 20 displaystyle 0 lt kappa lt 0 20 nbsp etwas slight Ubereinstimmung 0 21 0 40 ausreichende fair Ubereinstimmung 0 41 0 60 mittelmassige moderate Ubereinstimmung 0 61 0 80 beachtliche substantial Ubereinstimmung 0 81 1 00 fast vollkommene almost perfect Ubereinstimmung Problematisch am Koeffizienten ist dass sein maximaler Wert nicht immer Eins ist s u Nominalskalen zwei Rater BearbeitenWenn lediglich Ubereinstimmungen und Nicht Ubereinstimmungen zwischen den beiden Ratern abgepruft werden fallen alle auftretenden Beurteilungsunterschiede gleich ins Gewicht Dies ist insbesondere bei Nominalskalen sinnvoll Dabei kann das Datenmaterial also die Urteilshaufigkeiten h displaystyle h nbsp bei einem Item oder Merkmal mit z displaystyle z nbsp nominalen Kategorien K a t displaystyle Kat nbsp von beiden Einschatzern in einer z z displaystyle z times z nbsp Kontingenztafel also mit z displaystyle z nbsp Zeilen und z displaystyle z nbsp Spalten abgetragen werden Rater B Randhaufigkeiten h i displaystyle h i nbsp Rater A K a t 1 displaystyle Kat 1 nbsp K a t z displaystyle Kat z nbsp displaystyle sum nbsp K a t 1 displaystyle Kat 1 nbsp h 11 displaystyle h 11 nbsp h 1 z displaystyle h 1z nbsp h 1 i z h 1 i displaystyle h 1 sum i z h 1i nbsp K a t z displaystyle Kat z nbsp h z 1 displaystyle h z1 nbsp h z z displaystyle h zz nbsp h z i z h z i displaystyle h z sum i z h zi nbsp Randhaufigkeiten h i displaystyle h i nbsp h 1 i z h i 1 displaystyle h 1 sum i z h i1 nbsp h z i z h i z displaystyle h z sum i z h iz nbsp N displaystyle sum sum N nbsp Dann gilt fur den Anteil der ubereinstimmenden Einschatzungen der Rater Mitteldiagonale der Kontingenztafel p 0 displaystyle p 0 nbsp p 0 i 1 z h i i N displaystyle p 0 frac sum i 1 z h ii N nbsp wobei N displaystyle N nbsp der Anzahl der insgesamt eingeschatzten Beurteilungsobjekte Personen Items Gegenstande entspricht Fur die erwarteten Ubereinstimmungen werden die Produkte der Randsummen Zeilensumme Spaltensumme einer Kategorie K a t displaystyle Kat nbsp aufsummiert und schliesslich ins Verhaltnis zum Quadrat der Gesamtsumme gesetzt p c 1 N 2 i 1 z h i h i displaystyle p c frac 1 N 2 cdot sum i 1 z h i cdot h i nbsp Scott 1955 schlug fur seinen Koeffizienten p displaystyle pi nbsp der nach derselben Ausgangsformel wie k displaystyle kappa nbsp berechnet wird vor die erwarteten Ubereinstimmungen wie folgt zu bestimmen p c 1 N 2 i 1 z h i h i 2 2 displaystyle p c frac 1 N 2 cdot sum i 1 z left frac h i h i 2 right 2 nbsp Sofern die Randverteilungen unterschiedlich sind ist Scotts p displaystyle pi nbsp immer grosser als Cohens k displaystyle kappa nbsp Sobald in der Kontingenztafel eine Zelle jenseits der Diagonalen gefullt ist also Beurteilungsunterschiede auftreten hangt der maximale Wert von Cohens Kappa von den Randverteilungen ab Er wird umso geringer je weiter sich die Randverteilungen von einer Gleichverteilung entfernen Brennan und Prediger 1981 schlagen hier einen korrigierten Kappa Wert k n displaystyle kappa n nbsp vor der p c displaystyle p c nbsp definiert als p c 1 z displaystyle p c frac 1 z nbsp wobei z displaystyle z nbsp wie oben die Anzahl der Kategorien also der Merkmalsauspragungen ist Somit lautet k n displaystyle kappa n nbsp k n p 0 1 z 1 1 z displaystyle kappa n frac p 0 frac 1 z 1 frac 1 z nbsp Fleiss Kappa BearbeitenDie Ausweitung der Formeln auf mehr als zwei Rater ist im Prinzip unproblematisch Die Ausweitung der k displaystyle kappa nbsp Statistik wird auch als Fleiss Kappa bezeichnet Fur den Anteil der aufgetretenen Ubereinstimmungen gilt dann z B fur drei Rater p 0 i h i i i N displaystyle p 0 frac sum i h iii N nbsp und p c 1 N 3 i 1 z h i h i h i displaystyle p c frac 1 N 3 cdot sum i 1 z h i cdot h i cdot h i nbsp Fur den Koeffizienten von Brennan und Prediger 1981 schlagt von Eye 2006 S 15 folgende Ausweitung auf d displaystyle d nbsp Rater vor k n i p i 1 z d 1 1 1 z d 1 displaystyle kappa n frac sum i p i frac 1 z d 1 1 frac 1 z d 1 nbsp wobei i displaystyle i nbsp ein Index fur die Ubereinstimmungszellen Diagonalen ist Wenn z displaystyle z nbsp wie oben die Anzahl der Kategorien j 1 2 3 z displaystyle j 1 2 3 dots z nbsp ist und d displaystyle d nbsp die Anzahl der Rater Anzahl der Einschatzungen pro Merkmal Item Person und wobei N displaystyle N nbsp die Anzahl der insgesamt eingeschatzten Beurteilungsobjekte Falle Personen Items Gegenstande i 1 2 3 N displaystyle i 1 2 3 dots N nbsp ist gilt folgendes d i j displaystyle d ij nbsp ist die Anzahl der Rater die Beurteilungsobjekt i displaystyle i nbsp in Kategorie j displaystyle j nbsp passend beurteilt hat i 1 N d i j displaystyle sum i 1 N d ij nbsp ist die Summe aller Falle in Beurteilungskategorie j displaystyle j nbsp p j 1 N d i 1 N d i j displaystyle p j frac 1 N cdot d sum i 1 N d ij nbsp ist der Anteil aller Falle in Beurteilungskategorie j displaystyle j nbsp an allen N d displaystyle N cdot d nbsp Beurteilungen insgesamt Das Ausmass der Beurteilerubereinstimmung beim i displaystyle i nbsp Fall bei der i displaystyle i nbsp Person Item Gegenstand berechnet sich dann als p i 1 d d 1 j 1 z d i j d i j 1 1 d d 1 j 1 z d i j 2 d i j displaystyle p i frac 1 d d 1 sum j 1 z d ij d ij 1 frac 1 d d 1 sum j 1 z left d ij 2 d ij right nbsp In die k displaystyle kappa nbsp Formel fliesst der Mittelwert uber alle p i displaystyle p i nbsp ein sowie der Erwartungswert fur den Zufall p c displaystyle p c nbsp ein p 0 1 N i 1 N p i 1 N d d 1 i 1 N j 1 z d i j 2 N d displaystyle p 0 frac 1 N sum i 1 N p i frac 1 Nd d 1 left left sum i 1 N sum j 1 z d ij 2 right Nd right nbsp p c j 1 z p j 2 displaystyle p c sum j 1 z p j 2 nbsp 1 2 3 4 5 p i displaystyle p i nbsp 1 0 0 0 0 14 1 0002 0 2 6 4 2 0 2533 0 0 3 5 6 0 3084 0 3 9 2 0 0 4405 2 2 8 1 1 0 3306 7 7 0 0 0 0 4627 3 2 6 3 0 0 2428 2 5 3 2 2 0 1769 6 5 2 1 0 0 28610 0 2 2 3 7 0 286Gesamt 20 28 39 21 32p j displaystyle p j nbsp 0 143 0 200 0 279 0 150 0 229Beispieltafel zur Berechnung von Fleiss Kappa BeispielIm folgenden Rechenbeispiel beurteilen d 14 displaystyle d 14 nbsp Rater jeweils N 10 displaystyle N 10 nbsp Falle auf einer Skala mit z 5 displaystyle z 5 nbsp Kategorien Die Kategorien finden sich in den Spalten die Falle in den Zeilen Die Summe aller Beurteilungen N d 140 displaystyle N cdot d 140 nbsp Beispielsweise ist p j displaystyle p j nbsp in der ersten Spalte p j 1 0 0 0 0 2 7 3 2 6 0 140 0 143 displaystyle p j 1 frac 0 0 0 0 2 7 3 2 6 0 140 0 143 nbsp und p i displaystyle p i nbsp in der zweiten Zeile p i 2 1 14 14 1 0 2 0 2 2 2 6 2 6 4 2 4 2 2 2 0 253 displaystyle p i 2 frac 1 14 14 1 left 0 2 0 2 2 2 6 2 6 4 2 4 2 2 2 right 0 253 nbsp So ergibt sich fur p 0 1 10 14 14 1 3 780 14 14 1 0 378 displaystyle p 0 frac 1 10 left 14 14 1 right left 3 780 cdot 14 cdot 14 1 right 0 378 nbsp p c 0 143 2 0 200 2 0 279 2 0 150 2 0 229 2 0 213 displaystyle p c 0 143 2 0 200 2 0 279 2 0 150 2 0 229 2 0 213 nbsp und k 0 378 0 213 1 0 213 0 21 displaystyle kappa frac 0 378 0 213 1 0 213 0 21 nbsp Dass hier k displaystyle kappa nbsp so ahnlich ist wie p c displaystyle p c nbsp ist Zufall Mehrfachstufung der Messobjekte zwei Rater BearbeitenSind die Rater aufgefordert die Schatzobjekte mehrfach zu stufen d h statt der k nominalen Kategorien geht es nun um Abstufungen und kann fur diese Abstufungen mindestens ein Ordinal Skalenniveau angenommen werden sollten diskordant grossere Abweichungen der Rater voneinander starker ins Gewicht fallen als kleinere Abweichungen In diesem Fall sollte ein gewichtetes Kappa berechnet werden bei dem fur jede Zelle ij der Kontingenztafel ein Gewichtungsfaktor v i j displaystyle v ij nbsp definiert wird das sich z B daran orientieren konnte wie gross die Abweichung von der Mitteldiagonalen ist z B als quadrierte Abweichungen Mitteldiagonalzellen 0 Abweichungen um 1 Kategorie 1 Abweichungen um 2 Kategorien 2 2 displaystyle 2 2 nbsp 4 usw Dann gilt fur dieses gewichtete Kappa k w displaystyle kappa w nbsp vgl Bortz 1999 k w 1 i z j z v i j h i j i z j z v i j h i h j N displaystyle kappa w 1 frac sum i z sum j z v ij cdot h ij sum i z sum j z v ij cdot frac h i cdot h j N nbsp Alternativen zu diesem Koeffizienten sind der Rangkorrelationskoeffizient nach Spearman und der Kendall sche Rangkorrelationskoeffizient Kendall sches Tau sowie der Kendall sche Konkordanzkoeffizient W Kardinalskalen Kappa BearbeitenDieser Gewichtungsgedanke lasst sich auch weiterfuhren Auf Intervall Skalenniveau ist das Ausmass des Unterschieds bzw der Ahnlichkeit zwischen den abgegebenen Einschatzungen sogar direkt quantifizierbar Cohen 1968 1972 Die Gewichtungswerte fur jede Zelle der Kontingenztafel orientieren sich dann jeweils am maximalen und minimalem Unterschied Fur das Kardinalskalen k displaystyle kappa nbsp gilt dass identische Einschatzungen bzw der Minimalunterschied zwischen Beobachtern standardisiert mit dem Wert 0 und der maximale Beobachterunterschied mit einem Wert von 1 gewichtet werden sollen und die anderen beobachteten Unterschiede jeweils in ihrem Verhaltnis dazu k w 1 i z j z v i j w h i j i z j z v i j w h i h j N displaystyle kappa w 1 frac sum i z sum j z v ij w cdot h ij sum i z sum j z v ij w cdot frac h i cdot h j N nbsp und fur die 0 1 Standardisierung der Gewichte v i j w v i j v m i n v m a x v m i n displaystyle v ij w frac v ij v mathrm min v mathrm max v mathrm min nbsp Das gewichtete Kappa ist ein Spezialfall des Intraklassen Korrelationskoeffizienten Fleiss amp Cohen 1973 Einzelnachweise Bearbeiten Kilem Li Gwet Intrarater Reliability In Wiley Encyclopedia of Clinical Trials John Wiley amp Sons 2008 agreestat com PDF Literatur und Quellen BearbeitenJ Bortz Statistik fur Sozialwissenschaftler 5 Auflage Springer Berlin 1999 J Bortz G A Lienert K Boehnke Verteilungsfreie Methoden in der Biostatistik Kapitel 9 Springer Berlin 1990 R L Brennan D J Prediger Coefficient k displaystyle kappa nbsp Some uses misuses and alternatives In Educational and Psychological Measurement 41 1981 S 687 699 J Cohen A coefficient of agreement for nominal scales In Educational and Psychological Measurement 20 1960 S 37 46 J Cohen Weighted kappa Nominal scale agreement with provision for scaled disagreement or partial credit In Psychological Bulletin 1968 S 213 220 J Cohen Weighted chi square An extension of the kappa method In Education and Psychological Measurement 32 1972 S 61 74 J L Fleiss The measurement of interrater agreement In ders Statistical methods for rates and proportions 2 Auflage John Wiley amp Sons New York 1981 S 212 236 Kapitel 13 J L Fleiss J Cohen The equivalence of weighted kappa and the intraclass correlation coefficient as measures of reliability In Educational and Psychological Measurement 33 1973 S 613 619 W Greve D Wentura Wissenschaftliche Beobachtung Eine Einfuhrung PVU Beltz Weinheim 1997 J R Landis G G Koch The measurement of observer agreement for categorical data In Biometrics 33 1977 S 159 174 W A Scott Reliability of content analysis The case nominal scale coding In Public Opinion Quarterly 19 1955 S 321 325 A von Eye An Alternative to Cohen s k displaystyle kappa nbsp In European Psychologist 11 2006 S 12 24 Weblinks BearbeitenOnline Tool zur automatischen Berechnung von Kappa Kappa Masse im Uberblick franzosisch Normdaten Sachbegriff GND 7522376 4 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Cohens Kappa amp oldid 237444595