www.wikidata.de-de.nina.az
Bei einer Klassifizierung werden Objekte anhand von bestimmten Merkmalen durch einen Klassifikator in verschiedene Klassen eingeordnet Der Klassifikator macht dabei im Allgemeinen Fehler ordnet also in manchen Fallen ein Objekt einer falschen Klasse zu Aus der relativen Haufigkeit dieser Fehler lassen sich quantitative Masse zur Beurteilung eines Klassifikators ableiten Haufig ist die Klassifikation binarer Natur d h es gibt nur zwei mogliche Klassen Die hier diskutierten Gutemasse beziehen sich ausschliesslich auf diesen Fall Solche binaren Klassifikationen werden haufig in Form einer Ja Nein Frage formuliert Leidet ein Patient an einer bestimmten Krankheit oder nicht Ist ein Feuer ausgebrochen oder nicht Nahert sich ein feindliches Flugzeug oder nicht Bei Klassifikationen dieser Art gibt es zwei mogliche Arten von Fehlern Ein Objekt wird der ersten Klasse zugeordnet obwohl es der zweiten angehort oder umgekehrt Die hier beschriebenen Kennzahlen bieten dann eine Moglichkeit die Zuverlassigkeit des zugehorigen Klassifikators Diagnoseverfahren Brandmelder Fliegerradar zu beurteilen Ja Nein Klassifikationen weisen Ahnlichkeiten zu statistischen Tests auf bei denen zwischen einer Nullhypothese und einer Alternativhypothese entschieden wird Als Alternative zu den unten aufgefuhrten Klassifikationsmetriken welche auf der Dichotomisierung der vorhergesagten Wahrscheinlichkeiten beruhen konnen Scoring rules zur Bewertung eines Klassifikators herangezogen werden Diese haben den Vorteil dass die Wahrscheinlichkeitskalibrierung bewertet wird Eine kunstliche Dichotomisierung der Wahrscheinlichkeiten um Vorhersagen uber Klassen zu erhalten kann zu Verlust an Aussagekraft fuhren 1 Inhaltsverzeichnis 1 Wahrheitsmatrix Richtige und falsche Klassifikationen 2 Statistische Gutekriterien der Klassifikation 2 1 Sensitivitat und Falsch negativ Rate 2 1 1 Sensitivitat 2 1 2 Falsch negativ Rate 2 1 3 Zusammenhang 2 2 Spezifitat und Falsch positiv Rate 2 2 1 Spezifitat 2 2 2 Falsch positiv Rate 2 2 3 Zusammenhang 2 3 Positiver und negativer Vorhersagewert 2 3 1 Positiver Vorhersagewert 2 3 2 Negativer Vorhersagewert 2 3 3 Zusammenhange 2 4 Likelihood Quotienten 2 5 Korrekt und Falschklassifikationsrate 2 5 1 Korrektklassifikationsrate 2 5 2 Falschklassifikationsrate 2 5 3 Zusammenhang 2 6 Kombinierte Masse 2 6 1 F Mass 2 6 2 Effektivitatsmass 2 7 Funktionsgraphen 3 Probleme 3 1 Gegenseitige Beeinflussungen 3 2 Seltene Positiv Falle 3 3 Unvollstandige Wahrheitsmatrix 4 Klassifikationsbewertung und statistische Testtheorie 4 1 Klassifikationsbewertung zur Beurteilung der Qualitat statistischer Tests 4 2 Statistische Tests zur Beurteilung einer Klassifikation 5 Beispiele 5 1 Anwendung im Information Retrieval 5 1 1 Genauigkeit Trefferquote Diagramm 5 1 2 Beispiel 5 1 3 Praxis und Probleme 5 2 HIV in der BRD 5 3 Herzinfarkt in den USA 6 Siehe auch 7 Literatur 7 1 Allgemein 7 2 Information Retrieval 8 Weblinks 9 EinzelnachweiseWahrheitsmatrix Richtige und falsche Klassifikationen BearbeitenSiehe auch Kontingenztafel nbsp Ein Test soll kranke und gesunde Menschen voneinander unterscheiden Jeder Mensch wird durch einen Punkt dargestellt der links krank bzw rechts gesund der schwarzen Linie liegt Alle hier durch Punkte reprasentierte Menschen wurden getestet Die Punkte im Oval sind die von dem Test als krank klassifizierten Menschen Richtig bewertete Falle sind grun oder gelb falsch bewertete rot oder grau unterlegt Um einen Klassifikator zu bewerten muss man ihn in einer Reihe von Fallen anwenden bei denen man zumindest im Nachhinein Kenntnis uber die wahre Klasse der jeweiligen Objekte hat Ein Beispiel fur so einen Fall ist ein medizinischer Labortest mit dem festgestellt werden soll ob eine Person eine bestimmte Krankheit hat Spater wird durch aufwandigere Untersuchungen festgestellt ob die Person tatsachlich an dieser Krankheit leidet Der Test stellt einen Klassifikator dar der die Personen in die Kategorien krank und gesund einordnet Da es sich um eine Ja Nein Frage handelt sagt man auch der Test fallt positiv Einordnung krank oder negativ Einordnung gesund aus Um zu beurteilen wie gut geeignet der Labortest fur die Diagnose der Krankheit ist wird nun bei jedem Patienten dessen tatsachlicher Gesundheitszustand mit dem Ergebnis des Tests verglichen Dabei konnen vier mogliche Falle auftreten Richtig positiv Der Patient ist krank und der Test hat dies richtig angezeigt Falsch negativ Der Patient ist krank aber der Test hat ihn falschlicherweise als gesund eingestuft Falsch positiv Der Patient ist gesund aber der Test hat ihn falschlicherweise als krank eingestuft Richtig negativ Der Patient ist gesund und der Test hat dies richtig angezeigt Im ersten und letzten Fall war die Diagnose also richtig in den anderen beiden Fallen liegt ein Fehler vor Die vier Falle werden in verschiedenen Kontexten auch anders benannt So sind auch die englischen Begriffe true positive false positive false negative und true negative gebrauchlich Im Rahmen der Signalentdeckungstheorie werden richtig positive Falle auch als hit falsch negative Falle als miss und richtig negative Falle als correct rejection bezeichnet Es wird nun gezahlt wie haufig jede der vier moglichen Kombinationen von Testergebnis ermittelte Klasse und Gesundheitszustand tatsachliche Klasse vorgekommen ist Diese Haufigkeiten werden in eine sogenannte Wahrheitsmatrix auch Konfusionsmatrix genannt eingetragen Wahrheitsmatrix Konfusionsmatrix Person ist krank r p f n displaystyle r text p f text n nbsp Person ist gesund f p r n displaystyle f text p r text n nbsp Test positiv r p f p displaystyle r text p f text p nbsp richtig positiv r p displaystyle r text p nbsp falsch positiv f p displaystyle f text p nbsp 100 der positiven TestsTest negativ f n r n displaystyle f text n r text n nbsp falsch negativ f n displaystyle f text n nbsp richtig negativ r n displaystyle r text n nbsp 100 der negativen Tests 100 der kranken Personen 100 der gesunden PersonenAnmerkungen f displaystyle f nbsp steht fur falsch genauer fur die Anzahl an falschen Einstufungen r displaystyle r nbsp steht fur richtig genauer fur die Anzahl an richtigen Einstufungen der Index p displaystyle text p nbsp steht fur positiv der Index n displaystyle text n nbsp steht fur negativ Also r p displaystyle r text p nbsp steht fur richtig positiv genauer fur die Anzahl an richtigerweise als positiv Eingestuften usw Diese Matrix ist ein einfacher Spezialfall einer Kontingenztafel mit zwei binaren nominalen Variablen dem Urteil des Klassifikators und der tatsachlichen Klasse Sie kann auch fur Klassifikationen mit mehr als zwei Klassen eingesetzt werden dann wird bei N displaystyle N nbsp Klassen aus einer 2 2 Matrix eine N N displaystyle N times N nbsp Matrix Statistische Gutekriterien der Klassifikation BearbeitenDurch Berechnung verschiedener relativer Haufigkeiten konnen aus den Werten der Wahrheitsmatrix nun Kenngrossen zur Beurteilung des Klassifikators berechnet werden Diese konnen auch als Schatzungen der bedingten Wahrscheinlichkeit fur das Eintreten des entsprechenden Ereignisses interpretiert werden Die Masse unterscheiden sich hinsichtlich der Grundgesamtheit auf die sich die relativen Haufigkeiten beziehen So konnen etwa nur all die Falle in Betracht gezogen werden in denen die positive bzw negative Kategorie tatsachlich vorliegt oder man betrachtet die Menge aller Objekte die als positiv bzw negativ klassifiziert werden Summe uber die Eintrage einer Zeile der Wahrheitsmatrix Diese Wahl hat gravierende Auswirkungen auf die berechneten Werte insbesondere dann wenn eine der beiden Klassen insgesamt viel haufiger vorkommt als die andere Sensitivitat und Falsch negativ Rate Bearbeiten Sensitivitat Bearbeiten nbsp Der Bereich mit Kreisen anstelle von Punkten reprasentiert die Sensitivitat eines Tests Links vom schwarzen Strich sind die kranken rechts die gesunden Menschen abgebildet Die Punkte im Oval reprasentieren die vom Test als krank eingestuften Personen Die Sensitivitat auch Richtig positiv Rate Empfindlichkeit oder Trefferquote englisch sensitivity true positive rate recall oder hit rate gibt die Wahrscheinlichkeit an mit der ein positives Objekt korrekt als positiv klassifiziert wird Beispielsweise entspricht die Sensitivitat bei einer medizinischen Diagnose dem Anteil an tatsachlich Kranken bei denen die Krankheit auch erkannt wurde Die Sensitivitat eines Tests gibt an mit welcher Wahrscheinlichkeit ein Infizierter auch tatsachlich erkannt wurde Beispielsweise bedeutet eine Sensitivitat eines Tests auf ein Virus von 98 dass bei ausreichend grosser Anzahl an durchgefuhrten Tests und unabhangig von den Testvorbedingungen 98 der Infizierten erkannt und 2 der Infizierten nicht erkannt wurden 2 der Infizierten welche getestet wurden und nicht aller Getesteten waren dann also falsch negativ Die Sensitivitat entspricht der geschatzten bedingten Wahrscheinlichkeit P positives Testergebnis tatsachlich krank r p r p f n displaystyle P text positives Testergebnis text tatsachlich krank frac r text p r text p f text n nbsp Im Kontext des statistischen Hypothesentests wird die Sensitivitat des Tests als Trennscharfe des Tests bezeichnet obwohl der Begriff Trennscharfe in diesem Kontext eine allgemeinere Verwendung hat die im vorliegenden Kontext nicht anwendbar ist Falsch negativ Rate Bearbeiten nbsp Der Bereich mit Kreisen anstelle von Punkten reprasentiert die Falsch negativ Rate eines Tests Links vom schwarzen Strich sind die kranken rechts die gesunden Menschen abgebildet Die Punkte im Oval reprasentieren die vom Test als krank eingestuften Personen Entsprechend gibt die Falsch negativ Rate englisch false negative rate oder miss rate den Anteil der falschlich als negativ klassifizierten Objekte an der Gesamtheit der positiven Objekte an Also im Beispiel die tatsachlich Kranken die aber als gesund diagnostiziert werden Die Falsch negativ Rate entspricht der geschatzten bedingten Wahrscheinlichkeit P negatives Testergebnis tatsachlich krank f n r p f n displaystyle P text negatives Testergebnis text tatsachlich krank frac f text n r text p f text n nbsp Zusammenhang Bearbeiten Da sich beide Masse auf den Fall beziehen dass in Wirklichkeit die positive Kategorie vorliegt erste Spalte der Wahrheitsmatrix addieren sich die Sensitivitat und die Falsch negativ Rate zu 1 bzw 100 Sensitivitat Falsch negativ Rate 1 displaystyle text Sensitivitat text Falsch negativ Rate 1 nbsp Spezifitat und Falsch positiv Rate Bearbeiten Spezifitat Bearbeiten nbsp Der Bereich mit Kreisen anstelle von Punkten reprasentiert die Spezifitat eines Tests Links vom schwarzen Strich sind die kranken rechts die gesunden Menschen abgebildet Die Punkte im Oval reprasentieren die vom Test als krank eingestuften Personen Die Spezifitat auch Richtig negativ Rate oder kennzeichnende Eigenschaft englisch specificity true negative rate oder correct rejection rate gibt die Wahrscheinlichkeit an mit der ein negatives Objekt korrekt als negativ klassifiziert wird Beispielsweise entspricht die Spezifitat bei einer medizinischen Diagnose dem Anteil an Gesunden bei denen auch festgestellt wurde dass keine Krankheit vorliegt Die Spezifitat eines Tests gibt an mit welcher Wahrscheinlichkeit ein Nicht Infizierter auch tatsachlich erkannt wurde Beispielsweise bedeutet eine Spezifitat eines Tests auf ein Virus von 98 dass bei ausreichend grosser Anzahl an durchgefuhrten Tests und unabhangig von den Testvorbedingungen 98 der Nicht Infizierten tatsachlich erkannt und 2 der Nicht Infizierten falschlich als infiziert ausgewiesen wurden 2 der getesteten Nicht Infizierten nicht der Getesteten insgesamt waren dann also falsch positiv Die Spezifitat entspricht der geschatzten bedingten Wahrscheinlichkeit P negatives Testergebnis tatsachlich gesund r n r n f p displaystyle P text negatives Testergebnis text tatsachlich gesund frac r text n r text n f text p nbsp Falsch positiv Rate Bearbeiten nbsp Der Bereich mit Kreisen anstelle von Punkten reprasentiert die Falsch positiv Rate eines Tests Links vom schwarzen Strich sind die kranken rechts die gesunden Menschen abgebildet Die Punkte im Oval reprasentieren die vom Test als krank eingestuften Personen Entsprechend gibt die Falsch positiv Rate auch Ausfallrate englisch fallout oder false positive rate den Anteil der falschlich als positiv klassifizierten Objekte an die in Wirklichkeit negativ sind Im Beispiel wurde dann ein tatsachlich Gesunder zu Unrecht als krank diagnostiziert Es wird also die Wahrscheinlichkeit fur einen Fehlalarm angegeben Die Falsch positiv Rate entspricht der geschatzten bedingten Wahrscheinlichkeit P positives Testergebnis tatsachlich gesund f p r n f p displaystyle P text positives Testergebnis text tatsachlich gesund frac f text p r text n f text p nbsp Zusammenhang Bearbeiten Da sich beide Masse auf den Fall beziehen dass in Wirklichkeit die negative Kategorie vorliegt zweite Spalte der Wahrheitsmatrix addieren sich die Spezifitat und die Falsch positiv Rate zu 1 bzw 100 Spezifitat Falsch positiv Rate 1 displaystyle text Spezifitat text Falsch positiv Rate 1 nbsp Positiver und negativer Vorhersagewert Bearbeiten Wahrend Sensitivitat und Spezifitat eines medizinischen Tests epidemiologisch und gesundheitspolitisch relevante Kenngrossen sind beispielsweise bei der Frage ob ein Einsatz im Screening zur Fruherkennung von Krankheiten sinnvoll ist ist im konkreten Fall fur Patient und Arzt der Vorhersagewert entscheidend Nur er beantwortet einem positiv negativ Getesteten die Frage mit welcher Wahrscheinlichkeit er denn nun wirklich krank gesund ist Positiver Vorhersagewert Bearbeiten nbsp Positiver VorhersagewertDer positive Vorhersagewert auch Relevanz Wirksamkeit Genauigkeit positiver pradiktiver Wert englisch precision oder positive predictive value Abkurzung PPV gibt den Anteil der korrekt als positiv klassifizierten Ergebnisse an der Gesamtheit der als positiv klassifizierten Ergebnisse an erste Zeile der Wahrheitsmatrix Beispielsweise gibt der positive Vorhersagewert eines medizinischen Tests an welcher Anteil der Personen mit positivem Testergebnis auch tatsachlich krank ist Der positive Vorhersagewert entspricht der geschatzten bedingten Wahrscheinlichkeit P tatsachlich krank positives Testergebnis r p r p f p displaystyle P text tatsachlich krank text positives Testergebnis frac r text p r text p f text p nbsp Komplement des positiven Vorhersagewerts ist die als bedingte Wahrscheinlichkeit wie folgt zu formulierende Falscherkennungsrate englisch false discovery rate Abkurzung FDR P tatsachlich gesund positives Testergebnis f p r p f p displaystyle P text tatsachlich gesund text positives Testergebnis frac f text p r text p f text p nbsp Negativer Vorhersagewert Bearbeiten nbsp Negativer VorhersagewertEntsprechend gibt der negative Vorhersagewert auch Segreganz oder Trennfahigkeit englisch negative predictive value Abkurzung NPV den Anteil der korrekt als negativ klassifizierten Ergebnisse an der Gesamtheit der als negativ klassifizierten Ergebnisse an zweite Zeile der Wahrheitsmatrix Im Beispiel entspricht das dem Anteil der Personen mit negativem Testergebnis der auch tatsachlich gesund ist Der negative Vorhersagewert entspricht der geschatzten bedingten Wahrscheinlichkeit P tatsachlich gesund negatives Testergebnis r n r n f n displaystyle P text tatsachlich gesund text negatives Testergebnis frac r text n r text n f text n nbsp Komplement des negativen Vorhersagewerts ist die als bedingte Wahrscheinlichkeit wie folgt zu formulierende Falschauslassungsrate englisch false omission rate Abkurzung FOR P tatsachlich krank negatives Testergebnis f n r n f n displaystyle P text tatsachlich krank text negatives Testergebnis frac f text n r text n f text n nbsp Zusammenhange Bearbeiten Anders als die anderen Paare von Gutemassen addieren sich der negative und der positive Vorhersagewert nicht zu 1 bzw 100 da jeweils von unterschiedlichen Fallen ausgegangen wird tatsachlich positiv bzw tatsachlich negativ d h unterschiedliche Spalten der Wahrheitsmatrix Die Vorhersagewerte konnen aus Sensitivitat s displaystyle s nbsp und Spezifitat z displaystyle z nbsp berechnet werden dazu muss aber die Pratestwahrscheinlichkeit p displaystyle p nbsp entspricht bei Krankheiten der Pravalenz in der untersuchten Population bekannt sein oder geschatzt werden Der positive Vorhersagewert profitiert von einer hohen Pratestwahrscheinlichkeit der negative Vorhersagewert von einer niedrigen Pratestwahrscheinlichkeit Ein positives medizinisches Testergebnis hat also eine viel hohere Aussagekraft wenn der Test auf Verdacht durchgefuhrt wurde als wenn er allein dem Screening diente Vierfeldertafel mit relativen Haufigkeiten und Berechnung der Vorhersagewerte krank gesund Summe Vorhersagewertpositiv s p displaystyle s cdot p nbsp 1 z 1 p displaystyle 1 z cdot 1 p nbsp s p 1 z 1 p displaystyle s cdot p 1 z cdot 1 p nbsp s p s p 1 z 1 p displaystyle frac s cdot p s cdot p 1 z cdot 1 p nbsp negativ 1 s p displaystyle 1 s cdot p nbsp z 1 p displaystyle z cdot 1 p nbsp 1 s p z 1 p displaystyle 1 s cdot p z cdot 1 p nbsp z 1 p 1 s p z 1 p displaystyle frac z cdot 1 p 1 s cdot p z cdot 1 p nbsp Summe p displaystyle p nbsp 1 p displaystyle 1 p nbsp 1 displaystyle 1 nbsp Die fur ein Kollektiv ermittelten positiven und negativen Vorhersagewerte sind auf andere Kollektive nur dann ubertragbar wenn die relative Haufigkeit der positiven Falle dort dieselbe ist Beispiel Wurden zur Bestimmung des positiven Vorhersagewerts 100 HIV Patienten und 100 gesunde Kontrollpatienten untersucht so ist der Anteil an HIV Patienten in dieser Gruppe 50 weit von der HIV Pravalenz in der BRD 0 08 entfernt siehe dazu auch das unten genannte Zahlenbeispiel Die Vorhersagewerte waren also vollig andere wenn derselbe Test an einem zufallig ausgewahlten Menschen durchgefuhrt wird Likelihood Quotienten Bearbeiten Einfacher als die Wahrscheinlichkeit des Vorliegens einer Krankheit lasst sich die Chance Odd des Vorliegens einer Krankheit berechnen Ein positives Testergebnis vergrossert die Chance krank zu sein um einen Faktor Odds Ratio der als Likelihood Quotient LQ oder Bayes Faktor bezeichnet und folgendermassen berechnet wird 2 L Q positiv Sensitivitat 1 Spezifitat displaystyle mathrm LQ text positiv frac text Sensitivitat 1 text Spezifitat nbsp Die Chance o krank positiv displaystyle o text krank text positiv nbsp bei positivem Testergebnis tatsachlich krank zu sein betragt somit o krank positiv o vor dem Test Sensitivitat 1 Spezifitat displaystyle o text krank text positiv o text vor dem Test cdot frac text Sensitivitat 1 text Spezifitat nbsp Da kleine Chancen naherungsweise mit Wahrscheinlichkeiten gleichgesetzt werden konnen lasst sich der positive Vorhersagewert oft uber das Produkt von Pratestwahrscheinlichkeit und Bayes Faktor abschatzen Ein negatives Testergebnis verandert die Chance analog um den Bayes Faktor L Q negativ 1 Sensitivitat Spezifitat displaystyle mathrm LQ text negativ frac 1 text Sensitivitat text Spezifitat nbsp Ein weiteres sich aus den beiden obengenannten Kenngrossen ableitendes und damit ebenfalls pravalenzunabhangiges Mass der Leistungsfahigkeit eines Tests ist das sogen Diagnostische Chancenverhaltnis DOR engl diagnostic odds ratio das sich wie folgt berechnet D O R L Q positiv L Q negativ Sensitivitat Spezifitat 1 Sensitivitat 1 Spezifitat displaystyle mathrm DOR frac mathrm LQ text positiv mathrm LQ text negativ frac text Sensitivitat cdot text Spezifitat 1 text Sensitivitat cdot 1 text Spezifitat nbsp Korrekt und Falschklassifikationsrate Bearbeiten Die Korrektklassifikationsrate auch Vertrauenswahrscheinlichkeit oder Treffergenauigkeit englisch accuracy gibt den Anteil aller Objekte an die korrekt klassifiziert werden Der restliche Anteil entspricht der Falschklassifikationsrate auch Grosse des Klassifikationsfehlers Im Beispiel der Diagnose ware die Korrektklassifikationsrate der Anteil an richtig positiven und richtig negativen Diagnosen an der Gesamtzahl der Diagnosen die Falschklassifikationsrate hingegen der Anteil der falsch positiven und falsch negativen Diagnosen Korrektklassifikationsrate Bearbeiten nbsp KorrektklassifikationsrateDie Korrektklassifikationsrate accuracy entspricht der geschatzten Wahrscheinlichkeit P richtig klassifiziert richtig klassifiziert alle Falle r p r n r p f p r n f n displaystyle P text richtig klassifiziert frac text richtig klassifiziert text alle Falle frac r text p r text n r text p f text p r text n f text n nbsp Falschklassifikationsrate Bearbeiten nbsp FalschklassifikationsrateDie Falschklassifikationsrate entspricht der geschatzten Wahrscheinlichkeit P falsch klassifiziert falsch klassifiziert alle Falle f p f n r p f p r n f n displaystyle P text falsch klassifiziert frac text falsch klassifiziert text alle Falle frac f text p f text n r text p f text p r text n f text n nbsp Zusammenhang Bearbeiten Die Korrekt und die Falschklassifikationsrate addieren sich entsprechend zu 1 oder 100 Korrektklassifikationsrate Falschklassifikationsrate 1 displaystyle text Korrektklassifikationsrate text Falschklassifikationsrate 1 nbsp Kombinierte Masse Bearbeiten Da sich die verschiedenen Gutemasse gegenseitig beeinflussen siehe Abschnitt Probleme wurden verschiedene kombinierte Masse vorgeschlagen die eine Beurteilung der Gute mit einer einzigen Kennzahl erlauben Die im Folgenden vorgestellten Masse wurden im Kontext des Information Retrieval entwickelt siehe Anwendung im Information Retrieval F Mass Bearbeiten nbsp Precision Recall Curve die Farben zeigen die Thresholds an durch die die Precision und Recall Werte erlangt wurden Der Punkt mit maximalem F score ist rot Das F Mass kombiniert Genauigkeit precision P displaystyle P nbsp und Trefferquote recall R displaystyle R nbsp mittels des gewichteten harmonischen Mittels F 2 P R P R displaystyle F 2 cdot frac P cdot R P R nbsp Neben diesem auch als F 1 displaystyle F 1 nbsp bezeichneten Mass bei dem Genauigkeit und Trefferquote gleich gewichtet sind gibt es auch andere Gewichtungen Der Allgemeinfall ist das Mass F a displaystyle F alpha nbsp fur positive Werte von a displaystyle alpha nbsp F a 1 a 2 P R a 2 P R displaystyle F alpha 1 alpha 2 cdot frac P cdot R alpha 2 cdot P R nbsp Beispielsweise gewichtet F 2 displaystyle F 2 nbsp die Trefferquote viermal so hoch wie die Genauigkeit und F 0 5 displaystyle F 0 5 nbsp die Genauigkeit viermal so hoch wie die Trefferquote Effektivitatsmass Bearbeiten Das Effektivitatsmass E displaystyle E nbsp entspricht ebenfalls dem gewichteten harmonischen Mittel Es wurde 1979 von Cornelis Joost van Rijsbergen eingefuhrt Die Effektivitat liegt zwischen 0 beste Effektivitat und 1 schlechte Effektivitat Fur einen Parameterwert von a 0 displaystyle alpha 0 nbsp ist E displaystyle E nbsp aquivalent zur Trefferquote fur einen Parameterwert von a 1 displaystyle alpha 1 nbsp aquivalent zur Genauigkeit E 1 1 a 1 P 1 a 1 R displaystyle E 1 frac 1 alpha left frac 1 P right 1 alpha frac 1 R nbsp Funktionsgraphen Bearbeiten nbsp Funktionsgraphen von f 1 x x x 1 displaystyle color rgb 1 0 0 f 1 x tfrac x x 1 nbsp und f 2 x 1 x 1 displaystyle color rgb 0 0 1 f 2 x tfrac 1 x 1 nbsp Fur die sechs Kennzahlen Sensitivitat Falsch negativ Rate Spezifitat Falsch positiv Rate positiver Vorhersagewert und negativer Vorhersagewert lassen sich normierte zweidimensionale Funktionsgraphen darstellen Betrachtet man beispielsweise das Verhaltnis von r p displaystyle r text p nbsp zu f n displaystyle f text n nbsp und setzt x pn r p f n displaystyle x text pn frac r text p f text n nbsp so erhalt man fur die Sensitivitat Sensitivitat r p r p f n x pn f n x pn f n f n x pn x pn 1 f 1 x pn f 2 1 x pn displaystyle text Sensitivitat frac r text p r text p f text n frac x text pn cdot f text n x text pn cdot f text n f text n frac x text pn x text pn 1 color rgb 1 0 0 f 1 x text pn color rgb 0 0 1 f 2 left frac 1 x text pn right nbsp und fur die Falsch negativ Rate Falsch negativ Rate f n r p f n f n x pn f n f n 1 x pn 1 f 2 x pn f 1 1 x pn displaystyle text Falsch negativ Rate frac f text n r text p f text n frac f text n x text pn cdot f text n f text n frac 1 x text pn 1 color rgb 0 0 1 f 2 x text pn color rgb 1 0 0 f 1 left frac 1 x text pn right nbsp wobei die beiden Funktionen f 1 x displaystyle color rgb 1 0 0 f 1 x nbsp und f 2 x displaystyle color rgb 0 0 1 f 2 x nbsp deren Graphen hier abgebildet sind definiert sind als f 1 x x x 1 displaystyle color rgb 1 0 0 f 1 x frac x x 1 nbsp f 2 x 1 x 1 displaystyle color rgb 0 0 1 f 2 x frac 1 x 1 nbsp Diese Vorgangsweise ist nur deshalb moglich weil die Sensitivitat die Eigenschaft besitzt dass es fur ihren Wert nicht auf die beiden konkreten Einzelwerte r p displaystyle r text p nbsp und f n displaystyle f text n nbsp ankommt sondern ausschliesslich auf deren Verhaltnis r p f n displaystyle tfrac r text p f text n nbsp bzw dessen Kehrwert f n r p displaystyle tfrac f text n r text p nbsp Daher kann die Sensitivitat die als zweistellige Funktion formuliert von den zwei Variablen r p displaystyle r text p nbsp und f n displaystyle f text n nbsp abhangt auch als einstellige Funktion in Abhangigkeit von x pn r p f n displaystyle x text pn tfrac r text p f text n nbsp bzw x pn f n r p displaystyle tilde x text pn tfrac f text n r text p nbsp dargestellt werden wodurch sich zweidimensionale Funktionsgraphen zeichnen lassen Dasselbe gilt auch fur die Falsch negativ Rate Fur die ubrigen vier Kennwerte lasst sich analog vorgehen wobei zu beachten ist dass fur x displaystyle x nbsp verschiedene Verhaltnisse verwendet werden wie die folgende tabellarische Zusammenfassung zeigt Zusammenfassung Kennzahl Verhaltnis FormelSensitivitat x pn r p f n displaystyle x text pn frac r text p f text n nbsp r p r p f n x pn x pn 1 f 1 x pn f 2 1 x pn displaystyle frac r text p r text p f text n frac x text pn x text pn 1 color rgb 1 0 0 f 1 x text pn color rgb 0 0 1 f 2 left frac 1 x text pn right nbsp Falsch negativ Rate f n r p f n 1 x pn 1 f 2 x pn f 1 1 x pn displaystyle frac f text n r text p f text n frac 1 x text pn 1 color rgb 0 0 1 f 2 x text pn color rgb 1 0 0 f 1 left frac 1 x text pn right nbsp Spezifitat x np r n f p displaystyle x text np frac r text n f text p nbsp r n r n f p x np x np 1 f 1 x np f 2 1 x np displaystyle frac r text n r text n f text p frac x text np x text np 1 color rgb 1 0 0 f 1 x text np color rgb 0 0 1 f 2 left frac 1 x text np right nbsp Falsch positiv Rate f p r n f p 1 x np 1 f 2 x np f 1 1 x np displaystyle frac f text p r text n f text p frac 1 x text np 1 color rgb 0 0 1 f 2 x text np color rgb 1 0 0 f 1 left frac 1 x text np right nbsp Positiver Vorhersagewert x pp r p f p displaystyle x text pp frac r text p f text p nbsp r p r p f p x pp x pp 1 f 1 x pp f 2 1 x pp displaystyle frac r text p r text p f text p frac x text pp x text pp 1 color rgb 1 0 0 f 1 x text pp color rgb 0 0 1 f 2 left frac 1 x text pp right nbsp Negativer Vorhersagewert x nn r n f n displaystyle x text nn frac r text n f text n nbsp r n r n f n x nn x nn 1 f 1 x nn f 2 1 x nn displaystyle frac r text n r text n f text n frac x text nn x text nn 1 color rgb 1 0 0 f 1 x text nn color rgb 0 0 1 f 2 left frac 1 x text nn right nbsp Probleme BearbeitenGegenseitige Beeinflussungen Bearbeiten Es ist nicht moglich alle Gutekriterien unabhangig voneinander zu optimieren Insbesondere sind die Sensitivitat und die Spezifitat negativ miteinander korreliert Zur Veranschaulichung dieser Zusammenhange ist es hilfreich die Extremfalle zu betrachten Wenn eine Diagnose fast alle Patienten als krank klassifiziert liberale Diagnose ist die Sensitivitat maximal denn es werden die meisten Kranken auch als solche erkannt Allerdings wird zugleich die Falsch positiv Rate maximal da auch fast alle Gesunden als krank eingestuft werden Die Diagnose hat also eine sehr geringe Spezifitat Wird hingegen fast niemand als krank eingestuft konservative Diagnose ist umgekehrt die Spezifitat maximal allerdings auf Kosten einer geringen Sensitivitat Wie konservativ oder liberal ein Klassifikator optimalerweise sein sollte hangt vom konkreten Anwendungsfall ab Aus diesem leitet sich beispielsweise ab welche der Fehlklassifikationen die schwererwiegenden Folgen hat Bei der Diagnose einer schlimmen Krankheit oder sicherheitsrelevanten Anwendungen wie einem Feueralarm ist es wichtig dass kein Fall unentdeckt bleibt Bei einer Recherche durch eine Suchmaschine hingegen kann es wichtiger sein moglichst wenige Resultate zu bekommen die fur die Suche irrelevant sind also falsch positive Resultate darstellen Die Risiken der verschiedenen Fehlklassifikationen lassen sich zur Bewertung eines Klassifikators in einer Kostenmatrix angeben mit der die Wahrheitsmatrix gewichtet wird Eine weitere Moglichkeit besteht in der Verwendung kombinierter Masse bei denen sich eine entsprechende Gewichtung einstellen lasst Um die Auswirkungen verschieden konservativer Tests fur ein konkretes Anwendungsbeispiel darzustellen konnen ROC Kurven erstellt werden in denen die Sensitivitat fur verschiedene Tests gegen die Falsch positiv Rate aufgetragen wird Im Rahmen der Signalentdeckungstheorie spricht man auch von einem verschieden konservativ gesetzten Kriterium Seltene Positiv Falle Bearbeiten Daruber hinaus wird auch ein extremes Ungleichgewicht zwischen tatsachlich positiven und negativen Fallen die Kenngrossen verfalschen wie es etwa bei seltenen Krankheiten der Fall ist Ist beispielsweise die Anzahl der an einem Test teilnehmenden Kranken erheblich geringer als die der Gesunden so fuhrt dies im Allgemeinen zu einem geringen Wert im positiven Vorhersagewert siehe dazu das unten angefuhrte Zahlenbeispiel Daher sollte in diesem Fall alternativ zu den Vorhersagewerten der Likelihood Quotient angegeben werden Dieser Zusammenhang ist bei verschiedenen Labortests zu bedenken Preiswerte Screening Tests werden so justiert dass eine moglichst kleine Anzahl falsch negativer Ergebnisse vorliegt Die produzierten falsch positiven Testergebnisse werden anschliessend durch einen teureren Bestatigungstest identifiziert Fur schwerwiegende Erkrankungen sollte immer ein Bestatigungstest durchgefuhrt werden Dieses Vorgehen ist fur die Bestimmung von HIV sogar gefordert Unvollstandige Wahrheitsmatrix Bearbeiten Ein weiteres Problem bei der Beurteilung eines Klassifikators besteht darin dass haufig nicht die gesamte Wahrheitsmatrix ausgefullt werden kann Insbesondere ist oft die Falsch negativ Rate nicht bekannt etwa wenn bei Patienten die eine negative Diagnose erhalten keine weiteren Tests durchgefuhrt werden und eine Krankheit unerkannt bleibt oder wenn ein eigentlich relevantes Dokument bei einer Recherche nicht gefunden wird weil es nicht als relevant klassifiziert wurde In diesem Fall konnen nur die als positiv klassifizierten Ergebnisse ausgewertet werden d h es kann nur der positive Vorhersagewert berechnet werden siehe dazu auch das unten angefuhrte Zahlenbeispiel Mogliche Losungen fur dieses Problem werden im Abschnitt Anwendung im Information Retrieval besprochen Klassifikationsbewertung und statistische Testtheorie BearbeitenBinare Klassifikation Statistischer TestZiel Auf Basis einer Stichprobe werden Beobachtungen Objekte einer der beiden Klassen zugeordnet Mittels einer Zufallsstichprobe werden zwei sich ausschliessende Hypothesen Null und Alternativhypothese uber die Grundgesamtheit gepruft Vorgehen Der Klassifikator ist eine aus der Stichprobe geschatzte Regressionsfunktion mit zwei moglichen Ergebniswerten Der Prufwert wird mittels einer Teststatistik aus der Zufallsstichprobe berechnet und mit kritischen Werten die aus der Verteilung der Teststatistik berechnet werden verglichen Ergebnis Fur eine Beobachtung wird eine Klassenzugehorigkeit vorhergesagt Aufgrund des Vergleiches von Prufwert und kritischen Werten kann die Alternativhypothese angenommen oder verworfen werden Fehler Die Qualitat eines Klassifikators wird mit der Falschklassifikationsrate falsch positiv und falsch negativ im Nachhinein beurteilt Vor der Testdurchfuhrung wird die Grosse des Fehlers 1 Art falschlich Annahme der Alternativhypothese festgelegt Daraus werden die kritischen Werte berechnet Der Fehler 2 Art falschlich Ablehnung der Alternativhypothese ist immer unbekannt bei der Testdurchfuhrung Klassifikationsbewertung zur Beurteilung der Qualitat statistischer Tests Bearbeiten Mit Hilfe der Klassifikationsbewertung kann die Qualitat eines statistischen Tests beurteilt werden Generiert man viele Stichproben unter Gultigkeit der Nullhypothese so sollte die Annahmerate der Alternativhypothese dem Fehler 1 Art entsprechen Aber bei komplizierten Tests kann man oft nur eine obere Grenze fur den Fehler 1 Art angeben sodass der wahre Fehler 1 Art nur mit einer solchen Simulation abgeschatzt werden kann Generiert man viele Stichproben unter Gultigkeit der Alternativhypothese so ist die Ablehnungsrate der Alternativhypothese eine Schatzung des Fehlers 2 Art Dies ist beispielsweise von Interesse wenn man zwei Tests fur einen Sachverhalt hat Wenn die Alternativhypothese gilt dann bevorzugt man den Test der einen kleineren Fehler 2 Art hat Statistische Tests zur Beurteilung einer Klassifikation Bearbeiten Man kann statistische Tests einsetzen um zu uberprufen ob eine Klassifikation statistisch signifikant ist d h ob bezuglich der Grundgesamtheit die Einschatzung des Klassifikators unabhangig von den tatsachlichen Klassen ist Nullhypothese oder ob er signifikant mit ihnen korreliert Alternativhypothese Im Fall von mehreren Klassen kann dafur der Chi Quadrat Unabhangigkeitstest verwendet werden Dabei wird gepruft ob die Einschatzung des Klassifikators unabhangig von den tatsachlichen Klassen ist oder signifikant mit ihnen korreliert Die Starke der Korrelation wird durch Kontingenzkoeffizienten abgeschatzt Im Fall einer binaren Klassifikation wird der Vierfeldertest verwendet ein Spezialfall des Chi Quadrat Unabhangigkeitstests Hat man nur wenige Beobachtungswerte sollte der Exakte Fisher Test verwendet werden Die Starke der Korrelation kann mit dem Phi Koeffizient abgeschatzt werden Lehnt der Test die Nullhypothese ab bedeutet es jedoch nicht dass der Klassifikator gut ist Es bedeutet nur dass er besser ist als zufalliges Raten Ein guter Klassifikator sollte auch eine moglichst hohe Korrelation aufweisen In Diettrich 1998 werden funf Tests untersucht zum direkten Vergleich von Missklassifikationsraten von zwei unterschiedlichen Klassifikatoren 3 Ein einfacher Zweistichproben t Test fur unabhangige Stichproben ein Zweistichproben t Test fur verbundene Stichproben ein Zweistichproben t Test fur verbundene Stichproben mit 10 fach Kreuzvalidierung der McNemar Test und ein Zweistichproben t Test fur verbundene Stichproben mit 5 fach Kreuzvalidierung und modifizierter Varianzberechnung 5x2cv Als Ergebnis der Untersuchung von Gute und Fehler 1 Art der funf Tests ergibt sich dass sich der 5x2cv Test am besten verhalt jedoch sehr rechenaufwendig ist Der McNemar Test ist etwas schlechter als der 5x2cv Test jedoch deutlich weniger rechenaufwendig Beispiele BearbeitenAnwendung im Information Retrieval Bearbeiten Ein spezieller Anwendungsfall der hier beschriebenen Masse ist die Beurteilung der Gute von Treffermengen einer Recherche beim Information Retrieval Dabei geht es um die Beurteilung ob ein gefundenes Dokument etwa beim Webmining durch Suchmaschinen entsprechend einem definierten Kriterium relevant ist In diesem Zusammenhang sind die oben definierten Bezeichnungen Trefferquote engl recall Genauigkeit engl precision und Ausfallquote engl fallout gebrauchlich Die Trefferquote gibt den Anteil der bei einer Suche gefundenen relevanten Dokumente und damit die Vollstandigkeit eines Suchergebnisses an Die Genauigkeit beschreibt mit dem Anteil relevanter Dokumente an der Ergebnismenge die Genauigkeit eines Suchergebnisses Der weniger gebrauchliche Ausfall bezeichnet den Anteil gefundener irrelevanter Dokumente an der Gesamtmenge aller irrelevanten Dokumente er gibt also in negativer Weise an wie gut irrelevante Dokumente im Suchergebnis vermieden werden Statt als Mass konnen Trefferquote Genauigkeit und Ausfall auch als Wahrscheinlichkeit interpretiert werden Trefferquote ist die Wahrscheinlichkeit mit der ein relevantes Dokument gefunden wird Sensitivitat Genauigkeit ist die Wahrscheinlichkeit mit der ein gefundenes Dokument relevant ist Positiver Vorhersagewert Ausfall ist die Wahrscheinlichkeit mit der ein irrelevantes Dokument gefunden wird Falsch positiv Rate Eine gute Recherche sollte moglichst alle relevanten Dokumente finden richtig positiv und die nicht relevanten Dokumente nicht finden richtig negativ Wie oben beschrieben hangen die verschiedenen Masse jedoch voneinander ab Im Allgemeinen sinkt mit steigender Trefferrate die Genauigkeit mehr irrelevante Ergebnisse Umgekehrt sinkt mit steigender Genauigkeit weniger irrelevante Ergebnisse die Trefferrate mehr relevante Dokumente die nicht gefunden werden Je nach Anwendungsfall sind die unterschiedlichen Masse zur Beurteilung mehr oder weniger relevant Bei einer Patentrecherche ist es beispielsweise wichtig dass keine relevanten Patente unentdeckt bleiben also sollte der Negative Vorhersagewert moglichst hoch sein Bei anderen Recherchen ist es wichtiger dass die Treffermenge wenige irrelevante Dokumente enthalt d h der Positive Vorhersagewert sollte moglichst hoch sein Im Kontext des Information Retrieval wurden auch die oben beschriebenen kombinierten Masse wie der F Wert und die Effektivitat eingefuhrt Genauigkeit Trefferquote Diagramm Bearbeiten Zur Einschatzung eines Retrieval Verfahrens werden meist Trefferquote und Genauigkeit gemeinsam betrachtet Dazu werden im sogenannten Precision Recall Diagramm PR Diagramm fur verschieden grosse Treffermengen zwischen den beiden Extremen Genauigkeit auf der y displaystyle y nbsp Achse und Trefferquote auf der x displaystyle x nbsp Achse eingetragen Dies ist vor allem leicht bei Verfahren moglich deren Treffermenge durch einen Parameter gesteuert werden kann Dieses Diagramm erfullt einen ahnlichen Zweck wie die oben beschriebene ROC Kurve die man in diesem Zusammenhang auch als Trefferquote Fallout Diagramm bezeichnet Der hochste Wert im Diagramm an dem der Precision Wert gleich dem Treffer Wert ist also der Schnittpunkt des Genauigkeit Trefferquote Diagramms mit der Identitatsfunktion wird der Genauigkeit Trefferquote Breakeven Punkt genannt Da beide Werte voneinander abhangen wird auch oft der eine bei fixiertem anderem Wert genannt Eine Interpolation zwischen den Punkten ist allerdings nicht zulassig es handelt sich um diskrete Punkte deren Zwischenraume nicht definiert sind Beispiel Bearbeiten In einer Datenbank mit 36 Dokumenten sind zu einer Suchanfrage 20 Dokumente relevant und 16 nicht relevant Eine Suche liefert 12 Dokumente von denen tatsachlich 8 relevant sind Relevant Nicht relevant SummeGefunden 0 8 0 4 12Nicht gefunden 12 12 24Summe 20 16 36Trefferquote und Genauigkeit fur die konkrete Suche ergeben sich aus den Werten der Wahrheitsmatrix Trefferquote 8 8 12 8 20 2 5 0 4 Genauigkeit 8 8 4 8 12 2 3 0 67 Fallout 4 4 12 4 16 1 4 0 25Praxis und Probleme Bearbeiten Ein Problem bei der Berechnung der Trefferquote ist die Tatsache dass man nur selten weiss wie viele relevante Dokumente insgesamt existieren und nicht gefunden wurden Problem der unvollstandigen Wahrheitsmatrix Bei grosseren Datenbanken bei denen die Berechnung der absoluten Trefferquote besonders schwierig ist wird deswegen mit der relativen Trefferquote gearbeitet Dabei wird die gleiche Suche mit mehreren Suchmaschinen durchgefuhrt und die jeweils neuen relevanten Treffer werden zu den nicht gefundenen relevanten Dokumenten addiert Mit der Ruckfangmethode kann abgeschatzt werden wie viele relevante Dokumente insgesamt existieren Problematisch ist auch dass zur Bestimmung von Trefferquote und Genauigkeit die Relevanz eines Dokumentes als Wahrheitswert ja nein bekannt sein muss In der Praxis ist jedoch oft die Subjektive Relevanz von Bedeutung Auch fur in einer Rangordnung angeordnete Treffermengen ist die Angabe von Trefferquote und Genauigkeit oft nicht ausreichend da es nicht nur darauf ankommt ob ein relevantes Dokument gefunden wird sondern auch ob es im Vergleich zu nicht relevanten Dokumenten genugend hoch in der Rangfolge eingeordnet wird Bei sehr unterschiedlich grossen Treffermengen kann die Angabe durchschnittlicher Werte fur Trefferquote und Genauigkeit irrefuhrend sein HIV in der BRD Bearbeiten Das Ziel eines HIV Tests sollte die moglichst sichere Erkennung eines Infizierten sein Aber welche Konsequenzen ein falsch positiver Test haben kann zeigt das Beispiel eines Menschen der sich auf HIV testen lasst und dann aufgrund eines falsch positiven Ergebnisses Suizid begeht Bei einer angenommenen Genauigkeit von 99 9 des nicht kombinierten HIV Tests sowohl fur positive als auch negative Ergebnisse Sensitivitat und Spezifitat 0 999 und der aktuellen Verbreitung von HIV Stand 2009 in der deutschen Bevolkerung 82 000 000 Einwohner davon 67 000 HIV positiv ware ein allgemeiner HIV Test verheerend bei nicht kombiniertem HIV Test wurden namlich von 67 000 tatsachlich Erkrankten lediglich 67 HIV Infizierte falschlicherweise nicht erkannt aber ca 82 000 Personen wurden falschlicherweise als HIV positiv diagnostiziert Von 148 866 positiven Ergebnissen waren etwa 55 falsch positiv also mehr als die Halfte der positiv Getesteten Somit liegt die Wahrscheinlichkeit dass jemand der nur mit dem ELISA Test positiv getestet wurde auch wirklich HIV positiv ware bei nur 45 positiver Vorhersagewert Dieser angesichts der sehr geringen Fehlerrate von 0 1 niedrige Wert liegt darin begrundet dass HIV nur bei etwa 0 08 der Bundesburger auftritt ELISA Test HIV positiv HIV negativ SummeHIV Test positiv 66 933 81 933 148 866HIV Test negativ 67 81 851 067 81 851 134Summe 67 000 81 933 000 82 000 000Herzinfarkt in den USA Bearbeiten In den USA werden pro Jahr etwa vier Millionen Frauen und Manner wegen Schmerzen in der Brust unter der Verdachtsdiagnose Herzinfarkt in eine Klinik eingewiesen Im Verlauf der aufwendigen und teuren Diagnostik stellt sich dann heraus dass von diesen Patienten nur etwa 32 tatsachlich einen Infarkt erlitten haben Bei 68 war die Diagnose Infarkt nicht korrekt falsch positive Verdachtsdiagnose Andererseits werden in jedem Jahr etwa 34 000 Patienten aus dem Krankenhaus entlassen ohne dass ein tatsachlich vorhandener Herzinfarkt erkannt wurde ca 0 8 falsch negative Diagnose Auch in diesem Beispiel ist die Sensitivitat der Untersuchung ahnlich hoch namlich 99 8 Die Spezifitat lasst sich nicht ermitteln weil die falsch positiven Ergebnisse der Untersuchung nicht bekannt sind Bekannt sind nur die falsch positiven Eingangsdiagnosen die auf der Angabe Herzschmerz fussen Betrachtet man ausschliesslich diese Eingangsdiagnose dann ist die Angabe der 34 000 Patienten die falschlich entlassen werden wertlos denn sie haben hiermit nichts zu tun Man benotigt namlich die Zahl der Falsch Negativen also jener Personen mit Herzinfarkt die nicht eingewiesen wurden weil sie keinen Herzschmerz hatten Siehe auch BearbeitenRATZ Index Justizirrtum Fehldiagnose Pruflos Satz von Bayes Zinssensitivitat Pseudo BestimmtheitsmassLiteratur BearbeitenAllgemein Bearbeiten Hans Peter Beck Bornholdt Hans Hermann Dubben Der Hund der Eier legt Erkennen von Fehlinformation durch Querdenken ISBN 3 499 61154 6 Gerd Gigerenzer Das Einmaleins der Skepsis Berliner Taschenbuch Verlag Berlin 2004 ISBN 3 8333 0041 8 Information Retrieval Bearbeiten John Makhoul Francis Kubala Richard Schwartz und Ralph Weischedel Performance measures for information extraction In Proceedings of DARPA Broadcast News Workshop Herndon VA Februar 1999 S 249 252 psu edu R Baeza Yates und B Ribeiro Neto Modern Information Retrieval New York 1999 ACM Press Addison Wesley ISBN 0 201 39829 X Seiten 75 ff Christa Womser Hacker Theorie des Information Retrieval III Evaluierung In R Kuhlen Grundlagen der praktischen Information und Dokumentation 5 Auflage Saur Munchen 2004 Seiten 227 235 ISBN 3 598 11675 6 ISBN 3 598 11674 8 C V van Rijsbergen Information Retrieval 2nd Edition Butterworth London Boston 1979 ISBN 0 408 70929 4 Jesse Davis und Mark Goadrich The Relationship Between Precision Recall and ROC Curves In 23rd International Conference on Machine Learning ICML 2006 doi 10 1145 1143844 1143874Weblinks BearbeitenRechner zur Berechnung verschiedener Gutekriterien fur binare Klassifikatoren von StatistikGuru de Wie gut ist ein SARS CoV 2 Testresultat Interaktive Veranschaulichung eines binaren Klassifikators von der Projektgruppe Wissenschaftskommunikation P1 des Robert Koch Instituts Corona Schnelltest Ergebnisse verstehen Infografik des Robert Koch Institut mit Vergleich von hohen und niedrigen Inzidenzen Memento vom 18 November 2020 im Internet Archive Leseprobe aus Gerd Gigerenzer Das Einmaleins der Skepsis Information Retrieval C J van Rijsbergen 1979 Tucken der Statistik Denken Sie immer falsch positiv fiktives Scharlach Screening als anschauliches Beispiel Anschauliche Beschreibung der Problematik von Fehlschlussen Diagnostisches Testen am Beispiel erklartEinzelnachweise Bearbeiten https www fharrell com post classification Lothar Sachs Jurgen Hedderich Angewandte Statistik Methodensammlung mit R 8 uberarb und erg Auflage Springer Spektrum Berlin Heidelberg 2018 ISBN 978 3 662 56657 2 S 192 Thomas G Dietterich Approximate Statistical Tests for Comparing Supervised Classification Learning Algorithms In Neural Computation Band 10 Nr 7 1 Oktober 1998 S 1895 1923 doi 10 1162 089976698300017197 Abgerufen von https de wikipedia org w index php title Beurteilung eines binaren Klassifikators amp oldid 237306159 Sensitivitat und Falsch negativ Rate