www.wikidata.de-de.nina.az
Dieser Artikel oder Abschnitt bedarf einer grundsatzlichen Uberarbeitung Naheres sollte auf der Diskussionsseite angegeben sein Bitte hilf mit ihn zu verbessern und entferne anschliessend diese Markierung Der Titel dieses Artikels ist mehrdeutig Weitere Bedeutungen sind unter Ausreisser Begriffsklarung aufgefuhrt In der Statistik spricht man von einem Ausreisser wenn ein Messwert oder Befund nicht in eine erwartete Messreihe passt oder allgemein nicht den Erwartungen entspricht Die Erwartung wird meistens als Streuungsbereich um den Erwartungswert herum definiert in dem die meisten aller Messwerte zu liegen kommen z B der Quartilabstand Q75 Q25 Werte die weiter als das 1 5 Fache des Quartilabstandes ausserhalb dieses Intervalls liegen werden meist willkurlich als Ausreisser bezeichnet 1 Im Boxplot werden besonders hohe Ausreisser gesondert dargestellt Die robuste Statistik beschaftigt sich mit der Ausreisserproblematik Auch im Data Mining beschaftigt man sich mit der Erkennung von Ausreissern Von Ausreissern zu unterscheiden sind einflussreiche Beobachtungen Ein Ausreisser Messwert Die blaue Regressionsgerade wurde ohne Einbeziehung des Ausreissers erstellt die violette mit Der Boxplot wird uber einem Zahlenstrahl dargestellt Inhaltsverzeichnis 1 Uberprufung auf Messfehler 1 1 Ausreissertests 1 2 Unterschiede zu Extremwerten 2 Multivariate Ausreisser 2 1 Andrews Kurven 2 2 Stahel Donoho Outlyingness 3 Ausreissererkennung im Data Mining 4 Siehe auch 5 Literatur 6 Weblinks 7 EinzelnachweiseUberprufung auf Messfehler BearbeitenEntscheidend ist es dann zu uberprufen ob es sich bei dem Ausreisser tatsachlich um ein verlassliches und echtes Ergebnis handelt oder ob ein Messfehler vorliegt Beispiel So wurde das Ozonloch uber der Antarktis einige Jahre zwar bereits gemessen die Messwerte aber als offensichtlich falsch gemessen bewertet d h als Ausreisser interpretiert und ignoriert und dadurch nicht in ihrer Tragweite erkannt 2 Ausreissertests Bearbeiten Ein anderer Ansatz wurde u a von Ferguson im Jahr 1961 vorgeschlagen 3 Danach wird davon ausgegangen dass die Beobachtungen aus einer hypothetischen Verteilung stammen Ausreisser sind dann Beobachtungen die nicht aus der hypothetischen Verteilung stammen Die folgenden Ausreissertests gehen alle davon aus dass die hypothetische Verteilung eine Normalverteilung ist und prufen ob einer oder mehrere der Extremwerte nicht aus der Normalverteilung stammen Ausreissertest nach Grubbs Ausreissertest nach Nalimov Ausreissertest nach David Hartley und Pearson Ausreissertest nach Dixon Ausreissertest nach Hampel Ausreissertest nach Baarda Ausreissertest nach PopeDer Ausreissertest nach Walsh basiert hingegen nicht auf der Annahme einer bestimmten Verteilung der Daten Im Rahmen der Zeitreihenanalyse konnen Zeitreihen bei denen ein Ausreisser vermutet wird darauf getestet werden und dann mit einem Ausreissermodell modelliert werden Unterschiede zu Extremwerten Bearbeiten Ein beliebter Ansatz ist es den Boxplot zu nutzen um Ausreisser zu identifizieren Die Beobachtungen ausserhalb der Whisker werden dabei willkurlich als Ausreisser bezeichnet Fur die Normalverteilung kann man leicht ausrechnen dass knapp 0 7 der Masse der Verteilung ausserhalb der Whiskers liegen Bereits ab einem Stichprobenumfang von n gt 143 displaystyle n gt 143 nbsp wurde man daher im Mittel mindestens eine Beobachtung ausserhalb der Whiskers erwarten oder auch k displaystyle k nbsp Beobachtungen ausserhalb der Whiskers bei n gt 143 336 2 k displaystyle n gt 143 3362 cdot k nbsp Sinnvoller ist es daher zunachst statt von Ausreissern von Extremwerten zu sprechen Multivariate Ausreisser Bearbeiten nbsp Ausreisser rechts unten im Streudiagramm und Boxplots fur jede einzelne Variable In mehreren Dimensionen wird die Situation noch komplizierter In der Grafik rechts kann der Ausreisser rechts unten in der Ecke nicht durch Inspektion jeder einzelnen Variablen erkannt werden er ist in den Boxplots nicht sichtbar Trotzdem wird er eine lineare Regression deutlich beeinflussen Andrews Kurven Bearbeiten nbsp Andrews Kurven mit unterschiedlich eingefarbten DatenAndrews 1972 schlug vor jede multivariate Beobachtung x i 1 x i 2 x i p displaystyle x i1 x i2 dotsc x ip nbsp durch eine Kurve zu reprasentieren 4 f i t x i 1 2 x i 2 sin t x i 3 cos t x i 4 sin 2 t x i 5 cos 2 t displaystyle f i t frac x i1 sqrt 2 x i2 sin t x i3 cos t x i4 sin 2t x i5 cos 2t dotsb nbsp Damit wird jede multivariate Beobachtung auf eine zweidimensionale Kurve im Intervall p p displaystyle pi pi nbsp abgebildet Aufgrund der Sinus und Kosinusterme wiederholt sich die Funktion f i t displaystyle f i t nbsp ausserhalb des Intervalls p p displaystyle pi pi nbsp Fur jeweils zwei Beobachtungen i displaystyle i nbsp und j displaystyle j nbsp gilt p p f i t f j t 2 d t 1 p k 1 p x i k x j k 2 2 displaystyle underbrace int pi pi left f i t f j t right 2 dt 1 underbrace pi sum k 1 p x ik x jk 2 2 nbsp Der Ausdruck 1 links neben dem Gleichheitszeichen entspricht zumindest approximativ der Flache zwischen den beiden Kurven und der Ausdruck 2 rechts ist zumindest approximativ der multivariate euklidische Abstand zwischen den beiden Datenpunkten Ist also der Abstand zwischen zwei Datenpunkten klein dann muss auch die Flache zwischen den Kurven klein sein d h die Kurven f i t displaystyle f i t nbsp und f j t displaystyle f j t nbsp mussen nahe beieinander verlaufen Ist jedoch der Abstand zwischen zwei Datenpunkten gross muss auch die Flache zwischen den Kurven gross sein d h die Kurven f i t displaystyle f i t nbsp und f j t displaystyle f j t nbsp mussen sehr unterschiedlich verlaufen Ein multivariater Ausreisser wurde als Kurve sichtbar die sich von allen anderen Kurven in ihrem Verlauf deutlich unterscheidet Andrews Kurven haben zwei Nachteile Wenn der Ausreisser in genau einer Variablen sichtbar ist nimmt der Mensch die unterschiedlichen Kurven umso besser wahr je weiter vorn diese Variable auftaucht Am besten sollte sie die Variable x 1 displaystyle x bullet 1 nbsp sein D h es bietet sich an die Variablen zu sortieren z B x 1 displaystyle x bullet 1 nbsp wird die Variable mit der grossten Varianz oder man nimmt die erste Hauptkomponente Wenn man viele Beobachtungen hat mussen viele Kurven gezeichnet werden sodass der Verlauf einer einzelnen Kurve nicht mehr sichtbar ist Stahel Donoho Outlyingness Bearbeiten Stahel 1981 und David Leigh Donoho 1982 definierten die sog Outlyingness um eine Masszahl dafur zu erhalten wie weit ein Beobachtungswert von der Masse der Daten entfernt liegt 5 6 Durch die Berechnung aller moglichen Linearkombinationen a 1 x i 1 a 2 x i 2 a p x i p a T x i displaystyle alpha 1 x i1 alpha 2 x i2 dotsb alpha p x ip alpha T x i nbsp d h die Projektion des Datenpunktes auf den Vektor a displaystyle alpha nbsp mit k 1 p a i 2 1 displaystyle sum k 1 p alpha i 2 1 nbsp ergibt sich die Outlyingness out x i sup a out x i a sup a a T x i median a T x mad a T x displaystyle operatorname out x i sup alpha left operatorname out x i alpha right sup alpha left frac alpha T x i operatorname median alpha T x operatorname mad alpha T x right nbsp wobei median a T x displaystyle operatorname median alpha T x nbsp der Median der projizierten Punkte und mad a T x displaystyle operatorname mad alpha T x nbsp die mittlere absolute Abweichung der projizierten Punkte als robustes Streuungsmass Der Median dient dabei als robustes Lage die mittlere absolute Abweichung als robustes Streuungsmass out x i a displaystyle operatorname out x i alpha nbsp ist eine Normalisierung In der Praxis wird die Outlyingness berechnet indem fur mehrere hundert oder tausend zufallig ausgewahlte Projektionsrichtungen a displaystyle alpha nbsp das Maximum out x i a displaystyle operatorname out x i alpha nbsp bestimmt wird Ausreissererkennung im Data Mining BearbeitenUnter dem englischen Begriff Outlier Detection deutsch Ausreissererkennung versteht man den Teilbereich des Data Mining bei dem es darum geht untypische und auffallige Datensatze zu identifizieren Anwendung hierfur ist beispielsweise die Erkennung von potentiell betrugerischen Kreditkartentransaktionen in der grossen Menge der validen Transaktionen Die ersten Algorithmen zur Outlier Detection waren eng an den hier erwahnten statistischen Modellen orientiert jedoch haben sich aufgrund von Berechnungs und vor allem Laufzeituberlegungen die Algorithmen seither davon entfernt 7 Ein wichtiges Verfahren hierzu ist der dichtebasierte Local Outlier Factor Ausreisser lassen sich auch durch den Vergleich mit Prognoseintervallen entdecken 8 Siehe auch BearbeitenM SchatzerLiteratur BearbeitenVic Barnett Toby Williams Outliers in Statistical Data Wiley Series in Probability and Mathematical Statistics 3 Auflage Wiley Chichester 1994 ISBN 0 471 93094 6 R Khattree D N Naik Andrews Plots for Multivariate Data Some New Suggestions and Applications In Journal of Statistical Planning and Inference Band 100 Nr 2 2002 S 411 425 doi 10 1016 S0378 3758 01 00150 1 Weblinks Bearbeiten nbsp Wiktionary Ausreisser Bedeutungserklarungen Wortherkunft Synonyme Ubersetzungen Grundlagen der Statistik Ausreissertests Learning by Simulations Simulation der Auswirkung eines Ausreissers auf die lineare RegressionEinzelnachweise Bearbeiten Volker Muller Benedict Grundkurs Statistik in den Sozialwissenschaften 4 uberarbeitete Auflage VS Verlag fur Sozialwissenschaften Wiesbaden 2007 ISBN 978 3 531 15569 2 S 99 Karl Heinz Ludwig Eine kurze Geschichte des Klimas Von der Entstehung der Erde bis heute 2 Auflage Beck Verlag 2007 ISBN 978 3 406 56557 1 S 149 T S Ferguson On the Rejection of outliers In Proceedings of the Fourth Berkeley Symposium on Mathematical Statistics and Probability Band 1 1961 S 253 287 projecteuclid org PDF D Andrews Plots of high dimensional data In Biometrics 28 1972 S 125 136 JSTOR 2528964 W A Stahel Robuste Schatzungen infinitesimale Optimalitat und Schatzungen von Kovarianzmatrizen PhD thesis ETH Zurich 1981 D L Donoho Breakdown properties of multivariate location estimators Qualifying paper Harvard University Boston 1982 H P Kriegel P Kroger A Zimek Outlier Detection Techniques Tutorial In 13th Pacific Asia Conference on Knowledge Discovery and Data Mining PAKDD 2009 Bangkok Thailand 2009 lmu de PDF abgerufen am 26 Marz 2010 Prediction and Outlier Detection in Classification Problems Leying Guan Robert Tibshirani Journal of the Royal Statistical Society Series B Statistical Methodology Volume 84 Issue 2 April 2022 Pages 524 546 https doi org 10 1111 rssb 12443Normdaten Sachbegriff GND 4510494 3 lobid OGND AKS LCCN sh85096171 Abgerufen von https de wikipedia org w index php title Ausreisser amp oldid 238452537