www.wikidata.de-de.nina.az
Der Local Outlier Factor LOF etwa Lokaler Ausreisserfaktor ist ein Algorithmus zur Erkennung von dichtebasierten Ausreissern der von Markus M Breunig Hans Peter Kriegel Raymond T Ng und Jorg Sander im Jahr 2000 vorgeschlagen wurde 1 Die Kernidee von LOF besteht darin die Dichte eines Punktes mit den Dichten seiner Nachbarn zu vergleichen Ein Punkt der dichter ist als seine Nachbarn befindet sich in einem Cluster Ein Punkt mit einer deutlich geringeren Dichte als seine Nachbarn ist hingegen ein Ausreisser LOF hat viele Konzepte gemeinsam mit den Clusteranalyse Algorithmen DBSCAN und OPTICS Inhaltsverzeichnis 1 Grundprinzip 2 Formal 3 Vorteile 4 Nachteile 5 Erweiterungen 6 Verfugbarkeit 7 EinzelnachweiseGrundprinzip Bearbeiten nbsp Kernidee von LOF die lokale Dichte eines Punktes mit der seiner Nachbarn vergleichen LOF definiert die lokale Umgebung eines Punktes uber seine k displaystyle k nbsp nachsten Nachbarn Der Abstand zu diesen wird verwendet um eine lokale Dichte zu schatzen In einem zweiten Schritt wird der Quotient aus den lokalen Dichten seiner Nachbarn und der lokalen Dichte des Punktes selbst gebildet Dieser Wert bewegt sich nahe an 1 0 displaystyle 1 0 nbsp wenn ein Punkt in einem Bereich gleichmassiger Dichte ist Fur Objekte die aber abgeschieden von einer solchen Flache sind wird der Wert deutlich grosser und kennzeichnet so Ausreisser Formal BearbeitenDie k Distanz A displaystyle mbox k Distanz A nbsp ist die Distanz des Objektes A displaystyle A nbsp zu seinem k nachsten Nachbarn Diese Menge kann gegebenenfalls mehr als k Objekte enthalten wenn es mehrere Objekte mit dem gleichen Abstand gibt Wir bezeichnen diese k Nachbarschaft hier mit N k A displaystyle N k A nbsp nbsp Illustration der Erreichbarkeitsdistanz Objekte B und C haben die gleiche Erreichbarkeitsdistanz k 3 wahrend D kein k nachster Nachbar istBasierend auf dieser Distanz wird die Erreichbarkeitsdistanz definiert Erreichbarkeitsdistanz k A B max k Distanz B d A B displaystyle mbox Erreichbarkeitsdistanz k A B max mbox k Distanz B d A B nbsp Die Erreichbarkeitsdistanz eines Objektes A displaystyle A nbsp von B displaystyle B nbsp ist also entweder der wahre Abstand jedoch mindestens die k Distanz displaystyle mbox k Distanz nbsp von B displaystyle B nbsp Objekte die zu den k nachsten Nachbarn von B displaystyle B nbsp gehoren werden also als gleich weit entfernt betrachtet Die Motivation fur diese Distanzdefinition ist es stabilere Ergebnisse zu bekommen Es handelt sich hierbei aber nicht mehr um eine Distanzfunktion im mathematischen Sinne da sie nicht symmetrisch ist Die lokale Erreichbarkeitsdichte local reachability density lrd eines Objektes A displaystyle A nbsp wird definiert alslrd k A 1 B N k A Erreichbarkeits Distanz k A B N k A displaystyle mbox lrd k A 1 left frac sum B in N k A mbox Erreichbarkeits Distanz k A B N k A right nbsp Diese Dichte ist also der Kehrwert der durchschnittlichen Erreichbarkeitsdistanz des Objektes A displaystyle A nbsp von seinen Nachbarn nicht andersherum die durchschnittliche Erreichbarkeitsdistanz der Nachbarn von A displaystyle A nbsp was definitionsgemass k Distanz A displaystyle mbox k Distanz A nbsp ware Bei k 1 displaystyle k 1 nbsp Duplikaten in einem Datensatz wird die Erreichbarkeitsdichte dieser Objekte unendlich Die lokale Erreichbarkeitsdichte wird jetzt mit denen der Nachbarn verglichen LOF k A B N k A lrd B lrd A N k A B N k A lrd B N k A lrd A displaystyle mbox LOF k A frac sum B in N k A frac mbox lrd B mbox lrd A N k A frac sum B in N k A mbox lrd B N k A mbox lrd A nbsp Der Local Outlier Factor LOF ist also die Durchschnittliche Erreichbarkeitsdichte der Nachbarn dividiert durch die Erreichbarkeitsdichte des Objektes selbst Ein Wert von etwa 1 displaystyle 1 nbsp bedeutet dass das Objekt eine mit seinen Nachbarn vergleichbare Dichte hat also kein Ausreisser ist Ein Wert kleiner als 1 displaystyle 1 nbsp bedeutet sogar eine dichtere Region was ein sogenannter Inlier ware wahrend signifikant hohere Werte als 1 displaystyle 1 nbsp einen Ausreisser kennzeichnen Vorteile Bearbeiten nbsp LOF Werte visualisiert mit ELKI Obwohl der Cluster oben rechts eine mit den Ausreissern unten links vergleichbare Dichte hat werden sie korrekt klassifiziert Im Gegensatz zu vielen globalen Verfahren zur Ausreissererkennung kann LOF mit Bereichen unterschiedlicher Dichte in demselben Datensatz umgehen Punkte mit einer mittleren Dichte in einer Umgebung mit hoher werden von LOF als Ausreisser klassifiziert wahrend ein Punkt mit mittlerer Dichte in einer dunnen Umgebung explizit nicht als solcher erkannt wird Wahrend die geometrische Intuition von LOF nur in niedrigdimensionalen Vektorraumen Sinn ergibt kann das Verfahren auf beliebigen Daten angewendet werden auf denen eine Unahnlichkeit definiert werden kann Es muss sich dabei nicht um eine Distanzfunktion im strengeren mathematischen Sinne handeln die Dreiecksungleichung wird beispielsweise nicht benotigt Der Algorithmus wurde erfolgreich auf verschiedensten Datensatzen eingesetzt beispielsweise zum Erkennen von Angriffen in Computernetzwerken wo er bessere Erkennungsraten lieferte als die Vergleichsverfahren 2 Nachteile BearbeitenEin wichtiger Nachteil von LOF ist dass die Ergebniswerte schwer zu interpretieren sind Werte um 1 displaystyle 1 nbsp und weniger sind sicher keine Ausreisser aber es gibt keine klare Regel ab welchem Wert ein Punkt ein signifikanter Ausreisser ist In einem sehr gleichmassigen Datensatz sind Werte von 1 1 displaystyle 1 1 nbsp auffallig in einem Datensatz mit starken Dichteschwankungen kann ein Wert wie 2 displaystyle 2 nbsp noch ein ganz normaler Datenpunkt sein Im schlimmsten Falle treten solche Unterschiede sogar in unterschiedlichen Teilen desselben Datensatzes auf Erweiterungen BearbeitenFeature Bagging for Outlier Detection 3 wendet LOF in mehreren Projektionen an und kombiniert die Ergebnisse um in hochdimensionalen Daten bessere Ergebnisse zu erhalten Local Outlier Probability LoOP 4 ist eine von LOF abgeleitete Methode die die Dichte statistisch schatzt um weniger abhangig vom genauen Wert von k zu werden Zusatzlich wird das Ergebnis statistisch in den Wertebereich 0 1 displaystyle 0 1 nbsp normalisiert um besser interpretierbare Werte zu liefern Interpreting and Unifying Outlier Scores 5 stellt eine Normalisierung fur LOF und andere Verfahren vor die die Scores statistisch in das Intervall 0 1 displaystyle 0 1 nbsp normalisiert um die Benutzerfreundlichkeit des Ergebnisses zu verbessern Verfugbarkeit BearbeitenEine Referenzimplementierung ist im Software Paket ELKI verfugbar inklusive Implementierungen von Vergleichsverfahren Einzelnachweise Bearbeiten M M Breunig Hans Peter Kriegel R T Ng J Sander LOF Identifying Density based Local Outliers In ACM SIGMOD Record Nr 29 2000 S 93 doi 10 1145 335191 335388 Online PDF Ar Lazarevic Aysel Ozgur Levent Ertoz Jaideep Srivastava Vipin Kumar A comparative study of anomaly detection schemes in network intrusion detection In Proc 3rd SIAM International Conference on Data Mining 2003 S 25 36 Online PDF Online Memento des Originals vom 17 Juli 2013 im Internet Archive nbsp Info Der Archivlink wurde automatisch eingesetzt und noch nicht gepruft Bitte prufe Original und Archivlink gemass Anleitung und entferne dann diesen Hinweis 1 2 Vorlage Webachiv IABot www siam org A Lazarevic V Kumar Feature bagging for outlier detection In Proc 11th ACM SIGKDD international conference on Knowledge Discovery in Data Mining 2005 S 157 166 doi 10 1145 1081870 1081891 Hans Peter Kriegel P Kroger E Schubert A Zimek LoOP Local Outlier Probabilities In Proc 18th ACM Conference on Information and Knowledge Management CIKM 2009 S 1649 doi 10 1145 1645953 1646195 Online PDF Hans Peter Kriegel Peer Kroger Erich Schubert Arthur Zimek Interpreting and Unifying Outlier Scores In Proc 11th SIAM International Conference on Data Mining 2011 Online PDF Abgerufen von https de wikipedia org w index php title Local Outlier Factor amp oldid 227211187