www.wikidata.de-de.nina.az
Das Fuzzy Retrieval hat sich seit den 1970er Jahren entwickelt Hier benennt Fuzzy Information Retrieval ein Information Retrieval das auf der Fuzzy Logik basiert Inhaltsverzeichnis 1 Das Fuzzy IR Modell 2 Erweiterte Fuzzy IR Modelle 2 1 Das Waller Kraft Modell 2 2 Das Paice Modell 2 3 Vergleich 3 Die Einfuhrung des Termgewichtes in die Abfrage 4 Fuzzy IR Modell mit Abfrage Gewichten 5 Term Relationen 5 1 Beispiele fur Term Relationen 5 2 Konstruktion der Term Relationen 5 3 Verwendung von Term Relationen in den reellen Zahlen 6 Literatur 7 QuellenDas Fuzzy IR Modell BearbeitenDas Fuzzy IR Modell ist zu definieren mit einem Quadrupel T Q D F displaystyle langle T Q D F rangle nbsp wobei T t1 t2 tn displaystyle T t 1 t 2 dotsc t n nbsp eine Menge von Indextermen die Abfragen und Dokumente beschreiben Q q1 q2 qm displaystyle Q q 1 q 2 dotsc q m nbsp eine Menge von Abfragen die aus Indextermen bestehen Dabei lassen sich die Indexterme durch logische Operationen AND OR und NOT verknupfen D d1 d2 dk displaystyle D d 1 d 2 dotsc d k nbsp eine Menge von Dokumenten Jedes dj D j 1 2 k displaystyle d j in D j 1 2 dotsc k nbsp ist durch t1 wj1 tn wjn displaystyle t 1 w j1 dotsc t n w jn nbsp zu reprasentieren wobei wji i 1 2 n displaystyle w ji i 1 2 dotsc n nbsp die Wichtigkeit von Term ti displaystyle t i nbsp in dj displaystyle d j nbsp darstellt und einen Wert aus dem Intervall 0 1 displaystyle 0 1 nbsp einnimmt F displaystyle F nbsp ist eine RankingfunktionF D Q 0 1 displaystyle F colon D times Q to 0 1 nbsp F d q 0 1 displaystyle F d q in 0 1 nbsp Der Wert reprasentiert die Ahnlichkeit zwischen dem Dokument d displaystyle d nbsp und der Abfrage q displaystyle q nbsp Fur eine Abfrage gilt Folgendes Eine Abfrage q displaystyle q nbsp ist eine wohlgeformte propositionale Formel Ein individueller Indexterm ist eine Abfrage q ti displaystyle q t i nbsp Diese Art von Abfrage nennt man Atomabfrage Wenn q displaystyle q nbsp eine Abfrage ist ist q displaystyle neg q nbsp die Negation von q displaystyle q nbsp auch eine Abfrage Wenn q displaystyle q nbsp und q displaystyle q nbsp Abfragen sind sind q q displaystyle q cup q nbsp q displaystyle q nbsp oder q displaystyle q nbsp und q q displaystyle q cap q nbsp q displaystyle q nbsp und q displaystyle q nbsp auch Abfragen Die Fuzzy Mengen Operationen werden wie folgt verwendet F dj t1 AND t2 min wj1 wj2 displaystyle F d j t 1 text AND t 2 min w j1 w j2 nbsp F dj t1 OR t2 max wj1 wj2 displaystyle F d j t 1 text OR t 2 max w j1 w j2 nbsp F dj t1 1 wj1 displaystyle F d j t 1 1 w j1 nbsp Nun wird ein Beispiel zur Verdeutlichung der Anwendung von Fuzzy IR Modell genannt Die Abfrage lautet q1 Golden AND Silver displaystyle q 1 text Golden AND Silver nbsp Es gibt zwei Dokumente d1 Golden 0 4 Silver 0 4 displaystyle d 1 text Golden 0 4 text Silver 0 4 nbsp d2 Golden 0 4 Silver 0 7 displaystyle d 2 text Golden 0 4 text Silver 0 7 nbsp Nach der Operation kommt es zum Ergebnis F d1 t1 AND t2 min 0 4 0 4 0 4 displaystyle F d 1 t 1 text AND t 2 min 0 4 0 4 0 4 nbsp F d2 t1 AND t2 min 0 4 0 7 0 4 displaystyle F d 2 t 1 text AND t 2 min 0 4 0 7 0 4 nbsp Die gleichen Resultate bei d1 displaystyle d 1 nbsp und d2 displaystyle d 2 nbsp sagen aus dass die Ahnlichkeit zwischen d1 displaystyle d 1 nbsp und q1 displaystyle q 1 nbsp mit der zwischen d2 displaystyle d 2 nbsp und q1 displaystyle q 1 nbsp gleich ist Aber die meisten Leute wurden entscheiden dass d2 displaystyle d 2 nbsp dem q1 displaystyle q 1 nbsp ahnlicher als d1 displaystyle d 1 nbsp ware Hier ist das unerwunschte Ergebnis darauf zuruckzufuhren dass die Operation nur auf ein Termgewicht Rucksicht nimmt Zudem beschranken sich die einfachen Fuzzy Menge Operationen lediglich auf zwei Terme Folgend werden zwei entwickelte Fuzzy Modelle vorgestellt die beliebig viele Terme evaluieren konnen Weiterhin lasst sich ein Parameter als softness factor zur Losung des obengenannten Problems des auf ein Gewicht angewiesenen Ergebnisses in die Modelle einfuhren Erweiterte Fuzzy IR Modelle BearbeitenDas Waller Kraft Modell Bearbeiten F dj t1 AND AND tn 1 g min wj1 wjn g maxwj1 wjn displaystyle F d j t 1 text AND dots text AND t n 1 gamma cdot min w j1 dots w jn gamma cdot max w j1 dots w jn nbsp 0 g 0 5 displaystyle 0 leqq gamma leqq 0 5 nbsp F dj t1 OR OR tn 1 g min wj1 wjn g max wj1 wjn displaystyle F d j t 1 text OR dots text OR t n 1 gamma cdot min w j1 dots w jn gamma cdot max w j1 dots w jn nbsp 0 5 g 1 displaystyle 0 5 leqq gamma leqq 1 nbsp Das Modell mischt die Operation Maximum mit Minimum und hat bessere Effektivitat als beim einfachen Fuzzy Modell Das Paice Modell Bearbeiten Bei einer AND Verknupfung wji displaystyle w ji nbsp der Grosse nach in ansteigender Reihenfolge sortiert d h wj1 wjn displaystyle w j1 leqq dots leqq w jn nbsp F dj t1 AND AND tn i 1n ri 1 wji i 1nri 1 displaystyle F d j t 1 text AND dots text AND t n left sum i 1 n r i 1 cdots w ji right left sum i 1 n r i 1 right nbsp 0 r 1 displaystyle 0 leqq r leqq 1 nbsp Bei einer OR Verknupfung wji displaystyle w ji nbsp der Grosse nach in absteigender Reihenfolge sortiert d h wj1 wjn displaystyle w j1 geqq dots geqq w jn nbsp F dj t1 OR OR tn i 1n ri 1 wji i 1nri 1 displaystyle F d j t 1 text OR dots text OR t n left sum i 1 n r i 1 cdot w ji right left sum i 1 n r i 1 right nbsp 0 r 1 displaystyle 0 leqq r leqq 1 nbsp Dieses Modell berucksichtigt alle Termgewichte bei der Berechnung der Ahnlichkeit Aber es verlangt hoheren Berechnungsaufwand als beim Waller Kraft Modell Vergleich Bearbeiten In der folgenden Tabelle werden die Ergebnisse von d1 displaystyle d 1 nbsp und d2 displaystyle d 2 nbsp bei einfachem Fuzzy IR Modell Waller Kraft Modell sowie Paice Modell miteinander verglichen q1 t1 AND t2 displaystyle q 1 t 1 text AND t 2 nbsp Einfaches Fuzzy IR Modell Waller Kraft Modell g 0 3 displaystyle gamma 0 3 nbsp Paice Modell r 0 3 displaystyle r 0 3 nbsp d1 t1 0 4 t2 0 4 displaystyle d 1 left t 1 0 4 t 2 0 4 right nbsp 0 4 displaystyle 0 4 nbsp 1 0 3 0 4 0 3 0 4 0 4 displaystyle 1 0 3 cdot 0 4 0 3 cdot 0 4 0 4 nbsp 0 30 0 4 0 31 0 4 0 30 0 31 0 4 displaystyle 0 3 0 cdot 0 4 0 3 1 cdot 0 4 0 3 0 0 3 1 0 4 nbsp d2 t1 0 4 t2 0 7 displaystyle d 2 left t 1 0 4 t 2 0 7 right nbsp 0 4 displaystyle 0 4 nbsp 1 0 3 0 4 0 3 0 7 0 49 displaystyle 1 0 3 cdot 0 4 0 3 cdot 0 7 0 49 nbsp 0 30 0 4 0 31 0 7 0 30 0 1 0 47 displaystyle 0 3 0 cdot 0 4 0 3 1 cdot 0 7 0 3 0 0 1 0 47 nbsp Der Ahnlichkeitsgrad zwischen d1 displaystyle d 1 nbsp und q1 displaystyle q 1 nbsp ist bei den drei Modellen gleich das ist verstandlich Der Unterschied entsteht bei den Ergebnissen von d2 displaystyle d 2 nbsp wobei die von den zwei erweiterten Modellen grosser als das bei einfachem Fuzzy IR Modell sind was eher der Erwartung entspricht Deswegen kann man sagen dass die beiden Modelle bessere Effektivitat beim Auffinden als das einfache Fuzzy IR Modell haben Zwar mischt das Waller Kraft Modell Maximum mit Minimum aber es beachtet nur diese zwei Termgewichte was zum Problem bei Abfragen mit mehr als zwei Termen fuhren kann Beispiel q2 t1 OR t2 OR t3 OR t4 OR t5 displaystyle q 2 t 1 text OR t 2 text OR t 3 text OR t 4 text OR t 5 nbsp d3 t1 0 1 t2 0 5 t3 0 5 t4 0 5 t5 0 8 displaystyle d 3 t 1 0 1 t 2 0 5 t 3 0 5 t 4 0 5 t 5 0 8 nbsp d4 t1 0 1 t2 0 2 t3 0 2 t4 0 2 t5 0 8 displaystyle d 4 t 1 0 1 t 2 0 2 t 3 0 2 t 4 0 2 t 5 0 8 nbsp Es ist klar dass der Ahnlichkeitsgrad zwischen d3 displaystyle d 3 nbsp und q2 displaystyle q 2 nbsp grosser als der zwischen d4 displaystyle d 4 nbsp und q2 displaystyle q 2 nbsp ist Aber nach der Gleichung bei Waller Kraft Modell werden gleiche Ergebnisse bei d3 displaystyle d 3 nbsp und d4 displaystyle d 4 nbsp berechnet welcher Wert fur den Parameter g displaystyle gamma nbsp auch bestimmt wird weil es bei diesem Modell nur auf das min displaystyle min nbsp und max displaystyle max nbsp Termgewicht Rucksicht genommen wird Somit entsteht das Problem Im Vergleich dazu ist das Paice Modell zwar komplexer aber es berucksichtigt alle Termgewichte bei der Berechnung und vermeidet deswegen dieses Problem Die Einfuhrung des Termgewichtes in die Abfrage BearbeitenDie gerade gezeigten Modelle berucksichtigen keine Gewichte von Termen in Abfrage wobei alle Terme die gleiche Wichtigkeit in Abfragen haben Es ist bekannt dass die Einfuhrung der Gewichte von Termen in die Abfragen die Effektivitat des Auffindens verbessern kann Mit dem Termgewicht wird die Abfrage reprasentiert qk t1 wk1 tn wkn displaystyle q k t 1 w k1 dots t n w kn nbsp wk 0 1 displaystyle w k in 0 1 nbsp Im Retrieval werden die Gewichte von Termen in Abfragen und Dokumenten multipliziert das heisst F dj ti wki wji wki displaystyle F bigl d j t i w ki bigr w ji cdot w ki nbsp Eine Abfrage ohne Termgewicht gleicht einer Abfrage in der die Gewichte von allen Termen 1 betragen Ein Term wird weggenommen wenn dessen Gewicht null ist das bedeutet dass der Term keinen Einfluss auf die Abfrage hat Obwohl das Waller Kraft Modell und das Paice Modell keine Methode anbieten die Termgewichte in Abfragen zu evaluieren hat das P Norm Modell Formeln fur die Kalkulation der Termgewichte in Abfragen Fuzzy IR Modell mit Abfrage Gewichten BearbeitenDas P Norm Modell mit Abfrage Gewichten 1 F dj tq k 1 wq k 1 AND AND tq k n wq k n 1 i 1n 1 wji p wq k ip i 1nwjip 1 p displaystyle F bigl d j t q k 1 w q k 1 text AND dots text AND t q k n w q k n bigr 1 left left sum i 1 n 1 w ji p cdot w q k i p right left sum i 1 n w ji p right right 1 p nbsp 1 p lt displaystyle 1 leqq p lt infty nbsp F dj tq k 1 wq k 1 OR OR tq k n wq k n 1 i 1nwjip wq k ip i 1nwjip 1 p displaystyle F bigl d j t q k 1 w q k 1 text OR dots text OR t q k n w q k n bigr 1 left left sum i 1 n w ji p cdot w q k i p right left sum i 1 n w ji p right right 1 p nbsp 1 p lt displaystyle 1 leqq p lt infty nbsp Hier ist p displaystyle p nbsp der Parameter und reprasentiert den Grad an Genauigkeit 1 bedeutet wenig genau wahrend displaystyle infty nbsp sehr genau heisst Term Relationen BearbeitenFuzzy Term Relationen bezeichnet man als Fuzzy Thesauren Hier bedeutet diese Relation eine Fuzzy Relation auf einer Fuzzy Menge die die Interpretation von einem Fuzzy Graph hat Formal wird angenommen T t1 t2 tm displaystyle T t 1 t 2 dotsc t m nbsp ist eine Menge von Termen und D d1 d2 dn displaystyle D d 1 d 2 dotsc d n nbsp eine Menge von Dokumenten Eine allgemeine Term Relation wird definiert durch eine Fuzzy Relation auf T D R x y x y T D displaystyle T cup D R x y x y in T cup D nbsp Hier werden Terme und Dokumente in eine gesamte Menge vereinigt obwohl man es Term Relation nennt Drei Typen der Relationen sind einbezogen Eine Relation zwischen zwei Termen R t t t t T displaystyle R t t t t in T nbsp Eine Relation zwischen zwei Dokumenten R d d d d D displaystyle R d d d d in D nbsp Eine Relation zwischen einem Term und einem Dokument R t d displaystyle R t d nbsp oder R d t t T d D displaystyle R d t t in T d in D nbsp Die untengenannten Probleme in Term Relationen werden dann diskutiert konkrete Beispiele fur Term Relationen Methode von Beschaffung und Bildung der Term Relationen Methode von Verwendung der Term Relationen in Information Retrieval Beispiele fur Term Relationen Bearbeiten Die Thesauren und ihre Fuzzy Versionen sind typische Beispiele fur Term Relationen wobei die Fuzzy Relation R displaystyle R nbsp nicht auf T D displaystyle T cup D nbsp sondern auf T displaystyle T nbsp definiert wird Verschiedene Typen von Fuzzy Thesauren werden berucksichtigt Zum Beispiel sieht Reisinger Fuzzy Aquivalenz und Fuzzy ordnende Relationen als naturliche Generalisationen von scharf kategorischen und hierarchischen Relationen an 2 Tahani erwahnt auch partielle Fuzzy Ordnung 3 Redecki schlagt die Verwendung von einer Fuzzy Aquivalenz Relation zusammen mit einer Teilmenge der elementaren Terme und einer Termgeneralisationsrelation vor 4 In der Forschung von Fuzzy Thesauren werden symmetrische und unsymmetrische Fuzzy Relationen sowie Fuzzy Transitivitat beachtet deren Annahme jedoch zu einem Problem fuhrt weil man in Realitat keine Fuzzy Transitivitat direkt finden kann Dieses Problem ist durch die Berucksichtigung von Fuzzy Graphen ungerichtete Graphen und Digraphen 5 zu losen Angegeben ist eine Fuzzy Relation R displaystyle R nbsp die nicht transitiv sein muss Diese Relation lasst sich durch einen Fuzzy Digraph reprasentieren und ein transitive closure wird uberdacht R R R2 Rk displaystyle R R cup R 2 cup dots cup R k cup cdots nbsp Rk Rk 1 R displaystyle R k R k 1 circ R nbsp wobei displaystyle circ nbsp die max displaystyle max nbsp min displaystyle min nbsp Komposition impliziert R displaystyle R nbsp bedeutet den Grad von Erreichbarkeit auf dem Digraph und zwar ist R x y displaystyle R x y nbsp der max displaystyle max nbsp Wert von a displaystyle alpha nbsp Schnitt wobei x displaystyle x nbsp auf dem scharfen Digraphen von y displaystyle y nbsp aus erreichbar ist Die obengenannten Operationen und Eigenschaften von Fuzzy Relationen werden hier zusammengefasst Angegeben sind zwei Fuzzy Relationen R displaystyle R nbsp und S displaystyle S nbsp die auf T displaystyle T nbsp definiert werden Die max displaystyle max nbsp min displaystyle min nbsp Komposition R S x z maxy Tmin R x y S y z displaystyle R circ S x z max y in T min R x y S y z nbsp Eine Relation R displaystyle R nbsp auf einer Menge T displaystyle T nbsp wird bezeichnet als reflexiv wenn fur alle x displaystyle x nbsp x T displaystyle x in T nbsp R x x 1 displaystyle R x x 1 nbsp symmetrisch wenn fur alle x displaystyle x nbsp und y displaystyle y nbsp x y T displaystyle x y in T nbsp R x y R y x displaystyle R x y R y x nbsp transitiv wenn fur alle x displaystyle x nbsp und y displaystyle y nbsp x y T displaystyle x y in T nbsp R x y maxz Tmin R x z R z y displaystyle R x y leqq max z in T min R x z R z y nbsp Konstruktion der Term Relationen Bearbeiten Verschiedene Forschungen behandeln unter unterschiedlichen Annahmen die Methoden von automatischer Konstruktion der Fuzzy Relation von Termen oder von Dokumenten Eine typische Methode dafur ist die Verwendung von Dokument Term Matrix A aij displaystyle A a ij nbsp wobei aij displaystyle a ij nbsp das Gewicht von Term tj displaystyle t j nbsp in dem Dokument di displaystyle d i nbsp darstellt Hier wird angenommen gj iaij di displaystyle gamma j sum i a ij d i nbsp ist die Fuzzy Menge die dem Term tj displaystyle t j nbsp entspricht Eine symmetrische Relation Rs tj tk displaystyle R s t j t k nbsp und eine unsymmetrische Relation Rn tj tk displaystyle R n t j t k nbsp sind definiert durch Rs tj tk gj gk gj gk displaystyle R s t j t k vert gamma j cap gamma k vert vert gamma j cap gamma k vert nbsp Rn tj tk gj gk gj displaystyle R n t j t k vert gamma j cap gamma k vert vert gamma j vert nbsp wobei gj a1j a2j anj displaystyle vert gamma j vert a 1j a 2j dots a nj nbsp die displaystyle sum nbsp Summe ist Diese Methode basiert auf der Annahme dass die Bedeutung von den beiden Termen auch ahnlich ist wenn die zwei Patterns von gj displaystyle gamma j nbsp und gk displaystyle gamma k nbsp ahnlich sind Die Annahme von Rn tj tk displaystyle R n t j t k nbsp ist dass gj displaystyle gamma j nbsp eine engere Bedeutung als gk displaystyle gamma k nbsp hat wenn gj displaystyle gamma j nbsp der gk displaystyle gamma k nbsp inklusive ist Verwendung von Term Relationen in den reellen Zahlen Bearbeiten Es gibt zwei Basismethoden von Verwendung der Term Relationen in Information Retrieval Wenn eine Term Relation als ein Netzwerk ermoglicht wird in dem die Dokumente Terminalknoten sind und eine Abfrage ein Originalknoten ist wird das Retrieval durch die Verfolgung vom Netzwerk durchgefuhrt Andererseits wenn eine Term Relation R displaystyle R nbsp auf T displaystyle T nbsp zusammen mit einer Fuzzy Relation F d t displaystyle F d t nbsp und einem Fuzzy Abfrage Vektor q jwjtj displaystyle q sum nolimits j frac w j t j nbsp angegeben wird ist eine einfache Standardmethode fur Retrieval der Dokumente die Kalkulation von einer Fuzzy Menge d F R q displaystyle delta F circ R circ q nbsp durch die Anwendung von MAX MIN Komposition der Fuzzy Relationen 6 Literatur BearbeitenJoon Ho Lee Properties of extended Boolean models in information retrieval In W B Croft C J van Rijsbergen SIGIR 1994 1994 S 182 190 Sadaaki Miyamoto Two approaches for information retrieval through fuzzy associations In IEEE Transactions on Systems Man and Cybernetics Band 19 Nr 1 1989 S 123 130 Sadaaki Miyamoto Fuzzy Sets in Information Retrieval and Cluster Analysis Kluwer Dordrecht 1990 ISBN 0 7923 0721 6 Sadaaki Miyamoto Information Retrieval In Enrique H Ruspini Piero P Bonissone Witold Pedrycz Hrsg Handbook of fuzzy computation Institute of Physics Publ Bristol 1998 S F 4 2 C P Paice Soft evaluation of boolean search queries in information retrieval systems In Information Technology Research and Development Band 3 Nr 1 1984 S 33 42 Jiri Panyr Die Theorie der Fuzzy Mengen und Information Retrieval Systeme In Nachrichten fur Dokumentation Band 37 1986 S 163 168 G Salton E A Fox H Wu Extended boolean information retrieval In Communication of the ACM Band 26 Nr 11 1983 S 1022 1036 W G Waller D H Kraft A mathematical Model for weighted Boolean retrieval systems In Information Processing and Management Band 15 1979 S 235 245 Quellen Bearbeiten Salton u a 1983 Reisinger 1974 Tahani 1976 Redecki 1976 Miyamoto 1990b S 30 Miyamoto 1990b S 195 Abgerufen von https de wikipedia org w index php title Fuzzy Retrieval amp oldid 230639430