www.wikidata.de-de.nina.az
Erweitertes Boolesches Retrieval ist eine Abwandlung des Booleschen Retrieval die eine flexiblere Handhabung der Suchbegriffe und eine Bewertung der Suchresultate erlaubt Beim klassischen Booleschen Retrieval legt die Anfrage fest welche Begriffe in den Suchresultaten vorkommen sollen Die Anfrage teilt die Dokumente in zwei Mengen Die einen Dokumente erfullen die Anfrage die anderen nicht Das bringt zwei Probleme mit sich Ein Dokument das einen verlangten Term nicht enthalt wird nicht gefunden Dennoch konnte das Dokument relevant sein Womoglich benennt es den gesuchten Begriff einfach mit einem anderen Namen Synonymie Die anderen Suchterme sind vielleicht zahlreich vertreten Die Dokumente die den Suchkriterien entsprechen konnen nicht nach Relevanz geordnet werden Das erweiterte Boolesche Modell versucht diesen Problemen zu begegnen indem die binare Natur der Booleschen Algebra wahr falsch aufgehoben und stattdessen Werte erlaubt werden die sich dazwischen bewegen Die Werte werden dabei mathematisch uber einem Intervall 0 1 definiert wobei null fur falsch eins fur wahr steht Inhaltsverzeichnis 1 Mathematische Definition 2 Erweiterte Boolesche Modelle ohne Query Gewichte 2 1 Einfache Fuzzy Mengen Modell Buell 1981 Bookstein 1980 Radecki 1979 2 2 Waller Kraft Modell Waller amp Kraft 1979 2 3 Paice Modell Paice 1984 2 4 P Norm Modell Salton et al 1983 2 5 Infinite One Modell Smith 1990 3 Erweiterte Boolesche Modelle mit Query Gewichten 3 1 P Norm Modell mit Query Gewichten 3 2 Infinite One Modell mit Query Gewichten 4 LiteraturMathematische Definition BearbeitenEin erweitertes Boolesches Modell wird definiert durch den 4 Tupel T Q D rank mit T ti i 1 n Menge der Indexterme die Dokumente und Queries beschreiben Q qj i 1 Menge aller erlaubten Queries D dk k 1 m Menge der vorliegenden Dokumente Bei den erweiterten Booleschen Modellen besitzt jeder Term tki eines Dokumentes dk ein Gewicht wki 0 1 welches die Wichtigkeit des Termes im Dokument reprasentiert Ein Dokument dk besitzt somit die Struktur dk tk1 wk1 tkn wkn rank Rankingfunktion welche die Ahnlichkeit eines Dokumentes mit einer Query beschreibt Sie ist allgemein definiert durch rank dk qj D x Q 0 1 dk qj rank dk qj 0 1 Die Rankingfunktion beschreibt die unterschiedlichen Klassen von erweiterten Booleschen Modellen wobei alle Modelle zwischen der Verwendung der logischen Operatoren AND und OR in der Query unterscheiden Erweiterte Boolesche Modelle ohne Query Gewichte BearbeitenBei dieser Klasse von Modellen wird jede Query reprasentiert als eine Kombination der Indexterme und der logischen Operatoren AND OR NOT unter der moglichen Verwendung von beliebig geklammerten Ausdrucken Es wird angenommen dass alle Terme die gleiche Bedeutung besitzen was durch fehlende Termgewichte in der Query reprasentiert ist Folgende erweiterte Boolesche Modelle lassen sich unterscheiden Einfache Fuzzy Mengen Modell Buell 1981 Bookstein 1980 Radecki 1979 Bearbeiten rank dk t1 AND t2 MIN wk1 wk2 rank dk t1 OR t2 MAX wk1 wk2 Dieses einfache Modell besitzt die Einschrankung dass es nur zwei Terme evaluieren kann im Gegensatz zu den folgenden Modellen die beliebig viele Terme verarbeiten konnen Waller Kraft Modell Waller amp Kraft 1979 Bearbeiten rank dk t1 AND AND tn 1 g MIN wk1 wkn g MAX wk1 wkn 0 g 0 5 rank dk t1 OR OR tn 1 g MIN wk1 wkn g MAX wk1 wkn 0 5 g 1 Paice Modell Paice 1984 Bearbeiten Bei einer AND Verknupfung ordne zunachst die Gewichte wki mit ansteigenden Werten d h wk1 wkn und berechne dann rank dk t1 AND AND tn i 1n ri 1 wki i 1n ri 1 0 r 1 Bei einer OR Verknupfung ordne zunachst die Gewichte wki mit absteigenden Werten d h wk1 wkn und berechne dann rank dk t1 OR OR tn i 1n ri 1 wki i 1n ri 1 0 r 1 P Norm Modell Salton et al 1983 Bearbeiten rank dk t1 AND AND tn 1 1 n i 1n 1 wki p 1 p 1 p lt rank dk t1 OR OR tn 1 1 n i 1n wki p 1 p 1 p lt Infinite One Modell Smith 1990 Bearbeiten rank dk t1 AND AND tn g 1 MAX 1 wk1 1 wkn 1 g 1 n i 1n wki 0 g 1 rank dk t1 OR OR tn g MAX wk1 wkn 1 g 1 n i 1n wki 0 g 1 Erweiterte Boolesche Modelle mit Query Gewichten BearbeitenDie Retrieval Effektivitat lasst sich steigern indem den Termen Wichtigkeitsfaktoren in Form von Gewichten zugeordnet werden Eine Query qj bekommt somit eine Struktur analog zu einem Dokument dk mit Tupeln aus Termen und Gewichten Werden Terme die nicht in der Ursprungs Query auftreten mit einem Gewicht von Null kodiert so kann jede Ursprungs Query in eine Query umkodiert werden die alle in T vorkommenden Terme mit berucksichtigt qj tq j 1 wq j 1 tq j n wq j n Bei den Relevanz Gewichtungs Ansatzen siehe Buell 1981 werden die Rankingfunktionen derart reformuliert dass die Gewichte der Dokumente und Queries multipliziert werden d h rank dk tq j wq j wk wq j Unter dieser Annahme sind von den vorgestellten erweiterten Booleschen Modellen das P Norm und das Infinite One Modell in der Lage die Gewichte in den Dokumenten und einer Query zu evaluieren P Norm Modell mit Query Gewichten Bearbeiten rank dk tq j 1 wq j 1 AND AND tq j n wq j n 1 i 1n 1 wki p wq j ip i 1n wkip 1 p 1 p lt rank dk tq j 1 wq j 1 OR OR tq j n wq j n 1 i 1n wkip wq j ip i 1n wkip 1 p 1 p lt Infinite One Modell mit Query Gewichten Bearbeiten rank dk tq j 1 wq j 1 AND AND tq j n wq j n g 1 MAX 1 wk1 wq j 1 1 wkn wq j n MAX wq j 1 wq j n 1 g i 1n wki wq j i i 1n wq j i 0 g 1 rank dk tq j 1 wq j 1 OR OR tq j n wq j n g MAX wk1 wq j 1 wkn wq j n MAX wq j 1 wq j n 1 g i 1n wki wq j i i 1n wq j i 0 g 1 Literatur BearbeitenD A Buell A general model for query processing in information retrieval system In Information Processing and Management 17 1981 S 249 262 A Bookstein Fuzzy requests an approach to weighted boolean searches In Journal of the American Society for Information Science 31 1980 S 240 247 E A Fox S Betrabet M Koushik W Lee Extended boolean models In W B Frankes R B Yates Hrsg Information Retrieval Data Structures and Algorithms Prentice Hall 1992 S 393 418 M H Kim J H Lee Y J Lee Analysis of fuzzy operators for high quality information retrieval In Information Processing Letters 46 5 1993 S 251 256 J H Lee M H Kim Y J Lee Ranking documents in thesaurus based boolean retrieval systems In Information Processing and Management 30 1994 S 79 91 J H Lee M I I Kim Y J Lee Enhancing the fuzzy set model for high quality document rankings In Proceedings of the 19th Euromicro Conference 1992 S 337 344 J H Lee W Y Kim M H Kim Y J Lee On the evaluation of boolean operators in the extended boolean retrieval framework In SIGIR 1993 S 291 297 Joon Ho Lee Properties of extended Boolean models in information retrieval In Croft amp Rijsbergen SIGIR 1994 S 182 190 C P Paice Soft evaluation of boolean search queries in information retrieval systems In Information Technology Research and Development 3 1 1984 S 33 42 T Radecki Fuzzy set theoretical approach to document retrieval In Information Processing and Management 15 1979 S 247 259 W M Sachs An approach to associative retrieval through the theory of fuzzy sets In Journal of the American Society for Information Science 27 1976 S 85 87 G Salton E A Fox H Wu Extended boolean information retrieval In Communication of the ACM 26 11 1983 S 1022 1036 M E Smith Aspekts of the p norm model of information retrieval syntactic query generation efficiency and theoretical properties PhD thesis Cornell University 1990 W G Waller D H Kraft A mathematical Model for weighted Boolean retrieval systems In Information Processing and Management 15 1979 S 235 245 Abgerufen von https de wikipedia org w index php title Erweitertes Boolesches Retrieval amp oldid 227852682