www.wikidata.de-de.nina.az
WDF Within document Frequency bedeutet die dokumentspezifische Gewichtung eines Wortes Die Formel fur die Dokumentspezifische Wortgewichtung wurde von Donna Harman entwickelt um Worten die in einem Dokument vorkommen einen fur die Informationswissenschaft nutzbaren Gewichtungswert zu geben Dieser Gewichtungswert lasst sich zum Beispiel zusammen mit der Inversen Dokumenthaufigkeit Inverse Document Frequency IDF und dem Gewichtungswert P zur einfachen Gewichtungsformel kombinieren Mit dem WDF wird nicht die relative Haufigkeit eines Wortes im Dokument ermittelt sondern ein gestauchter Wert der besser verwendbar ist Je hoher die WDF eines Wortes ist desto haufiger kommt dieses Wort im Dokument vor Die FormelW D F i log 2 F r e q i j 1 log 2 L displaystyle WDF i frac log 2 mathrm Freq i j 1 log 2 L i Wort j Dokument L Gesamtzahl der Worter in Dokument j Freq i j Haufigkeit des Wortes i im Dokument jErklarung zu 1 falls Freq i j 0 ist erreicht man mit dem 1 dass im Zahler log2 1 0 steht BeispielEin Dokument besteht aus 12000 Wortern also ist L 12000 Das Wort i kommt in diesem Dokument 23 mal vor also ist Freq i j 23 Nun braucht man nur noch einsetzen und es entsteht W D F i log 2 23 1 log 2 12 000 displaystyle WDF i frac log 2 23 1 log 2 12 000 Als Ergebnis erhalt man den Gewichtungswert WDF i 0 3 gerundet zum Vergleich ist die relative Haufigkeit des Wortes i hier etwa 0 1917 23 12000 displaystyle frac 23 12000 Im Bereich der Suchmaschinenoptimierung wird die Berechnung des Gewichtungswertes WDF genutzt um die Relevanz der Webseite fur eine Suchmaschine zu erhohen Gegenuber der einfachen Berechnung einer Suchwortdichte wird bei der Berechnung durch den eingesetzten Logarithmus beim WDF Wert verhindert dass das Suchwort eine zu starke Gewichtung erfahrt WDF IDFIn der Suchmaschinenoptimierung ist auch der Term WDF IDF popular geworden der ahnlich TF IDF ist Dabei wird die Relevanz eines Dokuments ins Verhaltnis zum Wettbewerb gesetzt IDF bezeichnet die inverse Dokumenthaufigkeit Der IDF Wert errechnet sich aus der Gesamtzahl aller indexierten also der Suchmaschine bekannten Dokumente geteilt durch die Anzahl all jener Dokumente die den entsprechenden Suchbegriff enthalten Das fuhrt dazu dass der logarithmisch gestauchte IDF Wert umso hoher ist je weniger Dokumente es insgesamt zu dem jeweiligen Suchbegriff gibt Umgekehrt gilt dass der IDF Wert gegen 1 sinkt wenn das Suchwort bereits auf sehr vielen Seiten verwendet wird Die WDF IDF Formel ergibt dass ein relevantes Dokument umso hoher gewichtet wird je seltener seine Themenkombination bislang behandelt wurde da es dann den bereits bestehenden Inhalten neue und potenziell nutzliche Informationen hinzufugt Entsprechend erhalten Dokumente die fur den Suchbegriff zwar ebenfalls relevant sind und damit einen hohen WDF Wert besitzen aber im Wesentlichen nur das wiederholen was in anderen Dokumenten bereits geschrieben wurde einen niedrigeren IDF Wert und damit eine insgesamt niedrigere WDF IDF Gewichtung Mit einem Wert nahe 1 fallt der IDF Faktor in der Gleichung WDF IDF als Rankingfaktor dann kaum noch ins Gewicht Literatur BearbeitenHarman Donna Ranking algorithms In William B Frakes Ricardo Baeza Yates Hrsg Information Retrieval Data Structures amp Algorithms Upper Saddle River NJ Prentice Hall PTR 1992 363 392 Lecture Notes in Computer Science Vol 1083 Evaluating Natural Language Processing Systems von Karen Sparck Jones Julia R Galliers aus der Reihe Lecture Notes in Computer Science Vol 1083 Berlin Springer 1996 Abgerufen von https de wikipedia org w index php title Within document Frequency amp oldid 232681659