www.wikidata.de-de.nina.az
Das Tf idf Mass von englisch term frequency Vorkommenshaufigkeit und inverse document frequency inverse Dokumenthaufigkeit ist ein statistisches Mass das im Information Retrieval zur Beurteilung der Relevanz von Termen in Dokumenten einer Dokumentenkollektion eingesetzt wird Mit der so errechneten Gewichtung eines Wortes bezuglich des Dokuments in welchem es enthalten ist konnen Dokumente als Suchtreffer einer wortbasierten Suche besser in der Trefferliste angeordnet werden als es beispielsweise uber die Termfrequenz allein moglich ware Inhaltsverzeichnis 1 Vorkommenshaufigkeit 2 Inverse Dokumenthaufigkeit 3 TF IDF 4 TF LAG IDF 5 Literatur 6 EinzelnachweiseVorkommenshaufigkeit BearbeitenDie Vorkommenshaufigkeit auch Suchwortdichte genannt t D displaystyle operatorname t D nbsp gibt an wie haufig der Term t displaystyle t nbsp im Dokument D displaystyle D nbsp vorkommt Ist beispielsweise das Dokument D i displaystyle D i nbsp der Satz Das rote Auto halt an der roten Ampel dann ist rot D i 2 displaystyle operatorname text rot D i 2 nbsp Um eine Verzerrung des Ergebnisses in langen Dokumenten zu verhindern ist es moglich die absolute Vorkommenshaufigkeit t D textstyle operatorname t D nbsp zu normalisieren Dazu wird die Anzahl der Vorkommen von Term t displaystyle t nbsp in Dokument D displaystyle D nbsp durch die maximale Haufigkeit eines Terms in D displaystyle D nbsp geteilt und man erhalt die relative Vorkommenshaufigkeit tf t D displaystyle operatorname tf t D nbsp tf t D t D max t D t D displaystyle operatorname tf t D frac t D max t in D t D nbsp Andere Ansatze verwenden die Boolesche Haufigkeit d h es wird nur gepruft ob das Wort vorkommt oder nicht oder eine logarithmisch skalierte Haufigkeit Inverse Dokumenthaufigkeit BearbeitenDie inverse Dokumenthaufigkeit misst die Spezifitat eines Terms fur die Gesamtmenge der betrachteten Dokumente Ein ubereinstimmendes Vorkommen von seltenen Begriffen ist fur die Relevanz aussagekraftiger als eine Ubereinstimmung bei sehr haufigen Wortern z B und oder ein Die inverse Dokumentfrequenz idf t displaystyle operatorname idf t nbsp eines Terms t displaystyle t nbsp hangt nicht vom einzelnen Dokument sondern vom Dokumentkorpus der Gesamtmenge aller Dokumente im Retrievalszenario ab idf t log N D t D 1 displaystyle operatorname idf t log frac N sum D t in D 1 nbsp Hier ist N displaystyle N nbsp die Anzahl der Dokumente im Korpus und D t D 1 textstyle sum D t in D 1 nbsp die Anzahl der Dokumente die Term t displaystyle t nbsp beinhalten TF IDF BearbeitenDas Gewicht tf idf t D displaystyle operatorname tf operatorname idf t D nbsp eines Terms t displaystyle t nbsp im Dokument D displaystyle D nbsp ist dann nach TF IDF das Produkt der Termhaufigkeit mit der inversen Dokumentenhaufigkeit Sparck Jones 1972 t f i d f t D tf t D idf t displaystyle operatorname tf idf t D operatorname tf t D cdot operatorname idf t nbsp In den meisten Anwendungen durfte es sinnvoll sein dass ein vielfaches Vorkommen eines Terms nicht auch in gleichem Masse zur Relevanz beitragt In der Praxis wird der TF Wert daher in der Regel normalisiert TF LAG IDF BearbeitenDie Analyse der Zeitabhangigen Relevanz von Termen wird durch das Konzept des TF LAG IDF moglich Das Gewicht t f l a g i d f t J n D displaystyle operatorname tf lag idf t J n D nbsp eines Terms t displaystyle t nbsp im Dokument D displaystyle D nbsp und Jahr J displaystyle J nbsp mit Lag n displaystyle n nbsp ist nach TF LAG IDF das Produkt der Termhaufigkeit mit der verzogerten inversen Dokumenthaufigkeit t f l a g i d f t J n D tf t J D l a g i d f t J n displaystyle operatorname tf lag idf t J n D operatorname tf t J D cdot operatorname lag idf t J n nbsp Um eine Division durch Null zu vermeiden wird das LAG IDF Gewicht auf einen hohen Wert festgelegt wenn die Dokumenthaufigkeit gleich Null ist 1 Literatur BearbeitenSparck Jones Karen 1972 A statistical interpretation of term specificity and its application in retrieval Journal of Documentation 23 1 11 21 Ricardo Baeza Yates Berthier Ribeiro Neto Modern Information Retrieval Addison Wesley Harlow u a 1999 ISBN 0 201 39829 X S 29 30 Einzelnachweise Bearbeiten Martin G Moehrle Michael Wustmans Jan M Gerken How business methods accompany technological innovations a case study using semantic patent analysis and a novel informetric measure How business methods accompany technological innovations In R amp D Management Band 48 Nr 3 Juni 2018 S 331 342 doi 10 1111 radm 12307 Abgerufen von https de wikipedia org w index php title Tf idf Mass amp oldid 229510096