www.wikidata.de-de.nina.az
Die Inverse Dokumenthaufigkeit englisch Inverse Document Frequency IDF dient beim Information Retrieval zur Bestimmung der Trennfahigkeit eines Wortes bzw Termes fur die Indexierung von Dokumenten Ein Wort das nur in wenigen Dokumenten oft vorkommt ist geeigneter als eines das in fast jedem Dokument oder nur sehr gering auftritt Zusammen mit der Termfrequenz siehe Tf idf Mass wird sie zur Gewichtung von Wortern bei der Automatischen Indexierung eingesetzt Die Inverse Dokumenthaufigkeit lasst sich berechnen alsIDF t log N D f t displaystyle text IDF t log left frac N D f t right wobei N D displaystyle N D die Anzahl der Dokumente bezeichnet und f t displaystyle f t die Anzahl der Dokumente die den Term t displaystyle t enthalten Wenn die Dokumentenhaufigkeit wachst wird der Bruch kleiner IDF wurde 1972 von der britischen Informatikerin Karen Sparck Jones erstmals beschrieben 1 und wird weithin in den Methoden der Informationswiedergewinnung und der Sprachverarbeitung eingesetzt Siehe auch BearbeitenSuchwortdichteEinzelnachweise Bearbeiten Karen Sparck Jones A STATISTICAL INTERPRETATION OF TERM SPECIFICITY AND ITS APPLICATION IN RETRIEVAL In Journal of Documentation Band 28 Nr 1 Januar 1972 ISSN 0022 0418 S 11 21 doi 10 1108 eb026526 emerald com abgerufen am 11 Mai 2021 Abgerufen von https de wikipedia org w index php title Inverse Dokumenthaufigkeit amp oldid 211860752