www.wikidata.de-de.nina.az
Das Vektorraum Retrieval engl Vector Space Model VSM ist ein Verfahren zur Informationsbeschaffung bei dem die Informationen als Punkte in einem hochdimensionalen metrischen Vektorraum reprasentiert werden Zur Auswertung wird die mathematische Distanz zwischen dem Suchvektor und dem Dokument Informationsvektor verwendet Das Vektorraummodell wurde erstmals im SMART System 1 implementiert das unter der Leitung von Gerard Salton an der Cornell University entwickelt wurde Inhaltsverzeichnis 1 Vereinfachte Beschreibung 2 Vorgehensweise 3 VSM implementierende Software 4 Literatur 5 Siehe auch 6 EinzelnachweiseVereinfachte Beschreibung BearbeitenStark vereinfacht kann man sich das dieser Form der Informationsbeschaffung zugrundeliegende Modell wie folgt vorstellen Jedem Wort des Dokumentes wird eine Dimension zugeordnet Um den Punkt eines Dokumentes oder einer Anfrage in diesem Vektorraum zu bestimmen kann in einer sehr einfachen Variante des Vektorraum Modells beispielsweise gezahlt werden wie oft die einzelnen Worter im Dokument auftreten Der Punkt des Dokumentes im Vektorraum der Dokumentenvektor entspricht dann den Haufigkeiten dieser Worter Beispielsweise konnte man somit das aus einem Satz bestehende Dokument Die Explosion zerstort die Vegetation als Vektor 0 2 1 1 1 beschreiben Das Wort die tritt zweimal auf Explosion zerstort und Vegetation jeweils einmal sonstige Worter treten nicht 0 mal auf Suchanfragen lassen sich auf dieselbe Weise kodieren eine fiktive Suchanfrage Zerstort die Explosion die Vegetation entsprache wegen der gleichen Wortverteilung in diesem Fall genau demselben Anfrage Vektor 0 2 1 1 1 Das Problem des Auffindens von Dokumenten die moglichst gut mit der Suchanfrage ubereinstimmen kann man daher mit Hilfe des Vektorraummodelles losen indem man diejenigen Dokumente sucht deren Vektor moglichst ahnlich zum Vektor der Suchanfrage ist Eine einfache Moglichkeit konnte beispielsweise sein Dokumentenvektoren zu suchen die parallel zum Anfragevektor liegen oder nur um einen kleinen Winkel von ihm abweichen In der Realitat sind Vektorraummodelle erheblich komplexer und berucksichtigen beispielsweise unterschiedliche Worthaufigkeiten Worter wie die oder ist treten beispielsweise in nahezu jedem deutschsprachigen Dokument auf und sind daher nicht sehr aussagekraftig wohingegen Worter wie Desoxyribonukleinsaure seltener und somit potenziell besser geeignet sind das Dokument von anderen inhaltlich abzugrenzen Vorgehensweise BearbeitenUm Vektorraum Retrieval zu ermoglichen sind einige Vorarbeiten notig Der erste Schritt besteht in dem Aufbau eines Dokumentvektorenraumes und der Dokument Indexierung bei welcher die Dokumente der Dokumentmenge auf jeweils genau einen Punkt Dokumentvektoren im Dokumentvektorenraum abgebildet werden Hierzu existieren eine Vielzahl von Merkmalsgewichtungsmodellen die alle auf der Haufigkeit von Merkmalen wie Termen Lemmata oder n Grammen in Einzeldokumenten sowie der gesamten Dokumentmenge aufbauen Das Retrieval im Vektorraummodell fuhrt zunachst eine Query Indizierung durch bei welcher die Anfrage auf einen Vektor im Vektorraum abgebildet wird Die nachfolgende Retrieval Funktion ermittelt eine Teilmenge der Dokumentvektoren die eine bestimmte Ahnlichkeit bezuglich des Queryvektors besitzen und die Rankingfunktion bildet diese Teilmenge auf eine geordnete Liste von Dokumentvektoren ab Dem Nutzer welcher die Query gestellt hat wird eine Liste von Dokumenten prasentiert welche mit der Liste der Dokumentvektoren korrespondiert VSM implementierende Software BearbeitenApache Lucene ist eine Java Programmbibliothek zur Volltextsuche Elasticsearch ist eine Suchmaschine auf Basis von Lucene Gensim ist ein auf Python und NumPy basierende Programmbibliothek zur Modellierung von Vector Space 2 Weka ist ein Softwaretool das verschiedene Techniken aus den Bereichen Maschinelles Lernen und Data Mining bereitstellt Word2vec besteht aus einer Gruppe von Modellen mit flachen zweilagigen kunstlichen neuronalen Netzen die darauf trainiert sind linguistische Zusammenhange von Wortern zu erfassen 3 Literatur BearbeitenBaeza Yates Richardo Ribeiro Neto Berthier Modern Information Retrieval ACM Press New York 1999 ISBN 0 201 39829 X Ferber Reginald Information Retrieval Suchmodelle und Data Mining Verfahren fur Textsammlungen und das Web Heidelberg 2003 ISBN 3 89864 213 5 Grossman D A Frieder O Information Retrieval Springer Niederlande 2 Auflage 2004 ISBN 1 4020 3004 5 Kowalski Gerald Maybury M T Information Storage and Retrieval Systems Kluwer Boston 2000 Panyr Jiri Automatische Klassifikation und Information Retrieval Tubingen 1986 Panyr Jiri Vektorraum Modell und Clusteranalyse in Information Retrieval Systemen In Nachrichten fur Dokumentation 38 S 13 20 1987 Salton Gerard McGill M J Information Retrieval MacGraw Hill 1987 Siehe auch BearbeitenZipfsches Gesetz Suchmaschine Stemming Latent Semantic Indexing Tf idf MassEinzelnachweise Bearbeiten The European Technology Platform on Smart Systems Integration EPoSS Software Framework for Topic Modelling with Large Corpora In gensim Abgerufen am 3 Februar 2019 englisch A Beginner s Guide to Word2Vec and Neural Word Embeddings skymind ai abgerufen am 3 Februar 2019 englisch Abgerufen von https de wikipedia org w index php title Vektorraum Retrieval amp oldid 201435551