www.wikidata.de-de.nina.az
Dokumentenretrieval engl Document Retrieval bezeichnet den computergestutzten Prozess der Ruckgewinnung von Dokumenten engl to retrieve zuruckgewinnen wiederauffinden die fur einen Anwender entsprechend seinem Informationsbedurfnis relevant sein konnten Sein Informationsbedurfnis druckt der Anwender in Form einer Suchanfrage aus Haufig wird Document Retrieval auch als Information Retrieval bezeichnet in den meisten Fallen werden die Begriffe synonym verwendet In Dokumenten liegt das unternehmerische Gedachtnis verborgen Schlechter Zugang zum Inhalt dieser Dokumente bedeutet schlechten Zugang zu dem Wissen das eine Organisation im Laufe der Zeit produziert hat oder besitzt Somit kommt dem Document Retrieval eine enorme Bedeutung zu da nicht mehr zugangliche Informationen erneut erarbeitet werden mussen Inhaltsverzeichnis 1 Geschichte 2 Definition 2 1 Weitere Definitionen 2 2 Abgrenzung zum Data Retrieval 3 Aufbau eines Document Retrieval Systems 3 1 Indexierung 3 2 Retrieval 4 Theoretische Document Retrieval Modelle 5 Einzelnachweise 6 WeblinksGeschichte BearbeitenSchon vor dem Mittelalter organisierte die Menschheit Informationen derart dass sie zu einem spateren Zeitpunkt wiedergefunden und verwendet werden konnten Das einfachste Beispiel ist das Inhaltsverzeichnis eines Buches Es besteht aus Mengen von Worten oder Begriffen mit denen die Seiten verbunden sind auf denen Informationen zu diesen Begriffen gefunden werden konnen Ein solcher Index ist Teil eines jeden Informationssystems 1 1945 beschrieb Vannevar Bush in seinem Artikel As We May Think die Vision von einem System das er Memex nannte eine Art Erweiterung des Gehirns Darin soll ein Individuum samtliche Informationen und Aufzeichnungen speichern und diese schnell und flexibel wieder abrufen konnen 2 Seit den 1940er Jahren wurde dem Problem Informationen zu speichern und effizient wieder aufzufinden zunehmend Aufmerksamkeit gewidmet Ursache hierfur war dass ein schneller Zuwachs an Informationen stattfand zu welchen schneller Zugriff gewunscht wurde Der notige Platz um diese Informationen in Papierform und in Ordnern beziehungsweise Buros zu halten reichte bald nicht mehr aus Es begann die Digitalisierung von Daten wodurch die Probleme der effizienten Speicherung und Wiederauffindung in den Mittelpunkt ruckten Durch die Erfindung der CD eroffnete sich eine neue Moglichkeit Daten kompakt zu speichern und diese zusatzlich einfach verteilen zu konnen An Methoden zur Ruckgewinnung wurde geforscht aber Tests in Dimensionen mit kommerzieller Anwendbarkeit fanden nur wenige statt Mit der Veroffentlichung des Internets war schliesslich fur jeden Nutzer die Moglichkeit geschaffen Informationen im Netz zu veroffentlichen Moderne Suchmaschinen versuchen dieser neuerlichen Flut an Informationen Herr zu werden Die Forschung sieht sich dabei schon seit der ersten Generation von Document Retrieval Systemen mit der zentralen Fragestellung konfrontiert welche die relevanten Informationen sind Ein Verstandnis fur diese Problematik sowie die notwendigen Werkzeuge um Document Retrieval Systeme fur derartige Mengen an Informationen entwerfen und betreiben zu konnen sind aber selbst zu Beginn des 21 Jahrhunderts noch nicht in vollem Masse vorhanden Wiederholte Vorfalle in Unternehmen die aufgrund von mangelnder Dokumentkontrolle grosse Summen Geld verloren haben bestatigen dies 3 4 5 Erste kommerzielle Document Retrieval Systeme waren DIALOG wurde von Lockheed entworfen und ermoglichte den Zugang zu veroffentlichten Forschungsartikeln LexisNexis stellte Fachdatenbanken bereit STAIRS wurde von IBM entwickelt und war fur die Freitextrecherche gedacht FAIRS wurde von Fujitsu Japan entwickelt und ahnelt STAIRS GOLEM ist ein interaktives Datenbanksystem der Firma Siemens GRIPS wurde vom Deutschen Institut fur Medizinische Dokumentation und Information DIMDI entwickelt Definition BearbeitenUnter einem Document Retrieval System DRS wird die Gesamtheit der methodologischen Grundlagen technischen Verfahren und Einrichtungen verstanden die das weitgehend computergestutzte Bereitstellen von Informationen ermoglichen Diese Informationen konnen aus Ton Bild Video und Text bestehen Wesentlich ist dabei das Zusammenspiel der Komponenten der Informationserschliessung Indexierung und der Informationswiedergewinnung Retrieval Die Darstellung der inhaltlichen Charakteristika eines Dokuments in einer fur Document Retrieval verwendbaren Form wird als inhaltliche Dokumentbeschreibung bezeichnet Die Gewinnung solch inhaltlicher Charakteristika wird Indexierung genannt Nach DIN 31623 werden unter Indexierung alle Methoden sowie deren Anwendungen verstanden die zur Zuordnung von Deskriptoren und Termen zu Dokumenten zwecks ihrer inhaltlichen Erschliessung und gezielten Wiederauffindung fuhren Der Wiederauffindungsvorgang wird allgemein als Recherche bezeichnet Das Ergebnis der Recherche also die Menge der vom Document Retrieval System ausgegebenen Dokumente wird Systemvorschlag genannt Als Parameter fur die Gute des Document Retrievals werden meist die Masse Recall und Precision verwendet Unter Recall Vollstandigkeit der Suche versteht man das Verhaltnis der Anzahl der relevanten Dokumente im Systemvorschlag zu der Anzahl aller hinsichtlich der Suchanfrage relevanten Dokumente Die Precision Genauigkeit der Suche wird durch den Anteil der relevanten Dokumente an allen Dokumenten im Systemvorschlag ausgedruckt Da diese Werte alleine wenig aussagen werden sie oft in sogenannten Recall Precision Graphen zusammengefasst Die Relevanz gilt als Schlusselbegriff der Theorie der IR Systeme 6 Nach Saracevic 7 ist Relevanz ein Mass fur die Ubereinstimmung zwischen Dokument und Suchanfrage aus der Sicht eines neutralen Schiedsrichters Die Relevanzvorstellungen des Benutzers auch als Pertinenz bezeichnet und die des Systems stimmen nur selten uberein Hier wird ein zentrales Problem des Document Retrieval deutlich Es ist vor einer Suchanfrage speziell zum Zeitpunkt der Indexierung nicht moglich zu bestimmen welche Informationen fur zukunftige Benutzer relevant sein werden 4 Weitere Definitionen Bearbeiten Ein DRS informiert den Benutzer nicht uber das Thema seiner Suchanfrage Es liefert lediglich Informationen uber die Existenz oder Nichtexistenz und den Fundort von Dokumenten die fur seine Suchanfrage relevant sein konnten 8 Ein DRS umfasst die Hard und Software die den Anwender dabei unterstutzt von ihm gesuchte Informationen zur Verfugung zu stellen Hauptziel eines DRS ist den Aufwand des Benutzers die gesuchten Informationen zu finden zu minimieren 9 Document Retrieval bezeichnet den computergestutzten Prozess der Ruckgewinnung von Dokumenten Ein Benutzer stellt eine Anfrage in Form eines Queries und erhalt eine nach Relevanz sortierte Liste von Dokumenten Diese Dokumente konnten die Informationen enthalten die er sucht oder auch nicht Die Sortierung des Systemvorschlags muss nicht den Relevanzvorstellungen des Benutzers entsprechen 3 Abgrenzung zum Data Retrieval Bearbeiten Folgende Tabelle zeigt die Gegenuberstellung einiger Unterschiede von Document und dem klassischen Data Retrieval 8 10 Fur eine ausfuhrliche Diskussion der Unterschiede und Gemeinsamkeiten sei der interessierte Leser auf 10 11 verwiesen Data Retrieval Document RetrievalSuche exakt unvollstandig so gut wie moglich Query Sprache kunstlich naturlichQuery Spezifikation vollstandig unvollstandigModell deterministisch probabilistischErfolgskriterium Korrektheit Nutzen des AnwendersIn Data Retrieval wird normalerweise nach einem exakt spezifizierten Objekt zum Beispiel Bob s Adresse gesucht Das Ergebnis der Suche ist entweder das gesuchte Objekt Bob s Adresse oder dieses ist im durchsuchten Datenbestand nicht vorhanden Ein entsprechendes Query fur eine solche Suchanfrage in SQL konnte so aussehen SELECT Adresse FROM Angestellte WHERE NAME Bob Diese Suchanfrage ist in einer kunstlichen Sprache vollstandig spezifiziert Sie wird entweder mit Bob s Adresse oder mit einer Meldung dass Bob s Adresse nicht im Datenbestand existiert beantwortet werden Das Ergebnis der Suche ist dabei nur genau dann korrekt wenn Bob s richtige Adresse zuruckgegeben wurde Der Ausgang der Suche ist deterministisch entweder die korrekten Daten sind vorhanden oder nicht In Document Retrieval wird nicht nach Bob s Adresse gesucht sondern beispielsweise nach Informationen uber die Umgebung in der Bob wohnt Zunachst ist nicht klar wie ein Query aussehen sollte das dem Nutzer diese Informationen liefert Fur ein mogliches Query Bob Adresse Umgebung liefert das DRS Vorschlage die der Anwender dann nach fur ihn nutzlichen Informationen durchsuchen kann Das Informationsbedurfnis des Anwenders ist hier in naturlicher Sprache ausgedruckt aber nicht vollstandig spezifiziert Fur eine vollstandige Spezifikation musste der Anwender wissen wonach er gerade sucht Ausserdem ist nicht klar welche Vorschlage vom DRS gemacht werden und ob es die gewunschten Informationen liefern kann und wird Hier liegt also ein probabilistisches Modell 12 13 zugrunde Aufgrund dieser Unsicherheiten kann ein Suchergebnis nicht als korrekt oder falsch bezeichnet werden Die dem Anwender prasentierten Dokumente konnen fur ihn nutzlich oder nutzlos sein Dementsprechend ist hier das Erfolgskriterium einer Suche der Nutzen des Anwenders 14 Aufbau eines Document Retrieval Systems Bearbeiten nbsp Stark vereinfachte Darstellung eines Document Retrieval Systems Indexierung Bearbeiten Gegenstand der Indexierung ist Dokumenten eine Menge von Indextermen oder Schlusselwortern zuzuweisen Dabei sollen die Indexterme 4 den Inhalt des Dokuments moglichst vollstandig reflektieren das Dokument so beschreiben dass es sich moglichst stark von inhaltlich ahnlichen Dokumenten unterscheidet Diese Schlusselworter konnen entweder automatisch oder manuell von einem Indexierer erzeugt werden Sie bieten eine logische Sicht auf ein Dokument Die beste Moglichkeit ein Dokument darzustellen ist mit seinem vollstandigen Inhalt Dies fuhrt aber zu hohem Speicherplatzbedarf des Indexes Er ware dann genauso gross wie die Dokumente die er indexiert Daher muss eine Dokument Reprasentation gefunden werden die die beiden oben aufgefuhrten Anforderungen moglichst vollstandig erfullt Dieser Prozess besteht in der Regel aus folgenden Schritten 8 Zunachst werden Sonderzeichen nach vorgegebenen Regeln und haufig vorkommende Worter wie z B Artikel und Verbindungsworter mithilfe einer stop list entfernt Eine stop list enthalt alle Worter die fur eine inhaltliche Beschreibung des Dokuments irrelevant sind und aus dem Text entfernt werden Diese werden dann bei Suchanfragen nicht mit einbezogen und vereinfachen somit den Suchprozess Zusatzlich wird durch diesen Schritt die Grosse des ursprunglichen Dokuments um 30 50 reduziert 8 Anschliessend werden alle Worter auf ihren Wortstamm reduziert indem ihre Suffixe entfernt werden sog Stemming Somit werden alle Worte die semantisch aquivalent sind auf den gleichen Wortstamm abgebildet z B werden die Begriffe Fahrer fahren und Fahrschule abgebildet auf fahr Die Annahme des Stemming ist dass Worter mit demselben Wortstamm zur gleichen Wortfamilie gehoren und daher auch als gleich behandelt werden konnen Diese Vereinfachung kann aber auch zu Fehlern fuhren da durchaus Worte mit gleichem Wortstamm aber unterschiedlicher Bedeutung existieren wie beispielsweise Neutron und neutralisieren Ausserdem konnen aquivalente Worter in unterschiedlichen Zusammenhangen verschiedene Bedeutungen haben Das Ergebnis dieses Verarbeitungsschrittes ist eine Klasse fur jeden Wortstamm Kommt ein Wort einer Klasse in einem Dokument vor so wird dem Dokument diese Klasse als Schlusselwort zugewiesen 8 3 Zum Schluss werden alle Indexterme entsprechend dem im DRS implementierten Modell gewichtet Dann wird ein Index erstellt der eine schnelle Suche in der Menge der Indexterme ermoglicht indem diese mit den Dokumenten verknupft werden in denen sie enthalten sind Bei Bedarf konnen weitere wichtige Informationen wie die Position des Terms im Dokument oder der Autor gespeichert werden Eine haufig anzutreffende Indexstruktur ist die inverted file Weitere Datenstrukturen und deren Beschreibungen wie sequential files index sequential files und multi lists konnen in Kapitel 4 in 8 gefunden werden 3 Es kann zusatzlich Clustering eingesetzt werden wobei ahnliche Dokumente 15 16 17 18 19 einem Cluster zugewiesen werden Die Suche in einem solch vorklassifizierten Informationsbestand wird Clustersuche genannt und lauft in zwei Schritten ab Zunachst werden nur Cluster mit hoher Relevanz gesucht Anschliessend werden die Dokumente in diesen Clustern inspiziert und die relevantesten herausgesucht Durch Clustering soll die Effizienz von Document Retrieval Systemen durch Reduktion der notigen Dokumentvergleiche gesteigert werden Es ist offensichtlich dass sich dadurch aber die Effektivitat senken kann 4 8 Retrieval Bearbeiten Der Prozess des Lokalisierens der Informationen die ein Benutzer erhalten mochte besteht aus mehreren Schritten Zunachst muss er sein Informationsbedurfnis in eine fur die Suchmaschine verstandliche Form ein sogenanntes Query umwandeln Dieses Query wird schliesslich in eine Query Reprasentation uberfuhrt Die meisten Prozesse die die Dokumente wahrend der Indexierung durchlaufen durchlauft auch ein Query Alle nachfolgend beschriebenen Vorgange laufen ab wahrend der Nutzer auf die Antwort seiner Suchanfrage wartet Zunachst werden fur die Suche irrelevante Begriffe und Zeichen wie z B Ich suche nach Informationen uber entfernt Dann werden mithilfe der stop list ebenfalls irrelevante Begriffe entfernt und Stemming durchgefuhrt Schliesslich wird die Query Reprasentation erzeugt wobei auch fur den Suchalgorithmus notwendige logische Operatoren eingefugt werden konnen Es ist auch moglich die Terme des Queries zu expandieren und so verwandte Terme die mit dem gesuchten Begriff in Verbindung stehen in die Suche mit einzuschliessen Diese verwandten Terme konnen synonyme Begriffe sein die in elektronischen Thesauri gefunden werden oder aber mit dem Query Term aufgrund semantischer Eigenschaften z B bestimmte Wortreihenfolge in besonderer Verbindung stehen Dieser Bearbeitungsschritt befreit den Anwender von der Notwendigkeit alle Varianten seines Queries auszuprobieren um moglichst viele fur ihn relevante im Suchergebnis zu erhalten Somit wird moglicherweise der Recall erhoht aber die Prazision wird sinken wenn expandierte Terme zur Ruckgewinnung irrelevanter Dokumente fuhren 3 Schliesslich erfolgt die eigentliche Suche Die verwendeten Suchalgorithmen sind durch das implementierte Modell des DRS vorgegeben Der Index wird nach Dokumenten durchsucht die Terme des Queries enthalten Fur jedes Dokument wird der sogenannte similarity score mit dem Query berechnet Die Berechnung erfolgt mit einem Algorithmus der ebenfalls vom implementierten Modell des DRS vorgegeben ist Anschliessend erfolgt die Sortierung oder das Ranking der Dokumente entsprechend ihrer similarity scores Die sortierte Liste wird dem Nutzer eventuell mit einer kurzen Beschreibung jedes Dokumentes zur Verfugung gestellt Er kann die Liste oder auch den Inhalt der Dokumente genauer betrachten Manche Systeme bieten auch die Moglichkeit des anwenderbasierten Relevanz Feedbacks sodass der Nutzer fur ihn relevante Dokumente markieren kann Das System initiiert daraufhin einen neuen Suchvorgang basierend auf diesen Bewertungen und liefert eine uberarbeitete Liste von Dokumenten die hoffentlich mehr fur den Nutzer relevante Dokumente enthalt Der Prozess des Relevanz Feedbacks kann beliebig oft durchgefuhrt werden 3 Theoretische Document Retrieval Modelle BearbeitenFolgende theoretischen Modelle werden in Document Retrieval Systemen implementiert Die Wahl des Modells hat Auswirkungen auf die Suchalgorithmen und die Berechnungen der Rankings und Scores In Kapitel 2 1 werden diese ausfuhrlich beschrieben Klassische Modelle Boolesches Modell Vektorraum Modell probabilistisches ModellModerne wahrscheinlichkeitstheoretische Modelle Bayessche NetzeAlternative Paradigmen erweitertes boolesches Modell verallgemeinertes Vektorraum Modell Semantische Indexierung Neuronale Netze Fuzzy RetrievalEinzelnachweise Bearbeiten a b Ricardo Baeza Yates Berthier de Araujo Neto Ribeiro Berthier Ribeiro Neto Modern information retrieval ACM Press 1999 ISBN 0 201 39829 X V Bush As We May Think In Atlantic Monthly Volume 176 1 Pages 101 108 1945 doi 10 1 1 128 2127 a b c d e f Elizabeth D Liddy Automatic Document Retrieval In Encyclopedia of Language amp Linguistics 2 Edition Elsevier Limited 2005 CNLP Memento vom 23 August 2012 im Internet Archive DOI nicht verfugbar a b c d versch Autoren Handbuch der modernen Datenverarbeitung Forkel Verlag Heft 133 Januar 1987 ISSN 0723 5208 D C Blair The challenge of commercial document retrieval Part I Major issues and a framework based on search exhaustivity determinacy of representation and document collection size In Information Processing and Management an International Journal archive Volume 38 Issue 2 Pages 273 291 Pergamon Press Inc Tarrytown New York March 2002 doi 10 1016 S0306 4573 01 00024 3 J Panyr Relevanzproblematik in Information Retrieval Systemen In Nachr f Dokumente S 2 4 1986 T Saracevic RELEVANCE A Review if a Framework for the Thinking on the Notion in Information Science In Journal of the ASIS Pages 321 343 1975 a b c d e f g C J van Rijsbergen Information Retrieval Butterworth Heinemann 1979 ISBN 0 408 70929 4 Gerald Kowalski Information Retrieval Architecture and Algorithms Springer 2011 ISBN 978 1 4419 7715 1 a b D C Blair The data document distinction in information retrieval In Communications of the ACM Volume 27 Issue 4 Pages 369 374 New York April 1984 doi 10 1145 358027 358049 D C Blair The data document distinction revisited In ACM SIGMIS Database Volume 37 Issue 1 Pages 77 96 New York Winter 2006 doi 10 1145 1120501 1120507 W S Cooper M E Maron Foundations of Probabilistic and Utility Theoretic Indexing In Journal of the ACM Volume 25 Pages 67 80 1978 doi 10 1145 322047 322053 S E Robertson M E Maron W S Cooper Probability of relevance a Unification of Two Competing Models for Document Retrieval In Information Technology Research and Development Volume 1 Pages 1 21 1982 W S Cooper On Selecting a Measure of Retrieval Effectiveness Part I The Subjective Philosophy of Evaluation In Journal of the American Society for Information Science Volume 24 Pages 87 100 1973 doi 10 1002 asi 4630240204 G Salton Automatic Information Organization and Retrieval McGraw Hill New York 1968 ISBN 0070544859 L Goodman W Kruskal Measures of association for cross classifications In Journal of the American Statistical Ass Volume 49 Pages 732 764 1954 doi 10 2307 2281536 L Goodman W Kruskal Measures of association for cross classifications II Further discussions and references In Journal of the American Statistical Ass Volume 54 Pages 123 164 1959 doi 10 1080 01621459 1959 10501503 J L Kuhns The continuum of coefficients of association In Statistical Association Methods for Mechanised Documentation Pages 33 39 Washington 1965 doi nicht verfugbar R M Cormack A review of classification In Journal of the Royal Statistical Society Series A volume 134 Pages 321 353 1971 doi 10 2307 2344237 Weblinks BearbeitenDatenstrukturen und Algorithmen des Information Retrieval Abgerufen von https de wikipedia org w index php title Dokumentenretrieval amp oldid 238919592