www.wikidata.de-de.nina.az
Information Retrieval ˌɪnfɚˈmeɪʃen ɹɪˈtɹiːvel IR betrifft das Wiederauffinden von Information meist durch Abruf aus Datenbanken Das Fachgebiet beschaftigt sich mit computergestutztem Suchen nach komplexen Inhalten also nicht z B nach Einzelwortern und fallt in die Bereiche Informationswissenschaft Informatik und Computerlinguistik 1 Komplexe Texte oder Bilddaten die in grossen Datenbanken gespeichert werden sind fur Aussenstehende zunachst nicht zuganglich oder abrufbar Das Wort retrieval bedeutet auf Deutsch Abruf bzw Wiederauffinden Beim IR geht es also darum bestehende Informationen wieder aufzufinden Etwas anderes ware das Entdecken neuer Strukturen Das gehort zur Knowledge Discovery in Databases mit Data Mining und Text Mining Eng verwandt ist Document Retrieval das hauptsachlich auf Text Dokumente als zu ermittelnde Information abzielt Inhaltsverzeichnis 1 Anwendungsbereich 2 Geschichte 2 1 Deutschland 2 2 Fruhe kommerzielle Informationsdienste 2 3 Suchwerkzeuge im World Wide Web 3 Grundbegriffe 3 1 Informationsbedarf 3 2 Informationsbedurfnis 3 3 Information Indexing und Information Retrieval 3 4 Dokumentarische Bezugseinheit und Dokumentationseinheit 3 5 Kognitive Modelle 3 6 Pull und Pushdienste 3 7 Informationsbarrieren 3 8 Recall und Precision 4 Relevanz und Pertinenz 4 1 Nutzlichkeit 4 2 Aspekte der Relevanz 4 3 Binarer Ansatz 4 4 Relevanzverteilungen 4 4 1 Binare Verteilung 4 4 2 Invers logistische Verteilung 4 4 3 Informetrische Verteilung 5 Dokumente 5 1 Textuelle und nicht textuelle Objekte 5 2 Formal publizierte Textdokumente 5 3 Informell publizierte Texte 5 4 Nicht publizierte Texte 5 5 Nicht textuelle Dokumente 6 Typologie von Retrievalsystemen 6 1 Struktur von Texten 6 2 Retrievalsysteme und terminologische Kontrolle 6 3 Informationslinguistische Textbearbeitung 7 Retrievalmodelle 7 1 Boolesches Modell 7 2 Textstatistik 7 3 Linktopologische Modelle 7 4 Clustermodell 7 5 Nutzer Nutzungsmodell 7 6 Oberflachenweb und Deep Web 8 Architektur eines Retrievalsystems 8 1 Zeichensatze 8 2 Aufnahme neuer Dokumente in die Datenbasis 8 3 Crawler 8 3 1 Best First Crawler 8 3 2 Crawling im Deep Web 8 3 3 FIFO first in first out Crawler 8 3 4 Thematische Crawler 8 4 Speichern und Indexieren 9 Klassifikation von Retrievalmodellen 10 Literatur 11 Weblinks 12 EinzelnachweiseAnwendungsbereich BearbeitenIR Methoden werden beispielsweise in Internet Suchmaschinen wie Google verwendet Man nutzt sie auch in digitalen Bibliotheken z B zur Literatursuche sowie bei Bildsuchmaschinen Auch Antwortsysteme oder Spamfilter verwenden IR Techniken Es ist schwierig sich komplexe Information zu erschliessen Unsicherheit In einer Datenbank mag es sein dass keine Angaben uber den Inhalt der enthaltenen Dokumente gespeichert Texte Bilder Filme Musik etc worden sind Befragt man das System erhalt man mangelhafte fehlerhafte oder gar keine Antworten Bei Texten mangelt es z B an Beschreibungen von Homographen Worter die gleich geschrieben werden z B Bank Geldinstitut Sitzgelegenheit und Synonymen Bank und Geldinstitut Vagheit Der Benutzer kann die Art der Informationen die er sucht nicht in prazise und zielfuhrende Suchbegriffe fassen wie z B in SQL in relationalen Datenbanken Seine Suchanfrage enthalt daher zu vage Bedingungen nbsp Schematisches Modell des Information Retrieval Quelle Dominik Kuropka Generell sind am IR zwei sich unter Umstanden uberschneidende Personenkreise beteiligt vgl Abbildung rechts Der erste Personenkreis sind die Autoren der in einem IR System gespeicherten Informationen die sie entweder selbst einspeichern oder aus anderen Informationssystemen auslesen lassen wie es z B die Internet Suchmaschinen praktizieren Die in das System eingestellten Dokumente werden vom IR System gemass dem System internen Modell der Reprasentation von Dokumenten in eine fur die Verarbeitung gunstige Form Dokumentenreprasentation umgewandelt Die zweite Benutzergruppe die Anwender haben bestimmte zum Zeitpunkt der Arbeit am IR System akute Ziele oder Aufgaben fur deren Losung ihnen Informationen fehlen Diese Informationsbedurfnisse mochten Anwender mit Hilfe des Systems decken Dafur mussen sie ihre Informationsbedurfnisse in einer adaquaten Form als Anfragen formulieren Die Form in der die Informationsbedurfnisse formuliert werden mussen hangt dabei von dem verwendeten Modell der Reprasentation von Dokumenten ab Wie der Vorgang der Modellierung der Informationsbedurfnisse als Interaktion mit dem System ablauft z B als einfache Eingabe von Suchbegriffen wird vom Modell der Interaktion festgelegt Sind die Anfragen formuliert dann ist es die Aufgabe des IR Systems die Anfragen mit den im System eingestellten Dokumenten unter Verwendung der Dokumentenreprasentationen zu vergleichen und eine Liste der zu den Anfragen passenden Dokumente an die Benutzer zuruckzugeben Der Benutzer steht nun vor der Aufgabe die gefundenen Dokumente gemass seiner Aufgabe auf die Losungsrelevanz hin zu bewerten Das Resultat sind die Bewertungen zu den Dokumenten Anschliessend haben die Benutzer drei Moglichkeiten Sie konnen meist nur in einem engen Rahmen Modifikationen an den Reprasentationen der Dokumente vornehmen z B indem sie neue Schlusselworter fur die Indexierung eines Dokuments definieren Sie verfeinern ihre formulierten Anfragen zumeist um das Suchergebnis weiter einzuschranken Sie andern ihre Informationsbedurfnisse weil sie nach dem Durchfuhren der Recherche feststellen dass sie zur Losung ihrer Aufgaben weitere zuvor nicht als relevant eingestufte Informationen benotigen Der genaue Ablauf der drei Modifikationsformen wird vom Modell der Interaktion bestimmt Zum Beispiel gibt es Systeme die den Benutzer bei der Reformulierung der Anfrage unterstutzen indem sie die Anfrage unter Verwendung expliziter d h dem System vom Benutzer in irgendeiner Form mitgeteilter Dokumentenbewertungen automatisiert reformulieren Geschichte BearbeitenDer Begriff Information Retrieval wurde erstmals 1950 von Calvin N Mooers verwendet Vannevar Bush beschrieb 1945 in dem Essay As We May Think im Atlantic Monthly wie man die Nutzung des vorhandenen Wissens durch den Einsatz von Wissensspeichern revolutionieren konne Seine Vision hiess Memex Dieses System sollte alle Arten von Wissenstragern speichern und mittels Links die gezielte Suche und das Stobern nach Dokumenten ermoglichen Bush dachte bereits an den Einsatz von Suchmaschinen und Retrievalwerkzeugen Einen entscheidenden Schub erhielt die Informationswissenschaft durch die Sputnikschocks Der russische Satellit hielt den Amerikanern zum einen ihre eigene Ruckstandigkeit in der Weltraumforschung vor Augen welche durch das Apollo Programm erfolgreich beseitigt wurde Zum anderen und das war der entscheidende Punkt fur die Informationswissenschaft dauerte es ein halbes Jahr den Signalcode des Sputnik zu knacken Und das obwohl der Entschlusselungscode in einer russischen Zeitschrift langst zu lesen war welche bereits in den amerikanischen Bibliotheken stand Mehr Information fuhrt also nicht zu mehr Informiertheit Im Gegenteil Der sogenannte Weinberg Report ist ein vom Prasidenten in Auftrag gegebenes Gutachten zu diesem Problem Der Weinberg Report berichtet von einer Informationsexplosion und erklart dass Experten benotigt werden die diese Informationsexplosion bewaltigen Also Informations Wissenschaftler Hans Peter Luhn arbeitete in den 1950er Jahren an textstatistischen Verfahren die eine Basis fur das automatische Zusammenfassen und Indexieren darstellen Sein Ziel war es individuelle Informationsprofile anzulegen und Suchterme hervorzuheben Die Idee des Pushdienstes war geboren Eugene Garfield arbeitete in den 1950ern an Zitierindices um so die verschiedenen Wege von Informationsubermittlung in Zeitschriften widerzuspiegeln Dazu kopierte er Inhaltsverzeichnisse 1960 grundete er das Institute for Scientific Information ISI eines der ersten kommerziellen Retrieval Systeme 2 Deutschland Bearbeiten In Deutschland entwickelte Siemens zwei Systeme GOLEM Grossspeicherorientierte listenorganisierte Ermittlungsmethode und PASSAT Programm zur automatischen Selektion von Stichwortern aus Texten PASSAT arbeitet unter Ausschluss von Stoppwortern bildet Wortstamme mithilfe eines Worterbuches und gewichtet die Suchterme Seit den 1960er Jahren gilt die Informationswissenschaft als etabliert Fruhe kommerzielle Informationsdienste Bearbeiten DIALOG ist ein von Roger K Summit entwickeltes interaktives System zwischen Mensch und Maschine Es ist wirtschaftlich orientiert und geht 1972 uber die Regierungsdatenbanken ERIC und NTIS online Das Projekt ORIBIT heute Questel Orbit wurde durch Forschung und Entwicklung vorangetrieben unter der Leitung von Carlos A Cuadra 1962 geht das Retrievalsystem CIRC online und verschiedene Testlaufe finden unter dem Codenamen COLEX statt COLEX ist der direkte Vorlaufer von Orbit welches 1967 mit dem Schwerpunkt auf Forschungen der US Air Force online geht Spater verlagert sich der Schwerpunkt auf Medizininformationen Das Suchsystem MEDLINE geht 1974 fur die bibliographische Medizindatenbank MEDLARS online OBAR ist ein von der Rechtsanwaltskammer in Ohio 1965 initiiertes Projekt Es endet im System LexisNexis und erfasst schwerpunktmassig Rechtsinformationen Das System basiert auf der Volltextsuche welche optimal fur die Ohio Urteile funktioniert Suchwerkzeuge im World Wide Web Bearbeiten Mit dem Internet wird Information Retrieval zum Massenphanomen Ein Vorlaufer war das ab 1991 verbreitete System WAIS das verteiltes Retrieval im Internet ermoglichte Die fruhen Web Browser NCSA Mosaic und Netscape Navigator unterstutzen das WAIS Protokoll bevor die Internet Suchmaschinen aufkamen und spater dazu ubergingen auch Nicht HTML Dokumente zu indexieren Zu den bekanntesten und popularsten Suchmaschinen gehoren derzeit Google Bing Yandex Russland und Baidu China Verbreitete Suchmaschinen fur Intranets sind Autonomy Convera FAST Verity sowie die Open Source Software Apache Lucene Grundbegriffe BearbeitenInformationsbedarf Bearbeiten Der Informationsbedarf ist der Bedarf an handlungsrelevantem Wissen und kann dabei konkret und problemorientiert sein Beim konkreten Informationsbedarf wird eine Fakteninformation benotigt Also beispielsweise Was ist die Hauptstadt von Frankreich Die Antwort Paris deckt den Informationsbedarf vollstandig Anders ist es beim problemorientierten Informationsbedarf Hier werden mehrere Dokumente benotigt um den Bedarf zu stillen Zudem wird der problemorientierte Informationsbedarf nie ganz gedeckt werden konnen Gegebenenfalls ergibt sich aus der erhaltenen Information sogar ein neuer Bedarf oder die Modifikation des ursprunglichen Bedarfs Beim Informationsbedarf wird vom Nutzer abstrahiert Das heisst es wird der objektive Sachverhalt betrachtet Informationsbedurfnis Bearbeiten Das Informationsbedurfnis spiegelt den konkreten Bedarf beim anfragenden Nutzer wider Es geht um das subjektive Bedurfnis des Nutzers Information Indexing und Information Retrieval Bearbeiten Um eine Suchanfrage so prazise wie moglich formulieren zu konnen musste man eigentlich wissen was man nicht weiss Es muss also ein Basiswissen vorhanden sein um eine adaquate Suchanfrage zu verfassen Zudem muss die naturlichsprachige Suchanfrage in eine Variante umgewandelt werden die vom Retrievalsystem gelesen werden kann Hier einige Beispiele fur Suchanfrageformulierungen in verschiedenen Datenbanken Gesucht werden Informationen uber den Schauspieler Johnny Depp im Kinofilm Chocolat LexisNexis HEADLINE Johnny Depp w 5 Chocolat DIALOG Johnny ADJ Depp AND Chocolat tiGoogle Chocolat Johnny Depp Der Nutzer gibt dabei vor wie der Retrievalprozess ablauft und zwar dies durch die Art und Weise seiner Suchanfrageformulierung im jeweils verwendeten System Zu unterscheiden sind wort und begrifforientierte Systeme Begrifforientierte Systeme konnen die Mehrdeutigkeiten von Wortern erkennen z B Java die Insel Java der Kaffee oder Java die Programmiersprache Uber die Suchanfrage wird die Dokumentationseinheit DE angesprochen Die DE stellt den informationellen Mehrwert der Dokumente dar Das bedeutet in der DE wird Information zu Autor Jahrgang etc verdichtet wiedergegeben Je nach Datenbank werden entweder das komplette Dokument oder nur Teile davon erfasst Dokumentarische Bezugseinheit und Dokumentationseinheit Bearbeiten Weder die Dokumentarische Bezugseinheit DBE noch die Dokumentationseinheit DE sind das Originaldokument Beide sind nur Stellvertreter desselben in der Datenbank Zuerst wird die Dokumentationswurdigkeit eines Dokumentes gepruft Das findet uber formale und inhaltliche Kriterienkataloge statt Ist ein Objekt fur dokumentenwurdig befunden wird eine DBE erstellt Hier entscheidet sich in welcher Form das Dokument abgespeichert wird Werden einzelne Kapitel oder Seiten als DBE genommen oder das Dokument im Ganzen Es schliesst sich der informationspraktische Prozess an Die DBE werden formal beschrieben und der Inhalt verdichtet Dieser informationelle Mehrwert findet sich dann in der DE wieder die als Stellvertreter fur die DBE dient Die DE reprasentiert die DBE und steht somit am Ende des Dokumentationsprozesses Die DE dient dem Nutzer dazu eine Entscheidung daruber zu treffen ob er die DBE gebrauchen kann und anfordert oder eben nicht Information Retrieval und Information Indexing sind aufeinander abgestimmt Kognitive Modelle Bearbeiten Diese sind Teil der empirischen Informationswissenschaft da sie sich auf die Vorkenntnisse den sozio okonomischen Hintergrund die Sprachkenntnisse usw der Nutzer beziehen und daruber Informationsbedarfs Nutzungs und Nutzeranalysen anstellen Pull und Pushdienste Bearbeiten Das Suchen nach Informationen beschreibt Marcia J Bates als Berrypicking dt Beeren pflucken Es reicht nicht aus nur an einem Strauch respektive einer Datenbank nach Beeren bzw Informationen zu suchen damit der Korb voll wird Es mussen mehrere Datenbanken angefragt und die Suchanfrage aufgrund neuer Informationen standig modifiziert werden Pulldienste werden uberall da zur Verfugung gestellt wo der Nutzer aktiv nach Informationen suchen kann Pushdienste versorgen den Nutzer aufgrund eines abgespeicherten Informationsprofils mit Informationen Diese Profildienste sogenannte Alerts speichern erfolgreich formulierte Suchanfragen ab und informieren den Nutzer uber das Eintreffen neuer relevanter Dokumente Informationsbarrieren Bearbeiten Den Informationsfluss behindern verschiedene Faktoren Solche Faktoren sind beispielsweise Zeit Ort Sprache Gesetze und die Finanzierung Recall und Precision Bearbeiten Hauptartikel Beurteilung eines Klassifikators Der Recall bezeichnet die Vollstandigkeit der angezeigten Treffermenge Die Precision dagegen berechnet die Genauigkeit der Dokumente aus der Treffermenge zu einer Suchanfrage Precision bezeichnet den Anteil aller relevanten Dokumente an den selektierten Dokumenten einer Suchanfrage und ist damit das Mass der in der Trefferliste enthaltenen bezuglich der Aufgabenstellung bedeutungsvollen Dokumente Recall hingegen beschreibt den Anteil aller relevanten Dokumente an der Gesamtzahl relevanter Dokumente der Dokumentensammlung Dabei handelt es sich um das Mass fur die Vollstandigkeit einer Trefferliste Beide Masse bilden entscheidende Kennzahlen fur ein Information Retrieval System Ein ideales System wurde in einer Suchanfrage alle relevanten Dokumente einer Dokumentensammlung unter Ausschluss nicht zutreffender Dokumente selektieren Recall a a c displaystyle a a c nbsp Precision a a b displaystyle a a b nbsp a gefundene relevante Trefferb gefundene nichtrelevante DE Ballastc relevante DE die nicht gefunden wurden Verlust c ist nicht direkt messbar da man ja nicht wissen kann wie viele DE nicht gefunden wurden sofern man den Inhalt der Datenbank bzw die DE nicht kennt die aufgrund der Suchanfrage eigentlich hatten angezeigt werden mussen Der Recall kann auf Kosten der Precision vergrossert werden und umgekehrt Das gilt allerdings nicht bei einer Faktenfrage Hier sind Recall und Precision gleich eins Relevanz und Pertinenz BearbeitenWissen kann relevant muss aber nicht pertinent sein Relevanz bedeutet dass ein Dokument unter der Suchanfrage die formuliert wurde passend ausgegeben wurde Wenn der Nutzer den Text aber bereits kennt oder er ihn nicht lesen will weil er den Autor nicht mag oder keine Lust hat einen Artikel in einer anderen Sprache zu lesen ist das Dokument nicht pertinent Pertinenz bezieht die subjektive Sicht des Nutzers mit ein Objektiver Informationsbedarf Subjektives Informationsbedurfnis Informationsnachfrage Relevanz PertinenzEin Dokument ist zur Befriedigung eines Informationsbedarfs relevant wenn es objektiv Ein Dokument ist zur Befriedigung eines Informationsbedurfnisses pertinent wenn es subjektiv Zur Vorbereitung einer Entscheidung dient Zur Vorbereitung einer Entscheidung dientEine Wissenslucke schliesst Eine Wissenslucke schliesstEine Fruhwarnfunktion erfullt Eine Fruhwarnfunktion erfulltVoraussetzungen fur erfolgreiches Information Retrieval sind das richtige Wissen zum richtigen Zeitpunkt am richtigen Ort im richtigen Umfang in der richtigen Form mit der richtigen Qualitat Wobei richtig heisst dass dieses Wissen entweder Pertinenz oder Relevanz besitzt Nutzlichkeit Bearbeiten Wissen ist dann nutzlich wenn der Nutzer daraus neues handlungsrelevantes Wissen erzeugt und dieses in die Praxis umsetzt Aspekte der Relevanz Bearbeiten Relevanz ist die Relation zwischen der Suchanfrage query in Bezug auf das Thema und die systemseitigen Aspekte Binarer Ansatz Bearbeiten Der binare Ansatz sagt aus dass ein Dokument entweder relevant oder nicht relevant ist In der Realitat ist das nicht unbedingt zutreffend Hier spricht man eher von Relevanzregionen Relevanzverteilungen Bearbeiten Dafur konnen beispielsweise Themenketten gebildet werden Ein Thema kann in mehreren Ketten vorkommen Je haufiger ein Thema vorkommt desto grosser ist sein Gewichtungswert Kommt das Thema in allen Ketten vor liegt sein Wert bei 100 kommt es in keiner Kette vor bei 0 Bei Untersuchungen haben sich drei verschiedene Verteilungen herauskristallisiert Dabei ist anzumerken dass diese Verteilungen nur bei grosseren Dokumentenmengen zustande kommen Bei kleineren Dokumentenmengen gibt es eventuell gar keine Regelmassigkeiten Binare Verteilung Bearbeiten Bei der binaren Verteilung ist kein Relevanceranking moglich Invers logistische Verteilung Bearbeiten Dieser Artikel oder nachfolgende Abschnitt ist nicht hinreichend mit Belegen beispielsweise Einzelnachweisen ausgestattet Angaben ohne ausreichenden Beleg konnten demnachst entfernt werden Bitte hilf Wikipedia indem du die Angaben recherchierst und gute Belege einfugst Woher kommt die 3 Bitte herleiten oder Quelle angeben f x e C x 1 b displaystyle f x e C x 1 b nbsp x displaystyle x nbsp Rangplatz e displaystyle e nbsp Eulersche Zahl c displaystyle c nbsp Konstante b 3 displaystyle b approx 3 nbsp Informetrische Verteilung Bearbeiten f x C x a displaystyle f x frac C x a nbsp x displaystyle x nbsp Rangplatz c displaystyle c nbsp Konstante a displaystyle a nbsp konkreter Wert zwischen 1 und 2Die informetrische Verteilung sagt aus Wenn das erstplatzierte Dokument eine Relevanz von eins hat bei C 1 displaystyle C 1 nbsp dann hat das zweitplatzierte Dokument eine Relevanz von 0 5 bei a 1 displaystyle a 1 nbsp oder von 0 25 bei a 2 displaystyle a 2 nbsp Dokumente BearbeitenEs sei noch einmal darauf hingewiesen dass in der Informationswissenschaft unterschieden wird zwischen dem Ausgangsdokument der DBE und der DE Aber wann ist etwas eigentlich ein Dokument Das entscheiden vier Kriterien die Materialitat einschliesslich des digitalen Vorhandenseins die Intentionalitat Das Dokument tragt einen gewissen Sinn eine Bedeutung die Erarbeitung und die Wahrnehmung They have to be made into documents Michael K BucklandTextuelle und nicht textuelle Objekte Bearbeiten Objekte konnen in Textform auftreten mussen es aber nicht Bilder und Filme sind Beispiele fur nicht textuelle Dokumente Textuelle und nicht textuelle Objekte konnen in digitaler und in nicht digitaler Form auftreten Sind sie digital und treffen mehr als zwei Medienformen aufeinander Ein Dokument besteht beispielsweise aus einer Videosequenz einer Audiosequenz und Bildern nennt man sie Multimedia Die nicht digital vorliegenden Objekte brauchen in der Datenbank einen digitalen Stellvertreter etwa ein Foto Formal publizierte Textdokumente Bearbeiten Als formal publizierte Textdokumente werden alle Dokumente bezeichnet die einen formalen Veroffentlichungsprozess durchlaufen haben Das bedeutet die Dokumente wurden vor der Veroffentlichung gepruft z B durch einen Lektor Ein Problem stellt die sogenannte Graue Literatur dar Diese ist zwar gepruft aber nicht veroffentlicht worden Es existieren mehrere Ebenen von formal publizierten Dokumenten Am Anfang steht die Arbeit die Schopfung des Autors Gefolgt vom Ausdruck dieser Arbeit der konkreten Realisierung z B verschiedene Ubersetzungen Diese Realisierung wird manifestiert z B in einem Buch An unterster Stelle dieser Kette steht das Item das einzelne Exemplar In der Regel richtet sich die DBE auf die Manifestation Ausnahmen sind aber moglich Informell publizierte Texte Bearbeiten Zu den informell publizierten Texten gehoren vor allem Dokumente die im Internet veroffentlicht wurden Diese Dokumente sind zwar publiziert aber nicht gepruft Eine Zwischenstufe von formell und informell publizierten Texten sind beispielsweise Wikis Diese sind publiziert und kooperativ gepruft Nicht publizierte Texte Bearbeiten Hierzu zahlen Briefe Rechnung interne Berichte Dokumente im Intranet oder Extranet Eben alle Dokumente die nie offentlich gemacht wurden Nicht textuelle Dokumente Bearbeiten Bei den nicht textuellen Dokumenten unterscheidet man zwei Gruppen Zum einen die digital vorliegenden oder digitalisierbaren Dokumente wie Filme Bilder und Musik und zum anderen die nicht digitalen und nicht digitalisierbaren Dokumente Zu letzteren gehoren Fakten wie chemische Stoffe und deren Eigenschaften und Reaktionen Patienten und deren Symptome und Museumsobjekte Die meisten nicht digitalisierbaren Dokumente entstammen den Disziplinen Chemie Medizin und Wirtschaft Sie werden in der Datenbank von der DE vertreten und oftmals zusatzlich durch Bilder Videos und Audiodateien dargestellt Typologie von Retrievalsystemen BearbeitenStruktur von Texten Bearbeiten Man differenziert zwischen strukturierten schwach strukturierten und nicht strukturierten Texten Zu den schwach strukturierten Texten zahlen alle Arten von Textdokumenten die eine gewisse Struktur haben Dazu zahlen Kapitelnummern Titel Zwischenuberschriften Abbildungen Seitenzahlen etc Uber informationelle Mehrwerte konnen den Texten strukturierte Daten hinzugefugt werden Nicht strukturierte Texte kommen in der Realitat kaum vor In der Informationswissenschaft beschaftigt man sich hauptsachlich mit schwach strukturierten Texten Dabei ist zu beachten dass es nur um formale nicht um syntaktische Strukturen geht Es ergibt sich ein Problem mit dem Sinnzusammenhang der Inhalte The man saw the pyramid on the hill with the telescope Dieser Satz kann vierfach interpretiert werden Daher bevorzugen einige Anbieter menschliche Indexer da diese den Sinnzusammenhang erkennen und korrekt weiterverarbeiten konnen Information Retrievalsysteme konnen entweder mit oder ohne terminologische Kontrolle arbeiten Arbeiten sie mit terminologischer Kontrolle ergeben sich die Moglichkeiten sowohl intellektuell als auch automatisch zu indexieren Retrieval Systeme die ohne terminologische Kontrolle arbeiten bearbeiten entweder den reinen Text oder der Prozess lauft uber eine automatische Bearbeitung Retrievalsysteme und terminologische Kontrolle Bearbeiten Terminologische Kontrolle bedeutet nichts anderes als die Verwendung von kontrolliertem Vokabular Das erfolgt uber Dokumentationssprachen Klassifikationen Schlagwortmethode Thesauri Ontologien Die Vorteile liegen darin dass der Rechercheur und der Indexer uber dieselben Ausdrucke und Formulierungsmoglichkeiten verfugen Daher ergeben sich keine Probleme mit Synonymen und Homonymen Nachteile von kontrolliertem Vokabular sind etwa die mangelnde Berucksichtigung von Sprachentwicklungen sowie das Problem dass diese Kunstsprachen nicht von jedem Nutzer korrekt angewandt werden Eine weitere Rolle spielt naturlich der Preis Intellektuelles Indexieren ist sehr viel teurer als automatisches Insgesamt lassen sich vier Falle unterscheiden Rechercheur IndexerKontrolliertes Vokabular Fachleute Kontrolliertes VokabularNaturlichsprachig Kontrolliertes Vokabular wirkt im Hintergrund durch Suchanfrageerweiterung mittels Ober und Unterbegriffen mit Naturlichsprachig Kontrolliertes Vokabular wirkt im Hintergrund durch Suchanfrageerweiterung mittels Ober und Unterbegriffen mitNaturlichsprachig System leistet Ubersetzungsarbeit Kontrolliertes VokabularKontrolliertes Vokabular Naturlichsprachiges VokabularBei der Variante ohne terminologische Kontrolle wird am besten mit den Volltexten gearbeitet Das funktioniert allerdings nur bei sehr kleinen Datenbanken Die Terminologie der Dokumente muss von den Nutzern genau gekannt werden Der Prozess mit terminologischer Kontrolle setzt eine informationslinguistische Bearbeitung Natural Language Processing NLP der Dokumente voraus Informationslinguistische Textbearbeitung Bearbeiten Die informationslinguistische Textbearbeitung geht wie folgt vor Zuerst wird das Schriftsystem erkannt Ist es beispielsweise ein lateinisches oder arabisches Schriftsystem Danach folgt die Spracherkennung Nun werden Text Layout und Navigation voneinander getrennt An dieser Stelle gibt es zwei Moglichkeiten Zum einen die Zerlegung der Worter in n Gramme oder die Worterkennung Egal fur welche Methode man sich entscheidet schliessen sich Stoppwortmarkierung Eingabefehlererkennung und korrektur sowie Eigennamenerkennung und die Bildung von Grund bzw Stammformen an Es werden Komposita zerlegt Homonyme und Synonyme erkannt und abgeglichen und das semantische Umfeld oder das Umfeld nach Ahnlichkeit untersucht Die letzten beiden Schritte sind die Ubersetzung des Dokumentes und die Anaphoraauflosung Es kann notig sein dass wahrend des Ablaufes das System mit dem Nutzer in Verbindung tritt Retrievalmodelle BearbeitenEs existieren mehrere konkurrierende Retrievalmodelle die sich aber keineswegs ausschliessen mussen Zu diesen Modellen zahlen das Boolesche und das erweiterte Boolesche Modell Das Vektorraummodell und das probabilistische Modell sind Modelle die auf der Textstatistik beruhen Zu den Linktopologischen Modellen gehoren der Kleinberg Algorithmus und der PageRank Schliesslich gibt es noch das Netzwerkmodell und die Nutzer Nutzungsmodelle welche die Textnutzung und den Nutzer an seinem spezifischen Standort untersuchen Boolesches Modell Bearbeiten George Boole veroffentlichte 1854 seine Boolesche Logik und ihre binare Sicht der Dinge Sein System hat drei Funktionen oder auch Operatoren UND ODER und NICHT Bei diesem System ist keine Sortierung nach Relevanz moglich Um ein Relevanzranking zu ermoglichen wurde das Boolesche Modell um Gewichtungswerte erweitert und die Operatoren mussten uminterpretiert werden Textstatistik Bearbeiten In der Textstatistik werden die im Dokument auftretenden Terme analysiert Die Gewichtungsfaktoren heissen hier WDF und IDF Within document Frequency WDF Anzahl des vorkommenden Terms Anzahl aller WorterDer WDF beschreibt die Haufigkeit eines Wortes in einem Dokument Je Haufiger ein Wort in einem Dokument vorkommt desto grosser sein WDFInverse Dokumenthaufigkeit englisch Inverse document frequency weight IDF Gesamte Anzahl an Dokumenten in der Datenbank Anzahl der Dokumente mit dem TermDer IDF beschreibt die Haufigkeit mit der ein Dokument mit einem bestimmten Term in einer Datenbank vorkommt Je haufiger ein Dokument mit einem bestimmten Term in der Datenbank vorkommt desto kleiner sein IDF Die zwei klassischen Modelle der Textstatistik sind das Vektorraummodell und das probabilistische Modell Im Vektorraummodell spannen n Worter einen n dimensionalen Raum auf Die Ahnlichkeit der Worter zueinander wird uber die Winkel ihrer Vektoren zueinander berechnet Beim probabilistischen Modell wird die Wahrscheinlichkeit berechnet mit der ein Dokument auf eine Suchanfrage zutrifft Ohne Zusatzinformationen ist das probabilistische Modell dem IDF ahnlich Linktopologische Modelle Bearbeiten Dokumente sind im WWW untereinander und miteinander verlinkt Sie bilden somit einen Raum von Links Der Kleinberg Algorithmus nennt diese Links Hub ausgehende Links und Authority eingehende Links Die Gewichtungswerte entstehen daruber inwiefern Hubs auf gute Authorities treffen und Authorities von guten Hubs gelinkt werden Ein weiteres linktopologisches Modell ist der PageRank von Sergey Brin und Lawrence Page Er beschreibt die Wahrscheinlichkeit mit der ein nach dem Zufallsprinzip Surfender eine Seite findet Clustermodell Bearbeiten Clusterverfahren versuchen Dokumente zu klassifizieren so dass ahnliche oder miteinander in Beziehung stehende Dokumente in einem gemeinsamen Dokumentenpool zusammengefasst werden Dadurch tritt eine Beschleunigung des Suchverfahrens ein da samtliche relevanten Dokumente im gunstigsten Fall mit einem einzigen Zugriff selektiert werden konnen Neben Dokumentenahnlichkeiten spielen aber auch Synonyme als semantisch ahnliche Worter eine bedeutende Rolle So sollte eine Suche nach dem Begriff Wort auch eine Trefferliste fur Kommentar Bemerkung Behauptung oder Term prasentieren Probleme entstehen aus der Art der Zusammenfassung von Dokumenten Die Cluster mussen stabil und vollstandig sein Die Zahl der Dokumente in einem Cluster und damit die resultierende Trefferliste kann bei speziellen Dokumentationen mit homogenen Dokumenten sehr hoch sein Im umgekehrten Fall kann die Zahl der Cluster wachsen bis zum Extremfall in dem Cluster nur aus jeweils einem Dokument bestehen Die Uberschneidungsrate der Dokumente die in mehr als einem Cluster liegen ist kaum kontrollierbar Nutzer Nutzungsmodell Bearbeiten Bei dem Nutzer Nutzungsmodell ist die Haufigkeit der Nutzung einer Website ein Rangkriterium Zusatzlich fliessen Hintergrundinformationen beispielsweise uber den Standort des Nutzers bei geographischen Anfragen mit ein Beim systematischen Suchen ergeben sich Ruckkopplungsschleifen Diese laufen entweder automatisch oder der Nutzer wird wiederholt aufgefordert Ergebnisse als relevant oder nicht relevant zu markieren ehe die Suchanfrage modifiziert und wiederholt wird Oberflachenweb und Deep Web Bearbeiten Das Oberflachenweb liegt im Web und ist kostenlos fur alle Nutzer erreichbar Im Deep Web liegen etwa Datenbanken deren Suchoberflachen uber das Oberflachenweb zu erreichen sind Ihre Informationen sind aber in der Regel kostenpflichtig Es lassen sich drei Arten von Suchmaschinen unterscheiden Suchmaschinen wie Google arbeiten algorithmisch das Open Directory Project ist ein intellektuell erstellter Webkatalog und Metasuchmaschinen beziehen ihren Content aus mehreren anderen Suchmaschinen die sich ansprechen In der Regel verwenden intellektuell erstellte Webkataloge nur die Einstiegsseite einer Website als Bezugsquelle fur die DBE Bei algorithmisch arbeitenden Suchmaschinen wird jede Webseite verwendet Architektur eines Retrievalsystems BearbeitenEs gibt digitale und nicht digitale Speichermedien wie etwa Steilkarten Bibliothekskataloge und Sichtloskarten Digitale Speichermedien werden von der Informatik erarbeitet und sind Beschaftigungsbereich der Informationswissenschaft Man unterscheidet zwischen der Dateistruktur und ihrer Funktion Daruber hinaus gibt es Schnittstellen des Retrievalsystems mit den Dokumenten und mit ihren Nutzern Bei der Schnittstelle zwischen System und Dokument unterscheidet man wieder drei Bereiche Das Finden von Dokumenten das sogenannte Crawling die Kontrolle dieser gefundenen Dokumente auf Updates und die Einordnung in ein Feldschema Die Dokumente werden entweder intellektuell oder automatisch erfasst und weiter verarbeitet Dabei werden die DE zweifach abgespeichert Einmal als Dokumentendatei und zusatzlich noch als invertierte Datei welche als Register oder Index den Zugriff auf die Dokumentendatei erleichtern soll Nutzer und System treten in folgender Weise in Kontakt Der Nutzer verfasst eine Anfrageformulierung erhalt eine Trefferliste lasst sich die Dokumentationseinheiten anzeigen und verarbeitet sie lokal weiter Zeichensatze Bearbeiten 1963 entstand der ASCII Code American Standard Code for Information Interchange Sein 7 bit Code konnte 128 Zeichen erfassen und abbilden Er wurde spater auf 8 bit 256 Zeichen erweitert Der bislang grosste Zeichensatz Unicode umfasst 4 Byte also 32 bit und soll alle Zeichen abbilden die uberhaupt auf der Welt genutzt werden Die ISO 8859 International Organisation for Standardization regelt daruber hinaus sprachspezifische Varianten wie etwa das ss in der deutschen Sprache Aufnahme neuer Dokumente in die Datenbasis Bearbeiten Neue Dokumente konnen sowohl intellektuell als auch automatisch der Datenbasis hinzugefugt werden Bei der intellektuellen Aufnahme neuer Dokumente ist ein Indexer verantwortlich und entscheidet welche Dokumente wie aufgenommen werden Der automatische Prozess erfolgt durch einen Robot oder einen Crawler Grundlage ist eine bekannte Menge an Webdokumenten eine sogenannte seed list Die Links aller Webseiten die diese Liste enthalt ist nun Aufgabe der Crawler Die URL der jeweiligen Seiten wird gepruft ob sie bereits in der Datenbasis vorhanden ist oder nicht Daruber hinaus werden Spiegel und Dubletten erkannt und geloscht Crawler Bearbeiten Best First Crawler Bearbeiten Einer der Best First Crawler ist der Page Rank Crawler Er sortiert die Links nach Anzahl und Popularitat der eingehenden Seiten Zwei weitere sind der Fish Search und der Shark Search Crawler Ersterer beschrankt seine Arbeit auf Bereiche im Web in denen sich relevante Seiten konzentrieren Der Shark Search Crawler verfeinert diese Methode indem er zusatzliche Informationen zum Beispiel aus den Ankertexten zieht um ein Relevanzurteil zu treffen Jeder Seitenbetreiber hat die Moglichkeit seine Seite gegen Crawler zu verschliessen Crawling im Deep Web Bearbeiten Damit ein Crawler auch im Deep Web erfolgreich arbeiten kann muss er verschiedene Anforderungen erfullen Zum einen muss er die Suchmaske der Datenbank verstehen um eine adaquate Suchanfrage formulieren zu konnen Daruber hinaus muss er Trefferlisten verstehen und Dokumente anzeigen konnen Das funktioniert allerdings nur bei kostenlosen Datenbanken Wichtig fur Deep Web Crawler ist es dass sie Suchargumente derart formulieren konnen dass alle Dokumente der Datenbank angezeigt werden Ist in der Suchmaske ein Jahrgangsfeld vorhanden musste der Crawler der Reihe nach alle Jahrgange anfragen um an alle Dokumente zu gelangen Bei Stichwortfeldern ist eine adaptive Strategie am sinnvollsten Sind die Daten einmal erfasst muss der Crawler nur noch die Updates der gefundenen Seiten erfassen Um die DE moglichst aktuell zu halten gibt es mehrere Moglichkeiten Entweder die Seiten werden im selben Abstand regelmassig besucht was allerdings die Ressourcen weit ubersteigen wurde und daher unmoglich ist oder der Besuch nach Zufall was allerdings eher suboptimal funktioniert Eine dritte Moglichkeit ware der Besuch nach Prioritaten Beispielsweise nach dem Takt ihrer Anderungen seitenzentriert oder der Haufigkeit ihrer Aufrufe oder Downloads nutzerzentriert Weitere Aufgaben der Crawler sind es Spam Dubletten sowie Spiegel zu erkennen Die Erkennung von Dubletten erfolgt in der Regel uber den Vergleich der Pfade Die Vermeidung von Spam gestaltet sich etwas schwieriger da Spam oft versteckt auftritt FIFO first in first out Crawler Bearbeiten Zu den FIFO Crawlern gehoren der Breadth First Crawler welcher allen Links einer Seite folgt diese abarbeitet und den Links der gefundenen Seiten weiter folgt und der Depth First Crawler Dieser arbeitet im ersten Schritt wie der Breadth First Crawler trifft im zweiten Schritt allerdings eine Auswahl welchen Links er weiter folgt und welchen nicht Thematische Crawler Bearbeiten Thematische Crawler sind auf eine Disziplin spezialisiert und daher geeignet fur Fachexperten Thematisch nicht relevante Seiten werden identifiziert und getunnelt Dennoch werden die Links dieser getunnelten Seiten weiter verfolgt um weitere relevante Seiten zu finden Distiller finden derweil einen gunstigen Ausgangspunkt fur die Crawler indem sie Taxonomien und Musterdokumente nutzen Classifier eruieren diese Seiten auf Relevanz Der ganze Vorgang lauft semiautomatisch da Taxonomien und Musterdokumente regelmassig aktualisiert werden mussen Daruber hinaus wird eine Begriffsordnung benotigt Speichern und Indexieren Bearbeiten Die gefundenen Dokumente werden in die Datenbasis kopiert Dafur werden zwei Dateien angelegt zum einen die Dokumentendatei zum anderen eine invertierte Datei In der invertierten Datei werden alle Worter oder Phrasen geordnet und nach Alphabet oder einem anderen Sortierkriterium aufgelistet Ob man einen Wortindex oder einen Phrasenindex verwendet hangt vom Feld ab Bei einem Autorenfeld eignet sich beispielsweise der Phrasenindex wesentlich besser als der Wortindex In der invertierten Datei finden sich Angaben uber die Position der Worter oder Phrasen im Dokument und Strukturinformationen Strukturinformationen konnen fur das Relevanceranking nutzlich sein Wenn etwa angegeben ist dass ein Wort grosser geschrieben wurde kann man dieses auch hoher gewichten Die Worter und Phrasen werden sowohl in der richtigen Reihenfolge geschrieben als auch ruckwarts abgelegt Das ermoglicht eine offene Linkstrukturierung Die Speicherung der invertierten Datei erfolgt in einem Datenbankindex Klassifikation von Retrievalmodellen BearbeitenEine zweidimensionale Klassifikation von IR Modellen zeigt die nachstehende Abbildung Folgende Eigenschaften lassen sich bei den verschiedenen Modellen in Abhangigkeit von ihrer Einordnung in der Matrix beobachten nbsp Klassifikation von IR Modellen Quelle Dominik Kuropka Dimension mathematisches Fundament Algebraische Modelle stellen Dokumente und Anfragen als Vektoren Matrizen oder Tupel dar die zur Berechnung von paarweisen Ahnlichkeiten uber eine endliche Anzahl algebraischer Rechenoperationen in ein eindimensionales Ahnlichkeitsmass uberfuhrt werden Mengentheoretische Modelle zeichnen sich dadurch aus dass sie naturlichsprachliche Dokumente auf Mengen abbilden und die Ahnlichkeitsbestimmung von Dokumenten in erster Linie auf die Anwendung von Mengenoperationen zuruckfuhren Probabilistische Modelle sehen den Prozess der Dokumentensuche bzw der Bestimmung von Dokumentenahnlichkeiten als ein mehrstufiges Zufallsexperiment an Zur Abbildung von Dokumentenahnlichkeiten wird daher auf Wahrscheinlichkeiten und probabilistische Theoreme insbesondere auf den Satz von Bayes zuruckgegriffen Dimension Eigenschaften des Modells Modelle mit immanenten Terminterdependenzen zeichnen sich dadurch aus dass sie vorhandene Interdependenzen zwischen Termen berucksichtigen und ihnen somit im Unterschied zu den Modellen ohne Terminterdependenzen nicht die implizite Annahme zu Grunde liegt dass Terme orthogonal bzw unabhangig voneinander sind Die Modelle mit den immanenten Terminterdependenzen grenzen sich von den Modellen mit den transzendenten Terminterdependenzen dadurch ab dass das Ausmass einer Interdependenz zwischen zwei Termen aus dem Dokumentenbestand in einer vom Modell bestimmten Weise abgeleitet wird also dem Modell innewohnend immanent ist Die Interdependenz zwischen zwei Termen wird bei dieser Klasse von Modellen direkt oder indirekt aus der Kookkurrenz der beiden Terme abgeleitet Unter Kookkurrenz versteht man dabei das gemeinsame Auftreten zweier Terme in einem Dokument Dieser Modellklasse liegt somit die Annahme zu Grunde dass zwei Terme zueinander interdependent sind wenn sie haufig gemeinsam in Dokumenten vorkommen Modelle ohne Terminterdependenzen zeichnen sich dadurch aus dass jeweils zwei verschiedene Terme als vollkommen unterschiedlich und keinesfalls miteinander verbunden angesehen werden Dieser Sachverhalt wird in der Literatur haufig auch als Orthogonalitat von Termen bzw als Unabhangigkeit von Termen bezeichnet Wie bei den Modellen mit immanenten Terminterdependenzen liegt auch den Modellen mit transzendenten Terminterdependenzen keine Annahme uber die Orthogonalitat oder Unabhangigkeit von Termen zu Grunde Im Unterschied zu den Modellen mit immanenten Terminterdependenzen konnen die Interdependenzen zwischen den Termen bei den Modellen mit transzendenten Terminterdependenzen nicht ausschliesslich aus dem Dokumentenbestand und dem Modell abgeleitet werden Das heisst dass die den Terminterdependenzen zu Grunde liegende Logik als uber das Modell hinausgehend transzendent modelliert wird Das bedeutet dass in den Modellen mit transzendenten Terminterdependenzen das Vorhandensein von Terminterdependenzen explizit modelliert wird aber dass die konkrete Auspragung einer Terminterdependenz zwischen zwei Termen direkt oder indirekt von ausserhalb z B von einem Menschen vorgegeben werden muss Information Retrieval hat Querbezuge zu verschiedenen anderen Gebieten z B Wahrscheinlichkeitstheorie der Computerlinguistik Literatur BearbeitenGerard Salton Michael J McGill Introduction to modern information retrieval mcgraw hill 1983 James D Anderson J Perez Carballo Information retrieval design principles and options for information description organization display and access in information retrieval databases digital libraries and indexes Memento vom 31 Dezember 2008 im Internet Archive University Publishing Solutions 2005 Michael C Anderson Retrieval In A D Baddeley M W Eysenck M C Anderson Memory Psychology Press Hove New York 2009 ISBN 978 1 84872 001 5 S 163 189 R Baeza Yates B Ribeiro Neto Modern Information Retrieval ACM Press Addison Wesley New York 1999 Reginald Ferber Information Retrieval dpunkt verlag 2003 ISBN 3 89864 213 5 Dominik Kuropka Modelle zur Reprasentation naturlichsprachlicher Dokumente Ontologie basiertes Information Filtering und Retrieval mit relationalen Datenbanken ISBN 3 8325 0514 8 Christopher D Manning Prabhakar Raghavan und Hinrich Schutze Introduction to Information Retrieval Cambridge Cambridge university press 2008 ISBN 978 0 521 86571 5 Dirk Lewandowski Suchmaschinen verstehen Springer Heidelberg 2015 ISBN 978 3 662 44013 1 Dirk Lewandowski Web Information Retrieval In Information Wissenschaft und Praxis nfd 56 2005 1 S 5 12 ISSN 1434 4653 Dirk Lewandowski Web Information Retrieval Technologien zur Informationssuche im Internet Informationswissenschaft 7 DGI Schrift Frankfurt am Main 2005 ISBN 3 925474 55 2 Eleonore Poetzsch Information Retrieval Einfuhrung in Grundlagen und Methoden E Poetzsch Verlag Berlin 2006 ISBN 3 938945 01 X Gerard Salton Michael J McGill Introduction to modern information retrieval McGraw Hill New York 1983 Wolfgang G Stock Information Retrieval Informationen suchen und finden Oldenbourg Munchen Wien 2007 ISBN 978 3 486 58172 0 Alexander Martens Visualisierung im Information Retrieval Theorie und Praxis angewandt in Wikis als Alternative zu Semantic Web BoD Norderstedt ISBN 978 3 8391 2064 4 Matthias Nagelschmidt Klaus Lepsky Winfried Godert Informationserschliessung und Automatisches Indexieren Ein Lehr und Arbeitsbuch Springer Berlin Heidelberg 2012 ISBN 978 3 642 23512 2 Weblinks BearbeitenFachgruppe Information Retrieval der Gesellschaft fur Informatik Norbert Fuhr Vorlesung Information Retrieval an der Universitat Duisburg Essen 2006 Materialien Karin Haenelt Seminar Information Retrieval Universitat Heidelberg 2015 Heinz Dirk Luckhardt Information Retrieval Universitat Saarland im Virtuellen Handbuch Informationswirtschaft Memento vom 30 November 2001 im Internet Archive UPGRADE The European Journal for the Informatics Professional Information Retrieval and the Web Band III Nr 3 Juni 2002 C J van Rijsbergen Information Retrieval 1979 Information Retrieval Facility IRF Einzelnachweise Bearbeiten Information Retrieval 1 Grundlagen Modelle und Anwendungen Andreas Henrich Version 1 2 Rev 5727 Stand 7 Januar 2008 Otto Friedrich Universitat Bamberg Lehrstuhl fur Medieninformatik 2001 2008 Salton Gerard Macgill Michael J Introduction to Modern iInformation Retrieval Mcgraw Hill New York 1983 ISBN 978 0 07 054484 0 Normdaten Sachbegriff GND 4072803 1 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Information Retrieval amp oldid 236071154