www.wikidata.de-de.nina.az
Die unscharfe Suche auch Fuzzy Suche oder Fuzzy String Suche genannt umfasst in der Informatik eine Klasse von String Matching Algorithmen also solchen die eine bestimmte Zeichenkette englisch string in einer langeren Zeichenkette oder einem Text suchen bzw finden sollen Wikimedia Suche Did you mean andre emotionsTypisch fur die unscharfe englisch fuzzy Suchmethode ist dabei dass nicht die exakte Zeichenfolge als Suchkriterium zugrunde gelegt werden muss sondern auch ahnliche Zeichenketten 1 gefunden werden sollen 2 Ein bekanntes Mass zur Berechnung dieser Ahnlichkeit ist die sogenannte Levenshtein Distanz sie gibt an wie viele Operationen Loschen Einfugen und Ersetzen von Buchstaben in Wortern notig sind um einen String aus dem anderen herzuleiten Je weniger Operationen benotigt werden desto ahnlicher sind beide Strings 3 Eine andere Moglichkeit beruht auf sogenannten N Grammen 4 mittels derer uber bestimmte Wahrscheinlichkeiten berechnet wird welche Buchstaben oder Zeichenkettenkombination auf eine andere folgen konnte Ein weiterer Ansatz grundet nicht direkt auf der grafischen Reprasentation eines Wortes sondern es wird nach Zeichenfolgen gesucht die gleich klingen die phonetische Suche Ein in diesem Zusammenhang bekanntes Verfahren fur die Englische Sprache das Worter ihrem Klang nach indiziert ist der Soundex Algorithmus 5 Beide Ansatze erlauben es gesuchte Zeichenketten auch dann zu finden wenn zum Beispiel die genaue Schreibweise eines Namens oder Ausdrucks nicht bekannt ist flektierte Formen eines Wortes gefunden oder auch fehlertolerante Suchergebnisse akzeptiert werden sollen Verwendet wird die Fuzzy Suche beispielsweise in Datenbanken 6 Suchmaschinen 7 oder computerlinguistischen Anwendungen Praxisbeispiele BearbeitenBei der Suche in Datenbanken konnen fehlertolerante Suchwerkzeuge unter Anwendung von String Matching Algorithmen Tipp und Rechtschreibfehler ausgleichen Ahnlichkeiten zwischen dem eingegebenen Suchbegriff und den Eintragen in der Datenbank werden auch ohne hinterlegte Wortlisten ermittelt Treffer konnen nach Relevanz und Nahe zum Suchbegriff sortiert ausgegeben werden Die Suche nach dem Begriff Levensstein wurde beispielsweise auch Eintrage zu Levenshtein finden Werden Synonym Listen hinterlegt findet die unscharfe Suche beispielsweise zu dem Begriff Fernseher auch Begriffe wie Fernsehgerat Die Anwendung aufwandiger String Matching Verfahren wie dem Levenshtein Algorithmus geht in der Regel mit einem enormen Berechnungsaufwand einher 8 und fuhrt bei grossen Datenmengen zu einer oft hohen zeitlichen Verzogerung Beispielsweise in der Bioinformatik werden Gensequenzen mit Gendatenbanken abgeglichen Eine bekannte Sammlung von Algorithmen hierfur ist Blast Einzelnachweise Bearbeiten Jan Petzold Grossere Datenmengen mit JavaScript performant durchsuchen In heise Developer Heise Medien GmbH amp Co KG 13 Marz 2015 abgerufen am 29 April 2020 Ungenaue Suche Fuzzy Das Suchergebnis enthalt auch Elemente die dem Suchbegriff ahneln Sie wird meist in Autocomplete Feldern oder als Suchvorschlag verwendet z B Entwckler findet auch Entwickler Fuzzy Suche In IT Wissen info DATACOM Buchverlag GmbH abgerufen am 29 April 2020 Die Fuzzy Search ist eine unscharfe oder fehlertolerante Suche Im Gegensatz zu einer exakten Suche werden bei der Fuzzy Suche auch dann Ergebnisse angezeigt wenn das Suchwort fehlerhaft eingegeben wurde oder wenn die exakte Schreibweise des Suchwortes nicht bekannt ist Sonja Franz Wie Suchalgorithmen funktionieren Die Levenshtein Distanz In interger net integer net GmbH 22 Februar 2018 abgerufen am 29 April 2020 Die Levenshtein Distanz beschreibt die minimale Anzahl von Anderungen die notig ist um aus der ersten Zeichenkette die zweite Zeichenkette zu generieren Als Anderungen gelten Hinzufugen Entfernen und Austauschen von Zeichen Sie ist benannt nach dem russischen Mathematiker Vladimir Levenshtein 1935 2017 Tillmann Wegst Stringahnlichkeit In Tillmann Wegst Software Entwicklung 22 Januar 2006 abgerufen am 29 April 2020 N Gramm Ubereinstimmungen sind ein weiteres und sehr gebrauchliches Mass Ein N Gramm ist eine Folge benachbarter Elemente im Fall von Strings also aufeinanderfolgender Schriftzeichen N bezeichnet die Lange der verwendeten Folgen ublich sind Trigramme also N Gramme mit Lange 3 Zur Ahnlichkeitsbestimmung werden zwei Strings in die in ihnen enthaltenen N Gramme zerlegt und die Grosse der Schnittmenge der beiden N Gramm Mengen liefert den Wert fur die Ahnlichkeit der Strings Rob Gravelle MySQL Fuzzy Text Searching Using the SOUNDEX Function In DATABASE Journal QuinStreet Inc 9 Marz 2015 abgerufen am 29 April 2020 englisch Soundex is a phonetic algorithm for indexing names by sound as pronounced in English SOUNDEX codes from different strings can be compared to see how similar the strings sound when spoken Ernst August Wieden Unscharfe Suche in Datenbanken konzeptuelle Grundlagen Systementwurf und prototypische Implementierung PDF In Diplomarbeit Technische Universitat Hamburg Harburg Arbeitsbereich Softwaresysteme August 2002 abgerufen am 30 April 2020 Diese Arbeit verfolgt das Ziel den Abfragemechanismus von Datenbanken intelligenter zu gestalten dies insbesondere in Hinblick auf den Einsatz von Fuzzy Logic Methoden die bisher vorwiegend Einsatz in der Regelungstechnik finden Stefan Krempl Fuzzy Logic erobert das Internet In heise online Heise Medien GmbH amp Co KG 4 Mai 2005 abgerufen am 30 April 2020 In den kommenden Jahren wird das Internet das wichtigste Anwendungsgebiet von Fuzzy Logic sein erklarte Lotfi Zadeh in einem Vortrag an der TU Berlin Der emeritierte Informatikprofessor der University of California in Berkeley geht davon aus dass sich die teilweise noch recht dummen Suchmaschinen in hilfreiche Diener verwandeln die fix auf alle erdenklichen Fragen eine passende Antwort finden Dazu mussten sie aber erst die naturliche Sprache der Menschen verstehen was am besten mit Fuzzy Logic zu bewerkstelligen sei Benno Nieswand Levenshtein Algorithmus Wie funktioniert der Levenshtein Algorithmus In Levenshtein Abgerufen am 29 April 2020 Obwohl ausgeklugelte Verbesserungen bezglich der Berechnung grosser Matrizen gemacht wurden gibt es keine Alternative zu dem meist recht grossen Berechnungsaufwand Siehe auch BearbeitenAGREP Fuzzy Retrieval Regularer Ausdruck Pattern Matching Kolner Phonetik Gestalt Pattern Matching Abgerufen von https de wikipedia org w index php title Unscharfe Suche amp oldid 237123108