www.wikidata.de-de.nina.az
Dieser Artikel behandelt Webseitenanalyse Programme fur die gleichnamige Suchmaschine siehe WebCrawler Ein Webcrawler auch Spider Searchbot oder Robot ist ein Computerprogramm das automatisch das World Wide Web durchsucht und Webseiten analysiert Webcrawler werden vor allem von Suchmaschinen zur Indexierung von Webseiten eingesetzt Weitere Anwendungen sind das Sammeln von Web Feeds E Mail Adressen oder von anderen Informationen Visualisierung eines Webcrawls einer kleinen WebseiteWebcrawler sind eine spezielle Art von Bots also Computerprogrammen die weitgehend automatisch sich wiederholenden Aufgaben nachgehen Inhaltsverzeichnis 1 Geschichte 2 Technik 3 Ausschluss von Webcrawlern 4 Probleme 5 Arten 6 Siehe auch 7 Einzelnachweise 8 WeblinksGeschichte BearbeitenDer erste Webcrawler war 1993 der World Wide Web Wanderer der das Wachstum des Internets messen sollte 1994 startete mit WebCrawler die erste offentlich erreichbare WWW Suchmaschine mit Volltextindex Von dieser stammt auch der Name Webcrawler fur solche Programme Da die Anzahl der Suchmaschinen rasant wuchs gibt es heute eine Vielzahl von unterschiedlichen Webcrawlern Diese erzeugten nach einer Schatzung von 2002 bis zu 40 des gesamten Internet Datenverkehrs 1 Technik Bearbeiten Struktur von WebcrawlernWie beim Internetsurfen gelangt ein Webcrawler uber Hyperlinks von einer Webseite zu weiteren URLs Dabei werden alle aufgefundenen Adressen gespeichert und der Reihe nach besucht Die neu gefundenen Hyperlinks werden zur Liste aller URLs hinzugefugt Auf diese Weise konnen theoretisch alle verlinkten und nicht fur Webcrawler gesperrten Seiten des WWW gefunden werden In der Praxis wird jedoch oft eine Auswahl getroffen der Prozess irgendwann beendet und von vorne begonnen Je nach Aufgabe des Webcrawlers wird der Inhalt der gefundenen Webseiten beispielsweise mittels Indexierung ausgewertet und gespeichert um ein spateres Suchen in den so gesammelten Daten zu ermoglichen Ausschluss von Webcrawlern BearbeitenMit Hilfe des Robots Exclusion Standards kann ein Webseitenbetreiber in der Datei robots txt und in bestimmten Meta Tags im HTML Header einem Webcrawler mitteilen welche Seiten er indexieren soll und welche nicht sofern sich der Webcrawler an das Protokoll halt Zur Bekampfung unerwunschter Webcrawler gibt es auch spezielle Webseiten sogenannte Teergruben die den Webcrawlern falsche Informationen liefern und diese zusatzlich stark ausbremsen Probleme BearbeitenEin Grossteil des gesamten Internets wird von Webcrawlern und damit auch von offentlichen Suchmaschinen nicht erfasst da viele Inhalte nicht uber einfache Links sondern beispielsweise nur uber Suchmasken und zugangsbeschrankte Portale erreichbar sind Man spricht bei diesen Bereichen auch vom Deep Web Ausserdem stellt die standige Veranderung des Webs sowie die Manipulation der Inhalte Cloaking ein Problem dar Arten BearbeitenThematisch fokussierte Webcrawler werden als focused crawlers bzw fokussierte Webcrawler bezeichnet Die Fokussierung der Web Suche wird einerseits durch die Klassifizierung einer Webseite an sich und die Klassifizierung der einzelnen Hyperlinks realisiert Dadurch findet der fokussierte Crawler den besten Weg durch das Web und indexiert nur fur ein Thema bzw eine Domane relevante Bereiche des Webs Hurden bei der praktischen Umsetzung derartiger Webcrawler sind vor allem nicht verlinkte Teilbereiche und das Training der Klassifizierer 2 Webcrawler werden auch zum Data Mining und zur Untersuchung des Internets Webometrie eingesetzt und mussen nicht zwangslaufig auf das WWW beschrankt sein Eine Sonderform der Webcrawler sind E Mail Harvester Harvester fur Erntemaschine Diese Bezeichnung wird fur Software verwendet die das Internet WWW Usenet usw nach E Mail Adressen absucht und diese erntet So werden elektronische Adressen gesammelt und konnen danach vermarktet werden Die Folge sind i d R vor allem aber bei Spambots Werbe E Mails Spam Daher wird von der fruher gangigen Praxis auf Webseiten E Mail Adressen als Kontaktmoglichkeit per mailto Link anzugeben immer haufiger Abstand genommen manchmal wird versucht die Adressen durch den Einschub von Leerzeichen oder Wortern fur die Bots unlesbar zu machen So wird a example com zu a at example dot com Die meisten Bots konnen solche Adressen allerdings erkennen Eine ebenfalls beliebte Methode ist die E Mail Adresse in eine Grafik einzubetten Die E Mail Adresse ist dadurch nicht als Zeichenkette im Quelltext der Webseite vorhanden und somit fur den Bot nicht als Textinformation auffindbar Das hat fur den Benutzer jedoch den Nachteil dass er die E Mail Adresse nicht durch Anklicken bedienerfreundlich in sein E Mail Programm zum Versand ubernehmen kann sondern die Adresse abschreiben muss Viel gravierender ist jedoch dass die Seite damit nicht mehr barrierefrei ist und sehbehinderte Menschen genauso wie Bots ausgegrenzt werden Ein weiterer Verwendungszweck von Webcrawlern ist das Auffinden von urheberrechtlich geschutzten Inhalten im Internet Webcrawler konnen auch zur Analyse einer Website eingesetzt werden Dabei wird die Website von einem Startpunkt typischerweise der Homepage aus durchlaufen und folgt den vorhandenen Links Nutzlich ist das fur Website Betreiber und Suchmaschinenoptimierer um einen Eindruck davon zu erhalten wie die Crawling Bots der Suchmaschinen sich durch diese Website bewegen und auf welche Probleme sie dabei stossen Siehe auch BearbeitenHTTrack Website Copier Wrapper Informationsextraktion Spider trap Web Struktur die unerwunschte Webcrawler erkennen und optional an der Erfassung der Inhalte einer Website hindern sollEinzelnachweise Bearbeiten X Yuan M H MacGregor J Harms An efficient scheme to remove crawler traffic from the Internet Computer Communications and Networks 2002 Proceedings Eleventh International Conference on Communications and Networks Sotiris Batsakis Euripides G M Petrakis Evangelos Milios Improving the Performance of Focused Web Crawlers 9 April 2012 englisch Weblinks BearbeitenThe Web Robots Pages englisch Normdaten Sachbegriff GND 4796298 7 lobid OGND AKS Abgerufen von https de wikipedia org w index php title Webcrawler amp oldid 234612818