www.wikidata.de-de.nina.az
Googlebot ist ein Webcrawler des US amerikanischen Unternehmens Google LLC Das Computerprogramm ladt World Wide Web Inhalte eigenstandig herunter und fuhrt diese der herstellereigenen Suchmaschine Google zu Inhaltsverzeichnis 1 Arbeitsweise 1 1 Dynamische Seiteninhalte 2 Identifikation 3 Verifikation 4 Weblinks 5 EinzelnachweiseArbeitsweise BearbeitenZwischen dem Herunterladen einer Dateiversion und der Aktualisierung des Suchmaschinen Index mit ebendiesem Inhalt dieser neuen Version liegen ublicherweise einige Tage Wie oft Googlebot eine Seite besucht hangt unter anderem davon ab wie viele externe Links auf diese Seite verweisen und wie hoch ihr PageRank Wert ist In den meisten Fallen greift der Googlebot im Durchschnitt jedoch nur einmal alle paar Sekunden auf eine Website zu Um die Zugriffe auf die zu indizierende Seite moglichst gering zu halten wird zunachst jeder Crawlvorgang in einem von allen Googlebots genutzten Cache abgelegt Wird eine Seite von mehreren Bots innerhalb eines bestimmten Zeitraumes besucht kann die Anfrage somit aus dem Cache bedient werden 1 Googlebot beachtet die Datei robots txt und die Robots Anweisungen in HTML Meta Tags Zu beachten ist dass es bei blockiertem CSS oder JavaScript Missverstandnisse beim Crawlvorgang geben kann und der Googlebot interpretiert die Webseite unter Umstanden falsch Dynamische Seiteninhalte Bearbeiten Seiteninhalte die nur hinter PHP Sessions oder hinter Variablen enthalten sind kann der Googlebot bislang nur schwer oder gar nicht indexieren Dies liegt daran dass dem Bot meist weder die notigen Variablen noch die zugehorigen Parameter bekannt sind Google arbeitet gegenwartig daran den Webcrawler soweit anzupassen dass er auch solche Inhalte erfassen kann die bisher hinter mehreren AJAX Requests verborgen bleiben So sollen kunftig auch solche Inhalte erfasst werden konnen die eine Website dynamisch nachladt Geplant sei auch dass der Webcrawler POST Requests an eine Webseite schickt Das Problem dabei ist dass POST Requests ungewollt Nutzeraktionen ausfuhren konnen 2 Identifikation BearbeitenGooglebot identifiziert sich je nach Aufgabe unter anderem mit den folgenden User Agent Kennungen Googlebot 2 1 http www google com bot html Mozilla 5 0 compatible Googlebot 2 1 http www google com bot html Googlebot Image 1 0 Ein weiterer Google Crawler dient dazu Seiten herunterzuladen um passende Werbung im Rahmen des Google AdSense Programms zu ermitteln Er identifiziert sich wie folgt Mediapartners Google 2 1Verifikation BearbeitenManche Web Benutzer und Crawler geben sich uber diese Kennungen falschlicherweise als Googlebot aus in der Hoffnung dass ein Site Betreiber fur Googlebot besonders gute oder werbefreie Inhalte bereitstellt Um festzustellen ob es sich bei einem Besucher tatsachlich um Googles Crawler handelt empfiehlt Google die Verwendung des Domain Name System Zunachst wird die IP Adresse des Besuchers mittels einer inversen Anfrage in einen Domain Namen ubersetzt der auf googlebot com enden sollte Anschliessend uberpruft man mit einer regularen DNS Anfrage forward lookup ob man wieder die ursprungliche IP Adresse des Besuchers erhalt 3 Weblinks BearbeitenFragen und Antworten zum GooglebotEinzelnachweise Bearbeiten Matt Cutts Crawl caching proxy 23 April 2006 googlewebmastercentral blogspot com Matt Cutts How to verify Googlebot 20 September 2006 Official Google Webmaster Central Blog googlewebmastercentral blogspot com abgerufen am 13 November 2006 Abgerufen von https de wikipedia org w index php title Googlebot amp oldid 196480774