www.wikidata.de-de.nina.az
Der Robots Exclusion Standard auch bekannt als robots txt ist ein Datenformat und Netzwerkprotokoll mit dem eine Website Steuerinformationen an Webcrawler mitteilen kann Nach Ubereinkunft des Protokolls liest ein Webcrawler Robot beim Auffinden einer Website zuerst die Datei robots txt im Stammverzeichnis einer Domain In dieser Datei kann festgelegt werden ob und wie die Website von einem Webcrawler besucht werden darf Website Betreiber haben so die Moglichkeit ausgesuchte Bereiche ihrer Website fur bestimmte Suchmaschinen zu sperren Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen Man spricht hier auch von freundlichen Webcrawlern Ein Ausgrenzen bestimmter Teile einer Website durch das Protokoll garantiert keine Geheimhaltung dazu sind Seiten oder Unterverzeichnisse eines Servers durch HTTP Authentifizierung eine Access Control List ACL oder einen ahnlichen Mechanismus zu schutzen Manche Suchmaschinen zeigen die vom Webcrawler gefundenen und zu sperrenden URLs trotzdem in den Suchergebnisseiten an jedoch ohne Beschreibung der Seiten Das Protokoll wurde 1994 von einer unabhangigen Gruppierung entwickelt ist inzwischen jedoch allgemein anerkannt und kann als Quasi Standard betrachtet werden Anfang Juni 2008 bekannten sich Google 1 Microsoft und Yahoo zu einigen Gemeinsamkeiten 2 Ein zwingendes Verbot der Indizierung wird durch den Einsatz von robots txt aber nicht erreicht auch wenn seriose Webcrawler die Anweisungen befolgen 3 Inhaltsverzeichnis 1 Aufbau 2 Beispiele 3 Robots txt Test Tool 4 Undokumentiere Anweisungen 5 Alternativen 5 1 Metainformationen 6 humans txt 7 Siehe auch 8 Literatur 9 Weblinks 10 EinzelnachweiseAufbau BearbeitenDie Datei robots txt ist eine Textdatei in einem einfachen auch maschinenlesbaren Format Jede Zeile besteht aus zwei Feldern die durch einen Doppelpunkt getrennt werden User agent Sidewinder Disallow Die erste Zeile beschreibt den Webcrawler hier a href User Agent html title User Agent User agent a an den sich die darauf folgenden Regeln richten Es darf beliebig viele solcher Blocke geben Webcrawler lesen die Datei von oben nach unten und halten an wenn sich ein Block auf sie bezieht Fur jede URL die ausgeschlossen ist existiert eine eigene Zeile mit dem Disallow Befehl Leerzeilen sind nur oberhalb von User agent Zeilen erlaubt Sie trennen die Blocke voneinander Einzeilige mit einem Rautezeichen beginnende Kommentare sind an jeder Stelle moglich Sie dienen der Ubersichtlichkeit und werden vom Webcrawler ignoriert Anweisung Beschreibung Beispiel FunktionUser agent Spezifizierung des Webcrawlers User agent Sidewinder Gilt nur fur den Webcrawler namens Sidewinder User agent Wildcard fur User agent gilt fur alle Webcrawler Disallow Auslesen nicht gestatten Disallow Kein Ausschluss die komplette Website darf durchsucht werden Disallow Die komplette Website darf nicht durchsucht werden Disallow Temp Disallow default html Das Verzeichnis Temp und die Datei default html durfen nicht durchsucht werden Disallow default Alle Dateien und Verzeichnisse die mit default beginnen werden nicht durchsucht z B default html default php default page html defaultfolder und so weiter Ein Verbot von default html verbietet also auch z B default html php oder default html auch wenn diese Konstellation eher selten vorkommen durfte Disallow c Alle Dateien und Verzeichnisse die mit c beginnen werden nicht durchsucht Wenn man mochte dass das Subverzeichnis c nicht gecrawlt werden soll ist zwingend ein Trailing Slash anzugeben c ansonsten werden URLs die mit dem Buchstaben c beginnen nicht durchsucht Zeilenende Anker nur Googlebot Yahoo Slurp msnbot Disallow pdf Alle PDF Dateien werden ignoriert URLs mit behandeln nur Googlebot Disallow Alle URLs die ein enthalten werden ignoriert Allow Alle URLs die mit einem enden werden erlaubt Allow Auslesen erlauben nur Ask com Googlebot Yahoo Slurp msnbot Disallow Allow public Nur das Verzeichnis public darf durchsucht werden der Rest nicht Crawl delay Auslesegeschwindigkeit nur msnbot Yahoo Slurp bis 22 Feb 2018 auch Yandex 4 5 Crawl delay 42 Nur alle 42 Sekunden darf eine neue Seite zum Auslesen aufgerufen werden Sitemap URL der Sitemap nur Googlebot Yahoo Slurp msnbot Ask com Sitemap http example com sitemap xml Die Sitemap gemass dem Sitemap Protokoll liegt unter der angegebenen Adresse Beispiele Bearbeiten robots txt fur example com Diese Webcrawler schliesse ich aus User agent Sidewinder Disallow User agent Microsoft URL Control Disallow Diese Verzeichnisse Dateien sollen nicht durchsucht werden User agent Disallow default html Disallow Temp diese Inhalte werden von Suchmaschinen nicht neu erfasst ob bereits zuvor erfasste Inhalte entfernt werden ist undefiniert Disallow Privat Familie Geburtstage html Nicht geheim sollen aber nicht von Suchmaschinen gecrawlt werden Mit den folgenden Befehlen wird allen Webcrawlern das Abrufen der kompletten Website erlaubt User agent Disallow Mit den folgenden Befehlen wird allen Webcrawlern das Abrufen der kompletten Website verboten Die Indexierung des Inhalts in der Suchmaschine ist dadurch ausgeschlossen nicht jedoch die Darstellung der URL sowie von Informationen die nicht von der Seite sondern aus externen Quellen stammen Dies gilt auch wenn die Indexierung auf einzelnen Seiten selbst wieder erlaubt wird da Webcrawler die Seite gar nicht erst aufrufen 6 User agent Disallow Weiteres Beispiel robots txt der deutschsprachigen WikipediaRobots txt Test Tool BearbeitenGoogle stellt einen robots txt Tester zur Verfugung um festzustellen ob durch die robots txt Datei bestimmte URLs einer Website fur die Web Crawler von Google blockiert werden 7 Undokumentiere Anweisungen BearbeitenDirektiven wie crawl delay nofollow und noindex waren lange Zeit undokumentiert wurden aber von Websites in der robots txt verwendet und von Google berucksichtigt Ende 2019 hat Google angekundigt diese undokumentierten Anweisen kunftig nicht mehr zu nutzen 8 Alternativen BearbeitenMetainformationen Bearbeiten Das Indexieren durch Webcrawler kann man auch durch Meta Elemente im HTML Quelltext einer Webseite ablehnen 9 Auch Meta Elemente sind rein hinweisend benotigen die Mitarbeit freundlicher Webcrawler und garantieren keine Geheimhaltung Soll der Suchroboter die Webseite nicht in den Index der Suchmaschine aufnehmen noindex oder den Hyperlinks der Seite nicht folgen nofollow kann das in einem Meta Element wie folgt notiert werden lt meta name robots content noindex nofollow gt In HTML Dokumenten fur die beides erlaubt sein soll kann die Angabe entweder weggelassen oder explizit notiert werden lt meta name robots content all gt Die Syntax ist kaum offiziell standardisiert sondern grundet auf ubliche Praxis und Akzeptanz durch die Crawler Entwickler Bekannte Schlusselworter Ermutigung Untersagung Erhoffte Wirkungall Maximale Aufmerksamkeit schenkenindex noindex Diese Seite nicht aufnehmenfollow nofollow In der Seite enthaltenen Verlinkungen nicht folgenarchive noarchive Seite in die Web Archivierung nicht aufnehmen oder sogar ggf vorhandene archivierte Versionen eliminieren noopd OPD dmoz Statt des OPD Eintrags die Metadaten der aktuellen Seite verwenden 10 Zukunft wegen vorlaufiger Einstellung des Dienstes ungewiss noydir Yahoo AltaVista Statt eines vorhandene Yahoo Eintrags die Metadaten der aktuellen Seite verwenden 11 Obsolet da Suchmaschine 2013 eingestellt Statt allgemein an alle Bots zu adressieren lt meta name robots content noindex nofollow gt kann auch versucht werden bestimmte Bots zu lenken lt meta name msnbot content nofollow gt lt Microsoft gt lt meta name GoogleBot content noindex gt lt Google gt lt meta name Slurp content noydir gt lt Yahoo gt humans txt BearbeitenDie Datei robots txt stellt Robotern in Form von Software Webcrawler zusatzliche Informationen uber eine Website zur Verfugung In Anlehnung hieran hat Google 2011 die Datei humans txt eingefuhrt die menschlichen Besuchern der Website zusatzliche Hintergrundinformationen bieten soll 12 Diese Datei wird seitdem auch von anderen Websites verwendet um z B die Programmierer der Website namentlich zu nennen oder die eingesetzte Software zu beschreiben 13 Google selbst nutzt die Datei fur eine kurze Selbstdarstellung und Verweise auf Arbeitsplatze im Unternehmen 14 Siehe auch Bearbeiten htaccess Nofollow Sitemaps ProtokollLiteratur BearbeitenIan Peacock Showing Robots the Door What is Robots Exclusion Protocol In Ariadne May 1998 Issue 15 Webversion Weblinks BearbeitenThe Web Robots Pages englisch Robots Erlauterungen zur Datei robots txt im SELFHTML Wiki Offizielle Robots txt Spezifikation von Google com englisch spezielle Googlebot Syntax Erweiterungen Google com englisch A Standard for Robot Exclusion Memento vom 17 Januar 1999 im Internet Archive Defactostandardtext von 1999 englisch Robots Haufig gestellte Fragen FAQs Hilfe fur Search ConsoleEinzelnachweise Bearbeiten Verbesserungen des Robots Exclusion Protokolls Auf Google Blog Webmaster Zentrale 10 Juni 2008 Everything You Wanted To Know About Blocking Search Engines Auf searchengineland com 12 Juni 2008 Informationen zur robots txt Datei Hilfe fur Search Console Abgerufen am 22 August 2018 Using robots txt Yandex abgerufen am 19 Februar 2021 The Crawl delay directive Yandex abgerufen am 19 Februar 2021 Spezifikationen fur Robots Meta Tags und X Robots Tag HTTP Header Google robots txt Datei mit dem robots txt Tester testen Search Console Hilfe Abgerufen am 9 Juni 2022 A note on unsupported rules in robots txt In Official Google Webmaster Central Blog Abgerufen am 2 Oktober 2020 englisch Robots and the META element W3C Recommendation Was ist NOOPD Memento vom 15 April 2016 im Internet Archive xovi de Was ist die Metatag slurp Meta Name slurp noydir Memento vom 28 September 2020 im Internet Archive meta tags de Google fuhrt die humans txt ein In GWB 7 Mai 2011 abgerufen am 2 August 2016 Wir sind Menschen nicht Maschinen In humanstxt org Abgerufen am 2 August 2016 humans txt von google com Google abgerufen am 2 August 2016 Abgerufen von https de wikipedia org w index php title Robots Exclusion Standard amp oldid 239327017