Das Robots-Exclusion-Standard-Protokoll besagt, dass Suchmaschinen (Robots) zuerst im Root-Verzeichnis der Webseite nach der Datei robots.txt suchen müssen, bevor sie sonstige Dateien der Webseite auslesen. In der Datei robots.txt wird definiert, welche Ordner und Dateien einer Webseite nicht gelesen werden dürfen. Suchmaschinen können diese Regeln beachten, eine Verpflichtung das Robots-Exclusion-Standard-Protokoll zu verwenden, gibt es allerdings nicht.
Freundliche Suchmaschinen (Google, Yahoo, MSN,…) befolgen die in der Datei robots.txt definierten Regeln. Böse Suchmaschinen (etwa zum Sammeln von E-Mail-Adressen) befolgen diese Regeln vermutlich nicht, womöglich werden sie bevorzugt verbotene Seiten besuchen. Dennoch ist der Einsatz von robots.txt-Dateien sinnvoll: Logdateien, Loginformulare und dgl., die über eine Suchmaschine nicht gefunden werden sollen/müssen, können so ausgenommen werden. Auch ist es möglich nur bestimmten Suchmaschinen den Zugriff zu verwehren.
Suchmaschinen die das Robots-Exclusion-Standard-Protokoll befolgen, versuchen vor dem Aufruf einer Seite die Datei robots.txt zu laden. Bevor eine freundliche Suchmaschine die Seite http://www.blogix.net/category/allgemeines/ indiziert, lädt sie http://www.blogix.net/robots.txt – angenommen diese würde die folgenden Regeln beinhalten:
User-agent: Google Disallow: User-agent: * Disallow: /cgi-bin/ Disallow: /images/ Disallow: /datei.htm
Google würden wir hiermit erlauben, alle Seiten zu indizieren, da kein Verbot besteht. Alle anderen freundlichen Suchmaschinen würden die Ordner /cgi-bin/, /images/ und alle darin enthaltenen Ordner und Dateien und die Datei /datei.htm nicht indizieren. Der Aufbau bzw. das Schema beseht immer aus der Zeile User-agent: gefolgt vom Namen der Suchmaschine und beliebig vielen weiteren Zeilen Disallow: gefolgt vom auszunehmenden Ordner bzw. der auszunehmenden Datei. Als Platzhalter kann ein Asterisk (*) verwendet werden, Regeln wie Disallow: *.gif sind allerdings nicht erlaubt.
Verwandte Beiträge
- Erstellen und zur Verfügung stellen von Sitemaps (sitemap.xml)
- Der gläserne Mensch II
- Wie lange dauert es bis meine Seite auf Google erscheint?
- Marktanteile der Betriebssysteme, Browser und Suchmaschinen
- Anzeige von DMOZ-Beschreibung in Suchmaschinen unterbinden
Recent Comments