Möchte man eine Webseite nicht von der Wayback Machine (archive.org) archiviert haben, so gibt es eine einfache Möglichkeit um dies zu verhindern. Im Hauptverzeichnis erstellt man eine Datei namens “robots.txt”, welche im Fall der Domain “blogix.net” über “http://www.blogix.net/robots.txt” erreichbar sein muss. In die Datei “robots.txt” schreibt man folgendes:
User-agent: ia_archiver Disallow: /
Dies verbietet “ia_archiver” (Wayback Machine) den Zugriff auf das Wurzelverzeichnis (“/”). Selbstverständlich kann auch jeder beliebige andere Pfad angegeben werden. “/preislisten/” beispielsweise würde das Archivieren von “http://www.blogix.net/preislisten/” und dessen Dateien und Unterverzeichnisse verbieten.
Bereits erzeugte Abbilder der Webseite werden mit dieser Anweisung ebenfalls aus dem Archiv entfernt. Berücksichtigen muss man allerdings, dass es mehrere Woche dauern kann, bis die Seite reindiziert und somit die Aufforderung zur Entfernung gefunden wird. Etwas beschleunigen kann man dies, indem man explizit einen Antrag auf (Re-)Indizierung stellt.
Verwandte Beiträge
- Erstellen und zur Verfügung stellen von Sitemaps (sitemap.xml)
- Robots-Exclusion-Standard-Protokoll: robots.txt
25. October 2008 - 08:54
Keine Demenz: Zurück in die Vergangenheit von Websites…
Stellen Sie sich doch einfach mal vor, sämtliche Schandtaten Ihres Lebens würden minutiös aufgezeichnet und wären auch nach Jahren noch öffentlich abrufbar. Gibt’s nicht? Gibt’s doch! Diese Woche wollte ein Kunde von mir wissen, warum …