Robots.txt
Die Datei Robots.txt wird im Robots Exclusion Protocol definiert und lässt den Webmaster festlegen welche Dokumente nicht von einem Suchmaschinen-Robot besucht werden sollen.
Übersicht
Wo gehört die Robots.txt hin
Aufbau
Beispiele
Alternative: Robots META tag
Was es noch zu beachten gibt
Wo gehört die Robots.txt hin
Wenn ein Suchmaschinen-Robot eine Webseite besucht ruft er zuerst die Datei "/robots.txt" ab.
Sagen wir zum Beispiel ein Suchmaschinen-Robot will die Seite http://www.einedomain.de/asd/xy.html besuchen, so wird er zuerst http://www.einedomain.de/robots.txt abrufen und prüfen ob er auf die Seite zugreifen darf.
Speicherort einer Robots.txt ist also immer der
Root der Internetpräsenz.
| Site URL | Zugehörige Robots.txt URL |
| http://www.einedomain.de/ | http://www.einedomain.de/robots.txt |
| http://www.einedomain.de:80/ | http://www.einedomain.de:80/robots.txt |
| http://www.einedomain.de:1234/ | http://www.einedomain.de:1234/robots.txt |
| http://einedomain.de/ | http://einedomain.de/robots.txt |
So hingegen bringt eine Robots.txt nichts
http://www.einedomain.de/bla/robots.txt
ftp://ftp.einedomain.de/robots.txt
Sollten Sie, wie bei den meisten Free-Hostern, keinen Zugriff auf die robots.txt haben gibt es die Alternative des Robots Meta Tags, auf welche ich später näher eingehe.
Aufbau
Jeder Eintrag in der Robots.txt fängt mit dem Feld
User-agent an.
Wenn die nachfolgenden
Disallow Anweisungen für mehr als einen Robot gelten sollen kann pro Zeile ein weiterer User-agent angegeben werden.
Jede
Disallow Anweisung kommt ebenfalls in eine eigene Zeilen
User-agent
Definiert für welchen Robot die Disallow Anweisungen gelten.
* gilt für alle Robots
In der
Web Robots Datenbank erhalten Sie eine Übersicht über die User Agents vieler Web-Robots.
Disallow
Definiert welche Verzeichnisse und Dokumente nicht besucht werden sollen.
Pro Zeile wird eine Disallow Anweisung angegeben.
Ist kein Wert angegeben darf der Robot auf alle Dokumente zugreifen.
Es muss pro User-agent Eintrag mindesten eine Disallow Anweisung vorhanden sein.
Kommentare
Kommentare können mit
# wie folgt eingefügt werden:
# dies ist eine robots txt
# mit tollen kommentaren!
User-Agent: *
Disallow: /privat/ # private dokumente
Beispiele
Allen Robots das Spidern der gesamten Webseite erlauben:
# robots.txt für http://www.meinewebseite.de/
User-agent: *
Disallow:
Keinem Robot das Spidern der gesamten Webseite erlauben:
# robots.txt für http://www.meinewebseite.de/
User-agent: *
Disallow: /
Einzelnen Robots das Spidern der gesamten Webseite erlauben:
# robots.txt für http://www.meinewebseite.de/
# Google ist cool genug
User-agent: Googlebot
Disallow:
User-agent: *
Disallow: /
Allen Robots das Spidern gewisser Teile der Webseite verbieten:
# robots.txt für http://www.meinewebseite.de/
User-agent: *
Disallow: /verzeichnis/ # Alle Dokumente in diesem Verzeichnis sollen nicht besucht werden
Disallow: /temp/
Disallow: /kontakt.html
Allen Robots das Spidern gewisser Teile der Webseite verbieten:
# robots.txt für http://www.meinewebseite.de/
User-agent: *
Disallow: /verzeichnis/ # Alle Dokumente in diesem Verzeichnis sollen nicht besucht werden
Disallow: /temp/
Disallow: /kontakt.html
Alternative: Robots META tag
Die Alternative zur Robots.txt Datei ist das Robots Meta Tag.
Wie alle Meta Tags wir es in den Header(
headercontent ) einer HTML Seite eingefügt.
<META NAME="ROBOTS" CONTENT="">
Der Wert des Content Feldes kann wie folgt aussehen:
noindex,nofollow = Seite nicht auslesen, Links nicht folgen
index,nofollow = Seite auslesen, Links nicht folgen
noindex,follow = Seite nicht indexieren, aber den Links folgen
index,follow = Seite auslesen, allen Links folgen
Google akzeptiert darüber hinaus noch folgende Angaben im Content-Feld:
NOARCHIVE - es wird keine Cache Version der Seite bei Google angezeigt
NOSNIPPET - es wird keine Beschreibung in den Google
SERPS angezeigt
NOODP - Google greift nicht auf die
ODP Beschreibung einer Seite zurück
NONE - "NOINDEX, NOFOLLOW"
Siehe dazu auch
Googles Umgang mit dem Robots Meta Tag
Was es noch zu beachten gibt
Die Robots.txt ist nur eine Richtlinie an welche sich Suchmaschinen-Robots halten sollen, dies aber nicht zwangsläufig müssen.
Somit schützt eine Robots.txt
keinesfalls vor bösen Robots wie zB email-harvestern