Weblog

.NET Webbrowser Control mit Proxy nutzen
Traffic und Verdienst einer TOP 10 Poker Seite
Dies und Das - Improved Flash indexing, Neue Yigg Version, Google Affiliate Network

Seo Tools

Web Utilities

Tutorials

Hilfreich

Informationen

Lexikon

A | B | C | D | E | F | G | H | I | J | K | L | M | N | O | P | Q | R | S | T | U | V | W | X | Y | Z |


Kontakt
David Wenzel
Herforder Straße 48
33602 Bielefeld
0521/3291924
webmaster@stalkpire.org
Suchmaschinenoptimierung

Robots.txt

Die Datei Robots.txt wird im Robots Exclusion Protocol definiert und lässt den Webmaster festlegen welche Dokumente nicht von einem Suchmaschinen-Robot besucht werden sollen.

Übersicht

Wo gehört die Robots.txt hin
Aufbau
Beispiele
Alternative: Robots META tag
Was es noch zu beachten gibt

Wo gehört die Robots.txt hin

Wenn ein Suchmaschinen-Robot eine Webseite besucht ruft er zuerst die Datei "/robots.txt" ab. Sagen wir zum Beispiel ein Suchmaschinen-Robot will die Seite http://www.einedomain.de/asd/xy.html besuchen, so wird er zuerst http://www.einedomain.de/robots.txt abrufen und prüfen ob er auf die Seite zugreifen darf.
Speicherort einer Robots.txt ist also immer der Root der Internetpräsenz.
Site URLZugehörige Robots.txt URL
http://www.einedomain.de/http://www.einedomain.de/robots.txt
http://www.einedomain.de:80/http://www.einedomain.de:80/robots.txt
http://www.einedomain.de:1234/http://www.einedomain.de:1234/robots.txt
http://einedomain.de/http://einedomain.de/robots.txt


So hingegen bringt eine Robots.txt nichts
http://www.einedomain.de/bla/robots.txt
ftp://ftp.einedomain.de/robots.txt

Sollten Sie, wie bei den meisten Free-Hostern, keinen Zugriff auf die robots.txt haben gibt es die Alternative des Robots Meta Tags, auf welche ich später näher eingehe.

Aufbau

Jeder Eintrag in der Robots.txt fängt mit dem Feld User-agent an. Wenn die nachfolgenden Disallow Anweisungen für mehr als einen Robot gelten sollen kann pro Zeile ein weiterer User-agent angegeben werden. Jede Disallow Anweisung kommt ebenfalls in eine eigene Zeilen

User-agent
Definiert für welchen Robot die Disallow Anweisungen gelten.
* gilt für alle Robots
In der Web Robots Datenbank erhalten Sie eine Übersicht über die User Agents vieler Web-Robots.

Disallow
Definiert welche Verzeichnisse und Dokumente nicht besucht werden sollen.
Pro Zeile wird eine Disallow Anweisung angegeben. Ist kein Wert angegeben darf der Robot auf alle Dokumente zugreifen. Es muss pro User-agent Eintrag mindesten eine Disallow Anweisung vorhanden sein.

Kommentare
Kommentare können mit # wie folgt eingefügt werden:
# dies ist eine robots txt
# mit tollen kommentaren!
User-Agent: *
Disallow: /privat/ # private dokumente

Beispiele

Allen Robots das Spidern der gesamten Webseite erlauben:
# robots.txt für http://www.meinewebseite.de/

User-agent: *
Disallow:

Keinem Robot das Spidern der gesamten Webseite erlauben:
# robots.txt für http://www.meinewebseite.de/

User-agent: *
Disallow: /

Einzelnen Robots das Spidern der gesamten Webseite erlauben:
# robots.txt für http://www.meinewebseite.de/
# Google ist cool genug
User-agent: Googlebot
Disallow:

User-agent: *
Disallow: /


Allen Robots das Spidern gewisser Teile der Webseite verbieten:
# robots.txt für http://www.meinewebseite.de/

User-agent: *
Disallow: /verzeichnis/ # Alle Dokumente in diesem Verzeichnis sollen nicht besucht werden
Disallow: /temp/
Disallow: /kontakt.html

Allen Robots das Spidern gewisser Teile der Webseite verbieten:
# robots.txt für http://www.meinewebseite.de/

User-agent: *
Disallow: /verzeichnis/ # Alle Dokumente in diesem Verzeichnis sollen nicht besucht werden
Disallow: /temp/
Disallow: /kontakt.html

Alternative: Robots META tag

Die Alternative zur Robots.txt Datei ist das Robots Meta Tag. Wie alle Meta Tags wir es in den Header( headercontent ) einer HTML Seite eingefügt.
<META NAME="ROBOTS" CONTENT="">
Der Wert des Content Feldes kann wie folgt aussehen:
noindex,nofollow = Seite nicht auslesen, Links nicht folgen
index,nofollow = Seite auslesen, Links nicht folgen
noindex,follow = Seite nicht indexieren, aber den Links folgen
index,follow = Seite auslesen, allen Links folgen

Google akzeptiert darüber hinaus noch folgende Angaben im Content-Feld:
NOARCHIVE - es wird keine Cache Version der Seite bei Google angezeigt
NOSNIPPET - es wird keine Beschreibung in den Google SERPS angezeigt
NOODP - Google greift nicht auf die ODP Beschreibung einer Seite zurück
NONE - "NOINDEX, NOFOLLOW"
Siehe dazu auch Googles Umgang mit dem Robots Meta Tag

Was es noch zu beachten gibt

Die Robots.txt ist nur eine Richtlinie an welche sich Suchmaschinen-Robots halten sollen, dies aber nicht zwangsläufig müssen. Somit schützt eine Robots.txt keinesfalls vor bösen Robots wie zB email-harvestern