Die robots.txt Datei

Bots der Suchmaschinen und einige Webcrawler prüfen, bevor sie über eine Webseite herfallen, ob unter der betreffenden Domain eine "robots.txt" vorhanden ist.

Geld verdienen
verschiedene Möglichkeiten

Kostenlose Tools
Templates, Icons und Webspace

Suchmaschinen
Rankings verbessern




Soll also "http://www.test.de" gescannt werden, dann wird bei der ersten Anfrage nach der Datei "http://www.test.de/robots.txt" gefragt. Allerdings machen nicht alle Suchmaschinen und Webcrawler diese Überprüfung.

Suchmaschine oder Webcrawler sperren

Hierfür sind eigentlich nur 2 Zeilen in der robots.txt notwendig:

  • User-agent:
  • Disallow:

Die erste Zeile ("User-agent:") gibt an, welcher Suchmaschinenbot bzw. Webcrawler betroffen ist und die zweite Zeile gibt an, was alles für ihn gesperrt ist.

Hier ist ein Beispiel:

# Google für alle Verzeichnisse und Dateien sperren
User-agent: Googlebot
Disallow: /

# Googles Bildersuchmaschine für meine privaten Bilder sperren
User-agent: Googlebot-Image
Disallow: /meinePrivatenBilder/

Zeilen, die mit einem "#" beginnen, sind wie in manchen Programmier- und Skriptsprachen lediglich Kommentare, die dem Webmaster zur Übersichtlichkeit dienen, aber vom Bot ignoriert werden.

Abgesehen von "Disallow:" gibt es noch "Allow:". Hiermit kann ein Verzeichnis oder eine Datei freigegeben werden, der Rest ist automatisch gesperrt:

# Googles Bildersuchmaschine nur auf die öffentlichen Bilder loslassen
User-agent: Googlebot-Image
Allow: /meineOeffentlichenBilder/

weitere Anweisungen

Einträge in der "robots.txt" müssen immer Blöcke aus 2 Zeilen sein. In der ersten Zeile wird angegeben, welchen Suchmaschinenbot oder Webcrawler die Anweisung betrifft und in der zweiten Zeile worin die Anweisung besteht. Wenn zwei Anweisungen für den selben Bot gegeben werden sollen, muss der Bot auch zweimal genannt werden.

Abgesehen von "Allow:" und "Disallow:" gibt es noch:

  • Crawl-delay:
  • Sitemap:

"Crawl-delay:" ist eine Zahl in Sekunden, die zwischen den einzelnen Anfragen gewartet werden soll.
Nach "Sitemap:" kann eine URL zur Sitemap der Webseite angegeben werden.

Beispiel:

# Yahoo ausbremsen (20 Sekunden Zeit lassen zwischen einzelnen Anfragen)
User-agent: YahooSeeker
Crawl-delay: 20

# Sitemap für alle Bots angeben
User-agent: *
Sitemap: http://test.de/sitemap.php
Liste von möglichen "User-agent:"-Werten