Bots der Suchmaschinen und einige Webcrawler prüfen, bevor sie über eine Webseite herfallen, ob unter der betreffenden Domain eine "robots.txt" vorhanden ist.
Geld verdienen
verschiedene Möglichkeiten
Kostenlose Tools
Templates, Icons und Webspace
Suchmaschinen
Rankings verbessern
Soll also "http://www.test.de" gescannt werden, dann wird bei der ersten Anfrage nach der Datei "http://www.test.de/robots.txt" gefragt. Allerdings machen nicht alle Suchmaschinen und Webcrawler diese Überprüfung.
Hierfür sind eigentlich nur 2 Zeilen in der robots.txt notwendig:
Die erste Zeile ("User-agent:") gibt an, welcher Suchmaschinenbot bzw. Webcrawler betroffen ist und die zweite Zeile gibt an, was alles für ihn gesperrt ist.
# Google für alle Verzeichnisse und Dateien sperren
# Googles Bildersuchmaschine für meine privaten Bilder sperren
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Image
Disallow: /meinePrivatenBilder/
Zeilen, die mit einem "#" beginnen, sind wie in manchen Programmier- und Skriptsprachen lediglich Kommentare, die dem Webmaster zur Übersichtlichkeit dienen, aber vom Bot ignoriert werden.
Abgesehen von "Disallow:" gibt es noch "Allow:". Hiermit kann ein Verzeichnis oder eine Datei freigegeben werden, der Rest ist automatisch gesperrt:# Googles Bildersuchmaschine nur auf die öffentlichen Bilder loslassen
User-agent: Googlebot-Image
Allow: /meineOeffentlichenBilder/
Einträge in der "robots.txt" müssen immer Blöcke aus 2 Zeilen sein. In der ersten Zeile wird angegeben, welchen Suchmaschinenbot oder Webcrawler die Anweisung betrifft und in der zweiten Zeile worin die Anweisung besteht. Wenn zwei Anweisungen für den selben Bot gegeben werden sollen, muss der Bot auch zweimal genannt werden.
Abgesehen von "Allow:" und "Disallow:" gibt es noch:
"Crawl-delay:" ist eine Zahl in Sekunden, die zwischen den einzelnen Anfragen gewartet werden soll.
Nach "Sitemap:" kann eine URL zur Sitemap der Webseite angegeben werden.
Liste von möglichen "User-agent:"-Werten# Yahoo ausbremsen (20 Sekunden Zeit lassen zwischen einzelnen Anfragen)
# Sitemap für alle Bots angeben
User-agent: YahooSeeker
Crawl-delay: 20
User-agent: *
Sitemap: http://test.de/sitemap.php