Ich hatte zumindest auf Grund eines Verständnisproblems der Funktionsweise der Datei ‚robots.txt‘ schon Zweifel an mir oder am Googlebot gehabt. Denn eigentlich, da war ich mir sicher, respektiert der Googlebot, wie auch alle anderen seriösen Suchmaschinenroboter und sonstige Webcrawler, die Einträge in dieser Roboter-Steuerdatei.
Doch vor einiger Zeit war mir aufgefallen, das eine Seite, die ich explizit für alle Spider ausgeschlossen hatte, vom Googlebot eingelesen wurde und dann sogar in den Suchergebnislisten auftauchte. Zumindest dachte ich, das ich sie damit für alle Robots verboten hätte:
User-agent: * Disallow: /geheim
Das ging auch alles gut, bis ich auf die Idee kam, dem Googlebot zu verbieten, meine feeds mit in den Index aufzunehmen. Kein Problem, zwei Zeilen in der ‚robots.txt‘ hinzugefügt, die dann so aussah:
User-agent: * Disallow: /geheim User-agent: Googlebot Disallow: */feed/
Das mit den Feeds klappte auch gut, aber plötzlich wurde meine /geheim-Seite vom Googlebot gelesen und erschien einige Tage später sogar auf den Ergebnisseiten. Naja, dachte ich, der Googlebot ist ja auch nur (k)ein Mensch, der macht ja vielleicht auch mal Fehler. Bis ich dann der Sache vor ein paar Tagen nachgegangen bin.
Wo lag nun mein Denkfehler? Ich hatte angenommen, das der Eintrag mit ‚User-agent: *‘ für alle Spider gilt, und die jeweils explizit angegebenen ‚User-agent: Irgendwas‘ eben zusätzlich für diesen. Das ist aber mitnichten so.
Vielmehr gelten die Einträge mit ‚User-agent: *‘ nur für die Bots, die keinen explizit Eintrag haben. Alle namentlich genannten Bots interessieren sich nur für die unter ihrem Namen stehenden Anweisungen.
Richtig muß meine ‚robots.txt‘ also so aussehen:
User-agent: * Disallow: /geheim User-agent: Googlebot Disallow: */feed/ Disallow: /geheim
Nun klappts auch wieder mit dem Googlebot.