Das Putzlowitsch Test- und SEO-Blog

robots.txt richtig verstehen und verwenden

Ich hatte zumindest auf Grund eines Verständnisproblems der Funktionsweise der Datei ‚robots.txt‘ schon Zweifel an mir oder am Googlebot gehabt. Denn eigentlich, da war ich mir sicher, respektiert der Googlebot, wie auch alle anderen seriösen Suchmaschinenroboter und sonstige Webcrawler, die Einträge in dieser Roboter-Steuerdatei.
Doch vor einiger Zeit war mir aufgefallen, das eine Seite, die ich explizit für alle Spider ausgeschlossen hatte, vom Googlebot eingelesen wurde und dann sogar in den Suchergebnislisten auftauchte. Zumindest dachte ich, das ich sie damit für alle Robots verboten hätte:

User-agent: *
Disallow: /geheim

Das ging auch alles gut, bis ich auf die Idee kam, dem Googlebot zu verbieten, meine feeds mit in den Index aufzunehmen. Kein Problem, zwei Zeilen in der ‚robots.txt‘ hinzugefügt, die dann so aussah:

User-agent: *
Disallow: /geheim

User-agent: Googlebot
Disallow: */feed/

Das mit den Feeds klappte auch gut, aber plötzlich wurde meine /geheim-Seite vom Googlebot gelesen und erschien einige Tage später sogar auf den Ergebnisseiten. Naja, dachte ich, der Googlebot ist ja auch nur (k)ein Mensch, der macht ja vielleicht auch mal Fehler. Bis ich dann der Sache vor ein paar Tagen nachgegangen bin.

Wo lag nun mein Denkfehler? Ich hatte angenommen, das der Eintrag mit ‚User-agent: *‘ für alle Spider gilt, und die jeweils explizit angegebenen ‚User-agent: Irgendwas‘ eben zusätzlich für diesen. Das ist aber mitnichten so.
Vielmehr gelten die Einträge mit ‚User-agent: *‘ nur für die Bots, die keinen explizit Eintrag haben. Alle namentlich genannten Bots interessieren sich nur für die unter ihrem Namen stehenden Anweisungen.
Richtig muß meine ‚robots.txt‘ also so aussehen:

User-agent: *
Disallow: /geheim

User-agent: Googlebot
Disallow: */feed/
Disallow: /geheim

Nun klappts auch wieder mit dem Googlebot.

Weitere Artikel mit Bezug zu diesem:
Keine Kommentare »

Blog den ersten Tag am Start

Da ist mein Blog hier grad mal seit heute am Start, und schon habe ich, wie ich grad sehe, so einige Feed-Abonnenten. Ok, ich bin selber schuld, habe ich doch den Link selbst im WP-Deutschland-Forum gepostet.

Ich möchte aber ausdrücklich darauf hinweisen, daß sich hier alles im Versuchs-, Bastel- und Experimentierstadium befindet. Gut möglich also, daß das ganze Blog, Teile davon oder das gesamte Internet zeitweise deswegen nicht funktionieren :-)

Oh, und ich habe auch soeben festgestellt, daß ich die standardmäßig eingetragenen zwei Ping-Services noch drin hab. Die fliegen sonst bei meinen Testblogs als erstes raus. Jetzt laß ich sie einfach mal drin. Ich sollte unbedingt aber mal alle Einstellungen durchgehen und überprüfen…

Weitere Artikel mit Bezug zu diesem:
Keine Kommentare »