Statuscode « Schnurpsel

Nun gab es von Google die Quittung für den Ausfall der Putzlowitscher Zeitung am 5. Januar 2011. In den Webmastertools werden mir derzeit gut 1200 Fehler mit dem Statuscode 403 (Forbidden) angezeigt:

Googlebot Crawl-Errors: PZ am 9.1.2011

Ein Umzug mit Verzug

Am 5. Januar war der Google-Bot zuletzt gegen 1.30 Uhr bei putzlowitsch.de zu finden. Dann erfolgte seitens des Webhosters der Umzug auf einen neuen Server und somit bekamen alle dort gehosteten Seiten eine neue IP-Adresse. Für die dort registrierten Seiten war das auch kein Problem, nach kurzer Zeit waren die DNS-Server aktualisiert und Besucher und Suchmaschinenbots bekamen die Seiten wieder normal zu sehen.

Einige Seiten, die bei anderen Anbietern liegen, werden aber per DNS-A-Record auf den Webspace beim umgezogenen Server umgeleitet und da stimmte die IP-Adresse dann nicht mehr, weil diese Einträge nicht automatisch aktualisiert werden.

Gegen 7 Uhr hatte ich das bemerkt und zunächst den Eintrag für meine wichtigste Seite, die „Putzlowitscher Zeitung“, angepaßt. Im Laufe des Vormittags hatte sich dann auch fast alles wieder eingerenkt, die normalen Besucher und z.B. der Yahoo-Bot (gegen 8.30 Uhr) und der Bing-Bot (gegen 9.30 Uhr) kamen wieder auf die Seite.

Nur der Googlebot ließ sich nicht blicken. Erst am 6. Januar hat er gegen 2.30 Uhr wieder die Putzlowitsch-Seite besucht. Ungünstigerweise ist er außerdem noch in meine Bot-Falle getappt, denn auch die robots.txt war für ihn mehr als 24 Stunden nicht abrufbar. Somit gab es aus Sicht des Google-Bots keinerlei Zugriffsbeschränkungen.

Abgewertet, ersetzt und rausgeschmissen

Seit gestern verabschieden sich so langsam auch einige meiner Seiten, besonders Bilder, aus den Google-Suchergebnissen.

Dabei kann man drei unterschiedliche Ergebnisse sehen. Im einfachsten Fall werden die Bilder zunächst nur um ein paar Plätze im Ranking abgewertet. Je nach Position hat das auch die Verschiebung auf eine hintere Trefferseite zur Folge. Vermutlich ist das aber nur ein Zwischenschritt zum zweiten und dritten Fall.

Falls es eine identische Kopie oder das Bild in einer weiteren Version auf einer anderen Webseite gibt, wird nun die Kopie angezeigt, aber an einer schlechteren Trefferposition. So ist das z.B. bei der Kartoffel der Fall (siehe Screenshot). Mein Kartoffelbild lag in den letzten Wochen recht konstant auf Platz vier, die Kopie wurde nun an Position 8 einsortiert. Interessanterweise wird bei der Suche nach „Ähnlichen Bilder“ aber weiterhin meine Kartoffel angezeigt.

Im schlimmsten Fall sind Bilder ganz aus den Suchergebnissen verschwunden. So ist es z.B. den Kartoffeln, der Karotte und der Möhre ergangen.

Positiv denken

Etwas Gutes hat die Sache natürlich. So kann man mal sehen was passiert, wenn plötzlich gut rankende Bilder gesperrt werden und wo es eventuell noch andere Kopien der Bilder gibt. Der Witz ist, daß ich genau so etwas gerade als kleines Experiment in Angriff nehmen wollte, allerdings nicht in dieser Breite mit so vielen Bildern. :-)

Leider ist auch mein Bilder-SERPs-Überwachungstool noch nicht ganz fertig, so daß ich nun ständig „manuell“ nachgucken muß, was mit den Bildern passiert. Ich bin auch mal gespannt, wann sich alles wieder normalisiert. Dann könnte ich ja nochmal mit meinem eigentlichen Experiment durchstarten.

Crawling-Fehler Google-Webmastertools

Komischer Link

Hin und wieder schaue ich mal in die Google-Webmastertools, wie es so um meine Seiten bestellt ist. Neben allerlei anderen, nützlichen Sachen gibt es auch eine Übersicht, welche Probleme es möglicherweise beim Abfragen der Seiten durch den Google-Bot in letzter Zeit gab. Und diese Übersicht zeigt mir im Moment dieses hier an.

Gut, die Fehler 1,2 und 4 sind klar, die kann ich nachvollziehen, aber was bitte ist Fehler 3?

/warning_this_is_english_domain_to_solve_this_problem_submit_site_in_atoall.com.html

Wenn ich irgend sowas Seltsames finde, suche ich erstmal bei Google, was das denn bedeuten könnte. Das Ergebnis hat mich dann doch überrascht. Diese komische, nichtexistierende Seite gibt es auf einigen Tausend Domains. Wenn man die Suche nur auf deutsche Seiten beschränkt, findet man sogar prominente Seiten wie www.ard.de oder www.wetter.de.

Aber wieso nimmt Google diese vermutlich nicht wirklich existierenden Seiten in den Index auf, die offensichtlich Ergebnis einer, wie auch immer gearteten Spamaktion sind?

HTTP-Statuscode

Hier kommt nun der HTTP-Statuscode ins Spiel, denn was im Fehlerfall dem Nutzer angezeigt wird, ist das eine. Viel wichtiger ist aber, mit welchem Antwortcode die Seite ihr Ergebnis zurückliefert. Bei einem „normalen“ Fehler, wie z.B. einer nichtexistierenden Seite, sollte das der Code 404 Not Found sein. Zu den Statuscodes hatte ich bereits vor einiger Zeit etwas geschrieben. Was machen aber alle die Seiten, die man in der Google-Suche zu der seltsamen URL findet. Sie geben einfach den Code 200 Ok zurück, damit geht der Google-Bot davon aus, daß die Seite existiert, und nimmt sie in den Index auf.

Manche Seiten zeigen zumindest dem Nutzer an, daß ein Fehler aufgetreten ist. Die zwei oben genannten Beispiele tun aber so, als sei alles in Ordnung und präsentieren dem Nutzer die Startseite. Das finde ich ohnehin immer ein Unding, weil der Nutzer überhaupt nicht mitbekommt, das etwas nicht stimmt. Gut, man muß nun den User auch nicht unbedingt mit einer spartanischen Fehlermeldung wie hier auf schnurpsel.de erschrecken, aber so zu tun, als sei nichts passiert, ist auch nicht der richtige Weg. Wenigstens sollte man den Statuscode 404 ausliefern, den sieht der Nutzer ja nicht.

Meine Deutung

Ich würde diese Sache mal als Webmaster-Spam verbuchen, denn die Treffer in der Google-Suche findet man nur mit der vollständigen URL. Hätte der „Spamerfinder“ es auf Google-Treffer abgesehen, hätte er die einzelnen Wörter mit Bindestrichen und nicht mit Unterstrichen trennen müssen.

Aber Webmaster, die sich entweder mit den Google-Webmaster-Tools oder einfach mit den Errorlogs des Webservers die Fehler hin und wieder ansehen, stoßen auf diese URL. Eventuell ist ja der eine oder andere Neugierig, zumal der gelesene URL-Text irgendwie nach einer Systemmeldeung klingt, und besucht die Seite am Ende der URL. Naja, und was er da dann findet…

Nachtrag (2.11.):
Der Sachverhalt mit den komischen URLs ist schon jemandem 10 Tage vor mir aufgefallen, wie ich hierrüber entdeckt habe. Ähmmm, stand ja auch schon im ersten Kommentar. Ich sollte die Kommentare mal ernst nehmen :-)

Beste Grüße nach Görlitz :-)

M	D	M	D	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30