Komischer Spam und der HTTP-Statuscode

Crawling-Fehler Google-Webmastertools

Komischer Link

Hin und wieder schaue ich mal in die Google-Webmastertools, wie es so um meine Seiten bestellt ist. Neben allerlei anderen, nützlichen Sachen gibt es auch eine Übersicht, welche Probleme es möglicherweise beim Abfragen der Seiten durch den Google-Bot in letzter Zeit gab. Und diese Übersicht zeigt mir im Moment dieses hier an.

Gut, die Fehler 1,2 und 4 sind klar, die kann ich nachvollziehen, aber was bitte ist Fehler 3?

/warning_this_is_english_domain_to_solve_this_problem_submit_site_in_atoall.com.html

Wenn ich irgend sowas Seltsames finde, suche ich erstmal bei Google, was das denn bedeuten könnte. Das Ergebnis hat mich dann doch überrascht. Diese komische, nichtexistierende Seite gibt es auf einigen Tausend Domains. Wenn man die Suche nur auf deutsche Seiten beschränkt, findet man sogar prominente Seiten wie www.ard.de oder www.wetter.de.

Aber wieso nimmt Google diese vermutlich nicht wirklich existierenden Seiten in den Index auf, die offensichtlich Ergebnis einer, wie auch immer gearteten Spamaktion sind?

HTTP-Statuscode

Hier kommt nun der HTTP-Statuscode ins Spiel, denn was im Fehlerfall dem Nutzer angezeigt wird, ist das eine. Viel wichtiger ist aber, mit welchem Antwortcode die Seite ihr Ergebnis zurückliefert. Bei einem „normalen“ Fehler, wie z.B. einer nichtexistierenden Seite, sollte das der Code 404 Not Found sein. Zu den Statuscodes hatte ich bereits vor einiger Zeit etwas geschrieben. Was machen aber alle die Seiten, die man in der Google-Suche zu der seltsamen URL findet. Sie geben einfach den Code 200 Ok zurück, damit geht der Google-Bot davon aus, daß die Seite existiert, und nimmt sie in den Index auf.

Manche Seiten zeigen zumindest dem Nutzer an, daß ein Fehler aufgetreten ist. Die zwei oben genannten Beispiele tun aber so, als sei alles in Ordnung und präsentieren dem Nutzer die Startseite. Das finde ich ohnehin immer ein Unding, weil der Nutzer überhaupt nicht mitbekommt, das etwas nicht stimmt. Gut, man muß nun den User auch nicht unbedingt mit einer spartanischen Fehlermeldung wie hier auf schnurpsel.de erschrecken, aber so zu tun, als sei nichts passiert, ist auch nicht der richtige Weg. Wenigstens sollte man den Statuscode 404 ausliefern, den sieht der Nutzer ja nicht.

Meine Deutung

Ich würde diese Sache mal als Webmaster-Spam verbuchen, denn die Treffer in der Google-Suche findet man nur mit der vollständigen URL. Hätte der „Spamerfinder“ es auf Google-Treffer abgesehen, hätte er die einzelnen Wörter mit Bindestrichen und nicht mit Unterstrichen trennen müssen.

Aber Webmaster, die sich entweder mit den Google-Webmaster-Tools oder einfach mit den Errorlogs des Webservers die Fehler hin und wieder ansehen, stoßen auf diese URL. Eventuell ist ja der eine oder andere Neugierig, zumal der gelesene URL-Text irgendwie nach einer Systemmeldeung klingt, und besucht die Seite am Ende der URL. Naja, und was er da dann findet…

Nachtrag (2.11.):
Der Sachverhalt mit den komischen URLs ist schon jemandem 10 Tage vor mir aufgefallen, wie ich hierrüber entdeckt habe. Ähmmm, stand ja auch schon im ersten Kommentar. Ich sollte die Kommentare mal ernst nehmen :-)

Beste Grüße nach Görlitz :-)

Weitere Artikel mit Bezug zu diesem:

4 Reaktionen zu “Komischer Spam und der HTTP-Statuscode”

  1. Thorsten sagt:

    Sehr seltsam .. hab auch ein bischen geforscht und hab das gefunden:
    http://www.cix-blog.de/Suchmas...-im-Google-Index-787-2009.html

    … das ist wohl Spam für atoall.com

    Viele Grüsse
    Thorsten

  2. Wofür das ist, ist ja eindeutig, aber mal eine neue Idee. Zumindest hab ich sowas vorher noch nicht gesehen.

  3. Crawler-Chaos…

    Der Herausgeber der Putzlowitscher Zeitung hat ja ein Nebenprojekt, nennt sich “Schnurpsel“. Das ist nun nichts knuffiges, eine Plüschtiersammlung sonders was technisches. Aber keine Schrauben, Bolzen, Bretter und Drahtrollen sind dort die…

  4. Thorsten sagt:

    ja stimmt… mich würde interessieren wieviel Traffic da tatsächlich bei rum kommt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

 Hier kein Häkchen setzen
 Ich bin kein Spambot

Hinweis: Kommentare von bisher unbekannten Schreibern (Name und eMail) oder mit mehr als einem Link werden moderiert.