robots « Schnurpsel

Gewinner und Verlierer in der Bildersuche KW 18/2013

06.05.2013 10:40 von schnurpselchen in Bildersuche, Internet

Aufsteiger

Es hatte sich bereits in den letzten Wochen abgezeichnet, die Bildkopie-Galerie bild10.com steigt nun in die Bidox-Top-100 ein. Mit einem bidox von 25,8 und fast 600 Bildern schafft es die Domain auf Platz 81.

Das Rezept für diesen Erfolg ist immer noch recht einfach. Man kopiert einfach Bilder, die in der Bildersuche gut platziert sind, auf die eigene Seite und strickt ein paar automatische generierte Seiten drum herum. Martin Mißfeldt hatte das Problem auch kürzlich wieder in seinem TagSeoBlog thematisiert.

Der Aufstieg wird jetzt noch ein paar Woche so weiter gehen, bis Google eventuell doch mal etwas merkt. Allerdings nicht von alleine, sondern bestenfalls dann, wenn vielleicht ein Google-Mitarbeiter zufällig diesen Text hier liest oder jemand die Seite als Spam meldet.

Absteiger

Auch nicht erst seit letzter Woche ging es für den Preisvergleicher idealo.de bergab. Mit einem bidox von 31 und knapp 2500 Bildern lag man vor fünf Wochen noch auf Platz 63. Jetzt ist Idealo mit nur noch 48 Bildern und einem bidox von 0,8 praktisch in der Bedeutungslosigkeit (Platz 4050) versunken.

Über die Gründe für so deutliche Einbrüche im bidox kann man oft nur spekulieren. Abstrafung durch Google, technische Probleme, Änderungen an der Seitenstruktur oder der Konfiguration?

Bei Idealo sind die Probleme tatsächlich hausgemacht, wie eine kurze „Untersuchung“ ergab. Die Bilder und andere Dateien (z.B. JavaScript) sind auf ein CDN cdn.idealo.com ausgelagert. Dort gibt es auch eine robots.txt Datei, die wie folgt aussieht:

User-Agent: *
Disallow: /
Allow: /*produktbild_gross*

Eine durchaus sinnvolle Konfiguration, allen Bots alles zu verbieten und nur die großen Produktbilder zur Indexierung frei zu geben.

Allerdings heißen die großen Bilder seit einiger Zeit nicht mehr *produktbild_gross*, sondern *produktbild_max*. Deshalb werden die so umbenannten oder neuen Produktbilder von den Bots korrekterweise ignoriert.

Das Problem ist mit einer Anpassung der robots.txt leicht zu beheben. Scheinbar sind aber die Besucherzahlen über die Bildersuche bei Idealo nicht wirklich signifikant und so hat es wohl dort noch niemand bemerkt.

Auf und Ab

Nicht immer sind die Gründe für das Auf und Ab einer Domain im bidox so einfach zu erklären, wie in den obigen Beispielen. Auf jeden Fall sollte man aber bei Änderungen an der Seitenstruktur auch immer eine Blick in die beteiligten robots.txt-Dateien werfen, um eventuelle, so nicht beabsichtigte Effekte zu vermeiden.

6 Kommentare »

robots.txt im Google-Index, sind die Jecken wieder los?

16.02.2012 12:58 von schnurpselchen in Internet

Es ist ja ganz interessant, bei Google ab und zu nach der eigenen Domain zu suchen. Da gibt es z.B. allerlei lustige Bewertungsseiten, die tolle Zahlen für die Domain ausrechnen.

Etwas überrascht war ich heute, schnurpsel.de in einer robots.txt als Suchergebnis zu finden.

Einerseits, wieso nimmt Google überhaupt eine robots.txt als Treffer in die Suchergebnisse aus? Ich meine, das ist doch eine Steuerungsdatei für Bots und nichts für den normalen Nutzer.

Andererseits, wieso steht da meine Seite in der robots.txt von SeoBunny? Gut, SeoBunny ist in manchen Dingen etwas eigen, aber was soll schnurpsel.de (und auch tagseoblog.de) in der robots.txt-Datei?

Naja, könnte vielleicht am Beginn der närrischen Zeit liegen.

Mein Webhoster hat mir gerade ein Angebot mit dem Betreff geschickt:
Jecke Domainpreisen – 50% Rabatt

Sehr geehrte Kunden,

seit heute sind wieder die Jecken los. Als Hoster mit Sitz in der Karnevalshochburg Köln feiern wir die fünfte Jahreszeit mit sagenhaften Karnevalsrabatten. Profitieren Sie jetzt von 50 % Rabatt auf drei verschiedene DE-Domainendungen. …

Na dann ist ja alles klar. :-)

Ein Kommentar »

Google meint, ich hätte ein schwerwiegendes Probleme

07.02.2012 15:16 von schnurpselchen in Internet

Die Google-Webmaster-Tools (WMT) sind ja eine feine Sache, zeigen sie einem doch gegebenenfalls Probleme mit der eigenen Website auf. Wenn allerdings ständig ein vermeintliches, schwerwiegendes Problem angezeigt wird, welches gar keins ist, dann stumpft das den Blick auf die echten, möglicherweise vorhandenen Mängel mit der Zeit ab.

So meldet mir schon seit Monaten die WMT-Startseite bei einer Domain folgendes:

Es wurden schwerwiegende Probleme bezüglich des Status Ihrer Website gefunden.
Eine wichtige Seite wird durch robots.txt blockiert.

Warum die Seite nun für Google wichtig ist, weiß ich nicht. Zumindest habe ich bei vollem Bewußtsein und mit Absicht tatsächlich alle Bots per robots.txt ausgeschlossen:

User-agent: *
Disallow: /

Google kann sich wahrscheinlich nicht vorstellen, daß es Websites gibt, die nur für normale Nutzer gemacht wurden und deren Inhalt einfach nicht von den Crawlern erfaßt werden soll. Insbesondere sollen die Inhalte nicht in den Suchergebnissen von Suchmaschinen auftauchen. Punkt, aus, fertig.

Ich würde mir wünschen, daß ich als Webmaster in den Google-Webmaster-Tools solche Meldungen wegklicken kann. Nach dem Motto:
„Ich habe es gelesen aber es ist so beabsichtigt und kein Fehler. Die Meldung bitte nicht mehr anzeigen.“

Dann wäre auch der Blick auf die wirklichen Probleme wieder frei.

9 Kommentare »

Lustige Link-Liste lach

17.03.2011 22:35 von schnurpselchen in Internet

Heute gab es bei seokratie.de eine Diskussion über den Googlebot. Dieser holt sich wohl auch Seiten, die per robots.txt gesperrt sind.

Ich wollte es ja nicht glauben, denn ich habe z.B. ein paar Botfallen ausgelegt, in die regelmäßig nur die ganz wilden Bots rennen, die sich eben nicht an die Vorgaben in der Robots-Datei halten.

Nun habe ich mir mal eine meiner Seiten angeschaut, die von Anfang an jedem Bot alles verbietet. Mit der Google-Site-Abfrage ergibt sich da eine lustige Linkliste, praktisch ohne Inhalten und zum großen Teil auch ohne Seitentitel. Da wo es Seitentitel gibt, sind diese mehrere Jahre alt, denn ich hab mittlerweile die Titel etwas umgebaut.

Als ich damals gemerkt hatte, daß einige Seiten im Google-Index auftauchen, habe ich die komplette Website in den Webmastertools gesperrt. Seitdem (Dezember 2009) hält sich der Googlebot auch daran, wie ich in den Logfiles gesehen habe.

Ich könnte mir vorstellen, daß die robots.txt aus welchen Gründen auch immer kurzzeitig nicht erreichbar/lesbar war und der Bot daher angefangen hatte, die Seiten einzulesen. Kürzlich ist mir der Googlebot wegen eines Serverproblems in die Botfalle getappst. Bis ich das gemerkt hatte, war er für knapp eine Woche ausgesperrt. Das Ergbnis war deutlich zu sehen. :-)

Keine Kommentare »

Googlebot-Image am Limit?

27.04.2010 09:27 von schnurpselchen in Bildersuche, Internet

Seit ein paar Wochen fährt der Googlebot-Image/1.0 wohl am Limit und bekommt deshalb Unterstützung vom normalen Googlebot/2.1.

Gestern hat der Googlebot-Image 54 Bilder bei Putzlowitsch erfaßt, der normale Googlebot immerhin 47 Stück. In der vergangenen Woche haben sich beide Kollegen die Arbeit gut aufgeteilt, der Imagebot nahm sich 190 Bilder vor und der Normalbot 190.

In der Woche davor hatte der Imagebot sein Arbeitspensum mit 183 Bildern gut erfüllt, der normale Googlebot bekam allerdings ein Arbeitspensum vom gut 480 Bildern verpaßt.

Und noch eine Woche weiter zurück war das Verhältnis Imagebot/Googlebot 312/44, davor war es 310/62 und 442/76, also so wie sonst normalerweise auch.

Daß sich der normale Googlebot/2.1 auch vereinzelt um die Bilder kümmert, ist nichts Neues. Er hat bei mir aber meist nur die kleinen Thumbnails erfaßt, die direkt auf den Webseiten eingebunden sind. Seit etwa zwei Wochen holt sich der normale Bot aber auch viel mehr und vor allem auch die großen Bilder.

Wie ist das nun eigentlich mit der robots.txt? Wenn ich dort für den Googlebot-Image bestimmte Sachen gesperrt habe, nimmt diese dann der Hilfs-Image-Bot einfach doch mit, oder weiß er, daß er eigentlich der Imagebot ist, auch wenn er sich als was anderes ausgibt?

Keine Kommentare »