Bot « Schnurpsel

robots.txt im Google-Index, sind die Jecken wieder los?

16.02.2012 12:58 von schnurpselchen in Internet

Es ist ja ganz interessant, bei Google ab und zu nach der eigenen Domain zu suchen. Da gibt es z.B. allerlei lustige Bewertungsseiten, die tolle Zahlen für die Domain ausrechnen.

Etwas überrascht war ich heute, schnurpsel.de in einer robots.txt als Suchergebnis zu finden.

Einerseits, wieso nimmt Google überhaupt eine robots.txt als Treffer in die Suchergebnisse aus? Ich meine, das ist doch eine Steuerungsdatei für Bots und nichts für den normalen Nutzer.

Andererseits, wieso steht da meine Seite in der robots.txt von SeoBunny? Gut, SeoBunny ist in manchen Dingen etwas eigen, aber was soll schnurpsel.de (und auch tagseoblog.de) in der robots.txt-Datei?

Naja, könnte vielleicht am Beginn der närrischen Zeit liegen.

Mein Webhoster hat mir gerade ein Angebot mit dem Betreff geschickt:
Jecke Domainpreisen – 50% Rabatt

Sehr geehrte Kunden,

seit heute sind wieder die Jecken los. Als Hoster mit Sitz in der Karnevalshochburg Köln feiern wir die fünfte Jahreszeit mit sagenhaften Karnevalsrabatten. Profitieren Sie jetzt von 50 % Rabatt auf drei verschiedene DE-Domainendungen. …

Na dann ist ja alles klar. :-)

Ein Kommentar »

Warum folgt Google URLs, die gar keine Links sind?

12.10.2011 17:20 von schnurpselchen in Internet, Technik

404 Not found

In den Google-Webmastertools sehe ich mir hin und wieder unter „Diagnostics – Crawl Errors“ an, welche Probleme und Fehler der Googlebot beim Crawlen meiner Seiten gefunden hat. In letzter Zeit sind da für putzlowitsch.de einige „404 Not found“-Fehler dazu gekommen.

Nun wollte ich wissen, wer denn da mit falschen URLs auf meine Seiten verlinkt. Ganz neu ist das für mich nicht. So etwas passiert z.B., wenn jemand nur die verkürzte Darstellung eines Links und nicht die URL selbst von einer anderen Webseite kopiert und dann als Link verwendet.

Unter „Linked from“ habe ich mir also ein paar dieser „Bösewichte“ angesehen und war überrascht, das ich die von Google beanstandeten URLs dort gar nicht finden konnte. Zumindest sind sie auf den Seiten nicht als Link vorhanden, wohl aber als einfacher Text. Hier ein paar Beispiele als Screenshot:

: Google Webmastertools – KeinLink 1

: Google Webmastertools – KeinLink 2

: Google Webmastertools – KeinLink 3

: Google Webmastertools – KeinLink 4

Google auf Abwegen

Bei allen diesen Seiten ist der Linktext korrekt verlink (1) oder es ist gar kein Link vorhanden (2, 3 und 4). Die Sichbare URL ist für die Darstellung verkürzt. Genau diesen nur als Text vorhandenen, verkürzten URLs geht Google wie einem normalen Link nach und produziert somit selbst die 404er Fehler.

Ein weiteres Beispiel kommt von schnurpsel.de, die letzten beiden URLs in obigen Screenshot. In einem Artikel hatte ich etwas zum Google-URL-Redirector geschrieben und prompt versucht Google meinen symbolischen Beispielen zu folgen. Die dort auch nur als Text vorhandenen „URLs“ sind und waren nie verlinkt.

Link oder nicht Link

Meiner Meinung nach geht Google hier zu weit. Ich kann ja verstehen, daß Google möglichst alle Informationen erfassen will und allen Links folgt, aber ein Text ist nun mal kein Link, auch wenn er wie eine URL aussieht. Google tut sich damit selbst keinen Gefallen, denn es werden Ressourcen verschwendet und zudem wird die Anzeige in den Webmastertools mit wertlosen Informationen zugemüllt.

Ich finde diesen Diagnostic-Bereich in den Google-WMT ja wirklich gut und nützlich, hilft er mir doch dabei, mögliche Fehlerquellen auf meiner Website aufzuspüren. Wenn nun aber jede Menge Pseudo-Fehler angezeigt werden, geht die Übersicht verloren und ich übersehe vielleicht die echten Fehler.

Einfluß auf das Ranking?

Da es nicht nur fehlerhafte, weil verkürzte Text-URLs gibt, sondern vermutlich auf viele korrekte Links, stellt sich natürlich die Frage, ob sich das rankingtechnisch auswirkt. Kann über eine nur als Text notierte URL PageRank weitergegeben werden? Verwendet Google diese Texte nur als Link-Quelle für den Crawler? Wie wirken sich die vielen Fehler durch die Pseudo-Links auf die „verlinkte“ Seite aus?

Viele Fragen, auf die ich keine Antwort weiß.

Der Googlebot ist ganz schön zackig

19.08.2011 13:18 von schnurpselchen in Computer, Internet

Ich beobachte ja praktisch alles und jeden. :-)

Dabei ist mir in letzter Zeit aufgefallen, daß der Googlebot/2.1 (graue Linie) bei meiner Putzlowitsch-Seite sehr zackig vorgeht. Zumindest sieht das so aus, wenn man sich den zeitlichen Verlauf der pro Tag abgerufenen Seiten als Diagramm darstellen läßt.

Jeden zweiten Tag liegt er bei 1000 Seiten oder darunter, die Tage dazwischen bei ungefähr 1500 Seiten oder darüber.

Am 13.07. war der Bot besonders faul, da geht die Zacke fast bis zur Null-Linie runter. Der Bilderbot (Googlebot-Image, rote Linie) hält sich in letzter Zeit auch etwas zurück, wird aber zum Teil vom normalen Bot (Blaue Linie) bei den Bildern unterstützt.

In den Google-Webmastertools sieht das Diagramm übrigens ähnlich aus:

Ist bei Euch der Googlebot auch so zackig?

2 Kommentare »

Google Fehler 403 – da hat es den Bot zerlegt

22.03.2011 21:03 von schnurpselchen in Internet

Twitter ist ja für seine lustigen Fehlerseiten bekannt. Das ist doch mal eine nette Fehlerseite von Google mit dem zerfallenden Roboter. :-)

Der kann einem fast ein bißchen Leid tun, der arme Bot. Eigentlich bekommt man als normaler Nutzer diese Seite nicht zu sehen. Ich habe mal mit unterschiedlichen Browser-Kennungen (Useragent) rumprobiert und auf libwww-perl reagiert Google mit dem Fehler 403 – Zugriff verweigert. Man soll halt nicht die SERPs mit irgendwelchen Perl-Skripten abfragen oder wenigstens einen vernünftigen Useragenten eintragen.

Ich bin da bei meinen PHP-Skripten ehrlich und schreibe auch keinen normalen Browser rein, der ich nicht bin. Im Moment melde ich mich als „123GoogleRank/0.42“. Allerdings gibt es in letzter Zeit einige Abweichungen zwischen den erfaßten und sichtbaren Rankings. Da muß ich mal forschen, woran das liegen könnte…

Lustige Link-Liste lach

17.03.2011 22:35 von schnurpselchen in Internet

Heute gab es bei seokratie.de eine Diskussion über den Googlebot. Dieser holt sich wohl auch Seiten, die per robots.txt gesperrt sind.

Ich wollte es ja nicht glauben, denn ich habe z.B. ein paar Botfallen ausgelegt, in die regelmäßig nur die ganz wilden Bots rennen, die sich eben nicht an die Vorgaben in der Robots-Datei halten.

Nun habe ich mir mal eine meiner Seiten angeschaut, die von Anfang an jedem Bot alles verbietet. Mit der Google-Site-Abfrage ergibt sich da eine lustige Linkliste, praktisch ohne Inhalten und zum großen Teil auch ohne Seitentitel. Da wo es Seitentitel gibt, sind diese mehrere Jahre alt, denn ich hab mittlerweile die Titel etwas umgebaut.

Als ich damals gemerkt hatte, daß einige Seiten im Google-Index auftauchen, habe ich die komplette Website in den Webmastertools gesperrt. Seitdem (Dezember 2009) hält sich der Googlebot auch daran, wie ich in den Logfiles gesehen habe.

Ich könnte mir vorstellen, daß die robots.txt aus welchen Gründen auch immer kurzzeitig nicht erreichbar/lesbar war und der Bot daher angefangen hatte, die Seiten einzulesen. Kürzlich ist mir der Googlebot wegen eines Serverproblems in die Botfalle getappst. Bis ich das gemerkt hatte, war er für knapp eine Woche ausgesperrt. Das Ergbnis war deutlich zu sehen. :-)

Keine Kommentare »