Tools « Schnurpsel

Google und die Textlinks sind keine Freunde

29.09.2012 17:52 von schnurpselchen in Internet, Technik

Links die keine sind

Mittlerweile habe ich mich fast schon daran gewöhnt, daß Google alles was auch nur annähernd nach URL aussieht, wie einen Link behandelt und entsprechend den Crawler darauf losläßt. Selbst unsinnige URLs mit drei Punkten in der Mitte oder am Ende werden verfolgt. Alle diese erfundenen URLs werden dann natürlich als Fehler in den Webmastertools gemeldet, denn der Webserver liefert einen „404 Not found“ zurück.

Nun bin ich kürzlich mal wieder so einer von Google ausgedachten URL nachgegangen. Meist kann man in den Webmastertools auch die Quelle des „Links“ sehen.

Das ist wieder so eine abgeschnittene URL, normalerweise geht es um diesen Artikel. Allerdings fehlen da die drei kleinen Punkte am Ende, mal sehen, was dort auf der „verlinkenden“ Seite verzapft wurde.

Einen richtigen Link zu meinem Artikel gibt es dort erwartungsgemäß nicht, aber zumindest ist die URL selbst textlich korrekt und unverkürzt dargestellt. Allerdings sind die Suchwörter, für die meine Artikel dort auf der Seite erscheint, hervorgehoben.

HTML als Stolperfalle

Im Quelltext der Seite sieht das dann so aus:

Zur Hervorhebung sind die Keywords mit dem HTML-Tag b als fett ausgezeichnet. Ich hätte ja nun irgendwie erwartet, daß Google mit HTML-Tags umgehen kann. Erstaunlicherweise hat nicht das erste HTML-Tag die URL-Raterunde beendet, sonder erst das zweite, schließenden Tag. Der Google-Link endet hinter …datenbank:
/sicher-ist-sicher-datenbank

Ich kann es gerne nochmal wiederholen. Wie auch die Erkennung der drei Punkte in den unsinnigen URLs würde das Entfernen der HTML-Tags wohl jeder mittelmäßige Programmierer hinbekommen. :-)
Ich hätte gedacht, daß Google bei der richtigen Interpretation von HTML etwas weiter ist.

Es ist ein Fehler

Selbst wenn ich die Verfolgung von mit drei Punkten verkürzten Textlinks für unsinnig und falsch halte, habe ich mich damit zumindest abgefunden. Aber nicht existierende URLs zu crawlen, die durch mangelhafte Interpretation von HTML entstehen, steht einem Weltkonzern wie Google schlecht zu Gesicht. Das sind aus meiner Sicht einfach nur Fehler.

Fehler sind ja auch dazu da, daß sie behoben werden können. Ich will mal hoffen, Google schafft das und kann sich dann wieder den echten Links und anderen Problemen zuwenden.

Google crawlt andere Suchmaschinen?

19.04.2012 11:20 von schnurpselchen in Internet

Fehlermeldung aus den Google Webmastertools:

„Der Googlebot konnte diese URL nicht crawlen, da keine zugehörige Seite existiert. Im Allgemeinen wirken sich 404-Codes nicht auf die Leistung Ihrer Website bei der Suche aus. Sie können sie jedoch zur Verbesserung der Nutzererfahrung verwenden.“

Zum einen ist das wieder mal kein Link, sondern nur eine verkürzte, textliche Darstellung. Ein Nutzer wird diesen „Link“ deshalb nie aufrufen, also muß ich auch nichts für die „Verbesserung der Nutzererfahrung“ tun. Der Link ist nur eine Google-Erfindung.

Viel interessanter ist meiner Meinung nach die angegebene Quelle des Links. Das sieht mir nach einer Suchergebnisseite der Yahoo-Bildersuche aus.

Ich dachte bisher immer, Google würde die Suchergebnisse der anderen großen Suchmaschinen nicht crawlen. Aber vielleicht ist es auch gar nicht so oder es war nur früher mal so oder ich bin einem Irrtum aufgesessen.

3 Kommentare »

Aprilscherz? Ich hätte Google für intelligenter gehalten.

05.04.2012 15:47 von schnurpselchen in Internet

Google auf Abwegen

Vor knapp einem halben Jahr hatte ich bereits berichtet, daß Google Links folgt, die gar keine sind. Irgendwer schrieb da auch in den Kommentaren, daß es vielleicht nur ein Test sein könnte. Gut möglich, Google probiert ja gerne mal Sachen aus. Ich erinnere mich noch an die ausgefüllten Suchformulare (/?s=suchbegriff) vor etwa vier Jahren. Das hatte sich dann irgendwann erledigt.

Die als URL interpretierten Texte landen aber weiterhin in den Google Webmastertools und natürlich auch in meinen Server-Logdateien. Das sind die neuen 404-Fehler vom 1. April:

Und so sehen die „verlinkenden“ Seiten aus:

• webstatsdomain.com zur Domain „schnurpsel.de“

• pixitree.de mit „Installation Eigenen Domains WordPress“

• news.blogtotal.de mit „Modrewrite Ohne WordPress“

• link-fuchs.de mit „Aktuelle Ip Per Email Zu Verschicken Besonders“

• alllaws.org mit „Mit Bing Finden“

Mal davon abgesehen, daß die „verlinkenden“ Seiten fast allesamt als Suchmaschine getarnte Spam-Seiten sind, gibt es die von Google dort angeblichen gefundenen Links nicht. Das sind durchweg verkürzte, textliche Darstellungen von URLs, die mit drei Punkten enden.

So schwer ist das doch nicht

Nun weiß ich zwar nicht, wie Google diese Pseudolinks aus den Seiten extrahiert, aber jeder mittelmäßige Programmierer dürfte dazu in der Lage sein, die mit drei Punkten endenden, vermeintlichen Links im Algorithmus auszusortieren. Wenn das, was wie eine URL aussieht, mit … endet, ist es niemals nicht eine existierende URL, sondern nur eine verkürzte Darstellung einer solchen. Dann muß auch nicht der Google-Bot losgeschickt werden, um sich doch nur einen Error 404 Not Found abzuholen. Letztendlich hat das dann auch nichts bei den Crawling-Fehlern in den Webmastertools verloren.

Google, bitte nachbessern!

Google search quality highlights

Google veröffentlicht seit einiger Zeit (Dezember 2011?) Neuigkeiten aus dem Bereich „Verbesserung der Suchqualität“. Vielleicht habe ich da was übersehen, aber zur Erkennung von nicht existierenden Links war mir bisher nichts aufgefallen. Zumindest besteht da Verbesserungsbedarf.

Die Lösung des Problems wäre mein nächstes, ganz persönliches „Search quality highlight“. :-)

Fundstücke – WMT auf russisch, „Bild“ im Juan Gris-Rausch

23.03.2012 23:31 von schnurpselchen in Internet

Google Webmaster-Tools auf russisch

Die Google Webmaster-Tools melden mir heute die Crawling-Fehler auf der Übersichtseite in auf russisch. Lesen kann ich das sogar und teilweise sogar aus dem Zusammenhang heraus verstehen. Trotzdem habe ich mal Google-Translate zur Hilfe genommen und diese Übersetzung erhalten:

Ошибка сервера
Ошибка 404
Доступ запрещен
Не найдено
Другое

Server-Fehler
404
Zugriff verweigert
Not Found
andere

Ja, kann man so akzeptieren, ist alles verständlich, wenngleich 404 und Not Found eigentlich dasselbe sind. Mit 404 sind hier die sogenannten Soft 404-Fehler (Falsche 404-Fehler) gemeint sind.

Google Webmaster-Tools auf türkisch (Update 24.03.)

Gestern russisch, heute türkisch, die Google Webmaster-Tools tragen wirklich zur Weiterbildung auf sprachlichem Gebiet bei. Türkisch kann ich nun gar nicht, also habe ich wieder Google-Translate zur Hilfe genommen und diese Übersetzung erhalten:

Sunucu hatası
Soft 404
Erişim reddedildi
Bulunamadı
Diğer

Ein Server-Fehler
Weiche 404
Der Zugriff wurde verweigert
gefunden
andere

Gut, der Soft 404 wird zum Weiche 404, das kann man so stehen lassen. Aber den eigentlichen „Not Found“-Fehler mit „gefunden“ zu benennen bzw. zu übersetzen, paßt nun wirkich nicht.

Ich bin ja mal gespannt, was morgen für eine Sprache dran ist. Ich tippe auf Griechisch oder Arabisch, denn mit diesen Sprachen kommen neben Russisch und Türkisch auch Besucher von der Google-Bildersuche auf meine Seiten. :-)

Die „Bild“ im „Juan Gris Doodle“-Rausch

Heute gibt es ja ein Google-Doodle für Juan Gris. Die „Bild“ hat sich da mächtig ins Zeug gelegt und es tatsächlich geschafft, alle drei Meldungen in der News-OneBox zu belegen. Alle Achtung!

Auf der SEO-Campixx 2012 habe ich allerdings mitbekommen, daß die Google-News noch recht anfällig für allerlei Tricks sind. Insofern relativiert sich damit die Leistung der Bild-News-Redaktion schon wieder und ich möchte das nicht überbewerten. :-)

Ein Kommentar »

Google meint, ich hätte ein schwerwiegendes Probleme

07.02.2012 15:16 von schnurpselchen in Internet

Die Google-Webmaster-Tools (WMT) sind ja eine feine Sache, zeigen sie einem doch gegebenenfalls Probleme mit der eigenen Website auf. Wenn allerdings ständig ein vermeintliches, schwerwiegendes Problem angezeigt wird, welches gar keins ist, dann stumpft das den Blick auf die echten, möglicherweise vorhandenen Mängel mit der Zeit ab.

So meldet mir schon seit Monaten die WMT-Startseite bei einer Domain folgendes:

Es wurden schwerwiegende Probleme bezüglich des Status Ihrer Website gefunden.
Eine wichtige Seite wird durch robots.txt blockiert.

Warum die Seite nun für Google wichtig ist, weiß ich nicht. Zumindest habe ich bei vollem Bewußtsein und mit Absicht tatsächlich alle Bots per robots.txt ausgeschlossen:

User-agent: *
Disallow: /

Google kann sich wahrscheinlich nicht vorstellen, daß es Websites gibt, die nur für normale Nutzer gemacht wurden und deren Inhalt einfach nicht von den Crawlern erfaßt werden soll. Insbesondere sollen die Inhalte nicht in den Suchergebnissen von Suchmaschinen auftauchen. Punkt, aus, fertig.

Ich würde mir wünschen, daß ich als Webmaster in den Google-Webmaster-Tools solche Meldungen wegklicken kann. Nach dem Motto:
„Ich habe es gelesen aber es ist so beabsichtigt und kein Fehler. Die Meldung bitte nicht mehr anzeigen.“

Dann wäre auch der Blick auf die wirklichen Probleme wieder frei.

9 Kommentare »