Das Putzlowitsch Test- und SEO-Blog

Stümperhaft programmiert – wie falsche Links entstehen

Fehler über Fehler

WMT Fehler 404  https-Links

Ich habe zur Zeit nicht wirklich viele Fehler in den Google-Webmastertools für meine Domain schnurpsel.de zu stehen, aber die oben gezeigte Liste hat mich erstmal stutzig werden lassen.

Was habe ich mit Google-Plus-Profilen zu schaffen und wieso sind die alle falsch? Zunächst dachte ich an meinen Autoren-Link aus der Info-Seite, aber da ist alles in Ordnung. Das wäre auch schon eher mal aufgefallen, denn die Links zu meinen Profilen stehen da schon seit mehreren Monaten drin und ich habe daran in letzter Zeit nichts geändert.

Fehlersuche

In den Webmastertools erhält man meistens auch eine Information zur Linkquelle des fehlerhaften Links. Bei allen diesen Google+-Profillinks wird eine Seite als Linkgeber genannt: www.myip.net, eine dieser vielen Website-Bewertungsseiten. Dort gibt es auch eine Seite mit Informationen zu den internen Links und da finde ich dann das:

Interne Links bei myip.net

Beim Anblick der Namen war mir sofort klar, das diese Links aus meinem Rückblick zur SEO-Campixx 2013 stammen. Dort habe ich die genannten Personen mit ihrem jeweilgen Google+-Profil verlinkt. Allerdings sind die Links korrekt als externe Links eingetragen:

<a href='https://plus.google.com/1...8/about'>Name</a>

Stümperhaft programmiert

Ich kann mir allerdings denken, was dort bei MyIP.net passiert ist.
Die Seite wird eingelesen und dann werden die Links nebst Ankertext extrahiert. Keine große Sache, das bekommt man sogar noch recht überschaubar mit regulären Ausdrücken hin. Man kann natürlich auch einen DOM-Parser verwenden, aber eigentlich ist das egal, Hauptsache man erhält eine Liste mit den Links.

Nun kommt das eigentlich spannende, wie unterscheidet man ausgehende und interne Links?

Auch das ist nicht schwer, wird sich der Programmierer gesagt haben, ausgehende Links beginnen mit http://. Dabei hat er alledings nicht bedacht, daß es auch noch andere Protokolle im Internet gibt, eben z.B. https://. Klar, https:// ist nicht http://, also ist es ein interner Link, nur leider ist das falsch.

Tja, und deswegen habe ich jetzt 15 falsche Fehler in den Webmastertools zu stehen.

2 Kommentare »

Google und die Textlinks sind keine Freunde

Links die keine sind

Mittlerweile habe ich mich fast schon daran gewöhnt, daß Google alles was auch nur annähernd nach URL aussieht, wie einen Link behandelt und entsprechend den Crawler darauf losläßt. Selbst unsinnige URLs mit drei Punkten in der Mitte oder am Ende werden verfolgt. Alle diese erfundenen URLs werden dann natürlich als Fehler in den Webmastertools gemeldet, denn der Webserver liefert einen „404 Not found“ zurück.

Nun bin ich kürzlich mal wieder so einer von Google ausgedachten URL nachgegangen. Meist kann man in den Webmastertools auch die Quelle des „Links“ sehen.

Das ist wieder so eine abgeschnittene URL, normalerweise geht es um diesen Artikel. Allerdings fehlen da die drei kleinen Punkte am Ende, mal sehen, was dort auf der „verlinkenden“ Seite verzapft wurde.

Quelle des fehlerhaften "Links"

Einen richtigen Link zu meinem Artikel gibt es dort erwartungsgemäß nicht, aber zumindest ist die URL selbst textlich korrekt und unverkürzt dargestellt. Allerdings sind die Suchwörter, für die meine Artikel dort auf der Seite erscheint, hervorgehoben.

HTML als Stolperfalle

Im Quelltext der Seite sieht das dann so aus:

HTML-Text der URL

Zur Hervorhebung sind die Keywords mit dem HTML-Tag b als fett ausgezeichnet. Ich hätte ja nun irgendwie erwartet, daß Google mit HTML-Tags umgehen kann. Erstaunlicherweise hat nicht das erste HTML-Tag die URL-Raterunde beendet, sonder erst das zweite, schließenden Tag. Der Google-Link endet hinter …datenbank:
/sicher-ist-sicher-datenbank

Ich kann es gerne nochmal wiederholen. Wie auch die Erkennung der drei Punkte in den unsinnigen URLs würde das Entfernen der HTML-Tags wohl jeder mittelmäßige Programmierer hinbekommen. :-)
Ich hätte gedacht, daß Google bei der richtigen Interpretation von HTML etwas weiter ist.

Es ist ein Fehler

Selbst wenn ich die Verfolgung von mit drei Punkten verkürzten Textlinks für unsinnig und falsch halte, habe ich mich damit zumindest abgefunden. Aber nicht existierende URLs zu crawlen, die durch mangelhafte Interpretation von HTML entstehen, steht einem Weltkonzern wie Google schlecht zu Gesicht. Das sind aus meiner Sicht einfach nur Fehler.

Fehler sind ja auch dazu da, daß sie behoben werden können. Ich will mal hoffen, Google schafft das und kann sich dann wieder den echten Links und anderen Problemen zuwenden.

3 Kommentare »

1&1 Webhosting – die allgegenwärtige Baustellenseite

Hier ensteht…

Wußtest Ihr, daß es in den 1&1 Webhosting-Paketen für jede Domain und Subdomain eine virtuelle Standardseite gibt?

Das mit dem Baustellenschild für neu eingerichtete Domains oder Subdomains ist ja bekannt:

1&1-Webhosting: Hier entsteht eine neue Internetpräsenz !

Aber selbst wenn die Domain längst projektiert ist, WordPress oder ein anderes CMS installiert wurde, bleibt eine virtuelle Standardseite bestehen. Sie ist jederzeit unter

/defaultsite

aufrufbar. Als Beispiel und Demo sei hier meine Test-Domain bla-fasel.de genannt.

Wer von Euch ein 1&1-Shared-Webhostingpaket (kein Server!) hat, kann das selbst mit

http://example.com/defaultsite

ausprobieren. example.com natürlich durch den eigenen Domainnamen ersetzen. :-)

Einstellungssache

Gut, das bekannte und „beliebte“ Baustellenschild ist kein Ding, keine schlimme Sache. Allerdings wird je nach Einstellung im 1&1-Control-Center eben nicht die Baustellenseite, sondern über den Domain-Händler Sedo eine Parking-Seite mit Werbung angezeigt. Werbung, die der Nutzer möglicherweise nicht will, an der er noch nicht mal etwas verdient.

Ich hatte dazu vor einiger Zeit bereits einen Artikel geschrieben: „1&1 Webhosting – Fehlerseite 404 mit Sedo-Werbung„. Dort erkläre ich auch, wo man die entsprechende Einstellung findet und wie man die ungefragte SEDO-Werbung abschaltet. Die Konfigurationseite sieht jetzt etwas anders aus, als damals:

1&1 Domain Parking abschalten

Die Einstellung gilt übrigens nicht nur für das aktuelle Webhosting-Paket, sondern global für alle Pakete eines Kunden, die über dieselbe Kundennummer verwaltet werden.

Unding

Es ist schon ein Unding, wie 1&1 den unbedarften Nutzern Werbung unterjubelt. Gut, die Werbeseiten kann man abschalten. Es kann aber nicht sein, daß irgendwelche virtuellen Seiten des Hosters existieren, auf deren Existenz oder Inhalt ich als Kunde und Domaininhaber keinen Einfluß habe, die ich aber trotzdem möglicherweise zu verantworten habe.

Ein Außenstehender sieht nur die Seite auf meiner Domain und muß davon ausgehen, daß ich auch für deren Inhalt verantwortlich bin. So eine Baustellenseite ist zwar harmlos, bei eingeblendeter Werbung kann das aber schon wieder ganz anders aussehen.

5 Kommentare »

Google crawlt andere Suchmaschinen?

Google crawlt Yahoo?

Fehlermeldung aus den Google Webmastertools:

„Der Googlebot konnte diese URL nicht crawlen, da keine zugehörige Seite existiert. Im Allgemeinen wirken sich 404-Codes nicht auf die Leistung Ihrer Website bei der Suche aus. Sie können sie jedoch zur Verbesserung der Nutzererfahrung verwenden.“

Zum einen ist das wieder mal kein Link, sondern nur eine verkürzte, textliche Darstellung. Ein Nutzer wird diesen „Link“ deshalb nie aufrufen, also muß ich auch nichts für die „Verbesserung der Nutzererfahrung“ tun. Der Link ist nur eine Google-Erfindung.

Viel interessanter ist meiner Meinung nach die angegebene Quelle des Links. Das sieht mir nach einer Suchergebnisseite der Yahoo-Bildersuche aus.

Ich dachte bisher immer, Google würde die Suchergebnisse der anderen großen Suchmaschinen nicht crawlen. Aber vielleicht ist es auch gar nicht so oder es war nur früher mal so oder ich bin einem Irrtum aufgesessen.

3 Kommentare »

Aprilscherz? Ich hätte Google für intelligenter gehalten.

Google auf Abwegen

Vor knapp einem halben Jahr hatte ich bereits berichtet, daß Google Links folgt, die gar keine sind. Irgendwer schrieb da auch in den Kommentaren, daß es vielleicht nur ein Test sein könnte. Gut möglich, Google probiert ja gerne mal Sachen aus. Ich erinnere mich noch an die ausgefüllten Suchformulare (/?s=suchbegriff) vor etwa vier Jahren. Das hatte sich dann irgendwann erledigt.

Die als URL interpretierten Texte landen aber weiterhin in den Google Webmastertools und natürlich auch in meinen Server-Logdateien. Das sind die neuen 404-Fehler vom 1. April:

Google-Webmastertools: Error-404 vom 1.April

Und so sehen die „verlinkenden“ Seiten aus:

• webstatsdomain.com zur Domain „schnurpsel.de“

Google: Das ist kein Link (1)

• pixitree.de mit „Installation Eigenen Domains WordPress“

Google: Das ist kein Link (2)

• news.blogtotal.de mit „Modrewrite Ohne WordPress“

Google: Das ist kein Link (3)

• link-fuchs.de mit „Aktuelle Ip Per Email Zu Verschicken Besonders“

Google: Das ist kein Link (4)

• alllaws.org mit „Mit Bing Finden“

Google: Das ist kein Link (5)

Mal davon abgesehen, daß die „verlinkenden“ Seiten fast allesamt als Suchmaschine getarnte Spam-Seiten sind, gibt es die von Google dort angeblichen gefundenen Links nicht. Das sind durchweg verkürzte, textliche Darstellungen von URLs, die mit drei Punkten enden.

So schwer ist das doch nicht

Nun weiß ich zwar nicht, wie Google diese Pseudolinks aus den Seiten extrahiert, aber jeder mittelmäßige Programmierer dürfte dazu in der Lage sein, die mit drei Punkten endenden, vermeintlichen Links im Algorithmus auszusortieren. Wenn das, was wie eine URL aussieht, mit endet, ist es niemals nicht eine existierende URL, sondern nur eine verkürzte Darstellung einer solchen. Dann muß auch nicht der Google-Bot losgeschickt werden, um sich doch nur einen Error 404 Not Found abzuholen. Letztendlich hat das dann auch nichts bei den Crawling-Fehlern in den Webmastertools verloren.

Google, bitte nachbessern!

Google search quality highlights

Google veröffentlicht seit einiger Zeit (Dezember 2011?) Neuigkeiten aus dem Bereich „Verbesserung der Suchqualität“. Vielleicht habe ich da was übersehen, aber zur Erkennung von nicht existierenden Links war mir bisher nichts aufgefallen. Zumindest besteht da Verbesserungsbedarf.

Die Lösung des Problems wäre mein nächstes, ganz persönliches „Search quality highlight“. :-)

5 Kommentare »