Das Putzlowitsch Test- und SEO-Blog

Stümperhaft programmiert – wie falsche Links entstehen

Fehler über Fehler

WMT Fehler 404  https-Links

Ich habe zur Zeit nicht wirklich viele Fehler in den Google-Webmastertools für meine Domain schnurpsel.de zu stehen, aber die oben gezeigte Liste hat mich erstmal stutzig werden lassen.

Was habe ich mit Google-Plus-Profilen zu schaffen und wieso sind die alle falsch? Zunächst dachte ich an meinen Autoren-Link aus der Info-Seite, aber da ist alles in Ordnung. Das wäre auch schon eher mal aufgefallen, denn die Links zu meinen Profilen stehen da schon seit mehreren Monaten drin und ich habe daran in letzter Zeit nichts geändert.

Fehlersuche

In den Webmastertools erhält man meistens auch eine Information zur Linkquelle des fehlerhaften Links. Bei allen diesen Google+-Profillinks wird eine Seite als Linkgeber genannt: www.myip.net, eine dieser vielen Website-Bewertungsseiten. Dort gibt es auch eine Seite mit Informationen zu den internen Links und da finde ich dann das:

Interne Links bei myip.net

Beim Anblick der Namen war mir sofort klar, das diese Links aus meinem Rückblick zur SEO-Campixx 2013 stammen. Dort habe ich die genannten Personen mit ihrem jeweilgen Google+-Profil verlinkt. Allerdings sind die Links korrekt als externe Links eingetragen:

<a href='https://plus.google.com/1...8/about'>Name</a>

Stümperhaft programmiert

Ich kann mir allerdings denken, was dort bei MyIP.net passiert ist.
Die Seite wird eingelesen und dann werden die Links nebst Ankertext extrahiert. Keine große Sache, das bekommt man sogar noch recht überschaubar mit regulären Ausdrücken hin. Man kann natürlich auch einen DOM-Parser verwenden, aber eigentlich ist das egal, Hauptsache man erhält eine Liste mit den Links.

Nun kommt das eigentlich spannende, wie unterscheidet man ausgehende und interne Links?

Auch das ist nicht schwer, wird sich der Programmierer gesagt haben, ausgehende Links beginnen mit http://. Dabei hat er alledings nicht bedacht, daß es auch noch andere Protokolle im Internet gibt, eben z.B. https://. Klar, https:// ist nicht http://, also ist es ein interner Link, nur leider ist das falsch.

Tja, und deswegen habe ich jetzt 15 falsche Fehler in den Webmastertools zu stehen.

2 Kommentare »

Gewinner und Verlierer in der Bildersuche KW 18/2013

Aufsteiger

Bidox: bild10.com 18. KW 2013

Es hatte sich bereits in den letzten Wochen abgezeichnet, die Bildkopie-Galerie bild10.com steigt nun in die Bidox-Top-100 ein. Mit einem bidox von 25,8 und fast 600 Bildern schafft es die Domain auf Platz 81.

Das Rezept für diesen Erfolg ist immer noch recht einfach. Man kopiert einfach Bilder, die in der Bildersuche gut platziert sind, auf die eigene Seite und strickt ein paar automatische generierte Seiten drum herum. Martin Mißfeldt hatte das Problem auch kürzlich wieder in seinem TagSeoBlog thematisiert.

Der Aufstieg wird jetzt noch ein paar Woche so weiter gehen, bis Google eventuell doch mal etwas merkt. Allerdings nicht von alleine, sondern bestenfalls dann, wenn vielleicht ein Google-Mitarbeiter zufällig diesen Text hier liest oder jemand die Seite als Spam meldet.

Absteiger

Bidox: Idealo.de 18. KW 2013

Auch nicht erst seit letzter Woche ging es für den Preisvergleicher idealo.de bergab. Mit einem bidox von 31 und knapp 2500 Bildern lag man vor fünf Wochen noch auf Platz 63. Jetzt ist Idealo mit nur noch 48 Bildern und einem bidox von 0,8 praktisch in der Bedeutungslosigkeit (Platz 4050) versunken.

Über die Gründe für so deutliche Einbrüche im bidox kann man oft nur spekulieren. Abstrafung durch Google, technische Probleme, Änderungen an der Seitenstruktur oder der Konfiguration?

Bei Idealo sind die Probleme tatsächlich hausgemacht, wie eine kurze „Untersuchung“ ergab. Die Bilder und andere Dateien (z.B. JavaScript) sind auf ein CDN cdn.idealo.com ausgelagert. Dort gibt es auch eine robots.txt Datei, die wie folgt aussieht:

User-Agent: *
Disallow: /
Allow: /*produktbild_gross*

Eine durchaus sinnvolle Konfiguration, allen Bots alles zu verbieten und nur die großen Produktbilder zur Indexierung frei zu geben.

Allerdings heißen die großen Bilder seit einiger Zeit nicht mehr *produktbild_gross*, sondern *produktbild_max*. Deshalb werden die so umbenannten oder neuen Produktbilder von den Bots korrekterweise ignoriert.

Das Problem ist mit einer Anpassung der robots.txt leicht zu beheben. Scheinbar sind aber die Besucherzahlen über die Bildersuche bei Idealo nicht wirklich signifikant und so hat es wohl dort noch niemand bemerkt.

Auf und Ab

Nicht immer sind die Gründe für das Auf und Ab einer Domain im bidox so einfach zu erklären, wie in den obigen Beispielen. Auf jeden Fall sollte man aber bei Änderungen an der Seitenstruktur auch immer eine Blick in die beteiligten robots.txt-Dateien werfen, um eventuelle, so nicht beabsichtigte Effekte zu vermeiden.

6 Kommentare »