Text « Schnurpsel

Google und die Textlinks sind keine Freunde

29.09.2012 17:52 von schnurpselchen in Internet, Technik

Links die keine sind

Mittlerweile habe ich mich fast schon daran gewöhnt, daß Google alles was auch nur annähernd nach URL aussieht, wie einen Link behandelt und entsprechend den Crawler darauf losläßt. Selbst unsinnige URLs mit drei Punkten in der Mitte oder am Ende werden verfolgt. Alle diese erfundenen URLs werden dann natürlich als Fehler in den Webmastertools gemeldet, denn der Webserver liefert einen „404 Not found“ zurück.

Nun bin ich kürzlich mal wieder so einer von Google ausgedachten URL nachgegangen. Meist kann man in den Webmastertools auch die Quelle des „Links“ sehen.

Das ist wieder so eine abgeschnittene URL, normalerweise geht es um diesen Artikel. Allerdings fehlen da die drei kleinen Punkte am Ende, mal sehen, was dort auf der „verlinkenden“ Seite verzapft wurde.

Einen richtigen Link zu meinem Artikel gibt es dort erwartungsgemäß nicht, aber zumindest ist die URL selbst textlich korrekt und unverkürzt dargestellt. Allerdings sind die Suchwörter, für die meine Artikel dort auf der Seite erscheint, hervorgehoben.

HTML als Stolperfalle

Im Quelltext der Seite sieht das dann so aus:

Zur Hervorhebung sind die Keywords mit dem HTML-Tag b als fett ausgezeichnet. Ich hätte ja nun irgendwie erwartet, daß Google mit HTML-Tags umgehen kann. Erstaunlicherweise hat nicht das erste HTML-Tag die URL-Raterunde beendet, sonder erst das zweite, schließenden Tag. Der Google-Link endet hinter …datenbank:
/sicher-ist-sicher-datenbank

Ich kann es gerne nochmal wiederholen. Wie auch die Erkennung der drei Punkte in den unsinnigen URLs würde das Entfernen der HTML-Tags wohl jeder mittelmäßige Programmierer hinbekommen. :-)
Ich hätte gedacht, daß Google bei der richtigen Interpretation von HTML etwas weiter ist.

Es ist ein Fehler

Selbst wenn ich die Verfolgung von mit drei Punkten verkürzten Textlinks für unsinnig und falsch halte, habe ich mich damit zumindest abgefunden. Aber nicht existierende URLs zu crawlen, die durch mangelhafte Interpretation von HTML entstehen, steht einem Weltkonzern wie Google schlecht zu Gesicht. Das sind aus meiner Sicht einfach nur Fehler.

Fehler sind ja auch dazu da, daß sie behoben werden können. Ich will mal hoffen, Google schafft das und kann sich dann wieder den echten Links und anderen Problemen zuwenden.

Google crawlt andere Suchmaschinen?

19.04.2012 11:20 von schnurpselchen in Internet

Fehlermeldung aus den Google Webmastertools:

„Der Googlebot konnte diese URL nicht crawlen, da keine zugehörige Seite existiert. Im Allgemeinen wirken sich 404-Codes nicht auf die Leistung Ihrer Website bei der Suche aus. Sie können sie jedoch zur Verbesserung der Nutzererfahrung verwenden.“

Zum einen ist das wieder mal kein Link, sondern nur eine verkürzte, textliche Darstellung. Ein Nutzer wird diesen „Link“ deshalb nie aufrufen, also muß ich auch nichts für die „Verbesserung der Nutzererfahrung“ tun. Der Link ist nur eine Google-Erfindung.

Viel interessanter ist meiner Meinung nach die angegebene Quelle des Links. Das sieht mir nach einer Suchergebnisseite der Yahoo-Bildersuche aus.

Ich dachte bisher immer, Google würde die Suchergebnisse der anderen großen Suchmaschinen nicht crawlen. Aber vielleicht ist es auch gar nicht so oder es war nur früher mal so oder ich bin einem Irrtum aufgesessen.

3 Kommentare »

Aprilscherz? Ich hätte Google für intelligenter gehalten.

05.04.2012 15:47 von schnurpselchen in Internet

Google auf Abwegen

Vor knapp einem halben Jahr hatte ich bereits berichtet, daß Google Links folgt, die gar keine sind. Irgendwer schrieb da auch in den Kommentaren, daß es vielleicht nur ein Test sein könnte. Gut möglich, Google probiert ja gerne mal Sachen aus. Ich erinnere mich noch an die ausgefüllten Suchformulare (/?s=suchbegriff) vor etwa vier Jahren. Das hatte sich dann irgendwann erledigt.

Die als URL interpretierten Texte landen aber weiterhin in den Google Webmastertools und natürlich auch in meinen Server-Logdateien. Das sind die neuen 404-Fehler vom 1. April:

Und so sehen die „verlinkenden“ Seiten aus:

• webstatsdomain.com zur Domain „schnurpsel.de“

• pixitree.de mit „Installation Eigenen Domains WordPress“

• news.blogtotal.de mit „Modrewrite Ohne WordPress“

• link-fuchs.de mit „Aktuelle Ip Per Email Zu Verschicken Besonders“

• alllaws.org mit „Mit Bing Finden“

Mal davon abgesehen, daß die „verlinkenden“ Seiten fast allesamt als Suchmaschine getarnte Spam-Seiten sind, gibt es die von Google dort angeblichen gefundenen Links nicht. Das sind durchweg verkürzte, textliche Darstellungen von URLs, die mit drei Punkten enden.

So schwer ist das doch nicht

Nun weiß ich zwar nicht, wie Google diese Pseudolinks aus den Seiten extrahiert, aber jeder mittelmäßige Programmierer dürfte dazu in der Lage sein, die mit drei Punkten endenden, vermeintlichen Links im Algorithmus auszusortieren. Wenn das, was wie eine URL aussieht, mit … endet, ist es niemals nicht eine existierende URL, sondern nur eine verkürzte Darstellung einer solchen. Dann muß auch nicht der Google-Bot losgeschickt werden, um sich doch nur einen Error 404 Not Found abzuholen. Letztendlich hat das dann auch nichts bei den Crawling-Fehlern in den Webmastertools verloren.

Google, bitte nachbessern!

Google search quality highlights

Google veröffentlicht seit einiger Zeit (Dezember 2011?) Neuigkeiten aus dem Bereich „Verbesserung der Suchqualität“. Vielleicht habe ich da was übersehen, aber zur Erkennung von nicht existierenden Links war mir bisher nichts aufgefallen. Zumindest besteht da Verbesserungsbedarf.

Die Lösung des Problems wäre mein nächstes, ganz persönliches „Search quality highlight“. :-)

Warum folgt Google URLs, die gar keine Links sind?

12.10.2011 17:20 von schnurpselchen in Internet, Technik

404 Not found

In den Google-Webmastertools sehe ich mir hin und wieder unter „Diagnostics – Crawl Errors“ an, welche Probleme und Fehler der Googlebot beim Crawlen meiner Seiten gefunden hat. In letzter Zeit sind da für putzlowitsch.de einige „404 Not found“-Fehler dazu gekommen.

Nun wollte ich wissen, wer denn da mit falschen URLs auf meine Seiten verlinkt. Ganz neu ist das für mich nicht. So etwas passiert z.B., wenn jemand nur die verkürzte Darstellung eines Links und nicht die URL selbst von einer anderen Webseite kopiert und dann als Link verwendet.

Unter „Linked from“ habe ich mir also ein paar dieser „Bösewichte“ angesehen und war überrascht, das ich die von Google beanstandeten URLs dort gar nicht finden konnte. Zumindest sind sie auf den Seiten nicht als Link vorhanden, wohl aber als einfacher Text. Hier ein paar Beispiele als Screenshot:

: Google Webmastertools – KeinLink 1

: Google Webmastertools – KeinLink 2

: Google Webmastertools – KeinLink 3

: Google Webmastertools – KeinLink 4

Google auf Abwegen

Bei allen diesen Seiten ist der Linktext korrekt verlink (1) oder es ist gar kein Link vorhanden (2, 3 und 4). Die Sichbare URL ist für die Darstellung verkürzt. Genau diesen nur als Text vorhandenen, verkürzten URLs geht Google wie einem normalen Link nach und produziert somit selbst die 404er Fehler.

Ein weiteres Beispiel kommt von schnurpsel.de, die letzten beiden URLs in obigen Screenshot. In einem Artikel hatte ich etwas zum Google-URL-Redirector geschrieben und prompt versucht Google meinen symbolischen Beispielen zu folgen. Die dort auch nur als Text vorhandenen „URLs“ sind und waren nie verlinkt.

Link oder nicht Link

Meiner Meinung nach geht Google hier zu weit. Ich kann ja verstehen, daß Google möglichst alle Informationen erfassen will und allen Links folgt, aber ein Text ist nun mal kein Link, auch wenn er wie eine URL aussieht. Google tut sich damit selbst keinen Gefallen, denn es werden Ressourcen verschwendet und zudem wird die Anzeige in den Webmastertools mit wertlosen Informationen zugemüllt.

Ich finde diesen Diagnostic-Bereich in den Google-WMT ja wirklich gut und nützlich, hilft er mir doch dabei, mögliche Fehlerquellen auf meiner Website aufzuspüren. Wenn nun aber jede Menge Pseudo-Fehler angezeigt werden, geht die Übersicht verloren und ich übersehe vielleicht die echten Fehler.

Einfluß auf das Ranking?

Da es nicht nur fehlerhafte, weil verkürzte Text-URLs gibt, sondern vermutlich auf viele korrekte Links, stellt sich natürlich die Frage, ob sich das rankingtechnisch auswirkt. Kann über eine nur als Text notierte URL PageRank weitergegeben werden? Verwendet Google diese Texte nur als Link-Quelle für den Crawler? Wie wirken sich die vielen Fehler durch die Pseudo-Links auf die „verlinkte“ Seite aus?

Viele Fragen, auf die ich keine Antwort weiß.

Forex trading, web promotion tips, seo basics, internet tv

03.01.2011 19:21 von schnurpselchen in Blog, Internet

forex trading

Es fing am 10. Dezember mit dem Kommentar von „great Forex Trading Education FREE“ an:

Vielen Dank, gute Arbeit! Dies war das Zeug, das ich hatte zu haben.

Drei Tage später meldet sich „forex currency trading“ nochmal:

Als Newbie bin ich immer auf der Suche online nach Artikeln, die mir helfen kann. Danke Wow! Vielen Dank! Ich wollte immer in meiner Website so etwas zu schreiben. Kann ich an Ihrer Post in meinem Blog?

Das ist doch mal nett, nicht immer nur so unverständliches Wirrwarr aus Buchstaben und Zahlen und auch keine russischen Texte, die ich eh nicht verstehe. Ja, Sie können an meine Post in Ihrem Blog, nunja, was auch immer.

web design and promotion tips

Am 17. Dezember schrieb dann „web design and promotion„:

Awesome Informationen, vielen Dank an den Beitrag Schriftsteller. Es ist verständlich, mir jetzt, wird die Wirksamkeit und Bedeutung überwältigend. Nochmals vielen Dank und viel Glück!

Also Schriftsteller ist vielleicht etwas übertrieben formuliert, aber danke für die Blumen. Scheinbar war doch nicht alles so verständlich und überwältigend, ein paar Minuten später fragt „web promotion tips“ noch mal nach:

Wie kann ich Sie bitten um weitere Informationen? Great post müssen mehr wissen …

Was soll ich sagen, einfach noch mal den Artikel in Ruhe lesen, da steht eigentlich alles drin.

live streaming tv – watch shows online – internet television

Die nächsten Kommentare vom 19. Dezember fasse ich mal zusammen, sie kamen von „live streaming tv„, „watch shows online“ und „internet television„:

Was für ein schöner Beitrag. Ich liebe das Lesen dieser Arten oder Gegenstände. Ich kann t abwarten, was andere zu sagen haben. Ich habe einige wunderbare Weisheit.
Ich normalerweise nicht in Blogs posten, aber Ihr Blog zwingt mich dazu, erstaunliche Arbeit .. schön …

Also bitte, ich zwinge doch niemanden zu etwas. Was andere zu sagen haben (vermutlich unter Zwang), ließ nicht lange auf sich warten.

seo basics – seo articles

Bereits am nächsten Tag meldete sich schließlich der SEO-Experte „seo basics“ zu Wort:

Es gibt offensichtlich eine Menge zu wissen. Ich glaube, Sie haben einige gute Punkte in Funktionen auch. Halten Sie Ihren Arbeitsbereich, great job!

Ja, ich bemühe mich meinen Arbeitsbereich zu halten und ebenso die Punkte in Funktion. Aber auch für den SEO-Profi „seo articles“ scheinen die Informationen nicht auszureichen:

Wie kann ich Sie bitten um weitere Informationen? Great post müssen mehr wissen …

Also Leute, lest Euch doch den Artikel einfach nochmal genau durch. So schwer kann das doch nicht doch nicht sein, es ist doch nur ein WordPress-Plugin. Oder liegt es an den schlechten Sprachkenntnissen?

{url}{keyword}

Noch einen drauf setzt Kayleigh Williams mit diesem Kommentar:

<a href={url}>{keyword}</a>
<a href={url}>{keyword}</a>
<a href={url}>{keyword}</a>
<a href={url}>{keyword}</a>
<a href={url}>{keyword}</a> <a href={url}>{keyword}</a>

Liebe Spammer, bitte werft doch vor der Benutzung Eurer Spam-Software oder Spam-Bots einen Blick in die Bedienungsanleitung, dann klappt es auch mit brauchbaren URLs und Keywords.

Nun ja, Spammer sind halt auch nur Menschen :-)

3 Kommentare »

M	D	M	D	F	S	S
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30