Das Putzlowitsch Test- und SEO-Blog

Höher, schneller, weiter

Mit den Google-Webmastertools bekommt man einen guten Überblick, wie oft der Googlebot vorbeischaut und wieviele Daten er in welcher Zeit Abfragt.

Pro Tag gecrawlte Seiten

Google - Crawling Anzahl der Seiten pro Tag Februar 2010
Auf dem Diagramm ist noch das Ende vom November, der ganze Dezember und Januar und der Anfang vom Februar zu sehen. Scheinbar tritt der Googlebot auch über den Jahreswechsel etwas kürzer, feiert Weihnachten und Silvester und legt dann erst Mitte Januar wieder richtig los.

Pro Tag heruntergeladene Kilobyte

Google - Crawling Datenmenge in kByte pro Tag Februar 2010
In etwa parallel dazu verläuft normlerweise die Kurve zu den täglich heruntergeladenen Datenmengen. Klar, je mehr Seiten angefragt werden, um so mehr Daten fallen da durchschnittlich an.

Eines fällt aber auf, denn obwohl die Anzahl der pro Tag abgefragten Seiten ab Mitte Januar und im Februar höher liegen als noch im November, ist die Datenmenge nicht in gleichem Maße angestiegen. Der Grund ist recht einfach. Ich hatte Anfang/Mitte Dezember die gzip-Komprimierung für die Seiten aktiviert.

Dauer des Herunterladens einer Seite (in Millisekunden)

Google - Crawling Zeit in Millisekunden pro Seite Februar 2010
Die Geschwindigkeit der Seitenauslieferung ist die für den normalen Nutzer, also den Besucher einer Website der wohl wichtigste, technische Wert. Wenn erstmal ein paar Sekunden nach dem Aufrufen einer Seite oder länger nichts passiert, ist das aus Anwendersicht eher unerfreulich.

Der Wert lag im November bei etwa 1,5 Sekunden und schließt damit an die Zahlen vom Oktober an. Anfang Dezember bin ich dann Dank SpeedPlus wieder zu Strato zurückgekehrt und seitdem liegen die Ladezeiten fast immer bei erfreulichen 0,8 Sekunden. Aber eben nur fast. Wie man im Diagramm sieht, gab es schon im Dezember und Anfang Januar Ladezeitspitzen, die dann im Februar nochmal deutlich zunahmen. Allerdings ist das eher darin zu sehen, daß durch die größere Anzahl der pro Tag abgefragten Seiten auch die Wahrscheinlichkeit für den Googlebots auf eine Lastspitze zu treffen, größer war.

Ungeachtet dessen gibt es aber diese Lastspitzen, die nicht nur der Googlebot „sieht“, sondern auch der normale Nutzer bemerkt. Wenn man Pech hat, dauert das Laden einer Seite wieder 4 bis 6 Sekunden, ganz so wie vor der SpeedPlus-Zeit bei Strato. Diesmal ist es aber meiner Meinung nach nicht die schlechte PHP-Performance, sondern eher die Datenbank. Die Datenbankserver sind zwar grundsätzlich nicht wirklich lahm, legen aber ab und zu ein paar Gedenkminuten ein, wie mir scheint. Und genau dann dauert der Seitenaufruf wieder mehrere Sekunden. Kürzlich gab es auch wieder mal einen Totalausfall, der dann zu einem 500er Fehler führt.

Hin und weg

Nun sind zwar PHP und Webserver bei Strato schnell, aber die Datenbank klemmt mitunter. Deshalb bin ich vorerst wieder zu meiner externen Datenbank zurückgekehrt. Das eigentlich langsame ist hierbei die Datenübertragung über das Internet zwischen Strato (Karlsruhe/Berlin) und Host-Europe (Köln). Um das etwas abzudämpfen, habe ich zusätzlich ein Datenbank-Cache-Plugin installiert, welches häufig benötigte Daten auf dem Webspace bei Strato im Dateisystem ablegt, um diese nicht jedesmal neu übertragen zu müssen. Zumal sich viele Daten, z.B. die Artikel und Seiten normalerweise eh nicht ändern.

Nun werde ich das Alles mal weiter beobachten, wie das mit den Ladezeiten so aussieht und hoffe aber trotzdem, das Strato die Datenbankaussetzer in den Griff bekommt.

Keine Kommentare »

Permalinks – Was verwenden die 33 deutschen Top-Blogs

Welcher Permalink ist das beste Ding?

Die Diskussion taucht immer wieder mal auf, wie sieht optimalerweise ein Permalink, also die Struktur der URL aus. Sollten das Datum oder die Artikel-ID enthalten sein, ist es sinnvoll Kategorien oder Tags mit aufzunehmen?

Eine allgemeingültige und endgültige Empfehlung kann es nicht geben, wenn man die unterschiedlichen Sichtweisen dazu berücksichtigt, die dann zu eher widersprüchliche Aussagen führen.

Betreibt man ein Blog im Sinne eines Tagebuches, ist sicher das Datum oder Bestandteile davon eine gute Wahl. Aus SEO-Gesichtspunkten bzw. für eine eher thematische Ausrichtung wird oft die Kategorie mit in die Permalinkstruktur aufgenommen. Für eine Webseite mit vielen Schreibern könnte auch der Autorenname eine geeignete Option sein.

Ich habe mir einfach mal die Permalink-Struktur der 33 deutschen Top-Blogs angesehen. Vielleicht läßt sich ja daraus eine Empfehlung ableiten.

Die Permalink-Struktur der 33 deutschen Top-Blogs

Zunächst stellt sich natürlich die Frage, welche sind denn die Top-Blogs in Deutschland? Auch hier kann man sich endlos streiten, wenn man will. Ich habe als erste Näherung einfach die aktuell zusammengerechnete Liste von heute, dem 24.02.2010, genommen. Die Permalinkstruktur habe ich in Gruppen zusammengefaßt, vor dem jeweiligen Blog steht der aktuelle Platz in der Top-33-Liste :

Mehr als die Hälfte (57,6%) der Top-33-Blogs verwendet neben dem Artikelnamen das Datum oder einen Bestandteil davon in der URL. Bei allein fast 40% findet man das komplette Datum mit Jahr, Monat und Tag im Permalink. Gut 18% benutzen nur den Namen des Artikels als Permalink und weitere etwa 12% kombinieren dazu noch eine Nummer (Artikel-ID). Immerhin knapp 10% der Top-Blogs verwenden keine Permalinks, sondern setzen auf die Artikelnummer als URL-Parameter (?id=1234).

Erste Ableitung des Permalink-Aufbaus

Wenn man Permalinks verwendet, ist der Artikelname (in seiner Umwandlung zu einem URL-Pfad) gewissermaßen eine feste Größe. Die Einbeziehung des Datums oder von Teilen kann so schlecht nicht sein, diese Verwendet ein Großteil der Top-Blogs. Auch ganz auf Permalinks zu verzichten, hat gewisse Vorteile. Die URLs sind kurz und bleiben immer gültig, auch wenn man mal was am Artikel-Titel, dem Datum oder sonstigen Einflußfaktoren ändert.

Ich habe mir stichprobenartig noch weitere Blogs der Top-100 angesehen und zumindest keine Seite entdeckt, die etwa die Kategorie oder gar Tags in der URL verwendet. Mal davon abgesehen, daß Tags bei WordPress bis zur Version 2.9.x nicht als Bestandteil der Permalinks funktionieren (obwohl in der Dokumentation genannt), gibt es auch noch andere Probleme.

Kategorie oder Tag im Permalink

In WordPress kann man Artikel in mehreren Kategorien ablegen. Einem Artikel können zudem auch mehrere Tags zugeordnet werden. Verwendet man Kategorien oder Tags in Permalinks, erstellt WordPress die die URL aus der Kategorie oder dem Tag mit der kleinsten ID. Ändert man nun die Kategoriezuordnung oder die Tags, kann sich möglicherweise auch die URL ändern.

Das ist aber erstmal nicht weiter schlimm, denn der Artikel wird auch weiterhin mit der alten Kategorie gefunden und angezeigt. WordPress geht sogar soweit, einfach die Kategorie beim Auflösen der Permalinks zu ignorieren. Damit ergeben sich dann theoretisch beliebig viele URLs für einen Artikel.

Als Beispiel ist das auf meinem Testblog zu sehen. Die Permalink-Struktur sieht so aus:

/%category%/%postname%/

Der Artikel ist in der Kategorie „Allgemein“ einsortiert, die URL sieht so aus:
http://testblog.schnurpsel.de/allgemein/hallo-welt/

Er ist aber auch mit der Kategorie „Blafasel“, „Hundekuchen“ oder „Gibtesnicht“ aufrufbar:
http://testblog.schnurpsel.de/blafasel/hallo-welt/
http://testblog.schnurpsel.de/hundekuchen/hallo-welt/
http://testblog.schnurpsel.de/gibtesnicht/hallo-welt/
Genau, diese Kategorien gibt es gar nicht.

Man hat damit potentiell also ganz viel bösen „Duplicate content“ (DC). Da sage noch einer, die Kategorie im Permalink sei unter SEO-Gesichtspunkten empfehlenswert. ;-)

Permalink, so oder so

Letztendlich muß jeder selbst entscheiden, ob und wie er seine Permalinks gestaltet. Bei Putzlowitsch habe ich mich für das Datum entschieden, da ich dort eher im Sinne eines Tagebuchs schreibe. Hier verwende ich eine Kombination aus Artikelname und Artikel-ID, weil die sichtbare ID schnelle interne Links mit dem 123 IntLink-Plugin ermöglicht. Bei Twitter verwende ich übrigens gerne die WP-Shortlinks mit der ID als URL-Parameter, die sind schön kurz und funktionieren auch ohne Shortlink-Dienst.

Ein Kommentar »

Google-Bildersuche mit neuem imagesite-Parameter

Achtung: Seit Mai 2019 funktioniert der imagesite-Parameter wieder als src-Parameter!

Achtung: Seit etwa Mitte August 2010 funktioniert der imagesite-Paramater nicht mehr!

Martin vom TagSEOBlog hatte kürzlich festgestellt, daß sich die Bildersuche mit dem site-Parameter anders als bisher verhält. Früher wurden für eine Site-Abfrage bei der Bildersuche in erster Linie Treffer angezeigt, bei denen sich das Bild selbst auf der Seite befindet.

Damit konnte man z.B. auch Hotlinks finden, daß heißt, eine andere Seite hat ein Bild direkt von der abgefragten Seite eingebunden. Besonders einfach ging das, wenn die abgefragte Seite bei Google als potentiell jugendgefährdend eingestuft war, denn dann förderte der SafeSearch-Parameter safe=strict alle Hotlinks auf einen Blick zu Tage.

Was die Site-Abfrage zeigt

Google Bildersuche – Site:schnurpsel.de

Nun werden hingegen Bilder angezeigt, die auf der gesuchten Seite referenziert werden, egal ob sie als sichtbares Bild oder Link eingebunden sind. Es spielt jetzt auch keine Rolle mehr, ob sich das Bild selbst auf der Seite oder ganz woanders befindet. Bei meiner Schnurpsel-Seite sieht das dann so wie auf nebenstehendem Bild aus.

Das erste Bild ist von Strato, bei mir nur als Link im Zusammenhang mit SpeedPlus verwendet. Das dritte Bild (Brötchen) ist von Putzlowitsch und das fünfte von lebensmittelfotos.com, auch nur ein Link beim Brötchen-Beobachter.

Überall steht aber schnurpsel.de darunter, denn bei mir hier ist das Bild zu sehen oder verlinkt. Eigentlich ist diese Information damit fast redundant, da es ja immer dieselbe ist. Aber eben nur fast, denn es werden bei der Site-Abfrage auch Subdomains mit eingeschlossen, und diese werden dann gegebenenfalls angezeigt.

Der neue Suchparameter imagesite

Google Bildersuche – Imagesite:schnurpsel.de

Nun wäre es ja schön, wenn man nicht alle möglichen Bilder findet, die auf einer Seite „angezeigt“ werden, sondern eben jene, bei denen das Bild auf der Seite beheimatet ist.

Genau dafür gibt es nun den Suchparameter imagesite:. Er funktioniert genau wie site:, man gibt dahinter einfach die gewünschte Domain an, z.B. imagesite:schnurpsel.de.

Das ist nun für meine Seite hier wenig spektakulär, von den 64 site-Bildern bleiben 56 imagesite-Bilder übrig. Aber es sind nun tatsächlich nur Bilder, die hier auf schnurpsel.de liegen. Ein schönes Beispiel ist aber jappy.de, da wird gehotlinkt, was das Zeug hält. So findet man derzeit etwa 88000 Bilder mit site:jappy.de, ich würde sagen, 99% davon sind überall auf der Welt, aber nicht auf jappy.de zu finden. Mit imagesite:jappy.de schrumpft das Ganze auf unter 500 (fast all von der Subdomain wiki.jappy.de) zusammen.

Damit funktioniert nun auch die alte Hotlink-Suche mit dem safe=strict Parameter ganz hervorragend, als Beispiel muß jetzt mal Martins Seite herhalten (ich hoffe, Du nimmst mir das nicht übel).
Nachtrag: Falls man nun grad nicht bei Google auf dem Index steht, klappt das mit dem safe=strict leider nicht. Es geht aber auch einfacher, wenn man es logisch zu Ende denkt:
imagesite:domain.tld -site:domain.tld
Hätte ich auch selber drauf kommen können, bin ich aber nicht :-)
Danke für den Hinweis im Kommentar von Martin Mißfeldt auf diese Seite. Entdeckt hatte ich es aber schon heute Vormittag in einem Kommantar von Michael bei SEO-Book.

Ende gut, alles gut

Die neue Site-Abfrage (site:domain.tld) liefert nun einen schönen, konsistenten Überblick über alle Bilder einer Seite, die dort zu sehen oder verlinkt sind. Mit dem (neuen?) Parameter Imagesite imagesite:domain.tld bekommt man hingegen alle Bilder angezeigt, die auch als Bild auf der Seite beheimatet sind. Ich würde sagen, alles richtig gemacht, Google! :-)

26 Kommentare »

Aktuelle Brötchen-News vom 17.02.2010

Brötchen-News vom 17.02.2010Wer hätte gedacht, daß schon wenige Tage nach der ersten Verbesserung eines Brötchenritters, nun ein weiterer Ritter einen kleinen Erfolg zu verbuchen hat. Ritter Ingo der Großmütige konnte sich mit seinem Röhren-Brötchen um eine Position verbessern (von 4 auf 3).

Doch genauer betrachtet sind das, wie auch schon kürzlich, nur Filtereffekte. Gewissermaßen Brötchen mit Filterkaffee, oder besser gesagt ein Ergebnis von Google-SafeSearch. Die Verbesserungen sind nur mit der SafeSearch-Einstellung „Moderat“ zu sehen (das ist die Standardeinstellung). Schaltet man SafeSearch hingegen aus, ist alles beim alten. Ritter Ingo liegt auf Platz 4 und Ritter Dieter auf Platz 7 und nicht mehr auf dem besseren sechsten Platz.

Wie der Stand der (gefilterten) Dinge ist, kann man beim Rolls-Observer sehen.

Weitere Artikel mit Bezug zu diesem:
2 Kommentare »