Das Putzlowitsch Test- und SEO-Blog

Der Januar 2010 in Zahlen

Den letzten Monatsrückblick gab es für Oktober 2009, es wird also mal wieder Zeit, ein paar Zahlen zu präsentieren. Andernorts wird sowas ja auch gemacht. Allerdings habe ich hier keine hübschen Diagramm zu bieten, nur nüchternes Zahlenmaterial und ein paar Tabellen. Die Werte sind bis auf die AdSense-Daten alle aus der Serverlogdatei ermittelt worden.

Die Kennzahlen vom Januar 2010

  • Webzugriffe: 109794 von 11261 IP-Adressen (9,75 Req/IP)
  • Seitenzugriffe: 4031 (ca. 130/Tag)
  • Einnahmen: 2,99 EUR (Google-AdSense)

Webzugriffe sind alle Zugriffe oder Zugriffsversuche auf irgendwelche Resourcen der Website, also sowohl Seiten, Bilder und Feeds, als auch CSS-Dateien, die robots.txt und sonstige (auch fehlerhafte 403/404-Zugriffe). Dabei erfolgten die Zugriffe von 11261 unterschiedlichen IP-Adressen. Also wurden von jeder IP-Adresse durchschnittlich knapp 10 Zugriffe getätigt.

Die Seitenzugriffe sind Zugriffe auf sichtbare Webseiten durch normale Benutzer, also z.B. keine Zugriffe auf Bilder oder durch Bots. Der von AdSense angezeigte Wert liegt da etwas höher bei 4277 Page Impressions, warum das so ist, weiß ich nicht. Ich hätte es eher anders herum erwartet.

Die € 2,99 Einnahmen wurden durch 9 Klicks erzeugt, was einer CTR von 0,21% entspricht und einen eCMP von € 0,70 ergibt. Keine Ahnung, was das nun konkret bedeutet. Zumindest betrugen die täglichen Einnahmen durchschnittlich 0,10 Euro.

Besucher von Suchmaschinen

Im Januar kamen 2752 Besucher von Google zu Schnurpsel (Oktober: 1555), die übergroße Mehrheit über die normale Websuche, nämlich 2446 (Okt. 1427) und 222 (Okt. 43) über die Bildersuche (fünf davon per Universal-Search). Von Bing gab es 7 Besucher, via T-Online ganze drei.

Die meisten Suchanfragen sind Suchphrasen aus zwei oder mehr Wörtern. Ich habe diese Gruppen mal in 9394 Einzelwörter zerlegt und so erhält man einen Überblick über die gefragtesten Themen meiner Webseite:

Wort Anzahl Typ
wordpress 1284 S
strato 837 S
langsam 152 S
permalinks 123 S
mod_rewrite 95 S
1und1 91 S
bilder 87 S
startseite 84 S
hut 83 B
datenbank 76 S

Typ: S – normale Suche, B – Bildersuche

Die beliebtesten Kombinationen sind unter anderem ‚wordpress strato‘ bzw. ’strato wordpress‘, ‚ähnliche bilder suchen‘, ’strato mod_rewrite‘, ‚wordpress strato langsam‘ und ‚wordpress home link‘. Mit Mohakenox kamen übrigens 11 Besucher von der Bildersuche und 8 von der normeln Suche hierher.

Andere Besucher-Quellen

Die Anzahl der Besucher von anderen Seiten ist überschaubar, die meisten (534) kamen vom WordPress-Deutschland-Forum. Dort sind folgende Artikel die Spitzenreiter:
WordPress läd langsam. Hoster oder Skript Ursache? (39)
strato; (28)
Neuinstallation 2.9.1 bei 1und...nternal Server Error bei Step2 (25)
Neuinstallation bei 1und1 (25)
Fehler: Umleitungsfehler (21)
Blog nicht mehr erreichbar (19)
1und1 mit WordPress (18)
Post via Email sofort publizieren (18)

Ein paar Besucher kamen z.B. auch von Twitter (69), vom SEO-Hanbuch (42), vom der Standard (34), vom Zonebuttler (29) und vom TagSeoBlog (24).

Blog-Statistik

Zum Schluß noch schnell die Blog-Statistik. Hier bei Schnurpsel gibt es derzeit 16 Seiten sowie 125 Artikel in 11 Kategorien und mit 143 Stichworten. Dazu kommen 586 genehmigte Kommentare.

Weitere Artikel mit Bezug zu diesem:
Keine Kommentare »

Strato PowerPlus mit SpeedPlus – Fehler bei der Remote-Adresse (REMOTE_ADDR)

Nachtrag am 22.01.2010:

Seit heute scheint das weiter unten geschilderte Problem mit der Remote-Adresse nicht mehr zu bestehen. Die Einträge in der .htaccess-Datei oder sonstige Eingriffe sind daher möglicherweise nicht mehr erforderlich.
Bei mir ist das Problem verschwunden, aber offensichtlich noch nicht generell.

Nachtrag am 01.03.2011:

Nach aktuellen Informationen ist das Problem wohl nun doch endgültig behoben worden. Die Einträge in der .htaccess-Datei oder sonstige Eingriffe sind daher nicht mehr erforderlich.

Seit Anfang Dezember 2009 bin ich mit meiner Schnurpsel-Seite wieder zurück zu Strato umgezogen. Ganz weg war ich ja nicht, ich hatte nur den Hostnamen bei einem anderen Anbieter aufgeschaltet. Aber seit es nun SpeedPlus bei Strato gibt, bin ich nun doch wieder zurückgekehrt.

Die Geschwindigkeit ist wirklich gut. Antwortzeiten von ungefähr 0,5 Sekunden gegenüber 3 bis 4 Sekunden vorher sind für ein PHP-Schwergewicht wie WordPress eine merkliche Verbesserung. Zudem wurde auch gleich das ohne-www-Problem beseitigt, in der Umgebungsvariable HTTP_HOST steht nun der tatsächlich im HTTP-Request angegebene host drin.

Die Remote-IP-Adresse (REMOTE_ADDR)

Neben allerlei anderen interessanten Informationen wird bei jedem Webseitenaufruf auch die IP-Adresse des Aufrufers in einer Umgebungsvariablen vermerkt. Auf diese kann z.B. mit Skriptsprachen wie PHP oder Perl als Variable „REMOTE_ADDR“ zugegriffen werden. Diese Remote-Adresse ist z.B. für statistische Auswertungen interessant oder kann beim Aussperren unerwünschter Zugriffe (Spam-Bots) helfen.

Allerdings zählt diese IP-Adresse ja nach Auffassung und Auslegung der Gesetze zu den personenbezogenen Daten und dürften dann eigentlich nicht gespeichert werden. Bei Strato werden die IP-Adressen in den den Kunden zur Verfügung gestellten Serverlogdateien in anonymisierter Form gespeichert. Auch die im Kundenmenü anzeigbare Webseiten-Statistik greift auf diese Daten zurück.
So können die Zugriffe zwar unterschieden aber nicht einem konkreten Anschluß zugeordnet werden

Mehr Geschwindigkeit mit SpeedPlus

Wenn ich die Grafik zu SpeedPlus bei Strato richtig deute, werden die Zugriffe nicht mehr direkt auf die Webserver geroutet, sondern von einem Loadbalancing-Cluster lastabhängig verteilt.
Diese Verteilung funktioniert vermutlich ähnlich wie bei einem nicht-transparenten Proxy, denn für den Webserver sieht es so aus, als würde der Strato-interne Server die Seite anfordern. Genau deshalb steht in der Remoteadresse nicht mehr die IP-Adresse des Aufrufers drin, sondern eine 81.169.145.xxx drin.

Komischerweise tritt der Effekt aber nicht bei allen Domains auf, nur die Hälfte meiner Domains (inkl. Subdomains) bei Strato ist davon betroffen.

Die richtige Remoteadresse ermitteln und setzen

Ich wäre ja nicht Schnurpsel, hätte ich nicht bereits eine Lösung für das Problem parat :-)
Die richtige IP-Adresse findet man im Request-Header-Feld X-Forwarded-For, daß heißt der Strato-Server trägt hier die Adresse ein, von der er die Anforderung erhalten hat.

In Skriptsprachen wie PHP oder Perl steht diese Variable als „HTTP_X_FORWARDED_FOR“ zur Verfügung. Hier könnte man sich die Remote-Adresse also einfach möglichst am Anfang (bei WP z.B. in der wp-config.php) der Abarbeitung in die REMOTE_ADDR eintragen, z.B. so:

if( isset( $_SERVER['HTTP_X_FORWARDED_FOR'] ) ) {
  $ip_addr = @trim( @end( @explode( ",", $_SERVER['HTTP_X_FORWARDED_FOR'] ) ) );
  if( '' != $ip_addr )
    $_SERVER['REMOTE_ADDR'] =  $ip_addr;
}

Hier kommen zwei wichtige Aspekte zum Tragen, denn in „X-Forwarded-For“ können mehrere durch Komma getrennte IP-Adressen stehen, sofern unterwegs mehrere Proxies durchlaufen wurden. Außerdem soll die Adresse nicht überschrieben werden, falls kein X-Forwarded-For-Feld existiert oder aus anderem Grund nicht ermittelt werden kann.

Für Perl könnte das etwa so aussehen:

if( $ENV{'HTTP_X_FORWARDED_FOR'} ne "" )
{
  my @ip_list = split(/,/, $ENV{'HTTP_X_FORWARDED_FOR'});
  $ENV{'REMOTE_ADDR'} = $ip_list[-1]; 
}

Nachteil ist hierbei natürlich, daß man alle Webapplikationen, die irgendwie die REMOTE_ADDR verwenden, entsprechend anpassen muß. Es geht aber auch noch einfacher und allgemeiner.

Umgebungsvariablen mit mod_setenvif setzen

Das Apache-Modul mod_rewrite kennen bestimmt viele WordPress-Nutzer, manch einer kennt vielleicht sogar mod_alias, aber vermutlich nur wenige haben schon mal etwas vom Modul mod_setenvif gehört. Es kommt auch ganz bescheiden und unspektakulär mit nur vier Anweiungen daher.

Mit dem Modul mod_setenvif hat man die Möglichkeit, Umgebungsvariablen abhängig von Request-Feldern zu setzen. Genau das brauchen wir hier. Wir haben das Request-Feld X-Forwarded-For und wollen abhängig davon die Umgebungsvariable REMOTE_ADDR setzen. Das Problem läßt sich mit ein bißchen Regular-Expression in einer Zeile in der .htacces erschlagen:

SetEnvIf X-Forwarded-For "(.+,)? *(.+)$" REMOTE_ADDR=$2

Optimalerweise steht diese Zeile ganz am Anfang einer .htaccess im Wurzelverzeichnis des Webpaketes. Dann wirkt sei auch auf alle Domains oder Subdomains, die ihr sichtbares Wurzelverzeichnis in einem Unterverzeichnis des Webspace haben.

Das schöne an diesem kleinen Eingriff ist, daß er auch auf das Serverlogfile und die Webstatistik wirkt. Im Logfile stehen nun wieder zwar anonymisierte, aber unterscheidbare Zugriffe und die Webstatistik zeigt nicht mehr 10000 Zugriffe von nur 5 Adressen an.

Ende gut, alles gut?

Mit ein bißchen Handarbeit kann man wieder mal einen Strato-Konfigurationsfehler ausbügeln. Andereseits ist die SpeedPlus-Plattform noch recht neu, da können solche Fehler schon mal auftreten. Ich habe das Problem auch bereits vor 10 Tagen an den Strato-Support gemeldet, warte aber immer noch auf die Antwort zu meinem Ticket. Scheint etwas komplizierter zu sein. Bis zur Strato-Problemlösung kann mein kleiner „Trick“ zumindest über die Zeit helfen.

7 Kommentare »

Spam-Kommentare, die beliebtesten Artikel

Viel Kommentarspam kommt hier ja nicht an. In den Monaten September, Oktober und November waren es insgesamt etwa 600 Versuche, automatisch einen spammigen Kommentar bei einem Artikel oder einer Seite zu hinterlassen. Diese Versuche werden allerdings gleich an der Türe abgebügelt, kommen gar nicht erst bis zur Datenbank und müssen deshalb auch nicht moderiert oder gelöscht werden.

Was mich schon immer interessiert, nach welchen Gesichtspunkten wählen die Spambots Ihre Zielseiten aus. Gibt es irgendein System oder wird einfach zufällig gestreut? Ich habe dashalb alle Spamversuche aus den drei oben genannten Monaten aufsummiert und eine kleine Tabelle erstellt:

Nr Artikel/Seite Spam PR Kom
1 123 Moderate Comment Notification 21,3% 3 3
2 Es geht doch, Kontaktformular mit POST und Permalinks 17,1% 1 3
3 WordPress und die suboptimale MySQL-Optimierung (5.0.51) 14,7% 2 42
4 Privat: 123 MetaBlog 11,9% 2 2
5 WordPress 2.3 – Anonym up-to-date bleiben 5,9% 2 14
6 WordPress 2.3 – Problem ohne www bei Strato 5,2% 2 82

Ich habe nur die Seiten und Artikel berücksichtigt, die 5% oder mehr am Spamaufkommen ausmachen. In der Spalte PR steht der aktuelle Google-Pagerank und in der Spalte Kom die Anzahl der abgegebenen und freigeschalteten Kommentare.

Alle Seiten oder Artikel sind schon mindestens ein Jahr alt. Der Artikel „WordPress 2.7 – Wartungsmodus ohne Plugin“ mit dem höchsten Pagerank (4) gehört mit 0,8% nicht zu den Favoriten der Spambots, allerdings immerhin zwei der Seiten mit den meisten Kommentaren.

Was kann man nun daraus schließen? Nichts, würde ich sagen :-)
Es gibt wohl kein offensichtliches Muster, nachdem sich die Spambots die Artikel aussuchen, zumindest kann ich keins erkennen.

Interessant fand ich allerdings die Tatsache, daß zwar selten, aber ab und zu doch Kommentarspam fast in Echtzeit auftauchte, nur wenige Stunden nach Veröffentlichung eines Artikels. Rekord war dabei mal eine knappe halbe Stunde. Schon erstaunlich.

Keine Kommentare »

Der Oktober 2009 in Zahlen

Der guten Tradition meines Monatsrückblicks bei Putzlowitsch folgend gibt es diesen nun heute hier für Schnurpsel. Die Zugriffszahlen sind bei weitem nicht sooo groß, wie bei der PZ. Der Schwerpunkt liegt hier nicht bei den Bildern, sondern bei „normalen“ Suchanfragen.

Besucher von Suchmaschinen

Im Oktober kamen 1555 Besucher von Google zu Schnurpsel, die übergroße Mehrheit über die normale Websuche, nämlich 1427 und nur 43 über die Bildersuche (einer davon per Universal-Search). Von Bing gab es 6 Besucher, via T-Online ganze drei.

Die häufigsten Suchanfragen komme zum Thema Strato, WordPress, Permalinks und Ähnlichem. Das ist auch nicht verwunderlich, waren diese Dinge doch lange Zeit hier die Hauptthemen. Im Unterschied zur Bildersuche, wo sich die meisten Treffer bei Putzlowitsch auf Einzelwörter beziehen, gibt es hier eine große Bandbreite an Suchanfragen, die aber praktisch oft dasselbe meinen, z.B.:
– wordpress strato langsam
– strato wordpress langsam
– wordpress langsam bei strato
– wordpress auf strato langsam
– strato wp ist zu langsam
Da gibt es noch eine ganze Menge mehr Variationen, alles in allem kommt langsam 98 Mal in den Suchphrasen vor. Hier ist die Antwort zum Thema „WordPress bei Strato langsam„.

Nach Einzelwörtern per Hand zusammengefaßt kommt strato auf 553 Treffer, wordpress auf 849 und permalink/permalinks auf 150. Immerhin 37 Mal wurde nach schnurpsel gesucht :-)
Ich müßte mal mein Statistikskript dahingehend etwas erweitern, diese Anfragen irgenwie intelligent zusammenzufassen.

Die „erfolgreichsten“ Bilder sind übrigens 410 gone mit 5 Treffern, wunderkerze und industrie ruine mit jeweils 3 Treffern. Und heute gab es bereits zwei Bildersuche-Anfragen zu alter Hut, aber das paßt nicht in die Oktober-Statistik. Ich sag mal so, auch die Bilder sind hier im kommen :-)

Andere Besucher-Quellen

Auch die Anzahl der Besucher von anderen Seiten ist überschaubar, die meisten (287) kamen vom WordPress-Deutschland-Forum. Dort sind folgende Artikel die Spitzenreiter:
lange Aufrufzeiten Homepage (27)
Fehler: Umleitungsfehler (26)
Post via Email sofort publizieren (19)
Auto-Upgrade bei All-Inkl (16)
strato; (16)

Ein paar Besucher kamen z.B. auch von Twitter (58), vom TagSeoBlog (47) und von Golem (27).

Bots und Page-Impressions

Fleißigster Suchmaschinen-Bot ist hier der msnbot mit 6838 Seitenabrufen, allerdings sind davon gut 10% Zugriffe auf die robots.txt. Der Googlebot kam 2286 Mal vorbei (Googlebot-Image 83) und Yahoo-Slurp 1471 Mal. Komischerweise mag der Yahoo-Bot CSS-Dateien besonders gerne, allein knapp 1000 Abrufe gehen dabei drauf. Hat zufällig jemand eine Erklärung dafür?
Und auch Twiceler (285), Teoma (165) und MLBot (100) will ich nicht vergessen.

Ansonsten bleiben nach Abzug der großen Suchmaschinen-Bots noch bescheidene 43000 Seitenabrufe übrig. Einige „kreative“ Namen finde sich auch hier wieder bei den User-Agenten (Browser), etwa 12345, BOV, VB, page_test, Test oder SEO. Ja genau, ein Bot Namens SEO, aber ganz ausgeschrieben heißt der eigentlich „SEO Consultants Directory CSH Bot V2S User IP:xxx“. Was der hier wohl will?

Blog-Statistik

Zum Schluß noch schnell die Blog-Statistik. Hier bei Schnurpsel gibt es derzeit 17 Seiten sowie 90 Artikel in 10 Kategorien und mit 111 Stichworten. Dazu kommen 475 genehmigte Kommentare.
In den letzten drei Monaten, also August, September und Oktober, wollten Spambots 824 Mal ihren Müll hier abladen, aber dazu werde ich später (irgendwann) mal noch ausführlicher etwas schreiben.

Weitere Artikel mit Bezug zu diesem:
Ein Kommentar »