Das Putzlowitsch Test- und SEO-Blog

Mein Blog Statistik-Tool: Logfile-Auswertung

Mir reicht die Logdatei

Ich habe es ja schon öfter mal kund getan, für meine Blog-Statistik reichen mir die Server-Logdateien. Diese werden ohnehin vom Server erzeugt und mir bereit gestellt. Alle wesentlichen Informationen finde ich (noch) dort. Wie oft wurden welche Seiten aufgerufen, wer kam mit welchen Suchbegeriffen von einer der Suchmaschinen auf mein Blog.

Fall Google mit der https-Geschichte flächendeckend ernst macht, fällt natürlich die Google-Suchwort-Auswertung weg, aber auch andere Webstatistik-Tools haben das gleiche Problem.

Logfile-Auswertung mit PHP-Skript

Logfile-Auswertung: Google-Besucher

Die Logfile-Auswertung habe ich mit PHP selbst programmiert. Angezeigt wird eine einfache Tabelle, wie oben abgebildet.

Ganz links steht der Suchbegriff, in der nächsten Spalte folgt die Anzahl der Besucher, die zu dem Suchbegriff von Google auf eine meiner Seiten gelangten. Danach folgt das Datum des letzten Zugriffs.

Sofern aus dem Referrer ermittelbar, gebe ich daneben die Position in den Suchergebnisseiten aus. Zahlen, die mit .. beginnen, sind nur die Ergebnis-Seite oder bei ..1 war die Position nicht zu ermitteln.

Am Ende folgt dann noch der Suchtyp. Das Fragezeichen ? steht für die Textsuche, der Kasten für die Bildersuche und ein U für Universal-Search.

Wie man sieht, ist OnkelSeosErbe in der normalen Textsuche am gefragtesten, bei der Bildersuche und Universal Search (Images) liegt das Brötchen ganz vorn.

Sachen wie Absprungrate, Verweildauer und Ähnliches interessieren mich nicht. Was soll ich auch mit diesen Werten anfangen?

Webmasterfriday

Webmasterfriday - WMF

Die Blogstatistik ist aktuelles Thema beim Webmasterfriday, was übrigens zum Ende eines Monats ganz passend ist, wie ich finde. Es bietet sich damit auch direkt an, mal wieder eine Monatsstatistik zu veröffentlichen.

2 Kommentare »

Das Ende der Logfile-Auswertung – Google stellt auf https um

Wo kommen die Besucher her

Ich bin ja ein großer Anhänger der Logdatei-Auswertung für meine Statistik und habe bisher auf andere Tools wie Google-Analytics verzichtet. Alle Informationen konnte ich aus den Server-Logfiles extrahieren, die aufgerufenen Seiten und normalerweise auch, woher der Besucher kam. Dazu überträgt der Webbrowser die entsprechende Information im sogenannten Referrer.

Für Besucher von Google konnte ich auch ermitteln, nach welchen Wörtern sie gesucht hatten. Das zeigt einerseits, was wirklich gesucht wird und wofür meine Seiten gefunden werden. Andererseits gibt es auch immer wieder recht eigenartige Suchanfragen, die Stoff für ein paar lustige Blogartikle liefern.

Google macht dicht

Gestern gab es von Google eine Ankündigung, daß die Suche verstärkt über SSL-Verbindungen (https) abgewickelt werden soll. Bei Twitter und auf Blogs wurde das entsprechend reflektiert, so z.B. bei Prometeo und bei Cashys Blog und natürlich beim GoogleWatchBlog.

Kein Referrer mehr

Im RFC 2616 (HTTP 1.1) findet man unter Punkt 15.1.3 folgendes:

Clients SHOULD NOT include a Referer header field in a (non-secure) HTTP request if the referring page was transferred with a secure protocol.

Mit Clients sind hier die Webbrowser gemeint. Diese sollen also keinen Referer mit schicken, wenn von einer sicheren, verschlüsselten Seite zu einer unsicheren, unverschlüsselten Seite navigiert wird.

Genau das passiert, wenn man auf der verschlüsslten Google-Ergebnisseite auf ein Suchergebnis klickt und z.B. bei mir landet. Meine Seiten sind unverschlüsselt.

Kein Informationen mehr

Was bedeutet das nun für meine Statistik?
Ich weiß bei Besuchern, die von Google kommen, nicht mehr, was sie eigentlich gesucht haben. Ich weiß noch nicht mal, daß sie überhaupt von Google kamen, denn der Referer ist ja leer.

Aber das Problem habe nicht nur ich, sondern auch alle anderen Webstatistik-Tools, selbst Google-Analytics.

Ein Ausweg wäre, man stellt die eigenen Seiten auf https um. Damit bekommen natürlich die Zertifikatsanbieter enormen Zulauf. Bietet Google selbst eigentlich SSL-Zertifikate für Geld an? :-)

Nachtrag:
Was genau im Logfile ankommt oder nicht, hängt auch davon ab, wie der Link zur Zielseite auf der Google-Suchergebnisseite kodiert ist.

Entweder ist das Ziel direkt als URL eingetragen. Dann bleibt der der Referer beim Übergang von der verschlüsselten Suchergebnisseite auf eine unverschlüsselte Zielseite auf der Strecke.

Oder der Klick wird über den Google-URL-Redirector geleitet. Da dieser unverschlüsselt arbeitet, werden nun die Werte im Referer an die Zielseite übertragen, die Google dem Redirector mit auf den Weg gibt. Dabei bleibt z.B. das Abfragefeld q= einfach leer, weil Google das so will und nicht etwa, weil es technisch nicht anders geht.

Das hat also primär nichts mit der Verschlüssselung zu tun. Auch ohne Verschlüsselung der Suchseiten wäre es kein Problem. So etwas Ähnliches gab es übrigens bei der Bildersuche schon mal im Dezember 2007, als Google die Suchparameter im Frameset weggelassen hatte.

3 Kommentare »

Referertrick – Referer-Spam mit System

Referer-Spam ist ja nichts Neues, dazu habe ich schon vor einiger Zeit etwas geschrieben.

Gefälschter Referer -> Spam

Der Referer wird normalerweise beim Aufruf einer Seite vom Web-Browser des Benutzers an den Webserver im sogenannten HTTP-Request mitgeschickt, kann aber ebenso fehlen oder sonst irgendwie verändert sein. Da diese Information beliebig gesetzt werden kann, ist nicht gewährleistet, das sie auch stimmt. Genau solche „gefälschten“ Referer machen sich Spammer zu Nutze und setzen den Refefer auf eine Seite, von der gar kein Link auf die aufgerufene Seite zeigt.

Spamziel -> Neugierige Webmaster und öffentliche Statistik

Was hat ein Spammer nun von so einem auf eine „beworbene“ Seite zeigenden, falschen Referer? Zwei Aspekte spielen dafür eine wichtige Rolle.

Zum einen die Neugier des Webmasters, der gerne wissen möchte, wer denn da und warum auf die eigene Seite verlinkt. Damit hat die bespammte Seite schonmal einen Besucher mehr. Ich gebe zu, ich gucke da auch manchmal nach, woher die Links kommen :-)

Zum anderen gibt es Webseiten, die ihre Zugriffsstatistik öffentlich einsehbar auf einer Seite bereitstellen. Meist gibt es da auch einen Bereich mit der Herkunft der Besucher, als der referenzierenden Webseite, die dann oft sagar als Link ausgegeben werden. Über die Bedeutung von Links im allgemeinen und für das Suchmaschinen-Ranking im besonderen brauche ich wohl keine großen Worte verlieren.

Referer-Spam mit System

Seit ein paar Tagen, konkret seit dem 18. März, befinden sich in meinen Log-Dateien Referer von der Seite referertrick.com (seit kurzem auch mit .de).
Die Zugriffe kommen bisher von den drei IP-Adressen 87.118.82.66, 87.118.82.104 und 87.118.116.23. Ich habe noch etwas „zurückgeblättert“ und festgestellt, daß es bereits im Dezember 2009 ein paar Zugriffe von einem Bot namens „SourceSpider/2.1“ über die IP 87.118.82.66 gab. Im Januar wurde vermutlich eine Testlauf gestartet, da tauchte dieser Server mit „Kunden-Referer“ auf.

Auf der referertrick-Webseite heißt es ganz unverblümt:

Wir senden HTTP-Pakete an alle Webseiten des Internets. Dabei wird Ihre Webseite als Referer aufgelistet.
Die Inhaber dieser vielen (teilweise Millionen) anderen Webseiten glauben daher, dass Sie auf diese Webseite verlinken würden, und besuchen Ihre Webseite aus Neugierde.
Jeder Besucher ist ein potentieller Kunde, ganz zu schweigen von der Suchmaschinen-Optimierung durch die vielen Statistik-Links!

Geld verdienen im Internet

Das Ganze klingt natürlich erstmal nach einer cleveren Geschäftsidee. Ich halte es allerdings für eine weitere Art von Spam, die irgendwann nur nervig ist.

Irgendwie paßt das auch ganz gut zum aktuellen Thema des Webmasterfridays „Was ist die richtige Linkbuilding-Strategie?“ :-)
Allerdings denke ich, daß dieser Art gekauftes „Linkbuilding“ über gefakte Referer auf Statistikseiten keine gut Strategie ist.

Google-Analytics und externe Statistik nicht betroffen

Wenn sich nun jemand wundert, daß bei ihm noch keine Referertricks angekommen sind, liegt es vielleicht daran, das die Statistik nicht über die Serverlogdatei funktioniert oder direkt auf dem Server läuft. Technisch bedingt sind keine Statistik-Tools betroffen, die extern per Javascript oder „Zählerpixel“ eingebunden werden. Der Referertrick-Bot führt, davon gehe ich einfach mal aus, schließlich kein Javascript aus oder lädt per IMG-Tag eingebundene Grafiken nach. Somit sehen Statistik-Tools wie Google-Analytics, WordPress.com Stats oder auch Piwick diese falschen Referer erst gar nicht.

8 Kommentare »

Eingehende Links von /map.html

Eingehende Links sind ja was feines. Da hat also jemand anderes die Seite verlinkt, vielleicht weil sie ihm besonders gut gefällt, er sie irgendwie nützlich findet oder warum auch immer. Manche Seiten veröffentlichen sogar Statistiken mit diesen eingehenden Links, inklusive des Links als Link, womit er dann ein ausgehender Link wird, der wiederum einen eingehenden Link aus Sicht der verlinkenden Seite darstellt. Wie wichtig Links sind, ist ja nicht erst seit Google bekannt.

Woher weiß man nun aber, woher die Links kommen? Man kann es unter anderem in der Webserver-Logdatei sehen, dort wird der soganannte Referer möglicherweise mit gespeichert und das ist genau die Information um zu erkennen, wie der Besucher auf die Seite gelangt ist. Wenn er z.B. über eine Suche von Google gekommen ist, kann man sogar herausfinden, wonach der Benutzer bei Google gesucht hatte.

Der Referer wird normalerweise vom Web-Browser des Nutzers an den Webserver beim Aufruf einer Seite im sogenannten HTTP-Request mitgeschickt, kann aber ebenso fehlen oder sonst irgendwie verändert sein. Er kann auch auf irgendeine beliebige andere Webseite verweisen, auf der überhaupt kein Link zur eigenen Seite existiert. Genau das machen sich Spammer zunutze, man spricht dann von „Referer-Spam“, eine Technik, die es schon seit einiger Zeit gibt.

In letzter Zeit habe ich hier häufiger eingehende Links von Seiten, die als /map.html erscheinen. Immer von irgendwelchen .com-Hosts mit so interessanten Namen wie facsimile-prints, trollcollective oder yachting-swap, in den letzten 30 Tagen ungefähr 20 unterschiedliche Seiten mit jeweils vier bis sieben Aufrufen.
Auf den Seiten selbst findet man dann lange Listen mit Links, die alle nach pharmazeutischen Produkten klingen, so Sachen wie adipex, didrex, medrol, prozac und xanax. Diese Links sind aber wiederum nur Weiterleitungen auf andere Seiten die allerdings meist nicht funktionieren. Also weiß ich nicht, wo man dann wirklich landet, interessiert mich aber auch nicht. Es ist halt Spam, Referer-Spam.

Falls also jemand vermehrt eingehenden Links von *.com/map.html hat, nicht zu früh freuen, es wir mit hoher Wahrscheinlichkeit Spam sein.

Weitere Artikel mit Bezug zu diesem:
Keine Kommentare »