Das Putzlowitsch Test- und SEO-Blog

Studenten-Spam, eine neue Masche?

Beim ersten Kommentar hier war es mir gar nicht aufgefallen. Die Seite, die der Kommentator als Homepage angegeben hat, sieht erstmal unverfänglich aus. Zumal sie auf einen Uni-Account bei der TU-Dresden verweist. Stutzig wurde ich bei einem weiteren Kommantar auf Putzlowitsch, hier lag die Homepage bei der HTW-Berlin. Verblüffend ähnlich war aus meiner Sicht der Aufbau der beiden Seiten. Es gibt jeweils eine Homepage und dann eine weitere Seite „1. Story“ bzw. „Story Nr.1“. Zufall?

Bei beiden Seiten ist das „Design“ eher etwas altbacken, technisch mit Tabellen realisiert. Das wundert mich besonders bei Christoph, der ja vorgibt, im vierten Studienjahr Informatik zu studieren. Abderrahim hingegen studiert schon im fünften Studienjahr im Fach „Techik“, richtig, nur Technik. Komisch auch, daß Christoph als E-Mail-Adresse Christian@ verwendet. Aber egal, das ist alles vielleicht nur Zufall.

Wenn man sich nun die Seiten von Christoph und Abderrahim ansieht, fallen weitere Gemeinsamkeiten auf. Beide berichten über Stromanbieter und verlinken auf Stromsuche. Beide schreiben über Gutscheine und Coupons und verlinken auf Gutscheindorado. Und jetzt kommts, beide Kommentare wurden von derselben IP-Adresse abgesetzt, Anbieter ist Kabel-Deutschland (dynip.superkabel.de). Aber auch das ist möglicherweise alles nur Zufall :-)

Was mich eher interessieren würde, wie die Seiten bei den Unis dort hinkommen. Werden für ein paar Euro Studenten gekauft, die dann Ihren Uni-Zugang dafür hergeben. Oder wurden die Accounts geknackt oder gibt es sonst eine Lücke, die es ermöglicht, auf Uni-Servern Seiten abzulegen?

Na mal sehen, ob und wie das weitergeht…

6 Kommentare »

Mehr Bilderdiebe

Bilderdieb am PrangerEigentlich sind es nicht wirklich mehr Bilderdiebe geworden, der bekannte Bilderdieb taucht nur mit einem anderen Gesicht, sprich weiteren Subdomains auf. Nach meinem Äpfelbild ist nun auch mein Fenchel dort zu finden, der Fenchel von einem gewissen Kochbuch (Stichwort: Brötchen) übrigens auch. Die haben mittlerweile auch ein Ersatzbild eingebaut.

So muß ich nun nicht nur freeimages-de aussperren, sondern auch noch images-de. Oder doch gleich bloggum insgesamt? Ich weiß nicht…

Mit Dieben ist man früher nicht zimperlich gewesen. Die wurden kurzerhand an den Pranger gestellt und hatten da nichts zu lachen. Gut, die moderne Form des digitalen Prangers gibt es ja auch und das kann manchmal noch schlimmere Folgen haben.

Weitere Artikel mit Bezug zu diesem:
2 Kommentare »

Spam-Kommentare, die beliebtesten Artikel

Viel Kommentarspam kommt hier ja nicht an. In den Monaten September, Oktober und November waren es insgesamt etwa 600 Versuche, automatisch einen spammigen Kommentar bei einem Artikel oder einer Seite zu hinterlassen. Diese Versuche werden allerdings gleich an der Türe abgebügelt, kommen gar nicht erst bis zur Datenbank und müssen deshalb auch nicht moderiert oder gelöscht werden.

Was mich schon immer interessiert, nach welchen Gesichtspunkten wählen die Spambots Ihre Zielseiten aus. Gibt es irgendein System oder wird einfach zufällig gestreut? Ich habe dashalb alle Spamversuche aus den drei oben genannten Monaten aufsummiert und eine kleine Tabelle erstellt:

Nr Artikel/Seite Spam PR Kom
1 123 Moderate Comment Notification 21,3% 3 3
2 Es geht doch, Kontaktformular mit POST und Permalinks 17,1% 1 3
3 WordPress und die suboptimale MySQL-Optimierung (5.0.51) 14,7% 2 42
4 Privat: 123 MetaBlog 11,9% 2 2
5 WordPress 2.3 – Anonym up-to-date bleiben 5,9% 2 14
6 WordPress 2.3 – Problem ohne www bei Strato 5,2% 2 82

Ich habe nur die Seiten und Artikel berücksichtigt, die 5% oder mehr am Spamaufkommen ausmachen. In der Spalte PR steht der aktuelle Google-Pagerank und in der Spalte Kom die Anzahl der abgegebenen und freigeschalteten Kommentare.

Alle Seiten oder Artikel sind schon mindestens ein Jahr alt. Der Artikel „WordPress 2.7 – Wartungsmodus ohne Plugin“ mit dem höchsten Pagerank (4) gehört mit 0,8% nicht zu den Favoriten der Spambots, allerdings immerhin zwei der Seiten mit den meisten Kommentaren.

Was kann man nun daraus schließen? Nichts, würde ich sagen :-)
Es gibt wohl kein offensichtliches Muster, nachdem sich die Spambots die Artikel aussuchen, zumindest kann ich keins erkennen.

Interessant fand ich allerdings die Tatsache, daß zwar selten, aber ab und zu doch Kommentarspam fast in Echtzeit auftauchte, nur wenige Stunden nach Veröffentlichung eines Artikels. Rekord war dabei mal eine knappe halbe Stunde. Schon erstaunlich.

Keine Kommentare »

Bilderdiebe – was ich dagegen tue

Alter HutGut, das Thema des aktuellen Webmasterfridays ist zwar mit „Was tun bei Urheberrechtsverstößen?“ deutlich weiter gefaßt, als das es dabei nur um Bilder und Fotos ginge.

Der „Aufhänger“ war aber wohl der Bilderklau beim TagSeoBlog und so will ich mich hier auch nur auf dieses Problem beziehen.

Von Bilderdieben und Raubkopierern

Im richtigen Leben ist das alles klar und weitestgehend eindeutig definiert. Geht jemand in eine Gemäldegalerie, hängt dort heimlich ein Bild ab und nimmt es mit nach Hause, so ist das Diebstahl und derjenige ein Bilderdieb. Tut er so etwas zudem unter Anwendung von Gewalt oder Androhung von Gefahr für Leib oder Leben von Personen, so ist das Raub. Was nun genau ein Raubkopierer macht, ist mir allerdings nicht klar. Ich könnte mir aber vorstellen, daß das jemand ist, der z.B. eine bestimmte Ablauf eines bekannt gewordenen Raubes nachahmt, mithin also den Raub in der Vorgehensweise kopiert :-)

Beiden Delikten, Diebstahl und Raub, ist gemeinsam, daß es sich um die Wegnahme einer fremden beweglichen Sache handelt. Deshalb wird ein Diebstahl meist auch recht schnell bemerkt, denn der entwendete Gegenstand, z.B. das Gemälde, ist ja nicht mehr da.

Bildkopien und Hotlinking

In der digitalen Welt sieht das nun etwas anders aus, auch wenn hier unzutreffenderweise die Begriffe aus dem richtigen Leben verwendet werden. Denn normalerweise wird ein Bild ja nicht „entwendet“, so daß es plötzlich beim Besitzer fehlt, sondern nur eine Kopie angefertigt und an anderer Stelle verwendet (Bildkopie). Das führt auch dazu, daß die unrechtmäßige Verwendung eines Bildes erst sehr spät oder oft auch gar nicht bemerkt wird. Meist kommt so etwas nur eher zufällig ans Tageslicht.

Besonders im Internet wird oft noch nicht mal eine Kopie eines Bildes angefertigt, sondern das Bild einfach direkt von der fremden Seite eingebunden (Hotlink). Dadurch wird nicht nur das Bild möglicherweise unberechtigt verwendet, sondern auch noch der Server des „Bestohlenen“ belastet und ein zusätzliches Datenaufkommen erzeugt. Andererseits sind diese Hotlinks recht schnell zu erkennen, wenn man sich als Webmaster ab und zu die Serverlogfiles daraufhin ansieht.

Urheberrecht

UhrheberDie oben genannten Bildkopien bzw. das Hotlinking sind also kein Diebstahl oder gar Raub, sondern Verletzungen des Urheberrechtes.

Die wichtigsten Punkte im Urheberecht sind wohl Veröffentlichungs-, Verwertungs- und Folgerechte die es dem Schöpfer eines Werkes erlauben, allein darüber zu bestimmt, ob, wann, wo und in welcher Form sein Werk der Öffentlichkeit zugänglich gemacht und wie es im weiteren verwertet, verbreitet und vervielfältigt wird.

Meine Bilder

Im Allgemeinen habe ich nichts dagegen, wenn meine hier oder bei Putzlowitsch veröffentlichten Bilder von Dritten verwendet werden. Sei es nun in Communities, Foren oder anderen Blogs. Auch mit Hotlinks habe ich im Zeitalter von „unbegrenztem“ Traffic keine Probleme, ganz im Gegenteil, bin ich doch darüber schon auf die eine oder andere interessante Seite gestoßen.

Wenn nun aber meine Bilder dreist auf irgendwelchen Spam-Seiten landen oder in einem mir sonst wie nicht genehmen Kontext (z.B. rechtsradikale Foren) erscheinen, dann habe ich schon etwas dagegen. Da es bisher meist nur Hotlinks waren (bei Kopien habe ich es möglicherweise nur noch nicht bemerkt), gehe ich dagegen mit einer technischen Maßnahme vor.

Bilder-Hotlink unterbinden

Normalerweise sendet der Webbrowser eines Nutzers beim Aufruf einer Seite oder eines Bildes die Information mit, woher der Aufruf kommt. Bei einem Link ist das die verlinkende Seite oder bei einem sichtbaren Bild eben die Seite, auf der das Bild angezeigt wird. Diese Information, den so genannten REFERER kann der Webserver auswerten und gegebenenfalls bestimmte Aktionen ausführen. Das Ganze läuft über das Servermodul mod_rewrite und wird über die Datei .htaccess konfiguriert. Damit kann man dem Webserver z.B. sagen, daß wenn die Seite xyz aufgerufen wurde, er doch stattdessen bitte die Seite abc ausliefern oder einen Fehlercode zurückgeben soll.

Die einfachste und zugleich radikalste Variante, dem Hotlinking zu begegnen, ist folgender Dreizeiler:

RewriteCond %{HTTP_REFERER} !^$
RewriteCond %{HTTP_REFERER} !^http://(www.)?schnurpsel.de/.*$ [NC]
RewriteRule \.(gif|jpe?g|png)$ - [F,L]

So oder ähnlich findet man das auf vielen Webseiten als Empfehlung, wie man sich gegen das Hotlinking schützen kann. Die Strategie ist hierbei, allen die Zugriffe auf Bilder zu verbieten (3. Zeile), und nur Zugriffe von der eigenen Seite zuzulassen (2. Zeile). Die 1. Zeile nimmt etwas Radikalität wieder raus, denn auch wenn der Referer leer, also nicht bekannt ist, woher der Aufruf kam, werden die Bilder angezeigt. Ohne Zeile eins würde man z.B. alle Suchmaschinen-Bots aussperren und auch die User, deren Browser den Referer unterdrückt.

Unberechtigte Zugriffe werden hier vom Webserver mit dem Fehlercode „403 Forbidden“ quittiert, der Browser zeigt dann für ein Bild nur den Alternativtext (falls vorhanden) und eventuell ein Fehlersymbol an. Die Antwort ist klar und deutlich, der Zugriff ist verboten und wird verweigert.

Meine Hotlink-Strategie

Ich bin da nicht ganz so konsequent sondern fahre eine andere Strategie. Ich erlaube prinzipiell allen den Zugriff und schließe nur unerwünschte Seiten aus. Ich will ja nicht die vielen netten User von Jappy, Schnappy und Zappy daran hindern, sich gegenseitig ihre „Gästebücher“ mit Bildern vollzukippen :-)

Bei mir sieht die Hotlinkabwehr deswegen etwas komplizierter aus:

RewriteCond	%{REQUEST_FILENAME} -f
RewriteCond	%{REQUEST_URI}	!^/images/1x5120.gif$
RewriteRule	\.(jpg|gif|png)$	-	[NC,C]
RewriteCond	%{HTTP_REFERER}	hotlink\.schnurpsel\.de [NC,OR]
RewriteCond	%{HTTP_REFERER}	bilderdieb\.schnurpsel\.de [NC,OR]
RewriteCond	%{HTTP_REFERER}	xxxx-yyyy\.zz
RewriteRule	.	/images/1x5120.gif	[T=image/gif,L]

In der 1. Zeile wird geprüft, ob die angeforderte Datei überhaupt existiert. Falls nicht, soll nicht die Hotlink-Abwehr greifen, sondern die normale Fehlerbehandlung ablaufen.

Da ich nicht einfach den Statuscode 403 zurückliefern will, sondern ein Ersatzbild, wird in der 2. Zeile geprüft, ob nicht gerade das Ersatzbild angefordert wird. Dann darf die Hotlink-Abwehr nicht erneut anspringen, sonst gäbe es eine prima Endlosschleife.

Die 3. Zeile selektiert nur die Zugriffe, die ein Bild mit einer der angegebenen Datei-Erweiterungen betreffen, hier also jpg-, gif- und png-Bilder. Die Liste kann natürlich beliebig erweitert werden. Dabei kann man ein klein wenig optimieren, in dem man den Bildtyp nach der Reihenfolge ihrer Häufigkeit angibt. Da bei mir die meisten Bilder vom Typ jpg sind, brauchen die restlichen Einträge dann nicht mehr überprüft werden.

Mit den Zeilen 1 bis 3 werden Vorbedingungen geprüft und nur wenn die angeforderte Datei existiert, nicht das Ersatzbild ist und dem richtigen Dateityp entspricht, wird der Rest abgearbeitet.

Die Zeilen 4, 5 … n-1 enthalten die eigentlichen Bedingungen, wann ein Hotlink als böse einzuordnen ist. Hier wird auf den oben schon angesprochenen Referer Bezug genommen und jede Seite eingetragen, von der Hotlinks unerwünscht sind. Auch hier kann man etwas optimieren, indem man die häufigsten Seiten an den Anfang der Liste stellt. Man kann hier aber auch andere Bedingungen einsetzen, z.B. IP-Adressen. Eine ausführliche Beschreibung zum Apache-Rewrite-Modul findet man hier.

Die letzte Zeile n gibt dann nur noch das Ersatzbild aus, bei mir ein transparentes GIF-Bild mit einem Pixel Breite aber über 5000 Bildpunkten Höhe. Zu sehen ist es nicht, aber es reißt die Seite an der Stelle weit auseinander, ja nach dem, wie das Bild auf der Hotlinkseite eingebunden ist. Außerdem liefere ich, egal was für ein Bildtyp angefordert wird, immer das Gif-Bild aus. Deshalb wird noch der richtige Content-Type (image/gif) gesetzt.

So sieht es aus

Zur Demonstration habe ich mal zwei böse und eine gute Sub-Domain erstellt, damit man sehen kann, wie sich das Ersatzbild auswirkt.
Die gute Seite:
Der alte Hut
Die bösen Seiten:
Bilderdieb
Hotlink
Hinweis zu den bösen Seiten: Wenn man sich zuerst die gute Seite angesehen hat, dann wird auf einer der bösen Seiten möglicherweise trotzdem der Hut und nicht das Ersatzbild angezeigt. Das liegt am Caching durch den Browser. Man muß dann nochmal das Neuladen der Seite erzwingen, beim Firefox z.B. mit Shift+Reload-Button oder Strg+F5.

Vorerst reicht mir meine Hotlink-Abwehr per Ersatzbild für böse Seiten, die Seiten und Abrufe sind allerdings auch recht überschaubar. Problematisch wird es, wenn die Liste mit den Seiten gar zu lang wird, denn die muß der arme Webserver immer von oben bis unten abarbeiten. Das könnte sich dann mit schlechten Antwortzeiten und höherer Serverlast bemerkbar machen.

Nachtrag: Ich habe es nicht extra erwähnt, aber damit die Regeln überhaupt abgearbeitet werden, muß normalerweise die Rewrite-Engine eingeschaltet werden. Zudem sollte man prüfen, ob das Modul mod_rewrite überhaupt zur Verfügung steht. So sieht dann meine Variante komplett aus:

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{REQUEST_FILENAME} -f
RewriteCond %{REQUEST_URI} !/bilder/bild-foto/die-besten-bilder-der-welt.jpg$
RewriteRule \.(jpg|gif|png)$ - [NC,C]
RewriteCond %{HTTP_REFERER} bilderr\.com [NC,OR]
RewriteCond %{HTTP_REFERER} pictures-images\.com [NC,OR]
RewriteCond %{HTTP_REFERER} freeimages-de\.bloggum\.com [NC,OR]
RewriteCond %{HTTP_REFERER} zaggla\.com [NC]
RewriteRule . /bilder/bild-foto/die-besten-bilder-der-welt.jpg [T=image/jpg,L]
</IfModule>

Dieser Block sollte noch vor allen anderen Rewrite-Blöcken stehen, also auch vor den WordPress-Permalink-Eintrag.

21 Kommentare »

Komischer Spam und der HTTP-Statuscode

Crawling-Fehler Google-Webmastertools

Komischer Link

Hin und wieder schaue ich mal in die Google-Webmastertools, wie es so um meine Seiten bestellt ist. Neben allerlei anderen, nützlichen Sachen gibt es auch eine Übersicht, welche Probleme es möglicherweise beim Abfragen der Seiten durch den Google-Bot in letzter Zeit gab. Und diese Übersicht zeigt mir im Moment dieses hier an.

Gut, die Fehler 1,2 und 4 sind klar, die kann ich nachvollziehen, aber was bitte ist Fehler 3?

/warning_this_is_english_domain_to_solve_this_problem_submit_site_in_atoall.com.html

Wenn ich irgend sowas Seltsames finde, suche ich erstmal bei Google, was das denn bedeuten könnte. Das Ergebnis hat mich dann doch überrascht. Diese komische, nichtexistierende Seite gibt es auf einigen Tausend Domains. Wenn man die Suche nur auf deutsche Seiten beschränkt, findet man sogar prominente Seiten wie www.ard.de oder www.wetter.de.

Aber wieso nimmt Google diese vermutlich nicht wirklich existierenden Seiten in den Index auf, die offensichtlich Ergebnis einer, wie auch immer gearteten Spamaktion sind?

HTTP-Statuscode

Hier kommt nun der HTTP-Statuscode ins Spiel, denn was im Fehlerfall dem Nutzer angezeigt wird, ist das eine. Viel wichtiger ist aber, mit welchem Antwortcode die Seite ihr Ergebnis zurückliefert. Bei einem „normalen“ Fehler, wie z.B. einer nichtexistierenden Seite, sollte das der Code 404 Not Found sein. Zu den Statuscodes hatte ich bereits vor einiger Zeit etwas geschrieben. Was machen aber alle die Seiten, die man in der Google-Suche zu der seltsamen URL findet. Sie geben einfach den Code 200 Ok zurück, damit geht der Google-Bot davon aus, daß die Seite existiert, und nimmt sie in den Index auf.

Manche Seiten zeigen zumindest dem Nutzer an, daß ein Fehler aufgetreten ist. Die zwei oben genannten Beispiele tun aber so, als sei alles in Ordnung und präsentieren dem Nutzer die Startseite. Das finde ich ohnehin immer ein Unding, weil der Nutzer überhaupt nicht mitbekommt, das etwas nicht stimmt. Gut, man muß nun den User auch nicht unbedingt mit einer spartanischen Fehlermeldung wie hier auf schnurpsel.de erschrecken, aber so zu tun, als sei nichts passiert, ist auch nicht der richtige Weg. Wenigstens sollte man den Statuscode 404 ausliefern, den sieht der Nutzer ja nicht.

Meine Deutung

Ich würde diese Sache mal als Webmaster-Spam verbuchen, denn die Treffer in der Google-Suche findet man nur mit der vollständigen URL. Hätte der „Spamerfinder“ es auf Google-Treffer abgesehen, hätte er die einzelnen Wörter mit Bindestrichen und nicht mit Unterstrichen trennen müssen.

Aber Webmaster, die sich entweder mit den Google-Webmaster-Tools oder einfach mit den Errorlogs des Webservers die Fehler hin und wieder ansehen, stoßen auf diese URL. Eventuell ist ja der eine oder andere Neugierig, zumal der gelesene URL-Text irgendwie nach einer Systemmeldeung klingt, und besucht die Seite am Ende der URL. Naja, und was er da dann findet…

Nachtrag (2.11.):
Der Sachverhalt mit den komischen URLs ist schon jemandem 10 Tage vor mir aufgefallen, wie ich hierrüber entdeckt habe. Ähmmm, stand ja auch schon im ersten Kommentar. Ich sollte die Kommentare mal ernst nehmen :-)

Beste Grüße nach Görlitz :-)

Weitere Artikel mit Bezug zu diesem:
4 Kommentare »