XoviLichter-Rankings scrapen? Nicht bei aus.gerech.net!

Xovilichter

Zufällig habe ich auf GitHub ein Projekt entdeckt, welches PHP-Skripte zum scrapen der Ranking-Seiten von Dynapso und Xovi bereitstellt.

Für den Ranking-Monitor von aus.gerech.net ist soetwas nicht erforderlich. Dort werden die Daten maschinenlesbar im JSON und XML-Format zur Verfügung gestellt. Nur ist das bisher nicht dokumentiert und so weiß niemand was davon. :-)

Die URLs lauten:

  • JSON: http://aus.gerech.net/data/xovilichter/top123.json
  • XML: http://aus.gerech.net/data/xovilichter/top123.xml

Der Aufbau ist recht einfach und weitestgehend selbsterklärend. Im Kopf gibt es drei Datenfelder:

  • nam – Name bzw. Suchbegriff
  • upd – Datum und Zeit des letzten Updates der Liste
  • cnt – Anzahl der Google-Suchergebnistreffer (nicht Listeneinträge!)

Es folgt in rnk eine Liste der Suchergebnisse mit folgenden Datenfeldern:

  • pos – Position in den Suchergebnissen
  • url – URL der Seite
  • typ – Typ des Suchergebnisses, mögliche Werte
    • txt – normales Suchergebnis
    • new – Google-News
    • img – Universal Search Bilder
    • vid – Video
  • img – URL des Bildes, wenn Typ img ist (optional)
  • aut – Name des Autors, falls verfügbar (optional)
  • lpo – letzte Position, 1000 falls neu in der Liste

Bei der Position für Universal-Search Ergebnisse wird eine Unternummerierung vorgenommen. Das erste Ergebnis bekommt .1, das zweite .2, das dritte .3 usw. an die eigentliche Position angehängt. Befinden sich zum Beispiel vier Bilder an der Position 13, so erhalten sie die Positionen 13.1, 13.2, 13.3 und 13.4 in pos zugeordnet.

Die Daten werden stündlich zu vollen Stunde erhoben. Es dauert aber ein paar Minuten, bis sie dann tatsächlich vorliegen. Also sollten die Daten ein paar Minuten nach der vollen Stunde abgefragt werden. Den aktuellen Zeitpunkt der Daten sieht man ja in den Kopfdaten.

Das Top-10 Diagramm im PNG-Format liegt auch zu diesem Zeitpunkt vor. Es gibt ein 24-Stunden-Diagramm und ein 3-Wochen-Diagramm:

  • 24 Stunden: http://aus.gerech.net/charts/xovilichter/ctop10.png
  • 3 Wochen: http://aus.gerech.net/charts/xovilichter/wtop10.png

Und morgen zeige ich dann, wie ich mit ein paar Zeilen PHP-Code das Ranking von aus.gerech.net hier bei Schnurpsel einbinde. :-)

6 Reaktionen zu “XoviLichter-Rankings scrapen? Nicht bei aus.gerech.net!”

  1. Scraper sagt:

    So, aus.gerech.net wird jetzt auch archiviert ;-)
    https://github.com/xovilichter/xovilichter-Rankings

  2. Robert sagt:

    Hallo Ingo,
    aus.gerechnet wird am Ende und viellеiсht hilft eine Prüfung und Verlinkung Deines XOVILICHTER-Artikels mit SEO-check :-)
    VG, Robert

  3. Hmmm, einen seltsamen Link hast Du da im Text. Wo sollte der denn eigentlich hinzeigen?

  4. […] 49. www.die-infoseiten.de/xovilichter/0+1 50. ebolgo.com/xovilichter-in-koeln/-5-25 51. schnurpsel.de/xovilichter-rankings-scrapen-nicht-bei-au …+13+10Ingo Henze  52. rescogitans.de/xovilichter/+36+38 53. www.xovilicht.com/-2-2 […]

  5. […] 49. www.die-infoseiten.de/xovilichter/0+1 50. ebolgo.com/xovilichter-in-koeln/-5-25 51. schnurpsel.de/xovilichter-rankings-scrapen-nicht-bei-au …+13+10Ingo Henze  52. rescogitans.de/xovilichter/+36+38 53. www.xovilicht.com/-2-2 […]

  6. Kudret sagt:

    Die ersten xovi Sieger stehen fest (Results 2010).
    Falls es jemand interessiert, hier der Link zu den Results vom Gewinnspiel 2010.

    Top-10-SEO-Gewinnspiel – die ersten Xovi-Lizenz Sieger stehen fest
    http://www.xovi.de/2010/01/top...ovi-lizenz-sieger-stehen-fest/

    Ich bin dieses Mal natürlich auch wieder dabei.

    Aloha

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

 Hier kein Häkchen setzen
 Ich bin kein Spambot

Hinweis: Kommentare von bisher unbekannten Schreibern (Name und eMail) oder mit mehr als einem Link werden moderiert.