Monsieur X a acheté un nouveau nom de domaine et 18 jours plus tard, il a tout simplement fait indexer 5,5 milliards de pages par notre ami Google !

Le domaine en question eiqz2q.org (mais aussi t1ps2see.com) est aujourd'hui blacklisté par Google. Voici une image que nous retrouverons certainement dans le manuel du parfait petit spammeur 2006.

spam de 5 milliards de page sur Google

Comment ce magnifique spam a-t-il été réalisé ?

Voici un resumé du "guide pour indexer des milliards de pages dans Google" proposé par merged.ca :

  1. Enregistrer un nom de domaine sans signification contenant des chiffres et des lettres.
  2. Configurer son propre serveur pour gérer le domaine et les sous domaines et étant capable de supporter un forte montée en charge.
  3. Se procurer d'importantes bases de données d'articles pour proposer du contenu aux robots sur chaque page afin d'éviter tout risque de duplication de contenu (Duplicata content).
  4. Créer un script qui proposera un contenu spécifique en fonction des mots clefs contenus dans l'url. Chaque sous domaine doit rediriger vers votre domaine principal (Redirection 302). Votre script devra proposer du contenu à partir de n'importe quel mot clef afin de pouvoir créer un nombre infini de sous domaines avec du contenu unique.

    Il n'y a donc rien de très original pour l'instant. Là où le spammeur a été original, c'est dans sa gestion des sous domaines. Il a créé des sous domaines généraux par exemple : music.3hid9gw.org puis des "sous sous domaines" du type : 2152.music.3hid9gw.org sur laquelle les nouvelles pages sont placées.

    Il y a donc une page par sous domaines et "sous sous domaines". Cela ne pose aucun problème puisque Google les considère comme de nouveaux sites.
  5. Spammer quelques blogs pour obtenir des liens vers vos sous domaines que vous n'aurez pas manqué de lier entres eux préalablement.
  6. Attendez quelques semaines et observez tranquillement vos milliards de pages se faire indexer (Assurez-vous de ne pas avoir oublié de mettre 3 blocs d'annonces Adsense sur chaque page).
  7. Prenez un joli screenshot de votre classement Alexa (basé sur le trafic du site).

Spam classement Alexa

Quelques liens pour mieux comprendre la technique :

Un tel Spam soulève de nombreuses questions :

  • Le spammeur sera-t-il payé pour les clics sur les annonceurs adwords
  • Comment Google va réagir face à cet échec de BigDaddy ?
  • L'utilisation de sous domaine comme plate-forme de référencement va-t-il devenir risqué ?
  • Matt Cutts (le prophète de Google) va-t-il s'exprimer sur ce spam ?
  • La commande site: est elle fiable ?
  • Comment Google arrive a augmenté son index de 5 milliards de page aussi rapidement ?

Sources :

Rss du blog outil Référencement


Article suivant : La mauvaise utilisation de Google Adwords par Lycos IQ
Article précédent : Google Spam : Record du monde battu !



Commentaires

22 juin 2006 par Olivier D.

Excellente note, merci!

24 juin 2006 par La Gerance

Incroyable lol !

Bel article bravo

11 juillet 2006 par A. Nonyme

Amusant! mais je doute fortement de ce chiffre de 5 milliards (donc commande site: pas fiable du tout!). Même si le spammeur a un gros serveur, ça fait mini 300 millions de requêtes par jour rien que pour le bot...

11 juillet 2006 par Aurélien Bardon

Matt Cutts, un employé de Google va bientôt s'exprimer sur ce spam.

25 juillet 2006 par stefd

En 18 jours c'est quand même très fort comme performance, le principal c'est que Google ait blacklisté le domaine

27 septembre 2006 par tuf

Comme le site a été tres tres visité par tous les référenceurs us, c'est normale que ca décole sur Alexa qui fait graph a base de statistique. Ca veut pas dire grand chose...
Un peu comme le nombre de 5.5 Miliard, on sait depuis longtemps que le nombre de résultat est un peu fantaisiste surtout sur les grand chiffres.

27 septembre 2006 par Aurélien Bardon

Bonjour tuf,

Concernant ton interprétation du classement Alexa, j'espère que tu as bien lu sur le graphique qu'il s'agit de 400 millions.

Les résultats donnés par Google après une recherche traditionnelle sont effectivement un peu fantaisistes. En revanche, ici nous sommes dans le cas de la commande site: Cette commande a connu aussi quelques bugs pour les noms de domaines comportant un -. D'après un blog officiel de Google ce bug est fixé. Dans notre cas, le domaine eiqz2q.org ne comporte pas de tiret. Le résultat était donc fiable.
Merci pour ton commentaire.

Ajouter un commentaire :

Les commentaires pour ce billet sont fermés.