Vous avez sûrement déjà remarqué que les pages de résultats des moteurs de recherche ou SERP (Search Engine Results Page) évoluent rapidement.

Il vous est peut être même déjà arrivé de taper une requête à quelques minutes d'intervalle et de ne pas retrouver l'excellent site que vous veniez de visiter. Si vous êtes client d'une agence de référencement, il est possible que vous ayez constaté des différences entre vos rapports de positionnement et vos propres tests.

Non, Google ne se fiche pas de vous et encore moins votre prestataire de référencement.

N'avez vous jamais été surpris par la rapidité du site Google à s'afficher ? Certes la page est minimaliste et les graphistes de chez Google aiment le style dépouillé mais lorsque l'on sait que Google traite plus de 1000 requêtes à la seconde il y a de quoi être impressionné.

Afin d'offrir un service toujours aussi efficace et pour répondre aux demandes toujours plus nombreuses des internautes, Google a déployé une armée de serveurs un peu partout dans le monde. Le chiffre exact est inconnu mais se situe entre 100 000 et 500 000 PCs, peut être plus...

Le temps de réponse moyen sur Google tourne autour de la demi seconde et environ 500 PCs sont utilisés pour répondre à une requête (Source : How does Google collect and rank results?).

Nous avions déjà parlé dans un précédent billet des data centers de Google et proposé cette photo d'un nouveau data center en construction.

Mine de rien cette introduction commence à être longue et il est temps de rentrer dans le vif du sujet.

Lorsque vous vous connectez pour la première fois de la journée à Google.fr, vous êtes automatiquement dirigé vers un des data centers de Google.

Nous n'allons pas nous étendre trop longuement sur le fonctionnement des serveurs DNS mais en gros :

Pour accéder à un site Web, nous avons l’habitude de taper une adresse du type : http://domaine.tld dans la barre de notre navigateur. Pourtant, pour que le site demandé soit affiché, il faut connaître l’adresse IP du serveur (exemple : 64.233.167.99) qui héberge le site.

Vous conviendrez qu'il est plus facile de retenir des noms qu'une série de chiffres.

C’est ici que le serveur DNS intervient ; il jouera alors le rôle de traducteur entre le nom de domaine (facile à retenir mais incompréhensible par la machine) et l’adresse IP (difficile à retenir mais compréhensible par la machine).

Les serveurs DNS ne sont donc ni plus ni moins qu’une grande base de données contenant une table de correspondance entre nom de domaine et adresse IP. (Après vient le débat du contrôle des serveurs...). Votre navigateur préféré, au hasard Mozilla Firefox, obtiendra donc l'adresse IP du site en passant par un serveur DNS.

Bref, tout cela pour dire qu'une IP va être associée au nom de domaine. Cette IP sera mémorisée par votre navigateur dans son cache DNS pendant un certain laps de temps appelé "time to live" ou plus simplement TTL.

Le TTL du domaine google.fr lorsque l'on interroge un serveur DNS est d'environ 4 minutes. L'intérêt est de ne pas devoir interroger de nouveau un DNS pour obtenir l'adresse IP correspondant au nom de domaine.

C'est Google qui choisit quelle IP (quel datacenter) il va attribuer pour les 4 prochaines minutes en fonction de l'origine géographique de l'internaute, de la charge supportée par les data centers et de l'engorgement des tuyaux... Si je ne me trompe pas, on appelle cela du load balancing, technique utilisée par tous les sites très populaires utilisant plusieurs serveurs. Le terme Round Robin est également utilisé pour les systèmes de répartition de charge d'où le titre de ce billet.

En fait le terme Round Robin est utilisé dans de nombreux domaines comme l'indique la page de Wikipedia consacrée à cette expression.

Ce système a donc un impact sur les pages de résultats qui vont sont proposées. Nous n'allons pas détailler le process d'indexation de Google mais il faut savoir que les bases de données de Google (l'index) sont mouvantes et en permanence alimentées par des robots.

L'index n'est pas rigoureusement le même sur tous les data centers. Certes il y a une mise à jour qui s'opère visiblement en continue entre chaque data center mais cela n'est pas suffisant. Auparavant pour combler ce "problème", il existait une phase appelée "Google Dance" au cours de laquelle tous les data centers étaient alignés sur le même index.

Outre l'intérêt de la répartition de la charge, cela peut servir à Google de mener des tests grandeur nature en "faisant tourner" différents algorithmes sur plusieurs data centers et d'observer les résultats.

C'est pourquoi si vous avez bien suivi :) vous pouvez donc très bien passer d'un data center à un entre en quelques minutes et ainsi observer des résultats différents.

Si vous voulez interroger plusieurs data centers en même temps, je vous recommande cet excellent outil du forum webmaster-hub.com

Un article du Blog Outil Référencement


Article suivant : Google Adwords vire au vert
Article précédent : Blacklistage Google : Comment savoir si un site est blacklisté ?
Article actuel : Round Robin DNS et Data center de Google


Continuez votre lecture avec :


Commentaires : Round Robin DNS et Data center de Google

15 décembre 2006 par Francine

Bonjour, merci pour ce trés bon article qui explique bien le fonctionnement des DNS. Cependant j'aurai aimé te poser des questions quant à cet article.
Tout d'abord n'est il pasp lus rapide d'intéroger soit même le serveur google que l'on souhaite en entrant son adresse IP plutôt que d'attendre le TTL (Time To Live) ? Surtout que Google limite notre recherche sur ses serveurs en fonction de notre provenance géographique.
Ma deuxième question porte sur Big Daddy. J'avais cru comprendre que c'était une amélioration dans la manière d'indexer les pages apportée sur l'ensemble de leur serveur. Ce qui me chagrine c'est que deux serveurs se nomment aussi Big Daddy 1 et 2. Ainsi les serveurs Big Daddy influenceraient-ils les index des autres serveurs ?
Enfin question subsidiaire : connait-on le serveur intérogé par Searchmash ? Et si oui penses tu que celui soit juste là en test ou pourrait-il être un quelconque précurseur des résultats futurs ?
Merci, bonne continuation.

15 décembre 2006 par Sabri

Salut Aurélien,

Comment vas tu depuis l'apéro ?

Merci pour ce très bon article qui reprend les points essentiels avec une très bonne analyse...!!!
Et si je ne me trompe pas non plus c'est bien du load balancing dont tu parles... ;-)

A très bientôt.
Sabri

17 décembre 2006 par Nicolas J.

Bel article :-)

Alors ma question est la suivante ? Pourquoi avoir appliquer un "temps de vie" à 4 minutes pour google ? Lorsque l'on fait la même manipulation avec free.fr, on obtient un ttl de 120 sec. Pour google, s'ils veulent optimiser leur load balancing, ils ne devraient pas plutot réduire au minimum ce TTL pour avoir une meilleure main mise ?

Le temps de 4 minutes mentionnés correspond à la mise à jour au niveau du DNS de notre navigateur (ok), mais qu'en est il du DNS du fournisseur, si lui n'est pas remis à jour ? Je pense que c'est sur le DNS du fournisseur que ca se joue, non ?

et que la lumière m'éclaire !!!

17 décembre 2006 par Aurélien Bardon

@Francine,
Tu as parfaitement raison. C'est d'ailleurs comme cela que fonctionne l'outil de Webmaster Hub cité en fin d'article.
L'infrastructure BigDaddy a été apparemment déployé sur la totalité des Datacenters. Auparavant, cela était uniquement le cas sur 2 DataCenters : 66.249.93.104 et 64.233.179.104.
Matt Cutts l'a confirmé ici.
En ce qui concerne Searchmash, il faudrait analyser les SERPs pour des requêtes précises et les comparer à plusieurs Datacenters pour savoir si il utilise un DC en particulier.
Je n'ai jamais vu de robot Searchmash mais en revanche rien n'exclue le fait qu'un algorithme de classement particulier à Searchmash modifie les résultats.

@Sabri,
Tout se passe bien depuis l'apéro et vivement le prochain. (;=)

@Nicolas J
Aucune idée sur la raison de ce choix de TTL. Faisons confiance aux ingénieurs Google pour avoir optimisé ce temps au maximum afin de réduire la charge des Data Centers mais je ne pense pas qu'une TTL la plus courte possible soit la meilleure solution. Si tu croises monsieur Benamou, voici une question à laquelle il pourra certainement répondre.

11 janvier 2007 par Henk

Super votre article !! Cela m'éclaire beaucoup !! depuis le temps que mon webmaster essaie de m'expliquer... :-)

Henk

Ajouter un commentaire :

Les commentaires pour ce billet sont fermés.