Dans un de ces derniers articles publié sur son blog, Matt Cutts s'extasie devant la vitesse d'indexation de Google qui s'approche dans certains cas du "temps réel".

Plusieurs notes ont déjà été rédigées à ce sujet :

Voici une partie de l'article rapidement traduis.


Quand j'ai rejoint Google en 2000, nous ne mettions à jour notre index que tous les 3 à 4 mois au maximum. A cette époque cela n'était pas si mal pour un moteur de recherche. Je me souviens d'ailleurs d'un moteur qui à la même période n'avait pas mis à jour son index depuis plus d'une année. Dès la mi-2000, Google mettait à jour son index chaque mois. Les gens utilisaient le cycle lunaire afin de prévoir la prochaine "Google Dance" :)

Maintenant, ceux qui se souviennent de la mise à jour "Fritz" lèvent la main. Il s'agit de la Google Dance où Google passa d'un batch mensuel à des mises à jour incrémentales. Cela signifie que nous mettions à jour une partie de notre index de manière quotidienne ou quasi quotidienne.

L'équipe dédiée à l'indexation continua à travailler dur et plusieurs personnes ont remarqué que l'index de Google devenait de plus en plus frais. Désormais certains documents sont accessibles en quelques minutes contre quelques jours ou mois auparavant.

J'ai remarqué que même si les moteurs de recherche s'améliorent sensiblement (index plus frais, plus gros et plus pertinent), les internautes continuent à élever leur niveau d'exigence. Je ne peux imaginer attendre plus d'un mois avant que les moteurs de recherche mettent à jour leur index contenant les nouveaux évènements... mais il y a quelques années, c'était comme cela que les choses se déroulaient.

Et il suffit que vous tombiez quelques fois sur un index frais pour que vous remontiez encore une fois vos attentes.

[...]


Matt continue son article et relate comment il a découvert (capture d'écran à l'appui) un "Minty Fresh Indexing" que l'on peut traduire par "un index ultra frais" :) puis il conclut en félicitant les Googlers qui ont amélioré la capacité de Google à indexer, à mettre à jour et à classer rapidement des pages web.

Vous vous demandez certainement comment Google arrive à repérer des nouvelles pages aussi rapidement ? On peut imaginer qu'il utilise certains services comme ceux présentés sur cette page. Dans tous les cas, cela reste un exploit comparé aux autres moteurs.

A mon humble avis, Google distance de très très très loin ses concurrents et à tous les niveaux :

  • Algorithmique : Classement, anti spam etc...
  • Infrastructure : Nombre de serveurs, configuration, puissance de calcul et de stockage....
  • Organisation
  • Stratégie de croissance et d'évolution
  • Communication
  • ...

Cela est malheureux à dire mais Yahoo et MSN Live font vraiment pitiés bien pâle figure si on les compare à Google. Je me rappelle fréquemment de cette phrase de M. Manber (Comment fonctionne l'algorithme de Google), employé débauché de chez Amazon :

"J'ai passé les trois premiers mois à dire "J'ai une idée", se souvient-il. "Et ils répondaient invariablement, "On y a pensé aussi et c'est déjà là-dedans", ou bien "ça ne marche pas, on a déjà essayé."

Qu'en pensez-vous ?

Un article du blog Outil Référencement

Rss du blog outil Référencement


Article suivant : Youtube inclut une nouvelle forme de publicité dans ses vidéos
Article précédent : L'underscore serait un séparateur valide



Commentaires

13 août 2007 par Régis

Jolie traduction, Aurélien.
Merci.

13 août 2007 par François Houste

A mon avis, le référencement en temps réel des articles est pleinement inscrit dans la logique de "Recherche universelle" mise en place par Google depuis quelques mois.

Après tout, dans la mesure où Google propose de trouver sur une même page les cartes géographiques, vidéo et actualités, l'apparition des nouveaux articles d'un blog ou d'un journal s'inscrit exactement dans cette logique et ne constitue au final qu'une intégration poussée de Google Blogsearch dans les résultats Google classiques.

Jusqu'à présent, je n'ai vu fonctionner "l'indexation en temps réel" que sur des blogs ou des journaux en ligne (du type proposant des flux RSS ou une visibilité sur GNews). Rares sont tout de même les nouvelles pages en provenance de site HTML classiques et institutionnels, et encore plus rares les nouveaux sites à être indexés aussi rapidement.

La question que je me pose dans le cadre de la recherche universelle et de l'indexation en temps réel, c'est : quid de l'indépendance des robots de crawl que Google a tjs annoncé ? Dans la mesure où le robot de GNews peut maintenant mettre à jour les résultats "Web", on peut se poser quelques questions sur les impacts en terme de crawle sur les sites Web...

14 août 2007 par MagicYoyo, le référenceur rigolo

François a raison.
L'indexation en temps réel ne concerne que les sites inclus dans GGnews ou BlogSearch.
Pour le reste, on reste sur un rythme d'indexation classique variable selon les sites (qui a parlé de PageRank ? :)).

14 août 2007 par Aurélien

MagicYoyo, que le site soit ou non dans GGnews / Blogsearch, le rythme d'indexation reste variable.

Par exemple sur ce blog, j'ai déjà constaté des indexations "temps reel" là où d'autres billets mettent 48H. En tout cas ici cela n'est pas systématique.

En revanche, dans les posts linkés en début d'articles, tu pourras lire dans un commentaire qu'un salarié d'une agence web a constaté un indexation ultra rapide sur l'un des sites E-commerce dont il s'occupe.

Je ne serai donc pas aussi catégorique que toi. Google utilise GGnews et Blogsearch, c'est certain mais à mon avis, il ne faut pas exclure d'autres services et cela ne concerne pas forcement que les blogs. A étudier.

15 août 2007 par Pulsar

Indexation toujours plus rapide... si on veut! Mon blog consacré à l'environnement était très bien indexé jusqu'en mai (des centaines de pages référencées). Depuis, il s'est passé un mystère... seules 15 pages sont à présent référencées. Ridicule! Aucune explication et un problème commun à de nombreuses plateformes de blog: quand seules 15.000 pages sont indexées sur blogspirit, hautetfort, typepad - au vu du nombre de blogs hébergés (ceux comportant le nom de la plateforme dans l'adresse), cela saute aux yeux que google filtre.

Or, si des tonnes de blogs n'ont guère d'intérêt, d'autres sont une mine d'info qu'il est dommage de voir peu référencé. Résultat, me voilà obligée d'acheter un nom de domaine et payer pour faire un masque (en espérant être ensuite mieux référencé).

Je connais plusieurs blogs qui viennent de vivre la même frustration subite de n'être presque plus référencé et pourtant, je ne lis aucune explication à ce sujet. Pourriez vous m'éclairer? Merci!

15 août 2007 par Aurélien Bardon

J'avais déjà entendu parlé de pénalités pour certaines plates formes de blogs notamment hautetfort si ma mémoire est bonne. Après il faut espérer que cela soit juste un sursaut de Google et que la situation va rentrer dans l'ordre.

Dans tous les cas, lorsque l'on a un objectif en terme de positionnement dans les moteurs de recherche, il est préférable d'acheter dès le départ son nom de domaine. Personne n'est à l'abri de la fermeture d'un service ou de modifications des conditions d'utilisation. Bon courage pour ce nouveau "référencement".

@MagicYoyo : Apparemment, encore un exemple ici qui ne concerne ni Google News ni Blog Search.

19 août 2007 par Pulsar

Merci Aurélien!

Ajouter un commentaire :

Les commentaires pour ce billet sont fermés.