Si vous me le permettez, nous commencerons cet article par quelques rapides et courtes définitions nécessaires à la bonne compréhension de la suite de ce billet. J’ose espèrer que vous ne m’en tiendrez pas rigeur ;)

Définition URL : (Source Wikipédia)

Une URL, de l'anglais Uniform Resource Locator, littéralement «localisateur uniforme de ressource », est une chaîne de caractères utilisée pour adresser les Ressources dans le World Wide Web : document HTML, image, son, forum Usenet, boîte aux lettres électronique, etc. Elle est informellement appelée une adresse Web.

Définition Canonique : (Source Wikipédia)

En mathématiques, canonique qualifie ce qui semble à tous comme le plus simple, le plus porteur de sens ou ce qui facilitera des manipulations ultérieures. En informatique, la mise en forme canonique est le procédé par lequel on convertit des données qui ont plusieurs représentations possibles vers un format 'standard'.

Définition Duplicate content :

Lorsque les robots des moteurs de recherche tombent sur des pages au contenu identique ou présentant un fort taux de similarité, il s'agit d'un cas de "duplicate content" ou en bon français d'un cas de duplication de contenu. Des pages possédant une balise meta description identiques sont par certains moteurs reconnues directement comme pages dupliquées.

Et l'url canonique dans tout ça ?

Vous vous demander sûrement où je veux en venir avec cette longue introduction somme toute rébarbative. Les pages détectées comme étant du duplicate content ne présentent généralement aucun intérêt pour les internautes et les moteurs de recherche. De plus, cela prend de la place inutilement dans les index des moteurs. C'est pourquoi, les moteurs ont mis en place des algorithmes plus ou moins puissants (et sensibles) pour détecter le duplicate content.

Que cela change-t-il dans votre stratégie de référencement ?

L'idée est assez simple : Il faut garder en tête qu'une page doit toujours correspondre à une seule et unique url, l'url dite connonique. Vous devez donc tout mettre en place pour que vos pages ne réagissent que pour une seule url.

Mais comment font les moteurs pour choisir la page "source" et classer les autres comme des cas de duplicate content ?

Si nous nous attardons plus particulièrement sur l'algorithme de Google (dont le filtre de duplicate content est assez tatillon), il semble que la popularité en terme de lien soit le critère déterminant.

Et oui, vous l'aurez deviné cela ouvre des possibilités de nuisance assez importantes. Matt Cutts, le prophète du dieu Google en a même fait les frais.

Les erreurs courantes :

Le concept d'url canonique est certainement une des bases du référencement à garder systématiquement en tête.

Pensez à bien configurer votre serveur ou à mettre en place une règle de réécriture via un htaccess (si vous êtes sous Apache) pour ne pas dupliquer l'intégralité de votre site via des urls fonctionnant avec www et sans www.

De la même manière, il est assez classique de voir une home page s'afficher aussi bien sur l'url www.domaine.com que sur www.domaine.com/index.php (ou index.htm, index.html etc...)

Solutions au duplicate content :

Problème : Votre site fonctionne aussi bien sous l'url -http://www.domaine.com que sous -http://domaine.com ?

Solution htaccess :

RewriteEngine on
RewriteCond %{HTTP_HOST} !^www.domaine.com$
RewriteRule ^(.*) http://www.domaine.com/$1 [QSA,L,R=301]

Problème : Votre home page est accessible avec et sans /index.php ?

La solution consiste à choisir une url dès la création du site et de ne faire aucun lien vers la "mauvaise" url. Vous pouvez en plus rajouter une redirection par mesure de sécurité.

Il est assez surprenant de voir certains sites d'agences de référencement contenant des erreurs de ce type... mais il paraît que se sont les cordonniers les plus mal chaussés :)

Si vous ne pouvez pas faire autrement qu'employer des urls différentes, sachez qu'il existe tout de même plusieurs solutions :

  • L'utilisation de l'attribut rel="nofollow"
  • L'insertion automatique de balise robot portant l'attribut noindex pour les urls à ne pas indexer
  • La mise en place de redirections permanentes 301 (que nous avons detaillé)
  • L'utilisation d'un robots.txt
  • Les outils de suppression d'urls des moteurs

Conclusion :
Il est toujours temps de régler un problème de duplication de contenu une fois détecté, notamment grâce à des redirections permanentes. Veillez à bien tester les entêtes HTTP pour être sur que cela sera bien interprété par les robots. Enfin, sachez que le service Google Webmaster Tools permet entre autre de préciser son "domaine favori".

[edit] Google vient de mettre en ligne un article très intéressant sur le duplicate content ici.[/edit]

Un article du Blog Outil Référencement


Article suivant : 14 plugins Firefox dédiés au référencement / SEO
Article précédent : Sitemaps : Une alliance entre Google, Yahoo et Microsoft
Article actuel : Duplicate content et Url canonique



Commentaires : Duplicate content et Url canonique

07 décembre 2006 par gustubru

Et quide des sitemaps? ne permettent elles pas de restreindre les pages visitées par google? en tout cas avec l'adoption commune de ce standard par les 3 moteurs de recherche principaux, je m'étonne que tu n'en parle pas?

08 décembre 2006 par Aurélien Bardon

Bonjour gustubru.
Nous avons parlé du protocole commun sitemaps ici. En revanche, bien qu'utilisant Google Sitemaps, je n'ai j’aimais vu une syntaxe pour interdire l'indexation d'une url.

08 décembre 2006 par effisk

C'est déjà le travail du robots.txt. Si on met la même info à plusieurs endroits, on ne s'en sort plus (et on risque fortement de coller des infos contradictoires...)

En anglais, ça se dit "duplicate content". A moins que tu cherches à te placer en 1e position pour www.google.com/search?q=%... ;o)

08 décembre 2006 par Aurélien Bardon

Merci effisk pour ta remarque.
Je ne sais pas pourquoi mais j'ai toujours employé le terme "duplicata content". Normallement je viens de mettre à jour l'article.

11 décembre 2006 par kiala

Je trouve ce post très bien car on oublie souvent ce genre de regle, et j'entends d'ailleurs souvent dire que ce genre de duplication n'est pas "grave", ce post me confirme donc ce que j'ai toujours pensé.
Par contre j'ai une petite question : lorsque l'on a une url www.mondomaine.com et www.mondomaine.fr, s'agit il là aussi de duplication de contenu? Moi je pense que oui, si le site a le meme contenu, mais j'aimerais bien une confirmation de ceci, puisque cela n'a pas été mentionné sur ce post.

11 décembre 2006 par Aurélien Bardon

Bonjour kiala.
La règle est 1 url = 1 contenu unique. Il faut donc comme tu le penses mettre en place une redirection.

Google vient de publier un article intéressant au sujet du duplicate content

28 décembre 2006 par kiala

Ok, cela confirme ce que je pensais. Mais je remarque que pas mal de personne n'en tienne pas compte et notamment les agences de referencement (d'ou mon doute).
Merci pour cet article en tous cas qui remet les choses en place.
Bonne journée

24 janvier 2007 par Kilroy

La règle que j'applique en général est 1 sujet => 1 document => 1 url

Il y a pas mal de causes possibles de duplicate content et surtout plusieurs niveaux de sévérité qui vont du duplicata complet à la reprise d'une ou plusieurs zones de corps de texte sur plusieurs documents.

Ajouter un commentaire :

Les commentaires pour ce billet sont fermés.