Ce qu’il faut savoir sur les analyseurs de logs

Les analyseurs de logs sont des outils dédiés au rassemblement et à l’interprétation des données des fichiers hébergés sur le serveur web. Ils retracent l’historique de tous les évènements se déroulant sur un serveur, du plus ancien au plus récent.

screaming frog

oncrawl

  Il existe plusieurs analyseurs de logs dans la boîte à outils SEO. Les fichiers logs existent sous deux principaux formats :
  • « Combined » qui est le plus recommandé du fait des nombreuses données essentielles au SEO qu’il contient.
  • « Common » qui est le moins complet mais qui reste conforme aux règlements.

Pourquoi recourir aux analyseurs de log ?

Analyser les logs revient à détenir des informations sur le crawl du site de l’utilisateur pour évaluer sa performance. Ces infos permettent de repérer les éléments qui freinent le bon référencement du site. > L’indexation et le positionnement nécessitent le bon fonctionnement du crawl par les moteurs de recherches. Ces derniers enregistrent d’abord les événements liés aux logs. D’où le bien fondé des analyseurs de logs qui servent à déceler tous les facteurs bloquants. Rappelons que pour connaitre les informations pertinentes à saisir lors des analyses de log, il faut mentionner le mode de fonctionnement des moteurs de recherche. Les analyseurs de log jouent le rôle de boite noire d’un site web. En effet, ils présentent dans les moindres détails tous les évènements exécutés par les moteurs de recherche. Ils constituent un raccourci entre le site et le comportement des robots de ces moteurs de recherche. Grâce à cette spécificité, l’utilisateur est au courant de toutes les données concernant ces évènements.

Quelles sont les étapes de l’analyse de logs ?

Il faut commencer à obtenir des logs au format « combined» sur une période relative de 30 à 60 jours puis les filtrer par user agent. La plupart du temps, Googlebot est l’user agent de prédilection. Pas la peine de recourir aux robots et crawlers qui n’ont aucune incidence sur le référencement. Les données suivantes doivent donc être analysées :
  • Status code : Les status code réglementaires sont généralement 200,304 et 301. Tous ceux qui n’en font pas partie tels que 404,403… sont considérés comme non-conformes et doivent être rectifiés. Google doit réduire au maximum le nombre d’URL en erreur.
  • Taux de crawl : Cet indicateur qui traduit la proportion des URL du site qui sont crawlées doit être le plus haut possible. Lorsque le taux est bas, c’est le signe d’anomalies techniques sur le site.
  • Il faut comparer les URL d’un crawler front avec celles crawlées par Googlebot. Il faut aussi analyser minutieusement le type des URL qui ne sont pas crawlées.
Plusieurs raisons expliquent le fait que certains URL ne soient pas crawlées. Nous pouvons citer le blocage des URL dans le fichier robots.txt, l’existence des pages orphelines, les méta robots endommagés, une erreur sur une balise canonical. Une autre défaillance peut s’observer lorsque les URL crawlées par Googlebot excèdent celles qui sont perçues sur le site. Ceci peut être provoqué par un piratage, un changement de la structure du site, un Spider Trap et l’existence de versions antérieures du site. D’autres indicateurs à l’instar des contenus, doivent être aussi actionnés en priorité. Après avoir répertorié et corrigé ces erreurs élémentaires, il ne reste plus grand-chose à faire. La durée d’analyse de logs dépend de la contenance du site. Ainsi, pour un site à forte volumétrie, l’analyse est prenante. Toutefois dans ce cas, une analyse approfondie n’est pas significative. Un simple crawler par contre peut se révéler déterminant. Plus un site comprend des pages, plus il est essentiel de passer au peigne fin les analyses de log et les données liées au crawl (cadence de crawl, taux de crawl). Ceci permet de contrôler le budget crawl. Voici une sélection d’outils SEO dédiés à l’analyse de logs :

screaming frog

oncrawl