Les robots de crawl n’arrêtent jamais ! Nouvelles pages d’un site ou anciennes, les bots crawlent en permanence la toile au service des moteurs de recherches. Sans leur passage quasi obligatoire, peu de chances d’être indexé durablement. Evidemment, les capacités des bots n’étant pas infinies, chaque site dispose d’un « budget de crawl », variable selon sa popularité. Notre sujet du jour : comment booster son potentiel à être crawlé par les robots pour maintenir une indexation optimale ?
Etape 1 : le diagnostic du budget crawl
Désormais au fait que votre site dispose d’un budget crawl limité en temps, la première étape de votre périple d’optimisation consiste à identifier les ressources qui consomment ce crédit et affaiblissent, par rebond, vos performances SEO. Pour cela, Search Console est un précieux allié.
Dans l’onglet Couverture, vous accédez au nombre de pages exclues, c’est à dire crawlées et non indexées, qui consomment donc inutilement. En dessous, Google vous indique les causes de ces exclusions. Parmi les cas classiques :
- la présence d’une balise no index
- l’absence de balises canoniques entre des contenus similaires
- des pages avec des redirections
- …
Ensuite, attardez-vous sur l’analyse des logs pour mesurer avec précision le temps de crawl consommé à mauvais escient. Faciles à reconnaître les bots google sont identifiables par leur adresse IP (66.249….) ou leur user agent googlebot.
Pour connaître le pourcentage de pages réellement crawlées par Google, déduisez du nombre de pages du site, le volume de pages associées à un log Google. Cette analyse vous permettra également d’isoler les pages concernées pour évaluer si elles en valent ou non la peine !
Si plus de 85% des pages sont crawlées, c’est une très belle performance. Moins de 65%, il faut commencer à réfléchir au sujet. En deçà de 25%, il y a urgence à revoir votre stratégie !
Etape 2 : cibler les pages à crawler pour les moteurs
Votre objectif en tête, deux options s’offrent à vous pour optimiser le passage des crawler. La première consiste à rediriger les robots vers les pages les plus pertinentes en terme de SEO. Quelques repères là encore pour vous aider à repenser vos chemins d’accès :
- un robot doit accéder en maximum 3 clics à une page
- depuis la home, une catégorie ou un produit doit être atteint en 2 clics au plus
- la pagination doit être claire et dichotomique
En parallèle, intéressez-vous au maillage interne, qui contribue au chemin tracé pour les robots. Plus une page a de liens internes qui pointent vers elle, plus elle a de probabilité d’être visitée par un robot. Une donnée dont vous devez tenir compte lors du placement de vos liens pour prioriser les pages stratégiques à crawler.
Etape 3 : écarter les pages sans intérêt pour le crawl
En toute logique, la dernière phase consiste à économiser le budget crawl sur les pages qui ne présentent pas de valeur ajoutée en tenant les robots à distance. Ajouter une balise <noindex>, explicite, va indiquer au moteur que la page n’a pas à être indexée. Pour autant, elle sera potentiellement tout de même crawlée. Le fichier robot.txt reste donc l’alternative la plus fiable.
Une autre astuce consiste à linker les pages que l’on ne souhaite pas voir crawler en javascript. Intégrés sur un événement, comme un clic, ces liens ne peuvent pas être suivis par les robots. Ils ne sont donc, de fait, pas crawlés. Une méthode utilisée notamment dans le cadre des refontes de site, afin de maintenir l’existant en JS également, et compléter les instructions du fichier robot.txt.