Featured SEO, Méthodologie

Comment faire le crawl d’un site comme un pro

February 12, 2014 - 10 min de lecture

Gauthier De Zanet

Apprenez-en plus sur l'exploration et l'indexation des moteurs de recherche, ainsi que sur la manière d'auditer la capacité de découverte et le potentiel de ranking de vos contenus en référencement naturel.

Comment fonctionne le robot d'indexation des moteurs de recherche

Crawl: Ils parcourent l'Internet à la recherche de contenu, en examinant le code/contenu de chaque URL qu'ils trouvent.

Indexation : Stocker et organiser le contenu trouvé au cours du processus d'exploration. Une fois qu'une page est dans l'index, elle est en course pour être affichée comme résultat aux requêtes pertinentes.

Classement : Fournir les éléments de contenu qui répondront le mieux à la requête d'un chercheur, ce qui signifie que les résultats sont classés du plus pertinent au moins pertinent.

Reproduire le comportement d'un crawler de site est donc très utile pour anticiper les impacts sur son référencement naturel !

Agence SEO Technique

Les experts Référencement de JVWEB peuvent vous aider à améliorer votre performance sur les moteurs de recherche !

Contactez l'agence : Agence SEO

Agence référencement naturel Montpellier

Notre mission : Faciliter le Marketing Digital !

Crawler un site

Crawling et audits de sites.
L’arborescence, la structure et le maillage interne des sites font partie des principaux chantiers SEO dont les effets positifs sur la visibilité et le trafic ne sont plus à démontrer. En ce sens le crawl d’un site est devenu incontournable parce qu’il permet d’identifier les améliorations structurelles à apporter à votre site. Reste à savoir comment s’y prendre et avec quels outils. Dans cet article je vais vous montrer la démarche à suivre.

Sommaire:

1. Définition et objectifs du crawl
2. Quels outils pour crawler un site ?
3. Les prérequis pour effectuer le crawl
4. Configurer le crawler
5. Savoir traiter les données
6. Savoir analyser les données
7. Conclusion

Qu’est-ce que le crawl d’un site et à quoi sert-il ?

Les moteurs de recherche explorent les sites web pour découvrir du contenu et le stocker dans des bases de données - un processus connu sous le nom d'indexation. Une fois que le contenu a été indexé, il peut être affiché sur les pages de résultats des moteurs de recherche (SERP) pour les requêtes de recherche pertinentes. Les audits de sites sont un outil essentiel pour évaluer la facilité avec laquelle un moteur de recherche peut découvrir, explorer et indexer tout, des éléments individuels d'une page web jusqu'à un domaine entier.
L’expression crawler un site signifie scanner ou parcourir un site et d’en extraire le plus d’informations possible. L’objectif du crawl est de connaître la structure d’un site et d’avoir exactement la même vision que Google. Cela permet notamment :

d’identifier des problèmes d’arborescence
de trouver les problèmes du maillage interne (mauvaise répartition de la popularité, existence des pages pièges, existence des liens morts etc.)
de connaître le temps de réponse du serveur
d’identifier des balises meta dupliquées

L’objectif de ce diagnostic consiste à mettre en place des recommandations qui visent à optimiser la structure du site.

Quel outil permet de crawler mon site ?

Actuellement il existe une multitude d’outils gratuits et payants qui permettent de crawler un site. Les principaux sont :

Xenu (outil gratuit)
LinkExaminer (outil gratuit)
Botify (crawler payant)
Deep Crawl (outil payant)
Screaming Frog Spider (crawler gratuit jusquà’500 URLs, puis payant)
Watussi Box (crawler fremium)

Ajoutons que les suites SEO payantes comme Advanced Web Ranking, SeeURank, Moz proposent également un crawler. Enfin, la dernière version démo de l’excellent plugin Excel gratuit SEO Tools for Excel contient également un crawler qui récupère les données directement dans Excel.

Faut-il prendre un crawler gratuit ou payant ?

Selon moi, les principales différences entre les outils gratuits et payants sont :

externalisation du crawl : certains outils payants font le crawl depuis leur plateforme et utilisent leurs adresses IP. Les outils gratuits ne le font pas
les outils payants donnent plus d’informations que les outils gratuits mais les petits sites (qui n’ont pas plus de 500 – 1 000 pages) n’en ont pas forcément besoin
les outils payants sont plus robustes et sont capables de crawler plusieurs centaines de milliers, voire des millions d’URLs
certains outils payants agrègent les données du crawl, génèrent automatiquement de jolis graphiques et proposent une interface d’analyse et de suivi de crawl.

Conseil : si votre site est petit utilisez les outils gratuits, notamment Xenu. Les données fournies vous seront largement suffisantes.

Faut-il avoir des connaissances particulières pour effectuer le crawl du site ?

Comme toute analyse, l’analyse du crawl nécessite quelques prérequis mais rassurez-vous, ce n’est pas la peine d’avoir un BAC +5. Vous devez savoir :

utiliser Excel (appliquer les filtres de tri, utiliser les tableaux croisés dynamiques)
avoir quelques bases en SEO pour connaitre les points à analyser (nous en parlerons plus loin dans cet article)
connaître quelques expressions régulières pour les sites à gros volume de pages (nous vous les montrerons plus loin)

Comment configurer le crawler ?

Comme chaque crawler a ses propres caractéristiques nous vous renvoyons vers ses paramètres. Cependant nous pouvons vous donner quelques conseils qui permettent d’optimiser l’exploration du site et d’obtenir des données fiables.
N’oubliez pas qu’une mauvaise configuration du crawler peut causer plusieurs problèmes comme le blocage d’adresse IP ou la perte de données. Si certaines datas sont manquantes, votre analyse et vos recommandations ne seront pas pertinentes, ce qui peut avoir un impact négatif sur la visibilité et le trafic du site.

Conseil 1 : Définir la machine depuis laquelle le crawl sera lancé.

Pourquoi c’est important ?
La machine doit être assez puissante pour pouvoir crawler pendant des heures sans s’arrêter. Si votre site a très peu de pages, le laptop suffira. Si votre site a 500 000 pages, le crawler devrait se lancer depuis une machine puissante, ayant plusieurs dizaines giga de mémoire. Si vous utilisez un crawler qui est déjà externalisé, comme Botify ou Deep Crawl vous n’aurez pas de problème de machine

Conseil 2 : Définir la vitesse du crawl.

Pourquoi c’est important ?
En parcourant 15 URLs par seconde plutôt que 2, le crawl sera fait beaucoup plus rapidement mais :

vous risquer de griller votre adresse IP et si vous le grillez vous n’aurez plus d’informations sur les URLs
vous risquez de faire tomber le site que vous crawlez
le crawl peut « oublier » d’analyser certaines URLs
vous consommez plus de mémoire de votre machine et si elle n’est pas assez puissante le crawler risque de s’arrêter

D’après notre propre expérience, nous dirons que l’analyse de 2-3 URLs par seconde est une bonne vitesse si vous passez par une seule adresse IP.

Conseil 3 : Configurer User-Agent.

Pourquoi c’est important ?
Si vous voulez avoir exactement la même vision que Google, vous devez être authentifié par le site que vous crawlez comme Googlebot. C’est la raison pour laquelle je conseille de choisir « Googlebot » comme User Agent dans la configuration du crawler.

Comment traiter les données du crawl ?

Avant d’analyser les données il faut savoir les traiter. Si votre site est petit, cette partie ne vous concerne pas puisque le traitement de données fournies par votre crawler se fera dans Excel sans aucun problème. Vous pouvez aller directement à l’analyse de données. Si vous utilisez un crawler SaaS ou externalisé il y a de fortes chances que son éditeur traite les données à votre place. Cette partie ne vous concernera pas non plus. En revanche si votre site a beaucoup de pages (plus de 50 000) il se peut qu’Excel n’ouvre pas les fichiers .csv exportés ou fonctionne au ralenti (cela dépend aussi de votre machine). Le traitement de données se fera alors via les commandes Linux ou DOS. Nous nous focaliserons aujourd’hui uniquement sur les commandes Linux.

A quoi servent les commandes Linux ?

Vous l’avez compris, ces commandes servent à traiter les données. Sans ouvrir le fichier d’export qui est souvent au format .csv vous pouvez trier, exclure, inclure, regrouper les données comme bon vous semble.

Où écrire les commandes ?

Si vous êtes sous Windows ou Mac, il vous faut télécharger une console Linux. Vous pouvez utiliser par exemple Cygwin sur une machine Windows. Si vous êtes sous Linux vous pouvez utiliser la console par défaut. Une fois installée, ouvrez la console en double-cliquant dessus.

Les commandes Linux utiles pour traiter les donnés du crawl

Les commandes que nous allons citer sont celles les plus utilisées. Il ne s’agit pas d’une liste exhaustive.
Commande 1 : Compter le nombre d’URLs dans un fichier .csv

cat nom-de-votre-fichier.csv | grep http:// | wc

La commande cherche tout ce qui contient http (grep http://) dans votre fichier (cat nom-de-votre-fichier) et compte combien de fois http est répété (wc)
Commande 2 : Trouver toutes les URLs qui contiennent quelque chose (/repertoire que vous cherchez/, .html, code 200 etc.) et exportez les
La commande cherche toutes les URLs ayant comme extension .jpeg (grep .jpeg) dans votre fichier (cat nom-de-votre-fichier) et les exporte (> nom-fichier-export.csv)
Commande 3 : Trouver les URLs, leur(s) attribut(s) (<title>, <h1>, code réponse, nombre de liens etc.) et exporter tout dans un fichier csv

 cat nom-de-votre-fichier.csv| grep http:// | awk -F'","' '{print $1" "$22}' > nom-fichier-export.csv

Petite précision: Le numéro qui apparait après $ indique le numéro de la colonne dans laquelle se trouve la donnée que vous voulez exporter. Si les URLs se trouvent dans la colonne 1 et leur <title> sont dans la colonne 22 j’écris: print $1 $22. L’ordre d’affichage de données change en fonction du crawler.
Commande 4 : Trouver les URLs sauf celles contenant quelque chose, leur(s) attribut(s) et exporter tout dans un fichier csv.
Cette commande est utile quand vous voulez exclure de l’analyse certaines URL, par exemple celles qui contiennent un paramètre spécifique (pagination, code tracking, filtre de tri etc.)

 cat nom-de-votre-fichier.csv | sed '/tracking=/d' | sed '/id=/d' | sed '/pricedown/d' | grep –E http://www.site.com/fr/category/.* | awk -F'","' '{print $1" "$22}' > nom-fichier-export.csv

La commande interroge le fichier nom-de-votre-fichier.csv . Elle cherche toutes les URLs commençant par http://www.site.com/fr/category/. Elle cherche également l’attribut qui s’affiche dans la colonne 22 des URLs commençant par http://www.site.com/fr/category/ mais elle ne prend pas en compte les URLs commençant par http://www.site.com/fr/category/ ET contenant tracking=, id=, pricedown.

> Pour compléter votre lecture : Apprendre d’autres commandes Linux utiles en SEO (article en anglais)

Comment analyser les données du crawl ?

Nous arrivons à la partie la plus intéressante, l’analyse du crawl. Comment s’y prendre ? Si vous utilisez un crawler en mode SaaS vous n’avez pas à créer les tableaux et graphiques, le crawler le fait pour vous. Si vous n’utilisez pas ce format d’application, voici ce qu’il faut faire.
Dans votre fichier Excel contenant les données d’export faites un tableau croisé dynamique dans un nouvel onglet en définissant comme source les données exportées. Puis, dans le tableau croisé dynamique cochez les données selon vos besoins