Le robot d’indexation de Google

De son nom anglais Googlebot, le robot d’indexation de Google parcourt le web et enrichit chaque jour sa base de données. S’il en existe d’autres, c’est bien le géant américain et son robot d’indexation qui dominent le web. En effet, Google s’avère aujourd’hui le moteur de recherche le plus utilisé au monde. Il est actuellement LA référence en matière de recherche, bien qu’en face de lui se dressent des concurrents en plein développement. De ce fait, il est essentiel de comprendre son fonctionnement et notamment son système d’indexation. Alors de quoi s’agit-il vraiment et à quoi sert-il ? Notre agence SEO à Reims et Paris vous donne la réponse !

Un robot d’indexation : qu’est-ce que c’est vraiment ?

Tout d’abord, notons bien que notre article s’intéresse au robot d’indexation de Google mais que le principe général s’applique également aux robots des autres moteurs de recherche. Cela étant dit, entrons donc dans le vif du sujet. Web spider, web crawler ou tout simplement bot, les termes pour désigner un robot d’indexation sont nombreux. Il s’agit d’un programme qui parcourt le web (crawl), ses pages et ses contenus en permanence afin de les indexer (si possible). Les indexer, crawler ? Quésako ?

Parcourir le web et découvrir les pages grâce au crawl

L’étape du crawl est importante pour le robot d’indexation de Google. Elle consiste à passer de page en page et à suivre les liens mis en place afin de découvrir les nouvelles pages ou de voir les changements de certaines. Une architecture réfléchie et un bon maillage favorisent le crawl. Crawler signifie donc parcourir les pages et leurs contenus. Si vous souhaitez en savoir plus, vous pouvez consulter notre article sur “L’impact des Core Web Vitals sur votre SEO” !

« Enregistrer » les pages grâce à l’indexation

Lorsque le robot d’indexation de Google passe sur une page qu’il ne connait pas, il va décider ou non de l’indexer. Cela dépend de certaines configurations, mais aussi de la qualité du contenu, des mots-clés, de l’accessibilité du site, etc. Si la page est indexée, elle est « enregistrée » ainsi que son contenu dans la base de données du moteur de recherche. Ces informations sont répertoriées et référencées. Notons que Google porte un intérêt important à son contenu grâce à ses différents algorithmes. Une fois cette indexation faîte et grâce à un bon référencement, vous avez toutes vos chances d’apparaître dans les résultats de recherche du leader américain.

Le robot d’indexation de Google : un même bot pour tous les moteurs de recherche ?

Bien évidemment, chaque moteur de recherche possède ses propres robots d’indexation. Chez Google, il s’agit du Googlebot qui est le principal user-agent mais toutefois pas le seul. Ses concurrents en possèdent également comme DuckDuckBot chez DuckDuckGo ou Bingbot pour le moteur de Microsoft, Bing. Comme souvent, le web connait ses dérives et il existe également des robots « malveillants ». Prenons l’exemple spambots qui parcourent le web afin de spammer les boîtes mails ou encore de propager des commentaires indésirables.

Faciliter le travail du robot d’indexation de Google

Bien que l’indexation puisse se faire naturellement, vous pouvez également demander au moteur de recherche d’indexer votre site. Chez Google, il faut passer par la Search Console (anciennement Webmaster Tool) et faire une demande. Ainsi, l’indexation sera plus rapide que si vous attendiez le passage du robot d’indexation de Google. Une autre technique intéressante est la mise en place d’un Sitemap. Ce plan du site indique aux robots l’arborescence du site ainsi que ses différentes URLs. Cela facilite son travail car ce document XML ou texte peut aussi être envoyé à la Search Console. On peut vérifier qu’un site est bien indexé en tapant page: nom de votre site dans votre navigateur. Si les pages du site apparaissent dans les résultats (SERP), c’est que l’indexation s’avère réussie.

Limiter le crawl ou empêcher l’indexation par le Googlebot

A l’inverse, il est également possible de restreindre un robot. Tout d’abord grâce au fameux fichier robots.txt. Retenez bien son nom car ce fichier placé à la racine de votre site peut être très utile. Vous indiquez quel robot d’indexation (user-agent) a le droit d’explorer (allow) ou non (disallow) tel fichier, type de fichier ou URL. Enfin, il est possible de bloquer l’indexation grâce à l’instruction noindex. Toutefois depuis cette année (2019), Google a annoncé de très gros changement concernant le fichier robots.txt et l’utilisation de noindex.

Le robot d’indexation de Google enregistre chaque jour des milliers nouvelles pages. Il est crucial de surveiller les nouvelles pages de votre site sont indexées ou non, car bien entendu, votre référencement est étroitement lié à ce phénomène. Vous désirez des conseils en matière de référencement, savoir si vos mots-clés sont pertinents ou encore faire un audit SEO ? Contactez dès à présent notre équipe de professionnels en Référencement.

H a u t d e p a g e