Googlebot est un robot d’exploration de Google, communément appelé « spider », conçu pour se frayer un chemin à travers les pages des sites web publics. Il suit une série de liens allant d’une page à l’autre, puis traite les données qu’il trouve dans un index collectif.
Ce logiciel permet à Google de compiler plus d’un million de Go d’informations en une fraction de seconde seulement. Les résultats des recherches en ligne sont ensuite directement tirés de cet index. Googlebot est un terme générique qui désigne les outils qu’il utilise pour découvrir du contenu web sur les supports bureaux et mobiles.
Comment fonctionne Googlebot ?
Tous les moteurs de recherche ont des robots et Googlebot est celui de Google. Googlebot est un crawler qui, en termes simples, va de lien en lien en essayant de découvrir de nouvelles URL pour son index.
Voici comment fonctionne Googlebot : les liens sont essentiels pour lui permettre de passer de page en page (et ils peuvent être de n’importe quel type) : liens d’images, barre de navigation, texte d’ancrage, et même des liens cachés avec du JavaScript correctement lisible.
Lorsque ces pages sont découvertes, leur contenu est rendu par Googlebot et son contenu est lu afin que le moteur de recherche puisse déterminer son sujet ainsi que sa valeur pour les internautes.
Une bonne stratégie de référencement signifie que les sites ayant une bonne structure, des temps de chargement rapides et un contenu compréhensible sont faciles crawlables pour Googlebot et peuvent contribuer au référencement d’un site.
Qu’est-ce que l’explorabilité d’un site web ?
L’explorabilité fait référence au degré d’accès de Googlebot à l’ensemble de votre site. Plus il est facile pour le logiciel de passer en revue votre contenu, plus vos performances au sein des SERP seront bonnes.
Toutefois, il est possible que les crawlers soient bloqués, si ce n’est sur l’ensemble de votre site, et certainement sur certaines pages.
Parmi les problèmes courants qui peuvent nuire à votre capacité d’exploration, citons les complications liées à un DNS, un pare-feu ou un programme de protection mal configuré, ou parfois même votre système de gestion de contenu.
Il convient de noter que vous pouvez personnellement manipuler les pages que Googlebot peut et ne peut pas lire, mais prenez bien soin de vous assurer que vos pages les plus importantes ne soient pas bloquées.
Les différents Googlebots
Google dispose de seize bots différents conçus pour diverses formes de rendu et d’exploration de sites. La vérité est que pour le référencement, vous avez rarement besoin de configurer votre site différemment pour l’une de ces formes.
Chacun de ces robots peut être géré différemment en utilisant votre fichier robots.txt ou vos balises méta, mais à moins que vous ne spécifiiez des directives pour un robot particulier, ils seront tous traités de la même manière.
Googlebot fonctionne avec le moteur de rendu Chromium de Google, qui est mis à jour de temps en temps pour s’assurer qu’il est capable de comprendre les paramètres de codage et les styles des sites web modernes et pour s’assurer qu’il peut rapidement rendre des pages modernes.
Googlebot’s Chromium est devenu ce que Google appelle un moteur « evergreen », ce qui signifie qu’il utilisera toujours le dernier moteur basé sur Chromium pour rendre les sites web de la même manière que le navigateur Chrome (avec d’autres agents utilisateurs pour divers autres navigateurs web courants).
L’objectif de longue date de Google est de pouvoir rendre et comprendre les sites et les pages web de la même manière que les humains, ce qui signifie que Googlebot comprendra les pages de la même manière qu’elles apparaissent dans les navigateurs web modernes.
Autres définitions