Google publie la liste des adresses IP de Googlebot

Le user agent (nom du robot crawler) peut être choisi librement pour les accès HTTP(S) : c’est pourquoi il existe à la fois de « vrais » Googlebots sur le web et des crawlers tiers qui espèrent obtenir des avantages en utilisant le même nom.

Dans le passé, le seul moyen de déterminer l’authenticité des accès Googlebot était de procéder à une résolution DNS inverse et DNS de l’adresse IP d’accès. Voici un exemple actuel tiré de nos logs :

66.249.66.67 [10/Nov/2021:10:59:29 +0100] « GET /news/ HTTP/1.1 » « Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html) »

Pour déterminer si l’accès précédent a été effectué par un véritable Googlebot, il faut d’abord déterminer l’entrée « Reverse DNS » de l’adresse IP d’accès :

% host 66.249.66.67
67.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-67.googlebot.com.

Il faut maintenant prendre cette IP et la retraiter pour obtenir l’adresse IP :

% host crawl-66-249-66-67.googlebot.com
crawl-66-249-66-67.googlebot.com has address 66.249.66.67

Si vous atterrissez directement sur l’adresse IP (comme dans cet exemple), l’accès est authentique : dans ce cas, il s’agissait réellement de Google et non d’une personne se faisant passer pour elle. Mais la situation peut aussi être différente, comme nous le voyons dans le log suivant :

46.187.1.73 [10/Nov/2021:11:00:42 +0100] "GET /ask-sistrix/ HTTP/1.1" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Le « user agent » est le même, mais la résolution IP est différente :

% host 192.165.113.171
Host 171.113.165.192.in-addr.arpa not found: 2(SERVFAIL)

Il n’y a pas d’entrée Reverse DNS pour cette adresse IP, et en enquêtant un peu plus, il apparaît clairement que le fournisseur russe qui utilise cette adresse IP n’est pas aussi réputé que Google : un cas évident de faux Googlebot.

Comme vous l’avez peut-être remarqué, ce processus n’est pas si facile à réaliser et, selon la vitesse des serveurs DNS, il peut également prendre beaucoup de temps pour que le serveur détermine à chaque fois si un Googlebot est réel ou faux.

Pour résoudre ce problème, Google a décidé de fournir une liste de ses adresses IP légitimes, en répertoriant toutes celles qui sont utilisées dans un fichier JSON.

Grâce à cette liste, vous pouvez rapidement vérifier l’efficacité d’un Googlebot : il suffit de rechercher l’adresse IP et de voir si elle est répertoriée. Merci Google !

Articles similaires