Quelles que soient tes raisons d’empêcher Google d’explorer tout ou une partie de ton domaine, tu peux le faire à l’aide du fichier appelé robots.txt.
Bloquer le Google-Bot en utilisant le robots.txt
Le robots.txt est un simple fichier texte nommé « robots ». Il doit être placé dans le dossier racine d’un site web pour que les moteurs de recherche suivent ses instructions.
Si un site web possède un robots.txt, il est accessible via le chemin suivant :
http://www.mon-domaine.com/robots.txt
Le contenu de robots.txt
En utilisant les instructions suivantes, nous interdisons exclusivement l’accès au Google-Bot à l’ensemble de notre site web :
Il faut ajouter les lignes suivantes au fichier robots.txt pour dire au Google-Bot de rester loin de l’ensemble du domaine :
User-Agent: Googlebot
Disallow: /
Si tu ne souhaites restreindre l’accès qu’à des certains dossiers ou fichiers et non à l’ensemble du site web, le robots.txt doit contenir les lignes suivantes:
Les lignes suivantes disent seulement au Google-Bot qu’il lui est interdit d’accéder au dossier « un-dossier » ainsi qu’au fichier « un-fichier.pdf » :
User-Agent: Googlebot
Disallow: /un-dossier/
Disallow: /un-fichier.pdf
Astuce
Les exemples de code présentés ici ne sont destinés qu’au Google-Bot. Les robots d’exploration des autres moteurs de recherche, comme Bing, ne seront pas bloqués. Restreindre l’accès à un robot d’exploration spécifique ne garantit pas que le site web ou des URLs individuelles ne s’afficheront (peut-être) pas dans les résultats de recherche (SERPs). Tu trouveras des informations complémentaires sur ce sujet dans notre article « Pourquoi une URL bloquée via le robots.txt s’affiche-t-elle dans les résultats de recherche ? »