Je viens d’apprendre que certains sites du domaines « workshop.club1.fr » ont fini par se faire indexer par Google.
Hors ça gène une ancienne participante de workshop qui voudrait héberger son « vrai » site et faire disparaître de la recherche google ses expérimentations lors du workshop.
En fait je me dis que ça soulève un soucis intéressant. J’ai l’impression que personne n’aurait envie que ses expérimentation HTML et CSS soient indexés par des moteurs de recherche.
Je propose donc de bloquer l’indexation du domaine « workshop.club1.fr » par les moteurs de recherche.
méthodes pour bloquer l’indexation
Pour cela, j’avais entendu parlé du fichier robots.txt
, qui est sensé s’adresser aux « robots d’exploration » (web crawlers). J’ai donc consulté le site https://robots-txt.com/, mais celui ci indique :
Le fichier robots.txt, à placer la racine d’un site web, contient une liste de ressources du site qui ne sont pas censées être explorées par les moteurs de recherches.
A noter que le fichier robots.txt contrôle l’exploration de votre site par les robots des moteurs de recherche, il ne sert pas à empêcher une page ou un répertoire dans les résultats de recherche, il ne contrôle pas l’indexation de vos contenus. Si vous souhaitez désindexer un contenu, vous devez utiliser les instructions meta robots noindex ou via l’en-tête HTTP X-Robots-Tag.
Si j’ai bien compris, ce n’est pas suffisant. Allons voir du côté de la balise <meta name="robots" content="noindex">
:
Même si les robots d’indexation ne doivent pas explorer certaines pages web, ces pages peuvent néanmoins ressortir dans les pages de résultats de recherche de moteurs de recherche (SERP).
Avec la balise meta robots, vous pouvez vraiment empêcher les moteurs de recherche d’afficher dans leurs résultats les pages que vous ne souhaitez pas voir apparaitre.
Ça à l’air d’être la bonne ! Sauf que c’est une balise qu’il faut insérer dans chaque fichier HTML ! Et qu’elle ne propose pas les autres types de fichiers.
Je suis donc allé voir du côté de l’en-tête HTTP X-Robots-Tag :
Cet en-tête HTTP permet de mettre en place les mêmes directives qu’avec la balise meta robots mais directement dans l’en-tête HTTP renvoyée par le serveur.
Cet en-tête est particulièrement utile pour controler l’indexation des documents qui ne sont pas en HTML (PDF, JPG, Word, Excel, etc).
Il se trouve qu’elle peut être intégrée dans un fichier .htaccess
! On dirait que c’est ce qu’il nous faut.
En fait, dans ce cas particulier, vu que c’est un domaine non lié à un compte membre. C’est peut être mieux de régler ça directement dans la config Apache de ce domaine.