Ce site est optimisé pour être consulté depuis un navigateur moderne dans lequel JavaScript est activé.

Empêcher l'indexation du domaine "workshop.club1.fr"

vincent

Je viens d’apprendre que certains sites du domaines « workshop.club1.fr » ont fini par se faire indexer par Google.

Hors ça gène une ancienne participante de workshop qui voudrait héberger son « vrai » site et faire disparaître de la recherche google ses expérimentations lors du workshop.

En fait je me dis que ça soulève un soucis intéressant. J’ai l’impression que personne n’aurait envie que ses expérimentation HTML et CSS soient indexés par des moteurs de recherche.

Je propose donc de bloquer l’indexation du domaine « workshop.club1.fr » par les moteurs de recherche.

méthodes pour bloquer l’indexation

Pour cela, j’avais entendu parlé du fichier robots.txt, qui est sensé s’adresser aux « robots d’exploration » (web crawlers). J’ai donc consulté le site https://robots-txt.com/, mais celui ci indique :

Le fichier robots.txt, à placer la racine d’un site web, contient une liste de ressources du site qui ne sont pas censées être explorées par les moteurs de recherches.

A noter que le fichier robots.txt contrôle l’exploration de votre site par les robots des moteurs de recherche, il ne sert pas à empêcher une page ou un répertoire dans les résultats de recherche, il ne contrôle pas l’indexation de vos contenus. Si vous souhaitez désindexer un contenu, vous devez utiliser les instructions meta robots noindex ou via l’en-tête HTTP X-Robots-Tag.

Si j’ai bien compris, ce n’est pas suffisant. Allons voir du côté de la balise <meta name="robots" content="noindex"> :

Même si les robots d’indexation ne doivent pas explorer certaines pages web, ces pages peuvent néanmoins ressortir dans les pages de résultats de recherche de moteurs de recherche (SERP).

Avec la balise meta robots, vous pouvez vraiment empêcher les moteurs de recherche d’afficher dans leurs résultats les pages que vous ne souhaitez pas voir apparaitre.

Ça à l’air d’être la bonne ! Sauf que c’est une balise qu’il faut insérer dans chaque fichier HTML ! Et qu’elle ne propose pas les autres types de fichiers.

Je suis donc allé voir du côté de l’en-tête HTTP X-Robots-Tag :

Cet en-tête HTTP permet de mettre en place les mêmes directives qu’avec la balise meta robots mais directement dans l’en-tête HTTP renvoyée par le serveur.

Cet en-tête est particulièrement utile pour controler l’indexation des documents qui ne sont pas en HTML (PDF, JPG, Word, Excel, etc).

Il se trouve qu’elle peut être intégrée dans un fichier .htaccess ! On dirait que c’est ce qu’il nous faut.

En fait, dans ce cas particulier, vu que c’est un domaine non lié à un compte membre. C’est peut être mieux de régler ça directement dans la config Apache de ce domaine.

nicolas

Haha tu as bouclé la recherche. Le mieux est effectivement de mettre une ligne de config dans Apache, je peux le faire tout de suite.
Ça aurait été plus rapide si tu avais trouvé le fil : Ne pas indexer public.club1.fr par les moteurs de recherches #19

vincent

nicolas Ça aurait été plus rapide si tu avais trouvé le fil : Ne pas indexer public.club1.fr par les moteurs de recherches #19

Hahahaha en effet. Je ne me souvenais pas qu’on avait déjà eu un cas similaire !

Écoute je suis chaud si tu le fais tout de suite car comme ça ça règle le problème que j’évoquais plus haut. Au pire si il y a débat plus tard c’est réversible !

nicolas

Done :)