Le protocole d'exclusion

Plugs

Le protocole d’exclusion est une ressource insérée à la racine d’un site web. Il se présente sous la forme d’un fichier texte qui liste les contenus ne devant pas être indexés par les robots d’indexation. Le protocole d’exclusion est utilisé afin d’éviter l’indexation de ressources sans intérêt pour l’internaute. De manière concrète, il empêche les robots d’indexation d’accéder à certains contenus. Ainsi, ces derniers n’apparaissent pas dans la page de résultats même s’ils sont visibles sur une page.

Le protocole d’exclusion consiste généralement à utiliser un robots.txt placé à la racine d’un site web. Il s’agit d’un fichier texte comprenant la liste des ressources qui ne doivent pas être indexées par les robots des moteurs de recherche. Cette pratique est fréquemment utilisée lors des opérations d’optimisation de MP6. Ce fichier peut également contenir l’adresse d’un sitemap présenté au format XML et destiné aux moteurs de recherche en fonction des sites. Lorsqu’ils crawlent un site, les robots d’indexation consultent en premier lieu le robots.txt. Ils n’indexent alors que les contenus non listés dans ce protocole.

Le robots.txt

Le robots.txt allège le travail du serveur HTTP ainsi que la bande passante sur le réseau informatique en limitant l’accès à certaines ressources.
Une question ?
N’hésitez pas à nous contacter pour toute information

Différents robots

Par ailleurs, le protocole d’exclusion ne remplace pas les éléments de sécurité. Il ne fournit qu’une indication aux robots bienveillants afin de faciliter leur travail. Il est en outre possible que le robots.txt soit ignoré par certains robots d’indexation. Un bot trop simple ne pourra par exemple pas gérer ce standard. Les logiciels malveillants ignorent quant à eux ce protocole de manière délibérée. Ils ont ainsi la possibilité de collecter certaines informations d’ordre privé. Par exemple, ils peuvent rechercher des adresses électroniques sur un site afin d’y envoyer du spam même si le robots.txt restreint l’accès à ces données.

Les autres protocoles d'exclusion

Outre le fichier robots.txt, le protocole d’exclusion peut également prendre d’autres formes. La balise META « robots » sert par exemple à indiquer aux robots d’indexation ce qu’ils ont la possibilité de faire ou non. Il se présente sous la forme d’une ligne de code HTML à insérer dans le code source d’un contenu. À la manière du robots.txt, le fonctionnement de la balise META « robots » nécessite la collaboration des moteurs de recherche : les crawlers de ces derniers doivent prendre en compte la restriction afin de ne pas indexer certains contenus. Si le fichier robots.txt s’adresse aux différents robots, quels qu’ils soient, ce type de protocole d’exclusion ne s’adresse qu’aux robots des moteurs. Les robots malveillants peuvent ainsi toujours collecter certaines informations confidentielles.
Le X-Robots-Tag est quant à lui un protocole d’exclusion créé par Google en 2007. Il ressemble à la balise META « robots », mais est plutôt destiné aux PDF, images, vidéos ou autres fichiers différents d’une page HTML. Il s’insère dans l’en-tête HTTP renvoyé par le serveur web et prend la forme d’une extension du protocole. Enfin, le fichier .htaccess est spécialement conçu pour les sites installés sur serveur Apache. Il est placé dans le répertoire racine du site afin de bloquer l’accès à certains user agent ou adresses IP, mais ne peut pas être considéré comme un véritable protocole d’exclusion. Il est particulièrement efficace contre les logiciels malveillants puisqu’il n’est pas utilisé en tant qu’indication, mais plus en tant qu’interdiction. À ce jour, il s’agit de la seule technique efficace permettant de lutter contre les robots des pirates ou spammeurs. Lors de la conception, de la refonte ou de l’optimisation d’un site web, les spécialistes MP6 veillent à protéger le site client des attaques malveillantes en le dotant des protocoles d’exclusion nécessaires. L’intégralité du site est soigneusement retravaillée afin de faciliter le passage des robots d’indexation des moteurs de recherche et rendre le site plus visible et plus pertinent.

Nous contacter

...

Nous joindre

Adresse :
21 rue de la mairie – 92320 Chatillon
Email :
Téléphone :