« Retourner

Qu’est-ce qu’un fichier robots.txt et comment l’utiliser ?

SEO

Informations générales sur le fichier robots.txt

Le fichier robots.txt se trouve dans le répertoire racine du site web. Il indique aux robots de recherche quels fichiers et quelles pages du site web doivent être consultés et lesquels ne doivent pas l’être.

En général, les propriétaires de sites web souhaitent que leurs sites soient visibles par les moteurs de recherche. Cependant, dans certains cas, cela n’est pas nécessaire : par exemple, lorsqu’ils stockent des informations précieuses sur un site web, ou lorsqu’ils veulent économiser de la bande passante en ne permettant pas aux pages contenant beaucoup de données ou de grandes images d’être indexées.

Lorsqu’un robot de recherche trouve un site web, la première chose qu’il recherche est le fichier robots.txt. Une fois ce fichier trouvé, le robot de recherche vérifie les instructions d’indexation qu’il contient.

Note : il ne peut y avoir qu’un seul fichier robots.txt par site web. Pour un domaine ajouté, il doit être créé à l’endroit approprié.

Un fichier robots.txt se compose de lignes contenant deux champs : une ligne avec un nom d’agent utilisateur (pour les moteurs de recherche), et une ou plusieurs lignes commençant par l’énoncé suivant :

Disallow:

Le fichier robots.txt doit être créé au format UNIX.

Les bases de la syntaxe de robots.txt

En général, un fichier robot.txt contient quelque chose comme ceci :

  • User-agent: *
  • Disallow: /cgi-bin/
  • Disallow: /tmp/
  • Disallow: /~different/

Dans cet exemple, l’indexation de trois dossiers (‘/cgi-bin/’, ‘/tmp/’ et ‘/~different/’) est désactivée.

Important à savoir : chaque instruction doit être écrite sur une ligne séparée.

L’astérisque (*) dans le champ User-agent signifie « tout robot de recherche ». Logiquement, « Disallow:*.gif » ou User-agent : Mozilla* n’est pas pris en charge. Les erreurs logiques de ce type doivent être surveillées, car ce sont les plus courantes.

D’autres erreurs courantes sont des répertoires mal saisis, des identificateurs de logiciels, des deux-points manquants après user-agent et disallow, etc. Lorsque le fichier robots.txt devient de plus en plus compliqué, il devient plus facile de tomber dans ce genre d’erreurs.

Exemples d’utilisation

Désactivez l’indexation de la page entière pour tous les robots de recherche :

  • User-agent: *
  • Disallow: /

Tous les robots de recherche sont autorisés à indexer la page entière :

  • User-agent: *
  • Disallow:

Bannir certains annuaires de l’indexation :

  • User-agent: *
  • Disallow: /cgi-bin/

Désactiver l’indexation de la page par un robot de recherche spécifique :

  • User-agent: Bot1
  • Disallow: /

Autoriser l’indexation pour un certain robot de recherche et l’interdire pour d’autres :

  • User-agent: Opera 9
  • Disallow:
  • User-agent: *
  • Disallow: /

Désactiver l’indexation de tous les fichiers sauf un :

(C’est un peu délicat, car la commande « Allow » n’existe pas. Au lieu de cela, tous les fichiers que vous ne voulez pas indexer doivent être rassemblés dans un sous-dossier, à l’exception de celui que vous voulez indexer)

  • User-agent: *
  • Disallow: /docs/

Robots.txt et SEO

Supprimer la désactivation de l’indexation des images :

Pour certains logiciels de gestion de contenu (CMS), le fichier robots.txt peut ne pas inclure le dossier images. Ce problème ne se pose généralement pas avec les versions récentes des CMS, mais il est recommandé de vérifier les versions plus anciennes.

Cette désactivation signifie que vos images ne seront pas indexées et n’apparaîtront pas dans les recherches Google Image, ce qui peut nuire au référencement de votre site.

Pour changer cela, vous devez supprimer la ligne suivante :

  • Disallow : /images/

Ajouter une route au fichier sitemap.xml :

Si vous disposez d’un fichier sitemap.xml (ce qui est recommandé), il est utile d’inclure la ligne suivante dans votre fichier robots.txt :

sitemap : http://www.votredomain.fr/sitemap.xml

Autres informations

  • Ne bloquez pas les CSS, JavaScript ou autres scripts similaires par défaut.  Leur blocage empêcherait Googlebot de traduire correctement la page et de reconnaître qu’elle est optimisée pour les mobiles.
  • Le fichier robots.txt peut également être utilisé pour empêcher l’indexation de certaines pages, telles que les pages de connexion ou les pages affichant des messages d’erreur 404. Toutefois, il est préférable de gérer ce type de directives via la balise méta robots.
  • L’ajout d’une directive de désactivation dans le fichier robots.txt n’entraînera pas la suppression des données, mais empêchera seulement les robots de recherche de les indexer. Si vous souhaitez réellement supprimer un contenu du Web, il est recommandé d’utiliser une balise méta noindex.
  • En règle générale, vous ne devez jamais utiliser robots.txt pour gérer le contenu dupliqué. De meilleures solutions existent, comme l’utilisation de la balise rel=canonical qui fait partie de l’en-tête HTML.
  • Gardez toujours à l’esprit qu’un fichier robots.txt n’est pas une solution anodine. Vous trouverez souvent des outils plus puissants que ceux fournis par les outils pour webmasters de Bing et de Google.

Robots.txt pour WordPress

Lorsque vous créez du contenu sur WordPress pour la première fois, un fichier robots.txt est automatiquement généré. Cependant, si un fichier robots.txt réel (et non virtuel) existe déjà sur le serveur, ce processus automatique ne se déclenchera pas. Un fichier robots.txt virtuel n’est pas stocké physiquement sur le serveur ; il est accessible uniquement via le lien suivant : http://www.votresite.fr/robots.txt

Par défaut, Google Mediabot est activé, mais de nombreux spambots ainsi que certains dossiers et fichiers de base de WordPress sont bloqués.

Si vous n’avez pas encore créé de fichier robots.txt concret, vous pouvez en créer un avec n’importe quel éditeur de texte et le télécharger dans le répertoire racine de votre serveur via FTP.

Bloquer les principaux répertoires de WordPress

Pour tous les sites WordPress, il existe trois répertoires standards (wp-content, wp-admin, wp-includes) qui n’ont pas besoin d’être indexés par les moteurs de recherche.

Toutefois, évitez de bloquer entièrement le dossier wp-content, car il contient le sous-dossier « uploads » qui renferme les fichiers multimédias du site. Il est conseillé de ne pas bloquer l’accès à ce sous-dossier pour permettre l’indexation des médias du site. Il convient donc de suivre la procédure suivante :

  • Disallow: /wp-admin/
  • Disallow: /wp-includes/
  • Disallow. /wp-content/plugins/
  • Disallow: /wp-content/themes/

Blocage basé sur la structure du site web

Chaque blog peut être bloqué de plusieurs façons :

  • par catégorie
  • par tags
  • les deux, ou ni l’un ni l’autre
  • par archives de base de données

1. Si le site est structuré en catégories, il n’est pas nécessaire d’indexer les archives de tags.

Vous pouvez accéder à la base de données des tags en cliquant sur l’onglet Options, puis sur l’onglet Premalinks. Si le champ est vide, le tag est simplement un « tag » :

  • Disallow: /tag/

2. Si le site web est structuré par tags, l’archive des catégories doit être bloquée. Recherchez la section des catégories et appliquez l’instruction suivante :

  • Disallow: /category/

3. Si le site web est basé à la fois sur les catégories et les balises, aucune instruction n’est nécessaire. Si vous n’utilisez ni l’un ni l’autre, il convient de les désactiver !

  • Disallow: /tags/
  • Disallow: /category/

4. Si le site web est structuré en base de données, ils peuvent être bloqués comme suit :

  • Disallow: /2010/
  • Disallow: /2011/
  • Disallow: /2012/
  • Disallow: /2013/

Note : Vous ne pouvez pas utiliser la commande « Disallow : /20*/ », car tous les messages ou pages commençant par « 20 » seront bloqués.

Articles similaires