Mirago  
LIENS ASSOCIÉS
Aide Webmasters
Technologie
Le Robot
Contrôle des Robots









Accueil > Contrôle des Robots
Contrôle des robots Mirago

Si vous souhaitez empêcher Mirago d'indexer votre site ou limiter son activité sur certaines parties de votre site, vous trouverez ici les différents mécanismes possibles:

Meta tags

Mirago supporte l'utilisation des META tags "noindex" et/ou "nofollow".

  • noindex empêchera Mirago d'indexer quoi que ce soit sur vos pages.
  • nofollow empêchera Mirago de suivre les liens contenus sur vos pages.

Pour activer ces tags, il vous suffit d'inclure le tag suivant dans la partie HEAD de la page:

<META NAME="robots" CONTENT="noindex,nofollow">

N.B. Le robot de Mirago n'indexe pas les META tags keyword et description.

Robots exclusion standard

Mirago respecte le Standard for Robot Exclusion, qui spécifie un format pour les fichiers robots.txt. Lorsque placé dans la racine d'un serveur, ce fichier text permet à un webmaster de refuser l'accès à tous les robots ou certains robots et de spécifier les parties du site que les robots peuvent indexer. Ce fichier est régulièrement lu par Mirago et les permissions d'accès au site modifiées en conséquence. Le fichier robots.txt doit être placé dans la racine du site. Il ne sera pas lu si placé dans un sous-répertoire.

N.B. Si un fichier robots.txt n'est pas présent, les robots supposent qu'ils peuvent indexer la totalité du domaine ou sous-domaine sur la base que vous avez 'publié' votre site sur internet pour un accès général. Si vous utilisez également des sous-domaines, le fichier robots.txt doit être placé dans la racine de chaque répertoire.

Vous pouvez indiquer aux robots bien éduqués comme Mirago que certaines parties de votre serveur ne doivent pas être indexées par certains des robots ou tous les robots.

L'exemple suivant illustre le contenu possible d'un fichier robots.txt:

# robots.txt pour http://monsite.fr/
 
User-agent: HenriLeRobotMirago
Disallow:
 
User-agent: vilainrobot
Disallow: /
 
User-agent: *
Disallow: /pas_franchir
Disallow: /devproject

La première ligne débutant par '#', spécifie un commentaire.

Les deux lignes suivantes indiquent que le robot Mirago n'a aucun accès restreint. Cela signifie que Mirago a la permission d'aller partout sur ce site. Cela est optionnel, puisqu'un robot supposera qu'il a la permission d'accèder à votre site s'il n'est pas exclu par les directives Disallow.

Les deux autres lignes indiquent que le robot appelé 'vilainrobot' n'est pas autorisé à accéder aux URL relatives débutant par '/'. Comme toutes les URL relatives sur un serveur commencent par '/', cela signifie que le site tout entier n'est pas accessible au robot.
N.B. Ne mettez pas plus d'une chaîne par line Disallow.

Le troisième paragraphe indique que tous les autres robots ne doivent pas visiter les URL débutant par /pas_franchir ou /devproject. Il faut noter que le carcatère '*' a une signification spéciale dans ce cas 'tous les robots' et il n'est pas une expression normale. Au lieu de Disallow: /myproject/* vous pouvez simplement mettre Disallow: /myproject. Le user-agent * peut être utilisé avant ou après n'importe quel user-agent spécifique. Les user-agents spécifiques sont recherchés avant l'user-agent * de défaut.

Pour des restrictions d'accès plus complètes nous supportons l'utilisation de user-agents multiples et la directive Allow.

Par exemple:

User-agent: robot1
Disallow: /stayout
Disallow: /devproject
 
User-agent: robot2
User-agent: robot3
User-agent: robot4
Disallow: /stayout
Allow: /devproject/beta
Disallow: /devproject
 
User-agent: robot5
Disallow: /
 
User-agent: HenriLeRobotMirago
Disallow:

Dans ce cas robot2, robot3 et robot4 se comportent tous de façon identique. L'entrée Disallow après le robot5 est nécessaire de telle sort que User-agent: Mirago débute un nouveau bloc, sans quoi Mirago partagerait le même bloc que robot5 de la même manière que robot2, robot3 et robot4 partagent un bloc.

Là où User-agent: Mirago est spécifié, * et '$' peuvent être utilisés pour contrôler davantage l'accès à des documents spécifiques:

* peut être utilisé pour identifier des collections d'entrées (ex /devproject/client*.htm). plusieurs * peuvent être inclues dans n'importe quelle ligne.
$ peut être utilisé pour contrôler l'accès à un répertoire spécifique. Par exemple, Disallow: /devproject/text$ n'autorisera pas l'accès au fichier /devproject/text mais permettra toujours l'accès à /devproject/text.doc et /devproject/text/home.htm. L'entrée doit parfaitement correspondre pour que cela fonctionne.

N.B. Mirago doit être spécifié comme User-agent pour le bloc dans lequel ces extensions sont utilisées. La plupart des robots n'interprètera pas ces extensions de cette façon.

Les robots de Mirago utilisent des protocoles identiques à ceux d'un navigateur. Ils n'ont pas de système d'accès secret, ils ne peuvent donc pas visiter des documents se trouvant dans une zone d'authentification protégée par un mot de passe.

>Supprimer votre site des index de Mirago

Nous espérons que l'inclusion de votre site dans les index de Mirago contribue à l'augmentation de votre trafic. Cependant nous enlèverons votre site de nos index sur simple demande. Pour cela il vous suffit de nous écrire à: remove.fr@mirago.com

 
 

Annoncer sur Mirago Partenariat