Les webmasters qui consultent régulièrement leurs fichiers logs sont sans aucun doute familier de Henri, le robot de Mirago (ou spider comme il est parfois aussi appelé). L'objectif de Henri est de collecter des informations issues de pages web accessibles publiquement.
Dans différents pays, Henri a différent noms. En Grande-Bretagne, Henri est appelé Henry. En Allemagne, Henri est Heinrich. Aux Etats-Unis Henri est connu en tant que Hank. D'autres pays ont d'aures versions du nom, ou du moins une version aussi proche que possible.
La fonction d'Henri est de se comporter comme un navigateur web et de lire les pages web. Les contenus de ces pages sont analysés, le thème déterminé et les textes et liens extraits. Sur une période de temps, Henri lit des millions et millions de pages. A intervales variables, les informations collectées jusque là sont convertis en index consultables. Une fois créés, ces index sont transmis à Q3, The Mirago Query System.
La dernière génération du robot Henri supporte les pages avec frames, les redirections et se comporte de façon très similaire à un navigateur web moderne. La seule différence majeures est qu'Henri lit plus de pages par seconde qu'un individu moyen peut espérer résumer. Selon l'heure de la journée, Henri peut lire et résumer plusieurs centaines de pages entières par seconde.
La plupart des webmasters souhaitent voir leurs pages web indexer. Ils ne souhaitent pas cependant être inondés de requêtes provenant des robots des moteurs de recherche et autres types de spiders. Ainsi afin d'être amical, Henri utilise une logique complexe pour déterminer l'ordre des pages lues tout en évitant les requêtes fréquentes à un même site web ou nom de domaine. Dans presque tous les cas, Henri ne lit pas plus d'une page maximum d'un site par minute. Très souvent les intervalles entre les requêtes sont bien plus long. Dans le cas de très grands sites, le taux sera sensiblement plus élevé.
Henri respecte le protocole robots.txt ainsi que les metas 'noindex' et 'nofollow'. Pour des détails spécifiques, les webmasters peuvent se reporter au guide de chaque site Mirago. Une aide est incluse pour l'utilisation de 'Allow:' et des signes génériques dans la spécification du fichier.
Les cadres constituent un réel problème dans le développement de pages web. Historiquement cela a été une véritable source d'ennuis pour les web développeurs. Les moteurs de recherche traitaient les cadres comme des pages individuelles. Ainsi lorsqu'un internaute cliquait sur un résultat de recherche, il était redirigé vers un seul cadre qui se trouvait en dehors de son contexte normal. Selon le design du site, cela pouvait ou pas être traité. Dans le meilleur cas, les web développeurs pouvait inclure quelques scripts pour forcer une redirection pour retélécharger le cadre dans son frameset.
Henri résoud ce problème en traitant le frameset entier et tous ses frames comme une seule page à indexer. Cela signifie qu'un internaute n'est jamais envoyé sur un cadre seul mais sur le frameset dans sa totalité. Cela est plus simple du point de vue des web développeurs et bien plus appréciable pour l'internaute effectuant une recherche. Henri traite de la même manière les redirections automatiques entre pages.
L'index de pages web de Mirago est en fait divisé en multiples collections d'index plus petites. Différents sites sont assignés à différentes collections. Les sites de grande taille peuvent être répartis sur plusieurs collections. Chaque collection a sa propre fréquence de mise à jour. Des sites tels que les sites d'actualité sont automatiquement inclus dans la collection à indexation fréquente. D'autres peuvent entrer dans les collections à indexation tous les deux jours ou toutes les semaines.
Henri gère toutes les collections et crée périodiquement automatiquement de nouveaux index consultables selon la fréquence de mise à jour de la collection. Dès que les index sont créés, ils sont automatiquement distribués aux ordinateurs qui gérent l'index de recherche.
De temps en temps l'étude des activités d'Henri révèle des faits insolites. L'une de ces curiosités est survenue lors de l'inspection du dictionnaire de mots généré par Henri au fur et à mesure de ses lectures de millions de pages web. On s'est aperçu qu'un grand nombre de mots ne contenant que les lettres a, c, g, t apparaîssaient chacun un nombre limité de fois. Quelques recherches ont montré qu'il s'agissait du projet de génome humain. Beaucoup de pages web publient des listes de séquence du code du génome humain.
|