|
Le Centre d'Opérations
L'infrastructure de recherche de Mirago est située à Global Switch, sur les docks de Londres relié au principal backbone britannique. Mise à part une excellente vitesse de connectivité en Grande-Bretagne et en Europe, le centre offre un haut niveau de sécurité et système de résitence. Au fur et à mesure du développement de Mirago, ce démagement dans ces locaux constitue une véritable étape dans notre stratégie de management du risque.
Tous les serveurs du centre de données fonctionnent vai un complet système standby et sont maintenus dans un environnement contrôlé. Le principe de résilience est au coeur de l'architecture et les unités sont contrôlées 24h/24, 7j/7, 365 jours/365.
Les clusters de serveurs web qui distribuent les requêtes opèrent sur serveurs Microsoft IIS .NET. Ils communiquent avec l'interface publicitaire et le système de requête via une couche transport Mirago opérant sous Windows et Linux.
Les Serveurs
La plupart des serveurs est dédiée aux index nationaux. La grande majorité de ces serveurs est dans des caisses 1U et opère sous Windows NT ou Redhat Linux 9. Un serveur de requête stocke entre 1 et 2 millions de documents. Les index nationaux contiennent plus de 100 millions de documents et sont donc répartis sur des clusters de 60 à 100 machines.
Cette architecture assure à Mirago de meilleures extensibilité et tolérance face aux erreurs. Cela signifie qu'un serveur (ou plus) peut être retiré des clusters pour maintenance sans affectuer l'expérience des utilisateurs. La couche transport permet également aux clusters de requête d'être localisés dans différents lieux géographiques.
Lorsqu'une requête provient d'Internet (nous exécutons parfois plus de 100 requêtes par seconde), elle est transmise par les serveurs web aux serveurs de requête. Chaque serveur contient une part de l'index national et répond à la requête séparément. La requête est également envoyée aux serveurs publicitaires M3 qui recherchent les sites sponsorisés à afficher répondant à la requête. Les réponses sont collectées, les résultats générés et une page de réponses est retournée à l'internaute. L'ensemble de ce processus se déroule en quelques millisecondes.
Les Robots
Le rôle des 'robots' est de récupérer et indexer les documents qui ont été modifiés depuis leur dernière visite. Les 'robots' sont en fait un ensemble de machines ayant accès à des terabytes de disques d'espace pour stocker les documents, le temps que l'index est construit.
Les robots d'indexation sont les principaux utilisateurs de bande passante. Ils fonctionnent en continu mais sont restreints dans leur consommation de bande passante par un logiciel appelé Arbiter. Ce dernier contrôle en permanence la bande passante disponible et détermine le taux d'utilisation à certaines periodes de la journée.
|