Analyse et modélisation des chercheurs sur le web - Fonctionnement et modélisation (A)

[<< Introduction] [Sommaire] [Fonctionnement et modélisation (B) >>]

Fonctionnement global et modélisation des moteurs

Fonctionnement général

orsque l'on formule une requête, on interroge une base de donnée qui contient des millions d'adresses classées par thèmes, mots clés, avec parfois un descriptif ou simplement les trois ou quatre premières lignes du document. Cette base est régulièrement mise à jour et peut augmenter en taille de deux façons :

d'une part tout utilisateur qui désire y faire figurer un document qu'il a conçu remplit un formulaire et sa page fait alors partie de la base de données du moteur ;
d'autre part, à tout instant, des robots parcourent le web et renvoient le contenu de leurs recherches.

Les robots consistent en l'association de deux logiciels : un robot de collecte, que l'on désigne aussi en anglais par des termes suggestifs comme crawlers, worms ou spiders..., qui se charge de collecter automatiquement les données disponibles sur les serveurs, et un moteur de recherche qui, à partir de l'analyse textuelle des documents que le robot de collecte a trouvés, les indexe pour constituer une base de données de réponses.

En fonction des moteurs, un "jury" détermine quels sont les documents qui doivent se trouver dans la base de données du moteur, ils font parfois une sélection en éliminant les documents qui selon eux ne conviennent pas ou ne sont plus opérationnels. Ces moteurs ne sont en fait pas réellement des moteurs de recherche, mais sont plutôt appelés listes ou répertoires (directory en Anglais).

En ce qui concerne Altavista (par exemple), il n'y a pas de telle sélection. Il constitue alors bien un vrai moteur de recherche.

C'est le moteur, qui en partant des mots-clés de la requête de l'utilisateur, recherchera dans la base (en s'appuyant sur l'indexation) les documents contenant ces mots de façon significative. Selon les moteurs, les règles utilisées pour créer la base de données contenant les réponses sont très diverses, et souvent peu détaillées par les concepteurs.

Certains moteurs n'utilisent qu'une partie des documents pour définir quelles seront les réponses : ce peut être, les titres, les sous titres, les "n" premiers mots du document, les "n" premières lignes... Cependant, beaucoup d'outils sont dits "texte intégral", c'est à dire qu'ils utilisent l'ensemble du document pour éventuellement l'indexer. En fait, il y a plusieurs degrés dans cette notion : par exemple, beaucoup de moteurs éliminent d'abord du texte toute une série de termes trop fréquents, ou simplifient les formes grammaticales.

Schéma récapitulatif

Le robot peut-être comparé à un ensemble de plusieurs dizaines de navigateurs qui, simultanément, interrogent les sites Web
Les pages nouvelles trouvées sont expédiées à la machine qui construit l'index. Scooter, le robot d'Altavista, explore 30 à 40 nouveaux liens par seconde.
A partir des pages explorées par le robot, cet ordinateur construit un index où sont stockés à la fois les mots, la position de ces mots dans le document, et la position de ces mots les uns par rapport aux autres. Dans le cas d'Altavista, c'est le même programme qui bâtit l'index et répond aux requêtes des utilisateurs.
Ce serveur Web joue l'intermédiaire entre les utilisateurs et l'index. Il transmet les requêtes des premiers au second, il y a ainsi chaque jour des millions de requêtes.

[Top]
[<< Introduction] [Sommaire] [Fonctionnement et modélisation (B) >>]