[<< Fonctionnement et modélisation (A)] [Sommaire] [Fonctionnement et modélisation (C) >>]

Analyse et modélisation des chercheurs sur le Web Fonctionnement global et modélisation des moteurs



  1. Indexation des documents

P
our afficher les réponses, le moteur de recherches se base sur l'indexation : étant donnée que la liste des réponses est souvent très importante, en particulier avec Altavista, il est nécessaire de classer, trier les documents pour aider les utilisateurs à trouver facilement ce qu'ils recherchent. Les documents réponse sont donc rangés dans une sorte de tableau à deux dimensions. Chaque colonne du tableau correspond aux termes trouvés dans la requête, et chaque ligne correspond aux réponses (qui sont souvent des adresses de sites). Chaque correspondance entre ligne et colonne indique si oui ou non le terme de la requête figure dans le document réponse : la valeur est 1 s'il y figure, 0 sinon. Les réponses ne correspondent pas forcément à tous les termes (à la fois) de la requête, sauf dans le cas où l'utilisateur a relié les termes de sa requête par des "and". Dans ce seul cas, le tableau ne contiendra que des 1.

Donc, étant donnée la construction du tableau, à chaque réponse est associée la liste des termes qui constituent la requête. Il n'est évidemment pas facile d'afficher un liste de réponses dans ces conditions. Le tableau est donc inversé pour que chaque terme soit associé à la liste des réponses. Les termes de la requête correspondent à chaque ligne et les réponses chaque colonne. Cette inversion ne peut être faite dès le départ car l'initialisation du tableau deviendrait plus compliquée.

L'indexation est un passage obligé pour le moteur, elle peut être faite suivant différents principes pour aider l'utilisateur à trouver ce qu'il veut : dans ce sens, le moteur peut classer les documents suivant l'ordre décroissant de leur pertinence en tant que réponse, de cette façon, les réponses susceptibles d'intéresser vraiment l'utilisateur se trouvent dans les premières pages, et dès qu'il rencontre une réponse complètement inadaptée, l'utilisateur peut abandonner sa recherche ou la reformuler s'il n'est pas satisfait.

Le gros défaut de l'indexation est qu'elle permet l'affichage de réponses absolument identiques, ce qui peut décourager les utilisateurs à "tourner les pages". Avec Altavista, on peut retrouver des dizaines de fois les mêmes adresses, alors que parfois les autres réponses ne sont pas nombreuses : cela augmente considérablement le nombre de pages de réponses, au point qu'il dépasse souvent le millier.




Voici un schéma qui résume parfaitement le fonctionnement des moteurs de recherche :

Schéma d'indexation

[Top]
[<< Fonctionnement et modélisation (A)] [Sommaire] [Fonctionnement et modélisation (C) >>]
Copyright © 1998 Guillaume SIMON