[<< Fonctionnement et modélisation (C)] [Sommaire] [Analyse et expérimentation (B) >>]

Analyse et modélisation des chercheurs sur le Web Analyse et expérimentation



  1. Analyse des moteurs

L
es systèmes de recherche sur l'Internet sont communément regroupés sous l'appellation de "moteur de recherche", bien que "moteur d'indexation et de recherche" soit une dénomination plus exacte. Mais tous les sites web de recherche ne sont pas des moteurs d'indexation et de recherche.


  1. Différencier les moteurs de recherche des métachercheurs et autres outils


  2. Ainsi les moteurs de recherche sont a différencier des métachercheurs , tels Métacrawler, et des listes (comme Yahoo, Nomade...).

    En effet, les sites dits multimoteurs ou métachercheurs lancent des requêtes sur différents sites de recherche. A titre d'illustration Métacrawler s'appuie, entre autre, sur : Lycos, Infoseek, Webcrawler, Excite, Altavista et Yahoo. Rarement multilingues, ces derniers sont de plus incapables de fournir des options de recherche avancées.

    Quant aux sites de navigation, ils s'appuient sur une base, divisée en catégories, constituée "à la main" par un groupe de personnes. Ils font donc plutôt figure d'annuaires et par conséquent offrent des champs de recherche plus restreints.

    Il est aussi à remarquer les sites dits hybrides qui, bien qu'ils disposent d'un moteur de recherche, comprennent en plus un annuaire (généralement moins fouillé que ceux des sites dont c'est la seule vocation). On pourrait classer ces sites hybrides sous la dénomination de "moteurs de recherche", mais cela reste tout de même discutable... Les plus visités de ces sites sont Lycos, Infoseek et Excite; ils fournissent des résultats convenables en général, la pertinence des réponses variant d'un site à l'autre.

    Les moteurs de recherche semblent donc être les sites offrant les informations les plus pertinentes, car se sont les seuls dont le mode de récupération des informations repose sur la collecte automatisée des pages web existantes et sur l'indexation systématique de tous les mots dont elles sont composées.

    Ainsi, ces sites de recherche se différencient de leurs homologues par leur fonctionnement souple, mieux adapté à l'Internet et à son environnement en perpétuel mouvement. Cette différence de fonctionnement est à l'origine de meilleurs résultats qui en plus de dépendre du site utilisé dépendent également de la formulation de la requête par l'utilisateur.


  3. Comment exprimer correctement une requête ?


  4. Qui dit recherche d'information dit forcément requête, la pertinence de l'une dépendant de la qualité de l'autre. Mais une bonne requête n'est pas simple à exprimer au premier rebord. Il convient avant tout de bien choisir ses termes, en essayant d'être le plus pointu possible de sorte que la pertinence en soit accrue et que l'accès aux sites référencés soit plus rapide.

    Même à ce stade, l'utilisateur se retrouve le plus souvent noyé sous une masse d'adresses en réponse à sa requête, c'est ce qu'on appelle le bruit : beaucoup d'information ne sont pas pertinentes. D'autres fois, au contraire, les sites trouvés par le moteur seront très peu nombreux et/ou ne traiteront qu'une partie de la requête : c'est ce qu'on nomme le silence.

    Il importe alors à l'utilisateur de formuler une requête bien précise, en exploitant au mieux les options de recherche proposées par le moteur. En règle générale, ces options varient peu d'un site à un autre et on retrouve des traits communs à la plupart des sites de recherche.

    La plupart des moteurs peuvent utiliser 3 opérateurs booléens : ils sont les plus couramment utilisés : (rappel de la première partie)


    Cependant pour une recherche plus avancée on utilisera en plus d'autres termes :

    D'autre part il est important de préciser que les 'petits' mots de liaison et les articles ne seront pas pris en compte par certains moteurs (souvent ceux donnant alors les meilleurs résultats seront du type 'vectoriel') mais pourront perturber d'autres : mieux vaut donc se passer des requêtes en langage naturel.

    De même, les accents et majuscules pourront ou non être pris en compte suivant le moteur utilisé. Une requête avec des mots en minuscules et sans accents offrira plus de réponses car toutes les possibilités seront traitées par le moteur.

    Enfin, d'autres aspects du document recherché pourront aussi être précisé comme par exemple la présence d'un mot dans le titre (ou les premières lignes à défaut) ou l'existence d'une certaine structure dans la réponse.

    Arrivé à ce stade de la requête, on pourra, suivant le site , la compléter ou se servir des options proposées pour restreindre la recherche à une zone géographique, à un domaine (culture, commerce...) à une date ou encore à un type de document bien précis (e-mail, FAQ, page issue des Newsgroups...), etc...

    La recherche varie donc d'un site à l'autre; on retrouve en général les mêmes opérateurs sur de nombreux sites alors que les options de restriction à des champs de recherche précis varient d'un moteur à l'autre.

    Les moteurs de recherche se différencient donc des autres sites de recherche par leur mode de fonctionnement, mais ils se différencient également entre eux par leur mode d'utilisation.

    Les résultats à une même requête varient donc d'un site à l'autre, de sorte que l'on pourra être amené à faire une étude comparative des différents moteurs.




    Comment s'y prendre pour une recherche :


    Prenons un exemple : on souhaite rechercher des photo ancienne de villages :

    Il faut arriver à sélectionner l'information la plus importante (photo puis ancienne puis village…).

    Mais ici, les mots sont ambigus : la photo, est-ce une photo de plancton agrandie 1000 fois, un concours de photographies, images de synthèse, photo ancienne…).

    Il faut alors essayer de lever l'ambiguïté : transformons 'photo de village' en 'carte postale'. L'ambiguïté est levée et le moteur cerne déjà beaucoup mieux le sujet !

    Il y a une différence entre photo ancienne et ancienne photo, alors que carte postale ne peut pas être ambigu sur "postale carte" (qui ne veux absolument rien dire).

    Il faut en fait surtout éviter les mots à double sens. Ensuite, si le nombre de résultats est toujours trop grand, il faut préciser la recherche avec un nom de village par exemple.
[Top]
[<< Fonctionnement et modélisation (C)] [Sommaire] [Analyse et expérimentation (B) >>]
Copyright © 1998 Guillaume SIMON