La recherche sur Internet - PowerPoint PPT Presentation

1 / 9
About This Presentation
Title:

La recherche sur Internet

Description:

Les annuaires ordonnent les pages du Web par th me, sous-th me, etc. Il s'agit ... Ce sont des hommes qui assurent l'indexation de ces pages, ce qui explique que ... – PowerPoint PPT presentation

Number of Views:46
Avg rating:3.0/5.0
Slides: 10
Provided by: geniefes
Category:

less

Transcript and Presenter's Notes

Title: La recherche sur Internet


1
La recherche sur Internet
2
Les annuaires (on parle aussi de catalogues, de
répertoires et de plus en plus de portails). Leur
base est indexée manuellement par des hommes.
Les moteurs de recherche. Leur base est indexée
automatiquement par des logiciels robots.
Examinons les mécanismes d'indexation de chacun
de ces outils.Des hommes pour les annuaires
Les annuaires ordonnent les pages du Web par
thème, sous-thème, etc. Il s'agit donc d'une
structure arborescente. Ce sont des hommes qui
assurent l'indexation de ces pages, ce qui
explique que le plus gros des annuaires (Yahoo!)
n'indexe " que " quelques centaines de milliers
de pages, soit une partie infime des pages
existantes !
3
  • Avantages
  • L'indexation tient réellement compte du contenu.
  • Les annuaires proposent généralement le choix
    entre une recherche par équation ou par
    arborescence.
  • Une équation de recherche est un ensemble de
    critères (mots-clés, expressions) reliés par des
    opérateurs. Par exemple, esclavage ET (enfants OU
    mineurs) recherchera des documents sur
    l'esclavage des enfants ou sur l'esclavage des
    mineurs.

4
  • Inconvénients
  • Une fraction infime du Web est référencée.
  • L'évolution très rapide des contenus impose un
    rythme de mise à jour incompatible avec une
    indexation manuelle.
  • Seuls les sites qui se sont manifestés sont
    référencés. Ce ne sont pas forcément les plus
    intéressants.
  • La classification arborescente a des limites un
    sujet comme vache folle peut être indexé dans
    différentes rubriques économie, politique,
    zoologie, agriculture, santé

5
Des robots pour les moteurs Les moteurs
permettent une interrogation qui s'apparente à la
recherche documentaire par mots-clés. Ce sont de
gigantesques bases de données d'adresses Web,
indexées sur les mots contenus dans les pages.
Ces bases de données sont constituées
automatiquement par des logiciels appelés robots
ou agents intelligents. Ces moteurs qui, en 1996,
visaient encore à l'exhaustivité, n'arrivent plus
maintenant qu'à indexer au mieux 30 des pages
du Web(3) . Mais cela représente 100 millions de
pages et il y a bien des chances que
l'information recherchée s'y trouve.Il est
important de comprendre que cette indexation ne
tient compte que des mots contenus dans les
pages, en dehors de tout contexte. Par exemple,
une recherche sur théorie ET relativité vous
donnera bien sûr des documents sur la théorie de
la relativité mais aussi plein d'autres
ressources n'ayant rien à voir, car les termes "
théorie " et " relativité " peuvent être utilisés
dans d'autres contextes.
6
  • Inconvénients
  • Aucune analyse sémantique du contenu, mais une
    indexation plein texte où chaque mot est indexé
    indépendamment de son contexte.
  • Pas de classification par domaine.
  • Syntaxe précise à respecter pour les équations de
    recherche.

7
  • Avantages
  • Quantité des documents indexés.
  • Possibilité d'équations de recherche complexes.
  • Même un site qui n'a pas fait la démarche pour
    être référencé, peut être indexé par
    Alta-Vista(4) .
  • (4) Le robot d'Alta-Vista visite d'abord tous les
    sites déclarés par leurs auteurs (un lien sur la
    page d'accueil d'Alta-Vista permet cette
    déclaration), puis tous les sites qui y sont
    liés.

8
(No Transcript)
9
tableau
Write a Comment
User Comments (0)
About PowerShow.com