Title: Recherches sur Internet: m
1Recherches sur Internetméthode et
astuceshttp//www.destin.be/solutions/search.fr.s
html
- Présentation au REWICSpar Christophe Dupriez,
Développement de Systèmes de
Traitement de lINformation
http//www.destin.be - 19 mars 2007
2Recherchessur Internet
- Mise en situation
- Moteur de Recherche Google
- Méthode Recherche spécifique ou recherche par
sujet ? - Astuces Recherche de codes, lieux, organismes,
personnes, concepts, sources, dates, nombres,
etc. - Pour aller plus loin
3? Mise en situation
- Pourquoi cherche-t-on ?
- Chercher soi-même ou déléguer ?
- Comment font les autres ?
- Ne pas se perdre en chemin
4 ? Pourquoi cherche-t-on ?
- Parce quon en retire un bénéfice
- Cest une action qui apportera ce bénéfice.
Action qui a des coûts en temps, en efforts, en
argent - Pour décider de laction appropriée, il faut
obtenir des informations. - Les informations ont comme valeur, le bénéfice
des actions quelles permettent. - Les investissements en recherche doivent rester
inférieurs à ce bénéfice !
5? Chercher soi-même ou déléguer?
- Auto-formation
- Cycle de rétroaction court (trop court?)
- Accompagnement (binôme)
- Expliquer ses idées à lautre, cest déjà les
formaliser - Complémentarité des expériences et des
connaissances terminologiques - Second regard dun autre sur sa démarche
(acteur/spectateur) - Nécessité dune méthodologie
- Délégation
- Exprimer son besoin ( cahier des charges )
- Evaluer le résultat
- Cycle de rétroaction long (trop long?)
6Un exemple de délégation http//www.guichetdusavo
ir.org/GdS/
7? Comment font les autres ? http//www.harvestdigi
tal.com/fact_sheets.cfm
- 94 utilisent Google
- 47 passent plus de 3 heures/semaine rien
qu'en recherches - 68 expriment leur recherche en utilisant
3 mots ou plus - 36 imputent leurs échecs à des mots mal
choisis,32 les imputent à une demande trop
spécialisée, 8 pensent que cela peut être dû
au moteur de recherche. - 24 des internautes n'apprécient pas la
présence de liens sponsorisés. - Pour sélectionner un lien dans le résultat43
ne regardent que la première page de
résultats32 choisissent en fonction du résumé
associé au lien17 ne regardent que les quelques
premiers liens 8 tiennent surtout compte de la
réputation du site lié - Pour améliorer les résultats 50 demandent plus
d'entraînement et d'expérience, 9
utiliseraient plusieurs moteurs, 5 voudraient
de meilleurs moteurs.
8? Ne pas se perdre en chemin
- Léparpillement nous guetteil y a tant de
problèmes et tant de solutions, juste à portée de
souris - Notre mémoire ne peut pas faire face à la masse
dinformations. Il faut laider - Crayon et carnet pour noter un mot ou l'autre,
faire des schémas - Outil de marquage, de classement et
denregistrement des pages visitées - Personnel
- http//amb.vis.ne.jp/mozilla/scrapbook/
- http//www.netsnippets.com
- Partagé http//del.icio.us
- Une méthode pour toujours savoir ce quon fait
ensuite , pour nous accompagner jusquà la
communication de nos résultats de recherche.
9Onglets dans Firefox et IE 7
- queryexpansionterminology management
"database search" OR"internet search"
10 ? Les Moteurs de Recherche
- En gros, comment ça marche ?
- Des idées aux mots, des mots aux idées
- Ce qui nest pas indexé nest pas trouvé Ce qui
est caché non plus! - Le moteur de recherche Google
11? En gros, comment ça marche?
Google 400.000 ordinateurs
12? Des idées aux mots,des mots aux idées
- LAuteur a des idées quil transcrit par des
enchaînements de mots dans un ou plusieurs
documents inter-reliés. - Les documents sont relativement statiques ils
contiennent, en quelque sorte, des réponses
préparées à l'avance pour des questions qui ne
sont pas toujours formulées. - LInternaute a des besoins mais ce qu'il cherche
ce sont des solutions - Quels sont les mots que les auteurs ont bien pu
utiliser pour décrire des réponses à mes
questions,des solutions à mes besoins ? - Les idées de l'auteur et les besoins de
l'internaute sont séparés par - Le vocabulaire et la langue de l'auteur,
- Les hypothèses, les axes de solution à ses
besoins que l'internaute est capable d'imaginer, - La langue et le vocabulaire de l'internaute.
- Comment gérer cette fracture entre les auteurs et
les internautes ?
13? Ce qui nest pas indexéne peut pas être trouvé
- Dans le Web invisible , on (ne) trouve (pas)
- ce qui n'est pas écrit (images, sons),
- un serveur inaccessible de lInternet,
- un serveur inconnu de Google,
- ce qui n'est pas lié au document racine dun
serveur, en un nombre limité détapes (ou
directement par un document extérieur), - ce qui est produit dynamiquement en réponse à des
données soumises au moyen dun formulaire, - ce qui nest pas accessible gratuitement,
- ce qui est non grata pour le service
dindexation et de recherche (censure de certains
sujets en Chine, journaux francophones belges) - Ce qui est caché non plus !
14 www.google.com
- La documentation de Google sur son interprétation
des requêtes est pour le moins spartiate.
Lévolution du fonctionnement observé montre que
ceci est sans doute à dessein pour garder une
liberté de changement maximale. - GoogleGuide.com donne un très bon inventaire des
possibilités avec différents exemples
http//www.googleguide.com/advanced_operators_refe
rence.html - On évoquera ici
- Quest ce quun mot ?
- Formulation dun mot à chercher
- Chercher une suite de mots
- Opérateurs logiques (booléens)
- Langue de lutilisateur
- Localisation de lInternaute
- Tri du résultat
- Algorithme PageRank
- La valeur dun mot
- Limites de Google
15Quest ce quun mot ?
- Une suite continue dau plus 128 lettres OU
chiffres OU _ (souligné), sans aucun
caractère de ponctuation, espace ou balise ltHTMLgt - Les lettres peuvent être dans différents
alphabets (russe, grec, chinois, etc.) - H2O est donc cherché comme un seul mot Google ne
trouve alors pas les documents avec H 2 O ou H2O
dans leur texte (lindice est marqué par une
balise lthtmlgt). - Pour trouver ceux-ci, il faut demander "H 2 O" ou
mieux H-2-O qui fonctionne aussi pour les mots
de plus dune lettre (comme dans H-2-SO-3).
16Formulation dun mot à chercher
- mot Un mot et ses variantes singulier/pluriel -
masculin/féminin avec/sans accents. Par exemple
chevaux darçon retrouve cheval darçon cet
algorithme fonctionne en français, en anglais
mais mal en néerlandais. Attention la variante
que vous spécifiez est favorisée dans le tri des
documents présentés (y compris laccentuation). - mot Un mot et ses synonymes. Fonctionne avec
un dictionnaire anglais même sur les recherches
en français et néerlandais !Essayer automobile
-automobile pour voir les mots trouvés en dehors
du terme strict automobile. arabic retourne
Egypt, Lebanon, Arab et Hindu ! Permet de mieux
cibler le genre de résultat désiré. Par
exempledefinition, comparaison, problem - "mot" Un mot exact sans variantes. Google ne
tient pas compte de laccentuation pour la
recherche mais favorise la forme spécifiée lors
du tri des documents présentés. - mot chercher ce mot même si c'est un mot vide
dans la langue de l'utilisateur ( de en
français par exemple) et le chercher en tenant
compte des accents ( dés par exemple). Un
est assumé si un seul mot est cherché thé seul
agit comme si on avait tapé thé.(Cette forme a
donc une signification très différente de celle
de Altavista où le "" indiquait des mots
obligatoires) - Lors du tri des documents, Google donne une
certaine préférence à la forme tapée
lopérateur na donc plus beaucoup
dintérêt.
17Chercherune suite de mots
- "mot1 mot2 motn" une suite de mots
spécifiques, une expression - une étoile dans une suite de mots entre
guillemets (et seulement là) peut être mise à la
place de quelques mots complets qu'on ne désire
pas spécifier. Par exemple "ministère du et
du commerce" - chiffres1-chiffres2--chiffresn équivaut à
"chiffres1 chiffres2 chiffresn" - lettres1-lettres2-lettresn chercher un terme
composé de plusieurs mots, qu'il soit écrit avec
des tirets, des espaces ou même sans espace du
toutgratte-ciel trouve gratte ciel,
gratte-ciel et gratteciel .gratte-ciel ne
signifie pas du tout la même chose que gratte
-ciel (voir l'opérateur logique "
-").Attention ceci ne fonctionne bien qu'avec
des mots et pas avec des nombres. - ca-va-seul fonctionne maintenant et montre
lutilité de ce type de recherche pour chercher
des marques de commerce aux frontières de mots
pas toujours constantes. - 354-1096 ne trouve plus 3541096.
- intitle"mot mot" une suite de mots
spécifiquement dans le titre du document (balise
lttitlegtlt/titlegt ou première balise lth1gtlt/h1gt)
18Opérateurs logiques (booléens)
- espace les documents doivent contenir ce qui
est à droite ET ce qui est à gauche. - OR ou les documents peuvent contenir ce
qui est à droite OU ce qui est à
gauche.Attention OR doit être écrit en
majuscules ! - espace- (signe moins précédé dun espace)
exclure les documents contenant le mot qui suit
(SAUF) - Peut exclure beaucoup plus que ce qui est désiré.
- (mot -motIdentifiantUnContexte) Une variante de
signification peut être supprimée en excluant un
contexte où elle apparaît. Par exemplebaleine
parapluie ou encore pied va-nu-pied - ( ) sous-expression à évaluer avant de faire
les opérations avoisinantes
19Google trie en favorisant la langue de
lutilisateurhttp//www.google.com/language_tool
s?hlfr
- Il est essentiel de faire ses recherches en
changeant sa langue d'utilisateur en fonction de
la langue des mots cherchés - Tri des résultats qui favorise cette langue
- Algorithme adéquat pour rendre équivalents le
singulier et le pluriel, le féminin et le
masculin (le néerlandais nest pas bien traité). - Utilisation (peut-être un jour) du bon
dictionnaire de synonymes
20Localisation de linternautehttp//www.google.c
om/language_tools?hlfr
Il est réellement important de choisir la
localisation de ses recherches car le tri
favorise les pages proches de cette
localisation.
21Google.be/search?qpython Google.be/search?qpython Google.fr/search?...
hlen hlfr hlfr
22 Tri du résultat
- La qualité de Google vient de sa capacité à
montrer en premier les pages jugées les plus
pertinentes en général et les plus pertinentes à
une recherche en particulier. Google trie les
documents trouvés en fonction - de mesures de qualité du site en général et aussi
de chacune des pages (cohérence des
méta-informations avec le texte visible de la
page par exemple). Ces mesures ne sont pas ou peu
documentées. - une mesure du poids de chacune des pages indexées
(algorithme PageRanks) - d'un calcul de la pertinence de la page vis-à-vis
de la recherche effectuée. Ceci se fait en tenant
compte - de la présence dans la page (ou dans les liens
vers cette page) des mots de la recherche
(éventuellement élargis à leurs synonymes ou à
leurs variantes singulier/pluriel) - de l'emplacement de ces mots dans la page
(intitletitre,méta-données, texte,
inanchorliens vers cette page) - pour chaque mot, de son poids informationnel
- de la distance dans la page entre les mots
cherchés plus ils sont proches l'un de l'autre,
plus la page est jugée pertinente vis-à-vis de la
recherche effectuée. - de la langue de l'utilisateur qui devrait être
aussi celle des mots cherchés Pour changer la
langue de l'utilisateur selon la langue des mots
chercher, il faut modifier à la main l'URL de
Google http//www.google.be/search?hlfrq
...en changeant hlxx (xx étant le code en deux
lettres de la langue désirée). - du pays indiqué par lURL daccès à
Google google.be accorde une nette préférence
aux sites belges, google.fr aux sites français,
google.com aux sites américains et google.co.uk
aux sites anglais
23Algorithme PageRankun star system
- Favoriser les pages jugées les plus pertinentes
en général, les vedettes - Pages les plus référencées par des pages
elles-mêmes très référencées - Cherchez-vous réellement à ne lire que des
documents vedettes ? - Cité de Google
- We assume page A has pages T1...Tn which point to
it (i.e., are citations). - The parameter d is a damping factor which can be
set between 0 and 1. We usually set d to 0.85. - C(A) is defined as the number of links going out
of page A. - The PageRank PR(A) of a page A is given as
follows - PR(A) (1-d) d (PR(T1)/C(T1) ...
PR(Tn)/C(Tn)) - Note that the PageRanks form a probability
distribution over web pages, so the sum of all
web pages' PageRanks will be one. - PageRank can be calculated using a simple
iterative algorithm, and corresponds to the
principal eigenvector of the normalized link
matrix of the web. - Voir aussi http//pr.efactory.de/
24Limites de Google
- Les requêtes sont limitées à 32 mots.
- Les mots sont limités à 128 caractères.
- Seuls les 1000 premiers résultats pertinents pour
une requête sont accessibles, et ce même si les
correspondances sont plus nombreuses. Les
résultats peuvent même parfois être moins de 1000
en raison de la suppression des pages provenant
dun même site. - Daprès Google, obtenir plus de 1000 résultats
entraînerait une lourde charge supplémentaire
pour une demande finalement assez rare. - On nous dit que le tri assure que les références
les plus utiles sont en premier. Effectivement,
le tri se fait sur les 1000 résultats (et peut
donc être très sophistiqué), mais comment se fait
la sélection préalable ?
25? Méthode Recherche spécifiqueou Recherche par
sujet ?
- Quand on connaît un titre, un nom, un code, une
date, un numéro,on cherche quelque chose de
spécifique, on rencontre alors principalement des
problèmes lexicaux traités plus loin (Astuces). - Quand on cherche sur des thèmes, des sujets, on
rencontre les différences de terminologie entre
auteurs et internautes. La méthode qui suit prend
alors tout son sens.
26Stratégie Identifier les outils et les
sujetspour sa Recherche
- Rédiger une expression de son besoin (Quoi? Pour
quoi? Qui? Pour qui? Comment? Où? Quand?) - Rassembler quelques documents qui parlent de son
besoin et qui évoquent des axes de solution.
Simprégner des principaux concepts du domaine. - Rédiger une expression du sujet de la recherche
pour chaque axe de solution possible. - Pour chaque langue que l'on comprend,
indépendamment, choisir de bons mots clés. - Identifier des sources adéquates auteurs,
institutions, entreprises, banques de données ou
sites spécialistes du problème à résoudre
(chercher à atteindre le Web invisible en
utilisant les outils de recherche de sites
spécialisés) - Trouver et classer les documents qui apportent
l'un ou l'autre élément de réponse à son besoin.
27La terminologie pour un sujet
- Pour chaque concept à chercher, le choix des
termes (un terme étant formé dun ou de plusieurs
mots) est critique. - On trouve assez facilement des documents avec les
termes que lon utilise soi-même. Le défi est de
trouver ceux avec les termes que d'autres
utilisent pour le même concept - Variantes orthographiques,
- Synonymes,
- Abréviations,
- Spécifiques ou Génériques,
- Changement du nom à travers l'histoire ou selon
les auteurs (écoles de pensée), - Traductions dans dautres langues que lon
comprend. - On saidera de glossaires, de dictionnaires, de
textes explicatifs, etc. - http//atilf.atilf.fr/dendien/scripts/tlfiv4/showp
s.exe?pcombi.htmjavano (Trésor de la Langue
Française) - http//dico.isc.cnrs.fr/dico_html/ (français et
anglais) - http//wordnet.princeton.edu/ (anglais)
- http//thesaurus.reference.com/ (anglais)
- http//www.systransoft.com (traductions)
- Il serait tellement pratique dêtre assisté par
des dictionnaires automatiques dans la rédaction
de ses requêtes Google ne fonctionne que pour
langlais, sans contrôle, et de manière
insatisfaisante
28Rédiger sa requête au Moteur de recherche
- Identifier les différents concepts qui entrent
dans l'expression du sujet de la recherche - Par exemple durée du congé de maternité
- Exhaustivité Pour chacun de ces concepts,
rassembler un maximum de manière de l'exprimer et
faire un OU (union) entre chaque mot - durée longueur semaines mois
- Avec Google (en anglais jusquà présent), on peut
utiliser le tilde avant un mot pour qu'il mette
lui-même des synonymes de ce mot duration
length weeks months - Si lexpression qui exprime un concept est
composée de plusieurs mots, il faut réunir
ceux-ci par des guillemets ("congé de maternité")
sans quoi on recevra aussi les pages où ces mots
ne sont pas consécutifs. - Précision Mettre ces expressions de recherche
d'un concept côte à côte pour obtenir seulement
les documents qui possèdent cette combinaison de
concepts (ET implicite entre les groupes) - ( durée longueur semaines mois ) (
congé pause vacances ) ( maternité
accouchement naissance ) - Bémol Le tri de Google semble donner la
préférence aux documents qui mentionnent
plusieurs des termes réunis par un OU (OR)
29Élargir avec variantes et synonymes,Restreindre
en combinant les concepts
(congé OR pause OR vacances)1(maternité OR
accouchement OR naissance)2
- CongéOR Pause OR Vacances
1
2
30Google 1 750 000 pages en France
- (durée longueursemaines mois) (congé
pause vacances )( maternité
accouchement naissance )
31? Niveau lexical Astuces
- La Tactique
- Noms
- communs
- Lieux
- Organismes
- Personnes
- Sources (sites Internet)
- Codes
- Numéro de téléphone
- ISBN
- CAS
- Nombres
- Dates
32Noms communs
- la frontière entre les mots où commencent-ils,
où finissent-ils ? pipe-line ou pipeline ? H2O
ou H 2 O ? - l'allemand et le néerlandais permettent de réunir
plusieurs mots en un seul impossible de les
trouver sans troncature à gauche - les alphabets différents d'une langue à une
autre un même nom propre peut être orthographié
différemment dans l'alphabet arabe, cyrillique ou
japonais - les accents "The" vs "thé", "de" vs "dé",
"poisson sale" vs "poisson salé", etc.
33Un lieu
- Terminologie Identifier les synonymes, les
abréviations, les traductions et les spécifiques.
Par exemple BelgiqueBruxellesAnversGandL
iègeNamur - Les noms de lieux ont souvent des variantes selon
la langue qui sert à les nommer LiègeLuik
MoscouMoscow?????? Plusieurs langues admettent
les déclinaisons qui font varier la fin d'un mot
l'opérateur de troncature serait alors bien
utile. - Quelles sont les exportations de la République de
Macédoine ? - importation (république republic)(macédoine
macédonien macedonia macedonian makedonia
"F Y R O M")
34Une organisation
- Terminologie il faut identifier
- les synonymes,
- les sigles,
- les traductions,
- les entités englobantes ou les subdivisions,
- les changements de nom à travers l'histoire
(fusions) - Il n'est pas nécessaire de faire "I B M" IBM
car Google le fait automatiquement pour les mots
de une lettre.Il suffit de taper "I B M"
35Une personne
- Identifier Abréviations, ordre/absence des
prénoms, d'une initiale (anglo-saxons) - Chercher quelqu'un s'appelant "Prénom Initiale
Nom" - "Prénom I Nom" "P I Nom" "Nom Prénom I"
"Nom P I" - Google cherche alors automatiquement aussi bien
"P I" que "PI". Si PI est un mot fréquent (et
introduit donc du bruit dans la recherche), vous
pouvez écrire - "Prénom I Nom" "P I Nom" "Nom Prénom I"
"Nom P I" - On peut aussi exiger une accentuation spécifique
pour discriminer entre des textes de différentes
langues mélanie par exemple ne trouve pas
Melanie Griffith.
36Source Site Internet
- Les sites Internet sont identifiés par un nom de
domaine. Ce dernier va, de gauche à droite, du
spécifique au générique, du nom dun serveur
(www) au code dun pays (be) en passant par le
nom de lorganisme. - Vous pouvez restreindre une recherche en
indiquant sitedomaine. Comme tous les niveaux de
domaines sont permis, vous pouvez chercher, par
exemple - sitedb.amazone.be pour les banques de données de
lASBL Amazone - siteamazone.be pour tout le site de lASBL
Amazone - siteqc.ca pour un site québécois
- siteca pour un site canadien
- siteac.be pour un site académique belge
- siteco.uk pour un site commercial du Royaume Uni
- Vous pouvez faire OR pour unir plusieurs
domaines - siteco.uk sitecom sitebizpour exiger un
site commercial
37Numéro de téléphone
- Le problème vient ici des nombreuses variations
dans le regroupement des chiffres. - Google vient tout juste de changer 354-1096
(tirets entourés de chiffres) équivaut maintenant
seulement à "354 1096" et ne trouve plus 3541096. - Pour trouver tous les documents mettant en
contact avec une grande firme à Bruxelles, on
doit énumérer de nombreuses façons de
lécrire "I B M" "02 225 3333" "02 225 33 33"
"2 225 3333" "2 225 33 33" "022253333"
"22253333" Ce qui retrouve - Pour toute question générale sur IBM
Belgium/Luxembourg, appelez le 02 225 33 33 - IBM - Bruxelles (HQ) Avenue du
Bourget/Bourgetlaan, 42 B-1130 Bruxelles Tel
32 2 225 33 33 - Contact Info de contact générale
32-2-225-3333
38Code ISBN
- Identifie un livre
- Deux variantes à chercher
- Sans ponctuation mais avec chiffre preuve (10
chiffres) - Avec ponctuation mais sans chiffre-preuve (9
chiffres en 3 groupes). - Par exemple2748900375 2-7489-0037
- Génère souvent une proposition erronée
39Code CAS (Chemical Abstract Service Number)
- Identifie un composé chimique
- Très discriminant on peut souvent omettre de
spécifier CAS - Par exemple
- "C A S 118 55 8" 53 documents
- "C A S" 118-55-8 645 documents
- 118-55-8 741 documents
40Nombres
- Google est capable de chercher sur un intervalle
de nombre. Mais ceux-ci doivent être dans la
forme nord américaine (123 456.9999) et non pas
européenne (123.456,9999) ! - Ethnocentrisme patent mais Google évolue
- A terme cet opérateur pourrait justement
convertir les références aux nombres en tenant
compte des différentes conventions tant des
internautes que des auteurs. - On peut chercher sur un intervalle noté
minimum..maximum(minimum et maximum pouvant
avoir des décimales). - On peut aussi écrire numrangeminimum-maximum
(minimum ou maximum peut alors être omis pour
indiquer un intervalle ouvert). - On ne peut pas chercher des nombres négatifs
(commençant par un "-") !
41Dates dans le texte
- Grand nombre de variantes selon le pays, le
contexte et la langue - Aucune aide dans les moteurs de recherche actuel
- Par exemple27-05-1958 1958-05-27 27051958
19580527 "27 mai 1958" "may 27th 1958"
"may 27 1958" "27 may 1958" "27 05 58"
"58 05 27" 270558 580527
42Date de modification du document
- Google Lors d'une recherche par dates, la date
est celle de l'indexation dans la banque de
données (i.e. la visite du spider Google) et
non celle de la publication effective de la page
(telle que fournie par le serveur http//) - Dans le formulaire de recherche avancée, vous
pouvez faire une recherche sur les derniers 3, 6
et 12 mois. - Lopérateur daterangedate julienne-date julienne
permet de spécifier un autre intervalle de dates.
Une date julienne est le nombre de jours écoulés
depuis le début de notre ère le site
http//www.numerical-recipes.com/julian.html peut
vous aider à le calculer. Pas facile! - Les moteurs de recherche pourraient conserver
comme date de modification la date de
dernière visite du spider avec des
changements significatifs dans le contenu de la
page
43? Pour aller plus loin
- http//www.destin.be/solutions/search.fr.shtml
- Aeris, Aide aux étudiants pour la recherche
d'information scientifique, Guillemette Lauters,
1999-2006, http//users.11vm-serv.net/aeris/ - CERISE, Conseils aux Etudiants pour une Recherche
d'Information Spécialisée Efficace, URFIST de
Paris, 1999, http//www.ext.upmc.fr/urfist/cerise/
index.htm - Infosphère, Apprendre à faire une recherche
d'information efficace, Service des bibliothèques
de l'UQAM, 2004, http//www.bibliotheques.uqam.ca/
InfoSphere/ - SAPRISTI, des Sentiers d'Accès et des Pistes de
Recherche d'Information Scientifiques et
Techniques sur Internet, Doc'INSA, INSA de Lyon,
1997-2004, http//docinsa.insa-lyon.fr/sapristi/ - University of California Berkeley Library
"Teaching Library Internet Workshops"http//www.l
ib.berkeley.edu/TeachingLib/Guides/Internet/About.
html