Title: Modles d'valuation des systmes de RI
1Modèles d'évaluation des systèmes de RI
Projet- INF6304, Interfaces intelligentes.
- Abdelilah SAKTI
- INF6304 Automne 2009
2Plan
- Introduction.
- Approche orientée système.
- Les mesures usuelles dévaluation des SRI.
- Modèles dévaluation.
- TREC - Text REtrieval Conference
- Approche orientée usagers.
- Conclusion.
3Introduction
4Introduction
- Lévaluation constitue une étape importante lors
de la mise en uvre dun modèle de recherche
dinformation, elle permet - De paramétrer le modèle
- Destimer limpact de chacune de ses
caractéristiques - De fournir des éléments de comparaison entre
modèles - Les premières évaluations datent de 1953
- Dans ce domaine on peut distinguer entre deux
grandes écoles - Lanalyse quantitative (paradigme système)
- Le facteur de satisfaction de lutilisateur
(paradigme cognitif)
5Approche orientée système.
- Le paradigme système constitue depuis plus de
quarante ans. - Le paradigme dominant en informatique
documentaire. - Evaluation orienté système est basée sur quatre
points - Une collection de documents sur laquelle les
recherches sont effectuées, - Un ensemble de requêtes de test
- Une liste des documents (dans la collection)
pertinents pour chacune des requêtes - Des mesures dévaluation
6Les mesures usuelles dévaluation des SRI
- Un certain nombre de mesures standards sont
proposées dans la littérature - les plus utilisés sont -
- le rappel, la précision, la MAP (Mean average
Precision), la F-mesure, et les mesures de haute
précision (P_at_5,P_at_10, P_at_15).
7Le rappel et la précision
- Le rappel et la précision sont deux mesures de
base pour évaluer les performances des systèmes.
8Le rappel (calculer lexhaustivité de la
recherche)
- le ratio entre le nombre de documents pertinents
retrouvés et le nombre total de documents
pertinents dans la base - Rq - est lensemble des documents retrouvés par
le système pour la requête q - Pq - est lensemble des documents pertinents de
la collection pour cette requête. - Si de nombreux documents intéressants
napparaissent pas on parle de silence
9La précision (combien de non pertinent ?)
- le nombre de documents pertinents retrouvés
rapporté au nombre total de documents retrouvés - Tous les documents superflus constituent du bruit
10La courbe de précision
- Soit une requête Q, et P (D13, D15, D12, D5,
D3, D7, D11, D20, D17, D2) lensemble - Soit S un SRI qui retourne les documents du
tableau 1 en réponse à la requête Q. - Onze points de rappel sont considérés en RI
(0, 10, 20, ..., 100)
11La précision moyenne
- de la performance des SRI est généralement
effectuée sur un ensemble de requêtes (Q). - Nq Nombre total de requêtes
- Pi(rp) Précision de la requête au point de
rappel rp(10, 20 )
12Les mesures combinées (F-mesure)
- Différents auteurs ont montré que les deux
mesures rappel/précision sont insatisfaisantes
pour déterminer la pertinence dun document. - Mesure harmonique
- Mesure orientée utilisateur
- Coverage
- Novelty
13Modèles dévaluation
14Projet Cranfield
- Dans la première phase de ce projet, on visait à
tester lefficacité de différentes façons
dindexer et de rechercher des documents. - La collection de test
- ensemble darticles (18 000 dans Cranfield I)
- (1 200) de requêtes.
- les requêtes sont évaluées par des experts afin
de déterminer les réponses souhaitées - Les résultats dune recherche sont comparés avec
les réponses souhaitées - Le projet Cranfield a une influence marquante sur
toute lhistoire de la RI. On utilise encore
aujourdhui les mêmes principes dévaluation pour
les systèmes de RI.
15Les caractéristiques de Cranfield
- Le SRI est considéré comme une boîte noire ,
il agit donc comme un filtre qui accepte en
entrée des requêtes et fournit des documents. - La performance du SRI sexprime à travers les
seules notions de précision et rappel
16Les limites de Cranfield
- Labsence de lusager dans le processus
dévaluation. - Aucune ou sous estimation d'analyse des besoins
d'information. - rappel/précision sont insuffisants pour
déterminer la pertinence dune recherche.
17Autres Projets
- Projet MEDLARS MEDical Literature Analysis and
Retrieval System - Les documents dans la collection sont dans le
domaine biomédical - Projet SMART
- Dans ce projet, une série dexpérimentations a
été menée, portant sur divers sujets - Projet STAIRS - STorage And Information Retrieval
System - Les documents sont dans le domaine de droit.
18TREC - Text REtrieval Conference
- TREC est une conférence annuelle d'origine
américaine. - Objectifs
- Encourager la recherches dans les SRI.
- Augmenter la communication entre l'industrie,
milieu universitaire et le gouvernement . - Accélérer le transfert de technologie des
laboratoires de recherche en produits
commerciaux. - Augmenter la disponibilité de techniques
d'évaluation.
19Les taches TREC
- Ad-hoc
- Une recherche classique dun utilisateur qui
soumet une requête au système et attend en
réponse un ensemble de documents pertinents par
rapport à cette requête. - Question-réponse
- Dans lesquelles les systèmes doivent retourner à
lutilisateur la réponse à une question précise. - RI-translingue
- sintéresse à la recherche de documents dans une
langue différente de celle de la requête. - Terabyte-
- sintéresse aux très grands corpus de documents.
20Format requête TREC
21Format dun document TREC
22Principe de construction TREC
- On constitue un groupe dassesseurs de
pertinence. - Chacun deux gère un ensemble den moyenne 10
sujets de requête. - Chacun détermine les documents pertinents
associés dans la collection. - On sélectionne finalement 50 sujets de requêtes
sur la base du nombre de documents pertinents
estimé. - Dans lannée, les participants à TREC
- utilisent les 50 requêtes pour leur SRI
- proposent la liste des 1000 top documents obtenus
pour chaque requête - TREC constitue un document de synthèse où figure
pour chaque système et chaque requête les 100
premiers documents restitués. - Lassesseur de pertinence de chaque sujet de
requête évalue les résultats de synthèse pour
chacun des documents. - On évalue alors chaque système en considérant
que- - Tout document qui napparaît pas parmi les 100
premiers est non pertinent - Les mesures standards de précision moyenne à la
requête et précision moyenne du système.
23Trec-eval
- Trec-eval est l'outil standard utilisé par la
communauté TREC pour lévaluation ad-hoc des SRI. - Entrée 2 fichiers
- Résultats
- Jugements
- Sortie
- Un fichier(schéma)
24Exemple de Comparaison TREC des résultats de deux
systèmes
25Critiques TREC
- proposent uniquement des mesures quantitatives.
- la pertinence des documents est binaire
(pertinent ou non pertinent). - Plusieurs travaux ont montré que les jugements de
pertinence pour un même besoin, diffèrent en
fonction du juge qui examine les documents ainsi
que linstant du jugement. dépendant complètement
de lutilisateur - Malgré cela, TREC reste sans conteste la
référence en matière dévaluation des SRI.
26Lévaluation orientée usagers
27Lévaluation orientée usagers
- Son apparition a été fondée en grande partie sur
certaines critiques portées à lencontre du
paradigme système. - le fait que les requêtes ne sont que des
représentations imparfaites des besoins
dinformation. - La notion de pertinence est inadéquate pour
rendre compte de la satisfaction des usagers. - le fait que les mesures dévaluation utilisées
dans cette approche ne sont pas appropriées.
28Lévaluation orientée usagers
- Les besoins réels de l'utilisateur et son
environnement - Comment les usagers définissent leurs besoins ?
- Comment les usagers reconnaissent leurs besoins ?
- Comment les usagers formalisent leurs besoins ?
- Comment les usagers présentent leurs besoins au
système ? - Comment les usagers utilisent les fonctions du
système pour satisfaire leurs besoins
d'information ? - Cette liste de questions cherche à expliquer
comment les usagers organisent leur pensée et
leur activité.
29Les modèles proposés
- Le modèle de Carol Kuhltlau
- Le modèle de Nicholas Belkin
- Le modèle de Peter Ingwersen
- Le modèle de Tom Wilson
30Conclusion
- TREC reste sans conteste la référence en matière
dévaluation des SRI. - L'approche cognitive constitue l'une des
alternatives à l'approche système de l'évaluation
des SRI.
31Merci pour votre attention