Title: Partie 4
1Partie 4
- La théorie classique des tests
2Partie 4 Théorie classique des tests
- Chapitre 1 Introduction
- Chapitre 2 Théorie (classique) des scores de
test - Chapitre 3 Fidélité des mesures
- Chapitre 4 Validité des mesures
- Chapitre 5 Lanalyse classique ditems
3Introduction
- Test situation expérimentale standardisée
servant de stimulus à un comportement. Ce
comportement est évalué par une comparaison
statistique avec celui d'autres individus placés
dans la même situation, permettant ainsi de
classer le sujet examiné soit quantitativement,
soit typologiquement (Pichot, 1954). - standardisé, fidèle, valide et étalonné
4Introduction
- Item chacune des questions d'un test, d'un
questionnaire, ou chacune des propositions
auxquelles il est demandé de réagir dans les
échelles d'attitude
5(No Transcript)
6(No Transcript)
7La nature des scores obtenus grâce aux tests
- Si on considère les scores obtenus, au départ
d'un test, par un groupe de sujets, à quel type
de mesures sommes-nous confrontés ? - Sont-ce des mesures de rapport, d'intervalles
égaux ou, à la limite, ne sont-ce que des mesures
ordinales ?
8La nature des scores obtenus grâce aux tests
- Si le nombre d'items réussis peut être traduit en
un nombre, il s'agit d'un nombre d'items. - Le passage à l'expression d'une compétence
particulière sous la forme d'un nombre, à partir
du nombre d'items réussis, n'est pas aussi
simple, nous ne savons pas - si l'échec à tous les items conduit à une
estimation d'une compétence nulle (zéro vrai pour
la compétence), - si chaque item traduit bien un saut égal sur
l'échelle de compétence (égalité des
intervalles). - Nous devons nous assurer que tous les items
mesurent bien la même chose.
9Problèmes relatifs à la composition en un score
des résultats obtenus à des items de test
10Problèmes relatifs à la composition en un score
des résultats obtenus à des items de test
Série 1 Série 2 2 x 4 11 x 17 3 x 8 8
x 13 5 x 6 124 x 32 2 x 10 6 x 37 7
x 11 14 x 74
?
11(No Transcript)
12Echelles dâge mental
- Les échelles d'âge mental, en tant que mesures
psychologiques, ne rencontrent pas beaucoup de
présupposés de la mesure (zéro vrai, intervalles
égaux). En effet, il s'agit de mesures composites
dont la nature varie d'un niveau d'âge à un
autre, comme nous l'avons précisé dans la
première partie (chapitre 1). Les items étant
calibrés, on pourrait avoir l'impression que la
distance psychologique entre des tests destinés à
des enfants âgés de 9 et 10 ans est égale à celle
existant entre 14 et 15 ans. C'est pourtant faux
!
13Vitesse et puissance
- Puissance intellectuelle (Piéron, 1992)
- la capacité de résoudre des problèmes de
difficulté croissante, sans limite de temps, par
opposition à la capacité de résoudre, en temps
limité, le plus grand nombre de problèmes posés,
où intervient une vitesse intellectuelle
14Scores-seuils et probabilité de réussite
- Problème de définition des seuils de coupure
- Probabilité de réussite et non certitude de
réussite ou déchec - Importance de la qualité de linstrument
(lerreur de mesure est fonction inverse de la
qualité)
15Stabilité des scores
- Lune des qualités dun instrument est la
stabilité des résultats obtenus, pour un même
sujet, à travers le temps (si le sujet ne sest
pas modifié )
16La fidélité
- Lorsqu'on parle de fidélité, on se réfère à la
précision avec laquelle un score représente
l'aptitude du sujet observé. Il s'agit donc d'une
qualité technique du test. - Les scores observés ne sont pas exempts
derreurs.
17La fidélité
- Xt score observé, score total au test
- X? valeur vraie (compétence des sujets)
- Xe composante derreur
- On peut écrire Xt X? Xe
18La fidélité
- X? valeur vraie
- le score quun individu aurait obtenu dans des
conditions idéales avec un instrument parfait . - la moyenne des scores obtenus par un sujet au
départ d'un nombre infini d'administrations
indépendantes du même instrument. Cette
définition suppose cependant que les erreurs qui
entachent les performances à chaque essai soient
non corrélées, c'est-à-dire qu'elles résultent de
biais non systématiques. - Mais, difficulté de reproduire un grand nombre
de fois la même mesure (contrairement au domaine
de la psychophysique ou du contrôle de qualité en
industrie)
19La fidélité
- Trois postulats
- Postulat I
- ?e 0
- La moyenne des erreurs commises aux différents
items d'un test est nulle. Dit autrement, il
nexiste pas de biais systématiques dans la
situation de test, le facteur d'erreur conduisant
tantôt à une sur-estimation, tantôt à une
sous-estimation des résultats à chaque item, mais
en moyenne, les erreurs "s'annulent".
20La fidélité
- Trois postulats
- Postulat II
- ?? e 0
- La corrélation entre les scores vrais et les
scores d'erreur vaut zéro. Il n'existe donc pas
un mécanisme qui conduirait à accroître ou à
réduire l'ampleur des erreurs en fonction de la
compétence vraie du sujet. Dit autrement, les
sujets les plus compétents ne voient pas leur
score affecté d'une erreur plus grande ou plus
petite que celui des sujets les moins compétents.
21La fidélité
- Trois postulats
- Postulat III
- ?e1e2 0
-
- La corrélation entre les erreurs (par exemple,
e1 et e2) aux différents items vaut zéro. On
n'observe donc pas des erreurs d'autant plus
grandes à certains items qu'elles sont grandes à
d'autres items.
22La fidélité
- Doù ?t ?? ?e (où ?e0, d'où ?t ??)
- MAIS
- Avec le postulat II (?? e 0 )
-
23La fidélité
- On définit la fidélité comme la proportion de
variance vraie par rapport à la variance des
scores observés
24La fidélité
25La fidélité
- On peut estimer la variance vraie
- Et donc
26La fidélité
- On peut estimer la variance derreur
- Et donc, lerreur standard de mesure
27La fidélité
Effet de la longueur (si on double la longueur et
si tous les items mesurent la même chose)
28La fidélité
De manière plus générale (Spearman-Brown) Où
m est un coefficient dallongement (2, si double
de la longueur, 0,5 si moitié de la longueur
initiale)
29Grandes méthodes destimation de la fidélité
- Méthodes basées sur la consistance interne
- Méthodes basées sur le test-retest
- Méthodes mixtes (formes parallèles)
30Grandes méthodes destimation de la fidélité
- Les méthodes basées sur le postulat de
consistance interne prennent comme pré-supposé de
base lune des deux idées suivantes - (a) tous les items du test mesurent le même
chose (comme dans le cas du calcul des
coefficient KR 20 ou KR21) - (b) différentes parties du test mesurent la même
chose (voir ? de Cronbach et méthodes basées sur
les scores obtenus aux items pairs-impairs).
31Grandes méthodes destimation de la fidélité
- Les méthodes basées sur le test-retest ne
postulent nullement l'existence d'une consistance
interne. En fait, les différentes parties du test
pourraient, à la limite, avoir une
inter-corrélation nulle et, cependant, la
corrélation entre une première et une seconde
administration du test (fidélité test-retest)
pourrait être élevée. Le concept-clé est ici
celui de la stabilité dans le temps. Une
corrélation élevée signifie donc que les
individus demeurent plutôt stables à travers le
temps et quils obtiennent un score total
identique ou très proche lors de plusieurs
passations consécutives, sils nont pas suivi un
enseignement en rapport avec lobjet du test ou
eu loccasion de sy entraîner. Un coefficient
bas signifie, au contraire, qu'il y a fluctuation
du score total, et donc de l'estimation de la
compétence, à travers le temps.
32(No Transcript)
33Méthodes basées sur la consistance interne
- Méthodes items pairs-impairs
- La formule de Rulon
- Les formules de Kuder-Richardson
- Lalpha de Cronbach
- Lapproche de lanalyse de la variance
34Méthodes items pairs-impairs
- Calcul du score items pairs
- Calcul du score items impairs
- Calcul de la corrélation (Bravais-Pearson, soit
?pi) entre les deux scores - Correction de la corrélation (car longueur ½) par
Spearman-Brown
35La formule de Rulon
- Calcul du score items pairs
- Calcul du score items impairs
- Calcul, pour chaque sujet, de la différence entre
les deux scores - Calcul de ?2d assimilé à la variance derreur,
soit ?2e - Calcul de la fidélité par la formule
classique (sans correction)
36Les formules de Kuder-Richardson
- Deux formules
- KR20
- KR21(sans statistiques ditems, formule moins
précise et valeur plus faible ou égale à KR20) - Où k est le nombre ditems
37Lalpha de Cronbach
- La formule de Cronbach constitue une
généralisation du KR20 pour les items non
dichotomiques. Elle sécrit
38Lerreur standard de mesure
- L'erreur standard de mesure, notée ESM, permet
de déterminer le degré de confiance que l'on peut
accorder au score obtenu à un test donné par un
sujet particulier. Elle est fonction de la
qualité de linstrument utilisé et donc de sa
fidélité. Elle sétablit de la manière suivante. -
- où ?t est lécart-type des résultats du test et
?tt la fidélité du test telle qu'elle a été
calculée par lune des méthodes abordées dans ce
chapitre.
39Interprétation de la valeur des coefficients de
fidélité
40Problèmes spécifiques
- Conditions optimales de difficulté
- Fidélité des tests de vitesse
- Fidélité et dispersion des aptitudes dans la
population - (corriger par )
- Fidélité des QCM
41Problèmes spécifiques
- Fidélité des scores composites
- formule de Mosier
- Fidélité des scores différentiels
42(No Transcript)
43La validité
- Le concept de validité se rapporte à ce que le
test mesure réellement. Le plus souvent, le degré
de validité s'indique par un coefficient de
corrélation entre les scores obtenus au test et
un critère extérieur au test.
44La validité
- Approche factorielle
- Communauté
- Spécificité
- Unicité
45La validité
- Un score est valide s'il prédit quelque chose
et si ce quelque chose n'inclut pas le score
lui-même. En effet, une auto-prédiction concerne
la fidélité et non la validité. Nous avons ainsi
noté la mesure de la fidélité par ?tt.
46Signification du terme validité
- Validité prédictive ou critérielle
- Validité de contenu
- Validité manifeste ou apparente
- Validité de construct ou conceptuelle
- Validité concourante ou corrélationnelle
- Validité incrémentale
47Les procédures de validation
- Validité prédictive ou critérielle
- Validité de contenu
- Validité manifeste ou apparente
- Validité de construct ou conceptuelle
- Validité concourante ou corrélationnelle
- Validité incrémentale
48Problèmes spécifiques
- Problème de prédictions multiples et
didiosyncrasie (échantillon / gtvalidation
croisée) - Correction pour atténuation
- (corrélation entre scores vrais)
-
- où ??? est la corrélation entre les composantes
vraies des deux tests (on les indicera ? et ? de
manière à les distinguer), - ?t1t2 est la corrélation entre les scores
observés et - ?t1t1 et ?t2t2 sont les coefficients de
fidélité des tests T1 et T2. -
49Problèmes spécifiques
- Correction pour atténuation
-
- où ?x? est la corrélation corrigée pour la
variance d'erreur existant dans le critère y et
?xy est la corrélation entre le score au test x
et le critère y.
50Problèmes spécifiques
- Validité et longueur du test
- où ?mx.y est la validité dun test m fois plus
long que le test x initial - ?xy est la corrélation entre le score au test x
et le critère y, cest-à-dire la validité du test
initial - ?xx est la fidélité du test x initial
- m est le coefficient dallongement du test (par
exemple, m 2 si on double la longueur du test,
m 0,5 si on diminue le test de moitié).
51Problèmes spécifiques
- Effet de la dispersion des aptitudes sur la
validité - faible dispersion du critère gt faible validité
- (ex. le problème des concours)
52Le score total composition de scores à des items
53Le score total composition de scores à des items
Où jgti
La variance du score total est donc égale à la
somme des variances aux différents items
augmentée du double produit des covariances entre
toutes les paires d'items.
54Le score total composition de scores à des items
Dans le cas ditems dichotomiques
Où jgti
55Le score total composition de scores à des items
La variance des scores totaux obtenus à un test
sera maximale à une double condition 1. que
tous les pi - les proportions de réussite aux
différents items - soient égaux à 0,50 (on
obtient donc une variance maximale si tous les
items sont de difficulté moyenne pour l'ensemble
des sujets) 2. que tous les ?ij 1 (tous les
items mesurent exactement la même chose). Si le
test compte k items, tous les sujets auront donc
un score total égal à 0 ou à k.
56Le score total composition de scores à des items
Si les pourcentages de réussite aux différents
items pi sont élevés, alors la distribution des
scores des sujets prendra la forme d'une courbe
en j (beaucoup de scores élevés peu de scores
bas).
57Le score total composition de scores à des items
Si, inversement, les pourcentages de réussite aux
différents items pi sont faibles, alors la
distribution des scores des sujets prendra la
forme d'une courbe en i (beaucoup de scores
faibles, peu de scores élevés).
58Le score total composition de scores à des items
Si les pi sont de difficulté moyenne (et que les
inter-corrélations sont faibles), la distribution
prendra la forme d'une courbe de Gauss beaucoup
de scores moyens, peu de scores élevés, peu de
scores faibles.
59Le score total composition de scores à des items
- Si ?ic correspond à la corrélation moyenne des
items avec le critère externe et ?it la
corrélation moyenne des items avec le score total
au test, alors on peut écrire lestimation de
Humphreys où la corrélation test-critère externe
vaut, dans le cas d'items de même niveau de
difficulté - Ce coefficient de validité est donc le rapport
entre la corrélation moyenne des items avec le
critère et la corrélation moyenne des items avec
le score total.
60Homogénéité et hétérogénéité des tests
- Un test parfaitement homogène est un test qui
mesure le même facteur commun chez tous les
individus et pour tous les items. - Formule de Loevinger
- Approche factorielle
61Homogénéité et hétérogénéité des tests
62Homogénéité et hétérogénéité des tests
Loevinger présente une formule permettant de
définir l'homogénéité. où Ht est lindice
d'homogénéité, Vt est la variance des scores
totaux, Vho est la variance d'un test
parfaitement homogène ayant la même
distribution de pi que le test en question, Vhe
est la variance d'un test parfaitement hétérogène
ayant la même distribution de pi que le test en
question.
63La discrimination
- S'il y a k items, les scores totaux possibles
vont de 0 à k. Il y a donc (k1) scores possibles
ce nombre de différences sera maximal si, à
tous les scores possibles, correspondent des fi
égales, cest-à-dire si un nombre identique de
sujets obtient chacun des scores possibles, comme
l'indique la figure ci-dessous.
64La discrimination
- Ferguson définit le coefficient de
discrimination ? de la manière suivante - Discrimination maximale si ? 1, minimale si ?
0 - Où k est le nombre ditems et donc k1 le nombre
de scores possibles, N le nombre de sujets et fi
la proportion de sujets qui obtiennent le score i.
65Relations entre vitesse et puissance
Thurstone (1937) a défini la puissance d'un
individu pour une tâche déterminée comme le
niveau de difficulté des tâches où sa probabilité
de réussite est 0,5 en un temps infini. Cela
implique donc qu'on n'impose aucune limite de
temps de réponse. On peut tenter de raisonner
sur les deux schémas suivants
66Relations entre vitesse et puissance
T1, T2 temps attribué à la passation du test
Aptitude vraie du sujet
67Relations entre vitesse et puissance
D1, D2 difficulté du test
Aptitude vraie du sujet
68Introduction à lanalyse classique ditems
- Indices de difficulté des items
- Indice de discrimination des items
- Mais, importance de lanalyse a priori
69Indices de difficulté des items
- Si l'item est corrigé de manière dichotomique (0
ou 1), l'indice de difficulté le plus élémentaire
est le pourcentage de réponses correctes (pi). A
cet indice correspond la probabilité qu'un
sujet moyen appartenant à la population a de
réussir l'item i. L'indice pi constitue un indice
de difficulté moyen pour l'ensemble des individus
testés.
70Indices de difficulté des items
- Mais, attention aux réponses au hasard !
- Plusieurs techniques pour les neutraliser
- augmentation du nombre de distracteurs,
- ajout de distracteurs du type toutes les
réponses sont correctes , toutes les
réponses sont fausses , la question présente
une aberration logique - pénalisation des réponses fausses par une
coefficient négatif, - utilisation de degrés de certitude qui
créditerons de manière plus ou moins généreuse ou
sévère les bonnes et les mauvaises réponses des
sujets en fonction de la confiance qu'ils
déclarent accorder à leurs propres réponses.
71Pénalisation des réponses fausses par une
coefficient négatif
- Pénalité (si bonne réponse 1 point)
- Si bonne réponse 2 points ?
72Pénalisation des réponses fausses par une
coefficient négatif
- Et pour le score total dun test
- Mais, problèmes liés à la vitesse (items non
atteints)
73Indices de discrimination des items
74Indices de discrimination des items
- Indices de discrimination entre groupes forts
et faibles - Corrélation bisériale de point ou rpbis
75(No Transcript)
76Problèmes spécifiques
- Effet de recouvrement (litem constitue une
partie du score / attention si très peu ditems) - Effet de la chance sur le rpbis
- Effet de la vitesse
77Problèmes spécifiques
- Amélioration de la validité
- Choix des items en vue
- de la construction
- de formes parallèles
78Problèmes spécifiques
- Facteurs susceptibles dintroduire des biais dans
les réponses - Facteurs liés au sujet et à ses dispositions
mentales - Facteurs liés à la situation dévaluation
79Problèmes spécifiques
- Facteurs liés au sujet et à ses dispositions
mentales - Tendance à deviner / goût du risque
- Interprétation sémantique
- Impulsivité
- Tendance à acquiescer
- Vitesse et exactitude
- Désirabilité sociale
- Fatigue, stress et altération de létat mental du
sujet - Effet de testing / habitude / entrainement
80Problèmes spécifiques
- Facteurs liés à la situation dévaluation
- Présentation de lépreuve
- Conditions de passation
- Perturbations fortuites
- Langage, situations proposées
81Problèmes spécifiques
- Quelques solutions
- Identification des dispositions susceptibles
d'intervenir. - Structuration suffisante du test. Précision dans
les consignes. - Présentation adéquate des items. Exemple la
réponse correcte doit être présentée
aléatoirement dans différentes positions de
manière à éviter de faciliter les déductions et
les choix construits sur d'autres bases que la
compétences à mesurer. - Formulation correcte des questions (voir par
exemple Leclercq, 1986, pour les questions à
choix multiples) et utilisation d'un système de
correction fiable dans le cas du recours à des
questions à réponses rédigées.
82Problèmes spécifiques
- Quelques solutions
- Utilisation d'une formule adéquate de correction
pour choix au hasard et information des sujets
testés. - Mise en condition des sujets, accueil correct,
positionnement confortable et adéquat dans la
salle de test. Lorsqu'il s'agit de tests
collectifs, vérification des conditions optimales
pour chacun des sujets. - Recours à d'autres instruments (par exemple,
l'observation en milieu naturel) lorsque des
biais trop importants sont susceptibles
d'invalider les résultats de tests.