Partie 4 - PowerPoint PPT Presentation

1 / 82
About This Presentation
Title:

Partie 4

Description:

Partie 4 La th orie classique des tests Partie 4 Th orie classique des tests Chapitre 1 : Introduction Chapitre 2 : Th orie (classique) des scores de test ... – PowerPoint PPT presentation

Number of Views:82
Avg rating:3.0/5.0
Slides: 83
Provided by: MarcDe75
Category:

less

Transcript and Presenter's Notes

Title: Partie 4


1
Partie 4
  • La théorie classique des tests

2
Partie 4 Théorie classique des tests
  • Chapitre 1 Introduction
  • Chapitre 2 Théorie (classique) des scores de
    test
  • Chapitre 3 Fidélité des mesures
  • Chapitre 4 Validité des mesures
  • Chapitre 5 Lanalyse classique ditems

3
Introduction
  • Test situation expérimentale standardisée
    servant de stimulus à un comportement. Ce
    comportement est évalué par une comparaison
    statistique avec celui d'autres individus placés
    dans la même situation, permettant ainsi de
    classer le sujet examiné soit quantitativement,
    soit typologiquement (Pichot, 1954).
  • standardisé, fidèle, valide et étalonné

4
Introduction
  • Item chacune des questions d'un test, d'un
    questionnaire, ou chacune des propositions
    auxquelles il est demandé de réagir dans les
    échelles d'attitude

5
(No Transcript)
6
(No Transcript)
7
La nature des scores obtenus grâce aux tests
  • Si on considère les scores obtenus, au départ
    d'un test, par un groupe de sujets, à quel type
    de mesures sommes-nous confrontés ?
  • Sont-ce des mesures de rapport, d'intervalles
    égaux ou, à la limite, ne sont-ce que des mesures
    ordinales ?

8
La nature des scores obtenus grâce aux tests
  • Si le nombre d'items réussis peut être traduit en
    un nombre, il s'agit d'un nombre d'items.
  • Le passage à l'expression d'une compétence
    particulière sous la forme d'un nombre, à partir
    du nombre d'items réussis, n'est pas aussi
    simple, nous ne savons pas
  • si l'échec à tous les items conduit à une
    estimation d'une compétence nulle (zéro vrai pour
    la compétence),
  • si chaque item traduit bien un saut égal sur
    l'échelle de compétence (égalité des
    intervalles).
  • Nous devons nous assurer que tous les items
    mesurent bien la même chose.

9
Problèmes relatifs à la composition en un score
des résultats obtenus à des items de test
10
Problèmes relatifs à la composition en un score
des résultats obtenus à des items de test
Série 1 Série 2 2 x 4 11 x 17 3 x 8 8
x 13 5 x 6 124 x 32 2 x 10 6 x 37 7
x 11 14 x 74
?
11
(No Transcript)
12
Echelles dâge mental
  • Les échelles d'âge mental, en tant que mesures
    psychologiques, ne rencontrent pas beaucoup de
    présupposés de la mesure (zéro vrai, intervalles
    égaux). En effet, il s'agit de mesures composites
    dont la nature varie d'un niveau d'âge à un
    autre, comme nous l'avons précisé dans la
    première partie (chapitre 1). Les items étant
    calibrés, on pourrait avoir l'impression que la
    distance psychologique entre des tests destinés à
    des enfants âgés de 9 et 10 ans est égale à celle
    existant entre 14 et 15 ans. C'est pourtant faux
    !

13
Vitesse et puissance
  • Puissance intellectuelle (Piéron, 1992)
  •  la capacité de résoudre des problèmes de
    difficulté croissante, sans limite de temps, par
    opposition à la capacité de résoudre, en temps
    limité, le plus grand nombre de problèmes posés,
    où intervient une vitesse intellectuelle 

14
Scores-seuils et probabilité de réussite
  • Problème de définition des seuils de coupure
  • Probabilité de réussite et non certitude de
    réussite ou déchec
  • Importance de la qualité de linstrument
    (lerreur de mesure est fonction inverse de la
    qualité)

15
Stabilité des scores
  • Lune des qualités dun instrument est la
    stabilité des résultats obtenus, pour un même
    sujet, à travers le temps (si le sujet ne sest
    pas  modifié )

16
La fidélité
  • Lorsqu'on parle de fidélité, on se réfère à la
    précision avec laquelle un score représente
    l'aptitude du sujet observé. Il s'agit donc d'une
    qualité technique du test.
  • Les scores observés ne sont pas exempts
    derreurs.

17
La fidélité
  • Xt score observé, score total au test
  • X? valeur vraie (compétence des sujets)
  • Xe composante derreur
  • On peut écrire Xt X? Xe

18
La fidélité
  • X? valeur vraie
  • le score quun individu aurait obtenu dans des
    conditions idéales avec un instrument parfait .
  • la moyenne des scores obtenus par un sujet au
    départ d'un nombre infini d'administrations
    indépendantes du même instrument. Cette
    définition suppose cependant que les erreurs qui
    entachent les performances à chaque essai soient
    non corrélées, c'est-à-dire qu'elles résultent de
    biais non systématiques.
  • Mais, difficulté de reproduire un grand nombre
    de fois la même mesure (contrairement au domaine
    de la psychophysique ou du contrôle de qualité en
    industrie)

19
La fidélité
  • Trois postulats
  • Postulat I
  • ?e 0
  • La moyenne des erreurs commises aux différents
    items d'un test est nulle. Dit autrement, il
    nexiste pas de biais systématiques dans la
    situation de test, le facteur d'erreur conduisant
    tantôt à une sur-estimation, tantôt à une
    sous-estimation des résultats à chaque item, mais
    en moyenne, les erreurs "s'annulent".

20
La fidélité
  • Trois postulats
  • Postulat II
  • ?? e 0
  • La corrélation entre les scores vrais et les
    scores d'erreur vaut zéro. Il n'existe donc pas
    un mécanisme qui conduirait à accroître ou à
    réduire l'ampleur des erreurs en fonction de la
    compétence vraie du sujet. Dit autrement, les
    sujets les plus compétents ne voient pas leur
    score affecté d'une erreur plus grande ou plus
    petite que celui des sujets les moins compétents.

21
La fidélité
  • Trois postulats
  • Postulat III
  • ?e1e2 0
  • La corrélation entre les erreurs (par exemple,
    e1 et e2) aux différents items vaut zéro. On
    n'observe donc pas des erreurs d'autant plus
    grandes à certains items qu'elles sont grandes à
    d'autres items.

22
La fidélité
  • Doù ?t ?? ?e (où ?e0, d'où ?t ??)
  • MAIS
  • Avec le postulat II (?? e 0 )

23
La fidélité
  • On définit la fidélité comme la proportion de
    variance vraie par rapport à la variance des
    scores observés

24
La fidélité
  • On peut aussi écrire

25
La fidélité
  • On peut estimer la variance vraie
  • Et donc

26
La fidélité
  • On peut estimer la variance derreur
  • Et donc, lerreur standard de mesure

27
La fidélité
Effet de la longueur (si on double la longueur et
si tous les items mesurent la même chose)

28
La fidélité
De manière plus générale (Spearman-Brown) Où
m est un coefficient dallongement (2, si double
de la longueur, 0,5 si moitié de la longueur
initiale)

29
Grandes méthodes destimation de la fidélité
  • Méthodes basées sur la consistance interne
  • Méthodes basées sur le test-retest
  • Méthodes mixtes (formes parallèles)

30
Grandes méthodes destimation de la fidélité
  • Les méthodes basées sur le postulat de
    consistance interne prennent comme pré-supposé de
    base lune des deux idées suivantes 
  • (a) tous les items du test mesurent le même
    chose (comme dans le cas du calcul des
    coefficient KR 20 ou KR21)
  • (b) différentes parties du test mesurent la même
    chose (voir ? de Cronbach et méthodes basées sur
    les scores obtenus aux items pairs-impairs).

31
Grandes méthodes destimation de la fidélité
  • Les méthodes basées sur le test-retest ne
    postulent nullement l'existence d'une consistance
    interne. En fait, les différentes parties du test
    pourraient, à la limite, avoir une
    inter-corrélation nulle et, cependant, la
    corrélation entre une première et une seconde
    administration du test (fidélité test-retest)
    pourrait être élevée. Le concept-clé est ici
    celui de la stabilité dans le temps. Une
    corrélation élevée signifie donc que les
    individus demeurent plutôt stables à travers le
    temps et quils obtiennent un score total
    identique ou très proche lors de plusieurs
    passations consécutives, sils nont pas suivi un
    enseignement en rapport avec lobjet du test ou
    eu loccasion de sy entraîner. Un coefficient
    bas signifie, au contraire, qu'il y a fluctuation
    du score total, et donc de l'estimation de la
    compétence, à travers le temps.

32
(No Transcript)
33
Méthodes basées sur la consistance interne
  • Méthodes  items pairs-impairs 
  • La formule de Rulon
  • Les formules de Kuder-Richardson
  • Lalpha de Cronbach
  • Lapproche de lanalyse de la variance

34
Méthodes  items pairs-impairs 
  • Calcul du score items pairs
  • Calcul du score items impairs
  • Calcul de la corrélation (Bravais-Pearson, soit
    ?pi) entre les deux scores
  • Correction de la corrélation (car longueur ½) par
    Spearman-Brown

35
La formule de Rulon
  • Calcul du score items pairs
  • Calcul du score items impairs
  • Calcul, pour chaque sujet, de la différence entre
    les deux scores
  • Calcul de ?2d assimilé à la variance derreur,
    soit ?2e
  • Calcul de la fidélité par la formule
     classique  (sans correction)

36
Les formules de Kuder-Richardson
  • Deux formules
  • KR20
  • KR21(sans statistiques ditems, formule moins
    précise et valeur plus faible ou égale à KR20)
  • Où k est le nombre ditems

37
Lalpha de Cronbach
  • La formule de Cronbach constitue une
    généralisation du KR20 pour les items non
    dichotomiques. Elle sécrit 

38
Lerreur standard de mesure
  • L'erreur standard de mesure, notée ESM, permet
    de déterminer le degré de confiance que l'on peut
    accorder au score obtenu à un test donné par un
    sujet particulier. Elle est fonction de la
    qualité de linstrument utilisé et donc de sa
    fidélité. Elle sétablit de la manière suivante.
  • où ?t est lécart-type des résultats du test et
    ?tt la fidélité du test telle qu'elle a été
    calculée par lune des méthodes abordées dans ce
    chapitre.

39
Interprétation de la valeur des coefficients de
fidélité
40
Problèmes spécifiques
  • Conditions optimales de difficulté
  • Fidélité des tests de vitesse
  • Fidélité et dispersion des aptitudes dans la
    population
  • (corriger par )
  • Fidélité des QCM

41
Problèmes spécifiques
  • Fidélité des scores composites
  • formule de Mosier
  • Fidélité des scores différentiels

42
(No Transcript)
43
La validité
  • Le concept de validité se rapporte à ce que le
    test mesure réellement. Le plus souvent, le degré
    de validité s'indique par un coefficient de
    corrélation entre les scores obtenus au test et
    un critère extérieur au test.

44
La validité
  • Approche factorielle
  • Communauté
  • Spécificité
  • Unicité

45
La validité
  • Un score est valide s'il prédit  quelque chose 
    et si ce  quelque chose  n'inclut pas le score
    lui-même. En effet, une auto-prédiction concerne
    la fidélité et non la validité. Nous avons ainsi
    noté la mesure de la fidélité par ?tt.

46
Signification du terme validité
  • Validité prédictive ou critérielle
  • Validité de contenu
  • Validité manifeste ou apparente
  • Validité de construct ou conceptuelle
  • Validité concourante ou corrélationnelle
  • Validité incrémentale

47
Les procédures de validation
  • Validité prédictive ou critérielle
  • Validité de contenu
  • Validité manifeste ou apparente
  • Validité de construct ou conceptuelle
  • Validité concourante ou corrélationnelle
  • Validité incrémentale

48
Problèmes spécifiques
  • Problème de prédictions multiples et
    didiosyncrasie (échantillon / gtvalidation
    croisée)
  • Correction pour atténuation
  • (corrélation entre scores vrais)
  • où ??? est la corrélation entre les composantes
    vraies des deux tests (on les indicera ? et ? de
    manière à les distinguer),
  • ?t1t2 est la corrélation entre les scores
    observés et
  • ?t1t1 et ?t2t2 sont les coefficients de
    fidélité des tests T1 et T2.

49
Problèmes spécifiques
  • Correction pour atténuation
  • où ?x? est la corrélation corrigée pour la
    variance d'erreur existant dans le critère y et
    ?xy est la corrélation entre le score au test x
    et le critère y.

50
Problèmes spécifiques
  • Validité et longueur du test
  • où ?mx.y est la validité dun test m fois plus
    long que le test x initial 
  • ?xy est la corrélation entre le score au test x
    et le critère y, cest-à-dire la validité du test
    initial 
  • ?xx est la fidélité du test x initial 
  • m est le coefficient dallongement du test (par
    exemple, m 2 si on double la longueur du test,
    m 0,5 si on diminue le test de moitié).

51
Problèmes spécifiques
  • Effet de la dispersion des aptitudes sur la
    validité
  • faible dispersion du critère gt faible validité
  • (ex. le problème des concours)

52
Le score total composition de scores à des items
53
Le score total composition de scores à des items
Où jgti
La variance du score total est donc égale à la
somme des variances aux différents items
augmentée du double produit des covariances entre
toutes les paires d'items.
54
Le score total composition de scores à des items
Dans le cas ditems dichotomiques
Où jgti
55
Le score total composition de scores à des items
La variance des scores totaux obtenus à un test
sera maximale à une double condition 1. que
tous les pi - les proportions de réussite aux
différents items - soient égaux à 0,50 (on
obtient donc une variance maximale si tous les
items sont de difficulté moyenne pour l'ensemble
des sujets) 2. que tous les ?ij 1 (tous les
items mesurent exactement la même chose). Si le
test compte k items, tous les sujets auront donc
un score total égal à 0 ou à k.
56
Le score total composition de scores à des items
Si les pourcentages de réussite aux différents
items pi sont élevés, alors la distribution des
scores des sujets prendra la forme d'une courbe
en j (beaucoup de scores élevés peu de scores
bas).
57
Le score total composition de scores à des items
Si, inversement, les pourcentages de réussite aux
différents items pi sont faibles, alors la
distribution des scores des sujets prendra la
forme d'une courbe en i (beaucoup de scores
faibles, peu de scores élevés).
58
Le score total composition de scores à des items
Si les pi sont de difficulté moyenne (et que les
inter-corrélations sont faibles), la distribution
prendra la forme d'une courbe de Gauss beaucoup
de scores moyens, peu de scores élevés, peu de
scores faibles.
59
Le score total composition de scores à des items
  • Si ?ic correspond à la corrélation moyenne des
    items avec le critère externe et ?it la
    corrélation moyenne des items avec le score total
    au test, alors on peut écrire lestimation de
    Humphreys où la corrélation test-critère externe
    vaut, dans le cas d'items de même niveau de
    difficulté
  • Ce coefficient de validité est donc le rapport
    entre la corrélation moyenne des items avec le
    critère et la corrélation moyenne des items avec
    le score total.

60
Homogénéité et hétérogénéité des tests
  • Un test parfaitement homogène est un test qui
    mesure le même facteur commun chez tous les
    individus et pour tous les items.
  • Formule de Loevinger
  • Approche factorielle

61
Homogénéité et hétérogénéité des tests
62
Homogénéité et hétérogénéité des tests
Loevinger présente une formule permettant de
définir l'homogénéité. où Ht est lindice
d'homogénéité, Vt est la variance des scores
totaux, Vho est la variance d'un test
parfaitement homogène ayant la même
distribution de pi que le test en question, Vhe
est la variance d'un test parfaitement hétérogène
ayant la même distribution de pi que le test en
question.
63
La discrimination
  • S'il y a k items, les scores totaux possibles
    vont de 0 à k. Il y a donc (k1) scores possibles
    ce nombre de différences sera maximal si, à
    tous les scores possibles, correspondent des fi
    égales, cest-à-dire si un nombre identique de
    sujets obtient chacun des scores possibles, comme
    l'indique la figure ci-dessous.

64
La discrimination
  • Ferguson définit le coefficient de
    discrimination ? de la manière suivante
  • Discrimination maximale si ? 1, minimale si ?
    0
  • Où k est le nombre ditems et donc k1 le nombre
    de scores possibles, N le nombre de sujets et fi
    la proportion de sujets qui obtiennent le score i.

65
Relations entre vitesse et puissance
Thurstone (1937) a défini la puissance d'un
individu pour une tâche déterminée comme le
niveau de difficulté des tâches où sa probabilité
de réussite est 0,5 en un temps infini. Cela
implique donc qu'on n'impose aucune limite de
temps de réponse. On peut tenter de raisonner
sur les deux schémas suivants
66
Relations entre vitesse et puissance
T1, T2 temps attribué à la passation du test
Aptitude vraie du sujet
67
Relations entre vitesse et puissance
D1, D2 difficulté du test
Aptitude vraie du sujet
68
Introduction à lanalyse classique ditems
  • Indices de difficulté des items
  • Indice de discrimination des items
  • Mais, importance de lanalyse a priori

69
Indices de difficulté des items
  • Si l'item est corrigé de manière dichotomique (0
    ou 1), l'indice de difficulté le plus élémentaire
    est le pourcentage de réponses correctes (pi). A
    cet indice correspond la probabilité qu'un
    sujet moyen appartenant à la population a de
    réussir l'item i. L'indice pi constitue un indice
    de difficulté moyen pour l'ensemble des individus
    testés.

70
Indices de difficulté des items
  • Mais, attention aux réponses  au hasard  !
  • Plusieurs techniques pour les neutraliser
  • augmentation du nombre de distracteurs,
  • ajout de distracteurs du type toutes les
    réponses sont correctes , toutes les
    réponses sont fausses , la question présente
    une aberration logique
  • pénalisation des réponses fausses par une
    coefficient négatif,
  • utilisation de degrés de certitude qui
    créditerons de manière plus ou moins généreuse ou
    sévère les bonnes et les mauvaises réponses des
    sujets en fonction de la confiance qu'ils
    déclarent accorder à leurs propres réponses.

71
Pénalisation des réponses fausses par une
coefficient négatif
  • Pénalité (si bonne réponse 1 point)
  • Si bonne réponse 2 points ?

72
Pénalisation des réponses fausses par une
coefficient négatif
  • Et pour le score total dun test
  • Mais, problèmes liés à la vitesse (items non
    atteints)

73
Indices de discrimination des items
74
Indices de discrimination des items
  • Indices de discrimination entre groupes  forts 
    et  faibles 
  • Corrélation bisériale de point ou rpbis

75
(No Transcript)
76
Problèmes spécifiques
  • Effet de recouvrement (litem constitue une
    partie du score / attention si très peu ditems)
  • Effet de la chance sur le rpbis
  • Effet de la vitesse

77
Problèmes spécifiques
  • Amélioration de la validité
  • Choix des items en vue
  • de la construction
  • de formes parallèles

78
Problèmes spécifiques
  • Facteurs susceptibles dintroduire des biais dans
    les réponses
  • Facteurs liés au sujet et à ses dispositions
    mentales
  • Facteurs liés à la situation dévaluation

79
Problèmes spécifiques
  • Facteurs liés au sujet et à ses dispositions
    mentales
  • Tendance à deviner / goût du risque
  • Interprétation sémantique
  • Impulsivité
  • Tendance à acquiescer
  • Vitesse et exactitude
  • Désirabilité sociale
  • Fatigue, stress et altération de létat mental du
    sujet
  • Effet de testing / habitude / entrainement

80
Problèmes spécifiques
  • Facteurs liés à la situation dévaluation
  • Présentation de lépreuve
  • Conditions de passation
  • Perturbations fortuites
  • Langage, situations proposées

81
Problèmes spécifiques
  • Quelques solutions
  • Identification des dispositions susceptibles
    d'intervenir.
  • Structuration suffisante du test. Précision dans
    les consignes.
  • Présentation adéquate des items. Exemple la
    réponse correcte doit être présentée
    aléatoirement dans différentes positions de
    manière à éviter de faciliter les déductions et
    les choix construits sur d'autres bases que la
    compétences à mesurer.
  • Formulation correcte des questions (voir par
    exemple Leclercq, 1986, pour les questions à
    choix multiples) et utilisation d'un système de
    correction fiable dans le cas du recours à des
    questions à réponses rédigées.

82
Problèmes spécifiques
  • Quelques solutions
  • Utilisation d'une formule adéquate de correction
    pour choix au hasard et information des sujets
    testés.
  • Mise en condition des sujets, accueil correct,
    positionnement confortable et adéquat dans la
    salle de test. Lorsqu'il s'agit de tests
    collectifs, vérification des conditions optimales
    pour chacun des sujets.
  • Recours à d'autres instruments (par exemple,
    l'observation en milieu naturel) lorsque des
    biais trop importants sont susceptibles
    d'invalider les résultats de tests.
Write a Comment
User Comments (0)
About PowerShow.com