Title: Statistiques, licence
1Statistiques, licence
2Techniques alternatives de corrélation
- Pour variables non quantitatives
3Plan
- Position du problème
- Données dichotomiques
- Corrélation bisérielle de points
- Coefficient phi
- Données rangées
- (Coefficient de Spearman)
- Coefficient de Kendall
- Quelques exemples
- Compléments.
41. Position du problème
5- Il arrive que lon souhaite connaître le lien
entre deux variables (cas de la régression
linéaire simple), mais que les variables ne
soient pas quantitatives. - On voudrait pouvoir arranger la méthode de
corrélation linéaire à ces cas.
6Exemple
- Supposons par exemple quon souhaite connaître le
QI en fonction de la réussite ou non au
baccalauréat. - On posera échec 0 et réussite 1
- La variable réussite éventuelle est
maintenant codée. Elle nest pas vraiment
numérique, mais on peut toutefois appliquer
formellement les méthodes pour variables
quantitatives.
7Exemple
- En réalité, dans cet exemple, il est plus simple
dutiliser la régression (tout court). Cela
revient à calculer les moyennes conditionnelles. - La corrélation est alors mesurée par
8Exemple
9Mais
- En revanche, si le facteur est véritablement
numérique et si la VD est dichotomique, aucune
méthode élémentaire ne semble convenir. - On pourra alors utiliser le codage précédent (0
et 1) et utiliser la corrélation linéaire comme
si on avait vraiment deux variables quantitatives.
10Données rangées
- Le même type de problème (et de solution)
apparaît avec les données ordonnées. - Une variable est ordinale si léchelle de mesure
est un ensemble ordonné mais que la variable
nest pas quantitative. - Cest le cas de variables utilisées dans les
sondages, comme par exemple - jamais / rarement / parfois / souvent / toujours
11Les corrélations alternatives
- Les corrélations alternatives ne sont bien
souvent rien dautres que des corrélations
linéaires appliquées à des variables codées. - Comme elles ne sont pas automatiquement
légitimes, on leur donne un nom différent, et on
les traite autrement. - Pourtant, le principe est toujours le même.
122. Variables dichotomiques
132.1 Corrélation bisérielle de points
- Une variable dichotomique
14Exemple
- On relève par un score numérique C la confiance
en soi chez des chômeurs et des travailleurs en
activité. - Le but est de déterminer si la confiance en soi
dépend du fait davoir du travail - Ici, la VI (T, travail) est dichotomique. On la
code par chômeur 0 et travailleur 1.
La VD (C, confiance en soi) est continue. - On pourrait donc utiliser le test de Student pour
montrer que les moyennes de C sont différents.
Cela donnerait une valeur t.
15Exemple
- On peut aussi, même si cest a priori moins
naturel, calculer le coefficient de corrélation
r(T,C), que nous appellerons dans ce cas - Coefficient de corrélation bisériel de points
- Parce quon considère quil y a deux séries de
valeurs. - On le note
16Exemple
moyenne de C pour les chômeurs
moyenne de C pour les employés
17Lien entre r et t
- En réalité les deux méthodes (Student et
corrélation bisérielle) sont liées par une
relation assez simple - Avec dl n-1 (n est la taille totale de
léchantillon).
18Le sens de r
- Le coefficient r prend un sens un peu plus
concret au carré - r² (coefficient de détermination) peut être
compris comme la partie de la variation due au
facteur. Ainsi, dans notre cas, si r² 0.12,
cela veut dire que le fait davoir du travail ou
non explique 12 de la variation constatée des
scores de confiance en soi.
192.2 Coefficient phi
- Deux variables dichotomiques
20Exemple
- Les enfants uniques sont-ils plus susceptibles
que les autres de développer des névroses? Sur
des enfants, on relève le fait dêtre unique ou
non (variable dichotomique U), et un psychologue
clinicien qui ne connaît pas U fait un
diagnostique D. - La question du lien entre les variables peut se
résoudre, bien quon soit loin de la situation de
référence, avec la méthode de régression (adaptée
aux données numériques)
21Coefficient phi
- Le coefficient de corrélation se note alors
- Mais on sintéresse surtout à
22Phi et khi
- Il serait également envisageable de procéder au
test du khi². - Le résultat du test du khi² est lié de manière
très simple au coefficient phi par la relation
Taille de léchantillon
23Interprétation intuitive de phi
- Le coefficient phi² peut être conçu comme une
mesure (mais attention il sagit dune
interprétation assez vague) de limportance de
leffet dune variable sur lautre. Comme pour le
r², on raisonne en terme de variations. - Si par exemple dans notre exemple nous trouvions
- Cela pourrait signifier que le fait dêtre unique
est une cause possible de névrose, mais non la
seule. Que leffet de U sur la névrose est réel,
mais relativement faible.
243. Variables ordinales
25Problème
- Dans le cas où les variables sont ordinales mais
pas réellement numériques, lidée est toujours de
travailler sur les rangs dans léchantillon - Le rang est le numéro dordre.
- Le rang dans léchantillon nest pas la
restriction dune variable sur la population
entière. - Cependant, on peut utiliser le coefficient r,
calculé sur léchantillon
26Problème
- Par exemple, dans la série 0,4,3, les rangs sont
respectivement 1,3,2. - Le problème des ex æquo est important. Trop dex
æquo rend toujours les procédures impossibles. - On saffranchira des cas où il y a quelques ex
æquo par contre assez facilement en prenant la
moyenne des rangs prévus.
273.1 Coefficient de Spearman
- Application directe de la corrélation
28Définition
- Lorsquon calcule le coefficient de corrélation
sur les rangs dans un échantillon de taille n, on
parle de coefficient de corrélation de Spearman
pour données rangées (ou coefficient de
Spearman). - On le note habituellement
29Calcul
- Il se calcule très facilement grâce à la formule
(d est la différence des rangs)
30Exemple
- La même série de 10 copies de philosophie des
sciences est proposée à un professeur de
philosophie et à un enseignant de mathématiques,
qui doivent les classer. - On a donc deux rangs M (maths) et P(philo). La
question est de savoir si les deux juges évaluent
de la même manière les copies.
31Exemple
- Sils ont les mêmes critères de jugement, on doit
avoir à peu près le même classement, et donc MP,
soit r1 - Sils ont des critères contradictoires, on
sattend à avoir rlt0 - Sils notent indépendamment lun de lautre, on
devrait avoir r0 (à peu près)
32Données
M 1 4 3 6 7 5 2 10 9 8
P 6 7 8 10 9 1 2 3 4 5
d 5 3 5 4 2 4 0 7 5 3
33Données
M 1 4 3 6 7 5 2 0 9 8
P 6 7 8 0 9 1 2 3 4 5
d 5 3 5 4 2 4 0 7 5 3
34Interprétation
- Ce qui laisse penser que les deux juges notent
sur des critères indépendants. - Si les données proviennent de variables
continues, rs mesure le lien monotone entre les
variables. - On notera cependant que la significativité de rs
est difficile à déterminer. Comme les
échantillons sont souvent petits (un juge
classant mal un grand nombre ditems), nous
prendrons toujours rs comme une indication.
353.2 Tau de Kendall
- Une alternative au coefficient de Spearman
36Principe
- Le coefficient tau de Kendall est équivalent
au rs pour ce qui est de linterprétation. - Il est plus facile à tester (on connaît mieux la
loi de distribution de t), ce qui en fait une
alternative plus agréable. - Il nest pas fondé sur le coefficient de Pearson
(rs) contrairement à ses concurrents.
37Calcul
tau
taille de léchantillon
38Calcul
- Où K est le nombre dinversions (nombre de couple
(i,j) qui ne sont pas dans le même ordre pour les
deux variables. - On peut déterminer simplement K en comptant le
nombre de croisements dans le dessin qui suit.
39K
1 2 3 4 5
K 3
3 1 2 5 4
403. Exemples
41Attention et alcoolisme
42Situation
- Howell, p 336, 10.11. Les données sont les mêmes
que dans lexercice - On souhaite étudier le lien éventuel entre les
troubles de lattention dans lenfance et
lalcoolisme à lâge adulte. On note 1 en cas de
présence du problème, et 0 sinon. - Des psychologues déterminent si le problème est
présent ou non.
43Situation
- Les variables sont donc
- Lalcoolisme, codé par une valeur A (variable
dichotomique) - Les troubles de lattention T, codés de la même
manière (variable dichotomique également) - On cherche le lien entre ces deux variables
- A est ici la VD, car les troubles de lattention
T de létude datent de lenfance.
44Données
T A 0 1
0 20 3
1 2 7
45Données
Effectif observé
T A 0 1 Total
0 20 15.8 3 7.2 23
1 2 6.2 7 2.8 9
Total 22 10 32
Effectif théorique
46Calculs
20 15.8 3 7.2
2 6.2 7 2.8
- On peut calculer le khi² correspondant à
lexemple
Attendu (expected)
Observé (observed)
47Calculs
20 15.8 3 7.2
2 6.2 7 2.8
48Calculs
20 15.8 3 7.2
2 6.2 7 2.8
- Il sagit ici dun coefficient significatif.
- Méfions-nous toutefois du résultat lun des
effectifs théoriques est inférieur à 5. - Pourtant, il semble bien que le lien entre les
variables soit réel. Il va dans le sens dun lien
positif. - Les cases 00 et 11 sont en effet plus
remplies que ce que prévoit lindépendance. - Il y a donc un lien positif entre les deux
variables (au moins sur léchantillon)
49Difficulté langagière
50Situation
- daprès Howell, p 336, 10.12
- Un chercheur a classé 10 mots selon leur
difficulté. Peu sûr de son classement, il demande
à un collègue de classer à son tour les 10 mots. - Les variables sont (sur léchantillon de 10
mots) R1 et R2 (rang pour le premier chercheur /
pour le second). - On cherche un lien entre les deux variables. Un
lien positif conforte le premier chercheur, un
lien négatif ou nul remet son analyse en question.
51Données
R1 1 2 3 4 5 6 7 8 9 10
R2 1 3 2 4 7 5 6 8 10 9
52Analyse
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9
- Les variables sont ordinales mais non numériques
(du moins pas réellement ). - Les deux possibilité pour étudier le lien
(croissant ou décroissant monotone) sont les
coefficients de Spearman et de Kendall (tau). - Il ny a pas de méthode efficace pour choisir
entre les deux coefficients, même si on préfère
généralement le tau de Kendall, pour des raisons
déjà évoquées.
53Analyse
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9
- Utilisons toutefois le coefficient de Spearman
ici. - Il est plus facile à calculer (à la machine),
puisquil sagit dun simple coefficient de
corrélation linéaire. - Avec SPSS, par exemple, on obtient aisément le
résultat.
54Résultats
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9
55Interprétation
- Soit un coefficient positif et très significatif
(on imagine) - Les deux variables sont fortement corrélées, et
de manière croissante les deux chercheurs ont
classé les mots a peu près dans le même ordre. - Cela conforte sans la prouver lidée de départ
que le classement du premier chercheur est plus
ou moins le classement universel .
56Compléments
- coefficients tétrachorique, bisériel, et de
concordance
57Coefficient bisériel rb
- Exemple on cherche si le génie est liée à
la vitesse de lecture. On relève la vitesse par
un score V et lintelligence par une variable
dichotomique à partir du QI, en notant 0 pour
toute valeur inférieure à 130 et 1 sinon. - On trouve rb 0.02, non significatif. Le fait
dêtre très intelligent (au sens du QI) ne
prédit pas une disposition à la lecture.
- Dans le cas où un coefficient de corrélation
bisériel de points paraît naturel, il se peut que
la variable dichotomique soit en réalité la
dichotomie arbitraire dune variable sous-jacente
normale. Dans ce cas, mieux vaut utiliser à la
place du coefficent bisériel de points le
coefficient bisériel, qui se lit de la même
manière.
58Coefficient tétrachorique rt
Still, A.W., MacMilan, A. St. C. (1977).
Response bias and the measurement of choice
alternation. Quarterly Journal of Experimental
Psychology, 29, 319-325.
- Exemple Pour mesurer le biais dalternance, on
part du principe que le sujet hésite entre les
deux possibilités Pile et Face , et décide
en fonction dun seuil. La variable sous-jacente
est supposée normale. Il est dans ce cas logique
dutiliser rt comme une mesure de biais
dalternance, avec les deux variables premier
tirage et second tirage par exemple. - On trouve rt 0.35.
- Dans le cas où un coefficient phi paraît naturel
(deux variables dichotomiques), mais que les
variables sont des dichotomies artificielles
provenant dun découpage sur une variable
sous-jacente normale, on utilise de préférence à
phi le coefficient de corrélation tétrachorique
rt. Comme pour le coefficient bisériel, cela
nest pas valable pour des variables non-normales
59Coefficient de concordance
- Exemple Pour savoir si les jugements de beauté
sont culturels ou au contraire sujets à des
variations personnelles importantes, on demande à
six personnes de classer par ordre de beauté une
série de 9 portraits (on dépasse rarement 9). - On trouve avec nos données (n 80) une valeur de
W 0.58. Bien quil ny ait que 6 sujets, cette
valeur est concluante.
- Il arrive que lon cherche à mesure le degré
daccord sur les rangs non entre deux juges, mais
entre trois juges ou plus. Dans ce cas, le
coefficient de Spearman ou le tau de Kendall
nest pas suffisant, et il faut utiliser une
généralisation du coefficient tau de Kendall, le
W de Kendall, ou coefficient de concordance. Il
se lit comme un r2.
60Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
On pense que X est une dichotomie issue dune
variable continue normale. Coefficient bisériel rb
Lune des deux variables est dichotomiques (X),
mais lautre est numérique (Y)
X est une vraie dichotomie (ou une dichotomie
issue dune variable non normale). Coefficient
bisériel de points rbp
61Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
Il sagit de fausses dichotomies issues de
variables normales. Coefficient tétrachorique rt
Les deux variables (disons encore X et Y) sont
dichotomiques.
Il sagit de vraies dichotomies ou de dichotomies
issues de variables non normales Coefficient phi.
62Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
Il ny a que deux variables (par exemple deux
juges) Coefficient de Spearman rs Coefficient tau
de Kendall
Toutes les variables sont ordinales (ou seuls les
rangs nous intéressent)
Il y a plus de deux variables (par
exemplejuges) Coefficient W de Kendall