Statistiques, licence

About This Presentation

Title:

Statistiques, licence

Description:

Comme les chantillons sont souvent petits (un juge classant mal un grand nombre d'items), nous prendrons toujours rs comme une indication. 12/18/09 ... – PowerPoint PPT presentation

Number of Views:450

Avg rating:3.0/5.0

Slides: 63

Provided by: bob4185

Category:

more less

Transcript and Presenter's Notes

Title: Statistiques, licence

1
Statistiques, licence

Troisième séance

2
Techniques alternatives de corrélation

Pour variables non quantitatives

3
Plan

Position du problème
Données dichotomiques
Corrélation bisérielle de points
Coefficient phi
Données rangées
(Coefficient de Spearman)
Coefficient de Kendall
Quelques exemples
Compléments.

4
1. Position du problème
5

Il arrive que lon souhaite connaître le lien
entre deux variables (cas de la régression
linéaire simple), mais que les variables ne
soient pas quantitatives.
On voudrait pouvoir arranger la méthode de
corrélation linéaire à ces cas.

6
Exemple

Supposons par exemple quon souhaite connaître le
QI en fonction de la réussite ou non au
baccalauréat.
On posera échec 0 et réussite 1
La variable réussite éventuelle est
maintenant codée. Elle nest pas vraiment
numérique, mais on peut toutefois appliquer
formellement les méthodes pour variables
quantitatives.

7
Exemple

En réalité, dans cet exemple, il est plus simple
dutiliser la régression (tout court). Cela
revient à calculer les moyennes conditionnelles.
La corrélation est alors mesurée par

8
Exemple
9
Mais

En revanche, si le facteur est véritablement
numérique et si la VD est dichotomique, aucune
méthode élémentaire ne semble convenir.
On pourra alors utiliser le codage précédent (0
et 1) et utiliser la corrélation linéaire comme
si on avait vraiment deux variables quantitatives.

10
Données rangées

Le même type de problème (et de solution)
apparaît avec les données ordonnées.
Une variable est ordinale si léchelle de mesure
est un ensemble ordonné mais que la variable
nest pas quantitative.
Cest le cas de variables utilisées dans les
sondages, comme par exemple
jamais / rarement / parfois / souvent / toujours

11
Les corrélations alternatives

Les corrélations alternatives ne sont bien
souvent rien dautres que des corrélations
linéaires appliquées à des variables codées.
Comme elles ne sont pas automatiquement
légitimes, on leur donne un nom différent, et on
les traite autrement.
Pourtant, le principe est toujours le même.

12
2. Variables dichotomiques
13
2.1 Corrélation bisérielle de points

Une variable dichotomique

14
Exemple

On relève par un score numérique C la confiance
en soi chez des chômeurs et des travailleurs en
activité.
Le but est de déterminer si la confiance en soi
dépend du fait davoir du travail
Ici, la VI (T, travail) est dichotomique. On la
code par chômeur 0 et travailleur 1.
La VD (C, confiance en soi) est continue.
On pourrait donc utiliser le test de Student pour
montrer que les moyennes de C sont différents.
Cela donnerait une valeur t.

15
Exemple

On peut aussi, même si cest a priori moins
naturel, calculer le coefficient de corrélation
r(T,C), que nous appellerons dans ce cas
Coefficient de corrélation bisériel de points
Parce quon considère quil y a deux séries de
valeurs.
On le note

16
Exemple
moyenne de C pour les chômeurs
moyenne de C pour les employés
17
Lien entre r et t

En réalité les deux méthodes (Student et
corrélation bisérielle) sont liées par une
relation assez simple
Avec dl n-1 (n est la taille totale de
léchantillon).

18
Le sens de r

Le coefficient r prend un sens un peu plus
concret au carré
r² (coefficient de détermination) peut être
compris comme la partie de la variation due au
facteur. Ainsi, dans notre cas, si r² 0.12,
cela veut dire que le fait davoir du travail ou
non explique 12 de la variation constatée des
scores de confiance en soi.

19
2.2 Coefficient phi

Deux variables dichotomiques

20
Exemple

Les enfants uniques sont-ils plus susceptibles
que les autres de développer des névroses? Sur
des enfants, on relève le fait dêtre unique ou
non (variable dichotomique U), et un psychologue
clinicien qui ne connaît pas U fait un
diagnostique D.
La question du lien entre les variables peut se
résoudre, bien quon soit loin de la situation de
référence, avec la méthode de régression (adaptée
aux données numériques)

21
Coefficient phi

Le coefficient de corrélation se note alors
Mais on sintéresse surtout à

22
Phi et khi

Il serait également envisageable de procéder au
test du khi².
Le résultat du test du khi² est lié de manière
très simple au coefficient phi par la relation

Taille de léchantillon
23
Interprétation intuitive de phi

Le coefficient phi² peut être conçu comme une
mesure (mais attention il sagit dune
interprétation assez vague) de limportance de
leffet dune variable sur lautre. Comme pour le
r², on raisonne en terme de variations.
Si par exemple dans notre exemple nous trouvions
Cela pourrait signifier que le fait dêtre unique
est une cause possible de névrose, mais non la
seule. Que leffet de U sur la névrose est réel,
mais relativement faible.

24
3. Variables ordinales
25
Problème

Dans le cas où les variables sont ordinales mais
pas réellement numériques, lidée est toujours de
travailler sur les rangs dans léchantillon
Le rang est le numéro dordre.
Le rang dans léchantillon nest pas la
restriction dune variable sur la population
entière.
Cependant, on peut utiliser le coefficient r,
calculé sur léchantillon

26
Problème

Par exemple, dans la série 0,4,3, les rangs sont
respectivement 1,3,2.
Le problème des ex æquo est important. Trop dex
æquo rend toujours les procédures impossibles.
On saffranchira des cas où il y a quelques ex
æquo par contre assez facilement en prenant la
moyenne des rangs prévus.

27
3.1 Coefficient de Spearman

Application directe de la corrélation

28
Définition

Lorsquon calcule le coefficient de corrélation
sur les rangs dans un échantillon de taille n, on
parle de coefficient de corrélation de Spearman
pour données rangées (ou coefficient de
Spearman).
On le note habituellement

29
Calcul

Il se calcule très facilement grâce à la formule
(d est la différence des rangs)

30
Exemple

La même série de 10 copies de philosophie des
sciences est proposée à un professeur de
philosophie et à un enseignant de mathématiques,
qui doivent les classer.
On a donc deux rangs M (maths) et P(philo). La
question est de savoir si les deux juges évaluent
de la même manière les copies.

31
Exemple

Sils ont les mêmes critères de jugement, on doit
avoir à peu près le même classement, et donc MP,
soit r1
Sils ont des critères contradictoires, on
sattend à avoir rlt0
Sils notent indépendamment lun de lautre, on
devrait avoir r0 (à peu près)

32
Données
M 1 4 3 6 7 5 2 10 9 8
P 6 7 8 10 9 1 2 3 4 5
d 5 3 5 4 2 4 0 7 5 3
33
Données
M 1 4 3 6 7 5 2 0 9 8
P 6 7 8 0 9 1 2 3 4 5
d 5 3 5 4 2 4 0 7 5 3

On a donc

34
Interprétation

Ce qui laisse penser que les deux juges notent
sur des critères indépendants.
Si les données proviennent de variables
continues, rs mesure le lien monotone entre les
variables.
On notera cependant que la significativité de rs
est difficile à déterminer. Comme les
échantillons sont souvent petits (un juge
classant mal un grand nombre ditems), nous
prendrons toujours rs comme une indication.

35
3.2 Tau de Kendall

Une alternative au coefficient de Spearman

36
Principe

Le coefficient tau de Kendall est équivalent
au rs pour ce qui est de linterprétation.
Il est plus facile à tester (on connaît mieux la
loi de distribution de t), ce qui en fait une
alternative plus agréable.
Il nest pas fondé sur le coefficient de Pearson
(rs) contrairement à ses concurrents.

37
Calcul
tau
taille de léchantillon
38
Calcul

Où K est le nombre dinversions (nombre de couple
(i,j) qui ne sont pas dans le même ordre pour les
deux variables.
On peut déterminer simplement K en comptant le
nombre de croisements dans le dessin qui suit.

39
K
1 2 3 4 5
K 3
3 1 2 5 4
40
3. Exemples
41
Attention et alcoolisme

Ya t-il un lien ?

42
Situation

Howell, p 336, 10.11. Les données sont les mêmes
que dans lexercice
On souhaite étudier le lien éventuel entre les
troubles de lattention dans lenfance et
lalcoolisme à lâge adulte. On note 1 en cas de
présence du problème, et 0 sinon.
Des psychologues déterminent si le problème est
présent ou non.

43
Situation

Les variables sont donc
Lalcoolisme, codé par une valeur A (variable
dichotomique)
Les troubles de lattention T, codés de la même
manière (variable dichotomique également)
On cherche le lien entre ces deux variables
A est ici la VD, car les troubles de lattention
T de létude datent de lenfance.

44
Données
T A 0 1
0 20 3
1 2 7
45
Données
Effectif observé
T A 0 1 Total
0 20 15.8 3 7.2 23
1 2 6.2 7 2.8 9
Total 22 10 32
Effectif théorique
46
Calculs
20 15.8 3 7.2
2 6.2 7 2.8

On peut calculer le khi² correspondant à
lexemple

Attendu (expected)
Observé (observed)
47
Calculs
20 15.8 3 7.2
2 6.2 7 2.8

Ce qui donne

48
Calculs
20 15.8 3 7.2
2 6.2 7 2.8

Il sagit ici dun coefficient significatif.
Méfions-nous toutefois du résultat lun des
effectifs théoriques est inférieur à 5.
Pourtant, il semble bien que le lien entre les
variables soit réel. Il va dans le sens dun lien
positif.
Les cases 00 et 11 sont en effet plus
remplies que ce que prévoit lindépendance.
Il y a donc un lien positif entre les deux
variables (au moins sur léchantillon)

49
Difficulté langagière

Double classement

50
Situation

daprès Howell, p 336, 10.12
Un chercheur a classé 10 mots selon leur
difficulté. Peu sûr de son classement, il demande
à un collègue de classer à son tour les 10 mots.
Les variables sont (sur léchantillon de 10
mots) R1 et R2 (rang pour le premier chercheur /
pour le second).
On cherche un lien entre les deux variables. Un
lien positif conforte le premier chercheur, un
lien négatif ou nul remet son analyse en question.

51
Données
R1 1 2 3 4 5 6 7 8 9 10
R2 1 3 2 4 7 5 6 8 10 9
52
Analyse
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9

Les variables sont ordinales mais non numériques
(du moins pas réellement ).
Les deux possibilité pour étudier le lien
(croissant ou décroissant monotone) sont les
coefficients de Spearman et de Kendall (tau).
Il ny a pas de méthode efficace pour choisir
entre les deux coefficients, même si on préfère
généralement le tau de Kendall, pour des raisons
déjà évoquées.

53
Analyse
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9

Utilisons toutefois le coefficient de Spearman
ici.
Il est plus facile à calculer (à la machine),
puisquil sagit dun simple coefficient de
corrélation linéaire.
Avec SPSS, par exemple, on obtient aisément le
résultat.

54
Résultats
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9

Il vient

55
Interprétation

Soit un coefficient positif et très significatif
(on imagine)
Les deux variables sont fortement corrélées, et
de manière croissante les deux chercheurs ont
classé les mots a peu près dans le même ordre.
Cela conforte sans la prouver lidée de départ
que le classement du premier chercheur est plus
ou moins le classement universel .

56
Compléments

coefficients tétrachorique, bisériel, et de
concordance

57
Coefficient bisériel rb

Exemple on cherche si le génie est liée à
la vitesse de lecture. On relève la vitesse par
un score V et lintelligence par une variable
dichotomique à partir du QI, en notant 0 pour
toute valeur inférieure à 130 et 1 sinon.
On trouve rb 0.02, non significatif. Le fait
dêtre très intelligent (au sens du QI) ne
prédit pas une disposition à la lecture.

Dans le cas où un coefficient de corrélation
bisériel de points paraît naturel, il se peut que
la variable dichotomique soit en réalité la
dichotomie arbitraire dune variable sous-jacente
normale. Dans ce cas, mieux vaut utiliser à la
place du coefficent bisériel de points le
coefficient bisériel, qui se lit de la même
manière.

58
Coefficient tétrachorique rt
Still, A.W., MacMilan, A. St. C. (1977).
Response bias and the measurement of choice
alternation. Quarterly Journal of Experimental
Psychology, 29, 319-325.

Exemple Pour mesurer le biais dalternance, on
part du principe que le sujet hésite entre les
deux possibilités Pile et Face , et décide
en fonction dun seuil. La variable sous-jacente
est supposée normale. Il est dans ce cas logique
dutiliser rt comme une mesure de biais
dalternance, avec les deux variables premier
tirage et second tirage par exemple.
On trouve rt 0.35.

Dans le cas où un coefficient phi paraît naturel
(deux variables dichotomiques), mais que les
variables sont des dichotomies artificielles
provenant dun découpage sur une variable
sous-jacente normale, on utilise de préférence à
phi le coefficient de corrélation tétrachorique
rt. Comme pour le coefficient bisériel, cela
nest pas valable pour des variables non-normales

59
Coefficient de concordance

Exemple Pour savoir si les jugements de beauté
sont culturels ou au contraire sujets à des
variations personnelles importantes, on demande à
six personnes de classer par ordre de beauté une
série de 9 portraits (on dépasse rarement 9).
On trouve avec nos données (n 80) une valeur de
W 0.58. Bien quil ny ait que 6 sujets, cette
valeur est concluante.

Il arrive que lon cherche à mesure le degré
daccord sur les rangs non entre deux juges, mais
entre trois juges ou plus. Dans ce cas, le
coefficient de Spearman ou le tau de Kendall
nest pas suffisant, et il faut utiliser une
généralisation du coefficient tau de Kendall, le
W de Kendall, ou coefficient de concordance. Il
se lit comme un r2.

60
Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
On pense que X est une dichotomie issue dune
variable continue normale. Coefficient bisériel rb
Lune des deux variables est dichotomiques (X),
mais lautre est numérique (Y)
X est une vraie dichotomie (ou une dichotomie
issue dune variable non normale). Coefficient
bisériel de points rbp
61
Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
Il sagit de fausses dichotomies issues de
variables normales. Coefficient tétrachorique rt
Les deux variables (disons encore X et Y) sont
dichotomiques.
Il sagit de vraies dichotomies ou de dichotomies
issues de variables non normales Coefficient phi.
62
Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
Il ny a que deux variables (par exemple deux
juges) Coefficient de Spearman rs Coefficient tau
de Kendall
Toutes les variables sont ordinales (ou seuls les
rangs nous intéressent)
Il y a plus de deux variables (par
exemplejuges) Coefficient W de Kendall

Write a Comment

User Comments (0)