Statistiques, licence - PowerPoint PPT Presentation

About This Presentation
Title:

Statistiques, licence

Description:

Comme les chantillons sont souvent petits (un juge classant mal un grand nombre d'items), nous prendrons toujours rs comme une indication. 12/18/09 ... – PowerPoint PPT presentation

Number of Views:450
Avg rating:3.0/5.0
Slides: 63
Provided by: bob4185
Category:

less

Transcript and Presenter's Notes

Title: Statistiques, licence


1
Statistiques, licence
  • Troisième séance

2
Techniques alternatives de corrélation
  • Pour variables non quantitatives

3
Plan
  1. Position du problème
  2. Données dichotomiques
  3. Corrélation bisérielle de points
  4. Coefficient phi
  5. Données rangées
  6. (Coefficient de Spearman)
  7. Coefficient de Kendall
  8. Quelques exemples
  9. Compléments.

4
1. Position du problème
5
  • Il arrive que lon souhaite connaître le lien
    entre deux variables (cas de la régression
    linéaire simple), mais que les variables ne
    soient pas quantitatives.
  • On voudrait pouvoir arranger la méthode de
    corrélation linéaire à ces cas.

6
Exemple
  • Supposons par exemple quon souhaite connaître le
    QI en fonction de la réussite ou non au
    baccalauréat.
  • On posera  échec 0 et  réussite 1
  • La variable  réussite éventuelle  est
    maintenant codée. Elle nest pas vraiment
    numérique, mais on peut toutefois appliquer
    formellement les méthodes pour variables
    quantitatives.

7
Exemple
  • En réalité, dans cet exemple, il est plus simple
    dutiliser la régression (tout court). Cela
    revient à calculer les moyennes conditionnelles.
  • La corrélation est alors mesurée par

8
Exemple
9
Mais
  • En revanche, si le facteur est véritablement
    numérique et si la VD est dichotomique, aucune
    méthode élémentaire ne semble convenir.
  • On pourra alors utiliser le codage précédent (0
    et 1) et utiliser la corrélation linéaire comme
    si on avait vraiment deux variables quantitatives.

10
Données rangées
  • Le même type de problème (et de solution)
    apparaît avec les données ordonnées.
  • Une variable est ordinale si léchelle de mesure
    est un ensemble ordonné mais que la variable
    nest pas quantitative.
  • Cest le cas de variables utilisées dans les
    sondages, comme par exemple
  • jamais / rarement / parfois / souvent / toujours

11
Les corrélations alternatives
  • Les  corrélations alternatives  ne sont bien
    souvent rien dautres que des corrélations
    linéaires appliquées à des variables codées.
  • Comme elles ne sont pas automatiquement
    légitimes, on leur donne un nom différent, et on
    les traite autrement.
  • Pourtant, le principe est toujours le même.

12
2. Variables dichotomiques
13
2.1 Corrélation bisérielle de points
  • Une variable dichotomique

14
Exemple
  • On relève par un score numérique C la confiance
    en soi chez des chômeurs et des travailleurs en
    activité.
  • Le but est de déterminer si la confiance en soi
    dépend du fait davoir du travail
  • Ici, la VI (T, travail) est dichotomique. On la
    code par  chômeur  0 et  travailleur  1.
    La VD (C, confiance en soi) est continue.
  • On pourrait donc utiliser le test de Student pour
    montrer que les moyennes de C sont différents.
    Cela donnerait une valeur t.

15
Exemple
  • On peut aussi, même si cest a priori moins
    naturel, calculer le coefficient de corrélation
    r(T,C), que nous appellerons dans ce cas
  • Coefficient de corrélation bisériel de points
  • Parce quon considère quil y a deux séries de
    valeurs.
  • On le note

16
Exemple
moyenne de C pour les chômeurs
moyenne de C pour les employés
17
Lien entre r et t
  • En réalité les deux méthodes (Student et
    corrélation bisérielle) sont liées par une
    relation assez simple
  • Avec dl n-1 (n est la taille totale de
    léchantillon).

18
Le sens de r
  • Le coefficient r prend un sens un peu plus
    concret au carré
  • r² (coefficient de détermination) peut être
    compris comme la partie de la variation due au
    facteur. Ainsi, dans notre cas, si r² 0.12,
    cela veut dire que le fait davoir du travail ou
    non explique 12 de la variation constatée des
    scores de confiance en soi.

19
2.2 Coefficient phi
  • Deux variables dichotomiques

20
Exemple
  • Les enfants uniques sont-ils plus susceptibles
    que les autres de développer des névroses? Sur
    des enfants, on relève le fait dêtre unique ou
    non (variable dichotomique U), et un psychologue
    clinicien qui ne connaît pas U fait un
    diagnostique D.
  • La question du lien entre les variables peut se
    résoudre, bien quon soit loin de la situation de
    référence, avec la méthode de régression (adaptée
    aux données numériques)

21
Coefficient phi
  • Le coefficient de corrélation se note alors
  • Mais on sintéresse surtout à

22
Phi et khi
  • Il serait également envisageable de procéder au
    test du khi².
  • Le résultat du test du khi² est lié de manière
    très simple au coefficient phi par la relation

Taille de léchantillon
23
Interprétation intuitive de phi
  • Le coefficient phi² peut être conçu comme une
    mesure (mais attention il sagit dune
    interprétation assez vague) de limportance de
    leffet dune variable sur lautre. Comme pour le
    r², on raisonne en terme de variations.
  • Si par exemple dans notre exemple nous trouvions
  • Cela pourrait signifier que le fait dêtre unique
    est une cause possible de névrose, mais non la
    seule. Que leffet de U sur la névrose est réel,
    mais relativement faible.

24
3. Variables ordinales
25
Problème
  • Dans le cas où les variables sont ordinales mais
    pas réellement numériques, lidée est toujours de
    travailler sur les rangs dans léchantillon
  • Le rang est le numéro dordre.
  • Le rang dans léchantillon nest pas la
    restriction dune variable sur la population
    entière.
  • Cependant, on peut utiliser le coefficient r,
    calculé sur léchantillon

26
Problème
  • Par exemple, dans la série 0,4,3, les rangs sont
    respectivement 1,3,2.
  • Le problème des ex æquo est important. Trop dex
    æquo rend toujours les procédures impossibles.
  • On saffranchira des cas où il y a quelques ex
    æquo par contre assez facilement en prenant la
    moyenne des rangs prévus.

27
3.1 Coefficient de Spearman
  • Application directe de la corrélation

28
Définition
  • Lorsquon calcule le coefficient de corrélation
    sur les rangs dans un échantillon de taille n, on
    parle de coefficient de corrélation de Spearman
    pour données rangées (ou coefficient de
    Spearman).
  • On le note habituellement

29
Calcul
  • Il se calcule très facilement grâce à la formule
    (d est la différence des rangs)

30
Exemple
  • La même série de 10 copies de philosophie des
    sciences est proposée à un professeur de
    philosophie et à un enseignant de mathématiques,
    qui doivent les classer.
  • On a donc deux rangs M (maths) et P(philo). La
    question est de savoir si les deux juges évaluent
    de la même manière les copies.

31
Exemple
  • Sils ont les mêmes critères de jugement, on doit
    avoir à peu près le même classement, et donc MP,
    soit r1
  • Sils ont des critères contradictoires, on
    sattend à avoir rlt0
  • Sils notent indépendamment lun de lautre, on
    devrait avoir r0 (à peu près)

32
Données
M 1 4 3 6 7 5 2 10 9 8
P 6 7 8 10 9 1 2 3 4 5
d 5 3 5 4 2 4 0 7 5 3
33
Données
M 1 4 3 6 7 5 2 0 9 8
P 6 7 8 0 9 1 2 3 4 5
d 5 3 5 4 2 4 0 7 5 3
  • On a donc

34
Interprétation
  • Ce qui laisse penser que les deux juges notent
    sur des critères indépendants.
  • Si les données proviennent de variables
    continues, rs mesure le lien monotone entre les
    variables.
  • On notera cependant que la significativité de rs
    est difficile à déterminer. Comme les
    échantillons sont souvent petits (un juge
    classant mal un grand nombre ditems), nous
    prendrons toujours rs comme une indication.

35
3.2 Tau de Kendall
  • Une alternative au coefficient de Spearman

36
Principe
  • Le coefficient  tau  de Kendall est équivalent
    au rs pour ce qui est de linterprétation.
  • Il est plus facile à tester (on connaît mieux la
    loi de distribution de t), ce qui en fait une
    alternative plus agréable.
  • Il nest pas fondé sur le coefficient de Pearson
    (rs) contrairement à ses concurrents.

37
Calcul
tau
taille de léchantillon
38
Calcul
  • Où K est le nombre dinversions (nombre de couple
    (i,j) qui ne sont pas dans le même ordre pour les
    deux variables.
  • On peut déterminer simplement K en comptant le
    nombre de croisements dans le dessin qui suit.

39
K
1 2 3 4 5
K 3
3 1 2 5 4
40
3. Exemples
41
Attention et alcoolisme
  • Ya t-il un lien ?

42
Situation
  • Howell, p 336, 10.11. Les données sont les mêmes
    que dans lexercice
  • On souhaite étudier le lien éventuel entre les
    troubles de lattention dans lenfance et
    lalcoolisme à lâge adulte. On note 1 en cas de
    présence du problème, et 0 sinon.
  • Des psychologues déterminent si le problème est
    présent ou non.

43
Situation
  • Les variables sont donc
  • Lalcoolisme, codé par une valeur A (variable
    dichotomique)
  • Les troubles de lattention T, codés de la même
    manière (variable dichotomique également)
  • On cherche le lien entre ces deux variables
  • A est ici la VD, car les troubles de lattention
    T de létude datent de lenfance.

44
Données
T A 0 1
0 20 3
1 2 7
45
Données
Effectif observé
T A 0 1 Total
0 20 15.8 3 7.2 23
1 2 6.2 7 2.8 9
Total 22 10 32
Effectif théorique
46
Calculs
20 15.8 3 7.2
2 6.2 7 2.8
  • On peut calculer le khi² correspondant à
    lexemple

Attendu (expected)
Observé (observed)
47
Calculs
20 15.8 3 7.2
2 6.2 7 2.8
  • Ce qui donne

48
Calculs
20 15.8 3 7.2
2 6.2 7 2.8
  • Il sagit ici dun coefficient significatif.
  • Méfions-nous toutefois du résultat lun des
    effectifs théoriques est inférieur à 5.
  • Pourtant, il semble bien que le lien entre les
    variables soit réel. Il va dans le sens dun lien
    positif.
  • Les cases 00 et 11 sont en effet plus
     remplies  que ce que prévoit lindépendance.
  • Il y a donc un lien positif entre les deux
    variables (au moins sur léchantillon)

49
Difficulté langagière
  • Double classement

50
Situation
  • daprès Howell, p 336, 10.12
  • Un chercheur a classé 10 mots selon leur
    difficulté. Peu sûr de son classement, il demande
    à un collègue de classer à son tour les 10 mots.
  • Les  variables  sont (sur léchantillon de 10
    mots) R1 et R2 (rang pour le premier chercheur /
    pour le second).
  • On cherche un lien entre les deux variables. Un
    lien positif conforte le premier chercheur, un
    lien négatif ou nul remet son analyse en question.

51
Données
R1 1 2 3 4 5 6 7 8 9 10
R2 1 3 2 4 7 5 6 8 10 9
52
Analyse
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9
  • Les variables sont ordinales mais non numériques
    (du moins pas  réellement ).
  • Les deux possibilité pour étudier le lien
    (croissant ou décroissant monotone) sont les
    coefficients de Spearman et de Kendall (tau).
  • Il ny a pas de méthode efficace pour choisir
    entre les deux coefficients, même si on préfère
    généralement le tau de Kendall, pour des raisons
    déjà évoquées.

53
Analyse
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9
  • Utilisons toutefois le coefficient de Spearman
    ici.
  • Il est plus facile à calculer (à la machine),
    puisquil sagit dun simple coefficient de
    corrélation linéaire.
  • Avec SPSS, par exemple, on obtient aisément le
    résultat.

54
Résultats
1 2 3 4 5 6 7 8 9 10
1 3 2 4 7 5 6 8 10 9
  • Il vient

55
Interprétation
  • Soit un coefficient positif et très significatif
    (on imagine)
  • Les deux variables sont fortement corrélées, et
    de manière croissante les deux chercheurs ont
    classé les mots a peu près dans le même ordre.
  • Cela conforte sans la prouver lidée de départ
    que le classement du premier chercheur est plus
    ou moins le classement  universel .

56
Compléments
  • coefficients tétrachorique, bisériel, et de
    concordance

57
Coefficient bisériel rb
  • Exemple on cherche si  le génie  est liée à
    la vitesse de lecture. On relève la vitesse par
    un score V et lintelligence par une variable
    dichotomique à partir du QI, en notant 0 pour
    toute valeur inférieure à 130 et 1 sinon.
  • On trouve rb 0.02, non significatif. Le fait
    dêtre  très intelligent  (au sens du QI) ne
    prédit pas une disposition à la lecture.
  • Dans le cas où un coefficient de corrélation
    bisériel de points paraît naturel, il se peut que
    la variable dichotomique soit en réalité la
    dichotomie arbitraire dune variable sous-jacente
    normale. Dans ce cas, mieux vaut utiliser à la
    place du coefficent bisériel de points le
    coefficient bisériel, qui se lit de la même
    manière.

58
Coefficient tétrachorique rt
Still, A.W., MacMilan, A. St. C. (1977).
Response bias and the measurement of choice
alternation. Quarterly Journal of Experimental
Psychology, 29, 319-325.
  • Exemple Pour mesurer le biais dalternance, on
    part du principe que le sujet hésite entre les
    deux possibilités  Pile  et  Face , et décide
    en fonction dun seuil. La variable sous-jacente
    est supposée normale. Il est dans ce cas logique
    dutiliser rt comme une mesure de biais
    dalternance, avec les deux variables  premier
    tirage  et  second tirage  par exemple.
  • On trouve rt 0.35.
  • Dans le cas où un coefficient phi paraît naturel
    (deux variables dichotomiques), mais que les
    variables sont des dichotomies artificielles
    provenant dun découpage sur une variable
    sous-jacente normale, on utilise de préférence à
    phi le coefficient de corrélation tétrachorique
    rt. Comme pour le coefficient bisériel, cela
    nest pas valable pour des variables non-normales

59
Coefficient de concordance
  • Exemple Pour savoir si les jugements de beauté
    sont culturels ou au contraire sujets à des
    variations personnelles importantes, on demande à
    six personnes de classer par ordre de beauté une
    série de 9 portraits (on dépasse rarement 9).
  • On trouve avec nos données (n 80) une valeur de
    W 0.58. Bien quil ny ait que 6 sujets, cette
    valeur est concluante.
  • Il arrive que lon cherche à mesure le degré
    daccord sur les rangs non entre deux juges, mais
    entre trois juges ou plus. Dans ce cas, le
    coefficient de Spearman ou le tau de Kendall
    nest pas suffisant, et il faut utiliser une
    généralisation du coefficient tau de Kendall, le
    W de Kendall, ou coefficient de concordance. Il
    se lit comme un r2.

60
Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
On pense que X est une dichotomie issue dune
variable continue normale. Coefficient bisériel rb
Lune des deux variables est dichotomiques (X),
mais lautre est numérique (Y)
X est une vraie dichotomie (ou une dichotomie
issue dune variable non normale). Coefficient
bisériel de points rbp
61
Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
Il sagit de fausses dichotomies issues de
variables normales. Coefficient tétrachorique rt
Les deux variables (disons encore X et Y) sont
dichotomiques.
Il sagit de vraies dichotomies ou de dichotomies
issues de variables non normales Coefficient phi.
62
Pour résumer
On cherche le lien entre deux (ou plus) variables
X et Y, qui ne sont pas toutes deux numériques.
Il ny a que deux variables (par exemple deux
juges) Coefficient de Spearman rs Coefficient tau
de Kendall
Toutes les variables sont ordinales (ou seuls les
rangs nous intéressent)
Il y a plus de deux variables (par
exemplejuges) Coefficient W de Kendall
Write a Comment
User Comments (0)
About PowerShow.com