La corrlation canonique - PowerPoint PPT Presentation

1 / 64

About This Presentation

Title:

La corrlation canonique

Description:

Crit re: Trouver la combinaison lin aire qui explique le maximum de variance commune ... Crit re: Trouver la combinaison lin aire qui explique le maximum de ... – PowerPoint PPT presentation

Number of Views:185

Avg rating:3.0/5.0

Slides: 65

Provided by: genevive4

Category:

more less

Transcript and Presenter's Notes

Title: La corrlation canonique

1
La corrélation canonique

PSY6002_Cours 9

2
Type De question
Type De mesure des Variables Dépendantes
Nombre De Variables Dépendantes
Nombre De Niveaux ou de VI
Échantillons Dépendants ou indépendants
Satistiques
indépendants
?2
Deux
Une
dépendants
McNemar
Qualitatives
Analyse discriminante
Multiples
Multiples
indépendants
Test t (ind)
Deux
Différences
dépendants
Test t (dép)
Une
indépendants
ANOVA/ANCOVA
ANOVA/ANCOVA mesures répétées
Multiples
dépendants
Quantitatives
Ind dép
ANOVA/ ANCOVA (mixte)
MANOVA/ MANCOVA
Multiples
Multiples
Ind dép
Qualitatives
Deux
Une
Phi
Relations
Aucune
Analyse Factorielle
Multiples
Corrélation / Régression Simple
Une
Quantitatives
Une
Régression Multiple
Multiples
Corrélation Canonique
Aussi TF, p.29-31.
Multiples
Multiples
3
La régression linéaire
5 4 3 2 1
Comportements antisociaux (Y)
1 2 3 4 5 6 7
8 9
Difficulté à exprimer ses émotions (X)
4
Comportements antisociaux (Y)
a2 Difficulté élevée
a1 Difficulté faible
Difficulté à exprimer ses émotions (X)
5
Comportements antisociaux
Difficulté à exprimer ses émotions
Variable dépendante Comportements
antisociaux Variable indépendante B ?
p Habileté à exprimer ses émotions 1.87 .35 .05
6
ANOVA
Régression
VARIANCE INTER-GROUPE Effet
VARIANCE expliquée par la régression
F
F
VARIANCE INTRA-GROUPE Erreur
VARIANCE résiduelle
7
Variance totale, expliquée et résiduelle
Y
X
8
Différences et relations

Analyses univariées régression multiple et ANOVA
Une variable dépendante
Plusieurs variables indépendantes
Analyses multivariées corrélation canonique et
MANOVA
Plusieurs variables dépendantes
Plusieurs variables indépendantes

9
La régression multiple
Intelligence
R2 .27
.05 n.s.
Énergie
.-.30
Négativité
10
Logique
Âge à la rentrée à la garderie
Capacité dabstraction
Motricité fine
Soutien à lautonomie des parents
Coordination
Niveau socio-économique
Reconnaissance des émotions
Expression émotionnelle
11
(No Transcript)
12
Plusieurs ANOVAs ou plusieurs analyses de
régression

Accumulation de lerreur de Type I pour chaque
test dinférence.
Redondance de linformation au niveau des
variables dépendantes.

13
Capacité dabstraction
Logique
Âge à la rentrée à la garderie
Niveau socio-économique
Reconnaissance des émotions
Motricité fine
Soutien à lautonomie des parents
Expression émotionnelle
Coordination
14
Motricité fine
Âge à la rentrée en garderie
Coordination
Logique
Niveau socio-économique
Capacité dabstraction
Reconnaissance des émotions
Soutien à lautonomie des parents
Expression émotionnelle
15
Comment établir le critère permettant de combiner
les variables?
16
Le critère des moindres carrés
Y
X
17
La régression multiple on compare les Y prédits
aux Y obtenus
Énergie
Négativité (X1)
Intelligence (X2)
18
Lorsquil ny a pas de Y à expliquer
X1
X3
X2
Critère Trouver la combinaison linéaire qui
explique le maximum de variance commune
19
Les dimensions
20
La création de facteurs
X1
X3
X2
Critère Trouver la combinaison linéaire qui
explique le maximum de variance commune
21
La création de facteurs
Facteur 2
Facteur 1
Facteur 3
Critère Trouver la combinaison linéaire qui
explique le maximum de variance commune
22
La création de facteurs
X1
.22X2
.22X3
Scores factoriels 1.80X1
X3
X2
Critère Trouver la combinaison linéaire qui
explique le maximum de variance commune
23
La création de facteurs
X1
X3
X2
Critère Trouver la combinaison linéaire qui
explique le maximum de variance commune
24
Interpréter les facteurs Corrélations entre les
scores factoriels et les variables
25
La corrélation et les angles
F1
X2
COS 90 0
26
Représentation géométrique des variables
F1
F3
F2
27
Interpréter les facteurs Corrélations entre les
scores factoriels et les variables
F1
x1
x1
Scores factoriels
x3
x3
x2
x2
F3
F2
28
Interpréter les facteurs Corrélations entre les
scores factoriels et les variables
F1
x1
x1
F1
Scores factoriels
F2
x3
x3
x2
x2
F3
F2
29
Interpréter les facteurs Corrélations entre les
scores factoriels et les variables
F1
x1
x1
F1
Scores factoriels
F2
F3
x3
x3
x2
x2
F3
F2
30
Interpréter les facteurs Corrélations entre les
scores factoriels et les variables
F1
x1
x3
x2
F3
F2
31
Interpréter les facteurs Corrélations entre les
scores factoriels et les variables
F1
x1
x2
x3
F3
F2
32
Interpréter les facteurs Corrélations entre les
scores factoriels et les variables
F1
x2
x3
x1
F3
F3
F2
F2
33
Ignorer son partenaire
Dénigrer son partenaire
Insulter son partenaire
Facteur Abus
Critiquer son partenaire
Menacer son partenaire
Giffler son partenaire
Pousser son partenaire
Frapper avec le poing son partenaire
Critère Trouver la combinaison linéaire qui
explique le maximum de variance commune
34
Ignorer son partenaire
Dénigrer son partenaire
Facteur 1 Abus psychologique
Insulter son partenaire
Critiquer son partenaire
Facteur 2 Abus physique
Menacer son partenaire
Giffler son partenaire
Pousser son partenaire
Frapper avec le poing son partenaire
Critère Trouver la combinaison linéaire qui
explique le maximum de variance commune
35
Facteur 1
Facteur 2
Ignorer son partenaire
.76
.16
Dénigrer son partenaire
.70
.20
Insulter son partenaire
.81
.01
Critiquer son partenaire
.89
.09
Menacer son partenaire
.25
.45
Giffler son partenaire
.17
.87
Pousser son partenaire
.26
.78
Frapper avec le poing son partenaire
.19
.87
36
La corrélation canonique

La corrélation canonique crée des combinaisons
linéaires (des variables canoniques) permettant
de maximiser la corrélation entre les deux
ensembles de variables.

Critère Trouver la combinaison linéaire qui
maximise la corrélation canonique
37
Motricité fine
Âge à la rentrée en garderie
Coordination
Logique
Niveau socio-économique
Capacité dabstraction
Reconnaissance des émotions
Soutien à lautonomie des parents
Expression émotionnelle
38
La corrélation canonique

Les combinaisons linéaires des variables
indépendantes représentent la variance commune
qui permet de prédire les variables dépendantes
le plus efficacement possible.
De la même façon, les combinaisons linéaires des
variables dépendantes représentent la variance
commune qui peut être prédit le plus efficacement
possible par les variables indépendantes.
Les combinaisons linéaires ne sont pas toujours
interprétables

39
La corrélation canonique
Corrélation canonique (R)
R2
.44
.19
.06
.24
.00
.04
40
Wilks Lambda
Variance expliquée par la régression
F exact ou approximatif
Variance résiduelle
41
Motricité fine
Âge à la rentrée en garderie
Coordination
Logique
Niveau socio-économique
Capacité dabstraction
Reconnaissance des émotions
Soutien à lautonomie des parents
Expression émotionnelle
42
Convention Les corrélations de .30 et plus sont
interprétées.
43
Motricité fine
Âge à la rentrée en garderie
Coordination
Logique
Niveau socio-économique
Capacité dabstraction
Reconnaissance des émotions
Soutien à lautonomie des parents
Expression émotionnelle
44
La corrélation canonique

Les combinaisons linéaires sont orthogonales
La première corrélation explique le plus grand
pourcentage de variance
La prochaine corrélation cherche à expliquer la
variance résiduelle
Le nombre de corrélations canoniques sera le plus
petit de deux nombres
Soit, le nombre de variables indépendantes ou
dépendantes.
Sil y a 4 VDs et 5 VIs, on peut obtenir 4
corrélations canoniques
Si elles sont toutes significatives, vérifier
quelles ne sont pas banales (peu de variance
expliquée)

45
La corrélation canonique

Requière un grand nombre de participants
(Stevens, 1996)
Première corrélation 20 participants pour
chaque variable (VI et VD)
Deuxième corrélation 42 participants pour
chaque variable
La deuxième corrélation canonique est typiquement
difficile à interpréter.
Une alternative Le nombre de variables peut être
réduit à laide dune analyse par composante
principale ou une analyse factorielle.

46
Calculer le pourcentage de variance expliquée de
nos VDs
Corrélation canonique (R)
R2
.44
.19
.06
.24
47
Calculer le pourcentage de variance expliquée de
nos VDs
Corrélation canonique (R)
R2
.44
.19
.06
.24
Motricité fine
?
Coordination
Logique
Capacité dabstraction
Reconnaissance des émotions
Expression émotionnelle
48
Calculer le pourcentage de variance expliquée de
nos VDs
Corrélation canonique (R)
R2
.44
.19
.06
.24
Motricité fine

Coordination
Logique
Capacité dabstraction
Reconnaissance des émotions
Expression émotionnelle
49
Calculer le pourcentage de variance expliquée de
nos VDs

Index de redondance de Stewart et Love (1968)

Motricité fine
Coordination
Logique
Capacité dabstraction
Reconnaissance des émotions
Expression émotionnelle
?
50
Pour chaque corrélation canonique

Index de redondance Pourcentage de variance des
VDs expliquée par VIs
51
Corrélations entre les variables dépendantes et
les variables canonique
Combinaison 1
.862
.732
.532
.592
, donc R1 6 et R2 1 pour un total de 7
.152
.012
Combinaison 2
.162
.232
.162
.062
.792
.762
Et non 25!
52
Index de redondance

Pourcentage de variance des VDs expliquée par VIs
Les corrélations non-significatives devraient
être ignorées
On peut calculer la même chose mais à sens
inverse. Le pourcentage sera différent.

53
Calculer le pourcentage de variance expliquée de
nos VDs

Ce pourcentage, bien que mieux que la somme des
R2, a été critiqué parce quil ne permet pas de
contrôler pour la variance commune entre les VDs.
Ce pourcentage est le même que si on avait fait
des ANOVAs univariés et additionné les
pourcentage de variance expliquée
Cramer et Nicewander (1979, cité dans Stevens,
1996, p. 443) recommande plutôt dutiliser la
moyenne des corrélations canoniques
significatives au carré.

54
Calculer le pourcentage de variance expliquée de
nos VDs
Corrélation canonique (R)
R2
.44
.19
.06
.24
55
Facteurs influençant la corrélation et la
régression

Normalité de la distribution des variables
Indépendance des scores
La taille de léchantillon
La normalité de la distribution des résiduels
La forme de la relation
Lhomoscédasticité
Normalité des variables
Létendue
Les scores extrêmes
Absence de multicolinéarité

56
La taille de léchantillon

La taille de léchantillon influence la stabilité
des résultats
La corrélation canonique requière un grand nombre
de participants (Stevens, 1996)
Première corrélation 20 participants pour
chaque variable (VI et VD)
Deuxième corrélation 42 participants pour
chaque variable

Y
57
Normalité de la distribution des résiduels

Les erreurs de prédiction (ou les résiduels)
doivent être distribuées normalement autour de la
ligne de régression.

Y
58
La linéarité de la relation

La forme de la relation doit être linéaire.

Y
59
Lhomoscédasticité

La variabilité des scores sur une variable doit
être la même aux différents niveaux de lautre
variable.
Si vos variables sont normalement distribuées,
cela réduit la possibilité dhétéroscédasticité.

Y
60
Étendue suffisante
Y
X
61
Absence de scores extrêmes
Y
X
62
Absence de scores extrêmes
Y
X
63
Absence de multicolinéarité et de singularité

Si les variables indépendantes sont trop
corrélées entre elles (r gt .70 ?
attention, r gt .90 ? problème), il y a un
problème de multicolinéarité
Les erreurs destimation des betas augmentent en
fonction de la multicollinéarité des variables.
Il devient alors difficile davoir un beta
significatif.
Lors des calculs matriciels, la matrice utilisée
pour faire les divisions sera composée de scores
très près de 0 (p. ex., 0.000000000325).
Diviser par de tels scores donnent comme résultat
des chiffres très élevés et très instables qui
changent énormément suite à de minuscules
différences dans la matrice de corrélations.
Si une des variables indépendantes est
redondante, il y a un problème de singularité
Il y a singularité lorsquil est possible de
prédire parfaitement une variable à laide des
autres.
Il sera alors impossible dobtenir un résultat
puisque la matrice utilisée pour faire les
divisions sera composées de 0.
Cela peut arriver lorsquon inclut le score
global et les sous-échelles le composant dans une
même analyse.