Title: La corrlation et la rgression
1La corrélation et la régression
2Mesure de la relation entre deux variables
- 2 variables sont prises en considération
simultanément - Ex. Résultats en français et en mathématique
- Couleur dune auto et le nombre daccidents
- Attention, ce nest jamais un indice de cause Ã
effet - -gt manipulations expérimentales
- La relation est décrite par le coefficient de
corrélation (r) - Il varie entre -1 et 1 1 (ou -1) relation
parfaite 0 absence de relation - Il existe donc trois cas possibles
- Relation positive x augmente y augmente
- Relation négative x diminue y augmente
- Absence de relation x augmente (ou diminue) y
ne change pas
3Exemples de relation
4Exemples de relation
5Exemple
6Exemple
Mesure la direction et la grandeur de la relation
7Note
8Exemple
Comme on ne peut pas comparer des mesures de
covariances entrent-elles, il faut la
standardiser.
9Coefficient de détermination
Variance commune 0
x
y
Variance commune 25
x
y
Variance commune 80
x
y
10Exemple
77 de la variance en y peut être expliquée par
la variance en x
Exemple 2 (SAT)
36 de la variance de la réussite universitaire
peut être expliquée par la variance du score au
SAT
11Coefficient de corrélation erronés
Restriction de létendue diminue la corrélation
12Coefficient de corrélation erronés
Utilisation de groupes extrêmes augmente la
corrélation
r 0.75
13Coefficient de corrélation erronés
Utilisation de groupes extrêmes augmente la
corrélation
r 0.50
14Coefficient de corrélation erronés
Combiner des groupes augmente ou diminue la
corrélation
r2 0
r1 gt 0
r1 0
r2 gt 0
r2 gt 0
r1 gt 0
15Coefficient de corrélation erronés
Score extrême augmente ou diminue la corrélation
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
x
16Coefficient de corrélation erronés
Relation non linéaire diminue la corrélation
17Note
- Même si le coefficient de corrélation est celui
rapporté, il nest pas un estimateur non biaisé
de la corrélation dans la population. Plus,
léchantillon est petit, plus le biais sera
grand. Pour corriger la situation, le coefficient
de corrélation ajusté est calculé.
18Inférence
19Inférence
- Lhypothèse émise est que la corrélation entre x
et y est nulle dans la population. Autrement dit,
on cherche à savoir si x et y sont linéairement
indépendants. Si on rejette cette hypothèse,
alors cela indique que les populations ne sont
pas indépendantes et quil existe une relation
linéaire entre les deux.
Ou
20Exemple
Comme le tobs gttcrit (3.209gt3.182) on rejette H0
et on accepte H1. Les 2 populations sont donc
dépendantes.
21Distribution F
Degrées de liberté au numérateur
1-a
Degrées de liberté au dénominateur
22Distribution F
dl11 (2 groupes)
23Exemple (F)
Comme le Fobs gtFcrit (10.37gt10.13) on rejette H0
et on accepte H1. Les 2 populations sont donc
dépendantes.
24Régression linéaire
25Régression linéaire
- On veut une relation fonctionnelle entre 2
variables et non seulement un indice
dassociation - Autrement dit, on veut être en mesure de faire de
la prédiction
Rappel des caractérisiques (pente, constante) de
léquation dune droite
y1
x1
26Les paramètres de la droite de régression
Si on remplace b0
27Note
On sait que
Si on remplace la covariance par sa valeur
28Exemple 2
29Exemple 2
30Prédiction
- À partir de léquation de régression, il est
possible de faire des prédiction
Ex. 1 Si x 7.5, que vaut ?
31Prédiction
- De façon similaire on peut prédire x à partie de y
Ex. 2 Si y 9.65, que vaut ?
32Prédiction
Ex. 3 Si x 3, que vaut ?
- Or, (x,y) gt (3,2). Donc, la prédiction commet
une certaine erreur
33Erreur type de la régression
- La différence entre la droite de régression
constitue lerreur de prédiction à partir de x.
34Note
Pour des grands échantillons
35Intervalles de confiance
Prédiction à partir dun nouveau score
- Lerreur type est un estimé de lerreur totale.
Cependant il nest pas un bon estimé pour la
prédiction dun x donné. En effet, lestimation
de lerreur sera petite lorsque x est près de la
moyenne et plus grande lorsquil est loin de la
moyenne.
36Intervalles de confiance
Prédiction à partir dun nouveau score
- Exemple xnew 7.5 pour un IC de 95
37Intervalles de confiance
Prédiction pour lensemble des données
- Il peut être intéressant de connaître la région
de confiance pour lensemble de la droite de
régression.
38Exemple
39Exemple
40Exemple
41Relation entre le test t et la corrélation
42Groupes indépendants
- Variabilité dans lestimation des paramètres
(erreur type)
a
c
b
- Si on remplace  a par sa valeur
43Groupes dépendants
- Variabilité dans lestimation des paramètres
(erreur type)
c
a
q
b
- Si on remplace  a par sa valeur
44Groupes dépendants