Title: Statistique descriptives deux dimensions
1Statistique descriptives à deux dimensions
- Objectif
- Mettre en évidence les relations éventuelles
entre deux séries dobservations considérées
simultanément.
- Nature des variables
- Quantitatives, Qualitatives, Continues ou
Discrètes..
- Distribution des fréquences
- Soient X et Y deux variables aléatoires tel que
- X x1 , x2 ,x3 ,......xi ,xq et
- Y y1 , y2 ,y3 ,......yi ,yq
2 3- Exemple Soient les variables X représentant le
nombre dufs pondus par couple et par an et Y le
nombre de pigeonneaux vivant à 4 semaines. Les
résultats des mesures pour 20 couples sont
consignés sur le tableau suivant
Pour représenter ces résultats sous forme dun
tableau à double entrée, lune des variables est
classée ( ici X).
4La Covariance
- Définition la covariance qui caractérise
simultanément les deux séries dobservations est
notée habituellement cov(x, y) ou tout simplement
cov lorsquil sagit de 2 variables uniquement.
Elle est exprimée par léquation - ou encore
- La covariance est positive ou négative selon que
le type de liaison entre les deux séries. On dit
que les deux variables sont liées et le degré de
liaison se mesure par le coefficient de
corrélation. - La covariance est nulle ou presque nulle
lorsquil y a compensation entre les deux séries,
cest à dire si les deux variables sont
indépendantes.
5Calcul de la covariance
- Méthode de calcul Si X et Y sont deux variables
aléatoires et ZXY la moyenne de X est et
sa variance la moyenne de Y est et
sa variance la moyenne de Z est -
- si ZX-Y on aura de la même manière
-
6Or
Donc
De la même manière, si Z X Y, on aura
7La covariance est
Doù la formule pratique de calcul de la
covariance
8Corrélation
- Position du problème
- On désire savoir, dans une population donnée, si
le poids (y) et la taille (x) d'un individu sont
deux variables indépendantes ou, au contraire, si
elles sont liées en étudiant les variation de
lune en fonction de lautre et réciproquement - Si les variables sont indépendantes yi doit
avoir, en moyenne, la même valeur quelque soit xi
et inversement. - Pour répondre au problème posé, on relève sur un
échantillon de N individus, les N couples de
valeurs x,y - Définition
- Le coefficient de corrélation mesure
lassociation linéaire entre X et Y - Il fait jouer un rôle symétrique à X et Y
- Il reste identique si on change dunité ou
dorigine
9Corrélation
- Représentation graphique
- Nuage de points
- Paramètres
- Moyennes, Écarts type estimés, Covariance,
Coefficient de corrélation - Éléments nécessaires
- Nombre de couples N
- Total des produits XY
- Total des X et des Y
- Total des carrés des X et des Y
10Corrélation
- Calculs Le degré de liaison entre 2 variables X
et Y est estimé par le coefficient de corrélation
rxy tel que
Or
Donc la formule pratique du coefficient de
corrélation est donc
11Corrélation
- Régression et corrélation
- x et y sont deux variables aléatoires x en
fonction de y et y en fonction de x ont un sens
(poids/taille) gt corrélation significative - y est explicable par x (action /dose) gt
régression - Droite de régression de X en fonction de Y et de
Y en fonction de X
Droite de régression de x en y
Droite de régression de y en x
12Corrélation
- Calcul du coefficient de corrélation
- r varie de -1 à 1
- si r 0 pas de liaison
- si r 1 (ou -1) la connaissance de x (ou de y)
donne toute l'information. Il est alors inutile
de mesurer l'autre variable.
- Test du coefficient de corrélation contre 0
- Hypothèse nulle
- x et y sont indépendants. r fluctue autour de 0
du fait du hasard. - Hypothèses alternatives
- Test bilatéral x et y sont liés. r est différent
de 0
13Corrélation
- Conditions d'applications
- Si N est petit
- pour une valeur de x donnée, la distribution des
y (distribution liée) est normale et de variance
constante (et réciproquement). - Le modèle linéaire a un sens
- Utilisation de la table du coefficient de
corrélation (Nlt100) - Calcul d'une statistique t de Student
- Recherche dans la table (r ou t) de la valeur
correspondant à alpha choisi. - Si r ou t (calculée) gt r ou t alpha (théorique
au risque a) on rejette H0 les deux variables
sont liées. - Si r ou t lt r ou t alpha on ne peut pas rejeter
H0. x et y sont indépendants. r fluctue autour de
0 du fait du hasard.
Si il y a une liaison, dans le cas où la
distribution (xy) est normale, r mesure la force
de cette liaison.
14Divers types de résultats
- Importance de la visualisation du nuage de points
Nuage à petit ventre
Forte corrélation positive r gt 0,9
Forte corrélation négative r lt -0,9
Nuage à gros ventre
Faible corrélation positive
Faible corrélation négative
Pas de corrélation r voisin de 0
15Coefficient de corrélation de rang de Spearman
- Si condition d'application pour le coefficient de
corrélation usuelle ne sont pas remplies, on
calcul le coefficient de corrélation non pas
entre les valeurs mais entre leur rang. - Coefficient de corrélation Rs
N(N - 1)
Test du rs Spearman utilisation de table ou
calcul dun t de Student
16Régression linéaire
- Situation du problème
- Étude da lassociation de deux variables
quantitatives X et Y telle que X explique Y.
Cela revient à étudier la distribution de Y pour
chaque valeur de X. - Sil y a une association entre X et Y la
distribution conditionnelle de Y varie selon les
valeurs de X. La moyenne et la variance
conditionnelle de Y dépendent de X. Ici on ne va
s'intéresser quà la variation de la moyenne
mY/X. - La fonction de régression de Y en X est la
fonction f décrivant la variation de la moyenne
conditionnelle de Y par rapport à X - f(x) E(Y/X)
- Exemple Poids de naissance en fonction du terme
de la grossesse, Baisse de la tension artérielle
en fonction de la dose danti-hypertenseur... - Tableau des valeurs
Terme Poids moyen Ecart type
estimé 27 1146 437,46 28 1292 371,02 29 169
4 617,39 ....
17Représentation des données
- Exemple
- Poids de naissance / Terme
- Pour chaque valeur du terme on a la moyenne et
lécart type du poids de naissance. On trace le
nuage de points. - On envisage des fonctions simples entre
lesquelles on essaie de choisir droite,
exponentielle, parabole. En pratique, par
transformation de variable, on se ramène à une
droite - E(Y/x) f(x) a bx
- Si lon se ramène aux valeurs individuelles on a
- y a by e
ou e est lécart entre la valeur individuelle y
de chaque sujet et la moyenne de y pour une
valeur e x donnée.
18Régression linéaire
- Droite de régression
- Estimation par le méthode des moindres carrés
- Chaque sujet de la population est représenté par
un couple de valeur (x,y) sur le graphique. - La droite de régression est parmi toutes les
droites possibles celle qui résume le mieux le
nuage de points. - Le critère retenu pour mesurer la distance dun
point à la droite est la distance verticale entre
le point xiyi et la droite. - La distance de la droite à lensemble des points
est par définition la somme des carrés des
distances. La droite de régression est celle qui
minimise cette distance.
19Régression linéaire
- Estimation des paramètres de la droite
- Si la liaison entre deux variables aléatoires
X et Y existe, cest à dire si le coefficient de
corrélation rxy est significatif, on peut établir
les droites de régressions en supposant que la
nature de cette liaison est linéaire.
Y a bX
X d cY
20- Droite de régression de Y en fonction de X Y
a bX - La droite de régression de Y en fonction de X
est déterminée de la manière suivante - On pose
- est la pente de cette droite
- Elle est calculée de la manière suivante
- ou plus simplement
-
a
b
21- Droite de régression de X en fonction de Y X c
dX - De la même manière que précédemment, on pose
- on arrive à des équations semblables et la
pente de cette droite serait - où représente la pente de cette droite.
-
22Régression linéaire
- Test de la pente de la droite de régression
- Hypothèses
- Hypothèse nulle
- b 0 (ou d0) il ny a pas d'association entre
X et Y - Hypothèse alternative
- b différent de 0 (ou d différent de 0) (test
bilatéral) - Conditions
- La régression doit être linéaire
- Pour X fixé, les valeurs de Y doivent être
indépendantes de distribution normale et de
variance constante - Écart type de la pente
23Régression linéaire
- Test de la pente de la droite de régression
- Statistique t de Student
b
DDL N-2
t
- Décision Si t est supérieur à t alpha on
rejette H0. Il existe une relation entre les
variation de X et de Y Pour chaque valeur de X,
Y augment en moyenne de b. Sinon, la pente peut
être considérée comme nulle les valeurs de Y
sont indépendantes de X - Prédiction Sil
pente est différente de 0, on peut prédire la
valeur de Y à partir de celle de X. On ne doit
pas extrapoler en dehors des valeurs de X que
lon a observé. On peut calculer un intervalle
de confiance pour les valeurs prédites