Statistique descriptives deux dimensions - PowerPoint PPT Presentation

1 / 23

About This Presentation

Title:

Statistique descriptives deux dimensions

Description:

M thode de calcul: Si X et Y sont deux variables al atoires et Z=X Y; la moyenne de X est ... on calcul le coefficient de corr lation non pas entre les valeurs ... – PowerPoint PPT presentation

Number of Views:955

Avg rating:3.0/5.0

Slides: 24

Provided by: fet56

Category:

more less

Transcript and Presenter's Notes

Title: Statistique descriptives deux dimensions

1
Statistique descriptives à deux dimensions

Objectif
Mettre en évidence les relations éventuelles
entre deux séries dobservations considérées
simultanément.

Nature des variables
Quantitatives, Qualitatives, Continues ou
Discrètes..

Distribution des fréquences
Soient X et Y deux variables aléatoires tel que
X x1 , x2 ,x3 ,......xi ,xq et
Y y1 , y2 ,y3 ,......yi ,yq

Représentation graphique

Exemple Soient les variables X représentant le
nombre dufs pondus par couple et par an et Y le
nombre de pigeonneaux vivant à 4 semaines. Les
résultats des mesures pour 20 couples sont
consignés sur le tableau suivant

Pour représenter ces résultats sous forme dun
tableau à double entrée, lune des variables est
classée ( ici X).
4
La Covariance

Définition la covariance qui caractérise
simultanément les deux séries dobservations est
notée habituellement cov(x, y) ou tout simplement
cov lorsquil sagit de 2 variables uniquement.
Elle est exprimée par léquation
ou encore
La covariance est positive ou négative selon que
le type de liaison entre les deux séries. On dit
que les deux variables sont liées et le degré de
liaison se mesure par le coefficient de
corrélation.
La covariance est nulle ou presque nulle
lorsquil y a compensation entre les deux séries,
cest à dire si les deux variables sont
indépendantes.

5
Calcul de la covariance

Méthode de calcul Si X et Y sont deux variables
aléatoires et ZXY la moyenne de X est et
sa variance la moyenne de Y est et
sa variance la moyenne de Z est
si ZX-Y on aura de la même manière

La variance de Z est

Or
Donc
De la même manière, si Z X Y, on aura
7
La covariance est
Doù la formule pratique de calcul de la
covariance
8
Corrélation

Position du problème
On désire savoir, dans une population donnée, si
le poids (y) et la taille (x) d'un individu sont
deux variables indépendantes ou, au contraire, si
elles sont liées en étudiant les variation de
lune en fonction de lautre et réciproquement
Si les variables sont indépendantes yi doit
avoir, en moyenne, la même valeur quelque soit xi
et inversement.
Pour répondre au problème posé, on relève sur un
échantillon de N individus, les N couples de
valeurs x,y
Définition

Le coefficient de corrélation mesure
lassociation linéaire entre X et Y
Il fait jouer un rôle symétrique à X et Y
Il reste identique si on change dunité ou
dorigine

9
Corrélation

Tableau des valeurs

Représentation graphique
Nuage de points

Paramètres
Moyennes, Écarts type estimés, Covariance,
Coefficient de corrélation
Éléments nécessaires
Nombre de couples N
Total des produits XY
Total des X et des Y
Total des carrés des X et des Y

10
Corrélation

Calculs Le degré de liaison entre 2 variables X
et Y est estimé par le coefficient de corrélation
rxy tel que

Or
Donc la formule pratique du coefficient de
corrélation est donc
11
Corrélation

Régression et corrélation
x et y sont deux variables aléatoires x en
fonction de y et y en fonction de x ont un sens
(poids/taille) gt corrélation significative
y est explicable par x (action /dose) gt
régression
Droite de régression de X en fonction de Y et de
Y en fonction de X

Droite de régression de x en y
Droite de régression de y en x
12
Corrélation

Calcul du coefficient de corrélation

r varie de -1 à 1
si r 0 pas de liaison
si r 1 (ou -1) la connaissance de x (ou de y)
donne toute l'information. Il est alors inutile
de mesurer l'autre variable.

Test du coefficient de corrélation contre 0

Hypothèse nulle
x et y sont indépendants. r fluctue autour de 0
du fait du hasard.
Hypothèses alternatives
Test bilatéral x et y sont liés. r est différent
de 0

13
Corrélation

Conditions d'applications
Si N est petit
pour une valeur de x donnée, la distribution des
y (distribution liée) est normale et de variance
constante (et réciproquement).
Le modèle linéaire a un sens
Utilisation de la table du coefficient de
corrélation (Nlt100)
Calcul d'une statistique t de Student

Recherche dans la table (r ou t) de la valeur
correspondant à alpha choisi.
Si r ou t (calculée) gt r ou t alpha (théorique
au risque a) on rejette H0 les deux variables
sont liées.
Si r ou t lt r ou t alpha on ne peut pas rejeter
H0. x et y sont indépendants. r fluctue autour de
0 du fait du hasard.

Si il y a une liaison, dans le cas où la
distribution (xy) est normale, r mesure la force
de cette liaison.
14
Divers types de résultats

Importance de la visualisation du nuage de points

Nuage à petit ventre
Forte corrélation positive r gt 0,9
Forte corrélation négative r lt -0,9
Nuage à gros ventre
Faible corrélation positive
Faible corrélation négative
Pas de corrélation r voisin de 0
15
Coefficient de corrélation de rang de Spearman

Si condition d'application pour le coefficient de
corrélation usuelle ne sont pas remplies, on
calcul le coefficient de corrélation non pas
entre les valeurs mais entre leur rang.
Coefficient de corrélation Rs

N(N - 1)
Test du rs Spearman utilisation de table ou
calcul dun t de Student
16
Régression linéaire

Situation du problème
Étude da lassociation de deux variables
quantitatives X et Y telle que X explique Y.
Cela revient à étudier la distribution de Y pour
chaque valeur de X.
Sil y a une association entre X et Y la
distribution conditionnelle de Y varie selon les
valeurs de X. La moyenne et la variance
conditionnelle de Y dépendent de X. Ici on ne va
s'intéresser quà la variation de la moyenne
mY/X.
La fonction de régression de Y en X est la
fonction f décrivant la variation de la moyenne
conditionnelle de Y par rapport à X
f(x) E(Y/X)
Exemple Poids de naissance en fonction du terme
de la grossesse, Baisse de la tension artérielle
en fonction de la dose danti-hypertenseur...
Tableau des valeurs

Terme Poids moyen Ecart type
estimé 27 1146 437,46 28 1292 371,02 29 169
4 617,39 ....
17
Représentation des données

Exemple
Poids de naissance / Terme
Pour chaque valeur du terme on a la moyenne et
lécart type du poids de naissance. On trace le
nuage de points.
On envisage des fonctions simples entre
lesquelles on essaie de choisir droite,
exponentielle, parabole. En pratique, par
transformation de variable, on se ramène à une
droite
E(Y/x) f(x) a bx
Si lon se ramène aux valeurs individuelles on a
y a by e

ou e est lécart entre la valeur individuelle y
de chaque sujet et la moyenne de y pour une
valeur e x donnée.
18
Régression linéaire

Droite de régression
Estimation par le méthode des moindres carrés
Chaque sujet de la population est représenté par
un couple de valeur (x,y) sur le graphique.
La droite de régression est parmi toutes les
droites possibles celle qui résume le mieux le
nuage de points.
Le critère retenu pour mesurer la distance dun
point à la droite est la distance verticale entre
le point xiyi et la droite.
La distance de la droite à lensemble des points
est par définition la somme des carrés des
distances. La droite de régression est celle qui
minimise cette distance.

19
Régression linéaire

Estimation des paramètres de la droite
Si la liaison entre deux variables aléatoires
X et Y existe, cest à dire si le coefficient de
corrélation rxy est significatif, on peut établir
les droites de régressions en supposant que la
nature de cette liaison est linéaire.

Y a bX
X d cY
20

Droite de régression de Y en fonction de X Y
a bX
La droite de régression de Y en fonction de X
est déterminée de la manière suivante
On pose
est la pente de cette droite
Elle est calculée de la manière suivante
ou plus simplement

a
b
21

Droite de régression de X en fonction de Y X c
dX
De la même manière que précédemment, on pose
on arrive à des équations semblables et la
pente de cette droite serait
où représente la pente de cette droite.

22
Régression linéaire

Test de la pente de la droite de régression
Hypothèses
Hypothèse nulle
b 0 (ou d0) il ny a pas d'association entre
X et Y
Hypothèse alternative
b différent de 0 (ou d différent de 0) (test
bilatéral)
Conditions
La régression doit être linéaire
Pour X fixé, les valeurs de Y doivent être
indépendantes de distribution normale et de
variance constante
Écart type de la pente

23
Régression linéaire

Test de la pente de la droite de régression
Statistique t de Student

b
DDL N-2
t
- Décision Si t est supérieur à t alpha on
rejette H0. Il existe une relation entre les
variation de X et de Y Pour chaque valeur de X,
Y augment en moyenne de b. Sinon, la pente peut
être considérée comme nulle les valeurs de Y
sont indépendantes de X - Prédiction Sil
pente est différente de 0, on peut prédire la
valeur de Y à partir de celle de X. On ne doit
pas extrapoler en dehors des valeurs de X que
lon a observé. On peut calculer un intervalle
de confiance pour les valeurs prédites

Write a Comment

User Comments (0)