Statistique descriptives deux dimensions - PowerPoint PPT Presentation

1 / 23
About This Presentation
Title:

Statistique descriptives deux dimensions

Description:

M thode de calcul: Si X et Y sont deux variables al atoires et Z=X Y; la moyenne de X est ... on calcul le coefficient de corr lation non pas entre les valeurs ... – PowerPoint PPT presentation

Number of Views:949
Avg rating:3.0/5.0
Slides: 24
Provided by: fet56
Category:

less

Transcript and Presenter's Notes

Title: Statistique descriptives deux dimensions


1
Statistique descriptives à deux dimensions
  • Objectif
  • Mettre en évidence les relations éventuelles
    entre deux séries dobservations considérées
    simultanément.
  • Nature des variables
  • Quantitatives, Qualitatives, Continues ou
    Discrètes..
  • Distribution des fréquences
  • Soient X et Y deux variables aléatoires tel que
  • X x1 , x2 ,x3 ,......xi ,xq et
  • Y y1 , y2 ,y3 ,......yi ,yq

2
  • Représentation graphique

3
  • Exemple  Soient les variables X représentant le
    nombre dufs pondus par couple et par an et Y le
    nombre de pigeonneaux vivant à 4 semaines. Les
    résultats des mesures pour 20 couples sont
    consignés sur le tableau suivant 

Pour représenter ces résultats sous forme dun
tableau à double entrée, lune des variables est
classée ( ici X).
4
La Covariance
  • Définition la covariance qui caractérise
    simultanément les deux séries dobservations est
    notée habituellement cov(x, y) ou tout simplement
    cov lorsquil sagit de 2 variables uniquement.
    Elle est exprimée par léquation
  • ou encore
  • La covariance est positive ou négative selon que
    le type de liaison entre les deux séries. On dit
    que les deux variables sont liées et le degré de
    liaison se mesure par le coefficient de
    corrélation.
  • La covariance est nulle ou presque nulle
    lorsquil y a compensation entre les deux séries,
    cest à dire si les deux variables sont
    indépendantes.

5
Calcul de la covariance
  • Méthode de calcul Si X et Y sont deux variables
    aléatoires et ZXY la moyenne de X est et
    sa variance la moyenne de Y est et
    sa variance la moyenne de Z est
  • si ZX-Y on aura de la même manière

6
  • La variance de Z est

Or
Donc
De la même manière, si Z X Y, on aura
7
La covariance est
Doù la formule pratique de calcul de la
covariance
8
Corrélation
  • Position du problème
  • On désire savoir, dans une population donnée, si
    le poids (y) et la taille (x) d'un individu sont
    deux variables indépendantes ou, au contraire, si
    elles sont liées en étudiant les variation de
    lune en fonction de lautre et réciproquement
  • Si les variables sont indépendantes yi doit
    avoir, en moyenne, la même valeur quelque soit xi
    et inversement.
  • Pour répondre au problème posé, on relève sur un
    échantillon de N individus, les N couples de
    valeurs x,y
  • Définition
  • Le coefficient de corrélation mesure
    lassociation linéaire entre X et Y
  • Il fait jouer un rôle symétrique à X et Y
  • Il reste identique si on change dunité ou
    dorigine

9
Corrélation
  • Tableau des valeurs
  • Représentation graphique
  • Nuage de points
  • Paramètres
  • Moyennes, Écarts type estimés, Covariance,
    Coefficient de corrélation
  • Éléments nécessaires
  • Nombre de couples N
  • Total des produits XY
  • Total des X et des Y
  • Total des carrés des X et des Y

10
Corrélation
  • Calculs Le degré de liaison entre 2 variables X
    et Y est estimé par le coefficient de corrélation
    rxy tel que 

Or
Donc la formule pratique du coefficient de
corrélation est donc 
11
Corrélation
  • Régression et corrélation
  • x et y sont deux variables aléatoires x en
    fonction de y et y en fonction de x ont un sens
    (poids/taille) gt corrélation significative
  • y est explicable par x (action /dose) gt
    régression
  • Droite de régression de X en fonction de Y et de
    Y en fonction de X

Droite de régression de x en y
Droite de régression de y en x
12
Corrélation
  • Calcul du coefficient de corrélation
  • r varie de -1 à 1
  • si r 0 pas de liaison
  • si r 1 (ou -1) la connaissance de x (ou de y)
    donne toute l'information. Il est alors inutile
    de mesurer l'autre variable.
  • Test du coefficient de corrélation contre 0
  • Hypothèse nulle
  • x et y sont indépendants. r fluctue autour de 0
    du fait du hasard.
  • Hypothèses alternatives
  • Test bilatéral x et y sont liés. r est différent
    de 0

13
Corrélation
  • Conditions d'applications
  • Si N est petit
  • pour une valeur de x donnée, la distribution des
    y (distribution liée) est normale et de variance
    constante (et réciproquement).
  • Le modèle linéaire a un sens
  • Utilisation de la table du coefficient de
    corrélation (Nlt100)
  • Calcul d'une statistique t de Student
  • Recherche dans la table (r ou t) de la valeur
    correspondant à alpha choisi.
  • Si r ou t (calculée) gt r ou t alpha (théorique
    au risque a) on rejette H0 les deux variables
    sont liées.
  • Si r ou t lt r ou t alpha on ne peut pas rejeter
    H0. x et y sont indépendants. r fluctue autour de
    0 du fait du hasard.

Si il y a une liaison, dans le cas où la
distribution (xy) est normale, r mesure la force
de cette liaison.
14
Divers types de résultats
  • Importance de la visualisation du nuage de points

 Nuage à petit ventre 
Forte corrélation positive r gt 0,9
Forte corrélation négative r lt -0,9
 Nuage à gros ventre 
Faible corrélation positive
Faible corrélation négative
Pas de corrélation r voisin de 0
15
Coefficient de corrélation de rang de Spearman
  • Si condition d'application pour le coefficient de
    corrélation usuelle ne sont pas remplies, on
    calcul le coefficient de corrélation non pas
    entre les valeurs mais entre leur rang.
  • Coefficient de corrélation Rs

N(N - 1)
Test du rs Spearman utilisation de table ou
calcul dun t de Student
16
Régression linéaire
  • Situation du problème
  • Étude da lassociation de deux variables
    quantitatives X et Y telle que X explique Y.
    Cela revient à étudier la distribution de Y pour
    chaque valeur de X.
  • Sil y a une association entre X et Y la
    distribution conditionnelle de Y varie selon les
    valeurs de X. La moyenne et la variance
    conditionnelle de Y dépendent de X. Ici on ne va
    s'intéresser quà la variation de la moyenne
    mY/X.
  • La fonction de régression de Y en X est la
    fonction f décrivant la variation de la moyenne
    conditionnelle de Y par rapport à X
  • f(x) E(Y/X)
  • Exemple Poids de naissance en fonction du terme
    de la grossesse, Baisse de la tension artérielle
    en fonction de la dose danti-hypertenseur...
  • Tableau des valeurs

Terme Poids moyen Ecart type
estimé 27 1146 437,46 28 1292 371,02 29 169
4 617,39 ....
17
Représentation des données
  • Exemple
  • Poids de naissance / Terme
  • Pour chaque valeur du terme on a la moyenne et
    lécart type du poids de naissance. On trace le
    nuage de points.
  • On envisage des fonctions simples entre
    lesquelles on essaie de choisir droite,
    exponentielle, parabole. En pratique, par
    transformation de variable, on se ramène à une
    droite
  • E(Y/x) f(x) a bx
  • Si lon se ramène aux valeurs individuelles on a
  • y a by e

ou e est lécart entre la valeur individuelle y
de chaque sujet et la moyenne de y pour une
valeur e x donnée.
18
Régression linéaire
  • Droite de régression
  • Estimation par le méthode des moindres carrés
  • Chaque sujet de la population est représenté par
    un couple de valeur (x,y) sur le graphique.
  • La droite de régression est parmi toutes les
    droites possibles celle qui résume le mieux le
    nuage de points.
  • Le critère retenu pour mesurer la distance dun
    point à la droite est la distance verticale entre
    le point xiyi et la droite.
  • La distance de la droite à lensemble des points
    est par définition la somme des carrés des
    distances. La droite de régression est celle qui
    minimise cette distance.

19
Régression linéaire
  • Estimation des paramètres de la droite
  • Si la liaison entre deux variables aléatoires
    X et Y existe, cest à dire si le coefficient de
    corrélation rxy est significatif, on peut établir
    les droites de régressions en supposant que la
    nature de cette liaison est linéaire.

Y a bX
X d cY
20
  • Droite de régression de Y en fonction de X Y
    a bX
  • La droite de régression de Y en fonction de X
    est déterminée de la manière suivante
  • On pose
  • est la pente de cette droite
  • Elle est calculée de la manière suivante
  • ou plus simplement

a
b
21
  • Droite de régression de X en fonction de Y X c
    dX
  • De la même manière que précédemment, on pose
  • on arrive à des équations semblables  et la
    pente de cette droite serait 
  • où représente la pente de cette droite.

22
Régression linéaire
  • Test de la pente de la droite de régression
  • Hypothèses
  • Hypothèse nulle
  • b 0 (ou d0) il ny a pas d'association entre
    X et Y
  • Hypothèse alternative
  • b différent de 0 (ou d différent de 0) (test
    bilatéral)
  • Conditions
  • La régression doit être linéaire
  • Pour X fixé, les valeurs de Y doivent être
    indépendantes de distribution normale et de
    variance constante
  • Écart type de la pente

23
Régression linéaire
  • Test de la pente de la droite de régression
  • Statistique t de Student

b
DDL N-2
t
- Décision Si t est supérieur à t alpha on
rejette H0. Il existe une relation entre les
variation de X et de Y Pour chaque valeur de X,
Y augment en moyenne de b. Sinon, la pente peut
être considérée comme nulle les valeurs de Y
sont indépendantes de X - Prédiction Sil
pente est différente de 0, on peut prédire la
valeur de Y à partir de celle de X. On ne doit
pas extrapoler en dehors des valeurs de X que
lon a observé. On peut calculer un intervalle
de confiance pour les valeurs prédites
Write a Comment
User Comments (0)
About PowerShow.com