Aujourdhui: - PowerPoint PPT Presentation

1 / 41
About This Presentation
Title:

Aujourdhui:

Description:

On peut repr senter la collection de paires de valeurs avec un scatterplot ... A a on ajoute la correlation r = r(X,Y) La correlation, qu'est ce ... – PowerPoint PPT presentation

Number of Views:41
Avg rating:3.0/5.0
Slides: 42
Provided by: tab41
Category:

less

Transcript and Presenter's Notes

Title: Aujourdhui:


1
Aujourdhui
  • Les données bivariates
  • Correlation
  • Regression

2
Données Bivariate
  • Données Bivariate sont exactement ça, pour
    chaque unité (ou individu) il y a
  • deux variablesX et Y
  • Nous allons considèrer deux variables continues
  • Nous avons pour but détudier la relation entre
    les deux

3
Scatterplot
  • On peut représenter la collection de paires de
    valeurs avec un scatterplot
  • Pour chaque individu avec la paire de valeurs
    (x,y), on met le point (x,y) sur un plan
  • Ainsi on peut visualiser comment les deux
    variables sassocient

4
ScatterplotLa correlation positive
5
Scatterplot La correlation negative
6
Scatterplot un vrai exemple
7
Resume Numerique
  • Typiquement les données bivariates se summarisent
    avec 5 statistiques
  • Cettes statistiques decrivent les données assez
    bien si la nuage de points ressemble à un ellipse
  • On summarise separement chaque variable X,
    ET(X), Y, ET(Y)
  • A ça on ajoute la correlation r r(X,Y)

8
La correlation, quest ce que cest?
  • r est un mesure de l association LINEAIRE
  • Le plus proche soit r à 1, le plus serrées
    seraient les points autour dun droit
  • Le signe de r ( ou -) est le meme que celui de
    la pente de ce droit
  • Si r 0, les variables ne sont pas LINEAIREMENT
    associées ce qui nimplique pas que les
    variables ne sont pas associées

9
r ? 0 une possibilité
10
r ? 0 valeurs aberrantes
outliers
11
r ? 0 parallel lines
12
r ? 0 une autre possibilité
13
r ? 0 et une autre possibilité
14
La Correlation nimplique pas la causalite
  • On ne peut pas deduire d-une haute valeur pour r,
    quil existe une relation entre les deux
    variables. Un changement de X ne menerait pas
    forcément à un changement pour Y
  • Cest, par exemple, bien possible que les
  • deux sient influencées par une troisième
  • variable inconnue

15
La Regression simple
  • On utilise un ligne y a bx pour prédire la
    valeur de Y étant donné celle de X
  • On lemploie pour
  • lexplication
  • La prediction
  • a sappele lintercept b est la pente

16
Quelle ligne?
  • Il y en a
  • plusieurs possibilités

17
(No Transcript)
18
Creation des transches
19
Plot des moyennes
20
Regression Prediction
  • La regression prediction dit
  • si X saugmente par 1 ET(X), la prediction
  • Y saugmente par seulement r ET(Y)s (se diminue
    si r était negative)
  • Cet idée nous mene à
  • b pente r ET(Y)/ET(X),
  • et
  • a intercept Y b X


_
_
21
Une autre description
  • pour calculer la valeur y qui correspond à une
    valeur x
  • On rend x en unités standardes x-gt
  • (x-X)/ET(X)
  • on multiplie par r pour obtenir la valeur y (en
    unités standardes)
  • On transform en unités originales
  • y Y YET(Y) r ((x-X)/ET(X) )

_
_
_

22
(No Transcript)
23
(No Transcript)
24
Moindres carrés
  • Q Dou vient lequation?
  • S Cest le droit qui minimize (sur tous les
    droits) la somme des carrés des erreurs

Y



erreurs


X
25
Un modèle stochastique
On postule le modèle suivant yi a ßxi ei
où les ei sont i.i.d. N(0, s2
). Maintenant les valeurs a Y b X et ß
r ET(Y)/ET(X) sont les estimatuers de MV
_
_
26
Regression par rapport à la valeur absolue
27
Un experience avec une relation nonlinéaire
  • x0.1seq(150)
  • gt y2x2rnorm(50)
  • gt plot(x,y)
  • gt abline(lm(yx),col2)
  • gt linlt-lm(yx)
  • gt plot(fitted(lin),resid(lin))

28
Regression avec une relation nonlinéaire
29
Plot des residues
30
(No Transcript)
31
x0.3seq(120) 2 gt x0.3seq(120) gt
y2xseq(120)rnorm(20) gt linlt-lm(yx) gt
plot(fitted(lin),resid(lin))
32
Plot des residues
33
Scatterplot (again)
34
R la commande lm
  • Pour calculer les coefficients (intercept et
    pente(s)) avec R lm(y x)
  • c.v.d. decrivé (ou modelisé) par
  • Exemple prédire ventricular shortening velocity
    de blood glucose
  • gt lm(short.velocity blood.glucose)
  • Call
  • lm(formula short.velocity blood.glucose)
  • Coefficients
  • (Intercept) blood.glucose
  • 1.09781 0.02196

35
R summarizing lm
  • gt summary(lm(short.velocityblood.glucose))
  • Call
  • lm(formula short.velocity blood.glucose)
  • Residuals
  • Min 1Q Median 3Q Max
  • -0.40141 -0.14760 -0.02202 0.03001 0.43490
  • Coefficients
  • Estimate Std. Error t value
    Pr(gtt)
  • (Intercept) 1.09781 0.11748 9.345
    6.26e-09
  • blood.glucose 0.02196 0.01045 2.101
    0.0479
  • ---
  • Signif. codes 0 ' 0.001 ' 0.01 ' 0.05
    .' 0.1 ' 1
  • Residual standard error 0.2167 on 21 degrees of
    freedom
  • Multiple R-Squared 0.1737, Adjusted
    R-squared 0.1343
  • F-statistic 4.414 on 1 and 21 DF, p-value
    0.0479

36
R NA in statistical functions
  • For single vector functions (e.g. mean, var, sd),
    give the argument na.rmTRUE
  • For cor, though, there are more possibilities for
    dealing with NA
  • See the argument use and the methods given there
    ?cor

37
R correlation
  • To get the correlation coefficient, type
  • gt cor(x,y)
  • Note, however, that if there are missing values
    (NA), then you will get an error message
  • Elementary statistical functions in R require
  • no missing values, or
  • explicit statement of what to do with NA

38
Correlation Coefficient
  • The (sample) correlation coefficient r is
    defined as the average value of the product (X in
    SUs)(Y in SUs)
  • r is a unitless quantity
  • -1 ? r ? 1
  • r is a measure of LINEAR ASSOCIATION
  • In R gt cor(x,y)

39
Multiple linear regression
  • You can also use more than one X variable to
    predict Y
  • predicted y a b1x1 b2x2
  • Example predict ventricular shortening velocity
    (Y) from blood glucose (X1) and age (X2)
  • The prediction function for Y is still linear in
    the parameters (a, b1, b2)

40
Exercises Correlation and Regression
  • Here, you will work with the classic data set
    anscombe to get some practice making
    scatterplots
  • You will also experience the pitfalls of assuming
    what a scatterplot looks like based on summary
    statistics
  • You can get some (light) practice doing linear
    modeling by generating data (or using your own)
    and fitting a linear model

41
R using lm
  • You can do much more complicated modeling with lm
  • The result of lm is a model object which contains
    additional information beyond what gets printed
  • To extract other quantities
  • gt summary(lm(short.velocity blood.glucose))
Write a Comment
User Comments (0)
About PowerShow.com