Title: Aujourdhui:
1Aujourdhui
- Les données bivariates
- Correlation
- Regression
2Données Bivariate
- Données Bivariate sont exactement ça, pour
chaque unité (ou individu) il y a - deux variablesX et Y
- Nous allons considèrer deux variables continues
- Nous avons pour but détudier la relation entre
les deux
3Scatterplot
- On peut représenter la collection de paires de
valeurs avec un scatterplot - Pour chaque individu avec la paire de valeurs
(x,y), on met le point (x,y) sur un plan - Ainsi on peut visualiser comment les deux
variables sassocient
4ScatterplotLa correlation positive
5Scatterplot La correlation negative
6Scatterplot un vrai exemple
7Resume Numerique
- Typiquement les données bivariates se summarisent
avec 5 statistiques - Cettes statistiques decrivent les données assez
bien si la nuage de points ressemble à un ellipse - On summarise separement chaque variable X,
ET(X), Y, ET(Y) - A ça on ajoute la correlation r r(X,Y)
8La correlation, quest ce que cest?
- r est un mesure de l association LINEAIRE
- Le plus proche soit r à 1, le plus serrées
seraient les points autour dun droit - Le signe de r ( ou -) est le meme que celui de
la pente de ce droit - Si r 0, les variables ne sont pas LINEAIREMENT
associées ce qui nimplique pas que les
variables ne sont pas associées
9r ? 0 une possibilité
10r ? 0 valeurs aberrantes
outliers
11r ? 0 parallel lines
12r ? 0 une autre possibilité
13r ? 0 et une autre possibilité
14La Correlation nimplique pas la causalite
- On ne peut pas deduire d-une haute valeur pour r,
quil existe une relation entre les deux
variables. Un changement de X ne menerait pas
forcément à un changement pour Y - Cest, par exemple, bien possible que les
- deux sient influencées par une troisième
- variable inconnue
15La Regression simple
- On utilise un ligne y a bx pour prédire la
valeur de Y étant donné celle de X - On lemploie pour
- lexplication
- La prediction
- a sappele lintercept b est la pente
16Quelle ligne?
- Il y en a
- plusieurs possibilités
17(No Transcript)
18Creation des transches
19Plot des moyennes
20Regression Prediction
- La regression prediction dit
- si X saugmente par 1 ET(X), la prediction
- Y saugmente par seulement r ET(Y)s (se diminue
si r était negative) - Cet idée nous mene Ã
- b pente r ET(Y)/ET(X),
- et
- a intercept Y b X
_
_
21Une autre description
- pour calculer la valeur y qui correspond à une
valeur x - On rend x en unités standardes x-gt
- (x-X)/ET(X)
- on multiplie par r pour obtenir la valeur y (en
unités standardes) - On transform en unités originales
- y Y YET(Y) r ((x-X)/ET(X) )
_
_
_
22(No Transcript)
23(No Transcript)
24Moindres carrés
- Q Dou vient lequation?
- S Cest le droit qui minimize (sur tous les
droits) la somme des carrés des erreurs
Y
erreurs
X
25Un modèle stochastique
On postule le modèle suivant yi a ßxi ei
où les ei sont i.i.d. N(0, s2
). Maintenant les valeurs a Y b X et ß
r ET(Y)/ET(X) sont les estimatuers de MV
_
_
26Regression par rapport à la valeur absolue
27Un experience avec une relation nonlinéaire
- x0.1seq(150)
- gt y2x2rnorm(50)
- gt plot(x,y)
- gt abline(lm(yx),col2)
- gt linlt-lm(yx)
- gt plot(fitted(lin),resid(lin))
28Regression avec une relation nonlinéaire
29Plot des residues
30(No Transcript)
31 x0.3seq(120) 2 gt x0.3seq(120) gt
y2xseq(120)rnorm(20) gt linlt-lm(yx) gt
plot(fitted(lin),resid(lin))
32Plot des residues
33Scatterplot (again)
34R la commande lm
- Pour calculer les coefficients (intercept et
pente(s)) avec R lm(y x) - c.v.d. decrivé (ou modelisé) par
- Exemple prédire ventricular shortening velocity
de blood glucose - gt lm(short.velocity blood.glucose)
- Call
- lm(formula short.velocity blood.glucose)
- Coefficients
- (Intercept) blood.glucose
- 1.09781 0.02196
35R summarizing lm
- gt summary(lm(short.velocityblood.glucose))
- Call
- lm(formula short.velocity blood.glucose)
- Residuals
- Min 1Q Median 3Q Max
- -0.40141 -0.14760 -0.02202 0.03001 0.43490
- Coefficients
- Estimate Std. Error t value
Pr(gtt) - (Intercept) 1.09781 0.11748 9.345
6.26e-09 - blood.glucose 0.02196 0.01045 2.101
0.0479 - ---
- Signif. codes 0 ' 0.001 ' 0.01 ' 0.05
.' 0.1 ' 1 - Residual standard error 0.2167 on 21 degrees of
freedom - Multiple R-Squared 0.1737, Adjusted
R-squared 0.1343 - F-statistic 4.414 on 1 and 21 DF, p-value
0.0479
36R NA in statistical functions
- For single vector functions (e.g. mean, var, sd),
give the argument na.rmTRUE - For cor, though, there are more possibilities for
dealing with NA - See the argument use and the methods given there
?cor
37R correlation
- To get the correlation coefficient, type
- gt cor(x,y)
- Note, however, that if there are missing values
(NA), then you will get an error message - Elementary statistical functions in R require
- no missing values, or
- explicit statement of what to do with NA
38Correlation Coefficient
- The (sample) correlation coefficient r is
defined as the average value of the product (X in
SUs)(Y in SUs) - r is a unitless quantity
- -1 ? r ? 1
- r is a measure of LINEAR ASSOCIATION
- In R gt cor(x,y)
39Multiple linear regression
- You can also use more than one X variable to
predict Y - predicted y a b1x1 b2x2
- Example predict ventricular shortening velocity
(Y) from blood glucose (X1) and age (X2) - The prediction function for Y is still linear in
the parameters (a, b1, b2)
40Exercises Correlation and Regression
- Here, you will work with the classic data set
anscombe to get some practice making
scatterplots - You will also experience the pitfalls of assuming
what a scatterplot looks like based on summary
statistics - You can get some (light) practice doing linear
modeling by generating data (or using your own)
and fitting a linear model
41R using lm
- You can do much more complicated modeling with lm
- The result of lm is a model object which contains
additional information beyond what gets printed - To extract other quantities
- gt summary(lm(short.velocity blood.glucose))