Title: Utilizando o R
1Utilizando o R
2Regressão e correlação
- Desejamos descrever a relação entre duas
variáveis usando o conceito de regressão linear - Método dos mÃnimos quadrados
- Outro método
- Mais outro
3Modelo de Regressão Linear Simples
- Y é a variável resposta
- X é a variável independente
- representa o erro.
4Estudo da relação entre variáveis
- Investigar a presença ou ausência de relação
linear sob dois pontos de vista - Quantificando a força dessa relação correlação
- Explicitando a forma dessa relação regressão
- Diagrama (Mapa) de dispersão representação
gráfica das duas variáveis quantitativas
5Correlação
- No entanto, antes de propor um modelo de
regressão é importante verificar o grau de
correlação entre as variáveis independentes x e a
variável resposta y - Além disso nem sempre uma correlação elevada
entre variáveis indica que faz sentido propor um
modelo de regressão - Exemplo produção de bananas versus taxa de
natalidade
6Mapas de dispersão e tipos de correlação
60
x horas de treinamento y número de acidentes
50
40
Acidentes
30
20
10
0
0
2
4
6
8
10
12
14
16
18
20
Horas de treinamento
Correlação negativa à medida que x cresce, y
decresce.
7Mapas de dispersão e tipos de correlação
x nota no vestibular y média de notas na
graduação
4,00
3,75
3,50
3,25
3,00
Média de notas na graduação
2,75
2,50
2,25
2,00
1,75
1,50
300
350
400
450
500
550
600
650
700
750
800
Nota no vestibular
Correlação positiva à medida que x cresce, y
cresce também.
8Mapas de dispersão e tipos de correlação
x altura y QI
160
150
140
QI
130
120
110
100
90
80
60
64
68
72
76
80
Altura
Não há correlação linear.
9Coeficiente de Correlação Linear
Mede a intensidade e a direção da relação linear
entre duas variáveis.
n tamanho da amostra x variável dependente i
1, , n. y variável independente
10Coeficiente de Correlação Linear
O intervalo de r vai de 1 a 1.
Se r está próximo de 1, há uma forte correlação
positiva.
Se r está próximo a 1, há uma forte correlação
negativa.
Se r está próximo de 0, não há correlação linear.
11Aplicação
Nota final
Faltas
95
x y 8 78 2 92 5 90 12
58 15 43 9 74 6 81
90
85
80
Nota final
75
70
65
60
55
50
45
40
0
2
4
6
8
10
12
14
16
Faltas
X
12Regressão e correlação
- O conjunto de dados thuesen tem 24 linha e
duas colunas. Os dados estão relacionados com uma
anomalia chamada ventricular shortening
velocity e com o nÃvel de açúcar no sange de
pacientes diabéticos tipo I. - data(thuesen)
- attach(thuesen)
- thuesen
13Regressão e correlação
- cor(short.velocity, blood.glucose)
- cálculo da correlação
- lm (short.velocity blood.glucose)
- Call
- lm(formula short.velocity blood.glucose)
- Coefficients
- (Intercept) blood.glucose
- 1.09781 0.02196
- short.velocity 1.098 0.022 blood.glucose
14Regressão e correlação
- summary(lm (short.velocity blood.glucose))
- Residuals
- Min 1Q Median 3Q Max
- -0.40141 -0.14760 -0.02202 0.03001 0.43490
- Coefficients
- Estimate Std. Error t value
Pr(gtt) - (Intercept) 1.09781 0.11748 9.345
6.26e-09 - blood.glucose 0.02196 0.01045 2.101
0.0479 - ---
- Signif. codes 0 0.001 0.01 0.05
. 0.1 1 - Residual standard error 0.2167 on 21 degrees of
freedom - (1 observation deleted due to missingness)
- Multiple R-squared 0.1737, Adjusted
R-squared 0.1343 - F-statistic 4.414 on 1 and 21 DF, p-value
0.0479
15Regressão e correlação
- plot(blood.glucose ,short.velocity)
- abline(lm (short.velocity blood.glucose))
16Regressão e correlação
- ResÃduos e valores ajustados
- lm.velo lm (short.velocity blood.glucose)
- Valores ajustados
- fitted(lm.velo)
- Valores dos resÃduos
- resid (lm.velo)
- plot (blood.glucose, short.velocity )
- lines (blood.glucose, fitted(lm.velo)) ou
- lines (blood.glucose!is.na(short.velocity),
fitted(lm.velo))
17Regressão e correlação
- plot (blood.glucose, short.velocity )
- lines (blood.glucose, fitted(lm.velo))
- ou
- lines (blood.glucose!is.na(short.velocity),
fitted(lm.velo)) - segments (blood.glucose,fitted(lm.velo),
- blood.glucose,short.velocity)
18ExercÃcio 2 (montgomery)
- Um motor de foguete é fabricado unindo um
propelente de ignição a um propelente para manter
o foguete em vôo. O poder da força da junção dos
propelentes é uma caracterÃstica de qualidade
importante. Suspeita-se que o poder dessa força
está relacionado com a idade do recipiente do
propelente. O arquivo de dados datafile4.dat
contém os dados relativos a 20 observações da
força da junção comparados com a idade do
recipiente do propelente.
19ExercÃcio 2 (montgomery)
- Plote o gráfico de dispersão.
- Encontre covariância entre os dois vetores de
dados - Encontre a correlação entre os dois vetores de
dados - Encontre a média dos dois vetores de dados
- Encontre os valores de Sxx e Sxy
- Encontre os estimadores ß0 e ß1
- Dado o modelo y ß0 ß1x, encontre os valores
ajustados para a variável resposta para cada
observação da variável explicativa - Encontre o resÃduo ei e verifique se ? ei 0
- Finalmente, aplique os métodos do exercÃcio 1 ao
arquivo datafile4.dat e compare os resultados. - A tabela 2.2 do livro do montgomery apresenta os
resultados acima.
20Utilizando o R