PPT – AN PowerPoint presentation | free to view

About This Presentation

Title:

AN

Description:

AN LISE DE REGRESS O UM GUIA PR TICO O QUE REGRESS O ? Na an lise bidimensional de vari veis, foi introduzida a no o de condicionalidade: a ... – PowerPoint PPT presentation

Number of Views:42

Avg rating:3.0/5.0

Slides: 30

Provided by: Angel229

Category:

Tags: calculo

more less

Transcript and Presenter's Notes

Title: AN

1
ANÁLISE DE REGRESSÃO

UM GUIA PRÁTICO

2
O QUE É REGRESSÃO?

Na análise bidimensional de variáveis, foi
introduzida a noção de condicionalidade a
proporção da população que fazia parte de um
determinado grupo, condicional ao fato de ter uma
característica. No exemplo, calculou-se a
freqüência de mulheres que são chefes de família
dada a informação que trabalham.
Regressão é o cálculo do valor esperado de uma
variável Y, dado o conjunto de informações
fornecido por um conjunto de características X.
Ou seja, é a média de Y, condicional às
informações de X (EYX).

3
O MODELO LINEAR DE REGRESSÃO

O modelo linear de regressão é a forma utilizada
para calcular médias condicionais de uma variável
a partir de dados disponíveis sobre variáveis
supostamente relacionadas.
O modelo assume o seguinte formato
Y ? b1X1 ?2X2 ... ?
A variável Y é chamada de variável dependente ou
explicada.
As variáveis X1, X2, X3, ... são chamadas de
explicativas.
O termo ? é chamado de erro ou distúrbio.

4
HIPÓTESES BÁSICAS

Relacionamento linear entre as variáveis
E(?) 0
E(?2) ?2 (constante)
Os resíduos são independentes entre si
E(?i ?j) 0, i,j 1,
2, 3...
Os resíduos e as variáveis são independentes
E(X?) 0
As variáveis Xn não podem ser combinações
lineares entre si

5
O AJUSTE DA REGRESSÃO

Graficamente, a análise de regressão implica no
ajuste de uma reta que represente de uma boa
forma a estrutura dos dados.

Mas o que é boa forma de ajuste da reta?
Note que a diferença entre a reta ajustada (que é
produto do valor esperado condicional) e a
observação realizada corresponde ao resíduo.
Logo, o ajuste ideal da reta deve respeitar a
condição de menor distância possível em relação
aos valores observados.

Logo, a idéia de ajuste dos parâmetros do valor
esperado condicional passa por Minimizar a Soma
dos Quadrados dos Resíduos.
O estimador de Mínimos Quadrados Ordinários
possui propriedades interessantes, quando as
hipóteses básicas não são violadas ele é
não-viesado e é o mais eficiente entre os
estimadores lineares.
O estimador de mínimos quadrados, escrito na
forma matricial, é
? (XX)-1(XY)

8
ESTATÍSTICAS DE AVALIAÇÃO

R2 ? busca decompor a variação total de Y entre
variação prevista e variação não explicada pelo
modelo (variação dos resíduos). Fazendo a
separação, temos
SQT SQE SQR
onde SQT Soma dos quadrados total (S(Y-Y)2),
SQE Soma dos quadrados explicada (S(Y-Y)2) e
SQR Soma dos quadrados dos resíduos (Se2), Y é
a média de Y e Y o valor previsto de Y

Logo, temos
1 (SQE/SQT) (SQR/SQT)
O R2 busca verificar o quanto de Y foi explicado
pelo modelo. Logo
R2 SQE/SQT 1 - (SQR/SQT)
Note que, por definição, 0 lt R2 lt 1.
R2 ajustado o problema da estatística de R2 é o
seu comportamento diante do acréscimo de
variáveis no modelo. Qualquer variável
adicionada, por menor que seja o seu poder de
explicação, gera um crescimento no R2 normal.
Logo, o R2 ajustado busca penalizar a estatística
pelo acréscimo de variáveis irrelevantes.

10
ESTATÍSTICAS DOS PARÂMETROS

Toda estimativa de mínimos quadrados ordinários
gerada de b possui média igual ao valor esperado
para a população e uma variância constante. Logo,
qualquer inferência pode ser feita através da
estatística t sobre os seus valores.
Para a estimativa conjunta dos parâmetros
estimados, é necessário fazer a decomposição da
variância, de tal forma que se separe a porção da
variação de Y que é explicada pelo conjunto de
parâmetros em questão. Tendo como hipótese nula a
ausência de influência (por conseqüência,
hipótese alternativa é a presença de influência
das variáveis), temos

F (SQE)/SQR(n-k-1)/k
onde SQE e SQR foram definidos acima, e n
tamanho da amostra, k número de coeficientes
angulares.

12
ESTIMAÇÃO DE MODELOS POR QUE USAR O LOGARITMO
NATURAL?

O logaritmo natural enquanto expressão de taxa
média de crescimento uma variável qualquer no
tempo pode ser expressa como uma progressão do
seu valor no instante zero
Yt A.et.g.Y0.?t
Aplicando o logaritmo natural em ambos os lados
da equação
Ln(Yt) (Ln(A) Ln(Y0)) t.g ?t

O logaritmo natural como expressão da
elasticidade
Ln(Yt) A B Ln(Xt)
?Ln(Yt) B ?Ln(Xt)
?Ln(Yt)/?Ln(Xt) B
Mas ?Ln(Yt) Ln(Yt) - Ln(Yt-1) Ln(Yt /
Yt-1)
? (Yt - Yt-1)/Yt-1
Então
?Ln(Yt)/?Ln(Xt) (Yt - Yt-1)/Yt-1/(Xt -
Xt-1)/Xt-1
elasticidade B

14
Exercício Prático

CAPM - calculando o Beta de uma ação

15
VIOLAÇÕES DAS HIPÓTESES - HETEROCEDASTICIDADE

Se E(?2) ? ?2 (constante) ? E(?2) ?2i
Este problema é conhecido como
heteroscedasticidade
Esta violação normalmente é verificada em
questões como
Lucro X Tamanho da empresa empresas maiores
tendem a ter maior dispersão nos seus lucros.
Consumo de um Bem X Renda pessoas ricas podem
escolher melhor a proporção da renda consumida em
determinado bem.

16
Exemplo Relação entre Renda e Gastos com Cartão
de Crédito
17
Teste para Detectar Heteroscedasticidade

A hipótese nula para qualquer teste é variância
constante. Hipótese alternativa é variância
inconstante na amostra.
Teste de White
É o mais popular dos testes e consiste em
efetuar uma regressão dos resíduos elevados ao
quadrado contra o as variáveis explicativas
usadas na regressão, seus quadrados e os produtos
cruzados. A estatística F de significância de
todos os parâmetros é o valor do teste.
Testes semelhantes, como o de Breush-Pagan, são
variações sobre os termos acrescentados na
regressão de teste.

18
VIOLAÇÕES DAS HIPÓTESES - AUTOCORRELAÇÃO SERIAL

Se E(?i ?j) ? 0, para i,j 1, 2, 3... temos que
o valor de um resíduo passa a influenciar os
resultados futuros da média condicional estimada
para Y.
Problema Autocorrelação Serial
Fontes de autocorrelação serial
Omissão de variável relevante
Má especificação da forma funcional
Má especificação dinâmica do modelo.

A idéia da autocorrelação serial é que os
resíduos contém mais informação sobre a variável
dependente do que aquilo que foi filtrado pelas
variáveis explicativas. Em termos técnicos, o
resíduo ainda pode ser sistematizado.
Exemplos de autocorrelação são normalmente
encontrados em trabalhos que utilizam séries de
tempo como dados de análise.

20
Teste para Detectar Autocorrelação Serial

A hipótese nula do teste de autocorrelação é a
ausência do problema. Hipótese alternativa, sua
presença.
Teste de Durbin-Watson
Talvez o mais popular dos testes para detectar o
problema, consiste em computar uma soma ponderada
dos resíduos, de tal forma que seja possível
detectar algum padrão no seu comportamento.
Possui o problema de captar apenas a
autocorrelação de primeira ordem.

Teste de Breush-Godfrey
Teste de certa forma semelhante ao teste de
White, consiste em efetuar uma regressão do
resíduo como variável explicada tendo como
explicativas o próprio resíduo defasado no tempo
e as variáveis explicativas do modelo original.
Usa-se a estatística F de significância
conjunta dos parâmetros da equação de teste.
Este teste talvez seja o mais indicado para
verificar autocorrelação, pois considera a
possibilidade de resíduos correlacionados com
valores defasados acima de um período e pode ser
usada com variáveis explicativas defasadas.

22
CONSEQÜÊNCIA DAS VIOLAÇÕES DAS HIPÓTESES

No caso da heteroscedasticidade, a presença do
problema tende a não viesar as estimativas dos
parâmetros. Todavia, as suas variâncias estimadas
não serão as corretas. Logo, inferências sobre os
parâmetros estarão má especificadas.
No caso da autocorrelação serial, além do
problema da variância, temos a possibilidade de
viés nas estimativas se o problema for decorrente
de ausência de variáveis relevantes no modelo.

23
QUEBRAS ESTRUTURAIS E VARIÁVEIS DUMMIES

Algumas vezes queremos incluir no modelo de
regressão variáveis qualitativas ou categóricas,
como planos econômicos, região, etc...
Inclusive porque fenômenos pouco usuais podem
determinar viés nas estimativas se não forem
controlados. Este tipo de fenômeno é conhecido na
literatura como quebra estrutural.
Para controlar este tipo de fenômeno e modelar as
variáveis qualitativas, são utilizadas variáveis
binárias, ou dummies

As variáveis recebem este nome por assumirem
apenas dois valores ao longo de toda a amostra
zero ou um. O funcionamento da variável é o
seguinte
Período sem a quebra D 0
Yt a dD bXt et
Portanto Yt a bXt et
Período da quebra D 1
Yt (a d) bXt et

Outro formato possível que a variável dummy
pode assumir refere-se a mudanças na inclinação.
A variável, assim, assume o valor zero para o
período sem a mudança e o valor igual ao da
variável cuja inclinação mudou para o período com
mudança.
O modelo passa a funcionar da seguinte forma
Período sem a quebra D 0
Yt a dXt bXt et
Portanto Yt a bXt et
Período da quebra D Xt
Yt a (b d)Xt et

26
Exemplo de Quebra Estrutural Demanda por
Importações - Brasil 1980 - 2001
27

Uma função de demanda por importações assume o
seguinte formato
lnMt a b1t b2lnYt b3lnRERt et
onde Mt importações t tendência linear Yt
PIB real RERt taxa de câmbio real. O uso de
uma tendência justifica-se por não existir com
freqüência mensal uma medida de utilização da
capacidade instalada da economia. Todas as
variáveis, pelos motivos já conhecidos,
encontram-se transformadas para o seu logaritmo
natural.
Estimando-se a regressão por OLS, temos o
seguinte gráfico dos resíduos

28
Resíduos Modelo para demanda por importações -
Brasil
29

Note como o resíduo exibe, aparentemente, um
padrão sazonal, além de uma quebra estrutural
localizada no início dos anos 90. Como o resíduo
corresponde a tudo aquilo que não foi explicado
pelo modelo, temos aqui o problema de
especificação por não termos considerado a quebra
estrutural indicado pela mudança de tendência dos
resíduos.
Lembre-se devem existir motivos relevantes para
a quebra!!! A presença de outliers por si só
não quer dizer que existam quebras. No nosso
caso, devemos lembrar a mudança ocorrida na
economia com a sua abertura comercial no início
dos anos 90. Logo, justifica-se uma correção no
modelo.