Title: AN
1ANÁLISE DE REGRESSÃO
2O QUE É REGRESSÃO?
- Na análise bidimensional de variáveis, foi
introduzida a noção de condicionalidade a
proporção da população que fazia parte de um
determinado grupo, condicional ao fato de ter uma
característica. No exemplo, calculou-se a
freqüência de mulheres que são chefes de família
dada a informação que trabalham. - Regressão é o cálculo do valor esperado de uma
variável Y, dado o conjunto de informações
fornecido por um conjunto de características X.
Ou seja, é a média de Y, condicional às
informações de X (EYX).
3O MODELO LINEAR DE REGRESSÃO
- O modelo linear de regressão é a forma utilizada
para calcular médias condicionais de uma variável
a partir de dados disponíveis sobre variáveis
supostamente relacionadas. - O modelo assume o seguinte formato
- Y ? b1X1 ?2X2 ... ?
- A variável Y é chamada de variável dependente ou
explicada. - As variáveis X1, X2, X3, ... são chamadas de
explicativas. - O termo ? é chamado de erro ou distúrbio.
4HIPÓTESES BÁSICAS
- Relacionamento linear entre as variáveis
- E(?) 0
- E(?2) ?2 (constante)
- Os resíduos são independentes entre si
E(?i ?j) 0, i,j 1,
2, 3... - Os resíduos e as variáveis são independentes
E(X?) 0 - As variáveis Xn não podem ser combinações
lineares entre si
5O AJUSTE DA REGRESSÃO
- Graficamente, a análise de regressão implica no
ajuste de uma reta que represente de uma boa
forma a estrutura dos dados.
6- Mas o que é boa forma de ajuste da reta?
- Note que a diferença entre a reta ajustada (que é
produto do valor esperado condicional) e a
observação realizada corresponde ao resíduo. - Logo, o ajuste ideal da reta deve respeitar a
condição de menor distância possível em relação
aos valores observados.
7- Logo, a idéia de ajuste dos parâmetros do valor
esperado condicional passa por Minimizar a Soma
dos Quadrados dos Resíduos. - O estimador de Mínimos Quadrados Ordinários
possui propriedades interessantes, quando as
hipóteses básicas não são violadas ele é
não-viesado e é o mais eficiente entre os
estimadores lineares. - O estimador de mínimos quadrados, escrito na
forma matricial, é - ? (XX)-1(XY)
8ESTATÍSTICAS DE AVALIAÇÃO
- R2 ? busca decompor a variação total de Y entre
variação prevista e variação não explicada pelo
modelo (variação dos resíduos). Fazendo a
separação, temos - SQT SQE SQR
- onde SQT Soma dos quadrados total (S(Y-Y)2),
SQE Soma dos quadrados explicada (S(Y-Y)2) e
SQR Soma dos quadrados dos resíduos (Se2), Y é
a média de Y e Y o valor previsto de Y
9- Logo, temos
- 1 (SQE/SQT) (SQR/SQT)
- O R2 busca verificar o quanto de Y foi explicado
pelo modelo. Logo - R2 SQE/SQT 1 - (SQR/SQT)
- Note que, por definição, 0 lt R2 lt 1.
- R2 ajustado o problema da estatística de R2 é o
seu comportamento diante do acréscimo de
variáveis no modelo. Qualquer variável
adicionada, por menor que seja o seu poder de
explicação, gera um crescimento no R2 normal.
Logo, o R2 ajustado busca penalizar a estatística
pelo acréscimo de variáveis irrelevantes.
10ESTATÍSTICAS DOS PARÂMETROS
- Toda estimativa de mínimos quadrados ordinários
gerada de b possui média igual ao valor esperado
para a população e uma variância constante. Logo,
qualquer inferência pode ser feita através da
estatística t sobre os seus valores. - Para a estimativa conjunta dos parâmetros
estimados, é necessário fazer a decomposição da
variância, de tal forma que se separe a porção da
variação de Y que é explicada pelo conjunto de
parâmetros em questão. Tendo como hipótese nula a
ausência de influência (por conseqüência,
hipótese alternativa é a presença de influência
das variáveis), temos
11- F (SQE)/SQR(n-k-1)/k
- onde SQE e SQR foram definidos acima, e n
tamanho da amostra, k número de coeficientes
angulares.
12ESTIMAÇÃO DE MODELOS POR QUE USAR O LOGARITMO
NATURAL?
- O logaritmo natural enquanto expressão de taxa
média de crescimento uma variável qualquer no
tempo pode ser expressa como uma progressão do
seu valor no instante zero - Yt A.et.g.Y0.?t
- Aplicando o logaritmo natural em ambos os lados
da equação - Ln(Yt) (Ln(A) Ln(Y0)) t.g ?t
13- O logaritmo natural como expressão da
elasticidade - Ln(Yt) A B Ln(Xt)
- ?Ln(Yt) B ?Ln(Xt)
- ?Ln(Yt)/?Ln(Xt) B
- Mas ?Ln(Yt) Ln(Yt) - Ln(Yt-1) Ln(Yt /
Yt-1) - ? (Yt - Yt-1)/Yt-1
- Então
- ?Ln(Yt)/?Ln(Xt) (Yt - Yt-1)/Yt-1/(Xt -
Xt-1)/Xt-1 - elasticidade B
14Exercício Prático
- CAPM - calculando o Beta de uma ação
15VIOLAÇÕES DAS HIPÓTESES - HETEROCEDASTICIDADE
- Se E(?2) ? ?2 (constante) ? E(?2) ?2i
- Este problema é conhecido como
- heteroscedasticidade
- Esta violação normalmente é verificada em
questões como - Lucro X Tamanho da empresa empresas maiores
tendem a ter maior dispersão nos seus lucros. - Consumo de um Bem X Renda pessoas ricas podem
escolher melhor a proporção da renda consumida em
determinado bem.
16Exemplo Relação entre Renda e Gastos com Cartão
de Crédito
17Teste para Detectar Heteroscedasticidade
- A hipótese nula para qualquer teste é variância
constante. Hipótese alternativa é variância
inconstante na amostra. - Teste de White
- É o mais popular dos testes e consiste em
efetuar uma regressão dos resíduos elevados ao
quadrado contra o as variáveis explicativas
usadas na regressão, seus quadrados e os produtos
cruzados. A estatística F de significância de
todos os parâmetros é o valor do teste. - Testes semelhantes, como o de Breush-Pagan, são
variações sobre os termos acrescentados na
regressão de teste.
18VIOLAÇÕES DAS HIPÓTESES - AUTOCORRELAÇÃO SERIAL
- Se E(?i ?j) ? 0, para i,j 1, 2, 3... temos que
o valor de um resíduo passa a influenciar os
resultados futuros da média condicional estimada
para Y. - Problema Autocorrelação Serial
- Fontes de autocorrelação serial
- Omissão de variável relevante
- Má especificação da forma funcional
- Má especificação dinâmica do modelo.
19- A idéia da autocorrelação serial é que os
resíduos contém mais informação sobre a variável
dependente do que aquilo que foi filtrado pelas
variáveis explicativas. Em termos técnicos, o
resíduo ainda pode ser sistematizado. - Exemplos de autocorrelação são normalmente
encontrados em trabalhos que utilizam séries de
tempo como dados de análise.
20Teste para Detectar Autocorrelação Serial
- A hipótese nula do teste de autocorrelação é a
ausência do problema. Hipótese alternativa, sua
presença. - Teste de Durbin-Watson
- Talvez o mais popular dos testes para detectar o
problema, consiste em computar uma soma ponderada
dos resíduos, de tal forma que seja possível
detectar algum padrão no seu comportamento.
Possui o problema de captar apenas a
autocorrelação de primeira ordem.
21- Teste de Breush-Godfrey
- Teste de certa forma semelhante ao teste de
White, consiste em efetuar uma regressão do
resíduo como variável explicada tendo como
explicativas o próprio resíduo defasado no tempo
e as variáveis explicativas do modelo original.
Usa-se a estatística F de significância
conjunta dos parâmetros da equação de teste. - Este teste talvez seja o mais indicado para
verificar autocorrelação, pois considera a
possibilidade de resíduos correlacionados com
valores defasados acima de um período e pode ser
usada com variáveis explicativas defasadas.
22CONSEQÜÊNCIA DAS VIOLAÇÕES DAS HIPÓTESES
- No caso da heteroscedasticidade, a presença do
problema tende a não viesar as estimativas dos
parâmetros. Todavia, as suas variâncias estimadas
não serão as corretas. Logo, inferências sobre os
parâmetros estarão má especificadas. - No caso da autocorrelação serial, além do
problema da variância, temos a possibilidade de
viés nas estimativas se o problema for decorrente
de ausência de variáveis relevantes no modelo.
23QUEBRAS ESTRUTURAIS E VARIÁVEIS DUMMIES
- Algumas vezes queremos incluir no modelo de
regressão variáveis qualitativas ou categóricas,
como planos econômicos, região, etc... - Inclusive porque fenômenos pouco usuais podem
determinar viés nas estimativas se não forem
controlados. Este tipo de fenômeno é conhecido na
literatura como quebra estrutural. - Para controlar este tipo de fenômeno e modelar as
variáveis qualitativas, são utilizadas variáveis
binárias, ou dummies
24- As variáveis recebem este nome por assumirem
apenas dois valores ao longo de toda a amostra
zero ou um. O funcionamento da variável é o
seguinte - Período sem a quebra D 0
- Yt a dD bXt et
- Portanto Yt a bXt et
- Período da quebra D 1
- Yt (a d) bXt et
25- Outro formato possível que a variável dummy
pode assumir refere-se a mudanças na inclinação.
A variável, assim, assume o valor zero para o
período sem a mudança e o valor igual ao da
variável cuja inclinação mudou para o período com
mudança. - O modelo passa a funcionar da seguinte forma
- Período sem a quebra D 0
- Yt a dXt bXt et
- Portanto Yt a bXt et
- Período da quebra D Xt
- Yt a (b d)Xt et
26Exemplo de Quebra Estrutural Demanda por
Importações - Brasil 1980 - 2001
27- Uma função de demanda por importações assume o
seguinte formato - lnMt a b1t b2lnYt b3lnRERt et
- onde Mt importações t tendência linear Yt
PIB real RERt taxa de câmbio real. O uso de
uma tendência justifica-se por não existir com
freqüência mensal uma medida de utilização da
capacidade instalada da economia. Todas as
variáveis, pelos motivos já conhecidos,
encontram-se transformadas para o seu logaritmo
natural. - Estimando-se a regressão por OLS, temos o
seguinte gráfico dos resíduos
28Resíduos Modelo para demanda por importações -
Brasil
29- Note como o resíduo exibe, aparentemente, um
padrão sazonal, além de uma quebra estrutural
localizada no início dos anos 90. Como o resíduo
corresponde a tudo aquilo que não foi explicado
pelo modelo, temos aqui o problema de
especificação por não termos considerado a quebra
estrutural indicado pela mudança de tendência dos
resíduos. - Lembre-se devem existir motivos relevantes para
a quebra!!! A presença de outliers por si só
não quer dizer que existam quebras. No nosso
caso, devemos lembrar a mudança ocorrida na
economia com a sua abertura comercial no início
dos anos 90. Logo, justifica-se uma correção no
modelo.