Title: Slide sem t
1Modelos de Regressão E Séries Temporais
2Objetivos
Obter um modelo que explique o comportamento dos
exemplos observados (respostas) e usar esse
modelo para fazer predições
Amostra
A amostra de dados deve ser representativa, isto
é, cobrir amplamente o domínio do problema
considerando as operações rotineiras, e as
exceções
Planejamento
Definição da metodologia a ser aplicada,
avaliação da adequação do modelo e interpretação
dos resultados
3Parte I Modelos de Regressão
4Previsão
- Previsão é similar à Classificação
- Primeiro construa um modelo
- Depois, use o modelo para a previsão do valor
desconhecido - O método mais importante de previsão é a
regressão - Regressão linear e múltipla
- Regressão não linear
- Previsão é diferente de Classificação
- Na classificação, a variável a explicar é
categorica - Na previsão, a variável a explicar é contínua
5Regressão Linear Múltipla
Sejam os valores de uma variável dependente
(resposta) Y relacionados com os valores valores
de m variáveis independentes Xk por meio de um
modelo estocástico
Yt ?0 ?1X1 ?2X2... ?mXm ?t t
1,...,n
?k parâmetro desconhecido que indica o grau de
associação linear da variável
independente Xk com a variável
dependente Y
?t erro aleatório devido a natureza estocástica
de Y
6Suposições para a análise do modelo
de Regressão Linear
Resíduos homocedásticos, isto é, com variância
constante, não correlacionados e média zero
Normalidade nos resíduos (não necessariamente)
Número de parâmetros menor que o número
de observações (problema de overfitting)
7Métodos de Estimação dos Parâmetros
Mínimos Quadrados
Máxima Verossimilhança (suposição de Normalidade
para os resíduos)
Y X? ?
Modelo ?
- Y vetor de respostas (n ? 1)
- X - matriz de observações independentes (n ? p)
- - vetor de parâmetros
- ? - vetor de erros (n ? 1)
8Métodos de Mínimos Quadrados com suposição de
normalidade
A idéia é obter uma estimativa b para o vetor de
parâmetros ? que minimize a soma de quadrados
dos erros ??
Como E(?)0 então o modelo é expresso por E(Y)
X?
A soma de quadrados de resíduos
? ? (Y - X?) (Y - X?) Y Y -
?XY YX? ?XX? Y Y - 2?XY
?XX?
9Obtendo
A solução do sistema é
Vetor de valores ajustados
10Experimento 1
25 pares de observações onde Y quantidade de
vapor usado por mês e X temperatura em graus
Farenheit
No obs.
Y
Y
No obs.
X
X
1
10.98
35.3
13
11.88
28.1
2
11.13
29.7
14
9.57
39.1
3
12.51
30.8
15
10.94
46.8
4
8.40
58.8
16
9.58
48.5
5
9.27
61.4
17
10.09
59.3
6
8.73
71.3
18
8.11
70.0
7
6.36
74.4
19
6.83
70.0
8
8.50
76.7
20
8.88
74.5
9
7.82
70.7
21
7.68
72.1
10
9.14
57.5
22
8.47
58.1
11
8.24
46.4
23
8.86
44.6
24
10.36
33.4
12
12.19
28.9
25
11.08
28.6
11Modelo Yt ?0 ?1X1 ?t t 1,...,25
12As estimativas b0 e b1 são obtidas por
Então
Equação da regressão estimada
13Para n 25 e
e
Portanto
14Gráfico 2 Temperatura versus valores ajustados
Gráfico 1 Temperatura versus Qtd de vapor
O gráfico 1 mostra que existe uma relação linear
entre a qtd de vapor e a temperatura. O gráfico 2
ilustra a regressão linear.
15Avaliação de desempenho do modelo
de Regressão
Estatística
R2 mede a variabilidade de explicada
pelo modelo de regressão
Exemplo Para os dados do experimento 1
16Teste de aceitação do modelo
H0 ? 0 H1 ? ? 0
Tabela 1 Análise de Variância
Soma de Quadrados ( SS)
Soma de Quadrados média
(MS)
Estatística do teste (F)
Graus de Liberdade
Variação
p-1
Regressão
SSReg/(p-1)
Resíduo
n-p
s2 SSRes/(n-p)
Total correto por
n-1
F tem distribuição F-snedcor com p-1,n-p graus de
liberdade e nível de significância ?
17Teste de aceitação do modelo
H0 Rejeita-se o modelo H1 Aceita-se o modelo
Região de aceitação da hipótese H0
18Exemplo Considere o modelo do exemplo anterior
Tabela 1 Análise de Variância
45.59
57.54
18.22
63.81
Valor de F1,23(5) 4.28
Como a estatística F57.54 gt 4.28 rejeitamos H0
19Teste de significância do vetor de
parâmetros (?)
H0 ?i 0 (i 1,...,p) H1 ?i ? 0
Estatística do teste
T tem distribuição t-student com n-p graus de
liberdade
Região de aceitação da hipótese H0
20Intervalo de confiança para o vetor b
b tem distribuição t-student(n-p)
i 1,...p
Exemplo Continuando com o exemplo anterior
H0 ?1 0 (i 1,...,p) H1 ?1 ? 0
T -0.0798/0.0105 7.6 gt t23(0.975)2.069
Rejeita H0
Intervalo de confiança -0.105 lt ?1lt -0.0581
21Regression Analysis C1 versus C2 The
regression equation is C1 13,6 - 0,0798
C2 Predictor Coef SE Coef T
P Constant 13,6230 0,5815
23,43 0,000 C2 -0,07983 0,01052
-7,59 0,000 S 0,8901 R-Sq 71,4
R-Sq(adj) 70,2 Analysis of
Variance Source DF SS
MS F P Regression 1
45,592 45,592 57,54 0,000 Residual
Error 23 18,223 0,792 Total
24 63,816
22Outliers
São observações atípicas que podem ser
relevantes para a construção do modelo
Um procedimento paramétrico Teste de Cook
Considere uma matriz H(hij)n?n X(XTX)-1XT
Propriedades
a)
b)
23Outliers
Medida de influência
onde
D tem distribuição F(p,n-p)(?)
Um ponto i é aberrante se Di gt F(p,n-p)(?)
24Cooks Distance
25Diagnóstico da Regressão
Análise do modelo Exemplo 1
Os resultados do ajustamento revelam que
a variável temperatura é significativa no modelo
(t2.069 gt 2)
a variabilidade dos dados explicada pelo modelo é
boa (R2 0.71)
o valor da F57.54 gt F1,23(5) indica que a
regressão é significativa ao nível de
confiança de 95
o modelo proposto não apresenta outilier (Di gt
F2,23(5) 3.42, i 1,...,23)
26Diagnóstico da Regressão
Análise gráfica dos resíduos
1 Normalidade da variável resposta
2 Independência das observações
3 Homocedasticidade
4 Se uma variável explicativa não incluída no
modelo é relevante
27Diagnóstico da Regressão
Os resíduos são aleatórios.
Os valores ajustados não apresentam tendência
28Diagnóstico da Regressão
Os resíduos apresentam normalidade.
O modelo proposto se ajusta aos dados, pois as
hipóteses básicas da regressão clássica são
satisfeitas.
29Modelos de Regressão Não Linear
A não linearidade é dada pela função de regressão
Yt ?0 ?1X1 X2? ?t t 1,...,n
Um método de estimação Mínimos Quadrados não
Lineares
30Modelo Logístico Linear
Aplicável quando o valor da variável resposta é
uma proporção
Suposição A distribuição da variável dependente
é uma Bernoulli (1,?) onde ? é a proporção de
sucesso
onde ? E(Y)
Método de estimação por Máxima Verossimilhança
31Parte II Mineração de Séries Temporais Mineração
de Dados Seqüências
32- Series temporais
- Consiste de sequencia de valores ou eventos que
mudam com o tempo - Os dados são registrados em intervalos regulares
- Componetes característicos das séries temporais
- Tendencia, ciclo, sazonalidade, aleatóriedade
- Aplicações
- Finanças preço de ações, inflação
- Biomedicina presão sanguinea
- Metereologia precipitação
33- Uma série temporal pode ser ilustrada por um
gráfico que descreve pontos que se movem ao longo
do tempo - Categorias de movimentos de séries temporais
- Tendencia à longo termo (curva de tendencia)
- Variações ciclicas
- Variações Sazonais
- Variações irregulares ou aleatórias
34Estimação da Série
- Método manual
- Ajustar a curva pela observação do gráfico
- Impraticavel para a mineraçào em larga escala
- O método dos minimos quadrados
- Os métodos das médias móveis
- Eliminaçào de padrões ciclicos, sazonais e
irregulares - Sensivel a valores aberrrantes
35Descoberta de tendencias em series temporais
- Estimação de variações sazonais
- Indice sazonal
- Conjunto de valores que mostram os valores
relativos de uma variável durante os meses do ano - Ex, vendas em outubro, novembro e dezembro são
80, 120, e 140 da média de vendas mensal do
ano inteiro. Então 80, 120, e 140 são índices
sazonais para esses meses - Remoção da Sazonalidade
- Dados ajustados com relação as variações sazonais
- Ex., dividir os meses originais pelos indices
sazonais dos meses correspondentes
36Descoberta de tendencias em series temporais
- Estimação das variações ciclicas
- Se os ciclos ocorrem periodicamente
(aproximadamente), pode ser introzido um índice
de cilco como os indices sazonais - Estimação de variações irregulares
- Pelo ajustamento dos dados as variações de
tendencia, ciclo e estação - Através da análise sistemática das tendencias,
cilcos, estações e componentes irregulares, é
possivel realizar previzoões de curto e longo
prazo de boa qualidade
37Busca por similaridade em series temporais
- Busca por similaridade encontra sequencias de
dados que diferem apenas ligeiramente de uma dada
sequencia - Duas categorias de interrogações baseada em
similaridade - Sequencia matching encontrar uma sequencia que é
similar a sequencia de interrogação - Subsequencia matching encontrar todos os pares
de sequencias similares - Aplicações
- Finanças Financial market
- Bases de dados cientificas
- Diagnostico médico
38Uma Série Temporal
Uma conjunto de observações ordenadas no tempo
Z(t1), Z(t2),...,Z(tn)
Exemplos
- os valores diários do preço das ações de uma
- empresa, na bolsa de valores (série econômica)
- os valores mensais de temperatura de uma cidade
- registro de eletrocardiograma de uma pessoa
39Tratamento dos Dados
a) Estacionariedade o desenvolvimento da série
reflete alguma forma de equilíbrio estável
Série não estacionária
40Tratamento dos Dados
b) Transformações
Presença de não estacionariedade
Diferenças sucessivas da série original até
obter-se uma série estacionária
?ZtZt Zt-1
?2 Zt ?? Zt
Estabilização da variância
Logarítmica
?logZtlogZt logZt-1
41Tratamento dos Dados
A transformação logarítmica também remove a
tendência.
42Componentes de uma Série Temporal
Uma série Z1, Z2,...,Zn
Modelo ? Clássico
Zt Tt St ?t t 1,...n
Tt tendência
St sazonalidade
? t erro aleatório
43Componentes de uma Série Temporal
1 - Têndencia
Aumento ou decremento gradual das observações
44Componentes de uma Série Temporal
2 - Sazonalidade
Quando as observações são intra-anuais, isto é,
registradas mensalmente, trimestralmente ou
semanalmente
45Componentes de uma Série Temporal
Exemplo de uma série com tendência e sazonalidade
46Componentes de uma Série Temporal
3 Resíduo
Removendo as componentes Tt e St a série é
explicada por um componente aleatório, ?t. A
suposição é que ?t tem média zero e variância
constante ??.
Nota
Se as amplitudes sazonais St variam com a
tendência, então um modelo mais adequado é o
multiplicativo
Zt Tt ? St ? ?t t 1,...n
47Função Perda
Erro Quadrático Médio (EQM)
é a previsão de Z(th)
Considere
EQM ?
48Métodos de estimação da Tendência
Suponha que a componente sazonal St não está
presente e que o modelo é aditivo
Zt Tt ?t t 1,...n
Existem vários métodos para estimar Tt
- Ajustar os dados por uma função polinomial,
- uma exponencial ou outra função suave de t
- (Métodos paramétricos)
49Métodos de estimação da Tendência
- suavizar ou filtrar os valores da série ao redor
de - um ponto para estimar a tendência .
(Método não - paramétrico)
- utilizar diferenças (Método não paramétrico)
Estimando a tendência através de , pode-se
obter a série livre de tendência
50Métodos de estimação da Tendência
A tendência pode ser observada através de uma
inspeção gráfica ou através de testes de
hipóteses que pode ser realizado de antes ou
depois da estimação de Tt
As hipóteses são
H0 não existe tendência H1 existe tendência
Com base nas observações Zt (t1,...,N)
51Métodos de estimação da Sazonalidade
As flutuações sazonais presentes em uma série
tendem a perturbar as outras componentes. Uma
solução é remover a componente, facilitando
assim a identificação e interpretação dos outros
fenômenos.
Considere um modelo aditivo
Zt Tt St ?t t 1,...n
ou multiplicativo
Zt Tt ? St ? ?t t 1,...n
52Métodos de estimação da Sazonalidade
Um procedimento de ajustamento sazonal
- obter estimativas e St
- calcular a série sazonalmente ajustada
modelo aditivo
modelo multiplicativo
53Métodos de estimação da Sazonalidade
Existem vários métodos para estimar a sazonalidade
- Método de Regressão (método paramétrico)
- Método de Médias Móveis (método não paramétrico)
- Método de diferença sazonal
54Métodos de estimação da Sazonalidade
Pode se testar a existência de sazonalidade antes
e depois de sua estimação
H0 não existe sazonalidade determinística H1
existe sazonalidade
- Testes não paramétricos Kruskal-Wallis, Friedman
- Teste paramétrico uma estatística F clássica
tendo - como hipóteses
H0 S1 S2 ... Ss H1 Si ? Sj para algum i e
j
55Um método de Previsão de séries localmente
constantes - Médias Móveis (MM)
Zt ?t ?t t 1,...n
E(?t ) 0, Var(?t) ?? e ?t nível da série que
varia com o tempo
com h 1,2,... (horizonte de previsão)
onde
56Um método de Previsão Médias Móveis (MM)
O valor de r deve ser proporcional à
aleatoriedade de ?t. Um procedimento é selecionar
o valor de r que minimize
Vantagens do método MM
Fácil aplicação
Aplicável quando se tem poucas observações
57Um método de Previsão Médias Móveis (MM)
Desvantagens
Aplicável apenas para séries estacionárias
Dificuldade em determinar r
Uma alternativa é usar os modelos de Box Jenkins
58Experimento 2
Consumo de energia (jan 68 dez 69)
59Previsão com origem na observação 24
h 1,...,5 e r 4
60?
Previsão atualizada a cada observação
h 1,...,5 e r 4
61(No Transcript)