Modelos Lineares em Séries Temporais

UNIVERSIDADE FEDERAL DE MINAS GERAIS - UFMG
INSTITUTO DE CIÊNCIAS EXATAS – ICEx

DEPARTAMENTO DE ESTATÍSTICA – EST
APOSTILA DE MODELOS LINEARES
EM SÉRIES TEMPORAIS
Glaura da Conceição Franco (EST/UFMG)
Belo Horizonte, agosto de 2016

Conteúdo
1. Introdução ........................................................................................................................................... 3
PARTE 1: MODELOS DE REGRESSÃO NORMAIS PARA SÉRIES TEMPORAIS
2. Modelo de regressão com funções do tempo....................................................................................... 7

2.1. Modelando tendência através de funções polinomiais ......................................................... 7
2.2. Estimação de parâmetros e adequação do modelo ................................................................ 9
2.3. Previsão ............................................................................................................................... 10
2.4. Exemplos .........................................................................................................................
2.4.1. Temperatura global .........................................................................................
2.4.2. Preço do grão e farelo de soja ..........................................................................
3. Detectando a autocorrelação .............................................................................................................. 14
3.1. Tipos de autocorrelação ...................................................................................................... 15
3.2. Autocovariância e autocorrelação .........................................................................................
3.3. Métodos para detecção da autocorrelação ........................................................................... 15
3.3.1. Gráfico de resíduos versus tempo .......................................................................
3.3.2. Teste de Durbin-Watson .......................................................................................
3.3.3. Função de autocorrelação amostral (FAC) ...........................................................
3.4. Exemplos ...........................................................................................................................
3.4.1. Temperatura global .......................................................................................
3.4.2. Preço do grão e farelo de soja .................................................................................
4. Modelando autocorrelação nos resíduos ............................................................................................ 18
4.1. Modelo de regressão com erros autorregressivos ................................................................
4.2. Previsão .............................................................................................................................
4.3. Intervalo de confiança para as previsões ...........................................................................
4.4. Exemplos .............................................................................................................................
4.4.1. Temperatura global ...........................................................................................
4.4.2. Preço do grão e farelo de soja ...........................................................................
5. Séries sazonais .............................................................................................................................
5.1. Modelo de regressão para séries sazonais com erros autorregressivos .........................
2
5.2. Previsão .............................................................................................................................
5.3. Exemplo – Série CEP ............................................................................................................
6. Análise de Intervenção ....................................................................................................................
6.1. Modelo de regressão para séries com intervenção e erros autorregressivos ......................
6.2. Previsão .............................................................................................................................
6.3. Exemplo – Série Acidentes .................................................................................................
PARTE 2: MODELOS DE REGRESSÃO PARA SÉRIES TEMPORAIS DE CONTAGEM
7. Modelos lineares generalizados.........................................................................................................

7.1. Família Exponencial a um parâmetro
7.2. Componentes do modelo
7.3. Estimação
7.4. Adequação de modelos
7.5. Análise de resíduos
7.6. Exemplo – Série Polio
8. Modelos ARMA ......................
8.1. Tipos de modelos................................................................................................................
8.2. Identificação de modelos....................................................................................................
8.2.3. Exemplos ...........................................................................................................
8.3. Estimação de parâmetros .................................................................................................
8.4. Análise de resíduos ..........................................................................................................
8.5. Exemplo- Série soja ..............................................................................................
9. Modelos GLARMA
9.1. Definição
9.2. Estimação
9.3. Previsão
Referências
ANEXO: Séries utilizadas nos exemplos ............................................................................................ 33
3
1. Introdução
O termo previsão no tempo é muito utilizado quando possuímos um conjunto de dados
ordenados no tempo, ou seja, uma série temporal, e desejamos prever valores futuros para esta série.
Definição: Uma série temporal é um conjunto de observações geradas sequencialmente no tempo.
Característica principal: As variáveis são dependentes .
Denotaremos a série temporal por y1 , y2 ,..., yn onde n é o tamanho da série. Trabalharemos com
séries temporais a tempo discreto, onde os dados são coletados diariamente, semanalmente,
mensalmente ou anualmente.
Os objetivos principais da análise de séries temporais são a modelagem e a previsão de valores
futuros para a série. Para prever eventos que ocorrerão no futuro, o “pesquisador” deve se basear em
informações concernentes a eventos que tenham ocorrido no passado. Assim, a análise pode ser feita da
seguinte forma. Primeiro, o “pesquisador” analisa os dados para poder identificar um comportamento
que possa ser usado para descrevê-lo. Este comportamento é então extrapolado, ou estendido no futuro,
para calcular uma previsão. Esta estratégia básica é empregada na maioria das técnicas de previsão e se
baseia na suposição de que o comportamento que foi identificado continuará no futuro. Se o padrão que
foi identificado para os dados não persiste no futuro, isto indica que a técnica de previsão usada
provavelmente produzirá previsões incorretas. Um analista não deveria ficar surpreso em tais situações,
mas deveria tentar antecipar quando tal mudança no padrão ocorreria, para que mudanças apropriadas
no sistema de previsão pudessem ser feitas antes das previsões se tornarem incorretas. A seguir
apresentamos alguns exemplos.
4
Exemplo 1.1: Série de temperatura global (TempMedia), de 1900 a 1997. Os dados foram calculados
como um desvio da temperatura global média anual do período 1961-1990. Existe uma tendência
aparentemente crescente na série e isto tem sido usado para sustentar a hipótese de aquecimento global.
0.4
0.2
desvio temperatura
0.0
-0.2
-0.4
1900 1920 1940 1960 1980 2000
Figura 1.1: Série TempMedia
Exemplo 1.2: Os dados na Figura 1.2 referem-se às séries de preços do grão e do farelo de soja,
respectivamente, no estado de São Paulo, no período de jan/1990 a set/1999, em um total de 117
observações. Podemos perceber um comportamento muito parecido para as duas séries.

300
16
250
14
Farelo
Grao
200
12
10
150
1990 1994 1998 1990 1994 1998
Time Time
Figura 1.2: Séries de Farelo e Grão de soja
5
Exemplo 1.3: Série do consumo de energia elétrica das Centrais Elétricas do Paraná (CEP), de jan/80 a
dez/92. A série apresenta sazonalidade e tendência crescente.

500
450
400
CEP
350
300
250
1980 1982 1984 1986 1988 1990 1992
Figura 1.3: Série CEP
Exemplo 1.4: A Figura 1.4 mostra a série mensal de número total de motoristas mortos ou seriamente
feridos em acidentes de trânsito na Grã Bretanha, entre Jan/1969 a Dez/1984. O uso compulsório do
cinto de segurança foi introduzido em 31 de Jan/1983.

2500
2000
No de Acidentes
1500
1000
1970 1975 1980 1985
Figura 1.4: Série de acidentes de trânsito na Grã Bretanha

6
Exemplo 1.5: Número de casos de poliomielite (Polio) reportados pelo Centro de Controle de Doenças
dos Estados Unidos, de janeiro de 1970 a dezembro de 1983. Esta é uma série de contagens com
valores baixos, portanto a suposição de distribuição Normal não seria adequada neste caso.
14
12
10
8
Polio
6
4
2
0
1970 1972 1974 1976 1978 1980 1982 1984
Figura 1.5: Série Polio
Vamos utilizar estes exemplos ao longo do curso, para explicar a forma de se obter modelos
lineares em séries temporais e como construir previsões para valores futuros da série. Desde que
eventos futuros envolvem incerteza, as previsões geralmente não são perfeitas. O objetivo da análise de
previsão é reduzir o erro de previsão: produzir previsões que raramente são incorretas e que contenham
pequenos erros.
O material desta apostila foi baseado nos livros e artigos que se encontram na seção de
Referências.
7
PARTE 1:
MODELOS DE REGRESSÃO NORMAIS PARA SÉRIES TEMPORAIS
As séries temporais apresentadas nos Exemplos 1.2 a 1.4 são compostas de observações
contínuas (Exemplos 1.1 a 1.3) ou discretas com valores relativamente altos ( Exemplo 1.4), que a
princípio podem ser modeladas supondo normalidade dos dados.
Uma das possibilidades para a modelagem destas séries é a utilização de modelos lineares,
como o modelo de regressão, se houver uma relação linear entre a série e alguma(s) outra(s) série(s)
explicativa(s), ou então com funções do tempo.
As suposições básicas deste modelo são normalidade, variância constante e independência.
Entretanto, uma das principais características de uma série temporal é a existência de correlação entre
observações sucessivas. Desta forma, o ajuste de modelos de regressão deve ser usado com cautela
neste caso. Se a suposição de independência não for satisfeita, devemos incluir componentes no modelo
para corrigir este problema.
Na Parte 1 desta apostila vamos descrever os modelos de regressão no tempo, as possíveis
formas de se detectar correlação nos dados e, caso esta exista, como podemos corrigir o problema.
8
2. Modelo de regressão com funções do tempo
Os modelos de autorregressão relacionam a variável dependente yt (o atributo sobre o qual se
busca determinar um padrão de informação no tempo) com funções do tempo. Estes modelos são mais
úteis quando os parâmetros descrevendo a série temporal a ser prevista permanecem constantes no
tempo. Por exemplo, se a série temporal exibe uma tendência linear, então a inclinação da linha de
tendência permanece constante. A Seção 2.1 mostra como modelar a tendência usando funções
polinomiais do tempo e a Seção 2.2 apresenta o método de estimação dos parâmetros do modelo. Na
Seção 2.3 vemos como construir previsões para valores futuros da série yt e a Seção 2.4 apresenta dois
exemplos com séries reais.
2.1. Modelando tendência através de funções polinomiais
Algumas vezes podemos descrever uma série temporal yt usando um modelo de tendência. Tal
modelo é definido como segue:
yt  t   t , t  1,..., n (2.1)
 
onde  t ~ N 0,  2 , independentes.
Este modelo diz que a série temporal y t pode ser representada por um nível médio (denotado
t) e pelo termo de erro  t . Este termo de erro representa flutuações aleatórias que causam o desvio dos
valores y t do nível médio t.
As tendências mais simples são as obtidas através de um comportamento linear da série
observada (ver Figura 2.1). O Modelo sem tendência, que é definido como t = 0, implica que não há
crescimento ou decrescimento a longo prazo na série temporal ao longo do tempo, veja Figura 2.1(a). O
9
Modelo de tendência linear, que é modelado como t = 0 + 1t, implica que há um crescimento (a
inclinação é maior que zero) ou decrescimento (menor que zero) em linha reta ao longo do tempo, veja
Figuras 2.1(b) e (c).
Bo
t
t t
(a) Tendência constante (b) Crescimento em linha reta (c) Decrescimento em linha reta
Figura 2.1: Diferentes tipos de tendência para modelos lineares
No Caso (a): t   0 ;
No Caso (b): t  0  1t , onde 1 > 0;
No Caso (c): t  0  1t , onde 1 < 0.
Modelos mais complexos também podem ser obtidos na prática, como Modelos lineares de
tendência quadrática, que são modelados como t = 0 + 1t + 2t2, ou Modelos lineares de tendência
polinomial de ordem k, que são modelados como
t   0  1t   2t 2  ...   k t k , t  1,..., n . (2.2)
Podemos ter também um modelo com variáveis explicativas, x1, ..., xr, além do termo de
tendência. Neste caso, o modelo é definido como:
yt   0  1t   2t 2  ...   k t k   k 1x1,t  ...   k  r xr ,t   t , t  1,..., n (2.3)
 
10
2.2. Estimação de parâmetros e adequação do modelo
Estimativas pontuais dos parâmetros do modelo (2.3) podem ser obtidas usando o método de
mínimos quadrados ordinários. O modelo estimado é escrito como,
yˆt  ˆ0  ˆ1t  ˆ2t 2  ...  ˆk t k  ˆk 1x1,t  ...  ˆk  r xr ,t , (2.4)
e o resíduo deste modelo é calculado como:
et  yt  yˆ t , t  1,...n . (2.5)
Suposições do modelo:
 Normalidade: A suposição de normalidade pode ser verificada através da construção de
histogramas, Normal Probability Plot e testes de normalidade para os resíduos.
 Variância constante: Violação da suposição de variância constante é sugerida por um
afunilamento no gráfico de resíduos, et , versus valores ajustados, ŷ t .
 Independência: A verificação da suposição de independência será discutida no Capítulo 3.
Quando as suposições de normalidade ou variância constante não são satisfeitas, devemos fazer
uma transformação nos dados para tentar resolver o problema. Porém, a transformação não resolve o
problema de falta de independência. Neste caso, veremos no Capítulo 4 como fazer a modelagem
quando os erros não são independentes.
11
2.3. Previsão
Vamos denotar por YˆT h  a previsão para o tempo T+h, dado que observamos a série até o
tempo T. A partir de estimativas pontuais para os parâmetros 0, 1 , ..., k , k+1, ..., k+r, podemos
obter previsões para um valor futuro da série. Assim, uma previsão pontual feita no tempo T para yT  h é
dada por
YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk (T  h) k  ˆk 1x1, (T  h)  ...  ˆk  r xr , (T  h) (2.6)
onde xi ,(T h ) é o valor da variável xi no tempo T+h.
Além disto, intervalos de previsão aproximados de 100(1-)% são obtidos como segue:
Yˆ (h)  t

T
T nP
 / 2 s  (2.7)
onde tT /2nP  é o percentil /2 da distribuição t-Student com T-nP graus de liberdade, nP é o número de
parâmetros do modelo e s é o desvio padrão dos resíduos.
Para comparar modelos diferentes, podemos calcular a soma de quadrados dos erros de
previsão:
2
 Y  Yˆ (h) 
H
EQMP    T  h T 
 (2.8)
h 1  H 
onde H é o número de previsões realizadas.
2.4. Exemplos
2.4.1. Temperatura global
Utilizando os dados do Exemplo 1.1, vamos ajustar um modelo de regressão à série do desvio
da temperatura global média, para o período de 1900-1994. Deixaremos os anos de 1995-1997 para
validação do modelo através da comparação das previsões, portanto n=95.
12
O modelo ajustado foi o seguinte:
TempMedia = -11,6333 + 0,005923 x Ano
Saída do R:
Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.163e+01 9.336e-01 -12.46 <2e-16 ***
Ano 5.923e-03 4.794e-04 12.35 <2e-16 ***
Residual standard error: 0.1281 on 93 degrees of freedom

Multiple R-squared: 0.6214, Adjusted R-squared: 0.6173
AIC(M1): -116.7915
O valor estimado de 0, ou seja o ponto onde a reta ajustada intercepta o eixo dos y´s foi igual a
-11,6333, e o valor de 1, a inclinação da reta foi de 0,005923. Estes dois valores foram
estatisticamente significativos, pois o valor-p para ambos foi <2e-16 (menor que o nível de
significância  = 0.05). Como o sinal do coeficiente 1 foi positivo, isto indica que a temperatura
global tende a aumentar com o tempo. Porém, o valor de R2 não foi muito alto (62.14%), indicando que
a reta ajustada explica parcialmente a variação dos dados.
Obs.: A variável “Ano” foi construída com valores de 1900 a 1994, mas poderia ser construída também
com os valores de 1 a 95 (a quantidade de observações presentes na série). Neste caso, o ajuste ficaria:

(Intercept) -0.3852587 0.0265043 -14.54 <2e-16 ***
Ano 5.923e-03 4.794e-04 12.35 <2e-16 ***
Podemos perceber que apenas a estimativa do intercepto,  0 , mudou. Como o interesse não é no
intercepto, e sim na relação temporal, dada pela estimativa de 1 , e esta não muda com a definição da
variável tempo, podemos usar as duas formas.
13
Análise de Resíduos
Um outro problema ocorre com os resíduos, como podemos notar pelos gráficos da Figura 2.2.
O gráfico de resíduos no tempo não apresenta um comportamento aleatório em torno do valor zero,
indicando clara falta de independência entre os resíduos. Já o histograma mostra uma leve assimetria,
mas o teste de normalidade de Shapiro-Wilks não rejeita a hipótese de normalidade (valor-p=0,8484).
O problema da falta de independência pode ter sido causada pela autocorrelação existente entre
observações sucessivas da série. Na próxima seção, vamos verificar como corrigir estes problemas.
-0.3 -0.1 0.1 0.3
M1$res
0 20 40 60 80
Index
Histogram of M1$res
25
Frequency
15
0 5
-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4
M1$res
Figura 2.2: Gráficos de resíduos para o modelo M1 (Temperatura global)
Apesar destes problemas, vamos tentar determinar previsões para os anos de 1995-1997, para os
quais possuímos os valores reais.
14
Previsões para os anos de 1995 a 1997:
Previsão para 1995: Para calcular a previsão para o ano de 1995 utilizamos o modelo M1 onde o ano
será igual a 1995. Logo o desvio da temperatura previsto será de
TempMedia1995 = -11,6333 + 0,005923 x 1995 = 0,1831. (2.9)
Intervalo de previsão de 95%:
0,1831 ± 1,9858 x 0,1281 = [ -0,0711 ; 0,4378 ] (2.10)
onde t095.975
2 
 = 1,9858 é o percentil 0,975 da distribuição t-Student com 95-2 graus de liberdade e
s=0,1281 é o erro padrão dos resíduos.
Previsão para 1996: TempMedia1996 = -11,6333 + 0,005923 x 1996 = 0.1890.
Intervalo de previsão de 95%: 0, 1890 ± 1,9858 x 0,1281 = [ -0,0654 ; 0,4434 ]
Previsão para 1997: TempMedia1997 = -11,6333 + 0,005923 x 1997 = 0.1949.
Intervalo de previsão de 95%: 0,1949 ± 1,9858 x 0,1281 = [ -0,0595 ; 0,4493 ]
As previsões três passos à frente, intervalos de previsão e valores reais para 1995 a 1997 são
dados na Tabela 2.1.
15
Tabela 2.1: Previsão para os anos de 1995 a 1997 do desvio da temperatura global
Ano Real Previsto Erro (Real-Previsto)

1995 0,39 0,1831 0, 2069
[-0,0711 ; 0,4378]
1996 0,22 0,1890 0, 0310

[-0,0654 ; 0,4434]
1997 0,43 0,1949 0, 2351

[-0,0595 ; 0,4493]
EQMP = [ (0,2069)2 + (0,031)2 + (0,2351)2 ] / 3 = 0,0330.
A Figura 2.3 mostra o ajuste, assim como as previsões para 1995 a 1997, com o intervalo de
previsão. Podemos ver que todas as previsões subestimaram o verdadeiro valor do desvio médio de
temperatura, mas os valores reais estão dentro do intervalo de previsão.

0.4
o : Previsão
-- : Intervalo Previsao
0.2
desvio temperatura
0.0
-0.2
-0.4
0 20 40 60 80 100
tempo
Figura 2.3: Ajuste, previsão e intervalos de previsão para o modelo M1 (Temperatura global). Os
pontos em azul são os valores previstos e as linhas em vermelho são os intervalos de previsão.
16
2.4.2. Preço do grão e farelo de soja
Com os dados do Exemplo 1.2, vamos ajustar um modelo para a série do preço do farelo de soja
(Farelo), usando como variável explicativa a série de preço do grão de soja (Grao). Os dados vão de
Jan/1990 a Ago/1999, mas deixaremos os últimos 12 meses (Set/1998 a Ago/1999) para validação do
modelo através da comparação das previsões. Assim, nossa série terá tamanho n=104.
A Figura 2.4 mostra o gráfico de dispersão das duas variáveis. Podemos perceber uma relação
linear positiva entre as duas séries, ou seja, parece que quanto maior o valor do preço do grão de soja,
maior o valor do preço do farelo de soja, como esperado. Além disto, o coeficiente de correlação entre
as duas foi de 0,8794. Como as séries apresentadas na Figura 1.2 mostram que não existe tendência
crescente nem decrescente nestas séries, não é necessário incluir componentes de tendência no ajuste.
300
250
farelo
200
150
8 10 12 14 16
Grao
Figura 2.4: Gráfico de dispersão para as séries do preço de grão e farelo de soja.
Desta forma, podemos ajustar o modelo de regressão, cujo resultado é dado por:
Modelo M1:
(Intercept) -8.9569 11.7744 -0.761 0.449
Grao 17.3237 0.9671 17.912 <2e-16 ***

17
AIC(M1): 937.2809
Neste caso, somente 1 foi significativo, indicando que existe uma relação linear positiva entre
os preços do grão e farelo de soja. Ou seja, se o preço do quilo do grão de soja aumenta em um real, o
preço médio do quilo do farelo de soja aumenta em 17,3237 reais. O valor de R2 foi de 75,88%, o que
pode estar sendo afetado pela autocorrelação presente nas duas séries.
Se realizamos o ajuste retirando o intercepto, obtemos o seguinte resultado:
Modelo M2:
Grao 16.5999 0.1728 96.05 <2e-16 ***

AIC(M2): 935.8693
O valor de 1 continua positivo e significativo, e não muito diferente do resultado anterior.
Porém, o valor de R2 aumenta significativamente, passando para 98,9%. Isto poderia nos levar a crer
que este ajuste é muito superior ao anterior, mas se observarmos o valor do AIC, vemos que a
diminuição não foi tão grande. Além disto, como vamos observar na análise de resíduos, as suposições
do modelo ainda não estão satisfeitas, e tudo isto pode afetar o valor de R2.
Análise de Resíduos
A Figura 2.5 mostra os gráficos de resíduos no tempo e histograma para o modelo sem o
intercepto (M2). Podemos ver que o gráfico de resíduos apresenta um comportamento cíclico em torno
do valor zero, indicando clara falta de independência entre os resíduos. Já o histograma mostra uma
assimetria à direita, mas o teste de Shapiro-Wilks não rejeita hipótese de normalidade (valor-p=0,182).
18
60
M2$res
0 20
-40
0 20 40 60 80 100
Index
Histogram of M 2$res
5 10 15
Frequency
-40 -20 0 20 40 60
M2$res
Figura 2.5: Gráficos de resíduos para o modelo M2 (Farelo e Grão de soja)
Apesar do problema da falta de independência dos resíduos, vamos tentar determinar previsões
utilizando o modelo sem intercepto, para os meses de Set/1998 a Ago/1999, para os quais possuímos os
valores reais. Para calcular as previsões para o preço do farelo, precisamos dos valores reais da série do
preço do grão de soja no período de Set/1998 a Ago/1999, que são apresentados na Tabela 2.2.
Tabela 2.2: Preço do Grão de Soja para o período Fev/1998 a Ago/1999
Mês Set/98 Out/98 Nov/98 Dez/98 Jan/99 Fev/99 Mar/99 Abr/99 Mai/99 Jun/99 Jul/99 Ago/99
Grão 11,44 11,55 11,43 11,00 9,60 8,65 8,32 8,51 8,68 8,72 8,49 9,09
19
Previsões para Set/1998 a Ago/1999:
Previsão para Set/1998: A previsão do preço do farelo de soja para o mês de setembro de 1998 é
calculada como:
FareloSet/98 = 16,5999 x 11,44 = 189,90
189,90 ± 1,983264 x 21,46 = [147.34 ; 232.46]
onde t01041
.975 = 1,983264 é o percentil 0,975 da distribuição t-Student com 104-1 graus de liberdade e
Procedendo desta forma, obtemos as previsões para os 12 meses de interesse. A Tabela 2.3
mostra as previsões doze passos à frente, intervalos de previsão e valores reais para Set/1998 a
Ago/1999. Podemos verificar que todas as previsões, exceto Fev/99, superestimam o verdadeiro valor
do preço do farelo de soja, mas os valores reais estão dentro do intervalo de previsão.
Tabela 2.3: Previsões seis passos à frente para o preço do farelo de soja, Set/1998 a Ago/1999
Mês Real Previsto Intervalo Previsão Real-Previsto

Set/1998 151,3 189,90 [147,34 ; 232,45] -38,60
Out/1998 154,8 191,73 [149,18 ; 234,28] - 36,93
Nov/1998 158,3 189,74 [147,19 ; 232,29] -31,44
Dez/1999 157,5 182,60 [140,05 ; 225,15] -25,10
Jan/1999 152,0 159,36 [116,81 ; 201,91] -7,36
Fev/1999 158,1 143,60 [ 101,04;186,14 ] 14,51
Mar/1999 129,4 138,11 [95,56 ; 180,66] -8,71
Abr/1999 130,2 141,26 [98,71 ; 183,81] -11, 06
Mai/1999 126,3 144,09 [101,54 ; 186,64] -17,79
Jun/1999 131,2 144,75 [102,20 ; 187,30] -13,55
Jul/1999 133,8 140,93 [98,38 ; 183,48] -7,13
Ago/1999 144,8 150,89 [108,34 ; 193,44] -6,09
20
EQMP = 460,26.
A Figura 2.6 mostra o ajuste e as previsões para os doze últimos meses, com o intervalo de
previsão. Vemos que o modelo ajustado segue relativamente bem o comportamento da série.
300
250
Farelo
200
150
100
0 20 40 60 80 100 120
tempo
Figura 2.6: Ajuste, previsão e intervalos de previsão para o modelo M2 (Farelo). A linha preta
representa a série do Farelo, a linha azul mostra o modelo ajustado, os pontos em azul são os
valores previstos e as linhas em vermelho são os intervalos de previsão.
21
3. Detectando a autocorrelação
A validade dos métodos de regressão ilustrados no Capítulo 2 requer, dentre outras, que a
suposição de independência seja satisfeita. Porém, quando dados de séries temporais estão sendo
analisados, esta suposição é frequentemente violada. É muito comum que os termos de erro, ordenados
no tempo, sejam autocorrelacionados. Neste capítulo, definimos autocorrelação positiva e negativa, e
discutimos a detecção de autocorrelação usando gráficos de resíduos, o teste de Durbin-Watson e os
gráficos da função de autocorrelação amostral (FAC).
3.1. Tipos de autocorrelação
 Autocorrelação Positiva : Quando um termo de erro positivo no período de tempo t tende a

produzir, ou ser seguido por, outro termo de erro positivo no período de tempo t+k (um
período de tempo posterior) e se um termo de erro negativo no período de tempo t tende a
produzir, ou ser seguido por, outro termo de erro negativo no período de tempo t+k.
 Autocorrelação Negativa : Quando um termo de erro positivo no período de tempo t tende a

produzir, ou ser seguido por, um termo de erro negativo no período de tempo t+k e se um
termo de erro negativo no período de tempo t tende a produzir, ou ser seguido por, um termo
de erro positivo no período de tempo t+k.
A hipótese de independência diz que os termos de erro ordenados no tempo não devem produzir
comportamento de autocorrelações positivas ou negativas. Isto significa que os termos de erro devem
ocorrer de forma aleatória ao longo do tempo. Tal comportamento implicaria que estes termos de erro
são estatisticamente independentes, o que por sua vez implicaria que os valores de y t ordenados no
tempo são estatisticamente independentes.
Se os resíduos apresentam um comportamento aleatório em torno de zero, com variância
constante ao longo do tempo, dizemos que eles são um ruído branco.

22
3.2 Autocovariância e Autocorrelação
Autocovariância: É a covariância entre yt e yt-k separados por k intervalos de tempo. A
autocovariância,  k , é calculada como:
 k  Covyt , yt k   Eyt   yt k   , k  0,  1,  2,...
Se temos uma série real, o estimador amostral aproximadamente não-tendencioso (para grandes
amostras) da autocovariância é dado por:
1 n
ˆk    yt  y  yt k  y  .
n t k 1
Como a autocovariância é uma função par, temos que para todo inteiro k,  k   k . Portanto, é
necessário determinar  k apenas para k  0.
Autocorrelação: A autocorrelação é a autocovariância padronizada. Serve para medirmos o
comprimento e a memória de um processo, ou seja, a extensão para a qual o valor tomado no tempo t
depende daquele tomado no tempo t-k,
k Cov yt , yt k 
k   .
0 Var  yt Var  yt k 
Claramente, 0  1 e k  k . Um estimador amostral da autocorrelação de defasagem k é dado
por:
ˆk
ˆ k  , k  0,1,2,...
ˆ0
23
3.3. Métodos para detecção da autocorrelação
3.3.1. Gráfico de resíduos versus tempo
Desde que os resíduos são estimativas pontuais dos termos de erro, um gráfico de resíduos
versus tempo pode ser usado para detectar violações da suposição de independência.
 Se um gráfico de resíduos contra o tempo tem um comportamento aleatório, os termos de

erro têm pouca ou nenhuma autocorrelação. Isto sugere que os termos de erro são
independentes, ou seja, eles são um ruído branco.
 Se um gráfico de resíduos versus tempo tem um comportamento cíclico, os termos de erro

são positivamente correlacionados, e a hipótese de independência não é válida.
 Se um gráfico de resíduos contra o tempo tem um comportamento alternado, os termos de

erro são negativamente correlacionados, e a hipótese de independência também não é válida.
3.3.2. Teste de Durbin-Watson
O tipo de autocorrelação (positiva ou negativa) com a qual trabalharemos é chamada de
autocorrelação de primeira ordem. Apresentamos a seguir o teste de Durbin-Watson, que é um teste
formal para detectar autocorrelação de primeira ordem. A estatística de Durbin-Watson é dada por
 e  et 1 
n
2
t
d t 2
n
(3.1)
e
t 1
2
t
onde e1 , e2 ,..., en são resíduos ordenados no tempo.
Considere o teste
H 0 : Os termos de erro não são autocorrelacionados
H 1 : Os termos de erro são positivamente ou negativamente autocorrelacionados.
24
Durbin e Watson (1951) mostraram que existem pontos (denotados por d L , e d U , ) tais que, se
 é a probabilidade de um erro Tipo I (ou seja, a probabilidade de rejeitarmos H0 quando esta hipótese
é verdadeira), então:
1. Se d  d L, / 2 ou 4  d   d L, / 2 , nós rejeitamos H0;
2. Se d  dU , / 2 e 4  d   dU , / 2 , nós não rejeitamos H0;
3. Se d L, / 2  d  dU , / 2 e d L, / 2  4  d   dU , / 2 , o teste é inconclusivo.
Aqui, valores pequenos de d levam à conclusão de uma autocorrelação positiva, porque se d é
pequeno, as diferenças et  et 1  são pequenas. Por outro lado, valores grandes de d (logo valores
pequenos de ( 4  d ) levam à conclusão de uma autocorrelação negativa, porque se d é grande, as
diferenças et  et 1  são grandes.
Para que o teste de Durbin-Watson possa ser facilmente aplicado, tabelas contendo os pontos
d L , e d U , devem ser construídas. Estas tabelas calculam os pontos d L , e d U , apropriados para vários
valores de  , nP (onde nP é o número de covariáveis do modelo) e n ( o número de observações).
Note que, por exemplo, nP  1 para o modelo linear simples. Uma tabela com a distribuição de d para
alguns valores de n e nP é apresentada em Guajarati (2009).
Geralmente, d = 2 indica que não existe autocorrelação. Se a estatística de Durbin–Watson é
substancialmente menor que 2, existe evidência de correlação serial positiva. Como uma regra
aproximada, se d é menor que 1, existe motivo para alarme. Pequenos valores de d indicam termos de
erro positivamente correlacionados. Se d > 2, os termos de erro são, em media, negativamente
correlacionados.
Antes de concluirmos esta apresentação do teste de Durbin-Watson, vários comentários são
relevantes:
25
 a validade do teste de Durbin-Watson depende da suposição de que a população de todos os
possíveis resíduos em qualquer tempo t tenha uma distribuição normal;
 autocorrelações positivas são encontradas mais comumente na prática que autocorrelações
negativas;
 a maioria dos softwares de regressão calculam a estatística d de Durbin-Watson e
 a autocorrelação de primeira ordem não é o único tipo de autocorrelação existente. Dados de
séries temporais podem exibir estruturas de autocorrelação dos erros mais complicadas. Em
tais casos, a autocorrelação é detectada usando o que é chamado de função de
autocorrelação amostral.
3.3.3. Função de Autocorrelação Amostral (FAC)
Vimos na Seção 3.2 que a autocorrelação amostral é calculada como:
ˆk
ˆ k  , k  0,1,2,... .
ˆ0
O gráfico da FAC é simplesmente um gráfico de ̂ k versus k. Se os resíduos são ruídos
brancos, ou seja, se eles satisfazem a suposição de independência, então a FAC não deve apresentar
picos significativos em nenhum lag k diferente de zero.
A FAC pode ser construída no R usando o comando:
acf(y, lag.max = NULL)
onde y é a série e lag.max é o número de lags que se quer utilizar no cálculo da FAC. Se não for
especificado um número, como no caso acima, o R usa o default de 10*log10(n/m) onde n é o número
de observações e m é o número de séries.
26
3.4. Exemplos
No Exemplo 2.4.1 vimos, através dos gráficos de resíduos, que um possível problema de
autocorrelação poderia estar comprometendo o modelo linear ajustado à série. Como o gráfico de
resíduos na Figura 2.2 mostrou um comportamento cíclico, os termos de erro devem ser positivamente
correlacionados. Para confirmar a existência de autocorrelação de primeira ordem, vamos fazer o teste
de Durbin-Watson.
O valor desta estatística foi d = 0,9036. Neste caso, n  95 e nP  1 . Logo para um nível de
significância de 5% temos,
d L , = 1,64 e d U , = 1,69.
Como d  1,64 , concluímos que realmente existe uma autocorrelação positiva de primeira ordem.
Vamos também fazer o gráfico da função de autocorrelação amostral (FAC) dos resíduos do
modelo M1. O gráfico apresentado na Figura 3.1 mostra que existem vários picos significativos na
FAC, portanto os resíduos não são independentes.
Series M 1$res
1.0
0.8
0.6
ACF
0.4
0.2
0.0
-0.2
0 5 10 15
Lag
Figura 3.1: FAC para os resíduos do modelo M1 (Temperatura global)

27
O gráfico de resíduos do modelo M2, na Figura 2.5, mostrou um possível problema de falta de
independência dos resíduos do modelo. Como o gráfico apresentou um comportamento cíclico, os
termos de erro devem ser positivamente correlacionados. Para confirmar a existência de autocorrelação
de primeira ordem, vamos fazer o teste de Durbin-Watson.
O valor desta estatística foi d = 0,3633. Neste caso, n  110 e nP  1 . Logo para um nível de
significância de 5% temos,
d L,  1,65 e dU ,  1,69 .
Como d  1,65 , concluímos que realmente existe uma autocorrelação positiva de primeira ordem nesta
série.
O gráfico apresentado na Figura 3.2 mostra a função de autocorrelação amostral (FAC) dos
resíduos do modelo M2. Podemos ver que existem vários picos significativos na FAC, portanto os
resíduos não são independentes.
Series M 2$res
1.0
0.8
0.6
ACF
0.4
0.2
0.0
-0.2
0 5 10 15 20
Lag
Figura 3.2: FAC para os resíduos do modelo M2 (Farelo)

28
4. Modelando a autocorrelação nos resíduos
Já vimos que os termos de erro para modelos de regressão em séries temporais são
frequentemente correlacionados. Em tais casos, devemos remediar o problema modelando a
autocorrelação. Se ignoramos os termos de erro autocorrelacionados, pagamos uma penalidade em
termos de intervalos de previsão maiores. Levando em conta a autocorrelação, podemos obter
intervalos de previsão mais precisos.
Este capítulo apresenta uma forma de trabalhar com erros correlacionados, utilizando os
modelos de regressão com erros autorregressivos.
4.1. Modelo de regressão com erros autorregressivos
O nome autorregressivo se deve ao fato de que a série no instante t é função da série nos
instantes anteriores a t. Podemos ajustar modelos autorregressivos para qualquer série temporal, mas
neste caso usaremos este modelo para a série de resíduos,  t .
Se existe uma relação da série no tempo presente somente com o tempo imediatamente anterior,
temos um modelo autorregressivo de ordem 1, AR(1):
 t  1 t 1  ut
onde u t é um ruído branco Gaussiano.
Se existe uma correlação com os dois tempos anteriores, temos um AR(2):
 t  1 t 1   2 t 2  ut .
Generalizando, podemos ter uma relação com até p tempos anteriores, ou seja, um AR(p),
29
Consideremos agora o modelo de regressão polinomial dado na Equação (2.3), que contenha
erros autorregressivos de ordem p. Neste caso, o modelo a ser estimado é
yt   0  1t   2t 2  ...   k t k   k 1x1  ...   k  r xr   t , t  1,..., n (4.1)
onde  t é descrito por um processo AR(p),
 t  1 t 1  2 t 2  ...   p t  p  ut .
Os parâmetros deste modelo podem ser estimados por mínimos quadrados ordinários ou através
do método de máxima verossimilhança. Após a estimação do modelo (4.1) devemos verificar as
suposições sobre os novos resíduos do modelo, ou seja, para a série u t estimada. Estes resíduos devem
ter distribuição Normal, média zero, variância constante e devem ser independentes.
4.2. Previsão
No caso do modelo com erros autorregressivos, a previsão YˆT h  é dada por:
YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk (T  h) k  ˆk 1x1, (T  h)  ...  ˆk  r xr , (T  h)  ˆT h (4.2)
onde ˆT h  é calculado através do valor esperado das observações futuras condicionado aos valores
passados e ao valor presente da variável,
ˆT h  E T  h |  T ,  T 1,  ET  T  h  .
30
Por exemplo, para um AR(1),
 t  1 t 1  ut
a previsão h passos à frente, dado que estamos no tempo T, é:
ˆT (h)  1ET  T  h 1   ET uT  h  .
A expressão acima constitui o modelo geral da previsão. Para sua implementação
computacional, substituímos as esperanças condicionais pelos seus valores correspondentes
satisfazendo às seguintes restrições:
i) Esperança condicional dos  t já realizados são os próprios resíduos, et, do modelo de regressão
original, sem os erros autorregressivos,
ET  T  h   E T  h |  T ,  T 1,  eT  h  yT  h  yˆT  h para h = 0, 1, 2, ...
ii) Esperança condicional dos  t ainda não realizados são as respectivas previsões para  t ,
ET  T  h   E T  h |  T ,  T 1,  ˆT h para h = 1, 2, ...
iii) Esperança condicional dos ut's,
ET uT  h   EuT  h | uT , uT 1,  0 para h = 1, 2, ...
31
4.3. Intervalo de Confiança para as Previsões
Suposição:
 T  h |  T ,  T 1, ~ N ˆT h; T2  h 
onde  T2  h é a variância da distribuição de  T  h |  T ,  T 1, .
Desta forma, um intervalo de previsão de 100(1-)% para as observações futuras é dado por:
Yˆ (h)  t

T
T  nP
 / 2  s  T  h  (4.3)
parâmetros do modelo, s é o desvio padrão dos resíduos e  T  h é o desvio-padrão da distribuição de
 T  h |  T ,  T 1,.
Mostramos abaixo como calcular  T  h para os modelos AR(1) e AR(2), que são os mais comuns
na prática. Modelos com ordem maior que 2 são mais complexos, mas e o cálculo é mais complicado.
 AR(1):  T  h  1  12  14  ...  12( h 1)
 AR(2):  T  h  1 ˆ12 ˆ 22  ... ˆ h21
onde ˆ1  ˆ1 , ˆ 2  ˆ1ˆ1  ˆ2 , ˆ j  ˆ1ˆ j 1  ˆ2ˆ j  2 , j  3.
32
4.4. Exemplos
Como vimos nos Exemplos 2.4.1 e 3.4.1, o modelo linear ajustado ao desvio da temperatura
global possui autocorrelação de 1ª ordem nos resíduos. Assim, vamos ajustar um novo modelo
incluindo um componente AR(1) para os termos de erro  t . O modelo proposto é então dado por:
yt   0  1t   t t  1900,...,1995
 t  1 t 1  ut , onde ut ~ N (0,  u2 ) , independentes,
que pode também ser escrito como:
yt   0  1t  1 t 1  ut t  1900,...,1995 .
Desta forma, o modelo ajustado, denotado por M1.AR1, é:
yˆ t  ˆ0  ˆ1t  ˆ et 1 = -11,3582 + 0,0058 x Ano + 0,5663 x et-1
Saída do R:
Estimate Std. Error z value Pr(>|z|)
ar1 5.6626e-01 8.8868e-02 6.372 1.866e-10 ***
intercept -1.1358e+01 1.6980e+00 -6.689 2.247e-11 ***
Ano 5.7841e-03 8.7664e-04 6.598 4.166e-11 ***
sigma^2 estimated as 0.01105: log likelihood = 79.01, aic = -150.01
R2 = 0.7479499 R2adj = 0.7506031
33
Observamos que os três coeficientes, 0, 1 e 1 foram estatisticamente significativos, pois para
todos eles o valor-p foi bem menor que 0,05. Verificamos também que o valor de R2 aumentou de 62%
para 75%, indicando que a reta ajustada explica melhor a variação dos dados. Além disto, o valor do
AIC diminuiu de -116,7915 para -150,01. Analisando os gráficos de resíduos (Figura 4.1) não
observamos mais nenhum padrão específico no gráfico de resíduos vs. tempo, portanto podemos dizer
que as observações se encontram aleatoriamente distribuídas em torno de zero. O histograma ainda
mostra uma leve assimetria, mas o teste de Shapiro-Wilks também não rejeitou a suposição de
normalidade (0,6688). Os gráficos de FAC e FACP não mostram nenhum pico significativo e a
estatística de Durbin-Watson, d=1,9617 e 4-d=2,0383, são maiores que d U , = 1,69. Logo, não existe
mais o problema de autocorrelação nos dados.
Histogram of M1.AR1$res
20
-0.2 -0.1 0.0 0.1 0.2
15
M1.AR1$res
Frequency
10
5
0
0 20 40 60 80 -0.3 -0.2 -0.1 0.0 0.1 0.2
Time M1.AR1$res
Series M1.AR1$res
0.2 0.4 0.6 0.8 1.0
2
1
rnorm(n - H)
ACF
0
-1
-2
-0.2
-0.2 -0.1 0.0 0.1 0.2 0 5 10 15
M1.AR1$res Lag
Figura 4.1: Gráficos de resíduos para o modelo M1.AR1 ajustado ao desvio da temperatura global
Como o modelo M1.AR1 parede adequado, podemos utilizar este modelo para fazer previsões
para os anos de 1995-1997.
34
Previsões para 1995 a 1997:
Previsão para 1995: Para calcular a previsão para o ano de 1995 utilizamos o modelo M1.AR1, onde o
ano será igual a 1995. Logo o desvio da temperatura previsto para 1995 será de
TempMedia1995 = -11,35816 + 0,005784104 x 1995 + 0,5662611 x e1994 = 0,2279
onde e1994  0,08255921 foi obtido do modelo M1.
Intervalo de previsão de 95%: 0,2279 ± 1,985802 x 0,1051227 x 1 = [0,0191 ; 0,4366]
onde t095.975
3 
 = 1,9861 é o percentil 0,975 da distribuição t-Student com 95-3 graus de liberdade,
s=0,1051227 é o erro padrão dos resíduos e o desvio-padrão da distribuição de  t 1 |  t ,  t 1 , é igual
a 1, já que temos um AR(1) e h=1.
Previsão para 1996: Para calcular a previsão para 1996, utilizamos o modelo M1.AR1, com o ano
igual a 1996.
TempMedia1995 = -11,35816 + 0,005784104 x 1996 + 0,5662611 x e1995 = 0,2134
Neste caso, não podemos obter o valor de e1995 diretamente do modelo M1, pois este só foi ajustado
para os anos de 1900 a 1994. Assim, caímos no caso (ii) da Seção (2.3). Ou seja, e1995 será dado pela
previsão um passo à frente, feita em 1994:
e1995  ˆ19941  ˆ1e1994 = 0,5662611 x 0,08255921 = 0,2134.
35
1 0,5662611
2
0,2134 ± 1,985802 x 0,1051227 x = [-0,0265 ; 0,4533].
Neste caso, a variância da distribuição de  t 1 |  t ,  t 1 , é igual a 1  0,5662611 , já que temos um

2
AR(1) e h=2.
Previsão para 1997: Para calcular a previsão para 1997, utilizamos o modelo M1.AR1, com o ano
igual a 1997.
TempMedia1995 = -11,35816 + 0,005784104 x 1997 + 0,5662611 x e1996 = 0,2077
Neste caso, e1996 será dado pela previsão dois passos à frente, feita em 1994:
e1996  ˆ19942  ˆ12 e1994 = (0,5662611)2 x 0,08255921 = 0,02647275.
1  0,5662611  0,5662611
2 4
0,2077 ± 1,985802 x 0,1051227 x = [-0.0414 ; 0.4568].
Neste caso, a variância da distribuição de  t 1 |  t ,  t 1 , é igual a 1  0,5662611  0,5662611 , já

2 4
que temos um AR(1) e h=3.
As previsões e os valores reais do desvio da temperatura para este período são dados na Tabela
4.1. Podemos verificar que o EQMP caiu de 0,0330 para 0,0252 em relação ao modelo sem os erros
AR1, do Exemplo 2.4.1.
A Figura 4.2 mostra o ajuste, assim como previsões para os três últimos anos, com o intervalo
de previsão. Podemos ver que as previsões ainda subestimam o verdadeiro valor do desvio médio de
36
temperatura, apesar dos valores reais estarem dentro do intervalo de previsão. Além disto, o ajuste
segue de forma bem mais próxima o comportamento da série, comparado com o ajuste do modelo M1.
Tabela 4.1: Valores reais e previstos para o desvio da temperatura global, de 1995 a 1997
Ano Real Previsto Erro (Real-Previsto)

1995 0,39 0,2279 0, 1621
[0.0191 ; 0, 0.4366]
1996 0,22 0,2134 0, 0066

[-0.0265 ; 0.4533]
1997 0,43 0,2077 0, 2223

[-0.0414 ; 0.4568]
EQMP = 0,0252.
0.4
0.2
desvio temperatura
0.0
-0.2
-0.4
0 20 40 60 80 100
tempo
Figura 4.2: Ajuste, previsão e intervalos de previsão para o modelo M1.AR1 (Temperatura global). A
linha preta representa a série do desvio da temperatura média, a linha azul mostra o modelo ajustado, os
pontos em azul são os valores previstos e as linhas em vermelho são os intervalos de previsão
37
Nos Exemplos 2.4.2 e 3.4.2, vimos que o modelo linear ajustado ao preço do farelo de soja
possui autocorrelação nos resíduos. Após alguns testes, vemos que é necessário ajustar um modelo
AR(2) aos resíduos, pois este modelo apresentou todos os coeficientes significativos e menor AIC.
Assim, vamos ajustar o modelo de regressão com erros AR(2), para o período de jan/1990 a fev/1999.
Novamente, o intercepto não foi significativo, portanto o modelo ajustado, denotado por M2.AR2, foi:
yˆ t  ˆ1Grao  ˆ1et 1  ˆ2 et 2 = 16,694069 x Grao + 1,122359 x et-1 - 0,261080 x et-2
Saída do R:
ar1 1.122359 0.098556 11.3880 < 2e-16 ***
ar2 -0.261080 0.102302 -2.5521 0.01071 *
Grao 16.694069 0.531290 31.4218 < 2e-16 ***
sigma^2 estimated as 110.3: log likelihood = -392.97, aic = 793.94
R2 = 0.9430322 R2adj = 0.9480736
Observamos que os coeficientes de 1, 1 e 2 foram estatisticamente significativos, pois todos
2
os valores-p foram menores que 0,05. Verificamos que o valor de Radj diminuiu um pouco em relação
ao modelo M2 (de 99% para 95%), mas continua sendo um valor alto e, além disto, vimos que no
modelo M2 o R2 poderia estar sendo afetado pela não validade das suposições do modelo.
Corroborando esta análise, vemos que o valor do AIC diminuiu de 935,87 para 793,94.
Analisando os gráficos de resíduos (Figura 4.3) não observamos mais nenhum padrão específico
no gráfico de resíduos vs. tempo, portanto podemos dizer que as observações se encontram
aleatoriamente distribuídas em torno de zero. O histograma ainda mostra uma leve assimetria à direita,
mas o teste de Shapiro-Wilks também não rejeitou a suposição de normalidade (0,4742). Finalmente, o
38
gráfico da FAC não mostra picos significativos (somente um pico na muito afastado da origem, o que
pode ser considerado um ruído) e a estatística de Durbin-Watson, d= 2,2218 e 4-d=1,7782 são maiores
que d U , = 1,69. Logo, não existe mais o problema de autocorrelação nos dados.
-20 -10 0 10 20 30
5 10 15 20 25
M2.AR2$res
Frequency
0
0 20 40 60 80 100 -20 -10 0 10 20 30
Time M2.AR2$res
Series M2.AR2$res
0.2 0.4 0.6 0.8 1.0

2
rnorm(n - H)
ACF
0
-2 -1
-0.2
-20 -10 0 10 20 30 0 5 10 15 20
M2.AR2$res Lag
Figura 4.3: Gráficos de resíduos para o modelo M2.AR2 ajustado á série do preço do farelo de soja
Como o modelo M2.AR2 parece adequado, podemos utilizar este modelo para fazer previsões
para os meses de Set/1998 a Ago/1999.
Previsões para Set/1998 a Ago/1999:
A previsão do preço do farelo de soja para o mês de setembro de 1998 é calculada como:
FareloSet/98 = 16,6941 x GraoSet/98 + 1,1224 x eAgo/98 - 0,26110 x eJul/98 = 168,7670
onde e Ago / 98 e eJul / 98 são obtido do modelo M2.
39
168,767 ± 1,983731 x 10,50 x 1 = [147,94 ; 189,60]
onde t0104 3 
.975 = 1,983731 é o percentil 0,975 da distribuição t-Student com 104-3 graus de liberdade,
s=10,50 é o erro padrão dos resíduos e o desvio-padrão da distribuição de  t 1 |  t ,  t 1 , é igual a 1,
já que temos um AR(2) e h=1.
A Tabela 4.2 mostra as previsões doze passos à frente, intervalos de previsão e valores reais
para Set/1998 a Ago/1999. Podemos verificar que a maioria das previsões superestima o verdadeiro
valor do preço do farelo de soja, mas os valores reais estão dentro do intervalo de previsão.
Comparando as previsões do modelo M2 com o modelo M2.AR2, vemos que este último apresenta um
EQMP bem menor que o M2, que possuía valor de 460,26.
Tabela 4.2: Previsões seis passos à frente para o preço do farelo de soja, Set/1998 a Ago/1999

Set/1998 151,3 168,77 [147,94 ; 189,60] -17,47
Out/1998 154,8 175,56 [144,25 ; 206,87] - 20,76
Nov/1998 158,3 177,25 [139,65 ; 214,84] -18,95
Dez/1999 157,5 172,91 [131,56 ; 214,27] -15,41
Jan/1999 152,0 151,77 [108,13 ; 195,41] 0,23
Fev/1999 158,1 137,67 [ 92,64;182,70 ] 20,43
Mar/1999 129,4 133,56 [87,66 ; 179,45] -4,16
Abr/1999 130,2 137,83 [91,40 ; 184,26] -7, 63
Mai/1999 126,3 141,55 [94,78 ; 188,31] -15,25
Jun/1999 131,2 142,91 [95,94 ; 189,88] -11,71
Jul/1999 133,8 139,62 [95,52 ; 186,72] -5,82
Ago/1999 144,8 150,07 [102,89 ; 195,26] -5,27
EQMP = 188,06.
40
A Figura 4.4 mostra o ajuste, assim como previsões para os seis últimos meses, com o intervalo
de previsão. Podemos ver que o modelo ajustado segue bem o comportamento da série, com previsões
próximas dos valores reais.

300
250
200
Farelo
150
100
0 20 40 60 80 100 120
tempo
Figura 4.4: Ajuste, previsão e intervalos de previsão para o modelo M2.AR2 (Farelo). A linha preta
representa a série do preço do farelo de soja, a linha azul mostra o modelo ajustado, os pontos em azul
são os valores previstos e as linhas em vermelho são os intervalos de previsão.
41
5. Séries sazonais
Sazonalidade: Tendência do processo em repetir um certo tipo de comportamento dentro de um

período sazonal (geralmente 12 meses para séries mensais, 4 meses para séries trimestrais, etc.).
Um exemplo de série sazonal é a série das Centrais Elétricas do Paraná (CEP), vista no do
Exemplo 1.3. A Figura 5.1 apresenta novamente a série CEP, onde podemos visualizar a sazonalidade
que ocorre de 12 em 12 meses.
500
450
400
CEP
350
300
250
1980 1982 1984 1986 1988 1990 1992
Figura 5.1. Série CEP, com sazonalidade mensal
A série CEP, além da sazonalidade, apresenta também uma tendência crescente. Assim, para
ajustar um modelo de regressão a esta série temos que incluir tanto componentes de tendência, quando
componentes para modelar a sazonalidade.
Neste capítulo vamos ver como ajustar modelos que incluem todos estes componentes, assim
como covariáveis, caso tenhamos alguma variável externa que possa ajudar a modelar e fazer previsões
para séries sazonais. Além disto, vamos também incorporar o modelo autorregressivo nos erros do
modelo de regressão, caso os resíduos não sejam um ruído branco.
42
5.1 Modelo de regressão para séries sazonais com erros autorregressivos
Consideremos o seguinte modelo para séries sazonais:
yt  t  Ft  xt'    t , t  1,..., n , (5.1)
onde  t é um ruído branco Gaussiano,  t é a tendência no período de tempo t, que pode ser modelada
como dado na Equação (2.2), x t é o vetor de covariáveis e Ft é o componente de sazonalidade.
Uma forma de modelar padrões sazonais é empregando variáveis dummy. Assumindo que
existem S períodos sazonais, o componente Ft pode ser escrito como:
Ft  1D1, t   2 D2,t  ...   ( S 1) D( S 1),t (5.2)
onde D1, t , D2, t ,..., D( S 1),t são variáveis indicadoras (ou dummy) construídas da seguinte forma:
1 para o período 1
D1, t  
 0 caso contrário
1 para o período 2
D2, t  
.
.
.
1 para o período S - 1
D( S 1),t  
Obs.: Devemos construir sempre (S-1) variáveis dummy para modelar a parte sazonal, para evitar o
problema da multicolinearidade.
43
Desta forma, o modelo geral para séries polinomiais de ordem k, com p variáveis explicativas,
x1,..., xp, e variação sazonal de período S é dado por:
yt   0  1t  ...   k t k   k 1 x1  ...   k  r xr   k  r 1D1, t  ...   k  r  ( S 1) D( S 1),t   t , t  1,..., n
(5.3)
 
O componente i , i  k  r  1,..., k  r  (S  1) , da parte sazonal, representa a diferença,
excluindo a tendência, entre o nível da série temporal no período i em relação ao período S. Por
exemplo, se  i for negativo, o valor da série no período i é esperado ser menor do que no período S.
Os parâmetros do modelo podem ser estimados por mínimos quadrados ordinários.
O modelo (5.3) pode ser estimado utilizando mínimos quadrados ordinários. A análise de
resíduos deve verificar se todas as suposições do modelo estão sendo satisfeitas, ou seja, se os resíduos
são independentes, com distribuição normal de média zero e variância constante.
Se a suposição de independência não for satisfeita, devemos ajustar o modelo com erros
autorregressivos. Consideremos então o modelo de regressão polinomial em séries temporais, que
contenha variação sazonal com período S e erros autorregressivos de ordem p. Neste caso, o modelo a
ser estimado é o mesmo dado na Equação (5.3). Porém, o termo de erro, t, é descrito por um processo
autoregressivo de ordem p,
 t  1 t 1  1 t  2  ...  1 t  p  ut . (5.4)
Os parâmetros deste modelo também podem ser estimados por mínimos quadrados ordinários
ou através do método de máxima verossimilhança. Além disto, devemos verificar as suposições de
independência, normalidade e variância constante sobre os novos resíduos do modelo, ou seja, para a
série u t estimada.
44
5.2. Previsão
No caso do modelo de regressão polinomial, que contenha variação sazonal com período S e
erros autorregressivos de ordem p, a previsão YˆT h  é dada por:
YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk T  h p  ˆk 1 x1,(T h)  ...  ˆk r xr ,(T h)  ˆk r 1 D1,t h .  ..  ˆk r ( S 1) D( S 1),t h  ˆT h
passados e ao valor presente da variável, como visto na Seção 4.2,
ˆT h  ET  T  h  .
Um intervalo de previsão de 100(1-)% para as observações futuras é dado por:
Yˆ (h)  t

T
T  nP
 / 2  s  T  h 
 T  h |  T ,  T 1,.
Caso não seja necessário incluir a parte autorregressiva no modelo, a previsão pontual feita no
tempo T para yT  h é dada simplesmente por,
YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk T  h p  ˆk 1 x1,(T h)  ...  ˆk r xr ,(T h)  ˆk r 1 D1,T h  ...  ˆk r ( S 1) D( S 1),T h
e os intervalos de previsão de 100(1-)% são obtidos como:
Yˆ (h)  t

T
T nP
 / 2 
s .
45
5.3. Exemplo – Série CEP
Vamos utilizar a série das Centrais Elétricas do Paraná (CEP), de jan/80 a dez/92, retirando as
últimas 12 observações (jan/92 a dez/92) para fazer previsões. Logo, n=144. O modelo utilizado é dado
por:
yt   0  1t   2 D1,t  ...  12D11,t   t , t  1,...,144 .
Desta forma, as estimativas para os parâmetros do modelo M_CEP são dadas por:
Saída do R:

(Intercept) 227.60761 3.24138 70.219 < 2e-16 ***
Ano 1.36033 0.02047 66.464 < 2e-16 ***
factor(sazon)2 25.88967 4.15362 6.233 5.81e-09 ***
factor(sazon)3 34.69600 4.15377 8.353 8.33e-14 ***
factor(sazon)4 46.25233 4.15402 11.134 < 2e-16 ***
factor(sazon)5 54.72533 4.15438 13.173 < 2e-16 ***
factor(sazon)6 51.69833 4.15483 12.443 < 2e-16 ***
factor(sazon)7 45.25466 4.15538 10.891 < 2e-16 ***
factor(sazon)8 48.14433 4.15604 11.584 < 2e-16 ***
factor(sazon)9 47.11733 4.15680 11.335 < 2e-16 ***
factor(sazon)10 42.42366 4.15765 10.204 < 2e-16 ***
factor(sazon)11 22.22999 4.15861 5.346 3.88e-07 ***
factor(sazon)12 19.11966 4.15967 4.596 9.99e-06 ***

F-statistic: 402.1 on 12 and 131 DF, p-value: < 2.2e-16
AIC(M1): 1091.146
Os coeficientes 0 e 1 são ambos significativos e, como o sinal de 1 foi positivo, isto indica
que o consumo de energia elétrica no Paraná tem uma tendência de aumento com o passar do tempo.
As variáveis dummy foram construídas com janeiro sendo o mês de referência. Como todos os
coeficientes sazonais foram significativos e positivos, isto significa que todos os meses apresentam um
consumo de energia significativamente maior do que o do mês de janeiro. O valor de R2 foi
46
suficientemente alto (97,12%), o que pode levar à conclusão de que a reta ajustada explica bem a
variação dos dados.
Porém, analisando os gráficos de resíduos da Figura 5.2 observamos que várias suposições do
modelo não estão satisfeitas.
Histogram of M_CEP$res
5 10 15 20 25 30 35
10 20 30
M_CEP$res
Frequency
0
-20 -10
0
0 20 40 60 80 100 140 -30 -20 -10 0 10 20 30
Index M_CEP$res
Series M_CEP$res
0.2 0.4 0.6 0.8 1.0
3
2
rnorm(n - H)
ACF
0
-3 -2 -1
-0.2
-20 -10 0 10 20 30 0 5 10 15 20
M_CEP$res Lag
Figura 5.2: Gráficos de resíduos para o modelo M_CEP ajustado á série CEP
O gráfico de resíduos vs. tempo, mostra uma diminuição nos tempos iniciais e depois um
aumento, portanto não podemos dizer que as observações se encontram aleatoriamente distribuídas em
torno de zero. O histograma apresenta uma leve assimetria à direita, mas o qqplot e o teste de Shapiro-
Wilks (valor-p=0,1855) não rejeitam a suposição de normalidade. O gráfico da FAC mostra vários
47
picos significativos e a estatística de Durbin-Watson (d= 0,5791) é menor que d U , = 1,65, logo existe
autocorrelação positiva de ordem 1 nos dados.
Se quisermos fazer previsões 12 passos à frente utilizando este modelo, teremos:
Janeiro de 1994: A previsão do consumo de energia da série CEP para o mês de jan/94 é:
CEPJan/94 = 227,6076 + 1,3603 x 145 = 424,8511.
Observamos que nenhum coeficiente das variáveis dummy entra na previsão acima, já que para o mês
de janeiro todas as dummy são iguais a zero.
424,8511 ± 1,9782 x 10,17413 = [404,7246 ; 444,9776]
onde t0144 13

.975
= 1,9782 é o percentil 0,975 da distribuição t-Student com 144-13 graus de liberdade e
Fevereiro de 1994: A previsão do consumo de energia da série CEP para o mês de fev/94 é dada por:
CEPFev/94 = 227,6076 + 1,3603 x 146 + 25,8897 x 1 = 452,1011.
Para a previsão de Fev/94 será necessário incluir somente o coeficiente da variável dummy de fevereiro,
25,8897, já que todas as outras variáveis dummy serão iguais a zero para este mês.
Desta forma, obtemos as previsões para os meses subsequentes, que são apresentadas na Tabela 5.1. A
Figura 5.3 mostra o ajuste, assim como previsões para os seis últimos meses, com o intervalo de
48
previsão. Podemos ver que o ajuste para os 4 últimos meses não é muito boa, e tanto as previsões como
os intervalos se encontram bem abaixo dos valores reais.
Tabela 5.1: Previsões 12 passos à frente para o consumo de energia elétrica da CEP, Jan/92 a Dez/92

Jan/1992 425 424,85 [404,72 ; 444,98] 0,14
Fev/1992 465 452,10 [431,98 ; 472,23] 12,89
Mar/1992 474 462,27 [442,15 ; 482,40] 11,73
Abr/1992 485 475,19 [455,06 ; 495,32] 9,81
Mai/1992 506 485,02 [464,90 ; 505,15] 20,98
Jun/1992 499 483,36 [463,23 ;503,48] 15,64
Jul/1992 481 478,27 [458,15 ; 498,40] 2,73
Ago/1992 492 482,52 [462,40 ; 502,65] 9,48
Set/1992 514 482,86 [462,73 ; 502,98] 31,14
Out/1992 515 479,52 [459,40 ; 499,65] 35,48
Nov/1992 483 460,69 [440,56 ; 480,82] 22,31
Dez/1992 481 458,94 [438,81 ; 479,07] 22,06
EQMP = 366,26.
500
450
400
CEP
350
300
250
0 50 100 150
tempo
49
Figura 5.3: Ajuste, previsão e intervalos de previsão para o modelo M_CEP. A linha preta representa a
série CEP, a linha azul mostra o modelo ajustado, os pontos em azul são os valores previstos e as linhas
em vermelho são os intervalos de previsão.
Como os resíduos não satisfazem as suposições do modelo, é necessário ajustar um modelo
autorregressivo aos mesmos. Após alguns testes, vemos também que é necessário ajustar um modelo
AR(3) aos resíduos, pois este modelo apresentou todos os coeficientes significativos, resíduos mais
próximos de um ruído branco e menor AIC. As variáveis dummy serão construídas novamente com
janeiro sendo o mês de referência. Desta forma, na saída abaixo o coeficiente de Xi, i=2,...12, faz
referência ao mês i quando comparado ao mês de janeiro, onde Fev=X2, Mar= X3,..., Dez= X12.
Saída do R:

ar1 0.748675 0.057817 12.9490 < 2.2e-16 ***
intercept 229.289311 4.607379 49.7657 < 2.2e-16 ***
Ano 1.343762 0.050003 26.8735 < 2.2e-16 ***
D2 25.802311 2.028234 12.7216 < 2.2e-16 ***
D3 34.560992 2.658383 13.0008 < 2.2e-16 ***
D4 46.103492 3.022005 15.2559 < 2.2e-16 ***
D5 54.594257 3.240072 16.8497 < 2.2e-16 ***
D6 51.616416 3.359467 15.3645 < 2.2e-16 ***
D7 45.256233 3.400795 13.3075 < 2.2e-16 ***
D8 48.269132 3.370214 14.3223 < 2.2e-16 ***
D9 47.414231 3.262148 14.5347 < 2.2e-16 ***
D10 42.954572 3.056719 14.0525 < 2.2e-16 ***
D11 23.075213 2.708622 8.5192 < 2.2e-16 ***
D12 20.384924 2.103920 9.6890 < 2.2e-16 ***
R2 = 0.9888941 R2adj = 0.9888159
2
Observamos que todos os coeficientes do modelo são significativos, o valor de Radj aumentou
um pouco em relação ao modelo M_CEP (de 97,12% para 98,88%) e que o valor do AIC diminuiu de
1091,15 para 938,85.
Analisando os gráficos de resíduos (Figura 5.4) não observamos mais nenhum padrão específico
no gráfico de resíduos vs. tempo, portanto podemos dizer que as observações se encontram
aleatoriamente distribuídas em torno de zero. O histograma mostra uma leve assimetria à direita, e o
50
qqplot apresenta um comportamento mais próximo a uma reta, mas o teste de Shapiro-Wilks rejeitou a
suposição de normalidade (valor-p=0,0241). Finalmente, o gráfico da FAC mostra um pequeno pico
significativo no lag 2 e outro no lag 12. A inclusão de um componente AR(2) não foi significativa e o
pico no lag 12 pode significar que ainda existam problemas a serem corrigidos na parte sazonal. Porém,
neste curso vamos modelar a sazonalidade apenas utilizando as variáveis dummy. Além disto, a
estatística de Durbin-Watson, d=2,2262 e 4-d=1,7738, são maiores que d U , = 1,69. Logo, não existe
mais o problema de autocorrelação de primeira ordem nos dados.
Histogram of M_CEP.AR1$res
50
20
40
M_CEP.AR1$res
10
Frequency
30
0
20
-10
10
0
0 20 40 60 80 100 140 -20 -10 0 10 20
Time M_CEP.AR1$res
Series M_CEP.AR1$res
3
0.2 0.4 0.6 0.8 1.0

2
1
rnorm(n - H)
ACF
0
-1
-2
-0.2
-3
-10 0 10 20 0 5 10 15 20
M_CEP.AR1$res Lag
Figura 5.4: Gráficos de resíduos para o modelo M_CEP.AR1 ajustado á série CEP
Uma possibilidade para corrigir o problema de falta de normalidade dos dados é fazer uma
transformação nos dados. A transformação mais utilizada nestes casos é a logarítmica. Assim, vamos
tentar ajustar um modelo para o logaritmo da variável CEP:
51
log( yt )   0  1t   2 D1,t ...  12D11,t   t , t  1,...,168
O modelo ajustado é apresentado abaixo e vemos que todos os coeficientes são significativos.
Neste caso, não podemos mais comparar o AIC deste modelo (-731,1) com o anterior (938,85), pois
como tomamos o logaritmo da série, a magnitude dos valores é diferente, e isto impacta o cálculo do
AIC, assim como dos coeficientes do modelo e o desvio padrão dos resíduos.
Saída do R:

ar1 0.5882456 0.0679431 8.6579 < 2.2e-16 ***
intercept 5.5040498 0.0083553 658.7458 < 2.2e-16 ***
Ano 0.0037356 0.0001158 32.2592 < 2.2e-16 ***
D2 0.0756909 0.0055525 13.6318 < 2.2e-16 ***
D3 0.1006747 0.0069798 14.4237 < 2.2e-16 ***
D4 0.1332122 0.0076830 17.3387 < 2.2e-16 ***
D5 0.1558829 0.0080506 19.3629 < 2.2e-16 ***
D6 0.1468089 0.0082318 17.8344 < 2.2e-16 ***
D7 0.1289133 0.0082908 15.5490 < 2.2e-16 ***
D8 0.1377685 0.0082463 16.7068 < 2.2e-16 ***
D9 0.1349079 0.0080832 16.6900 < 2.2e-16 ***
D10 0.1228008 0.0077409 15.8638 < 2.2e-16 ***
D11 0.0700491 0.0070773 9.8978 < 2.2e-16 ***
D12 0.0612848 0.0057225 10.7095 < 2.2e-16 ***
A transformação logarítmica, entretanto, não foi eficiente para corrigir o problema da falta de
normalidade, pois o teste de Shapiro-Wilks continua rejeitando a hipótese de distribuição Gaussiana
(valor-p= 0,0116). Como temos uma série com tamanho suficientemente grande (n=144), podemos
prosseguir mesmo sem esta hipótese estar satisfeita, pois os testes para os coeficientes não serão
fortemente afetados neste caso.
Obs.: Caso as suposições sejam corrigidas com o uso da transformação, temos que tomar cuidado ao
fazer previsões para valores futuros, pois neste caso estaremos calculando previsões para os dados
52
transformados, e é necessário fazer a transformação inversa para retornar as previsões e intervalos para
a escala original.
Desta forma, considerando o modelo M_CEP.AR1 adequado, vamos utilizá-lo para fazer
previsões para os meses de jan/92 a dez/92.
Janeiro de 1992: A previsão do consumo de energia da série CEP para o mês de jan/92 é:
CEPJan/92 = 229,29 + 1,34 x 145 + 0,7487 x e Dez / 91 = 429,99
onde eDez / 91 é obtido do modelo M_CEP.
429,99 ± 1,9784 x 6,6207 x 1 = [416,89 ; 443,08]
onde t0144 14 

.975
= 1,9787 é o percentil 0,975 da distribuição t-Student com 144-14 graus de liberdade,
s=6,6207 é o erro padrão dos resíduos e o desvio-padrão da distribuição de  t 1 |  t ,  t 1 , é igual a 1,
já que temos um AR(1) e h=1.
Fevereiro de 1992: A previsão do consumo de energia da série CEP para o mês de fev/92 é dada por:
CEPFev/92 = 229,29 + 1,34 x 146 + 0,7487 x e Jan / 92 + 25,80
= 455,67
onde eJan / 92 é calculado como a previsão um passo à frente para a série de resíduos, feita em
Dez/91, ˆDez / 91 1 .
Desta forma, obtemos as previsões para os meses subsequentes, apresentadas na Tabela 5.2 e
Figura 5.5. Observamos que o ajuste neste caso está bem melhor do que no modelo M_CEP, pois a
53
linha azul (ajuste) está mais próxima da linha preta (série). Os valores previstos e intervalos também
estão levemente melhores, pois o EQMP diminuiu de 366,26 para 346,72.
Tabela 5.2: Previsões 12 passos à frente para o consumo de energia elétrica da CEP, Jan/92 a Dez/92

Jan/1992 425 429,99 [416,89 ; 443,09] -4,99
Fev/1992 465 455,67 [439,30 ; 472,03] 9,33
Mar/1992 474 464,67 [446,73 ; 482,60] 9,33
Abr/1992 485 476,73 [457,97 ; 495,48] 8,27
Mai/1992 506 485,94 [466,74 ; 505,15] 20,05
Jun/1992 499 483,85 [464,40 ;503,30] 15,15
Jul/1992 481 478,48 [458,90 ; 498,07] 2,51
Ago/1992 492 482,58 [462,92 ; 502,24] 9,42
Set/1992 514 482,88 [463,17 ; 502,58] 31,12
Out/1992 515 479,62 [459,89 ; 499,34] 35,38
Nov/1992 483 460,97 [441,23 ; 480,71] 22,03
Dez/1992 481 459,54 [439,79 ; 479,29] 21,46
EQMP = 346,72.
54
500
450
400
CEP
350
300
250
0 50 100 150
tempo
Figura 5.5: Ajuste, previsão e intervalos de previsão para o modelo M_CEP.AR1. A linha preta
representa a série CEP, a linha azul mostra o modelo ajustado, os pontos em azul são os valores
previstos e as linhas em vermelho são os intervalos de previsão.
6. Análise de Intervenção
Séries temporais sempre estão sujeitas a fatores externos, tais como: mudanças políticas,
desastres meteorológicos, greve, liquidação, promoções, etc. Tais fatores estão sujeitos a intervenções e
afetam a variável a ser prevista. A Análise de Intervenção é uma técnica que avalia o efeito destes
eventos externos, tendo como principal objetivo medir o efeito causado pelos mesmos (ver Wei, 1990).
Há dois tipos comuns de variável intervenção, que são representadas por variáveis dummy:
1, t  t0
Função Pulso (ou Impulso): I t  
0, t  t0
0, t  t0
Função Passo: Pt  
1, t  t0
onde t0 denota o período (ou tempo) em que ocorreu a intervenção.
55
As intervenções nada mais são do que uma quebra estrutural na série, ou seja, uma grande
mudança abrupta da mesma. Neste sentido, outliers ou pontos extremos também podem ser
considerados como uma intervenção na série. A Figura 6.1 mostra exemplos das funções Pulso e Passo,
com uma intervenção no tempo t0 =60.

1.0
1.0
0.8
0.8
0.6
0.6
P
D
0.4
0.4
0.2
0.2
0.0
0 20 40 60 80 100
0.0 0 20 40 60 80 100
Pulso Passo
Figura 6.1: Exemplos de funções Pulso e Passo
6.1. Modelo de regressão para séries com intervenção e erros autorregressivos
O modelo geral para séries polinomiais de ordem p, covariáveis x1, ..., xr, variação sazonal de
período S e que contenham variáveis de intervenção do tipo Passo e Pulso é dado por:
yt   0  1t  ...   k t k 
 k 1 x1  ...   k  r xr 
(6.1)
 k  r 1D1, t  ...   k  r  ( S 1) D( S 1), t 
 k  r  ( S 1) 1Pt   k  r  ( S 1)  2 I t   t
 
onde t = 1, ..., n e  t ~ N 0,  2 , independentes.
56
Obs.: É possível incluir mais de uma variável Passo, assim como mais de uma variável Pulso, em um
mesmo modelo. O número de variáveis a serem incluídas depende do número de intervenções que
ocorrem na série temporal.
O modelo (6.1) pode ser estimado utilizando mínimos quadrados ordinários. Novamente, se a
suposição de independência sobre os erros do modelo (6.1) não for satisfeita, devemos ajustar o modelo
com erros autorregressivos. Neste caso, o modelo a ser estimado é o mesmo dado na Equação (6.1).
Porém, o termo de erro, t, é descrito por um processo autoregressivo de ordem p,
 t  1 t 1  1 t  2  ...  1 t  p  ut . (5.4)
Os parâmetros deste modelo também podem ser estimados por mínimos quadrados ordinários
ou através do método de máxima verossimilhança. Além disto, devemos verificar as suposições de
independência, normalidade e variância constante sobre os novos resíduos do modelo, ou seja, para a
série u t estimada.
6.2. Previsão
Em um modelo de regressão polinomial, com r variáveis explicativas, variação sazonal de

período S e que contenha uma variável de intervenção do tipo Passo e uma do tipo Pulso, a previsão
YˆT h  é dada por:
YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk (T  h) k 

ˆk 1 x1, (T  h)  ...  ˆk  r xr , , (T  h) 
ˆk  r 1D1,T  h  ...  ˆk  r  ( S 1) D( S 1),T  h 
ˆk  r  ( S 1) 1PT  h   k  r  ( S 1)  2 I T  h  ˆT (h)
57
passados e ao valor presente da variável, como visto na Seção 4.2,
ˆT h  ET  T  h  .
Obs.: Como a variável Pulso só assume o valor 1 no ponto da intervenção, seu valor será sempre igual
a zero para os tempos futuros, T+h. Desta forma, ela não será incluída na previsão.
Um intervalo de previsão de 100(1-)% para as observações futuras é dado por:
Yˆ (h)  t

T
T  nP
 / 2  s  T  h 
 T  h |  T ,  T 1,.
6.3. Exemplo – Série Acidentes
A Figura 1.4 mostrou a série de número total de motoristas mortos ou feridos na Grã Bretanha
devido a acidentes de trânsito entre Jan/1969 a Dez/1984 (n=180), apresentada novamente na Figura
6.2. Este é um conjunto de dados muito utilizado na literatura para ilustrar a importância de utilizar
variáveis de intervenção para modelar a quebra estrutural na série devido à introdução do uso
compulsório de cinto de segurança em 31 Jan/1983. Além da quebra devido ao uso do cinto a partir de
1983, podemos observar também uma mudança de comportamento da série a partir de Jan/74, onde
58
ocorre uma diminuição e estabilização do número de acidentes. A série também apresenta uma clara
sazonalidade, provavelmente devido a acidentes ocorridos nos períodos das férias.
2500
2000
No de Acidentes
1500
1000
1970 1975 1980 1985
Figura 6.2: Série do número de acidentes de trânsito na Grã-Bretanha, de Jan/1969 a Dez/1984
Como esta é uma série de contagens com valores relativamente altos (a média do número de
acidentes no período é 1670), podemos aplicar a transformação logarítmica e trabalhar com o modelo
com erros Gaussianos. Vamos retirar as 12 últimas observações (jan/84 a dez/84) para fazer previsões.
Vamos inicialmente ajustar o modelo polinomial de ordem 1 com variação sazonal de período
12 à série log(yt):
log( yt )   0  1t   2 D1,t ...  12D11,t   t , t  1,...,180 .
O modelo ajustado é dado por:
Saída do R:

(Intercept) 7.5628401 0.0286726 263.766 < 2e-16 ***
Ano -0.0014145 0.0001443 -9.802 < 2e-16 ***
factor(sazon)2 -0.1243220 0.0366519 -3.392 0.000866 ***
factor(sazon)3 -0.0883965 0.0366527 -2.412 0.016961 *
factor(sazon)4 -0.1602312 0.0366541 -4.371 2.16e-05 ***
59
factor(sazon)5 -0.0726811 0.0366561 -1.983 0.049032 *
factor(sazon)6 -0.1057157 0.0366587 -2.884 0.004447 **
factor(sazon)7 -0.0546960 0.0366618 -1.492 0.137610
factor(sazon)8 -0.0456518 0.0366655 -1.245 0.214843
factor(sazon)9 -0.0125895 0.0366698 -0.343 0.731789
factor(sazon)10 0.0684241 0.0366746 1.866 0.063836 .
factor(sazon)11 0.1747334 0.0366800 4.764 4.11e-06 ***
factor(sazon)12 0.2329922 0.0366859 6.351 1.95e-09 ***

AIC(M1): -302.2605
Alguns coeficientes dos componentes sazonais não são significativos (Fatores 7, 8, 9 e 10).
Porém, como a maioria dos fatores sazonais foram significativos, para manter a sazonalidade devemos
utilizar todos os coeficientes, mesmo os não significativos. O valor de R2 foi igual a 62,89% e o AIC =
-302,2605.
Vamos agora ajustar o modelo de regresso com intervenção. Para descobrir os pontos onde
ocorre mudança de comportamento da série, vamos utilizar o pacote “changepoint” do R para detectar
pontos de mudança. O gráfico da Figura 6.3 aponta que houve 3 pontos de mudança na série, e a saída
do programa indica que as mudanças ocorreram nos tempos 10, 72 e 169. O tempo 169 corresponde à
introdução do cinto de segurança, e o tempo 72 indica a mudança que já havia sido observada
anteriormente. Além destes dois pontos, o programa mostra também uma mudança em t=10.
60
7.8
7.6
data.set.ts(x)
7.4
7.2
7.0
1970 1975 1980 1985
Time
Figura 6.3: Pontos de mudança na série do número de acidentes de trânsito na Grã-Bretanha
Desta forma, vamos incluir no modelo 3 variáveis de intervenção do tipo passo, nos meses de
Out/69 (t0=10), Dez/74 (t0=72) e Fev/83 (t0=169). Para isto, temos que criar três variáveis dummy:
0, t  10 0, t  72 0, t  169

P10   , P72   e P169   .
1, t  10 1, t  72 1, t  169
O modelo ajustado (M_AcP) é apresentado abaixo. Como a variável tempo não é mais
significativa quando incluímos as intervenções, ela foi retirada do modelo.
Saída do R:

(Intercept) 7.42739 0.03054 243.205 < 2e-16 ***
factor(sazon)2 -0.12574 0.02702 -4.654 6.65e-06 ***
factor(sazon)3 -0.09123 0.02702 -3.377 0.000915 ***
factor(sazon)4 -0.16447 0.02702 -6.088 7.76e-09 ***
factor(sazon)5 -0.07834 0.02702 -2.900 0.004245 **
factor(sazon)6 -0.11279 0.02702 -4.175 4.82e-05 ***
factor(sazon)7 -0.06318 0.02702 -2.339 0.020553 *
factor(sazon)8 -0.05555 0.02702 -2.056 0.041336 *
factor(sazon)9 -0.02391 0.02702 -0.885 0.377542
factor(sazon)10 0.04717 0.02708 1.742 0.083309 .
factor(sazon)11 0.15207 0.02708 5.617 8.11e-08 ***
factor(sazon)12 0.21878 0.02707 8.081 1.30e-13 ***
P10 0.12779 0.02663 4.799 3.55e-06 ***
P72 -0.14795 0.01204 -12.289 < 2e-16 ***
P169 -0.22925 0.02264 -10.125 < 2e-16 ***

61
AIC(M1): -410.2257
Observamos que as três variáveis Passo são significativas, assim como a maioria dos fatores
sazonais. Além disto, o valor de R2 aumentou para 79,83% e o AIC diminuiu para -410,2257.
Histogram of M_AcPQ$res
50
0.1
20 30 40
M_AcPQ$res
Frequency
0.0
-0.1
10
0
0 50 100 150 -0.2 -0.1 0.0 0.1 0.2
Index M_AcPQ$res
Series M_AcPQ$res
0.2 0.4 0.6 0.8 1.0

3
2
rnorm(n - H)
ACF
0
-2 -1
-0.2
-0.1 0.0 0.1 0 5 10 15 20
M_AcPQ$res Lag
Figura 6.4: Gráficos de resíduos para o modelo M_AcP ajustado á série Acidentes
Analisando a Figura 6.4 observamos que gráfico de resíduos vs. tempo mostra um
comportamento aleatório em torno de zero. Além disso, o histograma e o qqplot parecem indicar
normalidade, e o teste de Shapiro-Wilks (valor-p=0,8641) não rejeita a suposição de normalidade.
Porém, o gráfico da FAC mostra dois picos significativos nos lags 1 e 2 e a estatística de Durbin-
Watson (d= 1,5150) é menor que d U , = 1,65, logo existe autocorrelação positiva de ordem 1 nos dados.
Previsões para o período Jan/84 a Dez/84 se encontram na Tabela 6.1. A Figura 6.5 mostra o
ajuste, assim como previsões para os seis últimos meses, com o intervalo de previsão. Podemos ver que
62
o ajuste para os 4 últimos meses não é muito boa, e tanto as previsões como os intervalos se encontram
bem abaixo dos valores reais.
Tabela 6.1: Previsões 12 passos à frente para a série de acidentes na Grã Bretanha, Jan/84 a Dez/84

Jan/1984 1357 1310,27 [1132,18 ; 1516,37] 46,73
Fev/1984 1165 1155,45 [998,41 ; 1337,20] 9,54
Mar/1984 1282 1196,03 [1033,47 ; 1384,16] 85,97
Abr/1984 1110 1111,55 [960,47 ; 1286,39] -1,55
Mai/1984 1297 1211,54 [1046,87 ; 1402,11] 85,46
Jun/1984 1185 1170,51 [1011,42 ; 1354,63] 14,49
Jul/1984 1222 1230,04 [1062,86 ; 1423,52] -8,04
Ago/1984 1284 1239,46 [1071,00 ; 1434,43] 44,54
Set/1984 1444 1279,32 [1105,43 ; 1480,55] 164,68
Out/1984 1575 1373,56 [1186,87 ; 1589,62] 201,44
Nov/1984 1737 1525,47 [1318,13 ; 1765,42] 211,53
Dez/1984 1763 1630,70 [1409,06 ; 1887,20] 132,30
EQMP = 12.431,59.
2500
2000
Acidentes
1500
1000
0 50 100 150
tempo
63
Figura 6.5: Ajuste, previsão e intervalos de previsão para o modelo M_AcP. A linha preta representa a
série Acidentes na Grã Bretanha, a linha azul mostra o modelo ajustado, os pontos em azul são os
valores previstos e as linhas em vermelho são os intervalos de previsão.
Vamos agora ajustar o modelo autorregressivo aos dados. Novamente, a variável tempo não foi
significativa, e o modelo com erros AR(2) apresentou o melhor ajuste. Observamos que todos os
2
coeficientes do modelo são significativos (exceto D9), o valor de Radj aumentou de 79,83% para
84,27% e o AIC diminuiu de -410,23 para -422,36.
Saída do R:

ar1 0.202194 0.073910 2.7357 0.006225 **
ar2 0.173280 0.073968 2.3426 0.019148 *
intercept 7.441120 0.036775 202.3441 < 2.2e-16 ***
D2 -0.125533 0.022497 -5.5799 2.406e-08 ***
D3 -0.090338 0.022805 -3.9613 7.454e-05 ***
D4 -0.163411 0.024697 -6.6165 3.678e-11 ***
D5 -0.077120 0.025088 -3.0740 0.002112 **
D6 -0.111508 0.025438 -4.3836 1.168e-05 ***
D7 -0.061870 0.025495 -2.4267 0.015236 *
D8 -0.054229 0.025452 -2.1306 0.033121 *
D9 -0.022595 0.025129 -0.8991 0.368582
D10 0.049644 0.024863 1.9967 0.045861 *
D11 0.154443 0.023069 6.6948 2.159e-11 ***
D12 0.221041 0.022735 9.7227 < 2.2e-16 ***
P10 0.110240 0.035662 3.0912 0.001993 **
P72 -0.145774 0.017255 -8.4482 < 2.2e-16 ***
P169 -0.229346 0.030496 -7.5206 5.454e-14 ***
R2 = 0.8462 R2adj = 0.8427
Analisando os gráficos de resíduos (Figura 6.6) não observamos nenhum padrão específico no
gráfico de resíduos vs. tempo, o histograma, o qqplot e o teste de Shapiro-Wilks não rejeitam a
suposição de normalidade (0,8906) e o gráfico da FAC não mostra nenhum pequeno pico significativo.
Além disto, a estatística de Durbin-Watson d=2,0052 e 4-d=1,9948 são maiores que d U , = 1,69. Logo,
não existe mais o problema de autocorrelação de ordem 1 nos dados.
64
Previsões para o período Jan/84 a Dez/84 se encontram na Tabela 6.2. A Figura 6.7 mostra o
ajuste, assim como previsões para os seis últimos meses, com o intervalo de previsão.
Histogram of M_AcP.AR2$res
10 20 30 40 50
0.10
M_AcP.AR2$res
Frequency
0.00
-0.20 -0.10
0
0 50 100 150 -0.2 -0.1 0.0 0.1 0.2
Time M_AcP.AR2$res
Series M_AcP.AR2$res
0.2 0.4 0.6 0.8 1.0

3
2
rnorm(n - H)
ACF
0
-2 -1
-0.20 -0.10 0.00 0.10 -0.2 0 5 10 15 20
M_AcP.AR2$res Lag
Figura 6.6: Gráficos de resíduos para o modelo M_AcP.AR2 ajustado à série Acidentes
Tabela 6.2: Previsões 12 passos à frente para a série de acidentes na Grã Bretanha, Jan/84 a Dez/84

Jan/1984 1357 1281,76 [1121,34 ; 1465,12] 75,24
Fev/1984 1165 1134,04 [989,43 ; 1299,78] 30,96
Mar/1984 1282 1186,69 [1032,29 ; 1364,18] 95,31
Abr/1984 1110 1105,93 [961,66 ; 1271,84] 4,07
Mai/1984 1297 1208,37 [1050,55 ; 1389,89] 88,63
Jun/1984 1185 1168,58 [1015,92 ; 1344,18] 16,41
Jul/1984 1222 1228,77 [1068,23 ; 1413,43] -6,77
Ago/1484 1284 1238,53 [1076,72 ; 1424,67] 45,46
Set/1984 1444 1278,54 [1111,50 ; 1470,69] 165,46
Out/1984 1575 1374,43 [1194,86 ; 1580,99] 200,57
Nov/1984 1737 1526,35 [1326,93 ; 1755,74] 210,65
65
Dez/1984 1763 1631,50 [1418,34 ; 1876,69] 131,50
EQMP = 12.935,73.
2500
2000
No de Acidentes
1500
1000
0 50 100 150
tempo
Figura 6.7: Ajuste, previsão e intervalos de previsão para o modelo M_AcPP.AR2. A linha preta
representa a série Acidentes na Grã Bretanha, a linha azul mostra o modelo ajustado, os pontos em azul
são os valores previstos e as linhas em vermelho são os intervalos de previsão.
Apesar da previsão estar um pouco pior em relação ao modelo sem erros autorregressivos (o
EQMP teve um aumento de 4%), podemos ver que o ajuste é melhor neste caso (os valores de AIC e R2
foram melhores e a linha azul está mais próxima da preta no modelo com erros AR(2)). Isto mostra que
nem sempre o modelo que apresenta o melhor ajuste é também o que fornece as melhores previsões,
fato muito comum na prática.
66
PARTE 2:
MODELOS REGRESSÃO PARA SÉRIES TEMPORAIS DE CONTAGEM
Se estamos interessados em modelar séries temporais de contagem, como a série do Exemplo
1.5 (número de casos de poliomielite nos Estados Unidos), não podemos utilizar os modelos descritos
na Parte 1 desta apostila, já que neste caso temos contagens muito baixas e as observações não têm
distribuição normal.
Para resolver este problema, uma possibilidade é a utilização de modelos lineares generalizados
(MLG), pois esta classe de modelos permite o uso de várias distribuições de probabilidade que
pertençam à família exponencial. Por exemplo, séries de contagem podem ter distribuição binomial,
Poisson ou binomial negativa. Entretanto estes modelos, apesar de não necessitarem da suposição de
normalidade, são baseados na suposição de independência das observações, o que geralmente não
ocorre em séries temporais.
Existe uma outra classe de modelos, conhecidos como autorregressivos médias móveis
(ARMA), propostos por Box e Jenkins (1976), que são muito utilizados para modelar séries temporais,
pois eles conseguem captar a autocorrelação existente entre as observações. Porém, estes modelos
necessitam da suposição de normalidade.
Assim, surgiram os modelos lineares generalizados com erros autorregressivos e médias móveis
(GLARMA), propostos por Davis et al. (2003). Estes modelos utilizam o MLG conjuntamente com o
ARMA para modelar uma gama muito maior de séries temporais, que tenham qualquer distribuição
pertencente à família exponencial.
Na Parte 2 desta apostila vamos descrever inicialmente o MLG, depois os modelos ARMA e,
finalmente, os modelos GLARMA.
67
7. Modelos Lineares Generalizados
Os modelos lineares generalizados (MLG) são uma extensão dos modelos lineares normais e
foram propostos por Nelder e Wedderburn (1972). A ideia básica consiste em abrir o leque de opções
para a distribuição da variável resposta, permitindo que a mesma pertença à família exponencial de
distribuições.
Seja y1, . . . , yn uma amostra aleatória de n observações independentes de uma variável resposta
Y. No modelo linear geral, supomos que Yt tem distribuição normal com média µt e variância σ2,
 
Yt ~ N t , 2 . Além disto, assumimos que o valor esperado, µt, é uma função linear de r variáveis
preditoras x ~ x1,..., xr  , i.e.,
E (Yt )  t  x't  ,
onde β é um vetor de parâmetros desconhecidos.
Mas vamos supor que a distribuição de Y não seja Normal. Precisamos determinar a distribuição
correta da variável resposta para podermos estimar os parâmetros, fazer testes de hipóteses e tirar
conclusões sobre o modelo. Uma classe de distribuições que garante essas propriedades é conhecida
como família exponencial.
7.1. Família exponencial a um parâmetro
A família exponencial (FE) é uma família de distribuições cuja função densidade pode ser
escrita na seguinte forma:
f ( yt ,t )  exp a( yt )b(t )  c(t )  d ( yt ), t  1,..., n (7.1)
onde t é o parâmetro de interesse e a(.), b(.), c(.) e d(.) são funções conhecidas.
Obs.: Se a(y) = y então b(.) é chamado parâmetro canônico da distribuição.
68
Se Yt tem distribuição na família exponencial, então sua média e variância são dadas por
c' (t )
E (Yt )  t  
b' (t )
b' ' (t )c' (t )  c' ' (t )b' (t )
Var (Yt )  .
b' (t )3
7.2. Componentes do Modelo
Uma vez definido como se estruturam as distribuições segundo a família exponencial, temos
três componentes que formam um MLG:
a) Componente Aleatória – composto de uma variável resposta Y com distribuição pertencente
à família exponencial;
b) Componente Sistemática – é a parte do modelo composta pelas variáveis explicativas
x  ( x1,..., xr ) e denotada por t  x t'  , onde ηt é conhecido como preditor linear.
c) Função de Ligação (g) – é uma função diferenciável e contínua. Através desta função, faz-se
a conexão entre a média das observações e a parte sistemática:
g t   t  xt' 
Alguns exemplos de funções de ligação são dados na Tabela 7.1.
Tabela 7.1: Alguns exemplos de funções de ligação
Distribuição Ligação
Normal Identidade
Poisson Log
Binomial Logit
69
7.3. Estimação
O vetor de parâmetros β = (β1, ..., βr) pode ser estimado através de várias metodologias, como
mínimos quadrados ponderados, máxima verossimilhança (MV) ou inferência Bayesiana. Para o
método MV, a função de log-verossimilhança é dada por:
n
( , y )   a( yt )b(t )  c(t )  d ( yt )  . (7.2)
t 1
Como as derivadas da função acima são difíceis de serem obtidas analiticamente, devemos usar
métodos numéricos para encontrar as estimativas dos parâmetros. Um dos procedimentos mais
utilizados é o processo de otimização iterativo conhecido como algoritmo de Newton-Raphson.
Resumidamente, pode-se dizer que o algoritmo inicia o processo especificando uma estimativa inicial
para β e vai sucessivamente alterando-a até que a diferença entre β na iteração (m + 1) e a estimativa
anterior seja menor que um valor bem pequeno pré-definido. Desta forma, a convergência é obtida e
temos o vetor de coeficientes estimados.
Através das propriedades do estimador de máxima verossimilhança, para n suficientemente
grande temos,

ˆ ~ N r  , I 1 ,
onde I é a matriz de informação de Fisher.
70
7.4. Adequação de modelos
Após a estimação dos coeficientes do modelo, alguns procedimentos devem ser realizados a fim
de medir a qualidade do ajuste e adequabilidade do modelo, ou seja, deve ser feita uma validação dos
resultados. Num primeiro momento essas análises servem também para comparar diferentes modelos.
Assim como no modelo linear normal, para se decidir entre um ou outro modelo, pode-se calcular
medidas associadas ao ajuste do modelo, como o coeficiente de determinação (R²) e o critério de
informação AIC.
Além destas medidas, uma outra maneira de verificar a adequação de um modelo é compará-lo
com um modelo mais geral, com o número máximo de parâmetros que podem ser estimados. Este
último é chamado de modelo saturado. A estatística Desvio (do inglês Deviance) calcula a bondade de
ajuste do modelo através das diferenças entre a função de log-verossimilhança do modelo saturado com
o modelo sob investigação, i.e., (ˆsat , y)  (ˆ, y) . Aqui ̂sat denota o EMV do vetor de parâmetros
do modelo saturado e ˆ é o EMV dos parâmetros do modelo sob investigação.
Assim, a estatística Desvio é definida como:
 
D  2 (ˆsat , y)  (ˆ, y) . (7.3)
Um valor pequeno desta estatística implica um bom ajuste. A distribuição amostral de D é
aproximadamente  2 (n  r , ) , onde  é o parâmetro de não-centralidade.
71
No caso do MLG, existem dois tipos de resíduos que são mais utilizados na prática, os resíduos
de Pearson e Desvio.
a) Resíduo de Pearson
O resíduo de Pearson é simplesmente a diferença entre os valores observados e ajustados,
dividido por uma estimativa do desvio padrão do valor ajustado. O resíduo resultante tem a forma,
yt  ˆ t
rtP  .
Var ˆ t 
b) Resíduo Desvio
Se a estatística Desvio dada na Equação (7.3) é usada como uma medida de discrepância, então
cada unidade contribui com uma quantidade para o Desvio, logo D   d t . Desta forma, o resíduo
t
Desvio é definido como:
rtD  sinal yt  t  dt .
Ou seja, se tomarmos o quadrado de rtD e somarmos sobre todas as observações, obtemos a
estatística Desvio. Observações com um resíduo Desvio maior que 2 podem indicar falta de ajuste.
Pode-se construir gráficos dos resíduos versus tempo e observar se eles se encontram
aleatoriamente distribuídos em torno de zero, com variância constante. Além disto, deve-se também
observar se há indícios de autocorrelação nos resíduos, construindo o gráfico da FAC.
72
O Exemplo 1.5 mostrou a série Polio, referente ao número de casos de poliomielite nos Estados
Unidos, de janeiro de 1970 a dezembro de 1983. A Figura 7.1 apresenta o histograma dos dados.
Podemos verificar que não é possível utilizar a distribuição Gaussiana neste caso.
Histogram of polio
140
120
100
80
Frequency
60
40
20
0
0 2 4 6 8 10 12 14
polio
Figura 7.1. Histograma da série Polio
Muitos autores já analisaram esta série na literatura para verificar se a incidência de poliomielite
vem decrescendo desde 1970. Uma possibilidade para a distribuição da variável resposta, como se trata
de contagens, é a distribuição de Poisson. Como variáveis explicativas, a maioria dos estudos utiliza
um componente de tendência e componentes sazonais usando pares de seno e cosseno, com ciclos
anuais e semianuais. Retirando as últimas 12 observações (jan/83 a dez/83) para fazer previsões, o
modelo é dado por:
yt ~ Poisson ( t ), t  1,...,156
 2 t   2 t   2 t   2 t 
t  log t    0  1t   2 cos    3 sen    4 cos    5 sen 
 12   12   6   6 
73
Saída do R:
(Intercept) 0.622557 0.129897 4.793 1.65e-06 ***
Ano -0.005820 0.001571 -3.704 0.000212 ***
Cos12 0.095782 0.093143 1.028 0.303790
Sen12 -0.517376 0.116958 -4.424 9.71e-06 ***
Cos6 0.405836 0.103904 3.906 9.39e-05 ***
Sen6 -0.088790 0.101068 -0.879 0.379661
Null deviance: 318.76 on 155 degrees of freedom
Residual deviance: 271.09 on 150 degrees of freedom
AIC: 522.87
O coeficiente de 1 (Ano) foi negativo e significativo, o que significa que a incidência de pólio
está diminuindo com o tempo. Além disto, vemos que os componentes sazonais de sen12 e cos6 são
significativos, portanto devemos manter também os componentes cos12 e sen6.
Assim, o modelo ajustado é dado por:
  2 t   2 t   2 t   2 t  
ˆ t  exp  0,623  0,006 t  0,096 cos   0,517 sen   0,406 cos   0,089sen  
  12   12   6   6 
A Figura 7.2 apresenta os gráficos de resíduos versus tempo e a FAC, tanto para o resíduo de
Pearson, quanto o Desvio. O gráfico de resíduos no tempo parece apresentar um comportamento
aleatório em torno do valor zero, apesar de termos algumas observações com valores muito altos
(acima de 3 desvios-padrão). A FAC também mostra a falta de independência dos resíduos, pois vemos
alguns picos significativos nos lags iniciais.
74
Resíduos de Pearson Series rp
0.2 0.4 0.6 0.8 1.0

6
4
ACF
rp
2
0
-0.2
0 50 100 150 0 5 10 15 20
Index Lag
Resíduos Desvio Series rd

4 5
0.2 0.4 0.6 0.8 1.0

-2 -1 0 1 2 3
ACF
rd
-0.2
0 50 100 150 0 5 10 15 20
Index Lag
Figura 7.2. Análise de resíduos para o modelo M1.MLG
Previsões: Vamos fazer previsões 12 passos à frente utilizando este modelo.
Janeiro de 1983: A previsão da incidência de poliomielite para o mês de jan/83 é:
  314   314   314   314 

exp  0,623  0,006 x157  0,096 cos   0,517 sen   0,406 cos   0,089sen    0,71
  12   12   6   6 
Desta forma, podemos calcular as previsões para o período Jan/83 a Dez/83, que são
apresentadas na Tabela 7.2. A Figura 7.3 mostra o ajuste, assim como previsões para os doze últimos
meses. Podemos ver que tanto o ajuste quanto as previsões parecem satisfatórios, somente
apresentando valores mais afastados dos reais nos períodos de picos na incidência de pólio.
75
Tabela 7.2: Previsões 12 passos à frente para a série de Polio, Jan/83 a Dez/83
Mês Real Previsto Real-Previsto

Jan/1983 0 0,71 -0,71
Fev/1983 1 0,38 0,62
Mar/1983 0 0,29 -0,29
Abr/1983 0 0,39 -0,39
Mai/1983 0 0,69 -0,69
Jun/1983 1 0,99 0,01
Jul/1983 2 0,97 1,02
Ago/1983 1 0,81 0,19
Set/1983 0 0,80 -0,80
Out/1983 1 1,03 -0,03
Nov/1983 3 1,31 1,69
Dez/1983 6 1,16 4,84
EQMP = 2,4687.
10
8
6
Polio
4
2
0
-2
0 50 100 150
tempo
Figura 7.3: Ajuste e previsão para o modelo M1.MLG. A linha preta representa a série Polio, a linha
azul mostra o modelo ajustado e os pontos em azul são os valores previstos.
76
8. Modelos ARMA
Nesta seção vamos apresentar, de forma resumida, a modelagem ARMA proposta por Box e
Jenkins (1976). Para deixar a notação bem geral, vamos chamar a série temporal em estudo de zt. Esta
série pode ser tanto nossa série resposta, yt, quanto a variável explicativa, xt, ou também uma série de
resíduos  t .
Antes de mostrar o modelo, vamos definir o operador de retardo ou de translação para o
passado. Este operador é denotado por B e representa uma defasagem de k períodos de tempo para trás.
Ou seja, se aplicarmos o operador na série z, no tempo t, obtemos o valor da série z no tempo t-k:
B k zt  zt k .
A modelagem proposta por Box & Jenkins é da forma
 p B zt   q B ut (8.1)
onde  p ( B)  1  1B  2 B 2     p B p e  q ( B)  1  1B   2 B 2     q B q são polinômios de graus
p e q, respectivamente e u t é um ruído branco, geralmente Gaussiano.
De acordo com Box & Jenkins, o modelo (8.1) é denominado ARMA(p,q). De (8.1) pode-se
escrever:
1   B  ...  
1 p  
B p zt  1  1 B  ...   q B q ut 
ou
zt  1 zt 1  ...   p zt  p  ut  1ut 1  ...   q ut q (8.2)
Os parâmetros do modelo ARMA(p,q), ou seja, 1 , 2 ,...,  p , 1 ,  2 ,...,  q  são geralmente
estimados usando o método de máxima verossimilhança.
77
8.1. Tipos de modelos
8.1.1. Modelos não-sazonais
a) Modelos Auto-Regressivos (AR) - Notação: AR(p)
O modelo que tem  q B   1 é chamado autorregressivo. O nome autorregressivo se
deve ao fato de que z t no instante t é função dos z's nos instantes anteriores a t. Este foi o
modelo que usamos para os resíduos do modelo de regressão, na Seção 4.
Exemplos:
AR(1): zt  1 zt 1  ut
...
AR(p): zt  1 zt 1  2 zt 2  ...   p zt  p  ut
b) Modelos Médias Móveis (MA) - Notação: MA(q)
O modelo que tem  p B   1 é chamado Modelo Médias Móveis. O nome Médias
Móveis vem do fato que z t é uma função soma algébrica ponderada dos ut que se movem no
tempo.
Exemplos:
MA(1): zt  ut  1ut 1
...
MA(q): zt  ut  1ut 1   2ut 2  ...   q ut q
78
c) Modelos Auto-Regressivos - Médias Móveis (ARMA) - Notação: ARMA(p,q)
É o modelo que tem tanto uma parte AR    1 como uma parte MA    1 . Por exemplo,
ARMA(1,1): zt  1 zt 1  ut  1ut 1
ARMA(1,2): zt  1 zt 1  ut  1ut 1   2ut 2
ARMA(2,1): zt  1 zt 1  2 zt 2  ut  1ut 1
ARMA(2,2): zt  1 zt 1  2 zt 2  ut  1ut 1   2ut 2
...
ARMA(p,q): zt  1 zt 1  2 zt 2  ...   p zt  p  ut  1ut 1   2ut 2  ...   q ut q
8.1.2. Modelos sazonais
a) Modelos MA sazonais
Seja S o período sazonal e considere o seguinte modelo MA aplicado à série zt

zt  ut  1ut  S    Qut  QS  zt  1  1B S    Q B QS ut 
Este modelo tem ordem QS e é conhecido como modelo sazonal MA(Q)S.
b) Modelos AR sazonais

zt  1zt  S     P zt  PS  1  1B S     P B PS zt  ut 
Este modelo tem ordem PS e é conhecido como modelo sazonal AR(P)S.
79
c) Modelos ARMA sazonais
zt  1zt  S     P zt  PS  ut  1ut  S    Qut QS
Este modelo é o modelo sazonal ARMA(P,Q)S.
8.1.3. Modelos ARMA multiplicativos
Este modelo se aplica à maioria das séries sazonais reais, ou seja, realizações de processos que
apresentam correlação serial “dentro” e “entre” períodos sazonais.
Definição: ARIMA(p,q)(P,Q)S
   
 B S  B zt   B S  B ut
     
 1  1B S  ...   P B SP 1  1B  ...   p B p zt  1  1B S  ...  Q B SQ 1  1B  ...  q Bq ut
onde
  
 B S  1  1B S  2 B2S     P B PS ; 
 B   1   B   B
1 2
2

  p B p ;
  
 B S  1  1B S  2 B 2S    Q BQS ; 

 B   1  1B   2 B 2     q B q .
80
8.2. Identificação de Modelos
A identificação da ordem do modelo ARMA(p,q) se faz através das funções de autocorrelação
(FAC) e autocorrelação parcial (FACP). A FAC já foi vista na Seção 3.3.3.
A função de autocorrelação parcial (PACF) é calculada medindo a correlação entre duas
observações seriais, z t e zt k , eliminando a dependência dos termos intermediários, zt 1 , zt 2 ,..., zt ( k 1) .
Assim, a FACP é calculada de forma condicional,
 
kk  Corr zt , zt k zt 1 ,..., zt ( k 1) , para k  0,  1,  2,... .
A identificação de p e q é feita comparando-se o comportamento dos estimadores das
 
autocorrelações ( ̂ k ) e das autocorrelações parciais ˆkk com as correspondentes funções teóricas. Na
prática, a maioria das séries apresentam p  q  2 .
A Figura 8.1 mostra a FAC e FACP para o modelo AR(1). Se o valor de  for positivo, a FAC
apresenta um decrescimento exponencial e a FACP apresenta um pico positivo no lag 1. Já se o valor
de  for negativo, a FAC apresenta um decrescimento alternado e a FACP apresenta um pico negativo
no lag 1.
Os modelos AR(p) possuem sempre esta característica. Por exemplo, um AR(2) vai apresentar
um decrescimento exponencial ou alternado na FAC, e dois picos na FACP, o primeiro no lag 1 e o
segundo no lag 2. O AR(3) possui decrescimento exponencial ou alternado na FAC, e três picos na
FACP, o primeiro no lag 1, o segundo no lag 2 e o terceiro no lag 3. E assim por diante.
81
 positivo
1.0 Series z Series z
0.6 0.7
0.8
0.3 0.4 0.5

0.6
Partial ACF
ACF
0.4
0.1 0.2
0.2
0.0
0.0
0 10 30 50 70 0 10 30 50 70
Lag Lag
 negativo
Series z Series z
1.0
-0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0

0.5
Partial ACF
ACF
0.0
-0.5
0 5 10 15 20 5 10 15 20
Lag Lag
Figura 8.1: ACF e PACF para o modelo AR(1)
A Figura 8.2 mostra a FAC e FACP para o modelo MA(1). Se o valor de θ for positivo, a FAC
apresenta um pico positivo no lag 1 e a FACP apresenta um decrescimento alternado. Já se o valor de θ
for negativo, a FAC apresenta um pico negativo no lag 1 e a FACP apresenta um decrescimento
exponencial. Devemos tomar cuidado ao analisar a FAC gerada pelo R, pois ela sempre tem início no
lag 0, ao contrário da FACP, que tem início no lag 1. A FAC no lag 0 será sempre igual a 1, pois
ˆ 0  ˆ0 / ˆ0  1 .
82
θ positivo
Series z Series z
1.0
0.4
0.8
0.2
0.6
Partial ACF
ACF
0.4
0.0
0.2
-0.2
0.0
0 5 10 15 20 5 10 15 20
Lag Lag
θ negativo
Series z Series z
1.0
0.0
-0.1
0.5
-0.2
Partial ACF
ACF
-0.3
0.0
-0.4
-0.5
0 10 30 50 70 0 10 30 50 70
Lag Lag
Figura 8.2: ACF e PACF para o modelo MA(1)
Os modelos MA(q) possuem sempre esta característica. Por exemplo, o MA(2) possui dois
picos na FAC, o primeiro no lag 1 e o segundo no lag 2 e a FACP apresenta decrescimento exponencial
ou alternado. O AR(3) possui três picos na FACP, o primeiro no lag 1, o segundo no lag 2 e o terceiro
no lag 3 e a FACP apresenta decrescimento exponencial ou alternado. E assim por diante.
Na Tabela 8.1 são apresentados os comportamentos esperados da FAC e FACP de alguns
modelos da classe ARMA mais comuns. A identificação de modelos sazonais é idêntica à dos modelos
não-sazonais, porém os picos são observados nos lags múltiplos de S.
83
Tabela 8.1: Comportamento teórico da FAC e FACP para alguns modelos
Modelo ACF PACF

MA(1) 1 pico no lag 1 Decrescimento exponencial
ou alternado
AR(1) Decrescimento exponencial 1 pico no lag 1
ou alternado
MA(2) 1 pico no lag 1 e 1 pico no lag 2 Mistura de exponenciais ou
ondas senóides amortecidas
AR(2) Mistura de exponenciais ou 1 pico no lag 1 e 1 pico no lag 2
ondas senóides amortecidas
ARMA(1,1) Mistura de exponenciais ou Mistura de exponenciais ou
ondas senóides amortecidas ondas senóides amortecidas
8.2.3. Exemplos
a) Poliomielite: A Figura 8.3 mostra a FAC e FACP para a série Pólio. Podemos observar um
pico significativo no lag 1 da FACP e um decrescimento na FAC. Desta forma, podemos identificar um
modelo AR(1) para a série Polio.
Series Polio Series Polio

0.3
1.0
0.8
0.2
0.6
Partial ACF
0.1
ACF
0.4
0.0
0.2
0.0
-0.1
0.0 0.5 1.0 1.5 0.5 1.0 1.5
Lag Lag
Figura 8.3: FAC e FACP para a série Polio
84
b) Temperatura global: A Figura 8.4 mostra a FAC e FACP para os resíduos do modelo
M1.AR1. Vemos que nem a FAC, nem a FACP, apresentam picos significativos. Desta forma,
podemos considerar os resíduos como um ruído branco.
Series M 1.AR1$res Series M 1.AR1$res

1.0
0.2
0.8
0.1
0.6
Partial ACF
ACF
0.4
0.0
0.2
-0.1
0.0
-0.2
-0.2
0 5 10 15 5 10 15
Lag Lag
Figura 8.4: FAC e FACP para os resíduos do modelo M1 (Temperatura global)
c) Preço do grão e farelo de soja: A Figura 8.5 mostra a FAC e FACP para os resíduos do
modelo M2. Vemos que a FACP apresenta um pico significativo no lag 1 e um decrescimento na FAC.
Logo, os resíduos não são independentes e podemos identificar um modelo AR(1) para os mesmos.
Series M 2$res Series M 2$res

1.0
0.8
0.8
0.6
0.6
0.4
Partial ACF
ACF
0.4
0.2
0.2
0.0
0.0
-0.2
-0.2
0 5 10 15 20 5 10 15 20
Lag Lag
Figura 8.5: FAC e FACP para os resíduos do modelo M2 (Farelo e grão de soja)
85
8.3. Estimação de Parâmetros
Consideremos o modelo ARMA(p,q):
 p B zt   q B ut
onde  p (B) e  q (B) são polinômios de grau, p e q, respectivamente, e ut é um processo ruído branco,
com E ut   0 e Var ut    u2 . Temos que estimar os vetores:
 
  (1,..., p ,1 ,..., q ) e  u2  E ut2 .
Para o modelo ARMA(p,q) temos
ut  zt  1zt 1     p zt  p  1ut 1     q ut  q .
Sob a suposição de normalidade dos ut , temos que a função de log-verossimilhança é dada por:

 n u 
2

 , ut   2  n / 2  u  n exp   t 2  .
 t 12 u 
 
Logo, os estimadores de máxima verossimilhança para os parâmetros são obtidos maximizando-
se a verossimilhança acima, o que deve ser feito através de procedimentos numéricos.
Os estimadores de máxima verossimilhança têm distribuição aproximadamente normal, se n é
grande, com esperança igual ao verdadeiro parâmetro e matriz de covariância igual ao inverso da
matriz de informação de Fisher.
86
Sobrefixação: Estimamos um modelo com parâmetros extras e examinamos se estes são significativos
e se sua inclusão diminui significativamente a variância residual. Pelo princípio da parcimônia, se 2
modelos que se ajustam igualmente bem a uma série zt, devemos preferir aquele que tem menor número
de parâmetros.
Se o modelo está correto, as nossas suposições iniciais feitas para os resíduos devem ser
 
satisfeitas, isto é, ut ~ N 0,  u2 e independentes. Assim, a análise de resíduos é feita da seguinte forma:
1) Faz-se um gráfico da série ût e observa-se se sua média é igual a zero (aproximadamente) e se sua
variância é constante ao longo do tempo.
2) Aplica-se um teste aos resíduos para verificar a suposição de normalidade.
3) Calcula-se a FAC e FACP para verificar a suposição de independência.
Se a análise acima indicar que o processo gerador de ût é um ruído branco, o modelo escolhido
para zt poderá ser utilizado para fins de previsão ou controle. Senão, podemos utilizar a análise dos
resíduos para identificar outro modelo para a série.
87
8.5. Exemplo – Série soja
Vamos analisar os resíduos do modelo M2 para o preço do farelo e grão de soja, do Exemplo
2.4.2. Na Seção 8.2.3 (c), vimos que a FAC e FACP mostram que os resíduos do modelo M2 não são
independentes e sugerem um modelo AR(1) para esta série de resíduos. Ou seja, vamos ajustar o
modelo,
 t  1 t 1  ut , onde ut ~ N (0,  u2 ) , independentes,
para os resíduos do modelo M2:
Farelo = 16,5999 x Grao.
O modelo AR(1) ajustado é dado por:

ar1 0.903539 0.049313 18.323 < 2.2e-16 ***
Vamos sobrefixar este modelo, para verificar se é necessária a inclusão de mais algum termo:
AR(2):

ar1 1.12366 0.09842 11.4169 < 2e-16 ***
ar2 -0.26210 0.10211 -2.5668 0.01026 *
ARMA(1,1):

ar1 0.855608 0.063598 13.4535 < 2e-16 ***
ma1 0.219105 0.093278 2.3489 0.01883 *
88
AR(3):

ar1 1.108739 0.100836 10.9954 <2e-16 ***
ar2 -0.192318 0.148737 -1.2930 0.1960
ar3 -0.067432 0.104736 -0.6438 0.5197
O modelo que apresentou o menor AIC, e todos os coeficientes significativos, foi o modelo
AR(2). Uma análise de resíduos para este modelo é apresentada na Figura 8.6. O teste de Shapiro-
Wilks não rejeita a hipótese de normalidade. Comparando esta figura com a Figura 8.5, vemos que os
picos significativos existentes no início da FAC e FACP desapareceram. Porém, percebemos um pico
significativo no lag 12 da FACP. Isto pode indicar a presença de um componente sazonal na série que
não foi modelado.
10 20 30
20
M2.AR2$res
Frequency
15
10
0
-20 -10
5
0
0 20 40 60 80 100 -20 -10 0 10 20 30
Time M2.AR2$res
Series M2.AR2$res Series M2.AR2$res

0.2 0.4 0.6 0.8 1.0
-0.2 -0.1 0.0 0.1 0.2

Partial ACF
ACF
-0.2
0 5 10 15 20 5 10 15 20
Lag Lag
Figura 8.6: FAC e FACP para os resíduos do modelo AR2 aplicado aos resíduos do modelo M2
89
Teste Shapiro-Wilks (valor-p = 0,4988)
Para verificar se é necessário incluir algum termo sazonal no modelo dos resíduos, vamos
ajustar os modelos ARMA(2,0)(1,0)12 e ARMA(2,0)(0,1)12:
ARMA(2,0)(1,0)12:

ar1 0.49720 2.63350 0.1888 0.8503
ar2 0.11232 0.25562 0.4394 0.6604
sar1 0.61165 2.64877 0.2309 0.8174
ARMA(2,0)(0,1)12:

ar1 1.23310 0.26107 4.7232 2.321e-06 ***
ar2 -0.36155 0.23935 -1.5106 0.1309
sma1 -0.11432 0.26441 -0.4324 0.6655
Como podemos observar pelos resultados acima, nenhum dos dois modelos é adequado, pois
apresentam coeficientes não significativos. Portanto, o melhor modelo para a série de resíduos do
modelo M2 é um AR(2).
90
9. Modelos GLARMA
Das metodologias citadas nos Capítulos 7 e 8, os modelos ARMA modelam dados
autocorrelacionados, como é o caso de séries temporais, todavia eles restringem-se à suposição de
normalidade. O MLG modela distribuições da família exponencial, mas não considera a correlação que
ocorre entre as observações em função do tempo. Por isso, é necessária a utilização de outros modelos
para a análise de séries temporais de dados de contagem.
Neste capítulo, descrevemos o modelo linear generalizado autoregressivo média móvel
(GLARMA), introduzido por Davis et al. (2003), que é útil para modelar variáveis respostas
dependentes no tempo e que seguem uma distribuição da família exponencial. Daremos especial
atenção ao modelo de Poisson, já que esta é a distribuição mais utilizada para dados de contagem.
9.1. Definição
A classe GLARMA é uma classe de modelos que estende o processo ARMA Gausssiano de
séries temporais para um modelo mais flexível para séries de contagem não-Gaussianas. A variável
dependente é suposta ter uma distribuição condicional na família exponencial dado todo o passado do
processo.
 
Sejam yt a série temporal e Ft 1  y (t 1) , x (t ) , onde y (t 1)   y1, y2 ,..., yt 1  é o passado do
processo de contagem e x (t ) é o passado e o presente das variáveis regressoras.
91
Para introduzir o modelo GLARMA, assuma que yt, dado o passado histórico Ft 1 , tem
qualquer distribuição na família exponencial (FE) com média  t ,
Yt | Ft 1 ~ FE (t ) , t  1,..., n . (9.1)
O preditor  t é dado por:

t  g ( t )   0  1 x1, t  ...   r xr , t   i t  i (9.2)
i 1
onde  é um vetor de parâmetros e  t é um ruído branco.

O componente  i  t  i pode ser especificado em termos de um número finito de parâmetros
i 1
utilizando a metodologia de Box e Jenkins (1976),
  q ( B)
 ( B)   i B i  1
i 1  p ( B)
onde  p (B) e  q (B) são, respectivamente, os polinômios autorregressivo e média móvel dados no
Capítulo 8.
Dessa forma o modelo GLARMA(p,q) fica especificado por
Yt | Ft 1 ~ FE (t ) , t  1,..., n
onde t  g (t )   0  1x1,t  ...   r xr ,t  Tt   0  xt'   Zt
 
Z t  1 Z t 1   t 1   ...   p Z t  p   t  p  1 t 1  ...   q t  q e
yt   t
t  .
t 
92
Exemplo:
GLARMA(0,1) com distribuição de Poisson:
Yt | Ft 1 ~ Poisson(t ) , t  1,..., n
onde t  g (t )   0  xt'   Z t ,
Z t   t 1 ,
yt   t
t  .
t 
Assim,
t   0  x t'    t 1   0  xt'   
 yt 1  t 1     x '     yt 1  exp t 1 
t 1  exp t 1  
0 t
Neste caso, E t   E E t | t 1    0  xt'  .
9.2. Estimação
A estimação dos parâmetros do GLARMA,   ( ,  )' , onde   (1,..., p ,1 ,..., q ) e
  ( 0 , 1,...,  r ) , é feita conjuntamente através da função de verossimilhança, maximizada pelo
método numérico Newton-Raphson (Davis et al., 2003).
O valor  de para o cálculo dos resíduos deve ser especificado pelo pesquisador. Se   0,5
temos o resíduo de Pearson. Outro valor usado na prática é   1 .
93
Considere a densidade condicional de Yt dado Ft 1 pertencente à família exponencial. A
função de log-verossimilhança pode ser escrita como
n
 , y    log f ( yt | Ft 1 ) . (9.3)
t 1
No caso da distribuição de Poisson, a função de log-verossimilhança é dada por:
n
 , y    Ytt  exp t  . (9.4)
t 1
Para inicializar o método recursivo de Newton-Raphson na maximização numérica da log-
verossimilhança ( , y) , Davis et al. (2003) sugerem que os valores obtidos das estimativas do
GLARMA sem os termos auto-regressivos média móveis sejam utilizados como valores iniciais. A
convergência, na maioria dos casos, ocorre após 10 iterações. A matriz de covariância dos estimadores
é estimada por
1
 2 
ˆ    (ˆ , y )  .

  ' 
 
Maiores detalhes sobre as condições de estacionariedade, propriedades, estimação e inferência
dos modelos GLARMA podem ser vistos em Davis et al. (2003).
A análise de resíduos no modelo GLARMA é feita da mesma forma que nos modelos GLM e
ARMA. Usando os resíduos estimados
yt  ˆ t
et 
ˆ t 
devemos verificar se os mesmos estão aleatoriamente distribuídos em torno de zero, se têm variância
constante e se são independentes.
94
9.3. Previsão
Adaptando a metodologia de previsões de modelos ARMA para o modelo GLARMA, tem-se
que o valor previsto de origem t e horizonte h, YˆT h  é dado por:

YˆT (h)  E YT  h | YT   ET YT  h   ˆT  h  g 1 ˆ0  xt' ˆ  ET ZT  h   (9.5)
onde
      
ET ZT h   ˆ1 ET ZT h1   ET  T h1   ...  ˆp ET ZT h p  ET  T h p  ˆ1 ET  T h1   ...  ˆq ET  T hq 
Para calcular as esperanças condicionais na prática, deve-se considerar:
i) Et Z t  h   Z t  h para h = 0, 1, 2, ...
ii) Et Z t  h   Zˆ t h para h = 1, 2, ...
iii) Et  t  h    t  h para h = 0, 1, 2, ...
iv) Et  t h   0 para h = 1, 2, ...
Por exemplo, para um GLARMA(1,1) com distribuição de Poisson:
 
YˆT (h)  exp ˆ0  xt' ˆ  ˆ1 Et Z t  h 1   Et  t  h 1   ˆ1 Et  t  h 1  .
Para h = 1:

YˆT (1)  exp ˆ0  xt' ˆ  ˆ1 Z t   t   ˆ1   t 
Para h ≥ 2:

YˆT (h)  exp ˆ0  xt' ˆ  ˆ1  Zˆ t (h) .
95
Vamos voltar ao exemplo da série Polio. Se supomos que os dados seguem uma distribuição de
Poisson, podemos ajustar o modelo GLARMA-Poisson. Vamos usar o pacote “glarma” do R.
Na Subseção 8.2.3 vimos, pela FAC e FACP da série Polio, que um possível modelo para esta
série é um AR(1). Desta forma, inicialmente consideramos um modelo GLARMA(1,0). O ajuste
utilizando os resíduos de Pearson (λ = 0,5), é apresentado abaixo:
MP1: GLARMA(1,0):
Estimate Std.Error z-ratio Pr(>|z|)

phi_1 0.27670 0.04415 6.267 3.67e-10 ***
Linear Model Coefficients:

Ano -0.0005399 0.0012982 -0.416 0.67748
Cos12 0.1282291 0.1348193 0.951 0.34154
Sen12 -0.5323691 0.1683738 -3.162 0.00157 **
Cos6 0.4930223 0.1253661 3.933 8.4e-05 ***
Sen6 0.0626950 0.1238554 0.506 0.61272

AIC: 511.201
LRT and Wald Test:

Alternative hypothesis: model is a GLARMA process
Null hypothesis: model is a GLM with the same regression structure
Statistic p-value
LR Test 31.99 1.55e-08 ***
Wald Test 39.28 3.67e-10 ***
As variáveis seno anual, cosseno semianual e o componente autorregressivo foram
significativos, mas a variável Ano não. A saída do pacote “glarma” também mostra os testes de Wald e
Razão de Verossimilhança, que indicam que o modelo GLARMA é superior ao GLM. Como a variável
Ano não foi significativa, vamos ajustar outro modelo sem esta variável:
96
MP2: GLARMA(1,0) – sem intercepto:

phi_1 0.27562 0.04408 6.253 4.04e-10 ***

Cos12 0.12269 0.13244 0.926 0.35424
Sen12 -0.51239 0.15869 -3.229 0.00124 **
Cos6 0.47917 0.11912 4.023 5.75e-05 ***
Sen6 0.05731 0.12183 0.470 0.63806

AIC: 509.3776
LRT and Wald Test:

Statistic p-value
LR Test 31.82 1.69e-08 ***
Wald Test 39.09 4.04e-10 ***
Vemos que o modelo M2 (sem a variável Ano) possui AIC menor que o modelo M1. Vamos
agora sobrefixar o modelo M2, colocando mais um termo autorregressivo (AR(2)), para verificar se
este é significativo. No resultado, apresentado abaixo, observamos que o componente AR(2) não é
significativo. Assim, ficaremos com o modelo M2.
MP3: GLARMA(2,0) – sem intercepto:

phi_1 0.25366 0.04467 5.679 1.35e-08 ***
phi_2 0.06738 0.04698 1.434 0.152

Cos12 0.120343 0.133790 0.899 0.36839
Sen12 -0.507878 0.158582 -3.203 0.00136 **
Cos6 0.458691 0.112425 4.080 4.5e-05 ***
Sen6 0.009694 0.113872 0.085 0.93216
Vamos agora ajustar o modelo GLARMA(1,0) utilizando os resíduos Escore (λ = 1). O
resultado é apresentado abaixo:
97
MS1: GLARMA(1,0) – sem intercepto:

phi_1 0.31621 0.04159 7.604 2.89e-14 ***

Cos12 0.1176 0.1377 0.854 0.392829
Sen12 -0.4408 0.1473 -2.993 0.002762 **
Cos6 0.4027 0.1143 3.522 0.000428 ***
Sen6 0.2307 0.1093 2.109 0.034913 *

AIC: 503.9661
LRT and Wald Test:

Statistic p-value
LR Test 37.23 1.05e-09 ***
Wald Test 57.82 2.88e-14 ***
O ajuste com os resíduos Escore tem AIC menor que o mesmo modelo com resíduos de Pearson
(MP2: AIC=509,3776 e MS1: AIC=503,9661). Além disto, a variável seno semianual agora é
significativa.
A Figura 9.1 apresenta a análise de resíduos para o modelo GLARMA(1,0) com resíduos de
Pearson (MP2) e Escore (MS1). Observamos que para o resíduo Escore não temos um ruído branco, já
que tanto a FAC quanto a FACP apresentam um pico significativo no lag 1.
Previsões:
A Tabela 9.1 mostra o EQMP para previsões 12 passos à frente utilizando os modelos MP2 e
MS1. Como o EQMP do modelo com os resíduos de Pearson (MP2) é menor, aliado ao fato de que os
resíduos deste modelo são ruídos brancos, vamos apresentar as previsões somente para o MP2.
Tabela 9.1: EQMP para os modelos MP2 e MS1
Pearson (MP2) Escore (MS1)
2,0016 2,2245
98
Resíduos de Pearson Resíduos Escore
1 2 3 4 5 6
4
2
rp
rs
0
-2
-1
0 50 100 150 0 50 100 150
Index Index
Resíduos de Pearson Resíduos Escore

1.0
1.0
0.6
0.6
ACF
ACF
0.2
0.2
-0.2
-0.2
0 5 10 15 20 0 5 10 15 20
Lag Lag
Resíduos de Pearson 0.10 Resíduos Escore

0.00 0.10
Partial ACF
Partial ACF
-0.05
-0.15
-0.20
5 10 15 20 5 10 15 20
Lag Lag
Figura 9.1: FAC e FACP para os resíduos do modelo AR2 aplicado aos resíduos do modelo M2
A Tabela 9.2 mostra as previsões 12 passos à frente com o modelo MP2 e a Figura 9.2 mostra o
ajuste e as previsões. Comparando com o ajuste do MLG realizado na Seção 7.4, vemos que o EQMP
do modelo GLARMA é menor (EQMP_GLARMA=2,0016 e EQMP_GLM=2,4687). Além disto, o
ajuste apresentado na Figura 9.2 segue muito mais próximo do comportamento da série do que o ajuste
mostrado na Figura 7.3.
99
Tabela 9.2: Previsões 12 passos à frente com o modelo MP2 para a série de Polio, Jan/83 a Dez/83
Mês Real Previsto Real-Previsto

Jan/1983 0 1,74 -1,74
Fev/1983 1 0,79 0,21
Mar/1983 0 0,44 -0,44
Abr/1983 0 0,43 -0,43
Mai/1983 0 0,73 -0,73
Jun/1983 1 1,33 0,33
Jul/1983 2 1,68 0,32
Ago/1983 1 1,38 -0,38
Set/1983 0 1,04 -1,04
Out/1983 1 1,04 -0,04
Nov/1983 3 1,38 1,62
Dez/1983 6 1,68 4,32
14
12
10
8
Polio
6
4
2
0
0 50 100 150
tempo
Figura 9.2: Ajuste e previsão para o modelo MP2. A linha preta representa a série Polio, a linha azul
mostra o modelo ajustado e os pontos em azul são os valores previstos.
100
Referências
1. Benjamin, M. A., R. A. Rigby, and D. M. Stasinopoulos (2003). Generalized autoregressive
moving average models. Journal of the American Statistical Association, 98, pp. 214-223.
2. Bowerman, B.L., O’Connell, R.T. (1993) Forecasting and Time Series. 3rd ed. Belmont:
Duxbury Press.
3. Box, G.E.P. and Jenkins, G.M. (1976) Time Series Analysis: Forecasting and Control. San
Francisco: Holden-Day.
4. Davis, R.A., Dunsmuir, W.T.M. and Streett, S.B. (2003). Observation-driven models for
Poisson counts. Biometrika, 90, pp 777-790.
5. Gujarati, Damodar N.; Porter, Dawn C. (2009). Basic Econometrics (5th ed.). Boston: McGraw-
Hill Irwin.
6. McCullagh, P.; Nelder, J. A. (1989). Generalized Linear Models. Chapman and Hall, London,
second edition.
7. Morettin, P.A., Toloi, C.M.C. (2004) Análise de Séries Temporais. São Paulo: Edgard Blucher.
8. Nelder, J, Wedderburn, R. (1972). Generalized Linear Models. Journal of the Royal Statistical
Society. Series A, 135 (3): 370–384.
9. Shumway, R. H. and Stoffer, D. S. (2011) Time Series Analysis and Its Applications: With R
Examples. Springer, New York, third edition
10. Wei, W.W.S. (1990) Time Series Analysis: Univariate and Multivariate Methods. London:
Addison – Wesley.
101
ANEXO: Séries utilizadas nos exemplos.
Série 1 (TempMedia): Temperatura global de 1900-1997 (calculada como desvio da temperatura
global média anual do período 1961-1990).
-0.13 -0.22 -0.37 -0.44 -0.49 -0.37 -0.30 -0.50 -0.52 -0.49 -0.46 -0.49
-0.41 -0.42 -0.24 -0.13 -0.36 -0.51 -0.39 -0.30 -0.23 -0.19 -0.30 -0.27
-0.33 -0.22 -0.08 -0.19 -0.22 -0.37 -0.13 -0.05 -0.10 -0.23 -0.11 -0.15
-0.10 0.00 0.10 0.02 -0.04 0.06 0.06 0.06 0.22 0.06 -0.08 -0.08
-0.08 -0.09 -0.19 -0.05 0.02 0.10 -0.15 -0.16 -0.26 0.05 0.12 0.04
0.00 0.03 0.04 0.07 -0.22 -0.16 -0.06 -0.06 -0.09 0.03 -0.03 -0.19
-0.06 0.08 -0.18 -0.12 -0.22 0.06 -0.03 0.06 0.10 0.14 0.05 0.24
0.02 0.00 0.09 0.23 0.25 0.18 0.35 0.29 0.15 0.19 0.26 0.39
0.22 0.43
Série 2 (FARELO): Preço do farelo de soja, no estado de São Paulo, no período de jan/1990 a
set/1999
Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec
1990 278.6 225.1 205.7 161.5 179.1 161.9 163.0 164.8 171.6 175.2 188.4 187.5
1991 187.4 180.0 159.1 153.0 150.1 154.6 158.7 185.2 191.3 208.6 188.6 204.3
1992 241.7 204.4 177.4 159.1 154.7 168.4 183.0 198.4 227.6 210.5 196.5 206.1
1993 209.5 174.8 151.5 149.2 154.3 179.9 228.7 221.0 207.3 207.7 216.3 201.8
1994 192.2 174.2 167.4 153.9 153.2 171.1 172.1 175.0 175.9 181.5 181.5 174.0
1995 178.8 183.4 135.1 127.9 130.6 133.7 158.8 162.9 167.4 181.4 208.1 221.6
1996 240.6 215.1 196.0 219.4 227.3 223.8 234.4 248.3 298.4 275.1 290.1 281.7
1997 277.0 276.6 283.4 282.8 282.1 262.1 243.9 273.6 290.8 270.0 267.6 259.4
1998 239.1 201.1 159.6 153.1 150.7 148.8 147.5 153.9 151.3 154.8 158.3 157.5
1999 152.0 158.1 129.4 130.2 126.3 131.2 133.8 144.8
102
Série 3 (GRAO): Preço do grão de soja, no estado de São Paulo, no período de jan/1990 a set/1999
1990 12.63 11.04 10.86 9.77 10.55 9.85 9.94 10.10 9.86 9.90 10.16 9.32
1991 9.19 10.02 10.03 9.95 9.85 9.62 9.12 10.10 11.10 11.98 10.05 9.53
1992 11.24 10.55 10.19 9.41 9.72 10.28 10.22 11.02 12.45 11.74 11.86 11.79
1993 12.37 11.07 10.07 9.65 9.80 9.86 12.54 12.81 11.77 11.89 12.71 12.93
1994 12.77 12.15 11.52 10.58 10.91 11.63 11.49 11.52 11.90 12.39 12.62 12.50
1995 12.77 12.14 9.43 9.92 9.37 9.20 9.69 10.83 10.71 11.25 12.46 13.02
1996 15.08 13.08 12.07 13.17 13.86 13.05 13.47 14.36 16.76 16.37 16.57 16.58
1997 15.07 14.56 14.97 15.58 15.98 14.98 14.61 15.70 16.93 16.58 17.37 17.40
1998 15.48 13.02 11.63 11.07 11.45 11.35 11.31 10.98 11.44 11.55 11.43 11.00
1999 9.60 8.65 8.32 8.51 8.68 8.72 8.49 9.09
Série 4 (CEP): Consumo de energia elétrica das Centrais Elétricas do Paraná (CEP), de jan/80 a dez/92
1980 256 261 275 283 293 290 281 292 289 291 296 286
1981 270 283 285 297 303 302 298 301 302 301 290 288
1982 279 295 293 306 313 314 307 311 313 310 311 313
1983 289 305 318 325 332 324 322 334 335 330 320 306
1984 284 304 331 351 365 353 352 354 346 343 321 318
1985 304 337 343 358 364 363 357 361 358 359 329 337
1986 314 356 357 371 383 375 367 368 378 372 338 340
1987 316 361 366 388 395 403 391 394 403 389 369 365
1988 345 383 400 406 428 424 422 426 423 420 392 396
1989 373 407 413 430 443 446 444 450 448 447 417 411
1990 387 422 429 444 450 451 456 455 452 443 420 423
1991 408 438 464 470 478 482 469 471 474 476 452 451
1992 425 465 474 485 506 499 481 492 514 515 483 481
103
Série 5 (Acidente) Número total de motoristas mortos ou feridos na Grã Bretanha devido a acidentes
de trânsito entre Jan/1969 a Dez/1984
1969 1687 1508 1507 1385 1632 1511 1559 1630 1579 1653 2152 2148
1970 1752 1765 1717 1558 1575 1520 1805 1800 1719 2008 2242 2478
1971 2030 1655 1693 1623 1805 1746 1795 1926 1619 1992 2233 2192
1972 2080 1768 1835 1569 1976 1853 1965 1689 1778 1976 2397 2654
1973 2097 1963 1677 1941 2003 1813 2012 1912 2084 2080 2118 2150
1974 1608 1503 1548 1382 1731 1798 1779 1887 2004 2077 2092 2051
1975 1577 1356 1652 1382 1519 1421 1442 1543 1656 1561 1905 2199
1976 1473 1655 1407 1395 1530 1309 1526 1327 1627 1748 1958 2274
1977 1648 1401 1411 1403 1394 1520 1528 1643 1515 1685 2000 2215
1978 1956 1462 1563 1459 1446 1622 1657 1638 1643 1683 2050 2262
1979 1813 1445 1762 1461 1556 1431 1427 1554 1645 1653 2016 2207
1980 1665 1361 1506 1360 1453 1522 1460 1552 1548 1827 1737 1941
1981 1474 1458 1542 1404 1522 1385 1641 1510 1681 1938 1868 1726
1982 1456 1445 1456 1365 1487 1558 1488 1684 1594 1850 1998 2079
1983 1494 1057 1218 1168 1236 1076 1174 1139 1427 1487 1483 1513
1984 1357 1165 1282 1110 1297 1185 1222 1284 1444 1575 1737 1763
104

Modelos Lineares em Séries Temporais

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelos Lineares em Séries Temporais

Încărcat de

Drepturi de autor:

Formate disponibile

UNIVERSIDADE FEDERAL DE MINAS GERAIS - UFMG

INSTITUTO DE CIÊNCIAS EXATAS – ICEx

APOSTILA DE MODELOS LINEARES

Glaura da Conceição Franco (EST/UFMG)

Belo Horizonte, agosto de 2016

PARTE 1: MODELOS DE REGRESSÃO NORMAIS PARA SÉRIES TEMPORAIS

2. Modelo de regressão com funções do tempo....................................................................................... 7

PARTE 2: MODELOS DE REGRESSÃO PARA SÉRIES TEMPORAIS DE CONTAGEM

7. Modelos lineares generalizados.........................................................................................................

ANEXO: Séries utilizadas nos exemplos ............................................................................................ 33

O termo previsão no tempo é muito utilizado quando possuímos um conjunto de dados

Definição: Uma série temporal é um conjunto de observações geradas sequencialmente no tempo.

Característica principal: As variáveis são dependentes .

Os objetivos principais da análise de séries temporais são a modelagem e a previsão de valores

apresentamos alguns exemplos.

1900 1920 1940 1960 1980 2000

Figura 1.1: Série TempMedia

respectivamente, no estado de São Paulo, no período de jan/1990 a set/1999, em um total de 117

observações. Podemos perceber um comportamento muito parecido para as duas séries.

1990 1994 1998 1990 1994 1998

Figura 1.2: Séries de Farelo e Grão de soja

dez/92. A série apresenta sazonalidade e tendência crescente.

1980 1982 1984 1986 1988 1990 1992

Figura 1.3: Série CEP

cinto de segurança foi introduzido em 31 de Jan/1983.

1970 1975 1980 1985

Figura 1.4: Série de acidentes de trânsito na Grã Bretanha

1970 1972 1974 1976 1978 1980 1982 1984

Figura 1.5: Série Polio

MODELOS DE REGRESSÃO NORMAIS PARA SÉRIES TEMPORAIS

princípio podem ser modeladas supondo normalidade dos dados.

explicativa(s), ou então com funções do tempo.

As suposições básicas deste modelo são normalidade, variância constante e independência.

para corrigir este problema.

Na Parte 1 desta apostila vamos descrever os modelos de regressão no tempo, as possíveis

Os modelos de autorregressão relacionam a variável dependente yt (o atributo sobre o qual se

exemplos com séries reais.

2.1. Modelando tendência através de funções polinomiais

modelo é definido como segue:

valores y t do nível médio t.

As tendências mais simples são as obtidas através de um comportamento linear da série

Figuras 2.1(b) e (c).

Figura 2.1: Diferentes tipos de tendência para modelos lineares

No Caso (b): t  0  1t , onde 1 > 0;

No Caso (c): t  0  1t , onde 1 < 0.

polinomial de ordem k, que são modelados como

t   0  1t   2t 2  ...   k t k , t  1,..., n . (2.2)

tendência. Neste caso, o modelo é definido como:

yt   0  1t   2t 2  ...   k t k   k 1x1,t  ...   k  r xr ,t   t , t  1,..., n (2.3)

mínimos quadrados ordinários. O modelo estimado é escrito como,

e o resíduo deste modelo é calculado como:

 Normalidade: A suposição de normalidade pode ser verificada através da construção de

histogramas, Normal Probability Plot e testes de normalidade para os resíduos.

 Variância constante: Violação da suposição de variância constante é sugerida por um

afunilamento no gráfico de resíduos, et , versus valores ajustados, ŷ t .

 Independência: A verificação da suposição de independência será discutida no Capítulo 3.

quando os erros não são independentes.

onde xi ,(T h ) é o valor da variável xi no tempo T+h.

Yˆ (h)  t

parâmetros do modelo e s é o desvio padrão dos resíduos.

2.4.1. Temperatura global

validação do modelo através da comparação das previsões, portanto n=95.

TempMedia = -11,6333 + 0,005923 x Ano