Sunteți pe pagina 1din 104

UNIVERSIDADE FEDERAL DE MINAS GERAIS - UFMG

INSTITUTO DE CIÊNCIAS EXATAS – ICEx


DEPARTAMENTO DE ESTATÍSTICA – EST

APOSTILA DE MODELOS LINEARES

EM SÉRIES TEMPORAIS

Glaura da Conceição Franco (EST/UFMG)

Belo Horizonte, agosto de 2016


Conteúdo

1. Introdução ........................................................................................................................................... 3

PARTE 1: MODELOS DE REGRESSÃO NORMAIS PARA SÉRIES TEMPORAIS

2. Modelo de regressão com funções do tempo....................................................................................... 7


2.1. Modelando tendência através de funções polinomiais ......................................................... 7
2.2. Estimação de parâmetros e adequação do modelo ................................................................ 9
2.3. Previsão ............................................................................................................................... 10
2.4. Exemplos .........................................................................................................................
2.4.1. Temperatura global .........................................................................................
2.4.2. Preço do grão e farelo de soja ..........................................................................
3. Detectando a autocorrelação .............................................................................................................. 14
3.1. Tipos de autocorrelação ...................................................................................................... 15
3.2. Autocovariância e autocorrelação .........................................................................................
3.3. Métodos para detecção da autocorrelação ........................................................................... 15
3.3.1. Gráfico de resíduos versus tempo .......................................................................
3.3.2. Teste de Durbin-Watson .......................................................................................
3.3.3. Função de autocorrelação amostral (FAC) ...........................................................
3.4. Exemplos ...........................................................................................................................
3.4.1. Temperatura global .......................................................................................
3.4.2. Preço do grão e farelo de soja .................................................................................
4. Modelando autocorrelação nos resíduos ............................................................................................ 18
4.1. Modelo de regressão com erros autorregressivos ................................................................
4.2. Previsão .............................................................................................................................
4.3. Intervalo de confiança para as previsões ...........................................................................
4.4. Exemplos .............................................................................................................................
4.4.1. Temperatura global ...........................................................................................
4.4.2. Preço do grão e farelo de soja ...........................................................................
5. Séries sazonais .............................................................................................................................
5.1. Modelo de regressão para séries sazonais com erros autorregressivos .........................

2
5.2. Previsão .............................................................................................................................
5.3. Exemplo – Série CEP ............................................................................................................
6. Análise de Intervenção ....................................................................................................................
6.1. Modelo de regressão para séries com intervenção e erros autorregressivos ......................
6.2. Previsão .............................................................................................................................
6.3. Exemplo – Série Acidentes .................................................................................................

PARTE 2: MODELOS DE REGRESSÃO PARA SÉRIES TEMPORAIS DE CONTAGEM

7. Modelos lineares generalizados.........................................................................................................


7.1. Família Exponencial a um parâmetro
7.2. Componentes do modelo
7.3. Estimação
7.4. Adequação de modelos
7.5. Análise de resíduos
7.6. Exemplo – Série Polio
8. Modelos ARMA ......................
8.1. Tipos de modelos................................................................................................................
8.2. Identificação de modelos....................................................................................................
8.2.3. Exemplos ...........................................................................................................
8.3. Estimação de parâmetros .................................................................................................
8.4. Análise de resíduos ..........................................................................................................
8.5. Exemplo- Série soja ..............................................................................................
9. Modelos GLARMA
9.1. Definição
9.2. Estimação
9.3. Previsão
9.4. Exemplo – Série Polio
Referências

ANEXO: Séries utilizadas nos exemplos ............................................................................................ 33

3
1. Introdução

O termo previsão no tempo é muito utilizado quando possuímos um conjunto de dados

ordenados no tempo, ou seja, uma série temporal, e desejamos prever valores futuros para esta série.

Definição: Uma série temporal é um conjunto de observações geradas sequencialmente no tempo.

Característica principal: As variáveis são dependentes .

Denotaremos a série temporal por y1 , y2 ,..., yn onde n é o tamanho da série. Trabalharemos com

séries temporais a tempo discreto, onde os dados são coletados diariamente, semanalmente,

mensalmente ou anualmente.

Os objetivos principais da análise de séries temporais são a modelagem e a previsão de valores

futuros para a série. Para prever eventos que ocorrerão no futuro, o “pesquisador” deve se basear em

informações concernentes a eventos que tenham ocorrido no passado. Assim, a análise pode ser feita da

seguinte forma. Primeiro, o “pesquisador” analisa os dados para poder identificar um comportamento

que possa ser usado para descrevê-lo. Este comportamento é então extrapolado, ou estendido no futuro,

para calcular uma previsão. Esta estratégia básica é empregada na maioria das técnicas de previsão e se

baseia na suposição de que o comportamento que foi identificado continuará no futuro. Se o padrão que

foi identificado para os dados não persiste no futuro, isto indica que a técnica de previsão usada

provavelmente produzirá previsões incorretas. Um analista não deveria ficar surpreso em tais situações,

mas deveria tentar antecipar quando tal mudança no padrão ocorreria, para que mudanças apropriadas

no sistema de previsão pudessem ser feitas antes das previsões se tornarem incorretas. A seguir

apresentamos alguns exemplos.

4
Exemplo 1.1: Série de temperatura global (TempMedia), de 1900 a 1997. Os dados foram calculados

como um desvio da temperatura global média anual do período 1961-1990. Existe uma tendência

aparentemente crescente na série e isto tem sido usado para sustentar a hipótese de aquecimento global.
0.4
0.2
desvio temperatura

0.0
-0.2
-0.4

1900 1920 1940 1960 1980 2000

Figura 1.1: Série TempMedia

Exemplo 1.2: Os dados na Figura 1.2 referem-se às séries de preços do grão e do farelo de soja,

respectivamente, no estado de São Paulo, no período de jan/1990 a set/1999, em um total de 117

observações. Podemos perceber um comportamento muito parecido para as duas séries.


300

16
250

14
Farelo

Grao
200

12
10
150

1990 1994 1998 1990 1994 1998

Time Time

Figura 1.2: Séries de Farelo e Grão de soja

5
Exemplo 1.3: Série do consumo de energia elétrica das Centrais Elétricas do Paraná (CEP), de jan/80 a

dez/92. A série apresenta sazonalidade e tendência crescente.


500
450
400
CEP

350
300
250

1980 1982 1984 1986 1988 1990 1992

Figura 1.3: Série CEP

Exemplo 1.4: A Figura 1.4 mostra a série mensal de número total de motoristas mortos ou seriamente

feridos em acidentes de trânsito na Grã Bretanha, entre Jan/1969 a Dez/1984. O uso compulsório do

cinto de segurança foi introduzido em 31 de Jan/1983.


2500
2000
No de Acidentes

1500
1000

1970 1975 1980 1985

Figura 1.4: Série de acidentes de trânsito na Grã Bretanha


6
Exemplo 1.5: Número de casos de poliomielite (Polio) reportados pelo Centro de Controle de Doenças

dos Estados Unidos, de janeiro de 1970 a dezembro de 1983. Esta é uma série de contagens com

valores baixos, portanto a suposição de distribuição Normal não seria adequada neste caso.
14
12
10
8
Polio

6
4
2
0

1970 1972 1974 1976 1978 1980 1982 1984

Figura 1.5: Série Polio

Vamos utilizar estes exemplos ao longo do curso, para explicar a forma de se obter modelos

lineares em séries temporais e como construir previsões para valores futuros da série. Desde que

eventos futuros envolvem incerteza, as previsões geralmente não são perfeitas. O objetivo da análise de

previsão é reduzir o erro de previsão: produzir previsões que raramente são incorretas e que contenham

pequenos erros.

O material desta apostila foi baseado nos livros e artigos que se encontram na seção de

Referências.

7
PARTE 1:

MODELOS DE REGRESSÃO NORMAIS PARA SÉRIES TEMPORAIS

As séries temporais apresentadas nos Exemplos 1.2 a 1.4 são compostas de observações

contínuas (Exemplos 1.1 a 1.3) ou discretas com valores relativamente altos ( Exemplo 1.4), que a

princípio podem ser modeladas supondo normalidade dos dados.

Uma das possibilidades para a modelagem destas séries é a utilização de modelos lineares,

como o modelo de regressão, se houver uma relação linear entre a série e alguma(s) outra(s) série(s)

explicativa(s), ou então com funções do tempo.

As suposições básicas deste modelo são normalidade, variância constante e independência.

Entretanto, uma das principais características de uma série temporal é a existência de correlação entre

observações sucessivas. Desta forma, o ajuste de modelos de regressão deve ser usado com cautela

neste caso. Se a suposição de independência não for satisfeita, devemos incluir componentes no modelo

para corrigir este problema.

Na Parte 1 desta apostila vamos descrever os modelos de regressão no tempo, as possíveis

formas de se detectar correlação nos dados e, caso esta exista, como podemos corrigir o problema.

8
2. Modelo de regressão com funções do tempo

Os modelos de autorregressão relacionam a variável dependente yt (o atributo sobre o qual se

busca determinar um padrão de informação no tempo) com funções do tempo. Estes modelos são mais

úteis quando os parâmetros descrevendo a série temporal a ser prevista permanecem constantes no

tempo. Por exemplo, se a série temporal exibe uma tendência linear, então a inclinação da linha de

tendência permanece constante. A Seção 2.1 mostra como modelar a tendência usando funções

polinomiais do tempo e a Seção 2.2 apresenta o método de estimação dos parâmetros do modelo. Na

Seção 2.3 vemos como construir previsões para valores futuros da série yt e a Seção 2.4 apresenta dois

exemplos com séries reais.

2.1. Modelando tendência através de funções polinomiais

Algumas vezes podemos descrever uma série temporal yt usando um modelo de tendência. Tal

modelo é definido como segue:

yt  t   t , t  1,..., n (2.1)

 
onde  t ~ N 0,  2 , independentes.

Este modelo diz que a série temporal y t pode ser representada por um nível médio (denotado

t) e pelo termo de erro  t . Este termo de erro representa flutuações aleatórias que causam o desvio dos

valores y t do nível médio t.

As tendências mais simples são as obtidas através de um comportamento linear da série

observada (ver Figura 2.1). O Modelo sem tendência, que é definido como t = 0, implica que não há

crescimento ou decrescimento a longo prazo na série temporal ao longo do tempo, veja Figura 2.1(a). O

9
Modelo de tendência linear, que é modelado como t = 0 + 1t, implica que há um crescimento (a

inclinação é maior que zero) ou decrescimento (menor que zero) em linha reta ao longo do tempo, veja

Figuras 2.1(b) e (c).

Bo

t
t t

(a) Tendência constante (b) Crescimento em linha reta (c) Decrescimento em linha reta

Figura 2.1: Diferentes tipos de tendência para modelos lineares

No Caso (a): t   0 ;

No Caso (b): t  0  1t , onde 1 > 0;

No Caso (c): t  0  1t , onde 1 < 0.

Modelos mais complexos também podem ser obtidos na prática, como Modelos lineares de

tendência quadrática, que são modelados como t = 0 + 1t + 2t2, ou Modelos lineares de tendência

polinomial de ordem k, que são modelados como

t   0  1t   2t 2  ...   k t k , t  1,..., n . (2.2)

Podemos ter também um modelo com variáveis explicativas, x1, ..., xr, além do termo de

tendência. Neste caso, o modelo é definido como:

yt   0  1t   2t 2  ...   k t k   k 1x1,t  ...   k  r xr ,t   t , t  1,..., n (2.3)

 
onde  t ~ N 0,  2 , independentes.

10
2.2. Estimação de parâmetros e adequação do modelo

Estimativas pontuais dos parâmetros do modelo (2.3) podem ser obtidas usando o método de

mínimos quadrados ordinários. O modelo estimado é escrito como,

yˆt  ˆ0  ˆ1t  ˆ2t 2  ...  ˆk t k  ˆk 1x1,t  ...  ˆk  r xr ,t , (2.4)

e o resíduo deste modelo é calculado como:

et  yt  yˆ t , t  1,...n . (2.5)

Suposições do modelo:

 Normalidade: A suposição de normalidade pode ser verificada através da construção de

histogramas, Normal Probability Plot e testes de normalidade para os resíduos.

 Variância constante: Violação da suposição de variância constante é sugerida por um

afunilamento no gráfico de resíduos, et , versus valores ajustados, ŷ t .

 Independência: A verificação da suposição de independência será discutida no Capítulo 3.

Quando as suposições de normalidade ou variância constante não são satisfeitas, devemos fazer

uma transformação nos dados para tentar resolver o problema. Porém, a transformação não resolve o

problema de falta de independência. Neste caso, veremos no Capítulo 4 como fazer a modelagem

quando os erros não são independentes.

11
2.3. Previsão

Vamos denotar por YˆT h  a previsão para o tempo T+h, dado que observamos a série até o
tempo T. A partir de estimativas pontuais para os parâmetros 0, 1 , ..., k , k+1, ..., k+r, podemos
obter previsões para um valor futuro da série. Assim, uma previsão pontual feita no tempo T para yT  h é
dada por

YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk (T  h) k  ˆk 1x1, (T  h)  ...  ˆk  r xr , (T  h) (2.6)

onde xi ,(T h ) é o valor da variável xi no tempo T+h.

Além disto, intervalos de previsão aproximados de 100(1-)% são obtidos como segue:

Yˆ (h)  t


T
T nP
 / 2 s  (2.7)

onde tT /2nP  é o percentil /2 da distribuição t-Student com T-nP graus de liberdade, nP é o número de

parâmetros do modelo e s é o desvio padrão dos resíduos.

Para comparar modelos diferentes, podemos calcular a soma de quadrados dos erros de
previsão:
2
 Y  Yˆ (h) 
H
EQMP    T  h T 
 (2.8)
h 1  H 
onde H é o número de previsões realizadas.

2.4. Exemplos

2.4.1. Temperatura global

Utilizando os dados do Exemplo 1.1, vamos ajustar um modelo de regressão à série do desvio

da temperatura global média, para o período de 1900-1994. Deixaremos os anos de 1995-1997 para

validação do modelo através da comparação das previsões, portanto n=95.

12
O modelo ajustado foi o seguinte:

TempMedia = -11,6333 + 0,005923 x Ano

Saída do R:

Estimate Std. Error t value Pr(>|t|)


(Intercept) -1.163e+01 9.336e-01 -12.46 <2e-16 ***
Ano 5.923e-03 4.794e-04 12.35 <2e-16 ***

Residual standard error: 0.1281 on 93 degrees of freedom


Multiple R-squared: 0.6214, Adjusted R-squared: 0.6173

AIC(M1): -116.7915

O valor estimado de 0, ou seja o ponto onde a reta ajustada intercepta o eixo dos y´s foi igual a

-11,6333, e o valor de 1, a inclinação da reta foi de 0,005923. Estes dois valores foram

estatisticamente significativos, pois o valor-p para ambos foi <2e-16 (menor que o nível de

significância  = 0.05). Como o sinal do coeficiente 1 foi positivo, isto indica que a temperatura

global tende a aumentar com o tempo. Porém, o valor de R2 não foi muito alto (62.14%), indicando que

a reta ajustada explica parcialmente a variação dos dados.

Obs.: A variável “Ano” foi construída com valores de 1900 a 1994, mas poderia ser construída também

com os valores de 1 a 95 (a quantidade de observações presentes na série). Neste caso, o ajuste ficaria:

Estimate Std. Error t value Pr(>|t|)


(Intercept) -0.3852587 0.0265043 -14.54 <2e-16 ***
Ano 5.923e-03 4.794e-04 12.35 <2e-16 ***

Podemos perceber que apenas a estimativa do intercepto,  0 , mudou. Como o interesse não é no

intercepto, e sim na relação temporal, dada pela estimativa de 1 , e esta não muda com a definição da

variável tempo, podemos usar as duas formas.

13
Análise de Resíduos

Um outro problema ocorre com os resíduos, como podemos notar pelos gráficos da Figura 2.2.

O gráfico de resíduos no tempo não apresenta um comportamento aleatório em torno do valor zero,

indicando clara falta de independência entre os resíduos. Já o histograma mostra uma leve assimetria,

mas o teste de normalidade de Shapiro-Wilks não rejeita a hipótese de normalidade (valor-p=0,8484).

O problema da falta de independência pode ter sido causada pela autocorrelação existente entre

observações sucessivas da série. Na próxima seção, vamos verificar como corrigir estes problemas.
-0.3 -0.1 0.1 0.3
M1$res

0 20 40 60 80

Index

Histogram of M1$res
25
Frequency

15
0 5

-0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4

M1$res

Figura 2.2: Gráficos de resíduos para o modelo M1 (Temperatura global)

Apesar destes problemas, vamos tentar determinar previsões para os anos de 1995-1997, para os

quais possuímos os valores reais.

14
Previsões para os anos de 1995 a 1997:

Previsão para 1995: Para calcular a previsão para o ano de 1995 utilizamos o modelo M1 onde o ano

será igual a 1995. Logo o desvio da temperatura previsto será de

TempMedia1995 = -11,6333 + 0,005923 x 1995 = 0,1831. (2.9)

Intervalo de previsão de 95%:

0,1831 ± 1,9858 x 0,1281 = [ -0,0711 ; 0,4378 ] (2.10)

onde t095.975
2 
 = 1,9858 é o percentil 0,975 da distribuição t-Student com 95-2 graus de liberdade e

s=0,1281 é o erro padrão dos resíduos.

Previsão para 1996: TempMedia1996 = -11,6333 + 0,005923 x 1996 = 0.1890.

Intervalo de previsão de 95%: 0, 1890 ± 1,9858 x 0,1281 = [ -0,0654 ; 0,4434 ]

Previsão para 1997: TempMedia1997 = -11,6333 + 0,005923 x 1997 = 0.1949.

Intervalo de previsão de 95%: 0,1949 ± 1,9858 x 0,1281 = [ -0,0595 ; 0,4493 ]

As previsões três passos à frente, intervalos de previsão e valores reais para 1995 a 1997 são

dados na Tabela 2.1.

15
Tabela 2.1: Previsão para os anos de 1995 a 1997 do desvio da temperatura global

Ano Real Previsto Erro (Real-Previsto)


1995 0,39 0,1831 0, 2069
[-0,0711 ; 0,4378]

1996 0,22 0,1890 0, 0310


[-0,0654 ; 0,4434]

1997 0,43 0,1949 0, 2351


[-0,0595 ; 0,4493]

EQMP = [ (0,2069)2 + (0,031)2 + (0,2351)2 ] / 3 = 0,0330.

A Figura 2.3 mostra o ajuste, assim como as previsões para 1995 a 1997, com o intervalo de

previsão. Podemos ver que todas as previsões subestimaram o verdadeiro valor do desvio médio de

temperatura, mas os valores reais estão dentro do intervalo de previsão.


0.4

o : Previsão
-- : Intervalo Previsao
0.2
desvio temperatura

0.0
-0.2
-0.4

0 20 40 60 80 100

tempo

Figura 2.3: Ajuste, previsão e intervalos de previsão para o modelo M1 (Temperatura global). Os

pontos em azul são os valores previstos e as linhas em vermelho são os intervalos de previsão.

16
2.4.2. Preço do grão e farelo de soja

Com os dados do Exemplo 1.2, vamos ajustar um modelo para a série do preço do farelo de soja

(Farelo), usando como variável explicativa a série de preço do grão de soja (Grao). Os dados vão de

Jan/1990 a Ago/1999, mas deixaremos os últimos 12 meses (Set/1998 a Ago/1999) para validação do

modelo através da comparação das previsões. Assim, nossa série terá tamanho n=104.

A Figura 2.4 mostra o gráfico de dispersão das duas variáveis. Podemos perceber uma relação

linear positiva entre as duas séries, ou seja, parece que quanto maior o valor do preço do grão de soja,

maior o valor do preço do farelo de soja, como esperado. Além disto, o coeficiente de correlação entre

as duas foi de 0,8794. Como as séries apresentadas na Figura 1.2 mostram que não existe tendência

crescente nem decrescente nestas séries, não é necessário incluir componentes de tendência no ajuste.
300
250
farelo

200
150

8 10 12 14 16

Grao

Figura 2.4: Gráfico de dispersão para as séries do preço de grão e farelo de soja.

Desta forma, podemos ajustar o modelo de regressão, cujo resultado é dado por:

Modelo M1:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -8.9569 11.7744 -0.761 0.449
Grao 17.3237 0.9671 17.912 <2e-16 ***

Residual standard error: 21.5 on 102 degrees of freedom


Multiple R-squared: 0.7588, Adjusted R-squared: 0.7564

17
AIC(M1): 937.2809

Neste caso, somente 1 foi significativo, indicando que existe uma relação linear positiva entre

os preços do grão e farelo de soja. Ou seja, se o preço do quilo do grão de soja aumenta em um real, o

preço médio do quilo do farelo de soja aumenta em 17,3237 reais. O valor de R2 foi de 75,88%, o que

pode estar sendo afetado pela autocorrelação presente nas duas séries.

Se realizamos o ajuste retirando o intercepto, obtemos o seguinte resultado:

Modelo M2:
Estimate Std. Error t value Pr(>|t|)
Grao 16.5999 0.1728 96.05 <2e-16 ***

Residual standard error: 21.46 on 103 degrees of freedom


Multiple R-squared: 0.989, Adjusted R-squared: 0.9889

AIC(M2): 935.8693

O valor de 1 continua positivo e significativo, e não muito diferente do resultado anterior.

Porém, o valor de R2 aumenta significativamente, passando para 98,9%. Isto poderia nos levar a crer

que este ajuste é muito superior ao anterior, mas se observarmos o valor do AIC, vemos que a

diminuição não foi tão grande. Além disto, como vamos observar na análise de resíduos, as suposições

do modelo ainda não estão satisfeitas, e tudo isto pode afetar o valor de R2.

Análise de Resíduos

A Figura 2.5 mostra os gráficos de resíduos no tempo e histograma para o modelo sem o

intercepto (M2). Podemos ver que o gráfico de resíduos apresenta um comportamento cíclico em torno

do valor zero, indicando clara falta de independência entre os resíduos. Já o histograma mostra uma

assimetria à direita, mas o teste de Shapiro-Wilks não rejeita hipótese de normalidade (valor-p=0,182).

18
60
M2$res

0 20
-40

0 20 40 60 80 100

Index

Histogram of M 2$res
5 10 15
Frequency

-40 -20 0 20 40 60

M2$res

Figura 2.5: Gráficos de resíduos para o modelo M2 (Farelo e Grão de soja)

Apesar do problema da falta de independência dos resíduos, vamos tentar determinar previsões

utilizando o modelo sem intercepto, para os meses de Set/1998 a Ago/1999, para os quais possuímos os

valores reais. Para calcular as previsões para o preço do farelo, precisamos dos valores reais da série do

preço do grão de soja no período de Set/1998 a Ago/1999, que são apresentados na Tabela 2.2.

Tabela 2.2: Preço do Grão de Soja para o período Fev/1998 a Ago/1999

Mês Set/98 Out/98 Nov/98 Dez/98 Jan/99 Fev/99 Mar/99 Abr/99 Mai/99 Jun/99 Jul/99 Ago/99

Grão 11,44 11,55 11,43 11,00 9,60 8,65 8,32 8,51 8,68 8,72 8,49 9,09

19
Previsões para Set/1998 a Ago/1999:

Previsão para Set/1998: A previsão do preço do farelo de soja para o mês de setembro de 1998 é

calculada como:

FareloSet/98 = 16,5999 x 11,44 = 189,90

Intervalo de previsão de 95%:

189,90 ± 1,983264 x 21,46 = [147.34 ; 232.46]

onde t01041
.975 = 1,983264 é o percentil 0,975 da distribuição t-Student com 104-1 graus de liberdade e

s=21,46 é o erro padrão dos resíduos.

Procedendo desta forma, obtemos as previsões para os 12 meses de interesse. A Tabela 2.3

mostra as previsões doze passos à frente, intervalos de previsão e valores reais para Set/1998 a

Ago/1999. Podemos verificar que todas as previsões, exceto Fev/99, superestimam o verdadeiro valor

do preço do farelo de soja, mas os valores reais estão dentro do intervalo de previsão.

Tabela 2.3: Previsões seis passos à frente para o preço do farelo de soja, Set/1998 a Ago/1999

Mês Real Previsto Intervalo Previsão Real-Previsto


Set/1998 151,3 189,90 [147,34 ; 232,45] -38,60
Out/1998 154,8 191,73 [149,18 ; 234,28] - 36,93
Nov/1998 158,3 189,74 [147,19 ; 232,29] -31,44
Dez/1999 157,5 182,60 [140,05 ; 225,15] -25,10
Jan/1999 152,0 159,36 [116,81 ; 201,91] -7,36
Fev/1999 158,1 143,60 [ 101,04;186,14 ] 14,51
Mar/1999 129,4 138,11 [95,56 ; 180,66] -8,71
Abr/1999 130,2 141,26 [98,71 ; 183,81] -11, 06
Mai/1999 126,3 144,09 [101,54 ; 186,64] -17,79
Jun/1999 131,2 144,75 [102,20 ; 187,30] -13,55
Jul/1999 133,8 140,93 [98,38 ; 183,48] -7,13
Ago/1999 144,8 150,89 [108,34 ; 193,44] -6,09

20
EQMP = 460,26.

A Figura 2.6 mostra o ajuste e as previsões para os doze últimos meses, com o intervalo de

previsão. Vemos que o modelo ajustado segue relativamente bem o comportamento da série.
300
250
Farelo

200
150
100

0 20 40 60 80 100 120

tempo

Figura 2.6: Ajuste, previsão e intervalos de previsão para o modelo M2 (Farelo). A linha preta
representa a série do Farelo, a linha azul mostra o modelo ajustado, os pontos em azul são os
valores previstos e as linhas em vermelho são os intervalos de previsão.

21
3. Detectando a autocorrelação

A validade dos métodos de regressão ilustrados no Capítulo 2 requer, dentre outras, que a

suposição de independência seja satisfeita. Porém, quando dados de séries temporais estão sendo

analisados, esta suposição é frequentemente violada. É muito comum que os termos de erro, ordenados

no tempo, sejam autocorrelacionados. Neste capítulo, definimos autocorrelação positiva e negativa, e

discutimos a detecção de autocorrelação usando gráficos de resíduos, o teste de Durbin-Watson e os

gráficos da função de autocorrelação amostral (FAC).

3.1. Tipos de autocorrelação

 Autocorrelação Positiva : Quando um termo de erro positivo no período de tempo t tende a


produzir, ou ser seguido por, outro termo de erro positivo no período de tempo t+k (um
período de tempo posterior) e se um termo de erro negativo no período de tempo t tende a
produzir, ou ser seguido por, outro termo de erro negativo no período de tempo t+k.

 Autocorrelação Negativa : Quando um termo de erro positivo no período de tempo t tende a


produzir, ou ser seguido por, um termo de erro negativo no período de tempo t+k e se um
termo de erro negativo no período de tempo t tende a produzir, ou ser seguido por, um termo
de erro positivo no período de tempo t+k.

A hipótese de independência diz que os termos de erro ordenados no tempo não devem produzir

comportamento de autocorrelações positivas ou negativas. Isto significa que os termos de erro devem

ocorrer de forma aleatória ao longo do tempo. Tal comportamento implicaria que estes termos de erro

são estatisticamente independentes, o que por sua vez implicaria que os valores de y t ordenados no

tempo são estatisticamente independentes.

Se os resíduos apresentam um comportamento aleatório em torno de zero, com variância

constante ao longo do tempo, dizemos que eles são um ruído branco.


22
3.2 Autocovariância e Autocorrelação

Autocovariância: É a covariância entre yt e yt-k separados por k intervalos de tempo. A

autocovariância,  k , é calculada como:

 k  Covyt , yt k   Eyt   yt k   , k  0,  1,  2,...

Se temos uma série real, o estimador amostral aproximadamente não-tendencioso (para grandes

amostras) da autocovariância é dado por:

1 n
ˆk    yt  y  yt k  y  .
n t k 1

Como a autocovariância é uma função par, temos que para todo inteiro k,  k   k . Portanto, é

necessário determinar  k apenas para k  0.

Autocorrelação: A autocorrelação é a autocovariância padronizada. Serve para medirmos o

comprimento e a memória de um processo, ou seja, a extensão para a qual o valor tomado no tempo t

depende daquele tomado no tempo t-k,

k Cov yt , yt k 
k   .
0 Var  yt Var  yt k 

Claramente, 0  1 e k  k . Um estimador amostral da autocorrelação de defasagem k é dado

por:

ˆk
ˆ k  , k  0,1,2,...
ˆ0

23
3.3. Métodos para detecção da autocorrelação

3.3.1. Gráfico de resíduos versus tempo

Desde que os resíduos são estimativas pontuais dos termos de erro, um gráfico de resíduos
versus tempo pode ser usado para detectar violações da suposição de independência.

 Se um gráfico de resíduos contra o tempo tem um comportamento aleatório, os termos de


erro têm pouca ou nenhuma autocorrelação. Isto sugere que os termos de erro são
independentes, ou seja, eles são um ruído branco.

 Se um gráfico de resíduos versus tempo tem um comportamento cíclico, os termos de erro


são positivamente correlacionados, e a hipótese de independência não é válida.

 Se um gráfico de resíduos contra o tempo tem um comportamento alternado, os termos de


erro são negativamente correlacionados, e a hipótese de independência também não é válida.

3.3.2. Teste de Durbin-Watson

O tipo de autocorrelação (positiva ou negativa) com a qual trabalharemos é chamada de

autocorrelação de primeira ordem. Apresentamos a seguir o teste de Durbin-Watson, que é um teste

formal para detectar autocorrelação de primeira ordem. A estatística de Durbin-Watson é dada por

 e  et 1 
n
2
t
d t 2
n
(3.1)
e
t 1
2
t

onde e1 , e2 ,..., en são resíduos ordenados no tempo.

Considere o teste

H 0 : Os termos de erro não são autocorrelacionados

H 1 : Os termos de erro são positivamente ou negativamente autocorrelacionados.

24
Durbin e Watson (1951) mostraram que existem pontos (denotados por d L , e d U , ) tais que, se

 é a probabilidade de um erro Tipo I (ou seja, a probabilidade de rejeitarmos H0 quando esta hipótese

é verdadeira), então:

1. Se d  d L, / 2 ou 4  d   d L, / 2 , nós rejeitamos H0;

2. Se d  dU , / 2 e 4  d   dU , / 2 , nós não rejeitamos H0;

3. Se d L, / 2  d  dU , / 2 e d L, / 2  4  d   dU , / 2 , o teste é inconclusivo.

Aqui, valores pequenos de d levam à conclusão de uma autocorrelação positiva, porque se d é

pequeno, as diferenças et  et 1  são pequenas. Por outro lado, valores grandes de d (logo valores

pequenos de ( 4  d ) levam à conclusão de uma autocorrelação negativa, porque se d é grande, as

diferenças et  et 1  são grandes.

Para que o teste de Durbin-Watson possa ser facilmente aplicado, tabelas contendo os pontos

d L , e d U , devem ser construídas. Estas tabelas calculam os pontos d L , e d U , apropriados para vários

valores de  , nP (onde nP é o número de covariáveis do modelo) e n ( o número de observações).

Note que, por exemplo, nP  1 para o modelo linear simples. Uma tabela com a distribuição de d para

alguns valores de n e nP é apresentada em Guajarati (2009).

Geralmente, d = 2 indica que não existe autocorrelação. Se a estatística de Durbin–Watson é

substancialmente menor que 2, existe evidência de correlação serial positiva. Como uma regra

aproximada, se d é menor que 1, existe motivo para alarme. Pequenos valores de d indicam termos de

erro positivamente correlacionados. Se d > 2, os termos de erro são, em media, negativamente

correlacionados.

Antes de concluirmos esta apresentação do teste de Durbin-Watson, vários comentários são

relevantes:

25
 a validade do teste de Durbin-Watson depende da suposição de que a população de todos os

possíveis resíduos em qualquer tempo t tenha uma distribuição normal;

 autocorrelações positivas são encontradas mais comumente na prática que autocorrelações

negativas;

 a maioria dos softwares de regressão calculam a estatística d de Durbin-Watson e

 a autocorrelação de primeira ordem não é o único tipo de autocorrelação existente. Dados de

séries temporais podem exibir estruturas de autocorrelação dos erros mais complicadas. Em

tais casos, a autocorrelação é detectada usando o que é chamado de função de

autocorrelação amostral.

3.3.3. Função de Autocorrelação Amostral (FAC)

Vimos na Seção 3.2 que a autocorrelação amostral é calculada como:

ˆk
ˆ k  , k  0,1,2,... .
ˆ0

O gráfico da FAC é simplesmente um gráfico de ̂ k versus k. Se os resíduos são ruídos

brancos, ou seja, se eles satisfazem a suposição de independência, então a FAC não deve apresentar

picos significativos em nenhum lag k diferente de zero.

A FAC pode ser construída no R usando o comando:

acf(y, lag.max = NULL)

onde y é a série e lag.max é o número de lags que se quer utilizar no cálculo da FAC. Se não for

especificado um número, como no caso acima, o R usa o default de 10*log10(n/m) onde n é o número

de observações e m é o número de séries.

26
3.4. Exemplos

3.4.1. Temperatura global

No Exemplo 2.4.1 vimos, através dos gráficos de resíduos, que um possível problema de

autocorrelação poderia estar comprometendo o modelo linear ajustado à série. Como o gráfico de

resíduos na Figura 2.2 mostrou um comportamento cíclico, os termos de erro devem ser positivamente

correlacionados. Para confirmar a existência de autocorrelação de primeira ordem, vamos fazer o teste

de Durbin-Watson.

O valor desta estatística foi d = 0,9036. Neste caso, n  95 e nP  1 . Logo para um nível de

significância de 5% temos,

d L , = 1,64 e d U , = 1,69.

Como d  1,64 , concluímos que realmente existe uma autocorrelação positiva de primeira ordem.

Vamos também fazer o gráfico da função de autocorrelação amostral (FAC) dos resíduos do

modelo M1. O gráfico apresentado na Figura 3.1 mostra que existem vários picos significativos na

FAC, portanto os resíduos não são independentes.

Series M 1$res
1.0
0.8
0.6
ACF

0.4
0.2
0.0
-0.2

0 5 10 15

Lag

Figura 3.1: FAC para os resíduos do modelo M1 (Temperatura global)


27
3.4.2. Preço do grão e farelo de soja

O gráfico de resíduos do modelo M2, na Figura 2.5, mostrou um possível problema de falta de

independência dos resíduos do modelo. Como o gráfico apresentou um comportamento cíclico, os

termos de erro devem ser positivamente correlacionados. Para confirmar a existência de autocorrelação

de primeira ordem, vamos fazer o teste de Durbin-Watson.

O valor desta estatística foi d = 0,3633. Neste caso, n  110 e nP  1 . Logo para um nível de

significância de 5% temos,

d L,  1,65 e dU ,  1,69 .

Como d  1,65 , concluímos que realmente existe uma autocorrelação positiva de primeira ordem nesta

série.

O gráfico apresentado na Figura 3.2 mostra a função de autocorrelação amostral (FAC) dos

resíduos do modelo M2. Podemos ver que existem vários picos significativos na FAC, portanto os

resíduos não são independentes.

Series M 2$res
1.0
0.8
0.6
ACF

0.4
0.2
0.0
-0.2

0 5 10 15 20

Lag

Figura 3.2: FAC para os resíduos do modelo M2 (Farelo)


28
4. Modelando a autocorrelação nos resíduos

Já vimos que os termos de erro para modelos de regressão em séries temporais são

frequentemente correlacionados. Em tais casos, devemos remediar o problema modelando a

autocorrelação. Se ignoramos os termos de erro autocorrelacionados, pagamos uma penalidade em

termos de intervalos de previsão maiores. Levando em conta a autocorrelação, podemos obter

intervalos de previsão mais precisos.

Este capítulo apresenta uma forma de trabalhar com erros correlacionados, utilizando os

modelos de regressão com erros autorregressivos.

4.1. Modelo de regressão com erros autorregressivos

O nome autorregressivo se deve ao fato de que a série no instante t é função da série nos

instantes anteriores a t. Podemos ajustar modelos autorregressivos para qualquer série temporal, mas

neste caso usaremos este modelo para a série de resíduos,  t .

Se existe uma relação da série no tempo presente somente com o tempo imediatamente anterior,

temos um modelo autorregressivo de ordem 1, AR(1):

 t  1 t 1  ut

onde u t é um ruído branco Gaussiano.

Se existe uma correlação com os dois tempos anteriores, temos um AR(2):

 t  1 t 1   2 t 2  ut .

Generalizando, podemos ter uma relação com até p tempos anteriores, ou seja, um AR(p),

29
Consideremos agora o modelo de regressão polinomial dado na Equação (2.3), que contenha

erros autorregressivos de ordem p. Neste caso, o modelo a ser estimado é

yt   0  1t   2t 2  ...   k t k   k 1x1  ...   k  r xr   t , t  1,..., n (4.1)

onde  t é descrito por um processo AR(p),

 t  1 t 1  2 t 2  ...   p t  p  ut .

Os parâmetros deste modelo podem ser estimados por mínimos quadrados ordinários ou através

do método de máxima verossimilhança. Após a estimação do modelo (4.1) devemos verificar as

suposições sobre os novos resíduos do modelo, ou seja, para a série u t estimada. Estes resíduos devem

ter distribuição Normal, média zero, variância constante e devem ser independentes.

4.2. Previsão

No caso do modelo com erros autorregressivos, a previsão YˆT h  é dada por:

YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk (T  h) k  ˆk 1x1, (T  h)  ...  ˆk  r xr , (T  h)  ˆT h (4.2)

onde ˆT h  é calculado através do valor esperado das observações futuras condicionado aos valores

passados e ao valor presente da variável,

ˆT h  E T  h |  T ,  T 1,  ET  T  h  .

30
Por exemplo, para um AR(1),
 t  1 t 1  ut
a previsão h passos à frente, dado que estamos no tempo T, é:

ˆT (h)  1ET  T  h 1   ET uT  h  .

A expressão acima constitui o modelo geral da previsão. Para sua implementação

computacional, substituímos as esperanças condicionais pelos seus valores correspondentes

satisfazendo às seguintes restrições:

i) Esperança condicional dos  t já realizados são os próprios resíduos, et, do modelo de regressão

original, sem os erros autorregressivos,

ET  T  h   E T  h |  T ,  T 1,  eT  h  yT  h  yˆT  h para h = 0, 1, 2, ...

ii) Esperança condicional dos  t ainda não realizados são as respectivas previsões para  t ,

ET  T  h   E T  h |  T ,  T 1,  ˆT h para h = 1, 2, ...

iii) Esperança condicional dos ut's,

ET uT  h   EuT  h | uT , uT 1,  0 para h = 1, 2, ...

31
4.3. Intervalo de Confiança para as Previsões

Suposição:

 T  h |  T ,  T 1, ~ N ˆT h; T2  h 

onde  T2  h é a variância da distribuição de  T  h |  T ,  T 1, .

Desta forma, um intervalo de previsão de 100(1-)% para as observações futuras é dado por:

Yˆ (h)  t


T
T  nP
 / 2  s  T  h  (4.3)

onde tT /2nP  é o percentil /2 da distribuição t-Student com T-nP graus de liberdade, nP é o número de

parâmetros do modelo, s é o desvio padrão dos resíduos e  T  h é o desvio-padrão da distribuição de

 T  h |  T ,  T 1,.

Mostramos abaixo como calcular  T  h para os modelos AR(1) e AR(2), que são os mais comuns

na prática. Modelos com ordem maior que 2 são mais complexos, mas e o cálculo é mais complicado.

 AR(1):  T  h  1  12  14  ...  12( h 1)

 AR(2):  T  h  1 ˆ12 ˆ 22  ... ˆ h21

onde ˆ1  ˆ1 , ˆ 2  ˆ1ˆ1  ˆ2 , ˆ j  ˆ1ˆ j 1  ˆ2ˆ j  2 , j  3.

32
4.4. Exemplos

4.4.1. Temperatura global

Como vimos nos Exemplos 2.4.1 e 3.4.1, o modelo linear ajustado ao desvio da temperatura

global possui autocorrelação de 1ª ordem nos resíduos. Assim, vamos ajustar um novo modelo

incluindo um componente AR(1) para os termos de erro  t . O modelo proposto é então dado por:

yt   0  1t   t t  1900,...,1995

 t  1 t 1  ut , onde ut ~ N (0,  u2 ) , independentes,

que pode também ser escrito como:

yt   0  1t  1 t 1  ut t  1900,...,1995 .

Desta forma, o modelo ajustado, denotado por M1.AR1, é:

yˆ t  ˆ0  ˆ1t  ˆ et 1 = -11,3582 + 0,0058 x Ano + 0,5663 x et-1

Saída do R:

Estimate Std. Error z value Pr(>|z|)

ar1 5.6626e-01 8.8868e-02 6.372 1.866e-10 ***

intercept -1.1358e+01 1.6980e+00 -6.689 2.247e-11 ***

Ano 5.7841e-03 8.7664e-04 6.598 4.166e-11 ***

sigma^2 estimated as 0.01105: log likelihood = 79.01, aic = -150.01

R2 = 0.7479499 R2adj = 0.7506031

33
Observamos que os três coeficientes, 0, 1 e 1 foram estatisticamente significativos, pois para

todos eles o valor-p foi bem menor que 0,05. Verificamos também que o valor de R2 aumentou de 62%

para 75%, indicando que a reta ajustada explica melhor a variação dos dados. Além disto, o valor do

AIC diminuiu de -116,7915 para -150,01. Analisando os gráficos de resíduos (Figura 4.1) não

observamos mais nenhum padrão específico no gráfico de resíduos vs. tempo, portanto podemos dizer

que as observações se encontram aleatoriamente distribuídas em torno de zero. O histograma ainda

mostra uma leve assimetria, mas o teste de Shapiro-Wilks também não rejeitou a suposição de

normalidade (0,6688). Os gráficos de FAC e FACP não mostram nenhum pico significativo e a

estatística de Durbin-Watson, d=1,9617 e 4-d=2,0383, são maiores que d U , = 1,69. Logo, não existe

mais o problema de autocorrelação nos dados.

Histogram of M1.AR1$res

20
-0.2 -0.1 0.0 0.1 0.2

15
M1.AR1$res

Frequency

10
5
0

0 20 40 60 80 -0.3 -0.2 -0.1 0.0 0.1 0.2

Time M1.AR1$res

Series M1.AR1$res
0.2 0.4 0.6 0.8 1.0
2
1
rnorm(n - H)

ACF
0
-1
-2

-0.2

-0.2 -0.1 0.0 0.1 0.2 0 5 10 15

M1.AR1$res Lag

Figura 4.1: Gráficos de resíduos para o modelo M1.AR1 ajustado ao desvio da temperatura global

Como o modelo M1.AR1 parede adequado, podemos utilizar este modelo para fazer previsões

para os anos de 1995-1997.

34
Previsões para 1995 a 1997:

Previsão para 1995: Para calcular a previsão para o ano de 1995 utilizamos o modelo M1.AR1, onde o

ano será igual a 1995. Logo o desvio da temperatura previsto para 1995 será de

TempMedia1995 = -11,35816 + 0,005784104 x 1995 + 0,5662611 x e1994 = 0,2279

onde e1994  0,08255921 foi obtido do modelo M1.

Intervalo de previsão de 95%: 0,2279 ± 1,985802 x 0,1051227 x 1 = [0,0191 ; 0,4366]

onde t095.975
3 
 = 1,9861 é o percentil 0,975 da distribuição t-Student com 95-3 graus de liberdade,

s=0,1051227 é o erro padrão dos resíduos e o desvio-padrão da distribuição de  t 1 |  t ,  t 1 , é igual

a 1, já que temos um AR(1) e h=1.

Previsão para 1996: Para calcular a previsão para 1996, utilizamos o modelo M1.AR1, com o ano

igual a 1996.

TempMedia1995 = -11,35816 + 0,005784104 x 1996 + 0,5662611 x e1995 = 0,2134

Neste caso, não podemos obter o valor de e1995 diretamente do modelo M1, pois este só foi ajustado

para os anos de 1900 a 1994. Assim, caímos no caso (ii) da Seção (2.3). Ou seja, e1995 será dado pela

previsão um passo à frente, feita em 1994:

e1995  ˆ19941  ˆ1e1994 = 0,5662611 x 0,08255921 = 0,2134.

35
Intervalo de previsão de 95%:

1 0,5662611
2
0,2134 ± 1,985802 x 0,1051227 x = [-0,0265 ; 0,4533].

Neste caso, a variância da distribuição de  t 1 |  t ,  t 1 , é igual a 1  0,5662611 , já que temos um


2

AR(1) e h=2.

Previsão para 1997: Para calcular a previsão para 1997, utilizamos o modelo M1.AR1, com o ano

igual a 1997.

TempMedia1995 = -11,35816 + 0,005784104 x 1997 + 0,5662611 x e1996 = 0,2077

Neste caso, e1996 será dado pela previsão dois passos à frente, feita em 1994:

e1996  ˆ19942  ˆ12 e1994 = (0,5662611)2 x 0,08255921 = 0,02647275.

Intervalo de previsão de 95%:

1  0,5662611  0,5662611
2 4
0,2077 ± 1,985802 x 0,1051227 x = [-0.0414 ; 0.4568].

Neste caso, a variância da distribuição de  t 1 |  t ,  t 1 , é igual a 1  0,5662611  0,5662611 , já


2 4

que temos um AR(1) e h=3.

As previsões e os valores reais do desvio da temperatura para este período são dados na Tabela

4.1. Podemos verificar que o EQMP caiu de 0,0330 para 0,0252 em relação ao modelo sem os erros

AR1, do Exemplo 2.4.1.

A Figura 4.2 mostra o ajuste, assim como previsões para os três últimos anos, com o intervalo

de previsão. Podemos ver que as previsões ainda subestimam o verdadeiro valor do desvio médio de

36
temperatura, apesar dos valores reais estarem dentro do intervalo de previsão. Além disto, o ajuste

segue de forma bem mais próxima o comportamento da série, comparado com o ajuste do modelo M1.

Tabela 4.1: Valores reais e previstos para o desvio da temperatura global, de 1995 a 1997

Ano Real Previsto Erro (Real-Previsto)


1995 0,39 0,2279 0, 1621
[0.0191 ; 0, 0.4366]

1996 0,22 0,2134 0, 0066


[-0.0265 ; 0.4533]

1997 0,43 0,2077 0, 2223


[-0.0414 ; 0.4568]

EQMP = 0,0252.
0.4
0.2
desvio temperatura

0.0
-0.2
-0.4

0 20 40 60 80 100

tempo

Figura 4.2: Ajuste, previsão e intervalos de previsão para o modelo M1.AR1 (Temperatura global). A

linha preta representa a série do desvio da temperatura média, a linha azul mostra o modelo ajustado, os

pontos em azul são os valores previstos e as linhas em vermelho são os intervalos de previsão

37
4.4.2. Preço do grão e farelo de soja

Nos Exemplos 2.4.2 e 3.4.2, vimos que o modelo linear ajustado ao preço do farelo de soja

possui autocorrelação nos resíduos. Após alguns testes, vemos que é necessário ajustar um modelo

AR(2) aos resíduos, pois este modelo apresentou todos os coeficientes significativos e menor AIC.

Assim, vamos ajustar o modelo de regressão com erros AR(2), para o período de jan/1990 a fev/1999.

Novamente, o intercepto não foi significativo, portanto o modelo ajustado, denotado por M2.AR2, foi:

yˆ t  ˆ1Grao  ˆ1et 1  ˆ2 et 2 = 16,694069 x Grao + 1,122359 x et-1 - 0,261080 x et-2

Saída do R:

Estimate Std. Error z value Pr(>|z|)

ar1 1.122359 0.098556 11.3880 < 2e-16 ***

ar2 -0.261080 0.102302 -2.5521 0.01071 *

Grao 16.694069 0.531290 31.4218 < 2e-16 ***

sigma^2 estimated as 110.3: log likelihood = -392.97, aic = 793.94

R2 = 0.9430322 R2adj = 0.9480736

Observamos que os coeficientes de 1, 1 e 2 foram estatisticamente significativos, pois todos

2
os valores-p foram menores que 0,05. Verificamos que o valor de Radj diminuiu um pouco em relação

ao modelo M2 (de 99% para 95%), mas continua sendo um valor alto e, além disto, vimos que no

modelo M2 o R2 poderia estar sendo afetado pela não validade das suposições do modelo.

Corroborando esta análise, vemos que o valor do AIC diminuiu de 935,87 para 793,94.

Analisando os gráficos de resíduos (Figura 4.3) não observamos mais nenhum padrão específico

no gráfico de resíduos vs. tempo, portanto podemos dizer que as observações se encontram

aleatoriamente distribuídas em torno de zero. O histograma ainda mostra uma leve assimetria à direita,

mas o teste de Shapiro-Wilks também não rejeitou a suposição de normalidade (0,4742). Finalmente, o
38
gráfico da FAC não mostra picos significativos (somente um pico na muito afastado da origem, o que

pode ser considerado um ruído) e a estatística de Durbin-Watson, d= 2,2218 e 4-d=1,7782 são maiores

que d U , = 1,69. Logo, não existe mais o problema de autocorrelação nos dados.

Histogram of M2.AR2$res
-20 -10 0 10 20 30

5 10 15 20 25
M2.AR2$res

Frequency

0
0 20 40 60 80 100 -20 -10 0 10 20 30

Time M2.AR2$res

Series M2.AR2$res

0.2 0.4 0.6 0.8 1.0


2
rnorm(n - H)

ACF
0
-2 -1

-0.2
-20 -10 0 10 20 30 0 5 10 15 20

M2.AR2$res Lag

Figura 4.3: Gráficos de resíduos para o modelo M2.AR2 ajustado á série do preço do farelo de soja

Como o modelo M2.AR2 parece adequado, podemos utilizar este modelo para fazer previsões

para os meses de Set/1998 a Ago/1999.

Previsões para Set/1998 a Ago/1999:

A previsão do preço do farelo de soja para o mês de setembro de 1998 é calculada como:

FareloSet/98 = 16,6941 x GraoSet/98 + 1,1224 x eAgo/98 - 0,26110 x eJul/98 = 168,7670

onde e Ago / 98 e eJul / 98 são obtido do modelo M2.

39
Intervalo de previsão de 95%:

168,767 ± 1,983731 x 10,50 x 1 = [147,94 ; 189,60]

onde t0104 3 
.975 = 1,983731 é o percentil 0,975 da distribuição t-Student com 104-3 graus de liberdade,

s=10,50 é o erro padrão dos resíduos e o desvio-padrão da distribuição de  t 1 |  t ,  t 1 , é igual a 1,

já que temos um AR(2) e h=1.

A Tabela 4.2 mostra as previsões doze passos à frente, intervalos de previsão e valores reais

para Set/1998 a Ago/1999. Podemos verificar que a maioria das previsões superestima o verdadeiro

valor do preço do farelo de soja, mas os valores reais estão dentro do intervalo de previsão.

Comparando as previsões do modelo M2 com o modelo M2.AR2, vemos que este último apresenta um

EQMP bem menor que o M2, que possuía valor de 460,26.

Tabela 4.2: Previsões seis passos à frente para o preço do farelo de soja, Set/1998 a Ago/1999

Mês Real Previsto Intervalo Previsão Real-Previsto


Set/1998 151,3 168,77 [147,94 ; 189,60] -17,47
Out/1998 154,8 175,56 [144,25 ; 206,87] - 20,76
Nov/1998 158,3 177,25 [139,65 ; 214,84] -18,95
Dez/1999 157,5 172,91 [131,56 ; 214,27] -15,41
Jan/1999 152,0 151,77 [108,13 ; 195,41] 0,23
Fev/1999 158,1 137,67 [ 92,64;182,70 ] 20,43
Mar/1999 129,4 133,56 [87,66 ; 179,45] -4,16
Abr/1999 130,2 137,83 [91,40 ; 184,26] -7, 63
Mai/1999 126,3 141,55 [94,78 ; 188,31] -15,25
Jun/1999 131,2 142,91 [95,94 ; 189,88] -11,71
Jul/1999 133,8 139,62 [95,52 ; 186,72] -5,82
Ago/1999 144,8 150,07 [102,89 ; 195,26] -5,27

EQMP = 188,06.

40
A Figura 4.4 mostra o ajuste, assim como previsões para os seis últimos meses, com o intervalo

de previsão. Podemos ver que o modelo ajustado segue bem o comportamento da série, com previsões

próximas dos valores reais.


300
250
200
Farelo

150
100

0 20 40 60 80 100 120

tempo

Figura 4.4: Ajuste, previsão e intervalos de previsão para o modelo M2.AR2 (Farelo). A linha preta

representa a série do preço do farelo de soja, a linha azul mostra o modelo ajustado, os pontos em azul

são os valores previstos e as linhas em vermelho são os intervalos de previsão.

41
5. Séries sazonais

Sazonalidade: Tendência do processo em repetir um certo tipo de comportamento dentro de um


período sazonal (geralmente 12 meses para séries mensais, 4 meses para séries trimestrais, etc.).

Um exemplo de série sazonal é a série das Centrais Elétricas do Paraná (CEP), vista no do
Exemplo 1.3. A Figura 5.1 apresenta novamente a série CEP, onde podemos visualizar a sazonalidade
que ocorre de 12 em 12 meses.
500
450
400
CEP

350
300
250

1980 1982 1984 1986 1988 1990 1992

Figura 5.1. Série CEP, com sazonalidade mensal

A série CEP, além da sazonalidade, apresenta também uma tendência crescente. Assim, para
ajustar um modelo de regressão a esta série temos que incluir tanto componentes de tendência, quando
componentes para modelar a sazonalidade.

Neste capítulo vamos ver como ajustar modelos que incluem todos estes componentes, assim
como covariáveis, caso tenhamos alguma variável externa que possa ajudar a modelar e fazer previsões
para séries sazonais. Além disto, vamos também incorporar o modelo autorregressivo nos erros do
modelo de regressão, caso os resíduos não sejam um ruído branco.
42
5.1 Modelo de regressão para séries sazonais com erros autorregressivos

Consideremos o seguinte modelo para séries sazonais:

yt  t  Ft  xt'    t , t  1,..., n , (5.1)

onde  t é um ruído branco Gaussiano,  t é a tendência no período de tempo t, que pode ser modelada

como dado na Equação (2.2), x t é o vetor de covariáveis e Ft é o componente de sazonalidade.

Uma forma de modelar padrões sazonais é empregando variáveis dummy. Assumindo que
existem S períodos sazonais, o componente Ft pode ser escrito como:

Ft  1D1, t   2 D2,t  ...   ( S 1) D( S 1),t (5.2)

onde D1, t , D2, t ,..., D( S 1),t são variáveis indicadoras (ou dummy) construídas da seguinte forma:

1 para o período 1
D1, t  
 0 caso contrário

1 para o período 2
D2, t  
 0 caso contrário

.
.
.
1 para o período S - 1
D( S 1),t  
 0 caso contrário

Obs.: Devemos construir sempre (S-1) variáveis dummy para modelar a parte sazonal, para evitar o
problema da multicolinearidade.

43
Desta forma, o modelo geral para séries polinomiais de ordem k, com p variáveis explicativas,
x1,..., xp, e variação sazonal de período S é dado por:

yt   0  1t  ...   k t k   k 1 x1  ...   k  r xr   k  r 1D1, t  ...   k  r  ( S 1) D( S 1),t   t , t  1,..., n

(5.3)
 
onde  t ~ N 0,  2 , independentes.

O componente i , i  k  r  1,..., k  r  (S  1) , da parte sazonal, representa a diferença,

excluindo a tendência, entre o nível da série temporal no período i em relação ao período S. Por

exemplo, se  i for negativo, o valor da série no período i é esperado ser menor do que no período S.

Os parâmetros do modelo podem ser estimados por mínimos quadrados ordinários.

O modelo (5.3) pode ser estimado utilizando mínimos quadrados ordinários. A análise de

resíduos deve verificar se todas as suposições do modelo estão sendo satisfeitas, ou seja, se os resíduos

são independentes, com distribuição normal de média zero e variância constante.

Se a suposição de independência não for satisfeita, devemos ajustar o modelo com erros

autorregressivos. Consideremos então o modelo de regressão polinomial em séries temporais, que

contenha variação sazonal com período S e erros autorregressivos de ordem p. Neste caso, o modelo a

ser estimado é o mesmo dado na Equação (5.3). Porém, o termo de erro, t, é descrito por um processo

autoregressivo de ordem p,

 t  1 t 1  1 t  2  ...  1 t  p  ut . (5.4)

Os parâmetros deste modelo também podem ser estimados por mínimos quadrados ordinários

ou através do método de máxima verossimilhança. Além disto, devemos verificar as suposições de

independência, normalidade e variância constante sobre os novos resíduos do modelo, ou seja, para a

série u t estimada.

44
5.2. Previsão

No caso do modelo de regressão polinomial, que contenha variação sazonal com período S e
erros autorregressivos de ordem p, a previsão YˆT h  é dada por:

YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk T  h p  ˆk 1 x1,(T h)  ...  ˆk r xr ,(T h)  ˆk r 1 D1,t h .  ..  ˆk r ( S 1) D( S 1),t h  ˆT h

onde ˆT h  é calculado através do valor esperado das observações futuras condicionado aos valores

passados e ao valor presente da variável, como visto na Seção 4.2,

ˆT h  ET  T  h  .

Um intervalo de previsão de 100(1-)% para as observações futuras é dado por:

Yˆ (h)  t


T
T  nP
 / 2  s  T  h 
onde tT /2nP  é o percentil /2 da distribuição t-Student com T-nP graus de liberdade, nP é o número de

parâmetros do modelo, s é o desvio padrão dos resíduos e  T  h é o desvio-padrão da distribuição de

 T  h |  T ,  T 1,.
Caso não seja necessário incluir a parte autorregressiva no modelo, a previsão pontual feita no
tempo T para yT  h é dada simplesmente por,

YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk T  h p  ˆk 1 x1,(T h)  ...  ˆk r xr ,(T h)  ˆk r 1 D1,T h  ...  ˆk r ( S 1) D( S 1),T h

e os intervalos de previsão de 100(1-)% são obtidos como:

Yˆ (h)  t


T
T nP
 / 2 
s .

45
5.3. Exemplo – Série CEP

Vamos utilizar a série das Centrais Elétricas do Paraná (CEP), de jan/80 a dez/92, retirando as

últimas 12 observações (jan/92 a dez/92) para fazer previsões. Logo, n=144. O modelo utilizado é dado

por:

yt   0  1t   2 D1,t  ...  12D11,t   t , t  1,...,144 .

Desta forma, as estimativas para os parâmetros do modelo M_CEP são dadas por:

Saída do R:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 227.60761 3.24138 70.219 < 2e-16 ***
Ano 1.36033 0.02047 66.464 < 2e-16 ***
factor(sazon)2 25.88967 4.15362 6.233 5.81e-09 ***
factor(sazon)3 34.69600 4.15377 8.353 8.33e-14 ***
factor(sazon)4 46.25233 4.15402 11.134 < 2e-16 ***
factor(sazon)5 54.72533 4.15438 13.173 < 2e-16 ***
factor(sazon)6 51.69833 4.15483 12.443 < 2e-16 ***
factor(sazon)7 45.25466 4.15538 10.891 < 2e-16 ***
factor(sazon)8 48.14433 4.15604 11.584 < 2e-16 ***
factor(sazon)9 47.11733 4.15680 11.335 < 2e-16 ***
factor(sazon)10 42.42366 4.15765 10.204 < 2e-16 ***
factor(sazon)11 22.22999 4.15861 5.346 3.88e-07 ***
factor(sazon)12 19.11966 4.15967 4.596 9.99e-06 ***

Residual standard error: 10.17 on 131 degrees of freedom


Multiple R-squared: 0.9736, Adjusted R-squared: 0.9712
F-statistic: 402.1 on 12 and 131 DF, p-value: < 2.2e-16

AIC(M1): 1091.146

Os coeficientes 0 e 1 são ambos significativos e, como o sinal de 1 foi positivo, isto indica

que o consumo de energia elétrica no Paraná tem uma tendência de aumento com o passar do tempo.

As variáveis dummy foram construídas com janeiro sendo o mês de referência. Como todos os

coeficientes sazonais foram significativos e positivos, isto significa que todos os meses apresentam um

consumo de energia significativamente maior do que o do mês de janeiro. O valor de R2 foi

46
suficientemente alto (97,12%), o que pode levar à conclusão de que a reta ajustada explica bem a

variação dos dados.

Porém, analisando os gráficos de resíduos da Figura 5.2 observamos que várias suposições do

modelo não estão satisfeitas.

Histogram of M_CEP$res

5 10 15 20 25 30 35
10 20 30
M_CEP$res

Frequency
0
-20 -10

0
0 20 40 60 80 100 140 -30 -20 -10 0 10 20 30

Index M_CEP$res

Series M_CEP$res
0.2 0.4 0.6 0.8 1.0
3
2
rnorm(n - H)

ACF
0
-3 -2 -1

-0.2

-20 -10 0 10 20 30 0 5 10 15 20

M_CEP$res Lag

Figura 5.2: Gráficos de resíduos para o modelo M_CEP ajustado á série CEP

O gráfico de resíduos vs. tempo, mostra uma diminuição nos tempos iniciais e depois um

aumento, portanto não podemos dizer que as observações se encontram aleatoriamente distribuídas em

torno de zero. O histograma apresenta uma leve assimetria à direita, mas o qqplot e o teste de Shapiro-

Wilks (valor-p=0,1855) não rejeitam a suposição de normalidade. O gráfico da FAC mostra vários

47
picos significativos e a estatística de Durbin-Watson (d= 0,5791) é menor que d U , = 1,65, logo existe

autocorrelação positiva de ordem 1 nos dados.

Se quisermos fazer previsões 12 passos à frente utilizando este modelo, teremos:

Janeiro de 1994: A previsão do consumo de energia da série CEP para o mês de jan/94 é:

CEPJan/94 = 227,6076 + 1,3603 x 145 = 424,8511.

Observamos que nenhum coeficiente das variáveis dummy entra na previsão acima, já que para o mês

de janeiro todas as dummy são iguais a zero.

Intervalo de previsão de 95%:

424,8511 ± 1,9782 x 10,17413 = [404,7246 ; 444,9776]

onde t0144 13


.975
= 1,9782 é o percentil 0,975 da distribuição t-Student com 144-13 graus de liberdade e

s=10,17413 é o erro padrão dos resíduos.

Fevereiro de 1994: A previsão do consumo de energia da série CEP para o mês de fev/94 é dada por:

CEPFev/94 = 227,6076 + 1,3603 x 146 + 25,8897 x 1 = 452,1011.

Para a previsão de Fev/94 será necessário incluir somente o coeficiente da variável dummy de fevereiro,

25,8897, já que todas as outras variáveis dummy serão iguais a zero para este mês.

Desta forma, obtemos as previsões para os meses subsequentes, que são apresentadas na Tabela 5.1. A

Figura 5.3 mostra o ajuste, assim como previsões para os seis últimos meses, com o intervalo de
48
previsão. Podemos ver que o ajuste para os 4 últimos meses não é muito boa, e tanto as previsões como

os intervalos se encontram bem abaixo dos valores reais.

Tabela 5.1: Previsões 12 passos à frente para o consumo de energia elétrica da CEP, Jan/92 a Dez/92

Mês Real Previsto Intervalo Previsão Real-Previsto


Jan/1992 425 424,85 [404,72 ; 444,98] 0,14
Fev/1992 465 452,10 [431,98 ; 472,23] 12,89
Mar/1992 474 462,27 [442,15 ; 482,40] 11,73
Abr/1992 485 475,19 [455,06 ; 495,32] 9,81
Mai/1992 506 485,02 [464,90 ; 505,15] 20,98
Jun/1992 499 483,36 [463,23 ;503,48] 15,64
Jul/1992 481 478,27 [458,15 ; 498,40] 2,73
Ago/1992 492 482,52 [462,40 ; 502,65] 9,48
Set/1992 514 482,86 [462,73 ; 502,98] 31,14
Out/1992 515 479,52 [459,40 ; 499,65] 35,48
Nov/1992 483 460,69 [440,56 ; 480,82] 22,31
Dez/1992 481 458,94 [438,81 ; 479,07] 22,06

EQMP = 366,26.
500
450
400
CEP

350
300
250

0 50 100 150

tempo

49
Figura 5.3: Ajuste, previsão e intervalos de previsão para o modelo M_CEP. A linha preta representa a
série CEP, a linha azul mostra o modelo ajustado, os pontos em azul são os valores previstos e as linhas
em vermelho são os intervalos de previsão.
Como os resíduos não satisfazem as suposições do modelo, é necessário ajustar um modelo

autorregressivo aos mesmos. Após alguns testes, vemos também que é necessário ajustar um modelo

AR(3) aos resíduos, pois este modelo apresentou todos os coeficientes significativos, resíduos mais

próximos de um ruído branco e menor AIC. As variáveis dummy serão construídas novamente com

janeiro sendo o mês de referência. Desta forma, na saída abaixo o coeficiente de Xi, i=2,...12, faz

referência ao mês i quando comparado ao mês de janeiro, onde Fev=X2, Mar= X3,..., Dez= X12.

Saída do R:

Estimate Std. Error z value Pr(>|z|)


ar1 0.748675 0.057817 12.9490 < 2.2e-16 ***
intercept 229.289311 4.607379 49.7657 < 2.2e-16 ***
Ano 1.343762 0.050003 26.8735 < 2.2e-16 ***
D2 25.802311 2.028234 12.7216 < 2.2e-16 ***
D3 34.560992 2.658383 13.0008 < 2.2e-16 ***
D4 46.103492 3.022005 15.2559 < 2.2e-16 ***
D5 54.594257 3.240072 16.8497 < 2.2e-16 ***
D6 51.616416 3.359467 15.3645 < 2.2e-16 ***
D7 45.256233 3.400795 13.3075 < 2.2e-16 ***
D8 48.269132 3.370214 14.3223 < 2.2e-16 ***
D9 47.414231 3.262148 14.5347 < 2.2e-16 ***
D10 42.954572 3.056719 14.0525 < 2.2e-16 ***
D11 23.075213 2.708622 8.5192 < 2.2e-16 ***
D12 20.384924 2.103920 9.6890 < 2.2e-16 ***

sigma^2 estimated as 43.83: log likelihood = -476.93, aic = 983.85

R2 = 0.9888941 R2adj = 0.9888159

2
Observamos que todos os coeficientes do modelo são significativos, o valor de Radj aumentou

um pouco em relação ao modelo M_CEP (de 97,12% para 98,88%) e que o valor do AIC diminuiu de

1091,15 para 938,85.

Analisando os gráficos de resíduos (Figura 5.4) não observamos mais nenhum padrão específico

no gráfico de resíduos vs. tempo, portanto podemos dizer que as observações se encontram

aleatoriamente distribuídas em torno de zero. O histograma mostra uma leve assimetria à direita, e o

50
qqplot apresenta um comportamento mais próximo a uma reta, mas o teste de Shapiro-Wilks rejeitou a

suposição de normalidade (valor-p=0,0241). Finalmente, o gráfico da FAC mostra um pequeno pico

significativo no lag 2 e outro no lag 12. A inclusão de um componente AR(2) não foi significativa e o

pico no lag 12 pode significar que ainda existam problemas a serem corrigidos na parte sazonal. Porém,

neste curso vamos modelar a sazonalidade apenas utilizando as variáveis dummy. Além disto, a

estatística de Durbin-Watson, d=2,2262 e 4-d=1,7738, são maiores que d U , = 1,69. Logo, não existe

mais o problema de autocorrelação de primeira ordem nos dados.

Histogram of M_CEP.AR1$res

50
20

40
M_CEP.AR1$res

10

Frequency

30
0

20
-10

10
0

0 20 40 60 80 100 140 -20 -10 0 10 20

Time M_CEP.AR1$res

Series M_CEP.AR1$res
3

0.2 0.4 0.6 0.8 1.0


2
1
rnorm(n - H)

ACF
0
-1
-2

-0.2
-3

-10 0 10 20 0 5 10 15 20

M_CEP.AR1$res Lag

Figura 5.4: Gráficos de resíduos para o modelo M_CEP.AR1 ajustado á série CEP

Uma possibilidade para corrigir o problema de falta de normalidade dos dados é fazer uma

transformação nos dados. A transformação mais utilizada nestes casos é a logarítmica. Assim, vamos

tentar ajustar um modelo para o logaritmo da variável CEP:

51
log( yt )   0  1t   2 D1,t ...  12D11,t   t , t  1,...,168

O modelo ajustado é apresentado abaixo e vemos que todos os coeficientes são significativos.

Neste caso, não podemos mais comparar o AIC deste modelo (-731,1) com o anterior (938,85), pois

como tomamos o logaritmo da série, a magnitude dos valores é diferente, e isto impacta o cálculo do

AIC, assim como dos coeficientes do modelo e o desvio padrão dos resíduos.

Saída do R:

Estimate Std. Error z value Pr(>|z|)


ar1 0.5882456 0.0679431 8.6579 < 2.2e-16 ***
intercept 5.5040498 0.0083553 658.7458 < 2.2e-16 ***
Ano 0.0037356 0.0001158 32.2592 < 2.2e-16 ***
D2 0.0756909 0.0055525 13.6318 < 2.2e-16 ***
D3 0.1006747 0.0069798 14.4237 < 2.2e-16 ***
D4 0.1332122 0.0076830 17.3387 < 2.2e-16 ***
D5 0.1558829 0.0080506 19.3629 < 2.2e-16 ***
D6 0.1468089 0.0082318 17.8344 < 2.2e-16 ***
D7 0.1289133 0.0082908 15.5490 < 2.2e-16 ***
D8 0.1377685 0.0082463 16.7068 < 2.2e-16 ***
D9 0.1349079 0.0080832 16.6900 < 2.2e-16 ***
D10 0.1228008 0.0077409 15.8638 < 2.2e-16 ***
D11 0.0700491 0.0070773 9.8978 < 2.2e-16 ***
D12 0.0612848 0.0057225 10.7095 < 2.2e-16 ***

sigma^2 estimated as 0.0002957: log likelihood = 380.55, aic = -731.1

A transformação logarítmica, entretanto, não foi eficiente para corrigir o problema da falta de

normalidade, pois o teste de Shapiro-Wilks continua rejeitando a hipótese de distribuição Gaussiana

(valor-p= 0,0116). Como temos uma série com tamanho suficientemente grande (n=144), podemos

prosseguir mesmo sem esta hipótese estar satisfeita, pois os testes para os coeficientes não serão

fortemente afetados neste caso.

Obs.: Caso as suposições sejam corrigidas com o uso da transformação, temos que tomar cuidado ao

fazer previsões para valores futuros, pois neste caso estaremos calculando previsões para os dados

52
transformados, e é necessário fazer a transformação inversa para retornar as previsões e intervalos para

a escala original.

Desta forma, considerando o modelo M_CEP.AR1 adequado, vamos utilizá-lo para fazer

previsões para os meses de jan/92 a dez/92.

Janeiro de 1992: A previsão do consumo de energia da série CEP para o mês de jan/92 é:

CEPJan/92 = 229,29 + 1,34 x 145 + 0,7487 x e Dez / 91 = 429,99

onde eDez / 91 é obtido do modelo M_CEP.

Intervalo de previsão de 95%:

429,99 ± 1,9784 x 6,6207 x 1 = [416,89 ; 443,08]

onde t0144 14 


.975
= 1,9787 é o percentil 0,975 da distribuição t-Student com 144-14 graus de liberdade,

s=6,6207 é o erro padrão dos resíduos e o desvio-padrão da distribuição de  t 1 |  t ,  t 1 , é igual a 1,

já que temos um AR(1) e h=1.

Fevereiro de 1992: A previsão do consumo de energia da série CEP para o mês de fev/92 é dada por:

CEPFev/92 = 229,29 + 1,34 x 146 + 0,7487 x e Jan / 92 + 25,80

= 455,67

onde eJan / 92 é calculado como a previsão um passo à frente para a série de resíduos, feita em

Dez/91, ˆDez / 91 1 .

Desta forma, obtemos as previsões para os meses subsequentes, apresentadas na Tabela 5.2 e

Figura 5.5. Observamos que o ajuste neste caso está bem melhor do que no modelo M_CEP, pois a

53
linha azul (ajuste) está mais próxima da linha preta (série). Os valores previstos e intervalos também

estão levemente melhores, pois o EQMP diminuiu de 366,26 para 346,72.

Tabela 5.2: Previsões 12 passos à frente para o consumo de energia elétrica da CEP, Jan/92 a Dez/92

Mês Real Previsto Intervalo Previsão Real-Previsto


Jan/1992 425 429,99 [416,89 ; 443,09] -4,99
Fev/1992 465 455,67 [439,30 ; 472,03] 9,33
Mar/1992 474 464,67 [446,73 ; 482,60] 9,33
Abr/1992 485 476,73 [457,97 ; 495,48] 8,27
Mai/1992 506 485,94 [466,74 ; 505,15] 20,05
Jun/1992 499 483,85 [464,40 ;503,30] 15,15
Jul/1992 481 478,48 [458,90 ; 498,07] 2,51
Ago/1992 492 482,58 [462,92 ; 502,24] 9,42
Set/1992 514 482,88 [463,17 ; 502,58] 31,12
Out/1992 515 479,62 [459,89 ; 499,34] 35,38
Nov/1992 483 460,97 [441,23 ; 480,71] 22,03
Dez/1992 481 459,54 [439,79 ; 479,29] 21,46

EQMP = 346,72.

54
500
450
400
CEP

350
300
250

0 50 100 150

tempo

Figura 5.5: Ajuste, previsão e intervalos de previsão para o modelo M_CEP.AR1. A linha preta
representa a série CEP, a linha azul mostra o modelo ajustado, os pontos em azul são os valores
previstos e as linhas em vermelho são os intervalos de previsão.

6. Análise de Intervenção

Séries temporais sempre estão sujeitas a fatores externos, tais como: mudanças políticas,

desastres meteorológicos, greve, liquidação, promoções, etc. Tais fatores estão sujeitos a intervenções e

afetam a variável a ser prevista. A Análise de Intervenção é uma técnica que avalia o efeito destes

eventos externos, tendo como principal objetivo medir o efeito causado pelos mesmos (ver Wei, 1990).

Há dois tipos comuns de variável intervenção, que são representadas por variáveis dummy:

1, t  t0
Função Pulso (ou Impulso): I t  
0, t  t0

0, t  t0
Função Passo: Pt  
1, t  t0

onde t0 denota o período (ou tempo) em que ocorreu a intervenção.

55
As intervenções nada mais são do que uma quebra estrutural na série, ou seja, uma grande

mudança abrupta da mesma. Neste sentido, outliers ou pontos extremos também podem ser

considerados como uma intervenção na série. A Figura 6.1 mostra exemplos das funções Pulso e Passo,

com uma intervenção no tempo t0 =60.


1.0

1.0
0.8

0.8
0.6

0.6
P
D

0.4

0.4
0.2

0.2
0.0

0 20 40 60 80 100
0.0 0 20 40 60 80 100

Pulso Passo

Figura 6.1: Exemplos de funções Pulso e Passo

6.1. Modelo de regressão para séries com intervenção e erros autorregressivos

O modelo geral para séries polinomiais de ordem p, covariáveis x1, ..., xr, variação sazonal de

período S e que contenham variáveis de intervenção do tipo Passo e Pulso é dado por:

yt   0  1t  ...   k t k 
 k 1 x1  ...   k  r xr 
(6.1)
 k  r 1D1, t  ...   k  r  ( S 1) D( S 1), t 
 k  r  ( S 1) 1Pt   k  r  ( S 1)  2 I t   t

 
onde t = 1, ..., n e  t ~ N 0,  2 , independentes.

56
Obs.: É possível incluir mais de uma variável Passo, assim como mais de uma variável Pulso, em um

mesmo modelo. O número de variáveis a serem incluídas depende do número de intervenções que

ocorrem na série temporal.

O modelo (6.1) pode ser estimado utilizando mínimos quadrados ordinários. Novamente, se a

suposição de independência sobre os erros do modelo (6.1) não for satisfeita, devemos ajustar o modelo

com erros autorregressivos. Neste caso, o modelo a ser estimado é o mesmo dado na Equação (6.1).

Porém, o termo de erro, t, é descrito por um processo autoregressivo de ordem p,

 t  1 t 1  1 t  2  ...  1 t  p  ut . (5.4)

Os parâmetros deste modelo também podem ser estimados por mínimos quadrados ordinários

ou através do método de máxima verossimilhança. Além disto, devemos verificar as suposições de

independência, normalidade e variância constante sobre os novos resíduos do modelo, ou seja, para a

série u t estimada.

6.2. Previsão

Em um modelo de regressão polinomial, com r variáveis explicativas, variação sazonal de


período S e que contenha uma variável de intervenção do tipo Passo e uma do tipo Pulso, a previsão
YˆT h  é dada por:

YˆT (h)  ˆ0  ˆ1 (T  h)  ...  ˆk (T  h) k 


ˆk 1 x1, (T  h)  ...  ˆk  r xr , , (T  h) 
ˆk  r 1D1,T  h  ...  ˆk  r  ( S 1) D( S 1),T  h 
ˆk  r  ( S 1) 1PT  h   k  r  ( S 1)  2 I T  h  ˆT (h)

57
onde ˆT h  é calculado através do valor esperado das observações futuras condicionado aos valores

passados e ao valor presente da variável, como visto na Seção 4.2,

ˆT h  ET  T  h  .

Obs.: Como a variável Pulso só assume o valor 1 no ponto da intervenção, seu valor será sempre igual
a zero para os tempos futuros, T+h. Desta forma, ela não será incluída na previsão.

Um intervalo de previsão de 100(1-)% para as observações futuras é dado por:

Yˆ (h)  t


T
T  nP
 / 2  s  T  h 
onde tT /2nP  é o percentil /2 da distribuição t-Student com T-nP graus de liberdade, nP é o número de

parâmetros do modelo, s é o desvio padrão dos resíduos e  T  h é o desvio-padrão da distribuição de

 T  h |  T ,  T 1,.

6.3. Exemplo – Série Acidentes

A Figura 1.4 mostrou a série de número total de motoristas mortos ou feridos na Grã Bretanha

devido a acidentes de trânsito entre Jan/1969 a Dez/1984 (n=180), apresentada novamente na Figura

6.2. Este é um conjunto de dados muito utilizado na literatura para ilustrar a importância de utilizar

variáveis de intervenção para modelar a quebra estrutural na série devido à introdução do uso

compulsório de cinto de segurança em 31 Jan/1983. Além da quebra devido ao uso do cinto a partir de

1983, podemos observar também uma mudança de comportamento da série a partir de Jan/74, onde

58
ocorre uma diminuição e estabilização do número de acidentes. A série também apresenta uma clara

sazonalidade, provavelmente devido a acidentes ocorridos nos períodos das férias.

2500
2000
No de Acidentes

1500
1000

1970 1975 1980 1985

Figura 6.2: Série do número de acidentes de trânsito na Grã-Bretanha, de Jan/1969 a Dez/1984

Como esta é uma série de contagens com valores relativamente altos (a média do número de

acidentes no período é 1670), podemos aplicar a transformação logarítmica e trabalhar com o modelo

com erros Gaussianos. Vamos retirar as 12 últimas observações (jan/84 a dez/84) para fazer previsões.

Vamos inicialmente ajustar o modelo polinomial de ordem 1 com variação sazonal de período

12 à série log(yt):

log( yt )   0  1t   2 D1,t ...  12D11,t   t , t  1,...,180 .

O modelo ajustado é dado por:

Saída do R:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 7.5628401 0.0286726 263.766 < 2e-16 ***
Ano -0.0014145 0.0001443 -9.802 < 2e-16 ***
factor(sazon)2 -0.1243220 0.0366519 -3.392 0.000866 ***
factor(sazon)3 -0.0883965 0.0366527 -2.412 0.016961 *
factor(sazon)4 -0.1602312 0.0366541 -4.371 2.16e-05 ***

59
factor(sazon)5 -0.0726811 0.0366561 -1.983 0.049032 *
factor(sazon)6 -0.1057157 0.0366587 -2.884 0.004447 **
factor(sazon)7 -0.0546960 0.0366618 -1.492 0.137610
factor(sazon)8 -0.0456518 0.0366655 -1.245 0.214843
factor(sazon)9 -0.0125895 0.0366698 -0.343 0.731789
factor(sazon)10 0.0684241 0.0366746 1.866 0.063836 .
factor(sazon)11 0.1747334 0.0366800 4.764 4.11e-06 ***
factor(sazon)12 0.2329922 0.0366859 6.351 1.95e-09 ***

Residual standard error: 0.1004 on 167 degrees of freedom


Multiple R-squared: 0.6538, Adjusted R-squared: 0.6289
F-statistic: 26.28 on 12 and 167 DF, p-value: < 2.2e-16

AIC(M1): -302.2605

Alguns coeficientes dos componentes sazonais não são significativos (Fatores 7, 8, 9 e 10).

Porém, como a maioria dos fatores sazonais foram significativos, para manter a sazonalidade devemos

utilizar todos os coeficientes, mesmo os não significativos. O valor de R2 foi igual a 62,89% e o AIC =

-302,2605.

Vamos agora ajustar o modelo de regresso com intervenção. Para descobrir os pontos onde

ocorre mudança de comportamento da série, vamos utilizar o pacote “changepoint” do R para detectar

pontos de mudança. O gráfico da Figura 6.3 aponta que houve 3 pontos de mudança na série, e a saída

do programa indica que as mudanças ocorreram nos tempos 10, 72 e 169. O tempo 169 corresponde à

introdução do cinto de segurança, e o tempo 72 indica a mudança que já havia sido observada

anteriormente. Além destes dois pontos, o programa mostra também uma mudança em t=10.

60
7.8
7.6
data.set.ts(x)

7.4
7.2
7.0

1970 1975 1980 1985

Time

Figura 6.3: Pontos de mudança na série do número de acidentes de trânsito na Grã-Bretanha

Desta forma, vamos incluir no modelo 3 variáveis de intervenção do tipo passo, nos meses de

Out/69 (t0=10), Dez/74 (t0=72) e Fev/83 (t0=169). Para isto, temos que criar três variáveis dummy:

0, t  10 0, t  72 0, t  169


P10   , P72   e P169   .
1, t  10 1, t  72 1, t  169

O modelo ajustado (M_AcP) é apresentado abaixo. Como a variável tempo não é mais

significativa quando incluímos as intervenções, ela foi retirada do modelo.

Saída do R:

Estimate Std. Error t value Pr(>|t|)


(Intercept) 7.42739 0.03054 243.205 < 2e-16 ***
factor(sazon)2 -0.12574 0.02702 -4.654 6.65e-06 ***
factor(sazon)3 -0.09123 0.02702 -3.377 0.000915 ***
factor(sazon)4 -0.16447 0.02702 -6.088 7.76e-09 ***
factor(sazon)5 -0.07834 0.02702 -2.900 0.004245 **
factor(sazon)6 -0.11279 0.02702 -4.175 4.82e-05 ***
factor(sazon)7 -0.06318 0.02702 -2.339 0.020553 *
factor(sazon)8 -0.05555 0.02702 -2.056 0.041336 *
factor(sazon)9 -0.02391 0.02702 -0.885 0.377542
factor(sazon)10 0.04717 0.02708 1.742 0.083309 .
factor(sazon)11 0.15207 0.02708 5.617 8.11e-08 ***
factor(sazon)12 0.21878 0.02707 8.081 1.30e-13 ***
P10 0.12779 0.02663 4.799 3.55e-06 ***
P72 -0.14795 0.01204 -12.289 < 2e-16 ***
P169 -0.22925 0.02264 -10.125 < 2e-16 ***

Residual standard error: 0.07399 on 165 degrees of freedom


Multiple R-squared: 0.8141, Adjusted R-squared: 0.7983
F-statistic: 51.62 on 14 and 165 DF, p-value: < 2.2e-16

61
AIC(M1): -410.2257
Observamos que as três variáveis Passo são significativas, assim como a maioria dos fatores

sazonais. Além disto, o valor de R2 aumentou para 79,83% e o AIC diminuiu para -410,2257.

Histogram of M_AcPQ$res

50
0.1

20 30 40
M_AcPQ$res

Frequency
0.0
-0.1

10
0
0 50 100 150 -0.2 -0.1 0.0 0.1 0.2

Index M_AcPQ$res

Series M_AcPQ$res

0.2 0.4 0.6 0.8 1.0


3
2
rnorm(n - H)

ACF
0
-2 -1

-0.2

-0.1 0.0 0.1 0 5 10 15 20

M_AcPQ$res Lag

Figura 6.4: Gráficos de resíduos para o modelo M_AcP ajustado á série Acidentes

Analisando a Figura 6.4 observamos que gráfico de resíduos vs. tempo mostra um

comportamento aleatório em torno de zero. Além disso, o histograma e o qqplot parecem indicar

normalidade, e o teste de Shapiro-Wilks (valor-p=0,8641) não rejeita a suposição de normalidade.

Porém, o gráfico da FAC mostra dois picos significativos nos lags 1 e 2 e a estatística de Durbin-

Watson (d= 1,5150) é menor que d U , = 1,65, logo existe autocorrelação positiva de ordem 1 nos dados.

Previsões para o período Jan/84 a Dez/84 se encontram na Tabela 6.1. A Figura 6.5 mostra o

ajuste, assim como previsões para os seis últimos meses, com o intervalo de previsão. Podemos ver que

62
o ajuste para os 4 últimos meses não é muito boa, e tanto as previsões como os intervalos se encontram

bem abaixo dos valores reais.

Tabela 6.1: Previsões 12 passos à frente para a série de acidentes na Grã Bretanha, Jan/84 a Dez/84

Mês Real Previsto Intervalo Previsão Real-Previsto


Jan/1984 1357 1310,27 [1132,18 ; 1516,37] 46,73
Fev/1984 1165 1155,45 [998,41 ; 1337,20] 9,54
Mar/1984 1282 1196,03 [1033,47 ; 1384,16] 85,97
Abr/1984 1110 1111,55 [960,47 ; 1286,39] -1,55
Mai/1984 1297 1211,54 [1046,87 ; 1402,11] 85,46
Jun/1984 1185 1170,51 [1011,42 ; 1354,63] 14,49
Jul/1984 1222 1230,04 [1062,86 ; 1423,52] -8,04
Ago/1984 1284 1239,46 [1071,00 ; 1434,43] 44,54
Set/1984 1444 1279,32 [1105,43 ; 1480,55] 164,68
Out/1984 1575 1373,56 [1186,87 ; 1589,62] 201,44
Nov/1984 1737 1525,47 [1318,13 ; 1765,42] 211,53
Dez/1984 1763 1630,70 [1409,06 ; 1887,20] 132,30

EQMP = 12.431,59.
2500
2000
Acidentes

1500
1000

0 50 100 150

tempo

63
Figura 6.5: Ajuste, previsão e intervalos de previsão para o modelo M_AcP. A linha preta representa a
série Acidentes na Grã Bretanha, a linha azul mostra o modelo ajustado, os pontos em azul são os
valores previstos e as linhas em vermelho são os intervalos de previsão.
Vamos agora ajustar o modelo autorregressivo aos dados. Novamente, a variável tempo não foi

significativa, e o modelo com erros AR(2) apresentou o melhor ajuste. Observamos que todos os

2
coeficientes do modelo são significativos (exceto D9), o valor de Radj aumentou de 79,83% para

84,27% e o AIC diminuiu de -410,23 para -422,36.

Saída do R:

Estimate Std. Error z value Pr(>|z|)


ar1 0.202194 0.073910 2.7357 0.006225 **
ar2 0.173280 0.073968 2.3426 0.019148 *
intercept 7.441120 0.036775 202.3441 < 2.2e-16 ***
D2 -0.125533 0.022497 -5.5799 2.406e-08 ***
D3 -0.090338 0.022805 -3.9613 7.454e-05 ***
D4 -0.163411 0.024697 -6.6165 3.678e-11 ***
D5 -0.077120 0.025088 -3.0740 0.002112 **
D6 -0.111508 0.025438 -4.3836 1.168e-05 ***
D7 -0.061870 0.025495 -2.4267 0.015236 *
D8 -0.054229 0.025452 -2.1306 0.033121 *
D9 -0.022595 0.025129 -0.8991 0.368582
D10 0.049644 0.024863 1.9967 0.045861 *
D11 0.154443 0.023069 6.6948 2.159e-11 ***
D12 0.221041 0.022735 9.7227 < 2.2e-16 ***
P10 0.110240 0.035662 3.0912 0.001993 **
P72 -0.145774 0.017255 -8.4482 < 2.2e-16 ***
P169 -0.229346 0.030496 -7.5206 5.454e-14 ***

sigma^2 estimated as 0.004585: log likelihood = 229.18, aic = -422.36

R2 = 0.8462 R2adj = 0.8427

Analisando os gráficos de resíduos (Figura 6.6) não observamos nenhum padrão específico no

gráfico de resíduos vs. tempo, o histograma, o qqplot e o teste de Shapiro-Wilks não rejeitam a

suposição de normalidade (0,8906) e o gráfico da FAC não mostra nenhum pequeno pico significativo.

Além disto, a estatística de Durbin-Watson d=2,0052 e 4-d=1,9948 são maiores que d U , = 1,69. Logo,

não existe mais o problema de autocorrelação de ordem 1 nos dados.

64
Previsões para o período Jan/84 a Dez/84 se encontram na Tabela 6.2. A Figura 6.7 mostra o

ajuste, assim como previsões para os seis últimos meses, com o intervalo de previsão.

Histogram of M_AcP.AR2$res

10 20 30 40 50
0.10
M_AcP.AR2$res

Frequency
0.00
-0.20 -0.10

0
0 50 100 150 -0.2 -0.1 0.0 0.1 0.2

Time M_AcP.AR2$res

Series M_AcP.AR2$res

0.2 0.4 0.6 0.8 1.0


3
2
rnorm(n - H)

ACF
0
-2 -1

-0.20 -0.10 0.00 0.10 -0.2 0 5 10 15 20

M_AcP.AR2$res Lag

Figura 6.6: Gráficos de resíduos para o modelo M_AcP.AR2 ajustado à série Acidentes

Tabela 6.2: Previsões 12 passos à frente para a série de acidentes na Grã Bretanha, Jan/84 a Dez/84

Mês Real Previsto Intervalo Previsão Real-Previsto


Jan/1984 1357 1281,76 [1121,34 ; 1465,12] 75,24
Fev/1984 1165 1134,04 [989,43 ; 1299,78] 30,96
Mar/1984 1282 1186,69 [1032,29 ; 1364,18] 95,31
Abr/1984 1110 1105,93 [961,66 ; 1271,84] 4,07
Mai/1984 1297 1208,37 [1050,55 ; 1389,89] 88,63
Jun/1984 1185 1168,58 [1015,92 ; 1344,18] 16,41
Jul/1984 1222 1228,77 [1068,23 ; 1413,43] -6,77
Ago/1484 1284 1238,53 [1076,72 ; 1424,67] 45,46
Set/1984 1444 1278,54 [1111,50 ; 1470,69] 165,46
Out/1984 1575 1374,43 [1194,86 ; 1580,99] 200,57
Nov/1984 1737 1526,35 [1326,93 ; 1755,74] 210,65

65
Dez/1984 1763 1631,50 [1418,34 ; 1876,69] 131,50

EQMP = 12.935,73.
2500
2000
No de Acidentes

1500
1000

0 50 100 150

tempo

Figura 6.7: Ajuste, previsão e intervalos de previsão para o modelo M_AcPP.AR2. A linha preta
representa a série Acidentes na Grã Bretanha, a linha azul mostra o modelo ajustado, os pontos em azul
são os valores previstos e as linhas em vermelho são os intervalos de previsão.

Apesar da previsão estar um pouco pior em relação ao modelo sem erros autorregressivos (o

EQMP teve um aumento de 4%), podemos ver que o ajuste é melhor neste caso (os valores de AIC e R2

foram melhores e a linha azul está mais próxima da preta no modelo com erros AR(2)). Isto mostra que

nem sempre o modelo que apresenta o melhor ajuste é também o que fornece as melhores previsões,

fato muito comum na prática.

66
PARTE 2:

MODELOS REGRESSÃO PARA SÉRIES TEMPORAIS DE CONTAGEM

Se estamos interessados em modelar séries temporais de contagem, como a série do Exemplo

1.5 (número de casos de poliomielite nos Estados Unidos), não podemos utilizar os modelos descritos

na Parte 1 desta apostila, já que neste caso temos contagens muito baixas e as observações não têm

distribuição normal.

Para resolver este problema, uma possibilidade é a utilização de modelos lineares generalizados

(MLG), pois esta classe de modelos permite o uso de várias distribuições de probabilidade que

pertençam à família exponencial. Por exemplo, séries de contagem podem ter distribuição binomial,

Poisson ou binomial negativa. Entretanto estes modelos, apesar de não necessitarem da suposição de

normalidade, são baseados na suposição de independência das observações, o que geralmente não

ocorre em séries temporais.

Existe uma outra classe de modelos, conhecidos como autorregressivos médias móveis

(ARMA), propostos por Box e Jenkins (1976), que são muito utilizados para modelar séries temporais,

pois eles conseguem captar a autocorrelação existente entre as observações. Porém, estes modelos

necessitam da suposição de normalidade.

Assim, surgiram os modelos lineares generalizados com erros autorregressivos e médias móveis

(GLARMA), propostos por Davis et al. (2003). Estes modelos utilizam o MLG conjuntamente com o

ARMA para modelar uma gama muito maior de séries temporais, que tenham qualquer distribuição

pertencente à família exponencial.

Na Parte 2 desta apostila vamos descrever inicialmente o MLG, depois os modelos ARMA e,

finalmente, os modelos GLARMA.

67
7. Modelos Lineares Generalizados

Os modelos lineares generalizados (MLG) são uma extensão dos modelos lineares normais e

foram propostos por Nelder e Wedderburn (1972). A ideia básica consiste em abrir o leque de opções

para a distribuição da variável resposta, permitindo que a mesma pertença à família exponencial de

distribuições.

Seja y1, . . . , yn uma amostra aleatória de n observações independentes de uma variável resposta

Y. No modelo linear geral, supomos que Yt tem distribuição normal com média µt e variância σ2,

 
Yt ~ N t , 2 . Além disto, assumimos que o valor esperado, µt, é uma função linear de r variáveis

preditoras x ~ x1,..., xr  , i.e.,

E (Yt )  t  x't  ,

onde β é um vetor de parâmetros desconhecidos.

Mas vamos supor que a distribuição de Y não seja Normal. Precisamos determinar a distribuição

correta da variável resposta para podermos estimar os parâmetros, fazer testes de hipóteses e tirar

conclusões sobre o modelo. Uma classe de distribuições que garante essas propriedades é conhecida

como família exponencial.

7.1. Família exponencial a um parâmetro

A família exponencial (FE) é uma família de distribuições cuja função densidade pode ser

escrita na seguinte forma:

f ( yt ,t )  exp a( yt )b(t )  c(t )  d ( yt ), t  1,..., n (7.1)

onde t é o parâmetro de interesse e a(.), b(.), c(.) e d(.) são funções conhecidas.

Obs.: Se a(y) = y então b(.) é chamado parâmetro canônico da distribuição.

68
Se Yt tem distribuição na família exponencial, então sua média e variância são dadas por

c' (t )
E (Yt )  t  
b' (t )

b' ' (t )c' (t )  c' ' (t )b' (t )
Var (Yt )  .
b' (t )3

7.2. Componentes do Modelo

Uma vez definido como se estruturam as distribuições segundo a família exponencial, temos

três componentes que formam um MLG:

a) Componente Aleatória – composto de uma variável resposta Y com distribuição pertencente

à família exponencial;

b) Componente Sistemática – é a parte do modelo composta pelas variáveis explicativas

x  ( x1,..., xr ) e denotada por t  x t'  , onde ηt é conhecido como preditor linear.

c) Função de Ligação (g) – é uma função diferenciável e contínua. Através desta função, faz-se

a conexão entre a média das observações e a parte sistemática:

g t   t  xt' 

Alguns exemplos de funções de ligação são dados na Tabela 7.1.

Tabela 7.1: Alguns exemplos de funções de ligação

Distribuição Ligação

Normal Identidade

Poisson Log

Binomial Logit

69
7.3. Estimação

O vetor de parâmetros β = (β1, ..., βr) pode ser estimado através de várias metodologias, como

mínimos quadrados ponderados, máxima verossimilhança (MV) ou inferência Bayesiana. Para o

método MV, a função de log-verossimilhança é dada por:

n
( , y )   a( yt )b(t )  c(t )  d ( yt )  . (7.2)
t 1

Como as derivadas da função acima são difíceis de serem obtidas analiticamente, devemos usar

métodos numéricos para encontrar as estimativas dos parâmetros. Um dos procedimentos mais

utilizados é o processo de otimização iterativo conhecido como algoritmo de Newton-Raphson.

Resumidamente, pode-se dizer que o algoritmo inicia o processo especificando uma estimativa inicial

para β e vai sucessivamente alterando-a até que a diferença entre β na iteração (m + 1) e a estimativa

anterior seja menor que um valor bem pequeno pré-definido. Desta forma, a convergência é obtida e

temos o vetor de coeficientes estimados.

Através das propriedades do estimador de máxima verossimilhança, para n suficientemente

grande temos,


ˆ ~ N r  , I 1 ,
onde I é a matriz de informação de Fisher.

70
7.4. Adequação de modelos

Após a estimação dos coeficientes do modelo, alguns procedimentos devem ser realizados a fim

de medir a qualidade do ajuste e adequabilidade do modelo, ou seja, deve ser feita uma validação dos

resultados. Num primeiro momento essas análises servem também para comparar diferentes modelos.

Assim como no modelo linear normal, para se decidir entre um ou outro modelo, pode-se calcular

medidas associadas ao ajuste do modelo, como o coeficiente de determinação (R²) e o critério de

informação AIC.

Além destas medidas, uma outra maneira de verificar a adequação de um modelo é compará-lo

com um modelo mais geral, com o número máximo de parâmetros que podem ser estimados. Este

último é chamado de modelo saturado. A estatística Desvio (do inglês Deviance) calcula a bondade de

ajuste do modelo através das diferenças entre a função de log-verossimilhança do modelo saturado com

o modelo sob investigação, i.e., (ˆsat , y)  (ˆ, y) . Aqui ̂sat denota o EMV do vetor de parâmetros

do modelo saturado e ˆ é o EMV dos parâmetros do modelo sob investigação.

Assim, a estatística Desvio é definida como:

 
D  2 (ˆsat , y)  (ˆ, y) . (7.3)

Um valor pequeno desta estatística implica um bom ajuste. A distribuição amostral de D é

aproximadamente  2 (n  r , ) , onde  é o parâmetro de não-centralidade.

71
7.5. Análise de resíduos

No caso do MLG, existem dois tipos de resíduos que são mais utilizados na prática, os resíduos

de Pearson e Desvio.

a) Resíduo de Pearson

O resíduo de Pearson é simplesmente a diferença entre os valores observados e ajustados,

dividido por uma estimativa do desvio padrão do valor ajustado. O resíduo resultante tem a forma,

yt  ˆ t
rtP  .
Var ˆ t 

b) Resíduo Desvio

Se a estatística Desvio dada na Equação (7.3) é usada como uma medida de discrepância, então

cada unidade contribui com uma quantidade para o Desvio, logo D   d t . Desta forma, o resíduo
t

Desvio é definido como:

rtD  sinal yt  t  dt .

Ou seja, se tomarmos o quadrado de rtD e somarmos sobre todas as observações, obtemos a

estatística Desvio. Observações com um resíduo Desvio maior que 2 podem indicar falta de ajuste.

Pode-se construir gráficos dos resíduos versus tempo e observar se eles se encontram

aleatoriamente distribuídos em torno de zero, com variância constante. Além disto, deve-se também

observar se há indícios de autocorrelação nos resíduos, construindo o gráfico da FAC.

72
7.6. Exemplo – Série Polio

O Exemplo 1.5 mostrou a série Polio, referente ao número de casos de poliomielite nos Estados

Unidos, de janeiro de 1970 a dezembro de 1983. A Figura 7.1 apresenta o histograma dos dados.

Podemos verificar que não é possível utilizar a distribuição Gaussiana neste caso.

Histogram of polio
140
120
100
80
Frequency

60
40
20
0

0 2 4 6 8 10 12 14

polio

Figura 7.1. Histograma da série Polio

Muitos autores já analisaram esta série na literatura para verificar se a incidência de poliomielite

vem decrescendo desde 1970. Uma possibilidade para a distribuição da variável resposta, como se trata

de contagens, é a distribuição de Poisson. Como variáveis explicativas, a maioria dos estudos utiliza

um componente de tendência e componentes sazonais usando pares de seno e cosseno, com ciclos

anuais e semianuais. Retirando as últimas 12 observações (jan/83 a dez/83) para fazer previsões, o

modelo é dado por:

yt ~ Poisson ( t ), t  1,...,156

 2 t   2 t   2 t   2 t 
t  log t    0  1t   2 cos    3 sen    4 cos    5 sen 
 12   12   6   6 

73
Saída do R:

Estimate Std. Error z value Pr(>|z|)

(Intercept) 0.622557 0.129897 4.793 1.65e-06 ***

Ano -0.005820 0.001571 -3.704 0.000212 ***

Cos12 0.095782 0.093143 1.028 0.303790

Sen12 -0.517376 0.116958 -4.424 9.71e-06 ***

Cos6 0.405836 0.103904 3.906 9.39e-05 ***

Sen6 -0.088790 0.101068 -0.879 0.379661

Null deviance: 318.76 on 155 degrees of freedom

Residual deviance: 271.09 on 150 degrees of freedom

AIC: 522.87

O coeficiente de 1 (Ano) foi negativo e significativo, o que significa que a incidência de pólio

está diminuindo com o tempo. Além disto, vemos que os componentes sazonais de sen12 e cos6 são

significativos, portanto devemos manter também os componentes cos12 e sen6.

Assim, o modelo ajustado é dado por:

  2 t   2 t   2 t   2 t  
ˆ t  exp  0,623  0,006 t  0,096 cos   0,517 sen   0,406 cos   0,089sen  
  12   12   6   6 

A Figura 7.2 apresenta os gráficos de resíduos versus tempo e a FAC, tanto para o resíduo de

Pearson, quanto o Desvio. O gráfico de resíduos no tempo parece apresentar um comportamento

aleatório em torno do valor zero, apesar de termos algumas observações com valores muito altos

(acima de 3 desvios-padrão). A FAC também mostra a falta de independência dos resíduos, pois vemos

alguns picos significativos nos lags iniciais.

74
Resíduos de Pearson Series rp

0.2 0.4 0.6 0.8 1.0


6
4

ACF
rp

2
0

-0.2
0 50 100 150 0 5 10 15 20

Index Lag

Resíduos Desvio Series rd


4 5

0.2 0.4 0.6 0.8 1.0


-2 -1 0 1 2 3

ACF
rd

-0.2

0 50 100 150 0 5 10 15 20

Index Lag

Figura 7.2. Análise de resíduos para o modelo M1.MLG

Previsões: Vamos fazer previsões 12 passos à frente utilizando este modelo.

Janeiro de 1983: A previsão da incidência de poliomielite para o mês de jan/83 é:

  314   314   314   314 


exp  0,623  0,006 x157  0,096 cos   0,517 sen   0,406 cos   0,089sen    0,71
  12   12   6   6 

Desta forma, podemos calcular as previsões para o período Jan/83 a Dez/83, que são

apresentadas na Tabela 7.2. A Figura 7.3 mostra o ajuste, assim como previsões para os doze últimos

meses. Podemos ver que tanto o ajuste quanto as previsões parecem satisfatórios, somente

apresentando valores mais afastados dos reais nos períodos de picos na incidência de pólio.

75
Tabela 7.2: Previsões 12 passos à frente para a série de Polio, Jan/83 a Dez/83

Mês Real Previsto Real-Previsto


Jan/1983 0 0,71 -0,71
Fev/1983 1 0,38 0,62
Mar/1983 0 0,29 -0,29
Abr/1983 0 0,39 -0,39
Mai/1983 0 0,69 -0,69
Jun/1983 1 0,99 0,01
Jul/1983 2 0,97 1,02
Ago/1983 1 0,81 0,19
Set/1983 0 0,80 -0,80
Out/1983 1 1,03 -0,03
Nov/1983 3 1,31 1,69
Dez/1983 6 1,16 4,84

EQMP = 2,4687.
10
8
6
Polio

4
2
0
-2

0 50 100 150

tempo

Figura 7.3: Ajuste e previsão para o modelo M1.MLG. A linha preta representa a série Polio, a linha
azul mostra o modelo ajustado e os pontos em azul são os valores previstos.

76
8. Modelos ARMA

Nesta seção vamos apresentar, de forma resumida, a modelagem ARMA proposta por Box e

Jenkins (1976). Para deixar a notação bem geral, vamos chamar a série temporal em estudo de zt. Esta

série pode ser tanto nossa série resposta, yt, quanto a variável explicativa, xt, ou também uma série de

resíduos  t .

Antes de mostrar o modelo, vamos definir o operador de retardo ou de translação para o

passado. Este operador é denotado por B e representa uma defasagem de k períodos de tempo para trás.

Ou seja, se aplicarmos o operador na série z, no tempo t, obtemos o valor da série z no tempo t-k:

B k zt  zt k .

A modelagem proposta por Box & Jenkins é da forma

 p B zt   q B ut (8.1)

onde  p ( B)  1  1B  2 B 2     p B p e  q ( B)  1  1B   2 B 2     q B q são polinômios de graus

p e q, respectivamente e u t é um ruído branco, geralmente Gaussiano.

De acordo com Box & Jenkins, o modelo (8.1) é denominado ARMA(p,q). De (8.1) pode-se
escrever:

1   B  ...  
1 p  
B p zt  1  1 B  ...   q B q ut 
ou

zt  1 zt 1  ...   p zt  p  ut  1ut 1  ...   q ut q (8.2)

Os parâmetros do modelo ARMA(p,q), ou seja, 1 , 2 ,...,  p , 1 ,  2 ,...,  q  são geralmente

estimados usando o método de máxima verossimilhança.

77
8.1. Tipos de modelos

8.1.1. Modelos não-sazonais

a) Modelos Auto-Regressivos (AR) - Notação: AR(p)

O modelo que tem  q B   1 é chamado autorregressivo. O nome autorregressivo se

deve ao fato de que z t no instante t é função dos z's nos instantes anteriores a t. Este foi o

modelo que usamos para os resíduos do modelo de regressão, na Seção 4.

Exemplos:

AR(1): zt  1 zt 1  ut

...

AR(p): zt  1 zt 1  2 zt 2  ...   p zt  p  ut

b) Modelos Médias Móveis (MA) - Notação: MA(q)

O modelo que tem  p B   1 é chamado Modelo Médias Móveis. O nome Médias

Móveis vem do fato que z t é uma função soma algébrica ponderada dos ut que se movem no

tempo.

Exemplos:

MA(1): zt  ut  1ut 1

...

MA(q): zt  ut  1ut 1   2ut 2  ...   q ut q

78
c) Modelos Auto-Regressivos - Médias Móveis (ARMA) - Notação: ARMA(p,q)

É o modelo que tem tanto uma parte AR    1 como uma parte MA    1 . Por exemplo,

ARMA(1,1): zt  1 zt 1  ut  1ut 1

ARMA(1,2): zt  1 zt 1  ut  1ut 1   2ut 2

ARMA(2,1): zt  1 zt 1  2 zt 2  ut  1ut 1

ARMA(2,2): zt  1 zt 1  2 zt 2  ut  1ut 1   2ut 2

...

ARMA(p,q): zt  1 zt 1  2 zt 2  ...   p zt  p  ut  1ut 1   2ut 2  ...   q ut q

8.1.2. Modelos sazonais

a) Modelos MA sazonais

Seja S o período sazonal e considere o seguinte modelo MA aplicado à série zt


zt  ut  1ut  S    Qut  QS  zt  1  1B S    Q B QS ut 

Este modelo tem ordem QS e é conhecido como modelo sazonal MA(Q)S.

b) Modelos AR sazonais


zt  1zt  S     P zt  PS  1  1B S     P B PS zt  ut 
Este modelo tem ordem PS e é conhecido como modelo sazonal AR(P)S.

79
c) Modelos ARMA sazonais

zt  1zt  S     P zt  PS  ut  1ut  S    Qut QS

Este modelo é o modelo sazonal ARMA(P,Q)S.

8.1.3. Modelos ARMA multiplicativos

Este modelo se aplica à maioria das séries sazonais reais, ou seja, realizações de processos que

apresentam correlação serial “dentro” e “entre” períodos sazonais.

Definição: ARIMA(p,q)(P,Q)S

   
 B S  B zt   B S  B ut

     
 1  1B S  ...   P B SP 1  1B  ...   p B p zt  1  1B S  ...  Q B SQ 1  1B  ...  q Bq ut

onde

  
 B S  1  1B S  2 B2S     P B PS ; 
 B   1   B   B
1 2
2

  p B p ;

  
 B S  1  1B S  2 B 2S    Q BQS ; 

 B   1  1B   2 B 2     q B q .

80
8.2. Identificação de Modelos

A identificação da ordem do modelo ARMA(p,q) se faz através das funções de autocorrelação

(FAC) e autocorrelação parcial (FACP). A FAC já foi vista na Seção 3.3.3.

A função de autocorrelação parcial (PACF) é calculada medindo a correlação entre duas

observações seriais, z t e zt k , eliminando a dependência dos termos intermediários, zt 1 , zt 2 ,..., zt ( k 1) .

Assim, a FACP é calculada de forma condicional,

 
kk  Corr zt , zt k zt 1 ,..., zt ( k 1) , para k  0,  1,  2,... .

A identificação de p e q é feita comparando-se o comportamento dos estimadores das

 
autocorrelações ( ̂ k ) e das autocorrelações parciais ˆkk com as correspondentes funções teóricas. Na

prática, a maioria das séries apresentam p  q  2 .

A Figura 8.1 mostra a FAC e FACP para o modelo AR(1). Se o valor de  for positivo, a FAC

apresenta um decrescimento exponencial e a FACP apresenta um pico positivo no lag 1. Já se o valor

de  for negativo, a FAC apresenta um decrescimento alternado e a FACP apresenta um pico negativo

no lag 1.

Os modelos AR(p) possuem sempre esta característica. Por exemplo, um AR(2) vai apresentar

um decrescimento exponencial ou alternado na FAC, e dois picos na FACP, o primeiro no lag 1 e o

segundo no lag 2. O AR(3) possui decrescimento exponencial ou alternado na FAC, e três picos na

FACP, o primeiro no lag 1, o segundo no lag 2 e o terceiro no lag 3. E assim por diante.

81
 positivo

1.0 Series z Series z

0.6 0.7
0.8

0.3 0.4 0.5


0.6

Partial ACF
ACF

0.4

0.1 0.2
0.2
0.0

0.0
0 10 30 50 70 0 10 30 50 70

Lag Lag

 negativo

Series z Series z
1.0

-0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0


0.5

Partial ACF
ACF

0.0
-0.5

0 5 10 15 20 5 10 15 20

Lag Lag

Figura 8.1: ACF e PACF para o modelo AR(1)

A Figura 8.2 mostra a FAC e FACP para o modelo MA(1). Se o valor de θ for positivo, a FAC

apresenta um pico positivo no lag 1 e a FACP apresenta um decrescimento alternado. Já se o valor de θ

for negativo, a FAC apresenta um pico negativo no lag 1 e a FACP apresenta um decrescimento

exponencial. Devemos tomar cuidado ao analisar a FAC gerada pelo R, pois ela sempre tem início no

lag 0, ao contrário da FACP, que tem início no lag 1. A FAC no lag 0 será sempre igual a 1, pois

ˆ 0  ˆ0 / ˆ0  1 .

82
θ positivo
Series z Series z

1.0

0.4
0.8

0.2
0.6

Partial ACF
ACF

0.4

0.0
0.2

-0.2
0.0

0 5 10 15 20 5 10 15 20

Lag Lag

θ negativo
Series z Series z
1.0

0.0
-0.1
0.5

-0.2
Partial ACF
ACF

-0.3
0.0

-0.4
-0.5

0 10 30 50 70 0 10 30 50 70

Lag Lag

Figura 8.2: ACF e PACF para o modelo MA(1)

Os modelos MA(q) possuem sempre esta característica. Por exemplo, o MA(2) possui dois

picos na FAC, o primeiro no lag 1 e o segundo no lag 2 e a FACP apresenta decrescimento exponencial

ou alternado. O AR(3) possui três picos na FACP, o primeiro no lag 1, o segundo no lag 2 e o terceiro

no lag 3 e a FACP apresenta decrescimento exponencial ou alternado. E assim por diante.

Na Tabela 8.1 são apresentados os comportamentos esperados da FAC e FACP de alguns

modelos da classe ARMA mais comuns. A identificação de modelos sazonais é idêntica à dos modelos

não-sazonais, porém os picos são observados nos lags múltiplos de S.

83
Tabela 8.1: Comportamento teórico da FAC e FACP para alguns modelos

Modelo ACF PACF


MA(1) 1 pico no lag 1 Decrescimento exponencial
ou alternado
AR(1) Decrescimento exponencial 1 pico no lag 1
ou alternado
MA(2) 1 pico no lag 1 e 1 pico no lag 2 Mistura de exponenciais ou
ondas senóides amortecidas
AR(2) Mistura de exponenciais ou 1 pico no lag 1 e 1 pico no lag 2
ondas senóides amortecidas
ARMA(1,1) Mistura de exponenciais ou Mistura de exponenciais ou
ondas senóides amortecidas ondas senóides amortecidas

8.2.3. Exemplos

a) Poliomielite: A Figura 8.3 mostra a FAC e FACP para a série Pólio. Podemos observar um

pico significativo no lag 1 da FACP e um decrescimento na FAC. Desta forma, podemos identificar um

modelo AR(1) para a série Polio.

Series Polio Series Polio


0.3
1.0
0.8

0.2
0.6

Partial ACF

0.1
ACF

0.4

0.0
0.2
0.0

-0.1

0.0 0.5 1.0 1.5 0.5 1.0 1.5

Lag Lag

Figura 8.3: FAC e FACP para a série Polio

84
b) Temperatura global: A Figura 8.4 mostra a FAC e FACP para os resíduos do modelo

M1.AR1. Vemos que nem a FAC, nem a FACP, apresentam picos significativos. Desta forma,

podemos considerar os resíduos como um ruído branco.

Series M 1.AR1$res Series M 1.AR1$res


1.0

0.2
0.8

0.1
0.6

Partial ACF
ACF

0.4

0.0
0.2

-0.1
0.0

-0.2
-0.2

0 5 10 15 5 10 15

Lag Lag

Figura 8.4: FAC e FACP para os resíduos do modelo M1 (Temperatura global)

c) Preço do grão e farelo de soja: A Figura 8.5 mostra a FAC e FACP para os resíduos do

modelo M2. Vemos que a FACP apresenta um pico significativo no lag 1 e um decrescimento na FAC.

Logo, os resíduos não são independentes e podemos identificar um modelo AR(1) para os mesmos.

Series M 2$res Series M 2$res


1.0

0.8
0.8

0.6
0.6

0.4
Partial ACF
ACF

0.4

0.2
0.2

0.0
0.0

-0.2
-0.2

0 5 10 15 20 5 10 15 20

Lag Lag

Figura 8.5: FAC e FACP para os resíduos do modelo M2 (Farelo e grão de soja)

85
8.3. Estimação de Parâmetros

Consideremos o modelo ARMA(p,q):

 p B zt   q B ut

onde  p (B) e  q (B) são polinômios de grau, p e q, respectivamente, e ut é um processo ruído branco,

com E ut   0 e Var ut    u2 . Temos que estimar os vetores:

 
  (1,..., p ,1 ,..., q ) e  u2  E ut2 .

Para o modelo ARMA(p,q) temos

ut  zt  1zt 1     p zt  p  1ut 1     q ut  q .

Sob a suposição de normalidade dos ut , temos que a função de log-verossimilhança é dada por:


 n u 
2

 , ut   2  n / 2  u  n exp   t 2  .
 t 12 u 
 

Logo, os estimadores de máxima verossimilhança para os parâmetros são obtidos maximizando-

se a verossimilhança acima, o que deve ser feito através de procedimentos numéricos.

Os estimadores de máxima verossimilhança têm distribuição aproximadamente normal, se n é

grande, com esperança igual ao verdadeiro parâmetro e matriz de covariância igual ao inverso da

matriz de informação de Fisher.

86
Sobrefixação: Estimamos um modelo com parâmetros extras e examinamos se estes são significativos

e se sua inclusão diminui significativamente a variância residual. Pelo princípio da parcimônia, se 2

modelos que se ajustam igualmente bem a uma série zt, devemos preferir aquele que tem menor número

de parâmetros.

8.4. Análise de resíduos

Se o modelo está correto, as nossas suposições iniciais feitas para os resíduos devem ser

 
satisfeitas, isto é, ut ~ N 0,  u2 e independentes. Assim, a análise de resíduos é feita da seguinte forma:

1) Faz-se um gráfico da série ût e observa-se se sua média é igual a zero (aproximadamente) e se sua

variância é constante ao longo do tempo.

2) Aplica-se um teste aos resíduos para verificar a suposição de normalidade.

3) Calcula-se a FAC e FACP para verificar a suposição de independência.

Se a análise acima indicar que o processo gerador de ût é um ruído branco, o modelo escolhido

para zt poderá ser utilizado para fins de previsão ou controle. Senão, podemos utilizar a análise dos

resíduos para identificar outro modelo para a série.

87
8.5. Exemplo – Série soja

Vamos analisar os resíduos do modelo M2 para o preço do farelo e grão de soja, do Exemplo

2.4.2. Na Seção 8.2.3 (c), vimos que a FAC e FACP mostram que os resíduos do modelo M2 não são

independentes e sugerem um modelo AR(1) para esta série de resíduos. Ou seja, vamos ajustar o

modelo,

 t  1 t 1  ut , onde ut ~ N (0,  u2 ) , independentes,

para os resíduos do modelo M2:

Farelo = 16,5999 x Grao.

O modelo AR(1) ajustado é dado por:

Estimate Std. Error z value Pr(>|z|)


ar1 0.903539 0.049313 18.323 < 2.2e-16 ***

sigma^2 estimated as 117.3: log likelihood = -396.18, aic = 796.36

Vamos sobrefixar este modelo, para verificar se é necessária a inclusão de mais algum termo:

AR(2):

Estimate Std. Error z value Pr(>|z|)


ar1 1.12366 0.09842 11.4169 < 2e-16 ***
ar2 -0.26210 0.10211 -2.5668 0.01026 *

sigma^2 estimated as 110.3: log likelihood = -392.99, aic = 791.97

ARMA(1,1):

Estimate Std. Error z value Pr(>|z|)


ar1 0.855608 0.063598 13.4535 < 2e-16 ***
ma1 0.219105 0.093278 2.3489 0.01883 *

88
sigma^2 estimated as 111.8: log likelihood = -393.71, aic = 793.41

AR(3):

Estimate Std. Error z value Pr(>|z|)


ar1 1.108739 0.100836 10.9954 <2e-16 ***
ar2 -0.192318 0.148737 -1.2930 0.1960
ar3 -0.067432 0.104736 -0.6438 0.5197

sigma^2 estimated as 109.8: log likelihood = -392.78, aic = 793.56

O modelo que apresentou o menor AIC, e todos os coeficientes significativos, foi o modelo

AR(2). Uma análise de resíduos para este modelo é apresentada na Figura 8.6. O teste de Shapiro-

Wilks não rejeita a hipótese de normalidade. Comparando esta figura com a Figura 8.5, vemos que os

picos significativos existentes no início da FAC e FACP desapareceram. Porém, percebemos um pico

significativo no lag 12 da FACP. Isto pode indicar a presença de um componente sazonal na série que

não foi modelado.

Histogram of M2.AR2$res
10 20 30

20
M2.AR2$res

Frequency

15
10
0
-20 -10

5
0

0 20 40 60 80 100 -20 -10 0 10 20 30

Time M2.AR2$res

Series M2.AR2$res Series M2.AR2$res


0.2 0.4 0.6 0.8 1.0

-0.2 -0.1 0.0 0.1 0.2


Partial ACF
ACF

-0.2

0 5 10 15 20 5 10 15 20

Lag Lag

Figura 8.6: FAC e FACP para os resíduos do modelo AR2 aplicado aos resíduos do modelo M2

89
Teste Shapiro-Wilks (valor-p = 0,4988)

Para verificar se é necessário incluir algum termo sazonal no modelo dos resíduos, vamos

ajustar os modelos ARMA(2,0)(1,0)12 e ARMA(2,0)(0,1)12:

ARMA(2,0)(1,0)12:

Estimate Std. Error z value Pr(>|z|)


ar1 0.49720 2.63350 0.1888 0.8503
ar2 0.11232 0.25562 0.4394 0.6604
sar1 0.61165 2.64877 0.2309 0.8174

ARMA(2,0)(0,1)12:

Estimate Std. Error z value Pr(>|z|)


ar1 1.23310 0.26107 4.7232 2.321e-06 ***
ar2 -0.36155 0.23935 -1.5106 0.1309
sma1 -0.11432 0.26441 -0.4324 0.6655

Como podemos observar pelos resultados acima, nenhum dos dois modelos é adequado, pois

apresentam coeficientes não significativos. Portanto, o melhor modelo para a série de resíduos do

modelo M2 é um AR(2).

90
9. Modelos GLARMA

Das metodologias citadas nos Capítulos 7 e 8, os modelos ARMA modelam dados

autocorrelacionados, como é o caso de séries temporais, todavia eles restringem-se à suposição de

normalidade. O MLG modela distribuições da família exponencial, mas não considera a correlação que

ocorre entre as observações em função do tempo. Por isso, é necessária a utilização de outros modelos

para a análise de séries temporais de dados de contagem.

Neste capítulo, descrevemos o modelo linear generalizado autoregressivo média móvel

(GLARMA), introduzido por Davis et al. (2003), que é útil para modelar variáveis respostas

dependentes no tempo e que seguem uma distribuição da família exponencial. Daremos especial

atenção ao modelo de Poisson, já que esta é a distribuição mais utilizada para dados de contagem.

9.1. Definição

A classe GLARMA é uma classe de modelos que estende o processo ARMA Gausssiano de

séries temporais para um modelo mais flexível para séries de contagem não-Gaussianas. A variável

dependente é suposta ter uma distribuição condicional na família exponencial dado todo o passado do

processo.

 
Sejam yt a série temporal e Ft 1  y (t 1) , x (t ) , onde y (t 1)   y1, y2 ,..., yt 1  é o passado do

processo de contagem e x (t ) é o passado e o presente das variáveis regressoras.

91
Para introduzir o modelo GLARMA, assuma que yt, dado o passado histórico Ft 1 , tem

qualquer distribuição na família exponencial (FE) com média  t ,

Yt | Ft 1 ~ FE (t ) , t  1,..., n . (9.1)

O preditor  t é dado por:


t  g ( t )   0  1 x1, t  ...   r xr , t   i t  i (9.2)
i 1

onde  é um vetor de parâmetros e  t é um ruído branco.


O componente  i  t  i pode ser especificado em termos de um número finito de parâmetros
i 1

utilizando a metodologia de Box e Jenkins (1976),

  q ( B)
 ( B)   i B i  1
i 1  p ( B)

onde  p (B) e  q (B) são, respectivamente, os polinômios autorregressivo e média móvel dados no

Capítulo 8.

Dessa forma o modelo GLARMA(p,q) fica especificado por

Yt | Ft 1 ~ FE (t ) , t  1,..., n

onde t  g (t )   0  1x1,t  ...   r xr ,t  Tt   0  xt'   Zt

 
Z t  1 Z t 1   t 1   ...   p Z t  p   t  p  1 t 1  ...   q t  q e

yt   t
t  .
t 
92
Exemplo:

GLARMA(0,1) com distribuição de Poisson:

Yt | Ft 1 ~ Poisson(t ) , t  1,..., n

onde t  g (t )   0  xt'   Z t ,

Z t   t 1 ,

yt   t
t  .
t 

Assim,

t   0  x t'    t 1   0  xt'   
 yt 1  t 1     x '     yt 1  exp t 1 
t 1  exp t 1  
0 t

Neste caso, E t   E E t | t 1    0  xt'  .

9.2. Estimação

A estimação dos parâmetros do GLARMA,   ( ,  )' , onde   (1,..., p ,1 ,..., q ) e

  ( 0 , 1,...,  r ) , é feita conjuntamente através da função de verossimilhança, maximizada pelo

método numérico Newton-Raphson (Davis et al., 2003).

O valor  de para o cálculo dos resíduos deve ser especificado pelo pesquisador. Se   0,5

temos o resíduo de Pearson. Outro valor usado na prática é   1 .

93
Considere a densidade condicional de Yt dado Ft 1 pertencente à família exponencial. A

função de log-verossimilhança pode ser escrita como

n
 , y    log f ( yt | Ft 1 ) . (9.3)
t 1

No caso da distribuição de Poisson, a função de log-verossimilhança é dada por:

n
 , y    Ytt  exp t  . (9.4)
t 1

Para inicializar o método recursivo de Newton-Raphson na maximização numérica da log-

verossimilhança ( , y) , Davis et al. (2003) sugerem que os valores obtidos das estimativas do

GLARMA sem os termos auto-regressivos média móveis sejam utilizados como valores iniciais. A

convergência, na maioria dos casos, ocorre após 10 iterações. A matriz de covariância dos estimadores

é estimada por

1
 2 
ˆ    (ˆ , y )  .

  ' 
 

Maiores detalhes sobre as condições de estacionariedade, propriedades, estimação e inferência

dos modelos GLARMA podem ser vistos em Davis et al. (2003).

A análise de resíduos no modelo GLARMA é feita da mesma forma que nos modelos GLM e

ARMA. Usando os resíduos estimados

yt  ˆ t
et 
ˆ t 
devemos verificar se os mesmos estão aleatoriamente distribuídos em torno de zero, se têm variância

constante e se são independentes.

94
9.3. Previsão

Adaptando a metodologia de previsões de modelos ARMA para o modelo GLARMA, tem-se

que o valor previsto de origem t e horizonte h, YˆT h  é dado por:


YˆT (h)  E YT  h | YT   ET YT  h   ˆT  h  g 1 ˆ0  xt' ˆ  ET ZT  h   (9.5)

onde

      
ET ZT h   ˆ1 ET ZT h1   ET  T h1   ...  ˆp ET ZT h p  ET  T h p  ˆ1 ET  T h1   ...  ˆq ET  T hq 

Para calcular as esperanças condicionais na prática, deve-se considerar:

i) Et Z t  h   Z t  h para h = 0, 1, 2, ...

ii) Et Z t  h   Zˆ t h para h = 1, 2, ...

iii) Et  t  h    t  h para h = 0, 1, 2, ...

iv) Et  t h   0 para h = 1, 2, ...

Por exemplo, para um GLARMA(1,1) com distribuição de Poisson:

 
YˆT (h)  exp ˆ0  xt' ˆ  ˆ1 Et Z t  h 1   Et  t  h 1   ˆ1 Et  t  h 1  .

Para h = 1:


YˆT (1)  exp ˆ0  xt' ˆ  ˆ1 Z t   t   ˆ1   t 
Para h ≥ 2:


YˆT (h)  exp ˆ0  xt' ˆ  ˆ1  Zˆ t (h) .

95
9.4. Exemplo – Série Polio

Vamos voltar ao exemplo da série Polio. Se supomos que os dados seguem uma distribuição de

Poisson, podemos ajustar o modelo GLARMA-Poisson. Vamos usar o pacote “glarma” do R.

Na Subseção 8.2.3 vimos, pela FAC e FACP da série Polio, que um possível modelo para esta

série é um AR(1). Desta forma, inicialmente consideramos um modelo GLARMA(1,0). O ajuste

utilizando os resíduos de Pearson (λ = 0,5), é apresentado abaixo:

MP1: GLARMA(1,0):

Estimate Std.Error z-ratio Pr(>|z|)


phi_1 0.27670 0.04415 6.267 3.67e-10 ***

Linear Model Coefficients:


Estimate Std.Error z-ratio Pr(>|z|)
Ano -0.0005399 0.0012982 -0.416 0.67748
Cos12 0.1282291 0.1348193 0.951 0.34154
Sen12 -0.5323691 0.1683738 -3.162 0.00157 **
Cos6 0.4930223 0.1253661 3.933 8.4e-05 ***
Sen6 0.0626950 0.1238554 0.506 0.61272

Null deviance: 318.76 on 155 degrees of freedom


Residual deviance: 276.78 on 150 degrees of freedom
AIC: 511.201

LRT and Wald Test:


Alternative hypothesis: model is a GLARMA process
Null hypothesis: model is a GLM with the same regression structure
Statistic p-value
LR Test 31.99 1.55e-08 ***
Wald Test 39.28 3.67e-10 ***

As variáveis seno anual, cosseno semianual e o componente autorregressivo foram

significativos, mas a variável Ano não. A saída do pacote “glarma” também mostra os testes de Wald e

Razão de Verossimilhança, que indicam que o modelo GLARMA é superior ao GLM. Como a variável

Ano não foi significativa, vamos ajustar outro modelo sem esta variável:

96
MP2: GLARMA(1,0) – sem intercepto:

Estimate Std.Error z-ratio Pr(>|z|)


phi_1 0.27562 0.04408 6.253 4.04e-10 ***

Linear Model Coefficients:


Estimate Std.Error z-ratio Pr(>|z|)
Cos12 0.12269 0.13244 0.926 0.35424
Sen12 -0.51239 0.15869 -3.229 0.00124 **
Cos6 0.47917 0.11912 4.023 5.75e-05 ***
Sen6 0.05731 0.12183 0.470 0.63806

Null deviance: 318.76 on 155 degrees of freedom


Residual deviance: 270.59 on 151 degrees of freedom
AIC: 509.3776

LRT and Wald Test:


Alternative hypothesis: model is a GLARMA process
Null hypothesis: model is a GLM with the same regression structure
Statistic p-value
LR Test 31.82 1.69e-08 ***
Wald Test 39.09 4.04e-10 ***

Vemos que o modelo M2 (sem a variável Ano) possui AIC menor que o modelo M1. Vamos

agora sobrefixar o modelo M2, colocando mais um termo autorregressivo (AR(2)), para verificar se

este é significativo. No resultado, apresentado abaixo, observamos que o componente AR(2) não é

significativo. Assim, ficaremos com o modelo M2.

MP3: GLARMA(2,0) – sem intercepto:

Estimate Std.Error z-ratio Pr(>|z|)


phi_1 0.25366 0.04467 5.679 1.35e-08 ***
phi_2 0.06738 0.04698 1.434 0.152

Linear Model Coefficients:


Estimate Std.Error z-ratio Pr(>|z|)
Cos12 0.120343 0.133790 0.899 0.36839
Sen12 -0.507878 0.158582 -3.203 0.00136 **
Cos6 0.458691 0.112425 4.080 4.5e-05 ***
Sen6 0.009694 0.113872 0.085 0.93216

Vamos agora ajustar o modelo GLARMA(1,0) utilizando os resíduos Escore (λ = 1). O

resultado é apresentado abaixo:

97
MS1: GLARMA(1,0) – sem intercepto:

Estimate Std.Error z-ratio Pr(>|z|)


phi_1 0.31621 0.04159 7.604 2.89e-14 ***

Linear Model Coefficients:


Estimate Std.Error z-ratio Pr(>|z|)
Cos12 0.1176 0.1377 0.854 0.392829
Sen12 -0.4408 0.1473 -2.993 0.002762 **
Cos6 0.4027 0.1143 3.522 0.000428 ***
Sen6 0.2307 0.1093 2.109 0.034913 *

Null deviance: 318.76 on 155 degrees of freedom


Residual deviance: 261.14 on 151 degrees of freedom
AIC: 503.9661

LRT and Wald Test:


Alternative hypothesis: model is a GLARMA process
Null hypothesis: model is a GLM with the same regression structure
Statistic p-value
LR Test 37.23 1.05e-09 ***
Wald Test 57.82 2.88e-14 ***

O ajuste com os resíduos Escore tem AIC menor que o mesmo modelo com resíduos de Pearson

(MP2: AIC=509,3776 e MS1: AIC=503,9661). Além disto, a variável seno semianual agora é

significativa.

A Figura 9.1 apresenta a análise de resíduos para o modelo GLARMA(1,0) com resíduos de

Pearson (MP2) e Escore (MS1). Observamos que para o resíduo Escore não temos um ruído branco, já

que tanto a FAC quanto a FACP apresentam um pico significativo no lag 1.

Previsões:

A Tabela 9.1 mostra o EQMP para previsões 12 passos à frente utilizando os modelos MP2 e

MS1. Como o EQMP do modelo com os resíduos de Pearson (MP2) é menor, aliado ao fato de que os

resíduos deste modelo são ruídos brancos, vamos apresentar as previsões somente para o MP2.

Tabela 9.1: EQMP para os modelos MP2 e MS1

Pearson (MP2) Escore (MS1)

2,0016 2,2245

98
Resíduos de Pearson Resíduos Escore

1 2 3 4 5 6
4
2
rp

rs
0
-2

-1
0 50 100 150 0 50 100 150

Index Index

Resíduos de Pearson Resíduos Escore


1.0

1.0
0.6
0.6
ACF

ACF

0.2
0.2

-0.2
-0.2

0 5 10 15 20 0 5 10 15 20

Lag Lag

Resíduos de Pearson 0.10 Resíduos Escore


0.00 0.10
Partial ACF

Partial ACF

-0.05
-0.15

-0.20

5 10 15 20 5 10 15 20

Lag Lag

Figura 9.1: FAC e FACP para os resíduos do modelo AR2 aplicado aos resíduos do modelo M2

A Tabela 9.2 mostra as previsões 12 passos à frente com o modelo MP2 e a Figura 9.2 mostra o

ajuste e as previsões. Comparando com o ajuste do MLG realizado na Seção 7.4, vemos que o EQMP

do modelo GLARMA é menor (EQMP_GLARMA=2,0016 e EQMP_GLM=2,4687). Além disto, o

ajuste apresentado na Figura 9.2 segue muito mais próximo do comportamento da série do que o ajuste

mostrado na Figura 7.3.

99
Tabela 9.2: Previsões 12 passos à frente com o modelo MP2 para a série de Polio, Jan/83 a Dez/83

Mês Real Previsto Real-Previsto


Jan/1983 0 1,74 -1,74
Fev/1983 1 0,79 0,21
Mar/1983 0 0,44 -0,44
Abr/1983 0 0,43 -0,43
Mai/1983 0 0,73 -0,73
Jun/1983 1 1,33 0,33
Jul/1983 2 1,68 0,32
Ago/1983 1 1,38 -0,38
Set/1983 0 1,04 -1,04
Out/1983 1 1,04 -0,04
Nov/1983 3 1,38 1,62
Dez/1983 6 1,68 4,32
14
12
10
8
Polio

6
4
2
0

0 50 100 150

tempo

Figura 9.2: Ajuste e previsão para o modelo MP2. A linha preta representa a série Polio, a linha azul
mostra o modelo ajustado e os pontos em azul são os valores previstos.

100
Referências

1. Benjamin, M. A., R. A. Rigby, and D. M. Stasinopoulos (2003). Generalized autoregressive

moving average models. Journal of the American Statistical Association, 98, pp. 214-223.

2. Bowerman, B.L., O’Connell, R.T. (1993) Forecasting and Time Series. 3rd ed. Belmont:

Duxbury Press.

3. Box, G.E.P. and Jenkins, G.M. (1976) Time Series Analysis: Forecasting and Control. San

Francisco: Holden-Day.

4. Davis, R.A., Dunsmuir, W.T.M. and Streett, S.B. (2003). Observation-driven models for

Poisson counts. Biometrika, 90, pp 777-790.

5. Gujarati, Damodar N.; Porter, Dawn C. (2009). Basic Econometrics (5th ed.). Boston: McGraw-

Hill Irwin.

6. McCullagh, P.; Nelder, J. A. (1989). Generalized Linear Models. Chapman and Hall, London,

second edition.

7. Morettin, P.A., Toloi, C.M.C. (2004) Análise de Séries Temporais. São Paulo: Edgard Blucher.

8. Nelder, J, Wedderburn, R. (1972). Generalized Linear Models. Journal of the Royal Statistical

Society. Series A, 135 (3): 370–384.

9. Shumway, R. H. and Stoffer, D. S. (2011) Time Series Analysis and Its Applications: With R

Examples. Springer, New York, third edition

10. Wei, W.W.S. (1990) Time Series Analysis: Univariate and Multivariate Methods. London:

Addison – Wesley.

101
ANEXO: Séries utilizadas nos exemplos.

Série 1 (TempMedia): Temperatura global de 1900-1997 (calculada como desvio da temperatura

global média anual do período 1961-1990).

-0.13 -0.22 -0.37 -0.44 -0.49 -0.37 -0.30 -0.50 -0.52 -0.49 -0.46 -0.49

-0.41 -0.42 -0.24 -0.13 -0.36 -0.51 -0.39 -0.30 -0.23 -0.19 -0.30 -0.27

-0.33 -0.22 -0.08 -0.19 -0.22 -0.37 -0.13 -0.05 -0.10 -0.23 -0.11 -0.15

-0.10 0.00 0.10 0.02 -0.04 0.06 0.06 0.06 0.22 0.06 -0.08 -0.08

-0.08 -0.09 -0.19 -0.05 0.02 0.10 -0.15 -0.16 -0.26 0.05 0.12 0.04

0.00 0.03 0.04 0.07 -0.22 -0.16 -0.06 -0.06 -0.09 0.03 -0.03 -0.19

-0.06 0.08 -0.18 -0.12 -0.22 0.06 -0.03 0.06 0.10 0.14 0.05 0.24

0.02 0.00 0.09 0.23 0.25 0.18 0.35 0.29 0.15 0.19 0.26 0.39

0.22 0.43

Série 2 (FARELO): Preço do farelo de soja, no estado de São Paulo, no período de jan/1990 a

set/1999

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

1990 278.6 225.1 205.7 161.5 179.1 161.9 163.0 164.8 171.6 175.2 188.4 187.5

1991 187.4 180.0 159.1 153.0 150.1 154.6 158.7 185.2 191.3 208.6 188.6 204.3

1992 241.7 204.4 177.4 159.1 154.7 168.4 183.0 198.4 227.6 210.5 196.5 206.1

1993 209.5 174.8 151.5 149.2 154.3 179.9 228.7 221.0 207.3 207.7 216.3 201.8

1994 192.2 174.2 167.4 153.9 153.2 171.1 172.1 175.0 175.9 181.5 181.5 174.0

1995 178.8 183.4 135.1 127.9 130.6 133.7 158.8 162.9 167.4 181.4 208.1 221.6

1996 240.6 215.1 196.0 219.4 227.3 223.8 234.4 248.3 298.4 275.1 290.1 281.7

1997 277.0 276.6 283.4 282.8 282.1 262.1 243.9 273.6 290.8 270.0 267.6 259.4

1998 239.1 201.1 159.6 153.1 150.7 148.8 147.5 153.9 151.3 154.8 158.3 157.5

1999 152.0 158.1 129.4 130.2 126.3 131.2 133.8 144.8

102
Série 3 (GRAO): Preço do grão de soja, no estado de São Paulo, no período de jan/1990 a set/1999

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

1990 12.63 11.04 10.86 9.77 10.55 9.85 9.94 10.10 9.86 9.90 10.16 9.32

1991 9.19 10.02 10.03 9.95 9.85 9.62 9.12 10.10 11.10 11.98 10.05 9.53

1992 11.24 10.55 10.19 9.41 9.72 10.28 10.22 11.02 12.45 11.74 11.86 11.79

1993 12.37 11.07 10.07 9.65 9.80 9.86 12.54 12.81 11.77 11.89 12.71 12.93

1994 12.77 12.15 11.52 10.58 10.91 11.63 11.49 11.52 11.90 12.39 12.62 12.50

1995 12.77 12.14 9.43 9.92 9.37 9.20 9.69 10.83 10.71 11.25 12.46 13.02

1996 15.08 13.08 12.07 13.17 13.86 13.05 13.47 14.36 16.76 16.37 16.57 16.58

1997 15.07 14.56 14.97 15.58 15.98 14.98 14.61 15.70 16.93 16.58 17.37 17.40

1998 15.48 13.02 11.63 11.07 11.45 11.35 11.31 10.98 11.44 11.55 11.43 11.00

1999 9.60 8.65 8.32 8.51 8.68 8.72 8.49 9.09

Série 4 (CEP): Consumo de energia elétrica das Centrais Elétricas do Paraná (CEP), de jan/80 a dez/92

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

1980 256 261 275 283 293 290 281 292 289 291 296 286

1981 270 283 285 297 303 302 298 301 302 301 290 288

1982 279 295 293 306 313 314 307 311 313 310 311 313

1983 289 305 318 325 332 324 322 334 335 330 320 306

1984 284 304 331 351 365 353 352 354 346 343 321 318

1985 304 337 343 358 364 363 357 361 358 359 329 337

1986 314 356 357 371 383 375 367 368 378 372 338 340

1987 316 361 366 388 395 403 391 394 403 389 369 365

1988 345 383 400 406 428 424 422 426 423 420 392 396

1989 373 407 413 430 443 446 444 450 448 447 417 411

1990 387 422 429 444 450 451 456 455 452 443 420 423

1991 408 438 464 470 478 482 469 471 474 476 452 451

1992 425 465 474 485 506 499 481 492 514 515 483 481

103
Série 5 (Acidente) Número total de motoristas mortos ou feridos na Grã Bretanha devido a acidentes

de trânsito entre Jan/1969 a Dez/1984

Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec

1969 1687 1508 1507 1385 1632 1511 1559 1630 1579 1653 2152 2148

1970 1752 1765 1717 1558 1575 1520 1805 1800 1719 2008 2242 2478

1971 2030 1655 1693 1623 1805 1746 1795 1926 1619 1992 2233 2192

1972 2080 1768 1835 1569 1976 1853 1965 1689 1778 1976 2397 2654

1973 2097 1963 1677 1941 2003 1813 2012 1912 2084 2080 2118 2150

1974 1608 1503 1548 1382 1731 1798 1779 1887 2004 2077 2092 2051

1975 1577 1356 1652 1382 1519 1421 1442 1543 1656 1561 1905 2199

1976 1473 1655 1407 1395 1530 1309 1526 1327 1627 1748 1958 2274

1977 1648 1401 1411 1403 1394 1520 1528 1643 1515 1685 2000 2215

1978 1956 1462 1563 1459 1446 1622 1657 1638 1643 1683 2050 2262

1979 1813 1445 1762 1461 1556 1431 1427 1554 1645 1653 2016 2207

1980 1665 1361 1506 1360 1453 1522 1460 1552 1548 1827 1737 1941

1981 1474 1458 1542 1404 1522 1385 1641 1510 1681 1938 1868 1726

1982 1456 1445 1456 1365 1487 1558 1488 1684 1594 1850 1998 2079

1983 1494 1057 1218 1168 1236 1076 1174 1139 1427 1487 1483 1513

1984 1357 1165 1282 1110 1297 1185 1222 1284 1444 1575 1737 1763

104

S-ar putea să vă placă și