Notas de Clase

Captulo 1
Elementos de Prediccion en Series

de Tiempo
En este captulo se revisa la teora de prediccion y se introduce la idea de

proyeccion lineal en series de tiempo.1
1.1. Predicciones basadas en Esperanzas Condi-

cionales
Se requiere predecir el valor de Yt+1 (escalar) usando un conjunto de variables
Xt observadas en t.
Por ejemplo, podra interesarnos predecir Yt utilizando sus m valores mas re-
cientes. En este caso, Xt podra contener una constante y Yt , Yt1 , ,Ytm+1 .

Sea Yt+1|t la prediccion de Yt+1 basada en Xt . Para evaluar la utilidad de esta

prediccion usaremos el Error Cuadratico Medio (M SE) asociado a Yt+1|t :

M SE(Yt+1|t ) E(Yt+1 Yt+1|t )2
El M SE es una funcion de perdida cuadratica, que permite resumir cuanto nos

preocupa que la prediccion se aleje en un monto particular.
Proposition 1.1.1. (Prediccion Optima) La prediccion con el MSE mas pequeno
es la esperanza condicional:

Yt+1|t = E(Yt+1 |Xt )
Ver la demostracion en Hamilton (1994), p. 73.

El M SE de la prediccion optima Yt+1|t = E(Yt+1 |Xt ) es:

M SE(Yt+1|t ) E(Yt+1 Yt+1|t )2
= E[Yt+1 E(Yt+1 |Xt )]2
1
Estas notas de clase se basan en Hamilton (1994)
1
2 CAPITULO 1. ELEMENTOS DE PREDICCION EN SERIES DE TIEMPO
1.2. Predicciones basadas en Proyecciones Lineales

Una proyeccion lineal es una prediccion formada a partir de una funcion
lineal de valores pasados.

Si la prediccion de Yt+1|t es una funcion lineal de Xt , se puede escribir como:

Yt+1|t = 0 Xt
La prediccion 0 Xt se denomina proyeccion lineal de Yt+1 sobre Xt si es tal

que el error de prediccion (Yt+1 0 Xt ) no esta correlacionado con Xt :
0 0
E[(Yt+1 0 Xt )Xt ] = 0 (1.1)
Proposition 1.2.1. (Proyeccion Lineal Optima) La proyeccion lineal genera el

menor MSE dentro del grupo de reglas de prediccion lineal.
Demostracion: Hamilton, p.74
La proyeccion lineal de Yt+1 sobre Xt se denota como:
P (Yt+1 |Xt ) = 0 Xt
donde satisface 1.1. Alternativamente, podemos escribir:
Yt+1|t = 0 Xt
Es importante notar que P (Yt+1 |Xt ) es la mejor prediccion dentro del grupo de
predicciones lineales, pero no necesariamente es la mejor prediccion general. La
mejor prediccion es la esperanza condicional, E(Yt+1 |Xt ). Por tanto:
M SE[P (Yt+1 |Xt )] M SE[E(Yt+1 |Xt )]
En la mayora de aplicaciones se incluira un termino constante en la proyeccion.

En este caso la notacion es:
P (Yt+1 |1, Xt ) E(Yt+1 |Xt )
1.2.1. Propiedades de las proyecciones lineales:

El coeficiente de proyeccion puede calcularse a partir de:
E[(Yt+1 0 Xt )Xt0 ] = 00
que es una condicion que tiene que satisfacer.

1.3. ACTUALIZANDO UNA PROYECCION LINEAL 3
Operando esta expresion se obtiene:
E[(Yt+1 Xt0 0 Xt Xt0 ] = 00

E(Yt+1 Xt0 ) 0 E(Xt Xt0 ) = 00
0 E(Xt Xt0 ) = E(Yt+1 Xt0 )
0 = E(Yt+1 Xt0 )[E(Xt Xt0 )]1
El MSE asociado a la proyeccion lineal 0 Xt es:

0 0 0 0
E(Yt+1 Xt )2 = E(Yt+1 )2 2E( Xt Yt+1 ) + E( Xt Xt )
Al reemplazar el vector de coeficientes de la proyeccion lineal se obtiene:
E(Yt+1 0 Xt )2 = E(Yt+1 )2 E(Yt+1 Xt0 )[E(Xt Xt0 )]1 E(Xt Yt+1 )
1.2.2. Proyeccion lineal y OLS

Las formulas de una regresion Mnimos Cuadrados Ordinarios (OLS) pueden
verse como caso especial de las formulas de una proyeccion lineal. 2
Resultado Importante: La regresion de Yt+1 sobre Xt genera un estimado

consistente del coeficiente de proyeccion lineal, solo si el proceso estocastico
{Xt , Yt+1 } es estacionario en covarianzas y ergodico para los segundos momen-
tos. As,
1. La regresion OLS Yt = 0 Xt + ut es un resumen de una muestra particular

de observaciones (X1 , , Xt ) y (Y2 , Y3 , , Yt+1 ).
2. La proyeccion lineal 0 Xt es un resumen de las caractersticas poblacionales
del proceso estocastico {(Xt , Yt+1 )}
T =
En el caso de proyeccion lineal solo nos preocupa predecir. Por lo tanto, no

importa mucho si X causa a Y o Y causa a X. Solo se necesitan sus movimientos
historicos observados (resumidos en E(Xt Yt+1 )) para calcular una prediccion.
1.3. Actualizando una Proyeccion Lineal

Siguiendo a Hamilton(1994)3 , considere un vector aleatorio (n1) Y = (Y1 , Y2 , , Yn )0 ,
con una matriz de segundos momentos :
= E(Y Y 0 )
cuyo elemento tpico es ij .

2
Ver Hamilton, Apendice 4.A
3
Paginas 92-95.
La prediccion de Y3 usando solo informacion de Y1 y basada en una proyeccion

lineal es:
P (Y3 |Y1 ) = 31 1
11 Y1
La prediccion de Y2 usando solo informacion de Y1 y basada en una proyeccion

lineal es:
P (Y2 |Y1 ) = 21 1
11 Y1
Dada la prediccion P (Y3 |Y1 ), Y2 representa informacion nueva con la que se

puede actualizar P (Y3 |Y1 ). Como se muestra en Hamilton(1994), es posible ac-
tualizar optimamente la prediccion inicial P (Y3 |Y1 ) anadiendole un multiplo del
componente no anticipado de la nueva informacion:
P (Y3 |Y2 , Y1 ) = P (Y3 |Y1 ) + [Y2 P (Y2 |Y1 )]
donde [Y2 P (Y2 |Y1 )] es el componente no anticipado de la nueva informacion,

y {E[Y3 P (Y3 |Y1 )].[Y2 P (Y2 |Y1 )]}{E[Y2 P (Y2 |Y1 )]2 }1 es el multiplo
asociado.
El multiplo puede interpretarse como el coeficiente de Y2 de una proyeccion
lineal de Y3 sobre Y2 e Y1 .
En el caso general, considere un conjunto de variables contenidas en el vector de
Y1 (n 1) y otro contenido en Y2 (n 1), con una matriz de segundos momentos
expresada en forma particionada:
E(Y1 Y10 ) E(Y1 Y20 )

11 12
= =
E(Y2 Y10 ) E(Y2 Y20 ) 21 22
donde 11 (n1 n1 ), 22 (n2 n2 ), 12 (n1 n2 ) y 21 = 012 .
La forma de actualizar un proyeccion lineal en este caso general es:
1
P (Y3 |Y2 , Y1 ) = P (Y3 |Y1 ) + H32 H22 [Y2 P (Y2 |Y1 )]
donde:
H22 = E{[Y2 P (Y2 |Y1 )][Y2 P (Y2 |Y1 )]0 }

H32 = E{[Y3 P (Y3 |Y1 )][Y2 P (Y2 |Y1 )]0 }
El M SE de esta prediccion es:
M SE[P (Y3 |Y2 , Y1 )] = E{[Y3 P (Y3 |Y2 , Y1 )][Y3 P (Y3 |Y2 , Y1 )]0 }
1
= H33 H32 H22 H23
donde:
H33 = E{[Y3 P (Y3 |Y1 )][Y3 P (Y3 |Y1 )]0 }

1.4. LEY DE PROYECCIONES ITERADAS 5
1.4. Ley de Proyecciones Iteradas

Que pasa si la proyeccion P (Y3 |Y2 , Y1 ) se proyecta a su vez sobre Y1 ?
La Ley de Proyecciones Iteradas dice que esta proyeccion es igual a la

proyeccion simple de Y3 sobre Y1 :
P [P (Y3 |Y2 , Y1 )|Y1 ] = P (Y3 |Y1 )

Captulo 2
Vectores Autoregresivos (VARs)
2.1. Especificacion de un modelo VAR

Sea t un vector (n 1) que contiene errores ruido blanco:
E(t ) = 0

0 , para t =
E(t ) = (2.1)
0, otro caso
donde es una matriz (n n) positivo definida.
Un vector autoregresivo de orden p o VAR(p) esta definido como:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t (2.2)
donde yt es un vector (n 1), c un vector (n 1) de constantes y j matrices

(n n) de coeficientes autorregresivos, para j = 1, 2, , p.
(1)
Sea ci el iesimo elemento del vector c y ij el elemento ubicado en la fila i,
columna j de la matriz 1 . La primera fila del sistema vectorial 2.2 es:
(1) (1) (1)
y1,t = c1 + 11 y1,t1 + 12 y2,t1 + + 1n yn,t1
(2) (2) (2)
+11 y1,t2 + 12 y2,t2 + + 1n yn,t2 +
(p) (p) (p)
+11 y1,tp + 12 y2,tp + + 1n yn,tp + 1t
Un vector autorregresivo o VAR es un sistema en el que cada variable se regre-

siona sobre una constante, p de sus propios rezagos y p rezagos de cada una de
las variables restantes.
Usando el operador de rezagos:
[In 1 L 1 L2 1 Lp ]yt = c + t
(L)yt = c + t (2.3)
7
8 CAPITULO 2. VECTORES AUTOREGRESIVOS (VARS)
(L) es un polinomio matricial (nxn) en L. La fila i, columna j de (L) es un

polinomio escalar en L:
ij (L) = [ij 1ij L2 ij L2 pij Lp ] (2.4)
donde ij = 1 si i = j y cero en otro caso.
Un proceso vectorial yt es estacionario en covarianzas si E(yt ) y E(yt ytj ) son

independientes del tiempo.
Si yt es estacionario, la media del proceso se obtiene:
= c + 1 + + p + E(t ) (2.5)
= [In 1 p ]1 c (2.6)
Usando , el VAR puede escribirse como desviaciones respecto de su media:
(yt ) = 1 (yt1 ) + + p (ytp ) + t (2.7)
2.1.1. VAR(p) escrito como VAR(1)

un modelo VAR(p) puede ser escrito como un VAR(1). Para ello, se define:

yt
yt1
(np1) = (2.8)

..
.
ytp+1

1 2 p1 p

In 0 0 0
F(npnp) =
0 In 0 0 (2.9)
.. .. .. ..
. . . .
0 0 In 0

t
vt = ... (2.10)

0
Entonces el modelo VAR(p) puede escribirse como el siguiente VAR(1):
t = t1 + vt (2.11)
donde,
Q, para t =
E(vt vt0 ) =
0, otro caso
2.2. REPRESENTACION VMA() 9
y donde:

0 0
0 0 0
Q(npnp) = (2.12)

..
.
0 0 0
Como se vera en el siguiente captulo, esta es la ecuacion de estado de la repre-

sentacion estado-espacio de un VAR.
2.1.2. Condiciones para la estacionariedad

La ecuacion 2.11 implica que:
t+s = vt+s + F vt+s1 + F 2 vt+s2 + + F s1 vt+1 + F s t (2.13)
Proposicion: Los valores propios de F definida en la ecuacion 2.9 satisfacen:
|In p 1 p1 2 p2 p | = 0 (2.14)
Un VAR(p) es estacionario en covarianzas (EC) si todos los que satisfacen la

ecuacion 16 son tales que || < 1.
Equivalentemente, un VAR(p) es EC si todos los valores z que satisfacen:
|In 1 z 2 z 2 p z p | = 0 (2.15)
estan fuera del crculo unitario.
2.2. Representacion VMA()

Un vector autoregresivo puede expresarse como un vector de medias moviles
infinito, el cual sera denotado como VMA().
En general, es posible encontrar dos tipos generales de representaciones VMA(),
que se diferencian por el tipo de errores o perturbaciones que contienen, los
cuales pueden ser ortogonales o no.
2.2.1. VMA() y errores no ortogonales

Las primeras n filas del sistema vectorial:
t+s = vt+s + F vt+s1 + F 2 vt+s2 + + F s1 vt+1 + F s t
estan dadas por:
yt+s = + t+s + 1 t+s1 + 2 t+s2 + + s1 t+1

(s) (s) (s)
+F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 ) (2.16)
(j) (j)
La matriz j = F11 , donde F11 denota el bloque superior izquierdo de F j de
orden (nxn). En general:
j
1 2 p1 p (j) (j) (j) (j)
F11 F12 F1,p1 F1,p
In 0 0 0 .. .. .. ..
. . . .
0 In 0 0 .
j

F

. .. .. ..
.. .. .. .. . . . .

. . . .
.. .. .. ..

0 0 In 0 . . . .
Si los valores propios de F estan dentro del crculo unitario, entonces:
lm F s = 0,
s
y por lo tanto:
yt = + t + 1 t1 + 2 t2 + + (L)t (2.17)
que se denomina representacion M A() vectorial o VMA().
Notese que ytj es una funcion lineal de tj , tj1 , , los cuales no estan
correlacionados con t+1 para j = 0, 1, 2, . Dado esto, se sigue que t+1 no
esta correlacionado con ytj para cualquier j 0
Por lo tanto, la prediccion lineal de yt+1 sobre la base de yt , yt1 , , esta dada
por:
yt+1|t = + 1 (yt ) + 2 (yt1 ) + + p (ytp+1 )
y t+1 puede interpretarse como la innovacion fundamental de yt+1 ; es decir, el

error de predecir yt+1 en base a una funcion lineal de una constante, yt , yt1 ,....
De forma mas general, a partir de la ecuacion 2.18, la predicion de yt+s basada

en yt , yt1 , ... tomara la siguiente forma:
(s) (s) (s)
yt+s|t = + F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 ) (2.18)
(j)
Las matrices del componente MA, j F11 pueden calcularse de forma alter-
nativa.
(i) Notese que (L) = (L)1
[In 1 L p Lp ]yt = c + t
(L)yt = c + t
yt = (L)1 c + (L)1 t
yt = + (L)t (2.19)
2.2. REPRESENTACION VMA() 11
(ii) Esto implica que:
[In 1 L p Lp ][In + 1 L + 2 L2 + ] = In
de donde:
1 1 = 0
2 = 1 1 + 2
..
.
s = 1 s1 + 2 s2 + + p sp , (2.20)
para s = 1, 2, donde: 0 = In y s = 0 para s < 0.
2.2.2. VMA() y errores ortogonales

Notese que la innovacion en la representacion VMA() es t , la innovacion
fundamental de y. Sin embargo, existen representaciones de medias moviles
infinitas basadas en procesos ruido blanco diferentes a t .
Sea H una matriz no singular de orden (nxn), y defina: ut Ht . Evidente-

mente ut es ruido blanco. Mas aun, es posible escribir:
yt = + t + 1 t1 + 2 t2 + + (L)t
como:
yt = + H 1 Ht + 1 H 1 Ht1 + 2 H 1 Ht2 +
= u + J0 ut + J1 ut1 + J2 ut2 + (2.21)
donde: Js s H 1 .
Un ejemplo usual es una matriz H que diagonaliza , la matriz de varianza y

covarianzas de t :
HH 0 = D
En este caso, ut es tal que sus componentes no estan correlacionados:
E(ut u0t ) = E(Ht 0t H 0 )

= HE(t 0t )H 0
= HH 0
=D (2.22)
As, siempre es posible escribir un proceso VAR(p) estacionario como un prome-

dio movil infinito convergente de un vector ruido blanco ut cuyos elementos no
estan mutuamente correlacionados.
Existe una diferencia importante entre las representaciones VMA():
yt + (L)t = + t + 1 t1 + 2 t2 + (2.23)
y,
yt = + J0 ut + J1 ut1 + J2 ut2 + (2.24)
dado por el hecho que 0 = I 6= J0 . As, para obtener la representacion VMA

para las innovaciones fundamentales, se debe imponer la normalizacion J0 = In .
2.3. Supuestos implcitos

Para un proceso estacionario en covarianzas, los parametros c, 1 , 2 , ,p
de:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t
pueden ser definidos como los coeficientes de la proyeccion de yt sobre una

constante e yt1 , , ytp .
De esta forma, t no esta correlacionado con yt1 , , ytp por la definicion de

1 , ,p . Por ello, los parametros de un VAR pueden ser estimados consisten-
temente con n regresiones mnimos cuadrados (OLS).
El supuesto adicional implcito es que t definido por esta proyeccion no esta cor-
relacionado con ytp1 , ytp2 ,
El supuesto que yt esta descrita por un proceso VAR significa que p rezagos son
suficientes para resumir todas las correlaciones dinamicas entre los elementos
de yt .
2.4. ESTIMACION POR MAXIMA VEROSIMILITUD 13
2.4. Estimacion por Maxima Verosimilitud

Considere un vector yt de orden (n 1) que contiene los valores de n variables
en el instante t. Asuma que la dinamica del vector yt esta descrita por un vector
autrorregresivo Gausiano de orden p o VAR(p):
yt = c + 1 yt1 + 2 yt2 + + p ytp + t (2.25)
donde t i.i.d.N (0, ), c es un vector (n 1) de constantes y j matrices
(n 1) de coeficientes autorregresivos, para j = 1, 2, , p. Ademas:

0 , para t =
E(t ) =
0, otro caso
donde es una matriz (n n) positivo definida.
Asuma se han observado estas n variables durante T +p perodos. La estimacion
por Maxima Verosimilitud (ML) puede basarse en las ultimas T observaciones
(y1 , y2 , , yT ) condicionando la informacion sobre las primeras p observaciones
(y0 , y1 , , yp+2 , yp+1 ).
El objetivo es formar la funcion de verosimilitud condicional:
fYt ,Yt1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yt , yt1 , , y1 |y0 , y1 , , yp+1 ; ) (2.26)
y maximizarla respecto del vector , el cual contiene los elementos de c, 1 , 2 , , p
y .
La estimacion de los VARs no utiliza la funcion de verosimilitud incondicional
de toda la muestra sino solo la funcion de verosimilitud condicional.
La funcion de verosimilitud se calcula de forma similar al caso escalar:
yt | yt1 , yt2 , , ytp+1 N [(c + 1 yt1 + 2 yt2
+ + p ytp ), ] (2.27)
que puede escribirse como:
0
yt | yt1 , yt2 , , ytp+1 N [ xt , ] (2.28)
donde xt contiene el termino constante y p rezagos de cada elemento de y:

1
yt1

yt2
xt
..
.
ytp [(np+1)1]
0
ademas es una matriz [n (np + 1)]:
0
c 1 2 p (2.29)
La densidad condicional de la t-esima observacion es:
fYt ,Yt1 ,Yt2 , ,Yp+1 (yt |yt1 , yt2 , , ytp+1 ; )

n 1 1
=(2) 2 |1 | 2 exp[( )(yt 0 xt )0 1 (yt 0 xt )] (2.30)
2
La densidad conjunta de las observaciones 1 hasta t condicionadas a y0 , yt1 , ,

yp+1 satisface:
fYt ,Yt1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yt , yt1 , , y1 |y0 , y1 , , yp+1 ; )
= fYt1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yt1 , , y1 |y0 , y1 , , yp+1 )
.fYt |Yt1 ,Yt2 , ,Yp+1 (yt |yt1 , yt2 , , yp+1 ) (2.31)
Aplicando recursivamente esta formula, la verosimilitud para la muestra com-

pleta yt , yt1 , ,y1 condicionada a y0 , y1 , yp+1 es:
fYT ,YT 1 , ,Y1 |Y0 ,Y1 , ,Yp+1 (yT , yT 1 , , y1 |y0 , y1 , , yp+1 )

T
Y
= fYt |Yt1 ,Yt2 , ,Yp+1 (yt |yt1 , yt2 , , yp+1 ; ) (2.32)
t=1
La funcion de verosimilitud muestral en logaritmos (o log verosimilitud) es:

T
X
n 1 1 1 0 0 1 0
L() = log(2) 2 | | 2 exp (yt xt ) (yt xt )
t=1
2
T
Tn T 1X
L() = log(2) + log|1 | (yt 0 xt )0 1 (yt 0 xt )]]
2 2 2 t=1
(2.33)
2.4.1. Estimador ML de
El estimador M L es:
T
! T
!1
X X
0[n(np+1)] = yt x0t xt x0t (2.34)
t=1 t=1
M L puede interpretarse como el analogo muestral de la proyeccion lineal pobla-

cional de yt sobre una constante y xt .
La fila j de 0 es:
T
! T
!1
X X
j0 = yjt x0t xt x0t (2.35)
t=1 t=1
que representa el vector de coeficientes estimados a traves de una regresion OLS

de yjt sobre xt .
De esta forma, los estimadores ML de los coeficientes de la j-esima ecuacion de

un VAR se encuentran estimando una regresion OLS de yjt contra una constante
y p rezagos de todas las variables del sistema.
Acontinuacion, se presenta una demostracion del resultado.
Demostracion:
Se demostrara que 0 = 0 minimiza el termino Tt=1 (yt 0 xt )0 1 (yt 0 xt )

P
y, por lo tanto, maximiza L().
Expandimos el termino Tt=1 (yt 0 xt )0 1 (yt 0 xt ).

P
T
X 0
= yt 0 xt + 0 xt 0 xt 1 yt 0 xt + 0 xt 0 xt
t=1
XT 0
= t + ( )0 xt 1 t + ( )0 xt (2.36)
t=1
donde t y 0 xt representa el vector de residuos muestrales para la t-esima

observacion de las regresiones OLS de yjt sobre xt para j = 1, 2, , n.
Expandiendo la suma se obtiene:

T h i
0 0
X
= t 1 t + x0t ( )1 t + t 1 ( )0 xt + x0t ( )1 ( )0 xt
t=1
T T
! T
0 0
X X X
1 1 0
= t t + 2 t ( ) xt + x0t ( )1 ( )0 xt
t=1 t=1 t=1
(2.37)
PT 0 1
El termino t=1 t ( )0 xt es cero:
T T
!
0 0
X X
t 1 ( )0 xt = tr t 1 ( )0 xt
t=1 t=1
T
X 0
1 0
= tr t ( ) xt
t=1
T
0
X
= tr 1 ( )0 xt t
t=1
T
!
0
X
= tr 1 ( )0 xt t (2.38)
t=1
Los residuos muestrales de una regresionPOLS son ortogonales a las variables ex-
plicativas (por construccion); es decir, Tt=1 xt jt = 0 para todo j = 1, 2, , n
0
y por lo tanto Tt=1 xt t = 0.
P
PT 0 1
As, dado que t=1 t ( )0 xt = 0 se obtiene:
T T T
0
X X X
0 0 1 0 1
x0t ( )1 ( )0 xt

(yt xt ) (yt xt ) = t t +
t=1 t=1 t=1
(2.39)
0
Si se define xt ( ) xt , el ultimo termino se puede expresar como:
T T
0 0 0
X X
1
xt ( ) ( ) xt = (xt ) 1 xt (2.40)
t=1 t=1
Dado que es positivo definida, 1Ptambien lo es. As, para cualquier secuencia
0
{xt }Tt=1 , no nula (xt ) 1 xt > 0 y Tt=1 (xt )1 xt > 0.
De esta forma, el valor mas pequeno que puede alcanzar (1.17) es cuando xt = 0,
es decir, = .
Por lo tanto, = es el estimador ML.
2.4.2. Estimador ML de
Resultados importantes
Sea A una matriz no simetrica e irrestricta. Considere la forma cuadratica x0 Ax

para un vector x(n 1) y el determinante de A, |A|. Entonces,
x0 Ax
= xx0 (2.41)
A
log|A|
= (A0 )1 (2.42)
A
Ver Hamilton (1994, p 204-295) para una demostracion.
Obtencion de M L
Cuando se evalua L() en , la funcion de verosimilitud es:

T
Tn T 1 X 0 1
L(, ) = log(2) + log|1 | t (2.43)
2 2 2 t=1 t
La primera derivada de la funcion respecto de 1 es:
T
L(, ) T log|1 | 1 X 0t 1 t
=
1 1 2 t=1 1
T
T 1X 0
[(1 )0 ]1 t t (2.44)
2 2 t=1
Condicion de primer orden (FOC) para encontrar un irrestricto que maximice

L(, ) se obtiene igualando a cero la derivada:
T
T 0 1X 0
= t t
2 2 t=1
T
0 1X 0
= t t (2.45)
T t=1
El valor de optimo e irrestricto es una matriz simetrica y positivo definida:

0 0 0 0
Simetrica: = T1 ( Tt=1 t t ) = T1 Tt=1 t t
P P
0 0 0 0 0
Positivo defina: Tt=1 t t = Tt=1 t t = zt zt , donde zt t t 6= 0.
P P
El elemento (i, i) de esta dado por:
T
1X 2
ii2 = (2.46)
T t=1 it
y el elemento (i, j) de es:
T
1X
ij2 = it jt (2.47)
T t=1
que es el producto promedio de los residuos OLS de la variable i y los residuos

OLS de la variable j.
Los estimadores M L y M L son consistentes a pesar de que las innovaciones

son no-Gausianas. Ademas, los errores estandar para puede basarse en las
formulas convencionales OLS.
En las siguientes dos subsecciones se presentan dos proposiciones que establecen

la distribucion asintotica de y
2.4.3. Distribucion Asintotica de

Proposition 2.4.1. (Distribucion Asintotica de )
Sea el siguiente vector autoregresivo:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t
donde t es un vector (n 1) que se distribuye independiente e identicamente con

media 0, varianza y E(it jt lt mt ) < para todo i,j,l,m, y donde las races de
|In 1 z 2 z 2 p z p | = 0 (2.48)
0
estan fuera del crculo unitario. Sea k np + 1 y xt el siguiente vector (1 k)
0 0 0 0
xt 1 yt1 yt2 ytp (2.49)
Sea T =vec(t ) el vector (nk 1) de coeficientes que se obtienen de regresiones OLS

de cada uno de los elementos de yt sobre xt para una muestra de tamano T :

1,T
2,T
T ..

.
n,T
donde
T
!1 T
!
X X
i,T = xt x0t xt yit (2.50)
t=1 t=1
y denota el vector (nk 1) de los coeficientes poblacionales correspondientes. Fi-

nalmente, sea
T
1X 0
T = t t (2.51)
T t=1
donde
0
t = 1t 2t nt
0
it = yit xt i,T (2.52)
Entonces:
P 0
1. 1
T
xt x0 t Q, donde Q = E(xt xt )
P
2. T
P
3. T
L
4. T (T ) N 0, [ Q1 ]

2.4.4. Distribucion Asintotica de

Dado que es una matriz simetrica, algunos de sus elementos se repiten. Para
evitar la repeticion, se usa el operadorvech.
Dada un matriz (n n), el operador vec la transforma en un vector (n2 1)
que contiene las columnas originales apiladas. Por ejemplo:

11
11 12 21
vec = (2.53)
21 22 12
22
Por otro lado,

el operador vech transforma una matriz(n n) en un vec-
n(n+1)
tor columna [ 2 ] 1 apilando verticalmente los elementos de la diagonal
principal o debajo de ella. Por ejemplo:

11
21
11 12 13
31

vech 21 22 23
= (2.54)
22

31 32 33
32

33
Proposition 2.4.2. (Distribucion Asintotica de )

Sea el siguiente vector autoregresivo:
yt = c + 1 yt1 + 2 yt2 + + p ytp + t
donde t es un vector (n 1) que se distribuye independiente e identicamente
con media 0, varianza y E(it , jt , lt , mt ) < para todo i,j,l,m, y donde
las races de
|In 1 z 2 z 2 p z p | = 0
estan fuera del crculo unitario. Sean T , T y Q iguales a la definicion de la
Proposicion 2.4.1. Entonces:
1

T [ T ] L 0 ( Q ) 0
N P
T [vech() vech()] 0 0 22
Sea ij el elemento (i,j) de ; por ejemplo, 11 es la varianza de it . Entonces,

el elemento de 22 que representa la covarianza entre ij y lm es (il jm im jl )
para todo i, j, l, m = 1, 2 , n, incluyendo i = j = l = m.
Por ejemplo para n = 2

2 2

11,T 11 0 211 211 12 212
L 2
T 12,T 12 N 0 211 12 11 22 + 12 212 22 (2.55)
2 2
22,T 22 0 12 212 22 222
2.5. Prueba de Hipotesis en un modelo VAR

Para llevar a cabo pruebas de hipotesis en un modelo de vectores autorregresivos
es posible utilizar las pruebas convencionales t y F , as como tambien pruebas
asintoticas.
2.5.1. Pruebas convencionales t y F

L
A partir de T (T )N 0, ( Q1 ) , se puede obtener la expresion para

los coeficientes de la i-esima regresion del VAR:

L
T (i,T i ) N [0, i2 Q1 ] (2.56)
donde i2 = E(2it ).
Los terminos i2 y Q1 pueden ser estimados consistentemente usando:
T
1 X 2
i2 =
T t=1 it
T
!1
1X
Q1
T = xt x0t (2.57)
T t=1
Dado esto, i puede ser tratado aproximadamente como:

!1
T
X
i N i , i2 xt x0t (2.58)
t=1
Esta expresion es la formula convencional OLS de los terminos de la varian-

za, reemplanzando s2i por i2 . Aunque ambos estimadores son asintoticamente
equivalentes, siguiendo el argumento de Sims(1980) -que se vera mas adelante-
es preferible usar los errores estandar OLS que son mas grandes.
As, la proposicion establece que los estadsticos OLS t y F aplicados a cualquier

ecuacion del VAR son asintoticamente validos.
2.5.2. Prueba del Ratio de Verosimilitud

Primero necesitamos calcular el valor maximo de la funcion de verosimilitud:
T
Tn T 1 X 0 1
L(, ) = (log2) + log|1 | t (2.59)
2 2 2 t=1 t
2.5. PRUEBA DE HIPOTESIS EN UN MODELO VAR 21
1
PT 0 1 Tn
El termino 2 t=1 t t es igual a 2
:
T T
!
1 X 0 1 1 X 0
t t = tr t 1 t
2 t=1 2 t=1
T
1 X 0 1
= tr t t
2 t=1
T
1 X 1 0
= tr t t
2 t=1
1 1
= tr T
2
1
= tr(T In )
2
1
= tr(In )
2
nT
= (2.60)
2
Por lo tanto:
nT T Tn
L(, ) = log2 + log|1 | (2.61)
2 2 2
Usualmente, se requiere determinar si un modelo VAR necesita p1 rezagos o

p0 < p rezagos.
En este caso, la estructura de la prueba de hipotesis sera:
Hipotesis Nula : n2 (p1 p0 ) parametros son cero

Hipotesis Alternativa : al menos uno no es cero.

Estadstico de Prueba : LR 2(L 1 Lo )
LR = T log|0 | log|1 | 2 (n2 (p1 p0 ))

Regla de Rechazo : Si LR > 20,0,5 (n2 (p1 p0 )) ,
se rechaza la hipotesis nula al 5 % de significancia.
Notese que el calculo del estadstico de prueba LR requiere del uso de las
funciones de verosimilitud asociadas a los modelos irrectricto y restringido:
Tn T Tn
L1 (1 , 1 ) = L1 (1 ) = log(2) + log|1
1 |
2 2 2
Tn T Tn
L0 (0 , 0 ) = L0 (0 ) = log(2) + log|1
0 | (2.62)
2 2 2
y el hecho que |1 | = 1
||
.
Sims(1980) sugiere una modificacion a la prueba LR para tomar en cuenta el

sesgo para muestra pequena.
LR (T ){log|0 | log|1 |} 2 n2 (p1 p0 )

(2.63)
donde =(1 + np1 ) es el numero de parametros estimados por ecuacion. Este
estadstico modificado tiene menos probabilidades de rechazar la hipotesis nula
en muestras pequenas en comparacion al original.
2.5.3. Prueba de Wald

Es posible usar una generalizacion de la prueba de Wald basada en la estimacion
por OLS y el estadstico 2 para llevar a cabo pruebas hipotesis generales de la
forma R = r, lo cual involucra coeficientes entre diferentes ecuaciones.
La proposicion 2.4.1 establece que:
L
T (T ) N 0, Q1

(2.64)
lo cual bajo la hipotesis nula se convierte en:

L
T (RT r) N (0, R( Q1 )R0 ) (2.65)
Manipulando esta expresion se obtiene el siguiente estadstico con distribucion

2 :

T
!1 1
0
X
2 (m) = (RT r)0 R T xt xt R0 (RT r) 2 (m)
t=1
(2.66)
donde m es el numero de filas de R, el cual indica el numero de restricciones

evaluadas.
Demostracion
Si se incorpora la restriccion en la distribucion lmite de T se obtiene:

L
T (RT r) N (0, R( Q1 )R0 )
1 L
[R( Q1 )R0 ] 2 T (R) r) N (0, In )
L 2
T (RT r)0 {R( Q1 )R0 }(RT r) (m) (2.67)
0
Si reemplazamos por un estimador consitente T = T1 Tt=1 t t y Q por
P
0
QT = T1 Tt=1 xt xt , la expresion resultante converge en probabilidad a T (RT
P
0 0 0
r) {R( Q1 )R } (RT r) y por lo tanto:
0
n
1
0 o0 L
T (RT r) R QT R (RT r) 2( m)
2.5. PRUEBA DE HIPOTESIS EN UN MODELO VAR 23
Al introducir T al termino Q1
T se cancela con T y por tanto:

T
!1 1
0 1 X 0
R0 (RT r)
(RT r) R xt xt
T t=1

T
!1 1
0 0
R0 (RT r)
X
= (RT r) R xt xt
t=1
Muchas veces es util escribir la matriz R como un producto Kronecker:
R = Rn Rk (2.68)
donde Rn selecciona las ecuaciones involucradas y Rk selecciona los coeficientes.
Ejemplo 1
Se requiere analizar la hipotesis de que el termino constante en la primera
ecuacion del VAR es igual al termino constante en la segunda ecuacion, es decir
c1 = c2 .
R es un vector(1 nk) que contiene 1 en la primera posicion, y 1 en la (k + 1)-

esima posicion:

R = 1 0 0 1 0 0 0
En este ejemplo, R = Rn Rk requiere:

Rn = 1 1 0 0 0

Rk = 1 1 0 0 0
Luego se calcula la siguiente expresion:

!1
T
0
R0
X
R xt xt
t=1
!1
T
0
(Rn Rk )0
X
= (Rn Rk ) xt xt
t=1
!1
T
0 0 0
X
= (Rn Rk ) Rk xt xt Rk
t=1
= (12 212 + 22 ) ( 11 ) (2.69)

P 1
T 0
donde 12 es la covarianza entre 1t y 2t , y 11 es el elemento (1, 1) de t=1 xt xt .
Dado que 11 es una escalar, el operador se convierte en una multiplicacion

simple. De esta forma, el estadstico 2m para este ejemplo es:
(c1 c2 )2
21 = 2 (2.70)
(1 212 + 22 ) 11
Ejemplo 2
Considere la distribucion asintotica de para el caso n = 2:

2 2

11,T 11 0 211 211 12 212
L 2
T 12,T 12 N 0 211 12 11 22 + 12 212 22 (2.71)
2 2
22,T 22 0 12 212 22 222
Una prueba de Wald de la hipotesis nula que no existe covarianza entre 1t y

2t esta dada por:

T 12
N (0, 1) (2.72)
2 12
(11 22 + 12 )
Una prueba del Wald para la hipotesis nula que 1t y 2t tienen la misma varianza
es:
T (11 22 )2
2 2 2
2(1) (2.73)
211 412 + 222
2.6. PRUEBA DE CAUSALIDAD A LA GRANGER 25
2.6. Prueba de Causalidad a la Granger

Una de las preguntas clave que pueden ser analizadas utilizando vectores au-
toregresivos es que tan utiles son algunas variables para predecir otras.
Granger(1969) propone una forma de analizar la relacion entre dos variables en

terminos de prediccion, la cual fue popularizada por Sims(1972).
2.6.1. Causalidad Bivariada a la Granger

El proposito es analizar si un escalar y puede ayudar a predecir otro escalar x.
Si no contribuye, se dice que y no causa en el sentido de Granger a x, frase
que denotaremos como y no GC x.
Formalmente, y no GC x si para todo s > 0:
M SE[E(xt+s |xt , xt1 , , yt , yt1 , )] = M SE(E[xt+s |xt , xt1 , ]) (2.74)
Si nos restringimos a funciones lineales, se dice que y no GC a x si:

h i
M SE E(xt+s |xt , xt1 , )
h i
= M SE E(xt+S |xt , xt1 , , yt , yt1 , )
(2.75)
Si y no GC x, entonces se puede decir que:
x es exogeno en el sentido de series de tiempo con respecto a y

y no es informativa linealmente sobre el futuro de x
La idea detras de la propuesta de Granger era que si un evento y es la causa de

otro evento x, entonces el evento y debe preceder al envento x. Sin embargo,
esto no necesariamente es cierto.
2.6.2. Interpretacion de las pruebas de Causalidad a la Granger

Las pruebas de causalidad en el sentido de Granger pueden ser herramientas
utiles para evaluar hipotesis relacionadas a la predictibilidad de una serie
particular.
Sin embargo, se sugiere ser esceptico sobre la utilidad de estas pruebas para
determinar la direccion causal entre dos series arbitrarias.
As, las pruebas de causalidad a la Granger deberan describirse como pruebas

que permiten determinar si y ayuda a predecir x y no si y causa a x.
En algunos casos, las pruebas de causalidad a la Granger permiten establecer

algun tipo de direccion causal cuando se consideran otros supuestos relaciona-
dos a las variables analizadas.
Ejemplo 1: Comportamiento forward-looking

De acuerdo a la hipotesis de mercado eficiente, el precio de un activo P es
funcion del valor presente esperado de los dividendos futuros D:

X 1 j
Pt = Et ( ) Dt+j (2.76)
j=1
1+r
donde r es la tasa de interes o tasa de retorno ex-post del activo.

As, de acuerdo a esta teora, P incorpora la mejor prediccion del mercado sobre
el valor presente de los dividendos futuros.
Sin embargo, los dividendos no causan en el sentido de Granger a P a pesar
de que la percepccion de los inversionistas sobre los dividendos son el unico
determinante de P .
Mas aun, P causa en el sentido de Granger a D a pesar de que la evaluacion del
activo por parte del mercado no tiene efectos sobre el proceso de los dividendos.
En general, las series de tiempo que reflejan un comportamiento forward-looking,
como los precios de activos y tasas de interes, son buenos predictores de muchas
series de tiempo economicas importantes como el PBI y la inflacion.
As, las pruebas de causalidad en el sentido de Granger para este tipo de series
son utiles para analizar eficiencia de los mercados o si los mercados se preocu-
pan o son capaces de predecir el PBI o la inflacion, por ejemplo. Sin embargo,
no se puede inferir una direccion de causalidad necesariamente.
Ejemplo 2: Exogenidad Estricta

Todas las recesiones en Estados Unidos desde la Segunda Guerra Mundial han
sido precedidas por un aumento abrupto del precio del petroleo crudo. Dado
esto, es posible afirmar que los choques de precio del petroleo son la causa de
las recesiones?
Los datos rechazan la hipotesis nula de que los precios no causan en el sentido
de Granger al PBI.
Ademas, las principales subidas del precio del petroleo han estado asociadas a
eventos historicos claros como la crisis de Suez (1956-57), la guerra entre Arabia
e Israel (1973-74), la Revolucion Iran (1978-79), el inicio de la guerra Iran-Irak
(1980) y la invasion de Iraq a Kuwait en 1990.
Empricamente, muy pocas series macroeconomicas ayudan a predecir los choques
de petroleo.
2.6.3. Implicancias de la Causalidad a la Granger

Implicancia 1
En un VAR bivariado entre x e y, y no causa en el sentido de Granger a x, y

no GC x, si cada una de las matrices de coeficientes j , es triangular inferior
para todo j:
! !
(1) (2)
xt c1 11 0 xt1 11 0 xt2
= + (1) (1) + (2) (2) +
yt c2 21 21 yt1 21 21 yt2
!
(p)
11 0 xtp 1t
+ (p) (p) +
21 21 ytp 2t
(2.77)
Para verificar que en este sistema y no GC x, se analiza la prediccion optima

un perodo adelante de x:
E(xt+1 |xt , xt1 , , yt , yt1 , )

(1) (2) (p)
= c1 + 11 xt + 11 xt1 + + 11 xtp+1
= E(xt+1 |xt , xt1 , , xtp+1 ) (2.78)
la cual no depende de yt , yt1 , . Mas aun, lo mismo sucede con la prediccion

optima dos perodos adelante de x:
E(xt+2 |xt , xt1 , , yt , yt1 , )

(1) (2) (p)
= c1 + 11 Et xt+1 + 11 Et xt + + 11 xtp+2
(2) (p)
= c1 + E(xt+1 |xt , xt1 , ) + 11 xt + + 11 xtp+2
= E(xt+2 |xt , xt1 , , xtp+1 ) (2.79)
Por induccion, lo mismo se cumple para una prediccion s00 perodos adelante.
Implicancia 2
Dada la representacion VMA(),
yt = + t + 1 t1 + 2 t2 + 3 t3 + + (L)t (2.80)
Se sabe que:
s = 1 s1 + 2 s2 + + p sp , paras = 1, 2, (2.81)
donde: 0 = In y s = 0 para s < 0

Esta expresion implica que si j es triangular inferior para todo j, entonces

las matrices s de la representacion fundamental seran triangular inferior para
todo s.
Enctonces, si y no GC x, la representacion VMA() es:

xt 1 11 (L) 0 1t
= + (2.82)
yt 2 21 (L) 22 (L) 2t
donde:
(0) (1) (2) (3)

ij (L) = ij + ij L1 + ij L2 + ij L3 +
(2.83)
(0) (0) (0)
tal que 11 = 22 = 1 y 21 = 0.
Implicancia 3
La tercera implicancia fue analizada por Sims(1972), y esta dada por la siguiente
proposicion.
Proposition 2.6.1. Considere una proyeccion lineal de y sobre los valores pasa-
dos, presente y futuros de x:

X
X
yt = c + bj xtj + dj xt+j + t (2.84)
j=0 j=1
donde bj y dj se definen como los coeficientes de proyeccion poblacionales, es

decir, los valores para los cuales:
E(t xt ) = 0
para todo t, . Entonces, y no causa en el sentido de Granger a x si y solo si
dj = 0 para j = 1, 2,
2.6.4. Pruebas Econometricas de Causalidad a la Granger

Estas pruebas se pueden basar en cualquiera de las tres implicancias analizadas.
Los resultados de cualquier prueba emprica de causalidad en el sentido de
Granger pueden ser muy sensibles a la eleccion del rezago(p) o de los metodos
de series de tiempo que se usan para enfrentar potenciales problemas de no-
estacionariedad.
Las pruebas econometricas para evaluar si una serie y GC x puede basarse en
cualquiera de las tres implicancias.
Enfoque 1
Se basa en la especificacion autoregresiva. Si se asumen p rezagos, la prueba se

basara en la estimacion de la siguiente ecuacion por OLS:
xt = c1 + 1 xt1 + 2 xt2 + + p xtp + 1 yt1 + 2 yt2 + + p ytp + ut

xt = c0 + 1 xt1 + 2 xt2 + + p xtp + et (2.85)
La estructura de la prueba que permite evaluar la hipotesis nula y no GC x

es:
Hipotesis Nula : 1 = 2 = = p = 0
Hipotesis Alternativa : al menos un i 6= 0
Estadstico de Prueba :
(RSS0 RSS1 )/p

s1 F (p, T 2p 1) (2.86)
RSS1 /(T 2p 1)

Regla de Rechazo : Si s1 > F0,05 (p, T 2p 1), entonces se rechaza la
hpotesis nula al 5 % de significancia.
El estadstico s1 tiene distribucion F exacta cuando la regresion contiene regre-

sores fijos y perturbaciones Gausianas.
En las regresiones para analizar GC, la prueba es valida solo asintoticamente

debido a la presencia de variables dependientes rezagadas.
Una prueba asintoticamente equivalente esta dada por:
Hipotesis Nula : 1 = 2 = = p = 0
Hipotesis Alternativa : al menos un i 6= 0
T (RSS0 RSS1 )/p

s2 20,05 (p) (2.87)
RSS1
Regla de Rechazo : Si s2 > [20,05 (p)] , entonces se rechaza la hpotesis

nula de ausencia de GC al 5 % de significancia.
Enfoque 2
Se basa en la estimacion de la especificacion propuesta por Sims(1972):

X
X
yt = c + bj xtj + dj xt+j + t
j=0 j=1

0 0
X
y t = c0 + bj xtj + t (2.88)
j=0
En este caso la estructura de la prueba es:

Hipotesis Nula : d1 = d2 = = dp = 0
Hipotesis Alternativa : di 6= 0 para algun i
0 (RSS0 RSS1 )/p
s1 F (p, t 2p 1) (2.89)
RSS1 /(T 2p 1)
0
Regla de Rechazo : Si s1 > F0,05 (p, T 2p 1) entonces se rechaza la hipotesis
nula al 5 % de significancia.
El problema con esta prueba es que en general t esta autocorrelacionado y por
tanto una prueba F convencional se distorsiona.
Para este caso, existen 3 posibles soluciones.
1. Estimar por OLS y usar errores estandar robustos (Newey-West)
2. Estimar por Mnimos Cuadrados Generalizados (GLS).
3. Incluir rezagos de la variable dependiente, como lo sugieren Geweke, Meese
y Dent(1983).

X
X
X
y t = c2 hj ytj + bj xtj + dj xt+j + v2t (2.90)
j=1 j=0 j=1
donde v2t es un ruido blanco no correlacionado con ningun regresor. En este

caso, la prueba estadstica sera:
Hipotesis Nula : d1 = d2 = = dp = 0
Hipotesis Alternativa : di 6= 0, para algun i
00 (RSS0 RSS1 )/p
s1 F (p, t 2p 1) (2.91)
RSS1 /(T 2p 1)
00
Regla de Rechazo : Si s1 > F0,05 (p, T 2p 1) entonces se rechaza la hipotesis
Demostracion
Si se asume que tiene la siguiente representacion de Wold:
= (L)v2t
entonces:

X
X
22 (L)1 yt = 22 (L)1 [c + bj=0 xtj + dj xt+j + t ]
j=0 j=1

X
X
1 1 1
22 (L) yt = 22 (L) c + 22 (L) bj xtj + 22 (L)1 dj xt+j + 22 (L)1 t
j=0 j=1

X
X
X
y t = c2 hj ytj + bj xtj + dj xt+j + v2t (2.92)
j=1 j=0 j=1
Geweke, Meese y Dent sugieren que el primer enfoque usando s2 es la mejor

forma de probar causadalidad a la Granger.
2.6.5. Causalidad a la Granger en un contexto Multivariado

Supongamos que las variables de un VAR se clasifican en 2 grupos, representados
por el vector y1t de orden (n1 1) y el vector y2t de orden (n2 1).
Ademas, se puede definir el vector x1t de orden (n1 p1) que contiene los rezagos
de y1t y x2t el vector (n2 p 1) que contiene los rezagos de y2t :

y1,t1 y2,t1
y1,t2 y2,t2
x1t .. , x2t .. (2.93)

. .
y1,tp y2,tp
En este caso, el VAR puede escribirse como:

0 0
y1t = c1 + A1 x1t + A2 x2t + 1t
0 0
y2t = c2 + B1 x1t + B2 x2t + 2t (2.94)
0 0 0 0
donde las matrices A1 , A2 , B1 y B2 son de orden (n1 n1 p, (n1 n2 p, (n2
n1 py(n2 n2 p, respectivamente. Ademas, los vectores c1 de orden (n1 1) y c2
de orden (n2 1) contienen los terminos constantes del VAR.
Se dice que y1 es exogena por bloques en el sentido de series de tiempo con

respecto de y2 si A2 = 0
Para calcular la hipotesis nula de que n1 variables contenidas en y1 son exogenas

por bloques respecto de las y2 , se necesita estimar por OLS las ecuaciones:
0 0
y1t = c1 + A1 x1t + A2 x2t + 1t
0
y1t = c1 + (A1 ) x1t + 1t (0) (2.95)
Cuyos vectores de residuos OLS son 1t y 1t (0) ambos de orden (n1 1) y las
correspondientes matrices de varianzas y covarianzas:
T
1X 0
11 = 1t 1t
T t=1
T
1X 0
11 (0) = [1t (0)][1t (0)] (2.96)
T t=1
As, la estructura de la prueba es la siguiente:

0
Hipotesis Nula : A2 = 0
0
Hipotesis Alternativa : A2 6= 0
LR T {log|11 (0)| log|11 |} 2 (n1 n2 p) (2.97)
Regla de Rechazo : Si LR > [20,05 (n1 n2 p)] entonces se rechaza la hipotesis

Si se rechaza la hipotesis nula, se concluye que alguno de los elementos de y2

son utiles para predecir y1
2.7. LA FUNCION IMPULSO RESPUESTA 33
2.7. La Funcion Impulso Respuesta

La representacion VMA() de un VAR en terminos de sus innovaciones fun-
damentales es:
yt = + t + 1 t1 + 2 t2 + (2.98)
La matriz s puede interpretarse como:

yt+s
0 = s (2.99)
t
Para ilustrar esta idea, considere el siguiente ejemplo:

11 12 1
yt =
21 12 2

11 1 + 12 2
yt =
21 1 + 12 2

yt 11 1 + 12 2 11 12
=
0 21 1 + 22 2 21 22
(2.100)
As, la fila i, columna j, de s identifica el efecto de un incremento unitario

en la innovacion de la jesima variable en t, jt , sobre el valor de la i-esima
variable en t + s,yi,t+s ), manteniendo todos las demas innovaciones constantes.
Si se sabe que el vector t cambia de acuerdo con:

1t 1
2t 2
t = .. = .. = (2.101)

. .
nt n
El efecto combinado de t es:

h i
yt+s = y t+s
1t
yt+s
2t
yt+s
nt
t
yt+s = s t

yt+s yt+s yt+s
yt+s = 1 + 2 + + n (2.102)
1t 2t nt
Una forma simple de encontrar estos multiplicadores dinamicos numericamente

es simulando el sistema
yt = c + 1 yt1 + 2 yt2 + + p ytp + t (2.103)
con t i.i.d.N (0, ).

Para la simulacion, se hace yt1 = yt2 = = ytp = 0, jt = 1 y todos los

demas elementos de t cero. Con esto, se simula el sistema para t, t + 1, t + 2
con c, t+1 , t+2 , iguales a cero.
El valor del vector yt+s en la fecha t + s de esta simulacion corresponde a la

j-esima columna de s . En general, cada columna se puede estimar haciendo
simulaciones para cada innovacion j = 1, 2, , n.
La funcion impulso respuesta (IRF) es el grafico del elemento (i,j) de la

matriz s como funcion de s:
yi,t+s
(2.104)
jt
As, la IRF describe la respuesta de yi,t+s ante un impulso de una vez con yit ,
manteniendo constantes las demas variables en la fecha t o antes.
La IRF no necesariamente permite medir el efecto causal de yj sobre yi . Lo

mas seguro es usar el resultado para hablar de predicciones.
2.7.1. Ortogonalizacion de la IRF

Para interpretar la IRF , considere la siguiente pregunta. Sea
0 0 0
xt1 = (yt1 yt2 ytp ) (2.105)
la informacion recibida sobre el sistema en el momento t 1
Suponga que el valor de la primera variable del VAR en el perodo t, y1t , fue
mayor a lo esperado, tal que 1t es positivo.
Como cambia nuestra prediccion de yi,t+s dada esta informacion? es decir, cual
es:
E[yi,t+s |y1t , xt1 ]

(2.106)
y1t
y 0
La respuesta es i,t+s
jt
s (i, j) solo en el caso especial cuando E(t t ) = es
una matriz diagonal.
0
En el caso mas general cuando E(t t ) = 6= D, si 1t es positivo entonces
proporciona informacion nueva y util sobre 2t , , nt . Esta informacion tiene
implicaciones para el valor de yi,t+s
Para resumir estas implicancias, necesitamos calcular el vector:
E(t |y1t , xt1 )

(2.107)
y1t
y luego usar:
yt+s yt+s yt+s
yt+s = 1 + 2 + + n (2.108)
1t 2t nt
para calcular el efecto de este cambio en todos los elementos de t sobre el valor
de yi,t+s
Otra magnitud que podra medirse es la revision de la prediccion que resulta,

por ejemplo, de nueva informacion sobre y2t mas alla de la informacion contenida
en y1t . As, podramos calular:
E(yi,t+s |y2t , y1t , xt1 )

(2.109)
y2t
De igual forma, podramos calcular:
E(yi,t+s |y3t , y2t , y1t , xt1 )

y3t
..
.&
E(yi,t+s |ynt , yn1,t , yn2,t , , y1t , xt1 )
(2.110)
ynt
Esta ultima magnitud corresponde al efecto de nt con 1t , , n1,t constantes

y esta dado simplemente por la fila i, columna n de s .
El ordenamiento recursivo de informacion es usado muy frecuentemente. Para

este ordenamiento, los multiplicadores indicados pueden vincularse a partir de
s y usando un algoritmo simple.
E(yt+s |y1t , xt1 )

= s a1
y1t
E(yt+s |y2t , y1t , xt1 )
= s a2
y1t
..
.
E(yt+s |yjt , yj1,t , , y1t , xt1 )
= s aj (2.111)
yjt
donde aj denota la j-esima columna de la matriz A es triangular inferior con

10 s en la diagonal principal tal que:
0
= ADA (2.112)
donde D es una matriz diagonal con entradas positivas.
Algoritmo
Para cualquier matriz real simetrica positiva definida existe una matriz trian-
gular inferior A con 10 s a lo largo de la diagonal principal y una matriz diagonal
unica D con entradas positivas tal que:
0
= ADA (2.113)
Usando A se puede construir el vector ut de orden (n 1):
t = A1 t (2.114)
El vector ut no esta correlacionado con sus propios rezagos o valores rezagados

de yt , dado que t tiene la misma propiedad. Mas aun, los elementos de t no
estan correlacionados entre s, es decir, son ortogonales:
0 0 0
E(ut ut ) = A1 E(t t )(A1 )
0
= A1 (A )1
0 0
= A1 ADA (A )1
=D (2.115)
La expresion ut = A1 t puede reescibrirse como:
Aut = t

1 0 0 0
u1t 1t
a21 1 0 0
u2t 2t

a31 a32 1 0
.. =

..

.. .. .. .. .. . .
.

. . . .
unt nt
an1 an2 an3 1
Se puede demostrar (Ver Hamilton (1994), p. 320-322), que esta relacion implica
que:
E(yt+s |y1t , xt1 )

= s a1
y1t
E(yt+s |y2t , y1t , xt1 )
= s a2
y2t
..
.
E(yt+s |yjt , yj1,t , , y1t , xt1 )
= s aj (2.116)
yjt
donde aj es la j-esima columna de la matriz A.
Para estimar la expresion poblacional s aj usando una muestra de tamano T ,

se sigue el siguiente procedimiento:
1. Se estiman 1 , , p usando OLS y se construyen las matrices s simu-

lando el sistema.
0
2. Usando t OLS se obtiene = 1t Tt=1 t t
P
0
3. A y D que satisfacen = ADA se construyen a partir de usando un
algoritmo de Factorizacion triangular (Hamilton, p. 87-92)
Notese que, por construccion, los elementos del vector ut = A1 t son mutua-
mente ortogonales:
T T
1X 0 1 X 1 0 0
ut ut = A (t t )(A1 ) = A1 (A1 ) = D (2.117)
T t=1 T t=1
Entonces, el estimado muestral de s aj es:
s aj
El grafico de s aj como funcion de s se denomina IRF ortogonalizado.
1. Se basa en descomponer las innovaciones originales del VAR (1t , , nt )

en un conjunto de componentes no correlacionados (u1t , , unt ) y calcular
las consecuencias sobre yt+s de un impulso unitario en ujt
2. Estos multiplicadores describen como la nueva informacion sobre yjt hace
que revisemos nuestra prediccion de yt+s aunque la definicion implcita de
nueva informacion es diferente para cada variable j.
2.7.2. Ortogonalizacion Cholesky

Es una forma alternativa de implementar y reportar la ortogonalizacion recur-
siva.
0 1
D es la matriz que contiene las varianzas de ujt s, por lo que D 2 contiene las
0
desviaciones estandar de ujt s.
Entonces:
0
= ADA
1 1 0
= AD 2 D 2 A
0
= PP (2.118)
0
La expresion = P P es la descomposicion de Cholesky de la matriz
1
Notese que P AD 2 es triangular inferior como A. La diferencia es que P
contiene las desviaciones estandar de ut en diagonal principal y no 10 s como A.
En vez de ut , se puede usar vt P 1 t :

1
vt P 1 t = D 2 A1 t
1
= D 2 ut (2.119)
p
As, jt es jt entre su desvo estandar djj . As, un incremento unitario en jt
equivalente a un incremento de un desvo estandar de ujt
yi,t+s yi,t+s
En vez del multiplicador dinamico ujt
se reporta vjt
, cuya relacion es:
yt+s yt+s ujt

= .
vjt ujt vjt
yt+s p
= djj
ujt
p
= s aj djj (2.120)
p 1
El termino aj djj es la j-esima columna de AD 2 , que es la je-sima columna
de la matrix factor Cholesky P, pj :
yt+s
= s pj (2.121)
jt
As,
yt+s
= s pj
jt
p
= (s aj ). djj (2.122)
Entonces:
1. El efecto de un incremento unitario en yjt , en unidades de medida de yjt

esta medido por:
yt+s E[yt+s |yjt , yj1,t , , y1t , xt1 ]

=
ujt yjt
p
2. El efecto de un incremento de V ar(jt ) unidades es medido por:
yt+s
= s pj
vjt
2.8. DESCOMPOSICION DE LA VARIANZA 39
2.8. Descomposicion de la Varianza

El error de prediccion de un VAR s perodos en el futuro se obtiene de:
yt+s = + t+s + 1 t+s1 + 2 t+s2 + + s1 t+1
(s) (s) (s)
+ F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 )
(s) (s) (s)
yt+s|t = + F11 (yt ) + F12 (yt1 ) + + F1p (ytp+1 ) (2.123)
calculando yt+s yt+s|y
yt+s yt+s|t = t+s + 1 t+s1 + 2 t+s2 + + s1 t+1 (2.124)
El error cuadratico medio (MSE) de esta prediccion s00 perodos adelante es:
0
M SE(yt+s|t ) = E[(yt+s yt+s|t )(yt+s yt+s|t ) ]
= E[(t+s + 1 t+s1 + 2 t+s2 + + s1 t+1 )
0 0 0 0 0
.(t+s + t+s1 1 + t+s2 2 + + t+1 s1 )]
0 0 0 0 0
= E[(t+s t+s + 1 t+s1 t+s1 1 + + s1 t+1 t+1 s1 + cruzados]
0 0
M SE(yt+s|t ) = + 1 1 + + s1 s1 (2.125)
Nos interesa saber la contribucion de cada perturbacion ortogonalizada (u1t , , unt )

al MSE. Para ello, se reescribe Aut = t de la siguiente forma:
t = Aut
t = a1 u1t + a2 u2t + + an unt (2.126)
0
Luego, se calcula = E(t t )
0
= E(t t )
0
= E[(a1 u1t + a2 u2t + + an unt )(a1 u1t + + an unt ) ]
0 0 0 0
= E[a1 u1t u1t a1 + + an unt unt an + cruzados]
0 0 0 0
= a1 E(u1t u1t )a1 + + an E(unt unt an )
0 0 0
= a1 a1 V ar(u1t ) + a2 a2 V ar(u2t ) + + an an V ar(unt ) (2.127)
donde Var(uit ) es el elemento (i, i) de la matriz D.
Reemplazando la expresion obtenida para en M SE(yt+s|t ) se obtiene:
0 0
M SE(yt+s|t ) = a1 a1 V ar(u1t ) + + an an V ar(unt )+
0 0 0
+ 1 [a1 a1 V ar(u1t ) + + an an V ar(unt )]1 +
+ +
0 0 0
+ s1 [a1 a1 V ar(u1t ) + + an an V ar(unt )]s1
0 0 0 0 0
= a1 a1 + 1 a1 a1 1 V ar(u1t ) + + s1 an an s1 V ar(unt )
n
0 0 0
X
M SE(yt+s|t ) = V ar(ujt )[aj aj + 1 aj aj 1 + +
j=1
0 0
+ s1 aj aj s1 ] (2.128)
A partir de esta expresion es posible calcular la contribucion de la j-esima

innovacion ortogonalizda al MSE de la prediccion s00 perodos adelante.
0 0 0 0 0
V ar(ujt ).[aj aj + 1 aj aj 1 + + s1 aj aj s1 ] (2.129)
Nuevamente, esta magnitud depende del ordenamiento de las variables.
Si el VAR es estacionario en covarianzas, entonces se cumple que cuando s

el M SE converge a la matriz de varianzas y covarianzas incondicional del
vector yt , M SE(yt+s|t ) 0 . As, para un s suficientemente grande, 2.128
permite calcular la porcion de la varianza total de yi debida a la perturbacion
uj .
p
Alternativamente, dado que aj V ar(ujt ) = pj , donde pj es la j-esima columna
del factor Cholesky P , 2.128 puede escribirse como:
n
0 0 0 0 0 0 0
X
M SE(yt+s|t ) = [pj pj + 1 pj pj 1 + + 2 pj pj 2 + + s1 pj pj s1 ]
j=1
(2.130)
2.9. Modelos VAR y Modelos Econometricos Es-

tructurales
El modelo VAR se ha presentado como una descripcion estadstica de las inter-
relaciones dinamicas entre n diferentes variables contenidas en el vector yt .
No se han usado ideas teoricas sobre la posible relacion entre las variables
involucradas, por lo cual no pueden interpretarse los resultados en terminos
economicos.
Suponga que se desea estimar una funcion de demanda por dinero:
Mt Pt = 0 + 1 Yt + 2 It + 3 (Mt1 Pt1 ) + vtD (2.131)
donde Mt es el log de los saldos nominales de dinero, P el log del nivel de precios
agregado, Yt el log del PBIreal e It la tasa de interes nominal.
La practica comun era estimar la funcion usando un ajuste Cochrane-Orcutt

asumiendo autocorrelacion de orden 1:
vtD = vt1
D
+ uD
t (2.132)
Bajo estos supuestos, la ecuacion podra escribirse como:
Mt Pt = (1 )0 + 1 Yt 1 Yt1 + 2 It 2 It1 + (3 + )(Mt1 Pt1 )

3 (Mt2 Pt2 ) + uD
t (2.133)
2.9. MODELOS VAR Y MODELOS ECONOMETRICOS ESTRUCTURALES 41
la cual es una version restringida de:

Mt Pt = 0 + 1 Yt + 2 Yt1 + 3 It + 4 It + 5 (Mt1 Pt1 )
+ 6 (Mt2 Pt2 ) + D
T (2.134)
El supuesto vtD = vt1

D
+uDt puede evaluarse usando 2.133 y 2.134. En particular
vtD representa factores que afectan la demanda por dinero para los cuales no se
cuenta con una teora explcita. Por ello sera importante evaluar vtD = vtD +uD
t
y no simplemente imponer el supuesto, pues podramos asumir:
vtD = vt1
D D
+ vt2 + uD
t (2.135)
Otro supuesto del modelo es que el multiplicador dinamico del ingreso es pro-
porcional al multiplicador de la tasa de interes:
(Mt+s Pt+s )
= 1 3s
Yt
(Mt+s Pt+s )
= 2 3s (2.136)
It
Finalmente, la inflacion puede tener efectos sobre la demanda por dinero que
no son capturados por la tasa de interes.
As, este modelo implcitamente impone muchas restricciones sobre la dinamica
con poco o ningun sustento emprico teorico. Por ello, parece mas convincente
evaluar el modelo usando una especificacion mas general:
(0) (0) (0)
Mt = 1 + 12 Pt + 13 Yt + 14 It
(1) (1) (1) (1)
+ 11 Mt1 + 12 Pt1 + 13 Yt1 + 14 It1 +
(p) (p) (p) (p)
+ 11 Mt + 12 Ptp + 13 Yt + 14 It1 + uD
t (2.137)
La ecuacion 2.140 tambien se considera una ecuacion estructural. Mas aun, esta
ecuacion generalizada la dinamica del termino de error vtD , el proceso de ajuste
parcial, y la inflacion del nivel de precios sobre las tenencias deseables de dinero.
Sin embargo, no es posible estimar por OLS debido al problema de simultanei-
dad (sesgo de simultaneas). Por ejemplo:
(0) (0) (0)
It = 4 + 41 Mt + 42 Pt + 43 Yt
(1) (1) (1) (1)
+ 41 Mt1 + 42 Pt1 + 43 Yt1 + 44 It1 +
(p) (p) (p) (p)
+ 41 Mt + 42 Ptp + 43 Yt + 44 It1 + uD
t (2.138)
Mas aun, la ecuacion de demanda agregada estara dada por:

(0) (0) (0)
Yt = 3 + 31 Mt + 32 Pt + 34 It
(1) (1) (1) (1)
+ 31 Mt1 + 32 Pt1 + 33 Yt1 + 34 It1 +
(p) (p) (p) (p)
+ 31 Mt + 32 Ptp + 33 Yt + 34 It1 + uD
t (2.139)
y la ecuacion de precios:
(0) (0) (0)
Pt = 2 + 21 Mt + 22 Pt + 23 Yt
(1) (1) (1) (1)
+ 21 Mt1 + 22 Pt1 + 23 Yt1 + 24 It1 +
(p) (p) (p) (p)
+ 21 Mt + 22 Ptp + 23 Yt + 24 It1 + uD
t (2.140)
2.9.1. Relacion entre los Modelos Dinamicos Estructurales y

Vectores Autoregresivos
El modelo descrito puede escribirse como:
B0 yt = k + B1 yt1 + B2 yt2 + + Bp ytp + ut (2.141)
donde:
0
yt = (Mt , Pt , Yt , It )
0
ut = (uD s A c
t , ut , Yt , It )
(0) (0) (0)

1 12 13 14
(0) (0) (0)
21 1 23 24

0 =

(0) (0) (0)
31 32 1 34
(0) (0) (0)
41 42 43 1
0
= (k1 , k2 , k3 , k4 ) (2.142)
Generalizando el argumento del modelo dinamico restringido, se asume un

numero suficiente de rezagos p y que las matrices Bs se definen de tal forma
que ut es un vector ruido blanco.
Si ut siguiera un proceso V AR de orden r:
ut = F1 ut1 + + Fr utr + et (2.143)
entonces se multiplica 2.141 por (In F1 L1 F2 L2 Fr Lr ) y se obtiene

una forma similar a 2.141 reemplazando p por p + r y ut por et .
1
Premultiplicando por B0 :
yt = B01 + B01 B1 yt1 + B01 B2 yt2 + + B01 Bp ytp + B01 ut

yt = c + 1 yt1 + 2 yt2 + + p ytp + t (2.144)
Si se asume que el modelo 2.141 se ha parametrizado tal que ut es im vector

ruido blanco, entonces t tambien es un ruido blanco y 2.144 es la representacion
VAR del sistema estructural dinamico 2.141.
As, un VAR puede ser visto como la forma reducida de un modelo estructural
dinamico general.
2.9.2. Interpretando las funciones impulso respuesta

El efecto de una innovacion en la j-esima variable sobre el valor futuro de cada
variable en el sistema fue calculado como:
yt+s
(2.145)
jt
La expresion t = B01 ut implica que jt es una combinacion lineal de pertur-

baciones estructurales ut . Por ejemplo:
1t = 0,3uD S A C
t 0,6ut + 0,1ut 0,5ut (2.146)
yt+s
As, parece no ser interesante la maginitud jt
. Por el contrario, si fueramos
capaces de calcular:
yt+s
(2.147)
uC
t
Sera muy interesante, pues podramos saber las consecuencias de que el banco
central contraiga el credito mas de lo usual y sera una magnitud clave para
describir los efectos de la poltica monetaria sobre la economa.
Recordamos que para calcular las IRFs ortogonalizados, se usa la matriz A

triangular inferior y la matriz diagonal D tal que:
0 0
E(t t ) = = ADA (2.148)
de tal forma que:
ut = A1 t (2.149)
Por otro lado, el modelo VAR analizado es tal que:
ut = B0 t (2.150)
Supongamos que la matriz de parametros estructurales es igual a A1 . Entonces,

las innovaciones ortogonales, coincidiran con las perturbaciones estructurales
verdaderas:
ut = B0 t = A1 t (2.151)
y por lo tanto podramos usar las IRFs ortogonales para responder preguntas
como yut+s
C
t
Pero, existe alguna razon para esperar que B0 = A1 ? Dado que A1 es trian-
gular inferior, B0 debera serlo.
En el modelo, si fuera posible imponer supuestos para que B0 sea triangular

inferior, entonces podramos dar respuesta a preguntas estructurales con las
IRFs ortogonalizadas.
En este caso:

0 0 0 0

Pt 1 Pt
(0)
Yt 2
= + 21 0 0 0 Yt

(0) (0)

Mt 3 31 32 0 0 Mt

It 4 (0) (0) (0) It
41 42 43 0
(1) (1) (1) (1)

11 12 13 14

Pt1
(1) (1) (1) (1)
22 23 24 Yt1
+ 21(1) (1) (1) (1)
+ +
31 32 33 34 Mt1
(1) (1)
41 42 43
(1) (1)
44 It1
(p) (p) (p) (p)

11 12 13 14
S
Ptp ut
(p) (p) (p) (p)
22 23 24 Ytp uA

+ 21 + t
(p)
31 32(p) (p)
33
(p)
34 Mtp uD t

(p) (p)
41 42 43
(p) (p)
44 Itp uC
t
Supongamos que existe tal ordenamiento y por tanto B0 es triangular inferior.

Entonces el modelo estructural puede reescribirse como un VAR:
B0 yt = + B1 yt1 + + Bp ytp + ut
B0 yt = xt + ut (2.152)
donde:

[nx(np+1)] = B1 B2 Bp

1
yt1
xt(np+1)x1 = ..

.
ytp
Ademas, asumamos que:

D, para t =
E(ut u0 ) =
0, otro caso
donde D es una matriz diagonal. El VAR es la forma reducida del modelo

estructural y se puede escribir:
B0 yt = xt + ut
yt = B01 xt + B01 ut
yt = xt + et (2.153)
0
Si = E(t t ), entonces t = B01 ut implica que:
0
= E(ut u0 ) = E[B01 ut u0t (B01 ) ]
0
= B01 E(ut u0 )(B01 )
0
= B01 D(B01 ) (2.154)
Notese que si las unicas restricciones son que :
1. B0 es triangular inferior con 10 s en la diagonal principal

2. D es una matriz diagonal
entonces el modelo estructural esta exactamente identificado.
Se puede verificar que el modelo esta exactamente identificado:
1. Dado que B0 es triangular inferior, B01 tambien lo es

2. Para cualquier simetrica y p.d, existe una unica matriz triangular inferior
A con 10 s en la diagonal principal un una matriz diagonal D con entradas
0
positivas tal que = ADA Entonces siempre se peuden encontrar valores
0
unicos de B01 Y D tales que satisfacen la forma = ADA
= E(t 0t ) = B01 DB01 (2.155)
3. Cualquier B0 de esta forma es no singular, por lo cual puede calcularse

de forma unica a partir de:
= B01 (2.156)
dado que se conoce .
Entonces dados los valores de la forma reducida ( y ) existen valores unicos

para los parametros estructurales (B0 , d, ) de la forma especificada. As, el
modelo estructural esta exactamente identificado.
Dado que el modelo esta exactamente identificado, se pueden obtener estimados

maxima verosimilitud con informacion completa (FIML) para B0 , yD
1. Maximizar la funcion de verosimilitud respecto a los parametros de la

forma reducida ( y )
2. Usando la relacion uno a uno entre los parametros de la forma estructural
y la reducida.
Los estimadores M L = as que se obtienen regresionando los elementos de yt

contra xt .
El estimador M L se obtiene de la matriz de varianzas y covarianzas de los

residuos OLS.
B01 y D se encuentran a partir de la factorizacion triangular de (ver Hamil-

ton, seccion 4.4)
El vector de residuos ortogonales ut = A1 t es el vector de perturbaciones

estructurales y las IRFs ortogonales proporcionan las consecuencias dinamicas
de eventos estructurales representados por ut , dado que el modelo estructural
es triangular inferior.
2.9.3. VAR Estructural No Recursivo

Incluso si el modelo estructural no puede ser escrito de forma triangular inferior,
todava puede darse una interpretacion estructural al VAR usando una idea
similar a
0 0
= E(t t ) = B01 D(B01 ) (2.157)
Especficamente, un modelo estructural especifica un conjunto de restricciones

sobre B0 y D, y podemos tratar de encontrar los valores que satisfacen esta re-
0
striccion tals que B01 (B01 ) = . Esta idea fue desarrollada por Bernanke(1986),
Blanchard y Watson (1986) y Sims(1986).
Como ilustracion, considere el siguiente modelo que describe la dinamica de

cantidad (qt), precio(pt) y clima(wt):
(1) (1) (1)
qt = pt + 11 qt1 + 12 pt1 + 13 wt1
(1) (2) (2)
+ 11 qt2 + 12 pt2 + 13 wt2 +
(p) (p) (p)
+ 11 qtp + 12 ptp + 11 wtp + udt
(1) (1) (1)
qt = pt + hwt + 21 qt1 + 22 pt1 + 23 wt1 +
(p) (p) (p)
+ 21 qtp + 22 ptp + 23 wtp + uw
t
(1) (2) (p)
wt = 33 wt1 + 33 wt2 + + 33 wtp + uw
t (2.158)
0
Asumimos que (udt , ust , uw
t ) es un vector ruido blanco con una matriz diagonal
D. As, este modelo es un ejemplo de:
B0 yt = xt + ut
donde:

1 0
B0 = 1 h
0 0 1
En este caso no es posible ordenar las variables y hacer B0 triangular inferior.
Sin embargo, t = B01 ut establece una relacion entre los residuos del VAR(t )
y las perturbaciones estructurales.
As, si B0 se estima por ML, entonces las IRFs pueden calcularse reemplazando
A por B01 , y los resultados proporcionaran los efectos de cada perturbacion
estructural sobre los vaores subsiguientes de las variables del sistema.
En particular,
t 1
0 = B0 (2.159)
ut
es decir, el efecto de la j-esima perturbacion estructural yt sobre t esta dado

por bj , la j-esima columna de B01 . As, IRF estructural sera:
yt+s yt+s t+s

= 0 = s bj (2.160)
ujt t u jt
donde s es la matriz (n n) de coeficientes de:
yt = + t + 1 t1 + 2 t2 + (2.161)
2.9.4. Estimacion FIML de un VAR Estructural con Dinami-

ca Irrestricta
La estimacion FIML de los parametros del modelo estructural (y en particular
de la matriz B0 ) es simple si no se imponen restricciones a los coeficientes de
las variables rezagadas:
B0 yt = xt + ut (2.162)
0 0
La funcion de verosimilitud, usando = E(t t ) = B01 D(B01 ) , para el sistema
B0 yt = xt + ut puede escribirse como:
Tn T 0
L(B0 , D, ) = log(2) + log|B01 D(B01 ) |
2 2
T
1 X 0 0 0 0
[yt xt ] [B01 D(B01 ) ]1 [yt xt ] (2.163)
2 t=1
Si no hay restricciones en la dinamica, esta funcion se maximiza respecto de

simplemente regresionando yt sobre xt . Sustituyendo OLS = M L :
Tn T 0
L(B0 , D, ) = log(2) + log|B01 D(B01 ) |
2 2
T
1 X 0 0
t [B01 D(B01 ) ]t (2.164)
2 t=1
Analizando el ultimo termino:

T T n 0 o
0 0 0
X X
t [B01 D(B01 ) ]1 t = tr t [B01 D(B01 ) ]1 t
t=1 t=1
T n o
0 0
X
= tr [B01 D(B01 ) ]1 t t
t=1
n 0
o
= tr [B01 D(B01 ) ]1 T
n 0
o
= T tr [B01 D(B01 ) ]1
n 0 o
= T tr (B0 DB0 ) (2.165)
El segundo termino:
0 0
log|B01 D(B01 ) | = log[|B01 |.|D|.|(B01 ) |]
= log|B01 |.|B01 | + log|D|
= log|B0 |2 + log|D| (2.166)
Usando estos resultados se obtiene:

Tn T T T 0
L(B0 , D, ) = log(2) + log|B0 |2 log|D| tr{(B0 D1 B0 )}
2 2 2 2
(2.167)
Usando calculos similares alos realizados para obtener M L , se puede mostrar

0
que si existen matrices unicas B0 Y D tales que B01 D(B01 ) = , entonces la
maximizacion de refu genera B0 y D que satisface:
0
B01 D(B01 ) = (2.168)
Este es un sistema de acuaciones no lineales y la maxmimizacion numerica de

refu es un enfoque general de resolver este sistema.
Captulo 3
El Filtro de Kalman
Se basa en las contribuciones de Rudolf E. Kalman publicadas en los anos

1960s.1 La idea es representar un sistema dinamico en una forma particular
denominada representacion estado espacio.
Historicamente, el filtro de Kalman se uso desde los anos 1960s para mejorar
la navegacion de vehculos, incluyendo los aeroespaciales, proporcionando un
estimado optimizado del estado (por ejemplo, posicion y velocidad) del sistema
analizado.
EL filtro funciona recursivamente:
1. Usa informacion ruidosa y la filtra usando una curva ajustada por mnimos
cuadrados, la cual es optimizada con una prediccion matematica del estado
futuro generado a traves de la modelacion de las caractersticas fsicas del
sistema.
2. El estimado del modelo se compara con el punto observado y esta diferencia
es escala por un factor conocido como la Ganancia Kalman (Kalman
Gain o KG), la cual se usa como insumo para retroalimentar al modelo
y as mejorar las predicciones siguiente.
3. Ademas, la ganancia puede ser afinada para mejorar el desempeno de
las predicciones. Con un KG grande el filtro sigue mas de cerca a las
observaciones, mientras que que con un KG pequeno el filtro sigue mas de
cerca las predicciones del modelo.
As, el Filtro de Kalman es un algoritmo para actualizar secuencialmente

la proyeccion lineal de un sistema. Entre los usos mas importantes de este
algoritmo en Econometra figuran:
1. Proporciona una alternativa para calcular predicciones finitas exactas y

calcula la funcion de verosimilitud exacta para un proceso ARMA Gau-
siano.
1
R. Kalman nacio en Hungra, el 19 de mayo de 1930. Actualmente es residente de los Estados
Unidos y en el 2009 recibio la Medalla Nacional de Ciencias por sus contribuciones.
49
50 CAPITULO 3. EL FILTRO DE KALMAN
2. Permite factorizar funciones matriciales generadoras de autocovarianzas o

densidades espectrales.
3. Estimar vectores autoregresivos con coeficientes cambiantes en el tiempo.
3.1. Representacion Estado-Espacio de un Sistema

Dinamico
La representacion Estado Espacio (SS) de un sistema dinamico permite analizar-
lo usando el Filtro de Kalman. A continuacion se presentan los supuestos y la
representacion SS.
Sea yt un vector (n 1) de variables observadas en el perodo t. Es posible

describir una clase importante de modelos dinamicos para yt en terminos de un
vector (r 1) posiblemente no observable y conocido como vector de estado,
t .
La representacion estado espacio (SS) de la dinamica de yt es:
t+1 = F t + vt+1 (3.1)
0 0
yt = A xt + H t + wt (3.2)
donde F, A0 y H 0 son matrices de parametros con dimensiones (r r), (n k)

y (n r), respectivamente. Ademas, xt es un vector de variables exogenas o
predeterminadas.
La ecuacion (3.1) se denomina Ecuacion de Estado y la ecuacion (3.2) es la

Ecuacion de Observacion.
Los vectores vt (r 1) y wt (n 1) son vectores ruido blanco con media cero y:

0 , para t =
E(vt v ) = (3.3)
0, otro caso

0 R para t =
E(wt w ) = (3.4)
0 otro caso
donde Q y R son de dimension (r r) y (n n), respectivamente.
Las perturbaciones vt y wt no estan correlacionadas en ningun perodo:

0
E(vt w ) = 0 , para todo t y (3.5)
El vector de xt contiene variables exogenas o predeterminadas. Esto significa que

xt no proporciona informacion alguna sobre t , +1 , t+2 , o wt , wt+1 , wt+2 mas
alla de la informacion contenida en yt1 , yt2 , , yt .
3.1. REPRESENTACION ESTADO-ESPACIO DE UN SISTEMA DINAMICO 51
Por ejemplo, xt podra incluir valores rezagados de y o variables no correla-

cionadas con y w para todo .
El sistema (3.1)-(3.4) tpicamente se usa para describir una serie finita de ob-
servaciones {y1 , y2 , yT }. Sin embargo, se requieren supuestos sobre el valor
inicial del vector de estados 1 .
Asumimos que 1 no esta correlacionado con ninguna realizacion de vt o wt :

0
E(vt 1 ) = 0 , para t = 1, 2, , T (3.6)
0
E(wt 1 ) = 0 , para t = 1, 2, , T (3.7)
La ecuacion de estado (3.1) implica que t puede escribirse como funcion lineal
de (1 , v2 , v3 , , vt ):
2 = F 1 + v2
3 = F 2 + v3 = F [F 1 + v2 ] + v3 = F 2 2 + v3
..
.
t = F t1 1 + F t2 v2 + + F vt1 + vt
t = vt + F vt1 + + F t2 v2 + F t1 1 , , para t = 2, 3, , T (3.8)
Entonces, (3.6) y (3.3) implican que vt no esta correlacionado con valores pasa-
dos de :
0
E(vt ) = 0 , para = t 1, t 2, , 1 (3.9)
De igual forma:
0
E(wt ) = 0 , para = 1, 2, , T (3.10)
0 0 0
E(wt y ) = E[wt (A x + H + w )]
= 0 , para = t 1, t 2, , 1 (3.11)
0
E(vt y ) = 0 , para = t 1, t 2, , 1 (3.12)
El sistema (3.1)- (3.7) es muy flexible:
1. vt y wt podran estar correlacionados

2. F, Q, A, H, R pueden ser funciones del tiempo.
3.2. Ejemplos de Representaciones Estado-Espacio

Las representaciones estado espacio no son unicas. A continuacion se presentan
ejemplos ilustrativos.
Ejemplo 1: Proceso AR(p) univariado.
Considere el siguiente proceso AR(p) univariado:
yt+1 = 1 (yt ) + 2 (yt1 ) + + p (ytp+1 ) + t+1

2 , para t =
E(t ) = (3.13)
0 , otro caso
La representacion SS de este proceso puede escribirse de la siguiente manera:
Ecuacion de Estado (r = p)

yt+1
yt
=

..
.
ytp+2

1 2 p1 p
yt t+1
1 0 0 0 yt1
0

0 1 0 0

.. +

..

.. .. .. .. . .
. . . .
ytp+1 0
0 0 1 0
(3.14)
Ecuacion de observacion (n = 1)

yt
yt1
yt = + 1 0 0 (3.15)

..
.
ytp+1
con lo cual se obtiene la forma general:
t+1 = F t + vt
yt = A0 xt + H 0 t + wt
0
E(vt vt ) = Qrr
0
E(wt wt ) = Rnn
3.2. EJEMPLOS DE REPRESENTACIONES ESTADO-ESPACIO 53
donde:

1 2 p1 p
yt
yt1

1 0 0 0
t =

..

F =
0 1 0 0
. .. .. .. ..
. . . .
ytp+1
0 0 1 0

t+1 2 0 0
0 0 0 0
vt+1 = .. Q=

.. .. ..
. . . .
0 0 0 0
0
yt = yt A = xt = 1
0
H = 1 0 0 wt = 0 R=0
En este caso, la ecuacion de observacion es una identidad trivial, mientras que

la ecuacion de estado es una ecuacion en diferencias vectorial de primer orden.
As, esta representacion SS es otra forma de describir el proceso AR(p), una
forma conveniente de resumir la dinamica del sistema.
El modelo V AR(p) tambien fue escrito usando una representacion SS similar.
Ejemplo 2:
Considere un proceso univariado MA(1):
yt = + t + t1 (3.16)
Una posible representacion SS es la siguiente:
Ecuacion de Estado (r = 2)

t+1 0 0 t t+1
= +
t 1 0 t1 0
Ecuacion de Observacion (n = 1)

t
yt = + 1
t1
Esto es:

t 0 0 t+1
t = F = vt+1 =
t1 1 0 0

2 0
Q= yt = yt A0 = xt = 1 (3.17)
0 0
H0 =

1 wt = 0 R=0 (3.18)
Una representacion SS alternativa para este proceso M A(1) es la siguiente:
Ecuacion de Estado (r = 2)

t+1 + t 0 1 t + t1 t+1
= +
t+1 0 0 t t+1

t + t1
yt = + 1 0
t
Con cualquiera de estas tres representaciones se obtienen predicciones identicas

del proceso o el mismo valor de la funcion de verosimilitud.
Ejemplo 3: Porceso ARMA(p,q)
La representacion SS de un proceso univariado ARMA(p,q) puede obtenerse

definiendo r = max{p, q + 1}:
yt + = 1 (yt1 ) + 2 (yt2 ) + + r (ytr )

+ t + 1 t1 + 2 t2 + + r1 tr+1 (3.19)
donde j = 0 para j > p y j = 0 para j > q.
Una posible representacion SS de este proceso ARM A(p, q) es la siguiente:
Ecuacion de Estado (r = max{p, q + 1})
r1 r

1 2
1 0 0 0 t+1
0
t+1 =
0 1 0 0 t + ..

.. .. .. .. .

. . . .

.. 0
0 0 . 0

yt = + 1 1 2 r1 t (3.20)
Demostracion.
Sea jt el j-esimo elemento de t . Entonces, la segunda ecuacion de la ecuacion

de estado dice que:
2,t+1 = 1,t (3.21)

y la tercera fila:
3,t+1 = 2,t = 1,t1 (3.22)
y en general la j-esima fila:
j,t+1 = j1,t = j2,t1 = = 1,t+2j

j,t+1 = Lj1 1,t+1 (3.23)
As, la primera fila de la ecuacion de estado implica que:
1,t+1 = (1 + 2 L + 3 L2 + + r Lr1 )1t + t+1

(1 1 L 2 L2 r Lr )1,t+1 = t+1 (3.24)
La ecuacion de observacion establece que:
yt = + (1 + 1 L + 2 L2 + + r1 Lr1 )1t (3.25)
Multiplicando por (1 1 L r Lr )
(1 1 L r Lr )(yt ) = (1 1 L r Lr ).(1 1 L r1 Lr1 )1t

(1 1 L r Lr )(yt ) = (1 1 L r1 Lr1 )t (3.26)
que es el proceso ARM A(p, q) inicial.
Aplicacion 1: La tasa de interes real

Fama y Gibbons(1982) estudian el comportamiento de la tasa de interes real
ex-ante, definida como la tasa de interes nominal it menos la inflacion esperada
te .
La tasa de interes real ex-ante es no observable debido a que no se cuenta con
informacion de la inflacion anticipada por el mercado.
As, la tasa de interes real ex-ante es la variable estado:
t = it te (3.27)
donde es el promedio de la tasa de interes real ex-ante.

Fama y Gibbons asumen que t esta descrito por un proceso AR(1):
t+1 = t + vt+1 (3.28)
El econometrista observa la tasa ex-post, it t , la cual puede escribirse como:
it t = it te + te t
= t + + (te t )
= + t + wt (3.29)
El termino wt te t el error que comete la gente al predecir la inflacion. Si

estas predicciones se forman optimamente, entonces:
Cov(wt , w ) = 0
Cov(wt , it te ) = 0, , para < t (3.30)
As, el modelo estado espacio es:
t+1 = t + vt+1 con (r = 1)

yt = + t + wt con (n = 1) (3.31)
donde F = , yt = i t , A0 xt = , H = 1 y wt = te t .
Aplicacion 2: Ciclos Economicos
Stock y Watson (1991) postulan la existencia de un escalar desconocido ct que

representa el estado del ciclo economico.
Se asume que n variables macro observables, (y1t , y2t , , ynt ) estan influenci-
adas por Ct , y tienen un componente idiosincratico (it ) no correlacionado con
los movimientos de yit , para i 6= j.
Si Ct y cada componente it pueden describirse como un proceso AR(1), en-

tonces el vector de estados [(n + 1) 1] es:

Ct
1t

t = 2t

..
.
nt
donde la ecuacion de estado es:

Ct+1 c 0 0 0 Ct vc,t+1
1,t+1 0 1
0 0
1t
v1,t+1

2,t+1 0 0
= 2 0
2t +
v2,t+1

.. .. .. .. .. .. .. ..
. . . . . . . .
n,t+1 0 0 0 n nt vn,t+1
y la ecuacion de observacion:

Ct
y1t 1 1 1 0 0 1t
y2t 2 2 0 1 0

.. =

.. +

.. .. .. .. ..

2t

. . . . . . . ..
.
ynt n n 0 0 1
nt
As, i mide la sensibilidad de i-esima serie ante cambios en el ciclo economico.
Para permitir dinamica de orden p, Stock y Watson reemplazan Ct y it por

los vectores:

Ct it
Ct1 i,t1
y

.. ..
. .
Ctp+1 i,tp
de tal forma que t es un vector de orden [(n + 1)p 1].
Los escalares i se reemplazan por matrices Fi de orden (pp) con la estructura

de la matriz F antes analizada.
Ademas, se anaden bloques de ceros de orden [n (p 1)] entre las columnas

0
de H .
3.3. Derivacion del Filtro de Kalman

Considere el siguiente sistema Estado Espacio o SS:
t+1 = F t + vt+1
(n 1) (n n)(n 1) (n 1)
yt = A 0 Xt + H 0 t + t
(n 1) (n k)(k 1) (n n)(n 1) (n 1)

0 Q(nn) , para t =
E(vt v ) = (3.32)
0, otherwise

0 R(nn) , para t =
E(t ) = (3.33)
0, otherwise
E(vt 10 ) = 0 ,t = 1, 2, , T
E(t 10 ) = 0 ,t = 1, 2, , T
E(vt t0 ) = 0 ,t,
(3.34)
Se asume que el analista ha observado y1 , ,yT ,x1 , ,xT .

Uno de los objetivos puede ser estimar los parametros del sistema. Sin embargo,
por el momento se asume que los valores numericos de F, Q, A, H, R se conocen.
Hay muchos usos del filtro de Kalman. En esta seccion se motiva como un
algoritmo para calcular predicciones mnimo cuadraticas del vector de estado
usando la informacion observada hasta t:
t+1|t E(t+1 |=t )
donde
=t = (yt0 , yt1
0
, , y1 , x0t , x0t1 , , x01 )0 (3.35)
y E(t+1 |Yt ) denota la proyeccion lineal de t+1 sobre =t y una constante.

El filtro de Kalman calcula recursivamente estas predicciones, generando:
1|0 , 2|1 , 3|2 , , T |T 1
Cada una de las predicciones esta asociada a una matriz de M SE de orden

(n n):
Pt+1|t = E[(t+1 t+1|t )(t+1 t+1|t )0 ]
3.3. DERIVACION DEL FILTRO DE KALMAN 59
Para obtener la secuencia 1|0 , 2|1 , , T |T 1 y P1|0 , P2|1 , , PT |T 1 , el filtro

de Kalman se basa en la media y varianza incondicionales de 1 como punto de
partida:
1|0 = E(1 ) (3.36)
P1|0 = E[1 E(1 )][1 E(1 )]0 (3.37)
cuyos valores tpicos son 1|0 = 0 y vec(P1|0 ) = [In2 (F F )]1 .vec(Q)
Luego, tomando como valores iniciales 1|0 y P1|0 , se iteran las siguientes expre-
siones para t = 1, 2, , T :
t+1|t = F t|t1 + F Pt|t1 H(H 0 Pt|t1 H + R)1 (yt A0 xt H 0 t|t1 ) (3.38)
Pt+1|t = F [Pt|t1 Pt|t1 H(H 0 Pt|t1 H + R)1 H 0 Pt|t1 ]F 0 + Q (3.39)
t+1|t denota la mejor prediccion de t+1 basada en una constante y una funcion
lineal de (yt , yt1 , , xt , xt1 , , x1 ), y la matriz Pt+1|t proporciona el MSE
de esta prediccion.
Si se define el termino Kt como:
Kt F Pt|t1 H(H 0 Pt|t1 H + R)1 (3.40)
entonces la ecuacion(3.41) puede ser re-escrita como:
t+1|t = F t|t1 + Kt (yt A0 xt H 0 t|t1 ) (3.41)
El termino Kt se denomina la Matriz de Ganancia de Kalman o Ganancia de

Kalman (Kalman Gain o KG).
3.3.1. Inicio de la recursion

La recursion empieza con 1|0 , la prediccion de 1 que no se basa en observacion
alguna de y o x. Esta prediccion es la media incondicional de 1 :
1|0 = E(1 )
con error cuadratico medio (MSE) igual a:
P1|0 = E{[1 E(1 )][1 E(1 ]0 }
Si los valores propios de F estan dentro del crculo unitario, entonces el proceso
t es estacionario en covarianzas, cuya media incondicional es cero:
E(t ) = 0
y una matriz de varianzas y covarianzas que satisface:
= F F 0 + Q
y cuya solucion puede expresarse como un vector columna:
vec() = [In2 (F F )]1 .vec(Q)
Demostracion E(i ) = 0. Para demostrar E(i ) = 0 hacemos lo siguiente:
t+1 = F t + vt+1
E(t+1 ) = F E(t ) + E(vt+1 )
(I F )E(t+1 ) = 0
E(t+1 ) = 0
Demostracion vec().
t+1 = F t + vt+1
0 0
t+1 t+1 = (F t + vt+1 )(F t + vt+1 )
0 0
= (F t + vt+1 )(t F + vt+1 )
0 0 0 0 0 0
= F t t F + F t vt+1 + vt+1 t F + vt+1 vt+1
0 0 0 0 0 0 0
E(t+1 t+1 ) = F E(t t )F + F E(t vt+1 ) + E(vt+1 t )F + E(vt+1 vt+1 )
0
= F F + Q (3.42)
El operador vec(.) es tal que vec(ABC) = [C 0 A].vec(B). Entonces, usando

el operador vec(.):
vec() = vec(F F 0 ) + vec(Q)

= (F(nxn) F(nxn) ).vec() + vec(Q)
vec() (F F ).vec() = vec(Q)
vec() = [In2 (F F )]1 .vec(Q)
As, en general, si los valores propios de F estan dentro del crculo unitario,
las iteraciones del filtro de Kalman pueden iniciarse con 1|0 = 0 y P1|0 (n n)
cuyos elementos expresados como un vector columna estan dados por:
vec(P1|0 ) = [In2 (F F )]1 .vec(Q)
Si alguno de los valores propios de F estan sobre o fuera del crculo unitario,
o si el valor inicial de 1 no es considerado como una extraccion aleatoria del
proceso implcito en t+1 = F t + vt+1 , entonces:
1. 1|0 puede cuantificarse usando la mejor conjetura del investigador.

2. La matriz P1|0 es positivo definida y resume la confianza en esa conjetura;
as, valores grandes de los elementos de la diagnal de P1|0 indican mayor
incertidumbre sobre el verdadero valor de 1 .

Notas de Clase

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Notas de Clase

Încărcat de

Drepturi de autor:

Formate disponibile

Captulo 1

Elementos de Prediccion en Series

En este captulo se revisa la teora de prediccion y se introduce la idea de

1.1. Predicciones basadas en Esperanzas Condi-

El M SE es una funcion de perdida cuadratica, que permite resumir cuanto nos

Ver la demostracion en Hamilton (1994), p. 73.

1.2. Predicciones basadas en Proyecciones Lineales

La prediccion 0 Xt se denomina proyeccion lineal de Yt+1 sobre Xt si es tal

Proposition 1.2.1. (Proyeccion Lineal Optima) La proyeccion lineal genera el

Demostracion: Hamilton, p.74

La proyeccion lineal de Yt+1 sobre Xt se denota como:

donde satisface 1.1. Alternativamente, podemos escribir:

M SE[P (Yt+1 |Xt )] M SE[E(Yt+1 |Xt )]

En la mayora de aplicaciones se incluira un termino constante en la proyeccion.

P (Yt+1 |1, Xt ) E(Yt+1 |Xt )

1.2.1. Propiedades de las proyecciones lineales:

que es una condicion que tiene que satisfacer.

Operando esta expresion se obtiene:

E[(Yt+1 Xt0 0 Xt Xt0 ] = 00

El MSE asociado a la proyeccion lineal 0 Xt es:

Al reemplazar el vector de coeficientes de la proyeccion lineal se obtiene:

E(Yt+1 0 Xt )2 = E(Yt+1 )2 E(Yt+1 Xt0 )[E(Xt Xt0 )]1 E(Xt Yt+1 )

1.2.2. Proyeccion lineal y OLS

Resultado Importante: La regresion de Yt+1 sobre Xt genera un estimado

1. La regresion OLS Yt = 0 Xt + ut es un resumen de una muestra particular

En el caso de proyeccion lineal solo nos preocupa predecir. Por lo tanto, no

1.3. Actualizando una Proyeccion Lineal

cuyo elemento tpico es ij .

La prediccion de Y3 usando solo informacion de Y1 y basada en una proyeccion

La prediccion de Y2 usando solo informacion de Y1 y basada en una proyeccion

Dada la prediccion P (Y3 |Y1 ), Y2 representa informacion nueva con la que se

P (Y3 |Y2 , Y1 ) = P (Y3 |Y1 ) + [Y2 P (Y2 |Y1 )]

donde [Y2 P (Y2 |Y1 )] es el componente no anticipado de la nueva informacion,

H22 = E{[Y2 P (Y2 |Y1 )][Y2 P (Y2 |Y1 )]0 }

El M SE de esta prediccion es:

H33 = E{[Y3 P (Y3 |Y1 )][Y3 P (Y3 |Y1 )]0 }

1.4. Ley de Proyecciones Iteradas

La Ley de Proyecciones Iteradas dice que esta proyeccion es igual a la

P [P (Y3 |Y2 , Y1 )|Y1 ] = P (Y3 |Y1 )

Vectores Autoregresivos (VARs)

2.1. Especificacion de un modelo VAR

donde es una matriz (n n) positivo definida.

Un vector autoregresivo de orden p o VAR(p) esta definido como:

yt = c + 1 yt1 + 2 yt2 + + p ytp + t (2.2)

donde yt es un vector (n 1), c un vector (n 1) de constantes y j matrices

Un vector autorregresivo o VAR es un sistema en el que cada variable se regre-

Usando el operador de rezagos:

(L) es un polinomio matricial (nxn) en L. La fila i, columna j de (L) es un

ij (L) = [ij 1ij L2 ij L2 pij Lp ] (2.4)

donde ij = 1 si i = j y cero en otro caso.

Un proceso vectorial yt es estacionario en covarianzas si E(yt ) y E(yt ytj ) son

Si yt es estacionario, la media del proceso se obtiene:

Usando , el VAR puede escribirse como desviaciones respecto de su media:

(yt ) = 1 (yt1 ) + + p (ytp ) + t (2.7)

2.1.1. VAR(p) escrito como VAR(1)

Entonces el modelo VAR(p) puede escribirse como el siguiente VAR(1):

Como se vera en el siguiente captulo, esta es la ecuacion de estado de la repre-

2.1.2. Condiciones para la estacionariedad

t+s = vt+s + F vt+s1 + F 2 vt+s2 + + F s1 vt+1 + F s t (2.13)

Proposicion: Los valores propios de F definida en la ecuacion 2.9 satisfacen:

Un VAR(p) es estacionario en covarianzas (EC) si todos los que satisfacen la

estan fuera del crculo unitario.

2.2. Representacion VMA()

2.2.1. VMA() y errores no ortogonales