Nociones de Econometria Intermedia

2007 NOCIONES DE ECONOMETRIA INTERMEDIA.
Universidad de Concepcin
Registro Propiedad Intelectual N 136.998
I.S.B.N. 956-8029-48-6
Segunda Edicin Noviembre 2007
Impresin:
Talleres Direccin de Docencia
Edmundo Larenas 64-A
Barrio Universitario
Concepcin
IMPRESO EN CHILE / PRINTED IN CHILE

NOCIONES DE ECONOMETRIA
INTERMEDIA
JORGE DRESDNER CID Y FELIPE VASQUEZ LAVIN
Junio 2003
ii
ndice general
1. ALGEBRA MATRICIAL 1
1.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Matrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1. Tipos de Matrices . . . . . . . . . . . . . . . . . . . . . 3
1.2.2. Transposicin . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Operaciones de Matrices . . . . . . . . . . . . . . . . . . . . . 5
1.3.1. Igualdad de Matrices . . . . . . . . . . . . . . . . . . . 5
1.3.2. Adicin - Sustraccin . . . . . . . . . . . . . . . . . . . 5
1.3.3. Multiplicacin por Escalar . . . . . . . . . . . . . . . . 6
1.3.4. Multiplicacin de Matrices . . . . . . . . . . . . . . . . 7
1.3.5. Producto Kronecker . . . . . . . . . . . . . . . . . . . 10
1.3.6. Traza de una matriz . . . . . . . . . . . . . . . . . . . 12
1.4. Determinante de una Matriz . . . . . . . . . . . . . . . . . . . 13
1.4.1. Menor de una Matriz . . . . . . . . . . . . . . . . . . . 14
1.4.2. Cofactor de una Matriz . . . . . . . . . . . . . . . . . . 15
1.4.3. Matriz de Cofactores . . . . . . . . . . . . . . . . . . . 16
1.4.4. Matriz Adjunta . . . . . . . . . . . . . . . . . . . . . . 16
1.4.5. Mtodo de Cofactores para el Determinante . . . . . . 16
1.4.6. Propiedades del Determinante. . . . . . . . . . . . . . . 17
1.5. Rango de una Matriz . . . . . . . . . . . . . . . . . . . . . . . 18
1.6. Matriz Inversa . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.6.1. Propiedades de la Matriz Inversa . . . . . . . . . . . . 21
1.7. Diferenciacin de Matrices . . . . . . . . . . . . . . . . . . . . 21
2. ESTADSTICA, PROBABILIDAD E INFERENCIA 25

2.1. Introduccin: Definiciones . . . . . . . . . . . . . . . . . . . . 25
2.2. Momentos de la Distribucin . . . . . . . . . . . . . . . . . . . 31
2.3. Distribuciones de Probabilidad . . . . . . . . . . . . . . . . . . 34
iii
iv NDICE GENERAL
2.3.1. Distribucin Normal . . . . . . . . . . . . . . . . . . . 35

2.3.2. Distribucin Chi - Cuadrado . . . . . . . . . . . . . . . 36
2.3.3. Distribucin t de Student . . . . . . . . . . . . . . . . 37
2.3.4. Distribucin F de Fisher: . . . . . . . . . . . . . . . . . 38
2.4. Inferencia y Estimacin . . . . . . . . . . . . . . . . . . . . . . 38
2.4.1. El problema de la estimacin . . . . . . . . . . . . . . 40
2.4.2. Mtodos de Estimacin . . . . . . . . . . . . . . . . . . 41
2.4.3. Propiedades Deseadas de los Estimadores. . . . . . . . 45
2.5. Intervalos de Confianza y test de Hiptesis . . . . . . . . . . . 54
3. MODELO DE REGRESIN LNEAL GENERAL 61

3.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2. Modelo Clsico . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3. Supuestos del Modelo Clsico . . . . . . . . . . . . . . . . . . 64
3.4. Mnimos Cuadrados Ordinarios . . . . . . . . . . . . . . . . . 69
3.4.1. Propiedades del Estimador MCO . . . . . . . . . . . . 76
3.4.2. Estimador de la Varianza del Error . . . . . . . . . . . 81
3.5. Estimador Mximo Verosmil . . . . . . . . . . . . . . . . . . 85
3.6. Estimacin en Desviaciones de Media . . . . . . . . . . . . . . 87
3.7. Criterios de Bondad del Ajuste . . . . . . . . . . . . . . . . . 92
3.8. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
3.8.1. Pruebas de Hiptesis e Intervalos de Confianza. . . . . 98
3.8.2. Test T Generalizado . . . . . . . . . . . . . . . . . . . 104
3.8.3. Prueba F General. . . . . . . . . . . . . . . . . . . . . 106
3.8.4. Prediccin. . . . . . . . . . . . . . . . . . . . . . . . . 114
4. MINIMOS CUADRADOS GENERALIZADOS 121

4.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121
4.2. Mnimos Cuadrados Generalizados . . . . . . . . . . . . . . . 122
4.3. Estimador Mximo Verosmil . . . . . . . . . . . . . . . . . . 128
4.4. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . . . 130
4.4.1. Deteccin de la Heterocedasticidad. . . . . . . . . . . . 131
4.4.2. Solucin de la Heterocedasticidad. . . . . . . . . . . 139
4.5. Autocorrelacin . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.5.1. Deteccin de Autocorrelacin. . . . . . . . . . . . . . . 148
4.5.2. Solucin de la autocorrelacin. . . . . . . . . . . . . . . 152
NDICE GENERAL v
5. TOPICOS ADICIONALES 159

5.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . 160
5.1.1. Cmo Detectar la Multicolinealidad. . . . . . . . . . . 164
5.1.2. Cmo Solucionar la Multicolinealidad. . . . . . . . . . 166
5.2. Prueba de Cambios Estructurales . . . . . . . . . . . . . . . . 169
5.3. Variables Dictomicas . . . . . . . . . . . . . . . . . . . . . . 176
A. Ejercicios Complementarios 183

A.1. Estimacin de Funcin de Precios y de Produccin . . . . . . 183
A.1.1. Funcin de Precios . . . . . . . . . . . . . . . . . . . . 183
A.1.2. Funcin de Produccin . . . . . . . . . . . . . . . . . . 190
A.2. Instrucciones para el programa E-Views . . . . . . . . . . . . . 198
A.3. Tablas de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . 200
vi NDICE GENERAL
Prlogo
El presente texto est dirigido a un pblico amplio, interesado en in-

ferencia estadstica en economa. La idea del texto ha nacido de una larga
experiencia de enseanza de econometra bsica en la carrera de Ingeniera
Comercial de la Universidad de Concepcin. Los contenidos corresponden
aproximadamente a lo que se cubre en un semestre de estudios parciales o
cinco semanas de estudios intensivos en el primer nivel . En este sentido,
el libro no presenta prerrequisitos en econometra. Eso si, para un uso ms
ptimo del texto, es recomendable tener algunos conocimientos previos de
economa bsica y matemticas.
La econometra se ha transformado en una herramienta indispensable

para profesionales de distintas disciplinas que enfrentan la tarea de trabajar
con datos econmicos. El objetivo de este texto es presentar en forma
comprimida, pero amigable, los rudimentos de econometra que debe tener
cualquier profesional que se quiera desempear bien en un rea de trabajo
que contenga requerimientos de procesar y analizar datos econmicos.
En el mercado existen distintos textos que cubren el material tratado en

este libro, algunos con un nivel muy bsico y otros de nivel muy avanzado. La
necesidad de un texto de este tipo surge del convencimiento que falta un texto
de nivel intermedio, que permita abordar en forma ms general y con un grado
de profundidad mayor, aunque sin llegar a un nivel de postgrado, los mtodos
economtricos bsicos. Adems, el presente texto est orientado a aplicar
los conocimientos adquiridos en Econometra a la realidad nacional. Para
ello, los ejemplos y aplicaciones se desarrollan con series de datos nacionales.
Adems, en el apndice se presentan series de datos adicionales con los cuales
se pueden realizar ejercicios no desarrollados en el texto. Ello no slo permite
al lector realizar ejercicios que relacionen el acontecer y la coyuntura nacional,
con los mtodos aprendidos, y eventualmente con la teora econmica, sino
vii
viii PREFACE
que adems introduce al lector en el mundo de las estadsticas disponibles

en el pas. El trabajo de Econometra no solo implica realizar regresiones y
pruebas con los datos, sino que adems implica recolectar, procesar y ordenar
los datos. Esto ltimo depende de la disponibilidad, accesibilidad y calidad de
los datos disponibles. Al trabajar con series de datos nacionales, creemos que
incentivamos al lector a completar las series, a buscar series para variables
adicionales, a penetrar en el mundo de las instituciones que generan datos
econmicos en Chile. Todo esto es parte del trabajo de un econometrista.
Queremos reconocer la excelente y abnegada labor de asistencia realizada

por Vanessa Maynou. Su contribucin ha sido muy importante para poder
completar el presente texto. Tambin estamos en deuda con Romina Vil-
larroel, cuyo trabajo y apoyo fue muy importante en las ltimas etapas de
edicin de este libro. Finalmente, queremos reconocer el invaluable aporte a
la generacin de la idea de escribir este libro y a su gestacin de nuestros
alumnos, que a travs de los aos y sin saberlo, fueron diseando la forma
final que ste tom.
JORGE DRESDNER C. FELIPE VSQUEZ L.

Captulo 1
ALGEBRA MATRICIAL
1.1. Introduccin
El objetivo de este captulo es entregar algunas nociones de lgebra matri-
cial que son necesarias para la comprensin de los modelos y tcnicas de esti-
macin economtricas desarrollados a partir del captulo 3. Se comienza con
la definicin de matrices y con una clasificacin de stas, para posteriormente
estudiar las operaciones matriciales bsicas, entre las cuales se mencionan la
adicin, la multiplicacin, los determinantes y el Producto Kronecker. Otras
herramientas que sern discutidas son la obtencin de recprocos (inversos
multiplicativos) y sus respectivas propiedades, para finalizar con una breve
introduccin a la diferenciacin matricial.
Las matrices son convenientes porque permiten expresar en forma orde-
nada y compacta una variedad de tpicos relevantes desde la perspectiva
econmica. Por ejemplo, se puede representar en forma matricial la informa-
cin de mltiples series con numerosas observaciones de datos econmicos,
los cuales sirven para estimar diversos modelos tericos y contrastarlos con la
evidencia emprica. As mismo, modelos tericos con gran cantidad de rela-
ciones se expresan en forma sencilla al trabajar con matrices. Por ltimo, los
resultados de los diversos problemas de estimacin planteados son entrega-
dos en una forma ordenada y de fcil interpretacin. Estas ventajas sern
claras para el lector en la medida que profundice en el anlisis de los datos
econmicos.
Los tpicos presentados en este captulo no pretenden ser una revisin
completa del lgebra matricial, sino slo entregar los elementos necesarios
1
2 CAPTULO 1. ALGEBRA MATRICIAL
para comprender los procedimientos matriciales utilizados en estimaciones

economtricas bsicas. Para una profundizacin del lgebra matricial se re-
comienda literatura como Devaud, et al. (1991), Herstein y Winter (1989) y
Jacob (1995)
1.2. Matrices
Las matrices se definen como un ordenamiento o arreglo rectangular de
elementos dispuestos en filas y columnas. La cantidad de filas y columnas
que posea una matriz determinar el orden de sta. As una matriz A que
posea m filas y n columnas, tendr orden mn y la matriz se denotar como:
Amn . Su representacin grfica es

a11 a12 ... a1n
a21 a22 ... a2n

Amxn = .. .. . . .. ,
. . . .
am1 am2 ... amn
donde aij denota al elemento de la matriz que est en la interseccin de la
i-sima fila y la j-sima columna. Veamos el caso de una matriz A de orden
2 3, y de una matriz B de orden 2 2:

3 1 7 2 5
A23 = B22 = ,
0 5 4 6 4
donde 1 es el elemento a12 , y 4 es el elemento b22 .
En economa interesa muchas veces relacionar conjunto de datos. Por
ejemplo, los datos anuales del Producto Interno Bruto (en millones de
pesos de 1986) y el Saldo de la Balanza Comercial (al 31 de diciembre
de cada ao en millones de dlares) de la economa chilena entre los aos
1991 y 1996 se presentan a continuacin como la matriz X:

4,841,447 1,485, 1
5,435,881 722, 0

5,815,646 989, 8
X=

6,147,610 732, 0
6,800,952 1,369, 1
7,305,141 1,095, 0
1.2. MATRICES 3
El orden de esta matriz es de 62. El elemento x21 indica que el Producto

Interno Bruto fue superior a los 5 billones de pesos en 1992 y x62 que el Dficit
en Balanza Comercial fue de casi 1.100 millones de dlares de 1996.
1.2.1. Tipos de Matrices

Casos especiales de matrices son el vector columna y el vector fila. El
primero es una matriz que posee slo una columna y n filas. Anlogamente
el vector fila posee slo una fila y n columnas. Por ejemplo:

a11
a21

a = .. a0 = a11 a12 a1n ,
.
an1
En esta situacin a es un vector columna de orden n 1 y a0 es un vector
fila de orden 1 n. En general, esta es la forma de escribir los vectores usada
en la literatura, por lo que de aqu en adelante se entender que un vector a
denota un vector columna, mientras que a0 un vector fila.
Otro caso particular de matrices que es de inters, son las matrices cono-
cidas como matrices cuadradas, cuya caracterstica es que posee igual
nmero de columnas y filas. En este caso se dir que la matriz es cuadrada
de orden n con n columnas o filas. Un elemento importante de la matriz
cuadrada es la diagonal principal, que es la diagonal formada por todos
los elementos aii , para i = 1.....n. Es decir, para esta matriz, la diagonal
principal est formada por los elementos a11 , a22 ....ann .
A partir de la diagonal principal se pueden definir geomtricamente las
siguientes matrices:
1. Matriz Diagonal: Es aquella matriz que posee slo los elementos de
la diagonal principal distintos de cero.
2. Matriz Triangular Superior: Matriz en que todos los elementos
bajo la diagonal principal son cero.
3. Matriz Triangular Inferior: Anlogo a la matriz anterior, pero donde
ahora los elementos sobre la diagonal principal son cero.
4. Matriz Escalar: Es una matriz diagonal, con la caracterstica que
todos los elementos de la diagonal principal son iguales.
5. Matriz Identidad: Es una matriz escalar cuyos elementos son 1. Esta
siempre se denota por I, o In cuando se desea especificar su dimensin.
Por ltimo, otra clase de matriz es la matriz simtrica, en la cual los

elementos sobre la diagonal principal son el reflejo de los elementos bajo la
diagonal principal. En otras palabras, el elemento aij es igual al elemento aji ,
para i, j = 1...n. Por ejemplo, veamos la siguiente matriz simtrica:

5 4 9
A3x3 = 4 0 3
9 3 1
En esta matriz se puede observar que el elemento a23 (3) es igual al ele-
mento a32 , as como el elemento a12 (4) es igual al elemento a21 . Tambin se
observa que los elementos de la diagonal principal son 5, 0 y 1, respectiva-
mente.
1.2.2. Transposicin
La transpuesta de una matriz A, denotado por A0 , se obtiene mediante
el intercambio de filas y columnas, es decir, las filas se convierten en columnas
y viceversa, manteniendo su orden.
Si consideramos la siguiente matriz A, al transponerla queda:

5 4 9 5 11 2
A33 = 11 0 3 A033 = 4 0 8
2 8 1 9 3 1
En el caso particular de los vectores filas y vectores columnas, al

transponerlos se convierten en vectores columnas y filas, respectivamente.
Recuerde que escribimos a como vector columna y a0 como vector fila. Por
su parte, un escalar, que es una matriz de orden 1 1, al transponerlo queda
el mismo escalar.
Existen, adems, matrices que son simtricas, las cuales al ser transpues-
tas quedan inalteradas. Es decir, si A es una matriz simtrica, entonces:
A0 = A
En la siguiente matriz, podemos observar que al transponer las filas y las

columnas, obtenemos la misma matriz.
1.3. OPERACIONES DE MATRICES 5

3 5 23 4 3 5 23 4
5 1 9 7 5 1 9 7
A4 =
23 A04 =
9 0 5 23 9 0 5
4 7 5 1 4 7 5 1
Un caso especial de matrices simtricas, es la matriz identidad In , la cual

es de gran utilidad en econometra.

1 0 0 1 0 0
0 1 0 0 1 0
0
In = .. .. . . .. In = .. .. . . ..
. . . . . . . .
0 0 1 0 0 1
Obviamente (A0 )0 = A, es decir, al transponer una matriz transpuesta
recobramos la matriz inicial.
1.3. Operaciones de Matrices

1.3.1. Igualdad de Matrices
Para que dos matrices, A y B, sean iguales, stas deben tener el mismo
orden o dimensin y sus elementos correspondientes deben ser idnticos, es
decir aij = bij , i, j.
1.3.2. Adicin - Sustraccin

La condicin necesaria para sumar dos matrices A y B, es que ambas
tengan el mismo orden. As se puede definir la adicin (sustraccin) como:
Amn + () Bmn = Cmn

De tal manera que cada elemento de la matriz C se obtiene de la siguiente
forma:
cij = aij + () bij

En el siguiente ejemplo se suma la matriz A de orden 2 3 con la matriz B
de la misma dimensin.

5 8 1 4 3 2 1 5 3
+ =
9 0 13 7 6 1 16 6 14
Propiedades de la Adicin de Matrices
1. La adicin de matrices es conmutativa, es decir:
A+B=B+A
2. La suma (resta) de una matriz A, con la matriz nula (matriz que posee
todos los elementos iguales a cero), es la matriz A, es decir:
Amn + mn = Amn
3. La adicin (sustraccin) de matrices es asociativa, es decir:
[A + () B] + () C = A + () [B + () C]
4. La transpuesta de la suma (resta) de dos matrices es igual a la suma

(resta) de las matrices transpuestas, es decir:
(A + () B)0 = A0 + () B0
1.3.3. Multiplicacin por Escalar

Para multiplicar una matriz cualquiera de orden m n, por un escalar
cualquiera , se multiplica cada uno de los elementos de la matriz por el
escalar, de tal forma que queda:

a11 a12 a1n
a21 a22 a2n

Amn = .. .. ... ..
. . .
am1 am2 amn

a11 a12 a1n
a21 a22 a2n

= .. .. ... ..
. . .
am1 am2 amn
1.3.4. Multiplicacin de Matrices

Para multiplicar matrices se requiere que el nmero de columnas de la
primera matriz sea igual al nmero de filas de la segunda matriz. Esto es
porque se multiplican, en orden, los elementos de la fila i de la primera
matriz por los elementos de la columna j de la segunda matriz. Por ello, la
cantidad de elementos debe ser la misma. Slo es posible multiplicar Amn
y Bpq s y slo si n es igual a p, y el resultado de la multiplicacin denotado
por la matriz C ser de orden m q. Por ejemplo,
Amn Bnq = Cmq

a11 a1n b11 b1q c11 c1q
a21 a2n b21 b2q c21 c2q

.. ... .. .. . . . = .. ... .. ,
. . . . .. . .
am1 amn bn1 bnq cm1 ... cmq
donde cada elemento de la matriz C corresponde a lo siguiente:

X
n
cij = aik bkj
k=1
As, por ejemplo el primer elemento de la matriz C, (c11 ) corresponde a:
c11 = a11 b11 + a12 b21 + a13 b31 + + a1n bn1

Si el nmero de filas de la primera matriz A, es igual al nmero de colum-

nas de la segunda matriz B, se dice que estas matrices son conformables para
la multiplicacin. Como ejemplo consideremos la siguiente matriz A de orden
23, que vamos a multiplicar por la matriz B que necesariamente debe tener
3 filas, es decir, una posibilidad es que sea de orden 3 1:

1
5 4 10
A= B = 3
8 2 15
2
Sabiendo el orden de ambas matrices, A y B, conocemos el orden de la

matriz resultante, sta es de orden 2 1. La matriz resultante es la siguiente:

5 1 + 4 (3) + (10) (2) 5 12 + 20 13
AB = = =
(8) 1 + 2 (3) + 15 (2) (8) 6 30 44
Matriz Idempotente
En el caso particular de que de la multiplicacin de una matriz cuadrada

A por s misma se obtenga como resultado la misma matriz A, se habla de
una matriz idempotente. Analticamente se tiene que:
Ann Ann = Ann
Por ejemplo:

6 10 6 10
AB =
3 5 3 5

6 6 + 10 (3) 6 10 + 10 (5)
=
(3) 6 + (5) (3) (3) 10 + (5) (5)

6 10
=
3 5
Esto quiere decir que al multiplicar esta matriz por si misma un nmero
de veces cualquiera siempre dar como resultado la matriz A. La matriz I es
otro ejemplo de matiz idempotente.
Propiedades de la Multiplicacin de Matrices

Algunas propiedades de la multiplicacin de matrices son:
1. La multiplicacin de matrices no es, en general, conmutativa, es decir:
A B 6= B A
Una conclusin que se puede sacar de esta propiedad, es que por lo general
el orden que posea la matriz obtenida de multiplicar AB es distinto al orden
de la matriz obtenida de multiplicar B A.
Adems, dado que esta operacin no es conmutativa, el orden de los
factores s altera el producto. Es necesario definir dos operaciones de multi-
plicacin de matrices. La multiplicacin por la derecha o postmultiplicacin
y la multiplicacin por la izquierda o premultiplicacin. En el caso de A B,
implica que A esta premultiplicando a B, o alternativamente, B est post-
multiplicando a A.
2. Un vector fila (0 ), postmultiplicado por su traspuesta () da como

resultado un escalar. Este escalar va a ser la suma de los elementos del
vector al cuadrado, es decir:

1
2 Xn
0 2 2 2
= [1 2 n ] .. = 1 + 2 + + n = u2i
. i=1
n
3. Un vector columna postmultiplicado por su traspuesta da como resul-

tado una matriz cuadrada simtrica de orden n, donde n es el nmero
de elementos del vector columna, es decir:

1 21 1 2 1 n
2 2 1 22 2 n
0
= .. [1 2 n ] = .. .. ... ..
. . . .
n n 1 n 2 2n
4. La multiplicacin de matrices es asociativa, es decir:
(A B) C = A (B C)
5. La multiplicacin de matrices es distributiva con respecto a la suma

(resta), es decir:
A (B + () C) = (A B) + () (A C)
6. La transposicin del producto de dos matrices, es igual a la multipli-

cacin de ambas matrices transpuestas en orden inverso, es decir:
(A B)0 = B0 A0
Observe que en la suma (resta) de matrices transpuestas se mantiene el

orden de los elementos, mientras que en la multiplicacin el orden es inverso.
Esta propiedad se puede generalizar en el caso que sean ms de dos matrices
las que se multiplican, esto es:
(A B C)0 = C0 B0 A0
7. La premultiplicacin y postmultiplicacin de una matriz A por la matriz

identidad entrega como resultado la matriz A, es decir:
Amn In = Im Amn = Amn
8. La transpuesta del producto de un escalar por una matriz es igual a la

multiplicacin del escalar por la transpuesta de la matriz, es decir:
( A)0 = A0 0 = A0 = A0
1.3.5. Producto Kronecker

Esta operacin entre matrices, implica la multiplicacin entre dos matri-
ces (A y B) pero en una forma particular, en la cual no se requiere igualdad
entre las filas de la matriz A y las columnas de la matriz B, al contrario de
los casos de adicin y multiplicacin presentados anteriormente. El producto
de Kronecker implica multiplicar cada elemento de la matriz A por toda la
matriz B, como una simple multiplicacin por un escalar. Si A es de orden

m n y B es de p q, entonces nos queda que la matriz C es de orden
mp nq, denotado por:
Amn Bpq = Cmpnq

donde denota el operador del producto de Kronecker. Para estas matrices
la expresin ms general de la matriz C es:

b11 b12 b1q b11 b12 b1q
b21 b22 b2q b21 b22 b2q

a11
... .. .. .. a1n .. .. . . . ..

. . . . . .

bp1 bp2 bpq bp1 bp2 bpq

b11 b12 b1q b11 b12 b1q

b21 b22 b2q b21 b22 b2q

a21 . .. . . .. a2n .. .. . . . ..

Cmpnq
= .. . . . . . .


.. .. ..
. . .

b11 b12 b1q b11 b12 b1q

b21 b22 b2q b21 b22
b2q
a
m1 .. .. . . .. amn .. .. . . . ..
. . . . . . .
Para clarificar la aplicacin de este operador, veamos el ejemplo de dos

matrices de 2x2. El resultado se obtiene como se muestra a continuacin.

a11 a12 b11 b12
A22 = , B22 =
a21 a22 b21 b22
con estas matrices el producto de Kronecker queda expresado como:

a11 a12 b11 b12
C44 = A22 B22 =
a21 a22 b21 b22

b11 b12 b11 b12
a11 b21 b22 a12
C44 = b21 b22
b11 b12 b11 b12
a21 a22
b21 b22 b21 b22
Cuyo resultado final es:

a11 b11 a11 b12 a12 b11 a12 b12
a11 b21 a11 b22 a12 b21 a12 b22
C44 =
a21 b11

a21 b12 a22 b11 a22 b12
a21 b21 a21 b22 a22 b21 a22 b22
1.3.6. Traza de una matriz

La funcin traza de la matriz A, denotado por tr(A), es una funcin que
entrega como resultado un escalar obtenido de la suma de los elementos de
la diagonal principal de una matriz cuadrada, es decir:
X
n
tr(A) = aii = a11 + a22 + + ann
i=1
Si consideramos la siguiente matriz A, su funcin traza es:

4 0 3
A= 5 9 1
2 8 6
tr(A) = 4 + 9 + 6 = 19
Esta funcin tiene las siguientes propiedades:
1. La traza de la suma (resta) de dos matrices, A y B, del mismo orden

es igual a la suma (resta) de las trazas, es decir:
tr(A + () B) = tr(A) + () tr(B)
2. La traza del producto de la matriz A y un escalar, es igual al escalar

multiplicado por la traza de la matriz A, es decir:
tr(A) = tr(A)
3. La traza del producto de la matriz A posmultiplicada por la matriz B

es igual a la traza del producto de la matriz A premultiplicada por la
matriz B, es decir:
1.4. DETERMINANTE DE UNA MATRIZ 13
tr(AB) = tr(BA),
siempre que AB y BA estn definidos. Lo mismo es vlido para los productos
de las matrices A, B, C siempre que stos estn definidos:
tr(ABC) = tr(BCA) = tr(CBA)
4. La traza de una matriz B, es igual a la traza de la matriz B posmulti-

plicada por la matriz A y premultiplicada por la inversa de la matriz
A, siempre y cuando la matriz A tenga inversa y est conforme para
la multiplicacin, es decir:
tr(B) = tr(A1 B A)
1.4. Determinante de una Matriz

El determinante de una matriz es una funcin sobre una matriz cuadra-
da, que asocia a sta un nmero real unvoco. Se denota por det A o por el
smbolo |A|. El determinante de una matriz de orden n, se obtiene como la
suma de n! (factorial) de trminos. Cada uno de estos trminos se obtiene
de la multiplicacin de n elementos de la matriz, uno de cada fila y de cada
columna, es decir:
X
n!
|A| = (1) a1i1 a2i2 . . . anin
Donde, se define como el nmero de permutaciones posibles entre los
elementos de la matriz. Para una matriz de 2x2 el determinante est definido
como:

a11 a12
A =
a21 a22

a a
|A| = 11 12 = (a11 a22 ) (a21 a12 )

a21 a22
En este caso bsico, la regla para obtener el determinante indica que se

debe multiplicar los elementos de la diagonal principal (a11 y a22 ), y a
ellos restar el producto de los elementos de la otra diagonal (a12 y a21 ).
Por su parte si la matriz es de dimensin de 3x3, su determinante se define
como:

a11 a12 a13
A = a21 a22 a23
a31 a32 a33
|A| = (a11 a22 a33 + a12 a23 a31 + a13 a32 a21 )
(a31 a22 a13 + a11 a32 a23 + a33 a21 a12 )
En este segundo caso, el determinante de esta matriz se obtiene como la

suma de los productos de los elementos que pertenecen a las diagonales que
tienen sentido hacia abajo y a la derecha, menos la suma del producto de los
elementos que pertenecen a las diagonales que tienen sentido hacia arriba y
la derecha , tal como lo indica la frmula anterior.
Este es un mtodo que presenta cierta dificultad, especialmente si se trata
de matrices de orden 5 o superiores, donde la suma va a estar formada por lo
menos por 120 trminos. Afortunadamente existen otros mtodos que sirven
para simplificar el clculo del determinante. Para aplicar estos mtodos es
necesario discutir los conceptos de Menor, Cofactor, Matriz de Cofactores y
Matriz Adjunta.
1.4.1. Menor de una Matriz

Supongamos que tenemos una matriz cuadrada A de orden 3, es decir;

a11 a12 a13
A = a21 a22 a23
a31 a32 a33
El menor es un determinante especial de la matriz. Para esta manera se
pueden definir 9 menores, tantos como los elementos que contiene. Podemos
definir el menor correspondiente a cada elemento, como el determinante de
la matriz resultante de eliminar la fila y la columna de dicho elemento de la
matriz original. Por ejemplo, para el elemento a21 de la matriz A, el menor
est dado por:

a a
M21 = 12 13 = (a12 a33 ) (a32 a13 )

a32 a33
y se denota M21 , donde se ha construido una matriz nueva eliminando la
segunda fila y la primera columna de la matriz A. A esta nueva matriz se le
calcula su determinante. As, se pueden encontrar todos los menores de una
determinada matriz.
Ejemplo: Consideremos la siguiente matriz cuadrada A, de orden 3 3.

5 4 9
A33 = 11 0 3
2 8 1
Se puede obtener el menor del elemento a22 , y ste queda de la siguiente

manera:

5 9
M22
= = 5 1 2 (9) = 23
2 1
1.4.2. Cofactor de una Matriz

El cofactor es otra magnitud importante de las matrices cuadradas. Se
denota por cij , y se define de la siguiente manera:
cij = (1)i+j Mij
Donde Mij es el menor discutido anteriormente. En otras palabras, el

cofactor es un menor con un signo determinado. Si consideramos el ejemplo
anterior, se puede determinar el cofactor del elemento a22 de la siguiente
forma:
c22 = (1)2+2 M22 = 23
En este caso el cofactor corresponde con el menor antes calculado, aunque

ello no siempre es as. Para los cofactores cuyos subndices i, j sumen un valor
impar entonces el signo que preceder al menor ser negativo. Este ser el
caso, por ejemplo, del cofactor c21 .
1.4.3. Matriz de Cofactores

Una vez definidos los cofactores, se puede plantear la matriz de cofactores,
que es la matriz resultante de reemplazar todos los elementos aij de la matriz
original por sus cofactores. Generalmente se le denotar como cof A. As la
matriz de cofactores de A, definida en el ejemplo anterior, ser:

24 17 88
cof A33 = 76 23 32
12 84 44
El lector debera asegurarse que entendi como se obtuvo esta matriz de
cofactores.
1.4.4. Matriz Adjunta

La matriz adjunta, que es la transpuesta de la matriz de cofactores, se
denota por Adj(A). Analticamente se expresa como:
Adj(A) = (cof A)0

Retomando el ejemplo anterior la matriz adjunta de la matriz A queda
de la siguiente manera:

24 76 12
Adj(A33 ) = 17 23 84
88 32 44
Esta matriz, ser de utilidad cuando se discuta la obtencin de la matriz
inversa.
1.4.5. Mtodo de Cofactores para el Determinante

Ahora estamos en condiciones de retomar el clculo de determinante a
travs de un mtodo alternativo conocido como el M etodo de los Cofactores.
Con este procedimiento el determinante se obtiene de sumar los productos de
cada elemento y su correspondiente cofactor a lo largo de una fila o columna
cualquiera de la matriz. Por ejemplo si usamos la matriz cuadrada de orden
2x2 tenemos:

a11 a12
A=
a21 a22
Si sumamos los elementos de la primera columna, el determinante de esta
matriz se obtiene como:

|A| = a11 (1)1+1 a22 + a21 (1)2+1 a12 = a11 a22 a21 a12
Alternativamente, si sumamos por la segunda columna, obtenemos el mis-

mo resultado.

|A| = a12 (1)1+2 a21 + a22 (1)2+2 a11 = a11 a22 a12 a21
Consideremos la matriz del ejemplo anterior:

5 4 9
A33 = 11 0 3
2 8 1
El determinante de esta matriz queda expresado de la siguiente manera,
si consideramos aleatoriamente la segunda columna:
|A| = a12 c12 + a22 c22 + a32 c32

= 4 17 + 0 23 + 8 84 = 68 + 672
= 740
Este ejemplo ilustra un criterio de eficiencia al aplicar el uso de este

mtodo. Como es posible ver el elemento a22 es cero, por lo cual el producto
correspondiente desaparece de la sumatoria. Ello simplifica el clculo del
determinante. Por ello uno debera elegir una fila o columna que tenga la
mayor cantidad de ceros para reducir los clculos lo ms que se pueda.
1.4.6. Propiedades del Determinante.

1. Los determinantes de una matriz A y de su transpuesta (A) son iguales,
es decir, |A| = |A0 |.
2. Al intercambiar de posicin dos filas o columnas cualesquiera de una

matriz A cambia el signo del determinante. Es decir, si B resulta de
intercambiar de posicin dos filas (columnas) de A, entonces
|B| = |A|
3. El determinante del producto de dos matrices es igual al producto de

los determinantes de las matrices.
|A B| = |A| |B|
4. El determinante del producto de una matriz de orden n, multiplicada

por un escalar, es igual al escalar con potencia n multiplicado por el
determinante de la matriz original, es decir:
|A| = n |A|
5. El determinante de una matriz ser cero si:
la matriz posee dos filas (columnas) iguales;
Una de las filas (columnas) es una combinacin lineal de otras filas

(columnas);
Todos los elementos de una fila (columna) de la matriz son cero.
1.5. Rango de una Matriz

Una matriz se puede definir como un conjunto de vectores filas o vectores
columnas. Esto permite aplicar la teora de Espacios Vectoriales a las filas o
columnas de una matriz, y hablar de filas (columnas) linealmente indepen-
dientes o dependientes. Entonces el rango de una matriz se define como el
mximo nmero de filas (columnas) linealmente independientes que tiene la
matriz. Por ejemplo, si la matriz A es cuadrada con orden n, y todas las
fias son linealmente independientes, entonces el rango de la matriz ser n. Se
puede definir la matriz singular, que es aquella que posee filas (columnas)
1.6. MATRIZ INVERSA 19
linealmente dependientes, es decir, el rango de ella es menor que el mximo

nmero de filas o columnas que posee. En el caso contrario, o sea, cuando to-
das las filas y columnas son linealmente independientes, se le llamar matriz
no singular.
Otra forma de definir el rango es como el orden del determinante ms
grande que puede formarse de la matriz distinto de cero.
La propiedad ms importante del rango de una matriz es que ste no
cambia si se multiplica la matriz, tanto por la derecha como por la izquierda,
por otra matriz cuadrada singular. Generalizando, dadas dos matrices Amn y
Bnq , se tiene que:
Rango (A B) mn {Rango (A) ; Rango (B)}

Un ejemplo de una matriz singular sera:

8 4
Rango =1
4 2
Un ejemplo de una matriz no singular sera:

4 2
Rango =2
2 5
1.6. Matriz Inversa

Una de las ventajas que tiene trabajar con determinantes es que permite
calcular la inversa de una matriz. Se puede demostrar que toda matriz no
singular tendr una inversa tal que:
An Bn = Bn An = In
Esto implica que B es la inversa de A y se denota como B = A1 . La
inversa es til en una serie de aplicaciones. Por ejemplo, es posible escribir
y resolver un sistema de ecuaciones en forma matricial, de forma bastante
sencilla. Supongamos que tenemos el siguiente sistema:
a11 x1 + a12 x2 + . . . + a1n xn = b1

a21 x1 + a22 x2 + . . . + a2n xn = b2
.. .. .. ..
. . . .
an1 x1 + an2 x2 + . . . + ann xn = bn
Escrito matricialmente quedara de la siguiente forma:
Ann xn1 = bn1

Luego resolviendo el valor de x se obtendra la solucin completa del
sistema de ecuaciones. Esto se soluciona premultiplicando ambos lados de
la ecuacin por la inversa de la matriz A, es decir por A1 . De esta forma
tenemos:
A1 A x = A1 b
I x = A1 b
x = A1 b,
Lo cual es la solucin del sistema de ecuaciones.

Una forma bastante comn de encontrar esta matriz inversa es:
Adj(A)
A1 =
|A|
Consideremos como ejemplo la matriz de los ejemplos anteriores:

5 4 9
A33 = 11 0 3
2 8 1
Si aplicamos la definicin para obtener la matriz inversa, debemos usar
la matriz adjunta y el determinante obtenidos anteriormente1 :

24 76 12
17 23 84
88 32 44 24/740 76/740 12/740
A1 = = 17/740 23/740 84/740
740
88/740 32/740 44/740
En otras palabras, si aij es el elemento ij-simo de la matriz A1 , entonces:
|Cji |
aij =
|A|
1
Ver Seccin 1.4.
1.7. DIFERENCIACIN DE MATRICES 21
1.6.1. Propiedades de la Matriz Inversa

Algunas de las propiedades que presenta la matriz inversa son:
1. La inversa de una matriz invertida es la matriz original, es decir:
1 1
A =A
2. La transposicin e inversin son operaciones que pueden intercambiarse

sin alterar el resultado, es decir:
1 0
(A0 ) = A1
3. La inversa del producto de dos matrices es equivalente al producto de

las inversas de las matrices, pero con el orden intercambiado, siempre
y cuando existan las inversas de cada una de ellas, es decir:
(A B)1 = B1 A1
4. La inversa de una matriz triangular o diagonal es tambin una matriz

triangular o diagonal, con la caracterstica en las matrices diagonales,
que los elementos son los recprocos de los elementos originales.
5. Los determinantes de una matriz y su inversa, son recprocos entre ellos,

es decir:
1
A = 1
|A|
1.7. Diferenciacin de Matrices

La diferenciacin de matrices es una herramienta importante en econometra,
especialmente cuando se requiere maximizar o minimizar funciones objetivo
escritas en forma de matrices. Un ejemplo de ello es el anlisis de regresin
mltiple.
i) Asuma que existe un vector columna m, cuyos elementos son nmeros y

otro vector columna de variables x tales que:

m1 x1
m2 x2

mn1 = .. xn1 = ..
. .
mn xn
Para multiplicar estos vectores es necesario trasponer uno de ellos, por
ejemplo, se puede trasponer el vector m, obtenindose un escalar al multi-
plicar ambos vectores (es un polinomio). Es decir:

x1
x2

m0 x = (m1 m2 mn ) .. = m1 x1 + m2 x2 + . . . + mn xn
.
xn
Note que m0 x es igual a x0 m. Luego si queremos derivar con respecto

al vector columna x, lo que se hace es derivar el polinomio resultante de la
multiplicacin por cada variable del vector columna, de la siguiente forma:

(m0 x)
x1 m1
(m0 x)
(m0 x) m2
x2 = .
x
= .
. ..
=m
.
(m0 x) mt
xt
De esta manera conseguimos el vector m.
ii) Un segundo caso de relevancia, cuando se trabaja con formas cuadrti-

cas, considera el vector columna x del caso anterior ms una matriz
cuadrada M simtrica de coeficientes de orden n, del siguiente tipo:

m11 m12 m1n x1
m21 m22 m2n x2

Mnn = .. .. ... .. xn1 = ..
. . . .
mn1 mn2 mnn xn
1.7. DIFERENCIACIN DE MATRICES 23
La forma cuadrtica se expresa de la siguiente forma:

X
n X
n
x01n M(nn) x(n1) = mij xi xj
i=1 j=1
Si se deriva la expresin anterior con respecto a cada variable del vector

columna x, se tiene, entonces, que:
(x0 Mx)
= 2Mx = 2M0 x
x
Ejemplo: Supongamos que se tiene una matriz cuadrada simtrica de
coeficientes M de orden 2, y un vector x de variables de orden 2 1:

m11 m12 x1
M22 = x21 =
m21 m22 x2
Al establecer la forma cuadrtica se tiene que:

0 m11 m12 x1
x Mx = [x1 x2 ]
m21 m22 x2

x1
= [x1 m11 + x2 m21 x1 m12 + x2 m22 ]
x2

= x21 m11 + 2x1 x2 m12 + x22 m22
donde se asumi que la matriz M es simtrica, es decir m12 = m21 . Luego

derivamos por el vector x, es decir, derivamos con respecto a cada variable
del vector. Esto queda:

(x0 Mx) (x21 m11 + 2x1 x2 m12 + x22 m22 ) 2x1 m11 + 2x2 m12
= =
x x 2x1 m12 + 2x2 m22

2m11 2m12 x1 m11 m12 x1
= =2
2m12 2m22 x2 m21 m22 x2
0
= 2Mx = 2M x
El conocimiento de los tpicos tratados hasta este momento facilitar la

comprensin de los siguientes captulos, en los cuales se presentarn muchas
veces ejemplos de problemas en forma matricial y donde se usarn las propiedades
de las matrices para obtener resultados tiles desde la perspectiva del econometrista.
Captulo 2
ESTADSTICA,
PROBABILIDAD E
INFERENCIA
2.1. Introduccin: Definiciones

La economa est interesada en ciertos fenmenos que desde el punto
de vista estadstico reciben el nombre genrico de variables. Las variables
son magnitudes que pueden adoptar diferentes valores en distintos puntos de
observacin. En el plano macroeconmico algunos ejemplos de estas variables
son el Producto Interno Bruto, las exportaciones y el tipo de cambio real,
mientras que en el plano microeconmico, tenemos variables como, el precio
de los bienes, el ingreso y el consumo de las familias.
Antes de profundizar en los tpicos economtricos se debe discutir al-
gunos conceptos estadsticos de utilidad para comprender los procedimientos
economtricos. Primero definamos un suceso o punto muestral como uno
de los posibles resultados que pueden observarse en el comportamiento de
una determinada variable. Cada variable puede, en principio, adoptar distin-
tos valores (resultados). Sin embargo, en cada observacin vemos slo uno de
los valores posibles, el cual corresponde a un suceso. Distinguiremos variables
discretas y continuas. La variable ser discreta si su recorrido es un con-
junto finito de valores reales. Ejemplo de este tipo de variable es el nmero
de viajes a un sitio recreacional tal como una playa, realizados por una fa-
milia el cual claramente slo puede tomar nmeros enteros. Por el contrario,
25
26 CAPTULO 2. ESTADSTICA, PROBABILIDAD E INFERENCIA
una variable ser continua si el recorrido es un intervalo de la recta real o la

recta real completa. En este caso, podemos mencionar como ejemplos el PIB,
el ingreso familiar. Estas variables son continuas en el intervalo no negativo
de la recta real, porque en principio pueden tomar cualquier valor mayor o
igual a cero.
Una muestra es un conjunto de sucesos (medidas) seleccionadas de un
universo o espacio muestral. Este ltimo abarca la totalidad de resultados
posibles de un experimento. A este universo se le da el nombre de poblacin.
Por ejemplo, el espacio muestral asociado al PIB, est limitado a ser un valor
no negativo. En principio, el PIB pude tomar innumerables valores diferentes,
pero si tomamos el PIB efectivo entre los aos 1980 y 1990 tendremos una
muestra determinada la cual fue escogida del universo muestral.
La informacin contenida en la muestra se utiliza de dos formas. La
primera de stas da origen a la Estadstica Descriptiva. sta se preocupa
de la recoleccin, ordenamiento y presentacin de datos.Por ejemplo, cul
es el promedio, la desviacin estndar, y la distribucin de los datos de in-
greso nacional en una determinada muestra de la poblacin chilena para un
determinado ao. La segunda es la Inferencia Estadstica. sta utiliza la
informacin de la muestra para proyectar sus resultados al conjunto de la
poblacin. Un ejemplo es intentar, sobre la base del promedio de ingreso de
la muestra, inferir cul es el ingreso promedio de la poblacin.
En econometra generalmente se cuenta con datos que contienen informa-
cin de un determinado perodo o de un determinado segmento de los agentes
econmicos. Un objetivo es, comnmente, inferir cmo se comportarn estas
variables en otro perodo para el cual no tenemos informacin o cmo reac-
cionarn otros agentes econmicos no considerados en la muestra. Es decir,
generalmente, estamos interesados en el comportamiento de la poblacin.
Desde esta perspectiva, la econometra esta interesada principalmente en la
inferencia estadstica.
Note adems, que en Estadstica se trabaja generalmente con experimen-
tos muestrales en los cuales se selecciona con algn mtodo (aleatorio general-
mente) las observaciones de la poblacin que pertenecern a la muestra. Sin
embargo, en el campo de la economa la obtencin de la muestra no siempre
responde al diseo de un experimento muestral y lo que ocurre generalmente
es que los datos ya estn predefinidos por la disponibilidad de informacin
econmica (es el caso de variables como el Producto Interno Bruto, el nivel
de ahorro e inversin de la economa, etc.).
Las variables pueden ser clasificadas en funcin de su naturaleza deter-
2.1. INTRODUCCIN: DEFINICIONES 27
minstica o aleatoria. Se definen como variables determinsticas o contro-

lables aquellas cuyo valor se conoce con certeza. En cambio se denomina
variables aleatorias o no controlables, las que asumen un valor con al-
guna probabilidad asociada. De esta forma, el valor exacto que tomar esta
variable es desconocido antes que un determinado experimento se desarrolle,
pero puede asumir un conjunto de valores dentro de un determinado rango,
cada uno de estos valores con una probabilidad distinta. Desde la perspectiva
economtrica son de particular inters las variables aleatorias. Ello porque
la medicin de los fenmenos econmicos es de carcter probabilstico. Por
una parte, la ciencia econmica no posee conocimiento sobre todos los acon-
tecimientos que condicionan un evento y/o no puede medir todos los acon-
tecimientos relevantes. Ello hace que en los intentos de aplicar las teoras
y medir los fenmenos existan muchos elementos aleatorios, que reflejan
la dimensin del desconocimiento del investigador de variables relevantes.
Por otra parte, el inters de proyectar y predecir los valores de las variables
econmicas es siempre incierto y por ello probabilstico.
Existen distintas formas de concebir la nocin de probabilidad. Por una
parte, la idea de probabilidad asociada a una variable aleatoria se relaciona
con la creencia en la ocurrencia de un evento incierto, y se basa en la nocin
de experimentos mutuamente excluyentes e igualmente probables. Es decir,
si n es el espacio muestral, la probabilidad de un resultado es 1/n para un
experimento con resultados excluyentes e igualmente probables. Por ejemplo,
si hay n bolitas de distintos colores en una caja, iguales en todos los otros
sentidos, y se extrae una en forma aleatoria sin conocer el color, entonces la
probabilidad de tomar un color determinado es 1/n.
Otra forma de entender la probabilidad es como una frecuencia relati-
va. En este caso, si el experimento se repite N veces y se observa que un
evento A ocurre ni veces, entonces ni /N es la frecuencia relativa de A en
N repeticiones del experimento. Al extender esta idea se puede entender la
probabilidad como el lmite de la frecuencia relativa cuando el nmero de
veces que se repite el experimento tiende a infinito, siempre y cuando este
lmite exista. En este caso se asume que el experimento puede ser repetido
en las mismas condiciones aunque sea conceptualmente.
Para que una medida sea probabilstica debe cumplir con algunas condi-
ciones. La probabilidad es una medida, cuyo valor no puede adoptar nmeros
negativos. Es ms, debe tomar un valor entre cero y uno. Es decir, su valor
mximo es uno y su valor mnimo es cero. Adems, tiene como propiedad
que la suma de todos los sucesos posibles, mutuamente excluyentes, es igual
a la unidad. Cumplidas estas condiciones podemos construir una funcin de

distribucin de probabilidad o simplemente funcin de probabilidad que nos
mostrar cmo la masa de la probabilidad se distribuye entre los valores que
puede tomar la variable aleatoria.
Para una variable aleatoria discreta X la funcin de probabilidad se define
como una funcin f (x) tal que para todo numero real x, donde x X ,
f (x) = P (X = x), lo cual representa la probabilidad que la variable aleatoria
X tome el valor x1 y se cumple que:
1. 0 f (x) 1 si x X y
2. f (x) = 0 si x
/X
Adems, si x1 , x2 , ..., xn son todos los valores de X entonces
P
n
3. f (x) = 1
i=1
Ejemplo 1: Suponga que la variable aleatoria (X) es el nmero de caras

que resulta del lanzamiento de una moneda que se arroja dos veces al aire.
Para cada lanzamiento el resultado (o suceso) puede ser cara (C) o sello (S).
Por ello los posibles resultados para ambos lanzamientos son
x1 SS
x2 SC
x3 CS
x4 CC
Si asumimos que la moneda y el lanzamiento no tiene sesgo, la probabili-
dad de cualquier evento particular para un lanzamiento ser 12 . Por ello para
dos lanzamientos consecutivos e independientes ser 14 ( 12 12 ). De tal forma
podemos ordenar la informacin en la siguiente tabla:
Sucesos N de caras (x) Funcin de probabilidad f (x)

SS 0 1/4
SC 1 1/4
CS 1 1/4
CC 2 1/4
Total 1
1
En general, denotamos la variable que puede tomar diversos valores con maysculas,
y una realizacin especfica (un nmero determinado) de la variable con minsculas.
2.1. INTRODUCCIN: DEFINICIONES 29
O si el orden en que salen los resultados en cada lanzamiento no nos

interesa, podemos escribir
N de caras (x) Funcin de probabilidad f (x)

0 1/4
1 1/2
2 1/4
Total 1
La distribucin de las probabilidades de ocurrencia de los eventos es lo

que se conoce por funcin de distribucin de probabilidades.
En el caso de una variable continua en que X puede tomar cualquier
valor en al menos un intervalo sobre la lnea de nmeros reales, la probabilidad
que X tome cualquier valor particular es cero. Esto porque la cantidad de
valores posibles es infinito en cualquier intervalo de la recta real. Por ello,
la probabilidad de que un valor especfico ocurra es cero. De tal manera
que la funcin de probabilidad, que para el caso de una variable continua
se denomina funcin de densidad de probabilidad, tiene sentido slo en un
intervalo. Una funcin definida sobre los nmeros reales es una funcin de
densidad de probabilidad para una variable aleatoria continua si:
1. f (x) 0
R
2. f (x) dx = 1

3. a, b con a b , se cumple P (a x b) = P (a < x < b) =

Zb
f (x) dx
a
En este caso es ms claro el hecho que la P (X = x) = 0, ya que en este

caso el lmite superior e inferior de la integral coinciden, y esto implica que
el rea asociada a esta integral es cero.
Toda variable aleatoria tiene una funcin de distribucin acumulada que
se define como la suma de probabilidades para los valores de la variable
aleatoria X, menores o iguales que un valor dado x. Es decir, la funcin de
distribucin acumulada est dada por, F (x) = P(Xx) para < x < ,
donde F(x) es la probabilidad que la funcin tome valores menores o iguales

a x. Para una variable discreta ser:
x0
X
F (x0 ) = f (t) ,

mientras que para una variable continua su funcin de densidad acumulada

es:
Zx0
F (x0 ) = f (t) dt

En el ejemplo de la moneda que se arroja dos veces (ejemplo 1), la dis-

tribucin acumulada (discreta) de que al menos una de las monedas sea sello
es
X 1
1 1 3
P (X 1) = F (1) = f (x) = f (0) + f (1) = + =
x=0
4 2 4
Las propiedades que debe cumplir esta funcin de densidad acumulada
son las siguientes:
1. F () = 0
2. F () = 1
3. P (a x b) = F (b) F (a)
F (x)
4. f (x) = x
= F 0 (x) para el caso continuo.
Por ltimo, es necesario mencionar la funcin de probabilidad conjunta.

Sea X e Y dos variables aleatorias. El correspondiente espacio de X e Y ,
corresponde a un espacio bidimensional, donde la probabilidad que X = x
e Y = y simultneamente, es denotado por f (x, y) = P (X = x, Y = y). La
funcin f (x, y) es llamada la funcin de densidad conjunta de X e Y y tiene
las siguientes propiedades:
1. 0 f (x, y) 1
PP
2. f (x, y) = 1 para el caso discreto. y
x y
RR
3. f (x, y) = 1 para el caso continuo.
xy
2.2. MOMENTOS DE LA DISTRIBUCIN 31
2.2. Momentos de la Distribucin

Para describir una distribucin se utilizan parmetros denominados mo-
mentos. Se pueden definir los momentos de una distribucin respecto de un
valor especfico o respecto al origen. Se llama r-simo momento de una dis-
tribucin respecto de b, al valor de la esperanza matemtica, si es que sta
existe, de la siguiente expresin:
r
X
n
E (x b) = (xi b)r f (xi ) ,
i=1
en su versin discreta, y
Z
r
E (x b) = (x b)r f (x) ,

en su versin continua.
Por ejemplo, el r-simo momento de la variable aleatoria X respecto de
su origen (b = 0), denotado por r , es :
P
n
r = E (xr ) = xri f (xi ) si es una distribucin discreta
i=1
R
r = E (xr ) = xr f (x) dx si es una distribucin continua

El primer momento respecto al origen, es decir del cero, recibe el nombre

de esperanza matemtica de la variable aleatoria, y representa el valor
promedio de esta variable. Se denota simplemente como:
Pn
= E (x) = xi f (xi ) si es una distribucin discreta
i=1
R
= E (x) = xf (x) dx si es una distribucin continua

En el ejemplo 1, la esperanza matemtica de la distribucin es

X2
1 1 1
= E (X) = xi f (xi ) = 0 +1 +2 =1
i=0
4 2 4
Otros momentos de uso comn son los momentos respecto de la media .
Si existe la esperanza matemtica de una variable aleatoria, se pueden definir
momentos con respecto a la media de la forma:
P
n
mr = (xi )r f (xi ) si es una distribucin discreta
i=1
R
mr = (x )r f (x) dx si es una distribucin continua

El primer momento respecto de la media es cero para cualquier variable

aleatoria. Pero mucho ms importante es el segundo momento con respecto
a la media, llamado varianza, denotado por
X
n
V ar(x) = 2 = (xi )2 f (xi )
i=1
en forma discreta, o
Z
V ar(x) = 2 = (x )2 f (x) dx

en forma continua.
La raz cuadrada de la varianza se conoce como desviacin estndar o
tpica. p
= V ar (x)
La varianza de X en el ejemplo 1 es
X
2
V ar (X) = (xi )2 f (xi )
i=0

1 2 2 1 2 1 1
= (0 1) + (1 1) + (2 1) =
4 2 4 2
Por ende la desviacin estndar o tpica es

r
p 1
V ar (X) = 0,7071
2
Adems, existen los denominados productos de momentos de variables

aleatorias. En este sentido puede definirse el siguiente momento:
mrs = E [(x E (x))r (y E (y))s ]

2.2. MOMENTOS DE LA DISTRIBUCIN 33
Un momento especial es el producto de los primeros momentos respecto

de la media de cada variable aleatoria definido como:
11 = E [(x E (x)) (y E (y))] = E (xy) E (x) E (y)
Por su importancia, este momento acostumbra a denotarse en forma es-

pecial como xy y es conocido como la covarianza entre variables aleatorias.
De tal forma
Cov (x, y) = xy = E (xy) E (x) E (y)
La covarianza mide el grado de asociacin entre las variables, asociacin
que puede ser positiva o negativa. Para comprender este argumento considere
otra forma de expresar la covarianza en el caso de variables discretas:
X
n
Cov (x, y) = (xi x )(yi y )f (xi , yi )
i=1
en que x , y y f (xi , yi ) representan la media de la variable aleatoria X, la

media de la variable aleatoria Y , y la funcin de probabilidad conjunta, re-
spectivamente. Se puede constatar que si los valores de ambas variables estn
por sobre la media o ambos valores estn bajo la media simultneamente, el
valor de la covarianza ser positivo. Por el contrario si un valor est por sobre
la media y el otro bajo la media, el valor de la covarianza ser negativo.
A partir de los momentos mencionados anteriormente se puede definir un
parmetro conocido como coeficiente de correlacin entre X e Y :
Cov (x, y)
xy = p p
V ar (x) V ar (y)
que refleja el grado de variacin conjunta (asociacin lineal) entre dos

variables en relacin a una medida de la variacin total de ambos. Si no
existe correlacin entre las variables aleatorias debe tener un valor igual a
cero.
Existen una serie de propiedades tiles de los momentos 2 . Considere las
variables aleatorias xi y las constantes aj , donde i, j = 1, .., n, entonces:
1. E(xi + aj ) = E(xi ) + E(aj ) = i + aj

2
Una descripcin detallada de estas propiedades puede encontrarse en Mora, et al.
(1996).
2. E(aj xi ) = aj E(xi ) = aj i
3. E(a0 +a1 x1 +a2 x2 +...+an xn ) = a0 +a1 E(x1 )+a2 E(x2 )+...+an E(xn )
4. E(x1 x2 xn ) = E(x1 ) E(x2 ) E(xn ) si y solo si los xi son
independientes entre si.
5. V ar(xi + aj ) = V ar(xi )
6. V ar(aj xi ) = a2j V ar(xi )
7. V ar(xi ) = E(x2i ) 2i
P
n P
n P
i
8. V ar(a0 +a1 x1 +a2 x2 +. . .+an xn ) = a2i V ar(xi )+2 ai aj cov(xi , xj )
i=1 i=1 j=1
i6=j
Tambin se pueden obtener momentos a partir de una muestra de una

determinada variable aleatoria.
Los momentos muestrales ms importantes
son la media muestral X y la varianza muestral (s2 ), definidos:
P
Xi
X =
n
P 2
X i X
s2 =
n
Puede definirse adems, la desviacin tpica o estndar muestral, s, como
la raz cuadrada de la varianza muestral, que puede interpretarse como una
medida de la distancia promedio entre la media y las observaciones.
s
P 2
Xi X
s=
n
2.3. Distribuciones de Probabilidad

Para poder aplicar los conceptos estadsticos revisados hasta aqu a la
medicin de procesos econmicos especficos, es necesario determinar la fun-
cin de distribucin de probabilidad, f (x), que se utilizar. Existen mltiples
distribuciones de probabilidad disponibles, pero por diversas razones algunas
se utilizan en forma ms profusa que otras. Aqu revisaremos las relevantes
para nuestros propsitos.
2.3. DISTRIBUCIONES DE PROBABILIDAD 35
2.3.1. Distribucin Normal

La distribucin normal es una de las distribuciones ms utilizadas en
estadstica y en la modelacin de fenmenos econmicos. Una razn fun-
damental para esto es la existencia del teorema del lmite central, el cual
plantea que cuando el tamao de la muestra se incrementa la distribucin de
una variable aleatoria cualquiera tiende a comportarse de acuerdo a una dis-
tribucin normal. Por lo tanto, basta con tener una muestra suficientemente
grande como para sustentar el uso de una distribucin normal.3 Adems,
muchas de las distribuciones en la naturaleza y en la sociedad son normales.
Finalmente, es una distribucin simple de caracterizar.
Una variable aleatoria continua que puede tomar cualquier valor en la rec-
ta de los nmeros reales, tendr distribucin normal si su funcin de densidad
de probabilidad es:
" #
1 (xi )2
f (x) = exp ,
2 2 2 2
donde es la esperanza de X que es un valor real, y 2 es la varianza. La
notacin que se utiliza en este caso para indicar que X se distribuye en forma
normal con media y varianza 2 es X N(, 2 ).
El grfico de la funcin de densidad normal es en forma de campana,
y es simtrico con respecto a (media), donde alcanza su punto mximo.
Adems, posee dos puntos de inflexin en los valores + y .
Un caso particular de esta funcin es la funcin normal estndar (figu-
ra 2.1), cuya media es cero y su varianza es uno. Esto se indica X N(0, 1).
La funcin de densidad normal estndar es:
2
1 x
f (x/0, 1) = (x) = exp ,
2 2
y su funcin de distribucin acumulada es:
Z x 2
1 z
F (x/0, 1) = (x) = exp dz
2 2
3
Una versin formal del teorema del lmite central es como sigue: Si X es la media de
una muestra aleatoria X1 , X2 , ..., Xn de tamao n de una distribucin de media finita
x
y varianza positiva finita 2 , entonces la distribucin de W = / tiende a distribuirse
n
asintticamente N (0, 1).Ver Hogg y Tanis (1983).
0.3
0.2
0.1
0
-4 -2 2 4
Figura 2.1: Grfica de la Distribucin Normal Estndar
Esta es una integral que slo se puede calcular a travs de mtodos de

aproximacin y generalmente se encuentra tabulada en todos los libros de
estadstica.
En los casos en que la variable aleatoria se distribuye normal pero con
media y varianza 2 , se puede estandarizar la distribucin restando a cada
observacin la media de la distribucin y dividir el resultado por la desviacin
estndar. Es decir:
xi
z=

Esto permite el uso de la funcin de distribucin y densidad de probabili-
dad normal estndar, sin prdida de generalidad. En otras palabras, a partir
de cualquier distribucin normal se puede llegar a una distribucin normal
estndar.
Existen tres distribuciones de probabilidad especficas asociadas a la dis-
tribucin normal y que sern utilizadas para inferencia estadstica. Estas son
conocidas con el nombre de Chi-Cuadrado (2 ), t de Student (t) y F de
Fisher (F).
2.3.2. Distribucin Chi - Cuadrado

Considere una variable aleatoria X tal que X N (, 2 ). Si se define
x
z = , entonces z N (0, 1). Definamos una nueva variable aleatoria
2
x
como 2(1) = z 2 = entonces decimos que 2 se distribuye Chi-

2.3. DISTRIBUCIONES DE PROBABILIDAD 37
0.18
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
2 4 6 8 10 12 14 16
Figura 2.2: Grfica de una Distribuci n Chi-Cuadrado
Cuadrado con 1 grado de libertad.

Si X1 , . . . , Xn son n variables aleatorias independientes
P e idnticamente
distribuidas (i.i.d.) en forma normal estndar, y sea u = ni=1 Xi2 . Entonces
u se distribuye Chi-cuadrado con n grados de libertad.
Lo que se quiere expresar, es que la suma de variables Chi-cuadrado tiene
tambin una distribucin Chi-cuadrado, y sus grados de libertad son igual al
nmero de variables sumadas.
En general, si X1 , . . . , Xn son variables independientes distribuidas Chi-
cuadrado
Pn con v1 , v2 , . . . , vn grados de libertad respectivamente,
Pn entonces si
y = i=1 Xi , se dir que y se distribuye Chi-cuadrado con i=1 vi grados
de libertad. El grfico de la funcin de distribucin Chi-cuadrado, es como el
que se muestra en la figura 2.2. Como puede constatarse, la distribucin 2
no es simtrica, como lo es la distribucin normal. Adems, la distribucin
2 concentra su masa a la izquierda de su mediana.
2.3.3. Distribucin t de Student

Sea X1 una variable aleatoria normal estndar y X2 una variable aleatoria
distribuida Chi-cuadrado con v grados de libertad. Si ambas variables son
independientes, entonces la variable aleatoria T :
X1
T =p ,
X2 /v
tiene una distribucin t de Student con v grados de libertad y se de-

nota por (T t (v)). Su uso corresponde a casos donde es posible aplicar la
distribucin normal, pero bajo la restriccin que se desconoce el valor de la
verdadera varianza poblacional ( 2 ).
2.3.4. Distribucin F de Fisher:

Sean X1 y X2 variables aleatorias independientes distribuidas Chi - Cuadra-
do con v1 y v2 grados de libertad respectivamente, entonces la variable aleato-
ria Y:
X2 /v1
Y = ,
X2 /v2
tiene distribucin F de Fisher con v1 grados de libertad en el numerador
y v2 grados de libertad en el denominador, es decir, Y F (v1, v2). Es posible
demostrar que una distribucin F con (1, n) grados de libertad es equivalente
al cuadrado de una distribucin t con n grados de libertad.
Tanto para el caso de la distribucin normal, como para los otros tres
casos (chi-cuadrado, t-student, F-Fisher), existen tablas que muestran sus
resultados. Estas tablas permiten realizar diversos tipos de juicios sobre el
valor de los parmetros, lo que se discutir en ms detalle en la seccin de
pruebas de hiptesis.
2.4. Inferencia y Estimacin

El propsito de la inferencia es utilizar la informacin contenida en una
muestra para obtener conclusiones sobre los parmetros que representan a
la poblacin. Debido a que los parmetros originales, que caracterizan a la
poblacin son desconocidos, se utiliza una muestra con el fin de obtener una
idea de cual es el valor y comportamiento del parmetro poblacional.
Dos tipos de inferencia son importantes desde el punto de vista economtri-
co: la Estimacin y las Pruebas de Hiptesis. Para el primer caso, lo que
interesa es calcular valores lo ms cercanos posibles a los verdaderos parmet-
ros poblacionales que permitan explicar el comportamiento de los agentes
econmicos. La economa trabaja con modelos que representan relaciones de
comportamiento en los cuales se observan variables endgenas y variables
exgenas que se relacionan a travs de parmetros. Por ejemplo, considere la
2.4. INFERENCIA Y ESTIMACIN 39
relacin entre el consumo y el ingreso dada por:
C = a + bY
donde C es el consumo, Y es el ingreso nacional y a y b son los parmetros

del modelo que se interpretan como el consumo autnomo y la propensin
marginal a consumir respectivamente. El objetivo de la econometra es esti-
mar el valor de estos parmetros (a y b) a partir de informacin contenida
en una muestra en la que recolectamos diversas observaciones de consumo e
ingreso de distintos pases o individuos, o simplemente en distintos momentos
del tiempo.
En el segundo caso nos interesa realizar pruebas de hiptesis, es decir,
analizar el rango de valores posibles que pueden tomar los parmetros pobla-
cionales. En nuestro ejemplo es muy importante que la propensin marginal
al consumo est entre los valores 0 < b < 1, ya que de otra forma carecera
de interpretacin econmica. Note adems, que si el valor es cercano a uno
implica que los individuos gastan casi todo su ingreso marginal, dejando muy
poco para el ahorro.
Dentro de las pruebas ms importantes se encuentran las pruebas de
significancia estadstica, donde se verifica si con la informacin que se dispone
se puede concluir que el valor obtenido es relevante desde el punto de vista
estadstico. Como veremos ms adelante, los valores obtenidos para nuestros
parmetros (a y b en nuestro ejemplo) son variables aleatorias. Por lo tanto,
no se puede descartar a priori que su valor sea cero. Por esta razn una de
las pruebas ms importantes es probar si el valor del parmetro obtenido
es distinto de cero en trminos estadsticos. Si no podemos rechazar esta
hiptesis, ello implica que la variable que acompaa a este parmetro no
ayuda a explicar el comportamiento de nuestro modelo.
Otros ejemplos de pruebas de hiptesis son la verificacin de la elasticidad
unitaria de la funcin de demanda por un determinado producto, o bien
hiptesis de rendimientos constantes a escala para funciones de produccin
del tipo Cobb-Douglas. Veamos en detalle este ltimo ejemplo. Considere la
funcin de produccin
Y = AK L
Donde Y es el nivel de producto, A es el componente de tecnologa, K

representa el capital y L el trabajo. Para estimar los valores de y , se usa
una muestra de observaciones de producto, capital y trabajo de distintas em-

presas, o bien de una misma empresa en distintos periodos del tiempo. Para
proceder con la estimacin se utiliza la expresin de la funcin de produccin
en logaritmos:
ln Y = ln A + ln K + ln L
Suponga que se desea verificar la existencia de rendimientos constantes
a escala en la funcin de produccin anterior. Para tal efecto, la prueba de
hiptesis de rendimientos constantes a escala implica probar que + = 1.
El procedimiento de prueba de hiptesis debe analizar si la suma de los
parmetros es estadsticamente distinto de uno o no.
La necesidad de realizar pruebas de hiptesis se justifica en el hecho que
los estimadores de los parmetros poblacionales son aleatorios en el sentido
que dependen de la informacin contenida en la muestra. Si la muestra cam-
bia, entonces el valor estimado tambin se modifica. En otras palabras, el
valor obtenido asume un valor especfico con alguna probabilidad asociada, y
no existe razn para descartar que tome otro valor cualquiera. Entonces, es
relevante verificar si los parmetros obtenidos son cercanos estadsticamente
a valores esperados por la teora econmica.
A continuacin se explicar las formas tpicas de obtencin de los esti-
madores de los parmetros poblacionales. En la siguiente seccin se analizar
la construccin de Pruebas de Hiptesis.
2.4.1. El problema de la estimacin

Previo a la discusin de los mtodos de estimacin es necesario precisar
qu se entiende por un estimador. Sea X una variable aleatoria con funcin
de densidad de probabilidad f (X, ) donde es un parmetro desconocido
de la poblacin que se desea estimar. Si X1 , . . . , Xn es una muestra aleatoria
de la poblacin podemos definir un estimador como una funcin o regla de
la forma:
= (X1 , X2 , . . . , Xn )
donde el gorro sobre la variable denota que se trata de un estimador del
parmetro poblacional. El estimador es una variable aleatoria que depende
de la muestra observada. Un valor especfico se le denomina valor estimado.
En el ejemplo de la funcin de consumo el estimador del parmetro b, la
propensin marginal del consumo, va a depender de las observaciones del

consumo y el ingreso. Es decir,
b = b (C1 , C2 , ..., Cn, Y1 , Y2 , ..., Yn )
2.4.2. Mtodos de Estimacin

Para la estimacin de los parmetros existen varios mtodos. El texto se
concentrar bsicamente en el Mtodo de Mxima Verosimilitud y el
Mtodo de Mnimos Cuadrados.
Mtodo de Mxima Verosimilitud.

Este mtodo elige los valores para los parmetros de tal forma que stos
maximicen la probabilidad de seleccionar aleatoriamente la muestra que se
tiene actualmente. Alternativamente podemos definir un estimador Mximo
Verosmil (MV)como aqul valor del parmetro para los cuales la muestra
observada es la ms probable de haber ocurrido4 .
Asumiendo que las observaciones en la muestra son independientes
y aleatoriamente escogidas, la funcin de verosimilitud ser la funcin de
probabilidad conjunta de la muestra. Entonces, para valores observados
X1 , . . . , Xn de una variable aleatoria X, con una determinada funcin de
f (X, ), que depende de un vector de parmetros desconocido , la funcin
de verosimilitud est definida por:
Q
n
L () = f (X, )
i=1
El valor del vector se obtiene por los procedimientos convencionales de

maximizacin con:
L ()
=0
=
Para la funcin de verosimilitud los valores que la maximizan son los
mismos que maximizan la funcin expresada en logaritmos, es decir
P
n
ln L () = ln f (X, )
i=1
4
O bien un estimador MV es aquel valor de que tenga la mayor probabilidad de
generar la muestra observada.
y el problema de optimizacin queda dado por:

Pn
Max ln L () = Max ln f (X, ) ,
i=1
cuya condicin de primer orden5 es:

ln L ()
=0
=
Ejemplo 1
Supongamos que se tiene una muestra aleatoria de una variable X dis-
tribuida normal con media y varianza 2 , y queremos encontrar el vector
de parmetros estimados para que, en este ejemplo, corresponde a los es-
timadores de y 2 . La funcin de verosimilitud queda definida por:
" #
2
Q n 1 (xi )2
L , = exp
i=1 2 2 2 2
Aplicando logaritmo natural y simplificando se tiene que:
( " #)
2
Pn 1 (xi )
ln L , 2 = ln exp
i=1 2 2 2 2
( )
2
Pn 1 (xi )
ln L , 2 = ln 1 ln 2 2
i=1 2 2 2
n 1 P n
ln L , 2 = ln 2 2 2 (xi )2
2 2 i=1
Luego obtenemos las primeras derivadas con respecto a y 2 .
ln L (, 2 ) 1 Pn 1 Pn
= 2 (2) (xi ) (1) = 2 (xi ) = 0
2 i=1 i=1

ln L (, 2 ) n 1 Pn
2 1 2 2
= 2 (xi ) (1) =0
2 2 2 2 i=1 2
P
n
(xi )2
n
= 2 + i=1 =0
2 2 ( 2 )2
5
Naturalmente se requiere que las condiciones de segundo orden se cumplan para que
la solucin efectivamente sea un mximo. En los ejemplos discutidos aqu, esto es as.
Resolviendo estas ecuaciones se obtiene que:
P
n
xi
i=1
=
n
P
n
(xi )2
i=1
2 =
n
Vemos que, en este caso el estimador de la media es la media muestral y de

la varianza es la varianza muestral.
Ejemplo 2
Consideremos la variable discreta yi , cuya distribucin es Bernoulli6 , con

probabilidad de xito p. Se busca un estimador para este parmetro.En este
caso la funcin de Verosimilitud est dada por la siguiente expresin:
Q
n
L (p) = (p)yi (1 p)1yi
i=1
P
n P
n
yi (1yi )
L (p) = (p)i=1 (1 p)i=1
Aplicando logaritmo natural, y sus propiedades, se obtiene:
P
n P
n
ln L (p) = yi ln (p) + (1 yi ) ln (1 p)
i=1 i=1
A partir de la ecuacin anterior, se obtiene la primera derivada de la funcin

MV:
ln L (p) P n 1 P n 1
= yi (1 yi )
p i=1 p i=1 1p
6
Un experimento del tipo Bernoulli es un experimento aleatorio, en que el resultado
puede ser clasificado en slo dos eventos mutuamente excluyentes, comnmente denom-
inados xito y fracaso, con yi = 1 para el xito y yi = 0 para fracaso. La probabilidad
de xito es definida por p y la de fracaso 1 p. Luego la funcin de probabilidad puede
escribirse como: f (yi ) = pyi (1 p)1yi .
Simplificando e igualando a cero, para poder despejar p:
ln L Pn 1 P n 1
= yi (1 yi ) =0
p i=1 p i=1 1 p
P
n Pn
yi yi
ln L i=1 Pn 1 i=1
= + =0
p p i=1 1 p 1 p
Pn
p yi
ln L Pn np i=1
= yi + =0
p i=1 1 p 1 p
ln L Pn P n
= (1 p) yi np + p yi = 0
p i=1 i=1
ln L Pn
= yi np = 0
p i=1
Luego p est dado por:

P
n
yi
i=1
p = (2.2)
n
donde el estimador de la probabilidad de xito p est dado por la frecuencia
de aciertos.
En este caso se tiene que cumplir la condicin de segundo orden para
que la solucin corresponda efectivamente a un mximo. Es decir, la segunda
derivada de la funcin verosimilitud debe ser menor que cero:
2 ln L
= n < 0
p2
Mtodo de Mnimos Cuadrados.

La idea de este mtodo consiste en minimizar la suma de los residuos al
cuadrado. Los residuos se definen como la diferencia entre el valor observa-
do de una determinada variable y su valor esperado. El estimador Mnimo
Cuadrtico (MC) es aquel estimador que minimiza la diferencia al cuadra-
do entre el valor observado y el valor esperado.
Xh i2

mnQ = mn Xi E Xi

La idea es que los parmetros se elijan de tal forma que esta sumatoria sea
el mnimo valor posible.
Ejemplo 3
Asumamos una variable aleatoria Y, para la cual se desea estimar la

media poblacional (). Para una muestra dada de observaciones de la variable
aleatoria, el mtodo de Mnimos Cuadrados opera minimizando la sumatoria
de las diferencias al cuadrado entre el valor observado y la media. Esto se
escribe como:
X
mn Q = mn (Yi )2
mn Q X
= 2 (Yi ) (1) = 0

El resultado es7 : P
Yi
=
n
Este nos dice que se utiliza la media muestral como estimador de la media
poblacional.
Dos aspectos son importantes de considerar. Primero, los estimadores
llevan un gorro con el fin de distinguirlos de los verdaderos parmetros
poblacionales. Esto adems, debe indicarnos que los estimadores son una
variable aleatoria, que depende de la muestra con la que se est trabajando.
Segundo, a diferencia del mtodo de Mxima Verosimilitud, el mtodo de
Mnimos Cuadrados no requiere supuestos sobre la distribucin de prob-
abilidad de la variable aleatoria, para obtener el parmetro estimado. Esto
slo se requerir en el momento de realizar pruebas de hiptesis.
2.4.3. Propiedades Deseadas de los Estimadores.

Los mtodos revisados entregan estimadores para los parmetros pobla-
cionales. Sin embargo, no sabemos que tan adecuados son estos estimadores.
Es decir, cmo se comportan en relacin a los verdaderos parmetros de la
poblacin.
7
Es fcil observar en este caso que 2 mn Q/ 2 es positivo, lo cual se requiere para
que efectivamente se trate de una solucin mnima.
Existe una serie de propiedades que son deseables en los estimadores,

independiente del mtodo por el cual se obtuvieron, ya que estas propiedades
reducen los niveles de error entre el verdadero parmetro poblacional y el
estimador. En la literatura se distingue entre las propiedades asociadas a
muestras pequeas y las propiedades de muestra grande o asintticas.
Las primeras se cumplen independientemente del tamao de la muestra
seleccionada, mientras que las propiedades asintticas se cumplen en el lmite,
es decir, cuando el tamao de la muestra tiende a infinito.
Las propiedades de los estimadores ayudan a seleccionar un estimador,
cuando se cuenta con un grupo de estimadores. En otras palabras, son cri-
terios que permiten decidir cual estimador es mejor como representante del
parmetro poblacional desconocido.
Propiedades de Muestra Pequea.

Las principales propiedades que vamos a buscar en un estimador obtenido
de una muestra pequea son las de insesgamiento y eficiencia. Por inses-
gamiento entenderemos que la media o esperanza del estimador sea igual al
valor del parmetro poblacional. Matemticamente se puede expresar como:

E =
Esto significa que en el promedio el estimador es igual al verdadero

parmetro poblacional. Es decir, si el experimento se repite infinitas veces,
obteniendo muestras de tamao n, el valor promedio del estimador para to-
das las
muestras ser . Por el contrario, si la esperanza del estimador es
E = + , donde 6= 0, se dice que el estimador es sesgado, con sesgo
igual a .
Veamos un ejemplo de insesgamiento para el caso discreto de la variable
distribuida Bernoulli, con probabilidad de xito p presentada anteriormente
(ver Ejemplo 2). En este caso se aplica el operador de esperanza (E) al
estimador del parmetro, es decir:

P
n
i=1 yi Pn E (y )
E (p) = E = i
n i=1 n
0.3
0.2
0.1
0
-4 -2 2 4
Figura 2.3: Varianzas de la Distribucin: la curva de lnea punteada est

ms dispersa alrededor de la media que la distribucin de lnea continua. Es decir,
la varianza de la primera es mayor que la de la ltima.
Por la definicin de esperanza sabemos que E (yi ) = 1 p + 0 (1 p) = p.

Por lo tanto, por la sumatoria obtenemos:
np
E (p) = =p
n
Es decir, el valor esperado del estimador p corresponde al valor pobla-
cional. De esta forma se puede observar que este estimador de p es insesgado.
La eficiencia es un concepto que se aplica a estimadores insesgados y se
refiere a que el estimador tenga la mnima varianza posible. Esto quiere decir
que en repetidas muestras los valores de los estimadores tendern a concen-
trarse en torno al valor del parmetro poblacional. Entre muchos estimadores
se preferir aquel que tenga la varianza tan pequea como sea posible. Como
observamos en la figura 2.3 dados dos estimadores diferentes (ambos insesga-
dos) 1 y 2 , es preferible aquella distribucin que es ms estrecha f (2 ) en
torno al valor de la media, puesto que mientras menor sea la varianza, menor
ser la amplitud en torno a la media y por lo tanto mayor ser la precisin
del estimador.
Para probar que un estimador posee mnima varianza existe un teorema
conocido como Teorema de la Cota Inferior de Cramer Rao8 , el cual
establece que la varianza de un estimador ser al menos tan grande como
8
Cramer Rao Lower Bound.
el inverso negativo del valor esperado de la segunda derivada de la funcin

de verosimilitud respecto al estimador. Por lo tanto, la mnima varianza se
obtiene cuando se cumple la igualdad. Si algn estimador cumple con esta
condicin es eficiente. Este teorema se expresa de la siguiente forma:
1
var 2

ln L
E
0
Donde L es la funcin de verosimilitud. Este teorema proporciona una

cota inferior para la varianza de cualquier estimador del parmetro.
Para el caso de muchos parmetros con funcin de verosimilitud dada
por:
Y
n
f (X | ) = f (X1 , . . . , Xn | ) = fi (X | )
i=1
La matriz de esperanzas negativas de segundas derivadas de la funcin de

verosimilitud queda definida por9 :
2
L
I = E
0
! 2 2
2 ln L ln L ln L
E E E
2
1 1 n
2 1 2 !

ln L 2 ln L 2 ln L
E E E
=
2 1 2
2
2 n

.. .. ..
. .
2 . !

2 ln L 2 ln L
E ln L E E
2
n 1 n 2 n
Esta matriz nos entrega las mnimas varianzas de los estimadores mximo
verosmiles ubicados sobre la diagonal principal, y fuera de ella las covarianzas
de los mismos.
Ejemplo 4:
9
Esta matriz se denomina comnmente matriz informacin.
Para entender el concepto considere el ejemplo 1 dado anteriormente,

donde la variable aleatoria X se distribuye normal con media y varianza
2 . En este caso, tenemos que considerar las varianzas de dos estimadores,
y 2 . Las primeras derivadas de la funcin de verosimilitud eran:
ln L (, 2 ) 1 P n
= (xi )
2 i=1
Pn
2 (xi )2
ln L (, ) n
= 2 + i=1
2 2 2 ( 2 )2
Las segundas derivadas de la funcin de verosimilitud son:
2 ln L (, 2 ) 1 P n n
= (1) =
2 2 i=1 2
Pn
2 2 (xi )2
ln L (, ) n i=1
2 = 2
2
( ) 2
2 ( ) ( 2 )3
Pn
2 2 2 2 (xi )
ln L (, ) ln L (, ) i=1
= =
( 2 ) ( 2 ) ( 2 )2
Que en trminos matriciales se transforma en:

P
n
(xi )
n

i=1

2 ( 2 )2
P
n P
n
2
(xi ) (xi )
i=1 n i=1

( 2 )2 2 ( 2 )2 ( 2 )3
Note que
P
n
(xi ) = 0
i=1
P
n P
n
2 (xi )2
(xi ) i=1
i=1 n n
=
( 2 )3 ( 2 )3
n
=
( 2 )2
El paso siguiente es calcular el negativo de la esperanza de esta matriz,

lo que implica aplicar el operador esperanza a cada elemento de la matriz y
cambiar el signo. Recordando las propiedades de los momentos la matriz se
transforma en:
n
2 0
L 2
I = E 0 = n
0
2 ( 2 )2
Por ltimo, se debe calcular la inversa de esta matriz, que es:

n
2 0
n 1 2 ( 2 )
n 1 2
0 0 0

2 2
n = = n 2 2
0 n2 2 ( )
2 ( 2 )2 0
2 ( 2 )3 n
2
En resumen, la mnima varianza que puede obtener un estimador de es ,
n
2
2 ( 2 )
mientras que para el estimador de 2 es . Con respecto a la covarianza
n
entre los estimadores de y 2 se puede decir que el mnimo valor que puede
tomar es cero.
Ejemplo 5
Veamos ahora el caso de la cota inferior para la variable discreta dis-

tribuida Bernoulli (ver Ejemplo 2) con probabilidad de xito p. Calculando
la varianza del estimador de p, se tiene que:

P
n
y
i=1 i
var (p) = var
n

P
n P
n
donde la var yi = var (yi ) .
i=1 i=1
1 P n
Entonces, var (p) = var (yi )
n2 i=1
1
var (p) = 2 n p (1 p)
n
p (1 p)
var (p) =
n
El resultado de la segunda lnea se deriva de: var(yi ) = E (yi2 ) [E (yi )]2 ,

adems la E(yi ) = 1 p + 0 (1 p) = p y E (yi2 ) = 12 p + 02 (1 p) = p,
por lo tanto la var(yi ) = p p2 = p (1 p).
Recordemos que la funcin MV , para este caso es:
Q
n
L (yi | p) = (p)yi (1 p)1yi
i=1
Al aplicar logaritmo natural, con sus propiedades, se obtena:
P
n P
n
ln L (yi | p) = yi ln (p) + (1 yi ) ln (1 p)
i=1 i=1
Luego, la primera derivada de la funcin de verosimilitud, con respecto a p,

es:
ln L P n y
i Pn (1 y )
i
=
p i=1 p i=1 1 p
A partir de esto obtenemos la segunda derivada con respecto a p:
2 ln L 1 P n 1 P
n
= yi 2 (1 yi )
p2 p2 i=1 (1 p) i=1
Aplicando esperanza, multiplicado por 1 y simplificando se tiene:

2
ln L 1 P n 1 Pn
E = E 2 yi (1 yi )
p2 p i=1 (1 p)2 i=1
Pn Pn
2 E (yi ) E (1 yi )
ln L i=1 i=1
E = +
p2 p2 (1 p)2
P
n Pn
1 E (yi )
pn i=1 i=1
= +
p2 (1 p)2
n n pn n n (1 p)
= + 2 = +
p (1 p) p (1 p)2
n n n (1 p) + pn
= + =
p (1 p) p (1 p)

2 ln L n
E =
p2 p (1 p)
Luego, podemos concluir que la cota inferior para la varianza de p es:
1 p (1 p)
2
=
ln L n
E 2
p
Hasta el momento hemos considerado la situacin en que se debe se-

leccionar entre dos estimadores insesgados, para ello se sugiere utilizar el
criterio de mnima varianza. Sin embargo, un problema especial surge cuan-
do se quiere seleccionar entre estimadores que no son insesgados. Existen
situaciones en que no se pueden obtener estimadores insesgados, por lo que
el criterio de eficiencia no es aplicable para la seleccin entre stos. Adems
pueden existir estimadores sesgados con varianza menor que los insesgados.
Existe un trade-o entre insesgamiento y precisin: Es preferible un esti-
mador cuyo valor esperado sea igual al parmetro poblacional, aunque tenga
una gran varianza, o un estimador que flucte poco alrededor de su valor es-
perado, aunque ste ltimo difiera del parmetro poblacional?. En este caso
existe un criterio que consiste en elegir aquel estimador que posea un menor
Error Cuadrtico Medio (ECM), el cual se define como:
ECM = E( )( )0
donde y son el vector de parmetros estimados y poblacionales respecti-

vamente.
Desarrollando se tiene:
h i
0
ECM = E ( )( )
h i
= E ( E() + E() )( E() + E() )0
n on o0
= E ( E()) + (E() ) ( E()) + (E() )
hn on oi
0 0
= E ( E()) + (E() ) ( E()) + (E() )
h i h i
= E ( E())( E())0 + E ( E())(E() )0
h i h i
+E (E() )( E())0 + E (E() )(E() )0
h i h i
= E ( E())( E())0 + E (E() )(E() )0
= var() + (sesgo())(sesgo())0
Y para el caso particular de un solo parmetro el Error Cuadrtico Medio

10
es :
ECM = var() + (sesgo ())2
Del desarrollo se puede concluir que el mnimo error cuadrtico medio es

un criterio que toma en consideracin tanto el sesgo como la precisin para
el estimador y selecciona aquel que tenga el menor valor. Note que el sesgo
y la precisin, medida por la varianza, estn ponderadas de igual forma en
el clculo del ECM.
10
Donde se ha hecho uso de las propiedades del operador esperanza. Adems, el segundo
y el tercer trmino de sta expresin son nulos, como puede comprobarse al expandir y
sacar la esperanza de cada uno de stos trminos.
Propiedades de Muestra Grande

Para el propsito del texto nos concentraremos en la propiedad de con-
sistencia para estimadores obtenidos de muestras grandes11 . Esta es una
propiedad asinttica, ya que describe una condicin que se da en el lmite
de la distribucin de probabilidades del estimador, cuando el tamao de la
muestra tiende a infinito.
Un estimador se considerar consistente si:
h i

> 0, lm P n < = 1
n
Esto quiere decir, que en la medida que aumenta el tamao de la muestra

n, la probabilidad de la diferencia absoluta entre el estimador y el verdadero
parmetro sea menor que un nmero , ser uno, donde es un nmero
arbitrario que puede ser infinitamente pequeo. Esto quiere decir que si la
muestra es suficientemente grande el valor del estimador tender a ser igual
al valor del parmetro poblacional con certeza. Existen dos condiciones su-
ficientes pero no necesarias, para que un estimador sea consistente, estas
son:

1. lm E =
n

2. lm var = 0
n
En otras palabras, si estas 2 condiciones se cumplen el estimador ser

consistente.
2.5. Intervalos de Confianza y test de Hipte-

sis
Si se considera que los estimadores son variables aleatorias, entonces es
lgico preguntarse por la utilidad de los valores obtenidos en el proceso de
estimacin. En otras palabras, el estimador depende de la muestra disponible,
por lo tanto si nosotros cambiamos la muestra, entonces tambin debera
cambiar nuestro estimador. Si esto es cierto, existe una variedad de valores
11
Otras propiedades asntoticas son el insesgamiento asinttico y la eficiencia asinttica.
Ver mas detalle en Greene (1998).
2.5. INTERVALOS DE CONFIANZA Y TEST DE HIPTESIS 55
que el estimador puede tomar considerando distintas muestras y por lo tanto

no sabemos cuanto se puede confiar en estos valores. Esto es muy importante
cuando,por ejemplo, los valores obtenidos se pretenden usar con fines de
diseo de poltica econmica.
Afortunadamente, en las estimaciones realizadas (es decir en el valor del
estimador y de su respectiva varianza) subyace mucha informacin que puede
ser til para afrontar estos problemas. Una alternativa para enfrentar este
problema de informacin es el enfoque denominado Estimacin por In-
tervalos, que consiste en construir un Intervalo de Confianza para el
parmetro de inters.
El intervalo de confianza refleja un rango dentro del cual se espera que
fluctue el valor del parmetro. Comnmente se usa un 95 % de probabilidad.
Esto implica que si se construye infinitas veces un intervalo de confianza, en
el 95 % de los casos el intervalo contendr al parmetro poblacional.
Supongamos que se desea encontrar un intervalo de confianza para la
media de una variable aleatoria distribuida normal con media y varianza
2 . De una muestra se obtiene que la esperanza es x y su varianza es s2 . El
intervalo de confianza se define de la siguiente manera:

P z < Z < z = 1
1 1
2 2
donde Z corresponde a una variable distribuida normal estndar y es el
nivel de significancia y zi 2 y zi 2 son el lmite inferior y superior del
intervalo, respectivamente. Por ejemplo para un 95 % de confianza, = 0,05
(1 0,05 = 0,95).
Luego, recordemos que por hiptesis:

2
x N ,
n
Estandarizando la variable aleatoria se tiene:
x
z=p N (0, 1)
2 /n
Luego, reemplazando la variable normal estndar, en la definicin del
intervalo de confianza, y desarrollando
!
x
P z1 < p < z1 = 1
2 2 /n 2
p p
P z1 2 /n < x < z1 2 /n = 1
2 2
Por ltimo, se tiene que el intervalo de confianza es:

p p
2 2
P x z1 /n < < x + z1 /n = 1 (2.3)
2 2
Note que ste es el caso para la media de una distribucin normal. De

tal manera que para identificar los lmites del intervalo se requiere leerlos de
una tabla de distribucin normal. Para cada caso se requiere conocer la dis-
tribucin de probabilidad del estimador, y usar por lo tanto una distribucin
adecuada para construir el intervalo de confianza deseado.
Lo que la ecuacin 2.3 refleja es un rango dentro del cual vara la media,
considerando un nivel de probabilidad de 1 . Por ejemplo, tomemos la
estimacin de la propensin marginal a consumir (PMC) de una funcin de
consumo y asumamos que el estimador del parmetro poblacional es b = 0,84
y su varianza igual a 2 /n = 0,0064. El intervalo de confianza estara dado
por:
p p
P 0,84 1,96 0,0064 < < 0,84 + 1,96 0,0064 = 0,95
P (0,683 2 < < 0. 996 8) = 0,95

donde el valor 1.96 se ha obtenido de una tabla de distribucin normal es-
tndar para un valor de 0.975 con n infinito.
En palabras, se puede decir que la propensin marginal al consumo de-
bera fluctuar entre un rango de 0.683 y 0.997 con un 95 % de probabilidad.
Si bien es cierto, esta informacin es til, existen ocasiones en que puede
resultar muy vaga o riesgosa. Note que sin necesidad de realizar estima-
ciones podemos decir con un 100 % de confianza que la propensin marginal
a consumir estar entre cero y uno. Obviamente, esta informacin no es
sorprendente, y ser de muy poca utilidad al momento de disear polticas
econmicas ( por ejemplo, para activar la economa ). Es decir, si el intervalo
de confianza es muy amplio, no entrega mucha informacin.
Otra forma de abordar el problema es realizar lo que se conoce como
prueba de hiptesis puntual. Existen ocasiones en que por alguna razn se
cree que el estimador debe tener un valor especfico (por ejemplo, se puede
creer que la PMC es igual a 0.5). En las pruebas de hiptesis, se contrasta
alguna determinada creencia respecto del valor del parmetro poblacional, a
lo cual se le denomina hiptesis, con una creencia alternativa.
Cualquier prueba de hiptesis que se realice debe contener algunos ele-
mentos bsicos. Estos son:
1. Hiptesis Nula: es la hiptesis que se pretende probar. Esta puede

ser simple o compuesta. En el primer caso se desea verificar slo una
condicin. Generalmente toma la forma de un enunciado sobre el valor
especfico que toma el parmetro relevante. Por ejemplo = 0 , donde
0 representa un valor determinado.En caso de pruebas compuestas se
quiere probar ms de una condicin. Cualquiera sea el caso se denotar
como H0 .
2. Hiptesis Alterna: Es la hiptesis que sirve para contraponer y que

complementa la hiptesis nula. La hiptesis alterna debe cubrir todas
las otras posibilidades de valores que pueda adoptar el parmetro rele-
vante, distintos a la enunciada en la hiptesis nula. En nuestro ejemplo
anterior, la hiptesis alterna sera 6= 0 . Generalmente se denota por
H1 .
3. Estadstico de Prueba: es una funcin de la muestra y que se con-

trastar con la hiptesis nula. Sobre la informacin que entregue tomare-
mos una decisin consistente sobre la veracidad o falsedad de la hipte-
sis nula.
4. Zonas de Rechazo y de Aceptacin: son las zonas de la funcin de

distribucin de probabilidades donde se rechaza o acepta la hiptesis
nula a favor de la hiptesis alterna. Si el estadstico de prueba cae fuera
de la zona de rechazo, entonces aceptaremos la hiptesis nula.
Existen dos errores que se pueden cometer al realizar una prueba de

hiptesis. El primero que se denomina error de tipo I corresponde al error
de rechazar la hiptesis nula cuando sta es verdadera. El segundo es el error
de tipo II que corresponde al error de aceptar la hiptesis nula, siendo esta
falsa. La probabilidad de cometer el error de tipo I se denota por y se conoce
con el nombre de nivel de significacin, mientras que 1 se conoce como
el nivel de confianza. Por otra parte la probabilidad de cometer el error
tipo II, se denota por , y 1 se conoce con el nombre de potencia.
El investigador requerir contrastes donde las probabilidades de come-
ter alguno de los errores sean pequeas, pero lamentablemente solo puede
reducirse uno de ellos a costa de aumentar el otro. Los valores ms comn-
mente usados para son 1 % y 5 %. Con estos valores queremos indicar que el
error tipo I es generalmente considerado ms importante y que lo queremos
evitar.
Zona de Zona de
Rechazo Rechazo
-1,96 -1,96
Zona de
Aceptacin
Figura 2.4: Zonas de Aceptacin y Rechazo de Hiptesis
Para realizar la prueba, podemos usar el intervalo de confianza construido

para el parmetro. Supongamos que se desea contrastar una hiptesis con
respecto al valor de , lo cual se escribe como la hiptesis nula H0 : =
0 , y compararla con la hiptesis alternativa H1 : 6= 0 . Para verificar
esta hiptesis debemos observar si 0 se encuentra dentro del intervalo de
confianza. Si es as entonces podemos aceptar la hiptesis nula. En caso
contrario, si 0 se encuentra fuera del intervalo, entonces aceptaramos la
hiptesis alterna.
En el caso particular de la PMC asumamos H0 : b = 0,5. Este valor est
fuera del intervalo de confianza construido, por lo que podemos decir que
se rechaza la hiptesis nula de que el verdadero valor del parametro es 0.5,
considerando un 95 % de probabilidad. En resumen, si se conoce el estimador
de , se construye un intervalo al nivel de confianza deseado, y se acepta
la hiptesis nula si 0 cae dentro del intervalo. El anlisis es distinto si la
hiptesis nula se refiere a una igualdad (H0 : = 0 ) , o si se refiere a una
desigualdad (H0 : 0 ). La diferencia principal est en la zona de rechazo
de la prueba que en el caso de igualdad tendr dos colas, mientras en una
desigualdad va a existir una sola cola. En el caso de una desigualdad mayor
la zona de rechazo ser la cola de la izquierda, mientras que en el caso de
una desigualdad menor, la zona de rechazo ser la cola de la derecha. Para
entender mejor el resultado se presenta la figura 2.4 en la cual se muestran
las zonas de aceptacin y de rechazo de esta prueba de hiptesis, para un
= 0,05.
Alternativamente, la prueba de hiptesis se puede realizar de forma pun-

tual. No olvide que para realizar cualquier prueba es necesario definir la
distribucin de probabilidad que tiene el estimador. Para ejemplificar,
supongamos que tenemos un estimador que tiene una distribucin normal
con media y varianza 2 /n. Y planteamos la siguiente hiptesis nula:
H0 : =
y su hiptesis alterna:
H1 : 6=
Para realizar la prueba se calcula el valor del estadstico zc como una

variable normalizada estndar:

zc = r
2
n
Donde es el valor del estimador, es el valor que queremos asignar

mediante la prueba de hiptesis y es la desviacin estndar.12 Luego una
vez que conocemos el valor de zc lo comparamos con los valores obtenidos
de la distribucin de probabilidades normal estndar tabulada. Si el nivel de
confianza es del 95 %, el valor de tabla es de 1,96. Luego si zc es mayor que el
valor de tabla en valor absoluto rechazamos la hiptesis nula. Esto es vlido
en el caso de distribuciones simtricas, ya que en los otros casos se tendr
dos valores, uno para la cola superior (-1.96 en nuestro caso) y otro para la
cola superior (1.96). Si el valor de zc cae dentro de este intervalo, entonces
aceptamos la hiptesis, en caso contrario la rechazamos.
Retomemos el ejemplo anterior en que la estimacin de la propensin
marginal a consumir de la funcin de consumo es b = 0,84 y su varianza
igual a 2 /n = 0,0064. Planteamos la hiptesis que la propensin marginal a
consumir es igual a 0.5, entonces nuestra prueba de hiptesis ser:
Hiptesis nula H0 : b = 0,5

12
Note la diferencia entre y . El primer operador se utiliza para identificar el ver-
dadero valor del parmetro,el cual es desconocido. Mientras que denota cualquier creen-
cia sobre el valor que puede tomar el parmetro.
Hiptesis alterna H1 : b 6= 0,5
Como se puede ver esta es una prueba de dos colas. Calculando nuestro
estadstico de prueba:
b b 0,84 0,5
zc = p = = 13. 44
2
s /n 0,00064
Si comparamos este valor con la tabla normal con un 5 % de confianza,

encontramos que este valor cae en la zona de rechazo. Por lo tanto podemos
rechazar con un 5 por ciento de significancia que la propensin marginal al
consumo sea igual a 0.5. Note que este caso es anlogo a la prueba usando
intervalos de confianza.
Un caso especial de este procedimiento es el Test de Significancia13 , en
el cual se determina si el valor del parmetro es estadsticamente distinto de
cero. De esta forma la hiptesis nula es H0 : = 0, y por lo tanto la hiptesis
alterna es H1 : 6= 0. Retomando el ejemplo de la funcin de consumo, si la
hiptesis nula plantea que b = 0, y ello resulta ser verdadero, entonces, sto
quiere decir que el nivel de ingreso no afecta el nivel de consumo. En otras pal-
abras, lo que se busca probar es si la variable que acompaa a este parmetro
es significativa para explicar el comportamiento de la variable dependiente.
Si el valor del parmetro fuese cero o si aceptramos esta hiptesis, implica
que la variable explicativa no es relevante en nuestro modelo. Por ejemplo,
si b = 0 tenemos:
0,84 0
zc = = 33,204
0,00064
Lo que cae claramente en el rea de rechazo. Obviamente, si nuestro mode-
lo est correctamente especificado deberamos rechazar la hiptesis nula. Si
rechazamos la hiptesis nula de que el parmetro es cero, quiere decir que la
variable usada en el modelo es significativa.
13
Llamaremos Test de Significancia a la prueba de hiptesis mediante la cual se intenta
probar si el valor del parmetro es igual a cero.
Captulo 3
MODELO DE REGRESIN
LNEAL GENERAL
3.1. Introduccin
En este captulo se presenta uno de los modelos ms utilizados para la
estimacin economtrica, conocido como el modelo de regresin lineal general.
En su versin sencilla, este modelo slo tiene dos variables, una explicada
y otra explicativa. En su forma general, este modelo puede incluir tantas
variables explicativas como sea necesario. Debido a que la mayora de los
problemas prcticos en Econometra incluyen ms de una variable explicativa,
se adoptar el enfoque general.
En la exposicin del tema se trabajar con un enfoque matricial, ya que
con este instrumental es posible tratar con mayor facilidad el problema de
estimacin de un modelo lineal con ms de dos variables. En la exposicin
del captulo, se recurrir al modelo simple cuando sea til para ejemplificar
o explicar algn punto de relevancia.
El modelo lineal general, tambin conocido como modelo clsico, es
el modelo bsico en econometra, por lo que todo el desarrollo de la teora
economtrica subsiguiente requiere un conocimiento cabal de ste. Su carac-
terstica fundamental es su simplicidad, como consecuencia de los supuestos
utilizados. Estos supuestos son un tanto restrictivos. Sin embargo, una vez
que se domina el modelo bsico, es posible levantar algunos supuestos y es-
tudiar su efecto sobre los estimadores. Los captulos posteriores discutirn
estos aspectos. Por el momento, nos concentraremos en el modelo clsico.
61
62 CAPTULO 3. MODELO DE REGRESIN LNEAL GENERAL
3.2. Modelo Clsico

El Modelo lineal general est formado por una variable dependiente o ex-
plicada que denotaremos por Yi , cuya variabilidad es explicada por k variables
independientes o explicativas Xij donde j = 1, ..., k, y una variable aleatoria
no observable comnmente expresada como i , y conocida como trmino de
error. El subndice i expresa la observacin correspondiente de las variables,
donde suponemos que i = 1, ..., n. Por ejemplo, si las observaciones son dis-
tintos individuos, entonces i refleja el valor que tienen las variables Y y Xj
para el individuo i. Esto se puede escribir como:
Yi = 0 + 1 Xi1 +, ..., + k Xik + i (3.1)

El sentido de esta relacin es medir la contribucin que cada variable Xj
realiza a la explicacin de la variable Y . Adems se incluye un trmino
constante, con valor igual a 1 para cada i (que corresponde al coeficiente 0 ),
para captar el efecto de aquellos factores que no varan entre las observa-
ciones i. Finalmente, el trmino de error debera reflejar aquellas variables
explicativas no incluidas en la ecuacin, pero que s varan entre las observa-
ciones.
Como tenemos n individuos, existe una ecuacin como 3.1 para cada
individuo. Con el fin de simplificar la escritura y utilizar las ventajas de la
notacin matricial, el modelo puede resumirse en:
Ynx1 = Xnk k1 +nx1 (3.2)

Donde Y es un vector columna con n observaciones de la variable depen-
diente, X es una matriz de orden nk, con unos (1) en su primera columna y
con las observaciones de las variables explicativas en las restantes columnas,
y es un vector columna de coeficientes. Por ltimo, es un vector columna
que contiene los errores para cada observacin de la muestra.
Es decir:
Ynx1 = Xnk k1 + nx1

Y1 1 X11 X12 ... X1k 0 1
Y2 1 X21 X22 ... X2k 2 2 (3.3)
=
.. .. .. ... ..

..

+ ..

. . . . . . .
Yn 1 Xn1 Xn2 ... Xnk k n
3.2. MODELO CLSICO 63
Pero, qu refleja esta ecuacin?. Primero que nada esta ecuacin refleja
lo que la teora econmica sugiere sobre algn modelo. En trminos generales
dice que los cambios en la variable Y se pueden explicar por un conjunto de
variables explicativas denotadas por 0 + 1 X1 +, ..., + k Xk , lo que es cono-
cido como la parte determinstica del modelo, y adems, existe una porcin
de los cambios en Y que no podemos explicar con este modelo o bien que no
sabemos cmo explicar. Este ltimo componente se conoce como componente
estocstico del modelo y se incluye en el vector .
Desde el punto de vista de la estimacin, uno generalmente cuenta con
informacin tanto de la variable dependiente como de las independientes,
y el problema que se enfrenta es determinar el valor del vector , es decir
estimar el valor de los coeficientes de las variables independientes. Estos
coeficientes reflejan la contribucin individual de cada variable explicativa a
la determinacin del nivel de la variable explicada.
La ecuacin 3.2 puede representar cualquier modelo econmico, como
una funcin de consumo o una funcin de produccin, etc. Lo que interesa
desde la perspectiva economtrica es estimar los parmetros (los 0 s) usando
una muestra de observaciones tanto de las variables explicativas como de la
variable explicada.
Por ejemplo, si se quiere conocer la Productividad Marginal del Trabajo,
es necesario estimar una funcin de produccin. Una de las funciones tpicas
usada en economa es la funcin Cobb-Douglas del tipo:
Y = AX1 X2
donde X1 representa el capital, X2 es el trabajo y A es una variable de posi-
cin. Los parmetros de inters asociados a los insumos son y . Aplicamos
logaritmo para linealizar la ecuacin. A partir de una serie de datos obtenidos
del Boletn mensual del Banco Central de Chile1 respecto del producto in-
terno bruto, del capital y del trabajo para el perodo comprendido por el
primer trimestre del ao 1987 y el cuarto trimestre de 1993 se obtienen los
siguientes resultados:
ln(Y ) = 1,7945 + 0,0826 ln(X1 ) + 1,5259 ln(X2 ) + t

As, la elasticidad parcial del capital est representada por 1 y tiene un
valor igual a 0,0826 y la elasticidad parcial del trabajo est representada por
1
Pgina web del Banco Central y Coleccin de Estudios CIEPLAN No 39
2 e igual a 1,5259. Con los valores medios de todas las variables es posible
obtener la Productividad Marginal para ambos factores productivos.
Retomando el modelo expresado en 3.2 el investigador est interesa-
do en obtener una solucin para el vector de parmetros que tenga las
propiedades deseadas de un estimador, como son insesgamiento y eficiencia2 .
Para lograr esta solucin, el modelo clsico asume una serie de supuestos
que tienen la caracterstica de simplificar apreciablemente la obtencin del
vector de estimadores y que adems aseguran que estos estimadores tengan
las propiedades deseadas.
3.3. Supuestos del Modelo Clsico

Una serie de supuestos sobre las caractersticas de los datos y la for-
ma como se relacionan son parte del modelo lineal general. Estos supuestos
son fundamentales para obtener las propiedades de los estimadores y son el
punto de partida de los posteriores modelos de estimacin. Cambios o levan-
tamiento de estos supuestos imponen nuevos requerimientos en los mtodos
de estimacin. Los supuestos del modelo son los siguientes:
Supuesto 1. La regresin es lineal en los parmetros.
Esto quiere decir que el vector contiene expresiones lineales para cada
uno de los parmetros. La linealidad debe cumplirse slo en los parmetros,
no es necesario que las variables explicativas sean lineales. Por ejemplo, el
2
modelo Yi = o + 1 Xi1 + 2 Xi1 + i cumple con la propiedad de linealidad
en los parmetros aunque X1 est al cuadrado.
Supuesto 2. El valor medio o esperanza del error i es igual a cero, lo cual

se escribe como:
E() = 0

1 E(1 ) 0
2 E( ) 0
2
E .. = .. = .. =0
. . .
n E(n ) 0
2
Ver Captulo 2
3.3. SUPUESTOS DEL MODELO CLSICO 65
Esto quiere decir que el valor promedio de i dado los valores de las
variables explicativas (Xki ) es cero. Lo cual implica que los valores positivos
y negativos de i se cancelan de tal manera que su efecto promedio sobre Yi
es cero.
Note que para cada observacin tenemos un conjunto de variables de la
forma:
(Yi , Xi1 , ..., Xik , i )
donde i puede tomar cualquier valor dentro de un intervalo con una

probabilidad asociada. Por lo tanto, para cada observacin i, el supuesto
(2) nos dice que E (i ) ser igual a cero. 3
Con la intencin de aclarar ms este concepto considere el caso del modelo
lineal general en que slo existe una variable explicativa, es decir:
Yi = 0 + 1 X1i + i
Asuma, para efectos de este ejemplo, que 0 > 0 y 1 > 0. En el grfico

correspondiente a esta ecuacin (figura 3.1) se observa que para un valor
especfico de X, llammosle X0 , se tiene una serie de posibles valores de
Y0 . Esto se refleja en la distribucin de probabilidad dibujada sobre la lnea
vertical trazada desde X0 . Esta gama de valores depende del error i . Si
E (i ) = 0, entonces se espera que el punto de interseccin entre X0 y Y0 est
sobre la recta Yi = 0 + 1 X1i .
Adicionalmente note que para valores dados de 0 y 1 , el valor que asuma
i depender de la diferencia Yi 0 1 Xi = i .
Supuesto 3. Homocedasticidad y no Autocorrelacin.
Este tercer supuesto sintetiza dos propiedades fundamentales del modelo

lineal general; la homocedasticidad o igual varianza de i y la inexistencia
de autocorrelacin entre los errores4 . Estos conceptos estn relacionados con
la varianza y covarianza de los errores, por lo tanto necesitamos encontrar
3
P
n
i
Lo que no significa que para una muestra particular la n = 0, ya que en este caso
i
cada error tomar un valor definido cuya suma no necesariamente es cero.
4
Cabe mencionar que la heterocedasticidad es un fenmeno comn en muestras de corte
transversal mientras que la autocorrelacin lo es en series de tiempo.
Y = 0 + 1 X i1
Y2
Y1
Y0
X0 X1 X2 X
Figura 3.1: Distribucin de los errores con homocedsticidad
esta matriz. Para ello aplicamos la definicin de varianza en forma matricial

y obtenemos:5

1 21 1 2 1 n
2 2 1 22 2 n

E ( ) = E

0
[1
2 n ]
= E

n n 1 n 2 2n

E(21 ) E(1 2 ) E(1 n )
E(2 1 ) E(22 ) E(2 n )

=

E(n 1 ) E(n 2 ) E(2n )
El supuesto de homocedasticidad significa que la varianza de los i es la
misma para toda observacin i, es decir:
E(2i ) = 2 i = 1, ..., n
donde 2 es un escalar constante para todo i.
h 0
i
5
Recuerde que V ar() = E (E())(E()) . Pero como E() = 0, obtenemos
0
E( )
3.3. SUPUESTOS DEL MODELO CLSICO 67
Y = 0 + 1Xi1
Y2
Y1
Y0
X0 X1 X2 X
Figura 3.2: Distribucin de los errores con heterocedsticidad
Esto se representa grficamente (figura 3.1) con distribuciones de igual

amplitud para los posibles resultados de Yi , en cada valor de Xi . En el caso
contrario, es decir, que las varianzas de los distintos i fueran diferentes
(heterocedasticidad), entonces enfrentaramos distribuciones de probabilidad
de distinta amplitud para cada valor X (ver figura 3.2)
Por su parte, ausencia de autocorrelacin implica que la covarianza entre
i y j es cero, denotado por
E(i j ) = 0 i 6= j
En trminos conceptuales, ausencia de autocorrelacin nos indica que el

valor del error en una observacin i no es afectado por el valor que muestre
el error de otra observacin j. Por tanto, no existir autocorrelacin cuando,
por ejemplo, el comportamiento en un perodo de un determinado elemento
no afecte el comportamiento que presente dicho elemento en el perodo sub-
siguiente. Es decir, el nivel de consumo de un grupo familiar en un mes i no
afectar el nivel de consumo de este mismo grupo familiar en el mes i + 1.
La homocedsticidad y no autocorrelacin se sintetizan en la matriz de
varianza y covarianzas la cual se expresa como:

2 0 0 1 0 0
0 2 0 0 1 0

E ( ) =
0
=

2
= 2 In

0 0 2 0 0 1
Donde In es la matriz identidad de orden n.
Supuesto 4. Los valores de X son fijos en muestreos repetidos.
En otras palabras, las variables explicativas son determinsticas o prede-

terminadas. Dado que X contendr solamente valores conocidos, no existir
correlacin entre el trmino de error i y ninguno de los Xij , que pertenecen
a X donde j = 1, .., k, es decir:
cov(Xij i ) = 0 j
El aporte de este supuesto es que permite separar el efecto de las variables

explicativas del efecto de los errores sobre la variable dependiente. En el
caso de que este supuesto no se cumpla, no habra forma de determinar qu
proporcin de la variabilidad de Yi se explica por las variables Xij y qu parte
se explica por el trmino de error.
Los cuatro supuestos mencionados anteriormente son los supuestos ms
importantes del modelo clsico y determinan las propiedades de los esti-
madores. Existen no obstante, otros supuestos adicionales mencionados comn-
mente en la literatura, por ejemplo:
Supuesto 5. No existe multicolinealidad perfecta (Rango(X) = k < n). No

hay filas (columnas) linealmente dependientes. Esto tiene una implican-
cia directa sobre la posibilidad de identificar los parametrs deseados.
Si existiera dependencia lneal entre las observaciones de la matriz X,
entoces no se podra estimar el modelo. Este enunciado ser clarificado
mas adelante.
Por ltimo, existe un supuesto de tipo terico, es decir, este supuesto

no est relacionado con los datos. El supuesto es que el modelo de regre-
sin est correctamente especificado. Obviamente si el modelo no est bien
3.4. MNIMOS CUADRADOS ORDINARIOS 69
especificado, entonces al aplicar cualquier mtodo de estimacin economtri-

ca no entregar informacin til al economista. Por esta razn, se sugiere
que en primer trmino se debe tener un Buen Modelo y luego una Buena
Econometra, poniendo el nfasis en la labor del economista con el fin de que
construya un modelo que est correctamente especificado. Adems, el come-
ter errores en la especificacin del modelo, como por ejemplo no considerar
variables que son relevantes, podra sesgar los estimadores.
3.4. Mnimos Cuadrados Ordinarios

Para introducir el proceso de estimacin llamemos a la ecuacin Y = X +
(ecuacin 3.2, donde se han omitido los subndices) Funcin de Regresin
Poblacional (FRP). Supondremos que esta ecuacin representa el modelo
terico que pretendemos estimar y que refleja fielmente el comportamiento
poblacional. El valor esperado de Y para la Funcin de Regresin Poblacional
es
E(Y) = E(X) + E() = X

gracias a los supuestos (2) y (4) del modelo.
Sin embargo, esta funcin no es conocida por el investigador, y por esta
razn se desea estimar. Para hacer esto se acude a una muestra de observa-
ciones que permita aproximarnos de la mejor forma posible al modelo terico.
Asi, definimos una Funcin de Regresin Muestral (FRM)
Y = X + (3.4)
Donde es el vector de estimadores de los parmetros poblacionales y
es el trmino de error muestral (anlogo al trmino de error ). Usando una
muestra del Universo se puede estimar la ecuacin 3.4.
Para el caso de una sola variable explicativa, la Funcin de Regresin
Poblacional y la Funcin de Regresin Muestral (ambas hipotticas) se pre-
sentan en la figura 3.3. Al dibujar esta figura se asume que los coeficientes
estimados () difieren de los poblacionales (). Se puede apreciar que la Fun-
cin de Regresin Muestral subestima los verdaderos valores de la Funcin
de Regresin Poblacional o de la variable dependiente a la izquierda de X0 ,
mientras que a la derecha de este mismo punto los valores de la Funcin
de Regresin Poblacional son sobrestimados. Para un valor determinado de
Y
FRM=Y = + X i1
0 1
Yi
i
FRP=Y = 0 + 1Xi1
Subestima Sobreestima
i
Y
E(Yi)
Xi X
Figura 3.3: Funcin de Regresin Poblacional y Muestral
X, digamos Xi observamos que el valor efectivo de Yi es superior al valor

esperado E(Yi ). La diferencia est dada por el error i . Sin embargo, en la
Funcin de Regresin Muestral el valor de E(Yi ) se sobreestima y por ello el
error estimado(ei ) es menor que el error efectivo (i ).
Note que no conocemos la funcin de regresin poblacional, por lo tanto
debemos contar con algn criterio de estimacin que nos acerque lo ms
posible a esta funcin. Para hacer esto tenemos los mtodos de estimacin
economtrica, de los cuales se discutirn el de Mnimos Cuadrados Ordinarios
(MCO) y el de Mxima Verosmilitud (MV).
El Mtodo de los Mnimos Cuadrados est basado en la idea de buscar un
estimador que minimice la dispersin de los errores de la regresin en torno
a un estadstico relevante de la distribucin (un momento). Es uno de los
mtodos de estimacin ms utilizados en la literatura.
Recordemos que la Funcin de Regresin Poblacional es:
Y = X + (3.5)
La esperanza condicional est dada por
E (Y/X) = X (3.6)
Las razones de este resultado son el hecho que los X son fijos (supuesto
4) y que es el vector de parmetros poblacionales y como tal no es una
variable aleatoria, adems la E() = 0 por el segundo supuesto del modelo
clsico.
Por su parte la funcin de regresin muestral es
Y = X + (3.7)
con
E (Y/X) = Y = X (3.8)
Como se plante en el captulo 2, el objetivo de MCO es obtener el
P
n
vector que minimice la suma de los errores al cuadrado 2i , lo que en
1
forma matricial se traduce en

1
X
n
2
MIN 2i = MIN 0 = MIN
( 1 2 ... n )
... (3.9)
1
n
Despejando de la ecuacin 3.7 tenemos
= Y X
reemplazando la ecuacin anterior en 3.9, se tiene
MIN (Y X)0 (Y X) (3.10)
utilizando algunas propiedades de la transposicin de matrices analizadas en

capitulos precedentes queda
0 0 0
MIN (Y0 X0 )(Y X) = MIN (Y0 Y Y0 X X0 Y + X0 X)
(3.11)
0 0 0
tanto Y X como X Y tienen dimensin 11, por ello su valor traspuesto
0
no vara . En otras palabras Y0 X = X0 Y, quedando la expresin 3.11 de
la siguiente forma
0 0 0
MIN (Y0 Y 2 X Y + X0 X) (3.12)
As la ecuacin anterior se convierte ahora en nuestro problema de opti-

mizacin. Como sabemos de la Teora de Optimizacin, para encontrar un
mnimo debemos derivar esta expresin con respecto al vector de parmetros
e igualar a cero, es decir
0 0 0
(Y0 Y 2 X Y + X0 X)
=0

Derivando y usando las propiedades de derivacin de matrices presentadas

en el captulo 1 se tiene:
2X0 Y + 2X0 X = 0
0
X0 X = X Y
Despejando el vector obtenemos

0
= (X X)1 (X0 Y) (3.13)
Esta ltima ecuacin es la matriz de estimadores de los parmetros pobla-

cionales. Es claro que el vector de estimadores depende de las observaciones
de la variable dependiente y de las variables explicativas, cuya informacin
est resumida en las matrices (X0 X)1 y (X0 Y) ya que:
P P P
N X i1 X i2 ... X ik
P Xi1 P 2
Xi1
P P
Xi1 Xi2 ... P Xi1 Xik
P P P
Xi2 Xi2 Xi1 2
Xi1 ... Xi2 Xik
X0 X =
.. .. .. . . ..
. . . . .
P P P P 2
Xik Xik Xi1 Xik Xi2 ... Xik
y
P
1 1 1 ... 1 Y1 P Yi
X11 X21 X31 ... Xn1 Y2

P Yi Xi1

X0 Y = X12 X22 X32 ... Xn2 Y3 = Yi Xi2
.. .. .. ... .. .. ..
. . . . .
P .
X1k X2k X3k ... Xnk Yn Yi Xik
El , no es otra cosa que un estimador de los verdaderos parmetros

poblacionales y por lo tanto es una regla o funcin que depende de los datos
observados. Ya que depende de una variable aleatoria Y , debe a su vez
tambin ser una variable aleatoria.Para el caso de una regresin simple (una
variable independiente) se puede mostrar que la ecuacin 3.13 queda

Xi X Yi Y
= 2 (3.14)
Xi X
donde una barra sobre la variable refleja su valor promedio.
La ecuacin 3.14 permite tener una visin ms intuitiva de lo que deter-
mina el valor de . Vemos que el denominador ser siempre positivo, por lo
tanto el signo que adopte depender del valor del numerador. Si cuando los
valores de Xi se encuentra bajo el promedio (X), los valores de Yi tambin
se encuentran bajo el promedio (Y ) (y viceversa) entonces el numerador ser
positivo y > 0. En este caso, existe correlacin positiva entre Xi e Yi . Si
por el contrario, cuando Xi est debajo del promedio, Yi est sobre el prome-
dio (y viceversa), entonces el numerador ser negativo y < 0 (correlacin
negativa entre Xi e Yi ). Adems, se puede observar que el denominador es
una medida de la variacin de Xi en torno a su promedio. Si la covariacin
(positiva o negativa) de Xi e Yi es muy grande en relacin a la variacin de
Xi , entonces adoptar un valor grande. En caso que la covariacin de Xi
e Yi sea menor que la variacin de Xi , entonces el valor de ser pequeo
(menor que uno).
Analicemos en ms detalle el proceso de estimacin. Para ello considere-
mos la expresin extendida del modelo que se desea estimar:
F RP : Yi = 0 + 1 Xi1 + ... + k Xik + i
La estimacin del modelo correspondiente a la funcin muestral
Yi = 0 + 1 Xi1 + ... + k Xik + i
el vector est definido como:

0
1

= .. ,
.
k
el cual se obtiene usando la formulacin presentada en la ecuacin 3.13. La

interpretacin de los coeficientes es la siguiente:
0 es el efecto promedio de todas las variables no aleatorias que no
fueron incluidas en el modelo pero que afectan a la variable dependiente.
Este es el efecto promedio en la regresin general y es un parmetro de
posicin de la recta.
Yi
j = es la pendiente de la regresin con respecto a la variable Xj ,
Xj
es decir, mide el cambio en el valor de Y ante cambios en Xj .
Ejemplo 1: Estimacin de una Funcin de Consumo
Como ejemplo consideremos una funcin de consumo Keynesiana bsica
C = a + bY ,
la cual seala que el consumo depende del ingreso disponible Y , pero que
no se gasta todo el ingreso en consumo sino una porcin b de ste, llamada
proporcin marginal a consumir, por otra parte existe un consumo autonmo,
que no depende del ingreso y que est representado por la constante a en la
ecuacin anterior. Debera ser claro para el lector que se est describiendo el
modelo terico que est dado por la teora econmica.
Lo que interesa es estimar el valor de a y b usando informacin de con-
sumo e ingreso de una economa (puede ser tambin de las familias), para
lo cual debemos transformar nuestro modelo terico determinstico en uno
estocstico, es decir:
C = a + bY + i
que representa la funcin de regresin poblacional y
C = a + bY + i
que es la funcin de regresin muestral
Usando una muestra de datos6 de las Cuentas Nacionales sobre Consumo
e Ingreso Disponible en Chile para el periodo comprendido entre los aos 1960
a 1997 presentada en el apndice A, podemos obtener estos estimadores.
6
Los datos originales estn expresados en millones de pesos de 1986. Para la estimacin
que se hace en este apartado, y en la subseccin siguiente referida al estimador de la
varianza del error; los datos han sido divididos por un milln para evitar resultados muy
grandes. Se sugiere al lector verificar estos resultados para asegurar una buena comprensin
del problema.
Primero considere la ecuacin para el vector de estimadores:

0
= (X X)1 (X0 Y)
En este caso particular la matriz X0 X esta dada por:
P
N Xi1
XX= P
0 P 2
Xi1 Xi1
Usando los datos de la muestra obtenemos:

0 38 132,996
XX=
132,996 559,776
y su inversa esta dada por,

0 1 0,1562 0,0371
(X X) = (3.15)
0,0371 0,0106
a su vez P
0 P Y i 93,4357
(X Y) = = (3.16)
Yi X1i 384,8900
Por ltimo,

0 1 0,1562 0,0371
0 93,4357
= (X X) (X Y) =
0,0371 0,0106 384,8900

0 1 0 0,3152
= (X X) (X Y) = (3.17)
0,6134
reemplazando en la funcin de regresin muestral, tenemos7 :
Ct = 0,3152 + 0,6134 Yt + t
n = 38
donde Ct representa al consumo privado en el perodo t, Yt es el ingreso real

disponible en el perodo t.
Como podemos observar, la estimacin obtenida cumple con la teora
econmica, en el sentido que el coeficiente del ingreso es un nmero positivo
7
Note que el parmetro de posicin est expresado en unidad de millones de pesos de
1986.
menor que uno. El Consumo autnomo es de 0,3152 y la propensin marginal

a consumir es de 0,6134.
Debera ser claro para el lector que este resultado est incompleto ya
que como hemos discutido en el captulo 2, los estimadores son variables
aleatorias, lo cual significa que el coeficiente calculado es uno entre tantos
valores posibles. Para completar el ejercicio de estimacin economtrica es
necesario calcular la varianza de los coeficientes estimados. Ello nos permitir
realizar pruebas de hiptesis respecto de los valores posibles de los coeficientes
y construir intervalos de confianza para llos.
El apartado siguiente discutir las propiedades de los estimadores Mni-
mos Cuadrticos Ordinarios, centrndose en las propiedades de insesgamiento
y mnima varianza. En el desarrollo de las demostraciones se analiza la forma
de obtener la varianza de los estimadores.
3.4.1. Propiedades del Estimador MCO

En captulos precedentes definimos un estimador como una funcin o regla
de la forma = (Y1 , ..., Yn ) que permite calcular u obtener un valor para
el parmetro poblacional. Adems, se discutieron las propiedades deseadas
de los estimadores. Es conveniente entonces preguntarse por las propiedades
de los estimadores mnimos cuadrticos ordinarios del modelo lineal. Para
obtener estas propiedades se hace uso de los supuestos presentados al inicio
del captulo.
Existe un teorema denominado TEOREMA de GAUSS-MARKOV, el
cual plantea que si se cumplen los supuestos clsicos, es decir:
1. E(i ) = 0
2. Homocedasticidad: E(i E(i ))2 = E(2i ) = 2
3. No autocorrelacin: E(i E(i ))(j E(j )) = E(i j ) = 0, con
i 6= j.8
4. Cov(xij , i ) = 0 j
Entonces el estimador de MCO es el Mejor Estimador Lineal Insesgado
(MELI). Es decir, los estimadores MCO son LINEALES, INSESGADOS y
tienen MINIMA VARIANZA. Revisemos cada una de estas propiedades por
separado.
8
Los supuestos de homocedasticidad y no autocorrelacin se resumen en E(0 ) = 2 In
(a) Linealidad
0
Sabemos que = (X X)1 (X0 Y) = AY
donde A = (X0 X)1 X0 es fijo por el supuesto de que los valores de X son
fijos, lo que muestra que el estimador es lineal.
(b) Insesgamiento
Para demostrar que el estimador de MCO es insesgado, tomamos como

punto de partida el valor del estimador obtenido por MCO y la Funcin de
Regresin Poblacional:
= (X0 X)1 (X0 Y) (3.18)

Y = X + (3.19)
reemplazando la ecuacin 3.19 en 3.18 se obtiene
= (X0 X)1 X0 (X + )
= (X0 X)1 X0 X + (X0 X)1 X0
= + (X0 X)1 X0 (3.20)
aplicando esperanza a 3.20

E() = E + (X0 X)1 X0

E() = E() + E (X0 X)1 X0
E() = + (X0 X)1 X0 E()
Donde se ha utilizado el hecho que E() = . Por ltimo, es necesario

recordar el primer supuesto del modelo clsico, el cual muestra que E() = 0,
entonces:
E() =
En palabras, esto nos dice que la esperanza del estimador de la funcin
de regresin muestral, es igual al vector de parmetros de la funcin de
regresin poblacional. Es decir, el estimador es insesgado.
(c) Varianza Mnima
Antes de mostrar que la varianza del estimador MCO es la mnima, re-

querimos de una expresin para esta varianza. En el caso matricial deseamos
encontrar la matriz de varianzas y covarianzas de los estimadores. Para en-
contrar el estimador de la varianza de reordenemos la ecuacin 3.20 tal
que:
0
= (X X)1 X0 (3.21)
la matriz de varianzas y covarianzas esta definida como E( E())(

E())0 , pero sabemos que E() = , por lo tanto
V ar() = E( E())( E())0

h i
V ar() = E ( )( )0
y reemplazando 3.21 se obtiene

V ar() = E ((X0 X)1 X0 )((X0 X)1 X0 )0

V ar() = E (X0 X)1 X0 0 X(X0 X)1
Donde se aplic las propiedades de la trasposicin

1 de matrices. Adems
0
se puede verificar que [(X0 X)1 ] = (X0 X)0 = (X0 X)1 . Por lo tanto, la
expresin anterior queda como
V ar() = (X0 X)1 X0 E(0 )X(X0 X)1
Adems, asumiendo el supuesto de homocedsticidad y no autocorrelacin,

implica que
V ar() = (X0 X)1 X0 2 In X(X0 X)1

V ar() = 2 (X0 X)1 (3.22)
Esta es la matriz de varianzas y covarianzas del vector de estimadores.

Esta matriz, en su forma extendida es:
1
2
Xi1 Xi1 Xi2 Xi1 Xik
Xi2 Xi1 Xi2 2
Xi2 Xik

V ar() = 2 .. .. ... ..
. . .
2
Xik Xi1 Xik Xi2 Xik

V ar( 1 ) Cov( 1 , 2 ) Cov( 1 , k )
Cov( 2 , 1 ) V ar( 2 ) Cov( 2 , k )

= .. .. ... ..
. . .
Cov( k , 1 ) Cov( k , 2 ) V ar( k )
Con este resultado es posible demostrar que sta es la mnima varianza

para este vector. El procedimiento consiste en utilizar otro estimador lineal
e insesgado y demostrar que para que su varianza sea mnima sta debe ser
igual a la varianza del estimador MCO. Tomemos entonces un cualquiera
tal que sea un estimador lineal insesgado de donde
= AY
donde
A = (X0 X)1 X0 +C0
es decir el estimador es lineal, y C es una matriz (nxk) de constantes cualquiera.
Entonces:
= (X0 X)1 X0 + C0 Y
= (X0 X)1 X0 Y + C0 Y
reemplazando el modelo poblacional Y = X + en en la ecuacin anterior
= (X0 X)1 X0 [X + ] +C0 [X + ]

= (X0 X)1 X0 X + (X0 X)1 X0 + C0 X + C0
= + (X0 X)1 X0 + C0 X + C0 (3.23)
para que la comparacin a realizar tenga sentido el nuevo estimador debe ser
insesgado, E( ) = . Aplicando esperanza a 3.23 se tiene
E( ) = E() + (X0 X)1 X0 E() + C0 X + C0 E()

E( ) = + C0 X (3.24)
para que cumpla con la propiedad de insesgamiento debe ocurrir que C0 X =

0.
Vale la pena resumir lo que hasta el momento se ha realizado. Sabemos
que existe otro estimador denominado , el cual es insesgado. De esta forma
no podemos decir cual de los dos estimadores es mas recomendable
utilizar. El criterio de decisin debera ser el de mnima varianza, nosotros
conocemos la varianza de , pero cul es la varianza de ?
Reordenando la ecuacin 3.23 se obtiene una expresin para la matriz de
varianzas y covarianzas de
= (X0 X)1 X0 + C0
es decir,

Var( ) = E ( E( ))( E( ))0

= E ( ))( )0

= E ((X0 X)1 X0 + C0 )((X0 X)1 X0 + C0 )0

= E ((X0 X)1 X0 + C0 )(0 X(X0 X)1 +0 C)
= E((X0 X)1 X0 0 X(X0 X)1 +C0 0 X(X0 X)1
+(X0 X)1 X0 0 C + C0 0 C)
0
= (X0 X)1 X0 E(0 )X(X0 X)1 +C0 E(0 )X(X X)1
+(X0 X)1 X0 E(0 )C + C0 E(0 )C
1 1 1
= 2 (X0 X) X0 X (X0 X) + 2 C0 X (X0 X)
1
+ 2 (X0 X) X0 C + 2 C0 C
de 3.24 se sabe que C0 X = X0 C = 0. Luego

Var( ) = 2 (X0 X)1 + CC0
El primer componente de la ecuacin es igual a la varianza del estimador

MCO dado en 3.22. El segundo componenteesuna matriz (nxn) no nega-
tiva definida. Por tanto la V ar( ) V ar . Como fue definida en
forma arbitraria, este resultado es vlido para cualquier otro estimador lineal
insesgado de .
De esta forma hemos probado que el estimador MCO es el Mejor Esti-
mador Lineal Insesgado (MELI), es decir, tiene la menor varianza dentro
del conjunto de estimadores lineales insesgados.
Con la informacin obtenida hasta aqu existe slo un aspecto que dificul-
ta la estimacin de la matriz de varianzas y covarianzas de los estimadores.
Esto es, no conocemos el valor de 2 . En la siguiente seccin construiremos
un estimador insesgado para la varianza del error.
3.4.2. Estimador de la Varianza del Error

Otra informacin que nos interesa es estimar la varianza del error, de-
notada por 2 . Encontrar un estimador para esta expresin es importante
especialmente para poder calcular la matriz de varianzas y covarianzas y
poder realizar pruebas de hiptesis sobre los parmetros estimados. Usando
la expresin para la funcin de regresin poblacional y la funcin de regresin
muestral:
Y = X + (3.25)
Y = X + (3.26)
es posible despejar de la funcin de regresin muestral,
= Y X (3.27)
y reemplazar el modelo poblacional de la ecuacin 3.25 , luego se tiene:
= X + X
reemplazando la expresin de la ecuacin 3.20 obtenemos

h i
0 1 0
= X + X + (X X) X
1
= X + X X (X0 X) X0
h i
0 1 0
= In X (X X) X
Se define M = In X (X0 X)1 X0 ,entonces
= M (3.28)
M posee propiedades tiles e interesantes, a saber: es una matriz idem-

potente, es decir se cumple que M0 = M y que M0 M = M. Probemos cada
una de estas propiedades:
1. M0 = M
0 0
In X (X0 X)1 X0 = I0n (X0 )0 (X0 X)1 X0 = In X (X0 X)1 X0
2. M0 M = M
M0 M = MM
= In X (X0 X)1 X0 In X (X0 X)1 X0
= In X (X0 X)1 X0 X (X0 X)1 X0 +X (X0 X)1 X0 X (X0 X)1 X0
= In X (X0 X)1 X0 X (X0 X)1 X0 +X (X0 X)1 X0
= In X (X0 X)1 X0
Esto prueba que M es una matriz idempotente9 .
Retomando nuestro problema central, la ecuacin 3.28 expresada en forma
cuadrtica se puede escribir como:
0 = (M)0 (M)
0 = 0 M0 M
0 = 0 M
Xn X n
0 = mij i j
i=1 j=1
donde mij es el elemento de la fila i y columna j de la matriz M.

Por lo tanto,
E(0 ) = E(0 M)
0
Xn X n

E( ) = mij E i j
i=1 j=1
Por los supuestos (2) y (3) se obtiene:

X
n
E(0 ) = mii 2
i=1
0
X
n
E( ) = 2 mii
i=1
E(0 ) = 2 tr(M)
9
Donde In I0n = In .
donde, como se recordar, tr(M) es la traza de la matriz M.

Recordando que M = In X (X0 X)1 X0 y usando las propiedades de la
traza tenemos
1
tr(M) = tr(In X (X0 X) X0 )
1
= tr(In )tr(X (X0 X) X0 )
1
= ntr(X (X0 X) X0 )

0 1 0
= n tr (X X) X X
= ntr(Ik )
= nk
entonces
E(0 ) = 2 tr(M) (3.29)

0
E( ) = 2 (n k)
Como puede observarse, el valor esperado de los errores al cuadrado

obtenidos de la estimacin MCO, no es un estimador insesgado de 2 . Sin
embargo, este resultado tambin nos da la clave para generar un estimador
insesgado.
De esta forma, se puede usar como estimador insesgado de 2 la siguiente
expresin:
0
2 = (3.30)
nk
ya que
0 E(0 ) 2 (n k)
E( 2 ) = E( )= = = 2
nk nk nk
Esta expresin de la varianza del error puede estimarse usando la infor-
macin muestral contenida en la matriz de variables endgenas y exgenas.
0
0 = (Y X) (Y X)
0
0 = (Y0 X0 )(Y X)
0 0
0 = (Y0 Y Y0 X X0 Y + X0 X)
0 0
0 = (Y0 Y 2 X0 Y + X0 X)
0
Usando el hecho que = (X X)1 X0 Y
0 0
0 = Y0 Y 2 X0 Y + X0 X(X0 X)1 X0 Y)
0 0
0 = Y0 Y 2 X0 Y + X0 Y
0
0 = Y0 Y X0 Y
Luego,
0 0
Y X0 Y Y
2 =
nk
Ejemplo 1: Estimacin de Varianzas para la Funcin de Consumo
Estamos en condiciones de retomar el ejemplo de la funcin de consumo y

estimar las varianzas y covarianzas de los estimadores, para ello utilizaremos
las matrices 3.15, 3.16 y 3.17.
La suma de la variable dependiente al cuadrado es:
Y0 Y =266,010
De esta forma tenemos:

0 0 93,4357
(X Y) = 0. 3152 0,6134 = 265,542
384,8900
n k = 38 2 = 36
Finalmente
266,010265,542
2 = = 0,013
36
con este estimador de la varianza del error podemos calcular
V ar() = 2 In (X0 X)1

0,1562 0,0371 0,00203 0,00049
V ar() = 0,013 =
0,0371 0,0106 0,00049 0,00014
as, la ecuacin de consumo queda dada por10 :
10
Tanto 0 como su desviacin estndar estn expresados en unidad de milln.
3.5. ESTIMADOR MXIMO VEROSMIL 85
Ct = 0,3152 + 0,6134 Yt + t
d.e. (0. 04506) (0. 0118)
en donde bajo el coeficiente estimado entre parntesis se ha incorporado

la respectiva desviacin estndar de los estimadores.
3.5. Estimador Mximo Verosmil

Alternativamente al mtodo de MCO, podemos usar el mtodo de Mxi-
ma Verosimilitud para estimar los parmetros poblacionales. La idea bsica
de este ltimo mtodo de estimacin, es que distintas poblaciones deberan
generar muestras diferentes. Por lo tanto, una determinada muestra tiene
mayor probabilidad de pertenecer a una poblacin en vez de a otras. El es-
timador se debera escoger de tal forma que la muestra tenga la ms alta
probabilidad de pertenecer a la poblacin en cuestin.
El Mtodo de Mxima Verosimilitud, a diferencia del mtodo anterior,
requiere un supuesto sobre la distribucin de probabilidad de la variable
dependiente que permita construir la funcin de verosimilitud a maximizar.
Manteniendo los supuestos clsicos vistos anteriormente, asumiremos que la
distribucin de probabilidad del error es normal con media cero y varianza
constante e igual a 2 . Esto se puede expresar como:
i N(0, 2 )
Adems, asumiremos que los errores individuales se distribuyen en forma

idntica e independiente (iid). Si usamos el modelo poblacional Y = X +
es posible obtener una funcin de distribucin de probabilidad para Y, dado
que X se comporta como constante. Entonces, por las propiedades de la
esperanza y la varianza:
Y N(X, 2 )
Utilizando la funcin de distribucin normal para estimar los parmetros

y 2 , la funcin de mximo verosimilitud es:
Y
n
1 (yi xi )2
L(Yi /Xi , , 2 ) = p exp
i=
2 2 2 2
Utilizando algunas propiedades del logaritmo, podemos simplificar la ex-

presin, de tal manera de dejarla en trminos de slo sumas y multiplica-
ciones:
Xn
2 1 2 (yi xi )2
ln L(Yi /Xi , , ) = ln(1) ln(2 ) + ln(exp 2
)
i=1
2 2
X
n
1 X
n
(yi xi )2
ln L(Yi /Xi , , 2 ) = ln(2 2 )
i=1
2 i=1
2 2
Como podemos observar, el primer trmino es constante, la sumatoria de

n veces esa constante es simplemente la multiplicacin del trmino por n.
Expresando en forma matricial:
n 1
ln L(, 2 /Y) = ln (2 2 ) 2 (Y X)0 (Y X)
2 2
Lo que se busca es maximizar la funcin de Verosimilitud, para lo cual se
debe derivar con respecto a los parmetros y 2 e igualar estas derivadas
a cero para obtener las condiciones de primer orden. Las derivadas son las
siguientes:
0
ln L(, 2 /Y) 1 (Y X) (Y X)
= 2 =0
2
El resultado de esta derivacin es formalmente idntica a la obtenida con
MCO (ver ecuacin 3.13). Obtenemos:
1 0 0

2 2X Y + 2X X = 0
2
Despejando se obtiene una expresin anloga a la obtenida por MCO.
Esto quiere decir que los mismos estimadores se obtienen por el mtodo de
mxima verosimilitud.
MCO = MV = (X0 X)1 (X0 Y)
En el caso de la varianza del error ( 2 ) la funcin de verosimilitud se

deriva con respecto de 2 y obtenemos:
0
ln L(, 2 /Y) n 1 (Y X) (Y X)
= 2+ =0
2 2
2 2 2( 2 )2
3.6. ESTIMACIN EN DESVIACIONES DE MEDIA 87
Simplificando se llega al siguiente resultado:
(Y X)0 (Y X) 0
2 = =
n n
que es un estimador sesgado y distinto al de MCO.
3.6. Estimacin en Desviaciones de Media

Es comn en econometra expresar los datos en desviaciones respecto de
la media. La estimacin por desviaciones de media es interesante, ya que,
presenta en forma ms compacta las matrices que determinan el vector de
parmetros y adems, tiene ventajas para la interpretacin de los resultados.
Para calcular las desviaciones de media es necesario restar a cada obser-
vacin, tanto de la variable dependiente como de las variables explicativas,
su respectiva media, es decir:
yi = Yi Y
xij = Xij Xj
Esta forma de presentar los datos tiene ciertas ventajas entre las cuales
se destacan:
a) Es ms fcil el manejo de la informacin muestral ya que los clculos

con desviaciones de media son menos demandantes que usar los datos
originales, en especial si no se cuenta con recursos computacionales.
b) La interpretacin de los datos en desviaciones de media est direc-

tamente relacionada con la naturaleza del problema economtrico. En
el modelo de regresin lneal se intenta explicar la variabilidad de la
variable endgena. Esta variabilidad se expresa en trminos de qu tan
alejada est la observacin con respecto a su media. La ecuacin en
desviaciones de media expresa en forma precisa este concepto.
Por lo tanto, un modelo expresado en desviaciones de media permitir

distinguir en forma directa qu porcin del cambio en la variable dependiente
es explicada por el modelo economtrico sugerido por la teora.
Para expresar los datos en desviaciones respecto de la media considere la

matriz
1 X11 X21 ... Xk1
1 X12 X22 ... Xk2

X= 1 X 13 X 23 ... X k3

1 X1n X2n ... Xkn
Se puede eliminar la columna de unos, ya que el promedio de columnas
de unos es uno (en la prctica implica eliminar el parmetro de posicin) y se
resta a todos los elementos de cada columna su respectiva media, quedando
la nueva matriz de la siguiente forma:

X11 X1 X21 X2 ... Xk1 Xk
X12 X1 X22 X2 ... Xk2 Xk x11 x21 . xk1
x12 x22 . xk2
x= X X X X ... X X =
.

13 1 23 2 k3 k
. . .

x1n x2n . xkn
X1n X1 X2n X2 ... Xkn Xk
P
n
Xij
j=1
donde Xi = n .
Hacemos las mismas operaciones con las matrices e Y

1 1 Y1 Y y1
2 Y2 Y
y2
=

= 2
y=
=
.

. . .
n n Yn Y yn
Note que para un variable particular Xi podemos expresar la suma de

todos sus elementos como:
X
Xi = i0 Xi
Donde i es un vector de unos.
Adicionalmente se tiene que
X
aXi = ai0 Xi
si a = 1/n entonces
X 1 0
aXi = i Xi
n
y
P
Xi 1
Xi = = i0 Xi
n
P n
Xi 1 1
iXi = i = i i0 Xi = ii0 Xi
n n n
Esta expresin es til para expresar las matrices en desviaciones de me-
dias. Es decir:

X1
X2 1

.. = ii0 X
. n
Xn
y

X1 X1
X2 X2 1

x = .. = X iX = X ii0 X
. n
Xn Xn

1 0
x = I ii X = M0 X (3.31)
n
Donde M0 = I n1 ii0 . 11
Si retomamos el problema de estimacin tenemos una ecuacin para la
Funcin de Regresin Poblacional expresada en desviaciones de media. Sabe-
mos por la ecuacin 3.1 que la Funcin de Regresin Poblacional puede es-
cribirse
Yi = 0 + 1 Xi1 + ... + k Xik + i

Si aplicamos el operador de la esperanza, obtenemos
E (Yi ) = 0 + 1 E (Xi1 ) + ... + k E (Xik ) + E (i ) (3.32)

Entonces (1) (2) da
11
Ntese que M0 es una matriz simtrica e idempotente.
Yi E (Yi ) = 1 (Xi1 E (Xi1 )) + ... + k (Xik E (Xik )) + (i E (i ))
o lo que es lo mismo en forma compacta
y = x +
y una Funcin de Regresin Muestral
y = x +
donde es la diferencia entre i y .

Se puede mostrar que = 0. Para ello considere las ecuaciones normales
del proceso de minimizacin de MCO del modelo lneal general :
0
X0 X X Y = 0
X0 (Y X) = 0
X0 = 0
De donde se puede deducir que:

X
i = 0 (3.33)
X
i X1i = 0
X
i X2i = 0
..
.
X
i Xki = 0 (3.34)
Por lo tanto, el nuevo vector de errores queda de la siguiente manera:

1
2

= ..
.
n
P
i P
Donde = , pero de (3.33) se sabe que i = 0, entonces el nuevo
n
vector queda

1
2

= .. =
.
n
Desde luego, lo que se busca es minimizar la sumatoria de residuos al

cuadrado:
P
MIN 2i = MIN (0 )
0
0 = (y x) (y x)
0 0
0 = y0 yy0 x x0 y + x0 x
0 0
0 = y0 y2 x0 y + x0 x
derivando respecto del vector de parmetros e igualando el resultado a cero

se tiene
0
= 2x0 y + 2x0 x = 0

= (x0 x)1 x0 y
que es el nuevo estimador MCO usando los datos en desviaciones de media.

Aunque la formulacin parece idntica a la ecuacin 3.13, en este caso no
se obtiene una estimacin para el parmetro de posicin, 0 , ya que este
ha sido eliminado en el proceso de transformacin de los datos. Como puede
observarse de la ecuacin 3.32, para obtener este estimador basta con calcular:
0 = Y X
Esta forma de expresar los datos en desviaciones de medias permite cal-

cular los estimadores con una matriz mas pequea que en el caso general,
pero su utilidad es mas clara al momento de estudiar los criterios de bondad
de ajuste del modelo lneal general.
3.7. Criterios de Bondad del Ajuste

Se denomina Criterios de Bondad del Ajuste a estadsticos que permiten
evaluar la capacidad que tiene el modelo de explicar la variacin de la variable
dependiente. En modelos lineales, el criterio mas utilizado es el denominado
R2 (R cuadrado).
Para entender qu es el R2 retomemos el modelo en desviaciones de me-
dias:
y = x +
Si consideramos una sola variable explicativa el modelo se reduce a
yi = xi + i
es decir,
Yi Y = (Xi X) + i
Elevando al cuadrado y aplicando sumatoria tenemos
X X 2 X
(Yi Y )2 = (Xi X)2 + 2i (3.35)
ST C = SEC + SRC
P
Note que el producto de xi i = 0 (ver ec.3.33) .
El primer trmino se denomina Sumatoria Total de Cuadrados (STC) y
es una medida de la variabilidad de la variable dependiente respecto de su
media. Esto es lo que deseamos explicar. Esta variacin se descompone en:
P 2
(1) Un componente explicado por el modelo ( (Xi X)2 ), que conocemos
como Sumatoria Explicada de Cuadrados (SEC) y
P
(2) Un componente no explicado ( 2i ) llamado Sumatoria Residual de
Cuadrados (SRC ).
El aporte del modelo terico sugerido es solamente la SEC, ya que la SRC

refleja nuestra ignorancia respecto de otras variables o factores que explican
los cambios en nuestra variable dependiente. De esta forma, el R2 se define
como:
SEC
R2 = (3.36)
ST C
3.7. CRITERIOS DE BONDAD DEL AJUSTE 93
Mientras ms cercano a uno sea el valor de R2 , entonces mayor ser el

poder explicativo del modelo. Este criterio indica el porcentaje de la varianza
de la variable dependiente que es explicada (en un sentido estadstico) por
el modelo y puede estar en el rango de 0 a 1. Es decir, se mueve entre un
cero o cien por ciento de la explicacin de la variable dependiente.
Note que dicha definicin se mantiene en el caso de ms variables explica-
tivas, es decir en el caso del modelo lineal general,
y = x +
y usando la ecuacin 3.31 tenemos que
M0 Y = M0 X + M0
donde M0 = . Expresado en forma cuadrtica

0
(M0 Y)0 M0 Y = M0 X + M0 M0 X + M0
0
0 0 0 0 0 0
Y M0 M0 Y = X M0 + M0 M0 X + M0
0 0
Y0 M0 Y = X0 M00 M0 X + X0 M00 M0 +
0 M00 M0 X + 0 M00 M0
0 0
Y0 M0 Y = X0 M0 X +
Donde se ha hecho uso de M00 M0 = M0 y 0 M0 X = 0 X = 0.

0
Luego la ST C = Y0 M0 Y, la SEC = X0 M0 X y la SRC = 0 .
Y el R2 queda definido en forma matricial como:
0
2 SEC ST C SRC X0 M0 X
R = = =
ST C ST C Y0 M0 Y
0

= 1 0
Y M0 Y
Expresada en forma ms sencilla se tiene:
X
n X
n X
n
ST C = yi2 = 2
(Yi Y ) = Yi2 nY 2 = Y0 Y nY 2
i=1 i=1 i=1
X
n
0
SRC = 2i = 0 = Y0 Y X0 Y
i=1
entonces
0

ST C SRC Y0 Y nY 2 Y0 Y X0 Y
R2 = = (3.37)
ST C Y0 Y nY 2
0
X0 Y nY 2
R2 =
Y0 Y nY 2
Tambin es posible expresar su valor en trminos de desviaciones de me-
dias, para lo cual usamos una forma conveniente de expresar la sumatoria de
errores al cuadrado tal como:
0 0 0

0 0
= y x y x = y x y x
0 0
= y0 y x0 y y0 x + x x
0 0 1
= y0 y 2 x0 y + x0 x (x0 x) x0 y
0 0
= y0 y 2 x0 y + x y
0
= y0 y x0 y
= y0 y y0 x
P P
2 yi2 2i y0 y 0 y0 y y0 y + y0 x y0 x
R = P 2 = = = 0 (3.38)
yi y0 y y0 y yy
x0 y
R2 = (3.39)
y0 y
Uno de los problemas que presenta el R2 es que su valor aumenta si se

incrementa la cantidad de variables explicativas. Esto se deriva del hecho que
E(0 ) = 2 (n k) (ver ecuacin 3.29). Entonces al aumentar k, para un
nmero fijo de observaciones n, E(0 ) se reducir y el R2 aumentar. Ello
suceder aunque las nuevas variables explicativas agregadas no aporten a la
explicacin de la variabilidad de la variable dependiente. Esto hace poco
confiable este criterio de bondad de ajuste. Para evitar esto se ha propuesto
un R2 corregido, el cual considera los grados de libertad que tienen y pierden
las variables. Retomando la definicin inicial
P 2
0 0
2
R =1 0 = 1 0 = 1 P i2
Y M0 Y yy yi
se puede dividir la SRC y la STC por sus respectivos grados de libertad

dando origen a un R2 corregido de la forma
P 2
0 /(n k) /(n k)
2
R = 1 0 = 1 P 2i
y y/ (n 1) yi / (n 1)
Esta medida considera el efecto de agregar ms variables o ms obser-

vaciones al modelo. Como es posible observar, al aumentar el nmero de
variables explicativas (k), sin reducir la sumatoria residual de cuadrados,
aumenta el trmino 0 / (n k) y por lo tanto se ve reducido el R2 . Este
indicador permite la comparacin del poder explicativo de modelos donde se
agregan o quitan variables.
La relacin entre R2 y R2 se puede obtener de la siguiente forma:
2i / (n k)
R2 = 1
yi2 / (n 1)
(n 1) 2i
= 1
(n k) yi2
(n 1)
= 1 1 R2
(n k)
de donde es posible observar que siempre R2 R2 .

Adems, cabe mencionar que R2 no est delimitado a valores iguales o
mayores que cero. Cuando el modelo incluye muchas variables con muy bajo
grado explicativo R2 puede ser negativo.
Ejemplo 1: La Funcin de Consumo Keynesiana
En este punto estamos en condiciones de presentar el ejemplo 1 completo.

Usando el software E-views y las cifras de consumo e ingreso adjuntadas en
el archivo consumo.xls se obtienen los siguientes resultados:
Ct = 0,3152 + 0,6134 Yt + t
(0,04506) (0,0118)
n = 38
R2 = 0,9869
R2 = 0,9866
donde Ct representa al consumo privado en el perodo t, Yt es el ingreso

real disponible en el perodo t. Las cifras entre parntesis corresponden a la
desviacin estndar del coeficiente estimado (la raz cuadrada de la varianza).
El primer parmetro, 1 , corresponde al consumo autnomo. Es decir, si
el ingreso fuese igual a cero, de todos modos existira un consumo igual a 3152
millones de pesos12 . El valor de 2 , igual a 0.6134, se interpreta de la siguiente
forma: si el ingreso aumenta en una unidad el consumo se incrementa en
0.6134 unidades. O sea si el ingreso real disponible se incrementara en 100
millones de pesos, el modelo predice que el consumo privado aumentara en
61.34 millones de pesos. Esto desde el punto de vista econmico se conoce
como la Propensin Marginal al Consumo.
Al evaluar los coeficientes de determinacin (R2 normal y ajustado), pode-
mos concluir que la estimacin obtenida se trata de una buena aproximacin,
explicando el 98,66 por ciento de la variabilidad del consumo. Adems, como
es posible comprobar, el valor del R2 es (aunque marginalmente) menor que
el del R2 . Esto es consecuencia que k = 2 en este caso.
Ejemplo 2: Estimacin de la Funcin de Importaciones
Un caso interesante de analizar es la Funcin de Importaciones. Recorde-
mos que, en trminos generales, el nivel de importaciones depende del PIB y
del Tipo de Cambio Real (TCR). Esto se debe a que:
a) Un mayor nivel de produccin genera mayores ingresos a nivel nacional.
Estos ingresos permiten aumentar nuestras compras en el exterior,
es decir, elevar el nivel de importaciones. De esta forma, existe una
relacin directa entre PIB e importaciones.
b) El Tipo de Cambio Real refleja la cantidad de bienes nacionales que
deberamos sacrificar para obtener una unidad de bienes importados.
Si se tiene un TCR elevado, nuestra capacidad de compra del exterior se
deteriora, ya que cada unidad importada resulta ms cara. Este hecho
nos demuestra, entonces, que a medida que el tipo de cambio real crece
el nivel de importaciones disminuye, existiendo as una relacin inversa
entre ellos. Sin embargo, no es obvio que el efecto de un cambio en el
TCR sobre las importaciones se deje sentir completamente en el mismo
perodo. Por ello es importante en la especificacin del modelo permitir
los efectos rezagados del TCR sobre las importaciones.
12
Expresado en moneda constante de 1986.
Aclarada la relacin existente entre las variables, procedemos a estimar

la Funcin de Importaciones a partir de los datos13 tomados de las Cuentas
Nacionales para el periodo comprendido entre el segundo trimestre del ao
1990 y el tercer trimestre del ao 2000 los cules puede encontrar en el archivo
importaciones.xls . Los resultados se muestran a continuacin:
ln(Mt ) = 0,47078 + 0,99234 ln(P IBt ) 0,01299 T CRt1 + t

(2,6156) (0,1638) (0,0031)
n = 42
R2 = 0,9617
R2 = 0,9598
donde Mt es el nivel de importaciones en el periodo t, P IBt es el producto

interno bruto en el periodo t, T CRt1 es el tipo de cambio real para el
periodo t 1, y ln indica el logaritmo natural. Tal como en la funcin de
consumo, las cifras entre parntesis corresponden a la desviacin estndar de
cada estimador, es decir, a la raz cuadrada de la varianza.
Considerando el R2 la regresin explica un 96.17 % el comportamiento de
las importaciones en relacin a los cambios que se produzcan en el producto
y en el tipo de cambio real en los distintos periodos considerados.
Para poder ver el efecto que tiene la inclusin de ms variables sobre el
R2 se estimar la funcin de importaciones sin considerar el efecto que puede
tener sobre ellas el tipo de cambio real (T CR). Los resultados se muestran a
continuacin:
ln(Mt ) = 9,97143 + 1,63785 ln(P IBt ) + t

(0,89613) (0,06263)
n = 42
R2 = 0,9447
R2 = 0,9434
Como se esperaba, el coeficiente de determinacin R2 disminuye al re-

ducir el nmero de variables explicativas, o dicho de otra manera, el valor
de R2 se incrementa al aumentar el nmero de variables explicativas. Estos
13
Fuente: Boletin Mensual del Banco Central de Chile, su pgina web, Indicadores
Econmicos. Informe Econmico y Financiero.
resultados apoyan el hecho que esta medida puede no ser muy confiable y se
hace necesario considerar como mejor medida el R2 . Puede observar que si
bien este ltimo tambin cae al omitir una variable, lo hace en menor medida
que el R2 .
3.8. Inferencia
En esta seccin se discutirn algunos conceptos relacionados con las prue-
bas de significancia individual, pruebas de significancia global, y prediccin
del modelo lineal general.
Si bien en las secciones anteriores hemos visto como se pueden estimar los
coeficientes de modelos tericos, no debemos perder de vista la naturaleza
estadstica de estos resultados.
Considere el ejemplo 1, donde se obtuvo un coeficiente estimado de 0.6137
para la Propensin Marginal al Consumo. Sin embargo el parmetro estima-
do es a su vez una variable aleatoria que puede asumir un rango posible de
valores con mayor o menor probabilidad. Por tanto es posible que el valor
del parmetro poblacional no sea 0.6137, sino 0.5 0.7. Es ms, a menos
que tengamos alguna forma de comprobarlo, no sabemos si el parmetro
podra ser cero. Para poder determinar la probabilidad de un evento de es-
ta naturaleza, debemos desarrollar la inferencia estadstica que, entre otras
cosas, nos permite establecer Pruebas de Hiptesis para dilucidar este tipo
de problemas.
3.8.1. Pruebas de Hiptesis e Intervalos de Confianza.

Recordemos que la matriz de varianzas y covarianzas de los parmetros
estimados se calcula como (ver ecuacin 3.22):
V ar() = 2 (X0 X)1
donde la varianza del primer parmetro estimado viene dado por:
V ar( 1 ) = 2 a11
siendo a11 el primer elemento de la matriz (X0 X)1 . En el caso de un parmetro

cualquiera, la varianza es:
V ar( i ) = 2 aii
3.8. INFERENCIA 99
A diferencia de la estimacin por Mxima Verosmilitud, en el mtodo

de Mnimos Cuadrados ordinarios no es necesario realizar supuestos sobre
que distribucin tienen los errores del modelo. Basta con asumir que esta
distribucin tiene media cero y varianza constante. Sin embargo, cuando
se pretende realizar inferencia estadstica se debe incorporar un supuesto
adicional al modelo lneal general. Este supuesto es conocido como el supuesto
de normalidad e implica asumir que el error se distribuye en forma normal.
La idea bsica es que si queremos conocer con que probabilidad es posible
observar un determinado valor del parmetro, debemos conocer la forma de
su distribucin. Lo anterior se resume en que
N(0, 2 )
Dado este supuesto, es posible concluir que los parmetros estimados se

distribuyen en forma normal con media y varianza 2 (X0 X)1 , es decir:
N(, 2 (X0 X)1 )
Anteriormente demostramos que es un estimador insesgado, la varianza

de tambin ha sido obtenida previamente. Finalmente, sabemos que la
regresin es lineal en los parmetros. Ello significa que es una combinacin
lineal de los valores de Yi . De acuerdo a un teorema bsico de estadstica, si
los Yi se distribuyen en forma normal, entonces cualquier combinacin lineal
de estos tambin se distribuir en forma normal.
Si se conociera el valor de 2 , se podran realizar pruebas de hiptesis
directamente usando la distribucin normal. Sin embargo, este valor no es
conocido y solo tenemos un estimador para ste. La solucin a este problema
consiste en crear una variable adicional Chi-Cuadrado, con la cual transfor-
mamos nuestra distribucin normal original en una distribucin t de student,
en la cual podemos usar el estimador 2 en reemplazo de 2 .
Veamos primero la creacin de la variable Chi-Cuadrado. Para hacer esto
considere el supuesto inicial i N(0, 2 ). y recordando la informacin
discutida en el captulo 2, se puede estandarizar esta variable dividiendo por
su desviacin estndar

p i 2 N (0, 1)

Si elevamos esto al cuadrado construimos una variable distribuida Chi-
Cuadrado con 1 grado de libertad.

!2
2i
pi2 = 2 (1)
2
La suma de los n trminos de error al cuadrado (observaciones), tendr

tambin comportamiento Chi-Cuadrado, pero con n grados de libertad.
X
n
2 i
2 (n)
i
2
En este punto podemos realizar el siguiente reemplazo
X
n X
n
2i 2i
i i
14
La ecuacin anterior nos queda
P
n
2i
i
2 (n k)
2
y recordando que
P
n
2i
i
2 =
nk
P
n
se puede despejar 2i = 2 (n k), luego podemos concluir que
i
P 2
2i 0 (n k)
= = 2 (n k) (3.40)
2 2 2
Esta variable nos permite solucionar el problema mencionado en el prrafo

anterior, ya que ahora se puede construir una variable con distribucin t de
Student. Los pasos son los siguientes:
14
Perdemos k grados de libertad ya que para estimar la sumatoria de cuadrados resid-
uales fue necesario calcular los k coeficientes de la regresin.
3.8. INFERENCIA 101
1. Dado que N(, 2 (X0 X)1 ) se construye una distribucin normal

estndar de la forma

q
2 (X0 X)1
que para el caso particular de un solo coeficiente es:

pi 2 i (3.41)
aii
2. Se sabe del captulo 2 que una distribucin normal estndar, dividida

por la raiz de una Chi-cuadrado a su vez dividida por sus grados de
libertad, es una distribucin t-student. Por tanto si utilizamos 3.41 y
3.40, obtenemos

pi 2 i
aii i i
s = qi = i t(nk)
(n k) 2 / 2 2 aii s
nk
Luego, con esta nueva variable aleatoria construmos un intervalo de con-

fianza para realizar las pruebas de hiptesis. El intervalo de confianza con un
95 % de confianza viene dado por
!
i i
Pr 1,96 < < 1,96 = 0,95
s
donde los valores se obtienen de una tabla estadstica para el valor de t. En
este caso, se escogi un test con dos colas.
Sin embargo, regularmente se usa la prueba puntual y no el intervalo de
confianza. Para el caso de las pruebas puntuales existe una regla prctica que
consiste en comparar el valor t-calculado igual a
i i
tc =
s
con el valor asociado al t de tabla (tt ). En el caso de que el nmero de

observaciones sea mayor que 20 se utiliza como regla aproximada un valor
de tabla o valor crtico de 2. Esto porque como puede verse en la tabla de la

distribucin t, para una prueba de dos colas con un 95 % de confianza el valor
de tabla con 20 grados de libertad es 2.086. El criterio de decisin implica
que si tc > tt , entonces se rechaza la hiptesis nula cualquiera que esta sea.
Como sta es una distribucin simtrica importa slo el valor absoluto.
Ejemplo 1: Hiptesis en la Funcin de Consumo
Recuerde la Funcin de Consumo dada en Ejemplo 1 Seccin 3.4. Para

verificar la significancia de los parmetros se analiza la Prueba de Sig-
nificancia Individual medida a travs de la Prueba t. En el caso que
estemos interesados en probar si el parmetro estimado 2 es distinto
de cero con un 95 % de confianza, podemos establecer la hiptesis nula,
H0 , de la siguiente forma:
H0 : 2 = 0
H1 : 2 6= 0
donde H1 es la hiptesis alterna.

El t calculado se encuentra de la siguiente forma:
2 2 0,6137 0
tc = = = 52,0085
S 2 0,0118
Es posible observar que el t calculado es mayor que el t de tabla15 . El

estadstico t rechaza la hiptesis nula. Es decir, el incluir la variable ingreso
en la regresin, resulta ser significativa. O en otras palabras, con una muy
alta probabilidad se rechaza la posibilidad que el valor (verdadero) del
parmetro poblacional sea cero. De esta forma, se valida el signo que lo
acompaa (en este caso positivo). Este hecho es importante ya que, como
se deduce de lo dicho anteriormente, es acorde con la teora econmica en el
sentido que existe una relacin directa entre ingreso y consumo. As, cuando
el ingreso real disponible aumenta en una unidad en el periodo t, el consumo
en igual periodo tambin se incrementar.
15
Para una muestra de 38 observaciones y un 95 % de confianza el t de tabla es de 2,021.
3.8. INFERENCIA 103
Tambin es posible verificar si un parmetro es o no significativo a travs

de un intervalo de confianza. Cualquiera de los dos mtodos, la prueba t
individual o el intervalo de confianza, nos conducen a la misma conclusin.
El intervalo de confianza se encuentra de la siguiente forma:

2 t 2 S 2 2 2 + t 2 S 2

donde S 2 es la desviacin estndar del estimador 2 , reemplazando los

correspondientes valores tenemos:
(0,6137 2, 021 0,0118 2 0,6137 + 2, 021 0,0118)
(0,5899 2 0,6375)
Podr observar que dentro del intervalo no se encuentra la posibilidad que
2 tome el valor cero. Este resultado coincide con lo interpretado en la prueba
t individual ya desarrollada. Por lo tanto, podr hacer uso del mtodo que
usted desee para probar la significancia de los parmetros. A veces el intervalo
de confianza puede ser preferido desde un punto de vista visual. En el ejemplo
anterior, la prueba no slo dice que 2 6= 0, sino adems aproximadamente
en qu rango se encuentra el valor verdadero con un 95 % de confianza. Se
observa que este valor debera estar entre 0.59 y 0.64, informacin que no
se obtiene directamente con la prueba puntual. En otras ocasiones, cuando
lo interesante es probar slo si la H0 es vlida o no, puede ser preferible la
prueba puntual.
Ejemplo 2: Hiptesis en la Funcin de Importaciones.
Llevaremos a cabo sta prueba sobre los dos parmetros ms relevantes de

la Funcin de Importaciones16 , en ste caso respecto a 1 (P IB) y 2 (T CRt1 ).
Las pruebas de hiptesis para 1 quedan planteadas como:
H0 : 1 = 0
H1 : 1 6= 0
El estadstico t lo hallamos como se muestra a continuacin:

16
Ver ejemplo 2.
1 1 0,99234 0
tc = = = 6.058 2
S 1 0,1638
:
Las pruebas de hiptesis para 2 son:
H0 : 2 = 0
H1 : 2 6= 0
El estadstico t ser entonces:
3 3 0,01299 0
tc = = = 4. 190 3
S 3 0,0031
Si tomamos el valor absoluto los valores del estadstico t encontrado para
cada uno de los parmetros y lo comparamos con el de tabla podremos com-
probar que en ambos casos el t calculado es ms grande que el t de tabla,
ubicndose en la zona de rechazo. Es decir, se rechaza la H0 y se acepta
la H1 , lo cual significa que con un 95 % de confianza se puede decir que el
valor de los parmetros poblacionales es distinto de cero. Interpretando este
resultado se valida el signo que posee el coeficiente estimado de 1 y 2 .
3.8.2. Test T Generalizado

Existen tambin pruebas de hiptesis de tipo compuestas, en las cuales se
desea realizar una prueba de hiptesis sobre varios parmetros a la vez. Por
ejemplo, cuando se estima una funcin de produccin del tipo Cobb Douglas,
generalmente se est interesado en compobar la hiptesis de rendimientos
constantes a escala. Como recordar, para que exista rendimientos constantes
a escala en esta funcin, se requiere que la suma de los parmetros asociados
a los factores productivos sea igual a 1. Entonces si la funcin de produccin
es:
Y = AX1 X2 X3
donde Y es el nivel de produccin y X1 , X2 y X3 son los factores productivos,
la prueba de hiptesis es que la suma de los coeficientes sea igual a 1.
++ =1
3.8. INFERENCIA 105
Para este tipo de hiptesis utilizamos la llamada Prueba T Generalizada.

En esta prueba se utiliza un vector columna t de constantes, de tal forma
que la hiptesis se plantea en trminos de
t0 = t1 1 + t2 2 + ... + tk k
donde, los ti pueden tomar cualquier valor.

Para poder realizar la prueba, primero necesitamos encontrar la distribu-
cin de t0 . Ya que, el vector de estimadores tiene una distribucin normal
y t es un vector de constantes, entonces la esperanza y varianza para t0
estn dadas por17 :
E(t0 ) = t0 E() = t0
V ar(t0 ) = t0 var()t = t0 2 (X0 X)1 t = 2 t0 (X0 X)1 t
Una vez que tenemos estos datos, podemos observar que:
t0 N(t0 , 2 t0 (X0 X)1 t)
y
t0 t0
q N(0, 1)
2 0 0 1
t (X X) t
Nuevamente, debido a que no conocemos el valor de 2 , construmos una
variable aleatoria t, de la siguiente manera:
t0 t0
q
2 t0 (X0 X)1 t t0 t0
v =q t(nk)
u
u (n k) 22 2 t0 (X0 X)1 t
t
nk
Observe que la expresin t0 (X0 X)1 t es una matriz de orden 1 1, por

lo tanto la operacin de raz cuadrada no presenta ningn problema.
17
Para un vector X de variables aleatorias de orden kx1, la forma AX + b, con A y b
matrices de constantes de orden nxk y nx1 respectivamente, se tiene
1. E(AX + b) = AE(X) + b
2. V ar(AX + b) = Avar(X)A0
Volviendo al ejemplo con que comenzamos este punto, nuestro vector de

constantes t, ser:
1
t= 1

1
De esta forma tenemos que:

t0 = 1 1 1 = + +

As el problema se resume en las siguientes pruebas de hiptesis:
H0 : t0 = 1
H1 : t0 6= 1
para la cual operan los mismos criterios establecidos anteriomente en el caso

de pruebas simples.
3.8.3. Prueba F General.

La caracterstica principal de esta prueba consiste en que permite el con-
traste de varias hiptesis en forma simultnea. Es posible por ejemplo una
hiptesis de la forma
1 = 1
H0 : 2 = 1
2 1 + 3 2 = 1
En este caso la hiptesis alternativa, es el NO cumplimiento de la hipte-
sis nula. Es decir, bastara que no se cumpla cualquiera de las hiptesis prop-
uestas, para que la hiptesis sea falsa.
Existen dos alternativas para realizar esta prueba.
Alternativa 1.
La primera es va matricial, en que se consideran dos matrices Rqk y

rq1 , donde q se refiere a la cantidad de restricciones (conocidas) que se le
estn imponiendo al modelo. En este caso, la hiptesis nula se plantea de la
siguiente forma:
H0 : R = r
3.8. INFERENCIA 107
Si consideramos el ejemplo anterior, suponiendo que existen slo dos

parmetros, las matrices relevantes seran:

1 0 1
R= 0 1 r= 1
2 3 1
Existen algunas condiciones que se deben mantener al realizar esta prue-

ba. Estas son:
1. El nmero de restricciones (q) debe ser inferior o igual al nmero de

parmetros (en nuestro ejemplo, no se cumple esta condicin y la ter-
cera restriccin se puede escribir como una combinacin lineal de las
dos primeras). En otras palabras, el rango de la matriz R debe ser
menor o igual al nmero de restricciones lineales.
2. Cualquier restriccin ser valida, y se podr representar en forma ma-

tricial, siempre y cuando sta sea lineal. En otros casos no existen las
matrices r y R.
Para encontrar una distribucin til para esta prueba de hiptesis, re-
cuerde que el vector de estimadores presenta la siguiente distribucin:

1
N , 2 (X0 X)
Y adems, utilizaremos el hecho que
E (AX) = A E (X)
Var (AX) = AVar (X) A0
donde A es constante (una matriz de escalares constantes). Entonces, al mul-

tiplicar la matriz de parmetros estimados de , por la matriz de constantes
R, obtenemos la siguiente distribucin de probabilidad:

1
R N R, 2 R (X0 X) R0
Al igual que en el caso de una sola variable aleatoria, cada una de las
variables incluidas en el vector se pueden estandarizar. Sin embargo, en
este caso particular se debe considerar la distribucin de una forma cuadrtica

en la cual puede existir correlacin entre los elementos del vector 18 .
As el vector

2 0 1 0
R R N 0, R (X X) R
y la forma cuadrtica de la expresin anterior puede transformarse en una

variable con distribucin Chi-Cuadrado tal que:
0 1
R R R (X0 X)1 R0 R R
2(q) (3.42)
2
Bajo la hiptesis nula
0
0 1 0 1
R r R (X X) R R r
2(q) (3.43)
2
Donde q es el nmero de restriciones lineales impuestas en R = r.
En este momento nos volvemos a enfrentar al problema que 2 no es
conocida. Por lo tanto utilizamos el mismo procedimiento anterior, dividir la
ecuacin ?? por:
2 (n k) 2
(nk) ,
2
lo cual ajustado por los respectivos grados de libertad de cada variable
Chi-Cuadrado se distribuye F (v1 , v2 )19 .
En este caso la variable F queda expresada de la siguiente manera:
0 1
R R R (X0 X)1 R0 R R
2 q
F = F(q,nk)
2 (n k)
/(n k)
2
0
0 1 0 1
1 R R R (X X) R R R
F = F(q,nk)
q 2
18
Para una demostracin ver Johnston (1992).
19
Ver seccin 2.3.4.
3.8. INFERENCIA 109
Como conocemos el valor de 2 lo podemos reemplazar, quedando la

siguiente expresin:
0
0 1 0 1
1 R R R (X X) R R R
F = 0 F(q,nk)
q ee
nk
0
0 1 0 1
n k R R R (X X) R R R
F = F(q,nk)
q e0 e
En este caso operan los mismos criterios que para las pruebas anteriores.
Es decir, si el F calculado es mayor que el F de tabla se rechaza la hiptesis
nula.
Alternativa 2.
Un mtodo alternativo y ms simple para realizar las pruebas de sig-

nificancia global con distribucin F es mediante la utilizacin de las Sumas
Residuales del Modelo.
Estas sumas residuales se calculan para el caso de un modelo restringido
a la hiptesis que se desea probar y un modelo no restringido a la hiptesis
nula. De lo que se trata es de comparar si estas sumas residuales son o no
estadsticamente diferentes. Si bajo la hiptesis nula las sumatorias no son
distintas de las obtenidas en el modelo no restringido, entonces podemos
aceptar la hiptesis nula.
Para clarificar el concepto, tomemos el modelo lineal general en desvia-
ciones de medias y por fines de simplicidad asumamos que existe slo una
variable explicativa
yi = xi + i
Elevando esta expresin al cuadrado y aplicando sumatoria se tiene:
X 2X 2 X
yi2 = xi + 2i (3.44)
que es la sumatoria total de cuadrados (STC) dividida en una sumatoria

explicada (SEC) y una residual (SRC).
ST C = SEC + SRC
Ahora bien, sabemos que v N(, 2 (X0 X)1 ) y por lo tanto

q N(0, 1)
2 (X0 X)1
que para nuestro caso simple es

pP
() x2i
q 2 = v N(0,1)

P
x2i
Si este resultado lo elevamos al cuadrado, tendremos una distribucin 2 con

un grado de libertad.
P
()2 x2i
v 2 (1)
2
Asumamos la siguiente hiptesis nula
H0 : = 0
Bajo esta hiptesis tenemos dos resultados importantes:

2 P
x2i
v 2 (1) y
()
1. 2
P P 2
2. y2 = , es decir la ST C es igual a la SRC. Llamaremos Suma-
toria Residual Restringida de Cuadrados (SRRC) a la ST C bajo la
hiptesis nula H0 .
Como es posible verificar de 3.44 y del resultado 1.

2 P
x2i SEC
= v 2 (1)
2 2
Pero la SEC = ST C SRC, y bajo la Hiptesis nula ST C = SRRC.

Reemplazando en la ecuacin anterior obtenemos
SRRC SRC
v 2 (1)
2
3.8. INFERENCIA 111
Se puede construir una distribucin F dividiendo dos distribuciones chi-

cuadrado, divididos por sus respectivos grados de libertad. Por lo tanto,
SRRC SRC
1 2 SRRC SRC
= v F(1, n k)
2 2
(nk)
2
nk
0
tambin sabemos que 2 = nk
, entonces
SRRC SRC (n k) (SRRC SRC)

0 = v F(1, n k)
1 SRC
nk
En trminos generales, la hiptesis se puede plantear para el caso de
ms coeficientes cambiando el nmero de restricciones lineales impuestas al
modelo
1 SRRC SRC (n k) (SRRC SRC)
0 = v F(q, n k)
q q SRC
nk
Con este resultado es posible probar muchas hiptesis alternativas. Para
cualquier hiptesis el procedimiento se realiza en tres etapas:
1. En una primera etapa se estima el modelo sin ninguna restriccin.
Y = X +
De aqu se obtiene la sumatoria de cuadrados no restringida
X
0 = 2i = SRC
2. En una segunda etapa se estima el modelo sujeto a la hiptesis nula
H0 : = Y = X +
y se calcula la sumatoria de residuos al cuadrado restringida.

X
0 = 2i = SRRC.
3. En una tercera etapa se calcula el valor F y compara con el valor de

tabla.
(n k) (SRRC SRC)
v F(q, n k)
q SRC
Regularmente, en los resultados economtricos que se incorporan en los
programas estndar, se presenta un valor F calculado que esta sujeto a la
hiptesis nula que todos los coeficientes (excepto el intercepto) son iguales a
cero, es decir
H0 : = 0
Esto es lo que se conoce como una hiptesis de significancia global. Es
decir, lo que se quiere probar es si el modelo tiene algn poder explicativo.
Como el nmero de parmetros es k, el nmero de grados de libertad de la
prueba es k-1, ya que se descuenta el parmetro de posicin. La forma general
en que se calcula esta prueba es

SRRC SRC n k
F = v F(k1,nk)
SRC k1
Esta expresin tambin puede ser calculada usando el estimador del R2 .
Si recordamos que R2 = ST CSRC
ST C
, entonces
bajo la hiptesis nula SRRC = ST C, por lo tanto

ST C SRC n k
F = v F(k1,nk)
SRC k1
y recordando que ST C SRC = SEC se tiene

SEC nk
F = v F(k1,nk)
ST C SEC k 1
por ltimo se divide numerador y denominador por ST C
SEC
nk
F = ST C
v F(k1,nk)
1 SEC
ST C
k 1
se obtiene

R2 nk
F = vF(k1,nk)
1 R2 k1
3.8. INFERENCIA 113
Lo cual implica que a travs del R2 se puede evaluar la significancia global

del modelo. En otras palabras, se puede verificar si la ecuacin de regresin
en su conjunto es significativa.
Para ejemplificar como opera esta prueba considere la siguiente funcin
de regresin muestral:
Yi = 1 + 2 X2i + 3 X3i + 4 X4i + i
y asumamos la siguiente hiptesis:

1 = 0
H0 :
2 = 1
Usando las etapas anteriores, se debe estimar el modelo en su forma no
restrigida, es decir:
Yi = 1 + 2 X2i + 3 X3i + 4 X4i + i

Con este modelo original estimado obtenemos:
X
2i = SRC
i
posteriormente calculamos el modelo restringido:
Yi = 1 + 2 X2i + 3 X3i + 4 X4i + i
Yi = 0 + 1X2i + 3 X3i + 4 X4i + i
Yi X2i = 3 X3i + 4 X4i + i

y a travs de M.C.O. obtenemos la suma de residuos cuadrados restringidos
X
2i = SRRC
Con estos datos calculamos la variable aleatoria Fischer:

(SRRC SRC) (n 4)
F = vF(2,n4)
SRC 2
y lo comparamos con el valor F de tabla, los mismos criterios anteriores
son usados para aceptar o rechazar la hiptesis nula.
3.8.4. Prediccin.
En muchas ocasiones el investigador est interesado en pronosticar el
comportamiento de las variables estudiadas. Por ejemplo, el Banco Central
o la autoridad pertinente debe preguntarse cunto variar la inversin total
si cambia la tasa de inters, o bien cunto ser el consumo agregado si el
PIB toma un valor determinado. Para saber este resultado basta, en este
ltimo caso, con reemplazar el valor hipottico del PIB dentro de la funcin
de consumo estimada y obtener una prediccin del consumo. En este caso,
lo que se desea conocer es el valor que tomar la variable dependiente para
distintos valores posibles que tome el vector de variables independientes.
Para dicho efecto, el vector de parmetros (que constitua la incgnita en la
estimacin) se asume fijo.
La exactitud de esta prediccin va a depender de varias cosas. Entre ellas,
del tipo de predictor que se requiera y del grado de variabilidad que presen-
ten las variables explicativas. Existen dos tipos de prediccin, la prediccin
individual que, como su nombre lo indica, predice un valor individual de
la variable dependiente y, existe adems, la prediccin media, en la cual se
predice el valor esperado de Y. En ambos casos la prediccin est sujeta al
valor asignado a las variables explicativas y a los valores de los parmetros
estimados.
La notacin utilizada en este apartado es la siguiente: denominaremos
como Y0 al valor que se quiere predecir y que est asociado al verdadero
modelo poblacional y X0 al vector fila de valores conocidos de las variables
explicativas que usaremos para predecir. El predictor est dado por el valor
Y0 = X0 .20
Prediccin Individual
En la prediccin individual se desea conocer el valor de Y para una ob-
servacin especfica, es decir
Y0 = X0 +0
donde X0 refleja un vector de valores en los cuales se desea evaluar la

ecuacin de regresin y es el vector (cierto) de parmetros poblacionales.
El resultado de esa evaluacin ser un valor Y0 . Sin embargo no conocemos
20
Se asume que ste es un predictor insesgado.
3.8. INFERENCIA 115
con exactitud ese valor, por lo que usamos el predictor Y0 = X0 . Se define

entonces el error de prediccin como la diferencia entre el valor predicho y
el valor que debera tener la variable dependiente si hubisemos usado la
verdadera funcin poblacional, o sea:
epi0 =Y0 Y0
donde el suprandice i nos indica que corresponde al error de prediccin

individual. Reemplazando las correspondientes ecuaciones, tenemos:

i
ep0 = X0 0
Este error de prediccin tiene los siguientes momentos:

La esperanza es:
i h i
E ep0 = E Y0 Y0
h i
E epi0 = E X0 0
h i
E epi0 = X0 E E [0 ]

E epi0 = 0
dado que el predictor es insesgado y la esperanza del trmino de error es

cero.
Y la varianza por su parte es:
i h i i i 0 i
i
Var ep0 = E ep0 E ep0 ep0 E ep0
i h i
0
Var ep0 = E epi0 epi0
0
i
Var ep0 = E X0 0 X0 0
0
i 0 0
Var ep0 = E X0 0 X0 0
0
i (X0 X00
Var ep0 = E 0
0 0 0
X0 0 0 X0 +0 0 )
0
i
Var ep0 = X0 E X0 X0 E 00
0
0
E 0 X00 +E (0 00 )
1
Var epi0 = X0 2 (X0 X) X00 + 2
h i
1
Var epi0 = 2 X0 (X0 X) X00 +1
Asumiendo que la variable poblacional y el predictor se distribuyen en

forma normal h i
ep0 vN 0, X0 (X X) X0 +1
i 2 0 1 0
Y estandarizando
epi0
q vN (0, 1)
2 X0 (X0 X)1 X00 +1
Luego realizamos el procedimiento usual para transformar nuestra dis-

tribucin normal en una t de Student:
epi0
q vtnk
2 X0 (X0 X)1 X00 +1
Con la informacin obtenida construimos un intervalo de confianza para

la prediccin:
q q
Y0 t 2 X0 (X0 X)1 X00 + 1 Y0 Y0 + t 2 X0 (X0 X)1 X00 + 1
2 2
Ejemplo 1: Prediccin Individual del Consumo
Intentaremos predecir el consumo cuando el ingreso alcanza los 8.200.000

millones de pesos21 . La prediccin individual se lleva a cabo a travs del
siguiente intervalo de confianza22 :
21
Utilizando los resultados de la estimacin de la seccin 3.4 y recordando que se expresa
en unidad de milln.
22
Los valores han sido aproximados. Usted puede obtener los verdaderos resultados a
partir de los datos contenidos en el apndice A.
3.8. INFERENCIA 117
q q
C0 t X0 (X X) X0 + 1 C0 C0 + t 2 2 X0 (X0 X)1 X00 + 1

2
2 0 1 0
Se tiene que:

0,3152
= X0 = 1 8200000
0,6137

0 1 0,15623 0,0371
(X X) =
0,0371 0,0106
C0 = X0 = 5343292 2 = 0,013
Haciendo los clculos necesarios y reemplazando en el intervalo de con-
fianza con un t de tabla de 2.021 para un 5 % de significancia y un tamao
muestral de 38 observaciones encontramos que:
5084310 C0 5602274
De esta forma, cuando el ingreso alcanza los 8200000 millones de pesos23 ,
el consumo se hallar entre 5084310 y 5602274 millones de pesos con una
probabilidad del 95 %.
Ejemplo 2: Prediccin Individual de las Importaciones
Predeciremos el nivel de importaciones dado un valor determinado para

cada variable independiente24 .
Los valores que se asumen que adoptan quedan expresadas en la matriz
X0 :

0,47078
= 0,99234 X0 = 1 ln 3000000 90
0,01299
luego,
23
En moneda constante de 1986.
24
Utilizando los valores obtenidos de la estimacin de la funcin de importaciones de la
seccin 3.7.
M0 = X0 = 14,101
Calculando 2 para la funcin de importaciones como lo muestra la seccin
3.4.2. y siguiendo el mismo procedimiento del ejemplo anterior, podemos
reemplazar los valores obtenidos en el intervalo de confianza. De esta forma,
el intervalo de confianza para la prediccin individual queda como sigue:
p
M0 14,101 2,021 0,0051 (1 + 1,5156)
(13,8712 ln (M0 ) 14,3290)

Dado los valores antes planteados para los estimadores, se puede esperar
que las importaciones se ubiquen entre25 1057269 y 1671112 millones de pesos
de 1986.
Prediccin Media
En el caso de la prediccin media interesa conocer la esperanza de la
variable dependiente, dado un nivel de las variables explicativas, es decir
E (Y /X0 ). El predictor sigue siendo Y = X En este caso, se define el error
de prediccin de la siguiente manera:
epm = Y0 E (Y/X0 )

epm = X0
Nuevamente, deseamos encontrar la esperanza y varianza de este error de

prediccin para construir un intervalo de confianza para la prediccin media.
h i
E (epm ) = E Y0 E (Y /X0 )
h i
E (epm ) = E X0
h i
E (epm ) = X0 E
E (epm ) = 0
25
Aplicando la exponencial a los valores extremos hallados en el intervalo de confianza
obtenemos el rango probable para el nivel de importaciones.
3.8. INFERENCIA 119
y

V ar (epm ) = E (epm E (epm )) (epm E (epm ))0

V ar (epm ) = E (epm ) (epm )0
0
V ar (epm ) = E X0 X0
0
V ar (epm ) = E X0 X00
0
V ar (epm ) = X0 E X00
h i
1
V ar (epm ) = 2 X0 (X0 X) X00
Asumiendo una distribucin normal

h i
epm vN 0, 2 X0 (X0 X) X00 ,
1
o bien
epm
q
1 0
vN (0, 1)
2 0
X0 (X X) X0
Lo cual se puede transformar en una distribucin t de Student:
epm
q vtnk
2 X0 (X0 X)1 X00
El intervalo de confianza queda como

q q
Y0 t 2 X0 (X0 X)1 X00 E (Y0 | X0 ) Y0 + t 2 X0 (X0 X)1 X00
2 2
La diferencia de varianzas, que se observa, entre ambos errores de

prediccin, se debe a que la prediccin individual es ms exigente. Es decir,
si construimos un intervalo de confianza, digamos al 95 %, en el caso de la
prediccin individual, ste intervalo debe ser ms amplio, para asegurarnos de
que el intervalo contenga al valor individual. No asi en el caso de la prediccin
media, ya que como slo interesa el valor medio, un intervalo ms estrecho
es suficiente para contener este valor.
Ejemplo 1: Prediccin Media del Consumo
Para los mismos valores dados en la prediccin individual ahora los de-
sarrollaremos para la prediccin media del consumo.
El intervalo de confianza relevante para esta prediccin es:
q q
C0 t 2 2 X0 (X0 X)1 X00 C0 C0 + t 2 2 X0 (X0 X)1 X00
luego, la prediccin media para el consumo con un 95 % de confianza es:
5225561 E (C0 /X0 ) 5461024

Para la prediccin media, el consumo se encontrar entre 5225561 y
5461024 millones de pesos de 1986 cuando el ingreso alcanza los 8200000 mil-
lones de pesos. Este intervalo es ms estrecho que el obtenido previamente
con la prediccin individual.
Ejemplo 2: Prediccin Media de las Importaciones
Suponiendo los mismos valores para los parmetros de la Funcin de

Importaciones en la prediccin individual, ahora encontraremos la prediccin
media. Reemplazando los clculos en el intervalo de confianza entregado
en el ejemplo anterior, encontramos que el intervalo de confianza para las
importaciones es:
(13,9224 E(ln M0 /X0 ) 14,2778)

As, cuando el PIB alcanza un nivel de 3000000 y el tipo de cambio real del
periodo t1 es de 90, el nivel de importaciones podra hallarse26 en promedio
entre los 1112811 y 1587705 millones de pesos de 1986. Este intervalo tambin
es ms estrecho que en el caso de la prediccin individual.
26
Aplicando exponenciales al rango anterior.
Captulo 4
MINIMOS CUADRADOS
GENERALIZADOS
4.1. Introduccin
En el captulo anterior revisamos el modelo clsico de regresin. Este
modelo se basa en varios supuestos centrales. Entre estos supuestos se en-
cuentran aquellos relativos a la estructura del trmino de error. Bsicamente,
se asume que los errores de la regresin poblacional son homocedsticos y que
no presentan autocorrelacin.
Asumir que los trminos de error de las funciones de regresin pobla-
cional cumplen con estos supuestos puede ser poco adecuado. En la prctica,
la excepcin es encontrarse con trminos de error que cumplan con estos
supuestos. En este captulo nos concentraremos en los problemas de esti-
macin que surgen cuando se levantan estos supuestos sobre la matriz de
varianzas y covarianzas. Estudiaremos los dos principales problemas que se
encuentran en una estimacin: Heterocedasticidad y Autocorrelacin.
El primero se refiere a que las varianzas de los errores poblacionales no
poseen la misma varianza. Es decir, los elementos de la diagonal principal de
la matriz de covarianzas no son iguales.
El segundo problema se refiere a que los errores poblacionales dejan de
ser independientes entre observaciones. Esto queda representado cuando los
elementos fuera de la diagonal principal dejan de ser ceros.
El principal obstculo que presentan estos problemas se refleja en los
estimadores y en su condicin de estimadores MELI (mejores estimadores
121
122 CAPTULO 4. MINIMOS CUADRADOS GENERALIZADOS
lineales insesgados). Cuando no se cumple el supuesto de homocedasticidad,

o no autocorrelacin, los estimadores dejan de tener la mnima varianza. Esto
implica que hacer inferencias a partir de estos estimadores, puede no ser lo
ms apropiado. Las pruebas de hiptesis pueden dejar de tener sentido. Para
corregir el problema se utiliza un mtodo denominado Mnimos Cuadrados
Generalizados (M.C.G.).
A continuacin, primero se presenta un modelo de regresin general que
permite que la matriz de varianza y covarianza de los errores no cumpla los
supuestos clsicos. Este modelo de regresin lo llamaremos Mnimos Cuadra-
dos Generalizados. Luego, investigaremos especficamente los problemas de
heterocedasticidad y autocorrelacin, en ese orden.
4.2. Mnimos Cuadrados Generalizados

Recordemos la funcin de regresin poblacional en su forma matricial:
Yn1 = Xnk k1 + n1
y los supuestos clsicos ms relevantes,
E () = 0 (4.1)
rango (X) = k<n (4.2)
E (0 ) = 2 In (4.3)
E (X) = 0 (4.4)
Por el Teorema de Gauss-Markov sabemos que si se cumplen estos supuestos
obtenemos estimadores que son MELI.
En casos prcticos es poco comn encontrar situaciones en que la matriz
de covarianzas de los errores est dada por una matriz tal como la presentada
en 4.3. Si sto no se cumple, la razn puede estar en dos tipos de problemas.
Uno de estos problemas es conocido como Heterocedasticidad y se presenta
cuando la varianza de los errores es distinta para cada observacin. Cuando
los estimadores son MELI, la varianza de Yi condicional a los valores dados
de Xi , permanece constante independientemente de los valores que tome X.
Cuando no se cumple este supuesto la varianza condicional de Yi aumenta o
disminuye a medida que X se incrementa.
El problema de heterocedasticidad es tpico en datos de corte transversal,
donde se trabaja con miembros de una poblacin en un momento determi-
nado, tales como familias o industrias, las cuales pueden ser de diferentes
4.2. MNIMOS CUADRADOS GENERALIZADOS 123
tamaos: Por ejemplo, las firmas se clasifican como grandes, pequeas o me-
dianas, y los niveles de ingresos de las familias en altos, bajos o medios.
Si tomamos el caso de los ingresos, el problema de la heterocedasticidad
queda ejemplificado al estudiar los patrones de consumo de pan de familias
pertenecientes a diferentes estratos sociales. Es de esperar que el nivel de
consumo de pan dependa del nivel de ingreso de cada familia. No obstante,
tambin puede depender de variables no observables, como son los patrones
culturales. Recuerde que estas variables no observables caen en el trmino de
error de la regresin. Si las familias de bajos ingresos tienen patrones cultur-
ales distintos a las de altos ingresos, entonces probablemente la dimensin
y variabilidad del trmino de error ser distinto para familias de distintos
niveles de ingreso, representando un caso tpico de heterocedasticidad. En
este caso, el supuesto que la varianza del error es igual para todas las obser-
vaciones puede ser poco adecuado.
El segundo problema que puede explicar el no cumplimiento del supuesto
dado en 4.3 es que los trminos de error no sean independientes entre s.
Esto implica que los elementos fuera de la diagonal principal de la matriz de
varianzas y covarianzas de los errores sern distintos de cero. Esto se conoce
como Autocorrelacin, o tambin correlacin serial de errores. Cuando los
estimadores s cumplen con el supuesto de no autocorrelacin se supone que
el trmino de perturbacin perteneciente a una observacin no est influen-
ciado por el trmino de perturbacin perteneciente a otra. El problema de
autocorrelacin es comn en series de observaciones ordenadas en el tiempo.
Por ejemplo, es lgico pensar que si el consumo de una familia fue excesiva-
mente alto en un perodo, indicando con el trmino excesivo que est sobre
lo que la regresin predice que debera ser en promedio, dado el valor de las
variables independientes (ingreso por ejemplo), tambin lo sea en el siguiente
perodo. En este caso, lo que veremos en la estimacin es que los errores de
dos observaciones sucesivas tendern a tener el mismo signo y tamao. Es
decir, estaramos en presencia de autocorrelacin positiva.
De esta forma entonces, si relajamos el supuesto de homocedasticidad y
de no autocorrelacin, la matriz de covarianzas queda expresada como:
E (0 ) = 2 n (2)
donde no es necesariamente igual a la matriz identidad, sino que es una

matriz simtrica ordinaria. Por lo tanto la matriz de varianzas y covarianzas
de los errores esta dada por:

var (1 ) cov (1 , 2 ) cov (1 , n )
cov ( , ) var (2 ) cov (2 , n )
2 1
E (0 ) = .. .. ... ..
. . .
cov (n , 1 ) cov (n , 2 ) var (n )
Observando esta matriz se puede determinar si existe homocedasticidad

o heterocedasticidad, como tambin si existe o no autocorrelacin de errores.
2
Recuerde que homocedasticidad
implica que V ar (i ) = , i y ausencia de
autocorrelacin que Cov i j = 0, i 6= j, i, j = 1, ..., n.
Resumiendo el dilema economtrico, nos enfrentamos al siguiente proble-
ma de estimacin:
Y = X + con E (0 ) = 2 n
Si recordamos las propiedades que posea el estimador de mnimos cuadra-
dos ordinarios, sabemos que ste era insesgado y tena mnima varianza. Si
continuamos usando el mtodo de mnimos cuadrados, obtendremos el mismo
vector de parmetros, es decir = (X0 X)1 X0 Y. Sin embargo, no sabemos
qu propiedades tienen estos estimadores, dado que no podemos aplicar el
teorema de Gauss Markov debido a que no se cumplen los supuestos clsicos.
Entonces, Cules son las propiedades de este estimador?
Podemos descomponer el vector de estimadores y aplicar esperanza tal
que1 :
1 1
= (X0 X) X0 Y = + (X0 X) X0
MCO
0 1 0
E MCO = E + (X X) X

1
E MCO = E () + (X0 X) X0 E ()

E MCO =
Lo cual implica que es insesgado. En otras palabras, a pesar de haber

relajado el supuesto de homocedasticidad y no autocorrelacin el estimador
de M.C.O. sigue siendo insesgado.
1
Ver seccin 3.4.1.
Su varianza es:
0
V ar MCO = E MCO MCO
0
0 1 0 0 1 0
V ar MCO = E (X X) X (X X) X
h i
1 1
V ar MCO = E (X0 X) X0 (0 ) X (X0 X)

1 1
V ar MCO = (X0 X) X0 E [(0 )] X (X0 X)

1 1
V ar MCO = 2 (X0 X) X0 n X (X0 X)
La cual es claramente distinta al caso en que se cumplen todos los supuestos

clsicos. En resumen, hemos obtenido un estimador insesgado, pero que no
posee mnima varianza. Por lo tanto, no es el mejor estimador insesgado y
debemos encontrar uno que lo sea. Una manera de encontrar este estimador
insesgado de mnima varianza es transformar n de tal forma que cumpla
los supuestos clsicos y se pueda recurrir al teorema de Gauss Markov.
Sabemos que la matriz de covarianzas es:
E (0 ) = 2 n
Por lo tanto, debemos encontrar una matriz P tal que se cumpla la

siguiente caracterstica:
Pn P0 = In ,
es decir, que premultiplicando esta matriz y postmultiplicando la transpuesta

de esta matriz con la matriz de covarianzas, se obtiene una nueva matriz que
asegura el cumplimiento de los supuestos clsicos.
Premultiplicando por P1 :
P1 Pn P0 = P1 In
n P0 = P1 In
Postmultiplicando por (P0 )1 :

1 1
n P0 (P0 ) = P1 (P0 )
1
n = P1 (P0 )
0
n = P1 P1
1
n = (P0 P)
1
n = P0 P
Este resultado ser til para obtener estimadores de mnima varianza.
En resumen, lo que se necesita para obtener estimadores eficientes a travs
de mnimos cuadrados ordinarios es que se cumpla E () = 0 y E (0 ) =
2 In . Sin embargo lo que tenemos ahora ya no es lo mismo, sino que tenemos
una matriz de covarianzas no escalar, que causa estimadores insesgados, pero
no eficientes. Para resolver el problema aplicamos el mtodo de Mnimos
Cuadrados Generalizados que consiste en encontrar una matriz Pnn tal
que:
PP0 = In P0 P = 1
n
Si suponemos que hemos encontrado la matriz P, la utilizamos para trans-
formar los datos originales. Para ello premultiplicamos la funcin de Regre-
sin Muestral por esta matriz:
Y = X +
Pnn Yn1 = Pnn Xnk k1 + Pnn n1
Y = X +
obteniendo nuevas variables Y , X y 2 , cuyo nico cambio ha sido el
amplificarse por constantes. Analizemos qu sucede con los supuestos clsicos
con esta nueva regresin. Primero observemos qu ocurre con la esperanza
de :
E ( ) = E (P) = PE () = 0
con la varianza se tiene:

E ( )0 = E (P) (P)0 = E [P0 P0 ]

E ( )0 = PE [0 ] P0 = P 2 n P0

E ( )0 = 2 P n P0

E ( )0 = 2 In
2
Note que las nuevas variables individuales son combinaciones lineales de todas las
variables individuales originales.
con lo cual se cumplen los supuestos clsicos.

As podemos aplicar el procedimiento de Mnimos Cuadrados a la regre-
sin Y = X + , para obtener estimadores insesgados y eficientes. Es
decir:
1
MCG = (X0 X ) X0 Y
1
MCG = (PX)0 (PX) (PX)0 (PY)
1
MCG = (X0 P0 PX) X0 P0 PY
1 0 1
MCG = X0 1 X X Y
Estos estimadores tienen las mismas propiedades que los estimadores

obtenidos por Mnimos Cuadrados Ordinarios, dado que los nuevos trmi-
nos de errores, , cumplen con todos los supuestos del modelo clsico. Es
decir, estos estimadores son los mejores estimadores lineales insesgados.
Recordemos que 2 , en Mnimos Cuadrados Ordinarios estaba determi-
nado como:
0
2 = (4.5)
nk
En el caso de MCG 2 se obtiene de manera similar:
( )0 ( )
2 =
nk
donde e* se obtiene a partir de la funcin de regresin muestral.
Y = X MCG +
= Y X MCG
podemos reemplazar esta ltima ecuacin en 4.5, quedando la expresin co-

mo:
0
Y X MCG Y X MCG
2 =
nk
0
PY PXMCG PY PX MCG
2 =
nk
h i0 h i
P Y XMCG P Y XMCG
2 =
nk
0
0
Y X MCG P P Y XMCG
2 =
nk
0
1
Y X MCG Y XMCG
2 =
nk
que es nuestro nuevo estimador de la varianza del error.
4.3. Estimador Mximo Verosmil

Si aadimos ahora, el supuesto que el vector de errores se distribuye
normal, manteniendo los supuestos que E() = 0 y E(0 ) = 2 n , donde,
n es una matriz simtrica, conocida de orden n n, podemos obtener el
estimador mximo verosmil. Para el caso del modelo lineal general, tenamos
que la funcin de verosimilitud estaba dada por:
0
1 Y X Y X
f Y X, , 2 = exp
2 2 2 2
0
1
n 1 Y X In Y X
f Y X, , 2 = 2 2 2 |In | 2 exp 2
2
Sin embargo, dado el levantamiento de los supuestos clsicos, la funcin de

verosimilitud cambia. La funcin de densidad multivariada del caso general
4.3. ESTIMADOR MXIMO VEROSMIL 129
de covarianzas puede ser expresado analticamente como:

0
1
n 1 Y X n Y X
f Y X, , 2 = 2 2 2 |n | 2 exp 2
2
Recordando los principios del estimador de mximo verosimilitud intro-

ducidos en los captulos anteriores, podemos escribir la funcin del logaritmo
Mximo Verosimilitud como:
0
1
Y X n Y X
ln L , 2 |Y = n2 ln (2) n2 ln 2 12 ln n
2 2
Luego, como lo que buscamos es encontrar los valores de y 2 que maxi-
mizen la funcin de Verosimilitud, se deriva con respecto a dichos parmetros
y luego se iguala la derivada a cero. Esto es:
ln L (, 2 |Y ) 1 h 0 1
0 1 i
= 2 X n Y+ X n X = 0

2
ln L (, |Y ) n 1 0
1

= + Y X Y X = 0
2 2 2 2 4
Simplificando las expresiones anteriores, lo que vamos a tener es:
1 0 1
MCG = X0 1 n X X n Y
0
Y X 1 n Y X
2 =
n
Podemos observar que el estimador obtenido para el parmetro es el
mismo que se obtiene al estimar los parmetros por Mnimos Cuadrados
Generalizados; es decir, se obtiene el mejor estimador lineal insesgado. No es
el caso para el estimador de 2 , donde el estimador insesgado que se obtena
por Mnimos Cuadrados Generalizados, era:
0
Y X 1 n Y X
2 =
nk
Es decir, la diferencia entre ambos est determinada:
nk 2
2MV = MCG
n
En la medida que aumenta el tamao muestral, disminuye el sesgo del

estimador Mximo Verosmil, acercndose cada vez ms al estimador MCG.
En los prrafos precedentes hemos discutido el caso general en que la ma-
triz de varianzas y covarianzas de los errores no cumplen con los supuestos
clsicos. A continuacin analizaremos en forma separada cada uno de los
problemas planteados, es decir, heterocedasticidad y autocorrelacin. La dis-
cusin se centrar en la identificacin y correccin de cada uno de estos
problemas.
4.4. Heterocedasticidad
Como definimos anteriormente, la heterocedasticidad ocurre cuando la
matriz de covarianza deja de tener una estructura escalar, es decir, cuando
los elementos de la diagonal principal no son todos iguales. La notacin de
esto sera:
V ar (i ) = 2i i = 1, ..., n
En forma explcita, la matriz sera:

21
z }| {
V ar ( ) Cov (1 , 2 ) Cov (1 , n )
1
2
z }|2 {

E (0 ) =
Cov (2 , 1 ) V ar (2 ) Cov (2 , n )

.. .. ... ..
. . .
2n

z }| {
Cov (n , 1 ) Cov (n , 2 ) V ar (n )
Para empezar vamos a mantener el supuesto que

la covarianza entre los
errores poblacionales es cero, es decir, Cov i , j = 0. En otras palabras,
vamos a suponer que no existe autocorrelacin de errores. Entonces, la matriz
de varianzas covarianzas queda de esta forma:

21 0 0
0 2 0
2
E (0 ) = .. .. . .
2
.. = n
. . . .
0 0 2n
4.4. HETEROCEDASTICIDAD 131
La matriz P que debemos encontrar para poder estimar por Mnimos

Cuadrados Generalizados es:
1
0 0
1
1
0 0
2
P=
.. .. . . ..
. . . .
1
0 0
n
por lo tanto:
1 1
0 0 0 0
1 1
1 1
0 0 0 0

P0 P = 2 2
.. .. . . .. .. .. . . ..
. . . . . . . .
1 1
0 0 0 0
n n

1
21 0 0
1

0 0
P P=
0
.
22
.. .. . . ..
. . .
1
0 0
2n
Recordemos que los estimadores obtenidos por Mnimos cuadrados Ordi-

narios en presencia de heterocedasticidad y/o autocorrelacin no son MELI.
Es decir, los estimadores son insesgados pero no poseen mnima varianza.
4.4.1. Deteccin de la Heterocedasticidad.

Cuando uno se enfrenta a una estimacin no sabe si la regresin tiene
o no heterocedasticidad. Por ello, lo primero que se debe hacer es probar si
sta existe o no.
Existen diversos mtodos para probar la presencia de heterocedasticidad.
Nosotros discutiremos slo tres de ellos; la prueba de Goldfeld - Quandt, la
prueba de Breusch-Pagan y la prueba de White. Todos estos mtodos parten

de la base que primero se realiz una estimacin con Mnimos Cuadrados
Ordinarios. Las pruebas se aplican a los resultados obtenidos de esta esti-
macin.
Prueba de Goldfeld - Quandt

Una de las pruebas ms utilizada es la prueba de Goldfeld - Quandt (GQ).
Para realizar esta prueba se divide la muestra en dos grupos ordenados segn
el valor de la variable explicativa. Es decir, un grupo para los valores altos
de la variable y el otro con los valores bajos. Se ajusta la regresin original
a los dos grupos por separado. Luego se ejecuta la prueba F de igualdad de
varianzas, para probar si la varianza que se obtiene de las regresiones con
una de las submuestras es significativamente distinta de la varianza de la
regresin que se obtiene con la otra submuestra. En la medida que se cumpla
la hiptesis nula, se acepta la hiptesis de homocedasticidad, es decir que la
varianza entre las dos submuestras no difiere.
A continuacin, analizaremos ms detalladamente el desarrollo de la prue-
ba de GQ. Supongamos que tenemos la siguiente funcin de regresin:
Y = X +
Supongamos adems, que la varianza de los errores est correlacionada
con la variable exgena Xi en la forma:
2i = 2 Xi2
Vamos a dividir la muestra en dos grupos clasificados de acuerdo a la
variable Xi , una muestra para valores pequeos de Xi y otra muestra para
valores grandes.
Posteriormente ajustamos el modelo Y = X + para cada una de las
muestras por separado. Si se cumplen los supuestos clsicos se espera que la
varianza de los errores de estas dos muestras no varen significativamente. Por
lo tanto, para probar homocedasticidad se compara el estimador de la vari-
anza de los errores de la primera muestra (denotado por 21 ) con el estimador
de la varianza de la segunda muestra ( 22 ). La hiptesis nula es H0 : 21 = 22 .
Sin embargo debemos encontrar la distribucin asociada a esta prueba de
hiptesis. Para ello, recordemos que uno de los supuestos del modelo clsico
es que el error tiene distribucin normal, es decir:

i N 0, 2
estandarizando esta distribucin se tiene

i
N (0, 1)

Elevando al cuadrado y aplicando sumatoria obtenemos una distribucin
Chi cuadrado con n grados de libertad, es decir:
P 2
i
2
2 (n)

note que X X
2i 2i
Adems, el estimador de 2 se defini de la siguiente manera:

P 2
2 0 i
= =
nk nk
Reemplazando en la variable Chi Cuadrado, obtenemos una nueva vari-
able:
2 (n k)
2
2 (n k) (4.6)

Con esta distribucin es posible usar una distribucin F para verificar la
hiptesis de igualdad de varianzas de las dos regresiones.
Las etapas de la prueba son las siguientes:
1. Ordenar las observaciones de acuerdo a los valores de Xi que se sospecha

generan la heterocedasticidad, comenzando por el valor ms bajo.
2. Se omiten un nmero de observaciones centrales, donde se especifica

a priori. El resto de observaciones se divide en los dos grupos restantes
(segn el orden establecido).
3. Se estiman dos regresiones usando Mnimos Cuadrados Ordinarios. De

esta manera se obtienen las sumas residuales de ambos grupos (SCR1
y SCR2) las cuales permiten estimar 2 de cada submuestra.
De la ecuacin 4.6 sabemos que

21 n2 2 k
2 n

k para la muestra 1 (4.7)
21 2 2
mientras que
n
22 2
2 k
2 n

k para la muestra 2 (4.8)
22 2 2
4. Se verifica la siguiente prueba de hiptesis:
H0 : 21 = 22 = 2
para ello se construye un estadstico F usando las ecuaciones 4.7 y 4.8.

Expresndola en una forma ms general, se tiene
21 n

k
21 2 2 n
F k, n k
22 n
2 2
k
22 2 2
Bajo la hiptesis nula de homocedasticidad se tiene :
21 n
2 F 2
k, n
2
k
2
Este valor se compara con el F de tabla y si se acepta H0 decimos que hay

homocedasticidad, mientras que si se rechaza la hiptesis nula se sospecha de
presencia de heterocedasticidad. Debe tenerse presente que en el numerador
de la expresin anterior debe colocarse la SCR del grupo con mayor varianza.
Puede suceder en algunos casos que, luego de eliminar observaciones
centrales, se obtengan dos grupos de diferente tamao, ocasin en la cual
resulta ms conveniente expresar lo anterior como
2i
F (ni k, nj k)
2j
donde i y j representan a cada grupo, siendo 2i > 2j .

Una de las limitaciones de la prueba de GQ es que asume que la hetero-
cedasticidad es generada por una sola variable explicativa.
Prueba de Breusch - Pagan

En algunos casos es interesante plantear la hiptesis de que la varianza de
los errores es una funcin de ms de una variable explicativa. Esta hiptesis
no es posible probarla con la Prueba de GQ. En la prueba de Breusch-Pagan
(BP) se asume que la varianza es una funcin (no necesariamente lineal) de
un conjunto de variables:
2i = h (Z0i , )
donde Z0i es un vector de variables y un vector de parmetros. Un caso
especial de esta funcin sera:
2i = 0 + 1 Zi1 + 2 Zi2 + . . . + p Zip
Esta prueba tambin puede dividirse en etapas. stas son:
1. Estimar el modelo mediante Mnimos Cuadrados Ordinarios y obtener

los residuos 2i y un estimador para la varianza de los errores 2 = 0
n
,
que corresponde al estimador mximo verosmil.
2. Construir una variable

2i
pi =
2
3. Se estima una regresin de p sobre una constante y un conjunto de

variables Zi0 .
pi = 0 + 1 Zi2 + 3 Zi3 + ... + m Zim + vi (4.9)
obteniendo la Suma Explicada de Cuadrados. Recordemos que STC =

SEC + SRC, donde STC es la suma total de cuadrados, SEC es la suma
explicada de cuadrados y SRC es la suma residual de cuadrados.
4. Bajo la hiptesis nula de homocedasticidad y distribucin normal del

error, el cuociente :
SEC
2
tiene asintticamente una distribucin 2 con m 1 grados de libertad,
donde m es el nmero de parmetros de la ecuacin 4.9 y SEC es la
suma obtenida en el paso 3.
En la medida que los residuos fuesen homocedsticos, las variables Zs

no tendran poder explicativo y el valor de la variable calculada en el
punto 4, debera ser pequeo tendiendo a aceptar la hiptesis nula. Por
el contrario, si el valor es mayor que el valor de la distribucin 2 al
correspondiente nivel de significancia, entonces se rechaza la hiptesis
de homocedasticidad.
La matriz de variables Z0 , debe contener pocas variables que no se en-

cuentren ya incluidas como variables explicativas en el modelo original. Los
cuadrados de las variables explicativas son candidatos a ser considerados
dentro de esta regresin.
Una limitacin compartida por las dos pruebas de heterocedasticidad re-
visadas es que ambas asumen que el investigador conoce la forma funcional
que toma la heterocedasticidad.
Prueba de White
Esta prueba de heterocedasticidad, a diferencia de las anteriores, es una
prueba en la cual no se precisa la forma particular que adopta la heterocedas-
ticidad. Las etapas para la deteccin son las siguientes:
1. Estimar el modelo por Mnimos Cuadrados Ordinarios ignorando la

posible heterocedasticidad y obtener los residuos 2i .
2. Estimar una regresin del cuadrado de los residuos obtenidos en la
estimacin del modelo original, sobre una constante, las variables ex-
plicativas del modelo original, sus cuadrados y sus productos cruzados
de segundo orden.
3. Construimos la siguiente variable aleatoria:
n R2 2 (k 1)
Donde R2 es el coeficiente de determinacin de la regresin estimada en

el paso 2, k es el nmero de parmetros y n es el nmero de observaciones.
Considerando la hiptesis nula de homocedasticidad, esta variable se dis-
tribuye asintticamente como 2 con k 1 grados de libertad (se excluye
la constante). Por tanto, se requiere comparar el valor obtenido con el valor
crtico relevante al nivel de significancia deseado de la tabla de la distribucin
2 .
Si aumenta el tamao muestral, el coeficiente de determinacin deber

tender a cero bajo el supuesto de homocedasticidad (hiptesis nula). Slo si
la varianza del error depende de las variables explicativas entonces el R2 no
tender a ser cero y la prueba tender a rechazar la hiptesis nula.
Ejemplo 3. Funcin de Salarios (Mincer)
Como se dijo anteriormente, el problema de heterocedasticidad se presen-

ta a menudo en muestras de corte transversal y es por este motivo que se ha
estimado una ecuacin de salarios conocida en la literatura como Ecuacin
de Mincer. Esta ecuacin sirve para determinar el nivel de ingresos de un
individuo dadas sus caractersticas de capital humano, es decir, dados sus
aos de escolaridad y experiencia laboral. En la base de datos mincer.xls 3
se presentan los datos utilizados para esta estimacin. Los resultados de la
ecuacin de MCO es:
ln yh = 3,9997 + 0,1450S + 0,0372X 0,0004X 2 +

d.s. : 0,1010 0,0065 0,0059 0,0001
t : 39,5894 22,3082 6,3037 3,1412
2
R = 0,2920
R2 = 0,2904
n = 1268
Donde yh representa el ingreso por hora, S representa la escolaridad, X es

una variable que mide la experiencia laboral y X 2 es la experiencia laboral al
cuadrado, que permite captar el efecto de la depreciacin del capital humano.
Los resultados indican que los parmetros son significativos individualmente
y si es llevada a cabo una Prueba de Significancia Global se verificar la
significancia de la regresin en su conjunto. Ahora, procederemos a examinar
la existencia de heterocedasticidad a travs del Test de Goldfeld Quandt.
Supondremos que la variable que probablemente genera la heterocedas-
ticidad es la experiencia (X). Por lo tanto se ordena la base de datos segn
esta variable y se eliminan observaciones centrales (en este caso se elimin
el 20 % de ellas equivalente a 254). Para los dos grupos restantes (con 507
observaciones cada uno) se estimaron los siguientes modelos:
3
Fuente: Encuesta CASEN ao 1994 para hombres de la VII Regin
ln yh = 3,9169 + 0,1532S + 0,0321X 0,0003X 2 +

SCR1 = 237,5660
n = 507
para el primer grupo, y
ln yh = 4,2456 + 0,1453S + 0,0286X 0,0003X 2 +

SCR2 = 355,2361
n = 507
para el segundo grupo. A partir de estas dos ecuaciones se obtienen sus

respectivas SCR.
Finalmente, se plantea la hiptesis nula como:
H0 : 21 = 22 = 2
El estadstico se obtiene con el cuociente entre las SCR teniendo cuidado

de que en el numerador se ubique aqulla que tenga el valor ms alto, es
decir4 ,
355,2361
Fc = = 1,4953
237,5660
El F de tabla para este ejemplo corresponde al de 504 grados de libertad,
tanto para el numerador como para el denominador. Desafortunadamente, al
buscar en la tabla no encontramos el valor del estadstico para estos grados
de libertad. Es por ello que comparamos el calculado con el F500, de tabla,
el cual corresponde a un valor de 1.11 para un 95 % de probabilidades. Dado
que el F calculado es superior al F crtico concluiramos que el modelo es
heterocedstico, ya que se rechaza la hiptesis nula.
Sin embargo, el estadstico hallado se encuentra muy cerca de la zona de
aceptacin. En otras palabras, nuestra prueba de hiptesis no parece ser muy
potente. Este escenario nos hace dudar de la existencia de heterocedasticidad
en la muestra.
Una posible explicacin para nuestro problema radica en que el Test de
GQ es confiable siempre y cuando se tenga certeza de cul es la variable que
4
Ntese que el F calculado queda expresado solo en trminos de las SCR ya que las dos
ecuaciones tienen el mismo nmero de grados de libertad.
genera la heterocedasticidad. Obviamente, nosotros no sabemos con certeza

cual es esta variable. Ante esta situacin, se har la deteccin a travs del
Test de White. Este test consiste en regresionar los residuos estimados al
cuadrado en contra de todas las dems variables, las mismas elevadas al
cuadrado y los productos cruzados como se muestra a continuacin:
2
2 = 0,0563 0,0006X 2 + 3,25E 107 X 2 1,85 105 X 2 X +

2,86 105 X 2 S + 0,0501X 0,0020XS + 0,0003S + 0,0018S 2
R2 = 0,0087
n = 1268
A partir de esta informacin, se obtiene la siguiente variable aleatoria:
nR2 2p1
Luego,
1268 0,0087 = 10,9778
Finalmente, buscamos el estadstico 2 para (9-1) grados de libertad y un
5 % de confianza, el cual es igual a 15.5073 y dado que este valor se encuentra
en la zona de aceptacin, la Funcin de Mincer estimada es homocedstica.
4.4.2. Solucin de la Heterocedasticidad.

Una vez que se detecta la presencia de heterocedasticidad en los residuos,
la pregunta siguiente es cmo se resuelve para obtener estimaciones eficientes.
Dos casos son posibles de analizar para corregir la heterocedasticidad.
Primero, si conocemos las varianzas de los errores ( 2i ) utilizamos un mtodo
particular de Mnimos Cuadrados Generalizados, conocido como Mnimos
Cuadrados Ponderados. Supongamos que tenemos la Funcin de Regresin:
Y = X +
Al estimar los parmetros por Mnimos Cuadrados Ordinarios, obtenemos
la siguiente matriz:
1
= (X0 X) X0 Y
Como se discuti anteriormente para poder utilizar Mnimos Cuadrados
Generalizados, tenamos que encontrar una matriz P tal que
PP0 = In
Si conocemos 2i la matriz P puede expresarse como:

1
1
0 0
0 1 0

P = .. 2 .. . .
. . .
1
0 0 n

1
21 0 0
1

0 0
P P=
0
.
22
.. .. . . ..
. . .
1
0 0
2n
Como es sencillo de comprobar, si P se define de esta manera, entonces
PP0 = In .
El procedimiento de correcin implica simplemente multiplicar la funcin
de regresin por esta matriz P. En este caso, dada la forma de P esto significa
simplemente dividir cada una de las variables asociadas a un individuo por
la desviacin estndar relevante para ese individuo.
PY = PX + P
Yi X1i X2i XKi i

= 0 + 1 + 2 + . . . + K +
i i i i i i
Y = X +
Entonces podemos comprobar que este modelo cumple con los supuestos
clsicos ya que la varianza de es constante:

i 1
V ar (i ) = V ar = 2 V ar (i ) = 1
i i
Por lo tanto, los estimadores que se obtienen son insesgados y de mnima

varianza (dado el teorema de Gauss-Markov).
El segundo caso que se debe enfrentar, es la correccin de la heterocedas-
ticidad cuando no se conoce los valores de 2i . En este caso para solucionar el
problema debemos asumir algn tipo de comportamiento de la varianza de

los errores. Es decir, debemos plantearnos el supuesto que la varianza se cor-
relaciona en alguna forma con alguna variable o algn parmetro del modelo
o ambos.
Existen varios supuestos tpicos, entre los que se destacan:
1. Supuesto de correlacin con cuadrado de variable explicativa
Se asume que la varianza est correlacionada con alguna de las variables
explicativas al cuadrado. Expresndolo matemticamente:
2i = 2 Xji2
En este caso la matriz P es la siguiente:

1
0 0
Xj1
1

0 0
P= .
Xj2

.. .. ... ..
. .
1
0 0
Xjn
Ahora, la funcin transformada a estimar es la siguiente:
PY = PX + P
Yi 1 Xji XKi
= 0 + . . . + j + . . . + K + i
Xji Xji Xji Xji Xji
Yi 1 XKi
= 0 + ... + j + . . . + K + i
Xji Xji Xji Xji
Y = X +
Calculando la varianza del error poblacional, nos encontramos con que
cumple el supuesto de la homocedasticidad, por lo que se pueden obtener
estimadores insesgados y de mnima varianza por Mnimos Cuadrados Ordi-
narios. La varianza queda:
2
i 1
V ar (i ) = E = 2 2 Xji2 = 2
Xji Xji
En este, y en los casos siguientes, es necesario ser cuidadoso con la inter-

pretacin de los parmetros estimados. Fjese que en este caso j hace las
vaces de parmetro de posicin (constante) en la regresin y que 0 rela-
ciona la variable dependiente con la variable explicativa Xj . La interpretacin
de los parmetros no es obvia.
2. Supuesto de correlacin con nivel de variable explicativa
Este caso es similar al primero, con la diferencia de que la variable est

expresada en primer grado, es decir la varianza del error es:

E 2i = 2 Xji
En este nuevo caso, la matriz P queda de la siguiente manera:

1
pXj1 0 0

1
0 p 0
Xj2
P=
.
.. .. ... ..
. .

1
0 0 p
Xjn
La funcin transformada a estimar es la siguiente:
PY = PX + P
Y 1 X1i Xji XKi
p i = 0 p + 1 p + . . . + j p + . . . + K p +pi
Xji Xji Xji Xji Xji Xji
Y 1 X1i p XKi
p i = 0 p + 1 p + . . . + j Xji + . . . + K p +pi
Xji Xji Xji Xji Xji
Y = X +
Luego al calcular la varianza del nuevo error poblacional tenemos:

!2
1 2
V ar (i ) = E p i = Xji = 2
Xji X ji
3. Supuesto de correlacin con cuadrado de la esperanza de

variable dependiente
Consiste en suponer que la varianza est correlacionada con la esperanza

de la variable dependiente al cuadrado, es decir:
2i = 2 E [Yi ]2
La matriz P es la siguiente:

1
E(Y ) 0 0
1
1
0 0
E(Y2 )
P=
.. .. ... ..
. . .

1
0 0
E(Yn )
Ahora, la funcin a estimar transformada al premultiplicarla por la matriz
P, es la siguiente:
Yi 1 X1i X2i XKi i
= 0 + 1 + 2 + . . . + K +
E(Yi ) E (Yi ) E (Yi ) E (Yi ) E (Yi ) E (Yi )
La varianza del error en este caso queda:
2
i 1
V ar ( ) = E = 2 E (Yi ) = 2
E(Yi ) E (Yi )
El problema que presenta este caso, es que la esperanza de la variable
Y, depende de los valores de los parmetros estimados, por lo que no se
podra utilizar en un solo paso. Sin embargo, lo que s se puede conocer es
Yi , que es un estimador insesgado de la esperanza. Para eso, se estima el
modelo original sin considerar problemas de heterocedasticidad, obteniendo
Yi . Luego se transforma la ecuacin del siguiente modo:
Yi 1 X1i X2i XKi
= 0 + 1 + 2 + . . . + K
Yi Yi Yi Yi Yi
Este proceso se conoce como Mnimos Cuadrados Ponderados en Dos
Etapas, y se puede continuar iterando un nmero ilimitado de veces hasta
que eventualmente se llegue a valores estables.
4. Supuesto de relacin logartmica
Un cuarto mtodo que se utiliza para eliminar la heterocedasticidad es

transformar los datos en logaritmos. En este mtodo no se realiza ningn
supuesto sobre la varianza del error, de modo que la funcin a estimar es:
ln Yi = 0 + 1 ln X1i + 2 ln X2i + . . . + K ln XKi
Se espera que la transformacin reduzca la posibilidad de presenciar

heterocedasticidad.
En general, no es fcil decidir cul de estos casos se debe utilizar. La
decisin depender de la naturaleza del problema estudiado y de la severidad
de la heterocedasticidad. Recuerde que en los tres primeros casos slo se est
especulando respecto de cmo podr ser el comportamiento de la varianza, a
menos que se cuente con informacin previa que indique la forma especfica
que toma la heterocedasticidad. Note adems, que cuando se tienen ms de
dos variables explicativas, no se puede saber a priori cul de ellas es la
mejor para transformar los datos. Una buena medida prctica consiste en
graficar los errores al cuadrado versus cada una de las variables explicativas
(alternativamente, calcular los coeficientes de correlacin), para determinar
cual est ms relacionada.
4.5. Autocorrelacin
En este captulo hemos estudiado las diferentes formas que puede tomar
la matriz de varianzas y covarianzas de los errores. Primero presentamos el
caso general, en que la matriz de covarianzas es distinta a la varianza del er-
ror multiplicada por la matriz identidad. Luego resolvimos el caso particular
de heterocedasticidad, situacin que es tpica en datos de corte transversal.
Ahora analizaremos el caso en que las covarianzas entre los errores son dis-
tintas de cero. Esta situacin es comn en datos provenientes de Series de
Tiempo, donde la informacin tanto de la variable dependiente como de las
explicativas ha sido obtenida en perodos sucesivos de tiempo.
Existen muchos casos en los que podemos esperar que una variable ob-
servada en el presente est correlacionada o determinada por los valores de
otras variables o de s misma, pero de perodos anteriores al que se est ob-
servando. Esta situacin puede explicarse por rezagos en las respuestas de
los agentes econmicos ante cambios de las condiciones del entorno. En otras
4.5. AUTOCORRELACIN 145
palabras, es comn observar que ante cambios en las variables econmicas,

los agentes no internalicen inmediatamente estos cambios sino que, por el
contrario, la nueva informacin es incorporada paulatinamente a las deci-
siones de los agentes. Desde el punto de vista de la regresin esto puede verse
reflejado en el componente de error del modelo. Este fenmeno puede deberse
a que la variable Y, depende de valores pasados de s misma, a que la matriz
de variables explicativas contiene valores corrientes y rezagados de algunas
variables explicatorias, o bien a que el error dependa de valores de errores
previos. La ltima situacin es en la que estamos interesados y se conoce en
la literatura como autocorrelacin de errores.
Existen muchas formas de autocorrelacin y cada una de ellas tiene impli-
cancias sobre la estructura de la matriz de varianzas y covarianzas del error.
Nosotros analizaremos un caso particular conocido como Autorregresin de
Primer Orden.
Supongamos que tenemos el siguiente modelo:
Yt = 0 + 1 X1t + 2 X2t + . . . + k Xkt + t

donde t representa el perodo de tiempo correspondiente. La relacin entre
el error actual y el error del perodo anterior se define como:
t = t1 + t 1 < < 1
Esto es lo que se conoce como Proceso Autoregresivo De Primer

Orden. Lo que esta formulacin nos indica es que el error en el perodo t
est relacionado linealmente con el error del perodo t 1. La forma que
toma esta relacin depende del signo y magnitud que adopte el parmetro
, el cual se conoce como coeficiente de correlacin. Si es positivo entonces
dos errores consecutivos tendern a tener el mismo signo. En este caso se
dice que existe autocorrelacin positiva de errores. Si es negativo, entonces
dos errores consecutivos tendern a tener signo contrario, existiendo en este
caso autocorrelacin negativa. Finalmente, si es cero o muy pequeo la
autocorrelacin desaparece.
En esta formulacin se asume que t cumple con todos los supuestos
clsicos, es decir:
E (t ) = 0
V ar (t ) = 2
E(t , tj ) = Cov (t , tj ) = 0 j 6= 0 (4.10)
Es posible mostrar que los errores poblacionales t , cumplen con algunos

de los supuestos clsicos, pero no con todos, ya que la condicin de que
la covarianza entre los errores sea cero no se mantiene cuando estamos en
presencia de autocorrelacin.
Para demostrar este enunciado reemplazamos en forma sucesiva el error
del perodo anterior en el error corriente tal que:
t = t1 + t
t1 = t2 + t1
t2 = t3 + t2
..
.
tj = tj1 + tj
..
.
reemplazando t1 en la primera ecuacin:

t = t2 + t1 + t
y sucesivamente

t = t3 + t2 + t1 + t
simplificando:
t = 3 t3 + 2 t2 + t1 + t
por lo tanto, podemos generalizar la expresin como:
X

t = j tj ,
j=0
dado que el lm j tj = 0.
j
Comprobemos qu sucede con los supuestos clsicos. Para ello calculemos
la esperanza del error:
!
X X
j
E (t ) = E tj = j E (tj ) = 0
j=0 j=0
dado que E (tj ) = 0 por el supuesto expresado en 4.10

En el caso de la varianza se tiene:
!2
2
X
V ar (t ) = E (t E (t )) = E j tj
j=0

V ar (t ) = E t + t1 + 2 t2 + . . . t + t1 + 2 t2 + . . .

V ar (t ) = E 2t +t t1 +2 t t2 +... + t1 t +2 2t1 +3 t1 t2 +...
Aplicando esperanza a cada uno de los trminos obtenemos

V ar (t ) = E 2t + 2 E 2t1 + 4 E 2t2 + 6 E 2t3 + . . .
V ar (t ) = 2 + 2 2 + 4 2 + 6 2 + . . .
dado que E(t tj ) = 0 j 6= 0.
2 3
V ar (t ) = 2 1 + 2 + 4 + 6 + . . . = 2 1 + 2 + 2 + 2 + . . .

2 1
V ar (t ) =
1 2
Con la covarianza entre los errores podemos observar:

Cov t , t1 = E (t E (t )) t1 E t1 = E t t1

Cov t , t1 = E t1 + t t1

Cov t , t1 = E 2t1 + t t1

Cov t , t1 = E 2t1 + E [t ] E t1

Cov t , t1 = 2

Cov t , t1 = 2
2
1
Generalizando se puede obtener que:

Cov t , t1 = 2
1 2
2
Cov t , t2 = 2
1 2
3
Cov t , t3 = 2
1 2
..
.
k
Cov t , tk = 2
1 2
As podemos construir la matriz de varianza - covarianza de los errores

como:

1 2 k
1 k1
2
2 1 k2
E (0 ) = 2 n =
1 2 .. .. .. ... ..
. . . .
k k1
k2 1
Como se demostr en la seccin 4.2 el estimador mnimo cuadrtico

seguir siendo insesgado, pero no de mnima varianza, ya que existe otro
estimador insesgado de mnima varianza que es el obtenido por Mnimos
Cuadrados Generalizados.
4.5.1. Deteccin de Autocorrelacin.
Al igual que en el caso de la heterocedasticidad, cuando se estima un

modelo no se sabe si los resultados sufren de autocorrelacin. Para ello existen
distintas pruebas que pueden realizarse sobre los residuos de la regresin, que
permiten detectar autocorrelacin.
Prueba de Durbin-Watson
La prueba de Durbin Watson nos permite verificar la no existencia de
autocorrelacin de primer orden. El estadstico viene definido por:
P
P
P
P

(et et1 )2 e2t 2 et et1 + e2t1
t=2 t=2 t=2 t=2
dw = P
= P
e2t e2t
t=1 t=1
P
P

si asumimos que e2t e2t1 entonces podemos escribir
t=2 t=2
P
P

2 e2t 2 et et1
t=2 t=2
dw = P

e2t
t=1
P
P

e2t et et1
= 2 t=2
P
2 t=2P

e2t e2t
t=1 t=1
P

et et1
= 2 2 t=2P

e2t
t=1
Ahora, consideremos el modelo autorregresivo de primer orden
t = t1 + t
Podemos estimar este modelo con MCO como
et = et1 + vt
donde por las propiedades de los estimadores MCO y por la aproximacin

realizada anteriormente, sabemos que
P
P

et et1 et et1
t=2 t=2
= P = P
e2t e2t1
t=1 t=1
por lo tanto el estadstico dw queda
dw = 2(1 ) (4.11)
Se puede demostrar que este estadstico va a estar acotado por los valores
0 y 4, donde los valores cercanos a 0 van a indicar autocorrelacin positiva,
cercanos a 4 autocorrelacin negativa y cercanos a 2 indicarn la no existencia
de autocorrelacin.
Para entender mejor la relacin entre este estadstico y el nivel de auto-
correlacin considere la ecuacin 4.11 para la cual tenemos los siguientes
resultados
Si = 0, lo cual implica ausencia de autocorrelacin, entonces dw = 2.
Si = 1, lo cual implica autocorrelacin positiva total, entonces dw =

0.
Si = 1, lo cual implica autocorrelacin negativa total, entonces

dw = 4.
En el caso de valores intermedios, es decir distintos de 0, 2, 4, se requiere

una distribucin para el estadgrafo. Sin embargo, el dw es calculado con base
en ei , que a su vez depende de los X dados. Por consiguiente, a diferencia
de las pruebas t, F o 2 no hay un valor crtico nico que lleve a rechazar o
aceptar la hiptesis nula de que no hay correlacin serial de primer orden en
las perturbaciones i .
Sin embargo, la Prueba Durbin - Watson cuenta con un lmite inferior di
y un lmite superior ds tales que si el dw calculado cae por fuera de stos
valores crticos puede tomarse una decisin sobre la posible presencia de
correlacin serial positiva o negativa. En el caso que el valor este dentro
de este intervalo, entonces caemos en un rea de indecisin. Estos lmites
dependen nicamente del nmero de observaciones y del nmero de variables
explicativas. En la figura 4.1 se presentan todas las reas posibles para el
estadstico de Durbin - Watson. Si el dw es menor di estamos en presencia de
autocorrelacin positiva, por el contrario si el dw es mayor que 4ds estamos
en presencia de autocorrelacin negativa. Si el dw est entre el lmite ds y
4 di podemos aceptar la hiptesis de no autocorrelacin, mientras que si
el dw cae en las reas sombreadas de la figura entonces, no se puede decidir
con esta informacin si existe o no autocorrelacin en los errores.
Ejemplo 1. Funcin de Consumo

AUTOCORRELACION AUTOCORRELACION
POSITIVA NEGATIVA
NO
AUTOCORRELACION
0 di ds 2 4 - di 4 - ds 4
ZONA DE ZONA DE
INDECISION INDECISION
Figura 4.1: Regla de decisin para Autocorrelacin
Retomemos la Funcin de Consumo estimada en el captulo anterior. In-

corporaremos a los resultados mostrados en esa oportunidad el estadstico
dw asociado a la muestra. Este estadstico es generalmente entregado por los
programas economtricos. Los resultados obtenidos son:
Ct = 0,3152 + 0,6134Yt + t
d.s. = 0,04506 0,0118
R2 = 0,9869
R2 = 0,9866
dw = 1,22
n = 38
donde Ct es el nivel de consumo en el perodo t e, Yt es el ingreso real
disponible en el mismo perodo, tal como se present en su oportunidad en
el Captulo 3. Tambin se tiene que el estadstico dw es de 1.22 para una
muestra de tamao 38. Procederemos entonces a detectar la existencia de
autocorrelacin. Primero, buscamos en la tabla del estadstico Durbin - Wat-
son los lmites inferior y superior para un n = 38 y k variables explicativas,
en este caso, k = 1. De esta manera se tienen los siguientes lmites:
di = 1,427
ds = 1,535
Ubicando los lmites en la recta de decisin, es posible verificar que el

estadstico dw arrojado en los resultados es menor al lmite inferior halla-
do en la tabla. Es decir, con un 95 % de probabilidad, la muestra presenta
autocorrelacin positiva.
Ejemplo 2. Funcin de Importaciones
En forma anloga, recordemos la Funcin de Importaciones estimada en

el captulo 3. Para ella los resultados son como se muestra a continuacin:
ln(Mt ) = 0,47078 + 0,9923 ln(P IB) 0,01299T CRt1 + t

d.s. = 2,6156 0,1638 0,0031
R2 = 0,9617
R2 = 0,9598
dw = 1,29
n = 42
Buscaremos entonces los lmites en la tabla de Durbin-Watson para un

nivel de significancia del 5 %, en el cruce de n igual a 42 y k igual a 2.
Llevando a cabo este procedimiento se obtiene:
di = 1,391
ds = 1,600
Al igual que en el ejemplo anterior, encontramos que el estadstico dw es

menor al lmite inferior, por lo que podemos concluir que existe correlacin
serial positiva en la muestra.
4.5.2. Solucin de la autocorrelacin.

Recordemos que el estimador del nivel de correlacin est dado por:
P

et et1
t=2
= P
e2t
t=1
Adems, la relacin entre el estadstico de Durbin-Watson y el coeficiente

de correlacin , es la siguiente:
dw = 2 (1 )
Luego, lo que hacemos para solucionar el problema de autocorrelacin
depende de si conocemos o no conocemos .
a. Si conocemos
En este caso Durbin y Watson sugieren un procedimiento en el que se

estiman los parmetros en base a la siguiente transformacin de la funcin a
estimar:
Yt = Xt + t
Rezagando todas las variables un perodo obtenemos
Yt1 = Xt1 + t1
Podemos multiplicar toda la expresin por el coeficiente de correlacin ,
de modo de obtener:
Yt1 = Xt1 + t1
Ahora, si restamos la ltima ecuacin a la primera, tenemos:
Yt Yt1 = (Xt Xt1 ) + t t1
Para evitar mayores confusiones, se pueden definir nuevas variables de la
siguiente forma:
Yt = Yt Yt1
Xt = Xt Xt1
t = t t1
La funcin de regresin queda
Yt = Xt + t
Por la definicin de proceso autorregresivo de primer orden y las propiedades
de t especificadas en la ecuacin 4.10, podemos observar que los errores de
esta regresin cumplen con los supuestos del modelo clsico. Por ende, los
estimadores obtenidos por este proceso son insesgados y poseen mnima var-
ianza.
b. Si no conocemos
En este caso Cochrane-Orcutt proponen un procedimiento iterativo, bas-

tante similar al anterior, con la diferencia de que se ocupa un estimador
del nivel de autocorrelacin , que se obtiene a partir de la prueba Durbin-
Watson.
El procedimiento es el siguiente:
1. Estimar la regresin original por Mnimos Cuadrados Ordinarios, igno-

rando la presencia de autocorrelacin entre los errores.
2. Utilizar los residuos obtenidos en la etapa anterior para determinar el

parmetro por la regresin:
et = et1 + t
o por medio del estadstico dw de la regresin original, es decir:

P

et et1
t=2
= P
e2t
t=1
3. Se utiliza para obtener las variables cuasidiferenciadas:
Yt Yt1 = (Xt Xt1 ) + t

Yt = Xt + t
4. Estimar por Mnimos Cuadrados Ordinarios el modelo con variables

transformadas para obtener el estimador de .
5. Utilizar el vector para generar una nueva serie de residuos y estimar

nuevamente el parmetro .
Se contina con este proceso hasta alcanzar un nivel de convergencia
fijado de antemano.

Dado que se detect la presencia de autocorrelacin positiva en nuestra

estimacin de la Funcin de Consumo, ahora procederemos a solucionarla.
De la informacin anterior se sabe que,
dw = 1,22
Tambin sabemos que,
dw = 2(1 )
Luego,
dw 1,22
= 1 =1
2 2
= 0,39
Ahora, se procede a generar una nueva base de datos a partir de la original

de manera tal que:
Ct = 0 + 1 Yt + t
donde
Ct = Ct Ct1
Yt = Yt Yt1
siendo, como siempre, C el nivel de consumo, Y el ingreso real disponible

y t el error que cumplir con los supuestos del modelo clsico. Llevando a
cabo la estimacin de los datos transformados se tiene:
Ct = 191606,8 + 0,6133Yt + t
d.s. = 41635 0,0169
R2 = 0,9740
R2 = 0,9733
n = 37
dw = 1,91
Es posible observar que el estadstico dw, muy cercano a 2, nos indica

la presencia de no autocorrelacin. Por lo tanto, el problema ha sido solu-
cionado. Tambin se tiene que el valor estimado de la propensin marginal
al consumo no vara significativamente con la correccin por autocorrelacin,
como debera esperarse. Lo mismo se observa de las desviaciones estndar,
que hace que el estimador flucte dentro de un rango cercano al obtenido
antes de la transformacin. Note que este procedimiento implica la prdida
de un grado de libertad al calcularse las cuasi diferencias de las variables
originales. Adems, el nuevo trmino constante es 0 = 0 0 . Utilizando
los parmetros estimados originales y la estimacin del coeficiente de
correlacin, se puede observar la correspondencia de los resultados en ambos
casos.
De la misma forma, procederemos a solucionar la autocorrelacin que

se halla presente en nuestra estimacin de la Funcin de Importaciones. En
primer lugar, encontraremos el valor de relevante para nuestro problema:
dw 1,29
= 1 =1
2 2
= 0,355
A continuacin se procede a transformar las variables del siguiente modo:
Mt = Mt Mt1
P IBt = P IBt P IBt1
T CRt = T CRt T CRt1
Para terminar, se realiza la regresin por Mnimos Cuadrados Ordinarios

de las variables transformadas de manera tal que:
ln (Mt ) = 0 + 1 ln (P IBt ) + 2 T CRt1

+ t
ln (Mt ) =
1,6533 + 0,918 ln(P IBt ) 0,0229T CRt1
+ t
d.s. = 2,5116 0,1624 0,0049
R2 = 0,9179
R2 = 0,9135
n = 41
dw = 2,03
De la misma manera que en el ejemplo anterior, se observa que la esti-

macin a partir de las variables transformadas ha solucionado el problema de
autocorrelacin. Tambin, como se esperaba, los estimadores no han variado
significativamente de magnitud y tampoco lo hacen sus desviaciones estn-
dar.
Captulo 5
TOPICOS ADICIONALES
En este captulo se abordan tres tpicos bsicos adicionales para el anlisis

economtrico. Estos tpicos son (i) la existencia de multicolinealidad entre
las variables explicativas, (ii) el test de cambio estructural y (iii) el uso de
las variables cualitativas dentro de la matriz de variables explicativas.
El primero de los temas a tratar, conocido como multicolinealidad, se pre-

senta cuando las variables explicativas estn fuertemente correlacionadas
entre s, lo cual tendr implicancias sobre la estimacin de los parmetros y
de las varianzas de los estimadores.
Por su parte, el test de Cambio Estructural, generalmente conocido como

test de Chow, es una tcnica que intenta verificar la existencia de cambios
en la estructura de la economa entre dos o ms perodos de tiempo o dos
muestras distintas de agentes econmicos.
Por ltimo, las variables cualitativas o dummies son utilizadas para incor-
porar en la regresin distintos elementos de control de diferencias pobla-
cionales que no son continuos, tales como el gnero, analfabetismo, el estado
civil, entre otros. Existen muchas variables de este tipo que se consideran
relevantes en la explicacin del comportamiento de los individuos, y que
deben expresarse en trminos de la presencia o ausencia de un determinado
atributo.
A continuacin desarrollaremos cada uno de estos puntos por separado.
159
160 CAPTULO 5. TOPICOS ADICIONALES
5.1. Multicolinealidad
En los estudios empricos es frecuente encontrar niveles de correlacin
entre las variables explicativas del modelo de regresin. La existencia de
algn grado de asociacin entre las variables explicativas del modelo tiene
efectos sobre la estimacin de los parmetros y de sus varianzas..
Retomemos el modelo lineal general, el cual se expresa como:
Y = X +
donde, la matrix X de orden nk, contiene n observaciones y k vari-

ables explicativas. Desde la perspectiva del investigador, un buen resultado
economtrico es obtener una alta correlacin entre la variable dependiente
Y y todas las variables explicativas que componen la matriz X, lo cual se
expresa en un alto valor para el estadstico R2 . Sin embargo, es probable que
las propias variables contenidas en la matriz de variables explicativas estn
a su vez altamente correlacionadas entre ellas. Por esta razn, se hace nece-
sario evaluar las implicancias que esta correlacin tiene sobre los estimadores
y sobre las propiedades de stos.
Conceptualmente, al existir multicolinealidad no es factible separar, en
forma ntida, los efectos sobre la variable dependiente de cada una de las
variables explicativas. Por lo tanto, no podemos interpretar los coeficientes
de la regresin adecuadamente. Un problema serio que impone la multico-
linealidad es cuando las variables independientes estn correlacionadas de
tal forma que alguna de las columnas de la matriz de variables explicativas
se puede escribir como una combinacin lineal de las otras. Es decir, nos
enfrentamos a una situacin de colinealidad perfecta, y por lo tanto, no es
posible obtener la matriz inversa de X0 X. Como podemos recordar del cap-
tulo tres, el vector de parmetros y la matriz de varianzas se estiman de la
forma
1
= (X0 X) X0 Y

1
var = 2 (X0 X)
Por lo tanto, es importante encontrar la matriz (X0 X)1 . Ntese que

para obtener esta matriz es necesario calcular la matriz de cofactores y el
determinante de ella. El determinante de la matriz X0 X depende del grado
de correlacin existente entre las variables explicativas. Se sabe adems, que
5.1. MULTICOLINEALIDAD 161
a mayor multicolinealidad ms pequeo ser el valor de X0 X y por tanto

mayor el valor de su inversa. Si la multicolinealidad es perfecta ( en otras
palabras, el grado de correlacin es igual a uno) la inversa de la matriz X0 X no
existe, y por lo tanto no se pueden encontrar estimadores para los parmetros
del modelo ni para las varianzas. Por otra parte, si la multicolinealidad no
es perfecta, pero es alta (correlacin distinta de uno), entonces se obtienen
estimadores cuyas varianzas son muy grandes.
En la prctica, es poco probable encontrar muestras de datos econmicos
donde no exista multicolinealidad. Bajo estas circunstancias lo relevante es
preguntarse cul es el grado de multicolinealidad que es tolerable en un de-
terminado estudio?, o bien a qu nivel de multicolinealidad se ven afectados
seriamente los estimadores y sus varianzas?.
Para estructurar el anlisis es til dividir el problema considerando dos
tipos de multicolinealidad: i) Perfecta e ii) Imperfecta.
Multicolinealidad Perfecta
El problema principal que enfrentamos en el caso de multicolinealidad
perfecta es que la matriz X0 X es singular, es decir, su determinante es cero.
Por tanto, no es posible estimar la matriz de parmetros . Podemos describir
el caso de multicolinealidad perfecta de la siguiente forma:
Xc =X1 c1 +X2 c2 +... + Xk ck = 0 (5.1)

c2 ck
X1 =X2 ... Xk = 0 (5.2)
c1 c1
donde c es un vector de constantes no todas iguales a cero, c = (c1 , c2 , ..., ck ).
Vale decir, la ecuacin 5.1 indica que una variable (X1 por ejemplo) es una
funcin lineal del resto de las variables explicativas para los n individuos. En
0
este caso, el sistema = (X X)1 (X0 Y) no puede resolver las k ecuaciones.
Multicolinealidad Imperfecta
Existe adems, la llamada multicolinealidad imperfecta, que no es de-
tectable a simple vista, puesto que la matriz X0 X es invertible y se obtendr
un estimador para . En este caso podemos escribir la ecuacin 5.1 como:
Xc = X1 c1 +X2 c2 +... + Xk ck 0
c2 ck
X1 = X2 ... Xk +v1 (5.3)
c1 c1
Donde significa similiar o cercano a . Note que v1 puede ser tratado

como un error (similar a del modelo lineal general), y la ecuacin 5.3 se
puede escribir como:
X1 = X2 d1 ... Xk dk +v1 (5.4)
que es igual a una ecuacin de regresin entre X1 y las dems variables ex-
plicativas. Ntese adems que X1 ha sido escogida arbitrariamente. Llamare-
mos a la ecuacin 5.4 ecuacin auxiliar. Esto refleja que cualquier variable
del modelo puede escribirse como una combinacin lineal perfecta o imper-
fecta del resto de las variables. Por ende, es posible estimar un modelo de
regresin lineal considerando como variable dependiente cualquiera de las
variables explicativas del modelo y como variables explicativas a todas las
dems.
Para clarificar el impacto sobre los estimadores y las varianzas de la mul-
ticolinealidad, evaluemos la relacin entre las variables explicativas y la es-
timacin de los parmetros y de la varianza. Para ello tomemos el modelo
lineal con desviaciones de media
yt = 2 x2t + 3 x3t + t
donde yt = Yt Y y xjt = Xjt Xj . Asumamos que existe una relacin

entre las variables X2 y X3 del siguiente tipo:
X2 = X3 , donde es una constante
Recordemos que el estimador a travs de Mnimos Cuadrados Ordinarios

es el siguiente (con este estimador es suficiente, puesto que no se ha violado
ningn supuesto del modelo clsico):
1
= (x0 x) x0 y
Luego, podemos expresar la matriz X como una matriz de orden 1 2,

donde cada elemento de dicha matriz (X2 y X3 ) corresponde a un vector
columna de orden n 1. Luego la matriz X0 X quedara expresada como:
0 0
0 x2 x2 x2 x02 x3
(x x) = x2 x3 =
x03 x03 x2 x03 x3
Lo que nos interesa conocer, es la matriz inversa de x0 x, recordando el caso

de una matriz cuadrada, donde la inversa se define como la matriz adjunta
dividida por su determinante. Esto sera:
0
x3 x3 x02 x3
0 1
0 1 x2 x2 x02 x3 x03 x2 x02 x2
(x x) = = 0
x03 x2 x03 x3 x2 x2 x02 x3
0
x3 x2 x03 x3
0
0 1 1 x3 x3 x02 x3
(x x) = 0 0
x02 x2 x03 x3 (x03 x2 )2 x3 x2 x2 x2
Luego, la matriz de varianzas, se define como:
1
V ar () = 2 (x0 x)
Basta con tomar un elemento de la matriz para ejemplificar el problema.
Si analizamos el caso de la varianza del estimador de 2 , este sera:
2 x03 x3 2 x0 x
V ar ( 2 ) = = 3 3 !
x02 x2 x03 x3 (x03 x2 )2 (x 0
x2 )2
x02 x2 x03 x3 1 0 3 0
x2 x2 x3 x3
2
V ar ( 2 ) = !
(x03 x2 )2
x02 x2 1 0
x2 x2 x03 x3
Si analizamos la fraccin del denominador de este ltimo trmino:

2
0 2 P 2 P
(x3 x2 ) (x2t x3t ) X2t X2 X3t X3
0 0
= P 2 P 2 = qP 2 P
2
2 = r23
x2 x2 x3 x3 x3t x2t
X3t X3 X2t X2
2
donde r23 es el coeficiente de correlacin de la variable X2 y X3 . Recuerde
2
que 0 r23 1.
Por lo tanto se tiene que:
2
V ar 2 = 0 2
x2 x2 (1 r23 )
Teniendo en cuenta las dos posibilidades de Multicolinealidad, se puede
observar
i Si X2 = X3 , entonces r2 = 1, por lo que la varianza de se indetermina.

El valor del parmetro tambin se indetermina, es decir, es imposible
obtener un valor.
ii Si X2 = X3 + i , entonces i permite que la correlacin no sea per-

fecta, pudiendo estimar los parmetros. Sin embargo, mientras mayor
sea la correlacin existente entre las variables X2 y X3 , menor ser el
denominador de la varianza, y por lo tanto mayor ser el valor de sta.
Cabe mencionar que dado el teorema de Gauss-Markov los estimadores

obtenidos de un modelo con multicolinealidad imperfecta seguirn siendo
MELI, ya que no se ha violado ningn supuesto clsico que sea fundamen-
tal para obtener las propiedades de insesgamiento y mnima varianza. No
obstante, las varianzas de los estimadores sern muy grandes, por lo que en
las pruebas de hiptesis se tender a aceptar la hiptesis nula de no signifi-
cancia individual de los parmetros. Este resultado conducir errneamente
al investigador a eliminar variables supuestamente no significativas. Adems,
las estimaciones puntuales de los parmetros sern poco informativas.
Como consecuencia de la multicolinealidad, los estimadores sern voltiles.
Esto significa que pequeas variaciones en el nmero de observaciones de
la muestra, pueden generar cambios importantes en los valores de los esti-
madores.
En resumen, podemos decir que la multicolinealidad afecta la confiabili-
dad y la precisin de los estimadores.
5.1.1. Cmo Detectar la Multicolinealidad.

En la seccin anterior discutimos los efectos de la multicolinealidad so-
bre los estimadores y sus varianzas. La siguiente discusin se centrar en la
identificacin o deteccin del fenmeno.
De la discusin se deriva que un sntoma clave de la existencia de multi-
colinealidad, es la presencia de un coeficiente de determinacin R2 alto, junto
con pocas variables significativas individualmente. Dado que obtenemos un
R2 alto, la prueba F global rechazar la hiptesis de que los parmetros son
todos iguales a cero. Lo cual es abiertamente contradictorio con el hecho que
las variables no sean significativas individualmente. Ntese que sta es una
forma que nos permite sospechar la presencia de multicolinealidad, pero en
ningn caso representa una prueba formal de sta.
Una forma bastante corriente de verificar la presencia de multicolineali-

dad, es observar la matriz de correlacin entre las variables explicativas. Para
el caso de dos variables es factible evaluar el valor del determinante de esta
matriz para evaluar la existencia de multicolinealidad. El determinante de la
matriz de correlacin est dada por

1 r23
2
2 = R
r23 1
Donde los elementos ubicados en la primera fila y en la primera columna

corresponden al coeficiente de correlacin de la variable X2 en relacin a las
dems variables, y los ubicados en la segunda fila y segunda columna lo son
para la variable X3 . De esta forma, se tiene, en este caso, que los elementos
a11 y a22 corresponden a los coeficientes de correlacin de X2 y X3 en relacin
a s mismos, respectivamente, y es por ello que su valor es 1. En cuanto a
los elementos a12 y a21 representan el coeficiente de correlacin primero entre
X2 y X3 y el segundo entre X3 y X2 , dada la igualdad ambos se representan
2
como r23 .
2 2
Al estimar el determinante de la matriz, es decir R = 1(r23 ) , se obtiene
un valor que si tiende a cero, podemos concluir que la multicolinealidad es un
problema serio. No obstante, cuando se tiene ms de dos variables explicativas
la utilizacin de este mtodo se dificulta por la incapacidad de interpretar el
valor del determinante en forma directa.
Alternativamente, es posible una regresin auxiliar donde se regresiona
cada variable explicativa con respecto a las otras. Posteriormente se procede a
testear mediante una prueba F la significancia global de la regresin auxiliar.
Si el valor calculado es mayor que el valor F de tabla, entonces se dice que
la variable Xi es colineal con las dems variables.
Aunque el modelo anterior permite revelar la existencia de correlacin,
debemos aceptar que en todas las muestras encontraremos que las variables
estn correlacionadas. Por lo tanto, debemos preguntarnos cundo la Multi-
colinealidad se transforma en un problema del cual debamos preocuparnos?.
Una forma de responder esta pregunta es utilizar la Regla o Criterio de
Klein, que sugiere que la multicolinealidad puede ser un problema serio slo
si el R2 de la regresin auxiliar es mayor que el coeficiente de determinacin
global, es decir, el R2 obtenido al regresionar la variable Y sobre todas la
variables X.
5.1.2. Cmo Solucionar la Multicolinealidad.

Una vez que conocemos el grado de multicolinealidad y ste es importante,
entonces debemos intentar solucionarlo. En ese sentido las posibilidades son
diversas y se enuncian a continuacin:
1. La primera alternativa consiste en incorporar mayor informacin mues-

tral, es decir, aumentar el tamao de la muestra. Debido a que la multi-
colinealidad es un problema muestral, es razonable pensar que mientras
ms grande sea la muestra, menor ser la probabilidad de que la mul-
ticolinealidad sea severa. En la misma lnea de razonamiento se puede
combinar informacin de corte transversal con series de tiempo (datos
de panel).
2. Una segunda posibilidad, es usar informacin a priori respecto a la
relacin entre las variables del modelo. Es decir, se entrega de ante-
mano la relacin que puede existir entre dos variables. Esta informa-
cin puede provenir de trabajos empricos anteriores, donde no existan
grandes problemas de multicolinealidad, o de la teora que sustenta el
estudio. De tal forma, lo que se estima es un modelo restringido a la
nueva informacin del modelo. Note que se requiere conocer la forma
en que se interrelacionan las variables explicativas, lo cual puede ser un
requerimiento bastante restrictivo.
3. Una tercera alternativa es la transformacin de variables, donde lo que
se hace es estimar el modelo con las variables expresadas de otra forma.
Una manera comn de expresar las variables es en primeras diferencias.
Es decir, si tenemos el siguiente modelo, para un perodo t:
Yt = 1 + 2 X2t + . . . + k Xkt + t
De la misma forma se puede obtener el modelo para el perodo t 1:
Yt1 = 1 + 2 X2t1 + . . . + k Xkt1 + t1
As, si restamos estas ecuaciones vamos a obtener:
(Yt Yt1 ) = 2 (X2t X2t1 ) + . . . + k (Xkt Xkt1 ) + t
Donde el trmino t = t t1 . Utilizando este modelo se reduce fre-

cuentemente el grado de multicolinealidad, ya que si existen variables que
estn altamente correlacionadas, no hay razn a priori para pensar que las
primeras diferencias lo estn. Sin embargo, el problema que puede surgir en
esta alternativa es el no cumplimiento de los supuestos del modelo clsico
por parte del trmino de error t . Adicionalmente, se pierde una observacin
y por consiguiente un grado de libertad, que puede ser muy perjudicial es-
pecialmente en el caso de muestras pequeas. Tambin, puede no ser un
mtodo adecuado para casos de datos de corte transversal, donde no hay un
ordenamiento temporal o lgico de las observaciones.
4. Por ltimo, una cuarta solucin para enfrentar el problema de la mul-

ticolinealidad es la eliminacin de variables. Aunque esta solucin es
sencilla, implica incurrir potencialmente en un sesgo de especificacin
o error de especificacin. El sesgo de especificacin surge de la especifi-
cacin incorrecta del modelo utilizado en el anlisis. Veamos esto con un
pequeo ejemplo. Supongamos que el modelo definido en desviaciones
es el siguiente:
yi = 2 x2i + 3 x3i + i (5.5)
Pero al existir evidencia de multicolinealidad importante entre X2 y X3 ,

corregimos el modelo omitiendo la variable X3 . De esta forma el modelo a
estimar es:
yi = 2 x2i + i
Aplicando la frmula del estimador MCO obtenemos un estimador para
2 como: P
x2i yi
2 = P 2
x2i
Sin embargo, la variable dependiente yi se define segn el modelo original
dado en 5.5.
Reemplazando esta definicin, en la ecuacin anterior lo que tenemos es:
P
x2i ( 2 x2i + 3 x3i + i )
2 = P 2
x2i
Simplificando logramos:
P P
x2i x3i x2i
2 = 2 + 3 P 2 + P 2 i
x2i x2i
Luego, si aplicamos el operador esperanza, lo que vamos a encontrar es

lo siguiente:
E 2 = 2 + 3 b23
Donde b23 representa el coeficiente de la pendiente de la regresin de X3
sobre X2 . Por lo tanto 2 es una estimacin sesgada de 2 , mientras b23 sea
distinta de cero. En este sentido, uno podra esperar que b23 sea distinto de
cero, dado que existe una relacin entre ambas que origin la eliminacin de
X3 del modelo original.
El ejemplo 1, o de la Funcin de Consumo, no tiene posibilidades de

presentar multicolinealidad debido a que posee slo una variable explicativa,
es por ello que para ejemplificar la deteccin de multicolinealidad se har uso
del ejemplo 2 de la Funcin de Importaciones la cual depende del PIB y del
TCR.
Procediendo a la deteccin de este fenmeno regresionaremos la primera
variable explicativa en funcin de la segunda. Es decir,
ln(P IBt ) = f (T CRt1)
Los resultados obtenidos de la Regresin Auxiliar son:
ln(P IBt ) = 15,9548 0,0180T CRt1 + t

tc = (178,5611) (18,5841)
R2 = 0,8962
n = 42
La Prueba de Significancia Global se construye como:

0,8962
32
R= 10,8962 = 345,3565 F (1, 40)
423+1
El valor de tabla es de 4.08 para un 5 % de significancia, resultando un

modelo significativo, lo que implica un 95 % de probabilidades de que haya
una alta correlacin entre las variables explicativas, debido a que se rechaza
la hiptesis nula. Segn el Criterio de Klein podemos detectar la gravedad
de esta situacin al comparar el R2 de la regresin auxiliar con el del modelo
5.2. PRUEBA DE CAMBIOS ESTRUCTURALES 169
general. Los resultados obtenidos para la Funcin de Importaciones en el

captulo 3 nos entrega el valor del R2 , el cual es de 0.9617, que es mayor
al R2 de la Regresin Auxiliar de 0.8962. Por lo tanto, segn este criterio
la multicolinealidad presente en este modelo no es suficientemente grave. Sin
embargo, si queremos obtener estimaciones ms precisas de las varianzas de
los parmetros estimados, deberamos buscar una solucin a este problema.
Por ejemplo, alargando las series de datos.
5.2. Prueba de Cambios Estructurales

Un tema que ha interesado a los economistas es la posibilidad de identi-
ficar cambios en la estructura de la economa entre dos perodos, o cambios en
la estructura de comportamiento de dos o ms grupos de agentes econmicos.
En la figura 5.1 se presenta un caso que sirve para ilustrar la idea asociada
a cambios estructurales.
En el eje Horizontal se mide el tiempo mientras que en el eje vertical
se mide cualquier variable econmica de inters, tal como el consumo. Si
consideramos un momento en el tiempo, digamos el ao 1982 sealado en
la figura, podemos sospechar que por alguna razn (la crisis econmica, por
ejemplo) el perodo anterior a 1982 y el perodo posterior a 1982 tienen
comportamientos distintos en trminos de sus parmetros que caracterizan
el perodo. Especficamente el parmetro de pendiente y/o posicin de la
funcin de consumo podran diferir entre perodos.
Si el comportamiento de la economa fuese distinto en ambos perodos,
lo correcto sera estimar una ecuacin para cada intervalo (regresiones no
restringidas del periodo 1 y 2). Si por el contrario, estimamos un solo modelo
para todo el perodo de estudio, entonces implcitamente estamos asumiendo
que el valor de los parmetros es el mismo para todo el perodo muestral. En
otras palabras estamos imponiendo una restriccin sobre los parmetros de
ambos perodos.
El objetivo de la prueba de cambio estructural es determinar si existen
diferencias de estructura o comportamiento entre dos muestras o dos perodos
de una regresin.
Para verificar esta hiptesis podemos utilizar la prueba F descrita en cap-
tulos anteriores. Recordemos que en esta prueba se comparan las sumatorias
de cuadrados residuales de las estimaciones restringidas y no restringidas. Es-
ta prueba, cuando se aplica a problemas de cambio estructural, tambin se
Regresin Restringida
Periodo 1
Regresin no Restringida
Periodo 1
Regresin no Restringida
Periodo 2
PERIODO 1 1982 PERIODO 2 t
Figura 5.1: Cambio Estructural
denomina Prueba de Chow. Si pensamos, que el comportamiento del mod-

elo es el mismo en los dos perodos, estimamos un solo modelo usando el total
de observaciones disponibles (N). Implcitamente estamos asumiendo que:
10 = 20
11 = 21
..
.
1k = 2k
donde ji es el i-simo parmetro en el perodo j (j = 1, 2 i = 1, 2, ..., k).

Es decir, que los parmetros del periodo 1 son iguales a los parmetros
del periodo 2. De esta estimacin se obtiene una sumatoria de cuadrados
residuales restringida a la hiptesis nula (SCRR ).
Por el contrario, si pensamos que los dos perodos difieren significativa-
mente, podemos estimar dos modelos con distinto nmero de observaciones
en cada uno de ellos (N1 y N2 , respectivamente). Para este caso tendremos
2 sumatorias de cuadrados residuales (SCR1 y SCR2 ), la sumatoria de ellas
representa la sumatoria de cuadrados no restringida del modelo (SCRn ). Si
no existiera diferencia en los parmetros de ambos perodos, no deberamos
encontrarnos con diferencias significativas entre la sumatoria de cuadrados
residuales restringida y no restringida. De esta forma podemos construir el
siguiente estadgrafo:
SCRR SCRn
F = k F(k, nsk)
SCRn
N sk
donde:
SCRR : Suma de Cuadrados Residuales Restringidos (del total de la
muestra).
SCRn : Suma de Cuadrados Residuales no Restringida (suma de la SCR
obtenidas en la estimacin de cada grupo de la muestra).
N : Nmero de Observaciones.
k : Nmero de Parmetros.
s : Nmero de Sectores Agrupados o de Perodos Agrupados.
En resumen la prueba consiste en los siguientes pasos:
1. Estimar el modelo general
Yt = 1 + 2 X2t + 3 X3t + . . . + k Xkt + t
por MCO para el nmero total de observaciones. Calcular SCRR* .
2. Estimar el mismo modelo para cada muestra por separado.
Yt = 1 + 2 X2t + 3 X3t + . . . + k Xkt + t para N1

Yt = 1 + 2 X2t + 3 X3t + . . . + k Xkt + t para N2
De cada regresin se obtienen las sumas de cuadrados residuales ( SCR1

y SCR2 ). Con estas se obtiene la SCRn como la suma de las anteriores:
SCR1 + SCR2 = SCRn
3. Se plantea la hiptesis nula de la siguiente manera:
10 = 20
11 = 21
H0 : ..
.
1k = 2k
4. Luego se calcula la variable aleatoria F:

SCRR SCRn
k (SCRR SCRn ) (N1 + N2 sk)
F = = F(k,nsk)
SCRn SCRn k
N sk
5. Por ltimo, se compara el valor anterior con el valor de la distribucin
F, de manera que si el valor calculado es menor que el valor de la
distribucin entregado por la tabla, entonces se acepta la hiptesis nula,
es decir, se acepta la hiptesis de que no existen cambios estructurales,
y los dos perodos o muestras se comportan de la misma manera. En
caso contrario, si el F calculado es mayor que el valor F de tabla, se
rechaza la hiptesis nula. Ello constituye indicio de que la estructura
de determinacin de la variable habra cambiado entre ambos perodos.
A continuacin, presentamos la evaluacin de este test para dos ejemplos
distintos, el primero es una muestra de series de tiempo y el segundo es de
corte transversal.
Retomando la Funcin de Consumo para el caso chileno, que comprende
el perodo desde 1960 hasta 1997, estimada en captulos anteriores, verificare-
mos la posibilidad que exista un cambio estructural en los parmetros antes
y despus del ao 1982, motivados por la crisis que experiment nuestro pas
en aquel ao.
Para ello seguiremos el procedimiento propuesto por la Prueba de Chow,
recin presentado.
1. A partir de la estimacin de la funcin de consumo realizado en el
captulo 3 se obtiene la Suma de Cuadrados Residuales Restringida,
dado que en aqulla se asumi que el comportamiento del modelo era
el mismo en ambos perodos. De esta forma se tiene que,
Ct = 0,3152 + 0,6134Yt + t
d.s. = 0,04506 0,0118
tc = (6,8947) (52,2269)
SCRR = 4,69 1011
n = 38
2. Se divide la muestra en dos perodos: el perodo 1 comprende los aos

desde 1960 hasta 1982 inclusive, mientras el segundo perodo com-
prende los aos restantes, es decir, desde 1983 hasta 1997. Luego,
procedemos a estimar el modelo para cada perodo:
Ct = 163415,8 + 0,6700Yt + t
tc = 1,1103 12,1752
11
SCR1 = 3,15 10
N1 = 23
Ct = 334518,3 + 0,6085Yt + t
tc = 4,2974 40,1299
SCR2 = 1,36 1011
N2 = 15
De esta forma, la Suma de Cuadrados Residuales no Restringido es:

SCRn = SCR1 + SCR2 = 3,15 1011 + 1,36 1011
SCRn = 4,51 1011
3. La hiptesis nula se plantea como:
10 = 20
H0 :
11 = 21
4. Construimos a continuacin el estadstico:

SCRR SCRn (4,691011 )(4,511011 )
F = k = 2
= 0,6785
SCRn 4,511011
384
n sk
5. Comparando con el valor de tabla que es de 3,23 es posible verificar

que el valor anterior es menor, por lo que no existe evidencia suficiente
para rechazar la hiptesis nula. Por ello es posible decir con un 95 % de
probabilidades que no existe cambio estructural en el modelo, es decir,
los dos perodos considerados se comportan de la misma manera.
9.000.000
8.000.000
7.000.000
6.000.000
5.000.000
ingreso
4.000.000
3.000.000
consumo
2.000.000
1.000.000
0
19
19
19
19
19
19
19
19
19
19
19
19
19
60
63
66
69
72
75
78
81
84
87
90
93
96
Figura 5.2: Relacin Consumo-Ingreso (1960-1997)
Es posible ver en la Figura 5.2 que la relacin entre el consumo y el in-

greso a travs de todo el perodo considerado no cambia significativamente,
corroborando el resultado encontrado a travs de la Prueba de Cambio Es-
tructural. Por decirlo en forma simple, las dos series se mueven en forma
relativamente sincronizada a travs del tiempo. Por lo tanto, se asevera el
hecho de que es posible concluir con un 95 % de probabilidad que no hay
evidencia de cambio estructural o de comportamiento entre el consumo y
el ingreso disponible entre los perodos 1960-1982 y 1983-1997 para el caso
chileno.
Ejemplo 2. Funcin de Mincer
El presente modelo ha sido presentado en captulos anteriores y consiste

en una estimacin de salarios para los trabajadores de sexo masculino cuyos
datos fueron obtenidos a travs de la encuesta CASEN para la VIII Regin
en el ao 1994. Plantearemos esta Prueba para evaluar si existen diferencias
entre trabajadores divididos en 3 grupos segn los aos de escolaridad. El
primer grupo contendr a trabajadores que posean menos de 10 aos de
escolaridad, el segundo grupo que posea entre 10 y menos de 14 aos de
estudios, y el ltimo con 14 aos de escolaridad inclusive y ms.
1. El modelo estimado con la muestra total es:
ln yi = 3,9997 0,0004X 2 + 0,0372X + 0,1450S + t

d.s. = 0,1010 0,0001 0,0059 0,0065
tc = 39,5894 3,1412 6,3037 22,3082
SCRR = 779,7495
n = 1268
2. Procediendo a las estimaciones de cada sector se tienen sus SCR:
SCR1 = 314,3561
N1 = 534
SCR2 = 332,3691
N2 = 554
SCR3 = 101,8453
N3 = 180
Por lo tanto la Suma de Cuadrados Residuales no Restringida es:
SCRn = SCR1 + SCR2 + SCR3

SCRn = 314,3561 + 332,3691 + 101,8453 = 748,5705
3. La hiptesis nula es:
10 = 20 = 30
11 = 21 = 31
H0 :
12 = 22 = 32
13 = 23 = 33
4. Construyendo el estadstico se tiene:

779,7495748,5705
4
F = 748,5705 = 13,0785
126812
5. Al comparar el estadstico calculado obtenido en el paso anterior con el

valor de la distribucin entregado por la tabla (3,26) se detecta que nos
hallamos en la zona de rechazo, por lo que es posible aseverar que con

un 95 % de confianza existe un cambio estructural en los parmetros,
dado que la muestra no se comporta de la misma forma segn el nivel
de estudios que tenga el trabajador.
En este caso, dado la forma en que se estableci el test, se sabe que
los parmetros no deberan ser iguales entre los tres grupos. Lo que no
se sabe, es si stos s podran ser iguales entre dos grupos. Cmo se
podra probar esta hiptesis?.
5.3. Variables Dictomicas

Existen muchas variables explicativas que son discontinuas o en la prcti-
ca no pueden ser medidas en forma continua. Estas variables generalmente se
les conoce como variables cualitativas, dicotmicas o variables dummy. Por
ejemplo, en la estimacin de la demanda por un producto puede ser relevante
si el consumidor es hombre o mujer. Tambin puede ser de importancia el
nivel educacional que esta persona obtuvo a travs de su vida (educacin pri-
maria, secundaria o superior), etc. De esta forma podemos dividir la muestra
en dos partes, una de ellas contiene a todas las observaciones que presentan el
atributo de relevancia y la otra parte contiene a todos los que no lo presentan.
As podemos definir una variable dicotmica de la siguiente forma:

1 Si el individuo presenta el atributo
D=
0 en otro caso
El uso de las variables cualitativas puede afectar de tres maneras la es-

timacin del modelo. Primero, puede afectar el intercepto, es decir, el hecho
que una muestra presente un determinado atributo afecta la posicin de la
curva. Segundo, puede afectar la pendiente y por ltimo, puede afectar tanto
la pendiente como el parmetro de posicin.
Consideremos el modelo:
Yt = 1 + 2 X2t + . . . + k Xkt + t
y analicemos cada caso por separado:
1. Slo cambia el parmetro de posicin

5.3. VARIABLES DICTOMICAS 177
Regresin para D = 1
1 + Regresin para D = 0
Figura 5.3: Cambio en parmetro de posicin
En este caso se define una variable D que se comporta de la siguiente

manera:
1 si posee el atributo
D=
0 si no posee el atributo
entonces la funcin de regresin queda definida de la siguiente manera:
Yt = 1 + D + 2 X2t + . . . + k Xkt + t
Ahora, segn el comportamiento de D tenemos dos funciones de regresin,

dependiendo del valor que tome la nueva variable dicotmica:
D = 1 Yt = ( 1 + ) + 2 X2t + . . . + k Xkt + t
D = 0 Yt = 1 + 2 X2t + . . . + k Xkt + t
La introduccin de la variable muda hace que el intercepto de la regresin

cambie para aquellas personas que poseen el atributo. Ahora el intercepto se
compone de dos partes: 1 y . En cambio, para las personas que no poseen
el atributo, el intercepto sigue siendo slo 1 . De esta forma, la variable
muda permite diferenciar el comportamiento entre los distintos grupos de
observaciones (personas). En el caso que resulta ser positivo, la regresin
puede graficarse como en la figura 5.3
2. Slo cambia la pendiente

Regresin para D = 1
Pendiente = 2 +
Regresin para D = 0
Pendiente = 2
X2
Figura 5.4: Cambio de Pendiente
Suponga ahora que lo que cambia es el impacto que tiene la variable

explicativa X2 sobre la variable dependiente entre distintos grupos de indi-
viduos.
En este caso tambin se define una variable D que se comporta de la
siguiente manera:

D=
entonces la funcin de regresin queda definida de la siguiente manera:
Yt = 1 + 2 X2t + DX2t + . . . + k Xkt + t
Ahora, segn el comportamiento de D tenemos dos funciones de regresin:
D = 1 entonces Yt = 1 + ( 2 + ) X2t + . . . + k Xkt + t

D = 0 entonces Yt = 1 + 2 X2t + . . . + k Xkt + t
En este caso lo que cambia es el coeficiente de pendiente para X2 entre

distintos grupos de observaciones. Para un grupo el coeficiente es 2 + , y
para el otro slo 2 . Esto se muestra en la figura 5.4 cuando > 0.
3. Cambia tanto la posicin como la pendiente

En este caso definimos una variable D que se comporta de la siguiente

manera:
D=
entonces, la funcin de regresin queda definida de la siguiente forma:
Yt = 1 + 1 D + 2 X2t + 2 DX2t + . . . + k Xkt + t
Entonces, segn el comportamiento de D tenemos dos funciones de regre-
sin:
D = 1 entonces Yt = ( 1 + 1 ) + ( 2 + 2 ) X2t + . . . + k Xkt + t
D = 0 entonces Yt = 1 + 2 X2t + 3 X3t + . . . + k Xkt + t
Como vemos, en este caso se diferencian los grupos tanto por el coeficiente
de posicin, como por el coeficiente de pendiente para la variable X2 .
Como se ha hecho en casos anteriores, mostraremos dos ejemplos en los
que se ha introducido variables dummies. Pero antes de pasar a ellos, es
preciso tener presente que es posible la utilizacin de este tipo de variables
para caracterizar atributos mltiples. Considere, por ejemplo, una situacin
en la que se tienen tres atributos: a, b y c (y no dos como en las referencias
anteriores). Asumimos que estos atributos son excluyentes, pero que todas
las observaciones deben tener uno de ellos. Por ejemplo, para una muestra de
individuos se pide su estado civil, y se clasifican todos los individuos en tres
categoras: soltero, casado, u otro (divorciado, viudo, separado, etc.). Dado
que las variables dicotmicas implican slo dos caractersticas, en este caso
ser necesario la introduccin de dos variables dummies, siendo:

1 si posee el atributo a
D1 =
0 si no lo posee
y
1 si posee el atributo b
D2 =
0 si no lo posee
Luego, se introducen ambas variables segn lo que se quiera evaluar a
partir de los casos (1), (2) y (3) descritos recientemente. Fjese que en este
caso, si un individuo presenta la siguiente situacin, D1 = 0, D2 = 0, en-
tonces significa que posee el atributo c. Queda claro, entonces, que la regla
de introduccin de variables cualitativas es que si se tienen n atributos
entonces se deben introducir (n 1) variables dummies, y que el n-simo
atributo queda como base de comparacin..
En la seccin anterior se evalu si la Funcin de Consumo para el caso

chileno presentaba evidencia suficiente como para esperar un cambio estruc-
tural en los aos posteriores a 1982 respecto del perodo anterior al mismo.
Las variables cualitativas permiten el uso de un mtodo alternativo al Test
de Chow. Este mtodo implica introducir una dummy de la siguiente forma:

1 si es el periodo 1960 1982
D1 =
0 en otro periodo
Luego, se procede a introducir la variable D1 de manera tal que afecte la
pendiente y el intercepto. Finalmente la ecuacin a estimar para el total de
la muestra es:
Ct = 0 + 1 Yt + 2 D1 + 3 D1 Yt + t
obtenindose
Ct = 334518,3 + 0,6085Yt 171102,5D1 + 0,0615D1 Yt + t

d.s. = 87575,67 0,0171 163836,2 0,0545
t = 3,8198 35,6698 1,0444 1,1282
2
R = 0,9875
R2 = 0,9863
F = 891,4355
Cabe sealar que los parmetros estimados para cada perodo son idn-
ticos a los obtenidos con la prueba de Chow previamente en la seccin 5.2.
Si calculamos el intercepto para el perodo 1960-1982 de los resultados con
variables mudas obtenemos 0 + 2 = 163415, 8. El coeficiente de pendiente
para el mismo perodo es 1 + 3 = 0, 6700. Ambas estimaciones son las
mismas que obtuvimos previamente para el primer perodo. Y los resulta-
dos obtenidos cuando D1 = 0, corresponden exactamente a los obtenidos
previamente para el segundo perodo (1983-1997). Cabe tener presente que
la estimacin anterior afecta tanto la pendiente como el intercepto, hecho
que es justamente el que se quiere evaluar para encontrar si hay evidencia
de cambio estructural. Si analizamos el estadstico t es sencillo darse cuenta
que la variable D1 no ha resultado significativa en ninguno de los casos. Por
lo tanto, no es posible explicar los cambios experimentados por el consumo
2.500.000 1.400.000
1.200.000
2.000.000
1.000.000
1.500.000 800.000
1.000.000 600.000
400.000
500.000
200.000
0 0
19
19 :1
19 :4
19 :3
19 :2
19 :1
19 :4
19 :3
19 :2
19 :1
19 :4
19 :3
19 :2
19 :1
20 :4
90
90
91
92
93
93
94
95
96
96
97
98
99
99
00
:3
P.I.B. Importacin
Figura 5.5: Series de Importacin y P.I.B.
a travs del comportamiento de la variable introducida, ya sea afectando el

intercepto o en el caso en que interacta con la variable ingreso lo cual afecta
la pendiente. Estos resultados nos indican entonces, de manera anloga a los
resultados hallados con el Test de Chow, que no se verifica un cambio de
comportamiento antes y despes del ao considerado.
Los datos de la Funcin de Importaciones en relacin con el P.I.B. utiliza-

dos para la estimacin efectuada en el captulo 3 se encuentran expresados
en la figura 5.5. En ella es posible visualizar un quiebre en la relacin Im-
portacin - P.I.B. en el perodo comprendido entre el primer trimestre de 1998
y el ltimo trimestre del siguiente ao. Este quiebre claramente est reflejan-
do los efectos que la Crisis Asitica impuso sobre nuestra economa. Dada
esta situacin, haremos uso de una variable dummy que permita representar
este perodo interactuando con el Producto Interno Bruto, medida econmica
que experimenta un cambio en relacin a los niveles de importacin.
Sea, entonces, la siguiente variable cualitativa

1 si es el periodo 1998 : 3 1999 : 4
D1 =
0 en otro caso
La ecuacin a estimar se reduce a lo siguiente:
ln(Mt ) = 0 + 1 ln(P IBt ) + 2 T CRt1 + 3 D1 ln(P IBt ) + t

Los resultados de la estimacin se presentan a continuacin:
ln(Mt ) = 1,4735 + 0,9404 ln(P IBt ) 0,0157T CRt1 0,0082D1 ln(P IBt )
d.s. = 2,2504 0,1407 0,0028 0,0021
t = 0,6548 6,6850 5,6841 3,9209
2
R = 0,9728
R2 = 0,9706
dw = 1,8136
F = 452,2442
Los resultados nos indican que la introduccin de la variable D1 que per-

mite ajustar el quiebre en la relacin importacin - P.I.B. es significativa
pudiendo explicar, en el 95 % de los casos, el comportamiento de las im-
portaciones. La relacin de esta nueva variable con la explicada es negativa,
resultado que indica que una de las consecuencias que tuvo la crisis asiti-
ca en nuestro pas fue cambiar la relacin entre producto e importaciones.
Cambios en el producto tuvieron un efecto ms reducido sobre las importa-
ciones en este periodo. De esta forma, se tienen dos funciones de regresin
dependiendo del comportamiento de la variable dummy. Como se explic, la
forma en que ha sido incorporada a la estimacin la variable D1 afecta a la
pendiente, tenindose para
D=1 ln (Mt ) = 1,4735 + (0,9404 0,0082) ln (P IBt ) 0,0157T CRt1

D = 0 ln (Mt ) = 1,4735 + 0,9404 ln (P IBt ) 0,0157T CRt1
Para los aos descritos por D1 la pendiente de la Funcin de Regresin

Muestral disminuye en el coeficiente estimado para esta variable. Si com-
paramos los valores del R2 y del dw obtenidos en la anterior estimacin con
los hallados en captulos anteriores que no se les haba introducido variables
cualitativas, observaremos que ambas medidas estadsticas han mejorado.
Apndice A
Ejercicios Complementarios
En este apndice entregamos al lector ejercicios complementarios rela-

cionados a los temas de estimacin e inferencia discutidos en el Captulo 3.
El apndice contiene los siguientes elementos:
1. Anlisis de estimaciones y resultados para dos funciones adicionales a

las presentadas en el Captulo 3: la Funcin de Precios y la Funcin de
Produccin.
2. Todas las bases de datos usadas en el libro se entregan en un diskette.

Por lo tanto, es factible utilizarlas para replicar los resultados presenta-
dos. Por esta razn entregamos una serie de Instrucciones del Programa
E-Views.
3. Series de datos de los ejemplos desarrollados.
A.1. Estimacin de Funcin de Precios y de

Produccin
A.1.1. Funcin de Precios
Nuestro modelo terico asume que el incremento porcentual en los precios
depende del crecimiento en el ndice de remuneraciones y del incremento
porcentual en el tipo de cambio nominal. Este se basa en un enfoque de
183
184 APNDICE A. EJERCICIOS COMPLEMENTARIOS
fijacin de precios por costos. Es decir,

(Pt Pt1 ) (Wt Wt1 ) (Et Et1 )
= 0 + 1 + 2 + t
Pt1 Wt1 Et1
donde P es el ndice de precios, W es el ndice de remuneraciones y E
es el valor del tipo de cambio nominal. Todas las variables se presentan en
tasas de cambio porcentual.
Las razones que explican este modelo son las siguientes:
El incremento en los salarios afecta los costos unitarios de la empresa, y

la empresa en la medida que intenta mantener sus mrgenes de utilidad,
ajusta los precios al alza.
El tipo de cambio nominal tambin afecta los costos unitarios de las
empresas, ya sea por el efecto directo sobre los precios de los insumos
importados, ya sea a travs de un efecto indirecto por medio del im-
pacto sobre insumos domsticos que utilizan insumos importados para
su produccin. El efecto sobre los precios es positivo.
Ahora que hemos descrito el marco conceptual de la funcin de precios

podemos analizar la estimacin realizada en base a los datos que se encuen-
tran en el archivo precios.xls para el perodo comprendido entre el primer
trimestre de 1980 y el mismo trimestre del ao 2000. Los resultados obtenidos
son los siguientes:
(Pt Pt1 ) (Wt Wt1 ) (Et Et1 )
= 0,0079 + 0,4916 + 0,2258 + t
Pt1 Wt1 Et1
(0,0038) (0,0745) (0,0293)
t = 2,0587 6,5956 7,6982
2
R = 0,5607
R2 = 0,5493
dw = 2,0117
n = 80
Cabe mencionar que en este caso el parmetro estimado tiene la interpretacin

de una elasticidad. Por ejemplo, para el caso de 1 un incremento de un 10 %
en la tasa de crecimiento del ndice de remuneraciones aumentar el nivel de
precios en un 4, 9 %.
A.1. ESTIMACIN DE FUNCIN DE PRECIOS Y DE PRODUCCIN185
A partir del R2 podemos decir que la estimacin de nuestra Funcin de

Precios explica en un 55 % al modelo poblacional. El estadstico de Durbin
Watson nos indica presencia de no autocorrelacin en los errores.
Parte 1. Prueba t Individual
Con esta prueba podremos verificar si los parmetros encontrados son

compatibles con lo sugerido por la teora econmica al probar su signifi-
cancia. Dentro de los resultados presentados en el esquema anterior, encon-
tramos el valor del estadstico t resultante de aplicar esta Prueba de Hipte-
sis. Recuerde que este test nos permite validar el signo que acompaa a cada
parmetro indicando si es posible explicar los cambios experimentados por la
variable dependiente a travs de las variaciones producidas en las variables
explicativas.
Al llevar a cabo esta prueba, se plantea para el segundo parmetro, 1 ,
la siguiente hiptesis nula:
H0 : 1 = 0
Como se explic en el captulo 3, se calcula el estadstico t como se muestra

a continuacin:
1 1
tc =
S 1
Desarrollando la ecuacin anterior se obtiene un valor igual a 6.5956 para

c
el t , que al ser comparado con el de tabla vemos que se encuentra en la zona
de rechazo. Esto significa que no se acepta la hiptesis nula, lo cual conduce
a probar la significancia de 1 .
En forma anloga se obtuvieron los valores del estadstico t para los
restantes parmetros. Dado que ste estadstico es mayor que 2, es decir
que el t de tabla, se rechaza la hiptesis nula en todos los casos analizados.
Con estos resultados sabemos entonces que los estimadores permiten explicar
las variaciones que experimenta el ndice de precios, lo cual resulta compati-
ble con la teora econmica, ya que la regresin efectuada a travs de MCO
satisface la relacin existente entre las variables explicativas y la variable
dependiente.
Parte 2. Intervalo de Confianza

Un mtodo alternativo de llevar a cabo las Pruebas de Hiptesis, consiste
en construir un intervalo de confianza para el parmetro, aunque el resul-
tado de la Prueba de Significancia es el mismo, los intervalos de confianza
nos entregan ms informacin que el procedimiento anterior, ya que nos in-
dica entre qu rangos puede variar un parmetro. Para ejemplificar este caso
buscaremos el intervalo de confianza para 2 y verificaremos si se llega a la
misma conclusin que con la Prueba t Individual.
Planteando el intervalo para 2 :
Pr( 2 t/2 S 2 2 2 + t/2 S 2 ) = 1

Si elegimos = 0,05 (95 % de confianza), obtenemos
(0,2258 1,96 0,0293 2 0,2258 + 1,96 0,0293)
(0,1684 2 0,2832)
Es posible apreciar de los resultados que existe un 95 % de posibilidades
que 2 tome algn valor entre 0.1684 y 0.2832. Tal como se planteara al
comienzo de esta parte, el intervalo de confianza nos gua a la misma con-
clusin que la Prueba t Individual, ya que, se observa que 2 = 0 cae fuera
del intervalo. Adems, el intervalo de confianza nos indica entre qu valores
puede hallarse con mayor probabilidad el valor poblacional, informacin que
no es posible obtener a travs del Test de Significancia Individual.
Parte 3. Prueba T Generalizada

A continuacin intentaremos probar la existencia de homogeneidad de
grado 1 en salarios y tipo de cambio. Es decir, si incrementos en los costos
se traspasan completamente a precios. La hiptesis se plantea de la siguiente
manera:
H0 : 1 + 2 = 1
Podemos establecer t como

0
t= 1
1
De esta forma, la prueba de hiptesis puede expresarse como:
H0 : t0 = 1
H1 : t0 6= 1
El estadstico t se encuentra al aplicar la siguiente ecuacin:
t0 t0 t0 t0
tc = p = q
VAR(t0 ) 2 t0 (X0 X)1 t
Por lo tanto requerimos de la siguiente informacin:

0,0079 1,46 105 0,000238 3,39 105
= 0,4916 VAR() = 0,000238 0,005556 0,000101
5
0,2258 3,39 10 0,000101 0,000860
As, podemos obtener:
t0 = 0,7174
var(t0 ) = t0 var()t = 0,006618

Reemplazando:
0,7174 1
tc = = 3,4738
0,006618
Dado que el estadstico t se encuentra en la zona de rechazo al exceder
al de tabla (1.99 para un 5 % de significancia), rechazamos la hiptesis nula
planteada.
Parte 4. Prueba de Significancia Global

En este apartado intentaremos probar si la regresin de la funcin de
precios es significativa en conjunto. Para ello planteamos como hiptesis nula
que todos los parmetros relevantes del punto de vista terico son iguales a
cero. Si aceptamos esta hiptesis, entonces estaremos en condiciones de decir
que la regresin en conjunto no explica los cambios experimentados en el
nivel de precios. Por lo tanto, lo que esperamos hallar con esta prueba es el
rechazo de la hiptesis nula.
Las pruebas de hiptesis son las siguientes:
H0 : 1 = 2 = 0
Calculando el estadstico F :
R2 /(k 1) 0,5607/(3 1)
Fc = 2
= = 49,14
(1 R )/(n k) (1 0,5607)/(80 3)
Es posible concluir al comparar con el F de tabla (3,11), que este ltimo es
menor al calculado, lo cual indica que nos encontramos en la zona de rechazo.
As, es posible decir que la regresin encontrada para la Funcin de Precios
s explica el comportamiento que experimenta nuestra variable dependiente.
Parte 5. Prediccin Individual

Para esta parte del anlisis buscaremos qu valor adopta la variable de-
pendiente, es decir, el nivel de precios, cuando las variables independientes o
exgenas toman un valor especfico.
De esta manera, podemos plantear una situacin en la que la tasa de
crecimiento de las remuneraciones alcanza un nivel igual a 4 % y el cambio
porcentual en el tipo de cambio nominal es de 3 % sobre base anual. Estas
tasas son las que se esperan normalmente para estos indicadores.
El intervalo de confianza que define un valor especfico para el nivel de
precios es:
q
2 0 1 0
P0 P0 t/2 [X0 (X X) X0 + 1]
Siendo:
P0 = X0

0,0079
P0 = 1 4 3 0,4916 = 2,6517
0,2258

0,0529 0,8623 0,1228
(X0 X)1 = 0,8623 20,1295 0,3659 X0 (X0 X)1 X00 = 351,3135
0,1228 0,3659 3,1158
2 = 2,75974 104
Resolviendo para un 95 % de confianza:

p
P0 2,6517 1,96 2,75974 104 [351,3135 + 1]
(2,04054 P0 3,26286)
Es posible afirmar con un 95 % de confianza que, dado el escenario plantea-

do en el enunciado, la variacin en el nivel de precios se ubicar entre 2.04 %
y 3.26 %, anual, aproximadamente.
Parte 6. Prediccin Media
Llegando al final de nuestro desarrollo de la Funcin de Precios, llevaremos

a cabo la prediccin media del nivel de precios dada la misma situacin
anterior para los parmetros. As, el predictor es P0 igual a 1.3298 y su
intervalo de confianza para la Prediccin Media est dado por:
q
2 0 1 0
E(P0 /X0 ) P0 t/2 [X0 (X X) X0 ]
Reemplazando:
p
4
E(P0 /X0 ) 2,6517 1,96 2,75974 10 351,3135
(2,04141 E(P0 /X0 ) 3,26199)
De esta forma, el valor esperado en la tasa de crecimiento del nivel de

precios se encuentra entre 2.04141 y 3.26199 con un 95 % de confianza.
A.1.2. Funcin de Produccin

La Funcin de Produccin que se utiliza asume la presencia de dos factores
productivos, capital y trabajo. La forma funcional que adoptaremos ser del
tipo Cobb-Douglas. Para hacer posible la regresin con Mnimos Cuadrados
Ordinarios hemos procedido a linealizarla con logaritmos, quedando con la
forma que se observa ms abajo.
A continuacin se detallan los resultados obtenidos para esta funcin
partiendo de las series contenidas en el archivo produccin.xls para el perodo
trimestral 1987:1 - 1993:4.
ln(P IBt ) = 1,7945 + 0,0826 ln(capitalt ) + 1,5259 ln(trabajot ) + t

(1,6639) (0,1691) (0,3575)
t = 1,0785 0,4882 4,2678
2
R = 0,9347
R2 = 0,9294
dw = 0,7239
n = 28
El primer trmino, 0 , representa el efecto medio que tienen otras variables

sobre el producto, las cuales no han sido consideradas en forma explcita en
el modelo.
Los estimadores 1 y 2 corresponden a la elasticidad parcial del capital
( K ) y a la elasticidad parcial del trabajo ( L ), respectivamente y son iguales a
0,0826 y 1,5259. Al observar los coeficientes de determinacin verificamos que
la estimacin llevada a cabo explica en un 93 % los cambios en el producto. El
estadstico de Durbin y Watson indica la violacin de uno de los supuestos
del modelo clsico: la ausencia de autocorrelacin en los residuos. En este
caso, se tiene correlacin serial positiva de primer orden en los residuos.
Dada esta situacin, no tiene validez realizar inferencia sobre los parmetros
estimados por MCO, pero a pesar de ello, y teniendo presente que debe
hacerse una transformacin de las variables para eliminar la autocorrelacin,
continuaremos con el procedimiento efectuado en la funcin anteriormente
estimada, esta vez para la Funcin de Produccin.
Parte 1. Prueba t Individual

La Prueba de Significancia Individual arroja diferentes resultados para
cada uno de los estimadores. Si se considera un t de tabla igual a 2.0481 ,
se rechaza H0 al evaluar si el coeficiente que acompaa la variable trabajo
es igual a cero, lo cual prueba su significancia. En el caso del capital, el
estadstico t se encuentra en la zona de aceptacin lo que nos indica que el
capital no ayuda a explicar el comportamiento del producto.
Para ejemplificar, como lo hemos hecho para las dems funciones presen-
tadas tanto en el captulo 3 como en este apartado, desarrollaremos la Prueba
t para 1 .
Planteamos el estadstico t como:
1 1
tc =
S 1
Siendo la Prueba de Hiptesis como se presenta:
H0 : 1 = 0
H1 : 1 6= 0
Reemplazando se tiene:
0,0826 0
tc = = 0,488
0,1691
Efectivamente, al comparar el resultado obtenido en nuestra Prueba t con
el de tabla, aceptamos H0 al encontrarnos en la zona de aceptacin.
Anlogamente para 2 se tiene:
2 2
tc =
S 2
La hiptesis nula es:
H0 : 2 = 0
H1 : 2 6= 0
1
Valor de tabla para un tamao muestral de 28 observaciones y un nivel de significancia
de 0.05.
Finalmente,
1,5259 0
tc = = 4,268
0,3575
Dado que tc > tt se tiene que 2 es un estimador significativo.
Parte 2. Intervalo de Confianza

Ya que nos encontramos en un escenario en el que uno de los parmetros
encontrados no es significativo buscaremos su intervalo de confianza.
Procedemos planteando el intervalo de confianza para 1 :

1 t/2 S 1 1 1 + t/2 S 1
Asumiendo un = 0,05 y reemplazando la informacin obtenemos:
(0,0826 2,048 0,1691 1 0,0826 + 2,048 0,1691)
(0,2637 1 0,4289)
Efectivamente, es sencillo verificar que 1 tiene una alta probabilidad de
tomar el valor cero, lo que nos conduce a la misma conclusin que con la
Prueba t Individual.
Llevando a cabo el mismo procedimiento para 2 , el intervalo de confianza
se plantea como:

2 t/2 S 2 2 2 + t/2 S 2
Reemplazando se tiene,
(1,5259 2,048 0,3575 2 1,5259 + 2,048 0,3575)
0,7937 2 2,2581
Se observa que el valor cero queda fuera del intervalo de confianza, te-
niendo 2 altas probabilidades de ser significativo, conclusin que tambin
se deduce de la Prueba t Individual.
Parte 3. Prueba T Generalizada

Una prueba interesante desde la perspectiva econmica es comprobar si
la funcin posee rendimientos constantes a escala, es decir 1 + 2 = 1. Esta
prueba es fcil de verificar usando la Prueba T Generalizada. Para poder
llevarla a cabo, nuestra matriz t ser un vector de constantes iguales a 1 con
excepcin del primer elemento que tomar el valor cero dado que representa
la constante en nuestra funcin, quedando de la siguiente manera:

0
t= 1
1
Recuerde que la forma funcional original para medir el nivel de producto
es:
P IB = AK 1 L 2
Por lo tanto, la verificacin de rendimientos constantes a escala equivale

a estudiar el grado de homogeneidad r de la funcin, el cual tambin se
interpreta como el rendimiento que presenta la funcin de produccin. En
este caso, se tiene que para que la funcin presente este tipo de rendimientos
debe suceder que la suma de sus exponentes sea igual a 1. De esta forma
tendremos que:

0
t0 = 0 1 1 1 = ( 1 + 2 ) = 1
2
Para que la Funcin de Produccin presente rendimientos constantes a
escala, la suma de sus exponentes debe ser igual a uno.
Por consiguiente, el problema se resume en la siguiente prueba de hipte-
sis:
H0 : t0 = 1
H1 : t0 6= 1
Las dems matrices necesarias para resolver este problema son:


1,7945 2,7685 0,2510 0,5811
= 0,0826 VAR() = 0,2510 0,0286 0,0585
1,5259 0,5811 0,0585 0,1278
El estadstico t relevante para esta prueba es:
t0 t0
tc = p
var(t0 )
Siendo:
var(t0 ) = t0 var()t = 0,0394

Resolviendo:
1,6085 1
tc = = 3,066
0,0394
En conclusin, se rechaza la hiptesis nula dado que el estadstico encon-
trado supera al de tabla, lo cual indica que nuestra funcin de produccin no
presenta rendimientos constantes a escala. Por el contrario, si sumamos los
exponentes de nuestra funcin, el resultado ser mayor a la unidad, lo que
nos indica la presencia de rendimientos crecientes a escala.
Adems, cabe agregar que los resultados indican que el factor capital
no ayuda a explicar el producto. Estos resultados pueden deberse a varios
factores:
a) Que la teora econmica utilizada para explicar la produccin no es la

adecuada.
b) Que la forma de la funcin de produccin utilizada (Cobb-Douglas) no
sea la ms apropiada.
c) Que la medicin de las variables utilizadas es defectuosa.
d) Que efectivamente el capital no ayuda a explicar la produccin en Chile
en el perodo muestral.
Antes de inclinarse por la ltima opcin, es necesario investigar las alter-

nativas anteriores. Realizar esto escapa, naturalmente, al mbito de un libro
de Econometra.
Parte 4. Prueba de Significancia Global

Esta prueba nos permitir concluir si realmente la funcin encontrada
explica en su conjunto los cambios que experimenta el PIB, a pesar que
existan parmetros que resultaron no ser significativos como ya analizamos.
Procedemos, entonces, a plantear la hiptesis nula:
H0 : 1 = 2 = 0
El estadstico F es:
R2 /(k 1) 0,9347/(3 1)
Fc = 2
= = 178,924
(1 R )/(n k) (1 0,9347)/(28 3)
Efectivamente, ocurre que a pesar de que no todos los estimadores han
resultado significativos al ser evaluados individualmente, la regresin en con-
junto s resulta serlo. Es posible llegar a esta conclusin al verificar que el
F c es mayor al F de tabla (F t = 3,4), lo que ubica al estadstico en la zona
de rechazo. Esto es justamente lo que se busca, ya que si esta hiptesis es
rechazada nos indica con un 95 % de posibilidades que los parmetros no
sern iguales a cero simultneamente, pudiendo de esta manera explicar el
comportameinto del PIB a travs de los cambios que ellos experimenten.
Parte 5. Prediccin Individual

Para hallar el valor especfico de la produccin, dado un escenario deter-
minado de las variables independientes, debemos hacer uso del intervalo de
confianza para la prediccin individual.
El escenario que nos impondremos para las variables exgenas son los que
se presentan a continuacin:
K = 6000
L = 5200
Es decir, conocer el rango en que se encontrara la produccin nacional

si se tuviera una acumulacin de capital valorada en 6000 (expresado en
unidades de miles de millones de pesos de 1986) y la fuerza de trabajo de
5200 personas (expresada en unidades de mil).
Recordando el intervalo de confianza:
q
1
[ 2 0 0
ln P IB0 ln P IB 0 t/2 X0 (X X) X0 + 1
Siendo:
[
ln P IB 0 = X0

1,7945
[
ln P IB 0 = 1 ln 6000 ln 5200 0,0826 = 11,980
1,5259
2 = 0,0014

1977,5 179,286 415,071
1
(X 0 X) = 179,286 20,429 41,786
415,071 41,786 91,286
Reemplazando y resolviendo para un 95 % de confianza se obtiene que:
p
ln P IB0 11,980 2,048 0,0014 [2,39336 + 1]
(11,839 ln P IB0 12,121)

Estos valores se encuentran en forma exponencial. Aplicando exponencial
se tiene
138550 P IB0 183510
De esta forma, si las variables exgenas alcanzaran el nivel planteado, el
PIB se ubicara entre 138550 y 183510 millones de pesos.
Parte 6. Prediccin Media

Finalizando el anlisis de la Funcin de Produccin, calcularemos el val-
or esperado del nivel de producto cuando se presenta la misma situacin
planteada para la prediccin individual.
El intervalo de confianza relevante para resolver este problema es:
q
1
[
E(ln P IB0 /X0 ) ln P 2
IB 0 t/2 X0 (X0 X) X00
Resolviendo se llega a que:
(11,861 E(ln P IB0 /X0 ) 12,099)

Finalmente,
141630 E(P IB0 /X0 ) 179690
Se observa que, con un 95 % de posibilidades y un escenario como el
establecido al inicio a las variables, el valor medio del producto se encontrar
en el intervalo encontrado.
A.2. Instrucciones para el programa E-Views

Las estimaciones de las distintas bases de datos que aparecen en este texto
se han llevado a cabo con el software economtrico E-Views. Si usted mismo
desea efectuar las regresiones deber seguir los siguientes pasos:
Al abrir E-Views deber crear un nuevo workfile. Para ello tendr

que acceder al men File en la barra de men, luego elegir New y
finalmente Workfile. Se desplegar un cuadro de dilogo en el que se
debe especificar la frecuencia de las observaciones a estimar e ingresar
tanto el inicio como trmino de dichas observaciones.
Nuevamente se desplegar una ventana (Workfile) en la que aparecern

los parmetros para la constante (c) y para los residuos (resid).
Para que los datos puedan ser ledos por E-Views es necesario im-
portarlos desde los archivos adjuntados, que se encuentran en formato
Excel. Para ello deber presionar el botn Procs en la Barra de Ttulo
de la ventana de Workfile. Luego se abrir un men donde se elegir
el submen Import, para concluir eligiendo la opcin Read Text-
Lotus-Excel.
En este nuevo cuadro se debe especificar archivo, unidad y formato.

Para nuestro caso la unidad ser A:, el formato Excel y el archivo, el
que contenga la informacin a estimar, por ejemplo consumo.xls.
Se abrir un nuevo men en el que se debe tener cuidado que las series
estn con la opcin columnas. Tambin se deber especificar la primera
celda que contiene datos. Para consumo.xls ser B2 y en el cuadro
principal escribir el nombre de las series separadas por un espacio (en
el orden en que aparecen en la base de datos), es decir, para nuestro
ejemplo, consumo seguido de un espacio seguido de ingreso. Una
vez llevado a cabo, aparecern en el Workfile junto al parmetro de la
constante y de los residuos las series de consumo e ingreso ordenados
en columnas.
Solo ahora que tenemos los datos es posible llevar a cabo la estimacin.
Para ello debe elegir dentro del men Quick de la barra principal la
opcin Estimate Equation.
A.2. INSTRUCCIONES PARA EL PROGRAMA E-VIEWS 199
Para terminar, en el cuadro de dilogo debemos ingresar primero la

variable dependiente seguido de la constante y finalmente las variables
independientes, cada una separada de la otra por un espacio y sin co-
mas. El mtodo a elegir es el de Mnimos Cuadrados (Least Squares
en ingls). Para guardar los resultados de la estimacin, al cerrar la
ventana en la que stos aparecen deber hacer clic en el botn Name y
luego dar un nombre a la ecuacin, finalmente termina haciendo clic en
ok. Esta ecuacin aparecer junto con las dems series en el Workfile
identificada por un signo igual.
Si desea obtener los resultados en forma grfica se debe regresar a la

ventana de Workfile. Luego se selecciona(n) las series que se desean graficar
(con ayuda del comando CTRL en el teclado) y con el botn derecho del
mouse elegimos la opcin as Group. Una nueva ventana se abrir donde se
mostrarn las observaciones de cada serie. En esta nueva ventana haga clic
en el men View, luego elija la opcin Graph y finalmente Line.
A.3. Tablas de Datos
Tabla 1. Datos para estimar una Funcin de Consumo

(millones de pesos de 1986)
Periodo Consumo Ingreso Periodo Consumo Ingreso
1960 1403565 1780341 1979 2193805 3118665
1961 1484139 1851872 1980 2345662 3338607
1962 1544760 1975044 1981 2659718 3422684
1963 1609861 2058054 1982 2267392 2806587
1964 1600076 2160352 1983 2137419 2743290
1965 1598521 2200940 1984 2150843 2836445
1966 1778919 2567978 1985 2129737 2858357
1967 1839146 2573875 1986 2238746 3063564
1968 1909414 2675635 1987 2400565 3430872
1969 2009923 2853313 1988 2569303 3820065
1970 1998181 2902718 1989 2829978 4291993
1971 2261128 3159419 1990 2892007 4428160
1972 2435609 3072439 1991 3148534 4769029
1973 2275531 2968435 1992 3582720 5385467
1974 1859731 2980573 1993 3848849 5728410
1975 1647317 2268325 1994 4163544 6180585
1976 1651487 2400603 1995 4572265 7225132
1977 1915879 2616966 1996 5003503 7480542
1978 2060109 2826672 1997 5417874 8173955
Fuente:Boletn Estadstico Mensual. Banco Central
En la tabla para la estimacin de la Funcin de Produccin la serie del

PIB ha sido encadenada con las tasas de crecimiento observadas a partir del
ao 1990 en moneda de 1986. Por su parte la serie de capital (K)se encuentra
en miles de millones de pesos de 1986 y el trabajo (L)en miles de personas.
A.3. TABLAS DE DATOS 201
Tabla 2. Datos para estimar una Funcin de Produccin
Periodo PIB K L Periodo PIB K L

1987:1 99892 3487.4 3879.00 1990:3 108991 4519.9 4381.17
1987:2 101322 3532.1 3884.40 1990:4 114592 4611.6 4463.70
1987:3 96505 3582.6 3831.30 1991:1 125957 4674.1 4546.73
1987:4 100511 3625.5 3937.43 1991:2 124566 4741.4 4467.93
1988:1 105835 3671.6 4030.93 1991:3 119462 4814.1 4443.77
1988:2 107816 3705.0 4065.80 1991:4 129417 4922.1 4564.23
1988:3 104655 3750.7 4083.27 1992:1 142330 5006.6 4693.27
1988:4 109224 3811.5 4224.80 1992:2 137957 5097.4 4668.20
1989:1 116240 3889.5 4317.27 1992:3 137180 5221.8 4655.93
1989:2 120965 3980.5 4313.23 1992:4 143249 5376.0 4796.53
1989:3 115486 4081.3 4307.73 1993:1 154080 5541.1 4940.87
1989:4 117552 4192.2 4410.17 1993:2 149006 5697.6 4923.17
1990:1 122583 4310.3 4502.37 1993:3 146816 5822.7 4972.20
1990:2 116373 4412.0 4429.77 1993:4 149991 5945.1 5069.82
Fuente: Series de PIB y L del Boletn Estadstico Mensual del Banco Central.
Serie de capital de Lehmann, S. (1994)
Tabla 3. Datos para estimar una Funcin de Importaciones

Datos de M y PIB en millones.de pesos de 1986
Periodo M PIB TCR Periodo M PIB TCR
1990:1 419740 1188378 115.86 1995:3 878448 1670564 85.95
1990:2 386714 1128171 110.36 1995:4 850732 1725135 88.28
1990:3 400124 1056616 107.29 1996:1 878918 1859798 86.91
1990:4 368772 1110906 107.78 1996:2 862678 1825502 84.26
1991:1 399807 1221084 113.77 1996:3 920462 1762695 83.92
1991:2 383750 1207608 104.91 1996:4 944680 1857145 83.91
1991:3 433689 1158126 103.31 1997:1 931708 1953561 80.48
1991:4 467629 1254629 103.73 1997:2 947008 1937209 79.07
1992:1 479432 1379825 99.32 1997:3 1064112 1916143 76.79
1992:2 467554 1337429 95.43 1997:4 1128409 2038219 76.29
1992:3 554085 1329893 100.58 1998:1 1179419 2125595 77.82
1992:4 551239 1388734 96.03 1998:2 1099344 2059100 77.58
1993:1 590818 1493715 96.79 1998:3 1102460 1980364 78.39
1993:2 550337 1444535 99.63 1998:4 910388 1987952 78.24
1993:3 624531 1423310 96.67 1999:1 943905 2066145 79
1993:4 577670 1454086 94.42 1999:2 895176 1982669 78.74
1994:1 621553 1567691 95.92 1999:3 944212 1944121 83.62
1994:2 621922 1536989 93.65 1999:4 896239 2066832 87.79
1994:3 693114 1498487 94.53 2000:1 1041253 2178427 83.12
1994:4 643892 1544443 92.90 2000:2 1036687 2102912 82.84
1995:1 760598 1707200 93.39 2000:3 1031309 2056244 88.24
1995:2 735334 1698053 88.61
Fuente:Sitio Web Banco Central. Informe Econmico y Financiero.
A.3. TABLAS DE DATOS 203
Tabla 4. Datos para estimar una Funcin de Precios

Periodo P W T.C.N. Periodo P W T.C.N.
1980:1 6.04 7.54 39.00 1985:2 16.82 20.29 148.87
1980:2 6.49 8.33 39.00 1985:3 18.22 21.55 175.16
1980:3 6.91 8.79 39.00 1985:4 18.97 22.71 180.78
1980:4 7.44 9.97 39.00 1986:1 19.97 24.15 186.92
1981:1 7.76 10.38 39.00 1986:2 20.70 25.32 188.64
1981:2 7.97 10.85 39.00 1986:3 21.34 26.19 194.38
1981:3 8.15 11.72 39.00 1986:4 22.25 27.38 201.78
1981:4 8.29 12.19 39.00 1987:1 23.42 28.69 206.12
1982:1 8.35 12.28 39.00 1987:2 24.67 29.86 214.07
1982:2 8.33 12.37 40.34 1987:3 25.73 31.39 224.62
1982:3 8.83 12.22 55.01 1987:4 27.18 33.35 232.81
1982:4 9.86 12.64 69.28 1988:1 27.86 35.39 242.35
1983:1 10.30 13.14 74.97 1988:2 28.61 37.02 245.11
1983:2 10.89 13.69 75.27 1988:3 29.05 38.68 246.53
1983:3 11.56 14.42 79.68 1988:4 30.32 39.59 246.05
1983:4 12.26 15.03 85.23 1989:1 31.46 41.57 247.53
1984:1 12.47 16.11 88.05 1989:2 32.82 43.74 255.15
1984:2 13.02 16.65 89.96 1989:3 34.50 45.83 276.54
1984:3 13.45 17.01 95.17 1989:4 36.78 48.54 288.60
1984:4 15.02 17.76 120.73 1990:1 38.83 52.32 295.29
1985:1 16.05 19.61 135.50 1990:2 40.90 55.39 296.72
Periodo P W T.C.N. Periodo P W T.C.N.

1990:3 43.67 58.80 302.82 1995:3 82.77 137.42 386.63
1990:4 47.46 64.11 324.78 1995:4 84.31 140.34 409.30
1991:1 48.19 69.38 338.33 1996:1 85.22 151.23 410.35
1991:2 50.62 71.74 341.71 1996:2 87.24 154.60 408.17
1991:3 53.23 73.98 351.74 1996:3 88.37 158.05 411.22
1991:4 56.04 79.45 365.08 1996:4 89.76 161.38 419.33
1992:1 57.19 84.42 355.32 1997:1 91.15 166.31 418.01
1992:2 58.64 87.42 349.29 1997:2 92.11 168.23 415.35
1992:3 60.81 90.02 368.72 1997:3 93.43 170.91 411.22
1992:4 63.54 93.55 376.98 1997:4 95.41 174.01 419.33
1993:1 64.26 98.60 389.69 1998:1 96.25 179.27 451.48
1993:2 66.25 101.14 403.16 1998:2 97.07 182.10 454.45
1993:3 68.67 104.16 406.88 1998:3 98.16 184.46 468.80
1993:4 71.56 109.77 416.94 1998:4 99.63 187.38 466.42
1994:1 72.85 116.48 429.86 1999:1 99.93 191.08 487.20
1994:2 74.67 119.02 423.28 1999:2 100.88 193.16 489.85
1994:3 76.42 122.26 418.26 1999:3 101.29 194.96 518.11
1994:4 77.79 126.02 409.30 1999:4 102.07 196.82 539.97
1995:1 79.01 131.15 409.46 2000:1 103.12 200.60 512.56
1995:2 80.47 134.62 381.70
Fuente: Precios y Salarios del Instituto Nacional de Estadsticas.
Tipo de Cambio de Boletn Mensual del Banco Central.
Bibliografa
[1] Devaud, G. et. al. (1991). Algebra Lineal, Universidad de Concepcin,

Facultad de Ciencias Fsicas y Matemticas, Concepcin.
[2] Gerber, H. (1992). Algebra Lineal, Grupo Editorial Iberoamericana,

Mxico D.F.
[3] Greene, William (1998).Anlisis Economtrico. Prentice Hall,

Madrid
[4] Grossman, S.I. (1996). Algebra Lineal, McGraw-Hill, Mxico D.F.
[5] Gujarati, D.(1997). Econometra Bsica. Mc Graw Hill, Santaf de

Bogot
[6] Herstein, I.N. y Winter, D. (1989). Algebra Lineal y Teora de

Matrices, Grupo Editorial Iberoamericana, Mxico D.F.
[7] Hogg R., y E. Taniss (1983). Probability and Statistical Inference

MacMillan second edition
[8] Jacob, B. (1995). Linear Functions and Matrix Theory, Springer-

Verlag, New York.
[9] Johnston, J. (1975): Mtodos de Econometra. Vicents Vives,

Barcelona
[10] Judge G., Hill R., W. Griths, H. Ltkepohl and T.C.Lee.

(1988). Introduction to the Theory and Practice of Econometrics, John
Wiles and sons, New York.
[11] Lipschutz, S. (1992). Algebra Lineal, McGraw-Hill, Madrid.
205
206 BIBLIOGRAFA
[12] Maddala, G. ( 1985). Econometra, Mc Graw Hill, Mxico, D.F.
[13] Maddala, G. ( 1996). Introduccin a la Econometra. Prentice Hall,

Mxico, D.F.
[14] Mora A., Cid L. y Valenzuela M. (1996) Probabilidades y Estads-

tica Departamento de Estadstica Universidad de Concepcin.

Nociones de Econometria Intermedia

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Nociones de Econometria Intermedia

Încărcat de

Drepturi de autor:

Formate disponibile

2007 NOCIONES DE ECONOMETRIA INTERMEDIA.

Registro Propiedad Intelectual N 136.998

Segunda Edicin Noviembre 2007

IMPRESO EN CHILE / PRINTED IN CHILE

JORGE DRESDNER CID Y FELIPE VASQUEZ LAVIN

2. ESTADSTICA, PROBABILIDAD E INFERENCIA 25

2.3.1. Distribucin Normal . . . . . . . . . . . . . . . . . . . 35

3. MODELO DE REGRESIN LNEAL GENERAL 61

4. MINIMOS CUADRADOS GENERALIZADOS 121

5. TOPICOS ADICIONALES 159

A. Ejercicios Complementarios 183

El presente texto est dirigido a un pblico amplio, interesado en in-

La econometra se ha transformado en una herramienta indispensable

En el mercado existen distintos textos que cubren el material tratado en

que adems introduce al lector en el mundo de las estadsticas disponibles

Queremos reconocer la excelente y abnegada labor de asistencia realizada

JORGE DRESDNER C. FELIPE VSQUEZ L.

para comprender los procedimientos matriciales utilizados en estimaciones

El orden de esta matriz es de 62. El elemento x21 indica que el Producto

1.2.1. Tipos de Matrices

Por ltimo, otra clase de matriz es la matriz simtrica, en la cual los

En el caso particular de los vectores filas y vectores columnas, al

En la siguiente matriz, podemos observar que al transponer las filas y las

Un caso especial de matrices simtricas, es la matriz identidad In , la cual

1.3. Operaciones de Matrices

1.3.2. Adicin - Sustraccin

Amn + () Bmn = Cmn

cij = aij + () bij

Propiedades de la Adicin de Matrices

1. La adicin de matrices es conmutativa, es decir:

3. La adicin (sustraccin) de matrices es asociativa, es decir:

4. La transpuesta de la suma (resta) de dos matrices es igual a la suma

1.3.3. Multiplicacin por Escalar

1.3.4. Multiplicacin de Matrices

Amn Bnq = Cmq

donde cada elemento de la matriz C corresponde a lo siguiente:

As, por ejemplo el primer elemento de la matriz C, (c11 ) corresponde a:

c11 = a11 b11 + a12 b21 + a13 b31 + + a1n bn1

Si el nmero de filas de la primera matriz A, es igual al nmero de colum-

Sabiendo el orden de ambas matrices, A y B, conocemos el orden de la

En el caso particular de que de la multiplicacin de una matriz cuadrada

Ann Ann = Ann

Propiedades de la Multiplicacin de Matrices

1. La multiplicacin de matrices no es, en general, conmutativa, es decir:

2. Un vector fila (0 ), postmultiplicado por su traspuesta () da como

3. Un vector columna postmultiplicado por su traspuesta da como resul-

4. La multiplicacin de matrices es asociativa, es decir:

5. La multiplicacin de matrices es distributiva con respecto a la suma

6. La transposicin del producto de dos matrices, es igual a la multipli-

Observe que en la suma (resta) de matrices transpuestas se mantiene el

7. La premultiplicacin y postmultiplicacin de una matriz A por la matriz

Amn In = Im Amn = Amn

8. La transpuesta del producto de un escalar por una matriz es igual a la

1.3.5. Producto Kronecker

matriz B, como una simple multiplicacin por un escalar. Si A es de orden

Amn Bpq = Cmpnq

Para clarificar la aplicacin de este operador, veamos el ejemplo de dos

Cuyo resultado final es:

1.3.6. Traza de una matriz

Si consideramos la siguiente matriz A, su funcin traza es:

1. La traza de la suma (resta) de dos matrices, A y B, del mismo orden

tr(A + () B) = tr(A) + () tr(B)

2. La traza del producto de la matriz A y un escalar, es igual al escalar

3. La traza del producto de la matriz A posmultiplicada por la matriz B