Documente Academic
Documente Profesional
Documente Cultură
Notas de Clases
Conceptos Básicos de Econometría
Rodrigo Montero*
9 de marzo de 2004
1. Introducción
El objetivo de este capítulo consiste en repasar algunos conceptos básicos de
econometría que son necesarios para la asignatura de Economía Laboral. Como
bien se señala, el objetivo no es analizar todos los tópicos que debieron haber sido
vistos en un curso introductorio de econometría sino más bien recordar aquellos
aspectos más relevantes para este curso. En la bibliografía de este capítulo se
señalan los textos de econometría más importantes, y que por ende, pueden ser
consultados para profundizar en algún tema especíco.
1
indicar la presencia de shocks que pudiesen ocurrir y que determina que esta
relación, en denitiva, no sea determinística. Respecto a estos se asume lo sigu-
iente:
E(µi ) = 0 para todo i.
V ar(µi ) = E(µ2i ) = σ 2 , para todo i.
Cov(µi , µj ) = E(µi µj ) = 0, para todo i 6= j .
En otras palabras, los errores µi son iid(0, σ 2 ), es decir, son independientes e
idénticamente distribuidos con media cero y varianza σ 2 .
En econometría, el interés se centra en la distribución condicional de una
variable dada otra variable, en este caso, la distribución condicional del ingreso
dado el nivel de escolaridad:
E(Y /Xi ) = α + βXi
Considere la siguiente gura que muestra la relación existente entre el nivel
de escolaridad y el ingreso:
Y=f(X)
Tal como muestra la Figura 1, el objetivo es ajustar una recta que muestre la
relación existente entre estas variables. Para tal efecto, se utiliza la metodología
denominada mínimos cuadrados ordinarios (MCO), la cual se describe a contin-
uación.
2.1. Estimación
Intuitivamente, para proceder a estimar los parámetros de interés, se requiere
que los valores escogidos minimicen los errores que se cometan en cada obser-
vación, esto es, tratar de minimizar la distancia existente entre la línea estimada
2
y la observación que de verdad ocurrió al ajustar dicha recta. El error que se
comete es el siguiente:
a = Ȳ − bX̄ (7)
P P
(Xi − X̄)(Yi − Ȳ ) xy sy
b= P = P 2 =r (8)
(Xi − X̄) 2 x sx
donde la letra en minúsculas denota a la variable en desviación con respecto a su
media. Por otro lado, r corresponde al coeciente de correlación entre x e y , el
que se dene como: P
xy
r=
nsx sy
donde sx y sy son la desviación estándar de x e y , respectivamente.
Finalmente, el término de la varianza de los residuos puede estimarse mediante
la siguiente expresión: P 2
2 e
s = (9)
(n − 2)
3
2.2. Descomposición de la Suma de Cuadrados
Considere el mismo modelo anterior pero en desviaciones respecto de su me-
dia:1
yi = bxi + ei (10)
Despejando el término de error se tiene:
ei = yi − bxi
X X P µP ¶2 X
2 2 xy X xy
e = y − 2P 2 xy + P 2 x2
x x
Reordenando términos:
X X X
y 2 = b2 x2 + e2
X X X
y2 = b xy + e2
Yi = a + bXi + ei
Ȳ = a + bX̄
Por lo tanto:
Yi − Ȳ = b(Xi − X̄i ) + ei
4
T SS : denota la suma total de las desviaciones al cuadrado de la variable
Y.
RSS : denota la suma al cuadrado de los residuos (o no explicada) de la
regresión de Y sobre X .
ESS : suma de cuadrados explicada de la regresión de Y sobre X .
De esta manera:
RSS ESS
r2 = 1 − = (12)
T SS T SS
Este r2 puede ser interpretado como la proporción de la variación de Y que
puede ser atribuida a la regresión sobre X. Esta variable se encuentra entre cero y
uno. Se utiliza como medida de ajuste del modelo, es decir, qué tan bien el modelo
explica los datos. Sin embargo, se debe tener cuidado puesto que esta es sólo
una medida estadística y no teórica acerca de qué tan bien funciona el modelo.
Lo más importante al momento de evaluar la bondad de un ajuste econométrico
es el modelo económico teórico que se tiene en mente.2
E(θ̂) = θ
5
En efecto: P P
xi y i xi (βxi + µi )
b= P 2 = P 2
xi xi
Desarrollando la expresión anterior:
P
x i µi
b=β+ P 2 (13)
xi
E(b) = β (14)
Aplicando esperanza:
1 X
E(b − β)2 = var(b) = P 2 2 (σ 2 x2i )
( xi )
σ2
var(b) = P 2 (15)
xi
a = Ȳ − bX̄ = α + β X̄ + µ̄ − bX̄
6
Ordenando términos:
a = α − (b − β)X̄ + µ̄
Aplicando esperanza, se llega a:
E(a) = α (16)
Y con respecto a la varianza:
var(a) = E[(a − α)2 ] = E[−(b − β)X̄ + µ̄]2
= E[X̄ 2 (b − β)2 + µ̄2 − 2X̄(b − β)µ̄]
var(a) = X̄ 2 E[(b − β)]2 + E[µ̄2 ] − 2X̄E[(b − β)µ̄]
Reemplazando (15) y notando que:
σ2
E(µ̄2 ) =
n
se llega a lo siguiente:
µ ¶
2 1 X̄ 2
var(a) = σ +P 2 (17)
n x
Finalmente, es posible mostrar que:
σ 2 X̄
cov(a, b) = − P 2 (18)
x
7
Por lo tanto: X
b= wi Yi
Considere ahora el siguiente estimador lineal de β :
X
b∗ = ci Yi
Por lo tanto: X
var(b∗ ) = var(b) + σ 2 (ci − wi )2 (21)
P
Dado que (ci − wi )2 ≥ 0, var(b∗ ) ≥ var(b). La igualdad se mantiene sólo si
ci = wi para todo i, es decir, cuando b = b∗ . Por lo tanto, el teorema establece
lo siguiente: El estimador mínimo cuadrado tiene la mínima varianza en la clase
de estimadores lineales e insesgados y se dice ser el mejor estimador lineal e
insesgado (MELI).4
4 BLUE, en inglés.
8
2.4. Inferencia
Hasta el momento se ha asumido que los µi son iid(0, σ 2 ). Sin embargo, para
realizar inferencia se requiere un supuesto sobre la distribución de probabilidad
de los µi . El supuesto estándar asume normalidad 5 en los errores. Como se sabe,
combinaciones lineales de variables aleatorias normales dan origen a variables que
se encuentran, a su vez, normalmente distribuidas. Por lo tanto:
X
b ∼ N (β, σ 2 / x2 ) (22)
b−β
pP ∼ t(n − 2) (26)
s/ x2
donde: P
2 e2
s =
(n − 2)
es el estimador de σ 2 . Así, se puede construir un intervalo de conanza para β a
un 95 % de la siguiente manera:
qX
b ± t0,025 s/ x2 (27)
Grácamente:
9
Figura 2: Intervalo de Conanza para b
10
Note que la principal ventaja de este enfoque es que no se requiere conocer
2
σ . Así, para testear la hipótesis nula H0 : β = 0, siplemente se reemplaza el
supuesto en (33): P
b2 x2
F =P 2 ∼ F (1, n − 2) (34)
e /(n − 2)
Alternativamente, el test F puede escribirse como:;
ESS/1
F = (35)
RSS/(n − 2)
El test funciona de la siguiente manera; rechace H0 : β = 0 al 5 % de conanza
si:
ESS/1
F = > F0,95 (1, n − 2) (36)
RSS/(n − 2)
11
donde:
1 X21 · · · Xk1 β1
1 X22 · · · Xk2 β2
X= .. . . .. y β = ..
1 . . . .
1 X2n · · · Xkn βk
e = y − Xb
RSS = e0 e
RSS = (y − Xb)0 (y − Xb)
RSS = y 0 y − b0 X 0 y − y 0 Xb + b0 X 0 Xb
RSS = y 0 y − 2b0 X 0 y + b0 X 0 Xb
∂(RSS)
= −2X 0 y + 2X 0 Xb = 0 (39)
∂b
dando origen a las siguientes ecuaciones normales :
(X 0 X)b = X 0 y (40)
b = (X 0 X)−1 X 0 y (41)
X no estocástico.
E(µ) = 0
var(µ) = E(µµ0 ) = σ 2 I
9 El operador esperanza actúa sobre cada uno de los elementos de la matriz.
12
En efecto, se asume lo siguiente:
µ1 E(µ1 ) 0
µ2 E(µ2 ) 0
E(µ) = E .. = .. = .. = 0
. . .
µn E(µn ) 0
Por otro lado:
µ1 E(µ21 ) E(µ1 µ2 ) · · · E(µ1 µn )
µ2 E(µ2 µ1 ) E(µ2 ) · · · E(µ2 µn )
2
E(µµ0 ) = E .. (µ1 + µ2 + · · · + µn ) = .. .. .. ..
. . . . .
µn E(µn µ1 ) E(µn µ2 ) · · · E(µ2n )
var(µ1 ) cov(µ1 µ2 ) · · · cov(µ1 µn ) σ2 0 · · · 0
cov(µ2 µ1 ) var(µ2 ) · · · cov(µ2 µn ) 2
0 σ ··· 0
E(µµ0 ) = .. .. .. .. = . .. . . .. = σ2I
. . . . .. . . .
cov(µn µ1 ) cov(µn µ2 ) · · · var(µn ) 0 0 · · · σ2
Esta expresión corresponde a la matriz de varianzas y covarianzas del término
de error. Los términos de la diagonal corresponden a las varianzas, mientras que
los elementos fuera de la diagonal indican las covarianzas. Esta matriz presenta
dos características:
1. Homoscedasticidad : la varianza es constante para cada punto de la mues-
tra.10
2. Los errores no están correlacionados : no existe una correlación entre el error
cometido en la observación i y el error cometido en la observación j .11
13
Note que:
n
X
0
yy= Yi2
i=1
ESS RSS
R2 = =1− (44)
T SS T SS
El R2 mide la proporción de la variación total de Y explicada por la combi-
nación lineal de los regresores. Es decir, es una medida del grado de ajuste de la
regresión.
Se debe destacar que el R2 recibe muchas críticas como indicador de una medi-
da de ajuste pues es monotónico en el número de regresores incluidos en el modelo.
En otras palabras, al incorporar un regresor (xk+1 ), el R2 inequívocamente au-
mentará, indicando que la ecuación estimada es mejor que su antecesora. De
esta manera, al incorporar más regresores (X ), el R2 siempre irá en aumento. Es
por esto, que muchos investigadores se concentran más bien en el R̄2 (R2 ajusta-
do), que penaliza la incorporación de regresores adicionales. La principal ventaja
de este estadístico es que este podría disminuir ante la inclusión de más variables,
o de variables explicativas de poco poder. Se dene de la siguiente manera:
RSS/(n − k)
R̄2 = 1 − (45)
T SS/(n − 1)
Es posible mnostrar que las dos medidas de ajustes vistas (R2 y R̄2 ) se rela-
cionan de la siguiente manera:
1−k n−1 2
R̄2 = + R (46)
n−k n−k
14
3.2. Propiedades de los estimadores MCO
Recuerde que el estimador MCO del vector de parámetros β es:
bM CO = (X 0 X)−1 X 0 y (47)
Por lo tanto:
E(bM CO ) = β (48)
Con respecto a la varianza se tiene lo siguiente:
b − β = (X 0 X)−1 X 0 µ
Por lo tanto:
Finalmente:
var(b) = σ 2 (X 0 X)−1 (49)
Esta expresión es una matriz de k xk , en que las varianzas del vector de co-
ecientes estimados (b) aparecen en la diagonal, y las covarianzas entre ellos
corresponden a los elementos que están fuera de la diagonal.
Al igual que en el caso más simple, la varianza del término de error σ 2 debe
ser estimada.
El término σ 2 puede ser estimado como:
σ 2 = E(e0 e) (50)
M = I − X(X 0 X)−1 X 0
13 Note que la matriz M es simétrica e idempotente.
15
Note que:
De la misma manera:
Por lo tanto:14
E(e0 e) = E(µ0 M 0 M µ) = E(µ0 M µ)
Utilizando el hecho que la traza15 de un escalar es el escalar, se tiene:
Por lo tanto:
e0 e
s2 = (51)
n−k
dene un estimador insesgado de σ 2 .
De la misma manera que para el caso más sencillo, el teorema de Gauss Markov
muestra que el estimamor MCO es el mejor estimador lineal e insesgado (MELI).
3.3. Inferencia
Considere nuevamente el modelo de regresión lineal:
β2 − β3 = 0
β5 + β6 = 1
βk = 2
14 Aquí se usa el hecho que M es una matriz idempotente.
15 La traza corresponde a la sumatoria de los elementos de la diagonal de una matriz.
16
Para realizar estos test de hipótesis lineales acerca del vector de parámetros
16
β , se utiliza la siguiente estructura lineal general:
Rβ = r (52)
µ ∼ N (0, σ 2 I) (54)
Por lo tanto:
b ∼ N [β, σ 2 (X 0 X)−1 ] (55)
y además:
Rb ∼ N [Rβ, σ 2 R(X 0 X)−1 R0 ]
y por ende:
R(b − β) ∼ N [0, σ 2 R(X 0 X)−1 R0 ] (56)
Recuerde que una variable aleatoria chi-cuadrado se construye a partir de una
suma de cuadrados de variables aleatorias normales estandarizadas. Por lo tanto:
17
La expresión anterior puede rescribirse como:
b2i b2i
F = = ∼ F (1, n − k)
s2 cii var(bi )
Tomando la raíz cuadrada de la expresión anterior, se tiene lo siguiente:
bi bi
t= √ = ∼ t(n − k)
s cii σb
H0 : β2 = β3 = · · · = βk = 0
R2 /(k − 1)
F = ∼ F (k − 1, n − k) (61)
(1 − R2 )/(n − k)
Ahora que se han desarrollado a grandes rasgos los principales aspectos de
estimación e inferencia tanto en el modelo simple como en el modelo general, la
próxima sección discutirá respecto de la consecuencias que tiene el no cumplim-
iento de ciertos supuestos.
4. Violación de Supuestos
A continuación se resumen los supuestos realizados en la estimación del modelo
de regresión lineal:
1. y = Xβ + µ
18
2. µi son iid(0, σ 2 ) i = 1, ..., n
3. o bien: µi son iid N (0, σ 2 ) i = 1, ..., n
4. E(Xit µs ) = 0 ∀i = 1, ..., k y t, s = 1, ..., n
5. X es no estocástico con rango columna completo k .
El supuesto (2) establece que los errores son ruido blanco, en cambio, el
supuesto (3) establece que los errores son ruido blanco gaussiano.
A continuación se enuncian los principales problemas que pudieran surgir
derivado de la violación de ciertos supuestos.
Problemas con µ
Supuesto (2) se cumple pero no así el supuesto (3): el estimador bM CO sigue
siendo MELI, pero los procedimientos de inferencia ahora son válidos sólo
asintóticamente.17
E(µµ0 ) = diag[σ12 , ..., σn2 ]: las varianzas de los errores son distintas para
cada una de las observaciones muestrales, es decir, se viola el supuesto de
homoscedasticidad. Lo anterior afecta los procedimientos de inferencia.
E(µi µi−j ) 6= 0, (j 6= 0): los errores se encuentran correlacionados. Esto
también afecta los procedimientos de inferencia.
Problemas con X
Omisión de variables relevantes: omisión de una variable explicativa impor-
tante en el modelo. Esto puede deberse a una falta de información, o bien,
al desconocimiento del investigador.
Forma funcional incorrecta: suponga que existe una relación funcional del
siguiente tipo Y = f (X2 , X3 ), la cual podría ser especicada como:
Y = β1 + β2 X2 + β3 X3 + µ
o bien como:
19
En este contexto, si el error de especicación consiste en haber estimado la
primera ecuación en lugar de la segunda, entonces, el problema se soluciona
añadiendo los términos que faltan.
E(Xµ) 6= 0: esto es una violación del supuesto (4), y puede surgir por di-
versas razones. Si esto ocurre, los estimadores bM CO serán sesgados e incon-
sistentes. Esta situación podría surgir por omisión de variables relevantes,
por simultaneidad (sistema de ecuaciones), o bien, por error de medida en
los X .
Problemas con β
20
Por lo tanto:
x21 0 · · · 0
0 x22 · · · 0
var(µ) = E(µµ0 ) = .. .. . . .. = σ2Ω (63)
. . . .
0 0 · · · x2n
y = Xβ + µ
b = β + (X 0 X)−1 X 0 µ ⇒ E(b) = β
Finalmente:
var(b) = σ 2 (X 0 X)−1 X 0 ΩX(X 0 X)−1 (64)
Recuerde que la fórmula convecional de la varianza del estimador MCO es:
var(b) = σ 2 (X 0 X)−1
20 Enefecto, el estimador de mínima varianza corresponde al estimador de mínimos cuadrados
ponderados.
21
De esta manera, los test estadísticos convencionales ya no son válidos.
No obstante, a pesar de la presencia de heteroscedasticidad en los residuos
aún podría llevarse a cabo la estimación por MCO. En efecto, White (1980)21 en
un artículo muy inuyente indica que lo importante es la estimación del término
X 0 σ 2 ΩX . Note que:
. .. .. σ 2
0 · · · 0 · · · x 0
· · ·
.. .
1 1
. 0 σ 2 · · · 0 · · · x0 · · ·
2 2
X 0 σ 2 ΩX = x1 x2 · · · xn .. .. . . .. ..
.. .. .. . . . . . ···
. . . 0 0 · · · σn2 · · · x0n · · ·
Por lo tanto: n
X
0 2
X σ ΩX = σi2 xi x0i (65)
i=1
22
Es posible mostrar22 que un estimador consistente de β viene dado por:
y:23
1
σ̂ 2 = (y − X β̂)0 Ω−1 (y − X β̂) (68)
n
Y ∗ = X ∗β + e (69)
Y = Y∗+µ
X = X∗ + w (70)
donde µ ∼ (0, σµ2 I), y w ∼ (0, σw2 I). Considere en primer lugar el caso en que la
variable dependiente (Y ) es medida con error. Por lo tanto:
Y − µ = X ∗ β + e ⇒ Y = X ∗ β + e∗
23
donde e∗ = e−wβ . Dado que X = X ∗ +w, entonces, el regresor está correlacionado
con el término de error. En efecto:
Y = X1 β1 + X2 β2 + e
Y = X1 β1 + e
Por lo tanto:
E(β̂1 ) = β1 + (X10 X1 )−1 X10 X2 β2
De esta manera, el estimador de β1 será sesgado e inconsistente. Note además
que la dirección del sesgo es difícil de establecer.
4.4. Multicolinealidad
Uno de los supuestos clave para la estimación por MCO es que la matriz
0
(X X) sea no singular, esto es, que sea invertible. En otras palabras, se requiere
que (X'X) sea de rango completo. La multicolinealidad surge cuando existe algún
grado de dependencia lineal entre los regresores del modelo.
La multicolinealidad se clasica en dos tipos:
24
Multicolinealidad no exacta: ocurre cuando una de las variables es aprox-
imadamente igual a una combinación lineal de las otras variables explica-
tivas.
En primer lugar, se debe mencionar que la multicolinealidad exacta es muy
fácil de detectar, pues esta hace que la matriz (X 0 X) sea singular, y por ende, no
invertible. Para que haya multicolinealidad exacta debe ocurrir que en el modelo
se estén incluyendo un conjunto de variables que constituyan una identidad con-
table. Por el contrario, la multicolinealidad no exacta es difícil de detectar, pues
siempre será posible invertir la matriz (X 0 X).
Algunos síntomas que indican la presencia de multicolinealidad son:
1. Pequeños cambios en los datos producen fuertes variaciones en los parámet-
ros estimados.
varianzas de los parámetros estimados serán mayores. Así, al ser grandes las var-
ianzas, los intervalos de conanza para el contraste de hipótesis lineales serán de
gran tamaño, por lo que dichos contrastes serán sesgados en el sentido de aceptar
cualquier hipótesis nula, es decir, tendrán poca potencia. En particular, se tiende
a encontrar muy a menudo que los coecientes estimados no son signicativos.25
Finalmente, cabe mencionar que existen variadas técnicas destinadas a detectar
la existencia del problema, sin embargo, no se ahondarán en ellas.26
25
término de error en el modelo econométrico. Distintos supuestos acerca de dicha
distribución dan origen a distintos estimadores de máxima verosimilitud, aún
cuando habitualmente se trabaja bajo el supuesto de normalidad.
Considere el siguiente modelo econométrico:
y = Xβ + µ
Además, suponga que el vector µ sigue una distribución normal, con media
cero, y varianza σ 2 I . De esta manera, la función de densidad del vector µ es:
µ ¶
1 1 1 0 2 −1
f (µ) = exp − µ (σ I) µ
(2π)T /2 |σ 2 I|1/2 2
µ ¶
1 1 1 0
f (µ) = exp − 2 µ µ (73)
(2π)T /2 (σ 2 )T /2 2σ
Esta función de densidad puede transformarse en la función de verosimilitud
muestral si se expresa el vector µ como función de las matrices X e y .27 Por lo
tanto, la función de verosimilitud se obtiene sustituyendo en (73) el vector µ como
función de y , para obtener:
µ ¶
2 1 1 1 0
L(y, X; β, σ ) = exp − 2 (y − Xβ) (y − Xβ) (74)
(2π)T /2 (σ 2 )T /2 2σ
El estimador de máxima verosimilitud de β y σ 2 está formado por aquel-
los valores de estos parámetros que maximizan la función de verosimilitud (74).
Considere la siguiente transformación de (74):
T T 1
lnL(y, X; β, σ 2 ) = − ln(2π) − ln(σ 2 ) − 2 (y − Xβ)0 (y − Xβ) (75)
2 2 2σ
Derivando e igualando a cero, se tiene lo siguiente:
∂ln(L) 1
= − 2 [−2X 0 (y − Xβ)] = 0
∂β 2σ
∂ln(L) T 1
2
= − 2
+ 4
(y − Xβ)0 (y − Xβ) = 0
∂σ 2σ 2σ
Finalmente, resolviendo para β̂ y σ̂ 2 se tiene lo siguiente:
β̂ = (X 0 X)−1 X 0 y (76)
0 0
(y − X β̂) (y − X β̂) µ̂ µ̂
σˆ2 = =
T T
27 Pararealizar esto se debe recordar el resultado respecto del cambio de variable en funciones
de densidad. Para detalles ver Novales (1993), sección 2.7. Aquí se muestra que el Jacobiano
de la transformación que convierte el vector aleatorio µ en el vector aleatorio y es la matriz
identidad.
26
Por lo tanto, bajo el supuesto de normalidad del término de error, el esti-
mador de máxima verosimilitud del vector β coincide con el estimador MCO.
Esto permite concluir que:
E(β̂M V ) = β (77)
var(β̂M V ) = σ 2 (X 0 X)−1 (78)
Las segundas derivadas son:
µ 2 ¶
∂ 2` X 0X ∂ ` X 0X
= − con − E =
∂β∂β 0 σ2 ∂β∂β 0 σ2
µ ¶
∂2` X 0µ ∂ 2`
= − con − E =0
∂β∂σ 2 σ4 ∂β∂σ 2
µ 2 ¶
∂ 2` n µ0 µ ∂ ` n
2 2
= 4
− 6 con −E 2 2
= 4
∂(σ ) 2σ σ ∂(σ ) 2σ
y su inversa es: µ ¶ µ 2 0 −1 ¶
−1 β σ (X X) 0
I = 2σ 4 (80)
σ2 0 n
27
Referencias
[1] Benavente, J. (2003) Notas de clases Econometría II. Pregrado. Depar-
tamento de Economía, Universidad de Chile.
28