Sunteți pe pagina 1din 28

Economía Laboral

Notas de Clases
Conceptos Básicos de Econometría
Rodrigo Montero*

9 de marzo de 2004

1. Introducción
El objetivo de este capítulo consiste en repasar algunos conceptos básicos de
econometría que son necesarios para la asignatura de Economía Laboral. Como
bien se señala, el objetivo no es analizar todos los tópicos que debieron haber sido
vistos en un curso introductorio de econometría sino más bien recordar aquellos
aspectos más relevantes para este curso. En la bibliografía de este capítulo se
señalan los textos de econometría más importantes, y que por ende, pueden ser
consultados para profundizar en algún tema especíco.

2. El Modelo de Regresión Lineal de Dos Vari-


ables
Suponga que se desea establecer la relación existente entre el nivel de esco-
laridad de las personas (X ) y su ingreso laboral (Y ). En concreto, considere la
siguiente relación:

Yi = α + βXi + µi i = 1, 2, 3...., N (1)

donde i denota un individuo cualquiera. Es decir, el ingreso del individuo i de-


pende linealmente de su nivel de escolaridad. Se ha añadido el término µi para
* Profesor Instructor Departamento de Economía Universidad de Chile.
email:rmontero@econ.uchile.cl

1
indicar la presencia de shocks que pudiesen ocurrir y que determina que esta
relación, en denitiva, no sea determinística. Respecto a estos se asume lo sigu-
iente:
E(µi ) = 0 para todo i.
V ar(µi ) = E(µ2i ) = σ 2 , para todo i.
Cov(µi , µj ) = E(µi µj ) = 0, para todo i 6= j .
En otras palabras, los errores µi son iid(0, σ 2 ), es decir, son independientes e
idénticamente distribuidos con media cero y varianza σ 2 .
En econometría, el interés se centra en la distribución condicional de una
variable dada otra variable, en este caso, la distribución condicional del ingreso
dado el nivel de escolaridad:
E(Y /Xi ) = α + βXi
Considere la siguiente gura que muestra la relación existente entre el nivel
de escolaridad y el ingreso:

Figura 1: Relación Escolaridad-Ingreso

Y=f(X)

Tal como muestra la Figura 1, el objetivo es ajustar una recta que muestre la
relación existente entre estas variables. Para tal efecto, se utiliza la metodología
denominada mínimos cuadrados ordinarios (MCO), la cual se describe a contin-
uación.

2.1. Estimación
Intuitivamente, para proceder a estimar los parámetros de interés, se requiere
que los valores escogidos minimicen los errores que se cometan en cada obser-
vación, esto es, tratar de minimizar la distancia existente entre la línea estimada

2
y la observación que de verdad ocurrió al ajustar dicha recta. El error que se
comete es el siguiente:

ei = Yi − Ŷi = Yi − a − bXi (2)

El objetivo, entonces, es escoger a y b de tal manera que se minimice la suma


de residuos al cuadrado (RSS ):
N
X
RSS = e2i = f (a, b) (3)
i=1

La expresión (3) representa un problema estándar de optimización. La condi-


ción necesaria para establecer que se trata de un punto estacionario consiste en
derivar con respecto a los parámetros e igualar a cero:
P X X
∂ e2i
= −2 (Y − a − bX) = −2 e=0 (4)
∂a
P X X
∂ e2i
= −2 X(Y − a − bX) = −2 Xe = 0 (5)
∂b
Simplicando las expresiones (4) y (5) se obtienen las denominadas ecuaciones
normales del modelo de regresión lineal de Y en X . Esto es:
X X
Y = na + b X
X X X
XY = a X +b X2 (6)

Resolviendo el sistema de ecuaciones en (6) se llega a la siguiente solución:

a = Ȳ − bX̄ (7)

P P
(Xi − X̄)(Yi − Ȳ ) xy sy
b= P = P 2 =r (8)
(Xi − X̄) 2 x sx
donde la letra en minúsculas denota a la variable en desviación con respecto a su
media. Por otro lado, r corresponde al coeciente de correlación entre x e y , el
que se dene como: P
xy
r=
nsx sy
donde sx y sy son la desviación estándar de x e y , respectivamente.
Finalmente, el término de la varianza de los residuos puede estimarse mediante
la siguiente expresión: P 2
2 e
s = (9)
(n − 2)

3
2.2. Descomposición de la Suma de Cuadrados
Considere el mismo modelo anterior pero en desviaciones respecto de su me-
dia:1
yi = bxi + ei (10)
Despejando el término de error se tiene:

ei = yi − bxi

Elevando al cuadrado la expresión anterior y aplicando sumatoria se obtiene


lo siguiente: X X X X
e2 = y 2 − 2b xy + b2 x2
Sustituyendo (8) en la expresión anterior:

X X P µP ¶2 X
2 2 xy X xy
e = y − 2P 2 xy + P 2 x2
x x

Reordenando términos:
X X X
y 2 = b2 x2 + e2
X X X
y2 = b xy + e2

Finalmente, se llega a la siguiente expresión:


X X X
y 2 = r2 y2 + e2 (11)
| {z } | {z } | {z }
T SS ESS RSS

que se conoce como descomposición de la suma de cuadrados. Donde:


1 Considere el modelo estimado:

Yi = a + bXi + ei

Aplicando sumatoria a la expresión anterior y dividiendo por n, se tiene:


P P P
Yi Xi ei
=a+b +
n n n
La expresión anterior queda de la siguiente manera:

Ȳ = a + bX̄

Por lo tanto:
Yi − Ȳ = b(Xi − X̄i ) + ei

4
T SS : denota la suma total de las desviaciones al cuadrado de la variable
Y.
RSS : denota la suma al cuadrado de los residuos (o no explicada) de la
regresión de Y sobre X .
ESS : suma de cuadrados explicada de la regresión de Y sobre X .
De esta manera:
RSS ESS
r2 = 1 − = (12)
T SS T SS
Este r2 puede ser interpretado como la proporción de la variación de Y que
puede ser atribuida a la regresión sobre X. Esta variable se encuentra entre cero y
uno. Se utiliza como medida de ajuste del modelo, es decir, qué tan bien el modelo
explica los datos. Sin embargo, se debe tener cuidado puesto que esta es sólo
una medida estadística y no teórica acerca de qué tan bien funciona el modelo.
Lo más importante al momento de evaluar la bondad de un ajuste econométrico
es el modelo económico teórico que se tiene en mente.2

2.3. Estimadores MCO


A continuación se analizan las propiedades de los estimadores mínimos cuadra-
dos ordinarios (MCO). Además, se detalla cómo estos estimadores permiten hacer
inferencias respecto de los parámetros poblacionales (α y β ).

2.3.1. Propiedades de los Estimadores MCO


El punto clave aquí es determinar la distribución muestral de los estimadores
MCO. Los parámetros de interés son α, β y σ 2 de la distribución condicional
f (Y |X). En esta distribución condicional la única fuente de variación proviene
de los errores estocásticos (µ), los que en conjunción con los valores dados de
X determinan los valores de Y , y por lo tanto, los valores muestrales de a, b y
s2 . Es decir, analizando la distribución de Y condicional a X se considera a los
valores X1 , X2 , ..., Xn como jos en repetidos muestreos. Este tratamiento se
basa en el supuesto implícito que la distribución marginal de X , es decir, f (X),
no envuelve a los parámetros de interés. En otras palabras, se asume que f (X)
no contiene información sobre α, β y σ 2 . Lo anterior equivale a suponer que X
es no estocástico.
Una propiedad interesante en todo estimador es que este sea insesgado.3
2 Estaes la medida de ajuste más ampliamente utilizada, sin embargo, existen otros criterios
para evaluar qué tan bien funciona el modelo estimado.
3 Un estimador θ̂ de θ es insesgado si:

E(θ̂) = θ

5
En efecto: P P
xi y i xi (βxi + µi )
b= P 2 = P 2
xi xi
Desarrollando la expresión anterior:
P
x i µi
b=β+ P 2 (13)
xi

Aplicando esperanza se obtiene:

E(b) = β (14)

por lo tanto, b es un estimador insesgado de β . A continuación se deriva su


varianza. Considere la expresión (13):
P
xi µ i
b−β = P 2
xi

Elevando al cuadrado ambos lados de la ecuación anterior:


P X
x i µi 1
2
(b − β) = ( P 2 )2 = P 2 2 ( xi µi )2
xi ( xi )

Desarrollando esta expresión:


1
(b − β)2 = P 2 2 (x1 µ1 + x2 µ2 + · · · + xn µn )2
( xi )
1
(b − β)2 = P 2 2 (x21 µ21 + x22 µ22 + · · · + x2n µ2n + 2xi xj µi µj + · · · )
( xi )

Aplicando esperanza:
1 X
E(b − β)2 = var(b) = P 2 2 (σ 2 x2i )
( xi )

Finalmente, se llega a lo siguiente:

σ2
var(b) = P 2 (15)
xi

Con respecto al estimador de α se tiene lo siguiente:

a = Ȳ − bX̄ = α + β X̄ + µ̄ − bX̄

6
Ordenando términos:
a = α − (b − β)X̄ + µ̄
Aplicando esperanza, se llega a:
E(a) = α (16)
Y con respecto a la varianza:
var(a) = E[(a − α)2 ] = E[−(b − β)X̄ + µ̄]2
= E[X̄ 2 (b − β)2 + µ̄2 − 2X̄(b − β)µ̄]
var(a) = X̄ 2 E[(b − β)]2 + E[µ̄2 ] − 2X̄E[(b − β)µ̄]
Reemplazando (15) y notando que:
σ2
E(µ̄2 ) =
n
se llega a lo siguiente:
µ ¶
2 1 X̄ 2
var(a) = σ +P 2 (17)
n x
Finalmente, es posible mostrar que:
σ 2 X̄
cov(a, b) = − P 2 (18)
x

2.3.2. El Teorema de Gauss-Markov


Los estimadores MCO son combinaciones lineales de Y , y por lo tanto, son
combinaciones de la variable estocástica µ. Dado que estos son insesgados, pertenecen
a la clase de estimadores lineales e insesgados. La importancia que estos tienen
en la teoría y en la práctica es que sus varianzas muestrales son las más pequeñas
que puede lograr cualquier estimador lineal e insesgado.
Recuerde que: P
xi yi X
b= P 2 = wi yi
xi
con:
xi
wi = P 2
xi
Esots ponderadores (wi ) cumplen las siguientes propiedades:
X
wi = 0
X 1
wi2 = P 2
x
X X i
w i xi = wi Xi = 1

7
Por lo tanto: X
b= wi Yi
Considere ahora el siguiente estimador lineal de β :
X
b∗ = ci Yi

donde ci son ponderadores a determinar. El insesgamiento implica que E(b∗ ) = β .


Luego:
X X X X
b∗ = ci (α + βXi + µi ) = α( ci ) + β( ci Xi ) + ci µi

Note que b∗ será un estimador insesgado si y sólo si:


X
ci = 0
X X
ci Xi = c i xi = 1

Si estas condiciones se cumplen, entonces:


X
b∗ = β + c i µi (19)

Por otro lado, note que:


·³X ´2 ¸ X

var(b ) = E c i µi = σ2 c2i (20)

A continuación se compara esta varianza con la del estimador MCO. Considere


la siguiente igualdad:
ci = wi + (ci − wi )
Elevando al cuadrado y aplicando sumatoria se tiene lo siguiente:
X X X X
c2i = wi2 + (ci − wi )2 + 2 wi (ci − wi )

Las propiedades de wi y las condiciones sobre ci aseguran que:


X
wi (ci − wi ) = 0

Por lo tanto: X
var(b∗ ) = var(b) + σ 2 (ci − wi )2 (21)
P
Dado que (ci − wi )2 ≥ 0, var(b∗ ) ≥ var(b). La igualdad se mantiene sólo si
ci = wi para todo i, es decir, cuando b = b∗ . Por lo tanto, el teorema establece
lo siguiente: El estimador mínimo cuadrado tiene la mínima varianza en la clase
de estimadores lineales e insesgados y se dice ser el mejor estimador lineal e
insesgado (MELI).4
4 BLUE, en inglés.

8
2.4. Inferencia
Hasta el momento se ha asumido que los µi son iid(0, σ 2 ). Sin embargo, para
realizar inferencia se requiere un supuesto sobre la distribución de probabilidad
de los µi . El supuesto estándar asume normalidad 5 en los errores. Como se sabe,
combinaciones lineales de variables aleatorias normales dan origen a variables que
se encuentran, a su vez, normalmente distribuidas. Por lo tanto:
X
b ∼ N (β, σ 2 / x2 ) (22)

De la misma manera, se tiene que:


· µ ¶¸
2 1 X̄ 2
a ∼ N α, σ +P 2 (23)
n x

Sin embargo, se debe notar que σ 2 no es conocido. Es posible mostrar que:6


P 2
e
2
∼ χ2 (n − 2) (24)
σ
Además:
b−β
z= pP ∼ N (0, 1) (25)
σ/ x2
Por otro lado, se sabe que una distribución t se dene como una combinación
de una variable normal estándar y una variable aleatoria independiente χ2 . Por
lo tanto, dividiendo (25) en (24) se llega a:

b−β
pP ∼ t(n − 2) (26)
s/ x2

donde: P
2 e2
s =
(n − 2)
es el estimador de σ 2 . Así, se puede construir un intervalo de conanza para β a
un 95 % de la siguiente manera:
qX
b ± t0,025 s/ x2 (27)

Grácamente:

5 Lo cual puede fundamentarse en el Teorema Central del Límite.


6 Ver demostración en Canavos.

9
Figura 2: Intervalo de Conanza para b

Por lo tanto, al testear la hipótesis nula H0 : β = β0 , esta se rechazará cuando:


¯ ¯
¯ b−β ¯
¯ 0 ¯
¯ pP 2 ¯ > t0,025 (n − 2) (28)
¯ s/ x ¯
donde t0,025 (n − 2) indica el 2.5 % de la masa acumulada de la distribución t con
(n − 2) grados de libertad.
El test más utilizado es el test de signicancia que testea H0 : β = 0. El test
estadístico es:7
b b
t = pP = (29)
s/ x2 σb
De la misma manera, se puede hacer este análisis para realizar un test sobre
el intercepto de la regresión (α):
a−α
p P ∼ t(n − 2) (30)
s 1/n + X̄ 2 / x2
A continuación se aborda un enfoque distinto para el análisis de la signicancia
de la variable X , sin embargo, este caso resultará ser mucho más interesante en
el contexto del modelo lineal general.
Dado que una variable aleatoria normal estandarizada elevada al cuadrado
sigue una distribución χ2 con un grado de libertad, se tiene que:
(b − β)2
P ∼ χ2 (1) (31)
σ 2 / x2
P 2
e
∼ χ2 (n − 2) (32)
σ2
Por otro lado, es posible demostrar8 que el cuociente entre dos variables aleato-
rias chi-cuadrado sigue una distribución F . Por lo tanto:
P
(b − β)2 x2
F = P 2 ∼ F (1, n − 2) (33)
e /(n − 2)
7 Usualmente, para ver la signicancia de este estimador se compara el valor calculado del
estadístico t con 1.96
8 Ver Canavos.

10
Note que la principal ventaja de este enfoque es que no se requiere conocer
2
σ . Así, para testear la hipótesis nula H0 : β = 0, siplemente se reemplaza el
supuesto en (33): P
b2 x2
F =P 2 ∼ F (1, n − 2) (34)
e /(n − 2)
Alternativamente, el test F puede escribirse como:;
ESS/1
F = (35)
RSS/(n − 2)
El test funciona de la siguiente manera; rechace H0 : β = 0 al 5 % de conanza
si:
ESS/1
F = > F0,95 (1, n − 2) (36)
RSS/(n − 2)

3. El Modelo de Regresión Lineal de k variables


Considere ahora la siguiente especicación más general:
Yi = β1 + β2 X2i + β3 X3i + · · · + βk Xki + µi i = 1, ..., n (37)

La ecuación anterior identica k − 1 variables explicativas (regresores), estos


son, X2 , X3 , ..., Xk que afectan la variable dependiente (Y ). Se asumirá nueva-
mente que los errores son ruido blanco. De esta manera, existen k + 1 parámetros
en este modelo, los β 0 s y la varianza del término de error. A continuación, se
reformula el modelo en términos matriciales. En efecto, se dene:
   
Y1 X21
 Y2   X22 
   
y =  ..  x2 =  .. 
.  . 
Yn X2n
vectores de nx1. De esta manera, considerando las n observaciones, el modelo se
escribe así:
. . .  .  .
.. .. .. .. ..
         
 y  = β 1  x1  + β 2  x2  + · · · + β k  xk  +  µ 
.. .. .. .. ..
. . . . .
Note que el vector x1 es un vector columna de sólo unos, que sirve para
determinar el intercepto de la ecuación. Finalmente, considere la siguiente sim-
plicación de la expresión anterior:
y = Xβ + µ (38)

11
donde:    
1 X21 · · · Xk1 β1
1 X22 · · · Xk2   β2 
   
X= .. . . ..  y β =  .. 
1 . . .   . 
1 X2n · · · Xkn βk

3.1. El Estimador de Mínimos Cuadrados Ordinarios


El vector de residuos (e) se dene de la siguiente manera:

e = y − Xb

El principio en el cual se fundamenta el método de mínimos cuadrados es


escoger b de tal manera de minimizar la suma de los cuadrados de los residuos
(e0 e), es decir:

RSS = e0 e
RSS = (y − Xb)0 (y − Xb)
RSS = y 0 y − b0 X 0 y − y 0 Xb + b0 X 0 Xb
RSS = y 0 y − 2b0 X 0 y + b0 X 0 Xb

donde se utiliza el hecho de que la traspuesta de un escalar es un escalar, por lo


que y 0 Xb = (y 0 Xb)0 = b0 X 0 y . La condición de primer orden es:

∂(RSS)
= −2X 0 y + 2X 0 Xb = 0 (39)
∂b
dando origen a las siguientes ecuaciones normales :

(X 0 X)b = X 0 y (40)

De esta manera, el estimador MCO es:

b = (X 0 X)−1 X 0 y (41)

Los supuestos para el término de error son:9

X no estocástico.

E(µ) = 0

var(µ) = E(µµ0 ) = σ 2 I
9 El operador esperanza actúa sobre cada uno de los elementos de la matriz.

12
En efecto, se asume lo siguiente:
     
µ1 E(µ1 ) 0
 µ2   E(µ2 )   0 
     
E(µ) = E  ..  =  ..  =  ..  = 0
 .   .  .
µn E(µn ) 0
Por otro lado:
    
µ1 E(µ21 ) E(µ1 µ2 ) · · · E(µ1 µn )
  µ2    E(µ2 µ1 ) E(µ2 ) · · · E(µ2 µn )
    2 
E(µµ0 ) = E  ..  (µ1 + µ2 + · · · + µn ) =  .. .. .. .. 
 .    . . . . 
µn E(µn µ1 ) E(µn µ2 ) · · · E(µ2n )
   
var(µ1 ) cov(µ1 µ2 ) · · · cov(µ1 µn ) σ2 0 · · · 0
 cov(µ2 µ1 ) var(µ2 ) · · · cov(µ2 µn )  2 
   0 σ ··· 0 
E(µµ0 ) =  .. .. .. ..  =  . .. . . ..  = σ2I
 . . . .   .. . . . 
cov(µn µ1 ) cov(µn µ2 ) · · · var(µn ) 0 0 · · · σ2
Esta expresión corresponde a la matriz de varianzas y covarianzas del término
de error. Los términos de la diagonal corresponden a las varianzas, mientras que
los elementos fuera de la diagonal indican las covarianzas. Esta matriz presenta
dos características:
1. Homoscedasticidad : la varianza es constante para cada punto de la mues-
tra.10
2. Los errores no están correlacionados : no existe una correlación entre el error
cometido en la observación i y el error cometido en la observación j .11

3.1.1. Descomposición de la Suma de Cuadrados


Considere la siguiente descomposición para el vector y :
y = ŷ + e = Xb + e
Por lo tanto:12
y 0 y = (ŷ + e)0 (ŷ + e) = ŷ 0 ŷ + e0 e = b0 X 0 Xb + e0 e (42)
10 Cuando no se cumple esta condición, se dice que los errores son heteroscedásticos.
11 Cuando no ocurre esto, se dice que los errores están autocorrelacionados.
12 Aquí se ha utilizado el hecho que X 0 e = 0. En efecto, considere las ecuaciones normales en
(40) y sustituya y por (Xb + e):
(X 0 X)b = X 0 (Xb + e) = (X 0 X)b + X 0 e
por ende, X 0 e = 0.

13
Note que:
n
X
0
yy= Yi2
i=1

es la suma de los valores de Y al cuadrado. El interés se centra en analizar la


variación de Y medida por la suma de los cuadrados de las desviaciones de Yi con
respecto a su media muestral, es decir:
n
X X
= (Yi − Ȳ )2 = Yi2 − nȲ 2
i=1

Restando el término nȲ 2 de (42), se llega a:

(y 0 y − nȲ 2 ) = (b0 X 0 Xb − nȲ 2 ) + |{z}


e0 e (43)
| {z } | {z }
T SS ESS RSS

De esta manera, el coeciente de correlación múltiple se dene como:

ESS RSS
R2 = =1− (44)
T SS T SS
El R2 mide la proporción de la variación total de Y explicada por la combi-
nación lineal de los regresores. Es decir, es una medida del grado de ajuste de la
regresión.
Se debe destacar que el R2 recibe muchas críticas como indicador de una medi-
da de ajuste pues es monotónico en el número de regresores incluidos en el modelo.
En otras palabras, al incorporar un regresor (xk+1 ), el R2 inequívocamente au-
mentará, indicando que la ecuación estimada es mejor que su antecesora. De
esta manera, al incorporar más regresores (X ), el R2 siempre irá en aumento. Es
por esto, que muchos investigadores se concentran más bien en el R̄2 (R2 ajusta-
do), que penaliza la incorporación de regresores adicionales. La principal ventaja
de este estadístico es que este podría disminuir ante la inclusión de más variables,
o de variables explicativas de poco poder. Se dene de la siguiente manera:

RSS/(n − k)
R̄2 = 1 − (45)
T SS/(n − 1)

Es posible mnostrar que las dos medidas de ajustes vistas (R2 y R̄2 ) se rela-
cionan de la siguiente manera:

1−k n−1 2
R̄2 = + R (46)
n−k n−k

14
3.2. Propiedades de los estimadores MCO
Recuerde que el estimador MCO del vector de parámetros β es:

bM CO = (X 0 X)−1 X 0 y (47)

Sustituyendo y en la expresión anterior:

bM CO = (X 0 X)−1 X 0 (Xβ + µ) = β + (X 0 X)−1 X 0 µ

Aplicando esperanza (recuerde que los X 0 s son no estocásticos) se tiene:

E(bM CO ) = β + (X 0 X)−1 X 0 E(µ)

Por lo tanto:
E(bM CO ) = β (48)
Con respecto a la varianza se tiene lo siguiente:

var(b) = E[(b − β)(b − β)0 ]

Sin embargo, se sabe que:

b − β = (X 0 X)−1 X 0 µ

Por lo tanto:

E[(b − β)(b − β)0 ] = E[(X 0 X)−1 X 0 µµ0 X(X 0 X)−1 ]


E[(b − β)(b − β)0 ] = (X 0 X)−1 X 0 E[µµ0 ]X(X 0 X)−1
E[(b − β)(b − β)0 ] = σ 2 (X 0 X)−1 (X 0 X)(X 0 X)−1

Finalmente:
var(b) = σ 2 (X 0 X)−1 (49)
Esta expresión es una matriz de k xk , en que las varianzas del vector de co-
ecientes estimados (b) aparecen en la diagonal, y las covarianzas entre ellos
corresponden a los elementos que están fuera de la diagonal.
Al igual que en el caso más simple, la varianza del término de error σ 2 debe
ser estimada.
El término σ 2 puede ser estimado como:

σ 2 = E(e0 e) (50)

Por otro lado, se dene:13

M = I − X(X 0 X)−1 X 0
13 Note que la matriz M es simétrica e idempotente.

15
Note que:

e = y − Xb = y − X(X 0 X)−1 X 0 y = (I − X(X 0 X)−1 X 0 )y = M y

De la misma manera:

e = M y = M (Xβ + µ) = (I − X(X 0 X)−1 X 0 )Xβ + M µ = M µ

Por lo tanto:14
E(e0 e) = E(µ0 M 0 M µ) = E(µ0 M µ)
Utilizando el hecho que la traza15 de un escalar es el escalar, se tiene:

E(µ0 M µ) = E[tr(µ0 M µ)]


= E[tr(µµ0 M )]
= σ 2 tr(M )
= σ 2 trI − σ 2 tr[X(X 0 X)−1 X 0 ]
= σ 2 trI − σ 2 tr[(X 0 X)−1 (X 0 X)]
= σ 2 (n − k)

Por lo tanto:
e0 e
s2 = (51)
n−k
dene un estimador insesgado de σ 2 .
De la misma manera que para el caso más sencillo, el teorema de Gauss Markov
muestra que el estimamor MCO es el mejor estimador lineal e insesgado (MELI).

3.3. Inferencia
Considere nuevamente el modelo de regresión lineal:

Yi = β1 + β2 X2i + β3 X3i + · · · + βk Xki + µi

Suponga que se desean realizar conjuntamente las siguientes pruebas sobre el


vector β :

β2 − β3 = 0
β5 + β6 = 1
βk = 2
14 Aquí se usa el hecho que M es una matriz idempotente.
15 La traza corresponde a la sumatoria de los elementos de la diagonal de una matriz.

16
Para realizar estos test de hipótesis lineales acerca del vector de parámetros
16
β , se utiliza la siguiente estructura lineal general:
Rβ = r (52)

donde R es una matriz de q xk de constantes conocidas, con q < k , y r es un vector


de q x1 de constantes conocidas. En este contexto, cada hipótesis nula determina
los elementos relevantes en R y r, respectivamente.
Para la implementación de los test, se redene la hipótesis nula de la siguiente
manera:
H0 : Rβ − r = 0 (53)
Note lo siguiente:
E(Rb) = Rβ
y además:
var(Rb) = E[R(b − β)(b − β)0 R0 ] = R[var(b)]R0
Por lo tanto:
var(Rb) = σ 2 R(X 0 X)−1 R0
Por otro lado, recuerde que:

µ ∼ N (0, σ 2 I) (54)

Por lo tanto:
b ∼ N [β, σ 2 (X 0 X)−1 ] (55)
y además:
Rb ∼ N [Rβ, σ 2 R(X 0 X)−1 R0 ]
y por ende:
R(b − β) ∼ N [0, σ 2 R(X 0 X)−1 R0 ] (56)
Recuerde que una variable aleatoria chi-cuadrado se construye a partir de una
suma de cuadrados de variables aleatorias normales estandarizadas. Por lo tanto:

(Rb − r)0 [σ 2 R(X 0 X)−1 R0 ]−1 (Rb − r) ∼ χ2 (q) (57)

Por otro lado, puede mostrarse que:


e0 e
∼ χ2 (n − k) (58)
σ2
Por lo tanto, el cuociente entre (57) y (58) se distribuye de la siguiente manera:
(Rb − r)0 [R(X 0 X)−1 R0 ]−1 (Rb − r)/q
∼ F (q, n − k) (59)
e0 e/(n − k)
16 Note que ahora se trata de un vector de hipótesis H0 .

17
La expresión anterior puede rescribirse como:

(Rb − r)0 [s2 R(X 0 X)−1 R0 ]−1 (Rb − r)/q ∼ F (q, n − k)

donde s2 se dene por (51). Por lo tanto s2 (X 0 X)−1 es la matriz de varianzas y


covarianzas de b. Se se denota por cij al i, j -ésimo elemento en (X 0 X)−1 , entonces:

var(bi ) = s2 cii y cob(bi , bj ) = s2 cij i, j = 1, 2, ..., k

Suponga que se quiere testear la siguiente hipótesis H0 : βi = 0. Reemplazando


los valores en R y r, se llega a:

b2i b2i
F = = ∼ F (1, n − k)
s2 cii var(bi )
Tomando la raíz cuadrada de la expresión anterior, se tiene lo siguiente:
bi bi
t= √ = ∼ t(n − k)
s cii σb

Finalmente, suponga que se quiere evaluar la siguiente hipótesis nula:

H0 : β2 = β3 = · · · = βk = 0

Es posible mostrar que se llega a la siguiente expresión para el test F :


ESS/(k − 1)
F = ∼ F (k − 1, n − k) (60)
RSS/(n − k)
Lo anterior también puede ser expresado como:

R2 /(k − 1)
F = ∼ F (k − 1, n − k) (61)
(1 − R2 )/(n − k)
Ahora que se han desarrollado a grandes rasgos los principales aspectos de
estimación e inferencia tanto en el modelo simple como en el modelo general, la
próxima sección discutirá respecto de la consecuencias que tiene el no cumplim-
iento de ciertos supuestos.

4. Violación de Supuestos
A continuación se resumen los supuestos realizados en la estimación del modelo
de regresión lineal:

1. y = Xβ + µ

18
2. µi son iid(0, σ 2 ) i = 1, ..., n
3. o bien: µi son iid N (0, σ 2 ) i = 1, ..., n
4. E(Xit µs ) = 0 ∀i = 1, ..., k y t, s = 1, ..., n
5. X es no estocástico con rango columna completo k .
El supuesto (2) establece que los errores son ruido blanco, en cambio, el
supuesto (3) establece que los errores son ruido blanco gaussiano.
A continuación se enuncian los principales problemas que pudieran surgir
derivado de la violación de ciertos supuestos.

Problemas con µ
Supuesto (2) se cumple pero no así el supuesto (3): el estimador bM CO sigue
siendo MELI, pero los procedimientos de inferencia ahora son válidos sólo
asintóticamente.17

E(µµ0 ) = diag[σ12 , ..., σn2 ]: las varianzas de los errores son distintas para
cada una de las observaciones muestrales, es decir, se viola el supuesto de
homoscedasticidad. Lo anterior afecta los procedimientos de inferencia.
E(µi µi−j ) 6= 0, (j 6= 0): los errores se encuentran correlacionados. Esto
también afecta los procedimientos de inferencia.
Problemas con X
Omisión de variables relevantes: omisión de una variable explicativa impor-
tante en el modelo. Esto puede deberse a una falta de información, o bien,
al desconocimiento del investigador.

Inclusión de variables explicativas irrelevantes: es exactamente lo opuesto al


problema anterior. Se incluyen variables que no tienen una relación teórica
con la variable dependiente que está siendo modelada. Se generan problemas
de ineciencia en la estimación.

Forma funcional incorrecta: suponga que existe una relación funcional del
siguiente tipo Y = f (X2 , X3 ), la cual podría ser especicada como:

Y = β1 + β2 X2 + β3 X3 + µ

o bien como:

Y = β1 + β2 X2 + β3 X3 + γ2 X22 + γ3 X32 + δ(X2 X3 ) + µ


17 Es decir, cuando el tamaño muestral tiende a innito.

19
En este contexto, si el error de especicación consiste en haber estimado la
primera ecuación en lugar de la segunda, entonces, el problema se soluciona
añadiendo los términos que faltan.

La matriz X no tiene rango columna completo (colinealidad en las variables


explicativas): esto no permite estimar un único vector b.18 Ahora bien, si
algunos regresores presentan cierto grado de dependencia lineal, en tal caso
un único vector b sí puede ser estimado, pero las varianzas estimadas serán
más grande que lo normal.

E(Xµ) 6= 0: esto es una violación del supuesto (4), y puede surgir por di-
versas razones. Si esto ocurre, los estimadores bM CO serán sesgados e incon-
sistentes. Esta situación podría surgir por omisión de variables relevantes,
por simultaneidad (sistema de ecuaciones), o bien, por error de medida en
los X .

Problemas con β

El supuesto implícito en (1) es que el vector β es constante. Sin embargo,


podría ocurrir que hubiesen cambios estructurales en los coecientes, o bi-
en, una evolución de los mismos en respuesta a los cambios sociales y del
entorno.

4.1. Errores Heteroscedásticos


Cuando los errores son hetroscedásticos, la matriz de varianzas y covarianzas
es de la siguiente forma:
 
σ12 0 ··· 0
 0 σ2 ··· 0 
 2 
var(µ) = E(µµ0 ) =  .. .. .. .. =V (62)
. . . . 
0 0 ··· σn2

Note que en este contexto hay n + k parámetros a estimar, n varianzas de-


sconocidas, y k elementos del vector β . Por lo tanto, la estimación es imposible.19
De esta manera, deben realizarse supuestos adicionales para proceder a la esti-
mación. Por ejemplo, suponga que:

σi2 = σ 2 x2i i = 1, 2, ..., n


18 La matriz (X'X) no es invertible.
19 Cabe destacar, que la heteroscedasticidad es más común en datos de corte transversal,
esto es, información proveniente (a nivel de personas, hogares, empresas, etc.) de un momento
determinado del tiempo.

20
Por lo tanto:
 
x21 0 · · · 0
 0 x22 · · · 0 
 
var(µ) = E(µµ0 ) =  .. .. . . ..  = σ2Ω (63)
 . . . . 
0 0 · · · x2n

La especicación (63) tiene sólo un parámetro desconocido, a diferencia de los


n parámetros que deben ser estimados en (62).

4.1.1. Propiedades del Estimador MCO


La ecuación especicada es:

y = Xβ + µ

con E(µ) = 0, y E(µµ0 ) = σ 2 Ω. Cuando el X es no estocástico, se cumple lo


siguiente:

1. El estimador MCO es insesgado y consistente. Recuerde que:

b = β + (X 0 X)−1 X 0 µ ⇒ E(b) = β

2. El estimador MCO es ineciente, es decir, no tiene mínima varianza.20

3. Los errores estándar de los coecientes MCO estimados son incorrectos.

En efecto, note que:


b − β = (X 0 X)−1 X 0 µ
Por lo tanto:

var(b) = E[(b − β)(b − β)0 ]


var(b) = E[(X 0 X)−1 X 0 µµ0 X(X 0 X)−1 ]

Finalmente:
var(b) = σ 2 (X 0 X)−1 X 0 ΩX(X 0 X)−1 (64)
Recuerde que la fórmula convecional de la varianza del estimador MCO es:

var(b) = σ 2 (X 0 X)−1
20 Enefecto, el estimador de mínima varianza corresponde al estimador de mínimos cuadrados
ponderados.

21
De esta manera, los test estadísticos convencionales ya no son válidos.
No obstante, a pesar de la presencia de heteroscedasticidad en los residuos
aún podría llevarse a cabo la estimación por MCO. En efecto, White (1980)21 en
un artículo muy inuyente indica que lo importante es la estimación del término
X 0 σ 2 ΩX . Note que:
  
. .. ..  σ 2
0 · · · 0 · · · x 0
· · ·
.. .
1 1
.  0 σ 2 · · · 0   · · · x0 · · · 
  2  2 
X 0 σ 2 ΩX = x1 x2 · · · xn   .. .. . . ..   .. 
.. .. ..  . . . .   . ···
. . . 0 0 · · · σn2 · · · x0n · · ·
Por lo tanto: n
X
0 2
X σ ΩX = σi2 xi x0i (65)
i=1

El estimador de White reemplaza los elementos desconocidos σi2 (i = 1, 2, .., n)


por e2i , donde ei es el residuo obtenido por MCO. Esto proporciona una estimación
consistente de la matriz de varianzas para el vector de coecientes MCO. Además,
no requiere supuestos respectos de la forma de la heteroscedasticidad. Por lo tanto:
var(b) = (X 0 X)−1 X 0 σ 2 Ω̂X(X 0 X)−1 (66)
donde:
σ 2 Ω̂ = diag{e21 , e22 , ..., e2n }
Otra solución, consiste en aplicar los denominados mínimos cuadrados pon-
derados (MCP), los cuales se describen a continuación.

4.1.2. Mínimos Cuadrados Ponderados


Considere el siguiente modelo:
y = Xβ + µ
con:
µ ∼ N (0, σ 2 Ω)
donde Ω es una matriz denida positiva de orden n. A continuación se analizará
el caso más sencillo, en donde Ω es conocida. A modo de ejemplo, suponga que:
 
2
X21 0 ··· 0
 0 X2 · · · 0 
2 22  2 2 2 2
var(µ) = σ  .. .. . . ..  = σ diag{X21 X22 · · · X2n }
 . . . . 
2
0 0 ··· X2n
21 A Heteroskedastic-Consistent Covariance Matrix and a Direct Test for Heteroskedasticity.

22
Es posible mostrar22 que un estimador consistente de β viene dado por:

β̂ = (X 0 Ω−1 X)−1 X 0 Ω−1 y (67)

y:23
1
σ̂ 2 = (y − X β̂)0 Ω−1 (y − X β̂) (68)
n

4.2. Error de Medida


La materia prima para hacer econometría son los datos con que cuenta el
investigador al momento de realizar sus estimaciones. La recolección de estos
datos se realiza frecuentemente con el levantamiento de encuestas. Por ejemplo,
en Chile se tiene la encuesta CASEN24 , que proporciona información a nivel
nacional de manera periódica para un conjunto de variables relevantes. De esta
manera, es de esperar que se produzcan errores de medida en la recopilación de
la información, por cuanto la gente muchas veces no reporta la información de
una manera exacta. En efecto, el caso más común se reere a los ingresos de las
personas, en donde estas tienden a subestimar sus niveles reales de ingresos.
Considere el siguiente modelo:

Y ∗ = X ∗β + e (69)

Suponga que el econometrista no observa Y ∗ ni X ∗ , pero sí observa:

Y = Y∗+µ
X = X∗ + w (70)

donde µ ∼ (0, σµ2 I), y w ∼ (0, σw2 I). Considere en primer lugar el caso en que la
variable dependiente (Y ) es medida con error. Por lo tanto:

Y − µ = X ∗ β + e ⇒ Y = X ∗ β + e∗

donde e∗ = e + µ. Como es posible apreciar, este modelo satisface todos los


supuestos realizados para la estimación por MCO, por lo tanto, el estimador β̂
será insesgado y eciente. En resumen, cuando la variable dependiente está medida
con error, las propiedades del estimador MCO no se ven alteradas.
Considere ahora el caso en que la variable independiente (X ) está medida con
error. En efecto:
Y ∗ = (X − w)β + e ⇒ Y ∗ = Xβ + e∗
22 VerJohnston y DiNardo (1997) para más detalles.
23 Noteque la matriz Ω lo que hace es ponderar menos a aquellas observaciones que presentan
una mayor varianza.
24 Encuesta de Caracterización Socieconómica Nacional.

23
donde e∗ = e−wβ . Dado que X = X ∗ +w, entonces, el regresor está correlacionado
con el término de error. En efecto:

cov(X, e∗ ) = cov(X ∗ + x, e − wβ) = −βσw2 (71)

lo cual viola el supuesto de no correlación entre el regresor y el término de error.


Por lo tanto, β̂ será sesgado e inconsistente.

4.3. Variable Omitida


Es posible que el investigador, fundado en un modelo económico incorrecto,
decida omitir cierta variable que desde un punto de vista teórico sí tiene una
importancia fundamental. ¾Cuáles serían las consecuencias de este error?
Asuma que el siguiente modelo es el correcto:

Y = X1 β1 + X2 β2 + e

Sin embargo, el investigador estima el siguiente modelo:

Y = X1 β1 + e

Estimando el modelo incorrecto se obtiene:

β̂1 = (X10 X1 )−1 X10 Y


= (X10 X1 )−1 X10 (X1 β1 + X2 β2 + e)
= β1 + (X10 X1 )−1 X10 X2 β2 + (X10 X1 )−1 X10 e

Por lo tanto:
E(β̂1 ) = β1 + (X10 X1 )−1 X10 X2 β2
De esta manera, el estimador de β1 será sesgado e inconsistente. Note además
que la dirección del sesgo es difícil de establecer.

4.4. Multicolinealidad
Uno de los supuestos clave para la estimación por MCO es que la matriz
0
(X X) sea no singular, esto es, que sea invertible. En otras palabras, se requiere
que (X'X) sea de rango completo. La multicolinealidad surge cuando existe algún
grado de dependencia lineal entre los regresores del modelo.
La multicolinealidad se clasica en dos tipos:

Multicolinealidad exacta: ocurre cuando una de las variables explicativas


es una combinación lineal determinística de todas las demás (o alguna de
ellas) variables.

24
Multicolinealidad no exacta: ocurre cuando una de las variables es aprox-
imadamente igual a una combinación lineal de las otras variables explica-
tivas.
En primer lugar, se debe mencionar que la multicolinealidad exacta es muy
fácil de detectar, pues esta hace que la matriz (X 0 X) sea singular, y por ende, no
invertible. Para que haya multicolinealidad exacta debe ocurrir que en el modelo
se estén incluyendo un conjunto de variables que constituyan una identidad con-
table. Por el contrario, la multicolinealidad no exacta es difícil de detectar, pues
siempre será posible invertir la matriz (X 0 X).
Algunos síntomas que indican la presencia de multicolinealidad son:
1. Pequeños cambios en los datos producen fuertes variaciones en los parámet-
ros estimados.

2. Mientras que los test t son pequeños (coecientes no signicativos), el R2


es alto.

3. Los coecientes tienen el signo incorrecto o presentan magnitudes dudosas.


La consecuencias de la multicolinealidad se reeren básicamente a la pérdida
de eciencia en las estimaciones. En efecto, recuerde que:

var(β̂) = σ 2 (X 0 X)−1 (72)

Al haber correlación entre los elementos de la matriz X , el determinante de


(X X) será pequeño, por lo tanto, (X 0 X)−1 será muy grande. De esta manera, las
0

varianzas de los parámetros estimados serán mayores. Así, al ser grandes las var-
ianzas, los intervalos de conanza para el contraste de hipótesis lineales serán de
gran tamaño, por lo que dichos contrastes serán sesgados en el sentido de aceptar
cualquier hipótesis nula, es decir, tendrán poca potencia. En particular, se tiende
a encontrar muy a menudo que los coecientes estimados no son signicativos.25
Finalmente, cabe mencionar que existen variadas técnicas destinadas a detectar
la existencia del problema, sin embargo, no se ahondarán en ellas.26

5. El Estimador de Máxima Verosimilitud


El método de estimación discutido hasta ahora ha consistido en escoger los
valores de los parámetros β y σµ2 de modo de obtener la menor suma de cuadrados
de los residuos posible. Sin embargo, existe otro método de estimación, denom-
inado máxima verosimilitud. Este método asume una cierta distribución para el
25 Los test t serán muy pequeños.
26 Para más detalles ver Novales (1993).

25
término de error en el modelo econométrico. Distintos supuestos acerca de dicha
distribución dan origen a distintos estimadores de máxima verosimilitud, aún
cuando habitualmente se trabaja bajo el supuesto de normalidad.
Considere el siguiente modelo econométrico:
y = Xβ + µ
Además, suponga que el vector µ sigue una distribución normal, con media
cero, y varianza σ 2 I . De esta manera, la función de densidad del vector µ es:
µ ¶
1 1 1 0 2 −1
f (µ) = exp − µ (σ I) µ
(2π)T /2 |σ 2 I|1/2 2
µ ¶
1 1 1 0
f (µ) = exp − 2 µ µ (73)
(2π)T /2 (σ 2 )T /2 2σ
Esta función de densidad puede transformarse en la función de verosimilitud
muestral si se expresa el vector µ como función de las matrices X e y .27 Por lo
tanto, la función de verosimilitud se obtiene sustituyendo en (73) el vector µ como
función de y , para obtener:
µ ¶
2 1 1 1 0
L(y, X; β, σ ) = exp − 2 (y − Xβ) (y − Xβ) (74)
(2π)T /2 (σ 2 )T /2 2σ
El estimador de máxima verosimilitud de β y σ 2 está formado por aquel-
los valores de estos parámetros que maximizan la función de verosimilitud (74).
Considere la siguiente transformación de (74):
T T 1
lnL(y, X; β, σ 2 ) = − ln(2π) − ln(σ 2 ) − 2 (y − Xβ)0 (y − Xβ) (75)
2 2 2σ
Derivando e igualando a cero, se tiene lo siguiente:
∂ln(L) 1
= − 2 [−2X 0 (y − Xβ)] = 0
∂β 2σ
∂ln(L) T 1
2
= − 2
+ 4
(y − Xβ)0 (y − Xβ) = 0
∂σ 2σ 2σ
Finalmente, resolviendo para β̂ y σ̂ 2 se tiene lo siguiente:
β̂ = (X 0 X)−1 X 0 y (76)
0 0
(y − X β̂) (y − X β̂) µ̂ µ̂
σˆ2 = =
T T
27 Pararealizar esto se debe recordar el resultado respecto del cambio de variable en funciones
de densidad. Para detalles ver Novales (1993), sección 2.7. Aquí se muestra que el Jacobiano
de la transformación que convierte el vector aleatorio µ en el vector aleatorio y es la matriz
identidad.

26
Por lo tanto, bajo el supuesto de normalidad del término de error, el esti-
mador de máxima verosimilitud del vector β coincide con el estimador MCO.
Esto permite concluir que:
E(β̂M V ) = β (77)
var(β̂M V ) = σ 2 (X 0 X)−1 (78)
Las segundas derivadas son:
µ 2 ¶
∂ 2` X 0X ∂ ` X 0X
= − con − E =
∂β∂β 0 σ2 ∂β∂β 0 σ2
µ ¶
∂2` X 0µ ∂ 2`
= − con − E =0
∂β∂σ 2 σ4 ∂β∂σ 2
µ 2 ¶
∂ 2` n µ0 µ ∂ ` n
2 2
= 4
− 6 con −E 2 2
= 4
∂(σ ) 2σ σ ∂(σ ) 2σ

dado que E(µ0 µ) = nσ 2 . Por lo tanto, la matriz de información será:


µ ¶ µ1 0

β 2 (X X) 0
I(θ) = I = σ
n (79)
σ2 0 2σ 4

y su inversa es: µ ¶ µ 2 0 −1 ¶
−1 β σ (X X) 0
I = 2σ 4 (80)
σ2 0 n

27
Referencias
[1] Benavente, J. (2003) Notas de clases Econometría II. Pregrado. Depar-
tamento de Economía, Universidad de Chile.

[2] Canavos. Probabilidad y Estadística.

[3] Chumacero, R. (2003) Notas de clases Econometría I. Magíster en


Economía. Departamento de Economía, Universidad de Chile.

[4] Johnston, J., DiNardo, J. (1997) Econometrics Methods.

[5] Greene, W. (1993) Econometric Analysis. Prentice Hall.

[6] Gujarati, D. Econometría. Tercera Edición, Mc Graw Hill.

[7] Maddala, G. Introducción a la Econometría. Segunda Edición, Prentice


Hall.

[8] Novales, A. (1993) Econometría. Segunda Edición, Mc Graw Hill.

[9] Riveros, L. Econometría Básica.

28

S-ar putea să vă placă și