Sunteți pe pagina 1din 68

Anlisis de Regresin Mltiple: Estimacin

Carlos Velasco1
1 Departamento de Economa

Universidad Carlos III de Madrid

Econometra I
Mster en Economa Industrial
Universidad Carlos III de Madrid
Curso 2007/08

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 1 / 67


Resumen

1 Motivacin para la regresin mltiple

2 Mecnica e Interpretacin de Mnimos Cuadrados Ordinarios

3 Valor esperado de los Estimadores MCO

4 Varianza de los Estimadores MCO

5 Eficiencia de MCO: Teorema de Gauss-Markov

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 2 / 67


Limitaciones del Anlisis de Regresin Simple

Difcil extraer conclusiones ceteris paribus (justificando el


supuesto RLS.3): mejor controlar ms factores para hacer una
anlisis causal.
Slo consigue explicar una parte limitada de la variabilidad de y
en funcin de una nica x.
Slo puede incorporar una determinada relacin funcional entre la
x y la y (en funcin de x, logx, etc.).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 3 / 67


Motivacin para la regresin mltiple
Modelo con dos variables independientes. Ejemplo: gasto por estudiante y nota media

avgscore = 0 + 1 expend + 2 avginc + u


donde expend es el gasto por estudiante; avgscore es el resultado del
test estandarizado en la escuela secundaria y avginc es la renta
familiar media.
El objeto de inters para efectos de evaluacin de polticas es el
efecto cp de expend sobre avgscore.
Este modelo incluye avginc para controlar su efecto sobre
avgscore.
Esto es importante porque avginc est correlado positivamente
con el gasto por estudiante (determinados por los impuestos
locales sobre la renta y la propiedad).
En RLS, avginc se incluira en el trmino de error, que estara
correlado con expend, y por tanto el estimador de MCO estara
sesgado.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 4 / 67
Motivacin para la regresin mltiple
Modelo con dos variables independientes. Caso general

y = 0 + 1 x1 + 2 x2 + u

0 es el trmino constante.
1 mide el efecto sobre y de un cambio en x1 , manteniendo otros
factores constantes.
2 mide el efecto sobre y de un cambio en x2 , manteniendo otros
factores constantes.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 5 / 67


Motivacin para la regresin mltiple
Otro ejemplo

Es posible que x1 y x2 estn relacionados perfectamente:


cons = 0 + 1 inc + 2 inc 2 + u,
pero no de forma lineal, donde u contiene otros factores que
afectan al consumo aparte de la renta (inc).
Renta es el nico factor que afecta al consumo, y aparentemente
un modelo de RLS es suficiente. Pero renta influye sobre
consumo mediante dos funciones, x1 = inc y x2 = inc 2 .
Mecnicamente se estima como un modelo de Regresin Mltiple
habitual, pero la interpretacin de los parmetros cambia: x2 no
puede estar constante si x1 cambia.
En este caso la propensin marginal a consumir es
cons
= 1 + 22 inc
inc
Para calcular efectos parciales es importante la definicin de los
regresores.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 6 / 67
Motivacin para la regresin mltiple
Supuestos

Generalizacin de RLS.3:
E (u|x1 , x2 ) = 0.
El valor esperado de u debe ser igual para todas las
combinaciones de x1 y x2 : implica que los otros factores que
afectan a y deben estar no relacionados (en media) con x1 y x2 .
EJEMPLO ecuacin de salarios: los niveles medios habilidad
deben ser iguales para todas las combinaciones de educacin y
experiencia en la poblacin de trabajadores.
EJEMPLO resultados estudiantes: otros factores que afecten a la
nota (caractersticas del instituto o del estudiante), NO deben
estar, en promedio, relacionados con la financiacin ni con el
ingreso familiar medio.
EJEMPLO modelo cuadrtico: en este caso
 
E u|inc, inc 2 = E (u|inc) = 0.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 7 / 67
Motivacin para la regresin mltiple
Modelo con k variables independientes

y = 0 + 1 x1 + 2 x2 + + k xk + u

k + 1 parmetros.
0 es el trmino constante.
j mide el efecto sobre y de un cambio en xj , manteniendo otros
factores constantes (parmetros de pendiente).
u : otros factores que afectan y y no son x1 , x2 , . . . , xk .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 8 / 67


Motivacin para la regresin mltiple
Modelo con k variables independientes: EJEMPLO

log (salary ) = 0 + 1 log (sales) + 2 ceoten + 3 ceoten2 + u

1 : elasticidad cp del salario respecto a sales.


Si 3 = 0 : 1002 es aproximadamente el porcentaje cp de
incremento del salario cuando ceoten aumenta en una unidad.
Si 3 6= 0, la interpretacin es ms compleja.
La ecuacin es lineal en los parmetros 0 , 1 , . . . , 3 , pero no
tiene porqu serlo en las variables: log (salary ) ,
log(sales) , ceoten2 .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 9 / 67


Motivacin para la regresin mltiple
Modelo con k variables independientes: SUPUESTO

Generalizacin de RLS.3:

E (u|x1 , x2 , . . . , xk ) = 0.

El valor esperado de u debe ser igual para todas las


combinaciones de x1 , x2 , . . . , xk .
Tambin implica que se han especificado correctamente todas las
relaciones funcionales entre las x 0 s y la y .
Este supuesto garantiza que MCO est insesgado, y si se omite
una variable de x1 , x2 , . . . , xk ocasionar un sesgo.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 10 / 67


Mecnica e Interpretacin de Mnimos Cuadrados
Ordinarios

1 Motivacin para la regresin mltiple

2 Mecnica e Interpretacin de Mnimos Cuadrados Ordinarios

3 Valor esperado de los Estimadores MCO

4 Varianza de los Estimadores MCO

5 Eficiencia de MCO: Teorema de Gauss-Markov

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 11 / 67


Mecnica e interpretacin de Mnimos Cuadrados
Ordinarios
Obtencin de los EMCO: Modelos con 2 variables

Ecuacin estimada por MCO:

y = 0 + 1 x1 + 2 x2 .

MCO elige los valores de 0 , 1 , 2 que minimizan la suma de


cuadrados de los residuos.
Dadas n observaciones {(xi1 , xi2 , yi ) , i = 1, . . . , n} se eligen
0 , 1 , 2 para hacer
n 
X 2
yi 0 1 xi1 2 xi2
i=1

tan pequeo como sea posible.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 12 / 67


Mecnica e interpretacin de MCO
Obtencin de los EMCO: Modelos con 2 variables (2)

xij : i -th observacin de la variable j, i = 1, . . . , n; j = 1, . . . , k .


xi1 , xi2 : 1,2, nombre de la variable.

xi1 = educi ; xi2 = experi .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 13 / 67


Mecnica e interpretacin de MCO
Obtencin de los EMCO: caso general

Ecuacin estimada por MCO:

y = 0 + 1 x1 + 2 x2 + + k xk .

MCO elige los valores de 0 , 1 , 2 , . . . , k que minimizan la suma


de cuadrados de los residuos.
Dadas n observaciones {(xi1 , xi2 , . . . , xik , yi ) , i = 1, . . . , n} se
eligen 0 , 1 , 2 . . . , k para hacer
n 
X 2
yi 0 1 xi1 2 xi2 k xik
i=1

tan pequeo como sea posible.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 14 / 67


Mecnica e interpretacin de MCO
Obtencin de los EMCO: caso general

Condiciones de primer orden:


n 
X 
yi 0 1 xi1 2 xi2 k xik = 0
i=1
n
X  
xi1 yi 0 1 xi1 2 xi2 k xik = 0
i=1
.. ..
. .
n
X  
xik yi 0 1 xi1 2 xi2 k xik = 0.
i=1

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 15 / 67


Mecnica e interpretacin de MCO
Obtencin de los EMCO: caso general

Las condiciones de primer orden reproducen las condiciones



E (u) = 0, E xj u = 0, j = 1, . . . , k ,

que se obtienen a partir del supuesto E (u|x1 , x2 , . . . , xk ) = 0.


Adems deben resolverse de forma nica.
Regresin mnimo cuadrtica, funcin de regresin muestral:

y = 0 + 1 x1 + 2 x2 + + k xk .

0 : estimador MCO del trmino constante.


1 , 2 , . . . , k : estimadores MCO de las pendientes.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 16 / 67


Mecnica e interpretacin de MCO
Interpretacin de la ecuacin estimada por MCO: 2 variables

y = 0 + 1 x1 + 2 x2

0 : valor predicho de y cuando x1 = 0 y x2 = 0.


1 , 2 : interpretacin ceteris paribus:

y = 1 x1 + 2 x2 .

Si x2 = 0 (mantenemos x2 constante) entonces

y = 1 x1 .

Si x1 = 0, (mantenemos x1 constante) entonces

y = 2 x2 .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 17 / 67


Mecnica e interpretacin de MCO
Ejemplo: Determinantes del College GPA

Regresin Mltiple:

colGPA = 0 + 1 hsGPA + 2 ACT + u

colGPA: college grade point average.


hsGPA : high school GPA.
ACT : achievement test score.
n = 141, GPA1
Regresin simple:

colGPA = 0 + 1 ACT + v

No permite comparar estudiantes con el mismo hsGPA!!

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 18 / 67


Mecnica e interpretacin de MCO
Interpretacin de la ecuacin estimada por MCO: caso general

y = 0 + 1 x1 + 2 x2 + + k xk

0 : valor predicho de y cuando x1 = 0, . . . , xk = 0.


j , j = 1, . . . , k : interpretacin ceteris paribus:

y = 1 x1 + 2 x2 + + k xk .

Si x2 = = xk = 0 (mantenemos x2 , . . . , xk constantes)
entonces
y = 1 x1 .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 19 / 67


Mecnica e interpretacin de MCO
Interpretacin de la ecuacin estimada por MCO. Ejemplo: ecuacin de salarios

log (wage) = 0 + 1 educ + 2 exper + 3 tenure + u

n = 526, WAGE1.
Variable dependiente en logaritmos: el salario aumenta en un
j 100 % si xj = 1

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 20 / 67


Mecnica e interpretacin de MCO
Interpretacin de "Mantener Otros Factores Constantes"

El anlisis de regresin mltiple proporciona interpretaciones


ceteris paribus incluso si los datos no se han recogido de forma
ceteris paribus.
No se muestrea a personas con igual hsGPA, pero posiblemente
con diferentes resultados ACT .
Los datos se recogen de forma aleatoria de una poblacin sin
restricciones en los valores de hsGPA o de ACT .
Regresin mltiple permite realizar en situaciones no
experimentales los mismos anlisis que hacen otros cientficos en
situaciones de laboratorio bajo control.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 21 / 67


Mecnica e interpretacin de MCO
Valores ajustados y Residuos MCO

Valor ajustado para la observacin i :

yi = 0 + 1 xi1 + 2 xi2 + + k xik .

Residuo para la observacin i :

ui = yi yi
= yi 0 1 xi1 2 xi2 k xik .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 22 / 67


Mecnica e interpretacin de MCO
Propiedades de los Valores ajustados y Residuos MCO

u = 0


d n u, xj = 0,
Cov j = 1, . . . , k
El punto
(x1 , x2 , , . . . xk , y )
pertenece la recta de regresin MCO.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 23 / 67


Mecnica e interpretacin de MCO
Una interpretacin "de filtrado"de regresin mltiple

En principio no son necesarias las frmulas para j .


Caso k = 2 : Pn
ri1 yi
1 = Pi=1n 2
,
i=1 ri1

donde ri1 son los residuos MCO de una regresin simple de x1 sobre
x2 , con la misma muestra.
1 Regresamos la variable x1 sobre la variable x2 .
Obtenemos los residuos r1 (la parte de x1 que no puede ser
explicada por x2 , incorrelada con x2 ) : r1 es la parte de x1 filtrada
de x2 .
2 Regresamos y sobre los residuos r1 , lo que nos dar el efecto
parcial de x1 sobre y , corregido por x2 .
(Como ri1 tienen media cero, 1 es equivalente a una regresin
habitual con constante).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 24 / 67


Mecnica e interpretacin de MCO
Comparacin de estimadores en regresin simple y mltiple

Hay dos casos especiales en los que una regresin simple de y sobre
x1 produce el mismo estimador MCO para x1 que una regresin
mltiple sobre x1 y x2 , es decir

1 = 1

en

y = 0 + 1 x1
y = 0 + 1 x1 + 2 x2 .

1 El efecto parcial de x2 sobre y es cero en la muestra, es decir


2 = 0 [iguales condiciones de primer orden].
2 x1 y x2 estn incorreladas en la muestra [el filtrado no tiene
efecto].

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 25 / 67


Mecnica e interpretacin de MCO
Comparacin de regresin simple y mltiple: Ejemplo

Participacin en Planes de Pensiones 401(k ) (401K)

prate = 0 + 1 mrate + 2 age + u

donde prate es la tasa de participacin y mrate es la tasa match, que


es la parte del plan que contribuye la empresa (la otra parte la cubre el
trabajador). age es la edad del plan de pensiones.

Qu ocurre si no controlamos por age? Depender de la correlacin


entre mrate y age.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 26 / 67


Mecnica e interpretacin de MCO
Bondad de ajuste

Suma de Cuadrados Totales, SST:


n
X
(yi y )2 .
i=1

Suma de Cuadrados Explicada, SSE:


n
(yi y )2 .
X

i=1

Suma de Cuadrados de los Residuos, SSR:


n
X
ui2 .
i=1

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 27 / 67


Bondad de ajuste
Descomposicin de las Sumas de Cuadrados

SST = SSE + SSR.

Coeficiente de Determinacin or R-cuadrado


SSE SSR
R2 = =1
SST SST

Propiedad, recordando que y = y ,


Pn 2
i=1 (y i y ) (yi y )
R 2 = 2y ,y = P  P .
n 2 n 2
i=1 (yi y ) i=1 (yi y )

R 2 nunca desciende cuando se aade una nueva variable en la


regresin: no es un buen criterio para decidir si aadir una nueva
variable al modelo.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 28 / 67
Bondad de ajuste
Ejemplos

Ejemplo: College GPA (GAP1)

colGPA = 0 + 1 hsGPA + 2 ACT + u.

Ejemplo: Arrestos (CRIME1)

narr 86 = 0 + 1 pcnv + 2 avgsen + 3 ptime86 + 4 qemp86 + u

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 29 / 67


Mecnica e interpretacin de MCO
Regresin a travs del origen

A veces una teora econmica o el sentido comn imponen


0 = 0.
Se quiere una funcin de regresin estimada de la forma
y = 1 x1 + 2 x2 + + k xk ,
por lo que si x1 = x2 = = xk = 0 entonces y = 0.
En este caso MCO minimiza
X n  2
yi 1 xi1 k xik .
i=1

El ajuste MCO no satisface las mismas condiciones que en el


caso general:
u no tienen media cero.
Si definimos R 2 = 1 SSR/SST entonces R 2 puede ser negativo.
Si 0 6= 0, entonces los estimadores MCO pueden estar sesgados.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 30 / 67
Valor esperado de los Estimadores MCO

1 Motivacin para la regresin mltiple

2 Mecnica e Interpretacin de Mnimos Cuadrados Ordinarios

3 Valor esperado de los Estimadores MCO

4 Varianza de los Estimadores MCO

5 Eficiencia de MCO: Teorema de Gauss-Markov

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 31 / 67


Valores esperados de los Estimadores MCO
Supuestos

RLM.1 (Modelo lineal en parmetros). En el modelo para la poblacin, la


variable dependiente y se relaciona con la variable independiente
x y el error u mediante

y = 0 + 1 x1 + 2 x2 + + k xk + u,

donde 0 ,1 , . . . , k son parmetros desconocidos y u es una


perturbacin o error aleatorio.

Esta expresin se la conoce como el modelo verdadero (para la


poblacin) y es importante para interpretar los parmetros.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 32 / 67


Valores esperados de los estimadores MCO
Supuestos (2)

RLM.2 (Muestreo aleatorio). Para estimar los parmetros


 se dispone de
una muestra de tamao n, xi1 , . . . , xik , yi , i = 1, . . . , n del modelo
poblacional,

yi = 0 + 1 xi1 + 2 xi2 + + k xik + ui , i = 1, . . . , n.

Esta expresin es importante para deducir las propiedades de los


EMCO de 0 ,1 , . . . , k .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 33 / 67


Valores esperados de los estimadores MCO
Supuestos (3)

RLM.3 (Media Condicional cero).

E (u|x1 , x2 , . . . , xk ) = 0.

Este supuesto puede fallar si se especifica incorrectamente la


forma funcional, por ejemplo se omite una variable que deba
estar en el modelo o aparece en niveles cuando deba estar en
logaritmos.
Tambin afecta a RLM.3 omitir un factor importante que est
correlado con x1 , x2 , . . . , xk .
Otros problemas son los errores de medida, y la simultaneidad (y
se determina conjuntamente con alguna variable explicativa.).
Si RLM.3 es cierta, se dice que tenemos variables explicativas
exgenas, y en caso contrario endgenas.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 34 / 67


Valores esperados de los estimadores MCO
Supuestos (4)

RLM.4 (No multicolinealidad perfecta). En la muestra (y por tanto en la


poblacin), ninguna de las variables explicativas es constante, y
no hay una relacin lineal exacta entre las variables explicativas.

Slo afecta a las x 0 s, por lo que es muy diferente de RLM.3.


Es ms compleja que RLS.4 porque afecta a las relacin entre
todas las variables explicativas.
Si una variable independiente es una combinacin lineal exacta
de otras variables independientes, entonces hay multicolinealidad
perfecta: no se puede hacer MCO.
No impide que haya correlacin entre las x 0 s, slo requiere que
no sea perfecta.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 35 / 67


Valores esperados de los estimadores MCO
Multicolinealidad. Ejemplo: test scores

avgscore = 0 + 1 expend + 2 avginc + u

Esperamos que expend (gastos en educacin) est relacionado


con avginc (renta familiar media), ya que los distritos con mayor
nivel de renta tienden a gastar ms dinero por alumno.
La idea es precisamente incluir avginc precisamente porque
estara correlado con expend.
Sin embargo, es extrao encontrar una muestra donde expend
est perfectamente correlado con avginc.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 36 / 67


Valores esperados de los estimadores MCO
Multicolinealidad. Causas

Una variable es un mltiplo de otra: se incluyen dos variables


sobre la misma magnitud en distintas unidades.
Aunque funciones de un mismo regresor aparezcan en la
ecuacin eso no implica multicolinealidad: x y x 2 estn
perfectamente relacionadas, pero no perfectamente relacionadas
linealmente.
En cambio tendremos problemas en
 
log (cons) = 0 + 1 log (inc) + 2 log inc 2 + u

pero no en

log (cons) = 0 + 1 log (inc) + 2 [log (inc)]2 + u.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 37 / 67


Valores esperados de los estimadores MCO
Multicolinealidad. Causas (2)

Tambin hay problemas en

voteA = 0 + 1 expendA + 2 expendB + 3 totexpend + u

porque x3 = x1 + x2 .
En todos estos casos no se pueden calcular los estimadores
MCO.
Solucin: especificar con cuidado el modelo: eliminar la(s)
variable(s) redundante(s).
Otra causa: el tamao muestral n es demasiado pequeo,
n < k + 1.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 38 / 67


Valores esperados de los estimadores MCO

Teorema 3.1 (Insesgadez de MCO). Bajo los supuestos RLM.1.-5


 
E j = j , j = 0, . . . , k ,

para cualquier valor de los parmetros poblacionales j .


El supuesto clave es RLM.3
La propiedad de insesgadez no dice nada sobre el resultado de la
estimacin en un caso particular, si no que es una propiedad del
mtodo de estimacin MCO.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 39 / 67


Valores esperados de los estimadores MCO
Inclusin de variables irrelevantes en un modelo de regresin

O sobre-especificacin del modelo de regresin mltiple:


y = 0 + 1 x1 + 2 x2 + 3 x3 + u
con los supuestos RLM.1-4.
Sin embargo x3 no tiene efecto sobre y , una vez que se
consideran x1 y x2 , por lo que 3 = 0,
E (y |x1 , x2 , x3 ) = E (y |x1 , x2 ) = 0 + 1 x1 + 2 x2 .
No se sabe que 3 = 0 : se incluye x3 en la ecuacin estimada,
y = 0 + 1 x1 + 2 x2 + 3 x3 .
Cul es el efecto sobre la insesgadez de 1 y 2 ? NINGUNO.
El Teorema 3.1 esvlido
 para cualquier valor de j , incluyendo
j = 0. Adems E 3 = 3 = 0.
Cul es el efecto entonces sobre la estimacin MCO?
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 40 / 67
Valores esperados de los estimadores MCO
Sesgo por omisin de variables: el caso simple

Ahora se omite una variable que s que pertenece al modelo


poblacional: se excluye una variable relevante o infra-estimacin
del modelo: caso particular de error de especificacin.
I Esto conllevar un sesgo en los estimadores MCO.
Modelo verdadero:

y = 0 + 1 x1 + 2 x2 + u

y se satisfacen RLM.1-4.
Suponemos que el objeto de inters es 1 , el efecto parcial de x1
sobre y .
Para obtener estimadores insesgados deberamos incluir x2 en la
regresin, pero no lo hacemos,

y = 0 + 1 x1 .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 41 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: Ejemplo

Modelo verdadero:

wage = 0 + 1 educ + 2 abil + u.

Modelo estimado:

wage = 0 + 1 educ + v ,

donde v = 2 abil + u, y el estimador de 1 en este modelo es 1 .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 42 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: el caso simple (2)

Deduccin del valor esperado de 1 (regresin simple):


Pn
(xi1 x1 ) yi
1 = Pi=1
n 2
.
i=1 (x i1 x 1 )
Ahora sustituimos
yi = 0 + 1 xi1 + 2 xi2 + ui
y obtenemos
n
X
(xi1 x1 ) (0 + 1 xi1 + 2 xi2 + ui )
i=1
n
X n
X n
X
= 1 (xi1 x1 )2 + 2 (xi1 x1 ) xi2 + (xi1 x1 ) ui .
i=1 i=1 i=1

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 43 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: el caso simple (2)

Por tanto, usando que E (ui ) = 0,


Pn
  (xi1 x1 ) xi2
E 1 = 1 + 2 Pi=1 n 2
,
i=1 (xi1 x1 )
por lo que en general 1 est sesgado para estimar 1 .
El cociente que multiplica 2 es el coeficiente de la pendiente de
la regresin de x2 sobre x1 , usando la misma muestra:
x2 = 0 + 1 x1,
y por tanto  
E 1 = 1 + 2 1
y el sesgo de variables omitidas es:
   
Sesgo 1 = E 1 1 = 2 1 .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 44 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: el caso simple (3)

Hay dos casos en los que 1 es insesgado:


1 Si 2 = 0, por lo que x2 no aparece en la ecuacin.
2 Si 1 = 0, es decir la covarianza muestral entre x1 y x2 es cero.
Ya sabemos que si x1 y x2 estn incorrelados muestralmente,
1 = 1 , y 1 es insesgado.
[Sin condicionar en xi2 1 es insesgado si E (x2 |x1 ) = E (x2 ) .]

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 45 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: el caso simple (4)

Signo del sesgo:


   
Sesgo 1 = E 1 1 = 2 1 .

Corr(x1 , x2 ) > 0 Corr(x1 , x2 ) < 0


2 > 0 sesgo positivo sesgo negativo
2 < 0 sesgo negativo sesgo positivo

En general es posible tener idea del signo de 2 , aunque a veces es


ms difcil conocer el de Corr(x1 , x2 ) .
 
Sesgo positivo, E 1 > 1 , sesgo hacia arriba, sobre-estima en
media.  
Sesgo negativo, E 1 < 1 , sesgo hacia abajo, infra-estima en
media.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 46 / 67
Valores esperados de los estimadores MCO
Sesgo por omisin de variables: Ejemplo, ecuacin salarial

WAGE1, n = 526

log (wage) = 0 + 1 educ + 2 abil + u.

Si omitimos abil porque no tenemos datos:


Podemos esperar que 2 > 0.
Y que Corr(x1 , x2 ) > 0.
Por lo que el sesgo ser positivo: 1 sobreestimar en media el
efecto parcial de educacin (porque tambin incluye el efecto
parcial de abil).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 47 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: Ejemplo, test scores

avgscore = 0 + 1 expend + 2 povrate + u.

Si no tenemos datos sobre la tasa de pobreza, povrate,


Podemos esperar que 2 < 0.
Y que Corr(x1 , x2 ) < 0.
Por lo que el sesgo ser positivo.
Puede que 1 = 0, pero en una regresin simple 1 tendr
valores en media positivos y se concluir que el efecto del gasto
es positivo.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 48 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: casos ms generales

Obtener el signo del sesgo cuando hay mltiples regresores es


ms complicado.
Si se omite un slo regresor, resulta en que todos los estimadores
MCO estn sesgados.
Modelo verdadero:

y = 0 + 1 x1 + 2 x2 + 3 x3 + u

y se satisfacen RLM.1-4.
Se omite x3 , y se ajusta

y = 0 + 1 x1 + 2 x2 .

x2 y x3 estn incorrelados, pero x1 est correlado con x3 .


En general 1 y 2 estarn sesgados (excepto cuando x1 y x2
estn incorrelados tambin).
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 49 / 67
Valores esperados de los estimadores MCO
Sesgo por omisin de variables: casos ms generales (2)

Si x1 y x2 estn incorrelados, se puede estudiar el sesgo como si x2


estuviese fuera de la regresin:
Pn
  (xi1 x1 ) xi3
E 1 = 1 + 3 Pi=1 n 2
,
i=1 (xi1 x1 )

por lo que en general 1 est sesgado para estimar 1 .

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 50 / 67


Valores esperados de los estimadores MCO
Sesgo por omisin de variables: Ejemplo, ecuacin salarial

log (wage) = 0 + 1 educ + 2 exper + 3 abil + u.


Si omitimos abil:
Los EMCO de 1 y 2 cuando se omite abil estarn sesgados.
Asumimos que exper y abil estn incorrelados y adems, como
aproximacin, que educ y exper tambin estn incorrelados.
Como 3 > 0 y educ y abil estn correlados positivamente,
entonces 1 tendra un sesgo positivo, al igual que cuando exper
no est en el modelo.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 51 / 67


Varianza de los Estimadores MCO

1 Motivacin para la regresin mltiple

2 Mecnica e Interpretacin de Mnimos Cuadrados Ordinarios

3 Valor esperado de los Estimadores MCO

4 Varianza de los Estimadores MCO

5 Eficiencia de MCO: Teorema de Gauss-Markov

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 52 / 67


Varianza de los Estimadores MCO

Adems de saber que la distribucin muestral de j est centrada,


es importante saber su variabilidad alrededor de j .
Adems de RLM.1-4, aadimos un nuevo supuesto para
simplificar los clculos y obtener resultados de optimalidad.

RLM.5 (Homocedasticidad Condicional): u tiene varianza, condicional en


x1 , . . . , xk constante,

Var (u|x1 , . . . , xk ) = 2 .

Si no se cumple, estamos en presencia de heteroscedasticidad.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 53 / 67


Varianza de los Estimadores MCO

Los supuestos RLM.1-5 se denominan los supuestos de


Gauss-Markov [para datos de seccin cruzada].
RLM.3 y RLM.5 se pueden escribir como, x = (x1 , . . . , xk ) ,

E (y |x) = 0 + 1 x1 + 2 x2 + + k xk
Var (u|x) = 2

Es, junto con RLM.3, ms dbil que el supuesto de


independencia.
2 se le llama la varianza del error o perturbacin.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 54 / 67


Varianza de los estimadores MCO (2)

Teorema 3.2 (Varianzas muestrales de los estimadores MCO de las


pendientes). Bajo supuestos RLM.1-5, condicional en los valores de
las variables independientes,
  2
Var j =   , j = 1, . . . , k
SSTj 1 Rj2

donde
n
X 2
SSTj = xij xj
i=1

es la variacin total de xj , y Rj2 es el R-cuadrado de la regresin de xj


sobre todas las dems variables independientes (y el trmino
constante).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 55 / 67


Varianza de los estimadores MCO (3)
Componentes de la Varianza

 
Varianza del error, 2 : cuanto ms ruido, mayor Var j .
Es una propiedad de la poblacin, no depende de n, y es
desconocido.
La nica forma de reducirlo es introducir ms variables explicativas,
pero eso no es siempre deseable ni posible.

 
Variacin total de xj , SSTj : cuanto mayor, menor Var j .
Es difcil incrementarla, a parte de aumentar n.
SSTj = 0 no est permitido por RLM.4.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 56 / 67


Varianza de los estimadores MCO (4)
Componentes de la Varianza (2)

Relacin lineal entre las variables independientes


 
Rj2 : cuanto mayor, ms alto es Var j . No aparece en
regresin simple.
Si Rj2 est prximo a 1, quiere decir que xj se puede explicar en
gran parte por las otras variables independientes. El caso extremo
Rj2 = 1 no est permitido por RLM.4.
La alta correlacin entre regresores se denomina
multicolinealidad.
La Multicolinealidad aumenta la varianza de los EMCO, como lo
hace una muestra pequea, todo lo dems igual.
Generalmente no hay ms remedio que recoger ms datos,
porque eliminar variables conlleva introducir sesgos.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 57 / 67


Varianza de los estimadores MCO (5)
Componentes de la Varianza (3)

Si hay muchos regresores correlados midiendo el mismo efecto


(diversas clases de gasto en estudiantes), entonces se estimar
el efecto de cada uno con alta varianza inevitablemente.
Por otro lado, si en
y = 0 + 1 x1 + 2 x2 + 3 x3 + u
   
x2 y x3 estn muy correlados, entonces Var 2 y Var 3
sern altas.
Perola 
correlacin entre x2 y x3 no tendr efecto directo sobre
Var 1 :
 
Si x1 est incorrelado con x2 y x3 , entonces Var 1 = 2 /SST1 ,
igual que en regresin simple.
Introducir muchos controles no tiene porqu afectar a la estimacin
del parmetro de inters.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 58 / 67
Varianza de los estimadores MCO (5)
Componentes de la Varianza (3)

Si hay muchos regresores correlados midiendo el mismo efecto


(diversas clases de gasto en estudiantes), entonces se estimar
el efecto de cada uno con alta varianza inevitablemente.
Por otro lado, si en
y = 0 + 1 x1 + 2 x2 + 3 x3 + u
   
x2 y x3 estn muy correlados, entonces Var 2 y Var 3
sern altas.
Perola 
correlacin entre x2 y x3 no tendr efecto directo sobre
Var 1 :
 
Si x1 est incorrelado con x2 y x3 , entonces Var 1 = 2 /SST1 ,
igual que en regresin simple.
Introducir muchos controles no tiene porqu afectar a la estimacin
del parmetro de inters.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 58 / 67
Varianza de los estimadores MCO (6)
Varianzas en modelos mal especificados

Hay un tradeoff entre sesgo y varianza a la hora de decidir si incluir


una variable o no en una regresin.

Modelo verdadero, con supuestos Gauss-Markov,


y = 0 + 1 x1 + 2 x2 + u.
Consideramos dos estimadores:
1 , en regresin mltiple,
y = 0 + 1 x1 + 2 x2 .
1 , en regresin simple,
y = 0 + 1 x1 .
Si 2 6= 0, 1 estar sesgado, por lo que desde el punto de vista
del sesgo, 1 ser preferido.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 59 / 67
Varianza de los estimadores MCO (7)
Varianzas en modelos mal especificados (2)

Otro criterio ms: varianza:


  2
Var 1 =
SST1 1 R12

  2
Var 1 =
SST1
por lo que    
Var 1 < Var 1 ,

a menos que x1 y x2 estn incorrelados en la muestra (igual var).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 60 / 67


Varianza de los estimadores MCO (8)
Varianzas en modelos mal especificados (3)

I Si x1 y x2 NO estn incorrelados:
   
1 Si 2 6= 0, 1 es sesgado, 1 es insesgado y Var 1 < Var 1 .
   
2 Si 2 = 0, 1 y 1 son insesgados y Var 1 < Var 1 .

En caso (2) preferimos 1 : introducimos una variable irrelevante.


El caso (1) es ms complicado: se suele preferir 1 :
Se puede calcular el tamao del sesgo,
  pero este no se reduce al
aumentar n, al contrario que Var 1 .
Adems el clculo condicional en x2 no tiene en cuenta que el
tamao del error en el modelo corto ser mayor ( 2 ).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 61 / 67


Varianza de los estimadores MCO (9)
Estimacin de 2

2 =PE u 2 , por lo que un estimador insesgado de 2 es




n1 ni=1 ui2 .
Como los errores
Pnno son observables, un primer estimador sera
1 1 2
n SSR = n i=1 ui , pero este no es insesgado.
Los residuos ui satisfacen k + 1 restricciones.
Por tanto los residuos tienen n k 1 grados de libertad:

nk 1 = nm. de observaciones nm. de parmetros estimados.

El estimador insesgado de 2 que hace el ajuste por los grados


de libertad es
n
1 X SSR
2 = ui2 = .
nk 1 nk 1
i=1

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 62 / 67


Varianza de los estimadores MCO (10)
Estimacin de 2 (2)

Teorema 3.3. (Estimacin insesgada de 2 ). Bajo las condiciones de


Gauss-Markov RLM.1.5,
 
E 2 = 2 .

Estimador de , o error estndar de regresin, o SER,



= 2 .

puede aumentar o disminuir cuando se incluye una variable


adicional en la regresin.

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 63 / 67


Varianza de los estimadores MCO (11)
Errores estndar de los EMCO

Desviacin estndar de j :
 
sd j = h  i1/2 .
SSTj 1 Rj2

Error estndar de j :
 
se j = h  i1/2 .
SSTj 1 Rj2
 
Slo es vlida en presencia de RLM.5 (hay que cambiar sd j y
 
se j ).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 64 / 67


Eficiencia de MCO: Teorema de Gauss-Markov

1 Motivacin para la regresin mltiple

2 Mecnica e Interpretacin de Mnimos Cuadrados Ordinarios

3 Valor esperado de los Estimadores MCO

4 Varianza de los Estimadores MCO

5 Eficiencia de MCO: Teorema de Gauss-Markov

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 65 / 67


Eficiencia de MCO: Teorema de Gauss-Markov
Justifica la utilizacin de MCO sobre otros mtodos de estimacin.
Una justificacin de MCO: es insesgado bajo RLM.1-4.
Si limitamos la clase de estimadores competidores, entonces
MCO es el mejor.
Bajo RLM.1-5, el estimador j de j ser el estimador lineal
insesgado ptimo (ELIO, BLUE).
Estimador: regla que se aplica a una muestra para producir una
estimacin.
Lineal:
n
X
j = wij yi
i=1
donde wij puede ser una funcin de los valores muestrales de
todas la variables
 independientes.
Insesgado: E j = j .
ptimo: de menor varianza.
C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 66 / 67
Teorema de Gauss-Markov

Teorema 3.4. (Teorema de Gauss-Markov ). Bajo los supuestos


RLM.1-5, 0 , 1 , . . . , k son los estimadores lineales insesgados
ptimos (ELIOs) de 0 , 1 , . . . , k , respectivamente.

Si los supuestos habituales se cumplen en un problema dado, no


necesitamos considerar ningn estimador insesgado de la forma j ,
MCO es el mejor.

Si algn supuesto falla, entonces G-M no se cumple:


Si falla RLM.3, entonces los EMCO dejan de ser insesgados.
Si falla RLM.5, entonces hay estimadores lineales insesgados con
menor varianza que MCO en presencia de heterocedasticidad
(MCG).

C Velasco (MEI, UC3M) Anlisis de Regresin Mltiple: Estimacin UC3M, 2006 67 / 67

S-ar putea să vă placă și