Sunteți pe pagina 1din 34

Regresión Múltiple: Estimación

(SW Capítulo 6)
Esquema

1. Sesgo por variables omitidas


2. El modelo de regresión poblacional múltiple
3. El estimador MCO en la regresión múltiple
4. R2, SER, y R2 para la regresión múltiple
5. Los supuestos de MCO para la Regr. Múltiple
6. La distribución muestral del estimador MCO
7. Multicolinearidad y la trampa de las var. dummy
Motivación

Estimadores MCO de la relación Test Score/STR

Nota: Test Scores = Notas del test, STR=ratio profes/alumnos


1. Sesgo por variables omitidas
(SW Sección 6.1)
El sesgo en el estimador MCO que ocurre como
resultado de un factor omitido se llama sesgo
por variable omitida. Para que esto suceda, el
factor omitido “Z” tiene que ser:
1. un determinante de Y; y
2. estar correlacionado con X.

Ambas condiciones tienen que darse para que


la omisión de “Z” resulte en un sesgo por
variable omitida.
En el ejemplo del test score:

1. Conocimiento del inglés (si el estudiante tiene el inglés


como segundo idioma) probablemente afecta a las notas
estandarizadas: Z es un determinante de Y.
2. La comunidades inmigrantes suelen tener menores
rentas y por lo tanto tienen un presupuesto escolar inferior– y
mayores STR: Z está positivamente correlacionada con X: σXZ
s>0

• De este modo, está sesgado


• ¿Cuál es la dirección del sesgo?
¿Qué sugiere el sentido común?
Si el sentido común te falla, aquí tienes la fórmula…
Fórmula para el sesgo por variable omitida
Y depende de X y de X, por lo que tenemos:
Y = α + X β1 + Z β 2 + u
Si en lugar de estimar esa ecuación, estimamos:
Y = α + X β1 + u ∗ , donde u ∗ = u + Z β2
tenemos que
( )
Cov X,u ∗ = Cov ( X,u + Z β 2 ) = Cov(X,u) + β 2Cov(X, Z )
El primer término es cero por MCO1. El segundo puede no
serlo.
Se puede demostrar que:
p ⎛ σ XZ ⎞
β̂1 → β1 + β 2 ⎜ ⎟ = β1 + β 2ϕ
⎝σ ⎠
XX

Nota: El término divisor es siempre positivo (Por qué?)


Entonces, si un factor omitido Z es al mismo tiempo:
(1) un determinante de y

(2) correlacionado con X,


entonces el estimador MCO es sesgado e
inconsistente.
Los resultados sugieren que distritos con pocos alumnos ESL
(1) lo hacen mejor en tests estandarizados (β2<0) y (2) tienen
clases más reducidas (presupuestos mayores, σZX > 0), así que
ignorar el factor ESL resulta en sobreestimar el efecto del
tamaño de la clase.
Dicho de otro modo, está sesgado hacia abajo:
• Distritos con pocos English Learners (estudiantes de inglés) tienen
notas del test mayores
Distritos con pocos EL (PctEL) tienen clases menores
• Entre distritos con PctEL comparables, el efecto del tamaño de clase es
pequeño (recordad “test score gap” = 7.4)
Tres maneras de resolver el sesgo por variable omitida:

1. Hacer un experimento controlado y aleatorizado en el que


el tratamiento (STR) se asigna aleatoriamente: PctEL seguirá
siendo un determinante de TestScore, pero PctEL no está
correlacionado con STR.

2. Adoptar la aproximación de “tabulación cruzada”, con


gradaciones más refinadas de STR y PctEL (pero nos
quedaremos sin datos pronto, y ¿qué hay de otros
determinantes como la renta familiar y la educación de los
padres?)

3. Usar un método en el que la variable omitida (PctEL) no


esté omitida: incluir PctEL como un regresor adicional en una
regresión múltiple.
2. El Modelo de Regresión Múltiple
(SW Sección 6.2)

Considera el caso de dos regresores:

• X1, X2 son las dos variables independientes (regresores)


• (Yi, X1i, X2i) denotan la iésima observación en Y, X1, y X2.
• β0 = constante (desconocida)
• β 1 = efecto en Y de un cambio en X1, manteniendo X2
constante
• β 2 = efecto en Y de un cambio en X2, manteniendo X1
constante
• ui = “término de error” (factores omitidos)
Interpretación de los coeficientes en una regresión múltiple

Considera un cambio de X1 por ΔX1 manteniendo X2 constante:


El valor de Y antes del cambio:

El valor de Y después del cambio:


Antes:

Después:

Diferencia:
Esto es,
ΔY
β1 =
ΔX1 , manteniendo X 2 constante
También,
ΔY
β2 =
ΔX2 , manteniendo X1 constante

Y
β0 = valor predicho de Y cuando X1 = X2 = 0 .
3. El estimador MCO en la Regresión Múltiple
(SW Sección 6.3)

Con dos regresores, el estimador MCO resuelve:

• El estimador MCO minimiza la media de la diferencia al


cuadrado de los valores reales de Yi y la predicción (valor
predicho) basada en la recta estimada.
• Este problema de minimización se resuelve con cálculo
• El resultado son los estimadores MCO β 0, β 1 y β 2.
Ejemplo: Los datos sobre los Test Scores de California

Regresión de TestScore respecto STR:

Ahora incluimos el porcentaje de English Learners en el


distrito (PctEL):

• ¿Qué pasa con el coeficiente de STR?


• ¿Por qué? (Nota: corr(STR, PctEL) = 0.19)
Regresión Múltiple con STATA:
(i) El modelo MCO en notación
matricial

Ejemplo:

Las letras en negrita indican matrices y vectores:

Así pues,
Lo podemos escribir como
Modelo de regresión múltiple con k regresores en notación
matricial:

(ii) El estimador MCO resuelve:

donde A’ denota la transpuesta de A


Tomando derivadas en ambos lados e igualando a cero:
(date cuenta que hay k ecuaciones)
Reordenando:

Así
La solución del estimador MCO en notación matricial

Nota: X’X es invertible debido a la ausencia de


multicolinearidad.
4. El R2, SER, y para la Regresión Múltiple
(SW Sección 6.4)

Por definición,
Actual = predicho + residuo:

Como en la regresión con un solo regresor, la SER (y la


RMSE) es una medida de la dispersión de las Y’s alrededor de
la recta de regresión:
El R2 es la fracción de la varianza explicada por el modelo:

donde

- del mismo modo que en la regresión con un solo regresor.


• El R2 siempre crece cuando se añade un regresor adicional
- es un problema para medir el “ajuste”
2
• el ( R ajustado) corrige este problema “penalizando” por
incluir otro regresor:
¿Cómo interpretar R2 y ?
2
• Un R (o ) grande significa que los regresores explican
una proporción alta de la variación de Y
• Un R2 (o ) grande no significa que has eliminado el
sesgo por variable omitida.
• Un R2 (o ) grande no significa que tienes un estimador
insesgado de un efecto causal (β1).
• Un R2 (o ) grande no significa que las variables
incluidas son estadísticamente significativas – esto tiene que
determinarse con un test de hipótesis.
5. Los Supuestos de los Mínimos Cuadrados para la
Regresión Múltiple (SW Sección 6.5)

1. La distribución condicional de u dadas las X tiene


esperanza (media) cero, esto es, E(u|X1=x1,…,Xk=xk) = 0
2. (X1i,…,Xki, Yki ), i=1,…,n, son i.i.d.
3. X1,…, Xk y u tienen cuatro momentos:

4. No hay multicolinearidad perfecta.


Supuesto #1: la media condicional de u dadas las X
incluidas es cero.

• Tiene la misma interpretación que en la regresión con un


solo regresor.

• Si una variable omitida (1) pertenece a la ecuación (está en


la u) y (2) está correlacionada con alguna X incluida, entonces
esta condición falla.

• El fallo de esta condición lleva al sesgo por variable omitida

• La solución – si es posible – es incluir la variable omitida


en la regresión.
Supuesto #2: (X1i,…,Xki,Yi), i =1,…,n, son i.i.d.
Esto se cumple automáticamente si los datos son recogidos
mediante muestreo simple aleatorio.

Supuesto #3: cuatro momentos finitos


Este supuesto técnico se cumple automáticamente por
variables con un dominio acotado (test scores, PctEL,
etc.)
Supuesto #4: No hay multicolinearidad perfecta
Multicolinearidad perfecta se da cuando uno de los
regresores es un una función lineal exacta de otros regresores.

Ejemplo: Supón que accidentalmente incluyes STR dos veces:


6. La Distribución Muestral del estimador MCO
(SW Sección 6.6)
Bajo los cuatro supuestos de MCO,
• La distribución exacta (muestra finita) tiene media
var( ) es inversamente proporcional a n; lo mismo para
• Aparte de su media y varianza, la distribución exacta de es muy
complicada

• es consistente (ley de los grandes números)

• se distribuye aproximadamente N(0,1) (CLT)


• Lo mismo para
(iii) Distribución muestral de :

así

Media :

Porque E(u|X) = 0 (MCO#1)


Varianza:
Bajo homoscedasticidad:
y
TCL:
Distribución normal con n grande:

Notas:
• Esta distribución para muestras grandes es la distribución
muestral conjunta de - lo que significa que podemos
abordar la distribución de cualquier combinación lineal de .
• es el elemento (2.3) de la matriz k x k
• la varianza de la combinación lineal, es
7. Multicolinearidad y la trampa de las variables dummy
(SW Sección 6.7)
7.1.Multicolinearidad perfecta es cuando uno de los
regresores es una función lineal exacta de los otros regresores.

• En la regresión previa, β1 es el efecto sobre TestScore de


un cambio unitario en STR, manteniendo STR constante (Sí,
no tiene sentido…)

• Segundo ejemplo: regresión de TestScore en una constante,


D, y B, donde: Di = 1 si STR _ 20, = 0 si no; Bi = 1 si STR
>20, = 0 si no, así pues Bi = 1 – Di y hay multicolinearidad
perfecta

• ¿Habría multicolinearidad perfecta si la constante fuera de


algún modo eliminada (esto es, omitida) de la regresión?
Ejemplo de colinearidad perfecta:

Supongamos que el modelo poblacional es:


Yi = β 0 + β 1X1i + β 2X2i + ui
Entonces el estimador MCO:

Equivalentemente, puede escribirse como:


O

Ahora bien, si x1 es una constante, entonces m11=0 y m12=0,


de modo que
m11m22-m212=0

Así que el estimador MCO no existe.


7.b La trampa de las variables dummy
• A las variables binarias se las suele denominar como
variables dummy.
• Si incluyes un conjunto completo de variables dummy (una
categorización completa y mutuamente excluyente) y una
constante en la regresión, tendrás multicolinearidad perfecta.
Ejemplos:
- hombre y mujer en la regresión de la evaluación del curso.
- Datos sobre estudiantes universitarios: incluyes 4 variables
dummy, primero, segundo, tercero y cuarto curso (y una
constante y probablemente otros regresores)
• Esto se llama la trampa de las variables dummy.
• Soluciones a la trampa de las variables dummy:
- Omitir uno de los grupos (e.g. cuarto curso), o
- Omitir la constante
• ¿Cuáles son las implicaciones de (1) o (2) para la
interpretación de los coeficientes?
7.c Multicolinearidad no perfecta ocurre cuando dos o más
regresores están altamente correlacionados.
Consecuentemente, los coeficientes de estos regresores serán
estimados de forma muy imprecisa. Para el caso especial de
error homoscedástico el efecto puede verse matemáticamente:

La multicolinearidad es una característica de los datos de que


disponemos, MCO y la pregunta que queremos responder.
Como consecuencia, no hay ninguna “solución” a este
problema de coeficientes imprecisamente estimados.
Derivación de

es el elemento (1,1) de

S-ar putea să vă placă și