Sunteți pe pagina 1din 12

10/05/2017

MATCHING
Exogeneidad, matching y regresión múltiple:

• Experimentos no siempre posibles (coste, ética…)


• Observaciones de la realidad no cumplen supuesto
independencia
• Supuesto menos exigente: independencia condicionada
en características

(Y1 ,Y0 | X )  D

62

Independencia condicional implica:

E (Y1 | D  1, X )  E (Y1 | X )  E (Y | D  1, X )
E (Y0 | D  0, X )  E (Y0 | X )  E (Y | D  0, X )

Es decir, la media del resultado para tratados, si se tratan, es igual a la


media resultado para población de las mismas características, si se
tratase. Lo mismo para no tratados
Es como si calculásemos un efecto medio del tratamiento para cada
grupo de individuos. Para obtener efecto medio del tratamiento sobre
toda la población, agregamos, ponderando por peso de cada grupo o
celda
 ATE  E (Y 1  Y 0)   E (Y1  Y0 | X ) dF ( X )   E (Y1 | X )  E (Y0 | X ) dF ( X )

O, lo que es lo mismo:
 ATE   E (Y | D  1, X )  E (Y | D  0, X ) d F ( X )

63

1
10/05/2017

Matching vs regresión múltiple

• Método en ambos casos: estimación de


medias (esperanzas) para tratados y controles
• Objetivo diferente:
– En regresión múltiple: estimación de parámetros
para extrapolar
– En matching: estimación de un valor único, no
extrapolable

64

En regresión múltiple estimaríamos:

Y   D  X  DX

Tomando esperanzas condicionadas en D= 1 y D=0, la diferencia entre tratados y


controles sería, para cada grupo o celda:
E(Y | D  1, X )  E(Y | D  0, X )    X

Si queremos el efecto medio del tratamiento sobre toda la población:

 ATE    E (X )
Y, si lo queremos sólo sobre los tratados:

 ATT    E ( X | D  1)
El hecho de haber estimado los parámetros δ y β nos permite calcular αATE y
αATT para otras muestras

65

2
10/05/2017

La condición de soporte común o de


solapamiento (overlap)

• Es una condición necesaria para aplicar métodos de


matching
• Supongamos que clasificamos de acuerdo a valores de
una sola característica X, que se toma valores en el
intervalo [Xmin, Xmax]
• Tomamos dos valores X0 y X1, tales que: Xmin<X0<X1<Xmax
• Tratados y controles son diferentes, de forma que para
los tratados X sólo toma valores entre Xmin y X1, y para los
controles entre X0 y Xmax

66

67

3
10/05/2017

Para calcular αATE (efecto medio del tratamiento para toda la


población) necesitaríamos solapamiento completo. Es raro que
ocurra.
Tratados y controles suelen tener características diferentes, lo cual
tiene consecuencias para los métodos de matching y también para
la regresión múltiple

Supongamos la misma distribución de tratados y controles,


respecto a X que antes.
Supongamos también que aplicamos un tratamiento que no tiene
ningún efecto:

Y0  E (Y | D  0)  Y1  E (Y | D  1)

68

Distribución del resultado según características para los


controles, y distribución de los controles según característica X

69

4
10/05/2017

Distribución del resultado según características para los


tratados, y distribución de los tratados según característica X

70

Comentarios sobre el supuesto de


independencia condicional
• Soporte común e independencia:
– Si hay independencia, no debería haber soporte
común
– Si hay soporte común, probablemente no habrá
independencia
• Elección de características X:
– Con apoyo de teoría económica
– Trade-off soporte común-independencia: a más X,
más aseguramos independencia, pero menos
soporte común
71

5
10/05/2017

Imputación de resultados
• Tenemos J grupos de individuos, y dentro de cada grupo hay tratados y
controles
• El efecto medio del tratamiento que estimamos usando características
es:

 J
Nj
 ATE   (Y1  Y0 )
j j

j 1 N
Y la estimación del efecto medio sobre los tratados sería:

 J
N1j
 ATT   (Y1  Y0 )
j j

j 1 N1

72

Imputación de resultados
En realidad, lo que queremos estimar es:

1 Pero nos falta Y0i (el resultado que


 ATT   (Y
i / D 1
1i  Y0i )
N1 tendría un individuo tratado si no
hubiese recibido tratamiento),
porque no lo observamos

Al calcular diferencias en las medias



por grupos de características, en
1
 ATT   (Y 1i  Y0( j ) )
N1
realidad estamos imputando a cada
i / D 1 tratado, como resultado potencial, la
media de los resultados observados
de los controles con sus mismas
características
73

6
10/05/2017

Problema: ¿Y si hay tantas características diferentes, o éstas toman


tantos valores diferentes (por ejemplo, son continuas) que
tenemos tantas celdas que nos quedamos con muchas vacías?
(incluso podría haber más celdas que observaciones)

Sigue siendo necesaria alguna imputación de resultado potencial a


los tratados. Cambia la forma de imputar. Buscaremos individuos
“parecidos” en sus características, no idénticos. Métodos de
imputación:
 Suavizado: Kernel
 Matching estrictamente: vecino más próximo
 Propensity score

74

Kernel
Una generalización del caso discreto anterior es:

1

j (i )
Yo   (x  x j )Yk
  ( xk  x j )
k
 
k D 0
kD 0

1 si xk = xj
donde  ( xk  x j ) 
0 si xk ≠ xj

Hemos calculado una media ponderada de los resultados de todos los


controles, donde ponderamos con 1 a los que tienen iguales
características y con 0 a los que no. Ponderación extrema

75

7
10/05/2017

Kernel
Un Kernel es lo mismo, pero con otra ponderación no tan extrema,
que debe ser mayor para los individuos más parecidos y menor
para los menos parecidos. Es como una función de densidad con
media xi, en vez de densidad da una ponderación
γ es el “ancho de banda”, desviación típica: cuanto menor sea, más
comprimida la distribución (cuanto mayor sea la muestra, menor
será γ)
xk  x j
j (i )

 
Y K(
k D  0
k

)
Y 
xk  x j
0


 
K(
k D  0 
)

Característica: se usan todos los controles para cada tratado

76

Vecino más próximo


• Consiste en elegir para cada tratado el control con características
más parecidas
• Hay que escoger alguna función de distancia
║Xi - Xk║
• El vecino más próximo puede estar realmente “lejos”
– Se puede escoger una distancia máxima:
║Xi - Xk║ < ε
– Se puede ponderar la distancia por la inversa de la desviación
típica
• Se puede escoger un solo vecino o un conjunto de ellos, y usar la
media como imputación
• Discrecionalidad: elección función distancia y número de vecinos

77

8
10/05/2017

Propensity score
Definición: propensity score es la probabilidad de un individuo de
recibir tratamiento, dadas sus características:

( x)  Pr(D  1 | X  x)

En métodos experimentales, el PS lo fija el investigador


En métodos no experimentales, se puede inferir a partir de los datos. Si hay
muchas características, o éstas son continuas, se calcularía un probit o logit
de D contra X
Resultado fundamental: si el supuesto de independencia se cumple
condicionado a características, también se cumple condicionado al ps
(Y1 ,Y0 )  D | X  (Y1 ,Y0 )  D | ( x)

78

Propensity score
Teniendo el propensity score, se utiliza como característica única para estimar
el efecto medio del tratamiento (efecto causal) para cada valor del ps:

 
E Y1  Y0 |  ( x)    E (Y | D  1,  ( x)   )  E (Y | D  0,  ( x)   )

Para tener αATE calculamos la media ponderada por la distribución del ps


sobre toda la población, para αATT, la media ponderada por la
distribución del ps, condicionada a D = 1 (sólo para los tratados)
Se puede usar el ps para buscar el vecino más próximo, o con las
técnicas Kernel de suavizado
La condición de soporte común debe cumplirse ahora, no sobre las
características, sino sobre el ps

79

9
10/05/2017

Consideraciones sobre el propensity score

• No es una variable observable, a no ser que tengamos


pocas características y discretas. En caso contrario, hay
que estimarlo mediante probit o logit, métodos
paramétricos, que acarrean los problemas que tratamos
de evitar.
• Ventaja: permite establecer los términos de la
comparación entre tratados y controles sin utilizar los
resultados potenciales

80

Consideraciones sobre el propensity score

• La independencia condicional es supuesto sine qua non. No hay


contrastes específicos para independencia condicional. A veces se
pueden hacer contrastes “intuitivos” o indirectos

– Si tenemos observaciones de tres tipos de individuos: no


elegibles para el tratamiento y elegibles, de los cuales unos se
han tratado y otros no, podemos calcular efecto del tratamiento
entre no elegibles y elegibles no tratados. Si sale distinto de
cero, es que no hay independencia condicional
– Si tenemos observaciones de variables de resultados antes del
tratamiento (sabemos si antes estaban empleados o no, por
ejemplo), podemos calcular efecto del tratamiento antes del
tratamiento. Si sale distinto de cero, es que no hay
independencia condicional

81

10
10/05/2017

Consideraciones sobre el propensity score

• Sigue siendo importante el soporte común, y el ps es un


buen instrumento
• Se suelen presentar histogramas del ps para los tratados
y para los controles emparejados. Deben salir parecidos
(balancing)
• Si salen distintos, es que hay problemas de soporte
común (tratados y controles tienen características muy
diferentes)
• Que las distribuciones del ps estén equilibradas o no, no
constituye evidencia ni a favor ni en contra de la
independencia condicional

82

Ejemplo: incentivos monetarios y


escolarización en el Reino Unido
Preocupación: elevada incidencia del abandono escolar al acabar el período
obligatorio. Posibles causas:
Falta de información sobre ventajas de continuar con la educación
Problemas financieros de las familias
• Programa: Education Maintenance Allowance (EMA)
• El programa piloto se inicio en sept. 1999.
• Retribución para aquellos jóvenes de 16-18 años que permanezcan en el
sistema educativo a tiempo completo (después de 11 cursos obligatorios):
30-40£ semanales, y un bonus final en función de los resultados escolares
de 140£.
• Eligibilidad: renta familiar por debajo de 13000£, retribución máxima. Por
encima de 30000£, no elegible.
• Dearden, Emmerson, Frayne & Meghir (2002) participaron en el diseño
piloto y realizaron la evaluación

83

11
10/05/2017

Ejemplo: incentivos monetarios y


escolarización en el Reino Unido
EMA aumentó la participación escolar en el curso 12º en
5.9% para los individuos elegibles.

Tratamiento: se inició en 1999 en 10 distritos escolares.

84

Ejemplo: incentivos monetarios y


escolarización en el Reino Unido

• Variable resultado: Y = 1 (hijo escolarizado), Y = 0 (hijo abandona)

• Comparaciones posibles: tratados contra no tratados, tratados con


subsidio completo contra tratados con subsidio parcial

• Método: calcular ps e imputar resultado contrafactual (Y0 para los


tratados) mediante regresión Kernel

• Encuentran problemas de soporte común

• Resultado: 5,9 puntos más de participación para los elegibles, y 3,7


para toda la muestra

85

12

S-ar putea să vă placă și