Teoría Matching

10/05/2017
MATCHING
Exogeneidad, matching y regresión múltiple:
• Experimentos no siempre posibles (coste, ética…)

• Observaciones de la realidad no cumplen supuesto
independencia
• Supuesto menos exigente: independencia condicionada
en características
(Y1 ,Y0 | X )  D
62
Independencia condicional implica:
E (Y1 | D  1, X )  E (Y1 | X )  E (Y | D  1, X )
E (Y0 | D  0, X )  E (Y0 | X )  E (Y | D  0, X )
Es decir, la media del resultado para tratados, si se tratan, es igual a la

media resultado para población de las mismas características, si se
tratase. Lo mismo para no tratados
Es como si calculásemos un efecto medio del tratamiento para cada
grupo de individuos. Para obtener efecto medio del tratamiento sobre
toda la población, agregamos, ponderando por peso de cada grupo o
celda
 ATE  E (Y 1  Y 0)   E (Y1  Y0 | X ) dF ( X )   E (Y1 | X )  E (Y0 | X ) dF ( X )
O, lo que es lo mismo:
 ATE   E (Y | D  1, X )  E (Y | D  0, X ) d F ( X )
63
1
10/05/2017
Matching vs regresión múltiple
• Método en ambos casos: estimación de

medias (esperanzas) para tratados y controles
• Objetivo diferente:
– En regresión múltiple: estimación de parámetros
para extrapolar
– En matching: estimación de un valor único, no
extrapolable
64
En regresión múltiple estimaríamos:
Y   D  X  DX
Tomando esperanzas condicionadas en D= 1 y D=0, la diferencia entre tratados y

controles sería, para cada grupo o celda:
E(Y | D  1, X )  E(Y | D  0, X )    X
Si queremos el efecto medio del tratamiento sobre toda la población:
 ATE    E (X )
Y, si lo queremos sólo sobre los tratados:
 ATT    E ( X | D  1)
El hecho de haber estimado los parámetros δ y β nos permite calcular αATE y
αATT para otras muestras
65
2
10/05/2017
La condición de soporte común o de

solapamiento (overlap)
• Es una condición necesaria para aplicar métodos de

matching
• Supongamos que clasificamos de acuerdo a valores de
una sola característica X, que se toma valores en el
intervalo [Xmin, Xmax]
• Tomamos dos valores X0 y X1, tales que: Xmin<X0<X1<Xmax
• Tratados y controles son diferentes, de forma que para
los tratados X sólo toma valores entre Xmin y X1, y para los
controles entre X0 y Xmax
66
67
3
10/05/2017
Para calcular αATE (efecto medio del tratamiento para toda la

población) necesitaríamos solapamiento completo. Es raro que
ocurra.
Tratados y controles suelen tener características diferentes, lo cual
tiene consecuencias para los métodos de matching y también para
la regresión múltiple
Supongamos la misma distribución de tratados y controles,

respecto a X que antes.
Supongamos también que aplicamos un tratamiento que no tiene
ningún efecto:
Y0  E (Y | D  0)  Y1  E (Y | D  1)
68
Distribución del resultado según características para los

controles, y distribución de los controles según característica X
69
4
10/05/2017
Distribución del resultado según características para los

tratados, y distribución de los tratados según característica X
70
Comentarios sobre el supuesto de

independencia condicional
• Soporte común e independencia:
– Si hay independencia, no debería haber soporte
común
– Si hay soporte común, probablemente no habrá
independencia
• Elección de características X:
– Con apoyo de teoría económica
– Trade-off soporte común-independencia: a más X,
más aseguramos independencia, pero menos
soporte común
71
5
10/05/2017
Imputación de resultados
• Tenemos J grupos de individuos, y dentro de cada grupo hay tratados y
controles
• El efecto medio del tratamiento que estimamos usando características
es:
 J
Nj
 ATE   (Y1  Y0 )
j j
j 1 N
Y la estimación del efecto medio sobre los tratados sería:
 J
N1j
 ATT   (Y1  Y0 )
j j
j 1 N1
72
Imputación de resultados
En realidad, lo que queremos estimar es:
1 Pero nos falta Y0i (el resultado que

 ATT   (Y
i / D 1
1i  Y0i )
N1 tendría un individuo tratado si no
hubiese recibido tratamiento),
porque no lo observamos
Al calcular diferencias en las medias


por grupos de características, en
1
 ATT   (Y 1i  Y0( j ) )
N1
realidad estamos imputando a cada
i / D 1 tratado, como resultado potencial, la
media de los resultados observados
de los controles con sus mismas
características
73
6
10/05/2017
Problema: ¿Y si hay tantas características diferentes, o éstas toman

tantos valores diferentes (por ejemplo, son continuas) que
tenemos tantas celdas que nos quedamos con muchas vacías?
(incluso podría haber más celdas que observaciones)
Sigue siendo necesaria alguna imputación de resultado potencial a

los tratados. Cambia la forma de imputar. Buscaremos individuos
“parecidos” en sus características, no idénticos. Métodos de
imputación:
 Suavizado: Kernel
 Matching estrictamente: vecino más próximo
 Propensity score
74
Kernel
Una generalización del caso discreto anterior es:
1

j (i )
Yo   (x  x j )Yk
  ( xk  x j )
k
 
k D 0
kD 0
1 si xk = xj
donde  ( xk  x j ) 
0 si xk ≠ xj
Hemos calculado una media ponderada de los resultados de todos los

controles, donde ponderamos con 1 a los que tienen iguales
características y con 0 a los que no. Ponderación extrema
75
7
10/05/2017
Kernel
Un Kernel es lo mismo, pero con otra ponderación no tan extrema,
que debe ser mayor para los individuos más parecidos y menor
para los menos parecidos. Es como una función de densidad con
media xi, en vez de densidad da una ponderación
γ es el “ancho de banda”, desviación típica: cuanto menor sea, más
comprimida la distribución (cuanto mayor sea la muestra, menor
será γ)
xk  x j
j (i )

 
Y K(
k D  0
k

)
Y 
xk  x j
0

 
K(
k D  0 
)
Característica: se usan todos los controles para cada tratado
76
Vecino más próximo

• Consiste en elegir para cada tratado el control con características
más parecidas
• Hay que escoger alguna función de distancia
║Xi - Xk║
• El vecino más próximo puede estar realmente “lejos”
– Se puede escoger una distancia máxima:
║Xi - Xk║ < ε
– Se puede ponderar la distancia por la inversa de la desviación
típica
• Se puede escoger un solo vecino o un conjunto de ellos, y usar la
media como imputación
• Discrecionalidad: elección función distancia y número de vecinos
77
8
10/05/2017
Propensity score
Definición: propensity score es la probabilidad de un individuo de
recibir tratamiento, dadas sus características:
( x)  Pr(D  1 | X  x)
En métodos experimentales, el PS lo fija el investigador

En métodos no experimentales, se puede inferir a partir de los datos. Si hay
muchas características, o éstas son continuas, se calcularía un probit o logit
de D contra X
Resultado fundamental: si el supuesto de independencia se cumple
condicionado a características, también se cumple condicionado al ps
(Y1 ,Y0 )  D | X  (Y1 ,Y0 )  D | ( x)
78
Propensity score
Teniendo el propensity score, se utiliza como característica única para estimar
el efecto medio del tratamiento (efecto causal) para cada valor del ps:
 
E Y1  Y0 |  ( x)    E (Y | D  1,  ( x)   )  E (Y | D  0,  ( x)   )
Para tener αATE calculamos la media ponderada por la distribución del ps

sobre toda la población, para αATT, la media ponderada por la
distribución del ps, condicionada a D = 1 (sólo para los tratados)
Se puede usar el ps para buscar el vecino más próximo, o con las
técnicas Kernel de suavizado
La condición de soporte común debe cumplirse ahora, no sobre las
características, sino sobre el ps
79
9
10/05/2017
Consideraciones sobre el propensity score
• No es una variable observable, a no ser que tengamos

pocas características y discretas. En caso contrario, hay
que estimarlo mediante probit o logit, métodos
paramétricos, que acarrean los problemas que tratamos
de evitar.
• Ventaja: permite establecer los términos de la
comparación entre tratados y controles sin utilizar los
resultados potenciales
80
• La independencia condicional es supuesto sine qua non. No hay

contrastes específicos para independencia condicional. A veces se
pueden hacer contrastes “intuitivos” o indirectos
– Si tenemos observaciones de tres tipos de individuos: no

elegibles para el tratamiento y elegibles, de los cuales unos se
han tratado y otros no, podemos calcular efecto del tratamiento
entre no elegibles y elegibles no tratados. Si sale distinto de
cero, es que no hay independencia condicional
– Si tenemos observaciones de variables de resultados antes del
tratamiento (sabemos si antes estaban empleados o no, por
ejemplo), podemos calcular efecto del tratamiento antes del
tratamiento. Si sale distinto de cero, es que no hay
81
10
10/05/2017
• Sigue siendo importante el soporte común, y el ps es un

buen instrumento
• Se suelen presentar histogramas del ps para los tratados
y para los controles emparejados. Deben salir parecidos
(balancing)
• Si salen distintos, es que hay problemas de soporte
común (tratados y controles tienen características muy
diferentes)
• Que las distribuciones del ps estén equilibradas o no, no
constituye evidencia ni a favor ni en contra de la
82
Ejemplo: incentivos monetarios y

escolarización en el Reino Unido
Preocupación: elevada incidencia del abandono escolar al acabar el período
obligatorio. Posibles causas:
Falta de información sobre ventajas de continuar con la educación
Problemas financieros de las familias
• Programa: Education Maintenance Allowance (EMA)
• El programa piloto se inicio en sept. 1999.
• Retribución para aquellos jóvenes de 16-18 años que permanezcan en el
sistema educativo a tiempo completo (después de 11 cursos obligatorios):
30-40£ semanales, y un bonus final en función de los resultados escolares
de 140£.
• Eligibilidad: renta familiar por debajo de 13000£, retribución máxima. Por
encima de 30000£, no elegible.
• Dearden, Emmerson, Frayne & Meghir (2002) participaron en el diseño
piloto y realizaron la evaluación
83
11
10/05/2017

EMA aumentó la participación escolar en el curso 12º en
5.9% para los individuos elegibles.
Tratamiento: se inició en 1999 en 10 distritos escolares.
84

• Variable resultado: Y = 1 (hijo escolarizado), Y = 0 (hijo abandona)
• Comparaciones posibles: tratados contra no tratados, tratados con

subsidio completo contra tratados con subsidio parcial
• Método: calcular ps e imputar resultado contrafactual (Y0 para los

tratados) mediante regresión Kernel
• Encuentran problemas de soporte común
• Resultado: 5,9 puntos más de participación para los elegibles, y 3,7

para toda la muestra
85
12

Teoría Matching

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Teoría Matching

Încărcat de

Drepturi de autor:

Formate disponibile

10/05/2017

• Experimentos no siempre posibles (coste, ética…)

Independencia condicional implica:

Es decir, la media del resultado para tratados, si se tratan, es igual a la

Matching vs regresión múltiple

• Método en ambos casos: estimación de

En regresión múltiple estimaríamos:

Tomando esperanzas condicionadas en D= 1 y D=0, la diferencia entre tratados y

Si queremos el efecto medio del tratamiento sobre toda la población:

La condición de soporte común o de

• Es una condición necesaria para aplicar métodos de

Para calcular αATE (efecto medio del tratamiento para toda la

Supongamos la misma distribución de tratados y controles,

Distribución del resultado según características para los

Distribución del resultado según características para los

Comentarios sobre el supuesto de

1 Pero nos falta Y0i (el resultado que

Al calcular diferencias en las medias

Problema: ¿Y si hay tantas características diferentes, o éstas toman

Sigue siendo necesaria alguna imputación de resultado potencial a

Hemos calculado una media ponderada de los resultados de todos los

Característica: se usan todos los controles para cada tratado

Vecino más próximo

En métodos experimentales, el PS lo fija el investigador

Para tener αATE calculamos la media ponderada por la distribución del ps

Consideraciones sobre el propensity score

• No es una variable observable, a no ser que tengamos

Consideraciones sobre el propensity score

• La independencia condicional es supuesto sine qua non. No hay

– Si tenemos observaciones de tres tipos de individuos: no

Consideraciones sobre el propensity score

• Sigue siendo importante el soporte común, y el ps es un

Ejemplo: incentivos monetarios y

Ejemplo: incentivos monetarios y

Tratamiento: se inició en 1999 en 10 distritos escolares.

Ejemplo: incentivos monetarios y

• Variable resultado: Y = 1 (hijo escolarizado), Y = 0 (hijo abandona)

• Comparaciones posibles: tratados contra no tratados, tratados con

• Método: calcular ps e imputar resultado contrafactual (Y0 para los

• Encuentran problemas de soporte común

• Resultado: 5,9 puntos más de participación para los elegibles, y 3,7

S-ar putea să vă placă și