Analiza Contrafactuala

AACPI, 2022
Modele de analiză contrafactuală- Propensity Score Matching (PSM)
Matching, MatchIt – biblioteci din R care oferă funcții pentru propensity score
matching (modele contrafactuale)
- Bibliotecile oferă funcții pentru a efectua asocierea (Matching-ul) dar și funcții

pentru evaluarea modelului (MatchBalance).
AACPI, 2022
Scopul PSM
- Estimarea efectului net pe care un anumit ”tratament” îl are în medie asupra

unor obiecte/entități
- În cadrul procedurii, fiecare unitate ”tratată” este comparată cu un număr de
unități ”netratate” similare celor din primul grup din punct de vedere al altor
caracteristici (covariate)
- Efectul mediu este estimat pe baza mediei diferențelor înregistrate de variabila
dependentă între unitățile tratate și netratate
- Suntem interesați să estimăm efectul mediu pe care un tratament (variabilă
binară) îl are asupra unei variabile rezultat
AACPI, 2022
VARIABILA TRATAMENT – variabilă binară
ti=0 (control)
ti=1(tratament)
VARIABILE EXOGENE, CONTROL (pre tratament)- X (caracteristici ale unităţilor

analizate) (covariates)
xi- vector al variabilelor exogene de control pentru unitatea i
VARIABILA REZULTAT – y (asupra căreia se manifestă efectul tratamentului)
n1 (unităţi tratate)+n0 (unităţi de control)= n

AACPI, 2022
Pentru unitatea i din cele n unități se folosesc notațiile
yi(0) – valoarea variabilei rezultat dacă nu se aplică tratamentul
yi(1) - valoarea variabilei rezultat dacă se aplică tratamentul
Efectul tratamentului pentru individul i:

AACPI, 2022
Evaluare
„BALANCE” – distribuţiile variabilelor X trebuie să fie aceleaşi în cele 2 grupuri
Vom evalua cât de asemănătoare sunt distribuţiile empirice ale variabilelor X în cele 2
grupuri
AACPI, 2022
Proceduri de matching
- Propensity Score Matching

- Matching exact- pentru fiecare unitate tratată se caută toate unităţile de control
care au aceleaşi valori pentru variabilele X
- Subclasificare- distribuţia variabilelor X să fie similară în cele 2 grupuri
- Cel mai apropiat vecin- se selectează r unităţi de control asemănătoare cu
unitatea tratată (distanţă- logit)
- Matching bazat pe algoritmi genetici (biblioteca Matching)
AACPI, 2022
- Metodele de matching bazate pe un scor de propensitate folosesc regresia

logistică pentru a obține acest scor
- Modelul lui Rubin conceptualizează inferența cauzală în termeni de output
potențial în condiții de tratament și control ( doar una dintre situații este
observată pentru fiecare unitate)
- PSM implică asocierea fiecărei unități tratate cu cele mai apropiate unități din
setul de control
! Matchingul nu se face pe baza probabilității ci pe baza predictorului liniar (a cărui

distribuție este de cele mai multe ori aproape normală)
AACPI, 2022
Exemplu
Setul de date lalonde
lalonde {Matching}
Care este efectul net al tratamentului (participarea la curs) asupra salariului (re78)?
• Variabila treat=1 dacă individual a participat la curs (aparține grupului de tratament)

• Variabila treat=0 (indivizii din grupul de control)
• Y=re78
• Covariate: age, educ, black, hisp, married, nodegr
AACPI, 2022
# Scorul de propensitate se estimează cu regresie logistică

scor <- glm(treat~age+educ+black+hisp+married+nodegr,family = binomial, data=lalonde)
# Impactul se obține cu funcția Match()
psm <- Match(Y = lalonde$re78, Tr = lalonde$treat, X = scor$fitted)
summary(psm)
Efectul net al participării la curs este semnificativ statistic.
Se estimează un efect net de 2302 u.m.= diferența între

salariul real pentru cei din grupul de tratament comparativ
cu cei din grupul de control dupa efectuarea matchingului.
Toate unitățile din grupul de tratament au fost păstrate.
Estimate... 2302
AI SE...... 764.97
T-stat..... 3.0093
p.val...... 0.0026187
Original number of observations.............. 445

Original number of treated obs............... 185
Matched number of observations............... 185
Matched number of observations (unweighted). 492
Number of obs dropped by 'exact' or 'caliper' 0

AACPI, 2022
Testarea similitudinii distribuțiilor variabilelor X se realizează cu funcția MatchBalance()

MatchBalance(treat ~ scor$fitted+age+educ+black+hisp+married+nodegr,
match.out = psm, nboots = 1000, data = lalonde)
***** (V1) scor$fitted *****

Before Matching After Matching
mean treatment........ 0.43498 0.43498
mean control.......... 0.40203 0.43472
std mean diff......... 35.947 0.29087
mean raw eQQ diff..... 0.033714 0.00071242
med raw eQQ diff..... 0.021248 0
max raw eQQ diff..... 0.10815 0.049954
mean eCDF diff........ 0.10351 0.0024955
med eCDF diff........ 0.12963 0.0020325
max eCDF diff........ 0.16757 0.03252
var ratio (Tr/Co)..... 1.1411 1.019
T-test p-value........ 0.0001457 0.42198

AACPI, 2022
KS Bootstrap p-value.. 0.002 0.921
KS Naive p-value...... 0.0046219 0.95714
KS Statistic.......... 0.16757 0.03252
Pentru variabila scor de propensitate , constatăm că procedura de matching are ca efect echilibrarea
distribuțiilor aferente celor două grupuri. Toate statisticile calculate și testele utilizate indică o reducere a
diferențelor existente între grupul de control și cel de tratament în cee ace privește distribuția variabilei.
În plus, pe lângă aceste statistici, se apelează la grafice care permit compararea celor două distribuții.
De exemplu, grafice de tip Quantile- Quantile plot (Q-Q plot). Un punct din acest grafic este de
coordonate:
(cuantila de ordin p estimată pentru prima distribuție , cuantila de ordin p estimată pentru a doua
distribuție).
AACPI, 2022
QQ plot pentru variabila “age” după matching QQ plot pentru variabila “age” înainte de matching
AACPI, 2022
AACPI, 2022

Analiza Contrafactuala

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Analiza Contrafactuala

Încărcat de

Drepturi de autor:

Formate disponibile

AACPI, 2022

Modele de analiză contrafactuală- Propensity Score Matching (PSM)

- Bibliotecile oferă funcții pentru a efectua asocierea (Matching-ul) dar și funcții

- Estimarea efectului net pe care un anumit ”tratament” îl are în medie asupra

VARIABILA TRATAMENT – variabilă binară

VARIABILE EXOGENE, CONTROL (pre tratament)- X (caracteristici ale unităţilor

xi- vector al variabilelor exogene de control pentru unitatea i

VARIABILA REZULTAT – y (asupra căreia se manifestă efectul tratamentului)

n1 (unităţi tratate)+n0 (unităţi de control)= n

Pentru unitatea i din cele n unități se folosesc notațiile

yi(0) – valoarea variabilei rezultat dacă nu se aplică tratamentul

yi(1) - valoarea variabilei rezultat dacă se aplică tratamentul

Efectul tratamentului pentru individul i:

„BALANCE” – distribuţiile variabilelor X trebuie să fie aceleaşi în cele 2 grupuri

- Propensity Score Matching

- Metodele de matching bazate pe un scor de propensitate folosesc regresia

! Matchingul nu se face pe baza probabilității ci pe baza predictorului liniar (a cărui

• Variabila treat=1 dacă individual a participat la curs (aparține grupului de tratament)

# Scorul de propensitate se estimează cu regresie logistică

# Impactul se obține cu funcția Match()

psm <- Match(Y = lalonde$re78, Tr = lalonde$treat, X = scor$fitted)

Efectul net al participării la curs este semnificativ statistic.

Se estimează un efect net de 2302 u.m.= diferența între

Toate unitățile din grupul de tratament au fost păstrate.

Original number of observations.............. 445

Number of obs dropped by 'exact' or 'caliper' 0

Testarea similitudinii distribuțiilor variabilelor X se realizează cu funcția MatchBalance()

match.out = psm, nboots = 1000, data = lalonde)

***** (V1) scor$fitted *****

mean treatment........ 0.43498 0.43498

mean control.......... 0.40203 0.43472

std mean diff......... 35.947 0.29087

mean raw eQQ diff..... 0.033714 0.00071242

med raw eQQ diff..... 0.021248 0

max raw eQQ diff..... 0.10815 0.049954

mean eCDF diff........ 0.10351 0.0024955

med eCDF diff........ 0.12963 0.0020325

max eCDF diff........ 0.16757 0.03252

var ratio (Tr/Co)..... 1.1411 1.019

T-test p-value........ 0.0001457 0.42198

KS Bootstrap p-value.. 0.002 0.921

KS Naive p-value...... 0.0046219 0.95714

KS Statistic.......... 0.16757 0.03252

S-ar putea să vă placă și

* (V1) scor$fitted *