Sunteți pe pagina 1din 14

AACPI, 2022

Modele de analiză contrafactuală- Propensity Score Matching (PSM)

Matching, MatchIt – biblioteci din R care oferă funcții pentru propensity score
matching (modele contrafactuale)

- Bibliotecile oferă funcții pentru a efectua asocierea (Matching-ul) dar și funcții


pentru evaluarea modelului (MatchBalance).
AACPI, 2022

Scopul PSM

- Estimarea efectului net pe care un anumit ”tratament” îl are în medie asupra


unor obiecte/entități
- În cadrul procedurii, fiecare unitate ”tratată” este comparată cu un număr de
unități ”netratate” similare celor din primul grup din punct de vedere al altor
caracteristici (covariate)
- Efectul mediu este estimat pe baza mediei diferențelor înregistrate de variabila
dependentă între unitățile tratate și netratate
- Suntem interesați să estimăm efectul mediu pe care un tratament (variabilă
binară) îl are asupra unei variabile rezultat
AACPI, 2022

VARIABILA TRATAMENT – variabilă binară

ti=0 (control)

ti=1(tratament)

VARIABILE EXOGENE, CONTROL (pre tratament)- X (caracteristici ale unităţilor


analizate) (covariates)

xi- vector al variabilelor exogene de control pentru unitatea i

VARIABILA REZULTAT – y (asupra căreia se manifestă efectul tratamentului)

n1 (unităţi tratate)+n0 (unităţi de control)= n


AACPI, 2022

Pentru unitatea i din cele n unități se folosesc notațiile

yi(0) – valoarea variabilei rezultat dacă nu se aplică tratamentul

yi(1) - valoarea variabilei rezultat dacă se aplică tratamentul

Efectul tratamentului pentru individul i:


AACPI, 2022

Evaluare

„BALANCE” – distribuţiile variabilelor X trebuie să fie aceleaşi în cele 2 grupuri

Vom evalua cât de asemănătoare sunt distribuţiile empirice ale variabilelor X în cele 2
grupuri
AACPI, 2022

Proceduri de matching

- Propensity Score Matching


- Matching exact- pentru fiecare unitate tratată se caută toate unităţile de control
care au aceleaşi valori pentru variabilele X
- Subclasificare- distribuţia variabilelor X să fie similară în cele 2 grupuri
- Cel mai apropiat vecin- se selectează r unităţi de control asemănătoare cu
unitatea tratată (distanţă- logit)
- Matching bazat pe algoritmi genetici (biblioteca Matching)
AACPI, 2022

- Metodele de matching bazate pe un scor de propensitate folosesc regresia


logistică pentru a obține acest scor
- Modelul lui Rubin conceptualizează inferența cauzală în termeni de output
potențial în condiții de tratament și control ( doar una dintre situații este
observată pentru fiecare unitate)
- PSM implică asocierea fiecărei unități tratate cu cele mai apropiate unități din
setul de control

! Matchingul nu se face pe baza probabilității ci pe baza predictorului liniar (a cărui


distribuție este de cele mai multe ori aproape normală)
AACPI, 2022

Exemplu
Setul de date lalonde
lalonde {Matching}

Care este efectul net al tratamentului (participarea la curs) asupra salariului (re78)?

• Variabila treat=1 dacă individual a participat la curs (aparține grupului de tratament)


• Variabila treat=0 (indivizii din grupul de control)
• Y=re78
• Covariate: age, educ, black, hisp, married, nodegr
AACPI, 2022

# Scorul de propensitate se estimează cu regresie logistică


scor <- glm(treat~age+educ+black+hisp+married+nodegr,family = binomial, data=lalonde)

# Impactul se obține cu funcția Match()

psm <- Match(Y = lalonde$re78, Tr = lalonde$treat, X = scor$fitted)

summary(psm)

Efectul net al participării la curs este semnificativ statistic.

Se estimează un efect net de 2302 u.m.= diferența între


salariul real pentru cei din grupul de tratament comparativ
cu cei din grupul de control dupa efectuarea matchingului.

Toate unitățile din grupul de tratament au fost păstrate.

Estimate... 2302
AI SE...... 764.97
T-stat..... 3.0093
p.val...... 0.0026187

Original number of observations.............. 445


Original number of treated obs............... 185
Matched number of observations............... 185
Matched number of observations (unweighted). 492

Number of obs dropped by 'exact' or 'caliper' 0


AACPI, 2022

Testarea similitudinii distribuțiilor variabilelor X se realizează cu funcția MatchBalance()


MatchBalance(treat ~ scor$fitted+age+educ+black+hisp+married+nodegr,

match.out = psm, nboots = 1000, data = lalonde)

***** (V1) scor$fitted *****


Before Matching After Matching

mean treatment........ 0.43498 0.43498

mean control.......... 0.40203 0.43472

std mean diff......... 35.947 0.29087

mean raw eQQ diff..... 0.033714 0.00071242

med raw eQQ diff..... 0.021248 0

max raw eQQ diff..... 0.10815 0.049954

mean eCDF diff........ 0.10351 0.0024955

med eCDF diff........ 0.12963 0.0020325

max eCDF diff........ 0.16757 0.03252

var ratio (Tr/Co)..... 1.1411 1.019

T-test p-value........ 0.0001457 0.42198


AACPI, 2022

KS Bootstrap p-value.. 0.002 0.921

KS Naive p-value...... 0.0046219 0.95714

KS Statistic.......... 0.16757 0.03252

Pentru variabila scor de propensitate , constatăm că procedura de matching are ca efect echilibrarea
distribuțiilor aferente celor două grupuri. Toate statisticile calculate și testele utilizate indică o reducere a
diferențelor existente între grupul de control și cel de tratament în cee ace privește distribuția variabilei.

În plus, pe lângă aceste statistici, se apelează la grafice care permit compararea celor două distribuții.

De exemplu, grafice de tip Quantile- Quantile plot (Q-Q plot). Un punct din acest grafic este de
coordonate:

(cuantila de ordin p estimată pentru prima distribuție , cuantila de ordin p estimată pentru a doua
distribuție).
AACPI, 2022

QQ plot pentru variabila “age” după matching QQ plot pentru variabila “age” înainte de matching
AACPI, 2022
AACPI, 2022

S-ar putea să vă placă și