Sunteți pe pagina 1din 16

Academia de Studii Economice din Bucuresti

Cibernetica si Economie Cantitativa

PROIECT

Data Mining

Hampau Emil

GRUPA 1083
Cuprins

Introducere

Regresie logistica

Estimariea cu pachetul ROSE

Metode contrafactuale
Introducere

Pe parcursul acestei lucrari vom incerca, pe baza unui esantion de respondeti, sa ne dam
seama care sunt caracteristicile si ce influenteaz oamenii sa devina antreprenori.

Scopul este modelarea deciziei indivizilor de a pune bazele unei noi afaceri. Variabila
dependentă a fost construită pe baza răspunsurilor obținute la întrebarea: “În prezent încercaţi
să dezvoltaţi o afacere?”

Variabilele pe care le vom testa în vederea identificării factorilor care influențează


probabilitatea ca un individ să devină antreprenor sunt:

 Vârsta

 Sex

 Statut ocupațional (variabilă categorială cu trei nivele: (1) Angajat cu normă întreagă
sau cu jumătate de normă; (2) În căutarea unui loc de muncă; (3) Student sau casnic sau
pensionat). 4. Percepția indivizilor privind deținerea competențelor necesare unui
antreprenor (variabilă categorială binară)

Regresie logistica
Volumul eşantionului pe baza căruia s-au obţinut rezultatele prezentate mai jos este de
2433 respondenţi din Austria. Dintre aceştia 9,4% au răspuns afirmativ la întrebarea privind
decizia de a devein antreprenori. Outputul prezentat în tabelul 1 ne oferă informaţii cu privire
la impactul factorilor analizaţi asupra logaritmului raportului şanselor (probabilitatea de a lua
decizia de a deveni antreprenor raportată la probabilitatea de a nu deveni antreprenor). Tot din
acest tabel, pe baza probabilităţilor din ultima coloană, deducem că variabilele incluse în analiză
au coeficienţi semnificativi statistic.

In urma analizei observam ca există diferenţe semnificative între bărbaţi şi femei în ceea
ce priveşte decizia de a deveni antreprenor. Indivizii care consideră că deţin aptitudinile şi
cunoştinţele necesare necesare unui antreprenor au comportament diferit comparativ cu cei care
se autoevaluează negativ în această privintă. Există diferenţe semnificative între persoanele
angajate şi cele aflate în căutarea unui loc de muncă în ceea ce priveşte decizia de a demara o
afacere. Există diferenţe semnificative între cei angajaţi şi cei inactivi în ceea ce priveşte
probabilitatea de a deveni antreprenor. În partea de jos a tabelului se regăsesc informaţii utile
pentru a aprecia bonitatea modelului estimat. Aceste măsuri au la bază calcularea discrepanţelor
existente între modelul curent şi un model complet care ar conţine câte un parametru pentru
fiecare observaţie. Se compară modelul nul (un model ce conţine doar termen liber) cu modelul
complet şi se obţine valoarea 1490.8 iar din comparaţia între modelul complet şi cel curent se
obţine valoarea 1356.7. Acestea se consideră a fi echivalentul sumei pătratelor abaterilor din
modelele de regresie estimate cu metoda celor mai mici pătrate. O valoare mai mica indică un
model mai bun. Criteriul informational Akaike va fi utilizat pentru a compara diferite modele
între ele. Se va alege modelul care prezintă valoarea minimă.
Call:
glm(formula = bstart ~ gemwork3 + gemhhinc + knowent + gender,
family = "binomial", data = Austria)

Deviance Residuals:
Min 1Q Median 3Q Max
-0.7585 -0.5491 -0.3231 -0.2775 3.0262

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -2.55195 0.19907 -12.820 < 2e-16 ***
gemwork3Not working 0.03133 0.29708 0.105 0.9160
gemwork3Retired students -1.33058 0.33569 -3.964 7.38e-05 ***
gemhhincMiddle 33%tile -0.46573 0.20685 -2.252 0.0244 *
gemhhincUpper 33%tile -0.34678 0.18793 -1.845 0.0650 .
knowentYes 1.42204 0.15465 9.195 < 2e-16 ***
genderFemale -0.22033 0.15028 -1.466 0.1426
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1490.8 on 2532 degrees of freedom


Residual deviance: 1356.7 on 2526 degrees of freedom
AIC: 1370.7

Ca măsură a bonităţii modelului, am calculat valorea R2. Această are la bază compararea
modelului estimat cu modelul nul (cu termen liber) şi foloseşte cele două măsuri prezente în
tabelul anterior (Null deviance şi Residual deviance). Valoarea de 10% obţinută demonstrează
că sunt mulţi alţi factori care determină un individ sa pornească o afacere. Pentru a estima care
este impactul variabilelor analizate asupra şanselor unui individ de a decide să pornească o
afacere am aplicat funcţia exponenţială asupra coeficienţilor şi am obţinut:

(Intercept) gemwork3Not working gemwork3Retired students gemhhincMiddle 33%tile gemhhincUpper 33%tile


0.07792975 1.03182480 0.26432495 0.62767762 0.70695957
knowentYes genderFemale
4.14556970 0.80225437

Şansele de a porni o afacere (relativ la şansele de a nu dezvolta o afacere) sunt cu 20.8%


mai mari pentru bărbaţi decât pentru femei
Persoanele care nu sunt pensionari sau studenti au cu 74% mai multe sanse sa-si
deschida o afacere
Cei care consideră că deţin cunoştinţele şi aptitudinile necesare unui antreprenenor au
cu 414% şanse mai mari de a demara o afacere comparative cu cei care consideră ca nu deţin
aceste competenţe.
Şansele unei persoanele care lucreaza sau este in cautarea unui loc de munca sunt cu
93% mai mari decât cele ale unui persoane care nu lucreaza.

Modelul de regresie logistică estimează pentru fiecare unitate probabilitatea ca


evenimentul studiat să se realizeze. În cazul nostru, se estimează probabilitatea ca un individ să
demareze o afacere ţinând cont de sex, vârstă, statut occupational şi percepţia asupra
cunoştinţelor sale.
Modelul poate fi folosit pentru a face predicţie cu privire la apartenenţa unui individ la
una dintre clase: clasa 1 dacă individul decide să devină antreprenor şi clasa 0 dacă individul
nu decide să devină antreprenor. Pentru a folosi rezultatele regresiei logistice pentru clasificare,
va trebui să stabilim valoarea pragului probabilităţii peste care un individ va fi clasificat în clasa
1. În general acest prag are valoarea de 0.5. Curba ROC ne oferă informaţii cu privire la
capacitatea de predicţie a clasificatorului nostru dar şi despre consecinţele alegerii unui anumit
prag.

Aria de sub curba ROC este de aproximativ 0.72% indicând faptul că am obţinut un
clasificator mai bun decât un clasificator aleator. O valoare a pragului probabilităţii este de 0.
47 ar conduce la o rată foarte mică a clasificării pozitive false (indivizii care în realitate nu au
demarat o afacere nu vor fi clasificaţi prin model ca potenţiali antreprenori). Dar în acelaşi tim
p rata clasificării pozitive corecte este extreme de redusă (cei care doresc să devină antrepreno
ri nu sunt incluşi conform modelului în clasa 1).
Estimarea modelului cu ajutorul pachetului ROSE

In continuare vom incerca sa facem o estimare si cu ajutorul pachetului Rose pentru


a putea compara cele doua modele.

Pachetul ROSE oferă funcții pentru a face față problemelor de clasificare binare în
prezența unor clase dezechilibrate. Esantioanele artificiale sunt generate în conformitate cu o
abordare bootstrap pentru a permite sprijinirea atât in fazele de estimare cat și precizieI de
evaluare a unui clasificator binar în prezența unei clase rare. Funcții care implementează
remedii tradiționale are de asemenea condiția ca dezechilibrul de clasă diferite valori pentru a
evalua precizia. Acestea sunt estimate prin metode precum holdout, bootstrap sau
cross-validation.

In urma analizei observam ca există diferenţe semnificative indivizii care consideră că


deţin aptitudinile şi cunoştinţele necesare necesare unui antreprenor au comportament diferit
comparativ cu cei care se autoevaluează negativ în această privintă. Există diferenţe
semnificative între persoanele angajate şi cele aflate în căutarea unui loc de muncă în ceea ce
priveşte decizia de a demara o afacere. Există diferenţe semnificative între cei angajaţi şi cei
inactivi în ceea ce priveşte probabilitatea de a deveni antreprenor. În partea de jos a tabelului se
regăsesc informaţii utile pentru a aprecia bonitatea modelului estimat. Aceste măsuri au la bază
calcularea discrepanţelor existente între modelul curent şi un model complet care ar conţine
câte un parametru pentru fiecare observaţie. Se compară modelul nul (un model ce conţine doar
termen liber) cu modelul complet şi se obţine valoarea 1490.8 iar din comparaţia între modelul
complet şi cel curent se obţine valoarea 1251.9 . Acestea se consideră a fi echivalentul sumei
pătratelor abaterilor din modelele de regresie estimate cu metoda celor mai mici pătrate. O
valoare mai mica indică un model mai bun. Criteriul informational Akaike va fi utilizat pentru
a compara diferite modele între ele. Se va alege modelul care prezintă valoarea minimă.

Call:
glm(formula = bstart ~ gemwork3 + gemhhinc + knowent + age9c +
suskill, family = "binomial", data = Austria)

Deviance Residuals:
Min 1Q Median 3Q Max
-1.1195 -0.4350 -0.2583 -0.1595 3.1950

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.53385 0.29850 -11.839 < 2e-16 ***
gemwork3Not working 0.14988 0.31246 0.480 0.6315
gemwork3Retired students -0.92073 0.35930 -2.563 0.0104 *
gemhhincMiddle 33%tile -0.48489 0.21551 -2.250 0.0244 *
gemhhincUpper 33%tile -0.47910 0.19722 -2.429 0.0151 *
knowentYes 1.02581 0.16144 6.354 2.09e-10 ***
age9c25-34 0.51182 0.25523 2.005 0.0449 *
age9c35-44 -0.07183 0.26554 -0.270 0.7868
age9c45-54 -0.34520 0.27084 -1.275 0.2025
age9c55-64 -0.64343 0.32660 -1.970 0.0488 *
suskillYes 1.70867 0.20290 8.421 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 1490.8 on 2532 degrees of freedom


Residual deviance: 1251.9 on 2522 degrees of freedom
AIC: 1273.9

Number of Fisher Scoring iterations: 6

Coefficients:
(Intercept) gemwork3Not working gemwork3Retired students gemhhincMiddle 33%tile
-3.53385 0.14988 -0.92073 -0.48489
gemhhincUpper 33%tile knowentYes age9c25-34 age9c35-44
-0.47910 1.02581 0.51182 -0.07183
age9c45-54 age9c55-64 suskillYes
-0.34520 -0.64343 1.70867

Persoanele care nu sunt pensionari sau studenti au cu 86% mai multe sanse sa-si deschida o
afacere
Cei care consideră că deţin cunoştinţele şi aptitudinile necesare unui antreprenenor au
cu 102% şanse mai mari de a demara o afacere comparative cu cei care consideră ca nu deţin
aceste competenţe.
Şansele unei persoanele care lucreaza sau este in cautarea unui loc de munca sunt cu
86% mai mari decât cele ale unui persoane care nu lucreaza.
Aria de sub curba ROC este de aproximativ 0.72% indicând faptul că am obţinut un clasificat
or mai bun decât un clasificator aleator. Daca comparam valoarea pragului probabilităţii de
0.83 cu cea din cazul regresiei logistice de 0.47 atunci ne dam seama ca in cazul de fata estim
area unui model de regresie fara pachetul Rose este mai eficienta.

Metode contrafactuale

In acesta parte vom verifica daca participatii la cursul de specializare au capatat veni
turi mai mari compartiv cu cei care nu au participat.

Comparând fiecare participant care a paticipat la cursul de specializare cu cei care u


au participat, dar care din punct de vedere al tuturor caracteristicilor menţionate anterior sunt s
imilari cu participantii din prima categorie, putem decide dacă există o diferenţă semnificativă
în ceea ce priveşte veniturile persoanelor. Având în vedere ca toate caracteristicile persoanelor
au fost controlate, diferența obținută este efectul tratamentului aplicat și anume participarea la
cursul de specializare.

Estimate... 1893.7
AI SE...... 840.36
T-stat..... 2.2534
p.val...... 0.024234

Original number of observations.............. 445


Original number of treated obs............... 185
Matched number of observations............... 185
Matched number of observations (unweighted). 329
Asocierea dintre o unitate tratată și unitățile netratate a fost realizată pe baza unui sc
or obținut ca urmare a estimării unui model de regresie logistică în care variabila dependentă e
ste variabila tratament iar variabilele explicative sunt caracteristicile x ale abonaților. Probabil
itățile estimate de model au fost utilite în funcția Match() pentru a face asocierea. Efectul medi
u al tratamentului este prezentat în prima linie a tabelului de mai sus și arată persoanele care a
u participat la curs si-au crescut veniturile cu 1893 de dolari. Liniile următoare conțin informa
țiile necesare testării semnificației statistice a diferenței dintre mediile cele două grupuri. Pentr
u eșantionul analizat de noi, riscul de a greși atunci când respingem ipoteza nulă, conform căre
ia diferențele nu sunt semnificativ, este scazuta, probabilitatea fiind de 0,024.

***** (V1) age *****


Before Matching After Matching
mean treatment........ 25.816 25.816
mean control.......... 25.054 25.587
std mean diff......... 10.655 3.2057

mean raw eQQ diff..... 0.94054 0.50456


med raw eQQ diff..... 1 0
max raw eQQ diff..... 7 8

mean eCDF diff........ 0.025364 0.013171


med eCDF diff........ 0.022193 0.0091185
max eCDF diff........ 0.065177 0.039514

var ratio (Tr/Co)..... 1.0278 0.9906


T-test p-value........ 0.26594 0.71751
KS Bootstrap p-value.. 0.51 0.828
KS Naive p-value...... 0.7481 0.95943
KS Statistic.......... 0.065177 0.039514

***** (V2) educ *****


Before Matching After Matching
mean treatment........ 10.346 10.346
mean control.......... 10.088 10.538
std mean diff......... 12.806 -9.5483

mean raw eQQ diff..... 0.40541 0.19149


med raw eQQ diff..... 0 0
max raw eQQ diff..... 2 3

mean eCDF diff........ 0.028698 0.013678


med eCDF diff........ 0.012682 0.0091185
max eCDF diff........ 0.12651 0.072948

var ratio (Tr/Co)..... 1.5513 1.3778


T-test p-value........ 0.15017 0.18887
KS Bootstrap p-value.. 0.012 0.12
KS Naive p-value...... 0.062873 0.34547
KS Statistic.......... 0.12651 0.072948

***** (V3) black *****


Before Matching After Matching
mean treatment........ 0.84324 0.84324
mean control.......... 0.82692 0.87568
std mean diff......... 4.4767 -8.8964
mean raw eQQ diff..... 0.016216 0.015198
med raw eQQ diff..... 0 0
max raw eQQ diff..... 1 1

mean eCDF diff........ 0.0081601 0.0075988


med eCDF diff........ 0.0081601 0.0075988
max eCDF diff........ 0.01632 0.015198

var ratio (Tr/Co)..... 0.92503 1.2142


T-test p-value........ 0.64736 0.23908

***** (V4) hisp *****


Before Matching After Matching
mean treatment........ 0.059459 0.059459
mean control.......... 0.10769 0.059459
std mean diff......... -20.341 0

mean raw eQQ diff..... 0.048649 0.0030395


med raw eQQ diff..... 0 0
max raw eQQ diff..... 1 1

mean eCDF diff........ 0.024116 0.0015198


med eCDF diff........ 0.024116 0.0015198
max eCDF diff........ 0.048233 0.0030395

var ratio (Tr/Co)..... 0.58288 1


T-test p-value........ 0.064043 1

***** (V5) married *****


Before Matching After Matching
mean treatment........ 0.18919 0.18919
mean control.......... 0.15385 0.24459
std mean diff......... 8.9995 -14.108

mean raw eQQ diff..... 0.037838 0.024316


med raw eQQ diff..... 0 0
max raw eQQ diff..... 1 1

mean eCDF diff........ 0.017672 0.012158


med eCDF diff........ 0.017672 0.012158
max eCDF diff........ 0.035343 0.024316

var ratio (Tr/Co)..... 1.1802 0.83021


T-test p-value........ 0.33425 0.1311

***** (V6) nodegr *****


Before Matching After Matching
mean treatment........ 0.70811 0.70811
mean control.......... 0.83462 0.67568
std mean diff......... -27.751 7.1145

mean raw eQQ diff..... 0.12432 0.021277


med raw eQQ diff..... 0 0
max raw eQQ diff..... 1 1

mean eCDF diff........ 0.063254 0.010638


med eCDF diff........ 0.063254 0.010638
max eCDF diff........ 0.12651 0.021277

var ratio (Tr/Co)..... 1.4998 0.9432


T-test p-value........ 0.0020368 0.12063

***** (V7) u75 *****


Before Matching After Matching
mean treatment........ 0.6 0.6
mean control.......... 0.68462 0.64865
std mean diff......... -17.225 -9.9035

mean raw eQQ diff..... 0.081081 0.018237


med raw eQQ diff..... 0 0
max raw eQQ diff..... 1 1

mean eCDF diff........ 0.042308 0.0091185


med eCDF diff........ 0.042308 0.0091185
max eCDF diff........ 0.084615 0.018237

var ratio (Tr/Co)..... 1.1133 1.0531


T-test p-value........ 0.068031 0.11647

***** (V8) u74 *****


Before Matching After Matching
mean treatment........ 0.70811 0.70811
mean control.......... 0.75 0.75946
std mean diff......... -9.1895 -11.265

mean raw eQQ diff..... 0.037838 0.027356


med raw eQQ diff..... 0 0
max raw eQQ diff..... 1 1

mean eCDF diff........ 0.020946 0.013678


med eCDF diff........ 0.020946 0.013678
max eCDF diff........ 0.041892 0.027356

var ratio (Tr/Co)..... 1.1041 1.1314


T-test p-value........ 0.33033 0.14445

Analizând rezultatele prezentate în tabelul de mai sus, putem concluziona că


asocierea nu a condus la diminuarea diferențelor existente între cele două grupuri în ceea ce
privește distribuția variabilelor explicative. De exemplu pentru variabila V1 (vârsta), deși
observăm reduceri ale diferențelor exprimate în primele trei secțiuni, raportul varianțelor apro
piindu-se de valoarea 1 vom decide pe baza testului Kolmogorov Smirnov că diferențele
dintre distribuția variabilei V1 observată pentru setul de control diferă semnificativ de cea
observată pentru grupul de tratament.
Modelul de matching utilizat nu este valid iar în aceste condiții se indică definirea
unui alt model, bazat pe alte variabile și eventual pe altă metodă de asociere.
Anexa

library(Hmisc)
library(corrplot)
library(PerformanceAnalytics)
library(ggplot2)
library(memisc)
setwd("E:\\sem6")
a<-data.frame(as.data.set(spss.system.file("antrep.sav")))
attach(a)
table(country)
Austria<-subset(a,country=="Austria")
Austria
table(Austria$bstart)
variabile<-which(names(Austria) %in% c ("bstart","gemwork3","gemhhinc","gemeduc","kno
went","suskill","fearfail","gender","age9c"))
names(Austria)
Austria<-Austria[,variabile]
Austria<-na.omit(Austria)
table(Austria$bstart)
Austria
model1<-glm(bstart~gemwork3+gemhhinc+knowent+gender, data=Austria,family = "binomia
l")
model1
table(Austria$gemwork3)
table(Austria$gender)
summary(model1)
exp(coef(model1))
#sansele ca cei din cat de mij sa isi deschida sansele sunt cu 38%mai mici decat cei din cat cu
venit redus
table(Austria$age9c)
levels(Austria$age9c)[levels(Austria$age9c)=="25-34"]<-"18-24"
table(Austria$age9c)
levels(Austria$age9c)[levels(Austria$age9c)=="18-24"]<-"18-35"
table(Austria$age9c)
levels(Austria$age9c)[levels(Austria$age9c)=="0-17"]<-"18-35"
levels(Austria$age9c)[levels(Austria$age9c)=="35-44" ]<-"35+"
levels(Austria$age9c)[levels(Austria$age9c)=="45-54" ]<-"35+"
levels(Austria$age9c)[levels(Austria$age9c)=="55-64" ]<-"35+"
levels(Austria$age9c)[levels(Austria$age9c)=="65-120" ]<-"35+"
table(Austria$age9c)

Austria(Austria$Gemeduc)
Austria<-subset(a,country=="Austria")
Austria
table(Austria$bstart)
variabile<-which(names(Austria) %in% c ("bstart","gemwork3","gemhhinc","gemeduc","kno
went","suskill","fearfail","gender","age9c"))
names(Austria)
Austria<-Austria[,variabile]
Austria<-na.omit(Austria)
table(Austria$bstart)
Austria
model1<-glm(bstart~gemwork3+gemhhinc+knowent+gender, data=Austria,family = "binomia
l")
model1
table(Austria$gemwork3)
table(Austria$gender)
summary(model1)
summary(model1)
model1<-glm(bstart~gemwork3+gemhhinc+knowent+gender+suskill, data=Austria,family = "
binomial")
model1
summary(model1)
model1<-glm(bstart~gemwork3+gemhhinc+knowent+age9c+suskill, data=Austria,family = "b
inomial")
model1
summary(model1)
exp(coef(model1))
library(ROCR)
yhat<-predict(model1,type ="response")
yhat
pr<-prediction(yhat,Austria$bstart)
pr<-prediction(yhat,Austria$bstart,label.ordering=NULL)
pr
perf<-performance(pr,"top","fpr")
pr<-prediction(yhat,Austria$bstart,label.ordering=NULL)
pr
perf<-performance(pr,"top","fpr")
perf<-performance(pr,"tpr","fpr")
windows()
plot(perf,colorize=TRUE,lwd=5)
performance(pr,"auc")
library(ROSE)
date.rose<-ROSE(bstart~.,data=Austria,p=0.4,seed=123)$data
date.rose
table(date.rose$bstart)
model2<-glm(bstart~gemwork3+gemhhinc+knowent+age9c+suskill, data=Austria,family = "b
inomial")
model2
model2<-glm(bstart~gemwork3+gemhhinc+knowent+age9c+suskill, data=date.rose,family =
"binomial")
model2
summary(model2)
yhat<-predict(model2,type ="response")
pr<-prediction(yhat,Austria$bstart,label.ordering=NULL)
perf<-performance(pr,"tpr","fpr")
windows()
plot(perf,colorize=TRUE,lwd=5)
#Aria de sub curba
performance(pr,"auc")
library(ROSE)
model2<-glm(bstart~gemwork3+gemhhinc+knowent+age9c+suskill, data=Austia,family = "bi
nomial")
model2<-glm(bstart~gemwork3+gemhhinc+knowent+age9c+suskill, data=Austria,family = "b
inomial")
#--------------------------s
yhat<-predict(model2,type ="response")
yhat
pr<-prediction(yhat,date.rose$bstart,lable.ordering=NULL)
pr
perf<-performance(pr,"top","fpr")
perf
pr<-prediction(yhat,date.rose$bstart,label.ordering=NULL)
perf<-performance(pr,"top","fpr")
perf<-performance(pr,"tpr","fpr")
perf

taramea<-Austria[,c("bstart", "gemwork3", "gemhhinc" , "knowent", "age9c", "suskill")]


taramea
evaluare<-ROSE.eval(bstart~.,data=taramea,learner = glm,method.assess = "LKOCV",K=5,
control.learner = list(family=binomial),control.rose = list(p=0.4),seed = 123,trace
= TRUE)
summary(evaluare)
#---------------------------------s
library(Matching)
data("lalonde")
View(lalonde)
#verificam daca participantii la acest curs au venituri mai mari
table(lalonde$treat)
mean(lalonde$re78[lalonde$treat==1])
mean(lalonde$re78[lalonde$treat==0])
#aceasta val nu poate fi considerata ca efect al tratamentului
#pt fiecare individ caut in setul de contol indivizi asemanatori
#estimam un model de reg logistica, scoarul il estimama cu glm
scor<-glm(treat~age+educ+black+hisp+married+nodegr+u75+u74,data=lalonde,family ='bino
mial')
scor
efect<-Match(Y=lalonde$re78,Tr=lalonde$treat,X=scor$fitted.values,estimand = "ATT",M=1
,
replace =TRUE)
summary(efect)
#verificam daca distributiile dupa matching sunt aproximativ asemanatoare
#match.balance
MatchBalance(treat~age+educ+black+hisp+married+nodegr+u75+u74,match.out = efect,data
=lalonde,
nboots=500)
#dupa matching ar trebui sa se inbunatateasca
#ar trebui sa
#-------------------seminar9
attach(lalonde)
scor<-glm(re78~age+educ+black+hisp+married+nodegr+u74+u75+treat)
scor
summary(scor)
efect<-Match(Y=lalonde$re78,Tr=lalonde$treat,X=scor$fitted.values,estimand = "ATT",M=1
,
replace =TRUE)
MatchBalance(treat~age+educ+black+hisp+married+nodegr+u75+u74,match.out = efect,data
=lalonde,
nboots=500)
qqplot(lalonde$age[efect$index.control],lalonde$age[efect$index.treated])
abline(coef=c(0,1),col="2")

S-ar putea să vă placă și