Documente Academic
Documente Profesional
Documente Cultură
Mai 2023
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
REGRESIA LOGISTICĂ
Sumar
De ce şi când se foloseşte regresia logistică?
Interpretarea coeficienţilor
Testarea parametrilor
Aplicabilitate
Identificarea variabilelor care caracterizează (explică, prezic) două grupuri diferite
utilizează/nu utilizează internetul;
admiși/respinși la un concurs de angajare
fac/nu fac accident în primul an după luarea permisului autor
recidiviști/nerecidiviști după eliberarea condiționată;
fac/nu fac PTSD după un cutremur;
au/nu au cont pe Facebook etc.
Identificarea variabilelor care nu diferențiază între aceste grupuri…
Efectuarea de predicții cu privire la probabilitatea ca un anumit individ (caz) să facă
parte dintr-un grup sau altul
DE CE ŞI CÂND SE FOLOSEŞTE
REGRESIA LOGISTICĂ?
De ce nu folosim modelul de regresie liniar bazat pe metoda celor mai
mici pătrate?
Y = + X + e unde Y=(0,1)
Y = utilizeaza
zilnic internetul
Da = 1
Nu = 0
1 10 X = Varsta
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
Ce este regresia logistică?
O formă a regresiei ce permite previziunea unei variabile discrete binare prin
intermediul unui mix de variabile discrete şi continue
Modelul de regresie logistică este o transformare neliniară a unui model de
regresie liniar
Distribuţia logistică este o distribuţie în curbă S (funcţia de densitate cumulativă)
care este similară cu distribuţia normală standard şi constrânge probabilităţile
estimate să fie în intervalul (0,1).
Modelul LOGIT:
p
ln = + x + e
1− p
unde:
p reprezintă probabilitatea ca evenimentul y să apară: p(y=1)
ODD=p/(1-p) se numesc “odds ratio”
ln(p/(1-p)) sunt logaritmi de odds ratio sau “logit”
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
OBSERVAŢII:
1. Distribuţia logistică constrânge ca probabilităţile estimate să se afle între 0 şi 1
2. Estimarea probabilităţii ca evenimentul să apară este:
1
p=
1 + e − − x
x
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
Compararea modelului LOGIT şi a modelului liniar de
regresie
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
Pentru estimarea parametrilor modelului de regresie logistică se va folosi
metoda verosimilităţii maxime.
LL n
Sau exp() poate fi interpretat ca fiind măsura în care se schimbă odds ratio
la schimbarea cu o unitate a lui x
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
EXEMPLU
Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
Variabilele incluse în analiză vor fi:
▪ 1. Raportul de verosimilitate
▪ Statistica McFadden-R2,
▪ Nagelkerke Pseudo-R2
1. Raportul de verosimilitate
▪ Raportul de verosimilitate (LR) este:
▪ LL( ) este logaritmul maximului funcţiei de verosimilitate pentru modelul fără variabile
independente incluse (modelul bazat pe șansă)
▪ LL(, ) este logaritmul maximului funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente (modelul logistic)
▪ Această statistică se foloseşte pentru a testa dacă modelul este statistic semnificativ:
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)
LL( , )
Statistica McFadden-R2: McFadden R 2 = 1 −
LL( )
unde:
▪ LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile
independente incluse
▪ LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente
3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
OBSERVAŢII:
▪Aceaste statistici sunt măsuri scalare care variază între 0 şi 1 foarte asemănătoare cu
statistica R2 a unui model liniar de regresie
▪Coeficientul Cox Snell Pseudo R2 nu poate atinge valoarea 1 nici chiar în cazul unui
model perfect
▪Ce reprezintă o valoarea R2 bună variază în funcţie de aplicaţie. Aceşti coeficienţi sunt în
special utili pentru compararea mai multor modele de regresie logistică
Exemplu – identificarea deținătorilor de armă
Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
Variabilele incluse în analiză vor fi:
=1171,630-1119,144 = 52,486
Exemplu – identificarea deținătorilor de armă
Sig=0,0000,001 deci se respinge H0 deci modelul
poate fi validat cu un nivel de semnificație de 0,001
Sig=
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)
2. Calitatea modelului
Cox&Snell R2 = 0,056
Nagelkerke R2 = 0,077