Sunteți pe pagina 1din 26

Statistică neparametrică

Modele de regresie logistică

Mai 2023
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
REGRESIA LOGISTICĂ
 Sumar
 De ce şi când se foloseşte regresia logistică?

 Estimarea parametrilor modelului de regresie logistică

 Interpretarea coeficienţilor

 Testarea parametrilor

 Evaluarea performanţei modelului


DE CE ŞI CÂND SE FOLOSEŞTE
REGRESIA LOGISTICĂ?
 Când se foloseşte?
 Există multe cazuri extrem de importante în care variabila dependentă este
calitativă
 Se foloseşte atunci când variabila dependentă este o variabilă dummy
 Nu se face nici o presupunere asupra: distribuţiei predictorilor (nu trebuie să fie
normal distribuiţi), existenţei legăturii liniare, sau a varianţei egale în fiecare grup

 Aplicabilitate
 Identificarea variabilelor care caracterizează (explică, prezic) două grupuri diferite
 utilizează/nu utilizează internetul;
 admiși/respinși la un concurs de angajare
 fac/nu fac accident în primul an după luarea permisului autor
 recidiviști/nerecidiviști după eliberarea condiționată;
 fac/nu fac PTSD după un cutremur;
 au/nu au cont pe Facebook etc.
 Identificarea variabilelor care nu diferențiază între aceste grupuri…
 Efectuarea de predicții cu privire la probabilitatea ca un anumit individ (caz) să facă
parte dintr-un grup sau altul
DE CE ŞI CÂND SE FOLOSEŞTE
REGRESIA LOGISTICĂ?
 De ce nu folosim modelul de regresie liniar bazat pe metoda celor mai
mici pătrate?

Y =  + X + e unde Y=(0,1)

 Erorile sunt heteroscedastice


 Erorile nu sunt normal distribuite deorece Y ia doar două valori (0 şi 1)
 Valorile previzionate nu sunt neaparat incluse în intervalul (0,1)

Y = utilizeaza
zilnic internetul

Da = 1

Nu = 0

1 10 X = Varsta
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
 Ce este regresia logistică?
 O formă a regresiei ce permite previziunea unei variabile discrete binare prin
intermediul unui mix de variabile discrete şi continue
 Modelul de regresie logistică este o transformare neliniară a unui model de
regresie liniar
 Distribuţia logistică este o distribuţie în curbă S (funcţia de densitate cumulativă)
care este similară cu distribuţia normală standard şi constrânge probabilităţile
estimate să fie în intervalul (0,1).
 Modelul LOGIT:

 p 
ln   =  + x + e
1− p 
 unde:
 p reprezintă probabilitatea ca evenimentul y să apară: p(y=1)
 ODD=p/(1-p) se numesc “odds ratio”
 ln(p/(1-p)) sunt logaritmi de odds ratio sau “logit”
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
OBSERVAŢII:
1. Distribuţia logistică constrânge ca probabilităţile estimate să se afle între 0 şi 1
2. Estimarea probabilităţii ca evenimentul să apară este:

1
p=
1 + e − − x

 Dacă  + x = 0 atunci p=0,5


 Dacă  +  x mare atunci p → 1
 Dacă  +  x mic atunci p → 0
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
 Distribuţia logistică
P (Y=1)

 Prin transformarea logaritmică logit devin liniare


ln[p/(1-p)]

x
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
 Compararea modelului LOGIT şi a modelului liniar de
regresie
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
 Pentru estimarea parametrilor modelului de regresie logistică se va folosi
metoda verosimilităţii maxime.

 Funcţia de verosimilitate L măsoară probabilitatea de observarea a unui


set particular de valori ale variabilei dependente (p1, p2,..., pn) ce apar în
eşantion:
n
L = prob( p1 * p2 * ... * pn ) =  p( xi ) yi (1 − p( xi ))1− yi
i =1

 Cu cât L este mai mare cu atât probabilitatea de observare a probabilităţilor


din eşantion este mai mare
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
 Metoda verosimilităţii maxime constă în determinarea coeficienţilor (,)
pentru care

 logaritmul funcţiei de verosimilitate (LL<0) este maxim


n n n
LL = ln( L) = ln( p( xi ) (1 − p( xi ))
yi 1− yi
) = − ln(1 + e
 + x
) +  yi ( +   x)
i =1 i =1 i =1

 Estimatorii de verosimilitate maximă verifică condiţia:

LL n

=0 {Y − p(Y = 1 / X )}X


i i i i =0
 i i =1
INTERPRETAREA COEFICIENŢILOR
 Atâta timp cât:
ln  p /(1 − p) =  + x + e

 coeficientul  poate fi interpretat ca fiind măsura în care se schimbă


logaritmii din odds ratio la schimbarea cu o unitate a lui x

 Sau exp() poate fi interpretat ca fiind măsura în care se schimbă odds ratio
la schimbarea cu o unitate a lui x
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
 EXEMPLU
 Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
 Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
 Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
 Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
 Variabilele incluse în analiză vor fi:

 Variabila dependentă: Y=1 dacă persoana are o armă proprietate personală şi


Y=0, altfel
 Variabilele independente:
 Sex: X1= (0 pentru sex masculin şi 1 pentru sex feminin
 Varstă: X2 = vârsta în număr de ani
 Educaţie: X3 = număr de ani de şcoală finalizaţi
INTERPRETAREA COEFICIENŢILOR

Odds (posesor de arma) este


cu 59% pentru persoanele de sex
feminin comparativ cu cele
de sex masculin
sau
Persoanele de sex masculin sunt
de 1/0,41=2,43 ori mai frecvent
întalnite printre posesorii de arme
decât femeile.
INTERPRETAREA COEFICIENŢILOR

Odds (posesor de arma) scade


cu 0,9% la creşterea vârstei cu
o unitate

Odds (posesor de arma) creşte


cu 4,3% la creşterea nivelului de
educaţie cu o unitate

La creşterea vârstei cu 10 ani odds (posesor de armă) scade de


(0,991)10=0,9136 ori, deci cu 8,64%.
METODE DE INCLUDERE A VARIABILELOR
ÎN ECUAŢIE
 Există mai multe metode de includere a variabilelor în ecuaţia de regresie
printer care:
 Toate variabilele independente sunt incluse simultan în ecuaţia de regresie
(ENTER method în SPSS)
 Variabilele sunt introduse în ordinea contribuţiei la semnificaţia statistică a
modelului (FORWARD Conditional în SPSS)

 Pentru toate metodele contribuţia la model este măsurată cu ajutorul


modelului 2 ca o măsură statistică a potrivirii între variabilele dependente şi
independente, de genul R2.

 Testul relaţiei între variabilele independente şi grupurile definite de variabila


dependentă este bazată pe reducerea valorii verosimilităţii pentru model
care nu conţine nici o variabilă independentă şi modelul care conţine
variabilele independente.
TESTAREA PARAMETRILOR
▪ Testul Wald pentru testarea coeficientului 
▪ Este similar testului t pentru testarea parametrilor modelului liniar de regresie
▪ Ipotezele:
▪ H0: coeficientul β este zero
▪ H1: coeficientul β este diferit de zero

▪ Statistica Wald este:


2
Wald =
Var(  )
~ 12
▪ 1,2
Pentru un nivel de semnificaţie α se extrage valoarea critică
▪ Regula de decizie:

Dacă Wald  1,


2
▪ se respinge H0

▪ Dacă Wald  12, se acceptă H0


Example

Variables in the Equation


B S.E. Wald df Sig. Exp(B) 95% C.I.for EXP(B)
Lower Upper
Step 1a SEX -.892 .147 37.078 1 .000 .410 .307 .546
Constant 1.183 .115 105.962 1 .000 3.263
Step 2b Varsta -.011 .004 7.599 1 .006 .989 .981 .997
SEX -.925 .148 39.130 1 .000 .396 .297 .530
Constant 1.728 .232 55.314 1 .000 5.631
Step 3c Varsta -.011 .004 6.907 1 .009 .989 .982 .997
educ .041 .020 4.051 1 .044 1.042 1.001 1.084
SEX -.931 .148 39.350 1 .000 .394 .295 .527
Constant 1.164 .364 10.213 1 .001 3.201
a. Variable(s) entered on step 1: SEX.
b. Variable(s) entered on step 2: Varsta.
c. Variable(s) entered on step 3: educ.
EVALUAREA PERFORMANŢEI MODELULUI
 Există câteva statistici ce pot fi folosite pentru compararea mai multor modele
alternative sau pentru evaluarea performanţei unui anumit model:

▪ 1. Raportul de verosimilitate

▪ 2. Procentul previziunilor corecte

▪ 3. Coeficienţi pentru măsurarea efectului variabilelor independente asupra


variabilei dependente:

▪ Statistica McFadden-R2,

▪ Cox Snell Pseudo R2 ,

▪ Nagelkerke Pseudo-R2
1. Raportul de verosimilitate
▪ Raportul de verosimilitate (LR) este:

LR[i] = -2[LL() - LL(, ) ] unde:

▪ LL( ) este logaritmul maximului funcţiei de verosimilitate pentru modelul fără variabile
independente incluse (modelul bazat pe șansă)
▪ LL(, ) este logaritmul maximului funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente (modelul logistic)

▪ Statistica LR(i) este distribuită 2 cu i grade de libertate, unde i este numărul


variabilelor independente

▪ Această statistică se foloseşte pentru a testa dacă modelul este statistic semnificativ:
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)

▪ Dacă LR(i) 2,i atunci se respinge H0 deci modelul este valid.


2. Procentul previziunilor corecte

3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
2
 LL( ,  )  n
 Coeficientul Cox Snell Pseudo R2: Cox Snell Pseudo R 2 = 1 −  
 LL ( ) 
2
 LL( ,  )  n
1−  
 LL ( ) 
 Coeficientul Nagelkerke Pseudo-R2 Nagelkerke Pseudo R 2 =
1 − − 2 LL( )n
2

LL( ,  )
 Statistica McFadden-R2: McFadden R 2 = 1 −
LL( )

unde:
▪ LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile
independente incluse
▪ LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente
3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
OBSERVAŢII:

▪Aceaste statistici sunt măsuri scalare care variază între 0 şi 1 foarte asemănătoare cu
statistica R2 a unui model liniar de regresie

▪Coeficientul Cox Snell Pseudo R2 nu poate atinge valoarea 1 nici chiar în cazul unui
model perfect

▪Coeficientul Nagelkerke Pseudo-R2 este o adaptare a coeficientului anterior pentru


extinderea intervalului de variaţie până la valoarea 1

▪Ce reprezintă o valoarea R2 bună variază în funcţie de aplicaţie. Aceşti coeficienţi sunt în
special utili pentru compararea mai multor modele de regresie logistică
Exemplu – identificarea deținătorilor de armă
 Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
 Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
 Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
 Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
 Variabilele incluse în analiză vor fi:

 Variabila dependentă: Y=1 dacă persoana are o armă proprietate personală şi


Y=0, altfel
 Variabilele independente:
 Sex: X1= (0 pentru sex masculin şi 1 pentru sex feminin
 Varstă: X2 = vârsta în număr de ani
 Educaţie: X3 = număr de ani de şcoală finalizaţi
Exemplu – identificarea deținătorilor de armă
 Pentru a identifica deținătorii de armă pe baza variabilelor Vârstă, Sex și Nivel de educație, aceste
trei variabile au fost incluse simultan într-un model de regresie logistică (Metoda ENTER).
Covergența algoritmului s-a produs rapid în 5 iterații. Toți coeficienții sunt semnificativi pentru un
nivel de semnificatie de cel puțin 0,05.
1. Validarea modelului pe baza raportului de verosimilitate
 LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile independente incluse.
În cazul problemei noastre -2LL( ) =1171,630.
 LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost incluse toate
variabilele independente. În cazul problemei noastre -2 LL(, ) = 1119,144

Raportul de verosimilitate (LR) este:

LR[i] = -2[LL() - LL(, ) ] =

=1171,630-1119,144 = 52,486
Exemplu – identificarea deținătorilor de armă
Sig=0,0000,001 deci se respinge H0 deci modelul
poate fi validat cu un nivel de semnificație de 0,001
 Sig=

▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)

▪ LR(i)=52,486  20,05;3 = 7,81 deci se respinge H0 deci modelul este valid.

2. Calitatea modelului

 Cox&Snell R2 = 0,056

 Nagelkerke R2 = 0,077

Toti acești coeficienți sunt foarte apropiați de zero, deci


modelul este foarte slab.
Exemplu – identificarea deținătorilor de armă
 3. Procentul previziunilor corecte

S-ar putea să vă placă și