Curs 10 - SN

Statistică neparametrică
Modele de regresie logistică
Mai 2023
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
REGRESIA LOGISTICĂ
 Sumar
 De ce şi când se foloseşte regresia logistică?
 Estimarea parametrilor modelului de regresie logistică
 Interpretarea coeficienţilor
 Testarea parametrilor
 Evaluarea performanţei modelului

DE CE ŞI CÂND SE FOLOSEŞTE
REGRESIA LOGISTICĂ?
 Când se foloseşte?
 Există multe cazuri extrem de importante în care variabila dependentă este
calitativă
 Se foloseşte atunci când variabila dependentă este o variabilă dummy
 Nu se face nici o presupunere asupra: distribuţiei predictorilor (nu trebuie să fie
normal distribuiţi), existenţei legăturii liniare, sau a varianţei egale în fiecare grup
 Aplicabilitate
 Identificarea variabilelor care caracterizează (explică, prezic) două grupuri diferite
 utilizează/nu utilizează internetul;
 admiși/respinși la un concurs de angajare
 fac/nu fac accident în primul an după luarea permisului autor
 recidiviști/nerecidiviști după eliberarea condiționată;
 fac/nu fac PTSD după un cutremur;
 au/nu au cont pe Facebook etc.
 Identificarea variabilelor care nu diferențiază între aceste grupuri…
 Efectuarea de predicții cu privire la probabilitatea ca un anumit individ (caz) să facă
parte dintr-un grup sau altul
DE CE ŞI CÂND SE FOLOSEŞTE
REGRESIA LOGISTICĂ?
 De ce nu folosim modelul de regresie liniar bazat pe metoda celor mai
mici pătrate?
Y =  + X + e unde Y=(0,1)
 Erorile sunt heteroscedastice

 Erorile nu sunt normal distribuite deorece Y ia doar două valori (0 şi 1)
 Valorile previzionate nu sunt neaparat incluse în intervalul (0,1)
Y = utilizeaza
zilnic internetul
Da = 1
Nu = 0
1 10 X = Varsta
ESTIMAREA PARAMETRILOR MODELULUI DE
REGRESIE LOGISTICĂ
 Ce este regresia logistică?
 O formă a regresiei ce permite previziunea unei variabile discrete binare prin
intermediul unui mix de variabile discrete şi continue
 Modelul de regresie logistică este o transformare neliniară a unui model de
regresie liniar
 Distribuţia logistică este o distribuţie în curbă S (funcţia de densitate cumulativă)
care este similară cu distribuţia normală standard şi constrânge probabilităţile
estimate să fie în intervalul (0,1).
 Modelul LOGIT:
 p 
ln   =  + x + e
1− p 
 unde:
 p reprezintă probabilitatea ca evenimentul y să apară: p(y=1)
 ODD=p/(1-p) se numesc “odds ratio”
 ln(p/(1-p)) sunt logaritmi de odds ratio sau “logit”
REGRESIE LOGISTICĂ
OBSERVAŢII:
1. Distribuţia logistică constrânge ca probabilităţile estimate să se afle între 0 şi 1
2. Estimarea probabilităţii ca evenimentul să apară este:
1
p=
1 + e − − x
 Dacă  + x = 0 atunci p=0,5

 Dacă  +  x mare atunci p → 1
 Dacă  +  x mic atunci p → 0
REGRESIE LOGISTICĂ
 Distribuţia logistică
P (Y=1)
 Prin transformarea logaritmică logit devin liniare

ln[p/(1-p)]
x
REGRESIE LOGISTICĂ
 Compararea modelului LOGIT şi a modelului liniar de
regresie
REGRESIE LOGISTICĂ
 Pentru estimarea parametrilor modelului de regresie logistică se va folosi
metoda verosimilităţii maxime.
 Funcţia de verosimilitate L măsoară probabilitatea de observarea a unui

set particular de valori ale variabilei dependente (p1, p2,..., pn) ce apar în
eşantion:
n
L = prob( p1 * p2 * ... * pn ) =  p( xi ) yi (1 − p( xi ))1− yi
i =1
 Cu cât L este mai mare cu atât probabilitatea de observare a probabilităţilor

din eşantion este mai mare
REGRESIE LOGISTICĂ
 Metoda verosimilităţii maxime constă în determinarea coeficienţilor (,)
pentru care
 logaritmul funcţiei de verosimilitate (LL<0) este maxim

n n n
LL = ln( L) = ln( p( xi ) (1 − p( xi ))
yi 1− yi
) = − ln(1 + e
 + x
) +  yi ( +   x)
i =1 i =1 i =1
 Estimatorii de verosimilitate maximă verifică condiţia:
LL n
=0 {Y − p(Y = 1 / X )}X

i i i i =0
 i i =1
INTERPRETAREA COEFICIENŢILOR
 Atâta timp cât:
ln  p /(1 − p) =  + x + e
 coeficientul  poate fi interpretat ca fiind măsura în care se schimbă

logaritmii din odds ratio la schimbarea cu o unitate a lui x
 Sau exp() poate fi interpretat ca fiind măsura în care se schimbă odds ratio
la schimbarea cu o unitate a lui x
REGRESIE LOGISTICĂ
 EXEMPLU
 Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
 Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
 Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
 Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
 Variabilele incluse în analiză vor fi:
 Variabila dependentă: Y=1 dacă persoana are o armă proprietate personală şi

Y=0, altfel
 Variabilele independente:
 Sex: X1= (0 pentru sex masculin şi 1 pentru sex feminin
 Varstă: X2 = vârsta în număr de ani
 Educaţie: X3 = număr de ani de şcoală finalizaţi
Odds (posesor de arma) este

cu 59% pentru persoanele de sex
feminin comparativ cu cele
de sex masculin
sau
Persoanele de sex masculin sunt
de 1/0,41=2,43 ori mai frecvent
întalnite printre posesorii de arme
decât femeile.
Odds (posesor de arma) scade

cu 0,9% la creşterea vârstei cu
o unitate
Odds (posesor de arma) creşte

cu 4,3% la creşterea nivelului de
educaţie cu o unitate
La creşterea vârstei cu 10 ani odds (posesor de armă) scade de

(0,991)10=0,9136 ori, deci cu 8,64%.
METODE DE INCLUDERE A VARIABILELOR
ÎN ECUAŢIE
 Există mai multe metode de includere a variabilelor în ecuaţia de regresie
printer care:
 Toate variabilele independente sunt incluse simultan în ecuaţia de regresie
(ENTER method în SPSS)
 Variabilele sunt introduse în ordinea contribuţiei la semnificaţia statistică a
modelului (FORWARD Conditional în SPSS)
 Pentru toate metodele contribuţia la model este măsurată cu ajutorul

modelului 2 ca o măsură statistică a potrivirii între variabilele dependente şi
independente, de genul R2.
 Testul relaţiei între variabilele independente şi grupurile definite de variabila

dependentă este bazată pe reducerea valorii verosimilităţii pentru model
care nu conţine nici o variabilă independentă şi modelul care conţine
variabilele independente.
TESTAREA PARAMETRILOR
▪ Testul Wald pentru testarea coeficientului 
▪ Este similar testului t pentru testarea parametrilor modelului liniar de regresie
▪ Ipotezele:
▪ H0: coeficientul β este zero
▪ H1: coeficientul β este diferit de zero
▪ Statistica Wald este:

2
Wald =
Var(  )
~ 12
▪ 1,2
Pentru un nivel de semnificaţie α se extrage valoarea critică
▪ Regula de decizie:
Dacă Wald  1,

2
▪ se respinge H0
▪ Dacă Wald  12, se acceptă H0

Example
Variables in the Equation

B S.E. Wald df Sig. Exp(B) 95% C.I.for EXP(B)
Lower Upper
Step 1a SEX -.892 .147 37.078 1 .000 .410 .307 .546
Constant 1.183 .115 105.962 1 .000 3.263
Step 2b Varsta -.011 .004 7.599 1 .006 .989 .981 .997
SEX -.925 .148 39.130 1 .000 .396 .297 .530
Constant 1.728 .232 55.314 1 .000 5.631
Step 3c Varsta -.011 .004 6.907 1 .009 .989 .982 .997
educ .041 .020 4.051 1 .044 1.042 1.001 1.084
SEX -.931 .148 39.350 1 .000 .394 .295 .527
Constant 1.164 .364 10.213 1 .001 3.201
a. Variable(s) entered on step 1: SEX.
b. Variable(s) entered on step 2: Varsta.
c. Variable(s) entered on step 3: educ.
EVALUAREA PERFORMANŢEI MODELULUI
 Există câteva statistici ce pot fi folosite pentru compararea mai multor modele
alternative sau pentru evaluarea performanţei unui anumit model:
▪ 1. Raportul de verosimilitate
▪ 2. Procentul previziunilor corecte
▪ 3. Coeficienţi pentru măsurarea efectului variabilelor independente asupra

variabilei dependente:
▪ Statistica McFadden-R2,
▪ Cox Snell Pseudo R2 ,
▪ Nagelkerke Pseudo-R2
1. Raportul de verosimilitate
▪ Raportul de verosimilitate (LR) este:
LR[i] = -2[LL() - LL(, ) ] unde:
▪ LL( ) este logaritmul maximului funcţiei de verosimilitate pentru modelul fără variabile
independente incluse (modelul bazat pe șansă)
▪ LL(, ) este logaritmul maximului funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente (modelul logistic)
▪ Statistica LR(i) este distribuită 2 cu i grade de libertate, unde i este numărul

variabilelor independente
▪ Această statistică se foloseşte pentru a testa dacă modelul este statistic semnificativ:
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)
▪ Dacă LR(i) 2,i atunci se respinge H0 deci modelul este valid.

2. Procentul previziunilor corecte

3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
2
 LL( ,  )  n
 Coeficientul Cox Snell Pseudo R2: Cox Snell Pseudo R 2 = 1 −  
 LL ( ) 
2
 LL( ,  )  n
1−  
 LL ( ) 
 Coeficientul Nagelkerke Pseudo-R2 Nagelkerke Pseudo R 2 =
1 − − 2 LL( )n
2
LL( ,  )
 Statistica McFadden-R2: McFadden R 2 = 1 −
LL( )
unde:
▪ LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile
independente incluse
▪ LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente
3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
OBSERVAŢII:
▪Aceaste statistici sunt măsuri scalare care variază între 0 şi 1 foarte asemănătoare cu
statistica R2 a unui model liniar de regresie
▪Coeficientul Cox Snell Pseudo R2 nu poate atinge valoarea 1 nici chiar în cazul unui
model perfect
▪Coeficientul Nagelkerke Pseudo-R2 este o adaptare a coeficientului anterior pentru

extinderea intervalului de variaţie până la valoarea 1
▪Ce reprezintă o valoarea R2 bună variază în funcţie de aplicaţie. Aceşti coeficienţi sunt în
special utili pentru compararea mai multor modele de regresie logistică
Exemplu – identificarea deținătorilor de armă
 Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
 Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
 Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
 Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
 Variabilele incluse în analiză vor fi:
 Variabila dependentă: Y=1 dacă persoana are o armă proprietate personală şi

Y=0, altfel
 Variabilele independente:
 Sex: X1= (0 pentru sex masculin şi 1 pentru sex feminin
 Varstă: X2 = vârsta în număr de ani
 Educaţie: X3 = număr de ani de şcoală finalizaţi
 Pentru a identifica deținătorii de armă pe baza variabilelor Vârstă, Sex și Nivel de educație, aceste
trei variabile au fost incluse simultan într-un model de regresie logistică (Metoda ENTER).
Covergența algoritmului s-a produs rapid în 5 iterații. Toți coeficienții sunt semnificativi pentru un
nivel de semnificatie de cel puțin 0,05.
1. Validarea modelului pe baza raportului de verosimilitate
 LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile independente incluse.
În cazul problemei noastre -2LL( ) =1171,630.
 LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost incluse toate
variabilele independente. În cazul problemei noastre -2 LL(, ) = 1119,144
Raportul de verosimilitate (LR) este:
LR[i] = -2[LL() - LL(, ) ] =
=1171,630-1119,144 = 52,486
Sig=0,0000,001 deci se respinge H0 deci modelul
poate fi validat cu un nivel de semnificație de 0,001
 Sig=
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)
▪ LR(i)=52,486  20,05;3 = 7,81 deci se respinge H0 deci modelul este valid.
2. Calitatea modelului
 Cox&Snell R2 = 0,056

 Nagelkerke R2 = 0,077

Toti acești coeficienți sunt foarte apropiați de zero, deci

modelul este foarte slab.
 3. Procentul previziunilor corecte

Curs 10 - SN

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 10 - SN

Încărcat de

Drepturi de autor:

Formate disponibile

Statistică neparametrică

Modele de regresie logistică

 Estimarea parametrilor modelului de regresie logistică

 Evaluarea performanţei modelului

 Erorile sunt heteroscedastice

 Dacă  + x = 0 atunci p=0,5

 Prin transformarea logaritmică logit devin liniare

 Funcţia de verosimilitate L măsoară probabilitatea de observarea a unui

 Cu cât L este mai mare cu atât probabilitatea de observare a probabilităţilor

 logaritmul funcţiei de verosimilitate (LL<0) este maxim

 Estimatorii de verosimilitate maximă verifică condiţia:

=0 {Y − p(Y = 1 / X )}X

 coeficientul  poate fi interpretat ca fiind măsura în care se schimbă

 Variabila dependentă: Y=1 dacă persoana are o armă proprietate personală şi

Odds (posesor de arma) este

Odds (posesor de arma) scade

Odds (posesor de arma) creşte

La creşterea vârstei cu 10 ani odds (posesor de armă) scade de

 Pentru toate metodele contribuţia la model este măsurată cu ajutorul

 Testul relaţiei între variabilele independente şi grupurile definite de variabila

▪ Statistica Wald este:

Dacă Wald  1,

▪ Dacă Wald  12, se acceptă H0

Variables in the Equation

▪ 2. Procentul previziunilor corecte

▪ 3. Coeficienţi pentru măsurarea efectului variabilelor independente asupra

▪ Cox Snell Pseudo R2 ,

LR[i] = -2[LL() - LL(, ) ] unde:

▪ Statistica LR(i) este distribuită 2 cu i grade de libertate, unde i este numărul

▪ Dacă LR(i) 2,i atunci se respinge H0 deci modelul este valid.

▪Coeficientul Nagelkerke Pseudo-R2 este o adaptare a coeficientului anterior pentru

 Variabila dependentă: Y=1 dacă persoana are o armă proprietate personală şi

Raportul de verosimilitate (LR) este:

LR[i] = -2[LL() - LL(, ) ] =

▪ LR(i)=52,486  20,05;3 = 7,81 deci se respinge H0 deci modelul este valid.

Toti acești coeficienți sunt foarte apropiați de zero, deci

S-ar putea să vă placă și