Sunteți pe pagina 1din 21

Statistică neparametrică

Modele de regresie logistică (II)

Mai 2023
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
EVALUAREA PERFORMANŢEI MODELULUI
 Există câteva statistici ce pot fi folosite pentru compararea mai multor modele
alternative sau pentru evaluarea performanţei unui anumit model:

▪ 1. Raportul de verosimilitate

▪ 2. Procentul previziunilor corecte

▪ 3. Coeficienţi pentru măsurarea efectului variabilelor independente asupra


variabilei dependente:

▪ Statistica McFadden-R2,

▪ Cox Snell Pseudo R2 ,

▪ Nagelkerke Pseudo-R2
1. Raportul de verosimilitate
▪ Raportul de verosimilitate (LR) este:

LR[i] = -2[LL() - LL(, ) ] unde:

▪ LL( ) este logaritmul maximului funcţiei de verosimilitate pentru modelul fără variabile
independente incluse (modelul bazat pe șansă)
▪ LL(, ) este logaritmul maximului funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente (modelul logistic)

▪ Statistica LR(i) este distribuită 2 cu i grade de libertate, unde i este numărul


variabilelor independente

▪ Această statistică se foloseşte pentru a testa dacă modelul este statistic semnificativ:
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)

▪ Dacă LR(i) 2,i atunci se respinge H0 deci modelul este valid.


2. Procentul previziunilor corecte

3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
2
 LL( ,  )  n
 Coeficientul Cox Snell Pseudo R2: Cox Snell Pseudo R 2 = 1 −  
 LL ( ) 
2
 LL( ,  )  n
1−  
 LL ( ) 
 Coeficientul Nagelkerke Pseudo-R2 Nagelkerke Pseudo R 2 =
1 − − 2 LL( )n
2

LL( ,  )
 Statistica McFadden-R2: McFadden R 2 = 1 −
LL( )

unde:
▪ LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile
independente incluse
▪ LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente
3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
OBSERVAŢII:

▪Aceaste statistici sunt măsuri scalare care variază între 0 şi 1 foarte asemănătoare cu
statistica R2 a unui model liniar de regresie

▪Coeficientul Cox Snell Pseudo R2 nu poate atinge valoarea 1 nici chiar în cazul unui
model perfect

▪Coeficientul Nagelkerke Pseudo-R2 este o adaptare a coeficientului anterior pentru


extinderea intervalului de variaţie până la valoarea 1

▪Ce reprezintă o valoarea R2 bună variază în funcţie de aplicaţie. Aceşti coeficienţi sunt în
special utili pentru compararea mai multor modele de regresie logistică
Exemplu – identificarea deținătorilor de armă
 Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
 Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
 Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
 Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
 Variabilele incluse în analiză vor fi:

 Variabila dependentă: Y=1 dacă persoana are o armă proprietate personală şi


Y=0, altfel
 Variabilele independente:
 Sex: X1= (0 pentru sex masculin şi 1 pentru sex feminin
 Varstă: X2 = vârsta în număr de ani
 Educaţie: X3 = număr de ani de şcoală finalizaţi
Exemplu – identificarea deținătorilor de armă
 Pentru a identifica deținătorii de armă pe baza variabilelor Vârstă, Sex și Nivel de educație, aceste
trei variabile au fost incluse simultan într-un model de regresie logistică (Metoda ENTER).
Covergența algoritmului s-a produs rapid în 5 iterații. Toți coeficienții sunt semnificativi pentru un
nivel de semnificatie de cel puțin 0,05.
1. Validarea modelului pe baza raportului de verosimilitate
 LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile independente incluse.
În cazul problemei noastre -2LL( ) =1171,630.
 LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost incluse toate
variabilele independente. În cazul problemei noastre -2 LL(, ) = 1119,144

Raportul de verosimilitate (LR) este:

LR[i] = -2[LL() - LL(, ) ] =

=1171,630-1119,144 = 52,486
Exemplu – identificarea deținătorilor de armă
Sig=0,0000,001 deci se respinge H0 deci modelul
poate fi validat cu un nivel de semnificație de 0,001
 Sig=

▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)

▪ LR(i)=52,486  20,05;3 = 7,81 deci se respinge H0 deci modelul este valid.

2. Calitatea modelului

 Cox&Snell R2 = 0,056

 Nagelkerke R2 = 0,077

Toti acești coeficienți sunt foarte apropiați de zero, deci


modelul este foarte slab.
Exemplu – identificarea deținătorilor de armă
 3. Procentul previziunilor corecte
Statistică neparametrică
Modele de regresie logistică multinomială
DE CE ŞI CÂND SE FOLOSEŞTE
REGRESIA LOGISTICĂ MULTINOMIALĂ?
 Regresia logistică multinomială este folosită pentru analiza relațiilor dintre
o variabilă dependentă calitativă și o mulțime de variabile independente fie
binare fie cantitative.

 Regresia logistică multinomială compară mai multe grupuri printr-o


combinație de regresii logistice binare

 Grupul de comparații este echivalent cu comparațiile pentru o variabilă


dependentă binară cu grupul cu cel mai mare scor numeric folosit ca grup de
referință

 De exemplu dacă dorim să studiem diferențele dintre studenții cu licență,


master și doctorat folosind regresie logistică multinomială, analiza va
compara studenții cu licență față de cei cu doctorat și studenții cu master
față de cei cu doctorat. Pentru fiecare variabilă independentă vor fi două
comparații.
Ce prezice regresia logistică multinomială?
 Regresia logistică multinomială va furniza un set de coeficienți pentru fiecare
din cele două comparații. Coeficienții grupului de referință vor fi toți zero.

 Astfel vor fi trei ecuații, una pentru fiecare grup definit de variabila
dependentă.

 Cele trei ecuații pot fi folosite pentru calculul probabilității ca un subiect să fie
membru al fiecăruia din cele trei grupuri. Un individ va fi prezis ca aparținând
grupului pentru care s-a obținut cea mai mare probabilitate de apartenență.

 Grupul de apartenență prezis poate fi comparat cu grupul actual de


apartenență pentru obținerea unei măsuri de acuratețe a clasificării.
Tipul variabilelor incluse în analiză și ipoteze
 În regresia logistică multinomială variabila dependentă trebuie să fie
calitativă. Variabilele binare, nominale sau ordinale satisfac cerințele asupra
scalei de măsurare a variabilei dependente.

 În regresia logistică multinomială variabilele independente trebuie să fie


cantitative sau binare. Variabilele nominale pot fi codificate și transformate în
variabile binare.

 În SPSS variabilele independente calitative sunt introduse ca ”factori”

 În SPSS variabilele independente cantitative sunt introduse ca ”covariates”


Ipoteze și dimensiunea eșantionului
 Regresia logistică multinomială nu face nici o presupunere asupra
normalității, linearității sau omogenității varianței pentru variabilele
independente

 Numărul minim de observații pentru fiecare variabilă independentă este 10,


însă raportul preferat dintre numărul de observații și variabile folosite este 20
(Hosmer&Lemershow – Applied Logistic Regression).
Testarea legăturii între variabile
 Testarea legăturii între variabilele independente și grupurile definite de
variabila dependentă se bazează pe maximizarea valorilor funcției de
verosimilitate în modelul ce conține variabilele independente comparativ cu
cel ce nu conține nici o variabilă independentă.
 Această diferență în verosimilitatea urmează o distribuție 2 și este cunoscut
ca modelul 2.
 Nivelul de semnificație pentru modelul final 2 (după ce variabilele
independente au fost introduse) este semnificația statistică a prezenței
relației între variabila dependentă și combinația de variabile independente.
Model Fitting Information

-2 Log
Model Likelihood Chi-Square df Sig.
Intercept Only 284.429
Final 265.972 18.457 6 .005

Ipoteza nulă: nu există diferență între modelul în care


au fost introduse variabilele independente și cel în care
nu au fost introduse acestea - se respinge pentru un
nivel de semnificație de 0,05. Deci modelul poate fi
validat.
Intensitatea legăturii unui model de regresie
logistică multinomială
 În timp ce regresia logistică multinomială calculează o măsură a corelației
pentru estimarea intensității legăturii (măsurile Pseudo R2, Nagelkerke R2)
aceste măsuri ale corelațiilor nu ne dau prea multe informații cu privire la
acuratețea estimărilor/predicțiilor făcute de model.

 O măsură mai utilă pentru a judeca utilitatea unui model de regresie logistică
multinomială este acuratețea clasificării ce compară variabila dependentă cu
apartenența la un grup previzionată prin model: (numarul cazurilor correct
clasificate raportat la num[rul total de observatii)
 Etalonul ce va fi folosit pentru a caracteriza un model de regresie logistică
multinomială ca fiind util este de 25% îmbunătățire față de acuratețea
obținută prin șansă (utilizarea doar a probabilităților asociate șansei de a se
afla într-un anume grup -predicția realizată fără a lua în calcul vreo variabilă
independentă).
Calculul acurateții modelului
Case Processing Sum mary

Marginal
N Percentage
HIGHWAYS 1 62 37.1%
AND BRIDGES 2 93 55.7%
3 12 7.2%
Valid 167 100.0%
Missing 103
Total 270
Subpopulation 153a  Acuratețea obținută prin șansă:
a. The dependent variable has only one value observed
0,557
in 146 (95.4%) subpopulations.
 Acuratețea minimă a unui model util: 1,25 x
0,557 = 0,696

Classification

Predicted
Percent
Observed 1 2 3 Correct
1 15 47 0 24.2%
2 7 86 0 92.5%
3 5 7 0 .0%
Overall Percentage 16.2% 83.8% .0% 60.5%  60.5%  69,6% 
modelul nu este util
Probleme numerice
 Metoda verosimilității maxime utilizată pentru estimarea parametrilor
modelului de regresie logistică multinomială este un proces iterativ ce poate
cicla uneori

 Câteodată metoda se poate opri fără a fi convergentă

 Câteodată această metodă poate furniza răspunsuri ce este puțin probabil a


fi adevărate. De exemplu poate furniza estimatori ce ar arăta creșteri ale
ODDS de sute de mii sau milioane de ori.

 Un indiciu al apariției problemelor numerice și pe care nu ar trebui să le


interpretăm este includerea în model a unor variabile independente cu erori
standard mai mari decât 2.
Legătura dintre variabilele independente
individuale și variabila dependentă
 Există două tipuri de teste pentru variabilele independente individuale:
 Testul raportului de verosimilitate ce evaluează legătura între variabila
independentă și variabila dependentă în totalitate
 Testul Wald ce evaluează dacă o variabilă independentă este statistic semnificativ
în diferențierea celor două grupuri pentru fiecare regresie logistică binară realizată

 Dacă o variabilă independentă are influență asupra unei variabile


dependente, aceasta poate să diferențieze sau nu perechile de grupuri
formate pornind de la variabila dependentă

 Interpretarea unei variabile independente trebuie să fie îndreptată asupra


abilității acesteia de a distinge între perechile de grupuri și contribuția pe
care o are la schimbarea ODDS.

 Nu ar trebui să interpretăm influența pe care o are o variabilă independentă


în diferențierea grupurilor determinate de variabila dependentă decât dacă
există o legătură semnificativă statistic între cele două variabile per total.
Legătura dintre variabilele independente
individuale și variabila dependentă
Likelihood Ratio Tests

-2 Log
Likelihood of Există o legătură statistică
Reduced semnificativă intre variabila
Effect Model Chi-Square df Sig. independentă CONLEGIS și
Intercept 268.323 2.350 2 .309 variabila dependentă. (0.010 <
0.05)
AGE 268.625 2.652 2 .265
EDUC 270.395 4.423 2 .110
CONLEGIS 275.194 9.221 2 .010
The chi-square statistic is the difference in -2 log-likelihoods
between the final model and a reduced model. The reduced model is
Parameter Estimates
formed by omitting an effect from the final model. The null hypothesis
is that all parameters of that effect are 0.
95% Confidence Interval for
HIGHWAYS Exp(B)
a Variabila
AND BRIDGES B Std. Error Wald df Sig. Exp(B) LowerCONLEGIS
Bound Upper Bound
1 Intercept 3.240 2.478 1.709 1 .191 diferențiază
AGE .019 .020 .906 1 .341 1.019 semnificativ
.980 1.061
EDUC .071 .108 .427 1 .514 1.073 cele trei
.868 1.327
CONLEGIS -1.373 .620 4.913 1 .027 .253 categorii
.075 ale .853
variabilei
2 Intercept 3.639 2.456 2.195 1 .138
dependente
AGE .003 .020 .017 1 .897 1.003 .963 < 0.05
(0.027 1.043
EDUC .172 .110 2.463 1 .117 1.188 și .958 1.474
CONLEGIS -1.657 .613 7.298 1 .007 .191 0,007
.057 < 0.05) .635
a. The reference category is: 3.

S-ar putea să vă placă și