Documente Academic
Documente Profesional
Documente Cultură
Mai 2023
Titular de curs: Prof.univ.dr.Cristina BOBOC
Email: cristina.boboc@csie.ase.ro
WEB page: www.cristinaboboc.wordpress.com
EVALUAREA PERFORMANŢEI MODELULUI
Există câteva statistici ce pot fi folosite pentru compararea mai multor modele
alternative sau pentru evaluarea performanţei unui anumit model:
▪ 1. Raportul de verosimilitate
▪ Statistica McFadden-R2,
▪ Nagelkerke Pseudo-R2
1. Raportul de verosimilitate
▪ Raportul de verosimilitate (LR) este:
▪ LL( ) este logaritmul maximului funcţiei de verosimilitate pentru modelul fără variabile
independente incluse (modelul bazat pe șansă)
▪ LL(, ) este logaritmul maximului funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente (modelul logistic)
▪ Această statistică se foloseşte pentru a testa dacă modelul este statistic semnificativ:
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)
LL( , )
Statistica McFadden-R2: McFadden R 2 = 1 −
LL( )
unde:
▪ LL( ) este logaritmul funcţiei de verosimilitate pentru modelul fără variabile
independente incluse
▪ LL(, ) este logaritmul funcţiei de verosimilitate pentru modelul în care au fost
incluse variabilele independente
3. Coeficienţi pentru măsurarea efectului variabilelor
independente asupra variabilei dependente
OBSERVAŢII:
▪Aceaste statistici sunt măsuri scalare care variază între 0 şi 1 foarte asemănătoare cu
statistica R2 a unui model liniar de regresie
▪Coeficientul Cox Snell Pseudo R2 nu poate atinge valoarea 1 nici chiar în cazul unui
model perfect
▪Ce reprezintă o valoarea R2 bună variază în funcţie de aplicaţie. Aceşti coeficienţi sunt în
special utili pentru compararea mai multor modele de regresie logistică
Exemplu – identificarea deținătorilor de armă
Un cercetător american este interesat să identifice variabilele cele mai bune pentru
a prezice un posesor de armă. Pentru aceasta el foloseşte sondajul de opinie
General Social Survey pe anul 2002 din America pentru a testa următoarele
ipoteze:
Bărbaţii sunt mai adesea proprietari ai unei arme decât femeile
Persoanele mai vârstnice sunt mai adesea proprietari ai unei arme decât persoanele tinere
Probabilitatea ca o persoană educată să fie proprietara unei arme este mai mică decât
pentru persoanele needucate
Variabilele incluse în analiză vor fi:
=1171,630-1119,144 = 52,486
Exemplu – identificarea deținătorilor de armă
Sig=0,0000,001 deci se respinge H0 deci modelul
poate fi validat cu un nivel de semnificație de 0,001
Sig=
▪ H0: modelul nu este valid (nu se produce nici o îmbunătățire în funcția de verosimilitate prin
introducerea celor trei variabile comparativ cu modelul bazat doar pe șansă)
▪ H1: modelul este valid (îmbunătățirea în funcția de verosimilitate prin introducerea celor trei variabile
este semnificativă comparativ cu modelul bazat doar pe șansă)
2. Calitatea modelului
Cox&Snell R2 = 0,056
Nagelkerke R2 = 0,077
Astfel vor fi trei ecuații, una pentru fiecare grup definit de variabila
dependentă.
Cele trei ecuații pot fi folosite pentru calculul probabilității ca un subiect să fie
membru al fiecăruia din cele trei grupuri. Un individ va fi prezis ca aparținând
grupului pentru care s-a obținut cea mai mare probabilitate de apartenență.
-2 Log
Model Likelihood Chi-Square df Sig.
Intercept Only 284.429
Final 265.972 18.457 6 .005
O măsură mai utilă pentru a judeca utilitatea unui model de regresie logistică
multinomială este acuratețea clasificării ce compară variabila dependentă cu
apartenența la un grup previzionată prin model: (numarul cazurilor correct
clasificate raportat la num[rul total de observatii)
Etalonul ce va fi folosit pentru a caracteriza un model de regresie logistică
multinomială ca fiind util este de 25% îmbunătățire față de acuratețea
obținută prin șansă (utilizarea doar a probabilităților asociate șansei de a se
afla într-un anume grup -predicția realizată fără a lua în calcul vreo variabilă
independentă).
Calculul acurateții modelului
Case Processing Sum mary
Marginal
N Percentage
HIGHWAYS 1 62 37.1%
AND BRIDGES 2 93 55.7%
3 12 7.2%
Valid 167 100.0%
Missing 103
Total 270
Subpopulation 153a Acuratețea obținută prin șansă:
a. The dependent variable has only one value observed
0,557
in 146 (95.4%) subpopulations.
Acuratețea minimă a unui model util: 1,25 x
0,557 = 0,696
Classification
Predicted
Percent
Observed 1 2 3 Correct
1 15 47 0 24.2%
2 7 86 0 92.5%
3 5 7 0 .0%
Overall Percentage 16.2% 83.8% .0% 60.5% 60.5% 69,6%
modelul nu este util
Probleme numerice
Metoda verosimilității maxime utilizată pentru estimarea parametrilor
modelului de regresie logistică multinomială este un proces iterativ ce poate
cicla uneori
-2 Log
Likelihood of Există o legătură statistică
Reduced semnificativă intre variabila
Effect Model Chi-Square df Sig. independentă CONLEGIS și
Intercept 268.323 2.350 2 .309 variabila dependentă. (0.010 <
0.05)
AGE 268.625 2.652 2 .265
EDUC 270.395 4.423 2 .110
CONLEGIS 275.194 9.221 2 .010
The chi-square statistic is the difference in -2 log-likelihoods
between the final model and a reduced model. The reduced model is
Parameter Estimates
formed by omitting an effect from the final model. The null hypothesis
is that all parameters of that effect are 0.
95% Confidence Interval for
HIGHWAYS Exp(B)
a Variabila
AND BRIDGES B Std. Error Wald df Sig. Exp(B) LowerCONLEGIS
Bound Upper Bound
1 Intercept 3.240 2.478 1.709 1 .191 diferențiază
AGE .019 .020 .906 1 .341 1.019 semnificativ
.980 1.061
EDUC .071 .108 .427 1 .514 1.073 cele trei
.868 1.327
CONLEGIS -1.373 .620 4.913 1 .027 .253 categorii
.075 ale .853
variabilei
2 Intercept 3.639 2.456 2.195 1 .138
dependente
AGE .003 .020 .017 1 .897 1.003 .963 < 0.05
(0.027 1.043
EDUC .172 .110 2.463 1 .117 1.188 și .958 1.474
CONLEGIS -1.657 .613 7.298 1 .007 .191 0,007
.057 < 0.05) .635
a. The reference category is: 3.