Sunteți pe pagina 1din 25

Regresia logistic binomial

M. Popa
cuprins
Introducere
Similitudini cu regresia liniar
Caracteristici specifice regresiei logistice
Volumul eantionului
Modelul regresiei logistice
Expresia grafic a regresiei
Concepte cheie n regresia logistic
Expresia matematic a regresiei logistice
Efectuarea regresiei logistice cu SPSS
Setarea procedurii SPSS
Analiza rezultatelor
Raportarea regresiei logistice
regresia logistic
Model de predicie n care VD (criteriu), este de natur
categorial
regresia logistic binomial
VD este de tip dihotomic (are doar dou categorii)
Persoanele supuse unei situaii traumatice: s fac sau s nu fac
PTSD
Studenii piloi: s finalizeze sau s nu finalizeze coala de pilotaj?
Pasagerii de pe Titanic: s moar sau s se salveze
regresia logistic multinomial
VD are mai multe categorii
De ex.: tipologia delincvenilor care fur: furt din locuine,
furt de buzunare, furt cibernetic
Tipuri de regresie logistic
O singur VI Mai multe VI
VD
dihotomic
RL
binomial simpl
RL
binomial multipl
VD
mai mult de dou categorii
RL
multinomial simpl
RL
multinomial multipl
utilizat cu precdere n studiile epidemiologice
identificarea caracteristicilor individuale asociate cu
contractarea anumitor boli
a ctigat mult n popularitate n afara domeniului
medical
util cu precdere dac distribuia valorilor VD este
neliniar n raport cu mai multe VI
atunci cnd valorile VI au o pondere diferit asupra VD
De ex.: probabilitatea de a pica la un examen poate fi afectat n
mai mic msur de o diferen de 2 uniti QI n cazul
candidailor cu QI ridicat, dect n cazul celor cu QI mai sczut
relativ rar utilizat n cercetrile psihologice, dar
tendin de cretere important
TOP 10 - psihologia I/O din ultimele doua decenii
Regresia logistic binomial poate fi utilizat pentru:
1) Identificarea variabilelor care caracterizeaz (explic,
prezic) dou grupuri diferite
utilizeaz/nu utilizeaz internetul;
admii/respini la un concurs de angajare
fac/nu fac accident n primul an dup luarea permisului autor
recidiviti/nerecidiviti dup eliberarea condiionat;
fac/nu fac PTSD dup un cutremur;
au/nu au cont pe Facebook etc.
2) Identificarea variabilelor care nu difereniaz ntre
aceste grupuri
3) Efectuarea de predicii cu privire la probabilitatea ca un
anumit individ (caz) s fac parte dintr-un grup sau altul
Similitudini cu regresia liniar
Se analizeaz relaia dintre o VD (criteriu) i una sau mai
multe VI (predictori).
Predictorii (VI) pot fi:
cantitativi
calitativi (nominal, ordinal)
Putem utiliza:
un singur predictor (regresie logistic simpl)
mai muli predictori (regresie logistic multipl).
Exist teste de semnificaie pentru relaia individual
dintre fiecare predictor i criteriu
Se calculeaz coeficieni de regresie (constant i
coeficieni B) care descriu contribuia fiecrui predictor
Exist o expresie grafic a modelului de predicie
Diferene fa de regresia liniar
Criteriul (VD) poate fi exprimat numai pe scal nominal
Predictorii categoriali trebuie declarai ca atare
Impactul VI asupra VD este evaluat pentru fiecare VI n parte
dar este posibil i evaluarea efectului combinat a unor predictori
asupra criteriului
regresia logistic estimeaz probabilitatea ca fiecare caz s
fie inclus ntr-una sau alta din categoriile definite de VD
(regresia liniar vizeaz predicia valorilor VD)
dac tim greutatea i nlimea unor persoane putem calcula
probabilitatea ca fiecare dintre acestea s fie brbat sau femeie
nu se bazeaz pe minimalizarea sumei ptratelor, ci pe
maximizarea ansei de apartenen a fiecrui caz la una sau
alta din categoriile VD
Modelul grafic de predicie are o form special, care decurge
din natura logaritmic a relaiei dintre valorile VI i VD
avantaje
nu este condiionat de multe din restriciile
impuse de regresia liniar
Nu presupune existena unei relaii liniare ntre
criteriu i predictori.
VD (criteriul) nu trebuie s aib o distribuie normal
VD nu trebuie s aib o variabilitate omogen
(homoscedasticitate) n raport cu valorile variabilelor
independente.
Nu presupune distribuia normal a valorilor reziduale
Suport predictori msurai pe orice tip de scal
Atenie
interpretarea rezultatelor regresiei logistice
trebuie fcut cu reinere
modelul de predicie este limitat la predictorii
utilizai, dar pot exista i predictori care au fost,
voluntar sau nu, ignorai
capacitatea predictiv a modelului nu
funcioneaz dect n limitele de variaie a datelor
existente
predicia este nesigur pentru valori ale predictorilor
care nu au fost incluse n model
Volumul eantionului
n mod necesar, mare
minim 50 de subieci pentru fiecare predictor
sau 20-30 subieci/predictor n cazul unui eantion de
peste 300 de subieci (Wright, apud Sava, 2004);
cel puin 10 subieci/predictor, dar nu mai puin de 100 de
subieci n total (Long, apud DeMaris, 2003);
cel puin 150 de subieci (Braunstein, 2007)
pentru un nivel alfa 0.05, o mrime medie a efectului i o
putere de 0.80: un eantion de 300 subieci (Hsieh, Block,
& Larsen, 1998)
se poate ajunge chiar i la necesitatea unui eantion de
1000 de subieci pentru a se atinge o putere de 0.80
(Braunstein, 2007)
Numrul predictorilor
n general, mai puini dect n regresia liniar
multipl
pt. c VD exprimat categorial, conine mai puin
informaie
maxim o VI pentru fiecare 10 cazuri din eantion
dac exist VI categoriale, numrul VI va lua drept
referin numrul cazurilor aferente celei mai slab
reprezentate categorii
dac eantionul cuprinde 100 de brbai i 50 de femei, numrul
femeilor va fi luat drept referin
potrivit regulii 1/10, nu vom putea utiliza mai mult de 5 predictori
Concepte cheie n regresia logistic
Raportul de ans (odds ratio)
unul dintre cele mai importante concepte din analiza de regresie
logistic
cuantific impactul predictorului asupra criteriului
De ex.:
eantion de 100 de delincveni minori
70 provin din familii dezorganizate (probabilitate=0.70)
30 provin din familii structurate (probabilitate=0.30)
Raportul de ans pt. minorii din familii destrmate de a
deveni delincveni: 0.7/0.3=2.33
Raportul de ans pt. minorii din familii structurate de a
delincveni: 0.3/0.7=0.428
n timp ce probabilitile iau valori ntre 0 i 1, raportul lor poate
lua valori orict de mari (la infinit) sau orict de mici (0)
neaparitie de ate probabilit
aparitie de atea probabilit
ratio odds
_ _
_ _
_
Un exemplu cu predictor categorial
PROBABILITATEA DE ACCIDENT PENTRU BRBAI:
40/50=0.80
PROBABILITATEA DE ACCIDENT PENTRU FEMEI:
10/50=0.20
RAPORTUL DE ANS ACCIDENT M/F: 0.8/0.2=4
brbaii au de 4 ori mai multe anse s fac accident n primul an, comparativ
cu femeile
RAPORT DE ANS ACCIDENT F/M: 0.2/0.8=0.25
femeile au de 4 ori mai puine anse s fac accident n primul an, comparativ cu
brbaii
IV
DV
M F TOTAL
Brbai
(odds)
Femei
(odds)
Raport ansa
odds ratio M/F
Odds ratio F/M
Accident 40 10 50 40/50=0.8 10/50=0.20
0.8/0.2=4.0
0.2/0.8=0.25
Non-accident 15 30 45 15/45=0.33 30/45=0.66
0.33/0.66=0.5
0.66/0.33=2
Concepte cheie n regresia logistic
Coeficienii logit
funcie similar cu coeficienii B din regresia liniar
Exist i coeficieni logit standardizai, corespunztori
coeficienilor standardizai beta din regresia liniar
Se calculeaz ca logaritm natural (ln) al raportului de ans
(odds ratio)
ln=puterea la care trebuie ridicat numrul e (2.71828)
EXEMPLU: ln(8)=2.07 (8=2.71828
2.07
)
Expresia grafic a regresiei logistice
linia de regresie logistic are o form special,
numit sigmoid
Forma acesteia ia aspecte particulare n funcie de
natura relaiei dintre VI i VD
se construiete pe baza unor coeficieni logaritmici (logit)
relaia dintre predictor i criteriu nu are un caracter
liniar
logaritmarea este o modalitate prin care o relaie neliniar
n realitate este exprimat ntr-o form liniar, depindu-
se astfel nclcare condiiei de liniaritate
INSUCCES
SUCCES
90%
70% 50% 30% 10% 90%
30% 50% 70% 10%
Concepte cheie n regresia logistic
Estimarea verosimilitii maxime (maximum-likelihood
estimation - MLE)
echivalentul metodei minimizrii sumei ptratelor din regresia liniar
se bazeaz pe transformarea VD ntr-o variabil de tip logit (logaritmul
natural al ansei ca evenimentul s se produc sau nu)
n regresia logistic se estimeaz probabilitatea de apariie a unuia din
evenimentele posibile definite de categoriile criteriului
se obine o valoare estimat a criteriului pentru fiecare subiect n
parte
MLE este un algoritm iterativ, utilizat pentru calcularea coeficienilor
logit ai ecuaiei de regresie
la primul pas se fixeaz o valoare arbitrar a coeficienilor logit
apoi se determin direcia i mrimea cu care acetia sunt modificai pentru a
mri verosimilitatea logaritmic (log likelihood - LL)
la paii urmtori valorile reziduale sunt retestate i are loc re-estimarea LL
procesul se repet de mai multe ori, pn ce LL nu se mai modific
semnificativ
Concepte cheie n regresia logistic
Mrimea efectului regresiei logistice
Exist mai muli coeficieni R
2
, care cuantific intensitatea
relaiei dintre predictori i criteriu
nu exist un coeficient general acceptat, deoarece
calcularea lor ridic probleme teoretice (sunt denumii i
pseudo R
2
)
toate variantele lor descriu, n esen, acelai lucru
Coeficienii R
2
pot fi i discordani!!
la fel ca i coeficientul R
2
din regresia liniar, coeficienii R
2
din regresia logistic pot fi interpretai ca procentul
varianei VD ce este explicat de variana VI
SPSS calculeaz doi coeficieni de mrime a efectului:
R
2
al lui Cox & Snell
R
2
al lui Nagelkerke
Concepte cheie n regresia logistic
Teste de semnificaie
sunt efectuate diverse teste de semnificaie
teste cu privire la modelul general de regresie
teste cu privire la coeficienii individuali de predicie (odds ratio) ai
fiecrei VI
Coeficienii odds ratio au semnificaia unor indici de
mrime a efectului pentru fiecare predictor n parte:
d Cohen
0.20 0.50 0.80
odds ratio 1.28 1.87 2.68
Alegerea predictorilor
interesul principal:
predictori care au o ct mai mare for de predicie asupra criteriului
Pentru identificarea lor:
se pot utiliza o serie de indicatori ai regresiei logistice, cum ar fi:
nrutirea prediciei n lipsa unui anumit predictor
evaluarea semnificaiei coeficienilor de pondere (B) ai fiecrui predictor
ct de mult se modific raportul probabilitilor (odds ratio) atunci cnd un
predictor este eliminat
invocarea unor argumente teoretice, sprijinul pe rezultate ale
unor cercetri anterioare sau statistici bivariate ntre VD i
fiecare VI n parte (testul t, chi-ptrat, .a.)
Intuiie
interaciunea predictorilor este un fapt nedorit
Totui, se pot introduce n model i interaciuni ntre predictori
metod utilizat cu precauie
Expresia matematic a regresiei logistice
Formula de calcul a VD (logit)
Convertirea valorii logit n
probabiliti:
Regresia binomial simpl
Regresia binomial multipl
p
p
1
ln
X b b
X b b
e
e
Y P
1 0
1 0
1
) (

k k
k k
X b X b X b b
X b X b X b b
e
e
Y P

2 2 1 1 0
2 2 1 1 0
1
) (
Exemplu cu un predictor cantitativ:
Predicia promovrii la statistic
pe baza numrului de prezene la curs
VD: trecut=1/picat=0 la statistic
VI: numr de absene
Constanta (a)=3.5; b=-.529
P(Y=0)=0.97
Y (Y=1)=0.95
X b b
X b b
e
e
Y P
1 0
1 0
1
) (

Tema sptmnal
Cutai cel puin doua cercetri n care este utilizat
regresia logistic binomial

S-ar putea să vă placă și