Sunteți pe pagina 1din 25

Regresia logistic binomial

M. Popa

cuprins
Introducere
Similitudini cu regresia liniar
Caracteristici specifice regresiei logistice
Volumul eantionului

Modelul regresiei logistice


Expresia grafic a regresiei
Concepte cheie n regresia logistic
Expresia matematic a regresiei logistice

Efectuarea regresiei logistice cu SPSS


Setarea procedurii SPSS
Analiza rezultatelor

Raportarea regresiei logistice

regresia logistic
Model de predicie n care VD (criteriu), este de natur
categorial

regresia logistic binomial


VD este de tip dihotomic (are doar dou categorii)
Persoanele supuse unei situaii traumatice: s fac sau s nu fac
PTSD
Studenii piloi: s finalizeze sau s nu finalizeze coala de pilotaj?
Pasagerii de pe Titanic: s moar sau s se salveze

regresia logistic multinomial


VD are mai multe categorii
De ex.: tipologia delincvenilor care fur: furt din locuine,
furt de buzunare, furt cibernetic

Tipuri de regresie logistic


O singur VI

Mai multe VI

VD
dihotomic

RL
binomial simpl

RL
binomial multipl

VD
mai mult de dou categorii

RL
multinomial simpl

RL
multinomial multipl

utilizat cu precdere n studiile epidemiologice


identificarea caracteristicilor individuale asociate cu
contractarea anumitor boli

a ctigat mult n popularitate n afara domeniului


medical
util cu precdere dac distribuia valorilor VD este
neliniar n raport cu mai multe VI
atunci cnd valorile VI au o pondere diferit asupra VD
De ex.: probabilitatea de a pica la un examen poate fi afectat n
mai mic msur de o diferen de 2 uniti QI n cazul
candidailor cu QI ridicat, dect n cazul celor cu QI mai sczut

relativ rar utilizat n cercetrile psihologice, dar


tendin de cretere important
TOP 10 - psihologia I/O din ultimele doua decenii

Regresia logistic binomial poate fi utilizat pentru:


1) Identificarea variabilelor care caracterizeaz (explic,
prezic) dou grupuri diferite

utilizeaz/nu utilizeaz internetul;


admii/respini la un concurs de angajare
fac/nu fac accident n primul an dup luarea permisului autor
recidiviti/nerecidiviti dup eliberarea condiionat;
fac/nu fac PTSD dup un cutremur;
au/nu au cont pe Facebook etc.

2) Identificarea variabilelor care nu difereniaz ntre


aceste grupuri
3) Efectuarea de predicii cu privire la probabilitatea ca un
anumit individ (caz) s fac parte dintr-un grup sau altul

Similitudini cu regresia liniar


Se analizeaz relaia dintre o VD (criteriu) i una sau mai
multe VI (predictori).
Predictorii (VI) pot fi:
cantitativi
calitativi (nominal, ordinal)

Putem utiliza:
un singur predictor (regresie logistic simpl)
mai muli predictori (regresie logistic multipl).

Exist teste de semnificaie pentru relaia individual


dintre fiecare predictor i criteriu
Se calculeaz coeficieni de regresie (constant i
coeficieni B) care descriu contribuia fiecrui predictor
Exist o expresie grafic a modelului de predicie

Diferene fa de regresia liniar


Criteriul (VD) poate fi exprimat numai pe scal nominal
Predictorii categoriali trebuie declarai ca atare
Impactul VI asupra VD este evaluat pentru fiecare VI n parte
dar este posibil i evaluarea efectului combinat a unor predictori
asupra criteriului

regresia logistic estimeaz probabilitatea ca fiecare caz s


fie inclus ntr-una sau alta din categoriile definite de VD
(regresia liniar vizeaz predicia valorilor VD)
dac tim greutatea i nlimea unor persoane putem calcula
probabilitatea ca fiecare dintre acestea s fie brbat sau femeie

nu se bazeaz pe minimalizarea sumei ptratelor, ci pe


maximizarea ansei de apartenen a fiecrui caz la una sau
alta din categoriile VD
Modelul grafic de predicie are o form special, care decurge
din natura logaritmic a relaiei dintre valorile VI i VD

avantaje
nu este condiionat de multe din restriciile
impuse de regresia liniar
Nu presupune existena unei relaii liniare ntre
criteriu i predictori.
VD (criteriul) nu trebuie s aib o distribuie normal
VD nu trebuie s aib o variabilitate omogen
(homoscedasticitate) n raport cu valorile variabilelor
independente.
Nu presupune distribuia normal a valorilor reziduale
Suport predictori msurai pe orice tip de scal

Atenie
interpretarea rezultatelor regresiei logistice
trebuie fcut cu reinere
modelul de predicie este limitat la predictorii
utilizai, dar pot exista i predictori care au fost,
voluntar sau nu, ignorai
capacitatea predictiv a modelului nu
funcioneaz dect n limitele de variaie a datelor
existente
predicia este nesigur pentru valori ale predictorilor
care nu au fost incluse n model

Volumul eantionului
n mod necesar, mare
minim 50 de subieci pentru fiecare predictor
sau 20-30 subieci/predictor n cazul unui eantion de
peste 300 de subieci (Wright, apud Sava, 2004);
cel puin 10 subieci/predictor, dar nu mai puin de 100 de
subieci n total (Long, apud DeMaris, 2003);
cel puin 150 de subieci (Braunstein, 2007)
pentru un nivel alfa 0.05, o mrime medie a efectului i o
putere de 0.80: un eantion de 300 subieci (Hsieh, Block,
& Larsen, 1998)
se poate ajunge chiar i la necesitatea unui eantion de
1000 de subieci pentru a se atinge o putere de 0.80
(Braunstein, 2007)

Numrul predictorilor
n general, mai puini dect n regresia liniar
multipl
pt. c VD exprimat categorial, conine mai puin
informaie
maxim o VI pentru fiecare 10 cazuri din eantion
dac exist VI categoriale, numrul VI va lua drept
referin numrul cazurilor aferente celei mai slab
reprezentate categorii
dac eantionul cuprinde 100 de brbai i 50 de femei, numrul
femeilor va fi luat drept referin
potrivit regulii 1/10, nu vom putea utiliza mai mult de 5 predictori

Concepte cheie n regresia logistic


Raportul de ans (odds ratio)
unul dintre cele mai importante concepte din analiza de regresie
logistic

probabilitatea _ de _ aparitie
odds _ ratio
probabilitate _ de _ neaparitie
cuantific impactul predictorului asupra criteriului
De ex.:
eantion de 100 de delincveni minori
70 provin din familii dezorganizate (probabilitate=0.70)
30 provin din familii structurate (probabilitate=0.30)

Raportul de ans pt. minorii din familii destrmate de a


deveni delincveni: 0.7/0.3=2.33
Raportul de ans pt. minorii din familii structurate de a
delincveni: 0.3/0.7=0.428
n timp ce probabilitile iau valori ntre 0 i 1, raportul lor poate
lua valori orict de mari (la infinit) sau orict de mici (0)

Un exemplu cu predictor categorial


IV
DV

TOTAL

Brbai
(odds)

Femei
(odds)

Raport ansa
odds ratio M/F
Odds ratio F/M
0.8/0.2=4.0

Accident

40

10

50

40/50=0.8

10/50=0.20

0.2/0.8=0.25

Non-accident

15

30

45

15/45=0.33

30/45=0.66

0.33/0.66=0.5
0.66/0.33=2

PROBABILITATEA DE ACCIDENT PENTRU BRBAI:


40/50=0.80

PROBABILITATEA DE ACCIDENT PENTRU FEMEI:


10/50=0.20

RAPORTUL DE ANS ACCIDENT M/F: 0.8/0.2=4


brbaii au de 4 ori mai multe anse s fac accident n primul an, comparativ
cu femeile

RAPORT DE ANS ACCIDENT F/M: 0.2/0.8=0.25


femeile au de 4 ori mai puine anse s fac accident n primul an, comparativ cu
brbaii

Concepte cheie n regresia logistic


Coeficienii logit
funcie similar cu coeficienii B din regresia liniar
Exist i coeficieni logit standardizai, corespunztori
coeficienilor standardizai beta din regresia liniar
Se calculeaz ca logaritm natural (ln) al raportului de ans
(odds ratio)
ln=puterea la care trebuie ridicat numrul e (2.71828)
EXEMPLU: ln(8)=2.07 (8=2.718282.07)

Expresia grafic a regresiei logistice


linia de regresie logistic are o form special,
numit sigmoid
Forma acesteia ia aspecte particulare n funcie de
natura relaiei dintre VI i VD
se construiete pe baza unor coeficieni logaritmici (logit)

relaia dintre predictor i criteriu nu are un caracter


liniar
logaritmarea este o modalitate prin care o relaie neliniar
n realitate este exprimat ntr-o form liniar, depinduse astfel nclcare condiiei de liniaritate

INSUCCES
90%

70% 50% 30%

10%

30% 50% 70%

10%

90%

SUCCES

Concepte cheie n regresia logistic


Estimarea verosimilitii maxime (maximum-likelihood
estimation - MLE)
echivalentul metodei minimizrii sumei ptratelor din regresia liniar
se bazeaz pe transformarea VD ntr-o variabil de tip logit (logaritmul
natural al ansei ca evenimentul s se produc sau nu)
n regresia logistic se estimeaz probabilitatea de apariie a unuia din
evenimentele posibile definite de categoriile criteriului
se obine o valoare estimat a criteriului pentru fiecare subiect n
parte
MLE este un algoritm iterativ, utilizat pentru calcularea coeficienilor
logit ai ecuaiei de regresie
la primul pas se fixeaz o valoare arbitrar a coeficienilor logit
apoi se determin direcia i mrimea cu care acetia sunt modificai pentru a
mri verosimilitatea logaritmic (log likelihood - LL)
la paii urmtori valorile reziduale sunt retestate i are loc re-estimarea LL
procesul se repet de mai multe ori, pn ce LL nu se mai modific
semnificativ

Concepte cheie n regresia logistic


Mrimea efectului regresiei logistice
Exist mai muli coeficieni R2, care cuantific intensitatea
relaiei dintre predictori i criteriu
nu exist un coeficient general acceptat, deoarece
calcularea lor ridic probleme teoretice (sunt denumii i
pseudo R2)
toate variantele lor descriu, n esen, acelai lucru
Coeficienii R2 pot fi i discordani!!

la fel ca i coeficientul R2 din regresia liniar, coeficienii R2


din regresia logistic pot fi interpretai ca procentul
varianei VD ce este explicat de variana VI
SPSS calculeaz doi coeficieni de mrime a efectului:
R2 al lui Cox & Snell
R2 al lui Nagelkerke

Concepte cheie n regresia logistic


Teste de semnificaie
sunt efectuate diverse teste de semnificaie
teste cu privire la modelul general de regresie
teste cu privire la coeficienii individuali de predicie (odds ratio) ai
fiecrei VI

Coeficienii odds ratio au semnificaia unor indici de


mrime a efectului pentru fiecare predictor n parte:
d Cohen
odds ratio

0.20

0.50

0.80

1.28

1.87

2.68

Alegerea predictorilor
interesul principal:
predictori care au o ct mai mare for de predicie asupra criteriului

Pentru identificarea lor:


se pot utiliza o serie de indicatori ai regresiei logistice, cum ar fi:
nrutirea prediciei n lipsa unui anumit predictor
evaluarea semnificaiei coeficienilor de pondere (B) ai fiecrui predictor
ct de mult se modific raportul probabilitilor (odds ratio) atunci cnd un
predictor este eliminat

invocarea unor argumente teoretice, sprijinul pe rezultate ale


unor cercetri anterioare sau statistici bivariate ntre VD i
fiecare VI n parte (testul t, chi-ptrat, .a.)
Intuiie
interaciunea predictorilor este un fapt nedorit
Totui, se pot introduce n model i interaciuni ntre predictori
metod utilizat cu precauie

Expresia matematic a regresiei logistice


Formula de calcul a VD (logit)
Convertirea valorii logit n
probabiliti:
Regresia binomial simpl

Regresia binomial multipl

p
ln
1 p

eb0 b1 X
P(Y )
1 eb0 b1 X
e b0 b1 X 1 b2 X 2 bk X k
P(Y )
1 e b0 b1 X 1 b2 X 2 bk X k

Exemplu cu un predictor cantitativ:


Predicia promovrii la statistic
pe baza numrului de prezene la curs

VD: trecut=1/picat=0 la statistic


VI: numr de absene
Constanta (a)=3.5; b=-.529
P(Y=0)=0.97
Y (Y=1)=0.95

eb0 b1 X
P(Y )
1 eb0 b1 X

Tema sptmnal
Cutai cel puin doua cercetri n care este utilizat
regresia logistic binomial

S-ar putea să vă placă și