Sunteți pe pagina 1din 24

Regresia logistic binomial

M. Popa

cuprins
Introducere
Similitudini cu regresia liniar Caracteristici specifice regresiei logistice Volumul eantionului

Modelul regresiei logistice


Expresia grafic a regresiei Concepte cheie n regresia logistic Expresia matematic a regresiei logistice

Efectuarea regresiei logistice cu SPSS


Setarea procedurii SPSS Analiza rezultatelor

Raportarea regresiei logistice

regresia logistic
Model de predicie n care VD (criteriu), este de natur categorial

regresia logistic binomial


VD este de tip dihotomic (are doar dou categorii) Ce anse exist ca cineva s fac sau s nu fac un sindrom de stres traumatic? ce anse are un candidat pilot de a finaliza sau nu coala de pilotaj? pasagerii decedai n catastrofa Titanicului difer prin anumite caracteristici de cei care s-au salvat (vrst, sex, clasa de mbarcare, venit etc.)?

regresia logistic multinomial


VD are mai multe categorii tipologia delincvenilor care fur (furt din locuine, furt de buzunare, furt cibernetic), pe baza unor caracteristici cum ar fi: vrst, nivel de colarizare, mediu de provenien etc.

Tipuri de regresie logistic


O singur VI VD dihotomic VD mai mult de dou categorii
RL binomial simpl RL multinomial simpl

Mai multe VI
RL binomial multipl RL multinomial multipl

utilizat cu precdere n studiile epidemiologice


identificarea caracteristicilor individuale asociate cu contractarea anumitor boli

a ctigat mult n popularitate n afara domeniului medical util cu precdere dac distribuia valorilor VD este neliniar n raport cu mai multe VI
atunci cnd valorile VI au o pondere diferit asupra VD De ex.: probabilitatea de a pica la un examen poate fi afectat n mai mic msur de o diferen de 2 uniti QI n cazul candidailor cu QI ridicat, dect n cazul celor cu QI mai sczut

relativ rar utilizat n cercetrile psihologice, dar


tendin de cretere important TOP 10 - psihologia I/O

Regresia logistic binomial poate fi utilizat pentru:


1) Identificarea variabilelor care caracterizeaz dou grupuri diferite
utilizeaz/nu utilizeaz internetul; admii/respini la un concurs de angajare face/nu face accident n primul an dup luarea permisului autor recidiviti/nerecidiviti dup eliberarea condiionat; face/nu face PTSD dup un cutremur; are/nu are cont pe Facebook etc.

2) Identificarea variabilelor care nu difereniaz ntre aceste grupuri 3) Efectuarea de predicii cu privire la probabilitatea ca un anumit individ (caz) s fac parte dintr-un grup sau altul

Similitudini cu regresia liniar


Se analizeaz relaia dintre o VD (criteriu) i una sau mai multe VI (predictori). Predictorii (VI) pot fi exprimai pe scal cantitativ (numeric) sau calitativ (nominale sau ordinale). Poate exista un singur predictor (regresie logistic simpl) sau mai muli predictori (regresie logistic multipl). Exist teste de semnificaie pentru relaia individual dintre fiecare predictor i criteriu Se calculeaz coeficieni de regresie (constant i coeficieni B) care descriu contribuia fiecrui predictor Exist o expresie grafic a modelului de predicie

Diferene fa de regresia liniar


Criteriul (VD) poate fi exprimat numai pe scal nominal
criteriu de tip ordinal analiza de discriminare (discriminant analysis).

Predictorii categoriali trebuie declarai ca atare Impactul VI asupra VD este evaluat individual
dar este posibil i evaluarea efectului combinat a unor predictori asupra criteriului

regresia logistic estimeaz probabilitatea ca fiecare caz s fie inclus ntr-una sau alta din categoriile definite de VD (regresia liniar vizeaz predicia valorilor VD)
dac tim greutatea i nlimea unor persoane putem calcula probabilitatea ca fiecare dintre acestea s fie brbat sau femeie

nu se bazeaz pe minimalizarea sumei ptratelor, ci pe maximizarea ansei de apartenen a fiecrui caz la una sau alta din categoriile VD. Modelul grafic de predicie are o form special, care decurge din natura logaritmic a relaiei dintre valorile VI i VD

avantaje
nu este condiionat de multe din restriciile impuse de regresia liniar
Nu presupune existena unei relaii liniare ntre criteriu i predictori. VD (criteriul) nu trebuie s aib o distribuie normal. VD nu trebuie s aib o variabilitate omogen (homoscedasticitate) n raport cu valorile variabilelor independente. Nu presupune distribuia normal a valorilor reziduale. Suport predictori msurai pe orice tip de scal

Atenie
interpretarea rezultatelor regresiei logistice trebuie fcut cu reinere
modelul de predicie este limitat la predictorii utilizai, dar pot exista i predictori care au fost, voluntar sau nu, ignorai capacitatea predictiv a modelului nu funcioneaz dect n limitele de variaie a datelor existente
predicia fiind nesigur pentru valori ale predictorilor care nu au fost incluse n model

Volumul eantionului
Impune un volum mai mare al eantionului minim 50 de subieci pentru fiecare predictor sau 20-30 subieci/predictor n cazul unui eantion de peste 300 de subieci (Wright, apud Sava, 2004); cel puin 10 subieci/predictor, dar nu mai puin de 100 de subieci n total (Long, apud DeMaris, 2003); cel puin 150 de subieci (Braunstein, 2007) pentru un nivel alfa 0.05, o mrime medie a efectului i o putere de 0.80: un eantion de 300 subieci (Hsieh, Block, & Larsen, 1998) se poate ajunge chiar i la necesitatea unui eantion de 1000 de subieci pentru a se atinge o putere de 0.80 (Braunstein, 2007)

Numrul predictorilor
trebuie s fie mai mic dect n regresia liniar
pt. c VD exprimat categorial, conine mai puin informaie maxim o VI pentru fiecare 10 cazuri din eantion dac exist VI categoriale, numrul VI se va lua drept referin numrul cazurilor aferente celei mai slab reprezentate categorii
dac eantionul cuprinde 100 de brbai i 50 de femei, numrul femeilor va fi luat drept referin potrivit regulii 1/10, nu vom putea utiliza mai mult de 5 predictori

Concepte cheie n regresia logistic


Raportul de ans (odds ratio)
unul dintre cele mai importante concepte din analiza de regresie logistic raportul dintre probabilitatea de apariie i probabilitatea de ne-apariie a unui eveniment
cuantific impactul predictorului asupra criteriului dac probabilitatea ca delincvenii minori s provin din familii dezorganizate este de 0.70, iar probabilitatea de a proveni din familii organizate este de 0.30, ansa minorilor din familii destrmate de a deveni delincveni este 0.7/0.3=2.33 n timp ce probabilitile iau valori ntre 0 i 1, raportul lor poate lua valori orict de mari sau orict de mici, la infinit

Un exemplu predictor categorial


IV DV

M 40 15

F 10 30

TOTAL 50 45

Brbai
40/(40+10)=0.8 (80%)

Femei
10/(40+10)=0.20 (20%)

ansa pt. M (odds) 0.8/0.2=4.0 0.33/0.66=0.5

Accident

Nonaccident

15/(15+30)=0.3 3 (33%)

30/(15+30)=0.66 (66%)

Brbaii, comparativ cu femeile, au de 4 ori mai multe anse s fac accident n primul an
PROBABILITATEA DE ACCIDENT PENTRU BRBAI:
Odds/(1+0dds)=4/(1+4)=0.80

Brbaii, comparativ cu femeile, au de 0.5 ori mai puine anse s nu fac accident n primul an
PROBABILITATEA DE NON-ACCIDENT PENTRU BRBAI:
Odds ratio/(1+0dds ratio)=0.5/(1+0.5)=0.33

RAPORTUL DE ANS M/F: 4/0.5=8


CONCLUZIE: brbaii au de 8 ori mai multe anse s fac accident n primul an, comparativ cu femeile

Concepte cheie n regresia logistic


Coeficienii logit
funcie similar cu coeficienii B din regresia liniar Exist i coeficieni logit standardizai, corespunztori coeficienilor standardizai beta din regresia liniar Se calculeaz ca logaritm natural (ln) al raportului de ans (odds ratio)
EXEMPLU: ln(8)=2.07

Expresia grafic a regresiei logistice


linia de regresie logistic are o form special, numit sigmoid Forma acesteia ia aspecte particulare n funcie de natura relaiei dintre VI i VD
se construiete pe baza unor coeficieni logaritmici (logit)

relaia dintre predictor i criteriu nu are un caracter liniar


logaritmarea este o modalitate prin care o relaie neliniar n realitate este exprimat ntr-o form liniar, depinduse astfel nclcare condiiei de liniaritate

INSUCCES
90% 70% 50% 30% 10%

10%

30% 50% 70%

90%

SUCCES

Concepte cheie n regresia logistic


Estimarea verosimilitii maxime (maximum-likelihood estimation - MLE)
echivalentul metodei minimizrii sumei ptratelor din regresia liniar se bazeaz pe transformarea VD ntr-o variabil de tip logit (logaritmul natural al ansei ca evenimentul s se produc sau nu) n regresia logistic se estimeaz probabilitatea de apariie a unuia din evenimentele posibile definite de categoriile criteriului se obine o valoare estimat a criteriului pentru fiecare subiect n parte MLE este un algoritm iterativ, utilizat pentru calcularea coeficienilor logit ai ecuaiei de regresie
la primul pas se fixeaz o valoare arbitrar a coeficienilor logit apoi se determin direcia i mrimea cu care acetia sunt modificai pentru a mri verosimilitatea logaritmic (log likelihood - LL) la paii urmtori valorile reziduale sunt retestate i are loc re-estimarea LL procesul se repet de mai multe ori, pn ce LL nu se mai modific semnificativ

Concepte cheie n regresia logistic


Mrimea efectului regresiei logistice
Exist mai muli coeficieni R2, care cuantific intensitatea relaiei dintre predictori i criteriu nu exist un coeficient general acceptat, deoarece calcularea lor ridic probleme teoretice (sunt denumii i pseudo R2) toate variantele lor descriu, n esen, acelai lucru
Coeficienii R2 pot fi i contrastani!!

la fel ca i coeficientul R2 din regresia liniar, coeficienii R2 din regresia logistic pot fi interpretai ca procentul varianei VD ce este explicat de variana VI SPSS calculeaz doi coeficieni de mrime a efectului:
R2 al lui Cox & Snell R2 al lui Nagelkerke

Concepte cheie n regresia logistic


Teste de semnificaie
sunt efectuate diverse teste de semnificaie
teste cu privire la modelul general de regresie teste cu privire la coeficienii individuali de predicie (odds ratio) ai fiecrei VI

Coeficienii odds ratio au semnificaia unor indici de mrime a efectului pentru fiecare predictor n parte:
d Cohen

0.20 odds ratio 1.28

0.50 1.87

0.80 2.68

Alegerea predictorilor
interesul principal:
predictori care au o ct mai mare for de predicie asupra criteriului

Pentru identificarea lor:


se pot utiliza o serie de indicatori ai regresiei logistice, cum ar fi:
nrutirea prediciei n lipsa unui anumit predictor evaluarea semnificaiei coeficienilor de pondere (B) ai fiecrui predictor ct de mult se modific raportul probabilitilor (odds ratio) atunci cnd un predictor este eliminat.

invocarea unor argumente teoretice, sprijinul pe rezultate ale unor cercetri anterioare sau statistici bivariate ntre VD i fiecare VI n parte (testul t, chi-ptrat, .a.) Intuiie interaciunea predictorilor este un fapt nedorit
Totui, se pot introduce n model i interaciuni ntre predictori metod utilizat cu precauie

Expresia matematic a regresiei logistice


Formula de calcul a VD (logit) Convertirea valorii logit n probabiliti:
Regresia binomial simpl

p ln 1 p

eb0 b1 X P(Y ) 1 eb0 b1 X


e b0 b1 X 1 b2 X 2 bk X k P(Y ) 1 e b0 b1 X 1 b2 X 2 bk X k

Regresia binomial multipl

Exemplu: predicia promovrii la statistic


VD: trecut/picat la statistic VI: numr de absene Constanta (a)=3.5; b=-.529 Y=exp(a+b*X)
Y (0)=EXP(3.5+0)=0.97 Y (1)=EXP(3.5+1*-.0529)=0.95

Tema sptmnal
Cutai cel puin doua cercetri n care este utilizat regresia logistic binomial.