Sunteți pe pagina 1din 49

Regresia liniară multiplă

M. Popa
cuprins
1. 2. 3. 4. 5. 6. 7. Noțiuni de bază – regresia liniară simplă Modelul de predicție
multivariată Obiectivele analizei de regresie multiplă Condiţii şi limitări
Alegerea modelului de analiză Volumul eșantionului Regresia multiplă cu SPSS
– Operații preliminare – Procedura de calcul – Interpretarea rezultatelor

8. 9.

Validarea modelului de regresie Raportarea rezultatelor


Corelația și Regresia
• Corelaţia
– – – – arată legătura (asocierea) dintre variabile nu descrie relaţia cauzală
dintre variabile nu permite predicţia unei variabile pe baza celeilalte variabile
nu există variabilă dependentă şi dependentă

• Regresia
– metodă de predicţie a valorilor unei variabile pe baza valorilor altei variabile
– variabila independentă
• variabila “cauză” • valorile ei “prezic” valorile variabilei dependente • este
denumită “predictor”

– variabila dependentă
• variabila “efect” • valorile ei sunt “prezise” pe baza valorilor variabilei
independente • este denumită şi “criteriu”

• Situaţia tipică în psihologie - examenele de selecţie


3
Tipuri de regresie liniară
• Regresia simplă
– o singură variabilă predictor – se bazează pe corelaţia simplă dintre criteriu şi
predictor
P
C

• Regresia multiplă
– mai multe variabile predictor – se bazează pe corelaţia multiplă dintre criteriu
şi predictori – situaţia tipică în psihologie: selecţia bazată pe baterii de teste
P1
P2

P3

4
Predicţia perfectă
• r=±1
– zx=1.5 – zy’=1.5 – zy’ creşte sau scade cu aceeaşi unitate cu cât creşte sau
scade zx
3,5 3,0

z y'  zx

2,5

2,0

1,5

1,0

,5

z(y)

0,0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5

z(x)

5
Predicţia în cazul corelaţiei imperfecte

• corelaţiile sunt numai prin excepţie perfecte • în mod normal, r variază în jurul
lui 0
– exemplu: corelaţia între cunoştinţele de matematică şi rezultatele la statistică

z y'  r * zx

6
Noţiunea de regresie către medie

• Sir Francis Galton (18221911) • relaţia dintre înălţimea medie a părinţilor şi


înălţimea copiilor (r=+0.67 )
 văr cu Ch. Darwin  descoperitorul amprentelor digitale  meteorolog, psiholog,
statistician, genetician, explorator

z y '  0.67 * 2  1.34

7
Exemplu (date reale, selecționate din N=253)
Subiect Nr. prezențe la cursul de statistică (X) Răspunsuri corecte la evaluări
parțiale (P1+P2+P3) (Y)

A B C D F G H I J K

1 3 4 7 8 9 10 11 12 13

7 18 19 35 19 28 40 37 45 54
Valoare reală Ya=40

Eroare de predicție

ε=12.85
Valoare prezisă Y’a=27.15

Xa=7
Ecuaţia dreptei de regresie

Y  a yx  byx * X
'

• Y’ → valoare prezisă (criteriu) • ayx → originea dreptei; (punctul în care linia


de regresie intersectează axa Oy). • byx → panta liniei de regresie

– poate fi exprimată ca fracţiuni ale lui X determinate de r

• X → valoare predictor a variabilei Y

10
Modelul de regresie simplă
• Acuratețea predicției este dată de coeficientul de regresie R (expresia lui r)
– Exemplul nostru: R=0.528

• Semnificația statistică se testează cu testul F


– Exemplul nostru: F=96.822.10; p<0.0001

• Termenul liber (a)


– Exemplul nostru: 8.973 (p=0.002)

• Coeficientul de pondere (b)


– Exemplul nostru: 2.598 (p<0.0001)

• Y=8.973+2.598*X
Pentru exemplul prezentat:
• R=0.528; a=8.973; b=2.598
– Y=8.973+2.598*X – X=1 … Y= 11.575 – X=2 … Y= 14.171
O prezență la curs contribuie cu 2.596 răspunsuri corecte
Expresia grafică a regresiei aceeaşi origine dar pante diferite
origini diferite, dar aceeaşi pantă

13
Eroarea de predicție…
Subiect Nr. prezențe (X)

Răspunsuri corecte (Y)

Răspunsuri prezise (Y’)

Eroare de predicție (Y’)

A B C D F G H I J K

1 3 4 7 8 9 10 11 12 13

7 18 19 35 19 28 40 37 45 54

11.57 16.76 19.36 27.15 29.75 32.35 34.95 37.54 40.14 42.74

-4.57 1.24 -0.36 7.85 -10.75 -4.35 5.05 -0.54 4.86 11.26
Varianță neexplicată (diferență reziduală)

Ya-Y’m=4

Valoare reală Ya=40

Media predicției Y’m=36


Valoare prezisă Y’a=27.15

Eroare de predicție

ε=12.85

Varianță explicată

Y’a-Y’m=8.85

Xa=7
regresia nu este simetrică !

• dacă inversăm variabilele în ecuaţia de regresie se va obţine o linie de regresie


diferită • dacă se inversează ordinea variabilelor în calcularea corelaţiei, se
obţine acelaşi coeficient r

16
• Modelul de predicție bazat pe un singur predictor (prezența la curs), explică
doar o parte (27.2%) din variația răspunsurilor corecte • Variație neexplicată =
72.8% • Trebuie să existe, deci, și alți predictori…
– – – – – ? ? ? ? …
Modelul de predicție multivariată

Y  ai  b1 * X1  b2 * X 2  b3 * X 3  ....  bk * X k
'

Unde • Y’ este valoarea estimată pentru variabila criteriu (dependentă) • ai este


punctul de origine al liniei (constanta) • b1, b2, b3... bk sunt coeficienţii b
pentru cele k variabile predictor • X1, X2, X3.... Xk sunt valorile celor k
variabile predictor
Scatterplot trivariat
Y
criteriu

X1
predictor

X2
predictor
Planul de regresie multivariată
Y
criteriu

X1
predictor

X2
predictor
Indicatori ai intensității predicției
• R = coeficientul de corelație multiplă • R2 = procentul de variaţie din VD
(criteriu) determinat de variaţia simultană a VI (predictori) • R2adj=R2 corectat
pentru numărul predictorilor
NOU

– R2adj > 75% - foarte bun (peste 90% rar… probabil un artefact) – 50% - 75% - bun
– 25% - 50% - slab dar acceptabil – sub 25% - foarte slab (probabil inacceptabil)

• Semnificaţia statistică a lui R este calculată cu ajutorul unui test de varianţă


(F) • Cu cât contribuie fiecare predictor la estimarea criteriului?
– dificil de spus, fiindcă fiecare predictor acționează în prezența celorlalți – o
soluție … coeficienții beta (standardizați) – corelația semi-parțială dintre
criteriu și predictori (cursul urmator)
Utilitatea regresiei multiple
• Descrierea relațiilor dintre variabile • Predicția în scop de selecție •
Dezvoltarea teoriei testării psihologice
Condiții și limitări
• Variabila dependentă (criteriu):
– Trebuie să fie măsurată pe scală de interval raport, cu respectarea condiţiilor
de aplicare a testului de corelaţie (normalitatea distribuţiei, în special). –
Poate fi măsurată şi pe scală ordinală – … în nici un caz pe scală nominală (în
acest caz, se utilizează alte tehnici de regresie – analiza de discriminare sau
regresia logistică)
Condiții și limitări
• Variabilele independente (predictori)
– vor fi măsurate pe scale de interval – pot fi introduse în ecuație şi variabile
măsurate la nivel ordinal – pot fi utilizate direct şi variabile nominale
categoriale dihotomice, codificate numeric (ex: masc.=0; fem.=1)
NOU

• mărimea coeficientului de regresie în acest caz, indică diferența dintre cele


două categorii • ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7
unități decât al bărbaților (celelalte variabile fiind constante)
• Distribuţia variabilelor cantitative trebuie să fie normală
– Dacă se abat grav de la această condiţie, se vor utiliza proceduri adecvate de
transformare.

• Relaţiile dintre VI și VD trebuie să fie liniare


– condiţie verificabilă cu ajutorul unui grafic scatterplot

• Omogenitatea pantei de regresie


Homoscedasticitate Heterodasticitate Heterodasticitate
multicoliniaritatea
• • Variabilele predictor trebuie să fie ortogonale Corelația dintre predictori se
numește multicoliniaritate
– este mereu prezentă (… contează mărimea ei)

Efecte negative
– – – – Amplifică eroarea standard a coefic. de regresie Amplifică variabilitatea
coeficienților de regresie Reduce puterea (probabilitatea de resp. H0) Reduce
precizia predicției

Evaluare
– Corelații bivariate – Matricea de scatterplot-uri – Indicele de ”toleranță”
• ia valori între 0 şi 1 • valorile apropiate de 0 sunt un semn al coliniarităţii •
Dacă „toleranţa” este mai mică de 0.1 ridică o problemă de coliniaritate

Soluții:

– VIF (Variation Inflation Factor) >5 sau 10 !

• combinarea predictorilor sau eliminarea • mărirea volumului eșantionului


• Variabilele vor fi măsurate fără erori • Cazurile care prezintă valori extreme
vor fi analizate şi tratate corespunzător • Valorile reziduale (erorile de
predicţie) se vor supune următoarelor condiţii:
– media valorilor reziduale în studii de replicare să fie zero; – erorile din cazul
unei variabile independente nu au nici o legătură cu erorile altei sau altor
variabile independente; – erorile nu corelează cu variabilele independente; –
varianţa valorilor reziduale pe toată distribuţia variabilelor independente este
omogenă (homoscedasticitate) – erorile au o distribuţie normală;
• efectul valorilor extreme (outliers) asupra ecuaţiei de regresie,
– poate fi considerabil – uneori chiar şi una sau două valori excesive pot
influenţa analiza de regresie – aceste valori vor fi identificate şi tratate
corespunzător înaintea calculării ecuaţiei de regresie multiplă
alegerea modelului de analiză
• Fixarea modului în care variabilele predictor sunt introduse în modelul de
regresie este una dintre deciziile importante • se referă în esență la:
– stabilirea importanței predictorilor – ordinea de introducere – modul de tratare
a acestora de către programul de regresie

• se vor utiliza:
– informații despre relația bivariată dintre predictori și criteriu – rezultate ale
unor cercetări anterioare sau modele teoretice validate ori aflate în stadiul de
ipoteză.
– metode de introducere a variabilelor predictor în ecuaţie
• Regresia multipla standard. • Regresia multiplă secvenţială (regresie ierarhică).
• Regresia multiplă pas cu pas.
Regresia multiplă standard

• toate variabilele predictor sunt incluse în ecuaţie, • efectul fiecăreia este


evaluat după şi independent de efectul tuturor celorlalte variabile introduse
anterior • fiecare variabilă independentă este evaluată numai prin prisma
contribuţiei proprii la explicarea variabilei dependente
Regresia multiplă secvenţială (ierarhică)
• Predictorii (VI) sunt introduși în ecuaţie într-o anumită ordine, în funcţie de
opţiunile analistului. • Atunci când acesta are motive să creadă că un predictor
are o influenţă mai mare, o poate introduce în ecuaţie înaintea altora • Fiecare
predictor explică o anumită cantitate de variabilitate a VD, independent de
predictorii introduși anterior în ecuație
– astfel putem determina contribuția fiecărui predictor – … ”validitatea
incrementală”
Regresia multiplă pas cu pas
• utilizată în studii exploratorii, (nr. mare de predictori) • trei variante:
– Selecţia anterogradă – Selecţia pas cu pas – Selecţia retrogradă
Selecţia anterogradă
• Toate variabilele predictor sunt corelate cu variabila criteriu după care
variabila care are corelaţia cea mai mare este introdusă prima în ecuație •
Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia cea mai mare,
după ce a fost eliminat efectul variabilei anterioare • Procesul continuă până ce
nivelul contribuţiei variabilelor predictor este prea mic pentru a mai fi luat în
considerare • O variabilă odată introdusă în ecuaţie rămâne acolo.
Selecţia pas cu pas
• Este o variantă a metodei anterioare • la fiecare pas, fiecare variabilă deja
introdusă este retestată pentru a se evalua efectul ei ca şi cum ar fi fost
introdusă ultima • Dacă o variabilă nou introdusă are o contribuţie mai consistentă
asupra variabilei dependente, va determina eliminarea unei variabile anterioare
care se dovedeşte mai puţin predictivă
Selecţia retrogradă
• Pasul iniţial este calcularea a unei ecuaţii de regresie în care toate
variabilele predictor sunt incluse • Ulterior, pentru fiecare variabilă predictor
este efectuat un test de semnificaţie „F”, pentru a se evalua contribuţia fiecărui
predictor la corelaţia de ansamblu. • Valorile testului F sunt comparate cu o
valoare limită prestabilită, variabilele care nu trec acest prag fiind eliminate
din ecuaţie. • Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este
calculată şi un nou test F este efectuat pentru variabilele rămase, urmat de
eventuala eliminare a unei alte variabile. • Procesul continuă până când doar
variabilele semnificative rămân în ecuaţie
Concluzii la alegerea metodei de introducere a variabilelor

• metoda „secvenţială” şi cea „pas cu pas” sunt superioare metodei „standard”.


– în cazul metodei secvenţiale, decizia de selecţionare a variabilelor introduse în
ecuaţie aparţine cercetătorului – în cazul metodei pas cu pas, programul este cel
care face în mod automat selecţia, în funcţie de parametri fixaţi de analist
• … controversată
Analiza de putere pentru regresia multiplă
• stabilirea volumul eșantionului în funcție de:
– mărimea efectului – numărul predictorilor – puterea testului

• Recomandări:
– 15/1 (pentru 150 de subiecţi se poate miza pe cel mult 10 variabile independente
(predictori) – N≥50+8*m
• Mărimea efectului
– Mic = 0.02 – Mediu = 0.15 – Mare = 0.35

2 R f2 1  R2

• G*Power
Obiective de cercetare specifice analizei de regresie multiplă
• analiza de regresie multiplă este utilizabilă în situaţii de predicţie – dorim să
selectăm candidaţi pentru o anumită profesie pe baza performanţelor la un set de
teste psihologice – odată stabilită ecuaţia de regresie pentru eşantionul studiat,
utilizăm bateria de teste pentru a face predicţii de adaptare în cazul altor
subiecţi Întrebări tipice: – Care dintre indicatorii testelor utilizate are
capacitatea de predicţie cea mai ridicată? – Există indicatori care nu au relevanţă
pentru predicţia performanţei profesionale? – Are ecuaţia de regresie astfel
obţinută o capacitate sigură de predicţie? – Care dintre indicatorii testelor
utilizate pot fi incluse în ecuaţia de predicţie a performanţei profesionale? – Are
ecuaţia de regresie, astfel obţinută, o capacitate sigură de predicţie?


Efectuarea analizei de regresie cu SPSS
Validarea predicţiei...
Raportarea rezultatelor
• datele iniţiale şi eventualele eliminări sau transformări efectuate; •
indicatorii statistici descriptivi (medii, abateri standard), matricile de
corelaţie, graficele ilustrative pentru diferitele distribuţii; • coeficienţii de
regresie şi semnificaţiile lor (R2, R2adj şi gradele de libertate); • dacă a fost
utilizată metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare
pas şi nivelul lor de semnificaţie; • tabelul cu coeficienţii B (sau beta),
coeficienţii r bivariaţi şi corelaţia parţială pentru fiecare variabilă
independentă inclusă în model; • se vor trage concluzii de ansamblu...

S-ar putea să vă placă și