Sunteți pe pagina 1din 46

Regresia liniar multipl

M. Popa

cuprins
1. 2. 3. 4. 5. 6. 7. Noiuni de baz regresia liniar simpl Modelul de predicie multivariat Obiectivele analizei de regresie multipl Condiii i limitri Alegerea modelului de analiz Volumul eantionului Regresia multipl cu SPSS
Operaii preliminare Procedura de calcul Interpretarea rezultatelor

8. 9.

Validarea modelului de regresie Raportarea rezultatelor

Corelaia i Regresia
Corelaia
arat legtura (asocierea) dintre variabile nu descrie relaia cauzal dintre variabile nu permite predicia unei variabile pe baza celeilalte variabile nu exist variabil dependent i dependent

Regresia
metod de predicie a valorilor unei variabile pe baza valorilor altei variabile variabila independent
variabila cauz valorile ei prezic valorile variabilei dependente este denumit predictor

variabila dependent
variabila efect valorile ei sunt prezise pe baza valorilor variabilei independente este denumit i criteriu

Situaia tipic n psihologie - examenele de selecie


3

Tipuri de regresie liniar


Regresia simpl
o singur variabil predictor se bazeaz pe corelaia simpl dintre criteriu i predictor
P C

Regresia multipl
mai multe variabile predictor se bazeaz pe corelaia multipl dintre criteriu i predictori situaia tipic n psihologie: selecia bazat pe baterii de teste
P1

P2

P3
4

Predicia perfect
r=1
zx=1.5 zy=1.5 zy crete sau scade cu aceeai unitate cu ct crete sau scade zx
3,5 3,0

z y' = z x

2,5

2,0

1,5

1,0

,5

z(y)

0,0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5

z(x)

Predicia n cazul corelaiei imperfecte

corelaiile sunt numai prin excepie perfecte n mod normal, r variaz n jurul lui 0
exemplu: corelaia ntre cunotinele de matematic i rezultatele la statistic

z y' = r * z x

Noiunea de regresie ctre medie

Sir Francis Galton (18221911) relaia dintre nlimea medie a prinilor i nlimea copiilor (r=+0.67 )
vr cu Ch. Darwin descoperitorul amprentelor digitale meteorolog, psiholog, statistician, genetician, explorator

z y ' = 0 . 67 * 2 = 1 . 34

un exemplu
QI (X) 123 119 115 120 124 113 110 112 132 128 performana colar (Y) 96 83 85 90 96 73 78 89 100 99

Subiect 1 2 3 4 5 6 7 8 9 10

Y
criteriu

Satterplot bivariat cu dreapta de regresie

A
Valoare real Ya Valoare prezis Ya

=96

Eroare de predicie

=3.4

=92.6
B

Xa=123

X
predictor

Ecuaia dreptei de regresie

Y = a yx + byx * X
Y valoare prezis (criteriu) ayx originea dreptei; (punctul n care linia de regresie intersecteaz axa Oy). byx panta liniei de regresie
poate fi exprimat ca fraciuni ale lui X determinate de r

'

X valoare predictor a variabilei Y

10

Expresia grafic a regresiei aceeai origine dar pante diferite origini diferite, dar aceeai pant

11

Modelul de regresie simpl


Acurateea prediciei este dat de coeficientul de regresie R (expresia lui r)
Exemplul nostru: R=0.85

Semnificaia statistic se testeaz cu testul F


Exemplul nostru: F=22.10; p=0.002

Termenul liber (a)


Exemplul nostru: -40.42 (ns eantion foarte mic)

Coeficientul de pondere (b)


Exemplul nostru: 1.08 (p=0.002)

Y=-40.42+1.08*X

Variana prediciei = eroarea standard a estimrii


Scor inteligen (predictor) X 110 112 113 115 119 120 123 124 128 132 Performana colar (criteriu) Y 78 89 73 85 83 90 96 96 99 100 Valoarea prezis Y 78.5 80.7 81.8 83.9 88.3 89.3 92.6 93.7 98.0 102.3 Eroare de predicie -0.52 8.32 -8.76 1.07 -5.25 0.67 3.42 2.34 1.02 -2.31

Y
criteriu

Variana prediciei

Valoare real Ya=96 Eroare de predicie Valoare prezis Ya=92.6 Media prediciei Ym=88.9

A
=3.4

Varian neexplicat (diferen rezidual)

Ya-Y =3.4
Varian explicat

Ya-Ym=3.7

Xa=123

X
predictor

regresia nu este simetric ! dac inversm variabilele n ecuaia de regresie se va obine o linie de regresie diferit dac se inverseaz ordinea variabilelor n calcularea corelaiei, se obine acelai coeficient r

15

Modelul de predicie multivariat

Y = ai + b1 * X 1 + b2 * X 2 + b3 * X 3 + .... + bk * X k
Unde Y este valoarea estimat pentru variabila criteriu (dependent) ai este punctul de origine al liniei (constanta) b1, b2, b3... bk sunt coeficienii b pentru cele k variabile predictor X1, X2, X3.... Xk sunt valorile celor k variabile predictor

'

Scatterplot trivariat
Y
criteriu

X1
predictor

X2
predictor

Planul de regresie multivariat


Y
criteriu

X1
predictor

X2
predictor

Indicatori ai intensitii prediciei


R = coeficientul de corelaie multipl R2 = procentul de variaie din VD (criteriu) determinat de variaia simultan a VI (predictori) R2adj=R2 corectat pentru numrul predictorilor
NOU

R2adj > 75% - foarte bun (peste 90% rar probabil un artefact) 50% - 75% - bun 25% - 50% - slab dar acceptabil sub 25% - foarte slab (probabil inacceptabil)

Semnificaia statistic a lui R este calculat cu ajutorul unui test de varian (F) Cu ct contribuie fiecare predictor la estimarea criteriului?
dificil de spus, fiindc fiecare predictor acioneaz n prezena celorlali o soluie coeficienii beta (standardizai) corelaia semi-parial dintre criteriu i predictori (cursul urmator)

Utilitatea regresiei multiple


Descrierea relaiilor dintre variabile Predicia n scop de selecie Dezvoltarea teoriei testrii psihologice

Condiii i limitri
Variabila dependent (criteriu):
Trebuie s fie msurat pe scal de interval raport, cu respectarea condiiilor de aplicare a testului de corelaie (normalitatea distribuiei, n special). Poate fi msurat i pe scal ordinal n nici un caz pe scal nominal (n acest caz, se utilizeaz alte tehnici de regresie analiza de discriminare sau regresia logistic)

Condiii i limitri
Variabilele independente (predictori)
vor fi msurate pe scale de interval pot fi introduse n ecuaie i variabile msurate la nivel ordinal pot fi utilizate direct i variabile nominale categoriale dihotomice, codificate numeric (ex: masc.=0; fem.=1)
NOU

mrimea coeficientului de regresie n acest caz, indic diferena dintre cele dou categorii ex: pentru b=2.7 - scorul mediu al femeilor este mai mare cu 2.7 uniti dect al brbailor (celelalte variabile fiind constante)

Distribuia variabilelor cantitative trebuie s fie normal


Dac se abat grav de la aceast condiie, se vor utiliza proceduri adecvate de transformare.

Relaiile dintre VI i VD trebuie s fie liniare


condiie verificabil cu ajutorul unui grafic scatterplot

Omogenitatea pantei de regresie


Homoscedasticitate Heterodasticitate Heterodasticitate

multicoliniaritatea
Variabilele predictor trebuie s fie ortogonale Corelaia dintre predictori se numete multicoliniaritate
este mereu prezent ( conteaz mrimea ei)

Efecte negative
Diminuarea coeficientului de corelaie multipl Amplific variabilitatea coeficienilor de regresie Reduce precizia prediciei

Evaluare
Corelaii bivariate Matricea de scatterplot-uri Indicele de toleran
ia valori ntre 0 i 1 valorile apropiate de 0 sunt un semn al coliniaritii Dac tolerana este mai mic de 0.1 ridic o problem de coliniaritate

Soluii:
combinarea predictorilor sau eliminarea mrirea volumului eantionului

VIF (Variation Inflation Factor) >5 sau 10 !

Variabilele vor fi msurate fr erori, iar cazurile care prezint valori extreme vor fi analizate i tratate corespunztor Valorile reziduale (erorile de predicie) se vor supune urmtoarelor condiii:
media valorilor reziduale n studii de replicare s fie zero; erorile din cazul unei variabile independente nu au nici o legtur cu erorile altei sau altor variabile independente; erorile nu coreleaz cu variabilele independente; variana valorilor reziduale pe toat distribuia variabilelor independente este omogen (homoscedasticitate) erorile au o distribuie normal;

efectul valorilor extreme (outliers) asupra ecuaiei de regresie,


poate fi considerabil uneori chiar i una sau dou valori excesive pot influena analiza de regresie aceste valori vor fi identificate i tratate corespunztor naintea calculrii ecuaiei de regresie multipl

alegerea modelului de analiz


Fixarea modului n care variabilele predictor sunt introduse n modelul de regresie este una dintre deciziile importante se refer n esen la:
stabilirea importanei predictorilor ordinea de introducere modul de tratare a acestora de ctre programul de regresie

se vor utiliza:
informaii despre relaia bivariat dintre predictori i criteriu rezultate ale unor cercetri anterioare sau modele teoretice validate ori aflate n stadiul de ipotez.

metode de introducere a variabilelor predictor n ecuaie


Regresia multipla standard. Regresia multipl secvenial (regresie ierarhic). Regresia multipl pas cu pas.

Regresia multipl standard

toate variabilele predictor sunt incluse n ecuaie, efectul fiecreia este evaluat dup i independent de efectul tuturor celorlalte variabile introduse anterior fiecare variabil independent este evaluat numai prin prisma contribuiei proprii la explicarea variabilei dependente

Regresia multipl secvenial (ierarhic)


Variabilele independente sunt introduse n ecuaie ntr-o anumit ordine, n funcie de opiunile analistului. Atunci cnd acesta are motive s cread c o anumit variabil are o influen mai mare, o poate introduce n ecuaie naintea altora.

Regresia multipl pas cu pas


utilizat n studii exploratorii, (nr. mare de predictori) trei variante:
Selecia anterograd Selecia pas cu pas Selecia retrograd

Selecia anterograd
Toate variabilele predictor sunt corelate cu variabila criteriu dup care variabila care are corelaia cea mai mare este introdus prima n ecuaie. Urmtoarea variabil introdus n ecuaie este cea care are corelaia cea mai mare, dup ce a fost eliminat efectul variabilei anterioare. Procesul continu pn ce nivelul contribuiei variabilelor predictor este prea mic pentru a mai fi luat n considerare. O variabil odat introdus n ecuaie rmne acolo.

Selecia pas cu pas


Este o variant a metodei anterioare. la fiecare pas, fiecare variabil deja introdus este retestat pentru a se evalua efectul ei ca i cum ar fi fost introdus ultima. Dac o variabil nou introdus are o contribuie mai consistent asupra variabilei dependente, va determina eliminarea unei variabile anterioare care se dovedete mai puin predictiv.

Selecia retrograd
Pasul iniial este calcularea a unei ecuaii de regresie n care toate variabilele predictor sunt incluse Ulterior, pentru fiecare variabil predictor este efectuat un test de semnificaie F, pentru a se evalua contribuia fiecrui predictor la corelaia de ansamblu. Valorile testului F sunt comparate cu o valoare limit prestabilit, variabilele care nu trec acest prag fiind eliminate din ecuaie. Pe msur ce o variabil este eliminat, o nou ecuaie este calculat i un nou test F este efectuat pentru variabilele rmase, urmat de eventuala eliminare a unei alte variabile. Procesul continu pn cnd doar variabilele semnificative rmn n ecuaie

Concluzii la alegerea metodei de introducere a variabilelor

metoda secvenial i cea pas cu pas sunt superioare metodei standard.


n cazul metodei secveniale, decizia de selecionare a variabilelor introduse n ecuaie aparine cercettorului n cazul metodei pas cu pas, programul este cel care face n mod automat selecia, n funcie de parametri fixai de analist.

Analiza de putere pentru regresia multipl


stabilirea volumul eantionului n funcie de:
mrimea efectului numrul predictorilor puterea testului

Recomandri:
15/1 (pentru 150 de subieci se poate miza pe cel mult 10 variabile independente (predictori) N50+8*m

Mrimea efectului
Mic = 0.02 Mediu = 0.15 Mare = 0.35

2 R f2= 1 R2

G*Power

Obiective de cercetare specifice analizei de regresie multipl


analiza de regresie multipl este utilizabil n situaii de predicie dorim s selectm candidai pentru o anumit profesie pe baza performanelor la un set de teste psihologice odat stabilit ecuaia de regresie pentru eantionul studiat, utilizm bateria de teste pentru a face predicii de adaptare n cazul altor subieci ntrebri tipice: Care dintre indicatorii testelor utilizate are capacitatea de predicie cea mai ridicat? Exist indicatori care nu au relevan pentru predicia performanei profesionale? Are ecuaia de regresie astfel obinut o capacitate sigur de predicie? Care dintre indicatorii testelor utilizate pot fi incluse n ecuaia de predicie a performanei profesionale? Are ecuaia de regresie, astfel obinut, o capacitate sigur de predicie?

Efectuarea analizei de regresie cu SPSS

Validarea prediciei...

Raportarea rezultatelor
datele iniiale i eventualele eliminri sau transformri efectuate; indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaie, graficele ilustrative pentru diferitele distribuii; coeficienii de regresie i semnificaiile lor (R2, R2adj i gradele de libertate); dac a fost utilizat metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas i nivelul lor de semnificaie; tabelul cu coeficienii B (sau beta), coeficienii r bivariai i corelaia parial pentru fiecare variabil independent inclus n model; se vor trage concluzii de ansamblu...