Sunteți pe pagina 1din 10

Regresia multipla

Introducere
Regresia multipla este o metoda de predictie a valorilor unei variabile dependente
pornind de la valorile mai multor variabile independente. n psihologie situatia cea mai tipica
este aceea a examenelor de selectie. n acest caz avem un set de variabile independente (numite
si "predictori"), care sunt scoruri la diferite teste utilizate, si o variabila dependenta (numita si
"criteriu"), ale carei valori vrem sa le estimam pornind de la relatiile acesteia cu toate variabilele
independente. n esenta, regresia multipla este o procedura similara regresiei simple. Asa cum
regresia simpla se bazeaza pe corelatia dintre doua variabile, regresia multipla se bazeaza pe
corelatia multipla dintre variabilele implicate. Daca n cazul regresiei simple cautam o linie care
sa aproximeze cel mai bine distributia punctelor de intersectie pentru doua variabile, n regresia
multipla cautam o linie care sa aproximeze cel mai bine tendinta norului de puncte al unei
distributii cu mai multe variabile simultan.
Formula de mai jos exprima ecuatia dreptei de regresie simpla:

Unde
Y' este valoarea estimata
axy este punctul de origine al liniei (valoarea lui Y' pentru X=0), si este o expresie
a erorii de estimare (valorile reziduale)
bxz este coeficientul care da unghiul de nclinare a liniei (panta)
X este valoarea variabilei predictor
Ecuatia de regresie multipla va fi una similara celei de mai sus, cu singura deosebire ca
vom avea mai multi coeficienti b, sau, n terminologia consacrata pentru regresia multipla, beta
(). n plus, acestia vor fi calculati pe baza coeficientului de corelatie partiala, dupa ce a fost
eliminata influenta pe care o exercita variabilele introduse anterior n ecuatie.

Unde
Y' este valoarea estimata pentru variabila criteriu (dependenta)
ai este punctul de origine al liniei
b1, b2, b3... bk sunt coeficientii beta pentru cele k variabile predictor
X1, X2, X3.... Xk sunt valorile celor k variabile predictor

Aspecte cheie n fundamentarea regresiei multiple

(1) n cazul regresiei simple, linia de regresie "cauta" cea mai buna traiectorie pentru a
minimiza eroarea de estimare. Aceasta este definita printr-o metoda care asigura cea mai mica
suma a patratelor distantelor dintre variabila "predictor" si variabila "criteriu". n mod natural,
acest deziderat este asigurat de marimea coeficientului de corelatie Pearson dintre cele doua
variabile. Cu ct corelatia este mai mare, cu att norul de puncte se apropie mai mult de linia de
regresie, la limita, pentru o corelatie de 1, punctele respective se plaseaza chiar pe dreapta de
regresie.
Situatia se prezinta n mod similar si in cazul regresiei multiple. Doar ca de data aceasta
nu ne bazam pe corelatia simpla, dintre doua variabile ci pe corelatia multipla, dintre mai multe
variabile, simbolizata prin litera R. Corelatia multipla este esentialmente similara corelatiei
Pearson si ne spune cta informatie cu privire la o variabila este continuta n combinatia
simultana a mai multor variabile cu care se afla n asociere. Mai mult, la fel ca si n cazul
corelatiei simple, avem si pentru corelatia multipla un coeficient de determinare (R2) care are o
interpretare similara: procentul de variatie din variabila dependenta determinat de variatia
simultana a variabilelor independente. Semnificatia lui R este calculata cu ajutorul unui test de
varianta (F)

(2) Un alt aspect important contextul regresiei multiple este multicoliniaritatea. Acesta
este un concep opus ortogonalitatii si exprima nivelul corelatiei dintre variabilele independente.
Informatia mpartasita n comun de variabilele independente reduce contributia lor la explicarea
variatiei variabilei dependente. Cu alte cuvinte, cu ct acestea coreleaza mai intens ntre ele cu
att corelatia multipla cu variabila dependenta (criteriu) este mai mica. n plus,
multicoliniaritatea amplifica variabilitatea coeficientilor de regresie, fapt care are ca efect o
imprecizie mai mare a predictiei. Din acest motiv, analiza de regresie trebuie precedata de
evaluarea multicoliniaritatii.
Una dintre metode este aceea de a analiza matricea de intercorelatii dintre variabilele
independente. Corelatiile mari sunt un indicator al liniaritatii. n principiu, variabilele
independente a caror corelatie este mai mare de 0.1 ridica problema multicoliniaritatii. O alta
metoda este analiza "tolerantei", o optiune oferita de programele de prelucrari statistice.
"Toleranta" este o masura specifica pentru coliniaritate care ia valori ntre 0 si 1. Valorile
apropiate de 0 sunt un semn al coliniaritatii. Variabilele pentru care "toleranta" este mai mica de
0.1 ridica o problema de coliniaritate care ar trebui rezolvata.
Principalele solutii posibile n legatura cu variabilele cu probleme de coliniaritate sunt
doua: eliminarea lor sau, combinarea lor, din moment ce aduc acelasi tip de informatie (aceasta
n cazul n care corelatia lor este de 0.80 sau mai mare).

(3) O importanta deosebita prezinta alegerea modelului de analiza care sa permita


selectarea unui set de predictori avnd maximum de putere de predictie asupra variabilei criteriu.
Scopul nu este acela de a aduna informatie de la toate variabilele disponibile ci doar de la acelea
care aduc contributia cea mai consistenta. O prima recomandare, cu caracter preliminar, este
aceea de a avea n vedere un anumit raport ntre numarul de subiecti si numarul variabilelor
independente. Acest raport este cifrat la valoarea 15/1, adica pentru un esantion de 150 de
subiecti se poate miza pe cel mult 10 variabile independente.

Dupa ce setul de variabile predictor a fost fixat, se va trece la adoptarea uneia dintre
metodele de introducere a acestora n ecuatia de regresie:

Regresia multipla standard. Toate variabilele predictor sunt incluse n ecuatie,


efectul fiecareia fiind evaluat dupa si independent de efectul tuturor celorlalte
variabile introduse anterior. Fiecare variabila independenta este evaluata numai prin
prisma contributiei proprii la explicarea variabilei dependente.

Regresia multipla secventiala (numita si regresie ierarhica). Variabilele


independente sunt introduse n ecuatie ntr-o anumita ordine, n functie de optiunile
analistului. Atunci cnd acesta are motive sa creada ca o anumita variabila are o
influenta mai mare, o poate introduce n ecuatie naintea altora.

Regresia multipla pas cu pas. Este utilizata adesea n studii exploratorii, atunci cnd
exista un numar mare de predictori despre care nu se stie exact care este contributia
fiecareia la corelatia de ansamblu cu variabila dependenta. Exista trei variante ale
acetui tip de analiza:

Selectia anterograda. Toate variabilele independente sunt corelate cu variabila


dependenta dupa care variabila care are corelatia cea mai mare este introdusa
prima n ecuatie. Urmatoarea variabila introdusa n ecuatie este cea care are
corelatia cea mai mare, dupa ce a fost eliminat efectul variabilei anterioare.
Procesul continua pna ce nivelul contributiei variabilelor independente este
prea mic pentru a mai fi luat n considerare. O variabila, odata introdusa n
ecuatie ramne acolo.

Selectia pas cu pas. Este o varianta a metodei anterioare. Diferenta consta n


faptul ca la fiecare pas, fiecare variabila deja introdusa este retestata pentru a
se evalua efectul lor ca si cum ar fi fost introduse ultima. Cu alte cuvinte, daca
o variabila nou introdusa are o contributie mai consistenta asupra variabilei
dependente va determina eliminarea unei variabile anterioare dar care se
dovedeste mai putin predictiva.

Selectia retrograda. Pasul initial al acestei metode este acela de calculare a


unei ecuatii de regresie n care toate variabilele predictor sunt incluse.
Ulterior, pentru fiecare variabila predictor este efectuat un test de semnificatie
"F", pentru a se evalua contributia fiecarui predictor la corelatia de ansamblu.
Valorile testului F sunt comparate cu o valoare limita prestabilita, variabilele
care nu trec acest prag fiind eliminate din ecuatie. Pe masura ce o variabila
este eliminata, o noua ecuatie este calculata si un nou test F este efectuat
pentru variabilele ramase, urmat de eventuala eliminare a unei alte variabile.
Procesul continua pna cnd doar variabilele semnificative ramn n ecuatie.

Este evident ca metoda "secventiala" si cea "pas cu pas" sunt superioare metodei
"standard". ntre primele doua diferenta consta n faptul ca, n cazul metodei secventiale, decizia
de selectionare a variabilelor introduse n ecuatie apartine cercetatorului n timp ce n cazul
metodei pas cu pas, programul este cel care face n mod automat selectia, n functie de parametri
fixati de analist.

(4) Ecuatia de regresie multipla are drept finalitate predictia variabilei criteriu.
Verificarea potentialului real de predictie este ceea ce se numeste validarea ecuatiei de regresie.
Este evident ca modelul de validare prezinta o importanta aparte. Coeficientul de corelatie
multipla (R) are o valoare maxima pe esantionul pe care a fost calculata ecuatia de regresie. Daca
nivelul corelatiei scade dramatic pe alt esantion, atunci ecuatia de regresie nu prezinta utilitatea
care a fost estimata. Obtinerea unei ecuatii sigure tine n mod cert de deja mentionatul raport
(15/1) ntre volumul esantionului (N) si numarul variabilelor predictor (k). O alta recomandare
sugereaza utilizarea unui esantion N50+8k pentru testarea corelatiei multiple si N104+k,
pentru testarea predictorilor individuali. Evaluarea validitatii se poate face fie ntr-o procedura
decalata n timp, pe un alt esantion extras din aceeasi populatie, fie prin utilizarea simultana a
doua esantioane, unul pentru calcularea ecuatiei de regresie, altul pentru validarea acesteia. n
ambele cazuri se va urmari respectarea criteriilor de constituire a esantionului enuntate mai sus.
(5) Ultimul aspect care trebuie luat n considerare este efectul valorilor extreme (outliers)
asupra ecuatiei de regresie, care poate fi considerabil. Uneori chiar si una sau doua valori
excesive pot influenta analiza de regresie. De aceea aceste valori vor fi identificate si tratate
corespunzator naintea calcularii ecuatiei de regresie multipla.
Obiective de cercetare specifice analizei de regresie multipla
Asa cum am precizat deja, analiza de regresie multipla este utilizabila n situatii de
predictie. Un caz tipic este acela n care dorim sa selectam candidati pentru o anumita profesie pe
baza performantelor la un set de teste psihologice. Performanta profesionala, masurata prin una
din metodele posibile (aprecierea pe baza de experti, apreciere interpersonala, productivitate,
etc.) este variabila criteriu (dependenta). Indicatorii de performanta la teste reprezinta variabilele
predictor (independente). Desigur, scopul esential este ca, odata stabilita ecuatia de regresie
pentru esantionul studiat, sa putem utiliza bateria de teste pentru a face predictii de adaptare
profesionala n cazul altor subiecti. Este evident ca o astfel de procedura este una de durata si
urmareste ceea ce se numeste "validarea testelor de selectie". ntr-un astfel de caz, subiectii
esantionului ar fi supusi testarii psihologice naintea angajarii dupa care, la un interval adecvat de
timp, ar urma sa fie evaluati sub aspectul performantei profesionale. Ulterior, daca rezultatele
analizei de regresie justifica aceasta, rezultatele la teste vor putea fi utilizate pentru selectie.
ntr-o situatie de cercetare ca cea descrisa, ntrebarile pe care si le pune cercetatorul,
atunci cnd alege sa introduca n ecuatia de regresie toti indicatorii testelor, sunt, n mod explicit,
urmatoarele:
-

Care dintre indicatorii testelor utilizate are capacitatea de predictie cea mai
ridicata? Exista indicatori care nu au relevanta pentru predictia performantei
profesionale? Are ecuatia de regresie astfel obtinuta o capacitate sigura de
predictie?

Daca modelul de analiza este unul secvential sau pas cu pas, atunci ntrebarile obiectivele
implicite vor fi:
-

Care dintre indicatorii testelor utilizate pot fi incluse n ecuatia de predictie a


performantei profesionale? Are ecuatia de regresie, astfel obtinuta, o capacitate
sigura de predictie?

Conditii si limitari
Efectuarea analiza de regresie multipla presupune o serie de conditii prealabile. Acestea
se refera pe de o parte la variabile si, pe de alta parte, la distributia valorilor reziduale.
Variabilele analizate:
-

trebuie sa fie masurate pe scala de interval raport, cu respectarea conditiilor de


aplicare a testului de corelatie (normalitatea distributiei, n special);

sunt fixe, ele urmeaza a fi pastrate n orice studiu de replicare;

vor fi masurate fara erori, iar cazurile extreme vor fi analizate si tratate
corespunzator;

se supun unui model de corelatie liniara;

Valorile reziduale (erorile de predictie):


-

media valorilor reziduale n studii de replicare sa fie zero;

erorile din cazul unei variabile independente nu au nici o legatura cu erorile altei sau
altor variabile independente;

erorile nu coreleaza cu variabilele independente;

varianta valorilor reziduale pe toata distributia variabilelor independente este


omogena (homoscedasticitate);

erorile au o distributie normala;

Verificarea acestor conditii presupune ndeplinirea tuturor procedurilor de analiza


preliminara a datelor, asa cum au fost deja prezentate anterior.
Efectuarea analizei de regresie cu SPSS
Sa presupunem ca un psiholog vrea sa estimeze performanta n nvatarea jocului de sah
pe baza a doua teste, unul de inteligenta abstracta si altul de inteligenta verbala. Am construit o
matrice de date ipotetica, introdusa n editorul de date SPSS,
ca n figura de mai jos.
Identificam variabilele:
Variabila dependenta (criteriu) este "perform"
Variabilele independente (predictor) sunt "abstract" si
"verbal"
Verificam liniaritatea asocierii dintre variabile cu

ajutorul procedurii Graphs/Scater optiunea Matrix:


Am trecut variabilele studiului n lista Matrix Variables, pentru
a obtine o matrice de grafice Scatter Plot care sa permita analiza
comparativa a acestora.
Pentru a obtine si liniile de regresie n fiecare grafic vom edita
matricea obtinuta astfel: dublu clic pe grafic si apoi ChartOptions-Fit-Total-Liniar Regression.
Rezultatul se vede n figura urmatoare:
Fiecare zona din matrice reprezinta grafic asocierea
variabilelor doua cte doua. Pe diagonala avem numele
variabilelor. Imaginile de deasupra si dedesubtul ei fiind
repetitive, vom privi numai ntr-o singura zona, sa zicem
deasupra diagonalei. Graficul din mijlocul primei linii
reprezinta aoscierea dintre variabila abstract cu verbal, cel
din coltul dreapta-sus, asocierea dintre abstract si perform iar
cel de pe linia de mijloc-dreapta, relatia dintre verbal si
perform.
Analiza imaginilor ne spune urmatoarele lucruri:
-

Toate relatiile sunt de tip liniar (norul de puncte se situeaza, n general, n jurul liniei
de regresie)

abstract si verbal coreleaza negativ

abstract si perform coreleaza pozitiv

verbal si perform coreleaza negativ

Obtinem matricea de corelatii a variabilelor aplicnd procedura corelatiei bivariate


(Pearson):
Statistics/Correlate/Bivariate,
si
selectam toate variabilele:
Valorile din matricea de corelatie confirma
constatarile preliminare din matricea Scatter Plot.
Variabilele predictor coreleaza negativ ntre ele (.712), variabila abstract coreleaza pozitiv cu
criteriul (+.921) iar variabila verbal coreleaza
negativ cu criteriul (-.902).
Ne amintim ca, n mod ideal, variabilele independente nu trebuie sa coreleze ntre ele dar trebuie
sa coreleze cu criteriul. Trebuie sa evaluam semnificatia corelatiilor din matrice. Fiind vorba de
o matrice multivariata, semnificatia coeficientilor de corelatie se corecteaza cu ajutorul metodei
Bonferoni (enuntata deja la corelatia partiala). Pragul minim de 0.05 se mparte la numarul
variabilelor din matrice si se obtine noul prag limita: 0.05/3=0.017. n aceste conditii, constatam
ca relatia dintre variabilele predictor nu este semnificativa (.032), n ciuda valorii ei mari (sa nu
uitam ca lucram pe un numar foarte mic de subiecti). n acelasi timp, corelatiile dintre variabilele
predictor si criteriu sunt semnificative (.000 respectiv, .001).

Dupa efectuarea acestor analize preliminare, putem trece la analiza de regresie multipla
propriu-zisa, executnd procedura: Statistics/Regression/Liniar.
Am introdus variabile perform n zona Dependent iar
variabilele abstract si verbal n lista Independent(s)
Am preferat metoda de analiza standard (Enter) care este
implicita.
Actionam butonul Statistics pentru alte optiuni:

aici am bifat doar Descriptives. Alte


caseta determina obtinerea unor
si verificarea conditiilor de aplicare a
multipla. Semnificatia optiunilor
ul casetei.

n functie de nevoile de
analiza putem alege
orice optiuni dorim,
optiuni din aceasta
informatii suplimentare
analizei de regresie
poate fi gasita n Help-

Actionam Save, pentru a genera o variabila noua care va contine valorile prezise
nestandardizate (adica netransformate n scoruri z)

n fine, actionam butonul OK n caseta principala si trecem


la analiza rezultatelor:
Mai nti analizam statistica descriptiva pentru fiecare
variabila si matricea de corelatii care ne ofera informatii de
aceeasi natura cu cele preliminare, pe care le-am inspectat deja.
Examinam coeficientul de corelatie multipla:

Valoarea sa, .985 ne indica o corelatie mare intre variabilele predictor simultan cu
variabila criteriu. Valoarea lui R2 (.971) ne arata ca 97% din variatia performantei n nvatarea
sahului este determinata de cele doua tipuri de inteligenta. "Adjusted R Square" este o corectie a
lui R2 n functie de numarul de predictori si numarul de subiecti. Aceasta deoarece cu ct acestea
sunt mai mari cu att coeficientul de determinare tinde sa fie mai mare. "Standard error of
estimate" indica acuratetea modelului de predictie. Cu ct eroarea estimarii este mai mica cu att
predictia este mai sigura.

Acum trebuie sa evaluam corelatia de ansamblu dintre predictori si criteriu. Principala


problema la care trebuie sa raspundem este daca variabilele predictor coreleaza semnificativ cu
variabila criteriu. Pentru aceasta, inspectam tabelul ANOVA:

Asa cum am precizat deja, semnificatia lui R se testeaza cu ajutorul analizei de varianta.
n cazul nostru, valoarea lui F este 100.45 iar nivelul de semnificatie, Sig.=0.000. Aceste valori
ne permit sa respinge ipoteza de nul si sa acceptam ca cele doua variabile predictor influenteaza
mpreuna variatia variabilei criteriu.
Examinam coeficientii individuali de regresie.

Utiliznd constanta (care ne da punctul de origine al dreptei de regresie) si valorile


coeficientilor B putem scrie ecuatia de regresie liniara multipla dintre variabilele predictor si
variabila criteriu:
Performanta estimata la sah=138.555+(0.706)*abstract+(-4.862)*verbal
Aceeasi ecuatie poate fi scrisa si utiliznd coeficientii Beta (standardizati):
Zperformanta la sah=(.565)*abstract+(-.5)*verbal
(n cazul valorilor beta standardizate, termenul liber al ecuatiei este 0)
La rndul ei, semnificatia coeficientilor individuali de regresie trebuie analizata pentru a
vedea daca acestia descriu cu adevarat o relatie dintre variabilele predictor si criteriu. Ipoteza de
nul n acest caz este ca coeficientii de regresie alesi sunt egali cu 0, ipoteza alternativa fiind ca ei
sunt diferiti de 0. Rezultatul testului este afisat n ultimele doua coloane din tabelul de mai sus si
sunt exprimati n forma unui test t. Valorile lui t (t=coeficientulB/eroarea standardB ) exprima
semnificatia diferentei dintre coeficientii respectivi si 0. n cazul nostru, ambii coeficienti au
valori semnificative (Sig. este mai mic de 0.05) ceea ce ne permite concluzia ca ambii coeficienti
sunt semnificativ diferiti de 0 si, deci, ambele variabile predictor sunt importante pentru
estimarea variabilei criteriu.

Dupa examinarea corelatiei dintre fiecare predictor si criteriu, vom efectua analiza
relatiei globale, pentru toti coeficientii de regresie n ansamblu. ntrebarea la care trebuie sa
raspundem este daca exista o relatie liniara ntre variabila criteriu si ntregul set de variabile
predictor. Testul ANOVA din tabelul urmator contine solutia problemei noastre:

Valoarea testului F (100.45) este semnificativa la un prag p=0.000, ceea ce permite


concluzia ca exista o asociere de tip liniar ntre predictori si criteriu.
Daca privim datele din Data Editor, vom descoperi ca a fost creata
variabila pre_1, care contine valorile estimate pentru performanta n
nvatarea sahului pe baza ecuatiei de regresie. Putem calcula
corelatia bivariata ntre perform si estimarea ei (pre_1) si obtinem
r=.985 (Sig.=.000), ceea ce este foarte aproape de coeficientul de
corelatie multipla. Desigur, nu trebuie sa consideram aceasta corelatie
ca fiind o "validare" a predictiei. Asa cum am spus deja, acest lucru nu se poate face dect pe un
alt esantion dect cel de cercetare, fie prin rezervarea unui esantion de control din esantionul
initial investigat, fie prin repetarea investigatiei. ntr-o situatie de selectie, valorile pentru
variabilele predictor obtinute pentru fiecare candidat ar fi puse ntr-o ecuatie de regresie utiliznd
coeficientii B din analiza de regresie multipla iar subiectii care ar obtine estimare a performantei
sub o anumita valoare considerata convenabila ar fi declarati inapti pentru a fi inclusi n
programul de instruire.
Raportarea rezultatelor
n raportul de cercetare vor fi incluse cele mai importante dintre caracteristicile datelor
preliminare precum si datele obtinute prin prelucrare:
-

datele initiale si eventualele eliminari sau transformari efectuate

indicatorii statistici descriptivi (medii, abateri standard), matricile de corelatie,


graficele ilustrative pentru diferitele distributii

coeficientii de regresie si semnificatiile lor (R2, R2adj si gradele de libertate)

daca a fost utilizata metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru
fiecare pas si nivelul lor de semnificatie

tabelul cu coeficientii B (sau beta), coeficientii r bivariati si corelatia partiala pentru


fiecare variabila independenta inclusa n model

se vor trage concluzii de ansamblu

Rezultatele studiului demonstrativ de mai sus pot fi sintetizate n felul urmator (facem
precizarea ca datele prezentate nu au nici o legatura cu vreun studiu real pe aceasta tema, avnd
doar o semnificatie didactica):
Analiza de regresie multipla a urmarit evaluarea capacitatii de predictie a succesului n
nvatarea jocului de sah a inteligentei abstracte si verbale. A fost identificata o relatie de tip
liniar ntre variabila criteriu si predictori (F(2,6) = 100.45, p < .001). Coeficientul de corelatie
multipla a fost R=.985. Aproximativ 97% din varianta succesului n nvatarea sahului poate fi
explicata prin contributia simultana a celor doua variabile. Subiectii care dovedesc aptitudini
pentru jocul de sah au un nivel mai ridicat de inteligenta abstracta concomitent cu un nivel mai
scazut al inteligentei verbale.

S-ar putea să vă placă și