Sunteți pe pagina 1din 14

Regresia multipla

Introducere Regresia multipla este o metoda de predictie a valorilor unei variabile dependente pornind de la valorile mai multor variabile independente. n psihologie situatia cea mai tipica este aceea a examenelor de selectie. n acest caz avem un set de variabile independente (numite si predictori), care sunt scoruri la diferite teste utilizate, si o variabila dependenta (numita si criteriu), ale carei valori vrem sa le estimam pornind de la relatiile acesteia cu toate variabilele independente. n esenta, regresia multipla este o procedura similara regresiei simple. Asa cum regresia simpla se bazeaza pe corelatia dintre doua variabile, regresia multipla se bazeaza pe corelatia multipla dintre variabilele implicate. Daca n cazul regresiei simple cautam o linie care sa aproximeze cel mai bine distributia punctelor de intersectie pentru doua variabile, n regresia multipla cautam o linie care sa aproximeze cel mai bine tendinta norului de puncte al unei distributii cu mai multe variabile simultan. Formula de mai jos exprima ecuatia dreptei de regresie simpla:

Unde Y este valoarea estimata axy este punctul de origine al liniei (valoarea lui Y pentru X=0), si este o expresie a erorii de estimare (valorile reziduale) bxz este coeficientul care da unghiul de nclinare a liniei (panta) X este valoarea variabilei predictor Ecuatia de regresie multipla va fi una similara celei de mai sus, cu singura deosebire ca vom avea mai multi coeficienti b, sau, n terminologia consacrata pentru regresia multipla, beta (). n plus, acestia vor fi calculati pe baza coeficientului de corelatie partiala, dupa ce a fost eliminata influenta pe care o exercita variabilele introduse anterior n ecuatie.

Unde Y este valoarea estimata pentru variabila criteriu (dependenta) ai este punctul de origine al liniei b1, b2, b3... bk sunt coeficientii beta pentru cele k variabile predictor X1, X2, X3.... Xk sunt valorile celor k variabile predictor

Aspecte cheie n fundamentarea regresiei multiple (1) n cazul regresiei simple, linia de regresie cauta cea mai buna traiectorie pentru a minimiza eroarea de estimare. Aceasta este definita printr-o metoda care asigura cea mai mica suma a patratelor distantelor dintre variabila predictor si variabila criteriu. n mod natural, acest deziderat este asigurat de marimea coeficientului de corelatie Pearson dintre cele doua variabile. Cu ct corelatia este mai mare, cu att norul de puncte se apropie mai mult de linia de regresie, la limita, pentru o corelatie de 1, punctele respective se plaseaza chiar pe dreapta de regresie. Situatia se prezinta n mod similar si in cazul regresiei multiple. Doar ca de data aceasta nu ne bazam pe corelatia simpla, dintre doua variabile ci pe corelatia multipla, dintre mai multe variabile, simbolizata prin litera R. Corelatia multipla este esentialmente similara corelatiei Pearson si ne spune cta informatie cu privire la o variabila este continuta n combinatia simultana a mai multor variabile cu care se afla n asociere. Mai mult, la fel ca si n cazul corelatiei simple, avem si pentru corelatia multipla un coeficient de determinare (R2) care are o interpretare similara: procentul de variatie din variabila dependenta determinat de variatia simultana a variabilelor independente. Semnificatia lui R este calculata cu ajutorul unui test de varianta (F)

(2) Un alt aspect important contextul regresiei multiple este multicoliniaritatea. Acesta este un concep opus ortogonalitatii si exprima

nivelul corelatiei dintre variabilele independente. Informatia mpartasita n comun de variabilele independente reduce contributia lor la explicarea variatiei variabilei dependente. Cu alte cuvinte, cu ct acestea coreleaza mai intens ntre ele cu att corelatia multipla cu variabila dependenta (criteriu) este mai mica. n plus, multicoliniaritatea amplifica variabilitatea coeficientilor de regresie, fapt care are ca efect o imprecizie mai mare a predictiei. Din acest motiv, analiza de regresie trebuie precedata de evaluarea multicoliniaritatii. Una dintre metode este aceea de a analiza matricea de intercorelatii dintre variabilele independente. Corelatiile mari sunt un indicator al liniaritatii. n principiu, variabilele independente a caror corelatie este mai mare de 0.1 ridica problema multicoliniaritatii. O alta metoda este analiza tolerantei, o optiune oferita de programele de prelucrari statistice. Toleranta este o masura specifica pentru coliniaritate care ia valori ntre 0 si 1. Valorile apropiate de 0 sunt un semn al coliniaritatii. Variabilele pentru care toleranta este mai mica de 0.1 ridica o problema de coliniaritate care ar trebui rezolvata. Principalele solutii posibile n legatura cu variabilele cu probleme de coliniaritate sunt doua: eliminarea lor sau, combinarea lor, din moment ce aduc acelasi tip de informatie (aceasta n cazul n care corelatia lor este de 0.80 sau mai mare).

(3) O importanta deosebita prezinta alegerea modelului de analiza care sa permita selectarea unui set de predictori avnd maximum de putere de predictie asupra variabilei criteriu. Scopul nu este acela de a aduna informatie de la toate variabilele disponibile ci doar de la acelea care aduc contributia cea mai consistenta. O prima recomandare, cu caracter preliminar, este aceea de a avea n vedere un anumit raport ntre numarul de subiecti si numarul variabilelor independente. Acest raport este cifrat la valoarea 15/1, adica pentru un esantion de 150 de subiecti se poate miza pe cel mult 10 variabile independente. Dupa ce setul de variabile predictor a fost fixat, se va trece la adoptarea uneia dintre metodele de introducere a acestora n ecuatia de regresie:

Regresia multipla standard. Toate variabilele predictor sunt incluse n ecuatie, efectul fiecareia fiind evaluat dupa si independent de efectul tuturor celorlalte variabile introduse anterior. Fiecare variabila independenta este evaluata numai prin prisma contributiei proprii la explicarea variabilei dependente. Regresia multipla secventiala (numita si regresie ierarhica). Variabilele independente sunt introduse n ecuatie ntr-o anumita ordine, n functie de optiunile analistului. Atunci cnd acesta are motive sa creada ca o anumita variabila are o influenta mai mare, o poate introduce n ecuatie naintea altora. Regresia multipla pas cu pas. Este utilizata adesea n studii exploratorii, atunci cnd exista un numar mare de predictori despre care nu se stie exact care este contributia fiecareia la corelatia de ansamblu cu variabila dependenta. Exista trei variante ale acetui tip de analiza: Selectia anterograda. Toate variabilele independente sunt corelate cu variabila dependenta dupa care variabila care are corelatia cea mai mare este introdusa prima n ecuatie. Urmatoarea variabila introdusa n ecuatie este cea care are corelatia cea mai mare, dupa ce a fost eliminat efectul variabilei anterioare. Procesul continua pna ce nivelul contributiei variabilelor independente este prea mic pentru a mai fi luat n considerare. O variabila, odata introdusa n ecuatie ramne acolo. Selectia pas cu pas. Este o varianta a metodei anterioare. Diferenta consta n faptul ca la fiecare pas, fiecare variabila deja introdusa este retestata pentru a se evalua efectul lor ca si cum ar fi fost introduse ultima. Cu alte cuvinte, daca o variabila nou introdusa are o contributie mai consistenta asupra variabilei dependente va determina eliminarea unei variabile anterioare dar care se dovedeste mai putin predictiva. Selectia retrograda. Pasul initial al acestei metode este acela de calculare a unei ecuatii de regresie n care toate variabilele predictor sunt incluse. Ulterior, pentru fiecare

variabila predictor este efectuat un test de semnificatie F, pentru a se evalua contributia fiecarui predictor la corelatia de ansamblu. Valorile testului F sunt comparate cu o valoare limita prestabilita, variabilele care nu trec acest prag fiind eliminate din ecuatie. Pe masura ce o variabila este eliminata, o noua ecuatie este calculata si un nou test F este efectuat pentru variabilele ramase, urmat de eventuala eliminare a unei alte variabile. Procesul continua pna cnd doar variabilele semnificative ramn n ecuatie. Este evident ca metoda secventiala si cea pas cu pas sunt superioare metodei standard. ntre primele doua diferenta consta n faptul ca, n cazul metodei secventiale, decizia de selectionare a variabilelor introduse n ecuatie apartine cercetatorului n timp ce n cazul metodei pas cu pas, programul este cel care face n mod automat selectia, n functie de parametri fixati de analist.

(4) Ecuatia de regresie multipla are drept finalitate predictia variabilei criteriu. Verificarea potentialului real de predictie este ceea ce se numeste validarea ecuatiei de regresie. Este evident ca modelul de validare prezinta o importanta aparte. Coeficientul de corelatie multipla (R) are o valoare maxima pe esantionul pe care a fost calculata ecuatia de regresie. Daca nivelul corelatiei scade dramatic pe alt esantion, atunci ecuatia de regresie nu prezinta utilitatea care a fost estimata. Obtinerea unei ecuatii sigure tine n mod cert de deja mentionatul raport (15/1) ntre volumul esantionului (N) si numarul variabilelor predictor (k). O alta recomandare sugereaza utilizarea unui esantion N50+8k pentru testarea corelatiei multiple si N104+k, pentru testarea predictorilor individuali. Evaluarea validitatii se poate face fie ntr-o procedura decalata n timp, pe un alt esantion extras din aceeasi populatie, fie prin utilizarea simultana a doua esantioane, unul pentru calcularea ecuatiei de regresie, altul pentru validarea acesteia. n ambele cazuri se va urmari respectarea criteriilor de constituire a esantionului enuntate mai sus. (5) Ultimul aspect care trebuie luat n considerare este efectul valorilor extreme (outliers) asupra ecuatiei de regresie, care poate fi considerabil. Uneori chiar si una sau doua valori excesive pot influenta

analiza de regresie. De aceea aceste valori vor fi identificate si tratate corespunzator naintea calcularii ecuatiei de regresie multipla. Obiective de cercetare specifice analizei de regresie multipla Asa cum am precizat deja, analiza de regresie multipla este utilizabila n situatii de predictie. Un caz tipic este acela n care dorim sa selectam candidati pentru o anumita profesie pe baza performantelor la un set de teste psihologice. Performanta profesionala, masurata prin una din metodele posibile (aprecierea pe baza de experti, apreciere interpersonala, productivitate, etc.) este variabila criteriu (dependenta). Indicatorii de performanta la teste reprezinta variabilele predictor (independente). Desigur, scopul esential este ca, odata stabilita ecuatia de regresie pentru esantionul studiat, sa putem utiliza bateria de teste pentru a face predictii de adaptare profesionala n cazul altor subiecti. Este evident ca o astfel de procedura este una de durata si urmareste ceea ce se numeste validarea testelor de selectie. ntr-un astfel de caz, subiectii esantionului ar fi supusi testarii psihologice naintea angajarii dupa care, la un interval adecvat de timp, ar urma sa fie evaluati sub aspectul performantei profesionale. Ulterior, daca rezultatele analizei de regresie justifica aceasta, rezultatele la teste vor putea fi utilizate pentru selectie. ntr-o situatie de cercetare ca cea descrisa, ntrebarile pe care si le pune cercetatorul, atunci cnd alege sa introduca n ecuatia de regresie toti indicatorii testelor, sunt, n mod explicit, urmatoarele: Care dintre indicatorii testelor utilizate are capacitatea de predictie cea mai ridicata? Exista indicatori care nu au relevanta pentru predictia performantei profesionale? Are ecuatia de regresie astfel obtinuta o capacitate sigura de predictie?

Daca modelul de analiza este unul secvential sau pas cu pas, atunci ntrebarile obiectivele implicite vor fi: Care dintre indicatorii testelor utilizate pot fi incluse n ecuatia de predictie a performantei profesionale? Are ecuatia de regresie, astfel obtinuta, o capacitate sigura de predictie?

Conditii si limitari Efectuarea analiza de regresie multipla presupune o serie de conditii prealabile. Acestea se refera pe de o parte la variabile si, pe de alta parte, la distributia valorilor reziduale. Variabilele analizate: trebuie sa fie masurate pe scala de interval raport, cu respectarea conditiilor de aplicare a testului de corelatie (normalitatea distributiei, n special); sunt fixe, ele urmeaza a fi pastrate n orice studiu de replicare; vor fi masurate fara erori, iar cazurile extreme vor fi analizate si tratate corespunzator; se supun unui model de corelatie liniara;

Valorile reziduale (erorile de predictie): media valorilor reziduale n studii de replicare sa fie zero; erorile din cazul unei variabile independente nu au nici o legatura cu erorile altei sau altor variabile independente; erorile nu coreleaza cu variabilele independente; varianta valorilor reziduale pe toata distributia variabilelor independente este omogena (homoscedasticitate); erorile au o distributie normala;

Verificarea acestor conditii presupune ndeplinirea tuturor procedurilor de analiza preliminara a datelor, asa cum au fost deja prezentate anterior. Efectuarea analizei de regresie cu SPSS Sa presupunem ca un psiholog vrea sa estimeze performanta n nvatarea jocului de sah pe baza a doua teste, unul de inteligenta abstracta si

altul de inteligenta verbala. Am construit o matrice de date ipotetica, introdusa n editorul de date SPSS, ca n figura de mai jos. Identificam variabilele: Variabila dependenta (criteriu) este perform Variabilele independente (predictor) sunt abstract si verbal Verificam liniaritatea asocierii dintre variabile cu ajutorul procedurii Graphs/Scater optiunea Matrix: Am trecut variabilele studiului n lista Matrix Variables, pentru a obtine o matrice de grafice Scatter Plot care sa permita analiza comparativa a acestora. Pentru a obtine si liniile de regresie n fiecare grafic vom edita matricea obtinuta astfel: dublu clic pe grafic si apoi Chart-Options-Fit-Total-Liniar Regression. Rezultatul se vede n figura urmatoare: Fiecare zona din matrice reprezinta grafic asocierea variabilelor doua cte doua. Pe diagonala avem numele variabilelor. Imaginile de deasupra si dedesubtul ei fiind repetitive, vom privi numai ntr-o singura zona, sa zicem deasupra diagonalei. Graficul din mijlocul primei linii reprezinta aoscierea dintre variabila abstract cu verbal, cel din coltul dreapta-sus, asocierea dintre abstract si perform iar cel de pe linia de mijloc-dreapta, relatia dintre verbal si perform. Analiza imaginilor ne spune urmatoarele lucruri: Toate relatiile sunt de tip liniar (norul de puncte se situeaza, n general, n jurul liniei de regresie) abstract si verbal coreleaza negativ abstract si perform coreleaza pozitiv verbal si perform coreleaza negativ

Obtinem matricea de corelatii a variabilelor aplicnd procedura corelatiei bivariate (Pearson): Statistics/Correlate/Bivariate, si selectam toate variabilele: Valorile din matricea de corelatie confirma constatarile preliminare din matricea Scatter Plot. Variabilele predictor coreleaza negativ ntre ele (-.712), variabila abstract coreleaza pozitiv cu criteriul (+.921) iar variabila verbal coreleaza negativ cu criteriul (-.902). Ne amintim ca, n mod ideal, variabilele independente nu trebuie sa coreleze ntre ele dar trebuie sa coreleze cu criteriul. Trebuie sa evaluam semnificatia corelatiilor din matrice. Fiind vorba de o matrice multivariata, semnificatia coeficientilor de corelatie se corecteaza cu ajutorul metodei Bonferoni (enuntata deja la corelatia partiala). Pragul minim de 0.05 se mparte la numarul variabilelor din matrice si se obtine noul prag limita: 0.05/3=0.017. n aceste conditii, constatam ca relatia dintre variabilele predictor nu este semnificativa (.032), n ciuda valorii ei mari (sa nu uitam ca lucram pe un numar foarte mic de subiecti). n acelasi timp, corelatiile dintre variabilele predictor si criteriu sunt semnificative (.000 respectiv, .001). Dupa efectuarea acestor analize preliminare, putem trece la analiza de regresie multipla propriu-zisa, executnd procedura: Statistics/Regression/Liniar.

Am introdus variabile perform n zona Dependent iar variabilele abstract si verbal n lista Independent(s) Am preferat metoda de analiza standard (Enter) care este implicita. Actionam butonul Statistics pentru alte optiuni:

n functie de nevoile de analiza putem alege orice optiuni dorim, aici am bifat doar Descriptives. Alte optiuni din aceasta caseta determina obtinerea unor informatii suplimentare si verificarea conditiilor de aplicare a analizei de regresie multipla. Semnificatia optiunilor poate fi gasita n Help-ul casetei. Actionam Save, pentru a genera o variabila noua care va contine valorile prezise nestandardizate (adica netransformate n scoruri z)

n fine, actionam butonul OK n caseta principala si trecem la analiza rezultatelor: Mai nti analizam statistica descriptiva pentru fiecare variabila si matricea de corelatii care ne ofera informatii de aceeasi natura cu cele preliminare, pe care le-am inspectat deja. Examinam coeficientul de corelatie multipla:

Valoarea sa, .985 ne indica o corelatie mare intre variabilele predictor simultan cu variabila criteriu. Valoarea lui R2 (.971) ne arata ca 97% din variatia performantei n nvatarea sahului este determinata de cele doua tipuri de inteligenta. Adjusted R Square este o corectie a lui R2 n functie de numarul de predictori si numarul de subiecti. Aceasta deoarece cu ct acestea sunt mai mari cu att coeficientul de determinare tinde sa fie mai mare. Standard error of estimate indica acuratetea modelului de predictie. Cu ct eroarea estimarii este mai mica cu att predictia este mai sigura. Acum trebuie sa evaluam corelatia de ansamblu dintre predictori si criteriu. Principala problema la care trebuie sa raspundem este daca variabilele predictor coreleaza semnificativ cu variabila criteriu. Pentru aceasta, inspectam tabelul ANOVA:

Asa cum am precizat deja, semnificatia lui R se testeaza cu ajutorul analizei de varianta. n cazul nostru, valoarea lui F este 100.45 iar nivelul de semnificatie, Sig.=0.000. Aceste valori ne permit sa respinge ipoteza de nul si sa acceptam ca cele doua variabile predictor influenteaza mpreuna variatia variabilei criteriu. Examinam coeficientii individuali de regresie.

Utiliznd constanta (care ne da punctul de origine al dreptei de regresie) si valorile coeficientilor B putem scrie ecuatia de regresie liniara multipla dintre variabilele predictor si variabila criteriu: Performanta 4.862)*verbal estimata la sah=138.555+(0.706)*abstract+(-

Aceeasi ecuatie poate fi scrisa si utiliznd coeficientii Beta (standardizati): Zperformanta la sah=(.565)*abstract+(-.5)*verbal (n cazul valorilor beta standardizate, termenul liber al ecuatiei este 0) La rndul ei, semnificatia coeficientilor individuali de regresie trebuie analizata pentru a vedea daca acestia descriu cu adevarat o relatie dintre variabilele predictor si criteriu. Ipoteza de nul n acest caz este ca coeficientii

de regresie alesi sunt egali cu 0, ipoteza alternativa fiind ca ei sunt diferiti de 0. Rezultatul testului este afisat n ultimele doua coloane din tabelul de mai sus si sunt exprimati n forma unui test t. Valorile lui t

(t=coeficientulB/eroarea standardB ) exprima semnificatia diferentei dintre coeficientii respectivi si 0. n cazul nostru, ambii coeficienti au valori semnificative (Sig. este mai

mic de 0.05) ceea ce ne permite concluzia ca ambii coeficienti sunt semnificativ diferiti de 0 si, deci, ambele variabile predictor sunt importante pentru estimarea variabilei criteriu. Dupa examinarea corelatiei dintre fiecare predictor si criteriu, vom efectua analiza relatiei globale, pentru toti coeficientii de regresie n ansamblu. ntrebarea la care trebuie sa raspundem este daca exista o relatie liniara ntre variabila criteriu si ntregul set de variabile predictor. Testul ANOVA din tabelul urmator contine solutia problemei noastre:

Valoarea testului F (100.45) este semnificativa la un prag p=0.000, ceea ce permite concluzia ca exista o asociere de tip liniar ntre predictori si criteriu. Daca privim datele din Data Editor, vom descoperi ca a fost creata variabila pre_1, care contine valorile estimate pentru performanta n nvatarea sahului pe baza ecuatiei de regresie. Putem calcula corelatia bivariata ntre perform si estimarea ei (pre_1) si obtinem r=.985 (Sig.=.000), ceea ce este foarte aproape de coeficientul de corelatie multipla. Desigur, nu trebuie sa consideram aceasta corelatie ca fiind o validare a predictiei. Asa cum am spus deja, acest lucru nu se poate face dect pe un alt esantion dect cel de cercetare, fie prin rezervarea unui esantion de control din esantionul initial investigat, fie prin repetarea investigatiei. ntr-o situatie de selectie, valorile pentru variabilele predictor obtinute pentru fiecare candidat ar fi puse ntr-o ecuatie de regresie utiliznd coeficientii B din analiza de regresie multipla iar subiectii care ar obtine estimare a performantei sub o anumita valoare considerata convenabila ar fi declarati inapti pentru a fi inclusi n programul de instruire. Raportarea rezultatelor n raportul de cercetare vor fi incluse cele mai importante dintre caracteristicile datelor preliminare precum si datele obtinute prin prelucrare: datele initiale si eventualele eliminari sau transformari efectuate indicatorii statistici descriptivi (medii, abateri standard), matricile de corelatie, graficele ilustrative pentru diferitele distributii

coeficientii de regresie si semnificatiile lor (R2, R2adj si gradele de libertate) daca a fost utilizata metoda pas-cu-pas se vor sintetiza valorile (R , R2adj) pentru fiecare pas si nivelul lor de semnificatie
2

tabelul cu coeficientii B (sau beta), coeficientii r bivariati si corelatia partiala pentru fiecare variabila independenta inclusa n model se vor trage concluzii de ansamblu

Rezultatele studiului demonstrativ de mai sus pot fi sintetizate n felul urmator (facem precizarea ca datele prezentate nu au nici o legatura cu vreun studiu real pe aceasta tema, avnd doar o semnificatie didactica): Analiza de regresie multipla a urmarit evaluarea capacitatii de predictie a succesului n nvatarea jocului de sah a inteligentei abstracte si verbale. A fost identificata o relatie de tip liniar ntre variabila criteriu si predictori (F(2,6) = 100.45, p < .001). Coeficientul de corelatie multipla a fost R=.985. Aproximativ 97% din varianta succesului n nvatarea sahului poate fi explicata prin contributia simultana a celor doua variabile. Subiectii care dovedesc aptitudini pentru jocul de sah au un nivel mai ridicat de inteligenta abstracta concomitent cu un nivel mai scazut al inteligentei verbale.