Sunteți pe pagina 1din 10

Regresia multipla Introducere Regresia multipla este o metoda de predictie a valorilor unei variabile dependente pornind de la valorile mai

multor variabile independente. n psihologie situatia cea mai tipica este aceea a examenelor de selectie. n acest caz avem un set de variabile independente (numite si "predictori"), care sunt scoruri la diferite teste utilizate, si o variabila dependenta (numita si "criteriu"), ale carei valori vrem sa le estimam pornind de la relatiile acesteia cu toate variabilele independente. n esenta, regresia multipla este o procedura similara regresiei simple. Asa cum regresia simpla se bazeaza pe corelatia dintre doua variabile, regresia multipla se bazeaza pe corelatia multipla dintre variabilele implicate. Daca n cazul regresiei simple cautam o linie care sa aproximeze cel mai bine distributia punctelor de intersectie pentru doua variabile, n regresia multipla cautam o linie care sa aproximeze cel mai bine tendinta norului de puncte al unei distributii cu mai multe variabile simultan. !ormula de mai "os exprima ecuatia dreptei de regresie simpla#

$nde Y' este valoarea estimata axy este punctul de origine al liniei (valoarea lui %& pentru '()), si este o expresie a erorii de estimare (valorile reziduale) bxz este coeficientul care da unghiul de nclinare a liniei (panta) X este valoarea variabilei predictor *cuatia de regresie multipla va fi una similara celei de mai sus, cu singura deosebire ca vom avea mai multi coeficienti b, sau, n terminologia consacrata pentru regresia multipla, beta (+). n plus, acestia vor fi calculati pe baza coeficientului de corelatie partiala, dupa ce a fost eliminata influenta pe care o exercita variabilele introduse anterior n ecuatie.

$nde Y' este valoarea estimata pentru variabila criteriu (dependenta) ai este punctul de origine al liniei b1, b2, b3... bk sunt coeficientii beta pentru cele , variabile predictor X1, X2, X3.... Xk sunt valorile celor , variabile predictor

specte c!eie "n #undamentarea regresiei multiple (1) n cazul regresiei simple, linia de regresie "cauta" cea mai buna traiectorie pentru a minimiza eroarea de estimare. Aceasta este definita printr-o metoda care asigura cea mai mica suma a patratelor distantelor dintre variabila "predictor" si variabila "criteriu". n mod natural, acest deziderat este asigurat de marimea coeficientului de corelatie .earson dintre cele doua variabile. /u c0t corelatia este mai mare, cu at0t norul de puncte se apropie mai mult de linia de regresie, la limita, pentru o corelatie de 1, punctele respective se plaseaza chiar pe dreapta de regresie. 2ituatia se prezinta n mod similar si in cazul regresiei multiple. Doar ca de data aceasta nu ne bazam pe corelatia simpla, dintre doua variabile ci pe corelatia multipla, dintre mai multe variabile, simbolizata prin litera R. /orelatia multipla este esentialmente similara corelatiei .earson si ne spune c0ta informatie cu privire la o variabila este continuta n combinatia simultana a mai multor variabile cu care se afla n asociere. 3ai mult, la fel ca si n cazul corelatiei simple, avem si pentru corelatia multipla un coeficient de determinare ( R4) care are o interpretare similara# procentul de variatie din variabila dependenta determinat de variatia simultana a variabilelor independente. 2emnificatia lui R este calculata cu a"utorul unui test de varianta (!)

(2) $n alt aspect important contextul regresiei multiple este multicoliniaritatea. Acesta este un concep opus ortogonalitatii si exprima nivelul corelatiei dintre variabilele independente. 5nformatia mpartasita n comun de variabilele independente reduce contributia lor la explicarea variatiei variabilei dependente. /u alte cuvinte, cu c0t acestea coreleaza mai intens ntre ele cu at0t corelatia multipla cu variabila dependenta (criteriu) este mai mica. n plus, multicoliniaritatea amplifica variabilitatea coeficientilor de regresie, fapt care are ca efect o imprecizie mai mare a predictiei. Din acest motiv, analiza de regresie trebuie precedata de evaluarea multicoliniaritatii. $na dintre metode este aceea de a analiza matricea de intercorelatii dintre variabilele independente. /orelatiile mari sunt un indicator al liniaritatii. n principiu, variabilele independente a caror corelatie este mai mare de ).1 ridica problema multicoliniaritatii. 6 alta metoda este analiza "tolerantei", o optiune oferita de programele de prelucrari statistice. "7oleranta" este o masura specifica pentru coliniaritate care ia valori ntre ) si 1. 8alorile apropiate de ) sunt un semn al coliniaritatii. 8ariabilele pentru care "toleranta" este mai mica de ).1 ridica o problema de coliniaritate care ar trebui rezolvata. .rincipalele solutii posibile n legatura cu variabilele cu probleme de coliniaritate sunt doua# eliminarea lor sau, combinarea lor, din moment ce aduc acelasi tip de informatie (aceasta n cazul n care corelatia lor este de ).9) sau mai mare).

(3) 6 importanta deosebita prezinta alegerea modelului de analiza care sa permita selectarea unui set de predictori av0nd maximum de putere de predictie asupra variabilei criteriu. 2copul nu este acela de a aduna informatie de la toate variabilele disponibile ci doar de la acelea care aduc contributia cea mai consistenta. 6 prima recomandare, cu caracter preliminar, este aceea de a avea n vedere un anumit raport ntre numarul de subiecti si

numarul variabilelor independente. Acest raport este cifrat la valoarea 1:;1, adica pentru un esantion de 1:) de subiecti se poate miza pe cel mult 1) variabile independente. Dupa ce setul de variabile predictor a fost fixat, se va trece la adoptarea uneia dintre metodele de introducere a acestora n ecuatia de regresie# Regresia multipla standard. 7oate variabilele predictor sunt incluse n ecuatie, efectul fiecareia fiind evaluat dupa si independent de efectul tuturor celorlalte variabile introduse anterior. !iecare variabila independenta este evaluata numai prin prisma contributiei proprii la explicarea variabilei dependente. Regresia multipla secventiala (numita si regresie ierarhica). 8ariabilele independente sunt introduse n ecuatie ntr-o anumita ordine, n functie de optiunile analistului. Atunci c0nd acesta are motive sa creada ca o anumita variabila are o influenta mai mare, o poate introduce n ecuatie naintea altora. Regresia multipla pas cu pas. *ste utilizata adesea n studii exploratorii, atunci c0nd exista un numar mare de predictori despre care nu se stie exact care este contributia fiecareia la corelatia de ansamblu cu variabila dependenta. *xista trei variante ale acetui tip de analiza# 2electia anterograda. 7oate variabilele independente sunt corelate cu variabila dependenta dupa care variabila care are corelatia cea mai mare este introdusa prima n ecuatie. $rmatoarea variabila introdusa n ecuatie este cea care are corelatia cea mai mare, dupa ce a fost eliminat efectul variabilei anterioare. .rocesul continua p0na ce nivelul contributiei variabilelor independente este prea mic pentru a mai fi luat n considerare. 6 variabila, odata introdusa n ecuatie ram0ne acolo. 2electia pas cu pas. *ste o varianta a metodei anterioare. Diferenta consta n faptul ca la fiecare pas, fiecare variabila de"a introdusa este retestata pentru a se evalua efectul lor ca si cum ar fi fost introduse ultima. /u alte cuvinte, daca o variabila nou introdusa are o contributie mai consistenta asupra variabilei dependente va determina eliminarea unei variabile anterioare dar care se dovedeste mai putin predictiva. 2electia retrograda. .asul initial al acestei metode este acela de calculare a unei ecuatii de regresie n care toate variabilele predictor sunt incluse. $lterior, pentru fiecare variabila predictor este efectuat un test de semnificatie "!", pentru a se evalua contributia fiecarui predictor la corelatia de ansamblu. 8alorile testului ! sunt comparate cu o valoare limita prestabilita, variabilele care nu trec acest prag fiind eliminate din ecuatie. .e masura ce o variabila este eliminata, o noua ecuatie este calculata si un nou test ! este efectuat pentru variabilele ramase, urmat de eventuala eliminare a unei alte variabile. .rocesul continua p0na c0nd doar variabilele semnificative ram0n n ecuatie.

*ste evident ca metoda "secventiala" si cea "pas cu pas" sunt superioare metodei "standard". ntre primele doua diferenta consta n faptul ca, n cazul metodei secventiale,

decizia de selectionare a variabilelor introduse n ecuatie apartine cercetatorului n timp ce n cazul metodei pas cu pas, programul este cel care face n mod automat selectia, n functie de parametri fixati de analist.

(4) *cuatia de regresie multipla are drept finalitate predictia variabilei criteriu. 8erificarea potentialului real de predictie este ceea ce se numeste validarea ecuatiei de regresie. *ste evident ca modelul de $alidare prezinta o importanta aparte. /oeficientul de corelatie multipla (R) are o valoare maxima pe esantionul pe care a fost calculata ecuatia de regresie. Daca nivelul corelatiei scade dramatic pe alt esantion, atunci ecuatia de regresie nu prezinta utilitatea care a fost estimata. 6btinerea unei ecuatii sigure tine n mod cert de de"a mentionatul raport (1:;1) ntre volumul esantionului (<) si numarul variabilelor predictor (,). 6 alta recomandare sugereaza utilizarea unui esantion <=:)>9, pentru testarea corelatiei multiple si <=1)?>,, pentru testarea predictorilor individuali. *valuarea validitatii se poate face fie ntr-o procedura decalata n timp, pe un alt esantion extras din aceeasi populatie, fie prin utilizarea simultana a doua esantioane, unul pentru calcularea ecuatiei de regresie, altul pentru validarea acesteia. n ambele cazuri se va urmari respectarea criteriilor de constituire a esantionului enuntate mai sus. (5) $ltimul aspect care trebuie luat n considerare este efectul valorilor extreme (outliers) asupra ecuatiei de regresie, care poate fi considerabil. $neori chiar si una sau doua valori excesive pot influenta analiza de regresie. De aceea aceste valori vor fi identificate si tratate corespunzator naintea calcularii ecuatiei de regresie multipla. %biecti$e de cercetare speci#ice analizei de regresie multipla Asa cum am precizat de"a, analiza de regresie multipla este utilizabila n situatii de predictie. $n caz tipic este acela n care dorim sa selectam candidati pentru o anumita profesie pe baza performantelor la un set de teste psihologice. .erformanta profesionala, masurata prin una din metodele posibile (aprecierea pe baza de experti, apreciere interpersonala, productivitate, etc.) este variabila criteriu (dependenta). 5ndicatorii de performanta la teste reprezinta variabilele predictor (independente). Desigur, scopul esential este ca, odata stabilita ecuatia de regresie pentru esantionul studiat, sa putem utiliza bateria de teste pentru a face predictii de adaptare profesionala n cazul altor subiecti. *ste evident ca o astfel de procedura este una de durata si urmareste ceea ce se numeste "validarea testelor de selectie". ntr-un astfel de caz, subiectii esantionului ar fi supusi testarii psihologice naintea anga"arii dupa care, la un interval adecvat de timp, ar urma sa fie evaluati sub aspectul performantei profesionale. $lterior, daca rezultatele analizei de regresie "ustifica aceasta, rezultatele la teste vor putea fi utilizate pentru selectie. ntr-o situatie de cercetare ca cea descrisa, ntrebarile pe care si le pune cercetatorul, atunci c0nd alege sa introduca n ecuatia de regresie toti indicatorii testelor, sunt, n mod explicit, urmatoarele# Care dintre indicatorii testelor utilizate are capacitatea de predictie cea mai ridicata? Exista indicatori care nu au relevanta pentru predictia performantei profesionale? Are ecuatia de regresie astfel obtinuta o capacitate sigura de predictie?

Daca modelul de analiza este unul secvential sau pas cu pas, atunci ntrebarile obiectivele implicite vor fi# Care dintre indicatorii testelor utilizate pot fi incluse n ecuatia de predictie a performantei profesionale? Are ecuatia de regresie, astfel obtinuta, o capacitate sigura de predictie?

&onditii si limitari *fectuarea analiza de regresie multipla presupune o serie de conditii prealabile. Acestea se refera pe de o parte la variabile si, pe de alta parte, la distributia valorilor reziduale. 8ariabilele analizate# trebuie sa fie masurate pe scala de interval raport, cu respectarea conditiilor de aplicare a testului de corelatie (normalitatea distributiei, n special)@ sunt fixe, ele urmeaza a fi pastrate n orice studiu de replicare@ vor fi masurate fara erori, iar cazurile extreme vor fi analizate si tratate corespunzator@ se supun unui model de corelatie liniara@

8alorile reziduale (erorile de predictie)# media valorilor reziduale n studii de replicare sa fie zero@ erorile din cazul unei variabile independente nu au nici o legatura cu erorile altei sau altor variabile independente@ erorile nu coreleaza cu variabilele independente@ varianta valorilor reziduale pe toata distributia variabilelor independente este omogena (homoscedasticitate)@ erorile au o distributie normala@

8erificarea acestor conditii presupune ndeplinirea tuturor procedurilor de analiza preliminara a datelor, asa cum au fost de"a prezentate anterior. '#ectuarea analizei de regresie cu ()(( 2a presupunem ca un psiholog vrea sa estimeze performanta n nvatarea "ocului de sah pe baza a doua teste, unul de inteligenta abstracta si altul de inteligenta verbala. Am construit o matrice de date ipotetica, introdusa n editorul de date 2.22, ca n figura de mai "os. 5dentificam variabilele#

8ariabila dependenta (criteriu) este "perform" 8ariabilele independente (predictor) sunt "abstract" si "verbal" 8erificam liniaritatea asocierii procedurii Graphs !cater optiunea "atrix# dintre variabile cu a"utorul

Am trecut variabilele studiului n lista "atrix #ariables, pentru a obtine o matrice de grafice 2catter .lot care sa permita analiza comparativa a acestora. .entru a obtine si liniile de regresie n fiecare grafic vom edita matricea obtinuta astfel# dublu clic pe grafic si apoi Chart$%ptions$&it$'otal$(iniar Regression. Rezultatul se vede n figura urmatoare# !iecare zona din matrice asocierea variabilelor doua c0te numele variabilelor. 5maginile dedesubtul ei fiind repetitive, singura zona, sa zicem deasupra mi"locul primei linii reprezinta variabila abstract cu verbal, cel asocierea dintre abstract si perform iar cel dreapta, relatia Analiza imaginilor ne spune reprezinta grafic doua. .e diagonala avem de deasupra si vom privi numai ntr-o diagonalei. Araficul din aoscierea dintre din coltul dreapta-sus, de pe linia de mi"locdintre verbal si perform. urmatoarele lucruri#

7oate relatiile sunt de tip liniar (norul de puncte se situeaza, n general, n "urul liniei de regresie) abstract si verbal coreleaza negativ abstract si perform coreleaza pozitiv verbal si perform coreleaza negativ

6btinem matricea de corelatii a variabilelor aplic0nd procedura corelatiei bivariate (.earson)# !tatistics Correlate )ivariate, si selectam toate variabilele# 8alorile din matricea de corelatie confirma constatarile preliminare din matricea 2catter .lot. 8ariabilele predictor coreleaza negativ ntre ele (-.B14), variabila abstract coreleaza pozitiv cu criteriul (>.C41) iar variabila verbalcoreleaza negativ cu criteriul (-.C)4).

<e amintim ca, n mod ideal, variabilele independente nu trebuie sa coreleze ntre ele dar trebuie sa coreleze cu criteriul. 7rebuie sa evaluam semnificatia corelatiilor din matrice. !iind vorba de o matrice multivariata, semnificatia coeficientilor de corelatie se corecteaza cu a"utorul metodei Donferoni (enuntata de"a la corelatia partiala). .ragul minim de ).): se mparte la numarul variabilelor din matrice si se obtine noul prag limita# ).):;E().)1B. n aceste conditii, constatam ca relatia dintre variabilele predictor nu este semnificativa (.)E4), n ciuda valorii ei mari (sa nu uitam ca lucram pe un numar foarte mic de subiecti). n acelasi timp, corelatiile dintre variabilele predictor si criteriu sunt semnificative (.))) respectiv, . ))1). Dupa efectuarea acestor analize preliminare, putem trece la analiza de regresie multipla propriu-zisa, execut0nd procedura# !tatistics Regression (iniar. Am introdus variabile perform n zona *ependent iar variabilele abstract si verbal n lista +ndependent,sAm preferat metoda de analiza standard ( Enter) care este implicita. Actionam butonul !tatistics pentru alte optiuni# n functie de nevoile de analiza putem alege orice doar *escriptives. determina obtinerea verificarea regresie multipla. n .elp-ul casetei.

optiuni dorim, aici am bifat Alte optiuni din aceasta caseta unor informatii suplimentare si conditiilor de aplicare a analizei de 2emnificatia optiunilor poate fi gasita

Actionam !ave, pentru a genera o variabila noua care va contine valorile prezise nestandardizate (adica netransformate n scoruri z)

n fine, actionam butonul OK n caseta principala si trecem la analiza rezultatelor# 3ai nt0i analizam statistica descriptiva pentru fiecare variabila si matricea de corelatii care ne ofera informatii de aceeasi natura cu cele preliminare, pe care le-am inspectat de"a. *xaminam coeficientul de corelatie multipla#

8aloarea sa, .C9: ne indica o corelatie mare intre variabilele predictor simultan cu variabila criteriu. 8aloarea lui R4 (.CB1) ne arata ca CBF din variatia performantei n nvatarea sahului este determinata de cele doua tipuri de inteligenta. "Ad"usted R 2Guare" este o corectie a lui R4 n functie de numarul de predictori si numarul de subiecti. Aceasta deoarece cu c0t acestea sunt mai mari cu at0t coeficientul de determinare tinde sa fie mai mare. "2tandard error of estimate" indica acuratetea modelului de predictie. /u c0t eroarea estimarii este mai mica cu at0t predictia este mai sigura. Acum trebuie sa evaluam corelatia de ansamblu dintre predictori si criteriu. .rincipala problema la care trebuie sa raspundem este daca variabilele predictor coreleaza semnificativ cu variabila criteriu. .entru aceasta, inspectam tabelul A<68A#

Asa cum am precizat de"a, semnificatia lui R se testeaza cu a"utorul analizei de varianta. n cazul nostru, valoarea lui ! este 1)).?: iar nivelul de semnificatie, 2ig.().))). Aceste valori ne permit sa respinge ipoteza de nul si sa acceptam ca cele doua variabile predictor influenteaza mpreuna variatia variabilei criteriu. *xaminam coeficientii individuali de regresie.

$tiliz0nd constanta (care ne da punctul de origine al dreptei de regresie) si valorile coeficientilor D putem scrie ecuatia de regresie liniara multipla dintre variabilele predictor si variabila criteriu#

.erformanta estimata la sah(1E9.:::>().B)H)Iabstract>(-?.9H4)Iverbal Aceeasi ecuatie poate fi scrisa si utiliz0nd coeficientii Deta (standardizati)# Jperformanta la sah((.:H:)Iabstract>(-.:)Iverbal ( n cazul valorilor beta standardizate, termenul liber al ecuatiei este )) Ka r0ndul ei, semnificatia coeficientilor individuali de regresie trebuie analizata pentru a vedea daca acestia descriu cu adevarat o relatie dintre variabilele predictor si criteriu. 5poteza de nul n acest caz este ca coeficientii de regresie alesi sunt egali cu ), ipoteza alternativa fiind ca ei sunt diferiti de ). Rezultatul testului este afisat n ultimele doua coloane din tabelul de mai sus si sunt exprimati n forma unui test t. 8alorile lui t (t(coeficientulD;eroarea standardD ) exprima semnificatia diferentei dintre coeficientii respectivi si ). n cazul nostru, ambii coeficienti au valori semnificative (2ig. este mai mic de ).):) ceea ce ne permite concluzia ca ambii coeficienti sunt semnificativ diferiti de ) si, deci, ambele variabile predictor sunt importante pentru estimarea variabilei criteriu. Dupa examinarea corelatiei dintre fiecare predictor si criteriu, vom efectua analiza relatiei globale, pentru toti coeficientii de regresie n ansamblu. ntrebarea la care trebuie sa raspundem este daca exista o relatie liniara ntre variabila criteriu si ntregul set de variabile predictor. 7estul A<68A din tabelul urmator contine solutia problemei noastre#

8aloarea testului ! (1)).?:) este semnificativa la un prag p().))), ceea ce permite concluzia ca exista o asociere de tip liniar ntre predictori si criteriu. Daca privim datele din Data *ditor, vom descoperi ca a fost creata variabila preL1, care contine valorile estimate pentru performanta n nvatarea sahului pe baza ecuatiei de regresie. .utem calcula corelatia bivariata ntre perform si estimarea ei (preL1) si obtinem r(.C9: (2ig.(.)))), ceea ce este foarte aproape de coeficientul de corelatie multipla. Desigur, nu trebuie sa consideram aceasta corelatie ca fiind o "validare" a predictiei. Asa cum am spus de"a, acest lucru nu se poate face dec0t pe un alt esantion dec0t cel de cercetare, fie prin rezervarea unui esantion de control din esantionul initial investigat, fie prin repetarea investigatiei. ntr-o situatie de selectie, valorile pentru variabilele predictor obtinute pentru fiecare candidat ar fi puse ntr-o ecuatie de regresie utiliz0nd coeficientii D din analiza de regresie multipla iar subiectii care ar obtine estimare a performantei sub o anumita valoare considerata convenabila ar fi declarati inapti pentru a fi inclusi n programul de instruire.

Raportarea rezultatelor n raportul de cercetare vor fi incluse cele mai importante dintre caracteristicile datelor preliminare precum si datele obtinute prin prelucrare# datele initiale si eventualele eliminari sau transformari efectuate indicatorii statistici descriptivi (medii, abateri standard), matricile de corelatie, graficele ilustrative pentru diferitele distributii coeficientii de regresie si semnificatiile lor (R4, R4ad" si gradele de libertate) daca a fost utilizata metoda pas-cu-pas se vor sintetiza valorile (R4, R4ad") pentru fiecare pas si nivelul lor de semnificatie tabelul cu coeficientii D (sau beta), coeficientii r bivariati si corelatia partiala pentru fiecare variabila independenta inclusa n model se vor trage concluzii de ansamblu

Rezultatele studiului demonstrativ de mai sus pot fi sintetizate n felul urmator (facem precizarea ca datele prezentate nu au nici o legatura cu vreun studiu real pe aceasta tema, av0nd doar o semnificatie didactica)# Analiza de regresie multipla a urmarit evaluarea capacitatii de predictie a succesului n nvatarea /ocului de sah a inteligentei abstracte si verbale. A fost identificata o relatie de tip liniar ntre variabila criteriu si predictori ,&,0,1- 2 344.56, p 7 .443-. Coeficientul de corelatie multipla a fost R2.896. Aproximativ 8:; din varianta succesului n nvatarea sahului poate fi explicata prin contributia simultana a celor doua variabile. !ubiectii care dovedesc aptitudini pentru /ocul de sah au un nivel mai ridicat de inteligenta abstracta concomitent cu un nivel mai scazut al inteligentei verbale.

S-ar putea să vă placă și