Popa 2010 Regresia Multipla

Marian Popa STATISTICI MULTIVARIATE APLICATE IN PSIHOLOGIE POLIROM 20106.1, 6.2. 6.3. 6.4. 6.5. 6.6. 6.7. 6.8. 6.9. Capitolul 6 Regresia liniaré multipla Notiuni de baz despre predictie - regresia liniar’ simpl& Modelul de predictie multivariatt Condigii si limieari Alegerea modelului de analiz Volumul esantionului Obiectivele analizei de regresic multipli Regresia multipli cu SPSS 6.7.1. Operatiile preliminare 6.7.2. Procedura de calcul 6.7.3, Interpretarea rezultatelor falidarea modelului de regresie Realizarea regresiei liniare multiple cu metoda bootstrap 6.10. Raportarea rezultatelor analizei de regresie 6.11. Cercetari ilustrative 6.12. intrebari recapitulative6.1. Notiuni de baza despre predictie — regresia liniara simpla S4 presupunem c& suntem interesafi de relatia dintre nivelul inteligentei si performanta scolar’, In acest scop, selectim un esantion, evaluam nivelul inteligentei si apoi al performantei scolare, dup’ care aplic’m un test de corelatie liniar’ Pearson intre cele dou distributii de valori. Coeficientul r ne indica intensitatea relatiei dintre cele dowd variabile, Cu cat acesta este mai mare, cu atat relatia dintre inteligent& si performanta scolar’ este mai puternic’. Pe aceast proprietate se poate construi o procedura prin care valorile unei variabile sa fie prezise (estimate) pornind de la valorile celeilalte variabile. Aceasti proceduri de predictie se numeste, dintr-un motiv pe care il vom intelege putin mai tarziu, regresie. in acest context, variabila ale c&rei valori dorim si le prezicem se numeste criteriu, iar variabila ale c&irei valori le utilizim pentru a prezice valorile criteriului se numeste predictor. Corelatia si regresia sunt proceduri inrudite, dar obiectivele lor sunt diferite. in timp ce corelafia pune in evident sensul si intensitatea relatiei dintre doud variabile, regresia permite estimarea valorilor unei variabile in raport cu cealalti, precum si explicarea relatiilor dintre acestea. De exemplu, intervievand telefonic aproape 1,5 milioane de persoane in perioada 1988-2000, Ruhm (apud Nolan si Heinzen, 2008) a descoperit o corelatie pozitiv3 intre indicatorii recesiunii economice si starea de sinitate a populatiei, ceea ce la prima vedere pare surprinztor. Dar explicatia acestei constatiri a fost relevat prin intermediul regresiei, care a evidentiat faptul c& reducerea cu o or a programului siptimanal de munc’ determin’ cresterea cu 1% a activitiii fizice individuale, ceea ce contribuie la ameliorarea conditiei fizice si, implicit, a stirii de sinttate, a) Predictia perfecta (r = +1) ‘Sa ne plasm in situatia in care avem dou variabile exprimate in valori z ce coreleaz perfect (r = +1). in acest caz, orice valoare a criteriului (z,) corespunde unei valori identice a predictorului (z,). Cu alte cuvinte, daca stim cX dou variabile au o corelatie liniar& egal cu 1 (indiferent de semn), putem prezice orice valoare a unei variabile pe baza valorii celeilalte, conform relatiei Z, (formula 6.1) (Pentru cd valoarea lui Y este una ,prezisé”, se noteaz cu indicele ,prim”.) in aceste conditii, pentru o valoare oarecare a lui X, si zicem z, = 1.5, am prezice © valoare identic& z,. = 1.5 pentru Y. Acest lucru inseamna ci unei valori X mai mare decat media cu 1.5 abateri standard i-ar corespunde o valoare Y care se afla tot la 1.5 abateri standard fafi de medie, indiferent in ce unititi de masur& este exprimata. De asemenea, dac valoarea lui z, at creste cu 0 unitate (z, = 1.6), valoarea prezist z,. ar creste si ea cu aceeasi unitate (z,. = 1.6). Putem ilustra acest model perfect de predictie cu graficul134 STATISTICI MULTIVARIATE APLICATE IN PSIHOLOGIE, din figura 6.1, in care punctele ce corespund intersectiei perechilor de valori se plaseazi perfect pe o linie dreaptt : Figura 6.1, Graficul predictiei perfecte Imaginea prezentati este tipicd pentru predicfia in cazul unei corelafii perfecte pozitive (r = +1). In cazul unei corelatii negative, linia punctelor de predictie ar urma o traiectorie dinspre stinga sus a axelor de coordonate spre dreapta jos. Exemplul de mai sus ilustreazd un caz particular, in care atat variabila X, cat gi variabila Y au originea in 0, ceea ce inseamni c& cele mai mici valori ale lor sunt 0 (data fiind exprimarea in scoruri z) b) Predictia in cazul corelatiei imperfecte Corelatiile perfecte sunt ins cu cotul excepfionale in realitate si, de fapt, lipsite de sens in cazul unor variabile despre care se presupune ci misoara caracteristici diferite. Corelatiile masurate pe variabile reale au, in mod obisnuit, valori diferite de +1, in jurul lui 0. Ne propunem s& exemplificim aceasti situasie cu valorile din tabelul 6.1, in care am reprodus variabilele ,inteligenta” si ,performanta scolar” din tabelul 4.1. Teoretic vorbind, oricare dintre aceste variabile poate fi desemnat& drept predictor” sau ,criteriu”; practic insd, distribuirea in aceste roluri depinde de context. Noi vom considera aici inteligenta drept predictor, iar performanta scolar’ drept criteriu, ignordnd faptul c& relafia ar putea 6 ganditi si din perspectiva influentei pe care insteuirea scolaré 0 poate avea asupra dezvoltirii inteligentei. Coeficientul de corelafie calculat intre variabilele din tabelul 6.1 este r = +0.85. in contextul regresiei simple, coeficientul de corelatie devine coeficient de regresie, se noteazd cu R si se interpreteazi la fel ca si coeficientul de corelatie. La fel ca si coeficientul de determinare pentru corelatie (77) se interpreteaza si coeficientul de determinare pentru regresie (R"). Pentru exemplul nostru, R’ = 0.72, care poate fi interpretat procentual astfel: 72% din variabilitatea valorilor performantei gcolare are legaturé cu variabilitatea valorilor inteligentei, restul de 28% fiind explicaté de alte variabile.REGRESIA LINIARA MULTIPLA, 135 ‘Tabelul 6.1. Inteligenta si performanta scolara pentru un esantion de 10 subiecti a performanga scolaré Subiect eat mal i 123 96 2 119 B 3 us 85 4 120 90 5 124 96 6 113 B 7 110 8 & 112 89 9 132 100 10 128 99 Cu alte cuvinte, predictia performantei scolare pe baza valorilor la testul de inteligengi nu este perfect, ci prezinti o anumité eroare, data de faptul c& doar o parte din variatia performantelor scolare este explicati de variatia inteligentei, Ca urmare, ecuatia de predictie devine : zy =r*z, (formula 6.2) unde r este valoarea coeficientului de corelatie dintre cele dou’ variable. Formula 6.2 spune ci o valoare prezis& z,. va fi egald cu valoarea z, corespunzatoare inmulyiti cu coeficientul de corelatie dintre variabilele X si ¥. Vom observa ci, atunci cand r = +1, se pistreazA identitatea dintre valoarea predictor si valoarea criteriu (afirmatie yalabild si pentru r = -1, cu specificatia c& valoarea criteriu are semn schimbat), in situatia in care valorile lui r devin din ce in ce mai apropiate de 0, zy. va lua valori din ce in ce mai mici, tinzind spre zero. Dac& ne amintim c& valoarea 0 reprezint& chiar media unei distributii de valori z, inseamni ca in cazul corelatiilor din ce in ce mai mici valorile de predictie tind spre medie, de unde si utilizarea termenului de ,regresie”. Semnificajia statistic’ a coeficientului de regresie (R) este supus’ unui test F, ipoteza de nul respingindu-se daca valoarea lui p este mai mic sau egal cu 0.05. ©) Nofiunea de regresie citre medie Conceptul de regresie a fost introxtus de Sir Francis Galton (1822-1911), care, studiind relaria dintre iniltimea copiilor si cea a p&rintilor, a observat c& parin{ii cu indlyime excesiva tind si aiba copii cu inaltime mai putin excesiva decat a lor, adicdi mai aproape de medie. Galton a gasit un coeficient de corelatie r = +0.67 intre inaljimea parintilor (X) si cea a copiilor (2). Pe aceastt baz, se poate prezice inklimea copilului daci stim intlyimea medie a parintilor lui, exprimata in scoruri z. De exemplu, daca inalyimea medie a pirintilor este cu dou% abateri standard mai mare decat media populatiei de parinji, atunci indltimea copilului lor ar putea fi: 2, =0.67*2=1.34 altfel spus, cu doar 1.34 abateri standard mai mare decét media populatiei de copii.136 STATISTICI MULTIVARIATE APLICATE IN PSIHOLOGIE Galton a denumit accast& tendingt regresie citre mediocritate, dar expresia consacrat& acum este cea de regresie céttre medie, Faptul c& se bazeaz pe corelatia de tip liniar, Teprezentati de 0 dreapti, ne permite si vorbim de o regresie liniard cétre medie d) Dreapta de regresie Ne amintim c& putem ilustra corelajia dintre inteligenta si performanta scolar prin realizarea graficului scatterplot (Graphs/Legacy Dialogs/ScatterDot...). Masura in care norul de puncte descrie o relafie liniard intre variabile poate fi ilustrata prin trasarea unei drepte prin acest nor de puncte, numit dreaptt de regresie, Traiectoria optima a acestei drepte se fixeazi pe baza unui model matematic, numit ,metoda celor mai mici patrate”, care asigur minimizarea distanjelor dintre punctele reale si linia de predictie, numit’ gi linie de regresie. in esenja, pentru a trasa dreapta de regresie dintre doua variabile ne sunt necesare punctul de origine al acesteia si inclinarea (sau panta). Odata cunoscute aceste valori, putem trasa linia de regresie utilizdnd formula clasica a liniei drepte : Y 1, +0,.*X (formula 6.3) ~ a, este originea dreptei sau ,punctul de interceptic”, locul in care linia de regresie intersecteazi ordonata (axa Oy) ~ b,, este panta liniei de regresie - Xeste variabila predictor in imaginea din figura 6,2 avem graficul scatterplot al corelatiei dintre inteligent’ si performanta scolar, pentru valorile de mai sus, cu dreapta de regresie (trasarea dreptei in interiorul graficului se face prin editarea acestuia, urmati de actionarea butonului Add Fit Line at Total). Performangi scolari Be mo S20 S30 135 Inteligenta Figura 6.2. Graficul de regresie intre inteligenta si performania scolar’REGRESIA LINIARA MULTIPLA 137 Originea dreptei (a,,), termenul liber al ecuatiei de regresie, indic& valoarea criteriului daca predictorul ar avea valoarea zero. Atunci cAnd predictorul poate tua in mod real valoarea zero, termenul liber poate fi interpretat in mod direct (este valoarea prezisa pentru x = 0), dar de cele mai multe ori el este neinterpretabil (Howell, 2007). Astfel, in contextul exemplului nostru, ar fi nerelevant s& ne punem problema ce performanta scolara ar avea cineva al cdrui nivel de inteligenta este egal cu 0. Panta, la randul ei, este rata cu care se modificd valoarea criteriului in functie de valoarea predictorului. ©) Eroarea de predictie in urma calcularii ecuafiei de regresie (Analyze/Regression/Linear)' cu optiunea de salvare a valorilor prezise, objinem predictiile pentru performanta scolar’. Diferenta dintre acestea si valorile reale ale performanjei scolare reprezinti eroarea de predictie. Aga cum se poate observa din tabelul 6.2, in cazul unei corelatii imperfecte intre variabile, pentru fiecare valoare prezisi avem o eroare, mai mica sau mai mare. {nainte de a merge mai departe, considerim ci este util si Kimurim de ce am fi interesati s prezicem valorile performangei scolare, atat timp cat le cunoastem. De fapt, obiectivul nostru nu este si prezicem nivelul de performangé scolar al subiectilor din egantionul cercetirii, ci si gasim, pe baza relatiei dintre aceste variabile, un model de predictie care si poate fi utilizat in viitor pentru alti subiecti sau alte valori QI. De exemplu, variabila QU din tabelul 6.2 nu are valori ca 121, 122, 125, 126 s.a., dar, odatd gasit un model de predictie, vom fi in masurat si prezicem valori ale performantei si pentru aceste valori.. ‘Tabelul 6.2. Valorile prezise si eroarea de predictie rezultate din ecuatia de regresie Sere] Peon wert Vara pet | Erne de pete x Yy 10 78 78.5 -0.52 12 89 80.7 8.32, 113 73 81.8 -8.76 us 85. 83.9 1.07 119 83 88.3 -5.25 120 90. 89.3 0.67 123 36 926 32 124 96. 93.7 2.34 128 99 98.0 1.02 132 _t 100 102.3 -2.31 | Pentru a intelege mai bine mecanismul predictiei, am realizat figura 6.3, in care analizim in detaliu situatia pentru unul dintre punctele scatterplor-ului (A), definit de valorile 123 si 96. Situatia poate fi discutati in mod similar pentru orice alt punct al graficului, 1, Interesul nostru este limitat in acest caz la introducerea conceptelor de bazi ale analizei de regresie, aga cB nu insistim asupra procedurii de calcul cu SPSS. Aceasta este ins& similard cu procedura de calcul a regresiei multiple, pe care 0 vor detalia mai jos,138 STATISTICI MULTIVARIATE APLICATE [N PSIHOLOGIE, y criteria 100. ‘Valoarea realt Y, = 6 gs = 92.6 Valoarea presi Y', 904 3. ®0. 15 7. 130 BS y predicator Figura 6.3. Eroarea de predictie (diferenta dintre valoatea realé si valoarea prezis’) Dup’ cum se poate observa, in cazul unei corelajii imperfecte, punctele reale sunt distribuite in jurul dreptei de regresie. Punctul A reprezinti imtersectia valorii X, a predictorului (123) cu valoarea ¥, a criteriului (96). Proiectia pe axa Oy a punctului de intersectie corespunzator valorii X, ne da predictia ¥’ (92.6). Diferenta dintre valoarea reali (¥,) si valoarea prezisi Y’ este ervarea de predictie pentru aceasti valoare a criteriului, notatd cu e (epsilon), si are valoarea 3.4, Ori de cate ori punctele reale nu se suprapun cu cele prezise (dreapta de regresie) avem o anumit eroare asociat’ fiecdrui punct, iar cantitatea totali de eroare este dati de suma erorilor de estimare (Ze) din fiecare punct al graficului. Daca in punctul A valoarea prezisi este mai mic’ decat valoarea reali, ceea ce corespunde unei diferente pozitive intre ¥, si ¥’, pentru punctul B, aflat sub dreapta de regresie, diferenta Y,- Y’ este negativa. Evident, cu cat suma distangelor este mai mare, cu atdt eroarea de predictie este mai mare, iar acest lucru se intampla pe m&surd ce coeficientii de corelatie sunt mai mici (norul de puncte find mai impragtiat), Dack suma erorilor s-ar calcula in valoare absolut, atunci erorile cores- punztoare punctelor de deasupra dreptei le-ar egala pe cele corespunzitoare celor de sub dreapti, iar eroarea totald ar fi intotdeauna 0, ceea ce ar induce idea gresiti a unei predictii rd eroare. Pentru a se evita acest neajuns, erorile individuale sunt ridicate la patrat, iar eroarea totali se calculeaz% ca sumA a patratelor erorilor individuale. fn consecinta, dreapta de regresie se defineste ca linia pentru care suma pitratelor distanjelor dintre punctele scatterplot-ului si dreapta de regresie este cea mai mic&. Acuratetea modelului de regresie poate fi inteleas’ si mai bine daca privim figura 6.4, Fata de figura 6.3, in aceasti imagine am trasat gi linia care marcheazi media valorilor prezise (Y’,, = 88.9). Diferenta dintre valoarea prezisi (¥’) si media valorilor prezise (Y',,) se numeste variangd explicatd. Pentru a intelege de ce se numeste astfel, si ne gindim ci, daci am avea un coeficient de corelatie r = 0, atunci toate valorile prezise ar fi identice si egale cu 0. Orice diferent intre 0 valoare Y” si o valoareREGRESIA LINIARA MULTIPLA 139 un castig pentru modelul de predictie, deoarece denoti capacitatea modelului de a face predictii diferentiate. Cu cat corelatia dintre predictor si criteriu este mai intens&, cu atat valorile prezise vor transfera o cantitate mai mare din variabilitatea predictorului asupra variabilitatiicriteriului. La limita, atunci cand r = 1, intreaga variabilitate a predictorului se regiseste in valorile criteriului, fn ceea ce priveste diferenta dintre ¥ si ¥’, pe care am denumit-o mai sus eroare de predictie, ea mai este desemnata si ca variant neexplicatd sau diferenta rezidualit, deoarece iese din sfera modelului de predictie (Bobko, 2001 ; Runyon, Haber, Pittenger si Coleman, 1996). Eroarea de predictie este cu atat mai mare cu cit punctele sunt mai indepartate de dreapta de regresie, Abaterea standard a distributiei erorilor individuale (e) fad de dreapta de regresie se numeste eroare standard a predictiei (estimérii). Pe masurd ce intensitatea corelatiei dintre predictor si criteriu reste, unghiul liniei de regresie se modifica astfel incdt toate punctele se apropie de dreapti. Acest lucru determin’ cresterea progresiva a variantei explicate concomitent cu diminuarea corespunzitoare a varianjei neexplicate. La limit, atunci cand corelatia este egal cu +1, varianta explicati devine maxima, iar cea neexplicata devine zero. a criteriu ‘Varina acpi «itera eco} yess Valoarea realé Y, =96 “gts "gnccatciie Ow = es ue predicator Figura 6.4, Analiza reziduurilor 6.2. Modelul de predictie multivariaté Spre deosebire de regresia simpla, regresia liniard multipli este o procedur’ multivariata de predictie a valorilor unui criteriu pe baza mai multor predictori (Bidescu, 1999; Bobko, 1990; Howell, 2007). Primul obiectiy al acesteia este evidentierea combinatiei liniare a unui numir de predictori in raport cu un anumit criteriu. [n acest caz, acuratetea predictiei este data de marimea coeficientului R si de semnificagia lui statistic’. Al doilea obiectiv major al regresiei multiple este acela de a trage concluzii despre variabilele predictori, luate una cate una. in acest caz, interesul se focalizeaz& pe coeficientii de regresie, eroarea de estimare si semnificatia statistic a acestora. Pe aceasti cale se poate evalua importanta relativa a fiecdrui predictor in raport cu ceilalti (Mason si Perreault Jr.,140 STATISTICI MULTIVARIATE APLICATE [N PSIHOLOGIE 1991). in esenti, regresia multipl& se sprijina pe aceleasi concepte fundamentale ca si regresia liniard simpli, dar are de Picut fat problemelor specifice care decurg dintr-un model multivariat. Ecuatia regresiei multiple este si ea similar ecuatiei regresiei simple, cu deosebirea c&, existind mai multi predictori, exist mai multi coeficienti b (sau beta, in varianta standardizaté). Acestia sunt calculati pe baza coeficientului de corelatie dintre fiecare pre- ictor sicriteriu, iar valoarea lor exprima contributia fieciirui predictor la estimarea criteriului : Yo sas bj*X, 4b, 6X2 +b °K; +. +5, *X, (formula 6.4) unde ¥’ este valoarea estimat pentru variabila criteriu (dependent) a este punctul de origine al liniei b,, by b,... b, sunt coeficientii beta pentru cele k variabile predictor - X,,X, X,... X, sunt valorile celor k variabile predictor Dacd in cazul regresici simple imaginea relajiei dintre variabile poate fi ilustrat’ cu un scatterplot bivariat, in contextul regresiei multiple avem de-a face cu un scatterplot multivariat. Pentru relatia dintre trei variabile, acesta se prezint& ca in figura 6.5. x, preditér Figura 6.5. Scatterplot trivariat Fiecare punct al graficului reprezintd intersecia valorilor pereche ale predictorilor (X, si X, cu valorile criteriului (Y), plasindu-se in spatiul tridimensional delimitat de cele trei variabile. fn acest spatiu, ,.cea mai buna traiectorie” pentru a minimiza croarea de estimare are forma unui plan (figura 6.6), care este definit de parametrii ecuatiei de regresie 6.4. Figura 6.6. Planul de regresie intr-un model trivariatREGRESIA LINIARA MULTIPLA, 141 Daca, in cazul regresiei simple, gradul de ,potrivire” a dreptei de regresie cu norul de puncte este echivalentul corelatiei simple dintre criteriu si predictor, in cazul regresiei multiple, acest rol este jucat de coeficientul de corelagie multipla (R). Corelatia multipl& este esentialmente similara corelatiei Pearson si ne spune cati informatie cu privire la 0 variabild este continuta in combinatia simultand a mai multor variabile cu care se afl in asociere. Practic, coeficientul R multiplu este corelatia dintre valorile observate ale criteriului ¥ si valorile prezise Y’ pe baza modelului de regresie. O valoare R = 1 ne spune cA modelul de regresie face o predictie perfect. La fel ca in cazul corelatiei simple, avem si pentru corelajia multiplé un coeficient de determinare (R°), care indict gradul de ,potrivire” a modelului de predictie. EI descrie procentul de variatie din variabila dependent’ determinat de variatia simultand a variabilelor independente (Field, 2005). Semnificatia statistic’ a lui R multiplu este calculaté cu ajutorul unui test de variant (F). Valoarea R? cuantifici varianfa comund total dintre fiecare predictor si criteriu, incluzand si acea parte care, eventual, este comund intre predictori (figura 6.7) +r, ‘at B, Figura 6.7 Componenja posibild a tui R? in cazul unei regresii trivariate in acest caz, ne putem pune problema cu cat contribuie fiecare din cei doi predictori la valoarea lui R’, La prima vedere, aceast contributie ar fi egal cu suma coeficientilor fiecdrui predictor (77,,, + Py) Aceast& presupunere este adevarat{ numai in cazul in care corelatia dintre predictori este egal cu zero (ceea ce in figura 6.6 s-ar traduce prin absenta oricarei asocieri intre X, si X,). in realitate insti, de multe ori predictorii nu sunt total independenti unul de altul, astfel incat, daca i-am insuma, partea comund a acestora (Pq) at fi adunata de doua ori'. Dac& ne raportim la o situatie de tipul celei ilustrate in figura 6.6, contributia predictorului X, este dati de pitratul corelatiei semipartiale dintre Y si X,, adic de acea parte din X, care reprezinté valoarea rezidual a regresiei dintre X, si X,. Dar, dact ne amintim ci regresia simpli nu este simetric4, rezulti ci ordinea in care variabilele X, si X, sunt introduse in ecuagia de regresie multipli poate avea un efect asupra contribufiei fiectreia la valoarea corelatiei multiple R® (Bobko, 2001). in anumite situatii, nu avem o relafie liniara intre predictori gi criteriu. Un exemplu {n acest sens poate fi si abilitatea de a conduce masina, ai c&rei predictori ar putea fi 1. Pentru simplitate, rajionamentul este construit pe regresia multipl cu doar doi predictori, dar in cazul mai multor predictori partea comund ar putea fi impartisité de mai multe variabile predictor.2 STATISTICI MULTIVARIATE APLICATE IN PSIHOLOGIE integritatea senzori-motorie gi nivelul asumirii riscului. Ponderea acestor doi predictori nu poate fi identica pentru toate categoriile de varsta. in timp ce integritatea senzori-motorie scade odati cu varsta, nivelul asumarii riscului este mai mare la persoanele tinere decat Ja varstnici. in astfel de situatii se recomanda calcularea unor modele de predictie diferite pentru fiecare nivel al factorilor care au un efect moderator in relajia dintre predictori si criteriu (Radu, 1993). 6.3. Condit gi limitari Sub aspectul nivelului de misurare, variabilele introduse in modelul regresiei liniare multiple trebuie s& indeplineasc’ urmatoarele condifii de baz% (Bobko, 1990, 2001 ; Brace, Kemp si Snelgar, 2000) : © Variabila dependent’ (criteriul) ~ trebuie si fie misurati pe scali de interval raport, cu respectarea conditiilor de aplicare a testului de corelatie (normalitatea distributiei, in special) ; ~ poate fi miisurat si pe scal% ordinal, dar in nici un caz pe seal nominal (in acest caz, se utilizeaza alte tehnici de regresie ~ analiza de discriminare sau regresia logisticd). © Variabilele independente (predictorii) ~ vor fi masurate pe scale de interval ; ~ pot fi introduse in ecuatie si variabile masurate la nivel ordinal ; ~ pot fi utilizate direct si variabile nominale categoriale dihotomice, codificate ins numeric, sub forma 0/1. Pe lang condifiile de mai sus, trebuie intrunite si alte conditii cu privire la caracte- risticile variabilelor (Chen, 2005; Orr ef al., 2006; Osborne si Waters, 2002; Ree $i Carretta, 2006) : * Variabilele vor fi misurate fri erori, ceea ce implici un nivel edt mai ridicat al fidelitijii. Deficitul de fidelitate al criteriului nu are un efect asupra coeficientilor ecuatiei de regresie, dar diminueaz coeficientul de corelatie multipla (R) si determina © lipsa de acuratete a coeficienjilor ecuatiei de regresie, ceea ce reduce siguranta modelului de predictie. * Distribusia variabilelor cantitative trebuie si fie normal, Daci se abat grav de la aceastA condifie, se vor utiliza proceduri adecvate de transformare. Totusi, este important de reginut c& parametrii ecuatiei de regresie sunt adevirati doar pentru valorile transformate, nu si pentru valorile de origine. Ca urmare, rezultatele vor putea fi utilizate in scopuri teoretic interpretative, dar nu si in scopuri practic aplicative. O atentie special trebuie acordatA valorilor excesive, care pot afecta in mod sensibil acuratefea modelului de predictie. Prezenta valorilor excesive trebuie evitati atat 1a nivelul criteriului, cat si la nivelul tuturor variabilelor predictor. Efectul lor se manifest’ fie asupra liniei de regresie, pe care o pot indepirta de majoritatea punctelor (cresterea erorii de predictie), fie prin atenuarea liniaritaqii relatiei dintre variabile (pot induce o caracte de variatie curbilinie). Uneori chiar si una sau dou valori excesive pot influen{a analiza de regresie, PentruREGRESIA LINIARA MULTIPLA, 143 semnalizarea cazurilor excesive multivariate sunt utilizate o serie de marimi statistice pe care le vom prezenta in sectiunea de interpretare a rezultatelor (D? Mahalanobis, D Cook, Standardized DFIT). Alzturi de metodele deja prezentate pentru detectarea valorilor excesive, Martin si Roberts (2006) propun si utilizarea tebnicii de reesan- tionare bootstrap, aplicata pe valorile reziduale, Relatiile dintre variabilele dependente si cele independente trebuie sX fie liniare Aceasti conditie este verificabili cu ajutorul corelatiilor bivariate intre fiecare predictor si criteriu, precum si prin intermediul graficelor scatterplot bivariate, Variabilele predictor trebuie si fie ortogonale (si nu coreleze intre ele). Existenta corelafiilor intre predictori se numeste multicoliniaritate (sau coliniaritate) si are un efect negativ asupra modelului de regresie. Dac towsi exist corelaii intre predictori, acestea vor trebui si fie mici. Informatia imp&rtigitd de variabilele independente reduce contribusia lor la explicarea variajiei variabilei dependente. Cu cat variabilele predictor coreleazi mai intens intre ele, cu atat corelatia multiplt cu variabila dependenté (criteriu) este mai mick (Muchinsky, 2006). Pentru exemplificare, si presupunem existenta unei corelatii simple r,, = 0.40 (predictorul / cu criteriul c) sia unei corelagii simple r,, = 0.60 (predictorul 2 cu criteriul c), Daca intre cei doi predictori (/ si 2) corelatia este 0, atunci corelatia multipl& dintre criteriu si cei doi predictori este R?,,, = r?,,+17,, = (0.40)?+(0.60)? = 0.52. Dac& insd intre cei doi predictori existi 0 corelafie, si zicem, r,, = 0.30, atunci corelatia multipla devine : Ria a Dictret2*n, *he*h, _0.16+0.36+240,3040.40*0.60 a= ore 10.09 =0.41 in acest exemplu, corelatia multipli a scizut de la 0.52 la 0.41 si ar scidea si mai mult daci am avea o corelafie mai mare intre predictori. Mai mult decat atat, multicoliniaritatea amplific& variabilitatea coeficientilor de regresie, cea ce are drept efecto imprecizie mai mare a predictiei. Din acest motiv, analiza de regresie trebuie si fie precedat de evaluarea multicoliniaritatii. Una dintre metode este aceea de a analiza matricea de intercorelatii dintre variabilele independente. Corelatiile statistic semnificative sunt un indicator al liniaritigi. in principiu, variabilele independente a c&ror corelatie reciproca este mai mare de 0.1 ridicd problema mul coliniarit%tii. O alt metod’ este analiza ,tolerantei”, o optiune oferit de programele de prelucrari statistice. Indicele de roleranja este 0 masura specificA pentru coliniaritate, care ia valori intre 0 si 1. Valorile apropiate de 0 sunt un semn al coliniaritatii. Variabilele pentru care toleranya este mai mic’ de 0. 1 ridic’ o problema de coliniaritate care ar trebui rezolvati. Un indicator complementar al tolerantei este indicele VIF (Variation Inflation Factor), care semnaleazi o situatie de multicoliniaritate atunci cdnd ia valori mai mari de 10 (Field, 2005; Miles, 2005b). Principalele solujii posibile in legttur’ cu variabilele cu probleme de coliniaritate sunt doua: eliminarea sau combinarea lor, din moment ce aduc acelasi tip de informatie (in cazul in care corelafia lor este de 0.70 sau mai mare) (Fidell si Tabachnick, 2003). Bazdndu-se pe o serie de analize pe date simulate cu metoda Monte Carlo, Mason si Perreault (1991) exprima 0 opinie mai nuanfata cu privire la efectele multicoliniaritajii. Concluziile lor sustin ideea c4 riscurile coliniaritétii sunt adesea exagerate. Mai mult, ei au probat faptul c& efectul coliniaritatii webuie apreciat in raport de ali factori: voiumul esantionului, valoarea lui R’, marimea“4 STATISTICI MULTIVARIATE APLICATE IN PSIHOLOGIE coeficientilor ecuatiei de regresie. De exemplu, in cazul unor coeficienti de corelatie bivariati foarte mari (de cel putin 0.95), nu exist nici o consecinti negativa a coliniarititii dacd volumul esantionului este de 250 de subiecti, iar R° este de cel putin 0.75. in schimb, in situatia unor corelatii bivariate de aceeasi magnitudine, dar pe un esantion de 30 de subiecti si cu un R? de 0.25, respingerea gresiti a coeficientilor de regresie (croare de tip Il) se ridic& pana la 85% * Valorile reziduale (erorile de predictie) se vor supune urmiitoarelor condigii : - media valorilor reziduale in studii de replicare sa fie zero ; - erorile din cazul unei variabile independente nu au nici o legaturd cu erorile altei sau altor variabile independente ; ~ erorile nu coreleazi cu variabilele independente ; ~ _varianfa valorilor reziduale pe toata distributia variabilelor independente este omogent (homoscedasticitate) (Korendijk, Maas, Moerbeek si Van der Heijden, 2008) ; - erorile au o distributie normal Verificarea acestor condifii presupune indeplinirea tuturor procedurilor de analiza preliminar& a datelor, asa cum au fost deja prezentate anterior, precum si analiza corespunzitoare a rezultatelor. 6.4. Alegerea modelului de analiza Fixarea modului in care variabilele predictor sunt introduse in modelul de regresie este una dintre deciziile importante ale unei analize de regresie multipli. Aceasti decizie se refer, in esen{4, la stabilirea importanjei predictorilor, a ordinii de introducere si a modutlui de tratare a acestora de catre programul de regresie. In acest scop, se vor utiliza informajii despre relatia bivariati dintre predictori si criteriu, precum si rezultate ale unor cercetiri anterioare sau modele teoretice validate ori aflate in stadiul de ipoteza. Variantele tipice de constituire a modelului de regresie sunt urmitoarele (Brace ef al., 2000; Field, 2005; B.G. Tabachnick si Fidell, 1996) : © Modelul neselectiv, standard, in care toti predictorii sunt inclusi simultan (denumit ENTER in SPSS). Toate variabilele predictor sunt incluse concomitent in ecuatie, efectul fiecdreia fiind evaluat dup’ si independent de efectul tuturor celorlalte variabile introduse anterior. Fiecare predictor este evaluat numai prin prisma contri- busiei proprii la explicarea variabilei criteriu. Aceasti metoda de regresie este recomandati atunci cAnd analistul nu are un model teoretic al relatiilor dintre predictori si criteriu sau atunci cand numarul subiectilor este relativ mic fay de cel recomandat, © Modelul ierarhic. Vatiabilele independente sunt introduse in ecuatie intr-o anumita ordine, in functie de optiunile analistului. Atunci cénd acesta are motive si creada ci o anumiti variabil are o influeng mai mare, o poate introduce in ecuatie inaintea altora. * Modele cu selectie statistica. Sunt utilizate adesea in studii exploratorii, atunci cand existi un numér mare de predictori si nu se stie exact care este contributia fiectiruia la corelafia de ansamblu cu variabila dependent, Ordinea in care programul include predictorii in model este determinati de intensitatea relatiei lor cu criteriul. AcestiaREGRESIA LINIARA MULTIPLA, 145, sunt introdusi succesiv, Ia fiecare pas calculéndu-se ecuatia de regresie pentru evaluarea utilitatii predictorului, Existi trei variante ale selectiei predictorilor in acest model de regresie : ~ Selectia anterograda (forward). Predictorii sunt introdusi succesiv in ecuatie, in ordinea intensitatii relatiei lor cu criteriul. La fiecare pas, contribusia fiectruia este evaluata si, daci trece pragul de semnificafie statistic’, este reyinut, iar variabilele care nu indeplinese aceast conditie sunt excluse. Procesul continua pana ce nivelul contributici variabilelor predictor este prea mic pentru a mai fi luat in considerare. O variabilA odati introdusa in ecuayie ramane acolo. = Selectia retrogradé (backward). Pasul initial al acestei metode este acela de calculare a unei ecuasii de regresie in care sunt incluse toate variabilele predictor. Predictorul cu contributia cea mai slab& este temporar scos din model si o noua ecuatie de regresie este calculatd. Daca ,,pierderea” se dovedeste semnificativa, predictorul este pastrat; dacd nu, el este exclus definitiv. Procedura continua pana cand doar variabilele semnificative raman in ecuatie. - Selectia pas cu pas (stepwise). Este metoda de regresie cea mai sofisticaté. Fiecare predictor este inclus in model, iar contributia lui este evaluat, Daci introducerea unei noi variabile aduce un céstig pentru forta predictiva a modelului, aceasta este rejinut, ins modelul este recalculat impreund cu predictorii rejinusi anterior. Dac se constati c& unele dintre variabilele deja retinute si-au pierdut contribujia, ele sunt excluse. Cu alte cuvinte, dacd 0 variabili nou introdus& are o contributie mai consistent asupra variabilei dependente, va determina climinarea unei variabile anterioare care se dovedeste mai putin predictiva. in acest fel, modelul final va retine cel mai mic numar de variabile, cu cea mai mare contributie la predictia criteriului. Eficienta modelelor cu selecfie statistic’ a predictorilor este superioard fat de aceea a celorlalte modele, dar nu este lipsiti de dezavantaje. in primul rand, acestea solicit existenta unui esantion mare. {n cazul esantioanelor mici, variatiile erorii standard pot produce un impact major asupra predictorilor alesi sau respingi. fn eseng’, analiza de regresie multipl este un proces euristic al c&rui obiectiv este gisirea rispunsurilor la cateva intrebari fundamental Care dintre variabilele disponibile ar putea fi utilizate drept predictori ? Care dintre predictorii selectionayi are capacitatea de predictie cea mai bund ? Exist predictori care nu sunt suficient de relevanti, astfel incét este mai bine sa se renunge la ei ? Cait de siguréi este capacitatea de predictie a ecuasiei de regresie ? 6.5. Volumul esantionului La fel ca in cazul oricrui alt test statistic, unul din principalele obiective ale analizei de putere pentru regresia multipla este stabilirea volumul esantionului. Cu cat numdrul subiectilor este mai mare, cu atat creste si probabilitatea de a objine un coeficient de regresie multipls si coeficiensi de regresie b semnificativi. Eroarea standard a coeficientilor b146 STATISTICI MULTIVARIATE APLICATE IN PSIHOLOGIE este echivalent& cu n!, ceea ce inseamna cA probabilitatea acestora de a trece pragul semnificatiei statistice creste pe masurd ce n creste (Bobko, 1990). Mai mult, in conditiile regresiei multiple, numarul subiectilor trebuie sé se afle iutr-o anumité concordanya cu numarul predictorilor, Nu doar calitatea predictiva a variabilelor independeme, ci si numarul lor conteaz in definirea modelului de regresie. Tendin(a de a realiza modele de regresie cu un numar cat mai mare de predictori este gresitt. Cu cdt numarul predictorilor creste, cu atét se amplifick redundanja lor cu privire la relevanta criteriului, cea ce conduce la cresterea erorii standard a coeficientilor ecuatiei de regresie (J. Cohen, 1990). in acest sens, se impune un anumit raport inte numarul de subiecti si numdrul variabilelor independente. Acest raport este recomandat s& se situeze la valoarea 15/1, adic& pentru un egantion de 150 de subiecti se poate miza pe cel mult 10 variabile independente (predictori). La randul lui, Green (1991, apud B.G. Tabachnick si Fidell, 1996) recomand& calcularea numérului de subiecti in raport cu numarut de predictori cu formula: N= 50-+8*m, unde m este numarul de predictori. Astfel, de exemplu, pentru 4 predictori s-ar impune cel putin 50 +8%4 = 82 de subiecti. Daca cercetitorul nu isi propune decit un obiectiv exploratoriu, far o finalitate practicd, se pot efectua analize de regresie si pe egantioane mai mici decat cele recomandate mai sus (Howitt si Cramer, 2006), desi in astfel de situatii ar fi recomandabilé utilizarea metodei boorstrap, pe care © vom ilustra mai jos. Dimensionarea adecvat& a esantionului este o conditie important pentru obfinerea unor coeficienti de regresie care si fie nu doar semnificativi, ci si exacti si stabili (Kelley si Maxwell, 2003). Din acest motiy, 0 alternativa mult mai precisi decdt recomand&rile empirice de mai sus o reprezinta analiza de putere, deoarece ia in considerare marimea efectului, puterea asumati si eroarea de tip 1. Marimea efectului pentru coeficientul de regresie multipla (R) se caleuleazt dup formula: ar (formula 6.5) in conformitate cu recomandarile lui Cohen (1988), pragurile conventionale pentru un efect mic, mediu si mare sunt, respectiv, 0.02, 0.15 si 0.35. Pentru a efectua analiza de putere aprioric& avem nevoie de o estimare a marimii efectului (din literatura stiimifica sau pe baza unei estimari subiective, de reguli la un nivel mediu) si de fixarea unui nivel de putere dorit (recomandabil, 0.80 sau mai mult). Pentru exemplificare, si presupunem c& ne propunem realizarea unui model de regresie multipla cu 4 predictori, pentru care estimzm c& vom avea un coeficient de corelatie de regresie multiplé R = 0.39 (cdruia fi corespunde R’ = 0.15), De asemenea, ne asumim 0 eroare de tip I egala cu 0.05 si o putere de 0.80. Folosind aceste valori de intrare, vom ilustra cafculul de putere cu programul G*Power 3 (Faul et al. , 2007) Setarile analizei sunt urmatoarcie (vezi figura 6.8) : Test family : F tests Statistical test: Multiple Regression : Omnibus (R° deviation from zero) Type of power analysis: Apriori Alfa. err probability ; 0.05 Power: 0.80 Number of predictors: 4

Popa 2010 Regresia Multipla

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Popa 2010 Regresia Multipla

Încărcat de

Drepturi de autor:

Formate disponibile

S-ar putea să vă placă și