Sunteți pe pagina 1din 46

Regresia multipl M.

Popa

cuprins 1. 2. 3. 4. 5. 6. 7. No iuni de baz regresia liniar simpl Modelul de predic ie multivar iat Obiectivele analizei de regresie multipl Condiii i limitri Alegerea modelului de analiz Volumul eantionului Regresia multipl cu SPSS Opera ii preliminare Procedura de calcul Interpretarea rezultatelor 8. 9. Validarea modelului de regresie Raportarea rezultatelor

Corela ia i Regresia Corelaia arat legtura (asocierea) dintre variabile nu descrie relaia cauzal dintre variabi nu permite predicia unei variabile pe baza celeilalte variabile nu exist variabil d ependent i dependent

Regresia metod de predicie a valorilor unei variabile pe baza valorilor altei variabile var iabila independent variabila cauz valorile ei prezic valorile variabilei dependente este denumit pr variabila dependent variabila efect valorile ei sunt prezise pe baza valorilor variabilei independente ste denumit i criteriu Situaia tipic n psihologie - examenele de selecie 3

Tipuri de regresie liniar Regresia simpl o singur variabil predictor se bazeaz pe corelaia simpl dintre criteriu i predictor P C Regresia multipl mai multe variabile predictor se bazeaz pe corelaia multipl dintre criteriu i predic tori situaia tipic n psihologie: selecia bazat pe baterii de teste P1 P2 C P3 4

Predicia perfect r= 1 zx=1.5 zy=1.5 zy crete sau scade cu aceeai unitate cu ct crete sau scade zx 3,5 3,0 z y = z x 2,5 2,0 1,5 1,0 ,5 z(y) 0,0 0,0 ,5 1,0 1,5 2,0 2,5 3,0 3,5 z(x) 5

Predicia n cazul corelaiei imperfecte corelaiile sunt numai prin excepie perfecte n mod normal, r variaz n jurul lui 0 exemplu: corelaia ntre cunotinele de matematic i rezultatele la statistic z y = r * z x 6

Noiunea de regresie ctre medie

Sir Francis Galton (18221911) relaia dintre nlimea medie a prinilor i nlimea co 0.67 ) vr cu Ch. Darwin descoperitorul amprentelor digitale meteorolog, psiholog, statis tician, genetician, explorator

z y

= 0 . 67 * 2 = 1 . 34

Subiect 1 2 3 4 5 6 7 8 9 10 QI (X) 123 119 115 120 124 113 110 112 132 128 performan a colar (Y) 96 83 85 90 96 73 78 89 100 99

Y criteriu Satterplot bivariat cu dreapta de regresie A Valoare real Ya Valoare prezis Ya =96 Eroare de predic ie =3.4 =92.6 B Xa=123 X pr dictor

Ecuaia dreptei de regresie

Y = a yx + byx * X Y valoare prezis (criteriu) ayx originea dreptei; (punctul n care linia de regresi intersecteaz axa Oy). byx panta liniei de regresie poate fi exprimat ca fraciuni ale lui X determinate de r

X valoare predictor a variabilei Y 10

Expresia grafic a regresiei aceeai origine dar pante diferite origini diferite, da r aceeai pant 11

Modelul de regresie simpl Acurate ea predic iei este dat de coeficientul de regresie R (expresia lui r) Exemplul nostru: R=0.85 Semnifica ia statistic se testeaz cu testul F Exemplul nostru: F=22.10; p=0.002 Termenul liber (a) Exemplul nostru: -40.42 (ns eantion foarte mic) Coeficientul de pondere (b) Exemplul nostru: 1.08 (p=0.002) Y=-40.42+1.08*X

Varian a predic iei = eroarea standard a estimrii Scor inteligen (predictor) X 110 112 113 115 119 120 123 124 128 132 Performan a cola r (criteriu) Y 78 89 73 85 83 90 96 96 99 100 Valoarea prezis Y 78.5 80.7 81.8 83.9 88.3 89.3 92.6 93.7 98.0 102.3 Eroare de predic ie -0.52 8.32 -8.76 1.07 -5.25 0. 67 3.42 2.34 1.02 -2.31

Y criteriu Varian a predic iei Valoare real Ya=96 Eroare de predic ie Valoare prezis Ya=92.6 Media predic iei Ym=88.9 A =3.4 Varian neexplicat (diferen rezidual) Ya-Y =3.4 Varian explicat B Ya-Ym=3.7 Xa=123 X predictor

regresia nu este simetric ! dac inversm variabilele n ecuaia de regresie se va obine linie de regresie diferit dac se inverseaz ordinea variabilelor n calcularea corelai ei, se obine acelai coeficient r 15

Modelul de predic ie multivariat Y = ai + b1 * X 1 + b2 * X 2 + b3 * X 3 + .... + bk * X k Unde Y este valoarea estimat pentru variabila criteriu (dependent) ai este punctul de origine al liniei (constanta) b1, b2, b3... bk sunt coeficienii beta pentru ce le k variabile predictor X1, X2, X3.... Xk sunt valorile celor k variabile predi ctor

Scatterplot trivariat Y criteriu X1 predictor X2 predictor

Planul de regresie multivariat Y criteriu X1 predictor X2 predictor

R = coeficientul de corela ie multipl R2 = procentul de variaie din VD (criteriu) de terminat de variaia simultan a VI (criterii) Semnificaia statistic a lui R este calc ulat cu ajutorul unui test de varian (F) Cu ct contribuie fiecare predictor la estim area criteriului? corela ia semi-par ial dintre criteriu i predictori (va fi tratat n cursul urmtor)

Utilitatea regresiei multiple Descrierea rela iilor dintre variabile Predic ia n scop de selec ie Dezvoltarea teorie testrii psihologice

Condi ii i limitri Variabila dependent (criteriu): Trebuie s fie msurat pe scal de interval raport, cu respectarea condiiilor de aplicar e a testului de corelaie (normalitatea distribuiei, n special). Poate fi msurat i pe cal ordinal n nici un caz pe scal nominal (n acest caz, se utilizeaz alte tehnici gresie analiza de discriminare sau regresia logistic)

Variabilele independente (predictori) vor fi msurate pe scale de interval pot fi introduse n ecua ie i variabile msurate la nivel ordinal pot fi utilizate direct i variabile nominale categoriale dihotomice , codificate numeric (0/1)

Distribuia variabilelor cantitative trebuie s fie normal Dac se abat grav de la aceast condiie, se vor utiliza proceduri adecvate de transfo rmare. Relaiile dintre VI i VD trebuie s fie liniare condiie verificabil cu ajutorul unui grafic scatterplot Omogenitatea pantei de regresie Homoscedasticitate Heterodasticitate Heterodasticitate

multicoliniaritatea Variabilele predictor trebuie s fie ortogonale Corela ia dintre predictori se numete multicoliniaritate Efecte negative Diminuarea coeficientului de corela ie multipl Amplific variabilitatea coeficien ilor de regresie Reduce precizia predic iei

Evaluare Corela ii bivariate Matricea de scatterploturi Indicele de toleran ia valori ntre 0 i 1 valorile apropiate de 0 sunt un semn al coliniaritii Dac tol ste mai mic de 0.1 ridic o problem de coliniaritate Solu ii: combinarea predictorilor sau eliminarea

Variabilele vor fi msurate fr erori, iar cazurile care prezint valori extreme vor fi analizate i tratate corespunztor Valorile reziduale (erorile de predicie) se vor s upune urmtoarelor condiii: media valorilor reziduale n studii de replicare s fie zero; erorile din cazul unei variabile independente nu au nici o legtur cu erorile altei sau altor variabile i ndependente; erorile nu coreleaz cu variabilele independente; variana valorilor re ziduale pe toat distribuia variabilelor independente este omogen (homoscedasticitat e) erorile au o distribuie normal;

efectul valorilor extreme (outliers) asupra ecuaiei de regresie, poate fi considerabil uneori chiar i una sau dou valori excesive pot influena anali za de regresie aceste valori vor fi identificate i tratate corespunztor naintea cal culrii ecuaiei de regresie multipl

alegerea modelului de analiz Fixarea modului n care variabilele predictor sunt introduse n modelul de regresie este una dintre deciziile importante se refer n esen la: stabilirea importan ei predictorilor ordinea de introducere modul de tratare a ace stora de ctre programul de regresie se vor utiliza: informa ii despre rela ia bivariat dintre predictori i criteriu rezultate ale unor cer cetri anterioare sau modele teoretice validate ori aflate n stadiul de ipotez.

metode de introducere a variabilelor predictor n ecuaie Regresia multipla standard. Regresia multipl secvenial (regresie ierarhic). Regresi multipl pas cu pas.

Regresia multipl standard toate variabilele predictor sunt incluse n ecuaie, efectul fiecreia este evaluat du p i independent de efectul tuturor celorlalte variabile introduse anterior fiecare variabil independent este evaluat numai prin prisma contribuiei proprii la explicar ea variabilei dependente

Regresia multipl secvenial (ierarhic) Variabilele independente sunt introduse n ecuaie ntr-o anumit ordine, n funcie de op ile analistului. Atunci cnd acesta are motive s cread c o anumit variabil are o influ n mai mare, o poate introduce n ecuaie naintea altora.

Regresia multipl pas cu pas utilizat n studii exploratorii, (nr. mare de predictori) trei variante: Selecia anterograd Selecia pas cu pas Selecia retrograd

Selecia anterograd Toate variabilele predictor sunt corelate cu variabila criteriu dup care variabil a care are corelaia cea mai mare este introdus prima n ecuaie. Urmtoarea variabil int odus n ecuaie este cea care are corelaia cea mai mare, dup ce a fost eliminat efectul variabilei anterioare. Procesul continu pn ce nivelul contribuiei variabilelor pred ictor este prea mic pentru a mai fi luat n considerare. O variabil odat introdus n ec uaie rmne acolo.

Selecia pas cu pas Este o variant a metodei anterioare. la fiecare pas, fiecare variabil deja introdu s este retestat pentru a se evalua efectul ei ca i cum ar fi fost introdus ultima. D ac o variabil nou introdus are o contribuie mai consistent asupra variabilei dependen te, va determina eliminarea unei variabile anterioare care se dovedete mai puin pr edictiv.

Selecia retrograd Pasul iniial este calcularea a unei ecuaii de regresie n care toate variabilele pre dictor sunt incluse Ulterior, pentru fiecare variabil predictor este efectuat un test de semnificaie F, pentru a se evalua contribuia fiecrui predictor la corelaia de ansamblu. Valorile testului F sunt comparate cu o valoare limit prestabilit, varia bilele care nu trec acest prag fiind eliminate din ecuaie. Pe msur ce o variabil est e eliminat, o nou ecuaie este calculat i un nou test F este efectuat pentru variabile le rmase, urmat de eventuala eliminare a unei alte variabile. Procesul continu pn cnd doar variabilele semnificative rmn n ecuaie

Concluzii la alegerea metodei de introducere a variabilelor metoda secvenial i cea pas cu pas n cazul metodei secveniale, decizia de aparine cercettorului n cazul metodei automat selecia, n funcie de parametri sunt superioare metodei standard. selecionare a variabilelor introduse n ecuaie pas cu pas, programul este cel care face n mod fixai de analist.

Analiza de putere pentru regresia multipl stabilirea volumul eantionului n func ie de: mrimea efectului numrul predictorilor puterea testului Recomandri: 15/1 (pentru 150 de subieci se poate miza pe cel mult 10 variabile independente ( predictori) N50+8*m

Mrimea efectului Mic = 0.02 Mediu = 0.15 Mare = 0.35 R2 f2= 1 R2 G*Power

Obiective de cercetare specifice analizei de regresie multipl analiza de regresie multipl este utilizabil n situaii de predicie dorim s selectm dai pentru o anumit profesie pe baza performanelor la un set de teste psihologice o dat stabilit ecuaia de regresie pentru eantionul studiat, utilizm bateria de teste pe ntru a face predicii de adaptare n cazul altor subieci ntrebri tipice: Care dintre i dicatorii testelor utilizate are capacitatea de predicie cea mai ridicat? Exist ind icatori care nu au relevan pentru predicia performanei profesionale? Are ecuaia de re gresie astfel obinut o capacitate sigur de predicie? Care dintre indicatorii testelo r utilizate pot fi incluse n ecuaia de predicie a performanei profesionale? Are ecuai a de regresie, astfel obinut, o capacitate sigur de predicie?

Efectuarea analizei de regresie cu SPSS

Validarea prediciei...

Raportarea rezultatelor datele iniiale i eventualele eliminri sau transformri efectuate; indicatorii statist ici descriptivi (medii, abateri standard), matricile de corelaie, graficele ilust rative pentru diferitele distribuii; coeficienii de regresie i semnificaiile lor (R2 , R2adj i gradele de libertate); dac a fost utilizat metoda pas-cu-pas se vor sinte tiza valorile (R2, R2adj) pentru fiecare pas i nivelul lor de semnificaie; tabelul cu coeficienii B (sau beta), coeficienii r bivariai i corelaia parial pentru fiecare ariabil independent inclus n model; se vor trage concluzii de ansamblu...

S-ar putea să vă placă și