Documente Academic
Documente Profesional
Documente Cultură
M. Popa
cuprins
1. 2. 3. 4. 5. 6. 7. Noiuni de baz regresia liniar simpl Modelul de predicie multivariat Obiectivele analizei de regresie multipl Condiii i limitri Alegerea modelului de analiz Volumul eantionului Regresia multipl cu SPSS
Operaii preliminare Procedura de calcul Interpretarea rezultatelor
8. 9.
Corelaia i Regresia
Corelaia
arat legtura (asocierea) dintre variabile nu descrie relaia cauzal dintre variabile nu permite predicia unei variabile pe baza celeilalte variabile nu exist variabil dependent i dependent
Regresia
metod de predicie a valorilor unei variabile pe baza valorilor altei variabile variabila independent
variabila cauz valorile ei prezic valorile variabilei dependente este denumit predictor
variabila dependent
variabila efect valorile ei sunt prezise pe baza valorilor variabilei independente este denumit i criteriu
Regresia multipl
mai multe variabile predictor se bazeaz pe corelaia multipl dintre criteriu i predictori situaia tipic n psihologie: selecia bazat pe baterii de teste
P1
P2
P3
4
Predicia perfect
r=1
zx=1.5 zy=1.5 zy crete sau scade cu aceeai unitate cu ct crete sau scade zx
3,5 3,0
z y' = z x
2,5
2,0
1,5
1,0
,5
z(y)
z(x)
corelaiile sunt numai prin excepie perfecte n mod normal, r variaz n jurul lui 0
exemplu: corelaia ntre cunotinele de matematic i rezultatele la statistic
z y' = r * z x
Sir Francis Galton (18221911) relaia dintre nlimea medie a prinilor i nlimea copiilor (r=+0.67 )
vr cu Ch. Darwin descoperitorul amprentelor digitale meteorolog, psiholog, statistician, genetician, explorator
z y ' = 0 . 67 * 2 = 1 . 34
Subiect 1 2 3 4 5 6 7 8 9 10
QI (X) 123 119 115 120 124 113 110 112 132 128
Y
criteriu
A
Valoare real Ya Valoare prezis Ya
=96
Eroare de predicie
=3.4
=92.6
B
Xa=123
X
predictor
Y = a yx + byx * X
Y valoare prezis (criteriu) ayx originea dreptei; (punctul n care linia de regresie intersecteaz axa Oy). byx panta liniei de regresie
poate fi exprimat ca fraciuni ale lui X determinate de r
'
10
Expresia grafic a regresiei aceeai origine dar pante diferite origini diferite, dar aceeai pant
11
Y=-40.42+1.08*X
Y
criteriu
Variana prediciei
Valoare real Ya=96 Eroare de predicie Valoare prezis Ya=92.6 Media prediciei Ym=88.9
A
=3.4
Ya-Y =3.4
Varian explicat
Ya-Ym=3.7
Xa=123
X
predictor
regresia nu este simetric ! dac inversm variabilele n ecuaia de regresie se va obine o linie de regresie diferit dac se inverseaz ordinea variabilelor n calcularea corelaiei, se obine acelai coeficient r
15
Y ' = ai + b1 * X 1 + b2 * X 2 + b3 * X 3 + .... + bk * X k
Unde Y este valoarea estimat pentru variabila criteriu (dependent) ai este punctul de origine al liniei (constanta) b1, b2, b3... bk sunt coeficienii beta pentru cele k variabile predictor X1, X2, X3.... Xk sunt valorile celor k variabile predictor
Scatterplot trivariat
Y
criteriu
X1
predictor
X2
predictor
X1
predictor
X2
predictor
R = coeficientul de corelaie multipl R2 = procentul de variaie din VD (criteriu) determinat de variaia simultan a VI (criterii) Semnificaia statistic a lui R este calculat cu ajutorul unui test de varian (F) Cu ct contribuie fiecare predictor la estimarea criteriului?
corelaia semi-parial dintre criteriu i predictori (va fi tratat n cursul urmtor)
Condiii i limitri
Variabila dependent (criteriu):
Trebuie s fie msurat pe scal de interval raport, cu respectarea condiiilor de aplicare a testului de corelaie (normalitatea distribuiei, n special). Poate fi msurat i pe scal ordinal n nici un caz pe scal nominal (n acest caz, se utilizeaz alte tehnici de regresie analiza de discriminare sau regresia logistic)
multicoliniaritatea
Variabilele predictor trebuie s fie ortogonale Corelaia dintre predictori se numete multicoliniaritate Efecte negative
Diminuarea coeficientului de corelaie multipl Amplific variabilitatea coeficienilor de regresie Reduce precizia prediciei
Evaluare
Corelaii bivariate Matricea de scatterploturi Indicele de toleran
ia valori ntre 0 i 1 valorile apropiate de 0 sunt un semn al coliniaritii Dac tolerana este mai mic de 0.1 ridic o problem de coliniaritate
Variabilele vor fi msurate fr erori, iar cazurile care prezint valori extreme vor fi analizate i tratate corespunztor Valorile reziduale (erorile de predicie) se vor supune urmtoarelor condiii:
media valorilor reziduale n studii de replicare s fie zero; erorile din cazul unei variabile independente nu au nici o legtur cu erorile altei sau altor variabile independente; erorile nu coreleaz cu variabilele independente; variana valorilor reziduale pe toat distribuia variabilelor independente este omogen (homoscedasticitate) erorile au o distribuie normal;
se vor utiliza:
informaii despre relaia bivariat dintre predictori i criteriu rezultate ale unor cercetri anterioare sau modele teoretice validate ori aflate n stadiul de ipotez.
toate variabilele predictor sunt incluse n ecuaie, efectul fiecreia este evaluat dup i independent de efectul tuturor celorlalte variabile introduse anterior fiecare variabil independent este evaluat numai prin prisma contribuiei proprii la explicarea variabilei dependente
Selecia anterograd
Toate variabilele predictor sunt corelate cu variabila criteriu dup care variabila care are corelaia cea mai mare este introdus prima n ecuaie. Urmtoarea variabil introdus n ecuaie este cea care are corelaia cea mai mare, dup ce a fost eliminat efectul variabilei anterioare. Procesul continu pn ce nivelul contribuiei variabilelor predictor este prea mic pentru a mai fi luat n considerare. O variabil odat introdus n ecuaie rmne acolo.
Selecia retrograd
Pasul iniial este calcularea a unei ecuaii de regresie n care toate variabilele predictor sunt incluse Ulterior, pentru fiecare variabil predictor este efectuat un test de semnificaie F, pentru a se evalua contribuia fiecrui predictor la corelaia de ansamblu. Valorile testului F sunt comparate cu o valoare limit prestabilit, variabilele care nu trec acest prag fiind eliminate din ecuaie. Pe msur ce o variabil este eliminat, o nou ecuaie este calculat i un nou test F este efectuat pentru variabilele rmase, urmat de eventuala eliminare a unei alte variabile. Procesul continu pn cnd doar variabilele semnificative rmn n ecuaie
Recomandri:
15/1 (pentru 150 de subieci se poate miza pe cel mult 10 variabile independente (predictori) N50+8*m
Mrimea efectului
Mic = 0.02 Mediu = 0.15 Mare = 0.35
R2 f2= 1 R2
G*Power
Validarea prediciei...
Raportarea rezultatelor
datele iniiale i eventualele eliminri sau transformri efectuate; indicatorii statistici descriptivi (medii, abateri standard), matricile de corelaie, graficele ilustrative pentru diferitele distribuii; coeficienii de regresie i semnificaiile lor (R2, R2adj i gradele de libertate); dac a fost utilizat metoda pas-cu-pas se vor sintetiza valorile (R2, R2adj) pentru fiecare pas i nivelul lor de semnificaie; tabelul cu coeficienii B (sau beta), coeficienii r bivariai i corelaia parial pentru fiecare variabil independent inclus n model; se vor trage concluzii de ansamblu...