Sunteți pe pagina 1din 11

M.

Popa Aplicaii SPSS (Regresia liniar simpl)

Regresia liniar simpl


Introducere
S presupunem c suntem interesai s facem un studiu cu privire la relaia dintre nivelul
cunotinelor de matematic al studenilor la psihologie i rezultatele la cursul de statistic. n acest
scop, evalum cunotinele de matematic i cunotinele de statistic, dup care aplicm testul de
corelaie liniar Pearson ntre cele dou serii de valori. Coeficientul r ne va spune ct de intens este
relaia dintre cele dou variabile. Cu ct acesta va fi mai mare, cu att relaia dintre cunotinele de
matematic i rezultatele la statistic este mai mare. La limit, dac r=1 atunci ntre cele dou variabile
este o asociere perfect. n acelai timp, semnul corelaiei (+ sau -) ne va spune n ce mod se
relaioneaz cele dou variabile. Astfel, dac semnul este +, atunci pe msur ce valorile unei variabile
cresc, cresc i valorile celeilalte variabile. Dac semnul este -, atunci valorile unei variabile cresc, n
timp ce valorile celeilalte variabile scad. Pe scurt, coeficientul de corelaie descrie intensitatea i
sensul relaiei dintre cele dou variabile.
S presupunem c am descoperit o corelaie semnificativ ntre cunotinele de matematic i
rezultatele la statistic. ntrebarea fireasc pe care ne-o putem pune este dac putem face o predicie
asupra rezultatului la statistic, nainte de parcurgerea cursului, pornind de la evaluarea cunotinelor
de matematic. Acest obiectiv este posibil prin analiza de regresie, una dintre utilizrile practice
importante ale analizei de corelaie. Dac aflm corelaia dintre dou variabile putem s prezicem
valorile uneia dintre ele (denumit variabil criteriu) pe baza valorilor celeilalte (denumit variabil
predictor)1. Acest lucru nu trebuie interpretat n sensul unei relaii cauzale ntre cunotinele de
matematic i rezultatele la statistic. Este suficient s ne gndim c relaia dintre ele poate fi
determinat de alte variabile, cum ar fi: motivaia colar, tipul de inteligen (abstract sau intuitiv),
metoda de predare etc.
Predicia perfect
Esena conceptului de corelaie, aceea de variaie concomitent a valorilor a dou variabile,
permite fundamentarea unei proceduri de predicie reciproc ntre variabilele respective. S ne
plasm n situaia n care dou variabile exprimate n valori z coreleaz perfect (r=1). n acest caz,
orice valoare zx corespunde unei valori zy identice. Cu alte cuvinte, dac tim c dou variabile au o
corelaie liniar egal cu 1 (indiferent de semn) putem prezice orice valoare a unei variabile pe baza
valorii celeilalte, pe baza relaiei:

z y' z x

Formula 3.242

Formula de mai sus descrie modul de predicie n valori z pentru variabila Y, pornind de la
valorile variabilei X, numit din acest motiv predictor. Pentru c valoarea lui Y din formula de mai
sus este una prezis, se noteaz cu indicele prim.
S ne imaginm c am descoperi o corelaie perfect (r=+1) ntre scorul la un test de
cunotine de matematic (X) i cel la un test de cunotine de statistic (Y). Conform formulei, pentru
o valoare oarecare a lui X, s zicem, zx=1.5 vom prezice o valoare identic pentru Y, zy=1.5. Adic
atunci cnd o valoare X este mai mare dect media cu 1.5 abateri standard, valoarea corespunztoare a
lui Y este tot la 1.5 abateri standard fa de medie, indiferent n ce uniti de msur este exprimat. n
acelai sens observm c, dac valoarea lui zx crete cu o unitate (zx=1.6), valoarea prezis zy crete cu
aceeai unitate (zy=1.6). Dac ilustrm grafic aceast acest tip de predicie, obinem o imagine n care
punctele corespunznd interseciei perechilor de valori se plaseaz perfect pe o linie dreapt, ca n
imaginea de mai jos:
Teoretic vorbind, oricare dintre variabilele unei corelaii poate fi predictor sau criteriu, practic ns,
distribuirea n aceste roluri depinde de context. Astfel, ar fi ilogic s prezicem rezultatele la matematic pe baza
rezultatelor la statistic, dac aceasta din urm se nva mai trziu.
2
Numerotarea formulelor se face n contextul cursurilor din semestrul I.
1

1/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)

3,5

3,0

2,5

2,0

1,5

1,0

z(y)

,5
0,0
0,0

,5

1,0

1,5

2,0

2,5

3,0

3,5

z(x)

Imaginea este tipic pentru predicia n cazul unei corelaii perfecte pozitive (r=+1), pentru o
corelaie negativ, linia punctelor de predicie ar urma o traiectorie dinspre stnga sus spre dreapta jos
a axelor de coordonate. Imaginea de mai sus ilustreaz un caz particular, n care att variabila X ct i
variabila Y au originea n 0, ceea ce nseamn c cele mai mici valori ale lor sunt 0 (exprimate n
scoruri z).
Predicia n cazul corelaiei imperfecte
Corelaiile perfecte sunt ns cu totul excepionale i, de fapt, lipsite de sens n cazul unor
variabile despre care se presupune c msoar caracteristici diferite. Corelaiile msurate pe variabile
reale au valori mai mari sau mai mici, care se plaseaz n jurul lui 0. S presupunem c am obinut o
corelaie semnificativ, pozitiv, ntre cunotinele de matematic i rezultatele la statistic. Acest
lucru ne spune c performana la statistic este ntr-o msur asociat cu nivelul cunotinelor de
matematic, dar are i o parte care nu are nicio legtur cu aceasta. n acest context, predicia suport
riscul unei erori dat de faptul c doar o parte din variaia unei variabile este nsoit (explicat) de
variaia celeilalte variabile. Soluia pentru luarea n considerare a acestui aspect este dat prin formula
modificat:

z y' r * zx

Formula 3.25

unde r este valoarea coeficientului de corelaie dintre cele dou variabile.


Formula ne spune c o valoare prezis zY va fi egal cu valoarea zX corespunztoare, nmulit
cu coeficientul de corelaie dintre variabilele X i Y. Vom observa c n aceast variant de formul,
atunci cnd r=+1, se pstreaz identitatea dintre valoarea predictor i valoarea criteriu (afirmaie
valabil i pentru r=-1 cu specificaia c valoarea criteriu are semn schimbat). n situaia n care
valorile lui r devin din ce n ce mai aproape de 0, atunci zY va rezulta cu valori din ce n ce mai mici,
tinznd spre zero, atunci cnd r=0. S ne amintim c valoarea 0 reprezint chiar media unei distribuii
z, ceea ce nseamn c n cazul corelaiilor din ce n ce mai mici, valorile de prediciei tind spre medie.
Noiunea de regresia ctre medie
Conceptul de regresie a fost introdus de Sir Francis Galton (1822-1911) care, studiind relaia
dintre nlimea copiilor i a prinilor a observat c prinii cu nlimi excesive tind s aib copii cu
nlime mai mic dect a lor, adic mai aproape de medie dect a prinilor. S lum un exemplu
ilustrativ. Galton a gsit un coeficient de corelaie ntre nlimea prinilor (X) i cea a copiilor (Y)
r=+0.67. Putem deci prezice nlimea copilului dac tim c nlimea medie a doi prini oarecare,
exprimat n scoruri z, este zx=2 (adic cu dou abateri standard mai nali dect media):

z y ' 0.67 * 2 1.34


2/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


Aa cum se observ, prinii a cror nlime cu dou abateri standard mai mare dect media,
pot avea copii a cror nlime s se abat doar cu 1.34 abateri standard de la medie. Galton a denumit
aceast tendin ca regresie ctre mediocritate, dar termenul consacrat acum este cel de regresie
ctre medie. Faptul c se bazeaz pe corelaia de tip liniar ne permite s vorbim de o regresie liniar
ctre medie.
Linia de regresie
Avnd reprezentarea norului de puncte specific unei anumite corelaii, tendina relaiei este
dat de dreapta care aproximeaz cel mai bine variaia perechilor de valori X/Y. Traiectoria acestei
linii se fixeaz pe baza unui model matematic, numit metoda celor mai mici ptrate, care asigur
minimizarea distanelor dintre punctele reale i linia de predicie, numit i linie de regresie, dintr-un
motiv pe care l vom discuta puin mai trziu. n imaginea de mai jos avem o ilustrare grafic a liniei
de regresie n condiiile unei corelaii imperfecte (r=+0.74).

Dup cum observm, n cazul unei corelaii imperfecte punctele reale sunt distribuite n jurul
punctelor care compun dreapta de regresie, distana dintre acestea fiind notat cu (epsilon) i
reprezentnd eroarea de estimare n fiecare punct al graficului. Evident, cu ct suma distanelor ( i)
este mai mare, cu att eroarea de predicie este mai mare, iar acest lucru se ntmpl pe msur ce
coeficienii de corelaie sunt mai mici (norul de puncte fiind mai mprtiat).
n esen, pentru a putea trasa dreapta de regresie a dou variabile ne sunt necesare punctul de
origine al acesteia i nclinarea, sau panta. Odat aflate, putem trasa linia de regresie utiliznd formula
clasic a liniei drepte:

Y ' a yx byx * X
unde:

(Formula 3.26)

Y este valoarea prezis a fiecrui punct de pe dreapt


ayx este originea dreptei sau termenul liber al ecuaiei, de fapt punctul n care linia de
regresie intersecteaz ordonata (axa Oy).
byx este panta liniei de regresie
X este valoare predictor a variabilei Y

n ce privete panta, dac privim formula 3.25, observm c poate fi neleas i, implicit,
exprimat, ca fraciuni din valorile variabilei X, fraciuni determinate de valoarea lui r. Astfel, dac
r=1, pentru o unitate a lui X avem o nclinare de aceeai unitate a lui Y. Atunci cnd r=0.5, de
exemplu, pentru a anumit unitate a variabilei X avem o jumtate din unitatea valorii lui Y. Atunci
cnd corelaia este perfect, toate punctele se situeaz pe linia de regresie. Cnd corelaia este diferit
de 1, punctele se situeaz n jurul liniei de regresie ntr-un nor, cu att mai ndeprtat de aceasta cu
ct corelaia este mai mic. Intuitiv, linia de regresie poate fi vzut ca o medie a norului de puncte,
3/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


fiind trasat astfel nct distanele fa de punctele distribuiei celor dou variabile s fie similare de o
parte i de alta a liniei.
Expresia grafic a liniei regresiei este diferit, n funcie de punctul de origine i de unghiul de
pant al dreptei.
Drepte de regresie cu aceeai origine, dar cu Drepte de regresie cu aceeai pant, dar cu origini
pante diferite
diferite

Punctul de origine reprezint, de fapt, valoarea lui Y corespunztoare celei mai mici valori a
lui X. Atunci cnd aceste valori sunt identice, punctul de origine este n originea graficului. De
exemplu, n imaginea din stnga, observm c valorii 0 pentru X i corespunde valoarea 40 pentru Y,
pentru ambele drepte de regresie. n imaginea din dreapta, ns, valorii 0 pentru X i corespund diferite
valori pe axa Y.
Formula de calcul a regresiei pentru scorurile primare (brute)
Formula 3.25 este adecvat pentru situaia n care operm cu scorurile standard (z):

z y' r * zx
Pentru a opera direct cu scorurile primare (brute) ale variabilelor, trebuie operate o serie de
transformri succesive ale acestei formule, pn va fi adus la o form care s corespund ecuaiei
liniei drepte, prezentat mai sus. Vom prezenta aici numai rezultatul final al acestor transformri, care
se exprim n urmtoarea formul de calcul pentru linia de regresie:


Y ' y y * r * x y * r * X
x

Formula 3.27

care poate fi privit ca expresie a ecuaiei generice de regresie liniar mai sus menionate:

Y ' a yx byx * X
Relativa complexitate a ecuaiei de regresie liniar este compensat de faptul c, n prezent,
rezolvarea ei cade n sarcina programelor specializate.
Singurul motiv pentru care am introdus aici formula ecuaiei de regresie este acela de a
nelege c pentru realizarea prediciei unei anumite valori Y este necesar s cunoatem valoarea
predictor X, punctul de origine al dreptei (termenul liber al ecuaiei, a yx) i panta liniei de regresie
(byx). Att ayx ct i byx rezult din analiza de regresie i sunt utilizate ulterior n predicia oricrei
valori Y pornind de la orice valoare X.

4/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


Analiza rezidual
Aa cum am vzut, linia de regresie reprezint doar o estimare a relaiei dintre cele dou
variabile. Ea se obine, de fapt, prin cutarea unui traseu prin norul de puncte astfel nct distana
nsumat dintre dreapt i punctele de deasupra s fie egal cu distana nsumat fa de punctele de
sub linie. n cazul unei corelaii perfecte toate punctele de intersecie ale valorilor celor dou variabile
se afl exact pe dreapta de regresie. n cazul corelaiilor imperfecte distanele dintre puncte i
dreapta de regresie exprim, de fapt, eroarea de estimare a asocierii dintre variabile. Distana dintre
poziia real a punctelor i cea estimat cu ajutorul liniei de regresie se numete valoare rezidual i
exprim, desigur, o eroare de estimare. Din acest motiv nici panta (unghiul de nclinare al liniei), nu
este exact de 45o.
Cu ct suma distanelor de la fiecare punct la linia de regresie este mai mare, cu att eroarea de
estimare este mai pronunat. Ptratul sumei tuturor distanelor dintre valorile de pe linie i punctele
din afara liniei de regresie reprezint ceea ce se numete variana estimrii sau variana rezidual,
i se calculeaz astfel:

Y Y '

est ( y )

(Formula 3.28)

Cu ct vor fi mai apropiate punctele de intersecie de linia de regresie, cu att mai puin
eroare vom avea n predicie i, implicit, o corelaie mai mare. Invers, cu ct punctele de intersecie vor
fi mai ndeprtate de linia de regresie, cu att cu att valoarea rezidual va fi mai mare iar corelaia va
fi mai mic. La limit, pentru o corelaie egal cu 0, linia de regresie va avea o traiectorie orizontal,
nclinarea ei fiind 0.
Calcularea ecuaiei de regresie cu SPSS
Vom prezenta un exemplu fictiv de analiz de regresie ntre nivelul cunotinelor de
matematic i rezultatele finale la cursul de statistic.
Condiii de aplicare a analizei de regresie
Din punct de vedere statistic, condiiile variabilelor care sunt supuse analizei de regresie sunt
aceleai ca n cazul corelaiei deoarece regresia liniar este o aplicaie a acesteia: variabile msurate pe
scal de interval sau de raport i normalitatea distribuiei variabilelor.
Aranjarea datelor
Structura de variabile este similar analizei de corelaie (vezi
imaginea alturat).
Procedura: n principiu, analiza de regresie ncepe cu coeficientul
de corelaie dintre variabile i vizualizarea imaginii scatterplot. n cazul
nostru, urmnd procedura prezentat mai sus, am obinut o corelaie r=+0.74
(p=0.002). Acest rezultat confirm existena unei legturi pozitive
semnificative ntre cunotinele de matematic i performana la statistic. O
idee mai exact ne ofer coeficientul de determinare r2=0,54. Acesta ne
spune c 54% din variaia performanei la statistic este explicat de
variaia valorilor la variabila cunotine de matematic. Deducem c restul
de 46% din performana la statistic este explicat de alte variabile,
necunoscute n aceast faz3.
3

Facem precizarea c valorile i aprecierile nu se bazeaz pe un studiu real.

5/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


Pe baza acestor concluzii se poate trece la analiza de regresie a crei finalitate este aceea de
obinere a coeficienilor a (termenul liber, sau originea dreptei de regresie) i b (panta dreptei de
regresie), cu ajutorul crora se poate estima performana la statistic pe baza rezultatului la un test de
cunotine matematice aplicat n prima zi de coal. Nendoielnic, o astfel de procedur s-ar justifica
mai ales pentru identificarea studenilor cu poteniale dificulti i care, tocmai fiind avertizai n
legtur cu aceste dificulti, vor putea s acorde statisticii o atenie sporit, n vederea obinerii unui
rezultat peste nivelul celui prezis.
Lansarea procedurii: Statistics-Regression-Linear...

n caseta principal Linear Regression se trece variabila criteriu n zona Dependent iar
variabila predictor, n zona Independent(s).

n caseta Statistics, bifm Estimates pentru


obinerea coeficienilor de regresie (opiune
implicit)

n caseta Regression Save, bifm Predicted


Values-Unstandardized i ResidualsUnstandardized, care vor avea ca efect crearea de
variabile distincte n baza de date.
Prediction interval (individual) va calcula
limitele de ncredere pentru valorile prezise.

Valorile prezise sunt valorile rezultate pe baza modelului de predicie.


Valorile reziduale se calculeaz ca diferen ntre valorile variabilei criteriu si cele prezise
pe baza modelului de regresie.

6/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


Analiza rezultatelor

Tabelul Model Summary ofer valoarea coeficientului de regresie, notat cu R, care este identic
cu coeficientul de corelaie dintre cele dou variabile. Interpretarea este similar coeficientului de
corelaie simpl, la fel ca i pentru R2, care este coeficientul de determinare al lui R. Valoarea lui ne
spune c 55% din variaia performanei la statistic este explicat de variaia variabilei cunotine de
matematic. Adjusted R Square este o corecie a lui R2 n funcie de numrul de predictori i
numrul de subieci.
ANOVA(b)

Model
1

Sum of
Squares

df

Mean Square

Regression

35.064

35.064

Residual

28.670

13

2.205

Total

63.733

14

Sig.

15.899

.002(a)

a Predictors: (Constant), Performanta la statistica


b Dependent Variable: Aptitudini matematice

Tabelul ANOVA include rezultatul testului de semnificaie pentru R. La fel ca i coeficientul


de corelaie Pearson, coeficientul de regresie (R) poate fi semnificativ sau nesemnificativ. Spre
deosebire de r ns, testarea semnificaiei lui R se face prin raportare la distribuia Fisher. Concret,
citim valoarea Sig. (echivalentul SPSS al lui p). Dac Sig. este egal sau mai mic dect pragul alfa
(0.05), decidem respingerea ipotezei de nul. Dac Sig. este mai mare de 0.05, decidem acceptarea
ipotezei de nul i respingem ipoteza unei relaii semnificative ntre predictor i criteriu.
n cazul nostru, Sig.=0.002, ceea ce ne ndreptete s respingem ipoteza de nul i s
acceptm c exist o relaie semnificativ ntre performana matematic i cea statistic.

Tabelul Coefficients conine coeficienii B (nestandardizai, exprimai n valorile variabilei


predictor) i coeficientul beta (standardizat, exprimat n valori z), care pot fi utilizai, la alegere, n
ecuaia de predicie.
Astfel, pe baza acestor coeficieni, n anul urmtor de studiu, dac un student realizeaz un
scor de 30 la testul de cunotine de matematic, se poate estima performana final la statistic cu
ajutorul relaiei:

stat _ fin a b * mat _ in 3.406 0.854 * 30 29.02

unde 3.406 este originea iar 0.854 este panta dreptei de regresie.
Sau, dac predicia se face pe baza unui scor standardizat z al variabilei mat_in (s zicem,
0.93), atunci:
7/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)

stat _ fin beta * mat _ in 0.742 * 0.93 0.69


n acest caz termenul liber are valoarea 0, deoarece originea dreptei pentru scoruri
standardizate se afl n 0.
Desigur, scorurile astfel prezise sunt estimri, atta timp ct corelaia dintre variabile nu este
perfect. Iar estimrile conin cu att mai mult eroare cu ct corelaia dintre variabile este mai mic
(punctele graficului de corelaie fiind mai ndeprtate de dreapta de regresie).
La finalul procedurii analizei de regresie, cu setrile de mai sus, n baza de date apar cteva
variabile noi, aa cum se vede n imaginea de mai jos:

Variabila pre_1, conine valorile prezise pe baza modelului de regresie.


Variabila res_1, conine diferena dintre valoarea real i valoarea prezis.
Variabilele lici_1 i lici_2, conin limitele inferioar i superioar ale intervalului de ncredere
pentru fiecare valoare n parte. Pentru a nelege mai bine problema limitelor, s privim prima
valoare prezis de pe coloana pre_1 (25.598). Cu un nivel de ncredere de 95% (echivalent cu
o probabilitate de eroare de 0.05), putem spune c valoarea adevrat pentru stat_fin prezis
pe baza valorii mat_in=26, s-ar afla n intervalul 21.77 i 29.41.

n fine, rezultatele conin i imaginea scatterplot a relaiei dintre valorile mat_in i scorurile z
ale variabilei pre_1.

8/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


Imaginea este identic cu ceea ce am prezentat n cazul corelaiei. Singura deosebire este dat
de trasarea dreptei. Aceasta se face de ctre operator, n felul urmtor:
se acioneaz dublu clic de mouse pe imaginea graficului din Viewer. prin care...
graficul este trecut deschis ntr-o fereastr individual de editare, n care...
se execut procedura Chart-Options-Fit Line- Fit Options. La captul acestei serii de aciuni
apare caseta de mai jos unde se marcheaz Linear regression.

Facem precizarea c acest procedeu de trasare a liniei n interiorul scatterplot-ului este


utilizabil i n cazul corelaiei. Dac se alege alt model dect cel liniar (de exemplu, Quadratic
regression) se va obine linia de regresie sub form curbilinie, punnd n eviden abaterile de la
modelul liniar. Acest lucru este cu deosebire util atunci cnd corelaia este mic, fapt care se poate
datora faptului c relaia dintre variabile nu urmeaz un model liniar (vezi exemplul din prima
seciune, bazat pe corelaia dintre scorurile z i probabilitile de sub curba normal).
Ce utilizm, corelaia sau regresia?
Corelaia i regresia liniar sunt similare i, de aceea, uor de confundat. n unele situaii pot fi
utilizate ambele proceduri, dar fiecare dintre ele sunt recomandabile cu precdere n anumite situaii,
astfel:
Se calculeaz corelaia liniar
atunci cnd exist dou variabile msurate pe aceiai subieci i se dorete evaluarea
gradului de asociere ntre variabile;
Se calculeaz regresia liniar
atunci cnd una dintre variabile precede i poate fi cauza celeilalte variabile;
atunci cnd una dintre variabile este manipulat, se calculeaz regresia;
Atenie, calculele regresiei nu sunt simetrice, ca urmare, inversnd variabilele n ecuaia de
regresie se va obine o linie de regresie diferit, n timp ce, dac se inverseaz ordinea variabilelor n
calcularea corelaiei, se obine acelai coeficient r.
Cea mai fireasc utilizare a analizei de regresie este n situaiile n care dorim s facem
predicii. De exemplu, dac am efectuat analiza de regresie ntre cunotinele de matematic i
performana final la cursul de statistic, ntr-un an, putem, n anul urmtor, s estimm rezultatul final
la statistic pe baza parametrilor ecuaiei de regresie calculai anterior. n acest scop, aplicm acelai
test de cunotine de matematic, dup care construim predicii pentru fiecare student n parte.
Finalitatea acestui demers ar putea fi aceea de identifica din timp studenii care au cele mai mari
anse de a nu obine not de trecere, i de a efectua cu ei o pregtire suplimentar, care s previn
aceast situaie. Dar predicia este una dintre procedurile specifice examenelor psihologice de seleci,
n care rezultatul la un test psihologic poate servi pentru selecia candidailor care au cele mai bune
anse de a realiza performane acceptabile ntr-un anumit domeniu de activitate. De exemplu, dac am
efectuat o analiz de regresie ntre coeficientul de inteligen i performana colar pe un lot de

9/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


candidai la admiterea ntr-o coal de zbor, putem ulterior s estimm nivelul performanei de zbor a
altor subieci doar prin evaluarea inteligenei lor.
De asemenea, analiza de regresie este util n controlul statistic al variabilelor externe, acelea
care se suprapun peste variabilele studiate, i al cror efect dorim s l eliminm. Acest demers este
specific unor proceduri statistice avansate (regresia multipl i analiza de covarian) pe care nu ne
propunem s le discutm aici.
Corecia restriciei de amplitudine
Un factor recunoscut de subapreciere a calitii prediciei n situaii de selecie (validitatea
metodelor de selecie psihologic) este aa numitul efect de restricie al amplitudinii. Studiile asupra
relaiei dintre performana la testele de selecie i performana n procesul de instruire se efectueaz
frecvent pe eantioane limitate, rezultate n urma unei decizii de selecie, prin care doar o parte a
candidailor sunt declarai admii. Aceasta face ca studiile validare (corelaia dintre rezultatul la testul
psihologic i performana n activitate) s se efectueze numai pe subiecii care au fost declarai admii,
adic cei pentru care performana la testele psihologice are un grad de variaie mai mic, tocmai din
cauza respingerii celor cu performane reduse la testul de selecie. Acest fenomen a fost denumit
restricie de amplitudine i este considerat responsabil pentru concluzii incorecte n studiile de
validare.
Thorndike (1949), citat de Carreta & Ree (2003), a oferit un dramatic exemplu al acestui
efect. Un grup experimental de 1036 candidai piloi din US Army Air Corps au fost admii n procesul
de instruire n anul 1944, indiferent de scorul obinut la cinci teste de aptitudini. Ulterior, au fost
calculate corelaiile dintre performana la teste i un criteriu de performan de instruire pentru toi cei
1036 candidai i, separat, pentru 136 de candidai care ar fi fost admii, dac s-ar fi aplicat standardul
de selecie existent n uz. Scorul compozit rezultat din cele cinci teste psihologice a obinut o corelaie
de 0.64 pentru ntregul lot evaluat (fr restricie de amplitudine) i numai 0.18 pentru lotul care ar fi
putut fi selectat conform standardului (cu restricie de amplitudine). Cea mai dramatic diferen s-a
constatat pentru testul de coordonare psihomotorie, unde corelaia pentru lotul nerestricionat a fost de
0.40, iar pentru lotul restricionat de -0.03! n medie, coeficienii de corelaie pentru lotul
nerestricionat s-au dovedit mai mari cu 0.29 fa de lotul restricionat.
Exemplul de mai sus este dovada clar c validitatea calculat pe loturi restricionate n
amplitudine (o expresie care are n vedere o mprtiere mai mic a variabilelor predictor), are o
valoare mai mic dect n realitate, prin reducerea importanei cauzale a variabilei predictor asupra
variabilei criteriu (Goldberg, 1991). Ca urmare, calcularea i raportarea coeficienilor de corelaie fr
a se ine cont de efectul de restricie a amplitudinii, poate conduce la decizii de selecie greite.
Soluia acestei probleme const n procedura de corecie de continuitate a coeficientului de
corelaie. Ea se poate face, fie la nivel univariat, atunci cnd avem un singur predictor, fie la nivel
multivariat, atunci cnd exist mai muli predictori (teste psihologice) pentru un anumit criteriu de
performan (Ree & Carretta, 1994).
Pentru exemplificare, vom reda mai jos doar un calcul al coreciei de continuitate univariat,
utiliznd una dintre formulele uzuale pentru acest scop:

rXY

unde:

X rxy

x 2 1 rxy 2 X 2 rxy 2

rXY=corelaia corectat
rxy=corelaia necorectat
X=abaterea standard a grupului integral (totalul celor evaluai iniial)
x=abaterea standard a grupului selecionat (cei admii)

Este evident faptul c pentru a putea efectua corecia este necesar s pstrm datele pentru
ntregul lot testat la selecie. S presupunem c valoarea coeficientului de corelaie dintre scorul la un
test de inteligen i performana colar, calculat pe un lot de elevi admii n urma unui examen de
10/11
Actualizat la: 01.04.2014/19:25:32

M. Popa Aplicaii SPSS (Regresia liniar simpl)


selecie, este de 0.29. Tabelul de mai jos cuprinde parametrii lotului integral (nerestricionat) i cei ai
lotului admis (restricionat).
Parametrii lotului restricionat
(candidaii admii)
mx=127
x=11

Parametrii lotului integral


(totalul candidailor evaluai)
mX=110
X=17
nlocuim datele n formul:

rXY

17 * 0.29

11 * 1 0.29 2 17 2 * 0.29 2
2

0.42

Aadar, corelaia corectat dintre testul de inteligen i criteriul de validare este mai mare
dect cea obinut (rcorectat=0.42 fa de rnecorectat=29). Vom reine c, n msura n care mprtierea
datelor restricionate (prin selecie) este mai mic dect mprtierea datelor integrale, iar media
datelor restricionate este mai mare dect cea a datelor integrale, coeficientul de corelaie corectat
(adevrat) este mai mare dect cel calculat. Cu alte cuvinte, n situaii de acest gen, coeficienii de
corelaie obinui subapreciaz valoarea real a legturii dintre variabile. Chiar i dup aplicarea
coreciei, se apreciaz c se menine o tendin de subestimare a validitii (Linn, Harnish, & Dunbar,
1981).
Atunci cnd se utilizeaz procedura de corecie este recomandabil s se raporteze att valoarea
necorectat, ct i valoarea corectat a coeficientului de corelaie, chiar dac doar aceasta din urm va
fi luat n considerare la elaborarea concluziilor. Aceast procedur de corecie este extrem de util
mai ales pentru situaiile n care se urmrete validarea unor teste n procedurile de selecie a
personalului.

Concluzii

Regresia liniar simpl este o procedur de predicie, pe baza corelaiei dintre dou
variabile cantitative (I/R).
Precizia prediciei este dat de valoarea coeficientului de corelaie Pearson dintre
variabile. Cu ct r este mai mare, cu att predicia valorilor unei variabile (numit
criteriu) pornind de la valorile celeilalte variabile (numit predictor) este mai bun. La
limit, cnd r=1, predicia este perfect.
Modelul de regresie se exprim grafic printr-o dreapt, al crui traseu prin norul de
puncte minimizeaz distanele dintre punctele dreptei i cele ale scatterplot-ului
corelaiei.
Ecuaia de regresie, n termenii scorurilor brute este Y=ayx+byx*X, unde Y reprezint
valorile prezise, ayx reprezint punctul de origine al liniei de regresie, byx nclinarea
acesteia, iar X, valorile variabilei predictor.
mprtierea valorilor n jurul liniei de regresie se numete varian rezidual (sau
variana estimrii) i exprim gradul de eroare (imprecizie) al modelului de predicie.
Eroarea de estimare este 0 atunci cnd corelaia este perfect i din ce n ce mai mare,
pe msur ce valorile lui r sunt mai mici.
Utilitatea regresiei liniare este n studii de predicie, de regul, n contextul unor
examene de selecie psihologic.

11/11
Actualizat la: 01.04.2014/19:25:32