Sunteți pe pagina 1din 9

REGRESIA LINIARĂ

Regresia statistică, deşi nu la fel de populară ca metodele inferenţiale îşi propune o predicţie cât
mai exactă a performanţelor din viitor pe baza unor indicatori din prezent sau trecut.
În statistică, prin regresie ne direcţionăm, spre viitor, încercând să prevedem cât mai exact evoluţia
viitoare a lucrurilor. De exemplu,
a. un psiholog din mediul organizaţional, va trebui să prezicezeze, în procesul de selecţie a
personalului, care persoană merită să fie angajată dintr-un grup de candidaţi, pe baza unei
estimări a performanţei viitoare a acestora.
b. De asemenea ca psiholog şcolar suntem nevoiţi să identificăm un grup cu risc crescut de a
consuma droguri, va trebui să estimăm, pe baza caracteristicilor lor actuale, evoluţia lor viitoare .
Ambele situaţii pot fi rezolvate prin apelul la tehnica statistică denumită regresie, în cazurile respective
fiind vorba de o regresie cu scop predictiv-care încearcă săs răspundă la întrebarea „Care sunt
predictorii care ne ajută să estimăm cel mai bine evoluţia criteriului?”Regresia în scop predictiv este
utilizată pentru a prezice performanţele viitoare ale unui grup de oameni pe baza unuia sau a mai multor
indicatori actuali, denumiţi predictori. In cazul regresiei în scop perdictive tremenii utilizaţi pentru
variabilele a căror contribuţie este studiată sunt : predictor şi criteriu. Aşa cum îi spune şi numele,
utilizarea regresiei în scop predictiv urmăreşte găsirea unei ecuaţii care să estimeze cel mai bine evoluţia
criteriului. Concret, dacă criteriul urmărit este nivelul realizării în carieră, pot fi incluşi între predictori tot
felul de indicatori care nu se află în relaţie cauzală cu criteriul, dar estimează bine nivelul acestuia. De
exemplu, temperamentul, inteligenţa globală şi implicarea în muncă nu sunt neapărat cauze ale nivelului
realizării în carieră , dar împreună cu alţi indicatori pot fi utilizaţi eficient în a prezice nivelul de realizare in
carieră al unei persoane.
Un alt tip de regresie, este regresia în scop explicativ. care încearcă să răspundă la întrebarea
: „Contribuie acest factor la evoluţia variabilei dependente, în condiţiile în care am controlat
statistic influenţa altor factori asupra acesteia?”.
Aceasta vizează explicarea influenţei unui set de factori asupra unei variabile criteriu, cunoscându-se
existenţa unei relaţii cauzale între acestea. Astfel, regresia în scop explicativ urmăreşte să vadă dacă un
anumit factor influenţează evoluţia variabilei dependente, prin controlarea influenţei exercitate de alte
variabile incluse în model. Dacă prin controlarea acestor influenţe, variabila (variabilele) independentă(e)
analizată contribuie semnificativ la evoluţia criteriului, am putea deduce existenţa unei relaţii între
acestea iar termenii folosiţi sunt variabilă independentă şi variabilă dependentă desi nu discutăm
despre un design experimental.
Un exemplu tipic de utilizare a regresiei în scop explicativ este acela al identificării influenţei
fumatului în perioada prenatală asupra dezvoltării emoţionale a copilului în primii ani de viaţă. Există o
multitudine de factori care influenţează dezvoltarea emoţională a copilului. Regresia explicativă nu face
altceva decât să izoleze (controleze) statistic influenţa factorilor respectivi, pentru a vedea în ce măsură
fumatul contribuie în plus la dezvoltarea emoţională a copilului. De pildă, dacă se cunoaşte că tipul de
ataşament, stilul educaţional al părinţilor, prezenţa sau absenţa altor fraţi sau surori etc. influenţează
dezvoltarea emoţională a copilului, prin regresie de tip explicativ se pot controla toate aceste influenţe
pentru a se observa dacă fumatul mamei în perioada gravidităţii contribuie, în plus, la dezvoltarea
emoţională normală a copilului.

O altă diferenţiere importantă este între regresie liniară simplă şi regresie multiliniară sau regresia
liniară multiplă

a. vorbim de o regresie bazată pe un singur predictor, de exemplu estimarea reuşitei şcolare pe


baza coeficientului de inteligenţă.
b. Regresia multiliniară include mai mulţi predictori în ecuaţie, precum nivelul de inteligenţă,
motivaţia şcolară, nivelul de educaţie al părinţilor, pentru a putea estima mai bine reuşita şcolară.
Cu siguranţă că modelele multiliniare vor prezice întotdeauna mai bine decât modelele simple,
care pornesc de la un singur predictor. Ideea este intuită şi în astrologie, unde pentru a prezice
stilul de personalitate al unei persoane este necesar ca „specialistul” să cunoască mai mulţi
predictori: ziua de naştere, ora la care s-a născut, anul naşterii etc.
În continuare, pentru a putea înţelege mai bine modul de funcţionare a regresiei, vom explica mai
întâi regresia liniară simplă, bazată pe un singur predictor, nu înainte de a preciza o informaţie capitală:
regresia liniară poate fi aplicată doar dacă criteriul (variabila dependentă) a fost măsurat printr-o scală
numerică (de tip interval sau proporţii) şi dacă relaţia dintre predictori şi criteriu este liniară.

Pentru alt gen de scale există alte tipuri de regresie precum, cea logistică (variabila dependentă
dihotomică, de gen „Da” sau „Nu”), cea multinominală (variabila dependentă este măsurată prin scală
nominală, alta decât de tip dihotomic), sau cea ordinală (variabila dependentă este măsurată prin scală
ordinală, de genul răspunsurilor în patru trepte: „nesatisfăcător”, „satisfăcător”, „bine” sau „foarte bine”).
Regresia liniară simplă

Imaginaţi-vă că sunteţi un proaspăt absolvent de psihologie ajuns să lucreze în departamentul de


resurse umane din cadrul unei mari companii. În această calitate, sunteţi pus să selectaţi dintre mai mulţi
candidaţi pe cei care vi se par mai potriviţi pentru a lucra ca reprezentant vânzări, în prima linie a
contactului direct cu potenţialii clienţi. Care dintre candidaţi este mai potrivit pentru a fi angajat?
Într-adevăr, prin regresie se pot estima rezultatele viitoare ale unor persoane pe baza unor
indicatori din prezent. Se poate prevedea performanţa pe baza unor indicatori care au legătură cu acest
aspect. Totul porneşte de la existenţa unei asocieri între indicatorul utilizat pentru a estima performanţa
viitoare şi criteriul ales pentru a măsura această performanţă. De exemplu, dacă există o corelaţie
pozitivă între extraversiune şi performanţa din vânzări putem estima că persoanele cu un nivel ridicat de
extroversiune tind să obţină performanţe superioare în vânzări, fiind mai potrivite să ocupe asemenea
poziţii decât persoanele introvertite.

Figura .1. Norul de puncte vizând relaţia dintre nivelul de extroversiune şi


volumul vânzărilor

Pornind de la această asociere se poate estima că persoanele cu un nivel ridicat de extravertire


vor fi avantajate în domeniul vânzărilor, deoarece tind să obţină un număr mai mare de vânzări.
Regresia urmăreşte să găsească o ecuaţie care să ne ajute să estimăm cât mai exact valoarea
performanţei viitoare. Dacă corelaţia dintre două variabile ar perfectă-adică egală cu 1 sau cu -1 am
putea anticipa exact rezultatele viitoare, deoarece linia de regresie obţinută trece prin toate rezultatele.
Aceasta ar însemna că nu există nici o diferenţă între rezultatele constatate şi estimările făcute.

Vanzari ridicate

Vanzari ridicate
* *
* *
* *
* *
* *
Vanzari scazute

Vanzari scazute
* *
* *

Introvertite Extravertite Introvertite Extravertite

Figura .2. Norul de puncte într-o situaţie de corelaţie ideală

În realitate ănsă acest lucru nu se întâmplă. De aceea, prin regresie se urmăreşte găsirea acelei
linii care să conducă la o estimare cât mai corectă a rezultatelor. Cu alte cuvinte, se doreşte găsirea
acelei linii de regresie care să reproducă cel mai bine direcţia de evoluţie a norului de puncte.
Vanzari ridicate

Vanzari ridicate

* *
* *
* *
*
*
* * * *
Vanzari scazute

Vanzari scazute

* *

Introvertite Extravertite Introvertite Extravertite

Figura 3. Norul de puncte într-o situaţie de corelaţie probabilă (stânga)


unit prin dreapta de regresie (dreapta)

Pentru a estima prin regresie rezultatele viitoare ale unui anumit criteriu este necesar ca
predictorul respectiv să coreleze destul de bine cu criteriul care trebuie estimat. Dacă nu există corelaţie
între cele două elemente, linia de regresie nu poate fi estimată acceptabil, deoarece norul de puncte
devine de fapt un cerc fiind imposibişl de aproximat printr-o dreaptă.
Pentru a stabili linia de regresie se apelează la proprietăţile matematice ale unei drepte,
deoarece orice dreaptă poate fi determinată prin următoarea ecuaţie:

y = b0 + b1X

unde b0 este punctul de intersecţie al ordonatei (interceptul), iar b1 este panta de regresie (cu cât creşte
y, atunci când x se modifică cu o unitate).
Panta de regresie ia o valoare pozitivă, dacă există o corelaţie pozitivă între x şi y şi o valoare
negativă, dacă există o corelaţie negativă între cele două variabile.
Pentru a uşura înţelegerea acestui demers putem inspecta vizual cele două imagini din figura
următoare. Imaginea din stânga are drept ecuaţie de regresie: y = 2,5 + 0,5*X,
în timp ce imaginea din dreapta are ca ecuaţie de regresie:
y = 8 – 1,5*X

Figura. 4. Două exemple de linie de regresie (Sava, 2003)

Pe baza imaginilor anterioare se poate observa mai bine cum se reprezintă grafic linia de
regresie pe baza ecuaţiei obţinute. De exemplu, în imaginea din stânga, punctul de intersecţie a liniei de
regresie cu ordonata este situat la valoarea de b0 = 2,50, în timp ce în dreapta el ia valoarea 8 (b0 = 8).
Ele reprezintă estimările lui Y, în situaţia în care X ia valoarea 0. Transpunând în cazul concret al
vânzărilor, dacă pe abscisă este trecut numărul de itemi vizând extrovertirea, iar pe ordonată este trecut
numărul de maşini vândute, din imaginea din stânga am putea estima că o persoană care a obţinut scorul
zero la extravertire va reuşi să vândă pe lună 2,5 maşini (y = 2,5 + 0,5*0), iar o persoană care a obţinut
scorul trei la extravertire va reuşi să vândă 4 maşini pe lună (y = 2,5 + 0,5*3).
De asemenea, se observă din cele două imagini că panta dreptei este mai abruptă în cazul
imaginii din dreapta, deoarece valoarea b1 = -1,50 este mai mare în valoare absolută decât b1 = 0,50 din
imaginea din stânga. Valoarea acestei pante indică cu cât creşte (în cazul valorilor pozitive) sau cu cât
scade (în cazul valorilor negative) Y atunci când X creşte cu o unitate.
Linia de regresie care redă cel mai bine norul de puncte nu se stabileşte pe baza unor criterii
subiective, cum ar fi simpla inspectare vizuală. Metoda utilizată cel mai frecvent pentru a calcula
interceptul şi panta de regresie se numeşte metoda celor mai mici pătrate (în engleză „least squares”).
Metoda se bazează pe calcularea sumei pătratelor diferenţelor dintre valorile observate şi valorile
estimate. Ne vom baza pe datele din figura 6.6 pentru a explica metoda amintită.

Y= 1031 + 147X X Y Y* Y-Y* (Y-Y*)²


2200

4 1500 1619 -119 14161


* 5 1800 1766 34 1156
* 6 1850 1913 -63 3969
1900

* 3 1400 1485 -85 7225


* 2 1350 1325 25 625
* 4 1700 1619 81 6561
1600

* 7 2100 2060 40 1600


* * 5 1970 1766 204 41616
*
1300

4 1420 1619 -199 39601


* 1 1260 1178 82 6724
Suma = 0 Suma = 123.238
1000

Legenda: X - Nivel de extravertire


Y - Vanzari lunare realizate (in Euro)
0 1 2 3 4 5 6 7 Y* - Vanzari lunare estimate (in Euro)

Figura 5. . Linia de regresie vizând relaţia dintre scorul la extravertire şi


valoarea vânzărilor lunare în Euro

Pe baza ecuaţiei de regresie se estimează rezultate uşor diferite decât cele constatate. De
exemplu, primul subiect a realizat vânzări lunare de 1500 de EURO, în condiţiile în care se estimau, pe
baza ecuaţiei de regresie, vânzări lunare în valoare de 1619 EURO. Parametrii ecuaţiei de regresie se
stabilesc, astfel încât suma pătratului diferenţelor dintre valorile Y observate şi cele estimate să ia
valoarea cea mai mică (ultima coloană din tabel). De exemplu, dacă am fi schimbat ecuaţia de regresie în
Y = 1050 + 150X, suma pătratelor diferenţelor ar fi fost mai mare, mai exact 130.400. Prin urmare, în
cazul de faţă valorile b0 de 1031 şi b1 de 147 sunt oferite de către programele statistice pentru că duc la
cea mai mică sumă a pătratelor diferenţelor dintre cele două seturi de date (valorile observate şi valorile
estimate). Cu alte cuvinte, parametrii ecuaţiei de regresie rezultaţi asigură soluţia cea mai apropiată de
rezultatele reale observate.
Pentru a decide dacă o ecuaţie de regresie descrie bine setul de date, spre a putea fi folosită în
scop predictiv, trebuie să decidem cât de mare poate fi diferenţa dintre rezultatele observate şi cele
estimate. În acest sens, există o serie de parametri, valabili atât în cazul regresiei liniare simple, cât şi în
cazul regresiei multiliniare, pentru a descrie eficienţa ecuaţiei de regresie în estimarea rezultatelor.

Evaluarea eficienţei unei ecuaţii de regresie

Între indicatorii care ne oferă informaţii asupra eficienţei unui model de regresie vom aminti
1. testul F (întâlnit şi în cazul ANOVA) şi
2. R² (coeficient de determinare întâlnit şi în cazul corelaţiei).

Testul F ne arată în ce măsură există diferenţe semnificative statistic între estimările oferite pe
baza ecuaţiei de regresie implicate în comparaţie cu estimările bazate pe valorile mediei. Dacă predictorii
incluşi în ecuaţia de regresie conduc la estimări semnificativ mai bune decât estimările bazate pe
rezultatele medii, atunci valoarea F va fi semnificativă statistic. Dacă F nu este semnificativ statistic,
atunci ecuaţia de regresie nu-şi are rostul, deoarece ea nu poate estima cu nimic mai bine decât simpla
consultare a mediei răspunsurilor subiecţilor la criteriu.
Coeficientul de determinare R² Cel de-al doilea parametru poate fi consultat dacă F este
semnificativ statistic. După Field (2000), R² oferă informaţii privitoare la procentajul din dispersia variabilei
criteriu care poate fi explicată prin modul de evoluţie a predictorilor. În cazul regresiei liniare simple, R²
este coeficientul de determinare, acelaşi din cazul corelaţiei simple, în timp ce în cazul regresiei liniare
multiple, R² este coeficientul de determinare multiplă. Deşi are acelaşi principiu de interpretare,
coeficientul de determinare multiplă reprezintă procentul din dispersia criteriului explicată de acţiunea
comună a tuturor predictorilor implicaţi.
În cazul datelor prezentate anterior SPSS-ul oferă următoarele rezultate:

Model Summary

Adjusted Std. Error of


Model R R Square R Square the Estimate
1 ,915a ,838 ,818 123,074
a. Predictors: (Constant), Nivel de extravertire

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 626471,5 1 626471,453 41,359 ,000a
Residual 121178,5 8 15147,318
Total 747650,0 9
a. Predictors: (Constant), Nivel de extravertire
b. Dependent Variable: Vanzari lunare in Euro
Din cel de-al doilea tabel se observă că valoarea F este semnificativă statistic, fapt ce induce
ideea superiorităţii ecuaţiei de regresie, bazată pe introducerea nivelului de extravertire ca predictor, în
estimarea vânzărilor în comparaţie cu estimarea vânzărilor pe baza mediei valorilor observate. Mai mult,
consultând primul tabel, se observă că nivelul de extravertire al unei persoane explică 83,8% din variaţia
vânzărilor observate (R² = 0,838). Cu alte cuvinte, dacă am încerca să explicăm diferenţele constatate
între persoane cu privire la vânzările lunare realizate de acestea, putem spune că o mare parte se
datorează diferenţelor la nivel de extravertire dintre acestea. Restul de 16,2% din variaţia vânzărilor
lunare înregistrate se datorează altor factori, neluaţi în seamă de modelul testat, care a inclus doar
extroversiunea ca predictor. Aşadar, putem afirma că nivelul de vânzări realizate depinde şi de alţi factori,
deşi extroversiunea pare a fi variabila principală pe baza căreia putem estima nivelul de vânzări realizate.
Din nefericire, asemenea procentaje ridicate, precum cel prezentat în problema anterioară nu sunt
întâlnite în ştiinţele sociale decât în exemple ipotetice. De obicei, R² are valori mult mai modeste, fiind
cuprins destul de des între .10 şi .50, ceea ce înseamnă că majoritatea modelelor estimative din
psihologie, bazate pe regresie explică (estimează) între 10% şi 50% din evoluţia criteriului de interes.
După cum se observă din figura 6.8, valorile R² sunt mai mari, dacă linia de regresie descrie bine
direcţia evoluţiei norului de puncte (R² = .88 în imaginea din stânga) şi mai mici, dacă linia de regresie nu
descrie adecvat norul de puncte, acestea fiind mai depărtate de direcţia estimată (R² = .45 în imaginea
din dreapta).

*
* * *
* *
* * * * *
**
*
* * *
* * *
*
* * * * * *
* *
* *

Figura 7. Relaţia dintre gradul de împrăştiere a punctelor din nor şi valorile R²

De pildă, în primul tabel, sub titulatura „R” este trecută valoarea coeficientului de corelaţie liniară
între predictor şi criteriu, în cazul de faţă între nivelul de extravertire şi nivelul vânzărilor lunare realizate.
În cazul regresiei liniare simple, această valoare indică, de fapt, coeficientul de corelaţie r Bravais-
Pearson, între predictor şi criteriu. În cazul unei regresii multiliniare, R indică corelaţia multiplă dintre
criteriu şi grupul de predictori incluşi. De asemenea, merită să fie remarcat faptul că R² reprezintă pătratul
acestor coeficienţi de corelaţie.
Un alt parametru regăsit în outputul SPSS este R² ajustat. Acesta încearcă să elimine unele
dintre neajunsurile lui R². Acesta din urmă este dependent de numărul de predictori incluşi în ecuaţia de
regresie şi de numărul de subiecţi testaţi. În forma sa ajustată, R² încearcă să atenueze această influenţă,
oferind un parametru mai puţin distorsionat. Totuşi, trebuie precizat că indicatorul R² ajustat oferit de
SPSS nu are rol de contravalidare, aşa cum mulţi specialişti ar fi tentaţi să creadă (Field, 2000). Astfel, el
nu estimează procentajul din dispersia criteriului explicată de predictori în cazul în care datele ar fi
extrase pe baza răspunsurilor subiecţilor dintr-un alt eşantion, ci arată doar eficienţa modelului estimativ
propus pentru eşantionul de subiecţi testaţi, într-un mod cât mai puţin distorsionat de numărul de
predictori sau de volumul eşantionului. Deşi oferă informaţii mai exacte decât coeficientul de determinare,
R² ajustat rămâne sensibil la distorsiune în cazul nerespectării condiţiilor necesare aplicării regresiei
liniare.