Sunteți pe pagina 1din 28

REGRESIA LINIAR SIMPL

Adrian Dua

Universitatea din Bucureti

Facultatea de Sociologie i Asisten Social


ANALIZA DE REGRESIE

Regresia este folosit pentru analizarea unei ipoteze cu privire la relaia dintre o singur variabil Y,
numit variabil dependent (sau variabil rspuns) i una sau mai multe variabile X1Xk numite
variabile independente (sau predictori sau variabile explicative). Cu ajutorul regresiei, vom putea
determina ct de mult se schimb (variaz) dependenta Y atunci cnd variabilele independente i
schimb valorile (variaz). Altfel spus, vom putea determina ct de mult din variaia total a
dependentei este influenat de variaia independentelor. Mai mult, vom putea estima (prezice) o
valoare sau un interval de valori a dependentei pentru anumite valori ale independentelor.

Spre exemplu, dorim s examinm relaia dintre venitul unei persoane i vrsta, educaia, sexul i
vechimea n munc a acesteia. Pornim de la ipoteza c venitul persoanei este influenat de toate
celelalte patru variabile. Fiind influenat de mai poate fi citit ca depinde de, ceea ce calific
variabila venit ca variabil dependent.

Vom denumi variabilele noastre astfel:

VENIT venitul persoanei (msurat n lei, este o variabil raport, metric, discret dar care poate
fi considerat continu din cauza numrului foarte mare de uniti)

VRST vrsta persoanei (msurat n ani mplinii, variabil raport, metric, discret)

EDUCAIE educaia persoanei (msurat n numr de ani de coal, este o variabil raport,
metric, discret)

SEX sexul persoanei (variabil calitativ, nominal cu dou categorii: femei i brbai)

VECHIME vechimea n munc a persoanei (acelai tip de variabil ca VRSTA)

Ipoteza noastr mai poate fi scris astfel:

VENIT depinde de VRST, de EDUCAIE, de SEX i de VECHIME

Bineneles c predictorii propui n acest model nu vor reui s explice total sau s prezic perfect
variaia veniturilor; de aceea, ne ateptm ca modelul s aib i o eroare, care reprezint de fapt
efectul altor variabile care au fost omise din model.

VRST

EDUCAIE
VENIT EROARE
SEX

VECHIME

Figura 1. Modelul grafic al ipotezei cu privire la determinarea venitului.

Modelul matematic general folosit pentru regresie este o simpl ecuaie matematic de gradul I:

Y = + 1X1 + 2X2 + + kXk + (pstrnd notaia cu litere greceti pentru parametri)

sau mai simplu:

y = a + b1x1 + b2x2 + + bkxk + e (folosind notaiile pentru estimatorii calculai n eantion).

Adrian Dua Universitatea din Bucureti pag.2 din 28


Aceasta este ecuaia de baz a regresiei, pe care o vom discuta pe parcursul urmtoarelor dou
capitole. Ea mai este denumit i model de regresie. Termenul a este numit termen liber,
termenii b1k sunt numii coeficieni de regresie iar termenul e este numit eroare.

Variabila dependent trebuie s fie ntotdeauna o variabil metric (n consecin, msurat la nivel
interval ori raport). Variabilele independente pot fi att metrice, ct i variabile fictive (denumite
dummy, variabile binare codificate 0 sau 1; explicaii pe larg la regresia multipl).

IMPORTANT!
O prim observaie pe care o putem face n acest moment este c termenul a este un
estimator al parametrului , termenul b este un estimator al parametrului iar termenul e
este un estimator al parametrului .
Calcularea coeficienilor a,b i e se face ntotdeauna pe baza datelor dintr-un eantion.

Termenii din ecuaia de regresie au urmtoarea semnificaie (ei vor fi explicai pe larg n cele ce vor
urma):

Termenul liber este valoarea pe care o ia variabila dependent, atunci cnd efectul variabilelor
independente este egal cu zero.

Coeficientul de regresie este constanta (sau coeficientul) cu care se nmulete variabila


independent pentru a genera un efect asupra variabilei dependente.

Eroarea este efectul total (efectul tuturor fenomenelor care acioneaz asupra variabilei
dependente) minus efectul variabilelor independente (cu alte cuvinte, partea din efectul total pe
care variabilele independente nu o explic). Aceast eroare are dou componente care se
nsumeaz:

a) o component n care intr efectele altor variabile care au o influen semnificativ asupra
dependentei, care nu au fost specificate n ecuaia de regresie i

b) o component de efect haotic, generat de natura absolut imprevizibil a fenomenelor n


general i a comportamentelor umane n particular (oamenii nu vor aciona niciodat cu
toii dup acelai tipar).

O concluzie la care putem ajunge, citind componena erorii, este urmtoarea: dac modelul de
regresie include variabile independente cu un efect mic asupra dependentei, eroarea va fi mare. Dac
modelul nostru ia n calcul (n varianta fericit) toate variabilele care influeneaz variabila
dependent, atunci eroarea va fi foarte mic, ns niciodat egal cu zero, datorit componentei
haotice. Astfel, eroarea variaz de la un minim la un maxim, astfel nct putem spune fr s greim
c eroarea se comport ca o veritabil variabil.

n exemplul nostru, ecuaia s-ar scrie aa:

VENIT = a + b1VRST + b2EDUCAIE + b3SEX + b4VECHIME + e

Putem s avem una sau mai multe variabile independente. Atunci cnd n ecuaia de regresie avem o
singur variabil independent, regresia se numete simpl. (Exemplu: analizm ipoteza conform
creia venitul unei persoane este influenat doar de educaia acesteia). Cnd dimpotriv, avem dou
sau mai multe variabile independente, regresia se numete multipl.

Cea mai important funcie a analizei de regresie este cea de predicie. Cu ajutorul regresiei, putem
prezice valoarea pe care o ia variabila dependent, prin simpla manipulare a valorilor variabilelor
independente.

Adrian Dua Universitatea din Bucureti pag.3 din 28


REGRESIA LINEAR SIMPL

n acest capitol ne vom ocupa de studiul relaiei dintre dou variabile. Atunci cnd analiza noastr se
rezum la dou variabile (una dependent, una independent), regresia se numete simpl (sau
bivariat). Dei acest capitol se refer doar la regresia linear, aceasta nu nseamn c este singurul
tip de regresie posibil. Exist i alte tipuri de regresie, care urmresc diferite tipuri de relaii ne-lineare
ntre dou variabile.

A. Funcii lineare

nelegerea corect a ecuaiei de regresie const n nelegerea relaiei dintre conceptul de linearitate
i ecuaia de gradul I. De aceea, funciile lineare sunt un prim pas n ecuaia de regresie.

Termenul de funcie trebuie interpretat astfel: dac o valoare a unei variabile y depinde de valoarea
unei alte variabile x, astfel c pentru o anume valoare a lui x exist o singur valoare a lui y, atunci
spunem c y este funcie de x.

y = f(x)

Un exemplu de astfel de funcie este y = 1,5x. Cnd x crete cu o unitate, y crete de 1,5 ori. Aici,
valoarea lui y se obine prin nmulirea valorii lui x cu o constant egal cu 1,5.

Figura 2. Graficul funciei y = 1,5x Figura 3. Graficul funciei y = -x


0.0 0.5 1.0 1.5 2.0 2.5 3.0
3.0

0.0
2.5

-3.0 -2.5 -2.0 -1.5 -1.0 -0.5


2.0
1.5
Y

Y
1.0
0.5
0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0


X X

Cea mai simpl expresie a unei funcii lineare este expresia: y = bx, unde b este o constant. Putem
calcula aceast constant, care este egal cu y/x.

Graficul acestei expresii va arta ntotdeauna o linie dreapt care va trece ntotdeauna prin punctul de
origine.

B. Panta (nclinarea) dreptei

Dac y = 2x, de fiecare dat cnd x crete cu o unitate, y va crete cu dou uniti. Cantitatea cu
care se schimb y pentru fiecare schimbare a lui x cu o unitate este dat de acelai raport y/x (n
cazul acesta egal cu 2); aceasta se mai numete i panta dreptei. Cu alte cuvinte, panta dreptei este
dat de valoarea coeficientului b, pentru orice pereche de puncte pe x i pe y.

Nu toate funciile lineare trec prin punctul de origine. Urmtorul grafic prezint dou funcii care au
aceeai pant, ns doar una din ele trece prin punctul de origine.

Adrian Dua Universitatea din Bucureti pag.4 din 28


Figura 4. Compararea a dou funcii lineare

3.0
2.5
y = 1,5 + 0,5x

2.0
1.5
Y
1.0
y = 0,5x

0.5
0.0
0.0 0.5 1.0 1.5 2.0 2.5 3.0
X

Funcia y = 1,5 + 0,5x intersecteaz axa 0y n punctul 1,5; funcia y = 0,5x intersecteaz axa 0y n
punctul de origine (0 , 0).

Orice funcie de acest tip poate fi scris la modul general y = a + bx, unde a i b sunt constante.

Constanta b, am vzut mai devreme, determin panta dreptei (ne arat cu ct se schimb y atunci
cnd x se schimb cu o unitate). Deoarece constanta a determin punctul n care dreapta
intersecteaz axa 0y, va fi denumit termen liber.

n Figura 2 i Figura 4, toate dreptele sunt orientate n sus; aceasta nseamn c orice cretere cu o
unitate a lui x este nsoit de o cretere cu o constant b a lui y. Funciile de acest tip sunt denumite
funcii lineare cresctoare. Panta dreptei este pozitiv.

Figura 3 arat o dreapt orientat n jos, astfel c orice cretere cu o unitate a lui x este nsoit de o
scdere cu o constant b a lui y. Acest lucru se ntmpl din cauza semnului negativ al coeficientului
(y = -1x). Funciile de acest tip se numesc i funcii lineare descresctoare. Panta dreptei este
negativ.

Coeficientul b poate lua deci, valori pozitive i valori negative. Mai exist i o a treia posibilitate, atunci
cnd b = 0. S lum urmtorul exemplu:
3.0
2.5
2.0
1.5
Y

Figura 5. Graficul funciei y = 1 + 0x


1.0
0.5
0.0

0.0 0.5 1.0 1.5 2.0 2.5 3.0


X

Cnd x = 1 => y = 1 + 01 = 1. Cnd x = 2 => y = 1 + 02 = 1. Oricare ar fi valoarea lui x, ntotdeauna


y fi egal 1. Orice schimbare a lui x nu va produce nici un fel de schimbare a lui y. n acest caz, x i y
nu au nici un fel de legtur ntre ele i spunem c avem o pant zero.

Adrian Dua Universitatea din Bucureti pag.5 din 28


C. Norul de puncte. Coeficientul de corelaie.

Viaa social nu este aa de simpl ca o linie dreapt. Dac ar fi aa, am putea s prezicem
ntotdeauna i cu certitudine maxim schimbarea lui y n funcie de schimbarea lui x. Avem spre
exemplu urmtoarea ipotez: numrul de copii minori este mare n familiile cu un numr mare de
membri. Cu ct numrul total de membri n familie este mai mare, cu att numrul de copii minori este
mai mare.

Unele familii au mai muli copii minori, altele mai puini. Numrul de copii variaz n funcie de
mrimea gospodriei.

Pentru exemplificare, vom utiliza baza de date a Barometrului de Opinie Public (mai 2003), efectund
un nor de puncte (scatterplot) ntre variabilele Total membri n gospodrie i Numr copii ntre 0-14
ani (ultima variabil fiind construit n funcie de vrstele membrilor gospodriei).

Norul de puncte nu este nimic altceva dect o modalitate de afiare grafic a tuturor perechilor de
valori ale celor dou variabile; spre exemplu, perechea 5 membri n gospodrie din care 4 copii minori
se reprezint printr-un punct la intersecia dintre valoarea 5 pe axa 0x i valoarea 4 pe axa 0y. Acelai
lucru se face pentru fiecare pereche de valori existent n baza de date.
9

Figura 6. Scatterplot (nor de puncte) ntre


Dintre care copii intre 0 si 14 ani
8

variabilele Total membri n gospodrie i


7

Numr copii ntre 0-14 ani


6
5
4

Perechea x = 12 membri n gospodrie cu


y = 3 copii minori
3
2
1
0

1 2 3 4 5 6 7 8 9 10 11 12 13 14
Total membri in gospodarie

Exist familii cu 5 membri care nu au nici un copil minor, altele care au 1 copil minor, de asemenea cu
2 i 3 copii minori. Exist deci o variaie pe axa vertical pentru fiecare valoare de pe axa orizontal.

Ecuaia care descrie o astfel de relaie se modific, de la

y = a + bx [1]

funcia linear care este un model determinist, care ofer o relaie exact ntre x i y; putem prezice
cu certitudine maxim orice valoare a uneia cunoscnd valoarea celeilalte

la

y = a + bx + e [2]

ecuaia de regresie care este un model probabilist, care ofer o relaie probabil ntre x i y;
certitudinea prediciei este mai mare sau mai mic n funcie de mrimea relaiei dintre cele dou.

Distribuia datelor din Figura 6 nu mai permite o predicie perfect, ca n cazul funciilor lineare, ci una
cu un grad mai mic sau mai mare de probabilitate. Predicia pe axa 0y depinde foarte mult de gradul
de variaie al valorilor de pe axa 0x, i invers. Acest tip de predicie se bazeaz deci pe modul cum
variaz una din variabile concomitent cu variaia celeilalte. Variaia comun a celor dou variabile se

Adrian Dua Universitatea din Bucureti pag.6 din 28


numete covariaie iar aceasta are o msur care se numete covarian (aa cum variana este o
msur a variaiei).

Covariana poate fi uor calculat cu urmtoarea formul:


n

(x x)(y y)
i=1
i i

cov(x,y) = [3]
n2
Cu privire la problema prediciei, ne confruntm cu dou situaii: 1. ntr-o pereche de variabile, una
este cauza celeilalte, iar variaia comun este generat de relaia cauz-efect; 2. exist variaie
comun a celor dou variabile ns nici una nu este cauza celeilalte. Un exemplu pentru al doilea caz
este urmtorul grafic:
Figura 7. Scatterplot ntre Vrsta soului i Vrsta soiei
90
80
70
60
Varsta sotiei
50
40
30
20
10

10 20 30 40 50 60 70 80 90
Varsta sotului

Graficul prezint vrstele a 150 de cupluri cstorite, eantionate aleator din baza de date a
Barometrului de Opinie Public mai 2003. Norul de puncte descrie o form eliptic, alungit, care
aproximeaz o funcie cresctoare (valorile lui y cresc odat cu cele a lui x).

Mrimea numeric a covarianei nu are nici o semnificaie direct pentru persoana care analizeaz
datele. Aceasta se ntmpl pentru c cele dou variabile au, n general, uniti de msur diferite.
Pentru a elimina acest aspect neplcut, se poate calcula un alt coeficient, care utilizeaz ns valori
standard ale variabilelor (dup cum tim, standardizarea se face cu ajutorul scorurilor z, prin
mprirea cu abaterea standard). O msur care descrie variaia comun a dou variabile
standardizate se numete corelaie.
n

(x x )(y y )
i i n

cov(x,y)
i=1
n2
(x x )(y y )
i i

= =
i=1 [4]
rxy =
sx s y sx s y sx sy (n 2)
Deoarece avem dou variabile standardizate, am mprit la produsul abaterilor standard ale celor
dou variabile. Un alt mod de a scrie acelai lucru este:
n n n

x s x y s y
i=1
i
x
i
y
(x x )
i=1
i
2
(y y )
i=1
i
2

rxy = unde sx = i sy =
n2 n1 n1

sx i sy fiind abaterile standard ale variabilelor x, respectiv y.

Adrian Dua Universitatea din Bucureti pag.7 din 28


Observai mprirea la (n-2), care se ntmpl pentru c pierdem dou grade de libertate prin
calcularea mediilor celor dou variabile. O proprietate important a corelaiei este:

rxy = ryx

Cu alte cuvinte, corelaia dintre x i y este egal cu corelaia dintre y i x.

Coeficientul de corelaie ne arat ct de puternic (intens) este relaia dintre dou variabile. Poate
lua valori n intervalul [-1, +1], unde o corelaie egal cu 0 ne spune c nu exist nici un fel de relaie
ntre cele dou (Figura 5), o corelaie de +1 arat o relaie perfect n sens cresctor (cnd una din
variabile crete cu o unitate standard, cealalt va crete tot cu o unitate, vezi Figura 2), iar o corelaie
de -1 arat o relaie perfect n sens descresctor (cnd una crete cu o unitate, cealalt scade cu o
unitate, vezi Figura 3).

IMPORTANT!
r (corelaia Bravais-Pearson) este un coeficient de corelaie linear. O valoare aproape de
zero a lui r nu nseamn neaprat c ntre dou variabile nu exist (aproape) nici un fel de
corelaie. Este posibil ca ntre cele dou s existe o corelaie puternic, dar ne-linear.

n practic, cele trei valori nu vor fi ntlnite niciodat, pentru c ele sunt specifice doar funciilor
lineare, unde nu exist nici o variaie a lui y pentru o anumit valoare a lui x i nici variaie a lui x
pentru o anumit valoare a lui y. Dup cum am vzut (vezi Figura 6), n realitate situaiile variaz,
astfel c putem avea corelaii fie foarte aproape de +/- 1, fie foarte aproape de 0. Spre exemplu, o
valoare a coeficientului de corelaie de +0,97 indic o relaie cresctoare aproape perfect a dou
variabile; la fel, o valoare de 0,1 indic aproape o lips a oricrui fel de relaie ntre dou variabile.

Problema corelaiei este strns legat de problema prediciei; nelegerea uneia presupune o
nelegere a celeilalte. Un coeficient de corelaie diferit de zero ne spune c, dac tim ceva despre o
variabil x atunci tim ceva i despre variabila y i vice-versa.

Atenie ns: mrimea coeficientului de corelaie nu arat care variabil este cauz i care este efect,
n cazul n care exist o relaie de cauzalitate ntre cele dou. n exemplul de la Figura 7, nici una
dintre cele dou variabile nu este cauza celeilalte. Exist multiple alte perechi de variabile cu o relaie
de tip cauz-efect. Care dintre ele este considerat variabil dependent (variabila efect) i care
independent (variabila cauz) este o problem de interpretare teoretic.

Oamenii de tiin sunt interesai de mult vreme de problema prediciei. Predicia se poate realiza
atunci cnd avem informaii despre un fenomen. Studiul corelaiei este un prim pas n acest sens.
Dac ntre dou variabile nu exist nici un fel de (co)relaie, nu putem prezice absolut nimic despre
valoarea uneia folosind o valoarea a celeilalte. Dac dimpotriv, ntre cele dou variabile exist o
corelaie, putem prezice cu o precizie mai mic sau mai mare valoarea uneia folosind-o pe cealalt. n
cazul unei corelaii aproape de maxim (+1 sau -1) atunci putem face o predicie cu un grad nalt de
precizie.

Atunci cnd modelul teoretic arat care variabil este cauz i care este efect, predicia trece la un
nou nivel, de la corelaie la regresie.

Adrian Dua Universitatea din Bucureti pag.8 din 28


D. De la corelaie la regresie

Ecuaia unei regresii lineare simple este, dup cum am vzut la [2]:

y = a + bx + e

unde y este variabila dependent, x este variabila independent, a este termenul liber (pe axa 0y), b
este panta dreptei, iar e este eroarea.

S relum ipoteza cu privire la determinarea venitului; deoarece n regresia linear simpl avem doar
o singur variabil independent, ipoteza noastr se reduce la VENIT depinde de VRST.

Este clar c nu toi oamenii au acelai venit. Oamenii mai n vrst au n general un venit mai mare
dect al celor mai tineri; chiar n cazul oamenilor de aceeai vrst se pot constata diferene.

Ecuaia de regresia n acest caz arat astfel:

VENIT = a + b1VRST + e

unde factorul eroare este responsabil de variaia venitului pentru persoane cu aceeai vrst (dac nu
ar exista acest factor, relaia dintre cele dou variabile ar fi perfect linear; nc nu tim de ce oameni
de aceeai vrst au venituri diferite, pot exista i alte cauze pe care noi nu le-am inclus nc n
model).

IMPORTANT!
O alt observaie pe care o putem face n acest moment este c regresia liniar simpl se poate
utiliza dac i numai dac norul de puncte aproximeaz o form linear. Dac norul de puncte
aproximeaz o form ne-liniar, se aplic alte tipuri de regresie. Aceasta este prima dintr-un ir
de asumpii / condiii ale acestui tip de analiz, pe care le vom discuta n detaliu mai trziu.

Dei norul de puncte se supune ecuaiei de mai sus, n practic noi nu cunoatem niciodat mrimea
numeric a erorii; putem doar s estimm ct de mare este efectul acesteia asupra variabilei
dependente. ntrebarea natural care decurge este:

Cum reuim s prezicem valoarea lui y, folosind ecuaia de regresie, dac nu cunoatem
mrimea erorii?

Rspunsul este simplu; vom prezice valoarea lui y folosind modelul determinist

y = a + bx [5]

unde notm cu y valoarea prezis.

Realitatea este descris de modelul probabilist, iar predicia noastr despre realitate va utiliza modelul
determinist. Sigur c, deoarece modelele nu sunt echivalente, predicia noastr va fi n toate cazurile
eronat. Nici nu putem avea pretenia ca predicia noastr s fie perfect n fiecare caz; tot ceea ce ne
rmne de fcut este s ne asigurm c predicia va fi ct mai aproape de realitate.

Dup cum am vzut, ecuaia [1] (ca i ecuaia [5] de altfel) descrie o linie. Aceasta nseamn c,
ntotdeauna, valoarea prezis va fi gsit de-a lungul unei linii care merge n direcia norului de
puncte.

S lum urmtorul exemplu ipotetic care prezint situaia veniturilor i cheltuielilor (n milioane lei) a 10
gospodrii, pentru o lun oarecare.

Adrian Dua Universitatea din Bucureti pag.9 din 28


Tabel 1. Situaia veniturilor i cheltuielilor a 10 gospodrii (milioane lei)

Venituri Cheltuieli Unele gospodrii cheltuiesc mai puin dect au ctigat, altele mai
1 2 2,7 mult (folosind economii). Toate perechile de puncte sunt prezentate n
2 1,3 1,7 graficele din Figura 8 de mai jos. Primul grafic prezint norul de
3 3,7 3 puncte a acestor perechi, al doilea i al treilea prezint cte o dreapt
4 5 3 posibil care aproximeaz acest nor (se observ c termenii liberi i
5 2,7 1,8 pantele sunt diferite), iar ultimul grafic prezint mai multe drepte n
6 3 2 acelai timp.
7 1 1,2 ntrebarea fireasc este:
8 4 2
Care dreapt aproximeaz cel mai bine norul de puncte?.
9 4,6 3,8
10 1,7 1,3

Cu alte cuvinte, cum putem s tim care sunt valorile lui a (termenul liber) i b (panta) ce definesc
dreapta care aproximeaz cel mai bine norul?

Figura 8. Drepte posibile care aproximeaz norul de puncte


5
5

4
4

3
Cheltuieli
Cheltuieli
3

2
2

1
1

0
0

0 1 2 3 4 5 0 1 2 3 4 5

Venituri Venituri
5

5
4

4
3

3
Cheltuieli

Cheltuieli
2

2
1

1
0

0 1 2 3 4 5 0 1 2 3 4 5
Venituri Venituri

Adrian Dua Universitatea din Bucureti pag.10 din 28


E. Metoda celor mai mici ptrate

Valorile cheltuielilor (de pe axa 0y) sunt valorile pe care le-am nregistrat n decursul unei cercetri.
Ele se numesc valori observate (i se noteaz simplu cu y). Valorile pe care le prezicem cu ajutorul
modelului [5] se numesc valori prezise (notate cu y). Acestea se mai numesc i valori ateptate sau
teoretice (ateptate n ipoteza unei relaii lineare ntre variabile).

Spuneam mai devreme c nici o predicie nu este perfect. n eantionul nostru, gospodria cu un
venit de 2 milioane lei are cheltuieli de 2,7 milioane. Valoarea prezis de noi nu va fi egal cu valoarea
observat n eantion. Diferena dintre valoarea prezis i valoarea observat se numete eroare.
Urmtoarea figur prezint distanele de la fiecare punct (perechea de valori observate n eantion) la
o dreapt care trece prin norul de puncte. Distanele sunt liniile de culoare albastr.

Ceea ce se observ imediat este c unele valori observate sunt mai mari dect cele prezise iar
diferenele sunt numere pozitive (liniile sunt deasupra dreptei) iar alte valori observate sunt mai mici
dect valorile prezise iar diferenele sunt numere negative (liniile de sub dreapt).

Figura 9. Distanele de la valorile observate la dreapta de regresie


5
4
3
Cheltuieli
2
1
0

0 1 2 3 4 5
Venituri

Cea mai bun predicie este cea care d cele mai mici erori.

Cu alte cuvinte, dreapta care aproximeaz cel mai bune norul de puncte este aceea n funcie de care
distanele puncte la dreapt s fie cele mai mici posibile. Pentru a exprima acest lucru ntr-un singur
numr, nu putem aduna pur i simplu erorile, pentru c unele au semn negativ iar altele au semn
pozitiv; prin adunare ele se elimin reciproc iar suma acestora este ntotdeauna egal cu zero:
n n

e = (y y) = 0
i=1
i
i=1
i [6]

Nici adunarea diferenelor absolute (n modul) ntre valorile observate i prezise nu este cea mai bun
soluie, pentru c nu accentueaz erorile mari. Este de preferat o dreapt de regresie care s aib
erori mici, dect o dreapt care s aib unele erori foarte mici i altele foarte mari. Ridicarea la ptrat
penalizeaz o dreapt care are erori foarte mari, chiar dac cele mai multe dintre erori sunt foarte
mici. Dac ne uitm peste Figura 9, am putea s credem c o coborre a dreptei n jos ar micora
suma erorilor pentru c cele mai multe din valorile observate se afl sub dreapt. n modul, o coborre
a dreptei ar micora suma erorilor (comparativ cu dreapta prezentat), ns erorile de deasupra
dreptei ar fi mai mari. Acest lucru face slbete predicia; de aceea este preferat ridicarea la ptrat a
erorilor nainte de a le aduna.

Adrian Dua Universitatea din Bucureti pag.11 din 28


S ne reamintim ns de formula varianei, care elimina efectul semnelor negative i pozitive prin
ridicarea la ptrat a distanelor de la valoare la medie. Vom aplica acelai principiu i n cazul
regresiei: ridicm la ptrat toate aceste erori (distane) i le adunm, iar suma acestora trebuie s fie
un numr minim.
n n

i=1
e i2 = (y y)
i=1
i
2
[7]

Cea mai bun dreapt de regresie este aceea pentru care


suma ptratelor erorilor este cel mai mic numr posibil (are o valoare minim).

Exist o rezolvare matematic pentru acest gen de problem, care nu face parte ns din obiectul
acestui curs. Mai jos sunt prezentate formulele pentru calcularea coeficienilor a i b, rezultate din
acea rezolvare:
n

(x x )(y y )
i=1
i i

b= n
[8]

i=1
(xi x )2

a = y b x [9]

Acestea nu sunt singurele formule de calcul a coeficienilor. Mai exist i alte formule, derivate unele
din celelalte. Spre exemplu, o formul mai simpl a lui b, bazat pe cunoaterea coeficientului de
corelaie, este:

sy
b = rxy s [10]
x

IMPORTANT!
Coeficientul de regresie b nu este acelai lucru cu coeficientul de corelaie!
Ambii indic o pant cresctoare sau descresctoare (au acelai semn), ns ei nu trebuie
confundai. Coeficientul de corelaie indic o msur simetric a intensitii relaiei dintre
dou variabile; indiferent care variabil ar fi considerat dependent, coeficientul de corelaie
are exact aceeai valoare. Coeficientul de regresie b are o anumit valoare cnd y este
dependent i o alt valoare dac x ar fi variabil dependent.

Din ecuaia [10] se poate extrage coeficientul de corelaie:

sx
rxy = b s
y

Dac am standardiza variabilele, abaterile standard sx i sy ale acestora ar deveni egale cu 1 iar:

rxy = b

de unde reiese concluzia: coeficientul de corelaie este un coeficient de regresie standardizat.

n practic, nimeni nu mai calculeaz valorile coeficienilor a i b n acest fel. Apariia calculatoarelor
personale cu o putere de calcul extrem de mare a automatizat obinerea acestor cifre, astfel c pot fi
obinute ntr-o fraciune de secund prin selectarea unei comenzi ntr-un program statistic cum este

Adrian Dua Universitatea din Bucureti pag.12 din 28


SPSS. Totui, dei calculele se fac automat, cunoaterea formulelor de baz este necesar pentru a
nelege logica metodei i condiiile ei de aplicare.

n cazul nostru, a = 0,89 iar b = 0,47 iar ecuaia de regresie devine:

y = 0,89 + 0,47x

Pentru fiecare gospodrie, valoarea real (observat) este obinut cu ecuaia [2]:

y = a + bx + e

De exemplu, pentru prima gospodrie: 2,7 = 0,89 + 0,472 + 0,9

Tabelul urmtor prezint cheltuielile prezise cu ajutorul ecuaiei de regresie, diferenele (pe coloana a
patra) dintre valorile observate (coloana a 2a) i valorile prezise (coloana a 3a) precum i ptratele
acestor diferene. Toate cifrele sunt prezentate rotunjit la o singur zecimal; eventualele
neconcordane cu privire la nsumri sunt datorate acestei rotunjiri. Coloana a 4a reprezint variaia
erorilor n jurul dreptei de regresie; este deci o variabil n sine.

Tabel 2. Obinerea sumei ptratelor erorilor (abaterilor de la dreapta de regresie)

Cheltuieli Cheltuieli e (eroarea) 2


Venituri e
observate prezise col.2-col3
1 2 2,7 1,8 0,9 0,8
2 1,3 1,7 1,5 0,2 0,0
3 3,7 3 2,6 0,4 0,1
4 5 3 3,2 -0,2 0,1
5 2,7 1,8 2,2 -0,4 0,1
6 3 2 2,3 -0,3 0,1
7 1 1,2 1,4 -0,2 0,0
8 4 2 2,8 -0,8 0,6
9 4,6 3,8 3,0 0,8 0,6
10 1,7 1,3 1,7 -0,4 0,2

10 n

i=1
ei = 0 e
i=1
i
2
= 2,5

Figura 9. Diferena dintre valoarea observat i cea prezis a cheltuielilor primei gospodrii
(milioane lei)
5

Valoarea observat y1 = 2,7


pentru x1 = 2
4
3
Cheltuieli

Eroarea e1 = y1 - y1 = 2,7 - 1,8 = 0,9


2
1

Valoarea prezis y1 = 1,8


pentru x1 = 2
0

0 1 2 3 4 5
Venituri

Adrian Dua Universitatea din Bucureti pag.13 din 28


Valoarea termenului liber pune toat teoria noastr de pn acum ntr-o situaie dificil. Termenul liber
este valoarea lui y atunci cnd x = 0. Cu alte cuvinte, atunci cnd o gospodrie nu are nici un venit (0
lei), cheltuiete n medie 890.000 lei. Cum este posibil acest lucru?

Rspunsul este simplu: valoarea coeficienilor a i b a fost obinut prin aplicarea matematic a unei
formule, pentru aproximarea ct mai exact a norului de puncte. Valoarea de 0,89 nu reprezint
propriu-zis o predicie, pentru simplul motiv c nu avem date pentru gospodriile cu venit egal cu zero:
se observ c venitul cel mai mic este situat la 1 milion de lei. O predicie pentru gospodriile care nu
au nici un venit ar nsemna ca noi s ne hazardm n afara datelor pe care le avem i s facem
predicii fr nici o baz (de date). Ar trebui s facem o cercetare special asupra acestor gospodrii
pentru a aduna date. ntmpltor, valoarea lui a este pozitiv, ns rezolvarea ecuaiei ar fi putut s
indice la fel de bine o valoare negativ, ceea ar fi un non-sens: gospodriile cheltuiesc n minus!?!
Valoarea termenului liber, deci, nu poate fi privit dect ce pe un punct de pornire n funcie de care
trasm dreapta de regresie, i nimic mai mult. Prediciile pe baza acestuia sunt foarte riscante; de
cealalt parte a graficului, norul de puncte se oprete la valoarea de 5 milioane. Nu putem face
predicii pentru valori ale lui x mai mari dect aceast limit.

Dac x ar fi axa timpului (n care valorile din stnga axei s nsemne trecutul, cele din mijloc prezentul
iar cele din dreapta viitorul), am putea noi s facem predicii cu privire la viitor?

IMPORTANT!
Nici o predicie nu poate fi fcut pentru valori n afara norului de puncte.

Exemplul nostru prezint intenionat doar 10 cazuri, pentru simplificarea norului de puncte. De obicei
ns, eantionul prezint sute sau chiar mii de cazuri. Mai mult, dac am avea date despre toate
gospodriile (date despre populaia de gospodrii), pentru un venit de 2 milioane de lei ar exista foarte
multe gospodri pe axa cheltuielilor, 0y. Acesta este un fapt important pentru nelegerea celei de-a
patra, a asea i aptea asumpii prezentate la sfritul acestui capitol.

IMPORTANT!
Interpretarea n cuvinte a coeficientului de regresie b este urmtoarea:

b reprezint schimbarea n medie a lui y generat de schimbarea cu o unitate a lui x.

Nu toate valorile lui y se modific la fel; unele se schimb mai mult, altele mai puin,
unele n sens pozitiv iar altele n sens negativ. Media tuturor acestor schimbri este
chiar punctul de pe dreapta de regresie, a crei pant este generat de valoarea lui b.

Adrian Dua Universitatea din Bucureti pag.14 din 28


F. Coeficientul de determinaie simpl (r2)

Atunci cnd testm un anumit model de regresie, ne ntrebm ct de bun este acel model, n ce
msur reflect el realitatea. Gsirea coeficienilor a i b este important, ns cum putem ti ct de
mult influeneaz variabila independent pe cea dependent? Un model este valid dac ia n
considerare toate variabilele independente care influeneaz n realitate o dependent. n regresia
simpl analizm relaia cu o singur variabil independent; ct de mult din variaia dependentei este
explicat de variaia independentei?

Ne reamintim c o msur a variaiei este variana, care lua n considerare suma ptratelor abaterilor
individuale de la medie. n absena oricrei informaii despre care variabil independent cauzeaz
variaia dependentei, singurul punct fix de reper al dependentei este chiar media acesteia. Toate
valorile observate au o abatere fa de medie.

Mai jos este Figura 10 care prezint valorile variabilei Cheltuieli pe axa 0y, n partea stng toate pe
o singur linie (n msura n care nu avem nici un fel de informaie despre vreo variabil
independent, pe axa 0x). Valorile variabilei sunt punctele de culoare roie, iar media (valoarea 2,25)
este punctul de culoare neagr deasupra cruia trece o linie de culoare roie. Segmentele de culoare
albastr prezint abaterile valorilor de la media variabilei, un fel de erori de la unica predicie egal
cu media (n absen oricror alte informaii, cea mai bun predicie a cheltuielilor este, aa cum am
artat, chiar media acestor cheltuieli).

n partea stng, distanele de la puncte la medie sunt evideniate n mod separat.

Figura 10. Variaia valorilor variabilei Cheltuieli n jurul mediei acesteia:


a. n absena variabilei b. n prezena variabilei
independente independente
4

3.8

3
3
Cheltuieli

2.7

2.25

2
2

1.8
1.7

1.3
1.2
1

0 1 2 3 4 5
Venituri

Suma ptratelor acestor abateri este cantitatea total de variaie pe care trebuie s o explicm cu
ajutorul unui model teoretic (a nu se confunda cu variana, care este o medie a ptratelor abaterilor).

Predicia cu ajutorul dreptei de regresie are acum dou tipuri de erori:

- o eroare de la dreapta de regresie la media variabilei: poriunea din abatere total a valorii
observate de la medie, explicat de predicie

- o eroare de la dreapta de regresie la valoarea observat: poriunea de abatere de la medie


rmas neexplicat

Adrian Dua Universitatea din Bucureti pag.15 din 28


S lum ca exemplu cea de-a 9-a gospodrie, care are cea mai mare abatere de la medie:
Figura 11. Abaterea total, abaterea explicat i abaterea neexplicat a cheltuielilor celei de-a 9a gospodrii

5 Abaterea total a valorii observate y9


_ _
de la media y : (y9 - y ) Abaterea rmas neexplicat a valorii
y9 _
observate y9 de la media y : (y9 y)
4
Cheltuieli
3

_
Abaterea explicat a valorii
_ _
y
2

observate y9 de la media y : (y - y )
1
0

0 1 2 3 4 5
Venituri

Dac am fi luat ca predicie media cheltuielilor pentru a estima valoarea observat a cheltuielilor de
_
3,8 milioane lei, atunci deviaia total a acestei valori fa de media ei este (y9 - y ). Estimarea acestei
valori cu ajutorul dreptei de regresie este mult mai bun (valoarea prezis se apropie mai mult de cea
_
observat). Totui, valoarea prezis explic doar poriunea (y - y ) din deviaia total, iar poriunea
rmas ( y - y9 ) rmne neexplicat.

Extrapolnd la cheltuielile tuturor gospodriilor unui eantion de mrime n, avem o cantitate total de
variaie (sau o variaie total) egal cu suma ptratelor deviaiilor valorilor observate de la medie:
n

(y y )
i=1
i
2

Poriunea explicat din aceast variaie total a dependentei este:


n

(y y)
i=1
i
2

Iar poriunea rmas neexplicat din variaia total a dependentei este:


n

(y y )
i=1
i i
2

Proporia de variaie explicat, ca procent din variaia total este numit coeficient de determinaie:

(y y)
i=1
i
2

r2 = n 0 r2 1 [11]
i=1
(yi y ) 2

Practic, coeficientul de determinaie reprezint proporia de variaie a dependentei explicat de


modelul de regresie. Este ntotdeauna mai mare sau egal cu zero (toate valorile sunt pozitive prin
ridicarea la ptrat), i ntotdeauna mai mic sau cel mult egal cu 1 atunci cnd variaia explicat este
egal cu variaia total (modelul explic perfect, n proporie de 100%, variaia dependentei).

Adrian Dua Universitatea din Bucureti pag.16 din 28


Spre exemplu, o valoare a lui r2 de 0,24 nseamn c variabila independent explic 24% din variaia
dependentei.

Cu ct valoarea lui r2 este mai aproape de 1, cu att modelul teoretic va fi mai bun; cu ct este mai
aproape de zero, nseamn c modelul nu reuete s surprind ceea ce se ntmpl n realitate.

ntre coeficientul de determinaie i coeficientul de corelaie este o legtur strns, fiind posibil
calcularea unuia pe baza celuilalt:

r= r2
Atenie ns: o valoare mare a lui r nu nseamn o valoare la fel de mare a lui r2. Spre exemplu, atunci
cnd r = 0,7 (o valoare destul de mare), r2 = 0,49. n cuvinte, atunci cnd dou variabile coreleaz
mpreun cu o valoare de 0,7 fiecare explic doar 49% din variaia celeilalte.

Atunci cnd se calculeaz ntr-o ecuaie de regresie simpl, coeficientul se numete de determinaie
simpl i se noteaz cu r2; n regresia multipl el se numete coeficient de determinaie multipl i se
noteaz cu R2.

Adrian Dua Universitatea din Bucureti pag.17 din 28


G. Inferena statistic pe baza coeficienilor de regresie. Eroarea standard a coeficienilor de
regresie.

S ne reamintim acum c valorile din acest tabel reprezint un eantion (aleator) extras din populaia
tuturor gospodriilor. De aceea, o valoare a cheltuielilor n populaie o notm cu litera mare Y, iar o
valoare a cheltuielilor n eantion o notm cu litera mic y.

IMPORTANT!
Predicia nu este acelai lucru cu inferena!
Predicia se refer la valoarea unei variabile cunoscnd valoarea celeilalte, iar inferena
se refer la estimarea parametrului din populaie pe baza statisticii din eantion.

Dac am avea un tabel al veniturilor i cheltuielilor ntregii populaii de gospodrii, am putea s facem
un nor de puncte al tuturor acestor perechi i n funcie de acest nor s calculm o dreapt de
regresie. Exist, aadar, o singur dreapt de regresie adevrat, n populaie, aa cum exist cte
o dreapt de regresie pentru fiecare eantion aleator posibil. Deoarece exist o infinitate de
eantioane posibile, exist deci i o infinitate de drepte de regresie posibile n eantion. De aceea,
coeficienii a i b (folosii pentru predicia pe baza datelor din eantion) fac o inferen asupra
coeficienilor i din populaie. Fiecare dreapt de regresie n eantion face o inferen asupra
dreptei de regresie din populaie. S ne reamintim c eroarea standard este abaterea standard a
distribuiei de eantionare a estimatorului, care ne ofer un interval n care estimm c se afl
parametrul din populaie, la un anumit nivel de ncredere. Spre exemplu, eroarea standard a
coeficientului b ne va da o estimare interval asupra parametrului .

Rezultatul prezentat de calculator va cuprinde obligatoriu valoarea coeficienilor a i b, dar i eroarea


standard a acestora. Eroarea Standard a acestor coeficieni este necesar n dou direcii:

1. Pentru a testa pe loc dac aceti coeficieni pot sau nu s fie considerai utili.

Este vorba de un simplu test t: se testeaz dac sunt sau nu diferii de zero; n funcie de mrimea
valorii p calculat, vom respinge sau nu ipoteza de nul.

Exemplul pe care l vom lua n considerare aici este unul intenionat greit, care va demonstra ns
ceva foarte important. S ne relum exemplul cu corelaia dintre vrsta soilor i cea a soiilor: am
putea face ipoteza c vrsta soiei este influenat de cea a soului. Introducem aceste variabile ntr-o
ecuaie de regresie linear simpl, care produce urmtoarele rezultate:

Valoare Eroare Standard t p


(Termenul liber) 4,5103 1,5780 2,858 0,00487 **
b (Vrsta so) 0,9263 0,0305 30,368 < 2e-16 ***

Steluele din dreptul valorilor lui p au urmtoarea semnificaie:

* semnificativ la pragul de 5% ( = 0,05) p < 0,05


** semnificativ la pragul de 1% ( = 0,01) p < 0,01
*** semnificativ la pragul de 1 ( = 0,001) p < 0,001

Testm dac termenul liber este semnificativ diferit de zero. Ipoteza de nul: populaia din care provine
eantionul nostru are un termen liber egal cu zero. Ipoteza alternativ: populaia din care provine
eantionul nostru are un termen liber diferit de zero.

Adrian Dua Universitatea din Bucureti pag.18 din 28


IMPORTANT!
H0: = 0 A nu se confunda acest , din ipoteza de nul, care este corespondentul n
H A: 0 populaie a termenului liber a, cu pragul de semnificaie .
Dei au aceeai notaie, se refer la dou lucruri total diferite!!

Valoarea lui t este calculat simplu cu binecunoscuta formul:

a0 4,5103 0 4,5103
t= = = = 2,858
E.S. 1,5780 1,5780

Se observ imediat c valoarea lui t se poate calcula direct prin mprirea valorii termenului liber la
eroarea lui standard (deoarece valoarea cu care se compar este zero). Important nu este valoarea
lui t, ci probabilitatea p asociat: 0,00487. Aceasta este probabilitatea de a grei respingnd ipoteza
de nul (eroarea de tipul I). Aceast probabilitate este foarte mic, mult sub orice prag de semnificaie
rezonabil, cu att mai mult sub clasicul prag de 5%. n consecin, respingem ipoteza de nul:
termenul liber este semnificativ diferit de zero. La fel se ntmpl i n cazul lui b. Probabilitatea de a
grei respingnd ipoteza de nul n cazul acestuia este extrem de mic (mai mic dect 0 urmat de
nc alte 15 zerouri dup virgul).

Dup cum se vede, toi coeficienii sunt semnificativi, valoarea lui r2 este de 86,17%; am putea s
concluzionm c este un model extrem de bun. Din pcate, modelul a plecat de la o ipotez vdit
eronat: vrsta soiei nu poate fi cauzat de vrsta soului, ci ambele sunt influenate de trecerea
timpului. Calculatorul nu a penalizat aceast greeal, ci a calculat coeficienii ca i cum modelul ar fi
unul bun.

IMPORTANT!
Ecuaia de regresie nu poate n nici un caz s stabileasc o relaie de cauzalitate.
Ecuaia este doar un model matematic care ne ajut s testm un model teoretic, ns
stabilirea modelului este sarcina analistului, nu a calculatorului.

Rezultatele din tabelul ANOVA al ecuaiei de regresie sunt echivalente cu cele din testul t de mai sus.
Fiecare valoare a lui x este interpretat ca un grup i se testeaz dac panta dreptei de regresie este
egal cu zero prin compararea mediilor acestor grupuri. Dac mediile tuturor grupurilor nu sunt
semnificativ diferite ntre ele atunci dreapta de regresie are o pant egal cu zero. Dac cel puin dou
grupuri au medii diferite, atunci panta va fi diferit de zero.

G.L. Suma Ptratelor Variana F p


ntre grupuri 1 24987,5 24987,5 922,2 < 2,2e-16 ***
n interiorul grupurilor 148 4010,1 27,1

Dup cum se poate vedea, valoarea lui p corespunztoare coeficientului b este virtual aceeai (o
diferen extrem de mic se manifest dup cea de a 16-a zecimal). Variana dintre grupuri este
variana explicat de modelul de regresie, iar cea din interiorul grupurilor este variana rmas
neexplicat (ea mai este denumit i varian rezidual). Valoarea lui F este raportul dintre variana
explicat de modelul de regresie (n englez Regression Mean Squares) i variana neexplicat de
model (n englez Residual Mean Squares sau Error Mean Squares) .

Adrian Dua Universitatea din Bucureti pag.19 din 28


2. Pentru a face o inferen asupra parametrilor din populaie.

Valorile lui a i b sunt estimri punctuale ale parametrilor i .


Dup cum tim ns, exist i o estimare interval bazat pe calcului erorii standard, la un anumit nivel
de ncredere. tim deja c la un nivel de ncredere de 95%, parametrul din populaie se afl ntre
+/- 1,96E.S. n jurul statisticii din eantion.

n cazul nostru, valoarea termenului liber din populaie se afl n intervalul:

[4,5103 - 1,961,5780 , 4,5103 - 1,961,5780] adic [1,42 , 7,60].

n cazul coeficientului de regresie din populaie , intervalul este:

[0,9263 - 1,960,0305 , 0,9263 - 1,960,0305] adic [0,87 , 0,99].

Pe baza acestor estimri de tip interval, am aflat aadar c termenul liber al dreptei de regresie din
populaie poate fi oriunde ntre 1,42 i 7,60 iar panta (nclinarea) dreptei de regresie din populaie este
dat de o valoare a lui ntre 0,87 i 0,99. Rezultatul va fi o band n jurul dreptei de regresie din
eantion, unde estimm c se afl dreapta de regresie din populaie.

Ca exemplu, vom utiliza un vrstele unui eantion de 30 de cupluri cstorite, extrase n mod aleator
din Barometrul de Opinie Public mai 2003.

Figura 12. Dreapta de regresie din eantion i intervalul estimat n care se afl
dreapta de regresie din populaie, la un nivel de ncredere de 95%
85
75
65
Varsta sotiei
55
45
35
25
15

15 25 35 45 55 65 75 85
Varsta sotului

n cazul unui eantion de mrime relativ mic, cum este acesta, banda de estimare este destul de
deprtat de dreapta de regresie. Cu ct volumul eantionului se mrete, banda va fi din ce n ce mai
apropiat de dreapt, la eantioane mari fiind aproape lipit de aceasta. Explicaia este destul de
simpl ntruct mrirea eantionului determin o scdere a erorii standard, care ngusteaz intervalul
de estimare. Se observ c banda este ngustat la mijloc; este normal s fie aa ntruct acolo se
afl mediile celor dou variabile, cele mai stabile puncte de predicie i inferen.

Ca o explicaie intuitiv, banda de estimare este obinut cu ajutorul unui balansoar fixat la mijloc pe
mediile celor dou variabile; capetele benzii sunt mai largi din cauza micrii n sus i n jos a
balansoarului.

Adrian Dua Universitatea din Bucureti pag.20 din 28


H. Asumpiile regresiei

Regresia linear este o tehnic statistic care ofer rezultate corecte dac i numai dac sunt
verificate anumite asumpii (sau condiii de aplicare). Pentru fiecare asumpie exist una sau mai
multe metode de verificare a ndeplinirii acestora. n cele mai multe cazuri, analistul ignor verificarea
acestor asumpii: aceasta este o greeal grav, pentru c rezultatele obinute (coeficienii de
regresie, coeficientul de corelaie precum i cel de determinaie) pot lua valori destul de diferite de
ceea ce exist n realitate dac analiza de regresie este efectuat prin nclcarea acestor asumpii. n
general, regresia este destul de robust la nclcarea unor asumpii, ns verificarea acestora este
totui o etap foarte important n analiz.

Toate asumpiile se refer la variabilele n populaie.

ASUMPII GENERALE:

1. Variabilele au un nivel de msurare metric.


Dup cum vom vedea la regresia multipl, putem introduce n ecuaia de regresie i variabile
calitative, prin transformarea categoriilor acestora n variabile dummy.

2. S nu avem eroare de msurare.


Erori de msurare la nivel de variabil apar fie atunci cnd respondenii nu ofer rspunsurile
adevrate, fie cnd operatorii de teren nu nregistreaz datele n mod corect ori cnd operatorii de
calculator nu introduc datele aa cum au fost nregistrate. Dei este destul de dificil s eliminm
toate aceste probleme, o bun coordonare a cercetrii prin verificri la toate etapele poate s duc
la o reducere substanial a erorilor de acest tip.

3. Linearitatea.
Este o prim asumpie care a fost deja specificat n acest capitol; se refer la forma linear a
norului de puncte. Linearitatea se verific prin examinarea vizual a norului de puncte.
Dac forma acestuia nu este linear, pot exista dou situaii:
- norul de puncte este non-monoton (scade, crete apoi scade iar)
- norul de puncte este monoton (scade monoton ori crete monoton)
Cazul ne-liniar monoton poate fi corectat prin transformrile variabilelor (spre exemplu prin
logaritmare); aceste transformri ns nu fac obiectul acestui curs. n cazul ne-liniar non-monoton
trebuie aplicat un alt tip de regresie, ne-linear.

ASUMPII CU PRIVIRE LA EROAREA DIN ECUAIA DE REGRESIE:

4. Media erorilor pentru fiecare valoare a lui X este egal cu zero.


Relund exemplul cu cheltuielile i veniturile gospodriilor, dac am avea o baz de date cu
ntreaga populaie de gospodrii, este uor de imaginat c pot exista foarte multe gospodrii cu un
venit de 2 milioane de lei. Dreapta de regresie va genera o predicie a cheltuielilor (un punct fix) fa
de care cheltuielile gospodriilor cu un asemenea venit vor avea erori mai mari sau mai mici, unele
pozitive i altele negative. Suma tuturor acestor erori trebuie s fie egal cu zero, n consecin i
media acestor erori va fi egal cu zero. Important este accentul pus pe medie deoarece punctul de
predicie de pe dreapta de regresie coincide cu Y|2 - media tuturor cheltuielilor pentru un venit de 2
milioane de lei.

Y|2 = + 2 +

Cum ns media erorilor este egal cu zero, rezult c Y|2 = + 2

Adrian Dua Universitatea din Bucureti pag.21 din 28


unde + 2 este chiar punctul de predicie a cheltuielilor pentru un venit de 2 milioane de lei, iar
Y|X se citete media lui Y dat fiind X (n cazul nostru Y = Cheltuieli iar X = 2 milioane lei Venit).

5. S nu avem autocorelaie.
Autocorelaia se refer la independena erorilor; dac avem autocorelaie, erorile asociate cu diferite
observaii nu sunt independente unele de altele. n exemplul nostru, oricare dou gospodrii ar fi
luate n analiz, erorile fa de dreapta de regresie trebuie s fie independente unele de altele;
cheltuielile unei gospodrii nu depind (sau sunt independente) de cheltuielile oricrei alte gospodrii.
Autocorelaia se verific cu testul Durbin-Watson. Pentru a nu avea autocorelaie, valoarea testului
trebuie s fie egal cu 2 (sau ct mai aproape de 2). Dac valoarea testului este mai mare dect 2,
avem autocorelaie negativ; dac este mai mic dect 2, avem autocorelaie pozitiv.

6. Normalitatea distribuirii erorilor.


n populaie, pentru fiecare valoare a lui X, erorile n jurul punctului de predicie trebuie s fie
distribuite normal. Ne reamintim c o distribuie normal este simetric, valorile din stnga mediei
fiind la fel de multe ca valorile din dreapta mediei. Aceast asumpie este legat de asumpia
numrul 4; media lui Y (pentru o anume valoare a lui X) este chiar punctul de predicie, iar suma
erorilor cu semn pozitiv este egal cu suma erorilor cu semn negativ (suma total a erorilor este
astfel zero). Aceast asumpie poate fi testat prin efectuarea de histograme a valorilor lui y pentru
diferite sub-eantioane corespunztoare diferitelor valori ale lui x. n exemplul cu veniturile i
cheltuielile, selectm spre exemplu doar gospodriile cu venit de 2 milioane de lei i efectum o
histogram a cheltuielilor acestor gospodrii. Dac histograma are o form care seamn cu o
curb normal, este bine; dac histograma nu seamn cu o curb normal, nseamn c erorile nu
sunt distribuite normal pentru aceste gospodrii.
Un alt test pentru verificarea acestei asumpii este aa numitul grafic Q-Q Plot (quantile versus
quantile). Se ordoneaz erorile de la minim la maxim pentru calcularea quantilelor, apoi se
calculeaz valoarea prezis a fiecrei quantile.
Rezultatul este un plot care va arta, dac erorile au o distribuie normal, aproximativ ca o dreapt.

Figura 13. Q-Q Plot pentru erorile modelului de regresie


2
Valori reziduale standardizate
1
0
-1
-2

-2 -1 0 1 2
Valori prezise standardizate

n graficul de mai sus am reluat puin exemplul cu veniturile i cheltuielile a celor 10 gospodrii
(fiecare cu venit propriu, diferit de al celorlalte). ntruct 10 cazuri erau prea puine pentru
demonstraie, am creat un eantion cu cte 15 gospodrii pentru fiecare categorie de venit,
totaliznd 1015=150 gospodrii prezente n grafic.

Adrian Dua Universitatea din Bucureti pag.22 din 28


7. S nu avem heteroscedasticitate.
Heteroscedasticitatea se refer la inegalitatea abaterilor standard a erorilor. n populaie, pentru
fiecare valoare a lui X, erorile n jurul punctului de predicie trebuie s aib aceeai valoare a
abaterii standard (caz n care avem ceea ce se numete homoscedasticitate). Spre exemplu,
abaterea standard a erorilor pentru gospodriile cu venit egal cu 2 milioane trebuie s fie egal cu
abaterea standard a erorilor pentru gospodriile cu oricare alt venit. Egalitatea acestor abateri
standard nseamn c norul de puncte este distribuit uniform, la o distan egal fa de dreapta de
regresie pe toat lungimea acestuia. Oricare puncte pe X le-am lua n considerare, dispersarea
valorilor lui Y n jurul dreptei de regresie este egal.

8. Variabila independent nu este corelat cu eroarea.


n ecuaia: y = a + bx + e, coeficientul de corelaie dintre x i e trebuie s fie egal cu zero: rxe = 0.
La prima vedere aceast asumpie ar prea imposibil de testat pentru c nu eroarea este n
principiu necunoscut. Rezolvarea acestei probleme ine de teoria regresiei multiple i de o anume
asumpie specific acesteia: S nu existe erori de specificare (vezi asumpiile din capitolul de
regresie multipl). S presupunem c exist i o alt variabil independent care explic o parte din
variaia dependentei:

y = a + b1x1 + b2x2 + e (vezi modelul de la pagina 1)

i c ntre x1 i x2 exist un coeficient de corelaie r12 0. n cazul regresiei simple nu lum n calcul
dect pe x1, ceea ce nseamn c efectul lui x2 intr n componena erorii e. Cum x1 i x2 sunt
corelate, nseamn c x1 va fi corelat cu eroarea e (care l conine i pe x2), caz n care prezenta
asumpie este nclcat. Coeficientul de regresie b va fi eronat (va conine un bias), supraestimnd
efectul lui x1 asupra lui y.
Aproape ntotdeauna vor exista i alte variabile independente responsabile de variaia dependentei,
ceea ce nseamn c un model de regresie liniar simpl este aproape ntotdeauna mai mult sau
mai puin eronat. Este normal s fie aa, pentru c este greu de crezut c un fenomen este explicat
n totalitate de un singur alt fenomen; realitatea social este extrem de complex, cu legturi subtile
ntre multiple variabile.

Urmtorul grafic prezint distribuia celor 150 de gospodrii de la Figura 13, n care se observ 10 linii
punctate verticale (corespunztoare celor 10 categorii de venit conform Tabelului 2) i pe fiecare
dintre acestea cte 15 puncte roii corespunztoare celor 15 gospodrii din fiecare categorie. Dreapta
de regresie are acelai termen liber i aceeai pant ca la Figura 9. Liniile de culoare albastr
marcheaz plus sau minus dou abateri standard de la dreapta de regresie.

Figura 14. Distribuia homoscedastic a 150 de cheltuieli n cadrul a 10 categorii de venituri


(milioane lei)
5
4
3
Cheltuieli
2
1
0

0 1 2 3 4 5
Venituri
Adrian Dua Universitatea din Bucureti pag.23 din 28
Norul de puncte este distribuit normal n jurul dreptei de regresie; mai mult dect att, distribuia
punctelor este uniform n jurul dreptei de regresie, la cel mult dou abateri standard.

Sigur, acesta este un exemplu construit; cele 150 de gospodrii pe axa 0y au fost obinute prin
extragerea aleatoare dintr-o distribuie normal n jurul fiecrui punct de predicie de pe dreapta de
regresie. Faptul c nici o distribuie nu seamn cu cealalt demonstreaz tocmai caracterul aleator al
extragerilor. n populaie, numrul de categorii de venituri precum i numrul de gospodrii n cadrul
fiecrei categorii este mult mai mare, ns cu ct numrul acestora crete cu att mai puternic este
aproximarea distribuiei normale pentru fiecare categorie de venit, demonstrnd grafic asumpiile 4, 6
i 7.

Urmtoarea figur prezint un caz clasic de heteroscedasticitate. Abaterea standard a erorilor n jurul
dreptei de regresie nu este egal pentru toate valorile pe axa 0x. Este uor de observat c, pe msur
ce veniturile cresc, punctele sunt mai dispersate n jurul dreptei de regresie; n consecin, abaterile
standard a erorilor cresc. Forma norului de puncte este conic (sau are o form de evantai), deci
avem heteroscedasticitate; asumpia fiind nclcat, regresia poate fi efectuata cu meniunea c
erorile standard ale coeficienilor de regresie vor fi ns mai mari.
Figura 15. Distribuia heteroscedastic a 150 de cheltuieli n cadrul a 10 categorii de venituri
(milioane lei)
5
4
Cheltuieli
3
2
1
0

0 1 2 3 4 5
Venituri

Testul cel mai utilizat n verificarea heteroscedasticitii este un plot ntre valorile prezise (de pe linia
de regresie) i reziduuri (erorile de la puncte la linia de regresie). n acest plot, dreapta de regresie
este prezentat pe orizontal la mijlocul graficului; dac nu avem heteroscedasticitate, norul de puncte
rezultat ar trebui s fie uniform n jurul acestei drepte.

Figura 16. Plot ntre valorile reziduale i valorile Figura 17. Plot ntre valorile reziduale i valorile
prezise pentru gospodriile corespunztoare Figurii 14. prezise pentru gospodriile corespunztoare Figurii 15.
1.5
0.4

1.0
0.2

0.5
Valori reziduale
Valori reziduale
0.0

0.0
-0.5
-0.2

-1.0
-0.4

-1.5

1.5 2.0 2.5 3.0 1.5 2.0 2.5 3.0


Valori prezise Valori prezise
Adrian Dua Universitatea din Bucureti pag.24 din 28
Spre exemplu, n Figura 14 punctele sunt foarte aproape unele de altele astfel nct nu ne putem da
seama dac distribuiile sunt ntr-adevr normale n jurul dreptei de regresie. Figura 16 prezint
aceste puncte mai desfurat; acum se observ mai uor c cele 10 grupe de venit (pe vertical) sunt
relativ normal distribuite n jurul liniei orizontale (dreapta de regresie). Pe axa vertical avem 0 n
mijloc, valorile pozitive arat erorile pozitive iar valorile negative arat erorile negative.

n cazul Figurii 17 se observ clar c punctele au o form conic (sau o form de evantai) specific
heteroscedasticitii; cele din stnga au o variaie mic n jurul dreptei iar cele din dreapta au o variaie
mare n jurul aceleiai drepte.

Practic, plotul ntre valorile prezise i cele reziduale nu face altceva dect s aduc dreapta de
regresie ntr-o poziie orizontal pentru ca simplificarea analizei vizuale a norului de puncte.

Cercettorii, oamenii de tiin n general folosesc regresia ntr-un dublu scop: unul este de predicie,
cellalt este de explicaie. Pn acum ne-am preocupat n special de problema prediciei.

Explicaia ns este mult mai interesant, deoarece ofer o aplicaie n cercetarea fundamental.
Predicia se poate folosi, spre exemplu, n prezicerea procentelor ntr-o campanie electoral. Interesul
public se oprete n general doar la acest lucru, fr a ine cont neaprat de explicarea fenomenului.

Partea cu adevrat interesant, cel puin din punct de vedere sociologic, se afl n explicarea
acestuia. n acest sens, regresia este folosit pentru a testa consistena unui model n ceea ce
privete explicarea variaiei dependentei. Accentul trece de la exactitatea valorii prezise a lui y la
mrimea valorii lui r2.

Cele dou orientri sunt evident strns legate: un model care face o predicie bun va face i o
explicaie bun. Este bine de subliniat ns c o predicie bun poate fi datorat (ntr-o msur mai
mare sau mai mic) i ntmplrii. O bun explicaie bun ns (o valoare a lui r2 mare bazat pe un
model teoretic solid), va genera ntotdeauna i o bun predicie.

Adrian Dua Universitatea din Bucureti pag.25 din 28


*** urmtoarea seciune nu este obligatorie pentru materia de la curs ***

I. Eroarea standard a estimrii

Eroarea standard a estimrii este o msur a acurateei prediciei realizate cu ajutorul dreptei de
regresie. Urmnd acelai principiu ca n formula abaterii standard, ridicm la ptrat erorile pentru c
altfel se anuleaz reciproc, apoi le nsumm; obinem:
n

(y
i =1
i y 'i ) 2

Aa cum variana este o medie a ptratelor distanelor de la fiecare valoare la media variabilei, la fel
ne intereseaz o valoare medie a ptratelor erorilor (de la valorile observate la dreapta de regresie):
n

(y
i =1
i y 'i ) 2

Deoarece pierdem dou grade de libertate prin calcularea coeficienilor de regresie a i b (orice
valoare prezis a lui y se calculeaz cu ajutorul formulei: y = a + bx), formula devine:
n

(y
i =1
i y 'i ) 2

n2
Pentru a elimina efectul ridicrii la ptrat, extragem radical din aceast expresie i obinem:
n

(y i y 'i ) 2
se = i =1
[12]
n2

unde se este denumit eroarea standard a estimrii; msoar abaterea standard a lui y atunci cnd
valorile lui x sunt cunoscute.

IMPORTANT!
A nu se confunda eroarea standard a estimrii cu Eroarea Standard din Teorema Limit
Central (care nseamn abaterea standard a distribuiei de eantionare).
Expresia eroarea standard a estimrii este doar o form mai simpl a expresiei
abaterea standard a erorilor n jurul dreptei de regresie.

Este o msur a variaiei neexplicate; cu ct aceast msur are o valoare mai mic, cu att proporia
de variaie neexplicat este mai mic (i evident, proporia de variaie explicat este mai mare).

Este o formul similar cu abaterea standard a lui y:

(y i y)2
sy = i =1
[13]
n 1
Observai c la formula deviaiei standard mprim la n-1, deoarece pierdem doar un singur grad de
libertate prin calcularea mediei. Ambele msuri (sy i se) se refer la variaia neexplicat a lui y.

Adrian Dua Universitatea din Bucureti pag.26 din 28


Glosar de termeni:

Coeficient de corelaie linear sau coeficient Bravais-Pearson (n engl. linear correlation


coefficient). Radical din coeficientul de determinaie; semnul acestuia arat direcia relaiei
dintre dou variabile, iar valoarea lui arat intensitatea asocierii acestora. Este o msur
simetric a intensitii relaiei lineare dintre dou variabile; se mai poate calcula cu ajutorul
formulei lui Pearson.

Coeficient de determinaie (n engl. coefficient of determination). O msur care arat proporia


din variaia variabilei dependente care este explicat de modelul de regresie.

Coeficient de regresie b (n engl. regression coefficient). Coeficientul care arat efectul variabilei
independente x asupra variabilei dependente y. Mrimea acestui coeficient depinde de unitatea
de msur a lui x, i specific schimbarea n medie a lui y asociat cu schimbarea de o unitate
a lui x.

Coeficient de regresie standardizat (n engl. standardized regression coefficient). Echivalentul


coeficientului de corelaie; prin standardizarea variabilelor coeficientul de regresie devine egal
cu coeficientul de corelaie deoarece abaterile standard ale celor dou variabile devin egale.

Covariaie (n engl. covariance). Variaia comun a dou variabile.

Eroare sau Reziduu (n engl. random error term sau residual). Diferena dintre valoarea observat
(punctul din diagrama de mprtiere) i cea prezis (punctul de pe dreapta de regresie) a lui y.

Metoda celor mai mici ptrate (n engl. OLS ordinary least squares method). O metod de
calcul a coeficienilor de regresie bazat pe potrivirea unei linii drepte printr-un nor de puncte (cu
alte cuvinte calcularea unui punct de plecare i a unei pante a dreptei) n aa fel nct suma
ptratelor erorilor s fie un numr minim.

Model determinist (n engl. deterministic model). Model care d o relaie exact ntre dou
variabile. Variabila independent determin cu exactitate variabila dependent.

Model probabilist (n engl. probabilistic model). Model care ofer o relaie probabil ntre dou
variabile; variabila independent nu prezice cu exactitate variabila dependent, ci cu o
certitudine mai mare sau mai mic, n funcie de intensitatea relaiei dintre cele dou.

Nor de puncte sau diagram de mprtiere (n engl. scatterplot, scattergram sau scatter
diagram). Un grafic de puncte pe un sistem de coordonate rectangular. Coordonatele pe axele
0x i 0y ale fiecrui punct corespund celor dou msurtori fcute fiecrui element al
eantionului. Forma norului de puncte ilustreaz relaia dintre dou variabile.

Termenul liber (n engl. intercept). Punctul n care dreapta de regresie intersecteaz axa 0y
(valoarea lui y cnd x este egal cu zero).

Panta dreptei (n engl. slope). O constant n ecuaia unei drepte, a crui valoare reprezint ct de
mult se schimb variabila dependent la o schimbare cu o unitate a variabilei independente.

Valoare observat (n engl. observed value). Valoarea nregistrat a lui y (pentru o anumit valoare
nregistrat a lui x) n urma aplicrii unui instrument de cercetare.

Adrian Dua Universitatea din Bucureti pag.27 din 28


Valoare prezis / ateptat (n engl. predicted / expected value). Valoarea calculat a lui y (pentru
o anumit valoare nregistrat a lui x) cu ajutorul modelului de regresie simpl.

Variabil dependent (n engl. dependent variable). Variabila a crei variaie trebuie explicat, ori a
crei valoare trebuie prezis n analiza de regresie.

Variabil independent (n engl. independent variable). Variabil cunoscut, inclus n analiza de


regresie pentru a explica variaia variabilei dependente.

Variaie (n engl. variation). Suma abaterilor indivizilor de la medie. Pentru msurarea ei utilizm
variana (n engl. variance) sau abaterea standard (n engl. standard deviation).

Variaia explicat - VE (n engl. regression sum of squares). Poriunea din VT explicat de modelul
de regresie. Este suma ptratelor diferenelor dintre valorile prezise a lui y i media lui y.

Variaia neexplicat - VN (n engl. error sum of squares). Poriunea din VT rmas neexplicat de
modelul de regresie. Este suma ptratelor diferenelor dintre valorile prezise i cele observate
ale lui y.

Variaia total - VT (n engl. total sum of squares). Suma ptratelor deviaiilor valorilor observate a
lui y de la media acestuia.

Adrian Dua Universitatea din Bucureti pag.28 din 28

S-ar putea să vă placă și