Sunteți pe pagina 1din 6

MODELUL DE REGRESIE CLASIC (II)

Evaluarea validităţii modelului de regresie clasic

Estimatorii a (intercepţia) şi b (panta) ai parametrilor  şi  sunt daţi de :

n n  n  n 
 y i  x i    x i   x i y i 
2

a  i 1 i 1  i 1  i 1 
2
n  n 
n  x i2    x i 
i 1  i 1 

n  n  n  n
n  x i y i    x i   y i   x i y i  n x  y
b  i 1  i1  i1   i1
2 n
n n   xi  nx
2 2
n  x i2    x i 
i 1
i 1  i1 

Se observă că obţinem din ecuaţia:

n n
na  b  x i   y i
i 1 i 1
împărţind prin n :

n n 
 y i  b  x i 
a  y  bx 
i 1  i 1 
n

şi, înlocuind în ecuaţia :

n n n
a  x i  b  x i2   x i y i
i 1 i 1 i 1


pe xi cu deviaţia x i  x obţinem: 
n

a  xi  x  b xi  x
i 1
 n

i 1
 
2 n

  x i  x yi
i 1

Cum primul termen situat în partea stângă a ecuaţiei este egal cu zero, rezultă:

n

 x i  x yi   
 x i  x yi  y x i  x
n

i 1
  n

 x i  x yi  y  
i 1 i 1
b  
 x  x    
n 2 n 2 n 2
i  xi  x  xi  x
i 1 i 1 i 1
şi în final:
n

 x i  x yi  y
i 1
 
n s xy
b 

i 1
n

 xi  x 
2 s 2x

Estimatorul a (intercepţia) poate lua valori negative sau positive.


Estimatorul b (panta liniei drepte) numit şi coeficient de regresie are întotdeauna semnul indicatorului
sxy,
sxy este covarianţa între x şi y.

Linii de regresie cu a) pantă pozitivă b) pantă negativă c) pantă egală cu zero

n n
 y i   ŷ i
i 1 i 1

În evaluarea validităţii modelului se verifică dacă variaţia lui x este un bun predictor pentru variaţia lui y.
Doi indicatori alternativi pot fi utilizaţi pentru a măsura calitatea ajustării pentru regresia statistică :
Abaterea medie pătratică (eroarea standard) a reziduurilor (măsură absolută a calităţii ajustării pe
baza regresiei în eşantion)
coeficientul de determinaţie (indicator relativ).
este necesar să analizăm componentele indicatorilor de variaţie a lui y.
În aplicarea metodei regresiei, sunt asociate variabilei dependente y două medii:
media totală ( y ) şi
media condiţionată ( ŷi  a  bx i ).
variaţia (abaterea) totală ( y i  y ) poate fi împărţită în :
abaterea neexplicată de model ( y i  ŷ i ) şi
abaterea explicată ( ŷ i  y ), astfel:

y i  y  ( y i  ŷ i )  ( ŷ i  y)

Abaterea ( y i  ŷ i ) nu poate fi explicată de linia de regresie, deoarece atunci când xi se modifică, ambele
valori yi şi ŷi se modifică;
abaterea ( ŷ i  y ) poate fi explicată, deoarece când xi se schimbă, y rămâne constant

5
Abaterea valorilor individuale yi de la medie

Prin ridicarea la pătrat a fiecărei abateri şi însumarea pentru toate observaţiile, obţinem:

n n n
 ( y i  y)   ( y i  ŷ i )   ( ŷ i  y)
2 2 2
i 1 i 1 i 1

Putem nota:

n
 ( y i  y)   y = varianţa totală, suma pătratelor abaterilor totale.
2 2
i 1
n
 ( y i  ŷ i )   e = varianţa neexplicată, suma pătratelor erorilor.
2 2
i 1
n
 ( ŷ i  y)   y / x = varianţa explicată, suma pătratelor abaterilor datorate regresiei.
2 2
i 1

Vom avea, atunci:

2y  2y / x  2e


se mai notează:

Variaţia variabilei dependente y este definită în termeni de deviaţie de la valoarea ei medie:


SST   ( yi  y ) 2
i

yi  y i  ei  a  bxi  ei  y  b x  bxi  ei 
yi  y  b( x  xi )  ei 
2 2 2 2
 ( yi  y )  b  ( xi  x)   ei  2b ei ( xi  x)
i i i i

Deci: SST = SSR + SSE

Variaţia totală = Variaţia de regresie + Variaţia reziduală

putem calcula şi discuta cei doi indicatori ai calităţii ajustării astfel :

tabelul ANOVA este


Tabelul ANOVA
pentru testarea calităţii ajustării
Sursa variaţiei Suma pătratelor Grade de libertate Media pătratelor
(dispersia corectată)
0 1 2 3
Datorată regresiei
Reziduală 2y / x   ŷ i  y
n

i 1
  2 k
s 2y / x 
2y / x
n–k–1 k
  y i  ŷ i 
n
2e 2e
2
i 1 s e2 
n  k 1
Totală
2y   y i  y
n
  2 n–1
s2y 
2y
i 1 n 1

Unde:
k reprezintă numărul variabilelor independente luate în consideraţie (pentru regresia liniară simplă, k =
1).
Dacă se împart varianţele la (n – 1), avem:
n
 yi  y
i 1
 2
 y i  ŷ 
n

i 1
2 n

 ŷ i  y 
2

  i1
n 1 n 1 n 1
relaţie care poate fi scrisă ca

 y    y  yˆ 
n n

 x  x 
2
y
2
2
i i i
i 1
 i 1
b 2 i

n 1 n 1 n 1
deoarece:

 yˆ  y    a  bx  a  b x   
n n n
 b 2  xi  x
2 2 2
i i
i 1 i 1 i 1

abaterea medie pătratică a erorilor în eşantion este:

 y i  ŷ i 
n 2
2e i 1
se  
n2 n2
unde s 2e este un estimator nedeplasat al dispersiei reziduurilor  2 .

o mărime relativă a calităţii ajustării, prin exprimarea ponderilor dispersiilor (explicată şi reziduală) în
dispersia totală este:
2y 2y / x 2e
 1,00   2
2y 2y y

Coeficientul de determinaţie este:

2y / x 2e
 n
 ŷ i  y
i 1
 2

R2   1 
2y 2y  y  y
n 2
i
i 1

Raportul 2y / x / 2y reprezintă proporţia variaţiei totală care este explicată de linia de regresie.

Sau se poate scrie


Coeficientul de determinare ca proporţia variaţiei explicată de modelul de regresie în variaţia totală:
 0,1
SSR
R2 
SST


R2 = 0 dacă b=0, y  y , deci dacă ecuaţia de regresie este o dreaptă orizontală. În acest caz variabila x nu are
putere explicativă.
R2 = 1 dacă punctele determinate de observaţiile făcute asupra variabilelor x şi y se află toate pe o dreaptă, caz
în care erorile vor fi zero.
În cazul în care toate valorile lui y se află pe o dreaptă verticală, R2 nu are nici o semnificaţie şi nu poate fi
calculat.
Aşadar, R2 reprezintă măsura în care variabila independentă, X, explică variaţia variabilei
rezultative Y.
Coeficientul de determinaţie nu este ajustat cu gradele de libertate. Dacă utilizăm estimatorii nedeplasaţi
s 2y şi s e2 , obţinem valoarea ajustată a coeficientului de determinaţie  R  .
2

 
2  / n  k 1
2
R  1 e 2
 y / n 1
2
Valoarea lui R este întotdeauna mai mică decât valoarea lui R2.

Observaţii:
1. R2 poate fi interpretat ca procentul variaţiei lui y explicată de variaţia veriabilei x doar pentru cazul în care
metoda celor mai mici pătrate este aplicată modelului liniar de regresie.
2. Pentru orice model coeficientul R2 poate fi calculat ca:
2
 ei
R2  1 i unde S yy   ( yi  y ) 2
S yy i
Exemplu
I. Estimarea parametrilor
Ecuaţiile normale pentru exemplul din primul paragraf privind consumul şi veniturile sunt:
7934,3  10a  8792,4b a  67,5806
 
7041953,27  8792,4a  7797822,22b b  0,979267

Deci:
C = -67,58 + 0,98 V

Interpretare:
1. La o variaţie a venitului cu o unitate monetară, consumul va varia în aceeaşi direcţie cu 0,98 unităţi
monetare.
2. Termenul liber se interpretează în general ca nivelul variabilei dependente pentru cazul în care variabila
independentă este zero. În cazul exemplificat, valoarea termenului liber este negativă, iar consumul nu poate fi
negativ, deci singura interpretare ce poate fi dată este că va avea loc a consumul de la un nivel al venitului de:
67,58/0,98=69.

II. Determinarea coeficientului de determinare


Pentru exemplul anterior se mai cunosc:
C  793,43; x  879,24
Scc=64972,12; Sxx=67192,44; Sxc=65799,34

SST = Scc = 64972,12


SSR = b2Sxx = 0,979267*67192,44 = 64435,12
SSE = SST-SSR = 64972,12 - 64435,12 = 537

Deci: R2 = SSR/SST = 64435,13/64972,12 = 0,99173

Interpretare:
1. 99,17% din variaţia consumului este datorată variaţiei venitului.
2. 99,17% din variaţia consumului este explicată de modelul de regresie.

III. Testarea coeficientului de determinare

Tabelul ANOVA
Sursa variaţiei Măsura variaţiei Numărul gradelor Suma pătratelor
de libertate
Variaţia de regresie 64435,12 1 64435,12
Variaţia reziduală 537 8 67,124
Variaţia totală 64972,12 9 7219,12

Fcalc = 64435,12/67,124 = 959,94


F0,95;1,8 = 5,32
Fcalc  F0,95;1,8 deci R2 este reprezentativ.