Sunteți pe pagina 1din 6

MODELUL DE REGRESIE CLASIC (II)

Evaluarea validitii modelului de regresie clasic


Estimatorii a (intercepia) i b (panta) ai parametrilor i sunt dai de :
2
n
1 i
i
n
1 i
2
i
n
1 i
i i
n
1 i
i
n
1 i
2
i
n
1 i
i
x x n
y x x x y
a

,
_

,
_


,
_


,
_

,
_

,
_



n
1 i
2 2
i
n
1 i
i i
n
1 i
2
n
1 i
i
2
i
n
1 i
i
n
1 i
i
n
1 i
i i
x n x
y x n y x
x x n
y x y x n
b
Se observ c obinem din ecuaia:

+

n
1 i
i
n
1 i
i
y x b na
mprind prin n :
n
x b y
x b y a
n
1 i
i
n
1 i
i

,
_




i, nlocuind n ecuaia :
+

n
1 i
i i
n
1 i
2
i
n
1 i
i
y x x b x a
pe x
i
cu deviaia ( ) x x
i
obinem:
( ) ( ) ( )
i
n
1 i
i
n
1 i
2
i
n
1 i
i
y x x x x b x x a



Cum primul termen situat n partea stng a ecuaiei este egal cu zero, rezult:
( )
( )
( ) ( )
( )
( )( )
( )

n
1 i
2
i
n
1 i
i i
n
1 i
2
i
n
1 i
i i i
n
1 i
2
i
n
1 i
i i
x x
y y x x
x x
x x y y x x
x x
y x x
b
i n final:
( )( )
( )
2
x
xy
n
1 i
2
i
i
n
1 i
i
s
s
n
x x
n
y y x x
b

Estimatorul a (intercepia) poate lua valori negative sau positive.


Estimatorul b (panta liniei drepte) numit i coeficient de regresie are ntotdeauna semnul indicatorului
s
xy
,
s
xy
este covariana ntre x i y.
Linii de regresie cu a) pant pozitiv b) pant negativ c) pant egal cu zero


n
1 i
i
n
1 i
i
y y
4
n evaluarea validitii modelului se verific dac variaia lui x este un bun predictor pentru variaia lui y.
Doi indicatori alternativi pot fi utilizai pentru a msura calitatea ajustrii pentru regresia statistic :
Abaterea medie ptratic (eroarea standard) a reziduurilor (msur absolut a calitii ajustrii pe
baza regresiei n eantion)
coeficientul de determinaie (indicator relativ).
este necesar s analizm componentele indicatorilor de variaie a lui y.
n aplicarea metodei regresiei, sunt asociate variabilei dependente y dou medii:
media total (
y
) i
media condiionat (
i i
bx a y +
).
variaia (abaterea) total ( y y
i
) poate fi mprit n :
abaterea neexplicat de model (
i i
y y
) i
abaterea explicat ( y y
i
), astfel:
) y y ( ) y y ( y y
i i i i
+
Abaterea (
i i
y y
) nu poate fi explicat de linia de regresie, deoarece atunci cnd x
i
se modific, ambele
valori y
i
i
i
y
se modific;
abaterea ( y y
i
) poate fi explicat, deoarece cnd x
i
se schimb,
y
rmne constant
5
Abaterea valorilor individuale yi de la medie
6
Prin ridicarea la ptrat a fiecrei abateri i nsumarea pentru toate observaiile, obinem:
+

n
1 i
n
1 i
2
i
2
i i
n
1 i
2
i
) y y ( ) y y ( ) y y (
Putem nota:

n
1 i
2
y
2
i
) y y ( = variana total, suma ptratelor abaterilor totale.

n
1 i
2
e
2
i i
) y y ( = variana neexplicat, suma ptratelor erorilor.

n
1 i
2
x / y
2
i
) y y ( = variana explicat, suma ptratelor abaterilor datorate regresiei.
Vom avea, atunci:
2
e
2
x / y
2
y
+
se mai noteaz:
Variaia variabilei dependente y este definit n termeni de deviaie de la valoarea ei medie:

i
i
y y SST
2
) (
+ + + + +

i i i i i i i
e bx x b y e bx a e y y
+
i i i
e x x b y y ) (
+ +
i
i i
i
i
i
i
i
i
x x e b e x x b y y ) ( 2 ) ( ) (
2 2 2 2
Deci: SST = SSR + SSE
Variaia total = Variaia de regresie + Variaia rezidual
putem calcula i discuta cei doi indicatori ai calitii ajustrii astfel :
tabelul ANOVA este
Tabelul ANOVA
pentru testarea calitii ajustrii
Sursa variaiei Suma ptratelor Grade de libertate Media ptratelor
(dispersia corectat)
0 1 2 3
Datorat regresiei
Rezidual
( )

n
1 i
2
i
2
x / y
y y
( )

n
1 i
2
i i
2
e
y y
k
n k 1
k
s
2
x / y
2
x / y

1 k n
s
2
e 2
e

Total
( )

n
1 i
2
i
2
y
y y
n 1
1 n
s
2
y
2
y

Unde:
k reprezint numrul variabilelor independente luate n consideraie (pentru regresia liniar simpl, k =
1).
Dac se mpart varianele la (n 1), avem:
( ) ( ) ( )
1 n
y y
1 n
y y
1 n
y y
n
1 i
2
i
n
1 i
2
i
n
1 i
2
i



relaie care poate fi scris ca
( ) ( )
( )
1 1

1
2
2 1
2
1
2



n
x x
b
n
y y
n
y y
i
n
i
i i
n
i
i
deoarece:
( ) ( ) ( )


+
n
i
n
i
i i
n
i
i
x x b x b a bx a y y
1 1
2
2
2
1
2

abaterea medie ptratic a erorilor n eantion este:


( )
2 n
y y
2 n
s
n
1 i
2
i i
2
e
e


unde
2
e
s este un estimator nedeplasat al dispersiei reziduurilor
2

.
o mrime relativ a calitii ajustrii, prin exprimarea ponderilor dispersiilor (explicat i rezidual) n
dispersia total este:
2
y
2
e
2
y
2
x / y
2
y
2
y
00 , 1

Coeficientul de determinaie este:


( )
( )

n
1 i
2
i
n
1 i
2
i
2
y
2
e
2
y
2
x / y
2
y y
y y
1 R
Raportul
2
y
2
x / y
/
reprezint proporia variaiei total care este explicat de linia de regresie.
Sau se poate scrie
Coeficientul de determinare ca proporia variaiei explicat de modelul de regresie n variaia total:
[ ] 1 , 0
2

SST
SSR
R
R
2
= 0 dac b=0,
y y

, deci dac ecuaia de regresie este o dreapt orizontal. n acest caz variabila x nu are
putere explicativ.
R
2
= 1 dac punctele determinate de observaiile fcute asupra variabilelor x i y se afl toate pe o dreapt, caz
n care erorile vor fi zero.
n cazul n care toate valorile lui y se afl pe o dreapt vertical, R
2
nu are nici o semnificaie i nu poate fi
calculat.
Aadar, R
2
reprezint msura n care variabila independent, X, explic variaia variabilei
rezultative Y.
Coeficientul de determinaie nu este ajustat cu gradele de libertate. Dac utilizm estimatorii nedeplasai
2
y
s
i
2
e
s , obinem valoarea ajustat a coeficientului de determinaie

,
_

2
R
.
1 n /
1 k n /
1 R
2
y
2
e
2



Valoarea lui
2
R
este ntotdeauna mai mic dect valoarea lui R
2
.
Observaii:
1. R
2
poate fi interpretat ca procentul variaiei lui y explicat de variaia veriabilei x doar pentru cazul n care
metoda celor mai mici ptrate este aplicat modelului liniar de regresie.
2. Pentru orice model coeficientul R
2
poate fi calculat ca:
yy
i
i
S
e
R


2
2
1
unde

i
i yy
y y S
2
) (
Exemplu
I. Estimarea parametrilor
Ecuaiile normale pentru exemplul din primul paragraf privind consumul i veniturile sunt:

'

'

+
+
979267 , 0
5806 , 67
22 , 7797822 4 , 8792 27 , 7041953
4 , 8792 10 3 , 7934
b
a
b a
b a
Deci:
C = -67,58 + 0,98 V
Interpretare:
1. La o variaie a venitului cu o unitate monetar, consumul va varia n aceeai direcie cu 0,98 uniti
monetare.
2. Termenul liber se interpreteaz n general ca nivelul variabilei dependente pentru cazul n care variabila
independent este zero. n cazul exemplificat, valoarea termenului liber este negativ, iar consumul nu poate fi
negativ, deci singura interpretare ce poate fi dat este c va avea loc a consumul de la un nivel al venitului de:
67,58/0,98=69.
II. Determinarea coeficientului de determinare
Pentru exemplul anterior se mai cunosc:
24 , 879 x ; 43 , 793 C
S
cc
=64972,12; S
xx
=67192,44; S
xc
=65799,34
SST = S
cc
= 64972,12
SSR = b
2
S
xx
= 0,979267*67192,44 = 64435,12
SSE = SST-SSR = 64972,12 - 64435,12 = 537
Deci: R
2
= SSR/SST = 64435,13/64972,12 = 0,99173
Interpretare:
1. 99,17% din variaia consumului este datorat variaiei venitului.
2. 99,17% din variaia consumului este explicat de modelul de regresie.
III. Testarea coeficientului de determinare
Tabelul ANOVA
Sursa variaiei Msura variaiei Numrul gradelor
de libertate
Suma ptratelor
Variaia de regresie 64435,12 1 64435,12
Variaia rezidual 537 8 67,124
Variaia total 64972,12 9 7219,12
F
calc
= 64435,12/67,124 = 959,94
F
0,95;1,8
= 5,32
F
calc
> F
0,95;1,8
deci R
2
este reprezentativ.