Documente Academic
Documente Profesional
Documente Cultură
n n n n
y i x i x i x i y i
2
a i 1 i 1 i 1 i 1
2
n n
n x i2 x i
i 1 i 1
n n n n
n x i y i x i y i x i y i n x y
b i 1 i1 i1 i1
2 n
n n xi nx
2 2
n x i2 x i
i 1
i 1 i1
n n
na b x i y i
i 1 i 1
împărţind prin n :
n n
y i b x i
a y bx
i 1 i 1
n
n n n
a x i b x i2 x i y i
i 1 i 1 i 1
pe xi cu deviaţia x i x obţinem:
n
a xi x b xi x
i 1
n
i 1
2 n
x i x yi
i 1
Cum primul termen situat în partea stângă a ecuaţiei este egal cu zero, rezultă:
n
x i x yi
x i x yi y x i x
n
i 1
n
x i x yi y
i 1 i 1
b
x x
n 2 n 2 n 2
i xi x xi x
i 1 i 1 i 1
şi în final:
n
x i x yi y
i 1
n s xy
b
i 1
n
xi x
2 s 2x
n n
y i ŷ i
i 1 i 1
În evaluarea validităţii modelului se verifică dacă variaţia lui x este un bun predictor pentru variaţia lui y.
Doi indicatori alternativi pot fi utilizaţi pentru a măsura calitatea ajustării pentru regresia statistică :
Abaterea medie pătratică (eroarea standard) a reziduurilor (măsură absolută a calităţii ajustării pe
baza regresiei în eşantion)
coeficientul de determinaţie (indicator relativ).
este necesar să analizăm componentele indicatorilor de variaţie a lui y.
În aplicarea metodei regresiei, sunt asociate variabilei dependente y două medii:
media totală ( y ) şi
media condiţionată ( ŷi a bx i ).
variaţia (abaterea) totală ( y i y ) poate fi împărţită în :
abaterea neexplicată de model ( y i ŷ i ) şi
abaterea explicată ( ŷ i y ), astfel:
y i y ( y i ŷ i ) ( ŷ i y)
Abaterea ( y i ŷ i ) nu poate fi explicată de linia de regresie, deoarece atunci când xi se modifică, ambele
valori yi şi ŷi se modifică;
abaterea ( ŷ i y ) poate fi explicată, deoarece când xi se schimbă, y rămâne constant
5
Abaterea valorilor individuale yi de la medie
Prin ridicarea la pătrat a fiecărei abateri şi însumarea pentru toate observaţiile, obţinem:
n n n
( y i y) ( y i ŷ i ) ( ŷ i y)
2 2 2
i 1 i 1 i 1
Putem nota:
n
( y i y) y = varianţa totală, suma pătratelor abaterilor totale.
2 2
i 1
n
( y i ŷ i ) e = varianţa neexplicată, suma pătratelor erorilor.
2 2
i 1
n
( ŷ i y) y / x = varianţa explicată, suma pătratelor abaterilor datorate regresiei.
2 2
i 1
i 1
2 k
s 2y / x
2y / x
n–k–1 k
y i ŷ i
n
2e 2e
2
i 1 s e2
n k 1
Totală
2y y i y
n
2 n–1
s2y
2y
i 1 n 1
Unde:
k reprezintă numărul variabilelor independente luate în consideraţie (pentru regresia liniară simplă, k =
1).
Dacă se împart varianţele la (n – 1), avem:
n
yi y
i 1
2
y i ŷ
n
i 1
2 n
ŷ i y
2
i1
n 1 n 1 n 1
relaţie care poate fi scrisă ca
y y yˆ
n n
x x
2
y
2
2
i i i
i 1
i 1
b 2 i
n 1 n 1 n 1
deoarece:
yˆ y a bx a b x
n n n
b 2 xi x
2 2 2
i i
i 1 i 1 i 1
y i ŷ i
n 2
2e i 1
se
n2 n2
unde s 2e este un estimator nedeplasat al dispersiei reziduurilor 2 .
o mărime relativă a calităţii ajustării, prin exprimarea ponderilor dispersiilor (explicată şi reziduală) în
dispersia totală este:
2y 2y / x 2e
1,00 2
2y 2y y
2y / x 2e
n
ŷ i y
i 1
2
R2 1
2y 2y y y
n 2
i
i 1
Raportul 2y / x / 2y reprezintă proporţia variaţiei totală care este explicată de linia de regresie.
R2 = 0 dacă b=0, y y , deci dacă ecuaţia de regresie este o dreaptă orizontală. În acest caz variabila x nu are
putere explicativă.
R2 = 1 dacă punctele determinate de observaţiile făcute asupra variabilelor x şi y se află toate pe o dreaptă, caz
în care erorile vor fi zero.
În cazul în care toate valorile lui y se află pe o dreaptă verticală, R2 nu are nici o semnificaţie şi nu poate fi
calculat.
Aşadar, R2 reprezintă măsura în care variabila independentă, X, explică variaţia variabilei
rezultative Y.
Coeficientul de determinaţie nu este ajustat cu gradele de libertate. Dacă utilizăm estimatorii nedeplasaţi
s 2y şi s e2 , obţinem valoarea ajustată a coeficientului de determinaţie R .
2
2 / n k 1
2
R 1 e 2
y / n 1
2
Valoarea lui R este întotdeauna mai mică decât valoarea lui R2.
Observaţii:
1. R2 poate fi interpretat ca procentul variaţiei lui y explicată de variaţia veriabilei x doar pentru cazul în care
metoda celor mai mici pătrate este aplicată modelului liniar de regresie.
2. Pentru orice model coeficientul R2 poate fi calculat ca:
2
ei
R2 1 i unde S yy ( yi y ) 2
S yy i
Exemplu
I. Estimarea parametrilor
Ecuaţiile normale pentru exemplul din primul paragraf privind consumul şi veniturile sunt:
7934,3 10a 8792,4b a 67,5806
7041953,27 8792,4a 7797822,22b b 0,979267
Deci:
C = -67,58 + 0,98 V
Interpretare:
1. La o variaţie a venitului cu o unitate monetară, consumul va varia în aceeaşi direcţie cu 0,98 unităţi
monetare.
2. Termenul liber se interpretează în general ca nivelul variabilei dependente pentru cazul în care variabila
independentă este zero. În cazul exemplificat, valoarea termenului liber este negativă, iar consumul nu poate fi
negativ, deci singura interpretare ce poate fi dată este că va avea loc a consumul de la un nivel al venitului de:
67,58/0,98=69.
Interpretare:
1. 99,17% din variaţia consumului este datorată variaţiei venitului.
2. 99,17% din variaţia consumului este explicată de modelul de regresie.
Tabelul ANOVA
Sursa variaţiei Măsura variaţiei Numărul gradelor Suma pătratelor
de libertate
Variaţia de regresie 64435,12 1 64435,12
Variaţia reziduală 537 8 67,124
Variaţia totală 64972,12 9 7219,12