Sunteți pe pagina 1din 18

MODELUL DE REGRESIE CLASIC

(II)
Verificarea validităţii modelului
unifactorial de regresie liniară

 I. Testarea validităţii modelului de regresie folosind


metoda analizei de varianţă

 II. Determinarea măsurii calităţii ajustării

 III. Verificarea ipotezelor modelului de regresie


I. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă
( yi − yˆi )
Y
yi
( yi − y ) ŷi
y

( yˆi − y )

Abaterea valorilor individuale yi de la medie


I. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă

Variaţia totală:
n
SST = S y = ∑ ( yi − y ) 2

X i =1

Variaţia explicată de X:
Y
Variaţia neexplicată de X:
n n
SSR = S y / x = ∑ ( yˆi − y )2 SSE = Se = ∑ ( yi − yˆi ) 2
i =1 i =1
I. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă

Sy
 Dispersia corectată totală: s 2y =
n −1
Sy/ x
 Dispersia corectată sistematică: s 2y / x =
k
Se
 Dispersia corectată reziduală: se2 =
n − k −1

unde k este numărul variabilelor independente (k=1).


I. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă

 Ipotezele testate:

 H0: s 2y / x / se2 = 1 (influenţa lui X nu este diferită de cea a factorilor


aleatori, deci modelul nu poate fi validat)

 H1: s 2y / x / se2 > 1 (influenţa lui X este semnificativ mai mare decât
cea a factorilor aleatori)

 Testul statistic F (Fisher): F=


s 2
y/x
=
∑ ( yˆ i −y ) : ∑ (y
2
i − yˆ i )
2

se2 k n − k −1
 Regula de decizie:
 Dacă Fcalc≤ Fα ,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este semnificativ
statistic;
 Dacă Fcalc> Fα ,k,n-k-1, atunci se respinge H0, se acceptă H1, deci modelul este
semnificativ statistic (valid).
I. Testarea validităţii modelului de regresie
folosind metoda analizei de varianţă

Sursa variaţiei Varianţa Gradele de Dispersia corectată Statistica F


(suma pătratelor) libertate (media pătratelor)

Datorată n Sy
S y / x = ∑ ( yˆ i − y )
regresiei 2 k 2
(explicată de sy =
model) i =1 n −1 s 2y / x
F=
Reziduală n Se se2
(neexplicată de S e = ∑ ( yi − yˆ i ) 2 n-k se2 =
model) n − k −1
i =1

Totală n –
Sy/ x
S y = ∑ ( yi − y ) 2
n-1 s 2y / x =
i =1 k
II. Determinarea măsurii calităţii ajustării
n n 2
∑ ( yi − yˆi ) ∑ ( yˆ − y )
2
i
SSR S y / x S
 Coeficientul de determinare: R2 =
SST
=
Sy
= 1− e = 1−
Sy
i =1
n 2
= i =1
n 2
∑( y − y)
i =1
i ∑( y − y)
i =1
i

 ia valori în intervalul [0,1] şi poate fi interpretat ca procentul variaţiei lui Y


explicată de variaţia variabilei X

 R2 = 0 dacă b=0, y = y , deci dacă ecuaţia de regresie este o dreaptă orizontală.
În acest caz variabila X nu are putere explicativă (X nu influenteaza variatia lui Y).
 R2 = 1 dacă punctele determinate de observaţiile făcute asupra variabilelor X şi Y
se află toate pe o dreaptă, caz în care erorile vor fi zero.
 În cazul în care toate valorile lui Y se află pe o dreaptă verticală, R2 nu are nici o
semnificaţie şi nu poate fi calculat.

 Raportul de corelaţie: R = R 2
 Daca R→1 legatura dintre X şi Y este puternică
 Daca R →0 legatura dintre X şi Y este slabă
 În cazul legăturilor liniare: R = rxy , unde rxy- coeficientul de corelaţie în eşantion
II. Determinarea măsurii calităţii ajustării

 Observaţii:
 1. R2 poate fi interpretat ca procentul variaţiei lui y explicată de variaţia
variabilei x doar pentru cazul în care metoda celor mai mici pătrate este
aplicată modelului liniar de regresie și modelul are termen liber.
 2. Pentru orice model coeficientul R2 poate fi calculat ca:
2
∑ ei
R2 = 1− i unde S yy = ∑ ( yi − y ) 2
S yy i
III. Verificarea ipotezelor modelului de regresie

Variabilele X şi Y nu sunt afectate de erori de măsură

 Această ipoteză se poate verifica cu regula celor trei sigma , regulă


care constă în verificarea următoarelor relaţii:

x t ∈ (X ± 3σ x ) ⇔ X - 3σ x < x t < X + 3σ x
y t ∈ (Y ± 3σ y ) ⇔ Y - 3σ y < y t < Y+ 3σ y
 Această ipoteză, referitoare la calitatea datelor înregistrate, se
consideră rezolvată în etapa de prelucrare a datelor observate statistic
sau, cel mai târziu, în etapa de identificare a modelului.
Valorile variabilei reziduale εt nu sunt corelate

cov(ε t , ε k ) = E(ε t , ε k ) = 0 (∀) t, k = 1, n, t < n

 Depistarea autocorelării erorilor se poate face utilizând


următoarele procedee:
 Procedeul grafic

 Testul Durbin - Watson


Procedeul grafic
Testul Durbin - Watson
Se consideră modelul de regresie:
Y = a+bX + ε
et = ρe t-1 + ut

Se emit ipotezele:
H0: ρ = 0 (coeficientul de autocorelare a erorilor)
H1: ρ ≠ 0
Se determină statistica Durbin Watson:

∑ ( et
2
- e t -1 )
t=2
d= T
∈ [0,4]
∑e
t=1
2
t
Testul Durbin - Watson
 d, se compară cu dL şi dU, din tabelul distribuţiei Durbin - Watson
în funcţie de α , convenabil ales, (α = 0,05 sau α = 0,01), de
numărul de variabile exogene, k, şi de valorile observate (n).

Regulile de decizie sunt:

0 < d < DL DL ≤ d ≤ DU DU < d< 4 - DU 4 - DU ≤ d ≤ 4- DL 4 - DL < d <4

Autocorelare Indecizie Erorile sunt Indecizie Autocorelare


pozitivă ← independente → negativă
Verificarea ipotezei de normalitate – Testul
Jarque Berra

H0: ε ∼ N (0,1)
H1: ε ∼ N(0,1)
 S2 ( K- 3)2 
JB calc =n + 
 6 24 

n - numărul de observaţii;
S - coeficientul de asimetrie (skewness)
K - coeficientul de aplatizare al lui Pearson (kurtosis)
Dacă ε~N(0,1), S = 0, K= 3
Regulile de decizie:

JBcalc ≤ χ 2tab(α;2) se acceptă H0, deci erorile sunt normal distribuite

JB calc > χ 2tab(α;2)


se acceptă H1, deci se respinge ipoteza de
normalitate a erorilor
S-coeficientul de asimetrie (skewness)

 este o măsură a asimetriei distribuţiei


 H0 : distribuţia este normală (simetrică) S=0 şi H1: distributia este
asimetrică la dreapta/stânga (S>0/S<0)
E ( X − m) 3  6
S= 3
∼ N  0,  m = E ( X ), σ ( X ) = V ( X )
σ (X )  n 
S −0
 sub ipoteza nulă H0: S = 0 rezultă τ1 = → N (0,1)
6
n
 daca τ 1 > z0.025= 1,96 atunci H0 este respinsa la un prag de
semnificatie de 5% si deci distributia este asimetrică la drepta
 daca τ 1 < - z0.025= -1,96 atunci H0 este respinsa la un prag de
semnificatie de 5% si deci distributia este asimetrică la stânga
K-coeficientul de aplatizare/boltire (kurtosis)

 este o măsură a înălţimii distribuţiei


 H0 : distribuţia este normală K=3 şi H1: distribuţia este leptokurtică /
platikurtică (K>3/K<3)
E ( X − m) 4  24 
K= ∼ N  3,  m = E ( X ), σ ( X ) = V ( X )
σ 4(X )  n 
K −3
 sub ipoteza nula H0: K = 3 rezultă τ2 = → N (0,1)
24
n

 dacă τ 2 > z0.025=1,96 atunci H0 este respinsă la un prag de


semnificaţie de 5% şi deci distribuţia este leptokurtică
 dacă τ 2< - z0.025= -1,96 atunci H0 este respinsă la un prag de
semnificaţie de 5% şi deci distribuţia este platikurtică

S-ar putea să vă placă și