Sunteți pe pagina 1din 34

Verificarea validită ii mod el ului

un ifactorial de regr esie liniară

I. Testarea validită ii modelului de regresie folosind


metoda analizei de varian ă

II. Determinarea măsurii calită ii ajustării

III. Verificarea ipotezelor modelului de regresie


I. Testarea validită ii mode lului de regresie
folosind met oda analizei de var ian ă
( yi − yˆ i )
Y
yi
( yi − y)
yˆ i
y

( yˆi − y)

Abaterea valorilor individuale yi de la medie


I. Testarea validită ii mode lului de regresie
folosind met oda analizei de var ian ă

Varia ia totală:
n
SST = S y = ∑( y − y)
i
2

X i
=1

Varia ia explicată de X:
Y
Varia ia neexplicată de X:
n n
yˆi ∑ ( − y) ∑ ( y − yˆ )
2
S =
SSR y/x =
2
i =1
= = Se
SSE i i
i =1
I. Testarea validită ii mode lului de
reg res ie folosind met oda analizei de var ian
ă

Sy
Dispersia corectată totală: s 2y =
n −1
Sy/x
Dispersia corectată sistematică: s 2y / x =
k
Se
Dispersia corectată reziduală: se2 =
n − k −1

unde k este numărul variabilelor independente (k=1).


I. Testarea validită ii mode lului de
reg res ie folosind met oda analizei de var ian
ă

Ipotezele testate:

H0: s 2y / x / se2 = (influen a lui X nu este diferită de cea a factorilor


1 aleatori, deci modelul nu poate fi validat)

H1: s 2y (influen a lui X este semnificativ mai mare decât


/x 2
/ se > cea a factorilor aleatori)
1 2

Testul statistic F (Fisher): F=


s 2
y/x
=
∑ −y ) ∑
2
− yˆ i )
se
(yˆ i
k
:
( yi
2
n−k−1
Regula de decizie:
Dacă Fcalc≤ Fα ,k,n-k-1, atunci se acceptă H0 şi deci modelul nu este semnificativ
statistic;
Dacă Fcalc> Fα ,k,n-k-1, atunci se respinge H0, se acceptă H1, deci modelul este
semnificativ statistic (valid).
I. Testarea validită ii mode lului de regresie
folosind met oda analizei de var ian ă

Sursa va ria iei Varian a Grad ele de Di spers ia corectată Statistica F


(suma pătratelor) libertate (me dia pătratelor)

Datorată
regresiei
n
2 k 2 Sy
(explica tă de Sy/x = ∑ ( yˆ i − sy= 2
model) i =1 n −1 sy / x
y) F=
Reziduală
n
2 S s e2
(neexplicată de
model)
Se = ∑ ( yi − yˆi ) n-k se2 = e
n − k −1
i
=1

Totală n –
2
Sy= ∑ ( yi − y) n-1 2
Sy/
i s x y / x=
=1 k
II. Determinarea măsurii calită ii ajustării
n n

∑( ∑( )
2
yi − yˆi −2y
SSR S S yˆni )
2
Coeficientul de determinare: 2 y/x
R = = =1− e
= 1 − i =1 = i =1
n
SST Sy Sy
( ∑( )
2
∑ yi − i =1
yi − y

y
i =1
)
ia valori în intervalul [0,1] şi poate fi interpretat ca procentul varia iei lui Y
explicată de varia ia variabilei X

R2 = 0 dacă b=0, y = y , deci dacă ecua ia de regresie este o drea ptă orizontală.
În acest caz variabila X nu are putere explicativă (X nu influenteaza variatia lui Y).
R2 = 1 dacă punctele determinate de observa iile făcute asupra variabilelor X şi Y
se află toate pe o drea ptă, caz în care erorile vor fi zero.
În cazul în care toate valorile lui Y se află pe o dreaptă verticală, R2 nu are nici o
semnifica ie şi nu poate fi calculat.

Raportul de corela ie: R = R 2


Daca R→1 legatura dintre X şi Y este puternică
Daca R →0 legatura dintre X şi Y este slabă
În cazul legăturilor liniare: R rxy , unde rxy- coeficientul de corela ie în eşantion
=
II. Determinarea măsurii calită ii ajustării

Observa ii:
1. R2 poate fi interpretat ca procentul varia iei lui y explicată de varia ia
variabilei x doar pentru cazul în care metoda celor mai mici pătrate este
aplicată modelului liniar de regresie și modelul are termen liber.
2. Pentru orice model coeficientul R2 poate fi calculat ca:
2
∑ ei
2 2
R =1− i unde S yy = ∑ ( − y)
S yy
yi
i
III. Verificarea ipotezelor mode lulu i de regresie

Variabilele X şi Y nu sunt afectate de erori de măsură

Această ipoteză se poate verifica cu regula celor trei sigma , regulă


care constă în verificarea următoarelor rela ii:

x t ∈ (X ± 3σ x ) ⇔ X - 3σ x < x < X + 3σ x
y t ∈ (Y ± 3σ y ) ⇔ Y - 3σ t < Y+ 3σ y
y
< yt
Această ipoteză, referitoare la calitatea datelor înregistrate, se
consideră rezolvată în eta pa de prelucrare a datelor observate statistic
sau, cel mai târziu, în etapa de identificare a modelului.
Valorile variabilei reziduale εt nu sunt corelate

cov(ε t , ε k ) = E(ε t , ε k ) = 0 (∀) t, k = 1, n, t < n

Depistarea autocorelării erorilor se poate face utilizând


următoarele procedee:
Proc ede ul grafic
Testul Durbi n - Watson
Procedeul grafic
Testul Durbin - Watson
Se consideră modelul de regresie:
Y = a+bX + ε
et = ρe t-1 + ut

Se emit ipotezele:
H0: ρ = 0 (coeficientul de autocorelare a erorilor)
H1 : ρ ≠ 0
Se determină statistica Durbin Watson:

∑ (e
t=2
t
- et -1 )2
d= T
∈ [0,4]
∑e
t=1
2
t
Testul Durbin - Watson
d, se compară cu dL şi dU, din tabelul distribu iei Durbin - Watson
în func ie de α , convenabil ales, (α = 0,05 sau α = 0,01), de
numărul de variabile exogene, k, şi de valorile observate (n).

Regulile de decizie sunt:

0 < d < DL DL ≤ d ≤ D U DU < d< 4 - DU 4 - DU ≤ d ≤ 4- DL 4 - DL < d <4

Autocorelare Indecizie Erorile sunt Indecizie Autocorelare


pozitivă ← independente → negativă
Verificarea ipotezei de normalitate – Testul
Jarq ue Berr a

H 0: ε ∼ N (0 ,1 )
H 1: ε ∼ N(0,1)
 S2 ( K- 3)2 
JB calc =n + 
6 24

n - numărul de observa ii;


S - coeficientul de asimetrie (skewness)
K - coeficientul de aplatizare al lui Pearson (kurtosis)
Dacă ε~ N(0,1), S = 0, K= 3
Regulile de decizie:

JBcalc ≤ χ 2tab(α;2) se acceptă H0, deci erorile sunt normal distribuite

JB calc > χ 2tab (α ;2 se acceptă H1, deci se respinge ipoteza de


)
normalitate a erorilor
S-coeficientul de asimetr ie (skewness )

este o măsură a asimetriei distribu iei


H0 : distribu ia este normală (simetrică) S=0 şi H1: distributia este
asimetrică la dreapta/stânga (S>0/S<0)
E( X − m)3  6
S= ∼ N 0, m = E( X σ ( X ) V(X)
3
σ (X)  n ), =
 
S−0
sub ipoteza nulă H0: S = 0 rezultă τ1 = → N (0,1)
6
n
daca τ 1 > z0.025= 1,96 atunci H0 este respinsa la un prag de
semnificatie de 5% si deci distributia este asimetrică la drepta
daca τ 1 < - z0.025 = -1,96 atunci H0 este respinsa la un prag de
semnificatie de 5% si deci distributia este asimetrică la stânga
K-coeficientul de aplatizare/boltire (kurtosis)

este o măsură a înăl imii distribu iei


H0 : distribu ia este normală K=3 şi H1: distribu ia este leptokurtică /
platikurtică (K>3/K<3)
E ( X − m) 4  24 
K= 4 ∼ N 3, m = E( X σ ( X ) V(X)
σ (X)  n  ), =
 
τ K−3
sub ipoteza nula H0: K = 3 rezultă 2 → N (0,1)
= 24
n

dacă τ 2 > z0.025=1,9 6 atunci H0 este respinsă la un prag de


semnifica ie de 5% şi deci distribu ia este leptokurtică
dacă τ 2< - z0.025 = -1,96 atunci H0 este respinsă la un prag de
semnifica ie de 5% şi deci distribu ia este platikurtică
CE ESTE REGRESIA?

Regresia este o metodă statistică pentru studiul relaţiei între o variabilă


depe ndentă şi una sau mai multe variabile independente

Funcţia
Efect
Cauze
Variabile f Variabila
independente dependentă
f(x1,x2,...,xn)=Y
REGRESIA – Când şi cum o utilizăm?

Regresia se foloseşte pentru:


a deter min a o relaţie cauzală
a testa o relaţie cauzală
a prev iziona o variabilă dependentă în funcţie de una sau mai multe
variabile independente
a explica efectul în funcţie de cauze

Regre sia simpl a liniară descrie rela ia liniară dintre o variabilă


cauză, reprezentată pe axa ox și o variabilă efect reprezentată pe
axa oy
Tipuri de corela+ie

Corela ie pozitivă Corela ie negativă Nu există corela ie


Sp ecificarea unui model de regresie

Model ul liniar ge ner al de regre sie unifactorială:


y=α +β ·x + ε

Componenta predictibilă Variabila/eroarea aleatoare

Parametrul β arată modificarea proporţională a variabilei efect (Y) la


modificarea(în medie) cu o unitate a variabilei cauză (X).

Parametrul α arată punctul în care linia interceptează (taie) axa OY

ε i reprezintă componenta reziduală (eroarea aleatoare)


pent ru fiecare unitate, adică partea din valoarea variabilei Y care nu
poate fi măsurată prin relaţia sistematică existentă cu variabila X.
Sp ecificarea unui model de regresie

0,5 ε
Y

Y
1.0
ε
1

X
X
Modelul liniar unifactorial y=1+0,5x
Sp ecificarea unui model de regresie

Se efectuează o selecţie de volum n : (xi,yi)i=1...n


Pe baza acestei selecţii se estimează parametrii ecuaţiei de regresie
liniară simplă, α şi β .

Modelul de regresie liniară observat este:


yi = a + bxi + ei

cu componenta predictibilă: yˆ = a + bx i
i
a este estimatorul punctului de intercepţie (α ) obţinut pe baza datelor din eşantion
b este estimatorul pantei liniei drepte (β ) obţinut pe baza datelor din eşantion
ei este valoarea reziduală (pentru unitatea i) în eşantion:
ei = yi – (a + bxi)
Estimarea parametrilor mod elul ui de
regr esie clasic

Metoda celo r mai mic i pătrate:


Pentru estimarea parametrilor α şi β pe baza datelor observate, un
criteriu natural este cel de maximizare a potrivirii modelului cu datele
observate, deci de minimizare a erorilor observate:

min ∑ ei 2 = min∑ ( yi − a − bx i) 2
i i