Sunteți pe pagina 1din 8

Analiza modelului liniar simplu de regresie de tip clasic

Procesul de construire a modelului include următoarele etape:


1. Analiza neformală a procesului economic până la etapa de modelare propriu-zisă pentru a
stabili la care tip de modele se referă modelul.
2. Evidenţierea scopurilor de construire a modelelor.
3. Alcătuirea listei de variabilele, cu care se presupune descrierea obiectului de cercetare.
4. Determinarea tipurilor de relaţii pentru specificarea modelului.
5. Culegerea şi analiza informaţiei statistice.
6. Corectarea pe baza analizei informaţiei statistice a dependențelor, postulate la pasul 4.
7. Alegerea metodei de estimare a modelelor în baza ipotezelor presupuse despre proprietăţile
probabilistice a perturbaţiilor întâmplătoare şi caracterului informaţiei statistice.
8. Estimarea coeficienţilor structurali prin metoda aleasă şi verificarea calităţii estimaţiilor
obţinute.
9. Aplicarea modelului construit şi analiza rezultatelor obţinute.

Scopul:
1. Estimarea parametrilor modelului.
2. Proprietăţile estimatorilor obţinuţi prin M.C.M.M.P.
3. Testarea validităţii modelului ales. (Cu ajutorul testului Student şi testului Fisher).
4. Calcule de previziune pe baza modelului liniar simplu de regresie de tip clasic.

1. Estimarea parametrilor modelului.


Fie că sunt cunoscuţi factorii Y şi X. Presupunem că relaţia dintre aceste variabile este liniară:
(1) yi = + xi pentru i=1, 2, ..., n
în care yi - variabila explicată de i;
xi - variabila explicativă de i;
 ,  - parametrii modelului reali necunoscuţi pe care îi vom estima cu ajutorul
observaţiilor (xi, yi);
ui - eroarea de specificare (diferenţa dintre modelul adevărat şi modelul specificat,
această eroare este necunoscută şi va rămâne necunoscută.
n - numărul de observaţii.
Ipotezele
I1. Modelul este liniar în raport cu xi.
I2. Valorile xi sunt considerate fără erori de observare sau măsurare.
( )
I3. Variabila reziduală (ui) este normal distribuită de medie nulă E(ui)=0, i = 1, n (în medie
modelul este bine specificat).
I4. Perturbaţia este omoscedastică: E(ui2)=u2 varianţa erorilor u2 este constantă. (Variabila
reziduală este independentă de evoluţia variabilei explicative, ceea ce presupune că dispersiile
valorilor reziduale, calculate pentru diverse segmente de valori xi, nu diferă între ele).
I5. E(ui,uj)=0, dacă ij. Valorile variabilei rezidulae nu sunt autocorelate (sunt independente
între ele). Valorile consecutive ale variabilei reziduale nu depind una de alta.
I6. Cov (xi, ui)=0. Valorile variabilei reziduale sunt independente de variabila explicativă.
Pentru caracteristicele perturbaţiei evidenţiate în I3 şi I4 se foloseşte frecvent notaţia
L(Ui)=N(0, u2), adică variabila statistică ui urmează o distribuţie de probabilitate normală (sau
Gauss) cu media zero şi dispersia u2.
Aşa dar, în rezultatul observaţiilor statistice avem serii de observaţii. Problema constă în
determinarea parametrilor  şi .
Metoda Celor Mai Mici Pătrate (M.C.M.M.P.), în condiţiile verificării ipotezelor enunţate
M.C.M.M.P. asigură obţinerea de estimatori de maximă verosimilitate, respectiv, estimaţii
nedeplasate (nedistorsionate), consistente şi eficiente (cu dispersia minimă), proprietăţi
indispensabile unor aproximaţii pentru a fi acceptate în procesul de decizie sau de modelare
econometrică. Pentru estimarea parametrilor aplicăm criteriul M.C.M.M.P., care se defineşte
astfel:
n n
min  u = min  ( yi −  −   xi ) 2
2
i
 ,  ,
i =1 i =1

Condiţiile de ordinul întâi se scriu:

n n
  u /  = −2 ( yi −  −   xi ) = 0
2
i
i =1 i =1
n n
  ui2 /  = −2 ( yi −  −   xi ) = 0
i =1 i =1

Astfel, ecuaţiile normale sunt


n n

 yi = n   +  xi (1)
i =1 i =1

n n

 xi  yi =   xi +  xi2 (2)


i =1 i =1

Împărţind (1) la n şi rezolvând în raport cu  , rezultă:  = y −   x .

Substituind această ecuaţie în (2), îl putem afla pe  :


n n n

 xi  yi = ( y −   x ) xi +  xi2
i =1 i =1 i =1

1
x i  yi  xi
 yi −
 = n
1
 xi2 − n ( xi ) 2
Aşa dar, am obţinut pe  şi  , care sunt estimatorii lui  şi .
Condiţia suficientă:

2 (ui2)/2>0 , 2 (ui2)/2 2 (ui2)/ >0


2 (ui2)/ 2 (ui2)/2
este realizată.
Astfel, modelul estimat pe baza datelor statistice ale celor două variabile y şi x înregistrate în

n perioade de timp sau de n unităţi statistice este y i =  + x i + u i , iar funcţia de regresie

y i =  +   x i , unde y
 i sunt valorile teoretice ale variabilei endogene yi calculate cu ajutorul
funcţiei de regresie, iar ui = y i − y i - estimaţiile variabilei reziduale.

2) Proprietăţile estimatorilor obţinuţi prin M.C.M.M.P.


Prin operaţii simple se poate demonstra că media estimatorilor şi a variabilei reziduale ui este
egală cu:
E ( ) =  ; E ( ) =  ; E (u t ) = 0 , adică  şi  sunt estimatori nedeplasaţi ai parametrilor, iar

dispersiile estimatorilor  şi  se pot afla pe baza relaţiilor:

= Vˆ ( ˆ )
ˆ u2
 ( xi − x ) 2
i

ˆ u2 ( 1n + x2
) = Vˆ (ˆ )
 ( xi − x ) 2
i

1
iar u2 =   u i2 este un estimator nedeplasat al variaţiei variabilei ui. Covarianţa
n − 2 i =1
dintre cei doi estimatori este egală cu:

co v( , ) = −xV ( )

Matricea de estimare a varianţei şi covariaţiei ( ,  ) este următoarea:

 ˆ)
ˆ ˆ =  V̂(

ˆ) cov( 
ˆ ,

(  , )
ˆ  cov̂(
ˆ,ˆ) ˆ)  .
V̂(
 
Dacă ipotezele enunţate se verifică, atunci modelului estimat i se pot atribui o serie de
proprietăţi:
1. Media condiţionată a variabilei y în funcţie de variabila exogenă x devine E(y/x)

=  +   x i = y i
2. Dispersia condiţionată a variabilei y este:

 1 ( xi − x ) 2
 2
=  1 +
2
+ 
y / xi

u
n  ( xi − x ) 2 
3. Covarianţa cov(yi,yj)=0 pentru i , j = 1, n ; i j.
4. Legea de probabilitate condiţionată a lui y, în funcţie de variabilă exogenă x, este legea

normală de medie yi şi de abaterea medie pătratică  y2/ x : L(yi)=N(yi,  y2/ x ).


i i

3. Testarea validităţii modelului ales

În cazul când seria de date (xi,yi), (i = 1, n)  este obţinută în urma unui sondaj statistic,

validarea datelor prin teste statistice se impune în mod necesar.


Testele utilizate pentru validarea modelului liniar au la bază ipoteze pe care se fundamentează
acesta şi pe proprietatea că uiN(0, u).

3.1. Testul Student pentru independenţa variabililor.


Verificarea semnificaţiei estimatorilor funcţiei de regresie, comportă formularea a două
ipoteze:
H 0 :  = 0 - ipoteza dependenţei direct proporţionale,

H 0 :  = 0 - ipoteza dependenţei variabilelor,

 0
contra H 1 :   ipoteza dependenţei liniare specificate.
0
Pentru un n mai mic decât 30 de cazuri statistica testului pentru  şi
 respectiv este:

t calc =  /  = ,

u2 1 / n + ( x /  ( x i − x ) 2 

t calc =  /  = .
u2 / (  ( xi − x ) 2 )
Regula de decizie este următoarea:
tcalct,n-2=ttabelat, adică nivelul de referinţă preluat din tabelul repartiţiei Student pentru riscul
erorii () şi (n-2) grade de libertate. Dacă tcalc>ttab ipoteza nulă Ho este respinsă şi se acceptă ipoteza
H1 conform căreea estimaţiile  şi  diferă semnificativ de zero.
Evident, pentru tcalc<ttab ipoteza nulă, a nesemnificaţiei, este cea admisă, adică x şi y nu sunt
corelate liniar.
3.2. Testul F-Fisher-Snedecor.
Cu ajutorul acestui test are loc verificarea verosimilităţii modelului econometric.
La baza veridicităţii modelului stă principiul analizei dispersionale (varianţelor).

Deoarece avem că u i = 0 şi  y =  y
i i , de aici rezultă că şi yi = y i .
i i i

Din aceste relaţii se deduce relaţie dintre sumele de pătrate de abateri:

 (y (
− y ) =  y i − y ) +u
2 2
2
i i .
i i i
Prin împărţire la numărul observaţiilor n se obţin dispersiile empirice corespunzătoare:
 y2 =  y2 +  u2 , dispersie 2y caracterizează variaţie caracteristicii rezultative explicată. Dispersie

 y2 - variaţie valorilor teoretice faţa de medie lor. Dispersie 2u - variaţie reziduală pe seama

factorilor aleatori.
În scopul testării validităţii modelului se alcătuieşte următorul tabel al analizei de varianţă.
Sursele de Variaţie sumei patratelor Grade de Estimatiri ale dispersiei
variaţie abaterilor libertate în raport cu gradele de libertate
Explicată de VE=  ( y i − y ) 2 1  y2 =  ( y i − y ) 2 1
regresie i

Rezidiuală VR=  ( y i − y i ) 2 ˆ =  ( y i − yˆ i ) 2 (n − 2)
2
n-2 u
i i

VT=  ( y i − y ) ˆ y2 =  ( y i − y ) 2 (n − 1)
2
Total n-1
i i

Nivelul Fcalc rezultă astfel:

Fcalc =
 ( y i − y) 2  (y i − y i ) 2
.
1 n−2
Amintim că y i sunt valori ajustate, obţinute din model folosind parametrii estimaţi şi valorile
empirice xi.
Modelul este valid dacă valoarea Fcalc este superioară valorii tabelate F;2-1;n-1, respectiv, este
considerat neconcludent (incluzând parametrii nesemnificativi sau o funcţie greşit aleasă) dacă
Fcalc<F; 2-1; n-1, adică x şi y sunt independente.
O formulă alternativă pentru Fcalc, este şi cea definită pe baza coeficientului de determinaţie
R2: Fcalc = R2/(1-R2)/(n-2)
Coeficientul R este coeficientul de corelaţie multiplă, însă pentru corelaţia liniară simplă între
x şi y reprezintă coeficientul de corelaţie.

 2
R=  ( y − y ) 2 /  ( y i − y ) 2 = 1 −   ui /  ( y i − y ) 
2

 i 
i
i i i

Mărimea R se numeşte raport de corelaţie şi exprimă gradul de fidelitate a modelului faţă de


dependenţa statistică dintre y şi x, şi anume R0,1, cu cât R va avea o valoare mai apropiată de
1, cu atât veridicitatea modelului va fi mai ridicată.
Pentru determinarea măsurii legăturii liniare puternice între x şi y se calculează coeficientul
liniar de corelaţie.

 ( x  /  (x − x ) 2  ( yi − y ) 2 
2
ry , x = cov( x, y) /  x   y = i − x )  ( yi − y ) i

Mărimea lui ry/x este cuprinsă între -1 şi 1. Cu cât valoarea lui ry/x este mai mare, cu atât
legătura între variabile este mai strânsă. Pentru cazul dependenţei liniare ry,x = R . După obţinerea

lui ry/x se poate de verificat în ce măsură coeficientul de corelaţie obţinut este semnificativ cu
ajutorul următorului test:
r
t calc = .
(1 − r 2 ) / ( n − 2)
Dacă tcalc>ttabela=t/2n-2, atunci coeficientul de corelaţie semnificativ diferă de 0; în caz contrar
se acceptă ipoteza unui coeficient de corelaţie nul.
4. Efectuarea de calcule previzionale.

Se consideră că în urma analizei legăturii dintră valorile a două variabile (xi,yi), (i = 1, n) 

ˆ + ˆ x i , (i=1,n). Se pune problema determinării


s-a determinat dreapta de regresie ŷ i = 
nivelului variabilei y, descrisă prin modelul liniar, pentru un nivel al variabilei x specificat prin xp,
unde (p=n+1,n+k), prin k desemnând orizontul de previziune. Logica estimării variaţiei de
previziunii prin această metodă este următoarea:
- pentru un nivel efectiv al variabilei xp vom avea yp=+xp+up
- dacă valoarea previzională pe baza modelului estimat este

ŷp =  ˆ x , atunci se comite o eroare de previziune (ep)


ˆ + p

ep=yp- y p  ep=(-  )=(-  )xp+up

Varianţa variabilei
V(ep)=0, iar up satisface ipotezele modelului, estimatorul

V (ep) = u2 1 + 1 / n + ( x p − x ) 2 / ( nV ( x)) .


Pentru a avea o previziune cât mai veridică, trebuie ca valoarea lui

V (ep) să fie cât mai mică posibil.


Pentru a construi un interval de încredere, pentru valoarea previzională se ţine seama că
up(0,u), astfel:

( y p -yp)/(ep)N(0,1)

V (ep)= 2(ep)= 2u1+1/n+(xp- x )2/  ( xi − x ) , în plus,


2
Dar
i

( y p -y)/  (ep) urmează o distribuţie Student cu (n-2) grade de libertate.

Pentru un prag de semnificaţie  şi (n-2) grade de libertate din tabelul funcţiei de Student se
determină t(n-2); şi se obţine intervalul de încredere pentru valoarea previzionată la un nivel
xp specificat
y p -t(n-2);  (ep)  yp  ŷ p +t(n-2);  (ep)

S-ar putea să vă placă și