Modelul Simplu Regresie

Analiza modelului liniar simplu de regresie de tip clasic
Procesul de construire a modelului include următoarele etape:

1. Analiza neformală a procesului economic până la etapa de modelare propriu-zisă pentru
a stabili la care tip de modele se referă modelul.
2. Evidenţierea scopurilor de construire a modelelor.
3. Alcătuirea listei de variabilele, cu care se presupune descrierea obiectului de cercetare.
4. Determinarea tipurilor de relaţii pentru specificarea modelului.
5. Culegerea şi analiza informaţiei statistice.
6. Corectarea pe baza analizei informaţiei statistice a dependențelor, postulate la pasul 4.
7. Alegerea metodei de estimare a modelelor în baza ipotezelor presupuse despre
proprietăţile probabilistice a perturbaţiilor întâmplătoare şi caracterului informaţiei statistice.
8. Estimarea coeficienţilor structurali prin metoda aleasă şi verificarea calităţii estimaţiilor
obţinute.
9. Aplicarea modelului construit şi analiza rezultatelor obţinute.
Scopul:
1. Estimarea parametrilor modelului.
2. Proprietăţile estimatorilor obţinuţi prin M.C.M.M.P.
3. Testarea validităţii modelului ales. (Cu ajutorul testului Student şi testului Fisher).
4. Calcule de previziune pe baza modelului liniar simplu de regresie de tip clasic.
1. Estimarea parametrilor modelului.

Fie că sunt cunoscuţi factorii Y şi X. Presupunem că relaţia dintre aceste variabile este
liniară:
(1) yi = + xi pentru i=1, 2, ..., n
în care yi - variabila explicată de i;
xi - variabila explicativă de i;
 ,  - parametrii modelului reali necunoscuţi pe care îi vom estima cu ajutorul
observaţiilor (xi, yi);
ui - eroarea de specificare (diferenţa dintre modelul adevărat şi modelul specificat,
această eroare este necunoscută şi va rămâne necunoscută.
n - numărul de observaţii.
Ipotezele
I1. Modelul este liniar în raport cu xi.
I2. Valorile xi sunt considerate fără erori de observare sau măsurare.

I3. Variabila reziduală (ui) este normal distribuită de medie nulă E(ui)=0, i  1, n (în 
medie modelul este bine specificat).
I4. Perturbaţia este omoscedastică: E(ui2)=u2 varianţa erorilor u2 este constantă.
(Variabila reziduală este independentă de evoluţia variabilei explicative, ceea ce presupune că
dispersiile valorilor reziduale, calculate pentru diverse segmente de valori xi, nu diferă între
ele).
I5. E(ui,uj)=0, dacă ij. Valorile variabilei rezidulae nu sunt autocorelate (sunt
independente între ele). Valorile consecutive ale variabilei reziduale nu depind una de alta.
I6. Cov (xi, ui)=0. Valorile variabilei reziduale sunt independente de variabila explicativă.
Pentru caracteristicele perturbaţiei evidenţiate în I3 şi I4 se foloseşte frecvent notaţia
L(Ui)=N(0, u2), adică variabila statistică ui urmează o distribuţie de probabilitate normală
(sau Gauss) cu media zero şi dispersia u2.
Aşa dar, în rezultatul observaţiilor statistice avem serii de observaţii. Problema constă în
determinarea parametrilor  şi .
Metoda Celor Mai Mici Pătrate (M.C.M.M.P.), în condiţiile verificării ipotezelor enunţate
M.C.M.M.P. asigură obţinerea de estimatori de maximă verosimilitate, respectiv, estimaţii
nedeplasate (nedistorsionate), consistente şi eficiente (cu dispersia minimă), proprietăţi
indispensabile unor aproximaţii pentru a fi acceptate în procesul de decizie sau de modelare
econometrică. Pentru estimarea parametrilor aplicăm criteriul M.C.M.M.P., care se defineşte
astfel:
n n
min  u  min  ( yi      xi ) 2
2
i
 ,  ,
i 1 i 1
Condiţiile de ordinul întâi se scriu:
n n
  u /   2  yi      xi   0
2
i
i 1 i 1
n n
  u /   2  yi      xi   0
2
i
i 1 i 1
Astfel, ecuaţiile normale sunt
2
n n
y
i 1
i  n     x i
i 1
(1)
n n
 xi  yi    xi   xi2 (2)

i 1 i 1
Împărţind (1) la n şi rezolvând în raport cu  , rezultă:   y    x .
Substituind această ecuaţie în (2), îl putem afla pe  :

n n n
 xi  yi  ( y    x ) xi   xi2
i 1 i 1 i 1
1
x i  yi  xi
 yi 
  n
1
 xi2  n ( xi ) 2
Aşa dar, am obţinut pe  şi  , care sunt estimatorii lui  şi .
Condiţia suficientă:
2 (ui2)/2>0 , 2 (ui2)/2 2 (ui2)/ >0

2 (ui2)/ 2 (ui2)/2
este realizată.
Astfel, modelul estimat pe baza datelor statistice ale celor două variabile y şi x înregistrate
în n perioade de timp sau de n unităţi statistice este yi    xi  ui , iar funcţia de regresie
y i      xi , unde y
 i sunt valorile teoretice ale variabilei endogene yi calculate cu
ajutorul funcţiei de regresie, iar ui  yi  y i - estimaţiile variabilei reziduale.
2) Proprietăţile estimatorilor obţinuţi prin M.C.M.M.P.

Prin operaţii simple se poate demonstra că media estimatorilor şi a variabilei reziduale ui
este egală cu:
E ( )   ; E ()   ; E (u t )  0 , adică  şi  sunt estimatori nedeplasaţi ai parametrilor,
iar dispersiile estimatorilor  şi  se pot afla pe baza relaţiilor:
 Vˆ ( ˆ )
ˆ u2
 ( xi  x ) 2
i
ˆ u2 ( 1n  x2
)  Vˆ (
ˆ)
 ( xi  x ) 2
i
3
1
iar u2    ui2 este un estimator nedeplasat al variaţiei variabilei ui.
n  2 i 1
Covarianţa dintre cei doi estimatori este egală cu:
co v( , )  xV ( )
Matricea de estimare a varianţei şi covariaţiei ( ,  ) este următoarea:
 ˆ)
ˆ ˆ   V̂(

ˆ) cov(ˆ ,
.
(
ˆ , )  cov̂(
ˆ,ˆ) V̂() 
ˆ

Dacă ipotezele enunţate se verifică, atunci modelului estimat i se pot atribui o serie de
proprietăţi:
1. Media condiţionată a variabilei y în funcţie de variabila exogenă x devine
E(y/x)      xi  y i
2. Dispersia condiţionată a variabilei y este:
 1 
( xi  x ) 2
 2
  1 
2
 
y / xi u
 n  i
( x  x ) 2

3. Covarianţa cov(yi,yj)=0 pentru i , j  1, n ; i j.
4. Legea de probabilitate condiţionată a lui y, în funcţie de variabilă exogenă x, este
legea normală de medie yi şi de abaterea medie pătratică  y2/ x i

: L(yi)=N(yi,  y2/ x i
).
3. Testarea validităţii modelului ales
În cazul când seria de date (xi,yi), i  1, n  este obţinută în urma unui sondaj statistic,
validarea datelor prin teste statistice se impune în mod necesar.

Testele utilizate pentru validarea modelului liniar au la bază ipoteze pe care se
fundamentează acesta şi pe proprietatea că uiN(0, u).
3.1. Testul Student pentru independenţa variabililor.

Verificarea semnificaţiei estimatorilor funcţiei de regresie, comportă formularea a două
ipoteze:
H 0 :   0 - ipoteza dependenţei direct proporţionale,
H 0 :   0 - ipoteza dependenţei variabilelor,
 0
contra H1 :   ipoteza dependenţei liniare specificate.
0
4
Pentru un n mai mic decât 30 de cazuri statistica testului pentru  şi
 respectiv este:

t calc   /   ,

u2 1 / n  ( x /  ( x i  x ) 2 

t calc   /   .
u2 /  ( x i  x)2 
Regula de decizie este următoarea:
tcalct,n-2=ttabelat, adică nivelul de referinţă preluat din tabelul repartiţiei Student pentru
riscul erorii () şi (n-2) grade de libertate. Dacă tcalc>ttab ipoteza nulă Ho este respinsă şi se
acceptă ipoteza H1 conform căreea estimaţiile  şi  diferă semnificativ de zero.
Evident, pentru tcalc<ttab ipoteza nulă, a nesemnificaţiei, este cea admisă, adică x şi y nu
sunt corelate liniar.
3.2. Testul F-Fisher-Snedecor.
Cu ajutorul acestui test are loc verificarea verosimilităţii modelului econometric.
La baza veridicităţii modelului stă principiul analizei dispersionale (varianţelor).
Deoarece avem că u
i
i  0 şi  y   y
i
i
i
i , de aici rezultă că şi yi  y i .
Din aceste relaţii se deduce relaţie dintre sumele de pătrate de abateri:
y 
 y    y i  y  u
2 2
2
i i .
i i i
Prin împărţire la numărul observaţiilor n se obţin dispersiile empirice corespunzătoare:

 y2   y2   u2 , dispersie 2y caracterizează variaţie caracteristicii rezultative explicată.
Dispersie  y2 - variaţie valorilor teoretice faţa de medie lor. Dispersie 2u - variaţie reziduală
pe seama factorilor aleatori.

În scopul testării validităţii modelului se alcătuieşte următorul tabel al analizei de
varianţă.
Sursele de Variaţie sumei patratelor Grade de Estimatiri ale dispersiei
variaţie abaterilor libertate în raport cu gradele de libertate
Explicată de VE=  ( y i  y ) 2 1  y2   ( y i  y ) 2 1
regresie i
Rezidiuală VR=  ( yi  y i ) 2 ˆ   ( y i  yˆ i ) 2 (n  2)
2
n-2 u
i i
VT=  ( y i  y ) ˆ y2   ( y i  y ) 2 (n  1)
2
Total n-1
i
i
5
Nivelul Fcalc rezultă astfel:
Fcalc 
 ( y i  y) 2 (y i  y i ) 2
.
1 n2
Amintim că y i sunt valori ajustate, obţinute din model folosind parametrii estimaţi şi
valorile empirice xi.
Modelul este valid dacă valoarea Fcalc este superioară valorii tabelate F;2-1;n-1, respectiv,
este considerat neconcludent (incluzând parametrii nesemnificativi sau o funcţie greşit aleasă)
dacă Fcalc<F; 2-1; n-1, adică x şi y sunt independente.
O formulă alternativă pentru Fcalc, este şi cea definită pe baza coeficientului de
determinaţie R2: Fcalc = R2/(1-R2)/(n-2)
Coeficientul R este coeficientul de corelaţie multiplă, însă pentru corelaţia liniară simplă
între x şi y reprezintă coeficientul de corelaţie.
 2
R  ( y  y ) 2 /  ( yi  y ) 2  1   ui /  ( yi  y ) 
2
i
i i  i i 
Mărimea R se numeşte raport de corelaţie şi exprimă gradul de fidelitate a modelului faţă
de dependenţa statistică dintre y şi x, şi anume R0,1, cu cât R va avea o valoare mai
apropiată de 1, cu atât veridicitatea modelului va fi mai ridicată.
Pentru determinarea măsurii legăturii liniare puternice între x şi y se calculează
coeficientul liniar de corelaţie.
 ( x  /  (x  x ) 2  ( yi  y ) 2 
2
ry , x  cov( x, y) /  x   y  i  x )  ( yi  y ) i
Mărimea lui ry/x este cuprinsă între -1 şi 1. Cu cât valoarea lui ry/x este mai mare, cu atât
legătura între variabile este mai strânsă. Pentru cazul dependenţei liniare ry, x  R . După
obţinerea lui ry/x se poate de verificat în ce măsură coeficientul de corelaţie obţinut este
semnificativ cu ajutorul următorului test:
r
t calc  .
1  r 2  /  n  2
Dacă tcalc>ttabela=t/2n-2, atunci coeficientul de corelaţie semnificativ diferă de 0; în caz
contrar se acceptă ipoteza unui coeficient de corelaţie nul.
4. Efectuarea de calcule previzionale.
Se consideră că în urma analizei legăturii dintră valorile a două variabile
(xi,yi), i  1, n  s-a determinat dreapta de regresie ˆ  ˆ x i , (i=1,n). Se pune

ŷi  
problema determinării nivelului variabilei y, descrisă prin modelul liniar, pentru un nivel al
6
variabilei x specificat prin xp, unde (p=n+1,n+k), prin k desemnând orizontul de previziune.
Logica estimării variaţiei de previziunii prin această metodă este următoarea:
- pentru un nivel efectiv al variabilei xp vom avea yp=+xp+up
- dacă valoarea previzională pe baza modelului estimat este
ŷ p   ˆ x , atunci se comite o eroare de previziune (ep)

ˆ  p
ep=yp- y p  ep=(-  )=(-  )xp+up
Varianţa variabilei
V(ep)=0, iar up satisface ipotezele modelului, estimatorul
V (ep)  u2 1  1 / n  (x p  x ) 2 / (nV (x)) .

Pentru a avea o previziune cât mai veridică, trebuie ca valoarea lui
V (ep) să fie cât mai mică posibil.

Pentru a construi un interval de încredere, pentru valoarea previzională se ţine seama că
up(0,u), astfel:
( y p -yp)/(ep)N(0,1)
V (ep)= 2(ep)= 2u1+1/n+(xp- x )2/  ( xi  x ) , în plus,

2
Dar
i
( y p -y)/  (ep) urmează o distribuţie Student cu (n-2) grade de libertate.
Pentru un prag de semnificaţie  şi (n-2) grade de libertate din tabelul funcţiei de Student
se determină t(n-2); şi se obţine intervalul de încredere pentru valoarea previzionată la
un nivel xp specificat
y p -t(n-2);  (ep)  yp  ŷ p +t(n-2);  (ep)
Studiul de caz 1 (rezolvat)
7
Pentru a studia cum variază costul de întreţinere al unui utilaj în funcţie de vechimea acestuia,
o firmă a înregistrat următoarele date (tabelul 1.1).
Tabelul 1.1.
Nr. observării 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
Vechime 6 8 8 10 15 16 17 20 21 21 32 36 41 53 58
(în luni) Xi
Cost anual 25 30 33 37 38 40 48 50 46 52 61 67 79 90 92
Yi (sute lei)
Se cere:
1) De calculat estimaţiile parametrilor  şi  prin metoda M.C.M.M.P.;

2) De determinat coeficientul de corelaţie liniară simplă r;
3) De determinat estimatorul nedeplasat u2 , precum şi estimatorii nedeplasaţi ai
dispersiilor estimatorilor  , respectiv  .
4) De utilizat testul F şi T pentru coeficienţii  şi ; r.

5) De calculat intervalele de încredere la pragul =5% asociate dispersiei  u2 , precum
şi coeficienţilor  şi ;
6) De determinat o previziune a costului anual de întreţinere pentru un utilaj de 4 ani,

precum şi intervalul de încredere asociat acesteia la pragul 5%;
7) Firma a procurat un utilaj modificat. Costul anual de întreţinere după 2 ani de

exploatare s-a inregistrat la nivelul Yp = 1200. De testat deosebirea acestui utilaj de modelele
nemodificate din punct de vedere al costului de întreţinere.
Rezolvare.
Construim diagrama observărilor.
Pentru îndeplinirea celorlalte puncte, “centralizăm” datele observate de firmă şi
reprezentate în tabelul 1.1. Calculele necesare le înscriem în tabelul 1.2.
8
Tabelul 1.2.
2 2
Nr. Xi Yi xi yi xi yi xi *yi
1 6 25 -18,1333 -27,5333 328,8178 758,0844 499,2711
2 8 30 -16,1333 -22,5333 260,2844 507,7511 363,5378
3 8 33 -16,1333 -19,5333 260,2844 381,5511 315,1378
4 10 37 -14,1333 -15,5333 199,7511 241,2844 219,5378
5 15 38 -9,13333 -14,5333 83,41778 211,2178 132,7378
6 16 40 -8,13333 -12,5333 66,15111 157,0844 101,9378
7 17 48 -7,13333 -4,53333 50,88444 20,55111 32,33778
8 20 50 -4,13333 -2,53333 17,08444 6,417778 10,47111
9 21 46 -3,13333 -6,53333 9,817778 42,68444 20,47111
10 21 52 -3,13333 -0,53333 9,817778 0,284444 1,671111
11 32 61 7,866667 8,466667 61,88444 71,68444 66,60444
12 36 67 11,86667 14,46667 140,8178 209,2844 171,6711
13 41 79 16,86667 26,46667 284,4844 700,4844 446,4044
14 53 90 28,86667 37,46667 833,2844 1403,751 1081,538
15 58 92 33,86667 39,46667 1146,951 1557,618 1336,604
Total 362 788 0 0 3753,733 6269,733 4799,933
Numărul de observaţii este n=15. Din tabel 1,2 avem:
X x x
2
i = 362; i = 3753,733; X = 24,1333 i  yi = 4799,9333;
Y y
2
i =788; i = 6269,733; Y = 52,5333 ;
unde xi  X i  X ; yi  Yi  Y .
Deci
X i  Yi   (x i  X )  ( yi  Y )  x i  yi  Y   xi  X  y i  nXY 
 4799,9333  15  24,1333  52,5333  23817
 X   (x
i
2
i  X ) 2   xi2  2 X  xi  n( X ) 2  3753,7333  15  (24,1333) 2  12490;
Y i
2
 (y i  Y ) 2  yi2  n(Y ) 2  6269,7333  15  52,5333  47666 .
Folosind “sumele” calculate, determinăm valorile indicate în condiţiile problemei.

XY  X  Y 1587,8  24,1333  52,5333 319,9956
1)   2 2    1,2787
X  (X ) 2
832,6667  (24,1333) 250,2489
Putem utiliza şi estimatorul ̂ :
 
x y i i

4799,9333
 1,278709  1,2787 ,
x 2
i
3753,7333
ˆ  Y  ˆ  X  52,5333  1,2787  24,1333  21,6738.
Deci, estimaţiile parametrilor  şi  sunt   1,2787 iar   21,6738 .
9
2) Pentru calcularea estimaţiei coeficientului de corelaţie, vom folosi următorii
estimatori.
r
x y i i

4799,9333
 0,989416; r  0,9894
(  x )(  y
2
i
2
i ) 3753,7333  6269,7333
r 2  0,9789
Pentru cazul liniar simplu al dependenţei Y      X , coeficientul de determinaţie r2
coincide cu indicele de corelaţie:
( xi yi ) 2
Q1   x i y i x 2
( xi yi ) 2 (4799,9333) 2
r      
2 i
Q  yi2 y 2
i (  x i2 )(  y i2 ) 3753,7333  6269,7333
 0,97894  r 2
Q1
Din formula r 2  rezultă semnificaţia coeficientului de determinaţie, si anume:
Q
r2=0,9789 exprimă ponderea de  97,9% de dispersie (varianţă) a variabilei Y (costului anual
de întreţinere a maşinii) explicată de varianţa factorului identificat de influenţă X (durata de
utilizare a utilajului) şi numai 2,1% de varianţă variabilei Y este explicată de influenţa altor
factori neidentificaţi inclusiv şi aleatori:
3) Estimatorul  
Q2

 u i2
2
;
n 2 n 2
u
( xi yi ) 2 (4799,9333) 2
Q2  Q  Q1   y  2
 6269,7333   132,0144 ;
i
x 2
i
3753,7333
u2  10,15496 .
De aici urmează, eroarea standard s  u  10,15496  3,18668.

Prin definiţie,
 u2  u2 10,15496
V ( )     0,0027 ;
x 2
i  (x i  X) 2
3753,7333
 1 X2  u2  xi2 10,15496  12490

V ( )   
2
 
2 
  2,25261 .
u
 n  x i  n ( x i  X ) 2
15  3753,7333
Calculăm erorile standard ale coeficienţilor  şi  :
s     V ( )  2,2561  1,50087 ;
s     V ( )  0,0027  0,05196 .
Deci, modelul căutat este:
10
Y  21,6738  1,2787 X ,
(1,50087) (0,0520)
unde în paranteze sunt prezentate erorile standard (estimaţiile erorilor) coeficienţilor regresiei
Y pe X.
4) Calculăm valorile statisticelor F şi T.

Efectuăm testarea ipotezei H0: “Modelul este neadecvat”, contra ipotezei H1: “Modelul
este adecvat”. În condiţiile îndeplinirii ipotezei H 0, raportul
Q1
:1
Q1 :1 Q r 2 :1
   F urmează o distribuţie F respectiv cu 1
Q2 : ( n  2) Q2 (1  r 2 ): ( n  2)
: ( n  2)
Q
grad de libertate a dispersiei mari (a numărătorului) şi (n-2) grade de libertate a numitorului.
6137,71889
Obţinem Fcalc   604,40601 .
10,15496
Din tabelul distribuirii F găsim Ftab  F (0,051
; ; n  2)  F (0,05113
; ; )  4,67 , deci
Fcalc= 604,40601>Ftab=4,67.
Se respinge ipoteza H0 şi se acceptă ipoteza H1.
În continuare, verificăm ipotezele ce se referă la semnificaţia coeficienţilor  şi  cu
ˆ
ajutorul testului Student cu (n-2) grade de libertate. Raportul t  furnizează valoarea
ˆ ˆ
empirică a testului Student ce trebuie comparată cu valoarea critică la pragul  şi (n-2) grade
de libertate.
ˆ   ˆ  
Ipoteza H0 va fi acceptată dacă   t n2    t13 (0,025)  2,16 ceea ce este
ˆ ˆ ˆ ˆ 2
echivalent cu condiţia, că  0 aparţine intervalului de încredere
      
  t n2   , t n2     ( 2,16;2,16) cu o probabilitate de încredere de 95%.
  2   2 
ˆ ˆ
În cazul dat atât mărimea t ˆ  cât şi tˆ  aparţin domeniului critic din
ˆ ˆ ˆ ˆ
1,2787 21,6738
dreapta, şi anume t    24,59  2,16 ; t   14,44  2,16 .
0,0520 1,50087
Prin urmare, atât  cât şi  sunt semnificativ diferiţi de 0 la pragul de semnificaţie  5%.
5) Calculăm intervalele de încredere a coeficienţilor  şi  .
11
  
În punctul precedent s-a menţionat, că ambele variabile aleatorii  t 

  
 t  urmează o distribuţie Student cu (n-2) grade de libertate. Plecând de la valorile

tabelare, se pot determina intervalele de încredere la pragul  , cu riscuri simetrice:

                     
    t n 2     ;   t n 2      :     t n  2     ;   t n  2   .
  2   2     2   2   
Din tabel observăm că t13(2,5%)=2,16, ceea ce înseamnă că intervalele de încredere la
pragul de semnificienţie de   5% sunt:  1,2787  2,16  0,0520;1,2787  2,16  0,0520 ;
 21,6738  2,16  1,50087;21,6738  2,16  1,50087 ;
sau  1166
, ;1,391 ;  18,432;24,916 .
Acum să determinăm estimaţiile intervalului de încredere a variabilei aleatoare u2 .
u2
Variabila aleatoare ( n  2) urmează o lege  2 cu (n-2) grade de libertate. Putem deci
 u2

găsi în tabelul acestei distribuţii valorile  12 având probabilitatea ( 1  ) de a fi depăşită,
2

respectiv  22 având probabilitatea de a fi depăşită. Avem:
2
  2 
P  12  ( n  2) u2   22   1   , de unde intervalul de încredere la pragul  cu riscuri
 u 
 (n  2)u2 (n  2)u2 
simetrice pentru  :   
2 2
; .
u

u
 22 12 
Pentru   5% , n-2=3 şi  u2  10,155 obţinem,
 13  10,155 13  10,155 
 u2    5,336;26,350
5,01 
;
 24,74
unde 132 (0,975)   22  24,74 ,
132 (0,025)  12  5,01 .

6) Analizăm predicţia Y0p a costului de întreţinere a utilajului având vechimea x0.
Estimatorul punctual al previziunii este Y0p    x 0 . Rezultă că, de exemplu, pentru x0=24
(2 ani de vechime a utilajului), avem Y0p=21,6738+1,278724=52,362652,36 (sute lei). Deci

valoarea medie aşteptată a predicţiei costului de întreţinere este egală cu 5236 lei. Calculăm
estimaţia erorii de previziune pentru valoarea medie aşteptată Y0p=5236 lei:
12
 1 
(x 0  X ) 2
 2
  
2
 
2 
 i 
p u
 n 
e0
( x X )
sau
 1 (24  24,1333) 2 
ˆ e2  10,155
p    0,6770.
0
 15 3753,73333 
Pentru o valoare x0=48 (mai “îndepărtată” de valoarea medie X  24,1333 ) evident că

această mărime va fi mai mare:
 1 (48  24,1333) 2 
ˆ e2  10,155
p    2,2180.
0
 15 3753,73333 
Deci pentru un utilaj de o vechime de 24 de luni, intervalul de încredere a predicţiei va

    2    2 
fi: Y0p  Y0p  t 13    e p ; Y0p  t 13    52,36  2,16  0,8228;52,36  2,16  0,8228 
  2  0  2  e0p 
 50,5828:54,1372 adică Y0 va varia de la 5058 lei pânã la 5414 lei, iar pentru x0=48 luni
avem respectiv Y0  83,05  2,16  2,2180;83,05  2,16  2,2180  78,2591 : 87,84088 , ori de
la 7826 lei pânã la 8784 lei.

Admitem, că firma a procurat un utilaj modificat (mai modern). Pe parcursul anului I
(întâi), costul de întreţinere a noului utilaj a fost egal cu 1200 lei. Apare întrebarea: este mai
puţin costisitoare întreţinerea noului utilaj faţă de modelele vechi (dacă diferenţa costurilor
este esenţială sau nu ? ).
Efectuăm calculele:
Y0p=21,6738+1,278712=37,0182.
În acest caz, eroarea predicţiei se calculează astfel:
 1 ( x0  X ) 2   1 (12  24,1333) 2 
e2  u2 1     10,1551     11,2303 .
 ( xi  X ) 2   3753,7333 
p
0
 n 15
Yp  Y0p 12,0  37,0182

Calculăm statistica Student t    2,2277.
 e0 p
2
11,2303
În continuare este importantă verificarea ipotezei nule Ho: Yp  Y0p (adică Yp  Y0p  0 ),
ceea ce corespunde testului unilateral. Pragului de 5% îi corespunde valoarea tabelară

t13(0,05)=1,771 iar de 1%, t13(0,01)=2,650.
13
Aceste calcule ne conduc la concluzia că micşorarea observată a costului de întreţinere a
utilajului este semnificativă pentru pragul de 5% şi nesemnificativă pentru pragul de 1%.
Alegerea rămâne să o facă decidenţii firmei.
Informaţia necesară pentru executarea lucrării este prezentată în probleme propuse.
La indicaţia profesorului, fiecare student trebuie să aleagă doi indicatori şi să analizeze
dependenţa liniară între ei de tipul:
y i      xi  ui (1).
În acest scop se propune studentului să realizeze următoarele puncte (etape):
1) de construit diagrama observărilor (norul observărilor; se are în vedere construirea

mulţimelor punctelor Mi(Xi,Yi)). Daţi concluziile respective (oportune);
2) de estimat modelul (1) prin metoda MCMMP;

3) de testat modelul (1) utilizând testele T şi F;
4) de estimat coeficientul de corelaţie şi coeficientul de determinaţie;
5) de verificat “stabilitatea” estimatorilor MCMMP 0 şi 1 ai coeficienţilor 0 şi 1,
utilizând în acest scop diverse fragmente de date a perioadei analizate (de folosit, de
exemplu, pachetul “TSP” sau EView).
6) de verificat posibilitatea utilizării modelului (1) estimat prin MCMMP în calitate de

instrument de previziune. Pentru aceasta se propune de înlăturat ultimele 3-5
observări şi de estimat parametrii  şi  prin MCMMP după observările rămase. În
calitate de criteriu de testare poate fi folosită statistica
 1 n Yi  Yi   n ei 
      100%   1    100% , unde =3;4 sau 5 valori
   Yi 
  i  n Yi   i  n
eliminate; n - numărul total al observărilor (lungimea seriilor cronologice). Pragul

superior admisibil a statisticii  se consideră nu mai mare de 5-10%.
7) De calculat estimatorii intervalelor de încredere ai parametrilor  şi .

8) Pentru valorile de prognoză Xp (date în problemă) de calculat estimaţiile
punctiforme şi de interval ale prognozelor Yp.
9) De prezentat o dare de seamă la lucrare, în care să se conţine răspunsul la punctele

indicate şi concluziile respective.
14

Modelul Simplu Regresie

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelul Simplu Regresie

Încărcat de

Drepturi de autor:

Formate disponibile

Analiza modelului liniar simplu de regresie de tip clasic

Procesul de construire a modelului include următoarele etape:

1. Estimarea parametrilor modelului.

Condiţiile de ordinul întâi se scriu:

Astfel, ecuaţiile normale sunt

 xi  yi    xi   xi2 (2)

Împărţind (1) la n şi rezolvând în raport cu  , rezultă:   y    x .

Substituind această ecuaţie în (2), îl putem afla pe  :

2 (ui2)/2>0 , 2 (ui2)/2 2 (ui2)/ >0

2) Proprietăţile estimatorilor obţinuţi prin M.C.M.M.P.

E ( )   ; E ()   ; E (u t )  0 , adică  şi  sunt estimatori nedeplasaţi ai parametrilor,

iar dispersiile estimatorilor  şi  se pot afla pe baza relaţiilor:

co v( , )  xV ( )

Matricea de estimare a varianţei şi covariaţiei ( ,  ) este următoarea:

legea normală de medie yi şi de abaterea medie pătratică  y2/ x i

3. Testarea validităţii modelului ales

validarea datelor prin teste statistice se impune în mod necesar.

3.1. Testul Student pentru independenţa variabililor.

H 0 :   0 - ipoteza dependenţei variabilelor,

Din aceste relaţii se deduce relaţie dintre sumele de pătrate de abateri:

Prin împărţire la numărul observaţiilor n se obţin dispersiile empirice corespunzătoare:

pe seama factorilor aleatori.

(xi,yi), i  1, n  s-a determinat dreapta de regresie ˆ  ˆ x i , (i=1,n). Se pune

ŷ p   ˆ x , atunci se comite o eroare de previziune (ep)

ep=yp- y p  ep=(-  )=(-  )xp+up

V (ep)  u2 1  1 / n  (x p  x ) 2 / (nV (x)) .

V (ep) să fie cât mai mică posibil.

V (ep)= 2(ep)= 2u1+1/n+(xp- x )2/  ( xi  x ) , în plus,

( y p -y)/  (ep) urmează o distribuţie Student cu (n-2) grade de libertate.

Studiul de caz 1 (rezolvat)

1) De calculat estimaţiile parametrilor  şi  prin metoda M.C.M.M.P.;

4) De utilizat testul F şi T pentru coeficienţii  şi ; r.

6) De determinat o previziune a costului anual de întreţinere pentru un utilaj de 4 ani,

7) Firma a procurat un utilaj modificat. Costul anual de întreţinere după 2 ani de

Numărul de observaţii este n=15. Din tabel 1,2 avem:

Folosind “sumele” calculate, determinăm valorile indicate în condiţiile problemei.

Putem utiliza şi estimatorul ̂ :

ˆ  Y  ˆ  X  52,5333  1,2787  24,1333  21,6738.

Deci, estimaţiile parametrilor  şi  sunt   1,2787 iar   21,6738 .

De aici urmează, eroarea standard s  u  10,15496  3,18668.

 1 X2  u2  xi2 10,15496  12490

Calculăm erorile standard ale coeficienţilor  şi  :

s     V ( )  2,2561  1,50087 ;

s     V ( )  0,0027  0,05196 .

Deci, modelul căutat este:

4) Calculăm valorile statisticelor F şi T.

echivalent cu condiţia, că  0 aparţine intervalului de încredere

tabelare, se pot determina intervalele de încredere la pragul  , cu riscuri simetrice:

Din tabel observăm că t13(2,5%)=2,16, ceea ce înseamnă că intervalele de încredere la

pragul de semnificienţie de   5% sunt:  1,2787  2,16  0,0520;1,2787  2,16  0,0520 ;

 21,6738  2,16  1,50087;21,6738  2,16  1,50087 ;

Acum să determinăm estimaţiile intervalului de încredere a variabilei aleatoare u2 .

132 (0,025)  12  5,01 .

(2 ani de vechime a utilajului), avem Y0p=21,6738+1,278724=52,362652,36 (sute lei). Deci

Pentru o valoare x0=48 (mai “îndepărtată” de valoarea medie X  24,1333 ) evident că

Deci pentru un utilaj de o vechime de 24 de luni, intervalul de încredere a predicţiei va

la 7826 lei pânã la 8784 lei.

Yp  Y0p 12,0  37,0182

ceea ce corespunde testului unilateral. Pragului de 5% îi corespunde valoarea tabelară

1) de construit diagrama observărilor (norul observărilor; se are în vedere construirea

2) de estimat modelul (1) prin metoda MCMMP;

6) de verificat posibilitatea utilizării modelului (1) estimat prin MCMMP în calitate de

eliminate; n - numărul total al observărilor (lungimea seriilor cronologice). Pragul