Sunteți pe pagina 1din 92

Unitatea de studiu 2.

REGRESIA LINIARĂ SIMPLĂ

Cuprins unitate de studiu


2.1 Tipuri regresie
2.2 Interpretarea geometrică şi statistică a regresiei
2.3 Modelul econometric de regresie liniară simplă

Obiective
- prezentarea tipurilor de regresie în econometrie
- analiza statistică şi geometrică a regresiei
- prezentarea modelului de regresie liniară simplă: componente, estimarea şi testarea
parametrilor, testarea modelului

Competenţe
- însuşirea conceptului de regresie
- formarea abilităţilor teoretice şi practice de construire a unui model de regresie liniară
simplă
- deprinderea de a construi un model liniar simplu cu date de la nivelul economiei României
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare

Termen mediu: 4 h

Bibliografie selectivă
1. Bourbonnais, R., Économétrie, Dunod, Paris, 2000

2. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009

3. Gujarati, D.N., Basic econometrics, McGraw-Hill, New York, 1995

4. Ionescu, H.M., Introducere în statistica matematică, Editura Didactică şi


Pedagogică, Bucureşti, 1962

5. Maddala, G.S., Introduction to Econometrics, John Wiley & Sons, 2001


14 Regresia liniară simplă

2.1. Tipuri de regresie

Legăturile dintre variabilele statistice pot fi clasificate în mai multe categorii, după
următoarele criterii: momentul la care se referă, tipul de dependenţă dintre variabile, numărul
variabilelor, tipul (forma) legăturii etc.

Modele de moment şi dinamice


Modelul de moment, numit şi model static, este modelul econometric în care legătura dintre
variabile se referă la acelaşi moment sau la aceeaşi perioadă de timp. Pentru construirea
acestor modele se utilizează date din anchete de moment, cum ar fi sondajele statistice,
recensămintele sau alte cercetări de moment.

Modelul dinamic este modelul econometric construit pe baza seriilor de timp. Factorul timp
apare în model prin precizarea momentelor sau a intervalelor de timp la care se referă datele.
Există şi modele în care timpul apare ca o variabilă independentă, exprimând trendul seriei de
timp.

Modele deterministe şi stochastice


Dependenţa dintre variabile poate fi:
- deterministă sau funcţională (matematică). Asemenea modele sunt mai rar întâlnite, pentru
că presupun că între variabile există o legătură de tipul yi  f ( xi ) , adică variabila dependentă
este explicată în totalitate de variabilele independente din model. Modelele funcţionale sunt
întâlnite în domeniul ştiinţelor naturii, pe când în ştiinţele sociale se utilizează mai frecvent
modelele probabiliste.
- stochastică sau probabilistă. În aceste modele, pentru o valoare a variabilei independente,
există mai multe valori ale variabilei dependente, determinate probabilistic. În modelele
stochastice, variabila dependentă este influenţată şi de o serie de factori care nu apar explicit
în model, dar sunt sintetizaţi printr-o variabilă aleatoare numită variabilă reziduală. Modelul
stochastic este de forma:
yi  f ( xi )   i .

Modele simple şi multiple


Dacă în modelul de regresie apare o singură variabilă independentă, regresia se numeşte
simplă. Un exemplu de model simplu este modelul care exprimă dependenţa consumului de
preţ: C  f ( P ) . Aceste modele sunt întâlnite mai rar în economie, deoarece un fenomen
depinde, de regulă, de mai mulţi factori de influenţă. Dacă se alege totuşi un factor
determinant, ceilalţi factori pot fi consideraţi ca fiind avuţi în vedere prin variabila reziduală.

Dacă în model apar cel puţin două variabile independente, regresia se numeşte multiplă.
Modelul are forma: Y  f ( X 1 , X 2 )   , iar variabila dependentă este explicată prin influenţa
cumulată a factorilor care apar în model.

Modele liniare şi neliniare


Regresia liniară simplă 15
Modelul liniar este modelul în care relaţia dintre variabile este una de proporţionalitate,
legătura dintre variabile fiind descrisă de o funcţie liniară. De exemplu, modelele
Y   0   1 X şi Y   0   1 X 1   2 X 2 sunt modele liniare.

Modelul neliniar este modelul în care legătura dintre variabile este explicată de o funcţie
neliniară. Exemple:
Y  0   1 ln X , ln Y   0   1 X , Y  0  X 1 1 etc.

2.2. Interpretarea geometrică şi statistică a regresiei

Interpretarea geometrică
Locul geometric al mediilor condiţionate ale variabilei dependente, pentru valori fixate ale
variabilei independente, reprezintă o linie poligonală sau o curbă (linia de regresie, pentru caz
discret, sau curba de regresie, pentru caz continuu).

Analiza dependenţei legăturii dintre cele două variabile se poate realiza pe baza unei judecăţi
statistice elementare: tipul dependenţei dintre cele două variabile sau modul în care variabila
independentă o influenţează pe cea dependentă este sugerat de forma curbei sau liniei de
regresie statistică, construită pe baza mediilor condiţionate, calculate cu ajutorul datelor
disponibile.

De exemplu, dacă linia de regresie statistică se apropie de o dreaptă, datele sugerează un tip
de dependenţă liniară între variabilele studiate (figura 1).

6.00

5.00
Value profit

4.00

3.00

2.00

60.00 70.00 80.00 90.00 100.00

ch_publicit

Figura 1. Linia de regresie statistică a lui Y în raport cu X

b. Interpretarea statistică
Conform teoriei probabilităţilor şi statisticii matematice, regresia este o medie condiţionată
definită pe o distribuţie bi- sau multidimensională. În cazul unei legături dintre două variabile,
regresia este definită prin aplicaţia:
M ( Y / X  xi )  f ( xi ) sau M ( Y / X )  f ( x )
16 Regresia liniară simplă
Pentru cazul liniar, regresia sau media condiţionată este o funcţie liniară:
M ( Y / X )   0   1 X , unde 0, 1 sunt parametrii modelului, iar X este variabila
independentă, considerată nestochastică.

În consecinţă, regresia liniară este:


yi  M ( Y / X  xi )   0   1 xi .

2.3. Modelul econometric de regresie liniară simplă

1. Prezentarea modelului

În cazul regresiei liniare simple, modelul are următoarea expresie:


yi  0  1 xi   i sau
Y  0  1 X   ,
iar media condiţionată este:
M ( Y / X  xi )   0   1 xi .

Componentele modelului
Modelul econometric liniar simplu include două componente: una deterministă şi una
stochastică.

Componenta deterministă este reprezentată de media condiţionată:


M ( Y / X  xi )  0  1 xi .
În această componentă apare variabila independentă, care este o variabilă observabilă din
punct de vedere statistic, şi parametrii modelului, care sunt constante reale.

Componenta aleatoare este reprezentată de variabila aleatoare numită eroare sau reziduu,
notată cu  . Natura acestei variabile este legată de următoarele probleme care însoţesc
procesul de modelare: natura fenomenului studiat, specificarea modelului, erorile de
măsurare1.

În modelul econometric,  i sunt variabile aleatoare construite pentru fiecare repartiţie


condiţionată de forma Yi X  xi .

2. Parametrii modelului
În modelul de regresie liniară simplă, y i   0   1 xi   i , există doi parametri: 0 şi  1 .
Aceştia se mai numesc şi coeficienţi de regresie.

- 0 este constanta sau termenul liber (intercept) şi indică valoarea medie a variabilei
dependente Y atunci când variabila independentă X ia valoarea zero. Este ordonata la origine a
dreptei de regresie sau intersecţia dreptei cu axa OY. În unele modele, acest parametru poate
să lipsească, caz în care dreapta trece prin origine.

1
G.S. Maddala, Introduction to econometrics, John Wiley and Sons, 2001, p. 64
Regresia liniară simplă 17
-  1 (slope) indică variaţia absolută medie a variabilei dependente la o variaţie absolută cu o
unitate a variabilei independente. Cu alte cuvinte,  1 arată răspunsul variabilei Y la o creştere
sau scădere cu o unitate a variabilei X.

dY Y
1   , unde Y  0  1 X   .
dX X

Răspunsul variabilei dependente poate fi în acelaşi sens ( 1  0 ), ceea ce indică o legătură


directă sau pozitivă între variabile (de exemplu, dacă X creşte cu o unitate, Y creşte în medie
cu 1 ) sau poate fi în sens contrar ( 1  0 ), adică între variabile există o legătură inversă.
Dacă 1  0 , între cele două variabile nu există o legătură de tip liniar.

y x  0  1 x

0 1
0 X

Figura 2. Linia de regresie sau media condiţionată

Ipotezele clasice ale modelului de regresie

Modelarea econometrică implică anumite condiţii sau ipoteze asupra celor două componente
ale modelului, ipoteze care vor fi prezentate în continuare. Ipotezele acestui model se împart
în două categorii şi privesc cele două componente ale modelului: componenta deterministă şi
componenta aleatoare.

Ipoteze cu privire la variabilele independente


- variabila independentă X este observabilă (nestochastică);
- lipsa coliniarităţii variabilelor independente – între variabilele factoriale nu există o legătură
liniară (în cazul regresiei multiple);
- variabila independentă are o dispersie finită şi este posibil de determinat.

Ipoteze cu privire la variabila aleatoare eroare


- eroarea medie este nulă: M (  i )  0 .
Cu alte cuvinte, în medie, modelul este bine specificat, adică factorii neincluşi explicit în
model nu afectează sistematic valoarea medie a variabilei dependente. Altfel spus, această
ipoteză presupune că valoarea aşteptată, sperată, a erorii la nivelul repartiţiilor condiţionate de
tipul Yi X  xi este egală cu zero (figura 3.3).
18 Regresia liniară simplă

- ipoteza de homoscedasticitate: V (  i )  M (  i2 )   2 .
Această ipoteză presupune că varianţa erorii este constantă la nivelul repartiţiilor condiţionate
de tipul Yi X  xi . Repartiţiile variabilei reziduale pentru fiecare repartiţie condiţionată sunt
prezentate în figura 3.3.

- ipoteza de normalitate a erorilor:  i ~ N ( 0 , 2 ) .


La nivelul fiecărei repartiţii condiţionate, variabila eroare urmează o lege de repartiţie
normală.

- ipoteza de necorelare a erorilor: cov(  i , j )  0 sau erorile nu se influenţează reciproc, sunt


independente.

- lipsa corelaţiei dintre variabila independentă şi variabila eroare, cov(  i , xi )  0 .


Dacă se admite ipoteza  i ~ N ( 0 , 2 ) , atunci variabila dependentă este o variabilă aleatoare
normal distribuită de forma: Y ~ N ( 0  1 X ; 2 ) .

Y
y x  0  1 x

0 x1 x2 xi X

Figura 3. Repartiţiile erorilor la nivelul repartiţiilor condiţionate

3. Estimarea parametrilor modelului

În practică, de obicei, nu se dispune de date decât de la nivelul unui eşantion de volum n. Pe


baza acestor date se realizează estimarea parametrilor modelului de regresie.

Pentru modelul y i   0   1 xi   i , la nivelul unui eşantion se obţine ecuaţia pe baza


estimatorilor:
yi  ˆ 0  ˆ 1 xi  ˆ i sau
yi  ŷi  ˆ i ,
unde ŷi  ˆ 0  ˆ 1 xi estimează media condiţionată M(Y/X).

Din relaţiile de mai sus, rezultă ˆ i  yi  ŷi sau ˆ i  yi  ˆ 0  ˆ 1 xi . Cu alte cuvinte, dacă se
dispune de un set de date statistice obţinute prin sondaj, se pot calcula erorile estimate ale
Regresia liniară simplă 19
modelului de regresie ca diferenţe dintre valorile empirice şi cele estimate cu ajutorul
modelului pentru variabila dependentă.

Determinarea estimatorilor prin Metoda celor mai mici pătrate


Potrivit metodei celor mai mici pătrate, estimatorii parametrilor modelului de regresie verifică
condiţia:
 ˆ i2  min sau  ( yi  ˆ 0  ˆ 1 xi )2  min .
i i

Prin metoda celor mai mici pătrate, estimatorii parametrilor modelului de regresie liniară
simplă se obţin rezolvând problema de optim:
S   yi  ˆ 0  ˆ 1 xi )2  min .
i

Soluţia se obţine prin respectarea a două condiţii: de extrem şi de minim, pentru aplicaţia
S  S ( ˆ 0 , ˆ 1 ) .
Condiţia de extrem presupune ecuaţiile:
 S ( 
ˆ , ˆ
1 )
0
 0 2  ( yi   0   1 xi )( 1 )  0
 ˆ ˆ
 ˆ


0

 S (  0 ,  1 )  0
ˆ ˆ sau 
i

2  ( yi   0  
ˆ ˆ x )(  x )  0
1 i i
  i
  ˆ
1

Rezultă:
 ( yi  ˆ ˆ
0   1 xi )  0
 i

 xi ( yi   0  
ˆ ˆ x )  0
1 i
 i

sau
 nˆ   ˆ x   y
0 1 i i
 i i
 ˆ ˆ
 0 i
   1   yi xi
2
x xi
 i i i

Rezolvarea sistemului conduce la următoarele relaţii ale estimatorilor:


n  xi yi   xi  yi
ˆ 1  i i i
sau
n x  (  xi )2
2
i
i i

 ( yi  yˆ )( xi  x ) côv( X , Y )
ˆ1  i
 .
(x x)
i
i
2
V (X )

ˆ0  yˆ  ˆ1 x .

Proprietăţile estimatorilor ˆ 0 , ˆ1

a. Proprietatea de nedeplasare

Proprietatea de nedeplasare a estimatorilor parametrilor modelului de regresie se


demonstrează în condiţiile respectării ipotezei că variabila X este nestochastică şi în baza
proprietăţii că variabilele aleatoare yi urmează aceeaşi lege de repartiţie, adică:
yi ~ N ( 0  1 xi ,  2 ) .
20 Regresia liniară simplă
Se demonstrează că: M ( ˆ 0 )  0 şi M ( ˆ 1 )  1 , ceea ce indică faptul că estimatorii
obţinuţi prin metoda celor mai mici pătrate sunt nedeplasaţi.

b. Proprietatea de normalitate
Dacă admitem ipoteza că  i ~ N ( 0 , 2 ) , estimatorii ˆ 0 , ˆ 1 , care sunt combinaţii liniare de
variabile normal distribuite, sunt normal repartizaţi. Parametrii acestor repartiţii sunt
prezentaţi mai jos.

M ( ˆ 0 )   0 , M ( ˆ 1 )   1 ,
2
V ( ˆ 1 ) 
 ( xi  x )2 ,
i
 
1 x2 
V ( ˆ 0 )   2   2 .
n  i
( x  x ) 
 i 
În concluzie, rezultă următoarele repartiţii ale estimatorilor:
 
ˆ 
1 ~ N  1 ,

2 
2  sau
 ( xi  x ) 
ˆ 1 ~ N 1 ,  2ˆ ,
1
 
 i 
  
ˆ  2 1
 0 ~ N  0 ,   
x2 
2   sau

ˆ 0 ~ N 0 ,  2ˆ . 
  n  ( xi  x )   0

  i 

c. Proprietatea de convergenţă
Estimatorii ˆ 0 , ˆ 1 sunt convergenţi, adică pentru un volum al eşantionului suficient de mare
şirurile estimatorilor converg în probabilitate către parametrii  0 ,  1 . Au loc relaţiile:
 
ˆ 0 nN 
p
0 ,
 ˆ 
1 nN
p
 1 .

d. Proprietatea de eficienţă
Estimatorul ̂ 1 este eficient pentru parametrul  1 , adică, dintre toţi estimatorii posibili, ̂ 1
are varianţa cea mai mică.

Se poate arăta că un estimator nedeplasat al dispersiei erorilor este dat prin relaţia:

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2
ˆ 
2 i
 i , iar
n2 n2
  ˆ i2 
 
M ( ˆ 2 )  M  i   ,
2

n2
 
Regresia liniară simplă 21
Considerăm relaţia de descompunere a variaţiei totale a variabile dependente, în condiţiile
existenţei legături liniare cu variabila independentă:
 ( yi  y )2  ( 0  1 xi  y )2   ( yi  0  1 xi )2 sau
i i i
VT  VE  VR .

Vom nota prin  ˆ i2   ( yi  ˆ 0  ˆ 1 xi )2  V̂R , adică estimatorul variaţiei reziduale.


i i

Dezvoltând relaţia de mai sus, se poate scrie:


V̂R   ( yi  ŷ )2  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , unde
i i i

V̂T   ( yi  ŷ ) este estimatorul variaţiei totale.


2

Rezultă:
V̂R  V̂T  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , iar
i i

 ( yi  ŷ )( xi  x ) côv( X ,Y )
ˆ 1  i
 , de unde rezultă:
 ( xi  x ) 2
V( X )
i

V̂R  V̂T  ˆ 1  ( xi  x )( yi  ŷ ) , iar


i

V̂E  ˆ 1  ( xi  x )( yi  ŷ ) , care este estimatorul variaţiei explicate.


i

Obţinem rezultatul:
V̂T  V̂E  V̂R .

Estimarea punctuală şi prin interval de încredere a parametrilor modelului

a. Estimarea punctuală
În baza proprietăţilor de nedeplasare şi convergenţă, parametrii modelului de regresie se
estimează punctual considerând estimaţiile calculate la nivelul unui eşantion reprezentativ
extras din populaţia de referinţă, pe baza relaţiilor:
n  xi y i   xi  y i
b1  i i i
şi
n xi2  (  xi )2
i i
b0  y  b1 x .
x i y i
x i
, y i

n n
reprezintă mediile variabilelor X, Y calculate la nivelul eşantionului.

b. Estimarea prin interval de încredere a parametrilor  0 ,  1


22 Regresia liniară simplă
La baza procedeului de estimare prin interval de încredere stau legile normale de repartiţie a
estimatorilor ˆ 0 , ˆ 1 . Astfel, dacă se consideră estimatorii standardizaţi, obţinem statisticile:
ˆ 1   1 ˆ   0
~ N( 0, 1 ) , 0 ~ N ( 0 , 1 ) , respectiv
 ˆ 1  ˆ 0
ˆ 1   1 ˆ   0
~ t( n  2 ) , 0 ~ t( n  2 ) ,
ˆ ˆ 1 ˆ ˆ 0
dacă se utilizează estimatorii abaterilor standard ale estimatorilor.

Conform proprietăţilor repartiţiei Student, pentru un nivel de încredere (1-) fixat, intervalul
de încredere pentru parametrul  1 se determină pe baza relaţiei:
 ˆ   
P 1 1
 t / 2   1   .
 ˆ ˆ 
 1 
Rezultă:
P( ˆ 1  t / 2ˆ ˆ 1   1  ˆ 1  t / 2ˆ ˆ 1 )  1   , unde

ˆ 2
ˆ ˆ 1  ,
 ( xi  x )2 iar
i

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2 V̂R
ˆ 2  i
 i sau ˆ 2  .
n2 n2 n2

Cu alte cuvinte, pentru un nivel de încredere egal cu (1-), limitele intervalului de încredere
pentru parametrul  1 sunt:
ˆ 1  t / 2ˆ ˆ . 1

Analog, pentru parametrul  0 , intervalul de încredere este:


ˆ 0  t / 2ˆ ˆ . 0

Pe baza datelor de la nivelul unui eşantion, se calculează un interval de încredere cu ajutorul


estimaţiilor. Se obţin intervalele:
b1  t / 2 sˆ , respectiv b0  t / 2 sˆ .
1 0

Estimaţiile pentru abaterile standard ale estimatorilor sunt:

 ( yi  b0  b1 xi )2 s2
sˆ  i
 ,
1
( n  2 ) ( xi  x )2  ( xi  x )2
i i

1 x2
sˆ  s 2 (  )
0
n  ( xi  x )2 , iar
i
Regresia liniară simplă 23

 ( yi  b0  b1 xi )2 .
s i este estimaţia parametrului
(n2)

Dacă notăm cu ei  yi  b0  b1 xi estimaţiile erorilor, estimaţia parametrului  devine:


 ei2
s i .
(n2)

Pentru componentele variaţiei, se obţin următoarele estimaţii:


TSS   ( yi  y )2 (Total Sum of Squares);
i

ESS   ( b0  b1 xi  y )2 (Explained Sum of Squares);


i

RSS   ( yi  b0  b1 xi )2   ei (Residual Sum of Squares);


2

i i

TSS = ESS + RSS.

Exemplu
Considerăm datele cu privire la repartiţia unei populaţii de 50 firme după profitul realizat
(variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu publicitatea
(variabila independentă X, exprimată în milioane lei).

Parametrii modelului liniar de regresie sunt estimaţi punctual şi prin interval de încredere cu
ajutorul programului SPSS, după cum urmează:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta Lower Bound Upper Bound
1 (Constant) -3.951 1.795 -7.561 -.342
cheltuieli cu publicitatea .100 .022 .551 .056 .143
a. Dependent Variable: profitul

Modelul estimat pentru cele două variabile este de forma:


y  3 ,95  0 ,1x .

Valoarea pozitivă a estimaţiei parametrului  1 indică o legătură directă între cheltuielile cu


publicitatea şi profitul firmei. Valorile estimaţiilor arată că în cazul lipsei cheltuielilor (X = 0)
firma pierde 3,95 sute milioane lei, iar la o creştere a cheltuielilor cu publicitatea de 1 milion
lei, profitul mediu al firmei creşte cu 0,1 sute milioane lei.

Intervalele de încredere pentru cei doi parametri au următoarea interpretare: cu un nivel de


încredere de 95%, valoarea parametrului  0 este acoperită de intervalul
(-7,56 ; -0,34), iar a parametrului  1 , de intervalul (0,056 ; 0,143).
24 Regresia liniară simplă

4. Indicatori de corelaţie

a. Coeficientul de corelaţie

Coeficientul de corelaţie teoretic este un parametru definit prin relaţia:


cov( X ,Y )
 sau
V ( X )V ( Y )
N  xi yi   xi  yi
 i i i

 2  2
,
 N  xi  (  xi )  N  yi  (  yi ) 
2 2

 i i  i i 
unde:  1    1 .

Coeficientul de corelaţie măsoară intensitatea legăturii dintre cele două variabile.

Dacă valoarea parametrului se apropie de unu, între variabile există o legătură intensă sau
puternică. Legătura este slabă dacă coeficientul are o valoare aproape de zero. Se consideră
semnificativă intensitatea legăturii dintre două variabile dacă   0 ,7 . Semnul coeficientului
indică sensul legăturii dintre variabile.

Observaţie
O altă relaţie pentru coeficientul de corelaţie se poate construi ţinând cont de relaţia
coeficientului de regresie  1 :
V( X )
  1 .
V(Y )

Estimarea coeficientului de corelaţie


Pentru acest parametru, se poate construi un estimator pe baza relaţiilor de mai sus:
V( X )
ˆ  ˆ 1 .
V̂ ( Y )

O estimaţie a coeficientului de corelaţie se obţine la nivelul unui eşantion, pe baza relaţiei:


s x2
r  b1 .
s y2

Observaţie
Dacă se realizează o standardizare a variabilelor X, Y, atunci estimatorul coeficientului de
corelaţie pentru aceste variabile este identic cu cel al coeficientului de regresie  1 .

b. Raportul de determinaţie şi raportul de corelaţie

Raportul de determinaţie
Regresia liniară simplă 25
Raportul de determinaţie este un parametru care se calculează pe baza valorilor reale (yi) şi a
valorilor teoretice ( y xi  0  1 xi ), valori calculate cu ajutorul modelului de regresie pentru
variabila dependentă.

Raportul de determinaţie măsoară cât din variaţia totală a variabilei dependente este explicat
de modelul de regresie:

 ( yx i
 y )2
VE V
  2 i
  1  R , unde: 0   2  1 .
 ( yi  y ) 2
VT VT
i

Exprimată în procente, valoarea raportului de determinaţie arată cât la sută din variaţia
variabilei dependente este determinată de variaţia variabilei independente.

Estimarea raportului de determinaţie


La nivelul unui selecţii de volum n, raportul de determinaţie este estimat pe baza relaţiei de
descompunere a estimatorului variaţiei totale:

 ( yi  ŷ )2   ( ŷi  ŷ )2   ( yi  ŷi )2 sau


i i i

V̂T  V̂E  V̂R

Observaţie
Deoarece variabila dependentă urmează o lege de repartiţie normală, de parametri (
 0   1 X ,  2 ), pentru variabilele de mai sus se pot construi variabile cu legi de repartiţie
cunoscute:
V̂T ~  2 ( n  1 ),
V̂E ~  2 ( k  1 ),
V̂R ~  2 ( n  k ),
unde k este numărul de parametri incluşi în model. Pentru modelul liniar simplu, k=1.

Estimatorul raportului de determinaţie se defineşte ca raport între estimatorul variaţiei


explicate şi estimatorul variaţiei totale. În aceste condiţii, se poate scrie relaţia:
V̂ V̂
ˆ 2  E  1  R .
V̂T V̂T

O estimaţie a raportului de determinaţie se obţine prin relaţia:


 ( b0  b1 xi  y )2 ESS RSS
R2  i
  1 .
 ( yi  y ) 2
TSS TSS
i

Observaţie
26 Regresia liniară simplă
Pentru modelul liniar simplu, au loc relaţiile:
 2   2 , r 2  R2 .

Raportul de corelaţie
Indicatorul    2 se numeşte raport de corelaţie şi măsoară intensitatea legăturii dintre cele
două variabile.

Raportul de corelaţie respectă condiţia: 0    1 . Estimaţia raportului de corelaţie se notează


cu R.

Exemplu
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), estimaţiile pentru raportul de corelaţie şi pentru raportul de
determinaţie, calculate în SPSS, sunt:

Model Summary

Model R R Square
1 .551a .304
a. Predictors: (Constant), cheltuieli cu publicitatea

Valoarea raportului de determinaţie arată că 30,4% din variaţia variabilei dependente este
explicată de variaţia variabilei independente inclusă în model. Deoarece legătura dintre
variabile este una directă, estimaţia coeficientului de corelaţie este egală cu cea a
coeficientului de corelaţie, r=R=0,55, ceea ce indică o legătură de intensitate medie între cele
două variabile.

5. Testarea parametrilor şi a modelului de regresie

Testarea parametrilor modelului de regresie, precum şi a modelului de regresie se realizează


după schema clasică a unui procedeu de testare, ale cărei etape sunt precizate în continuare.

Etapele procesului testării unei ipoteze statistice sunt:


1. formularea ipotezelor (ipoteza nulă şi ipoteza alternativă);
2. alegerea pragului de semnificaţie  sau a limitei erorii de speţa întâi (eroarea de a
respinge ipoteza nulă în condiţiile în care aceasta este adevărată);
3. alegerea statisticii test adecvate, care, în condiţiile acceptării ipotezei nule, are o lege
de repartiţie specificată;
4. determinarea unei valori teoretice a testului, în funcţie de legea de repartiţie şi de
pragul de semnificaţie ales;
5. calcularea unei valori a statisticii test pe baza datelor de la nivelul unui eşantion;
6. aplicarea regulii de decizie de acceptare sau de respingere a ipotezei nule (care în
esenţă constă în compararea valorii calculate a testului cu cea teoretică).
Regresia liniară simplă 27
Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua în două
moduri: prin compararea valorii calculate a testului cu valoarea teoretică sau prin compararea
semnificaţiei testului cu pragul de semnificaţie.

Valoarea teoretică se citeşte pentru un prag de semnificaţie ales şi pentru o statistică cu legea
de repartiţie cunoscută. Pentru legea Student şi un prag de semnificaţie  , valoarea din
tabele ( t ,n ) are proprietatea: P( t  t ,n )   .

Calculul exact al nivelului de semnificaţie, p-value sau Sig

Probabilitatea calculată, asociată valorii calculate a testului, a primit numele de semnificaţie a


testului şi este notată cu p-value sau Sig. Pentru o statistică Student, Sig t este probabilitatea
cu care se acceptă ipoteza nulă şi este dată de relaţia:
Sig t  P( t  tcalc ) .

Utilizând tabela Student, pentru o valoare calculată egală cu 3,49, un eşantion de volum egal
cu 40, Sig t este: P( t  3 ,49 )  0 ,0015 .

Decizia pe baza semnificaţiei testului presupune următoarele două situaţii:


- dacă semnificaţia testului este mai mare sau egală decât pragul de semnificaţie, Sigt   , se
acceptă ipoteza nulă, cu o probabilitate egală cu (1-);
- dacă Sigt   , se respinge ipoteza nulă, cu probabilitatea (1-).

Testarea parametrilor modelului


Parametrii modelului de regresie liniară se testează cu ajutorul testului Student sau al testului
t. Vom exemplifica etapele testării pentru parametrul  1 .

Testul t
Considerăm un test bilateral, cu următoarele etape:

1. Formularea ipotezelor
H 0 :  1  0 (între cele două variabile nu există o legătură liniară);
H 1 :  1  0 (între variabile există o legătură de tip liniar).

2. Alegerea pragului de semnificaţie 


De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi
modificată de utilizator).

3. Alegerea statisticii test


ˆ 1  1
Se alege statistica Student t  .
ˆ ˆ
1

4. Determinarea valorii teoretice a testului


Dacă se acceptă ipoteza nulă, statistica test este:
ˆ
t  1 ~ t( n  2 ) , unde
ˆ ˆ
1
28 Regresia liniară simplă

 ( yi  ˆ 0  ˆ 1 xi )2
ˆ ˆ 1  i
.
( n  2 ) ( xi  x )2
i

Pentru pragul de semnificaţie stabilit şi cunoscând legea de repartiţie a statisticii test, pentru
n-2 grade de libertate, se citeşte din tabela Student valoarea teoretică t . Se alege /2 ;n  2
2
deoarece testul este bilateral (figura 3.5), iar zonele de respingere sunt delimitate de valorile
 t  t
; n  2 şi ;n  2 .
2 2

De exemplu, pentru un prag de semnificaţie de 0,05 şi un eşantion de volum n=150, din


tabele se citeşte valoarea t0 ,025 ;148  1,96 .

 t 0 t
;n  2 ;n  2
2 2
Figura 4. Valorile teoretice ale statisticii Student pentru un nivel de încredere de ( 1   )

5. Determinarea valorii calculate a testului


La nivelul unui eşantion se obţine o estimaţie a statisticii test:
b b1 b1
tcalc  1  
sˆ
1  ( yi  b0  b1 xi )2  ei
2
.
i i
( n  2 ) ( xi  x )2
( n  2 ) ( xi  x )2

i i

6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă tcalc  [ t , t ] , se acceptă H cu o probabilitate egală cu (1-);
;n  2 ;n  2 0
2 2

- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:


- dacă Sigt   , se acceptă ipoteza nulă.
- dacă Sigt   , se respinge H0.

Exemplu
Regresia liniară simplă 29
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), testarea parametrilor este realizată în SPSS pe baza rezultatelor din
tabelul de mai jos.
Coefficientsa

Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -3.951 1.795 -2.201 .033
cheltuieli cu publicitatea .100 .022 .551 4.540 .000
a. Dependent Variable: profitul

Valoarea calculată a testului Student, pentru fiecare parametru, se obţine prin relaţia
b
tcalc  i , i  0 ,1 .
sˆ
i

În tabelul de mai sus, estimaţiile parametrilor modelului de regresie se găsesc în coloana a


doua (valorile lui B din coloana Unstandardized Coefficients), iar estimaţiile abaterii standard
a estimatorului se află în coloana a treia (valorile Std. Error).

Din datele tabelului de mai sus, valoarea calculată a testului, prezentată în coloana a cincea
(coloana t), se obţine prin raportul dintre valorile coloanei a doua şi a treia. De exemplu,
pentru parametrul  1 , valoarea statisticii test este:
0 ,1
tcalc   4 ,54 .
0 ,022

În coloana a patra (valoarea lui Beta), este calculată estimaţia coeficientului de regresie în
cazul standardizării variabilelor din model. Valoarea coeficientului de regresie este identică,
în acest caz, cu cea a coeficientului de corelaţie (r=0,551).

În ultima coloană a tabelului sunt prezentate valorile calculate ale probabilităţilor cu care se
obţin cele două estimaţii ale parametrilor (Sig t).

Aplicând regula de decizie prin compararea pragului de semnificaţie cu valoarea Sig t, se ia


decizia de a respinge ipoteza nulă cu o probabilitate de 95% pentru fiecare parametru în parte.
În consecinţă, se consideră că parametrii estimaţi sunt semnificativ diferiţi de zero, ceea ce
este echivalent cu a spune că între cele două variabile există o legătură de tip liniar.

Testarea modelului de regresie

Modelul de regresie se testează cu ajutorul testului Fisher. Este un test asupra semnificaţiei
modelului de regresie utilizat.

În acest caz, ipoteza nulă se formulează asupra ambilor parametri ai modelului:


H 0 :  0  0 ,  1  0 (modelul nu este semnificativ);
H 1 :  0  0 ,  1  0 (modelul explică semnificativ legătura dintre variabile).
30 Regresia liniară simplă
Statistica Fisher se construieşte pe baza procedeului de descompunere a variaţiei totale a
variabilei dependente (VT) în două componente: variaţia explicată (VE) şi variaţia reziduală
(VR). Utilizând estimatorii componentelor variaţiei, se construieşte statistica:
V̂E
V̂ n  k
F  k 1  E  ~ ( k  1,n  k ) ,
V̂R V̂R k  1
nk
care urmează o lege de repartiţie Fisher, determinată de parametrii: k, numărul parametrilor
din model (pentru modelul liniar simplu k=2) şi n, volumul eşantionului.

Pentru un prag de semnificaţie fixat, se citeşte valoarea teoretică F ; k  1; n  k .

0
F ;k 1;n  k

Figura 5. Valoarea teoretică a statisticii Fisher pentru un nivel de încredere de ( 1   )

Valoarea calculată a statisticii Fisher este:


ESS
 ( b0  b1 xi  y )2 n  k
Fcalc  k  1  i  .
RSS  ( yi  b0  b1 xi )2 k  1
nk i

Decizia se ia prin compararea valorii calculate a testului cu valoarea din tabela Fisher:
- dacă Fcalc  F ;k  1; n  k , se respinge ipoteza nulă;
- dacă Fcalc  F ; k  1;n  k , se acceptă ipoteza nulă, cu probabilitatea ( 1   ).

Exemplu
Modelul de regresie estimat pe baza datelor privind repartiţia unei populaţii de 50 firme după
profitul realizat (variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu
publicitatea (variabila independentă X, exprimată în milioane lei).este testat cu ajutorul
testului Fisher, conform datelor din tabelul de mai jos.
Regresia liniară simplă 31

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 51.021 1 51.021 20.935 .000a
Residual 116.979 48 2.437
Total 168.000 49
a. Predictors: (Constant), cheltuieli cu publicitatea
b. Dependent Variable: profitul

În tabelul ANOVA, realizat cu ajutorul programului SPSS, sunt prezentate estimaţiile


variaţiei, pe cele două componente (coloana 2, Sum of Squares), precum şi estimaţiile
varianţelor (coloana 4, Mean Squares), obţinute prin raportarea acestora la numărul de grade
de libertate (coloana 3, df).

Componentele variaţiei:
- variaţia explicată estimată este 51,021 (Explained Sum of Squares sau Regression Sum of
Squares);
- variaţia reziduală estimată este 116,979 (Residual Sum of Squares);
- variaţia totală estimată, suma celor două precedente, este 168 (Total Sum of Squares);

Gradele de libertate asociate:


k – 1 = 1;
n – k = 48;
n – 1 = 49;
n = 50.

Varianţa estimată a erorilor este:


 ( yi  b0  b1 xi )2
116 ,979
s2  i   2 ,437 .
n2 50  2

Valoarea statisticii Fisher este:


ESS
51,021
Fcalc  k  1   20 ,935 .
RSS 2 ,437
nk

Valoarea ridicată a statisticii este determinată de valoarea scăzută a estimaţiei varianţei


erorilor, ceea ce înseamnă că modelul este valid sau este semnificativ pentru a explica
legătura dintre cele două variabile.

În condiţiile discutate, decizia cu privire la ipoteza nulă este evidentă, aşa cum o arată şi
valoarea semnificaţiei testului: Sig F = 0,0 < 0,05. Adică, cu o probabilitate de 95%, se
respinge ipoteza nulă sau ipoteza că modelul nu este adecvat realităţii studiate.

6. Testarea indicatorilor de corelaţie


32 Regresia liniară simplă
a. Testarea coeficientului de corelaţie

1. Ipoteze
H 0 :   0 (între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

2. Pragul de semnificaţie (   0 ,05 )

3. Testul statistic
Se utilizează statistica Student, care în condiţiile acceptării ipotezei nule este:
ˆ
t ~ t( n  2 )
1  ˆ 2 .
n2

4. Valorile teoretice din tabela Student


Pentru un test bilateral, se citeşte valoarea t / 2 ;n  2 .

5. Valoarea calculată a testului


La nivelul unui eşantion, se calculează:
r
tcalc 
1  r2 .
n2

6. Decizia
- dacă tcalc  [ t / 2 ; n  2 , t / 2 ;n  2 ] , se acceptă H0 cu o probabilitate egală cu (1-);
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

b. Testarea raportului de corelaţie

Demersul testării este prezentat prin etapele de mai jos.

- Se formulează ipotezele:
H 0 :   0 între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

- Se alege pragul de semnificaţie .

- Se utilizează o statistică Fisher, care are următoarea expresie:


ˆ 2 nk
F  ,
1  ˆ 2 k  1
care urmează o lege de repartiţie Fisher de k-1 şi n-k grade de libertate.

- Se citeşte valoarea teoretică F ;k 1;nk din tabela lui Fisher, pentru un prag de semnificaţie
 stabilit şi pentru k-1, respectiv (n-k) grade de libertate.
Regresia liniară simplă 33
- Se obţine valoarea calculată a testului:
R2 nk
Fcalc   ,
1 R k 1
2

unde R2 este raportul de determinaţie calculat la nivelul unui eşantion.

- Se ia decizia pe baza următoarei reguli: dacă Fcalc  F ;k  1; n  k , se respinge ipoteza H0. În


funcţie de semnificaţia testului, dacă SigF < , se respinge H0, cu o probabilitate egală cu 1-
.

Observaţie
Testul Fisher utilizat pentru testarea modelului este identic cu cel folosit la testarea raportului
de corelaţie:
ESS n  k R2 nk
Fcalc     . La baza acestei egalităţi stau relaţiile:
RSS k  1 1  R k  1
2

ESS
R2  , TSS  ESS  RSS .
TSS
34 Regresia liniară simplă

Test2
1. În modelul de regresie liniară simplă, parametrul  reprezintă:
a) ordonata la origine
b) nivelul mediu al variabilei dependente dacă variabila independentă ia valoarea 1
c) variaţia absolută medie a variabilei dependente la o variaţie absolută cu o unitate a
variabilei independente
d) panta dreptei de regresie

2. Pentru un model de regresie liniară simplă, coeficientul de corelaţie este identic cu panta
dreptei de regresie dacă:
a) valorile variabilei dependente sunt mai mari decât cele ale variabilei independente
b) valorile celor două variabile sunt standardizate
c) valorile celor două variabile sunt diferite

3. Coeficientul de determinaţie arată:


a) gradul de intensitate a legăturii dintre două variabile
b) ponderea variaţie variabilei dependente explicate de variaţia variabilei independente
c) egalitatea mediilor a două populaţii

4. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Valoarea calculată a testului Student care verifică ipoteza existenţei unei legături dintre cele două
variabile este:
a) 11,99
b) 19,11
c) 33,2

5. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului scade în medie cu
18331,2$
2
Răspunsuri la teste: 1 – c,d; 2 – b; 3 – a,b; 4 – c; 5 – b,c; 6 – a,b; 7 – a,c
Regresia liniară simplă 35
b) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului creşte în medie cu
3909,9$
c) cu o încredere de 95%, se respinge ipoteza că numărul de ani de studii nu are o influenţă
semnificativă asupra salariului
d) cu o eroare de 5%, se acceptă ipoteza că între cele două variabile analizate nu există nici o
legătură

6. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Este valabilă interpretarea:


a) coeficientul de corelaţie dintre cele două variabile este semnificativ statistic
b) cu o probabilitate de 95%, se respinge ipoteza că salariul nu este influenţat de nivelul de
educaţie
c) semnificaţia testului este 0,661

7. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) valoarea 0,661 este estimaţia coeficientului de corelaţie
b) cu o probabilitate de 95%, se acceptă că valoare 0,661 este nesemnificativă
c) valoarea 0,661 este panta de regresie pentru modelul cu variabile standardizate

Unitatea de studiu 2. REGRESIA LINIARĂ SIMPLĂ

Cuprins unitate de studiu


2.1 Tipuri regresie
36 Regresia liniară simplă
2.2 Interpretarea geometrică şi statistică a regresiei
2.3 Modelul econometric de regresie liniară simplă

Obiective
- prezentarea tipurilor de regresie în econometrie
- analiza statistică şi geometrică a regresiei
- prezentarea modelului de regresie liniară simplă: componente, estimarea şi testarea
parametrilor, testarea modelului

Competenţe
- însuşirea conceptului de regresie
- formarea abilităţilor teoretice şi practice de construire a unui model de regresie liniară
simplă
- deprinderea de a construi un model liniar simplu cu date de la nivelul economiei României
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare

Termen mediu: 4 h

Bibliografie selectivă
6. Bourbonnais, R., Économétrie, Dunod, Paris, 2000

7. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009

8. Gujarati, D.N., Basic econometrics, McGraw-Hill, New York, 1995

9. Ionescu, H.M., Introducere în statistica matematică, Editura Didactică şi


Pedagogică, Bucureşti, 1962
10. Maddala, G.S., Introduction to Econometrics, John Wiley & Sons, 2001
Regresia liniară simplă 37

2.1. Tipuri de regresie

Legăturile dintre variabilele statistice pot fi clasificate în mai multe categorii, după
următoarele criterii: momentul la care se referă, tipul de dependenţă dintre variabile, numărul
variabilelor, tipul (forma) legăturii etc.

Modele de moment şi dinamice


Modelul de moment, numit şi model static, este modelul econometric în care legătura dintre
variabile se referă la acelaşi moment sau la aceeaşi perioadă de timp. Pentru construirea
acestor modele se utilizează date din anchete de moment, cum ar fi sondajele statistice,
recensămintele sau alte cercetări de moment.

Modelul dinamic este modelul econometric construit pe baza seriilor de timp. Factorul timp
apare în model prin precizarea momentelor sau a intervalelor de timp la care se referă datele.
Există şi modele în care timpul apare ca o variabilă independentă, exprimând trendul seriei de
timp.

Modele deterministe şi stochastice


Dependenţa dintre variabile poate fi:
- deterministă sau funcţională (matematică). Asemenea modele sunt mai rar întâlnite, pentru
că presupun că între variabile există o legătură de tipul yi  f ( xi ) , adică variabila dependentă
este explicată în totalitate de variabilele independente din model. Modelele funcţionale sunt
întâlnite în domeniul ştiinţelor naturii, pe când în ştiinţele sociale se utilizează mai frecvent
modelele probabiliste.
- stochastică sau probabilistă. În aceste modele, pentru o valoare a variabilei independente,
există mai multe valori ale variabilei dependente, determinate probabilistic. În modelele
stochastice, variabila dependentă este influenţată şi de o serie de factori care nu apar explicit
în model, dar sunt sintetizaţi printr-o variabilă aleatoare numită variabilă reziduală. Modelul
stochastic este de forma:
yi  f ( xi )   i .

Modele simple şi multiple


Dacă în modelul de regresie apare o singură variabilă independentă, regresia se numeşte
simplă. Un exemplu de model simplu este modelul care exprimă dependenţa consumului de
preţ: C  f ( P ) . Aceste modele sunt întâlnite mai rar în economie, deoarece un fenomen
depinde, de regulă, de mai mulţi factori de influenţă. Dacă se alege totuşi un factor
determinant, ceilalţi factori pot fi consideraţi ca fiind avuţi în vedere prin variabila reziduală.

Dacă în model apar cel puţin două variabile independente, regresia se numeşte multiplă.
Modelul are forma: Y  f ( X 1 , X 2 )   , iar variabila dependentă este explicată prin influenţa
cumulată a factorilor care apar în model.

Modele liniare şi neliniare


38 Regresia liniară simplă
Modelul liniar este modelul în care relaţia dintre variabile este una de proporţionalitate,
legătura dintre variabile fiind descrisă de o funcţie liniară. De exemplu, modelele
Y   0   1 X şi Y   0   1 X 1   2 X 2 sunt modele liniare.

Modelul neliniar este modelul în care legătura dintre variabile este explicată de o funcţie
neliniară. Exemple:
Y  0   1 ln X , ln Y   0   1 X , Y  0  X 1 1 etc.

2.2. Interpretarea geometrică şi statistică a regresiei

Interpretarea geometrică
Locul geometric al mediilor condiţionate ale variabilei dependente, pentru valori fixate ale
variabilei independente, reprezintă o linie poligonală sau o curbă (linia de regresie, pentru caz
discret, sau curba de regresie, pentru caz continuu).

Analiza dependenţei legăturii dintre cele două variabile se poate realiza pe baza unei judecăţi
statistice elementare: tipul dependenţei dintre cele două variabile sau modul în care variabila
independentă o influenţează pe cea dependentă este sugerat de forma curbei sau liniei de
regresie statistică, construită pe baza mediilor condiţionate, calculate cu ajutorul datelor
disponibile.

De exemplu, dacă linia de regresie statistică se apropie de o dreaptă, datele sugerează un tip
de dependenţă liniară între variabilele studiate (figura 1).

6.00

5.00
Value profit

4.00

3.00

2.00

60.00 70.00 80.00 90.00 100.00

ch_publicit

Figura 1. Linia de regresie statistică a lui Y în raport cu X

b. Interpretarea statistică
Conform teoriei probabilităţilor şi statisticii matematice, regresia este o medie condiţionată
definită pe o distribuţie bi- sau multidimensională. În cazul unei legături dintre două variabile,
regresia este definită prin aplicaţia:
M ( Y / X  xi )  f ( xi ) sau M ( Y / X )  f ( x )
Regresia liniară simplă 39
Pentru cazul liniar, regresia sau media condiţionată este o funcţie liniară:
M ( Y / X )   0   1 X , unde 0, 1 sunt parametrii modelului, iar X este variabila
independentă, considerată nestochastică.

În consecinţă, regresia liniară este:


yi  M ( Y / X  xi )   0   1 xi .

2.3. Modelul econometric de regresie liniară simplă

1. Prezentarea modelului

În cazul regresiei liniare simple, modelul are următoarea expresie:


yi  0  1 xi   i sau
Y  0  1 X   ,
iar media condiţionată este:
M ( Y / X  xi )   0   1 xi .

Componentele modelului
Modelul econometric liniar simplu include două componente: una deterministă şi una
stochastică.

Componenta deterministă este reprezentată de media condiţionată:


M ( Y / X  xi )  0  1 xi .
În această componentă apare variabila independentă, care este o variabilă observabilă din
punct de vedere statistic, şi parametrii modelului, care sunt constante reale.

Componenta aleatoare este reprezentată de variabila aleatoare numită eroare sau reziduu,
notată cu  . Natura acestei variabile este legată de următoarele probleme care însoţesc
procesul de modelare: natura fenomenului studiat, specificarea modelului, erorile de
măsurare3.

În modelul econometric,  i sunt variabile aleatoare construite pentru fiecare repartiţie


condiţionată de forma Yi X  xi .

2. Parametrii modelului
În modelul de regresie liniară simplă, y i   0   1 xi   i , există doi parametri: 0 şi  1 .
Aceştia se mai numesc şi coeficienţi de regresie.

- 0 este constanta sau termenul liber (intercept) şi indică valoarea medie a variabilei
dependente Y atunci când variabila independentă X ia valoarea zero. Este ordonata la origine a
dreptei de regresie sau intersecţia dreptei cu axa OY. În unele modele, acest parametru poate
să lipsească, caz în care dreapta trece prin origine.

3
G.S. Maddala, Introduction to econometrics, John Wiley and Sons, 2001, p. 64
40 Regresia liniară simplă
-  1 (slope) indică variaţia absolută medie a variabilei dependente la o variaţie absolută cu o
unitate a variabilei independente. Cu alte cuvinte,  1 arată răspunsul variabilei Y la o creştere
sau scădere cu o unitate a variabilei X.

dY Y
1   , unde Y  0  1 X   .
dX X

Răspunsul variabilei dependente poate fi în acelaşi sens ( 1  0 ), ceea ce indică o legătură


directă sau pozitivă între variabile (de exemplu, dacă X creşte cu o unitate, Y creşte în medie
cu 1 ) sau poate fi în sens contrar ( 1  0 ), adică între variabile există o legătură inversă.
Dacă 1  0 , între cele două variabile nu există o legătură de tip liniar.

y x  0  1 x

0 1
0 X

Figura 2. Linia de regresie sau media condiţionată

Ipotezele clasice ale modelului de regresie

Modelarea econometrică implică anumite condiţii sau ipoteze asupra celor două componente
ale modelului, ipoteze care vor fi prezentate în continuare. Ipotezele acestui model se împart
în două categorii şi privesc cele două componente ale modelului: componenta deterministă şi
componenta aleatoare.

Ipoteze cu privire la variabilele independente


- variabila independentă X este observabilă (nestochastică);
- lipsa coliniarităţii variabilelor independente – între variabilele factoriale nu există o legătură
liniară (în cazul regresiei multiple);
- variabila independentă are o dispersie finită şi este posibil de determinat.

Ipoteze cu privire la variabila aleatoare eroare


- eroarea medie este nulă: M (  i )  0 .
Cu alte cuvinte, în medie, modelul este bine specificat, adică factorii neincluşi explicit în
model nu afectează sistematic valoarea medie a variabilei dependente. Altfel spus, această
ipoteză presupune că valoarea aşteptată, sperată, a erorii la nivelul repartiţiilor condiţionate de
tipul Yi X  xi este egală cu zero (figura 3.3).
Regresia liniară simplă 41

- ipoteza de homoscedasticitate: V (  i )  M (  i2 )   2 .
Această ipoteză presupune că varianţa erorii este constantă la nivelul repartiţiilor condiţionate
de tipul Yi X  xi . Repartiţiile variabilei reziduale pentru fiecare repartiţie condiţionată sunt
prezentate în figura 3.3.

- ipoteza de normalitate a erorilor:  i ~ N ( 0 , 2 ) .


La nivelul fiecărei repartiţii condiţionate, variabila eroare urmează o lege de repartiţie
normală.

- ipoteza de necorelare a erorilor: cov(  i , j )  0 sau erorile nu se influenţează reciproc, sunt


independente.

- lipsa corelaţiei dintre variabila independentă şi variabila eroare, cov(  i , xi )  0 .


Dacă se admite ipoteza  i ~ N ( 0 , 2 ) , atunci variabila dependentă este o variabilă aleatoare
normal distribuită de forma: Y ~ N ( 0  1 X ; 2 ) .

Y
y x  0  1 x

0 x1 x2 xi X

Figura 3. Repartiţiile erorilor la nivelul repartiţiilor condiţionate

3. Estimarea parametrilor modelului

În practică, de obicei, nu se dispune de date decât de la nivelul unui eşantion de volum n. Pe


baza acestor date se realizează estimarea parametrilor modelului de regresie.

Pentru modelul y i   0   1 xi   i , la nivelul unui eşantion se obţine ecuaţia pe baza


estimatorilor:
yi  ˆ 0  ˆ 1 xi  ˆ i sau
yi  ŷi  ˆ i ,
unde ŷi  ˆ 0  ˆ 1 xi estimează media condiţionată M(Y/X).

Din relaţiile de mai sus, rezultă ˆ i  yi  ŷi sau ˆ i  yi  ˆ 0  ˆ 1 xi . Cu alte cuvinte, dacă se
dispune de un set de date statistice obţinute prin sondaj, se pot calcula erorile estimate ale
42 Regresia liniară simplă
modelului de regresie ca diferenţe dintre valorile empirice şi cele estimate cu ajutorul
modelului pentru variabila dependentă.

Determinarea estimatorilor prin Metoda celor mai mici pătrate


Potrivit metodei celor mai mici pătrate, estimatorii parametrilor modelului de regresie verifică
condiţia:
 ˆ i2  min sau  ( yi  ˆ 0  ˆ 1 xi )2  min .
i i

Prin metoda celor mai mici pătrate, estimatorii parametrilor modelului de regresie liniară
simplă se obţin rezolvând problema de optim:
S   yi  ˆ 0  ˆ 1 xi )2  min .
i

Soluţia se obţine prin respectarea a două condiţii: de extrem şi de minim, pentru aplicaţia
S  S ( ˆ 0 , ˆ 1 ) .
Condiţia de extrem presupune ecuaţiile:
 S ( 
ˆ , ˆ
1 )
0
 0 2  ( yi   0   1 xi )( 1 )  0
 ˆ ˆ
 ˆ


0

 S (  0 ,  1 )  0
ˆ ˆ sau 
i

2  ( yi   0  
ˆ ˆ x )(  x )  0
1 i i
  i
  ˆ
1

Rezultă:
 ( yi  ˆ ˆ
0   1 xi )  0
 i

 xi ( yi   0  
ˆ ˆ x )  0
1 i
 i

sau
 nˆ   ˆ x   y
0 1 i i
 i i
 ˆ ˆ
 0 i
   1   yi xi
2
x xi
 i i i

Rezolvarea sistemului conduce la următoarele relaţii ale estimatorilor:


n  xi yi   xi  yi
ˆ 1  i i i
sau
n x  (  xi )2
2
i
i i

 ( yi  yˆ )( xi  x ) côv( X , Y )
ˆ1  i
 .
(x x)
i
i
2
V (X )

ˆ0  yˆ  ˆ1 x .

Proprietăţile estimatorilor ˆ 0 , ˆ1

a. Proprietatea de nedeplasare

Proprietatea de nedeplasare a estimatorilor parametrilor modelului de regresie se


demonstrează în condiţiile respectării ipotezei că variabila X este nestochastică şi în baza
proprietăţii că variabilele aleatoare yi urmează aceeaşi lege de repartiţie, adică:
yi ~ N ( 0  1 xi ,  2 ) .
Regresia liniară simplă 43
Se demonstrează că: M ( ˆ 0 )  0 şi M ( ˆ 1 )  1 , ceea ce indică faptul că estimatorii
obţinuţi prin metoda celor mai mici pătrate sunt nedeplasaţi.

b. Proprietatea de normalitate
Dacă admitem ipoteza că  i ~ N ( 0 , 2 ) , estimatorii ˆ 0 , ˆ 1 , care sunt combinaţii liniare de
variabile normal distribuite, sunt normal repartizaţi. Parametrii acestor repartiţii sunt
prezentaţi mai jos.

M ( ˆ 0 )   0 , M ( ˆ 1 )   1 ,
2
V ( ˆ 1 ) 
 ( xi  x )2 ,
i
 
1 x2 
V ( ˆ 0 )   2   2 .
n  i
( x  x ) 
 i 
În concluzie, rezultă următoarele repartiţii ale estimatorilor:
 
ˆ 
1 ~ N  1 ,

2 
2  sau
 ( xi  x ) 
ˆ 1 ~ N 1 ,  2ˆ ,
1
 
 i 
  
ˆ  2 1
 0 ~ N  0 ,   
x2 
2   sau

ˆ 0 ~ N 0 ,  2ˆ . 
  n  ( xi  x )   0

  i 

c. Proprietatea de convergenţă
Estimatorii ˆ 0 , ˆ 1 sunt convergenţi, adică pentru un volum al eşantionului suficient de mare
şirurile estimatorilor converg în probabilitate către parametrii  0 ,  1 . Au loc relaţiile:
 
ˆ 0 nN 
p
0 ,
 ˆ 
1 nN
p
 1 .

d. Proprietatea de eficienţă
Estimatorul ̂ 1 este eficient pentru parametrul  1 , adică, dintre toţi estimatorii posibili, ̂ 1
are varianţa cea mai mică.

Se poate arăta că un estimator nedeplasat al dispersiei erorilor este dat prin relaţia:

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2
ˆ 
2 i
 i , iar
n2 n2
  ˆ i2 
 
M ( ˆ 2 )  M  i   ,
2

n2
 
44 Regresia liniară simplă
Considerăm relaţia de descompunere a variaţiei totale a variabile dependente, în condiţiile
existenţei legături liniare cu variabila independentă:
 ( yi  y )2  ( 0  1 xi  y )2   ( yi  0  1 xi )2 sau
i i i
VT  VE  VR .

Vom nota prin  ˆ i2   ( yi  ˆ 0  ˆ 1 xi )2  V̂R , adică estimatorul variaţiei reziduale.


i i

Dezvoltând relaţia de mai sus, se poate scrie:


V̂R   ( yi  ŷ )2  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , unde
i i i

V̂T   ( yi  ŷ ) este estimatorul variaţiei totale.


2

Rezultă:
V̂R  V̂T  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , iar
i i

 ( yi  ŷ )( xi  x ) côv( X ,Y )
ˆ 1  i
 , de unde rezultă:
 ( xi  x ) 2
V( X )
i

V̂R  V̂T  ˆ 1  ( xi  x )( yi  ŷ ) , iar


i

V̂E  ˆ 1  ( xi  x )( yi  ŷ ) , care este estimatorul variaţiei explicate.


i

Obţinem rezultatul:
V̂T  V̂E  V̂R .

Estimarea punctuală şi prin interval de încredere a parametrilor modelului

a. Estimarea punctuală
În baza proprietăţilor de nedeplasare şi convergenţă, parametrii modelului de regresie se
estimează punctual considerând estimaţiile calculate la nivelul unui eşantion reprezentativ
extras din populaţia de referinţă, pe baza relaţiilor:
n  xi y i   xi  y i
b1  i i i
şi
n xi2  (  xi )2
i i
b0  y  b1 x .
x i y i
x i
, y i

n n
reprezintă mediile variabilelor X, Y calculate la nivelul eşantionului.

b. Estimarea prin interval de încredere a parametrilor  0 ,  1


Regresia liniară simplă 45
La baza procedeului de estimare prin interval de încredere stau legile normale de repartiţie a
estimatorilor ˆ 0 , ˆ 1 . Astfel, dacă se consideră estimatorii standardizaţi, obţinem statisticile:
ˆ 1   1 ˆ   0
~ N( 0, 1 ) , 0 ~ N ( 0 , 1 ) , respectiv
 ˆ 1  ˆ 0
ˆ 1   1 ˆ   0
~ t( n  2 ) , 0 ~ t( n  2 ) ,
ˆ ˆ 1 ˆ ˆ 0
dacă se utilizează estimatorii abaterilor standard ale estimatorilor.

Conform proprietăţilor repartiţiei Student, pentru un nivel de încredere (1-) fixat, intervalul
de încredere pentru parametrul  1 se determină pe baza relaţiei:
 ˆ   
P 1 1
 t / 2   1   .
 ˆ ˆ 
 1 
Rezultă:
P( ˆ 1  t / 2ˆ ˆ 1   1  ˆ 1  t / 2ˆ ˆ 1 )  1   , unde

ˆ 2
ˆ ˆ 1  ,
 ( xi  x )2 iar
i

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2 V̂R
ˆ 2  i
 i sau ˆ 2  .
n2 n2 n2

Cu alte cuvinte, pentru un nivel de încredere egal cu (1-), limitele intervalului de încredere
pentru parametrul  1 sunt:
ˆ 1  t / 2ˆ ˆ . 1

Analog, pentru parametrul  0 , intervalul de încredere este:


ˆ 0  t / 2ˆ ˆ . 0

Pe baza datelor de la nivelul unui eşantion, se calculează un interval de încredere cu ajutorul


estimaţiilor. Se obţin intervalele:
b1  t / 2 sˆ , respectiv b0  t / 2 sˆ .
1 0

Estimaţiile pentru abaterile standard ale estimatorilor sunt:

 ( yi  b0  b1 xi )2 s2
sˆ  i
 ,
1
( n  2 ) ( xi  x )2  ( xi  x )2
i i

1 x2
sˆ  s 2 (  )
0
n  ( xi  x )2 , iar
i
46 Regresia liniară simplă

 ( yi  b0  b1 xi )2 .
s i este estimaţia parametrului
(n2)

Dacă notăm cu ei  yi  b0  b1 xi estimaţiile erorilor, estimaţia parametrului  devine:


 ei2
s i .
(n2)

Pentru componentele variaţiei, se obţin următoarele estimaţii:


TSS   ( yi  y )2 (Total Sum of Squares);
i

ESS   ( b0  b1 xi  y )2 (Explained Sum of Squares);


i

RSS   ( yi  b0  b1 xi )2   ei (Residual Sum of Squares);


2

i i

TSS = ESS + RSS.

Exemplu
Considerăm datele cu privire la repartiţia unei populaţii de 50 firme după profitul realizat
(variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu publicitatea
(variabila independentă X, exprimată în milioane lei).

Parametrii modelului liniar de regresie sunt estimaţi punctual şi prin interval de încredere cu
ajutorul programului SPSS, după cum urmează:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta Lower Bound Upper Bound
1 (Constant) -3.951 1.795 -7.561 -.342
cheltuieli cu publicitatea .100 .022 .551 .056 .143
a. Dependent Variable: profitul

Modelul estimat pentru cele două variabile este de forma:


y  3 ,95  0 ,1x .

Valoarea pozitivă a estimaţiei parametrului  1 indică o legătură directă între cheltuielile cu


publicitatea şi profitul firmei. Valorile estimaţiilor arată că în cazul lipsei cheltuielilor (X = 0)
firma pierde 3,95 sute milioane lei, iar la o creştere a cheltuielilor cu publicitatea de 1 milion
lei, profitul mediu al firmei creşte cu 0,1 sute milioane lei.

Intervalele de încredere pentru cei doi parametri au următoarea interpretare: cu un nivel de


încredere de 95%, valoarea parametrului  0 este acoperită de intervalul
(-7,56 ; -0,34), iar a parametrului  1 , de intervalul (0,056 ; 0,143).
Regresia liniară simplă 47

4. Indicatori de corelaţie

a. Coeficientul de corelaţie

Coeficientul de corelaţie teoretic este un parametru definit prin relaţia:


cov( X ,Y )
 sau
V ( X )V ( Y )
N  xi yi   xi  yi
 i i i

 2  2
,
 N  xi  (  xi )  N  yi  (  yi ) 
2 2

 i i  i i 
unde:  1    1 .

Coeficientul de corelaţie măsoară intensitatea legăturii dintre cele două variabile.

Dacă valoarea parametrului se apropie de unu, între variabile există o legătură intensă sau
puternică. Legătura este slabă dacă coeficientul are o valoare aproape de zero. Se consideră
semnificativă intensitatea legăturii dintre două variabile dacă   0 ,7 . Semnul coeficientului
indică sensul legăturii dintre variabile.

Observaţie
O altă relaţie pentru coeficientul de corelaţie se poate construi ţinând cont de relaţia
coeficientului de regresie  1 :
V( X )
  1 .
V(Y )

Estimarea coeficientului de corelaţie


Pentru acest parametru, se poate construi un estimator pe baza relaţiilor de mai sus:
V( X )
ˆ  ˆ 1 .
V̂ ( Y )

O estimaţie a coeficientului de corelaţie se obţine la nivelul unui eşantion, pe baza relaţiei:


s x2
r  b1 .
s y2

Observaţie
Dacă se realizează o standardizare a variabilelor X, Y, atunci estimatorul coeficientului de
corelaţie pentru aceste variabile este identic cu cel al coeficientului de regresie  1 .

b. Raportul de determinaţie şi raportul de corelaţie

Raportul de determinaţie
48 Regresia liniară simplă
Raportul de determinaţie este un parametru care se calculează pe baza valorilor reale (yi) şi a
valorilor teoretice ( y xi  0  1 xi ), valori calculate cu ajutorul modelului de regresie pentru
variabila dependentă.

Raportul de determinaţie măsoară cât din variaţia totală a variabilei dependente este explicat
de modelul de regresie:

 ( yx i
 y )2
VE V
  2 i
  1  R , unde: 0   2  1 .
 ( yi  y ) 2
VT VT
i

Exprimată în procente, valoarea raportului de determinaţie arată cât la sută din variaţia
variabilei dependente este determinată de variaţia variabilei independente.

Estimarea raportului de determinaţie


La nivelul unui selecţii de volum n, raportul de determinaţie este estimat pe baza relaţiei de
descompunere a estimatorului variaţiei totale:

 ( yi  ŷ )2   ( ŷi  ŷ )2   ( yi  ŷi )2 sau


i i i

V̂T  V̂E  V̂R

Observaţie
Deoarece variabila dependentă urmează o lege de repartiţie normală, de parametri (
 0   1 X ,  2 ), pentru variabilele de mai sus se pot construi variabile cu legi de repartiţie
cunoscute:
V̂T ~  2 ( n  1 ),
V̂E ~  2 ( k  1 ),
V̂R ~  2 ( n  k ),
unde k este numărul de parametri incluşi în model. Pentru modelul liniar simplu, k=1.

Estimatorul raportului de determinaţie se defineşte ca raport între estimatorul variaţiei


explicate şi estimatorul variaţiei totale. În aceste condiţii, se poate scrie relaţia:
V̂ V̂
ˆ 2  E  1  R .
V̂T V̂T

O estimaţie a raportului de determinaţie se obţine prin relaţia:


 ( b0  b1 xi  y )2 ESS RSS
R2  i
  1 .
 ( yi  y ) 2
TSS TSS
i

Observaţie
Regresia liniară simplă 49
Pentru modelul liniar simplu, au loc relaţiile:
 2   2 , r 2  R2 .

Raportul de corelaţie
Indicatorul    2 se numeşte raport de corelaţie şi măsoară intensitatea legăturii dintre cele
două variabile.

Raportul de corelaţie respectă condiţia: 0    1 . Estimaţia raportului de corelaţie se notează


cu R.

Exemplu
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), estimaţiile pentru raportul de corelaţie şi pentru raportul de
determinaţie, calculate în SPSS, sunt:

Model Summary

Model R R Square
1 .551a .304
a. Predictors: (Constant), cheltuieli cu publicitatea

Valoarea raportului de determinaţie arată că 30,4% din variaţia variabilei dependente este
explicată de variaţia variabilei independente inclusă în model. Deoarece legătura dintre
variabile este una directă, estimaţia coeficientului de corelaţie este egală cu cea a
coeficientului de corelaţie, r=R=0,55, ceea ce indică o legătură de intensitate medie între cele
două variabile.

5. Testarea parametrilor şi a modelului de regresie

Testarea parametrilor modelului de regresie, precum şi a modelului de regresie se realizează


după schema clasică a unui procedeu de testare, ale cărei etape sunt precizate în continuare.

Etapele procesului testării unei ipoteze statistice sunt:


7. formularea ipotezelor (ipoteza nulă şi ipoteza alternativă);
8. alegerea pragului de semnificaţie  sau a limitei erorii de speţa întâi (eroarea de a
respinge ipoteza nulă în condiţiile în care aceasta este adevărată);
9. alegerea statisticii test adecvate, care, în condiţiile acceptării ipotezei nule, are o lege
de repartiţie specificată;
10. determinarea unei valori teoretice a testului, în funcţie de legea de repartiţie şi de
pragul de semnificaţie ales;
11. calcularea unei valori a statisticii test pe baza datelor de la nivelul unui eşantion;
12. aplicarea regulii de decizie de acceptare sau de respingere a ipotezei nule (care în
esenţă constă în compararea valorii calculate a testului cu cea teoretică).
50 Regresia liniară simplă
Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua în două
moduri: prin compararea valorii calculate a testului cu valoarea teoretică sau prin compararea
semnificaţiei testului cu pragul de semnificaţie.

Valoarea teoretică se citeşte pentru un prag de semnificaţie ales şi pentru o statistică cu legea
de repartiţie cunoscută. Pentru legea Student şi un prag de semnificaţie  , valoarea din
tabele ( t ,n ) are proprietatea: P( t  t ,n )   .

Calculul exact al nivelului de semnificaţie, p-value sau Sig

Probabilitatea calculată, asociată valorii calculate a testului, a primit numele de semnificaţie a


testului şi este notată cu p-value sau Sig. Pentru o statistică Student, Sig t este probabilitatea
cu care se acceptă ipoteza nulă şi este dată de relaţia:
Sig t  P( t  tcalc ) .

Utilizând tabela Student, pentru o valoare calculată egală cu 3,49, un eşantion de volum egal
cu 40, Sig t este: P( t  3 ,49 )  0 ,0015 .

Decizia pe baza semnificaţiei testului presupune următoarele două situaţii:


- dacă semnificaţia testului este mai mare sau egală decât pragul de semnificaţie, Sigt   , se
acceptă ipoteza nulă, cu o probabilitate egală cu (1-);
- dacă Sigt   , se respinge ipoteza nulă, cu probabilitatea (1-).

Testarea parametrilor modelului


Parametrii modelului de regresie liniară se testează cu ajutorul testului Student sau al testului
t. Vom exemplifica etapele testării pentru parametrul  1 .

Testul t
Considerăm un test bilateral, cu următoarele etape:

1. Formularea ipotezelor
H 0 :  1  0 (între cele două variabile nu există o legătură liniară);
H 1 :  1  0 (între variabile există o legătură de tip liniar).

2. Alegerea pragului de semnificaţie 


De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi
modificată de utilizator).

3. Alegerea statisticii test


ˆ 1  1
Se alege statistica Student t  .
ˆ ˆ
1

4. Determinarea valorii teoretice a testului


Dacă se acceptă ipoteza nulă, statistica test este:
ˆ
t  1 ~ t( n  2 ) , unde
ˆ ˆ
1
Regresia liniară simplă 51

 ( yi  ˆ 0  ˆ 1 xi )2
ˆ ˆ 1  i
.
( n  2 ) ( xi  x )2
i

Pentru pragul de semnificaţie stabilit şi cunoscând legea de repartiţie a statisticii test, pentru
n-2 grade de libertate, se citeşte din tabela Student valoarea teoretică t . Se alege /2 ;n  2
2
deoarece testul este bilateral (figura 3.5), iar zonele de respingere sunt delimitate de valorile
 t  t
; n  2 şi ;n  2 .
2 2

De exemplu, pentru un prag de semnificaţie de 0,05 şi un eşantion de volum n=150, din


tabele se citeşte valoarea t0 ,025 ;148  1,96 .

 t 0 t
;n  2 ;n  2
2 2
Figura 4. Valorile teoretice ale statisticii Student pentru un nivel de încredere de ( 1   )

5. Determinarea valorii calculate a testului


La nivelul unui eşantion se obţine o estimaţie a statisticii test:
b b1 b1
tcalc  1  
sˆ
1  ( yi  b0  b1 xi )2  ei
2
.
i i
( n  2 ) ( xi  x )2
( n  2 ) ( xi  x )2

i i

6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă tcalc  [ t , t ] , se acceptă H cu o probabilitate egală cu (1-);
;n  2 ;n  2 0
2 2

- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:


- dacă Sigt   , se acceptă ipoteza nulă.
- dacă Sigt   , se respinge H0.

Exemplu
52 Regresia liniară simplă
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), testarea parametrilor este realizată în SPSS pe baza rezultatelor din
tabelul de mai jos.
Coefficientsa

Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -3.951 1.795 -2.201 .033
cheltuieli cu publicitatea .100 .022 .551 4.540 .000
a. Dependent Variable: profitul

Valoarea calculată a testului Student, pentru fiecare parametru, se obţine prin relaţia
b
tcalc  i , i  0 ,1 .
sˆ
i

În tabelul de mai sus, estimaţiile parametrilor modelului de regresie se găsesc în coloana a


doua (valorile lui B din coloana Unstandardized Coefficients), iar estimaţiile abaterii standard
a estimatorului se află în coloana a treia (valorile Std. Error).

Din datele tabelului de mai sus, valoarea calculată a testului, prezentată în coloana a cincea
(coloana t), se obţine prin raportul dintre valorile coloanei a doua şi a treia. De exemplu,
pentru parametrul  1 , valoarea statisticii test este:
0 ,1
tcalc   4 ,54 .
0 ,022

În coloana a patra (valoarea lui Beta), este calculată estimaţia coeficientului de regresie în
cazul standardizării variabilelor din model. Valoarea coeficientului de regresie este identică,
în acest caz, cu cea a coeficientului de corelaţie (r=0,551).

În ultima coloană a tabelului sunt prezentate valorile calculate ale probabilităţilor cu care se
obţin cele două estimaţii ale parametrilor (Sig t).

Aplicând regula de decizie prin compararea pragului de semnificaţie cu valoarea Sig t, se ia


decizia de a respinge ipoteza nulă cu o probabilitate de 95% pentru fiecare parametru în parte.
În consecinţă, se consideră că parametrii estimaţi sunt semnificativ diferiţi de zero, ceea ce
este echivalent cu a spune că între cele două variabile există o legătură de tip liniar.

Testarea modelului de regresie

Modelul de regresie se testează cu ajutorul testului Fisher. Este un test asupra semnificaţiei
modelului de regresie utilizat.

În acest caz, ipoteza nulă se formulează asupra ambilor parametri ai modelului:


H 0 :  0  0 ,  1  0 (modelul nu este semnificativ);
H 1 :  0  0 ,  1  0 (modelul explică semnificativ legătura dintre variabile).
Regresia liniară simplă 53
Statistica Fisher se construieşte pe baza procedeului de descompunere a variaţiei totale a
variabilei dependente (VT) în două componente: variaţia explicată (VE) şi variaţia reziduală
(VR). Utilizând estimatorii componentelor variaţiei, se construieşte statistica:
V̂E
V̂ n  k
F  k 1  E  ~ ( k  1,n  k ) ,
V̂R V̂R k  1
nk
care urmează o lege de repartiţie Fisher, determinată de parametrii: k, numărul parametrilor
din model (pentru modelul liniar simplu k=2) şi n, volumul eşantionului.

Pentru un prag de semnificaţie fixat, se citeşte valoarea teoretică F ; k  1; n  k .

0
F ;k 1;n  k

Figura 5. Valoarea teoretică a statisticii Fisher pentru un nivel de încredere de ( 1   )

Valoarea calculată a statisticii Fisher este:


ESS
 ( b0  b1 xi  y )2 n  k
Fcalc  k  1  i  .
RSS  ( yi  b0  b1 xi )2 k  1
nk i

Decizia se ia prin compararea valorii calculate a testului cu valoarea din tabela Fisher:
- dacă Fcalc  F ;k  1; n  k , se respinge ipoteza nulă;
- dacă Fcalc  F ; k  1;n  k , se acceptă ipoteza nulă, cu probabilitatea ( 1   ).

Exemplu
Modelul de regresie estimat pe baza datelor privind repartiţia unei populaţii de 50 firme după
profitul realizat (variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu
publicitatea (variabila independentă X, exprimată în milioane lei).este testat cu ajutorul
testului Fisher, conform datelor din tabelul de mai jos.
54 Regresia liniară simplă
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 51.021 1 51.021 20.935 .000a
Residual 116.979 48 2.437
Total 168.000 49
a. Predictors: (Constant), cheltuieli cu publicitatea
b. Dependent Variable: profitul

În tabelul ANOVA, realizat cu ajutorul programului SPSS, sunt prezentate estimaţiile


variaţiei, pe cele două componente (coloana 2, Sum of Squares), precum şi estimaţiile
varianţelor (coloana 4, Mean Squares), obţinute prin raportarea acestora la numărul de grade
de libertate (coloana 3, df).

Componentele variaţiei:
- variaţia explicată estimată este 51,021 (Explained Sum of Squares sau Regression Sum of
Squares);
- variaţia reziduală estimată este 116,979 (Residual Sum of Squares);
- variaţia totală estimată, suma celor două precedente, este 168 (Total Sum of Squares);

Gradele de libertate asociate:


k – 1 = 1;
n – k = 48;
n – 1 = 49;
n = 50.

Varianţa estimată a erorilor este:


 ( yi  b0  b1 xi )2
116 ,979
s2  i   2 ,437 .
n2 50  2

Valoarea statisticii Fisher este:


ESS
51,021
Fcalc  k  1   20 ,935 .
RSS 2 ,437
nk

Valoarea ridicată a statisticii este determinată de valoarea scăzută a estimaţiei varianţei


erorilor, ceea ce înseamnă că modelul este valid sau este semnificativ pentru a explica
legătura dintre cele două variabile.

În condiţiile discutate, decizia cu privire la ipoteza nulă este evidentă, aşa cum o arată şi
valoarea semnificaţiei testului: Sig F = 0,0 < 0,05. Adică, cu o probabilitate de 95%, se
respinge ipoteza nulă sau ipoteza că modelul nu este adecvat realităţii studiate.

6. Testarea indicatorilor de corelaţie


Regresia liniară simplă 55
a. Testarea coeficientului de corelaţie

1. Ipoteze
H 0 :   0 (între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

2. Pragul de semnificaţie (   0 ,05 )

3. Testul statistic
Se utilizează statistica Student, care în condiţiile acceptării ipotezei nule este:
ˆ
t ~ t( n  2 )
1  ˆ 2 .
n2

4. Valorile teoretice din tabela Student


Pentru un test bilateral, se citeşte valoarea t / 2 ;n  2 .

5. Valoarea calculată a testului


La nivelul unui eşantion, se calculează:
r
tcalc 
1  r2 .
n2

6. Decizia
- dacă tcalc  [ t / 2 ; n  2 , t / 2 ;n  2 ] , se acceptă H0 cu o probabilitate egală cu (1-);
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

b. Testarea raportului de corelaţie

Demersul testării este prezentat prin etapele de mai jos.

- Se formulează ipotezele:
H 0 :   0 între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

- Se alege pragul de semnificaţie .

- Se utilizează o statistică Fisher, care are următoarea expresie:


ˆ 2 nk
F  ,
1  ˆ 2 k  1
care urmează o lege de repartiţie Fisher de k-1 şi n-k grade de libertate.

- Se citeşte valoarea teoretică F ;k 1;nk din tabela lui Fisher, pentru un prag de semnificaţie
 stabilit şi pentru k-1, respectiv (n-k) grade de libertate.
56 Regresia liniară simplă
- Se obţine valoarea calculată a testului:
R2 nk
Fcalc   ,
1 R k 1
2

unde R2 este raportul de determinaţie calculat la nivelul unui eşantion.

- Se ia decizia pe baza următoarei reguli: dacă Fcalc  F ;k  1; n  k , se respinge ipoteza H0. În


funcţie de semnificaţia testului, dacă SigF < , se respinge H0, cu o probabilitate egală cu 1-
.

Observaţie
Testul Fisher utilizat pentru testarea modelului este identic cu cel folosit la testarea raportului
de corelaţie:
ESS n  k R2 nk
Fcalc     . La baza acestei egalităţi stau relaţiile:
RSS k  1 1  R k  1
2

ESS
R2  , TSS  ESS  RSS .
TSS
Regresia liniară simplă 57

Test4
1. În modelul de regresie liniară simplă, parametrul  reprezintă:
a) ordonata la origine
b) nivelul mediu al variabilei dependente dacă variabila independentă ia valoarea 1
c) variaţia absolută medie a variabilei dependente la o variaţie absolută cu o unitate a
variabilei independente
d) panta dreptei de regresie

2. Pentru un model de regresie liniară simplă, coeficientul de corelaţie este identic cu panta
dreptei de regresie dacă:
a) valorile variabilei dependente sunt mai mari decât cele ale variabilei independente
b) valorile celor două variabile sunt standardizate
c) valorile celor două variabile sunt diferite

3. Coeficientul de determinaţie arată:


a) gradul de intensitate a legăturii dintre două variabile
b) ponderea variaţie variabilei dependente explicate de variaţia variabilei independente
c) egalitatea mediilor a două populaţii

4. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Valoarea calculată a testului Student care verifică ipoteza existenţei unei legături dintre cele două
variabile este:
a) 11,99
b) 19,11
c) 33,2

5. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului scade în medie cu
18331,2$
4
Răspunsuri la teste: 1 – c,d; 2 – b; 3 – a,b; 4 – c; 5 – b,c; 6 – a,b; 7 – a,c
58 Regresia liniară simplă
b) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului creşte în medie cu
3909,9$
c) cu o încredere de 95%, se respinge ipoteza că numărul de ani de studii nu are o influenţă
semnificativă asupra salariului
d) cu o eroare de 5%, se acceptă ipoteza că între cele două variabile analizate nu există nici o
legătură

6. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Este valabilă interpretarea:


a) coeficientul de corelaţie dintre cele două variabile este semnificativ statistic
b) cu o probabilitate de 95%, se respinge ipoteza că salariul nu este influenţat de nivelul de
educaţie
c) semnificaţia testului este 0,661

7. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) valoarea 0,661 este estimaţia coeficientului de corelaţie
b) cu o probabilitate de 95%, se acceptă că valoare 0,661 este nesemnificativă
c) valoarea 0,661 este panta de regresie pentru modelul cu variabile standardizate

Unitatea de studiu 2. REGRESIA LINIARĂ SIMPLĂ

Cuprins unitate de studiu


2.1 Tipuri regresie
Regresia liniară simplă 59
2.2 Interpretarea geometrică şi statistică a regresiei
2.3 Modelul econometric de regresie liniară simplă

Obiective
- prezentarea tipurilor de regresie în econometrie
- analiza statistică şi geometrică a regresiei
- prezentarea modelului de regresie liniară simplă: componente, estimarea şi testarea
parametrilor, testarea modelului

Competenţe
- însuşirea conceptului de regresie
- formarea abilităţilor teoretice şi practice de construire a unui model de regresie liniară
simplă
- deprinderea de a construi un model liniar simplu cu date de la nivelul economiei României
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare

Termen mediu: 4 h

Bibliografie selectivă
11. Bourbonnais, R., Économétrie, Dunod, Paris, 2000

12. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009

13. Gujarati, D.N., Basic econometrics, McGraw-Hill, New York, 1995

14. Ionescu, H.M., Introducere în statistica matematică, Editura Didactică şi


Pedagogică, Bucureşti, 1962
15. Maddala, G.S., Introduction to Econometrics, John Wiley & Sons, 2001
60 Regresia liniară simplă

2.1. Tipuri de regresie

Legăturile dintre variabilele statistice pot fi clasificate în mai multe categorii, după
următoarele criterii: momentul la care se referă, tipul de dependenţă dintre variabile, numărul
variabilelor, tipul (forma) legăturii etc.

Modele de moment şi dinamice


Modelul de moment, numit şi model static, este modelul econometric în care legătura dintre
variabile se referă la acelaşi moment sau la aceeaşi perioadă de timp. Pentru construirea
acestor modele se utilizează date din anchete de moment, cum ar fi sondajele statistice,
recensămintele sau alte cercetări de moment.

Modelul dinamic este modelul econometric construit pe baza seriilor de timp. Factorul timp
apare în model prin precizarea momentelor sau a intervalelor de timp la care se referă datele.
Există şi modele în care timpul apare ca o variabilă independentă, exprimând trendul seriei de
timp.

Modele deterministe şi stochastice


Dependenţa dintre variabile poate fi:
- deterministă sau funcţională (matematică). Asemenea modele sunt mai rar întâlnite, pentru
că presupun că între variabile există o legătură de tipul yi  f ( xi ) , adică variabila dependentă
este explicată în totalitate de variabilele independente din model. Modelele funcţionale sunt
întâlnite în domeniul ştiinţelor naturii, pe când în ştiinţele sociale se utilizează mai frecvent
modelele probabiliste.
- stochastică sau probabilistă. În aceste modele, pentru o valoare a variabilei independente,
există mai multe valori ale variabilei dependente, determinate probabilistic. În modelele
stochastice, variabila dependentă este influenţată şi de o serie de factori care nu apar explicit
în model, dar sunt sintetizaţi printr-o variabilă aleatoare numită variabilă reziduală. Modelul
stochastic este de forma:
yi  f ( xi )   i .

Modele simple şi multiple


Dacă în modelul de regresie apare o singură variabilă independentă, regresia se numeşte
simplă. Un exemplu de model simplu este modelul care exprimă dependenţa consumului de
preţ: C  f ( P ) . Aceste modele sunt întâlnite mai rar în economie, deoarece un fenomen
depinde, de regulă, de mai mulţi factori de influenţă. Dacă se alege totuşi un factor
determinant, ceilalţi factori pot fi consideraţi ca fiind avuţi în vedere prin variabila reziduală.

Dacă în model apar cel puţin două variabile independente, regresia se numeşte multiplă.
Modelul are forma: Y  f ( X 1 , X 2 )   , iar variabila dependentă este explicată prin influenţa
cumulată a factorilor care apar în model.

Modele liniare şi neliniare


Regresia liniară simplă 61
Modelul liniar este modelul în care relaţia dintre variabile este una de proporţionalitate,
legătura dintre variabile fiind descrisă de o funcţie liniară. De exemplu, modelele
Y   0   1 X şi Y   0   1 X 1   2 X 2 sunt modele liniare.

Modelul neliniar este modelul în care legătura dintre variabile este explicată de o funcţie
neliniară. Exemple:
Y  0   1 ln X , ln Y   0   1 X , Y  0  X 1 1 etc.

2.2. Interpretarea geometrică şi statistică a regresiei

Interpretarea geometrică
Locul geometric al mediilor condiţionate ale variabilei dependente, pentru valori fixate ale
variabilei independente, reprezintă o linie poligonală sau o curbă (linia de regresie, pentru caz
discret, sau curba de regresie, pentru caz continuu).

Analiza dependenţei legăturii dintre cele două variabile se poate realiza pe baza unei judecăţi
statistice elementare: tipul dependenţei dintre cele două variabile sau modul în care variabila
independentă o influenţează pe cea dependentă este sugerat de forma curbei sau liniei de
regresie statistică, construită pe baza mediilor condiţionate, calculate cu ajutorul datelor
disponibile.

De exemplu, dacă linia de regresie statistică se apropie de o dreaptă, datele sugerează un tip
de dependenţă liniară între variabilele studiate (figura 1).

6.00

5.00
Value profit

4.00

3.00

2.00

60.00 70.00 80.00 90.00 100.00

ch_publicit

Figura 1. Linia de regresie statistică a lui Y în raport cu X

b. Interpretarea statistică
Conform teoriei probabilităţilor şi statisticii matematice, regresia este o medie condiţionată
definită pe o distribuţie bi- sau multidimensională. În cazul unei legături dintre două variabile,
regresia este definită prin aplicaţia:
M ( Y / X  xi )  f ( xi ) sau M ( Y / X )  f ( x )
62 Regresia liniară simplă
Pentru cazul liniar, regresia sau media condiţionată este o funcţie liniară:
M ( Y / X )   0   1 X , unde 0, 1 sunt parametrii modelului, iar X este variabila
independentă, considerată nestochastică.

În consecinţă, regresia liniară este:


yi  M ( Y / X  xi )   0   1 xi .

2.3. Modelul econometric de regresie liniară simplă

1. Prezentarea modelului

În cazul regresiei liniare simple, modelul are următoarea expresie:


yi  0  1 xi   i sau
Y  0  1 X   ,
iar media condiţionată este:
M ( Y / X  xi )   0   1 xi .

Componentele modelului
Modelul econometric liniar simplu include două componente: una deterministă şi una
stochastică.

Componenta deterministă este reprezentată de media condiţionată:


M ( Y / X  xi )  0  1 xi .
În această componentă apare variabila independentă, care este o variabilă observabilă din
punct de vedere statistic, şi parametrii modelului, care sunt constante reale.

Componenta aleatoare este reprezentată de variabila aleatoare numită eroare sau reziduu,
notată cu  . Natura acestei variabile este legată de următoarele probleme care însoţesc
procesul de modelare: natura fenomenului studiat, specificarea modelului, erorile de
măsurare5.

În modelul econometric,  i sunt variabile aleatoare construite pentru fiecare repartiţie


condiţionată de forma Yi X  xi .

2. Parametrii modelului
În modelul de regresie liniară simplă, y i   0   1 xi   i , există doi parametri: 0 şi  1 .
Aceştia se mai numesc şi coeficienţi de regresie.

- 0 este constanta sau termenul liber (intercept) şi indică valoarea medie a variabilei
dependente Y atunci când variabila independentă X ia valoarea zero. Este ordonata la origine a
dreptei de regresie sau intersecţia dreptei cu axa OY. În unele modele, acest parametru poate
să lipsească, caz în care dreapta trece prin origine.

5
G.S. Maddala, Introduction to econometrics, John Wiley and Sons, 2001, p. 64
Regresia liniară simplă 63
-  1 (slope) indică variaţia absolută medie a variabilei dependente la o variaţie absolută cu o
unitate a variabilei independente. Cu alte cuvinte,  1 arată răspunsul variabilei Y la o creştere
sau scădere cu o unitate a variabilei X.

dY Y
1   , unde Y  0  1 X   .
dX X

Răspunsul variabilei dependente poate fi în acelaşi sens ( 1  0 ), ceea ce indică o legătură


directă sau pozitivă între variabile (de exemplu, dacă X creşte cu o unitate, Y creşte în medie
cu 1 ) sau poate fi în sens contrar ( 1  0 ), adică între variabile există o legătură inversă.
Dacă 1  0 , între cele două variabile nu există o legătură de tip liniar.

y x  0  1 x

0 1
0 X

Figura 2. Linia de regresie sau media condiţionată

Ipotezele clasice ale modelului de regresie

Modelarea econometrică implică anumite condiţii sau ipoteze asupra celor două componente
ale modelului, ipoteze care vor fi prezentate în continuare. Ipotezele acestui model se împart
în două categorii şi privesc cele două componente ale modelului: componenta deterministă şi
componenta aleatoare.

Ipoteze cu privire la variabilele independente


- variabila independentă X este observabilă (nestochastică);
- lipsa coliniarităţii variabilelor independente – între variabilele factoriale nu există o legătură
liniară (în cazul regresiei multiple);
- variabila independentă are o dispersie finită şi este posibil de determinat.

Ipoteze cu privire la variabila aleatoare eroare


- eroarea medie este nulă: M (  i )  0 .
Cu alte cuvinte, în medie, modelul este bine specificat, adică factorii neincluşi explicit în
model nu afectează sistematic valoarea medie a variabilei dependente. Altfel spus, această
ipoteză presupune că valoarea aşteptată, sperată, a erorii la nivelul repartiţiilor condiţionate de
tipul Yi X  xi este egală cu zero (figura 3.3).
64 Regresia liniară simplă

- ipoteza de homoscedasticitate: V (  i )  M (  i2 )   2 .
Această ipoteză presupune că varianţa erorii este constantă la nivelul repartiţiilor condiţionate
de tipul Yi X  xi . Repartiţiile variabilei reziduale pentru fiecare repartiţie condiţionată sunt
prezentate în figura 3.3.

- ipoteza de normalitate a erorilor:  i ~ N ( 0 , 2 ) .


La nivelul fiecărei repartiţii condiţionate, variabila eroare urmează o lege de repartiţie
normală.

- ipoteza de necorelare a erorilor: cov(  i , j )  0 sau erorile nu se influenţează reciproc, sunt


independente.

- lipsa corelaţiei dintre variabila independentă şi variabila eroare, cov(  i , xi )  0 .


Dacă se admite ipoteza  i ~ N ( 0 , 2 ) , atunci variabila dependentă este o variabilă aleatoare
normal distribuită de forma: Y ~ N ( 0  1 X ; 2 ) .

Y
y x  0  1 x

0 x1 x2 xi X

Figura 3. Repartiţiile erorilor la nivelul repartiţiilor condiţionate

3. Estimarea parametrilor modelului

În practică, de obicei, nu se dispune de date decât de la nivelul unui eşantion de volum n. Pe


baza acestor date se realizează estimarea parametrilor modelului de regresie.

Pentru modelul y i   0   1 xi   i , la nivelul unui eşantion se obţine ecuaţia pe baza


estimatorilor:
yi  ˆ 0  ˆ 1 xi  ˆ i sau
yi  ŷi  ˆ i ,
unde ŷi  ˆ 0  ˆ 1 xi estimează media condiţionată M(Y/X).

Din relaţiile de mai sus, rezultă ˆ i  yi  ŷi sau ˆ i  yi  ˆ 0  ˆ 1 xi . Cu alte cuvinte, dacă se
dispune de un set de date statistice obţinute prin sondaj, se pot calcula erorile estimate ale
Regresia liniară simplă 65
modelului de regresie ca diferenţe dintre valorile empirice şi cele estimate cu ajutorul
modelului pentru variabila dependentă.

Determinarea estimatorilor prin Metoda celor mai mici pătrate


Potrivit metodei celor mai mici pătrate, estimatorii parametrilor modelului de regresie verifică
condiţia:
 ˆ i2  min sau  ( yi  ˆ 0  ˆ 1 xi )2  min .
i i

Prin metoda celor mai mici pătrate, estimatorii parametrilor modelului de regresie liniară
simplă se obţin rezolvând problema de optim:
S   yi  ˆ 0  ˆ 1 xi )2  min .
i

Soluţia se obţine prin respectarea a două condiţii: de extrem şi de minim, pentru aplicaţia
S  S ( ˆ 0 , ˆ 1 ) .
Condiţia de extrem presupune ecuaţiile:
 S ( 
ˆ , ˆ
1 )
0
 0 2  ( yi   0   1 xi )( 1 )  0
 ˆ ˆ
 ˆ


0

 S (  0 ,  1 )  0
ˆ ˆ sau 
i

2  ( yi   0  
ˆ ˆ x )(  x )  0
1 i i
  i
  ˆ
1

Rezultă:
 ( yi  ˆ ˆ
0   1 xi )  0
 i

 xi ( yi   0  
ˆ ˆ x )  0
1 i
 i

sau
 nˆ   ˆ x   y
0 1 i i
 i i
 ˆ ˆ
 0 i
   1   yi xi
2
x xi
 i i i

Rezolvarea sistemului conduce la următoarele relaţii ale estimatorilor:


n  xi yi   xi  yi
ˆ 1  i i i
sau
n x  (  xi )2
2
i
i i

 ( yi  yˆ )( xi  x ) côv( X , Y )
ˆ1  i
 .
(x x)
i
i
2
V (X )

ˆ0  yˆ  ˆ1 x .

Proprietăţile estimatorilor ˆ 0 , ˆ1

a. Proprietatea de nedeplasare

Proprietatea de nedeplasare a estimatorilor parametrilor modelului de regresie se


demonstrează în condiţiile respectării ipotezei că variabila X este nestochastică şi în baza
proprietăţii că variabilele aleatoare yi urmează aceeaşi lege de repartiţie, adică:
yi ~ N ( 0  1 xi ,  2 ) .
66 Regresia liniară simplă
Se demonstrează că: M ( ˆ 0 )  0 şi M ( ˆ 1 )  1 , ceea ce indică faptul că estimatorii
obţinuţi prin metoda celor mai mici pătrate sunt nedeplasaţi.

b. Proprietatea de normalitate
Dacă admitem ipoteza că  i ~ N ( 0 , 2 ) , estimatorii ˆ 0 , ˆ 1 , care sunt combinaţii liniare de
variabile normal distribuite, sunt normal repartizaţi. Parametrii acestor repartiţii sunt
prezentaţi mai jos.

M ( ˆ 0 )   0 , M ( ˆ 1 )   1 ,
2
V ( ˆ 1 ) 
 ( xi  x )2 ,
i
 
1 x2 
V ( ˆ 0 )   2   2 .
n  i
( x  x ) 
 i 
În concluzie, rezultă următoarele repartiţii ale estimatorilor:
 
ˆ 
1 ~ N  1 ,

2 
2  sau
 ( xi  x ) 
ˆ 1 ~ N 1 ,  2ˆ ,
1
 
 i 
  
ˆ  2 1
 0 ~ N  0 ,   
x2 
2   sau

ˆ 0 ~ N 0 ,  2ˆ . 
  n  ( xi  x )   0

  i 

c. Proprietatea de convergenţă
Estimatorii ˆ 0 , ˆ 1 sunt convergenţi, adică pentru un volum al eşantionului suficient de mare
şirurile estimatorilor converg în probabilitate către parametrii  0 ,  1 . Au loc relaţiile:
 
ˆ 0 nN 
p
0 ,
 ˆ 
1 nN
p
 1 .

d. Proprietatea de eficienţă
Estimatorul ̂ 1 este eficient pentru parametrul  1 , adică, dintre toţi estimatorii posibili, ̂ 1
are varianţa cea mai mică.

Se poate arăta că un estimator nedeplasat al dispersiei erorilor este dat prin relaţia:

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2
ˆ 
2 i
 i , iar
n2 n2
  ˆ i2 
 
M ( ˆ 2 )  M  i   ,
2

n2
 
Regresia liniară simplă 67
Considerăm relaţia de descompunere a variaţiei totale a variabile dependente, în condiţiile
existenţei legături liniare cu variabila independentă:
 ( yi  y )2  ( 0  1 xi  y )2   ( yi  0  1 xi )2 sau
i i i
VT  VE  VR .

Vom nota prin  ˆ i2   ( yi  ˆ 0  ˆ 1 xi )2  V̂R , adică estimatorul variaţiei reziduale.


i i

Dezvoltând relaţia de mai sus, se poate scrie:


V̂R   ( yi  ŷ )2  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , unde
i i i

V̂T   ( yi  ŷ ) este estimatorul variaţiei totale.


2

Rezultă:
V̂R  V̂T  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , iar
i i

 ( yi  ŷ )( xi  x ) côv( X ,Y )
ˆ 1  i
 , de unde rezultă:
 ( xi  x ) 2
V( X )
i

V̂R  V̂T  ˆ 1  ( xi  x )( yi  ŷ ) , iar


i

V̂E  ˆ 1  ( xi  x )( yi  ŷ ) , care este estimatorul variaţiei explicate.


i

Obţinem rezultatul:
V̂T  V̂E  V̂R .

Estimarea punctuală şi prin interval de încredere a parametrilor modelului

a. Estimarea punctuală
În baza proprietăţilor de nedeplasare şi convergenţă, parametrii modelului de regresie se
estimează punctual considerând estimaţiile calculate la nivelul unui eşantion reprezentativ
extras din populaţia de referinţă, pe baza relaţiilor:
n  xi y i   xi  y i
b1  i i i
şi
n xi2  (  xi )2
i i
b0  y  b1 x .
x i y i
x i
, y i

n n
reprezintă mediile variabilelor X, Y calculate la nivelul eşantionului.

b. Estimarea prin interval de încredere a parametrilor  0 ,  1


68 Regresia liniară simplă
La baza procedeului de estimare prin interval de încredere stau legile normale de repartiţie a
estimatorilor ˆ 0 , ˆ 1 . Astfel, dacă se consideră estimatorii standardizaţi, obţinem statisticile:
ˆ 1   1 ˆ   0
~ N( 0, 1 ) , 0 ~ N ( 0 , 1 ) , respectiv
 ˆ 1  ˆ 0
ˆ 1   1 ˆ   0
~ t( n  2 ) , 0 ~ t( n  2 ) ,
ˆ ˆ 1 ˆ ˆ 0
dacă se utilizează estimatorii abaterilor standard ale estimatorilor.

Conform proprietăţilor repartiţiei Student, pentru un nivel de încredere (1-) fixat, intervalul
de încredere pentru parametrul  1 se determină pe baza relaţiei:
 ˆ   
P 1 1
 t / 2   1   .
 ˆ ˆ 
 1 
Rezultă:
P( ˆ 1  t / 2ˆ ˆ 1   1  ˆ 1  t / 2ˆ ˆ 1 )  1   , unde

ˆ 2
ˆ ˆ 1  ,
 ( xi  x )2 iar
i

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2 V̂R
ˆ 2  i
 i sau ˆ 2  .
n2 n2 n2

Cu alte cuvinte, pentru un nivel de încredere egal cu (1-), limitele intervalului de încredere
pentru parametrul  1 sunt:
ˆ 1  t / 2ˆ ˆ . 1

Analog, pentru parametrul  0 , intervalul de încredere este:


ˆ 0  t / 2ˆ ˆ . 0

Pe baza datelor de la nivelul unui eşantion, se calculează un interval de încredere cu ajutorul


estimaţiilor. Se obţin intervalele:
b1  t / 2 sˆ , respectiv b0  t / 2 sˆ .
1 0

Estimaţiile pentru abaterile standard ale estimatorilor sunt:

 ( yi  b0  b1 xi )2 s2
sˆ  i
 ,
1
( n  2 ) ( xi  x )2  ( xi  x )2
i i

1 x2
sˆ  s 2 (  )
0
n  ( xi  x )2 , iar
i
Regresia liniară simplă 69

 ( yi  b0  b1 xi )2 .
s i este estimaţia parametrului
(n2)

Dacă notăm cu ei  yi  b0  b1 xi estimaţiile erorilor, estimaţia parametrului  devine:


 ei2
s i .
(n2)

Pentru componentele variaţiei, se obţin următoarele estimaţii:


TSS   ( yi  y )2 (Total Sum of Squares);
i

ESS   ( b0  b1 xi  y )2 (Explained Sum of Squares);


i

RSS   ( yi  b0  b1 xi )2   ei (Residual Sum of Squares);


2

i i

TSS = ESS + RSS.

Exemplu
Considerăm datele cu privire la repartiţia unei populaţii de 50 firme după profitul realizat
(variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu publicitatea
(variabila independentă X, exprimată în milioane lei).

Parametrii modelului liniar de regresie sunt estimaţi punctual şi prin interval de încredere cu
ajutorul programului SPSS, după cum urmează:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta Lower Bound Upper Bound
1 (Constant) -3.951 1.795 -7.561 -.342
cheltuieli cu publicitatea .100 .022 .551 .056 .143
a. Dependent Variable: profitul

Modelul estimat pentru cele două variabile este de forma:


y  3 ,95  0 ,1x .

Valoarea pozitivă a estimaţiei parametrului  1 indică o legătură directă între cheltuielile cu


publicitatea şi profitul firmei. Valorile estimaţiilor arată că în cazul lipsei cheltuielilor (X = 0)
firma pierde 3,95 sute milioane lei, iar la o creştere a cheltuielilor cu publicitatea de 1 milion
lei, profitul mediu al firmei creşte cu 0,1 sute milioane lei.

Intervalele de încredere pentru cei doi parametri au următoarea interpretare: cu un nivel de


încredere de 95%, valoarea parametrului  0 este acoperită de intervalul
(-7,56 ; -0,34), iar a parametrului  1 , de intervalul (0,056 ; 0,143).
70 Regresia liniară simplă

4. Indicatori de corelaţie

a. Coeficientul de corelaţie

Coeficientul de corelaţie teoretic este un parametru definit prin relaţia:


cov( X ,Y )
 sau
V ( X )V ( Y )
N  xi yi   xi  yi
 i i i

 2  2
,
 N  xi  (  xi )  N  yi  (  yi ) 
2 2

 i i  i i 
unde:  1    1 .

Coeficientul de corelaţie măsoară intensitatea legăturii dintre cele două variabile.

Dacă valoarea parametrului se apropie de unu, între variabile există o legătură intensă sau
puternică. Legătura este slabă dacă coeficientul are o valoare aproape de zero. Se consideră
semnificativă intensitatea legăturii dintre două variabile dacă   0 ,7 . Semnul coeficientului
indică sensul legăturii dintre variabile.

Observaţie
O altă relaţie pentru coeficientul de corelaţie se poate construi ţinând cont de relaţia
coeficientului de regresie  1 :
V( X )
  1 .
V(Y )

Estimarea coeficientului de corelaţie


Pentru acest parametru, se poate construi un estimator pe baza relaţiilor de mai sus:
V( X )
ˆ  ˆ 1 .
V̂ ( Y )

O estimaţie a coeficientului de corelaţie se obţine la nivelul unui eşantion, pe baza relaţiei:


s x2
r  b1 .
s y2

Observaţie
Dacă se realizează o standardizare a variabilelor X, Y, atunci estimatorul coeficientului de
corelaţie pentru aceste variabile este identic cu cel al coeficientului de regresie  1 .

b. Raportul de determinaţie şi raportul de corelaţie

Raportul de determinaţie
Regresia liniară simplă 71
Raportul de determinaţie este un parametru care se calculează pe baza valorilor reale (yi) şi a
valorilor teoretice ( y xi  0  1 xi ), valori calculate cu ajutorul modelului de regresie pentru
variabila dependentă.

Raportul de determinaţie măsoară cât din variaţia totală a variabilei dependente este explicat
de modelul de regresie:

 ( yx i
 y )2
VE V
  2 i
  1  R , unde: 0   2  1 .
 ( yi  y ) 2
VT VT
i

Exprimată în procente, valoarea raportului de determinaţie arată cât la sută din variaţia
variabilei dependente este determinată de variaţia variabilei independente.

Estimarea raportului de determinaţie


La nivelul unui selecţii de volum n, raportul de determinaţie este estimat pe baza relaţiei de
descompunere a estimatorului variaţiei totale:

 ( yi  ŷ )2   ( ŷi  ŷ )2   ( yi  ŷi )2 sau


i i i

V̂T  V̂E  V̂R

Observaţie
Deoarece variabila dependentă urmează o lege de repartiţie normală, de parametri (
 0   1 X ,  2 ), pentru variabilele de mai sus se pot construi variabile cu legi de repartiţie
cunoscute:
V̂T ~  2 ( n  1 ),
V̂E ~  2 ( k  1 ),
V̂R ~  2 ( n  k ),
unde k este numărul de parametri incluşi în model. Pentru modelul liniar simplu, k=1.

Estimatorul raportului de determinaţie se defineşte ca raport între estimatorul variaţiei


explicate şi estimatorul variaţiei totale. În aceste condiţii, se poate scrie relaţia:
V̂ V̂
ˆ 2  E  1  R .
V̂T V̂T

O estimaţie a raportului de determinaţie se obţine prin relaţia:


 ( b0  b1 xi  y )2 ESS RSS
R2  i
  1 .
 ( yi  y ) 2
TSS TSS
i

Observaţie
72 Regresia liniară simplă
Pentru modelul liniar simplu, au loc relaţiile:
 2   2 , r 2  R2 .

Raportul de corelaţie
Indicatorul    2 se numeşte raport de corelaţie şi măsoară intensitatea legăturii dintre cele
două variabile.

Raportul de corelaţie respectă condiţia: 0    1 . Estimaţia raportului de corelaţie se notează


cu R.

Exemplu
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), estimaţiile pentru raportul de corelaţie şi pentru raportul de
determinaţie, calculate în SPSS, sunt:

Model Summary

Model R R Square
1 .551a .304
a. Predictors: (Constant), cheltuieli cu publicitatea

Valoarea raportului de determinaţie arată că 30,4% din variaţia variabilei dependente este
explicată de variaţia variabilei independente inclusă în model. Deoarece legătura dintre
variabile este una directă, estimaţia coeficientului de corelaţie este egală cu cea a
coeficientului de corelaţie, r=R=0,55, ceea ce indică o legătură de intensitate medie între cele
două variabile.

5. Testarea parametrilor şi a modelului de regresie

Testarea parametrilor modelului de regresie, precum şi a modelului de regresie se realizează


după schema clasică a unui procedeu de testare, ale cărei etape sunt precizate în continuare.

Etapele procesului testării unei ipoteze statistice sunt:


13. formularea ipotezelor (ipoteza nulă şi ipoteza alternativă);
14. alegerea pragului de semnificaţie  sau a limitei erorii de speţa întâi (eroarea de a
respinge ipoteza nulă în condiţiile în care aceasta este adevărată);
15. alegerea statisticii test adecvate, care, în condiţiile acceptării ipotezei nule, are o lege
de repartiţie specificată;
16. determinarea unei valori teoretice a testului, în funcţie de legea de repartiţie şi de
pragul de semnificaţie ales;
17. calcularea unei valori a statisticii test pe baza datelor de la nivelul unui eşantion;
18. aplicarea regulii de decizie de acceptare sau de respingere a ipotezei nule (care în
esenţă constă în compararea valorii calculate a testului cu cea teoretică).
Regresia liniară simplă 73
Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua în două
moduri: prin compararea valorii calculate a testului cu valoarea teoretică sau prin compararea
semnificaţiei testului cu pragul de semnificaţie.

Valoarea teoretică se citeşte pentru un prag de semnificaţie ales şi pentru o statistică cu legea
de repartiţie cunoscută. Pentru legea Student şi un prag de semnificaţie  , valoarea din
tabele ( t ,n ) are proprietatea: P( t  t ,n )   .

Calculul exact al nivelului de semnificaţie, p-value sau Sig

Probabilitatea calculată, asociată valorii calculate a testului, a primit numele de semnificaţie a


testului şi este notată cu p-value sau Sig. Pentru o statistică Student, Sig t este probabilitatea
cu care se acceptă ipoteza nulă şi este dată de relaţia:
Sig t  P( t  tcalc ) .

Utilizând tabela Student, pentru o valoare calculată egală cu 3,49, un eşantion de volum egal
cu 40, Sig t este: P( t  3 ,49 )  0 ,0015 .

Decizia pe baza semnificaţiei testului presupune următoarele două situaţii:


- dacă semnificaţia testului este mai mare sau egală decât pragul de semnificaţie, Sigt   , se
acceptă ipoteza nulă, cu o probabilitate egală cu (1-);
- dacă Sigt   , se respinge ipoteza nulă, cu probabilitatea (1-).

Testarea parametrilor modelului


Parametrii modelului de regresie liniară se testează cu ajutorul testului Student sau al testului
t. Vom exemplifica etapele testării pentru parametrul  1 .

Testul t
Considerăm un test bilateral, cu următoarele etape:

1. Formularea ipotezelor
H 0 :  1  0 (între cele două variabile nu există o legătură liniară);
H 1 :  1  0 (între variabile există o legătură de tip liniar).

2. Alegerea pragului de semnificaţie 


De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi
modificată de utilizator).

3. Alegerea statisticii test


ˆ 1  1
Se alege statistica Student t  .
ˆ ˆ
1

4. Determinarea valorii teoretice a testului


Dacă se acceptă ipoteza nulă, statistica test este:
ˆ
t  1 ~ t( n  2 ) , unde
ˆ ˆ
1
74 Regresia liniară simplă

 ( yi  ˆ 0  ˆ 1 xi )2
ˆ ˆ 1  i
.
( n  2 ) ( xi  x )2
i

Pentru pragul de semnificaţie stabilit şi cunoscând legea de repartiţie a statisticii test, pentru
n-2 grade de libertate, se citeşte din tabela Student valoarea teoretică t . Se alege /2 ;n  2
2
deoarece testul este bilateral (figura 3.5), iar zonele de respingere sunt delimitate de valorile
 t  t
; n  2 şi ;n  2 .
2 2

De exemplu, pentru un prag de semnificaţie de 0,05 şi un eşantion de volum n=150, din


tabele se citeşte valoarea t0 ,025 ;148  1,96 .

 t 0 t
;n  2 ;n  2
2 2
Figura 4. Valorile teoretice ale statisticii Student pentru un nivel de încredere de ( 1   )

5. Determinarea valorii calculate a testului


La nivelul unui eşantion se obţine o estimaţie a statisticii test:
b b1 b1
tcalc  1  
sˆ
1  ( yi  b0  b1 xi )2  ei
2
.
i i
( n  2 ) ( xi  x )2
( n  2 ) ( xi  x )2

i i

6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă tcalc  [ t , t ] , se acceptă H cu o probabilitate egală cu (1-);
;n  2 ;n  2 0
2 2

- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:


- dacă Sigt   , se acceptă ipoteza nulă.
- dacă Sigt   , se respinge H0.

Exemplu
Regresia liniară simplă 75
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), testarea parametrilor este realizată în SPSS pe baza rezultatelor din
tabelul de mai jos.
Coefficientsa

Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -3.951 1.795 -2.201 .033
cheltuieli cu publicitatea .100 .022 .551 4.540 .000
a. Dependent Variable: profitul

Valoarea calculată a testului Student, pentru fiecare parametru, se obţine prin relaţia
b
tcalc  i , i  0 ,1 .
sˆ
i

În tabelul de mai sus, estimaţiile parametrilor modelului de regresie se găsesc în coloana a


doua (valorile lui B din coloana Unstandardized Coefficients), iar estimaţiile abaterii standard
a estimatorului se află în coloana a treia (valorile Std. Error).

Din datele tabelului de mai sus, valoarea calculată a testului, prezentată în coloana a cincea
(coloana t), se obţine prin raportul dintre valorile coloanei a doua şi a treia. De exemplu,
pentru parametrul  1 , valoarea statisticii test este:
0 ,1
tcalc   4 ,54 .
0 ,022

În coloana a patra (valoarea lui Beta), este calculată estimaţia coeficientului de regresie în
cazul standardizării variabilelor din model. Valoarea coeficientului de regresie este identică,
în acest caz, cu cea a coeficientului de corelaţie (r=0,551).

În ultima coloană a tabelului sunt prezentate valorile calculate ale probabilităţilor cu care se
obţin cele două estimaţii ale parametrilor (Sig t).

Aplicând regula de decizie prin compararea pragului de semnificaţie cu valoarea Sig t, se ia


decizia de a respinge ipoteza nulă cu o probabilitate de 95% pentru fiecare parametru în parte.
În consecinţă, se consideră că parametrii estimaţi sunt semnificativ diferiţi de zero, ceea ce
este echivalent cu a spune că între cele două variabile există o legătură de tip liniar.

Testarea modelului de regresie

Modelul de regresie se testează cu ajutorul testului Fisher. Este un test asupra semnificaţiei
modelului de regresie utilizat.

În acest caz, ipoteza nulă se formulează asupra ambilor parametri ai modelului:


H 0 :  0  0 ,  1  0 (modelul nu este semnificativ);
H 1 :  0  0 ,  1  0 (modelul explică semnificativ legătura dintre variabile).
76 Regresia liniară simplă
Statistica Fisher se construieşte pe baza procedeului de descompunere a variaţiei totale a
variabilei dependente (VT) în două componente: variaţia explicată (VE) şi variaţia reziduală
(VR). Utilizând estimatorii componentelor variaţiei, se construieşte statistica:
V̂E
V̂ n  k
F  k 1  E  ~ ( k  1,n  k ) ,
V̂R V̂R k  1
nk
care urmează o lege de repartiţie Fisher, determinată de parametrii: k, numărul parametrilor
din model (pentru modelul liniar simplu k=2) şi n, volumul eşantionului.

Pentru un prag de semnificaţie fixat, se citeşte valoarea teoretică F ; k  1; n  k .

0
F ;k 1;n  k

Figura 5. Valoarea teoretică a statisticii Fisher pentru un nivel de încredere de ( 1   )

Valoarea calculată a statisticii Fisher este:


ESS
 ( b0  b1 xi  y )2 n  k
Fcalc  k  1  i  .
RSS  ( yi  b0  b1 xi )2 k  1
nk i

Decizia se ia prin compararea valorii calculate a testului cu valoarea din tabela Fisher:
- dacă Fcalc  F ;k  1; n  k , se respinge ipoteza nulă;
- dacă Fcalc  F ; k  1;n  k , se acceptă ipoteza nulă, cu probabilitatea ( 1   ).

Exemplu
Modelul de regresie estimat pe baza datelor privind repartiţia unei populaţii de 50 firme după
profitul realizat (variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu
publicitatea (variabila independentă X, exprimată în milioane lei).este testat cu ajutorul
testului Fisher, conform datelor din tabelul de mai jos.
Regresia liniară simplă 77

ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 51.021 1 51.021 20.935 .000a
Residual 116.979 48 2.437
Total 168.000 49
a. Predictors: (Constant), cheltuieli cu publicitatea
b. Dependent Variable: profitul

În tabelul ANOVA, realizat cu ajutorul programului SPSS, sunt prezentate estimaţiile


variaţiei, pe cele două componente (coloana 2, Sum of Squares), precum şi estimaţiile
varianţelor (coloana 4, Mean Squares), obţinute prin raportarea acestora la numărul de grade
de libertate (coloana 3, df).

Componentele variaţiei:
- variaţia explicată estimată este 51,021 (Explained Sum of Squares sau Regression Sum of
Squares);
- variaţia reziduală estimată este 116,979 (Residual Sum of Squares);
- variaţia totală estimată, suma celor două precedente, este 168 (Total Sum of Squares);

Gradele de libertate asociate:


k – 1 = 1;
n – k = 48;
n – 1 = 49;
n = 50.

Varianţa estimată a erorilor este:


 ( yi  b0  b1 xi )2
116 ,979
s2  i   2 ,437 .
n2 50  2

Valoarea statisticii Fisher este:


ESS
51,021
Fcalc  k  1   20 ,935 .
RSS 2 ,437
nk

Valoarea ridicată a statisticii este determinată de valoarea scăzută a estimaţiei varianţei


erorilor, ceea ce înseamnă că modelul este valid sau este semnificativ pentru a explica
legătura dintre cele două variabile.

În condiţiile discutate, decizia cu privire la ipoteza nulă este evidentă, aşa cum o arată şi
valoarea semnificaţiei testului: Sig F = 0,0 < 0,05. Adică, cu o probabilitate de 95%, se
respinge ipoteza nulă sau ipoteza că modelul nu este adecvat realităţii studiate.

6. Testarea indicatorilor de corelaţie


78 Regresia liniară simplă
a. Testarea coeficientului de corelaţie

1. Ipoteze
H 0 :   0 (între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

2. Pragul de semnificaţie (   0 ,05 )

3. Testul statistic
Se utilizează statistica Student, care în condiţiile acceptării ipotezei nule este:
ˆ
t ~ t( n  2 )
1  ˆ 2 .
n2

4. Valorile teoretice din tabela Student


Pentru un test bilateral, se citeşte valoarea t / 2 ;n  2 .

5. Valoarea calculată a testului


La nivelul unui eşantion, se calculează:
r
tcalc 
1  r2 .
n2

6. Decizia
- dacă tcalc  [ t / 2 ; n  2 , t / 2 ;n  2 ] , se acceptă H0 cu o probabilitate egală cu (1-);
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

b. Testarea raportului de corelaţie

Demersul testării este prezentat prin etapele de mai jos.

- Se formulează ipotezele:
H 0 :   0 între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

- Se alege pragul de semnificaţie .

- Se utilizează o statistică Fisher, care are următoarea expresie:


ˆ 2 nk
F  ,
1  ˆ 2 k  1
care urmează o lege de repartiţie Fisher de k-1 şi n-k grade de libertate.

- Se citeşte valoarea teoretică F ;k 1;nk din tabela lui Fisher, pentru un prag de semnificaţie
 stabilit şi pentru k-1, respectiv (n-k) grade de libertate.
Regresia liniară simplă 79
- Se obţine valoarea calculată a testului:
R2 nk
Fcalc   ,
1 R k 1
2

unde R2 este raportul de determinaţie calculat la nivelul unui eşantion.

- Se ia decizia pe baza următoarei reguli: dacă Fcalc  F ;k  1; n  k , se respinge ipoteza H0. În


funcţie de semnificaţia testului, dacă SigF < , se respinge H0, cu o probabilitate egală cu 1-
.

Observaţie
Testul Fisher utilizat pentru testarea modelului este identic cu cel folosit la testarea raportului
de corelaţie:
ESS n  k R2 nk
Fcalc     . La baza acestei egalităţi stau relaţiile:
RSS k  1 1  R k  1
2

ESS
R2  , TSS  ESS  RSS .
TSS
80 Regresia liniară simplă

Test6
1. În modelul de regresie liniară simplă, parametrul  reprezintă:
a) ordonata la origine
b) nivelul mediu al variabilei dependente dacă variabila independentă ia valoarea 1
c) variaţia absolută medie a variabilei dependente la o variaţie absolută cu o unitate a
variabilei independente
d) panta dreptei de regresie

2. Pentru un model de regresie liniară simplă, coeficientul de corelaţie este identic cu panta
dreptei de regresie dacă:
a) valorile variabilei dependente sunt mai mari decât cele ale variabilei independente
b) valorile celor două variabile sunt standardizate
c) valorile celor două variabile sunt diferite

3. Coeficientul de determinaţie arată:


a) gradul de intensitate a legăturii dintre două variabile
b) ponderea variaţie variabilei dependente explicate de variaţia variabilei independente
c) egalitatea mediilor a două populaţii

4. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Valoarea calculată a testului Student care verifică ipoteza existenţei unei legături dintre cele două
variabile este:
a) 11,99
b) 19,11
c) 33,2

5. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului scade în medie cu
18331,2$
6
Răspunsuri la teste: 1 – c,d; 2 – b; 3 – a,b; 4 – c; 5 – b,c; 6 – a,b; 7 – a,c
Regresia liniară simplă 81
b) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului creşte în medie cu
3909,9$
c) cu o încredere de 95%, se respinge ipoteza că numărul de ani de studii nu are o influenţă
semnificativă asupra salariului
d) cu o eroare de 5%, se acceptă ipoteza că între cele două variabile analizate nu există nici o
legătură

6. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Este valabilă interpretarea:


a) coeficientul de corelaţie dintre cele două variabile este semnificativ statistic
b) cu o probabilitate de 95%, se respinge ipoteza că salariul nu este influenţat de nivelul de
educaţie
c) semnificaţia testului este 0,661

7. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) valoarea 0,661 este estimaţia coeficientului de corelaţie
b) cu o probabilitate de 95%, se acceptă că valoare 0,661 este nesemnificativă
c) valoarea 0,661 este panta de regresie pentru modelul cu variabile standardizate

Unitatea de studiu 2. REGRESIA LINIARĂ SIMPLĂ

Cuprins unitate de studiu


2.1 Tipuri regresie
82 Regresia liniară simplă
2.2 Interpretarea geometrică şi statistică a regresiei
2.3 Modelul econometric de regresie liniară simplă

Obiective
- prezentarea tipurilor de regresie în econometrie
- analiza statistică şi geometrică a regresiei
- prezentarea modelului de regresie liniară simplă: componente, estimarea şi testarea
parametrilor, testarea modelului

Competenţe
- însuşirea conceptului de regresie
- formarea abilităţilor teoretice şi practice de construire a unui model de regresie liniară
simplă
- deprinderea de a construi un model liniar simplu cu date de la nivelul economiei României
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare

Termen mediu: 4 h

Bibliografie selectivă
16. Bourbonnais, R., Économétrie, Dunod, Paris, 2000

17. Jemna, D.V., Econometrie, Editura Sedcom Libris, Iaşi, 2009

18. Gujarati, D.N., Basic econometrics, McGraw-Hill, New York, 1995

19. Ionescu, H.M., Introducere în statistica matematică, Editura Didactică şi


Pedagogică, Bucureşti, 1962
20. Maddala, G.S., Introduction to Econometrics, John Wiley & Sons, 2001
Regresia liniară simplă 83

2.1. Tipuri de regresie

Legăturile dintre variabilele statistice pot fi clasificate în mai multe categorii, după
următoarele criterii: momentul la care se referă, tipul de dependenţă dintre variabile, numărul
variabilelor, tipul (forma) legăturii etc.

Modele de moment şi dinamice


Modelul de moment, numit şi model static, este modelul econometric în care legătura dintre
variabile se referă la acelaşi moment sau la aceeaşi perioadă de timp. Pentru construirea
acestor modele se utilizează date din anchete de moment, cum ar fi sondajele statistice,
recensămintele sau alte cercetări de moment.

Modelul dinamic este modelul econometric construit pe baza seriilor de timp. Factorul timp
apare în model prin precizarea momentelor sau a intervalelor de timp la care se referă datele.
Există şi modele în care timpul apare ca o variabilă independentă, exprimând trendul seriei de
timp.

Modele deterministe şi stochastice


Dependenţa dintre variabile poate fi:
- deterministă sau funcţională (matematică). Asemenea modele sunt mai rar întâlnite, pentru
că presupun că între variabile există o legătură de tipul yi  f ( xi ) , adică variabila dependentă
este explicată în totalitate de variabilele independente din model. Modelele funcţionale sunt
întâlnite în domeniul ştiinţelor naturii, pe când în ştiinţele sociale se utilizează mai frecvent
modelele probabiliste.
- stochastică sau probabilistă. În aceste modele, pentru o valoare a variabilei independente,
există mai multe valori ale variabilei dependente, determinate probabilistic. În modelele
stochastice, variabila dependentă este influenţată şi de o serie de factori care nu apar explicit
în model, dar sunt sintetizaţi printr-o variabilă aleatoare numită variabilă reziduală. Modelul
stochastic este de forma:
yi  f ( xi )   i .

Modele simple şi multiple


Dacă în modelul de regresie apare o singură variabilă independentă, regresia se numeşte
simplă. Un exemplu de model simplu este modelul care exprimă dependenţa consumului de
preţ: C  f ( P ) . Aceste modele sunt întâlnite mai rar în economie, deoarece un fenomen
depinde, de regulă, de mai mulţi factori de influenţă. Dacă se alege totuşi un factor
determinant, ceilalţi factori pot fi consideraţi ca fiind avuţi în vedere prin variabila reziduală.

Dacă în model apar cel puţin două variabile independente, regresia se numeşte multiplă.
Modelul are forma: Y  f ( X 1 , X 2 )   , iar variabila dependentă este explicată prin influenţa
cumulată a factorilor care apar în model.

Modele liniare şi neliniare


84 Regresia liniară simplă
Modelul liniar este modelul în care relaţia dintre variabile este una de proporţionalitate,
legătura dintre variabile fiind descrisă de o funcţie liniară. De exemplu, modelele
Y   0   1 X şi Y   0   1 X 1   2 X 2 sunt modele liniare.

Modelul neliniar este modelul în care legătura dintre variabile este explicată de o funcţie
neliniară. Exemple:
Y  0   1 ln X , ln Y   0   1 X , Y  0  X 1 1 etc.

2.2. Interpretarea geometrică şi statistică a regresiei

Interpretarea geometrică
Locul geometric al mediilor condiţionate ale variabilei dependente, pentru valori fixate ale
variabilei independente, reprezintă o linie poligonală sau o curbă (linia de regresie, pentru caz
discret, sau curba de regresie, pentru caz continuu).

Analiza dependenţei legăturii dintre cele două variabile se poate realiza pe baza unei judecăţi
statistice elementare: tipul dependenţei dintre cele două variabile sau modul în care variabila
independentă o influenţează pe cea dependentă este sugerat de forma curbei sau liniei de
regresie statistică, construită pe baza mediilor condiţionate, calculate cu ajutorul datelor
disponibile.

De exemplu, dacă linia de regresie statistică se apropie de o dreaptă, datele sugerează un tip
de dependenţă liniară între variabilele studiate (figura 1).

6.00

5.00
Value profit

4.00

3.00

2.00

60.00 70.00 80.00 90.00 100.00

ch_publicit

Figura 1. Linia de regresie statistică a lui Y în raport cu X

b. Interpretarea statistică
Conform teoriei probabilităţilor şi statisticii matematice, regresia este o medie condiţionată
definită pe o distribuţie bi- sau multidimensională. În cazul unei legături dintre două variabile,
regresia este definită prin aplicaţia:
M ( Y / X  xi )  f ( xi ) sau M ( Y / X )  f ( x )
Regresia liniară simplă 85
Pentru cazul liniar, regresia sau media condiţionată este o funcţie liniară:
M ( Y / X )   0   1 X , unde 0, 1 sunt parametrii modelului, iar X este variabila
independentă, considerată nestochastică.

În consecinţă, regresia liniară este:


yi  M ( Y / X  xi )   0   1 xi .

2.3. Modelul econometric de regresie liniară simplă

1. Prezentarea modelului

În cazul regresiei liniare simple, modelul are următoarea expresie:


yi  0  1 xi   i sau
Y  0  1 X   ,
iar media condiţionată este:
M ( Y / X  xi )   0   1 xi .

Componentele modelului
Modelul econometric liniar simplu include două componente: una deterministă şi una
stochastică.

Componenta deterministă este reprezentată de media condiţionată:


M ( Y / X  xi )  0  1 xi .
În această componentă apare variabila independentă, care este o variabilă observabilă din
punct de vedere statistic, şi parametrii modelului, care sunt constante reale.

Componenta aleatoare este reprezentată de variabila aleatoare numită eroare sau reziduu,
notată cu  . Natura acestei variabile este legată de următoarele probleme care însoţesc
procesul de modelare: natura fenomenului studiat, specificarea modelului, erorile de
măsurare7.

În modelul econometric,  i sunt variabile aleatoare construite pentru fiecare repartiţie


condiţionată de forma Yi X  xi .

2. Parametrii modelului
În modelul de regresie liniară simplă, y i   0   1 xi   i , există doi parametri: 0 şi  1 .
Aceştia se mai numesc şi coeficienţi de regresie.

- 0 este constanta sau termenul liber (intercept) şi indică valoarea medie a variabilei
dependente Y atunci când variabila independentă X ia valoarea zero. Este ordonata la origine a
dreptei de regresie sau intersecţia dreptei cu axa OY. În unele modele, acest parametru poate
să lipsească, caz în care dreapta trece prin origine.

7
G.S. Maddala, Introduction to econometrics, John Wiley and Sons, 2001, p. 64
86 Regresia liniară simplă
-  1 (slope) indică variaţia absolută medie a variabilei dependente la o variaţie absolută cu o
unitate a variabilei independente. Cu alte cuvinte,  1 arată răspunsul variabilei Y la o creştere
sau scădere cu o unitate a variabilei X.

dY Y
1   , unde Y  0  1 X   .
dX X

Răspunsul variabilei dependente poate fi în acelaşi sens ( 1  0 ), ceea ce indică o legătură


directă sau pozitivă între variabile (de exemplu, dacă X creşte cu o unitate, Y creşte în medie
cu 1 ) sau poate fi în sens contrar ( 1  0 ), adică între variabile există o legătură inversă.
Dacă 1  0 , între cele două variabile nu există o legătură de tip liniar.

y x  0  1 x

0 1
0 X

Figura 2. Linia de regresie sau media condiţionată

Ipotezele clasice ale modelului de regresie

Modelarea econometrică implică anumite condiţii sau ipoteze asupra celor două componente
ale modelului, ipoteze care vor fi prezentate în continuare. Ipotezele acestui model se împart
în două categorii şi privesc cele două componente ale modelului: componenta deterministă şi
componenta aleatoare.

Ipoteze cu privire la variabilele independente


- variabila independentă X este observabilă (nestochastică);
- lipsa coliniarităţii variabilelor independente – între variabilele factoriale nu există o legătură
liniară (în cazul regresiei multiple);
- variabila independentă are o dispersie finită şi este posibil de determinat.

Ipoteze cu privire la variabila aleatoare eroare


- eroarea medie este nulă: M (  i )  0 .
Cu alte cuvinte, în medie, modelul este bine specificat, adică factorii neincluşi explicit în
model nu afectează sistematic valoarea medie a variabilei dependente. Altfel spus, această
ipoteză presupune că valoarea aşteptată, sperată, a erorii la nivelul repartiţiilor condiţionate de
tipul Yi X  xi este egală cu zero (figura 3.3).
Regresia liniară simplă 87

- ipoteza de homoscedasticitate: V (  i )  M (  i2 )   2 .
Această ipoteză presupune că varianţa erorii este constantă la nivelul repartiţiilor condiţionate
de tipul Yi X  xi . Repartiţiile variabilei reziduale pentru fiecare repartiţie condiţionată sunt
prezentate în figura 3.3.

- ipoteza de normalitate a erorilor:  i ~ N ( 0 , 2 ) .


La nivelul fiecărei repartiţii condiţionate, variabila eroare urmează o lege de repartiţie
normală.

- ipoteza de necorelare a erorilor: cov(  i , j )  0 sau erorile nu se influenţează reciproc, sunt


independente.

- lipsa corelaţiei dintre variabila independentă şi variabila eroare, cov(  i , xi )  0 .


Dacă se admite ipoteza  i ~ N ( 0 , 2 ) , atunci variabila dependentă este o variabilă aleatoare
normal distribuită de forma: Y ~ N ( 0  1 X ; 2 ) .

Y
y x  0  1 x

0 x1 x2 xi X

Figura 3. Repartiţiile erorilor la nivelul repartiţiilor condiţionate

3. Estimarea parametrilor modelului

În practică, de obicei, nu se dispune de date decât de la nivelul unui eşantion de volum n. Pe


baza acestor date se realizează estimarea parametrilor modelului de regresie.

Pentru modelul y i   0   1 xi   i , la nivelul unui eşantion se obţine ecuaţia pe baza


estimatorilor:
yi  ˆ 0  ˆ 1 xi  ˆ i sau
yi  ŷi  ˆ i ,
unde ŷi  ˆ 0  ˆ 1 xi estimează media condiţionată M(Y/X).

Din relaţiile de mai sus, rezultă ˆ i  yi  ŷi sau ˆ i  yi  ˆ 0  ˆ 1 xi . Cu alte cuvinte, dacă se
dispune de un set de date statistice obţinute prin sondaj, se pot calcula erorile estimate ale
88 Regresia liniară simplă
modelului de regresie ca diferenţe dintre valorile empirice şi cele estimate cu ajutorul
modelului pentru variabila dependentă.

Determinarea estimatorilor prin Metoda celor mai mici pătrate


Potrivit metodei celor mai mici pătrate, estimatorii parametrilor modelului de regresie verifică
condiţia:
 ˆ i2  min sau  ( yi  ˆ 0  ˆ 1 xi )2  min .
i i

Prin metoda celor mai mici pătrate, estimatorii parametrilor modelului de regresie liniară
simplă se obţin rezolvând problema de optim:
S   yi  ˆ 0  ˆ 1 xi )2  min .
i

Soluţia se obţine prin respectarea a două condiţii: de extrem şi de minim, pentru aplicaţia
S  S ( ˆ 0 , ˆ 1 ) .
Condiţia de extrem presupune ecuaţiile:
 S ( 
ˆ , ˆ
1 )
0
 0 2  ( yi   0   1 xi )( 1 )  0
 ˆ ˆ
 ˆ


0

 S (  0 ,  1 )  0
ˆ ˆ sau 
i

2  ( yi   0  
ˆ ˆ x )(  x )  0
1 i i
  i
  ˆ
1

Rezultă:
 ( yi  ˆ ˆ
0   1 xi )  0
 i

 xi ( yi   0  
ˆ ˆ x )  0
1 i
 i

sau
 nˆ   ˆ x   y
0 1 i i
 i i
 ˆ ˆ
 0 i
   1   yi xi
2
x xi
 i i i

Rezolvarea sistemului conduce la următoarele relaţii ale estimatorilor:


n  xi yi   xi  yi
ˆ 1  i i i
sau
n x  (  xi )2
2
i
i i

 ( yi  yˆ )( xi  x ) côv( X , Y )
ˆ1  i
 .
(x x)
i
i
2
V (X )

ˆ0  yˆ  ˆ1 x .

Proprietăţile estimatorilor ˆ 0 , ˆ1

a. Proprietatea de nedeplasare

Proprietatea de nedeplasare a estimatorilor parametrilor modelului de regresie se


demonstrează în condiţiile respectării ipotezei că variabila X este nestochastică şi în baza
proprietăţii că variabilele aleatoare yi urmează aceeaşi lege de repartiţie, adică:
yi ~ N ( 0  1 xi ,  2 ) .
Regresia liniară simplă 89
Se demonstrează că: M ( ˆ 0 )  0 şi M ( ˆ 1 )  1 , ceea ce indică faptul că estimatorii
obţinuţi prin metoda celor mai mici pătrate sunt nedeplasaţi.

b. Proprietatea de normalitate
Dacă admitem ipoteza că  i ~ N ( 0 , 2 ) , estimatorii ˆ 0 , ˆ 1 , care sunt combinaţii liniare de
variabile normal distribuite, sunt normal repartizaţi. Parametrii acestor repartiţii sunt
prezentaţi mai jos.

M ( ˆ 0 )   0 , M ( ˆ 1 )   1 ,
2
V ( ˆ 1 ) 
 ( xi  x )2 ,
i
 
1 x2 
V ( ˆ 0 )   2   2 .
n  i
( x  x ) 
 i 
În concluzie, rezultă următoarele repartiţii ale estimatorilor:
 
ˆ 
1 ~ N  1 ,

2 
2  sau
 ( xi  x ) 
ˆ 1 ~ N 1 ,  2ˆ ,
1
 
 i 
  
ˆ  2 1
 0 ~ N  0 ,   
x2 
2   sau

ˆ 0 ~ N 0 ,  2ˆ . 
  n  ( xi  x )   0

  i 

c. Proprietatea de convergenţă
Estimatorii ˆ 0 , ˆ 1 sunt convergenţi, adică pentru un volum al eşantionului suficient de mare
şirurile estimatorilor converg în probabilitate către parametrii  0 ,  1 . Au loc relaţiile:
 
ˆ 0 nN 
p
0 ,
 ˆ 
1 nN
p
 1 .

d. Proprietatea de eficienţă
Estimatorul ̂ 1 este eficient pentru parametrul  1 , adică, dintre toţi estimatorii posibili, ̂ 1
are varianţa cea mai mică.

Se poate arăta că un estimator nedeplasat al dispersiei erorilor este dat prin relaţia:

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2
ˆ 
2 i
 i , iar
n2 n2
  ˆ i2 
 
M ( ˆ 2 )  M  i   ,
2

n2
 
90 Regresia liniară simplă
Considerăm relaţia de descompunere a variaţiei totale a variabile dependente, în condiţiile
existenţei legături liniare cu variabila independentă:
 ( yi  y )2  ( 0  1 xi  y )2   ( yi  0  1 xi )2 sau
i i i
VT  VE  VR .

Vom nota prin  ˆ i2   ( yi  ˆ 0  ˆ 1 xi )2  V̂R , adică estimatorul variaţiei reziduale.


i i

Dezvoltând relaţia de mai sus, se poate scrie:


V̂R   ( yi  ŷ )2  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , unde
i i i

V̂T   ( yi  ŷ ) este estimatorul variaţiei totale.


2

Rezultă:
V̂R  V̂T  ˆ 12  ( xi  x )2  2ˆ 1  ( xi  x )( yi  ŷ ) , iar
i i

 ( yi  ŷ )( xi  x ) côv( X ,Y )
ˆ 1  i
 , de unde rezultă:
 ( xi  x ) 2
V( X )
i

V̂R  V̂T  ˆ 1  ( xi  x )( yi  ŷ ) , iar


i

V̂E  ˆ 1  ( xi  x )( yi  ŷ ) , care este estimatorul variaţiei explicate.


i

Obţinem rezultatul:
V̂T  V̂E  V̂R .

Estimarea punctuală şi prin interval de încredere a parametrilor modelului

a. Estimarea punctuală
În baza proprietăţilor de nedeplasare şi convergenţă, parametrii modelului de regresie se
estimează punctual considerând estimaţiile calculate la nivelul unui eşantion reprezentativ
extras din populaţia de referinţă, pe baza relaţiilor:
n  xi y i   xi  y i
b1  i i i
şi
n xi2  (  xi )2
i i
b0  y  b1 x .
x i y i
x i
, y i

n n
reprezintă mediile variabilelor X, Y calculate la nivelul eşantionului.

b. Estimarea prin interval de încredere a parametrilor  0 ,  1


Regresia liniară simplă 91
La baza procedeului de estimare prin interval de încredere stau legile normale de repartiţie a
estimatorilor ˆ 0 , ˆ 1 . Astfel, dacă se consideră estimatorii standardizaţi, obţinem statisticile:
ˆ 1   1 ˆ   0
~ N( 0, 1 ) , 0 ~ N ( 0 , 1 ) , respectiv
 ˆ 1  ˆ 0
ˆ 1   1 ˆ   0
~ t( n  2 ) , 0 ~ t( n  2 ) ,
ˆ ˆ 1 ˆ ˆ 0
dacă se utilizează estimatorii abaterilor standard ale estimatorilor.

Conform proprietăţilor repartiţiei Student, pentru un nivel de încredere (1-) fixat, intervalul
de încredere pentru parametrul  1 se determină pe baza relaţiei:
 ˆ   
P 1 1
 t / 2   1   .
 ˆ ˆ 
 1 
Rezultă:
P( ˆ 1  t / 2ˆ ˆ 1   1  ˆ 1  t / 2ˆ ˆ 1 )  1   , unde

ˆ 2
ˆ ˆ 1  ,
 ( xi  x )2 iar
i

 ˆ i2  ( yi  ˆ 0  ˆ 1 xi )2 V̂R
ˆ 2  i
 i sau ˆ 2  .
n2 n2 n2

Cu alte cuvinte, pentru un nivel de încredere egal cu (1-), limitele intervalului de încredere
pentru parametrul  1 sunt:
ˆ 1  t / 2ˆ ˆ . 1

Analog, pentru parametrul  0 , intervalul de încredere este:


ˆ 0  t / 2ˆ ˆ . 0

Pe baza datelor de la nivelul unui eşantion, se calculează un interval de încredere cu ajutorul


estimaţiilor. Se obţin intervalele:
b1  t / 2 sˆ , respectiv b0  t / 2 sˆ .
1 0

Estimaţiile pentru abaterile standard ale estimatorilor sunt:

 ( yi  b0  b1 xi )2 s2
sˆ  i
 ,
1
( n  2 ) ( xi  x )2  ( xi  x )2
i i

1 x2
sˆ  s 2 (  )
0
n  ( xi  x )2 , iar
i
92 Regresia liniară simplă

 ( yi  b0  b1 xi )2 .
s i este estimaţia parametrului
(n2)

Dacă notăm cu ei  yi  b0  b1 xi estimaţiile erorilor, estimaţia parametrului  devine:


 ei2
s i .
(n2)

Pentru componentele variaţiei, se obţin următoarele estimaţii:


TSS   ( yi  y )2 (Total Sum of Squares);
i

ESS   ( b0  b1 xi  y )2 (Explained Sum of Squares);


i

RSS   ( yi  b0  b1 xi )2   ei (Residual Sum of Squares);


2

i i

TSS = ESS + RSS.

Exemplu
Considerăm datele cu privire la repartiţia unei populaţii de 50 firme după profitul realizat
(variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu publicitatea
(variabila independentă X, exprimată în milioane lei).

Parametrii modelului liniar de regresie sunt estimaţi punctual şi prin interval de încredere cu
ajutorul programului SPSS, după cum urmează:

Coefficientsa

Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta Lower Bound Upper Bound
1 (Constant) -3.951 1.795 -7.561 -.342
cheltuieli cu publicitatea .100 .022 .551 .056 .143
a. Dependent Variable: profitul

Modelul estimat pentru cele două variabile este de forma:


y  3 ,95  0 ,1x .

Valoarea pozitivă a estimaţiei parametrului  1 indică o legătură directă între cheltuielile cu


publicitatea şi profitul firmei. Valorile estimaţiilor arată că în cazul lipsei cheltuielilor (X = 0)
firma pierde 3,95 sute milioane lei, iar la o creştere a cheltuielilor cu publicitatea de 1 milion
lei, profitul mediu al firmei creşte cu 0,1 sute milioane lei.

Intervalele de încredere pentru cei doi parametri au următoarea interpretare: cu un nivel de


încredere de 95%, valoarea parametrului  0 este acoperită de intervalul
(-7,56 ; -0,34), iar a parametrului  1 , de intervalul (0,056 ; 0,143).
Regresia liniară simplă 93

4. Indicatori de corelaţie

a. Coeficientul de corelaţie

Coeficientul de corelaţie teoretic este un parametru definit prin relaţia:


cov( X ,Y )
 sau
V ( X )V ( Y )
N  xi yi   xi  yi
 i i i

 2  2
,
 N  xi  (  xi )  N  yi  (  yi ) 
2 2

 i i  i i 
unde:  1    1 .

Coeficientul de corelaţie măsoară intensitatea legăturii dintre cele două variabile.

Dacă valoarea parametrului se apropie de unu, între variabile există o legătură intensă sau
puternică. Legătura este slabă dacă coeficientul are o valoare aproape de zero. Se consideră
semnificativă intensitatea legăturii dintre două variabile dacă   0 ,7 . Semnul coeficientului
indică sensul legăturii dintre variabile.

Observaţie
O altă relaţie pentru coeficientul de corelaţie se poate construi ţinând cont de relaţia
coeficientului de regresie  1 :
V( X )
  1 .
V(Y )

Estimarea coeficientului de corelaţie


Pentru acest parametru, se poate construi un estimator pe baza relaţiilor de mai sus:
V( X )
ˆ  ˆ 1 .
V̂ ( Y )

O estimaţie a coeficientului de corelaţie se obţine la nivelul unui eşantion, pe baza relaţiei:


s x2
r  b1 .
s y2

Observaţie
Dacă se realizează o standardizare a variabilelor X, Y, atunci estimatorul coeficientului de
corelaţie pentru aceste variabile este identic cu cel al coeficientului de regresie  1 .

b. Raportul de determinaţie şi raportul de corelaţie

Raportul de determinaţie
94 Regresia liniară simplă
Raportul de determinaţie este un parametru care se calculează pe baza valorilor reale (yi) şi a
valorilor teoretice ( y xi  0  1 xi ), valori calculate cu ajutorul modelului de regresie pentru
variabila dependentă.

Raportul de determinaţie măsoară cât din variaţia totală a variabilei dependente este explicat
de modelul de regresie:

 ( yx i
 y )2
VE V
  2 i
  1  R , unde: 0   2  1 .
 ( yi  y ) 2
VT VT
i

Exprimată în procente, valoarea raportului de determinaţie arată cât la sută din variaţia
variabilei dependente este determinată de variaţia variabilei independente.

Estimarea raportului de determinaţie


La nivelul unui selecţii de volum n, raportul de determinaţie este estimat pe baza relaţiei de
descompunere a estimatorului variaţiei totale:

 ( yi  ŷ )2   ( ŷi  ŷ )2   ( yi  ŷi )2 sau


i i i

V̂T  V̂E  V̂R

Observaţie
Deoarece variabila dependentă urmează o lege de repartiţie normală, de parametri (
 0   1 X ,  2 ), pentru variabilele de mai sus se pot construi variabile cu legi de repartiţie
cunoscute:
V̂T ~  2 ( n  1 ),
V̂E ~  2 ( k  1 ),
V̂R ~  2 ( n  k ),
unde k este numărul de parametri incluşi în model. Pentru modelul liniar simplu, k=1.

Estimatorul raportului de determinaţie se defineşte ca raport între estimatorul variaţiei


explicate şi estimatorul variaţiei totale. În aceste condiţii, se poate scrie relaţia:
V̂ V̂
ˆ 2  E  1  R .
V̂T V̂T

O estimaţie a raportului de determinaţie se obţine prin relaţia:


 ( b0  b1 xi  y )2 ESS RSS
R2  i
  1 .
 ( yi  y ) 2
TSS TSS
i

Observaţie
Regresia liniară simplă 95
Pentru modelul liniar simplu, au loc relaţiile:
 2   2 , r 2  R2 .

Raportul de corelaţie
Indicatorul    2 se numeşte raport de corelaţie şi măsoară intensitatea legăturii dintre cele
două variabile.

Raportul de corelaţie respectă condiţia: 0    1 . Estimaţia raportului de corelaţie se notează


cu R.

Exemplu
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), estimaţiile pentru raportul de corelaţie şi pentru raportul de
determinaţie, calculate în SPSS, sunt:

Model Summary

Model R R Square
1 .551a .304
a. Predictors: (Constant), cheltuieli cu publicitatea

Valoarea raportului de determinaţie arată că 30,4% din variaţia variabilei dependente este
explicată de variaţia variabilei independente inclusă în model. Deoarece legătura dintre
variabile este una directă, estimaţia coeficientului de corelaţie este egală cu cea a
coeficientului de corelaţie, r=R=0,55, ceea ce indică o legătură de intensitate medie între cele
două variabile.

5. Testarea parametrilor şi a modelului de regresie

Testarea parametrilor modelului de regresie, precum şi a modelului de regresie se realizează


după schema clasică a unui procedeu de testare, ale cărei etape sunt precizate în continuare.

Etapele procesului testării unei ipoteze statistice sunt:


19. formularea ipotezelor (ipoteza nulă şi ipoteza alternativă);
20. alegerea pragului de semnificaţie  sau a limitei erorii de speţa întâi (eroarea de a
respinge ipoteza nulă în condiţiile în care aceasta este adevărată);
21. alegerea statisticii test adecvate, care, în condiţiile acceptării ipotezei nule, are o lege
de repartiţie specificată;
22. determinarea unei valori teoretice a testului, în funcţie de legea de repartiţie şi de
pragul de semnificaţie ales;
23. calcularea unei valori a statisticii test pe baza datelor de la nivelul unui eşantion;
24. aplicarea regulii de decizie de acceptare sau de respingere a ipotezei nule (care în
esenţă constă în compararea valorii calculate a testului cu cea teoretică).
96 Regresia liniară simplă
Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua în două
moduri: prin compararea valorii calculate a testului cu valoarea teoretică sau prin compararea
semnificaţiei testului cu pragul de semnificaţie.

Valoarea teoretică se citeşte pentru un prag de semnificaţie ales şi pentru o statistică cu legea
de repartiţie cunoscută. Pentru legea Student şi un prag de semnificaţie  , valoarea din
tabele ( t ,n ) are proprietatea: P( t  t ,n )   .

Calculul exact al nivelului de semnificaţie, p-value sau Sig

Probabilitatea calculată, asociată valorii calculate a testului, a primit numele de semnificaţie a


testului şi este notată cu p-value sau Sig. Pentru o statistică Student, Sig t este probabilitatea
cu care se acceptă ipoteza nulă şi este dată de relaţia:
Sig t  P( t  tcalc ) .

Utilizând tabela Student, pentru o valoare calculată egală cu 3,49, un eşantion de volum egal
cu 40, Sig t este: P( t  3 ,49 )  0 ,0015 .

Decizia pe baza semnificaţiei testului presupune următoarele două situaţii:


- dacă semnificaţia testului este mai mare sau egală decât pragul de semnificaţie, Sigt   , se
acceptă ipoteza nulă, cu o probabilitate egală cu (1-);
- dacă Sigt   , se respinge ipoteza nulă, cu probabilitatea (1-).

Testarea parametrilor modelului


Parametrii modelului de regresie liniară se testează cu ajutorul testului Student sau al testului
t. Vom exemplifica etapele testării pentru parametrul  1 .

Testul t
Considerăm un test bilateral, cu următoarele etape:

1. Formularea ipotezelor
H 0 :  1  0 (între cele două variabile nu există o legătură liniară);
H 1 :  1  0 (între variabile există o legătură de tip liniar).

2. Alegerea pragului de semnificaţie 


De regulă, se ia valoarea 0,05 (în SPSS, aceasta este valoarea implicită, dar poate fi
modificată de utilizator).

3. Alegerea statisticii test


ˆ 1  1
Se alege statistica Student t  .
ˆ ˆ
1

4. Determinarea valorii teoretice a testului


Dacă se acceptă ipoteza nulă, statistica test este:
ˆ
t  1 ~ t( n  2 ) , unde
ˆ ˆ
1
Regresia liniară simplă 97

 ( yi  ˆ 0  ˆ 1 xi )2
ˆ ˆ 1  i
.
( n  2 ) ( xi  x )2
i

Pentru pragul de semnificaţie stabilit şi cunoscând legea de repartiţie a statisticii test, pentru
n-2 grade de libertate, se citeşte din tabela Student valoarea teoretică t . Se alege /2 ;n  2
2
deoarece testul este bilateral (figura 3.5), iar zonele de respingere sunt delimitate de valorile
 t  t
; n  2 şi ;n  2 .
2 2

De exemplu, pentru un prag de semnificaţie de 0,05 şi un eşantion de volum n=150, din


tabele se citeşte valoarea t0 ,025 ;148  1,96 .

 t 0 t
;n  2 ;n  2
2 2
Figura 4. Valorile teoretice ale statisticii Student pentru un nivel de încredere de ( 1   )

5. Determinarea valorii calculate a testului


La nivelul unui eşantion se obţine o estimaţie a statisticii test:
b b1 b1
tcalc  1  
sˆ
1  ( yi  b0  b1 xi )2  ei
2
.
i i
( n  2 ) ( xi  x )2
( n  2 ) ( xi  x )2

i i

6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă tcalc  [ t , t ] , se acceptă H cu o probabilitate egală cu (1-);
;n  2 ;n  2 0
2 2

- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

Dacă se ţine cont de semnificaţia testului, regula de decizie este următoarea:


- dacă Sigt   , se acceptă ipoteza nulă.
- dacă Sigt   , se respinge H0.

Exemplu
98 Regresia liniară simplă
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), testarea parametrilor este realizată în SPSS pe baza rezultatelor din
tabelul de mai jos.
Coefficientsa

Standardized
Unstandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Constant) -3.951 1.795 -2.201 .033
cheltuieli cu publicitatea .100 .022 .551 4.540 .000
a. Dependent Variable: profitul

Valoarea calculată a testului Student, pentru fiecare parametru, se obţine prin relaţia
b
tcalc  i , i  0 ,1 .
sˆ
i

În tabelul de mai sus, estimaţiile parametrilor modelului de regresie se găsesc în coloana a


doua (valorile lui B din coloana Unstandardized Coefficients), iar estimaţiile abaterii standard
a estimatorului se află în coloana a treia (valorile Std. Error).

Din datele tabelului de mai sus, valoarea calculată a testului, prezentată în coloana a cincea
(coloana t), se obţine prin raportul dintre valorile coloanei a doua şi a treia. De exemplu,
pentru parametrul  1 , valoarea statisticii test este:
0 ,1
tcalc   4 ,54 .
0 ,022

În coloana a patra (valoarea lui Beta), este calculată estimaţia coeficientului de regresie în
cazul standardizării variabilelor din model. Valoarea coeficientului de regresie este identică,
în acest caz, cu cea a coeficientului de corelaţie (r=0,551).

În ultima coloană a tabelului sunt prezentate valorile calculate ale probabilităţilor cu care se
obţin cele două estimaţii ale parametrilor (Sig t).

Aplicând regula de decizie prin compararea pragului de semnificaţie cu valoarea Sig t, se ia


decizia de a respinge ipoteza nulă cu o probabilitate de 95% pentru fiecare parametru în parte.
În consecinţă, se consideră că parametrii estimaţi sunt semnificativ diferiţi de zero, ceea ce
este echivalent cu a spune că între cele două variabile există o legătură de tip liniar.

Testarea modelului de regresie

Modelul de regresie se testează cu ajutorul testului Fisher. Este un test asupra semnificaţiei
modelului de regresie utilizat.

În acest caz, ipoteza nulă se formulează asupra ambilor parametri ai modelului:


H 0 :  0  0 ,  1  0 (modelul nu este semnificativ);
H 1 :  0  0 ,  1  0 (modelul explică semnificativ legătura dintre variabile).
Regresia liniară simplă 99
Statistica Fisher se construieşte pe baza procedeului de descompunere a variaţiei totale a
variabilei dependente (VT) în două componente: variaţia explicată (VE) şi variaţia reziduală
(VR). Utilizând estimatorii componentelor variaţiei, se construieşte statistica:
V̂E
V̂ n  k
F  k 1  E  ~ ( k  1,n  k ) ,
V̂R V̂R k  1
nk
care urmează o lege de repartiţie Fisher, determinată de parametrii: k, numărul parametrilor
din model (pentru modelul liniar simplu k=2) şi n, volumul eşantionului.

Pentru un prag de semnificaţie fixat, se citeşte valoarea teoretică F ; k  1; n  k .

0
F ;k 1;n  k

Figura 5. Valoarea teoretică a statisticii Fisher pentru un nivel de încredere de ( 1   )

Valoarea calculată a statisticii Fisher este:


ESS
 ( b0  b1 xi  y )2 n  k
Fcalc  k  1  i  .
RSS  ( yi  b0  b1 xi )2 k  1
nk i

Decizia se ia prin compararea valorii calculate a testului cu valoarea din tabela Fisher:
- dacă Fcalc  F ;k  1; n  k , se respinge ipoteza nulă;
- dacă Fcalc  F ; k  1;n  k , se acceptă ipoteza nulă, cu probabilitatea ( 1   ).

Exemplu
Modelul de regresie estimat pe baza datelor privind repartiţia unei populaţii de 50 firme după
profitul realizat (variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu
publicitatea (variabila independentă X, exprimată în milioane lei).este testat cu ajutorul
testului Fisher, conform datelor din tabelul de mai jos.
100 Regresia liniară simplă
ANOVAb

Sum of
Model Squares df Mean Square F Sig.
1 Regression 51.021 1 51.021 20.935 .000a
Residual 116.979 48 2.437
Total 168.000 49
a. Predictors: (Constant), cheltuieli cu publicitatea
b. Dependent Variable: profitul

În tabelul ANOVA, realizat cu ajutorul programului SPSS, sunt prezentate estimaţiile


variaţiei, pe cele două componente (coloana 2, Sum of Squares), precum şi estimaţiile
varianţelor (coloana 4, Mean Squares), obţinute prin raportarea acestora la numărul de grade
de libertate (coloana 3, df).

Componentele variaţiei:
- variaţia explicată estimată este 51,021 (Explained Sum of Squares sau Regression Sum of
Squares);
- variaţia reziduală estimată este 116,979 (Residual Sum of Squares);
- variaţia totală estimată, suma celor două precedente, este 168 (Total Sum of Squares);

Gradele de libertate asociate:


k – 1 = 1;
n – k = 48;
n – 1 = 49;
n = 50.

Varianţa estimată a erorilor este:


 ( yi  b0  b1 xi )2
116 ,979
s2  i   2 ,437 .
n2 50  2

Valoarea statisticii Fisher este:


ESS
51,021
Fcalc  k  1   20 ,935 .
RSS 2 ,437
nk

Valoarea ridicată a statisticii este determinată de valoarea scăzută a estimaţiei varianţei


erorilor, ceea ce înseamnă că modelul este valid sau este semnificativ pentru a explica
legătura dintre cele două variabile.

În condiţiile discutate, decizia cu privire la ipoteza nulă este evidentă, aşa cum o arată şi
valoarea semnificaţiei testului: Sig F = 0,0 < 0,05. Adică, cu o probabilitate de 95%, se
respinge ipoteza nulă sau ipoteza că modelul nu este adecvat realităţii studiate.

6. Testarea indicatorilor de corelaţie


Regresia liniară simplă 101
a. Testarea coeficientului de corelaţie

1. Ipoteze
H 0 :   0 (între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

2. Pragul de semnificaţie (   0 ,05 )

3. Testul statistic
Se utilizează statistica Student, care în condiţiile acceptării ipotezei nule este:
ˆ
t ~ t( n  2 )
1  ˆ 2 .
n2

4. Valorile teoretice din tabela Student


Pentru un test bilateral, se citeşte valoarea t / 2 ;n  2 .

5. Valoarea calculată a testului


La nivelul unui eşantion, se calculează:
r
tcalc 
1  r2 .
n2

6. Decizia
- dacă tcalc  [ t / 2 ; n  2 , t / 2 ;n  2 ] , se acceptă H0 cu o probabilitate egală cu (1-);
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).

b. Testarea raportului de corelaţie

Demersul testării este prezentat prin etapele de mai jos.

- Se formulează ipotezele:
H 0 :   0 între variabile nu există o legătură semnificativă);
H 1 :   0 (variabilele sunt corelate semnificativ).

- Se alege pragul de semnificaţie .

- Se utilizează o statistică Fisher, care are următoarea expresie:


ˆ 2 nk
F  ,
1  ˆ 2 k  1
care urmează o lege de repartiţie Fisher de k-1 şi n-k grade de libertate.

- Se citeşte valoarea teoretică F ;k 1;nk din tabela lui Fisher, pentru un prag de semnificaţie
 stabilit şi pentru k-1, respectiv (n-k) grade de libertate.
102 Regresia liniară simplă
- Se obţine valoarea calculată a testului:
R2 nk
Fcalc   ,
1 R k 1
2

unde R2 este raportul de determinaţie calculat la nivelul unui eşantion.

- Se ia decizia pe baza următoarei reguli: dacă Fcalc  F ;k  1; n  k , se respinge ipoteza H0. În


funcţie de semnificaţia testului, dacă SigF < , se respinge H0, cu o probabilitate egală cu 1-
.

Observaţie
Testul Fisher utilizat pentru testarea modelului este identic cu cel folosit la testarea raportului
de corelaţie:
ESS n  k R2 nk
Fcalc     . La baza acestei egalităţi stau relaţiile:
RSS k  1 1  R k  1
2

ESS
R2  , TSS  ESS  RSS .
TSS
Regresia liniară simplă 103

Test8
1. În modelul de regresie liniară simplă, parametrul  reprezintă:
a) ordonata la origine
b) nivelul mediu al variabilei dependente dacă variabila independentă ia valoarea 1
c) variaţia absolută medie a variabilei dependente la o variaţie absolută cu o unitate a
variabilei independente
d) panta dreptei de regresie

2. Pentru un model de regresie liniară simplă, coeficientul de corelaţie este identic cu panta
dreptei de regresie dacă:
a) valorile variabilei dependente sunt mai mari decât cele ale variabilei independente
b) valorile celor două variabile sunt standardizate
c) valorile celor două variabile sunt diferite

3. Coeficientul de determinaţie arată:


a) gradul de intensitate a legăturii dintre două variabile
b) ponderea variaţie variabilei dependente explicate de variaţia variabilei independente
c) egalitatea mediilor a două populaţii

4. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Valoarea calculată a testului Student care verifică ipoteza existenţei unei legături dintre cele două
variabile este:
a) 11,99
b) 19,11
c) 33,2

5. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului scade în medie cu
18331,2$
8
Răspunsuri la teste: 1 – c,d; 2 – b; 3 – a,b; 4 – c; 5 – b,c; 6 – a,b; 7 – a,c
104 Regresia liniară simplă
b) la o creştere cu 1 an a numărului de ani de studii, nivelul salariului creşte în medie cu
3909,9$
c) cu o încredere de 95%, se respinge ipoteza că numărul de ani de studii nu are o influenţă
semnificativă asupra salariului
d) cu o eroare de 5%, se acceptă ipoteza că între cele două variabile analizate nu există nici o
legătură

6. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations

Educational
Level (years) Current Salary
Educational Level (years) Pearson Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pearson Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is significant at the 0.01 level (2-tailed).

Este valabilă interpretarea:


a) coeficientul de corelaţie dintre cele două variabile este semnificativ statistic
b) cu o probabilitate de 95%, se respinge ipoteza că salariul nu este influenţat de nivelul de
educaţie
c) semnificaţia testului este 0,661

7. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients

Unstandardized Standardized
Coefficients Coefficients
B Std. Error Beta t Sig.
Educational Level (years) 3909.907 204.547 .661 19.115 .000
(Constant) -18331.2 2821.912 -6.496 .000

Este valabilă interpretarea:


a) valoarea 0,661 este estimaţia coeficientului de corelaţie
b) cu o probabilitate de 95%, se acceptă că valoare 0,661 este nesemnificativă
c) valoarea 0,661 este panta de regresie pentru modelul cu variabile standardizate

S-ar putea să vă placă și