Sunteți pe pagina 1din 12

Capitolul 2.

REGRESIA SIMPLĂ

Metoda regresiei este folosită pentru a caracteriza forma şi sensul legăturii


dintre variabile. Se consideră că între cele două variabile există o interdependenţă
în sensul că y este influenţat de x.
În general, metoda regresiei conduce la obţinerea unei expresii analitice a
unei funcţii de regresie care sintetizează forma şi sensul variaţiei lui y sub influenţa
factorului x (sau a factorilor luaţi în considerare).
Dacă se consideră că asupra variabilei endogene acţionează un singur factor,
atunci se va obţine o regresie simplă sau unifactorială, funcţia de regresie putând
fi lianeară sau curbilinie.
Dacă se consideră că asupra variabilei endogene acţionează doi sau mai mulţi
factori, atunci se va obţine o regresie multiplă sau multifactorială.

2.1. Modelul linear simplu de regresie


Modelul linear este adesea utilizat pentru studiul legăturii dintre diverse
variabile, deoarece oferă avantaje calculatorii în estimarea parametrilor.
Dacă se acceptă că între variabilele x(x1, x2,…xn) şi y(y1, y2,…yn) există o
legatură directă de forma lineară, metoda regresiei permite estimarea parametriilor
funcţiei:
y  f x   a  x  b (2.1)
Fiecare valoare reală din seria considerată se reprezintă sub forma:
y i  f  xi   a  x i  b  u i i  1, n (2.2)
unde: ui  yi  a  xi  b i  1, n este eroarea sau abaterea dintre valoarea
anticipată a variabilei yi şi valoarea efectivă înregistrată.
Deoarece parametrii modelului sunt necunoscuţi, valorile acestora se pot
estima cu ajutorul mai multor metode, în mod curent fiind folosită însă metoda
celor mai mici pătrate (MCMMP) (Legendre, 1806). Utilizarea acestei metode
porneşte de la considerarea următoarele relaţii:
y i  a  xi  b  u i i  1, n

yˆ i  aˆ  xi  bˆ i  1, n (2.3)
unde:

31
ŷi reprezintă valorile teoretice ale variabilei y obţinute numai în funcţie
de valorile factorului esenţial x şi de valorile estimatorilor parametrilor
a şi b, respectiv â şi b̂ ;
ui  yi  yˆ i  a  aˆ   xi  b  bˆ   reprezintă estimaţiile valorilor variabilei
reziduale.
Estimarea parametrilor modelului linear se bazează pe determinarea dreptei
care să minimizeze erorile de ajustare.
Grafic, prin metoda celor mai mici pătrate se determină acea dreaptă care
asigură cea mai bună ajustare a punctelor empirice (dreapta de regresie), adică
aceea pentru care se minimizează suma pătratelor (figura 2.1).

Figura 2.1 Diagrama legăturii dintre Indicele preţului de consum


(1990=100) şi depozitele gospodăriilor populaţiei (la sfârşit de perioadă)
330000
325000
320000
315000
IPC (1990=100)

310000
305000
300000
295000
290000 y = 1.076x + 234117
285000 R2 = 0.9829
280000
40000 45000 50000 55000 60000 65000 70000 75000 80000 85000 90000
Depozite gospodarii populatie (mil RON, sf. perioada)

Sursa datelor: Buletin lunar BNR 1-12/1007, 1-12/2008, 1-3/2009

Analitic, estimarea parametrilor modelului linear se realizează prin


minimizarea funcţiei de două variabile definită astfel:

  2
n
2

i 1
 n

i 1

F aˆ , bˆ   ui    yi  yˆ i    yi  aˆ  xi  bˆ
2

i 1
n
(2.4)

unde: F aˆ , bˆ  repreintă suma pătratelor abaterilor u dintre valorile înregistrate ale
variabilei yi şi valorile calculate ŷi
Minimul funcţiei se obţine dacă este satisfăcută:

32
 F aˆ , bˆ

 
0
 aˆ
i) condiţia necesară:  (2.5)
 
 F aˆ , bˆ  0
 bˆ
Se obţine astfel sistemul de ecuaţii normale:


 
 F aˆ , bˆ n
  n
 
 0   2 y i  aˆ  xi  bˆ  xi  0   y i  aˆ  xi  bˆ  xi  0
 aˆ i 1 i 1

 
 F aˆ , bˆ  0   2 n y  aˆ  x  bˆ  0
    
n
 
y i  aˆ  xi  bˆ  0
 bˆ i 1
i i
i 1

(2.6)
n  bˆ  aˆ  n x  n y
  i  i
i 1 i 1
  n n n
(2.7)
bˆ   xi  aˆ   xi2   xi yi
 i 1 i 1 i 1

 2 F aˆ , bˆ    
 2 F aˆ , bˆ
 
 2 F aˆ , bˆ
 0 şi   2
aˆ 2 aˆ bˆ
0
ii) condiţia suficientă:
aˆ 2  F aˆ , bˆ    
 2 F aˆ , bˆ
bˆ aˆ bˆ 2
(2.8)
care este evident satisfăcută pentru orice valori obţinute prin rezolvarea sistemului
(2.6), deoarece:
 
 2 F aˆ , bˆ
 2 
n
xi2  0;  xi  R, i  1, n şi nu toţi nuli
aˆ 2
i 1

  
 
 2 F aˆ , bˆ  2 F aˆ , bˆ n
 2  xi ;
 
 2 F aˆ , bˆ
 2n
aˆ bˆ bˆ aˆ i 1 bˆ 2
Prin urmare,
n n
 n x2 
2 xi2 2  xi 2
  
 4n  xi2  4  xi   4n 2  i 1  x   4n 2V  x   0 ,
n n i 2
 i 1
n
i 1

2  xi 2n i 1  i 1  n
 
i 1  
relaţie echivalentă din proprietatea varianţei.

33
Estimarea parametrilor funcţiei de regresie se face prin rezolvarea sistemului
(2.7).
Parametru “ â ” se numeşte coeficient de regresie şi exprimă sensul şi
mărimea influenţei lui x asupra lui y.
Dacă “ â ” este o valoare pozitivă, atunci aceasta indică o legătură directă.
Dacă “ â ” este negativ indică o legătură indirectă.
Mărimea parametrului “ â ” arată cu cât se modifică variabila rezultativă la
creşterea cu o unitate a factorului de influenţă.

I. Proprietăţi ale dreptei de regresie


Calcularea pantei de regresie:
Rezolvând sistemul (2.7) cu ajutorul metodei lui Cramer, se obţine:
n
n  yi
i 1
n n n n n
 xi  xi y i n  xi y i   xi  y i
cov x, y 
i 1 i 1
aˆ   i 1 i 1 i 1
 (2.9)
n n
 
n 2
V x 
n  xi n xi2    xi 
n
i 1
n
i 1  i 1 
 xi  xi2
i 1 i 1

unde: cov(x,y) este un indicator intermediar în măsurarea intensităţii legăturii


lineare dintre două variabile.
Covarianţa se calculează cu ajutorul formulei:

cov x, y      xi  x  y j  y   nij
1 k p
(2.10)
n i 1 j 1
unde:
 k
xi  ni
 
 n
x  k
i 1
  xi
  ni  x  n
i 1
 i 1
 p
sau, pentru o serie simplă:  n
(2.11)
  yj  nj   yi
 y  j 1  y  i 1
 p  n
  nj
j 1

34
şi reprezintă mediile variabilelor considerate;
nij defineşte numărul unităţilor pentru care valorile variabilei x aparţin
modalităţilor xi , iar cele ale variabilei y aparţin modalităţilor y j .
k
 xi  x   ni
2

V x   i 1
k
reprezintă varianţa marginală a caracteristicii x
 ni
i 1
(2.12)
1 k
(pentru o serie simplă devine: V  x     xi  x   ni )
2

n i 1
În aceste condiţii, relaţia (2.9) devine:
n
 xi  x  yi  y 
aˆ  i 1
n
(2.13)
  xi  x 
2

i 1

II. Măsurarea intensităţii pentru o conexiune lineară


Definirea coeficientului linear de corelaţie
Deorece covarianţa prezintă două înconveniente majore: i) nu este un
indicator normalizat şi ii) depinde de unităţile de măsură ale celor două variabile, se
poate introduce coeficietul de corelaţie definit prin relaţia:
n n n
n  xi y i   xi  y i
cov x, y 
r  x, y   r   i 1 i 1 i 1
(2.14)
  x   y   n 2  n   n 2  n 2 
2

n  xi    x i    n  y i    y i  
 i 1  i 1    i 1  i 1  

cu   x  (respectiv   y  )- abaterea standard , definită prin relaţia:   x   V  x 


Acest indicator oferă informaţii asupra direcţiei şi intensităţii legăturii. Prin
modul de definire, acesta este un indicator adecvat calculului numai pentru
variabile legate printr-o dependenţă lineară.

Proprietăţile indicatorului:
a) r este o măsură simetrică în raport cu cele două variabile r  x, y   r  y, x  ;

35
b) dacă x şi y sunt două variabile independente, atunci r  x, y   0 ;
c) coeficietul de corelaţie este egal cu unu, dacă şi numai dacă x şi y sunt
două variabile corelate funcţional.
Observaţie: cu cât r este mai mare cu atât intensitatea legăturii dintre cele
două variabile este mai puternică.

III. Legături între r şi R2


a) Dacă x şi y sunt două variabile aleatoare, linear dependente, atunci are loc
egalitatea: r 2  R 2
Demonstraţie:
Fie yˆ i  aˆ  xi  bˆ i  1, n

y  aˆ  x  bˆ
Scăzând cele două relaţii se obţine: yˆ  y  aˆ   xi  x  (2.15)
Raportului de corelaţie (de determinare) este definit prin relaţia:
n
  yˆ  y 
2

R2  i 1
n
şi din yˆ i  aˆ  xi  bˆ i  1, n (2.16)
  yi  y 
2

i 1

în care, dacă se înlocuieşte numărătorul cu expresia obţinută în relaţia (2.16), se


obţine:
n n
 aˆ xi  x  aˆ 2   xi  x 
2 2

V x 
R2  i 1
 i 1
 aˆ 2 (2.17)
n n
V y
  yi  y    yi  y 
2 2

i 1 i 1

cov x, y 
dar, aˆ  rezultă că:
V x 

cov 2  x, y  V  x   cov x, y  
2

R 
2
     r 2 (2.18)
V  x  V  y     x   y  
2

Observaţie: reciproca nu este întotdeauna adevărată.

36
b) oricare ar fi două variabile x şi y este adevărată relaţia de ordine:
0  r 2  R2  1;
c) dacă legătura dintre două variabile nu este lineară, atunci coeficientul
linear de corelaţie nu mai are nici o semnificaţie.

IV. Varianţa empirică a rezidului



Dacă pentru perechile de numere  x, y , i  1,n s-a definit o legătură 
lineară, atunci ûi eroarea empirică de ajustare se poate defini prin relaţia:
uˆi  yi  yˆ i , i  1, n (2.19)
Seria de date uˆi , i  1, n are proprietăţile:
a) erorile empirice ajustate se compensează (pe ansamblul seriei ajustate),
n
adică este adevărată egalitatea:  uˆi  0
i 1

Demonstraţie:
Din relaţia uˆi  yi  yˆ i , i  1, n , prin însumare, rezultă:

 uˆi    yi  yˆ i    yi  aˆxi  bˆ    yi  aˆ  xi  nbˆ  0


n n n n n

i 1 i 1 i 1 i 1 i 1

b) dacă r este coeficientul de corelaţie dintre cele două variabile, atunci are
loc relaţia:
 2 uˆ   1  r 2  2  y  (2.20)
1 n 2
în care s-a făcut notaţia:  2 uˆ    ui
n i 1
Demonstraţie:

1 n 2 1 n 1 n
 2 uˆ    u i    y i  yˆ i 2
   yi  y    y  yˆ i 2
n i 1 n i 1 n i 1
1 n n n
2
  y  y 2
 2   y  y  y  yˆ     y  ˆ
y 
n  i 1 
i i i i
i 1 i 1

dar yˆ i  aˆ  xi  bˆ, i  1, n şi y  aˆ  x  bˆ, i  1, n şi prin urmare,


y  yˆ i  aˆ   x  xi  .

37
Înlocuind în expresia de mai sus ultima relaţie obţinută, rezultă:

 2 uˆ     yi  y 2  2aˆ   yi  y  xi  x   aˆ 2   xi  x 2  


1 n n n

n  i 1 i 1 i 1 
n n n
  yi  y    yi  y xi  x    xi  x 
2 2

 i 1
 2aˆ i 1  aˆ 2 i 1

n n n
   y   2aˆcov x, y   aˆ   x  
2 2 2

cov x, y 
  2  y   aˆ 2 2  x   2aˆ   x   y  
  x   y 
cov 2  x, y  2
  y  2
  x   2aˆr  x   y  
 4 x 
 cov x, y   2 cov x, y 
  2  y      x   2 2 r  x   y  
   x   y     x 
cov x, y  2
  2  y   r 2 2  y   2 r  y    2  y   r 2 2  y   2r 2 2  y 
  x   y 
  2  y 1  r 2 

2.2 Modelul parabolic


Dintre funcţiile curbilinii, în analiza economică şi socială se utilizează
frecvent funcţia polinomială de gradul 2 (figura 2.2):

yi  aˆ  xi2  bˆ  xi  cˆ, i  1, n (2.21)

Aplicarea metodei celor mai mici pătrate pentru determinarea parametrilor


ecuaţiei de gradul doi, conduce la obţinerea sistemului:

 n
ˆ   x  aˆ   x 2   y
n n

 n  ˆ
c  b i i i
i 1 i 1 i 1
 n
 n n n
  i
  ˆ   i    i  xi y i 
2 3
cˆ x b x aˆ x (2.22)
 i 1 i  1 i 1 i 1

 n n n n

cˆ   xi  b   xi  aˆ   xi   xi yi
2 ˆ 3 4 2

 i 1 i 1 i 1 i 1

38
Figura 2.2. Regresia parabolică
7
y
6

2
y = 0.9801x 2 - 3.865x + 5.8451
1 R2 = 0.9517

0
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x

2.3 Modelul exponenţial


Acest model se utilizează în cazul în care “norul de puncte” se dispune de-a
lungul unei funcţii exponenţiale (figura 2.3), definită prin expresia:

yi  a  b xi , i  1, n (2.23)

Observaţie: ajustarea cu ajutorul funcţiilor de acest tip trebuie făcută cu


multă prudenţă deoarece o variabilă economică nu poate să crească exponenţial
decât pe o perioadă relativ scurtă de timp.
Ajustarea cu ajutorul funcţiilor exponeţiale necesită parcurgerea
următoarelor etape:
1. logaritmarea funcţiei exponenţiale, obţinându-se astfel forma ei
linearizată:
zi  ln yi  ln a  xi  ln b (2.24)
Dacă se fac notaţiile: A  ln a şi B  ln b , atunci relaţia (2.24) devine:
z i  A  B  xi (2.25)
2. se estimează parametrii funcţiei lineare (2.25) prin MCMMP,
obţinându-se estimatorii  şi B̂ ;
3. se determină aˆ  e A şi bˆ  e B şi se calculează valorile ajustate
ˆ ˆ

yˆ i  aˆ  bˆ xi , i  1, n ;

39
4. se calculează raportul de corelaţie pentru a măsura intensitatea legăturii
dintre cele două variabile.

Figura 2.3. Regresia funcţiei putere

5.5

5
4.5 y = 4.8371x -0.432
4 R2 = 0.949

3.5

2.5

2
0.9 1.4 1.9 2.4 2.9 3.4 3.9 4.4 4.9

2.4. Modelul hiperbolic


Dacă punctele urmează traiectoria unei hiperbole, de ecuaţie:
a
yi   b, i  1, n (2.26)
xi
atunci, se utilizează ajustarea hiperbolică.
Ajustarea prin intermediul funcţiilor hiperbolice necesită parcurgerea
următoarelor etape:
1. parametrii a, b sunt estimaţi prin MCMMP, rezolvând sistemul:

 n 1 ˆ
n

 
ˆ
a 
x
 n  b   yi
 i 1 i i 1
 n (2.27)
aˆ   1  bˆ   1   yi
n n

 i 1 xi2 i 1 xi i 1 xi

aˆ ˆ
2. se calculează valorile ajustate: yˆ i   b, i  1, n (2.28)
xi
3. se calculează raportul de corelaţie

40
Exemplul 2.1:
Se consideră veniturile şi chetuielie din sistemul public de sănătate românesc
în perioada 1999-2008 (tabelul 2.1). Pentru determinarea parametrilor ecuaţiei de
regresie este necesar calculul unor valori ajutătoare: x 2 , xy , y 2 .

Tabelul 2.1 Calculele de bază pentru modelul unifactorial de regresie lineară

Venituri Cheltuieli    
totale totale
(mld.lei) (mld.lei)
Nr. y xy
Ani x x2 y2 ŷ   u 
crt.
1 1999 1.8386 1.5958 3.38 2.93 2.55 1.72865 -0.13
2 2000 2.8456 2.5535 8.10 7.27 6.52 2.7366 -0.18
3 2001 4.1734 3.7423 17.42 15.62 14.00 4.06566 -0.32
4 2002 5.4801 4.8349 30.03 26.50 23.38 5.37361 -0.54
5 2003 5.5127 6.2283 30.39 34.33 38.79 5.40624 0.82
6 2004 6.8774 7.0014 47.30 48.15 49.02 6.77223 0.23
7 2005 8.4744 9.1574 71.82 77.60 83.86 8.37075 0.79
8 2006 10.7572 10.1705 115.72 109.41 103.44 10.6557 -0.49
9 2007 13.0806 12.8591 171.10 168.20 165.36 12.9813 -0.12
10 2008e 16.9235 16.7752 286.40 283.90 281.41 16.8279 -0.05
suma 75.9635 74.9184 781.655 773.91 768.32 74.9187 0.00
e = estimat

Pentru estimarea parametrilor modelului linear valorile ultimei linii din


tabelul 2.1 se înlocuesc în sistemul (2.7) şi se obţine:
10  bˆ  aˆ  75.9635  74.9184
 (2.29)
bˆ  75.9635  aˆ  781.655  773.91
Rezolvare acestui sistem conduce la obţinerea soluţiilor
aˆ  1,00095
ˆ (2.30)
b  0.1117

Dreapta de regresie calculată pe baza eşantionului prezentat în tabelul 2.1


este (figura 2.4):
yˆ t  1,00095  xt  0.1117 , t  1,10 (2.31)

41
Figura 2.4. Diagrama legăturii venituri - chetuieli în sistemul public de sănătate
românesc şi dreapta de regresie

18
Ch eltu ieli to tale (m ld .RON) 16

14

12

10

8 y = 1.0009x - 0.1117
6 R2 = 0.9901

0
0 2 4 6 8 10 12 14 16 18
Venituri totale (mld.RON)

Valorile variabilei reziduale (care reprezintă diferenţa dintre valorile


înregistrate şi cele calculate pe baza modelului) sunt prezentae în tabelul 2.1 .

42

S-ar putea să vă placă și