Sunteți pe pagina 1din 29

Modelul simplu de regresie

1. Definirea modelului de regresie;

2. Ipoteze clasice asupra modelului de regresie;

2. Estimarea punctuală a parametrilor modelului;

3. Testarea semnificației corelației şi a parametrilor modelului de


regresie;

4. Estimarea parametrilor prin interval de încredere;

5. Previziunea valorii variabilei Y in ipoteza modificarii variabilei


factoriale.
1. Definirea modelului de regresie
 Analiza de regresie este utilizată pentru a estima valorile unei
variabile (numită variabilă dependentă, endogenă, efect sau explicată)
pe baza valorilor uneia sau mai multor alte variabile (numite variabile
independente, exogene, cauzale sau explicative) pornind de la forma
legăturii dintre acestea exprimată ca un model matematic.

 Atunci când în analiză intervine o singură variabilă independentă iar


forma legăturii (a norului de puncte care reprezintă valorile celor două
variabile) este o dreaptă vorbim despre regresie lineară simplă. În
cazul includerii în analiză a mai multor variabile independente suntem
în situaţia unui model de regresie multifactorial.
Forma, variabilele şi parametrii modelului
de regresie linear unifactorial
Modelul linear unifactorial se prezintă astfel:

Yi    X i   i , i = 1...n, unde:
 Y reprezintă variabila dependentă, endogenă, efect sau explicată;
 X este variabila independentă, exogenă, cauzală sau explicativă;
 parametrul  se numeşte termen liber (intercept) pentru colectivitatea
generală;
 parametrul  reprezintă panta dreptei de regresie (slope) pentru
colectivitatea generală;
 i se numeşte variabilă reziduală (residual) sau eroare;
 n reprezintă numărul de observaţii.
Specificarea unui model de
regresie
 Dacă datele disponibile provin dintr-un eşantion avem la
dispoziţie n perechi de observaţii (x1, y1), (x2,y2), ... (xn, yn),
pe care le vom folosi pentru estimarea parametrilor ecuaţiei
de regresie liniară simplă,  şi .
 Modelul de regresie liniară în eşantion este:
yi = a + bxi + ei
 cu componenta predictibilă:
yˆi  aˆ  bˆxi
 âşi b̂ sunt estimatorii punctului de intercepţie () şi pantei liniei
drepte (), obţinuţi pe eşantion
 ê
i este valoarea reziduală (pentru unitatea i) în eşantion:

ê i  y i – (â  b̂x i )
yˆi  aˆ  bˆxi
În ecuaţia de ajustare

 ŷ i valoarea estimată a lui Y pentru observaţia i;

 x i este valoarea lui X pentru observaţia i;

 estimatorul â se numeşte termen liber (intercept) pentru eşantionul extras


din colectivitatea generală şi, din punct de vedere matematic, reprezintă
punctul în care dreapta de regresie intersectează axa OY. Nu are semnificaţie
economică;

 estimatorul b̂ se numeşte coeficient de regresie şi, din punct de vedere


matematic, reprezintă panta dreptei de regresie (slope) arătând cu câte unităţi
se modifică variabila Y, la o modificare cu o unitate a variabilei X;
Semnul coeficientului de regresie arată direcţia legăturii dintre cele
două variabile cercetate:
 dacă bˆ  0 legătura între variabile este directă;
 dacă bˆ  0 legătura între variabile este inversă (negativă);
 dacă bˆ  0 nu există legătură între variabile.
Ipotezele modelului de regresie
liniară
 Pentru a obţine proprietăţile dorite ale estimatorilor regresiei, se
fac, de obicei, cinci presupuneri (ipoteze) standard pentru modelul
din populaţia generală:

 Ipotezele ce trebuie verificate:

 Forma funcţională: Yi = + Xi + i, i=1,n


Normalitatea erorilor: i N(0,   )
2

 Media zero a erorilor: μ(i)=0 i


Homoscedasticitatea: σ2(i)=   constantă i
2

 Non autocorelarea erorilor: Cov(i,j)=0 ij


 Necorelarea între regresor şi erori: Cov(xi,j)=0 i şi j
Aproximarea grafică a modelului legăturii
dintre variabile
A) Legătură lineară directă B) Legătură lineară inversă
y y

x x
C) Legătură nelineară D) Legătură nelineară
directă indirectă
y y

x
x
E) Nicio legătură F) Nicio legătură

y y

x x
Estimarea parametrilor
modelului de regresie clasic
 Parametrii necunoscuţi sunt cei ce trebuie estimaţi:
Yi = + Xi + i, i=1,n
 Modelul estimat va fi scris:
yˆi  aˆ  bˆxi , i  1, n
 Eroarea asociată unui punct i este:
i = yi -  - xi
 Pentru orice valori estimate a şi b, erorile estimate vor fi:
ê i  y i – (â  b̂x i )
 Pentru estimarea parametrilor  şi  pe baza datelor observate, un
criteriu natural este cel de maximizare a potrivirii modelului cu datele
observate, deci de minimizare a erorilor observate:
min  eˆi2  min  ( yi  aˆ  bˆxi ) 2
i i
Estimarea parametrilor
modelului de regresie clasic n
S   ( y i  aˆ  bˆxi ) 2  min
n
S   ( y i  yˆ i )  min
2
i 1
i 1

 Condiţiile de ordin 1 de minimizare a funcţiei sunt:


 S  n
 2   ( y i  aˆ  bˆxi )(1)  0  n n

naˆ  b  xi   y i
 aˆ 0  ˆ
 i 1 
   n i 1 i 1
  n
S
  0 2  ( y  aˆ  bˆx )( x )  0 
 
n n
aˆ x  bˆ x 2 
 bˆ    
i i i
i i xi y i
i 1 i 1 i 1 i 1

aˆ  y  bˆ x



n y i

 ˆ  xi x yi i n   xi y i   xi   y i
b  
 n x i
n   x i2  ( xi ) 2

  xi x 2
i
Estimarea parametrilor
modelului de regresie clasic
 Formule simplu de aplicat pentru coeficientul de regresie (b):

aˆ  y  b x



n y i

  ˆ  xi x y
i i n   xi y i   xi   y i  x y  nx y
b   
i i

 n x i
n   x i2  ( xi ) 2  x  nx
2 2
i

  xi x 2
i
Estimarea parametrilor
modelului de regresie clasic
 Formule simplu de aplicat pentru coeficientul de regresie (b):
aˆ  y  bˆ x

bˆ   i i
 x y  nx y

sau
 i
2
x 2
 n x

aˆ  y  bˆ x

 ˆ  ( xi  x )  ( y i  y ) cov xy
b  
  i ( x  x ) 2
s 2
x

aˆ  y  bˆ x

 ˆ cov xy cov xy s y sy
b  s 2  s  s  s  r  s
 x x y x x
Estimarea parametrilor
modelului de regresie clasic
 Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită
este un punct de minim. Matricea derivatelor parţiale de ordin doi trebuie să fie
pozitiv definită:
  2 ( ei2 )  2 ( ei2 ) 
 
 2 2
i i
  2n 2 xi 
  a ab   i 

2   2 x
  2 ( ei2 ) 2
 ( ei ) 2 xi2 
 
  i
i
i 
i i
 ba 
  2b 2 


2 n  0
 2
2 xi  0
 i
 2 2 2
 4 n  x i  4(  xi )  4 n  ( xi  x ) 0
 i i i
 Deci matricea este pozitiv definită.
Calităţile estimatorului (MCMMP)
 Estimaţia b̂ este nedeplasată: M (bˆ)  b

 Estimaţia b̂ este consistentă: bˆ  b

 Estimaţia este eficientă: acel estimator care este


nedeplasat şi de dispersie minimă (nedistorsionat şi de
precizie maximă)
3. Verificarea semnificaţiei rezultatelor
estimării. Testul F. Testul t
Analiza dispersională ANOVA
 Aplicarea MCMMP pentru determinarea ecuaţiei de
ajustare se bazează pe calcularea a trei tipuri de dispersii:

1. Variaţia totală calculată ca suma pătratelor diferenţelor


dintre fiecare valoare a variabilei Y şi media variabilei Y
(SST)

SST   Yi  Y 
n
2

i 1
Analiza dispersională ANOVA

2. Variaţia datorată regresiei (explicată de model)


calculată ca suma pătratelor abaterilor dintre fiecare valoare
a lui Y estimat pe baza modelului şi media variabilei Y (SSR).

 
n
SSR   Yˆi  Y
2

i 1

3. Dispersia reziduală (neexplicată de model) calculată ca


suma pătratelor diferenţelor între fiecare valoare a lui Y şi lui
Y estimat pe baza modelului (suma pătratelor erorilor) (SSE).
n n
SSE   (Yi  Yˆi )   ei2
2

i 1 i 1
 Analiza dispersională ANOVA

 Variaţia totală se obţine adunând la variaţia determinată


de modelul de regresie, variaţia neexplicată de model:

 SST=SSR+SSE
 Coeficientul de determinare = ponderea varianţei
explicate în varianţa totală indică în ce măsură variaţia
variabilei dependente Y este determinată de variaţia
variabilei independente X.

ˆ
SSR (Yi  Y ) 2
R 
2

SST (Yi  Y ) 2
Testarea semnificaţiei coeficientului
de determinare utilizând statistica F
Validarea globală a modelului liniar de regresie se realizează pe baza testului
Fisher-Snedecor (testul F).

Ipoteze statistice:
H0: 1  0 , variabila independentă nu are o influenţă semnificativă asupra
variabilei dependente. R2 nu este semnificativ din punct de vedere statistic.

H1: 1  0 , variabila independentă are o influenţă semnificativă asupra variabilei


dependente. R2 este semnificativ din punct de vedere statistic.
Testarea semnificaţiei coeficientului
de determinare utilizând statistica F
(Yˆi  Y ) 2
(Yˆi  Y ) 2  (Yi  Yˆi ) (Yˆi  Y ) 2 n  k (Yi  Y ) 2 n  k
2

Fcalculat  :    
k 1 nk  (Yi  Yi ) k  1  (Yi  Yi ) k  1
ˆ 2 ˆ 2

(Yi  Y ) 2
R2 n  k
Fcalculat  
1 R k 1
2

unde k reprezintă numărul de parametrii ai modelului (2 în cazul regresiei liniare simple), iar n
numărul de observaţii.

Dacă Fcalculat  F ,k 1,n  k se respinge ipoteza nulă şi se acceptă ipoteza alternativă


potrivit căreia R2 este semnificativ din punct de vedere statistic.
Testarea semnificaţiei coeficientului
de corelaţie liniară utilizând testul t

r
cov(x, y )

 ( xi  x )( yi  y ) 
n xi y i   xi  y i
Sx  Sy [ ( xi  x ) 2 ][  ( y i  y ) ] [n xi2  ( xi ) 2 ][ n y i2  ( y i ) 2 ]
2

Pentru a testa dacă între variabilele X şi Y există o legătură statistică


semnificativă se foloseşte testul t.

Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere stat
Testarea semnificaţiei coeficientului
de corelaţie liniară utilizând testul t

r 0 r n2
tcalc  
1 r 2 1 r 2
n2
Decizia:

Dacă tcalc  t ,n  2 se respinge ipoteza nulă, se acceptă ipoteza alternativă


potrivit căreia r este semnificativ din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t

Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
a -0 â - 0
t calcultat  
a s aˆ

1 X2  seˆ 
 (Y i  Yˆi ) 2

s â  s  
2 
eˆ  n ( X  X )2 
 i 
nk
Decizia:

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă


ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
Testarea parametrilor unui model de
regresie folosind testul t

Testarea parametrului  :
Ipoteze statistice:
H0:  0 (nu este semnificativ din punct de vedere statistic)
H1:  0 (este semnificativ din punct de vedere statistic)
b-0 b̂ - 0
t calcultat  
b sbˆ

s b̂ 
s 2
eˆ seˆ 
 (Y i  Yˆi ) 2
 i
( X  X ) 2
nk
Decizia:

Dacă tcalc  t  / 2;n -k se respinge ipoteza nulă, se acceptă


ipoteza alternativă potrivit căreia parametrul alfa este semnificativ
din punct de vedere statistic.
4. Estimarea parametrilor prin
interval de încredere
Intervalul de încredere pentru parametrul  :

aˆ  t / 2,n  k  saˆ    aˆ  t / 2,n  k  saˆ

Intervalul de încredere pentru parametrul  `:

bˆ  t / 2,nk  sbˆ    bˆ  t / 2,nk  sbˆ


5. Previziunea valorii variabilei Y in ipoteza
modificarii variabilei factoriale
Intervalul de predicţie

Yˆi  t / 2,nk  seˆ  hi sau

Yˆi  t / 2,nk  seˆ  hi  Y / X  X i  Yˆi  t / 2,nk  seˆ  hi ,

unde:
1 ( X i  X )2
hi  1   n
 ( X i  X )2
n
i 1
Bibliografie

V.Voineagu, E.Ţiţan, R.Şerban, S.Ghiţă, D.Todose,


C.Boboc, D.Pele – Teorie şi practică econometrică, Ed.
Meteor Press, 2007

S-ar putea să vă placă și