Sunteți pe pagina 1din 23

ECONOMETRIE

CURS 2

- note de curs -
IAŞI
- 2016-
C2. REGRESIA LINIARĂ SIMPLĂ (1)

Prezentarea modelului - regresia empirică și cea teoretică

Estimarea punctuală şi prin interval de încredere a


parametrilor - MCMMP

Testarea parametrilor

Probleme specifice utilizând SPSS si Excel


1.Scurt istoric al regresiei

1886 - Francis Galton,. “Family Likeness in Stature”,


Proceedings of Royal Society, London, vol. 40, 1886, pp.
42-72

1897 - G. U. Yule, "On the Theory of Correlation", Journal


of the Royal Statistical Society , pp. 812-54.

1903 - Karl Pearson, G. U. Yule, Norman Blanchard, and


Alice Lee, "The Law of Ancestral Heredity", Biometrika

1925 - R.A. Fisher, Statistical Methods for Research


Workers
2. Noţiuni (1)
Regresia este o legătură statistică între două sau mai multe
variabile statistice.

În descrierea legăturilor statistice pentru variabilele


dependente utilizăm variabile aleatoare (stohastice), ceea ce
înseamnă că acestora le corespund distribuţii de probabilitate
(fig. 1).
y1 ... y j ... ym
xi→ Y: ( ) =>M(Y│xi) = f(xi) => yi=f(xi)+εi
ni ... n j ... nm

X – variabilă independentă - variabilă nestohastică


Y – variabilă dependentă – variabilă stohastică (prezintă
distribuţii pentru fiecare valoare a lui X)
2. Noţiuni (2) - Fig.1
În legăturile de tip funcţional unei valori i se asociază o
altă valoare şi nu o distribuţie de probabilitate.

xi→ yi => f(xi)=yi

Analiza de regresie studiază forma legăturii dintre una sau


mai multe variabile => Model de regresie

Analiza de corelaţie Studiază intensitatea legăturii dintre


una sau mai multe variabile puse în relație printr-un model
de regresie.
Modele de regresie

Modele de
Simple Multiple
regresie

Liniare C = β0 + β1P + ε C = β0 + β1 P + β2V + ε

Neliniare C = β0 +β1 ln(P) + ε C = β0 + β1 ln(P) + β2 ln(V) + ε


3. Modelul de regresie liniară simplă
εi=yi-M(Y│X=xi) 
yi = M(Y│X=xi)+εi = β0+β1xi+εi
M(Y│X=xi)=β0+β1xi – media condiționată de X=xi ,
corespunzătoare variabilei stohastice Y,
β0= f(0) – parametrul “intersecţia dreptei de regresie liniară cu
axa OY” (engl. intercept)
β1– parametrul “panta a dreptei” care reprezintă variaţia
absolută a variabilei Y atunci când variabila X creşte cu o
unitate (β1 =ΔY/ Δ X):
- β1>0: legătură directă între variabile, Y variază în acelaşi
sens cu X
- β1<0: legătură inversă între variabile, Y nu variază în
acelaşi sens cu X
3. Modalități de scriere ale modelului
liniar simplu

Dacă este scris pentru valorile variabilelor

yi = β0+ β1xi + εi

Dacă este scris pentru variabile în general

Y= β0+ β1X+ ε
4. Componentele modelului de regresie

A.Componenta deterministă (β0+ β1xi)

B.Componenta aleatoare (εi). Factori detreminanți ai


componentei aleatoare: natura fenomenului studiat,
specificarea modelului și erorile de măsurare
5. Ipoteze clasice ale modelului de regresie

Ipotezele modelului de regresie vizează variabila reziduală şi


variabila independentă.
Cele mai importante ipoteze cu privire la variabila reziduală
sunt:
- media erorilor de modelare este nulă: M(εi)=0
- homoscedasticitate: V (  i )  M (  i
2
)   2
,adică varianţa erorii
este constantă la nivelul distribuţiilor condiţionate de tipul Yi X  xi
- normalitatea erorilor :  i ~ N ( 0 , ) , adică variabila reziduală
2

urmează o lege de repartiţie normală de medie zero şi varianţă σ2;


- necorelarea erorilor: cov( i ,  j )  0, i  j; i, j  1, n ,adică erorile nu
se influenţează reciproc;
- lipsa corelaţiei dintre variabila independentă şi variabila eroare:
cov(  i , xi )  0.
6. Exemple de modele liniare simple
Funcţia de consum
- cererea sau consumul populaţiei în funcţie de venit:
Ci   0  1Vi   i ,unde parametrul 1 arată cu cât creşte
consumul unui anumit produs ( Ci ) la o creştere cu o unitate
a venitului şi este de regulă pozitiv.

Legea cererii
- cererea populaţiei pentru o gamă de produse în funcţie
de preţul acestora:
Ci   0  1Pi   i , unde parametrul 1 este de regulă
negativ şi arată cu cât scade cererea la o creştere a preţului
cu o unitate.
7. Estimarea punctuală parametrilor
modelului de regresie prin MCMMP
MCMMP (engl. Method of Ordinary Least Sqares - OLS)
Fie:
yˆ i  ˆ0  ˆ1 xi - valorile estimate (teoretice ale lui Y)

și yi  ˆ0  ˆ1 xi  ˆi - valorile reale, înregistrate

Erorile estimate pot fi obtinute ca diferenta intre valorile reale


si valorile teoretice:
 
ˆi  yi  yˆi  yi  ˆ0  ˆ1 xi  yi  ˆ0  ˆ1 xi
Conform MCMMP estimatorii parametrilor modelului de
regresie verifică condițiile

   
n n n n

  i    yi  yi    yi  ( 0  1 xi )   yi   0  1 xi  min .
ˆ ˆ ˆ ˆ
2 2
ˆ 2
ˆ 2

i 1 i 1 i 1 i 1

Pentru a ușura notațiile în procesul de estimare vom utiliza


direct notațiile pentru estimații. Astfel relația de mai sus se
va scrie:
n n n n

 ei    yi  yˆi     yi  (b0  b1 xi )    yi  b0  b1 xi   min .


2 2 2 2

i 1 i 1 i 1 i 1

n n
S   e    y i  b0  b1 xi 
2
Notăm
2
i
i 1 i 1
Rezolvarea acestei probleme de minim presupune
îndeplinirea a două condiţii:
1. Anularea derivatelor parţiale de ordinul I ale lui S în
raport b0 şi b1:
 S n n n

 b  2  yi  b0  b1 xi  1  0  nb0  b1  xi   yi
 0

i 1
 i 1 i 1

  n n n n
 2  yi  b0  b1 xi  xi   0  b0  xi  b1  xi   yi xi
S 2

 b1 i 1 i 1 i 1 i 1

b
b0  0 
 i  i   xi  xi yi
y x 2

 n xi2   xi 
2

sau b 0  y  b1 x
b1 n xi yi   xi  yi
b1  
 n xi2   xi 
2
2. Matricea derivatelor parţiale de ordinul doi să fie pozitiv
definită:
 2S 2S 
 2  2n  2 xi 
  b0 b0 b1   2n 2 xi 
 0
det  2   0  det 
 2 xi 2 xi 
2
  S  2 xi  S  2 xi2 
2

 b b  2b1 
 0 1 

n
 det 
xi 
0
 x x 2
 i i 

Matricea derivatelor partiale de ordin doi Este pozitiv


definită deoarece n xi2    xi 2  n 2 2  0
7. Proprietățile estimatorilor parametrilor
modelului de regresie
Estimatorii parametrilor modelului de regresie sunt
variabile de selecţie care:

̂
- urmează o distribuţie normală: 0~ N  0 ,  2

ˆ ˆ
, 1~N 0
1 , 2
ˆ
 1

 
- sunt nedeplasaţi: M ˆ0   0 ,  
M ˆ1  1

 
- convergenţi (in probabilitate): ˆ0 nN


p
0 , ˆ 
1 nN 

p
1

- eficienţi: dintre toţi estimatorii posibili pentru 1 , ˆ1 are


varianţa cea mai mică
8. Estimarea prin interval de încredere a
parametrilor modelului de regresie liniară

Atât pentru ̂ 0 , cât şi pentru ˆ1 , intervalele de încredere se


vor construi astfel:

 0  [ˆ0  t / 2,nk ˆ ˆ ]0
1  [ˆ1  t / 2,nk ˆ ˆ ] 1

Daca utilizam estimatiile obtinute la nivelul unui esantion,


relaţiile de mai sus devin:

 0  b0  t / 2,nk sˆ , b0  t / 2,nk sˆ
0 0

1  b  t
1  / 2, n  k s ˆ , b1  t / 2,n k s ˆ 
1 1

unde k = numărul parametrilor estimaţi din model (pentru


modelul liniar k=2)
Estimațiile abaterilor standard ale estimatorilor pentru modelul
liniar simplu se determină după relaţiile:
 

2 1 x 2 
sˆ  sˆ  s  
2
2
 n  xi  x  
0 0

 i 
respectiv,
s2
sˆ  s2ˆ  n

 i
1 1
( x  x ) 2

i 1

unde s2 este estimaţia acestuia: s2 


 2
e
i

 (y i  b0  b1 xi ) 2
n2 n2
5. Testarea parametrilor modelului liniar
1. Formularea ipotezelor
pentru β0 pentru β1
H0: β0=0 H0: β1=0
H1: β0#0 H1: β1#0
2. Fixarea pragului de semnificaţie
α=0,05
3. Alegerea statisticii test
ˆ0   0 H 0 ˆ0 ˆ1  1 H 0 ˆ1
t  ~ t / 2, n  2 t  ~ t / 2 , n2
ˆ ˆ  ˆ  ˆ
0 0 1 1

4. Calcularea statisticii test


b0 b1
tcalc  tcalc 
sˆ sˆ
0 1
5. Criterii de decizie:
|tcalc| ≤ tteoretic= tα/2, n-2 => se acceptă H0 cu o probabilitate de 1-α.
|tcalc| > tteoretic= tα/2, n-2 => se respinge H0 cu un risc asumat α.
EXEMPLU

Se consideră datele cu privire la Valoarea xi yi


vânzărilor şi Cheltuielile cu publicitatea pentru 10 2500
un eşantion de 4 firme. Datele sunt prezentate
20 4100
în tabelul următor.
50 5000
100 2500
180 14100
OUTPUT SPSS
Model Summary
Adjusted R Std. Error of the
R R Square
Square Estimate
0.183 0.033 -0.450 1492.173
a. Predictors: (Constant), Vanz_X

ANOVAb
Sum of Squares df Mean Square F Sig.
Regression 154336.735 1.000 154336.735 0.069 0.817
Residual 4453163.265 2.000 2226581.633
Total 4607500.000 3.000
a. Predictors: (Constant), Vanz_X
b. Dependent Variable: Chelt_Y

Coefficientsa
95% Confidence
Unstandardized Standardized Interval for B
Std. Error t Sig.
Coefficients Coefficients Beta Lower Upper
Bound Bound

(Constant) 3777.551 1215.243 3.108 0.090 -1451.215 9006.318


Vanz_X -5.612 21.317 -0.183 -0.263 0.817 -97.331 86.106
a. Dependent Variable: Chelt_Y
OUTPUT EXCEL
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.183
R Square 0.033
Adjusted R Square -0.450
Standard Error 1492.173
Observations 4.000

ANOVA
df SS MS F Sig F
Regression 1.000 154336.735 154336.735 0.069 0.817
Residual 2.000 4453163.265 2226581.633
Total 3.000 4607500.000

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 3777.551 1215.243 3.108 0.090 -1451.215 9006.318
Vanz_X -5.612 21.317 -0.263 0.817 -97.331 86.106

S-ar putea să vă placă și