2 - Curs2 - Econometrie - 2021 Final

ECONOMETRIE
CURS 2
Regresia liniară simplă (RLS)
1. Modelul RLS
2. Estimarea punctuală a parametrilor modelului RLS
3. Estimarea prin interval de încredere a parametrilor modelului
RLS
4. Probleme specifice utilizând Excel şi SPSS
5. Estimarea indicatorilor de corelaţie (coeficientul de corelaţie,
raportul de corelaţie, raportul de determinaţie)
2
1. Modelul de regresie simplă liniară
Interpretarea geometrică şi statistică a regresiei
Exemplu
•Se consideră repartiţia a 50 de firme după profitul realizat (Y,
variabilă dependentă, sute mil. lei) şi cheltuielile cu publicitatea (X,
variabilă independentă, mil. lei).
•Pe baza datelor de mai sus, putem construi 5 repartiţii condiţionate.

Interpretarea geometrică şi statistică a regresiei
Interpretarea geometrică a regresiei
•Mediile condiţionate corespunzătoare celor 5 repartiţii:
 O valoare a variabilei condiţionate Y | X  xi se poate scrie:

yxi  0  1 xi
 Dreapta de regresie: mediile distribuţiilor condiţionate
YX  0  1 X
6
 Forma generală a unui model de regresie este: M(Y│X)=f(x).
 Pentru modelul de regresie liniară simplă forma modelului

devine:
M(Y│X) = β0+β1X
unde:
M(Y│X) – media condiţionată corespunzătoare variabilei
stohastice Y
β0 şi β1 – parametrii modelului.
7
 În cele mai multe cazuri, valorile reale yi diferă de valorile

aşteptate (teoretice) M(Y│X=xi) = yxi = .
 Abaterea valorilor reale faţă de valorile teoretice reprezintă
valorile variabilei stohastice, ε, denumită eroare de modelare.
εi = yi – yxi = yi - M(Y│X=xi)  yi = M(Y│X=xi) + εi = β0+ β1xi + εi
Deci:
yi = β0+ β1xi + εi
sau Y= β0+ β1X + ε
8
1. Modelul RLS
 Componentele modelului RLS sunt:
1. Componenta deterministă este reprezentată de media

condiţionată: M(Y│X=xi) = β0+ β1xi
2. Componenta aleatoare ε depinde de: natura fenomenului,

specificarea incompletă a modelului şi erorile de măsurare.
9
Parametrii modelului de regresie liniară simplă
Y
0
1
0 X
Linia de regresie sau media condiţionată
Parametrii modelului de regresie liniară simplă
  o reprezintă constanta sau termenul liber al modelului şi reprezintă
valoarea medie a variabilei Y atunci când X=0.
M(Y|X=0) =
 Grafic, parametrul reprezintă ordonata la origine sau intersecţia
dreptei de regresie liniară cu axa OY (engl. intercept).
 1 reprezintă variaţia medie absolută a variabilei dependente, Y, la o

variaţie absolută cu o unitate a variabilei independente, X.
Daca
 Grafic, parametrul reprezintă tangenta unghiului format dintre dreapta
de regresie şi axa OX sau panta dreptei de regresie (engl. slope).
 Dacă β1>0 => ceea ce indică o legătură directă sau pozitivă între variabilele
X şi Y (de exemplu, dacă X creşte cu o unitate, Y creşte, în medie, cu β1 unităţi);
 Dacă β1<0 => există o legătură inversă între variabilele Y şi X între variabile
există o legătură inversă (de exemplu, la o creştere a lui X cu o unitate, Y scade,
în medie, cu β1 unităţi);
 Dacă β1=0 nu există legătură de tip liniar între variabilele Y şi X.
12
La nivelul unui eşantion, modelul yi   0  1 xi   i poate fi scris pe

baza estimatorilor yi  ˆ0  ˆ1 xi  ˆi sau y i  yˆ i  ˆi .
unde:
- yˆ i  ˆ0  ˆ1 xi este estimatorul mediei condiţionate M(Y│X=xi);
- ̂ 0 este estimatorul parametrului  0
- ˆ este estimatorul parametrului  1
1
-  este estimatorul erorii stohastice εi
i
 Pentru un eşantion observat, modelul de regresie liniară simplă poate fi
scris:
yi  b0  b1 xi  ei
13
2. Estimarea punctulă a parametrilor
modelului RLS
Estimarea parametrilor modelului de regresie liniară
simplă
•Estimarea reprezintă procedeul de aflare a unui parametru al unei
populaţii (  o , 1 ) pe baza datelor înregistrate la nivelul unui
eşantion.
•Estimarea se poate realiza:

-punctual: metoda celor mai mici pătrate (MCMMP);
-prin interval de încredere.
•Problemele pe care le ridică estimarea parametrilor modelului de

regresie vizează metodele de determinare a estimatorilor,
proprietăţile estimatorilor obţinuţi printr-o anumită metodă şi
metodele de estimare a parametrilor.
2. Estimarea punctuală a parametrilor
modelului RLS
Estimarea parametrilor modelului de regresie liniară
simplă
•Metode de determinare a estimatorilor parametrilor modelului de
regresie: metoda celor mai mici pătrate, metoda momentelor,
metoda verosimilităţii maxime etc.
•Principalele proprietăţi ale estimatorilor parametrilor modelului de

regresie sunt: nedeplasarea, convergenţa, eficienţa.
•Metoda celor mai mici pătrate presupune estimarea unei linii de

regresie care să aproximeze cel mai bine datele reale, adică între
valorile estimate și cele reale să existe o distanță cât mai mică.
2. Estimarea punctuală a parametrilor
modelului RLS
Metoda celor mai mici pătrate (MCMMP)
•Criteriul
care stă la baza metodei celor mai mici pătrate constă în
minimizarea pătratelor erorii de modelare:
2
   
n n n n
 i  i i   yi  (ˆ0  ˆ1 xi )   yi  ˆ0  ˆ1 xi

 2 2
S 
ˆ 2
 y  ˆ
y  min
i 1 i 1 i 1 i 1
• Rezolvarea acestei probleme de minim presupune îndeplinirea a două

condiţii:
-anularea derivatelor parţiale de ordinul I ale lui S în raport cu ̂ 0 şi ̂1
S ( ˆ0 , ˆ1 ) şi S ( ˆ0 , ˆ1 )

0 0
ˆ ˆ  2S
0 1 2S 
 
-matricea derivatelor parţiale de   2 ˆ0 ˆ ˆ
 0 1 
det 2 2  0
ordinul doi să fie pozitiv definită:  S  S
 
 ˆ ˆ  1 
2 ˆ
 0 1
modelului RLS
Metoda celor mai mici pătrate (MCMMP)
•Anularea derivatelor parţiale de ordinul I ale lui S în raport cu estimatorii
celor doi parametri:
 
n n n
S
ˆ
2 yi  ˆ0  ˆ1 xi  1  0 nˆ0  ˆ1 x y i i
i 1
0
 i 1 i 1
 
n n n n
S
2 y i  ˆ0  ˆ1 xi  xi   0 ˆ0  xi  ˆ1  xi2  yx i i
 1 i 1 i 1 i 1 i 1
ˆ 
 y x x x y
i
2
i i
;
i i
ˆ1 
n x y x y ;
i i i i ˆ0  y  ˆ1 x
n x   x  n x   x 
0 2 2
2 2
i i i i
•Matricea derivatelor parţiale de ordinul II

n
 x i 
 este pozitiv
 x x 2
definită fiindcă: n  x 2    x   n 2 2 . 0
2  i i 
i i
modelului RLS
Estimarea punctuală
• Parametrii modelului de regresie se estimează punctual, considerând
estimaţiile calculate la nivelul unui eşantion reprezentativ extras din
populaţia de referinţă, pe baza relaţiilor obţinute pentru estimatori:
sau
n
3. Estimarea prin interval de încredere a
parametrilor modelului RLS
Proprietăţile estimatorilor paramerilor modelului de
regresie
•Estimatorii parametrilor modelului de regresie sunt variabile de
selecţie care:
-urmează o repartiţie normală:  0

ˆ0 ~ N  0 , 2ˆ ˆ1 ~ N 1 , 2ˆ1  
-sunt nedeplasaţi:   M ˆ   
M ˆ0 ,   0 1 1
-sunt convergenţi: ˆ  ,  ˆ   

0 nN 0 1 nN 1
-sunteficienţi: dintre toţi estimatorii posibili pentru , are varianţa

cea mai mică.
• Estimarea prin interval de încredere se bazează pe distribuţiile de

selecţie ale estimatorilor parametrilor  şi  .
0 1
• Atât pentru  0 , cât şi pentru 1 , intervalele de încredere se vor construi

pentru un nivel de încredere de (1-α):
IC (  0 ) : [ ˆ0  t / 2,n  k ˆ ˆ ] IC ( 1 ) : [ ˆ1  t / 2,n  k ˆ ˆ ]
0 1
• Pe baza datelor de la nivelul unui eşantion, se vor utiliza estimaţiile

parametrilor:
IC (  0 ) : [b0  t / 2,n k sˆ ] IC ( 1 ) : [b1  t / 2,n k sˆ ]
0 1
unde
k = numărul parametrilor estimaţi în model (pentru modelul liniar k=2),
n = volumul eşantionului pe baza căruia se fac estimările.
• Abaterile standard ale estimatorilor şi estimaţiile acestora se determină

după relaţiile:
   

2 1 x 2  
2 1 x 2 
ˆ   ˆ 2ˆ      , respectiv sˆ  sˆ  s  
2
2 
0 0
n 
 ix  x 2

0 0
 n  xi  x  
 i   i 
ˆ 2 s2
ˆ   ˆ 2ˆ 
1 n
s
, respectiv 1ˆ  s 2
ˆ1
 n
 ( x  x)  ( x  x)
1
2 2
i i
i 1 i 1
unde ˆ 2 este estimatorul varianţei erorii de modelare, iar s 2 este

estimaţia acestuia:
ˆ  ˆ x ) 2 , respectiv 2  ei2  ( yi  b0  b1 xi ) 2
ˆ 2   i   i
ˆ 2
( y   0 1 i
s  
n2 n2 n2 n2
Exemple de modele liniare simple în
teoria economică
Funcţia de consum
-consumul populaţiei în funcţie de venit:
Ci   0  1Vi   i , unde parametrul 1

 arată cu cât creşte consumul unui anumit produs (Ci ) la o creştere
cu o unitate a venitului;
 este de regulă pozitiv.
Legea cererii
-cererea în funcţie de preţul produselor:
Ci   0  1 Pi   i , unde parametrul 1
 arată cu cât scade cererea la o creştere a preţului cu o unitate.
 este de regulă negativ şi
22
4. Probleme specifice utilizând Excel si
SPSS
1. Se consideră datele cu privire la Nivelul studiilor (ani), X, şi

Venitul (lei), Y, pentru un eşantion de 5 angajaţi . Datele sunt
prezentate în tabelul următor.
xi yi
10 800
12 1000
12 1200
14 1600
16 1800
23
Estimatiile punctuale ale parametrilor
24
1. Tabelul coeficientilor de regresie
Rezultate Excel
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept -984,615 315,291 -3,123 0,052 -1988,011 18,781
Nivelul studiilor (ani) 176,923 24,325 7,273 0,005 99,509 254,337
Rezultate SPSS
25
Estimatiile punctuale ale parametrilor
Pentru eşantionul observat, modelul de regresie liniară simplă poate fi

scris:
Ecuatia dreptei de regresie este:
b1: Daca nivelul studiilor creste cu 1 an ( ), venitul creste, in

medie, cu 176,92 lei ( = ).
Daca nivelul studiilor creste cu 2 ani ( ), venitul creste, in
medie, cu 353,84 lei ( = ).
b0: Daca, ipotetic, nivelul studiilor este egal cu 0 ani, venitul mediu
estimat este egal cu -984,62 lei (M(Y|X=0) = . 26
Venitul estimat
in functie de
Venitul real
studii
Erorile
Valorile 𝑦 reprezinta valorile venitului estimat in functie de studii, adica 𝑦 .

Daca X=10, atunci Yx=-984,62+176,92*10 --> Yx=784,62
27
Estimarea prin IC a parametrilor
 Estimarea prin IC a pantei dreptei:
; ;
Din tabelul Coefficients:

=176,92 (Unstd. Coeff.)
= 24,325 (Std. Error)
28
 In estimarea prin IC a pantei dreptei se foloseşte
statistica t Student.
 IC 95% este:
;
 Din Tabelul repartiţiei Student (Anexă) se citeşte

valoarea:
;
= t0,025;3=3,182.
29
Valorile distribuţiei Student
v t0.1 t0.05 t0.025
1 3,078 6,314 12,706
2 1,886 2,920 4,303
3 1,638 2,353 3,182
... ... ... ...
19 2,093
∞ 1,96
30
 IC devine:
 Se poate garanta cu o probabilitate de 95% că

panta dreptei de regresie este acoperită de
intervalul (99,52; 254,32).
 La o crestere cu 1 an a nivelului de studii, venitul
creste, in medie, cu o valoare acoperita de
intervalul (99,52; 254,32) lei.
31
 Estimarea prin IC a ordonatei la origine:
; ;
Din tabelul Coefficients (de pe randul Intercept / Constant):

=-984,62 (Unstd. Coeff.)
= 315,291 (Std. Error)
32
 In estimarea prin IC a ordonatei la origine se
foloseşte statistica t Student.
 IC 95% este:

valoarea

; = t0,025;3=3,182.
33
 IC devine:

ordonata la origine este acoperită de intervalul
.
 Atunci cand, ipotetic, nivelului de studii este 0
ani, venitul mediu estimat este egal cu o valoare
acoperita de intervalul lei.
34
Rezultate Excel
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept -984,615 315,291 -3,123 0,052 -1988,011 18,781
Nivelul studiilor (ani) 176,923 24,325 7,273 0,005 99,509 254,337
Rezultate SPSS
35
36
5. Estimarea indicatorilor de corelaţie
Coeficientul de corelaţie (se foloseşte doar pentru modelul liniar):
N
cov( X , Y )
(x  i x )( yi  y )
 ( X ,Y )   i 1 , -1≤ ρ ≤+1
 x y N x y
n n n n
 ( x  x)( y  y )
i i n xi yi  xi  yi
̂ ( X , Y )  r  i 1
 i 1 i 1 i 1
nsx s y n n n n
[n x  ( xi ) ][n y  ( yi ) 2 ]
2
i
2 2
i
i 1 i 1 i 1 i 1
•Legătura dintre estimația coeficientului de corelație (r) și estimația

coeficientului de regresie liniară (b1) se realizează prin relația:
s x2 2
r  b1 2
2 , unde s x şi
s y reprezintă estimațiile varianțelor variabilei
sy
X, respectiv a variabilei Y.
Coeficientul de corelaţie
38
2. Tabelul coeficientilor de corelatie
Rezultate SPSS
0,973
Legatura dintre Studii si Venit este o legatura directa si foarte

stransa.
39
Descompunerea variaţiei totale a variabilei Y
41
VT =  (y
i
i - y )2 , reprezintă variaţia totală (Total Sum of Squares);
VE =  (yˆ i - y )2 , reprezintă variaţia explicată (Explained Sum of Squares);

i
𝑉 = (𝑦 − 𝑦 ) = 𝑒 , reprezintă variaţia reziduală (Residual Sum of Squares).
•Variaţia totală este egală cu suma celorlalte două variaţii componente
VT = VE  VR
(TSS = ESS + RSS)
TSS = ESS + RSS
TSS = 688000 TSS 2
ESS= 651076,923 ESS 2
RSS 43
RSS = 36923,077
3. Tabelul ANOVA de regresie
Rezultate Excel
ANOVA
df SS MS F Significance F
Regression 1 651076,9231 651076,923 52,9 0,005364071
Residual 3 36923,07692 12307,6923
Total 4 688000
TSS = ESS + RSS

TSS = Total Sum of Squares = 688000
ESS = Regression Sum of Squares = 651076,923
RSS = Residual Sum of Squares = 36923,077
44
3. Tabelul ANOVA de regresie
Rezultate SPSS
TSS = ESS + RSS

TSS = Total Sum of Squares = 688000
ESS = Regression Sum of Squares = 651076,923
RSS = Residual Sum of Squares = 36923,077
45
Raportul de determinaţie
 ( yˆ i  y)2
VE V
 2
 i
  1  R , cu 0 ≤ η2 ≤1
(y
i
i  y)2 VT VT
•O estimaţie a raportului de determinaţie se obţine prin relaţia:
 0 1
(b  b x  y ) 2
ESS RSS
R 2= i
  1
(y
i
i  y)2 TSS TSS
R2 măsoară ponderea variaţiei variabilei Y explicată prin variabila X.

Estimaţia raportului de determinaţie se obţine prin relaţia:
R2 măsoară ponderea variaţiei variabilei Y explicată prin variabila X.
Variatia Venitului este explicata in proportie de 94,6% de variatia

Nivelului studiilor.
Variatia Venitului este explicata in proportie de 5,4% de variatia factorilor
aleatori.
Raportul de corelaţie la nivelul populatiei totale
(parametrul)
0≤η≤1
Estimaţia raportului de corelaţie:
 (b  b x  y )
0 1
2
ESS RSS
R i
=  1
(y  y)
i
i
2
TSS TSS
48
Estimaţia raportului de corelaţie:
Legatura dintre Studii si Venit este o legatura foarte stransa.
49
4. Tabelul indicatorilor de corelatie
Rezultate Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,973
R Square 0,946
Adjusted R Square 0,928
Standard Error 110,940
Observations 5,000
Rezultate SPSS
50
2. Se consideră datele cu privire la Valoarea vânzărilor (sute mii
euro), Y, şi Cheltuielile cu publicitatea (sute euro), X, pentru un
eşantion de 4 firme. Datele sunt prezentate în tabelul următor.
xi yi
10 2500
20 4100
50 5000
100 7500
51
Model Summary
Adjusted Std. Error of

Model R R Square R Square the Estimate
1 .977 a .954 .931 10.64486
a. Predictors: (Constant), chelt_publicitate
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) -45.163 15.015 -3.008 .095 -109.766 19.439
chelt_publicitate .019 .003 .977 6.422 .023 .006 .032
a. Dependent Variable: Val_vanzari
Correlations
vanzari chelt_publ
vanzari Pearson Correlation 1 .977*
Sig. (2-tailed) .023
N 4 4
chelt_publ Pearson Correlation .977* 1
Sig. (2-tailed) .023
N 4 4
*. Correlation is significant at the 0.05 level (2-tailed).
52
Coefficientsa
Unstandardized Standardized
Coefficients Coefficients 95% Confidence Interval for B
Model B Std. Error Beta t Sig. Lower Bound Upper Bound
1 (Constant) -45.163 15.015 -3.008 .095 -109.766 19.439
chelt_publicitate .019 .003 .977 6.422 .023 .006 .032
a. Dependent Variable: Val_vanzari
Pentru eşantionul observat, modelul de regresie liniară simplă poate fi

scris:
Daca cheltuielile de publicitate cresc cu 100 euro, atunci valoarea

vanzarilor creste, in medie, cu 1900 euro.
53
 Estimarea prin IC a pantei dreptei:
; ;
Din tabelul Coefficients:

=0,019 (Unstd. Coeff.)
= 0,003 (Std. Error)
54
 In estimarea prin IC a pantei dreptei se foloseşte
statistica t Student.
 IC 95% este:

valoarea

; = t0,025;2=4,303.
55
Valorile distribuţiei Student
v t0.1 t0.05 t0.025
1 3,078 6,314 12,706
2 1,886 2,920 4,303
3 1,638 2,353 3,182
... ... ... ...
19 2,093
∞ 1,96
56
 IC devine:

panta dreptei de regresie este acoperită de
intervalul .
 La o crestere cu 100 de euro a cheltuielior de
publicitate, vanzarile cresc, in medie, cu o valoare
acoperita de intervalul (600; 3200) euro.
57

2 - Curs2 - Econometrie - 2021 Final

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

2 - Curs2 - Econometrie - 2021 Final

Încărcat de

Drepturi de autor:

Formate disponibile

ECONOMETRIE

•Pe baza datelor de mai sus, putem construi 5 repartiţii condiţionate.

 O valoare a variabilei condiţionate Y | X  xi se poate scrie:

 Forma generală a unui model de regresie este: M(Y│X)=f(x).

 Pentru modelul de regresie liniară simplă forma modelului

 În cele mai multe cazuri, valorile reale yi diferă de valorile

εi = yi – yxi = yi - M(Y│X=xi)  yi = M(Y│X=xi) + εi = β0+ β1xi + εi

sau Y= β0+ β1X + ε

1. Componenta deterministă este reprezentată de media

2. Componenta aleatoare ε depinde de: natura fenomenului,

 1 reprezintă variaţia medie absolută a variabilei dependente, Y, la o

 Dacă β1=0 nu există legătură de tip liniar între variabilele Y şi X.

La nivelul unui eşantion, modelul yi   0  1 xi   i poate fi scris pe

•Estimarea se poate realiza:

-prin interval de încredere.

•Problemele pe care le ridică estimarea parametrilor modelului de

•Principalele proprietăţi ale estimatorilor parametrilor modelului de

•Metoda celor mai mici pătrate presupune estimarea unei linii de

 i  i i   yi  (ˆ0  ˆ1 xi )   yi  ˆ0  ˆ1 xi

• Rezolvarea acestei probleme de minim presupune îndeplinirea a două

S ( ˆ0 , ˆ1 ) şi S ( ˆ0 , ˆ1 )

•Matricea derivatelor parţiale de ordinul II

-sunt convergenţi: ˆ  ,  ˆ   

-sunteficienţi: dintre toţi estimatorii posibili pentru , are varianţa

• Estimarea prin interval de încredere se bazează pe distribuţiile de

• Atât pentru  0 , cât şi pentru 1 , intervalele de încredere se vor construi

• Pe baza datelor de la nivelul unui eşantion, se vor utiliza estimaţiile

• Abaterile standard ale estimatorilor şi estimaţiile acestora se determină

unde ˆ 2 este estimatorul varianţei erorii de modelare, iar s 2 este

Ci   0  1Vi   i , unde parametrul 1

1. Se consideră datele cu privire la Nivelul studiilor (ani), X, şi

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Pentru eşantionul observat, modelul de regresie liniară simplă poate fi

Ecuatia dreptei de regresie este:

b1: Daca nivelul studiilor creste cu 1 an ( ), venitul creste, in

Valorile 𝑦 reprezinta valorile venitului estimat in functie de studii, adica 𝑦 .

 Estimarea prin IC a pantei dreptei:

Din tabelul Coefficients:

 Din Tabelul repartiţiei Student (Anexă) se citeşte

v t0.1 t0.05 t0.025

1 3,078 6,314 12,706

2 1,886 2,920 4,303

3 1,638 2,353 3,182

... ... ... ...

 Se poate garanta cu o probabilitate de 95% că

Din tabelul Coefficients (de pe randul Intercept / Constant):

 Din Tabelul repartiţiei Student (Anexă) se citeşte

 Se poate garanta cu o probabilitate de 95% că

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

•Legătura dintre estimația coeficientului de corelație (r) și estimația

Legatura dintre Studii si Venit este o legatura directa si foarte

Descompunerea variaţiei totale a variabilei Y

VE =  (yˆ i - y )2 , reprezintă variaţia explicată (Explained Sum of Squares);

𝑉 = (𝑦 − 𝑦 ) = 𝑒 , reprezintă variaţia reziduală (Residual Sum of Squares).

•Variaţia totală este egală cu suma celorlalte două variaţii componente

TSS = ESS + RSS

TSS = 688000 TSS 2

ESS= 651076,923 ESS 2

3. Tabelul ANOVA de regresie

TSS = ESS + RSS

TSS = ESS + RSS

•O estimaţie a raportului de determinaţie se obţine prin relaţia:

R2 măsoară ponderea variaţiei variabilei Y explicată prin variabila X.