Curs 4 Regresia Liniara Unifactoriala 19.10

Econometrie - Curs 4,
BUSINESS&TOURISM, anul II, seria A
1
 Definiție: un set de date statistice care se
referă la două variabile statistice
 Analiza: vizează caracterizarea legăturii
dintre variabile
 Metode:
◦ Regresia – explică comportamentul unei variabile în
funcție de modificările celeilalte variabile
◦ Corelația – caracterizează intensitatea și sensul
legăturii dintre variabile
Unitatea
Variabila X Variabila Y
statistica
(xi) (yi)
1
x1 y1
2
x2 y2
3
x3 y3
…
…. ….
n
xn yn
 Definiţie: o relaţie matematică construită pe baza teoriei economice, care
presupune că fenomenul economic Y (fenomenul efect) este rezultatul
acţiunii a două categorii de factori:
◦ prima, constituită dintr-un singur factor principal, esenţial, determinant – X,
◦ a doua - formată din toţi ceilalţi factori – consideraţi neesenţiali, cu acţiune
întâmplătoare (specificaţi prin variabila reziduală “ε”) sau constantă,
invariabilă, asupra lui Y (şi deci nu au sens a fi specificaţi în model).
 Specificarea modelului unifactorial constă în precizarea variabilei
endogene Y şi a celei exogene X, pe baza teoriei economice; ca orice
ipoteză teoretică, ea poate fi adevărată sau falsă.
◦ y = f(x) + ε
 Identificarea modelului constă în alegerea unei funcţii (sau a unui grup
de funcţii) matematice, cu ajutorul căreia se urmăreşte să se descrie
valorile variabilei endogene, doar în funcţie de variaţia variabilei exogene
X. Identificarea modelului se poate face prin: • procedeul grafic; •
procedeul conservării ariilor; • procedeul calculelor algebrice.
4
1 factor esențial Factori neesențiali
(variabila (variabila reziduală,
independentă X) aleatoare ɛ)
Variabila dependentă (Y)
5
 Scop:
 Explică comportamentul unei variabile
dependente în funcție de variația valorilor
unei variabile independente, pe baza unui
model matematic numit model de regresie.;
 Permite previzionarea unei noi valori a
variabilei effect Y;
 Permite ajustarea şi controlul variabile efect,
prin intervenţia asupra variabilei cauză
 Presupune stabilirea relației de cauzalitate
6
 Keynes: C=f(V)
 Suma cheltuită pentru consum depinde de:
◦ mărimea venitului (V)
◦ prețuri, tarife
◦ alte obiective în funcţie de circumstanţe (de exemplu investiţiile)
◦ alte nevoi subiective
 Legea psihologică fundamentală: „o persoană este dispusă de
regulă şi în medie să îşi crească consumul odată cu creşterea
venitului dar nu în aceeaşi măsură”
 Presupunerea cea mai simplă: C=+V, 0<<1 este o relaţie
deterministă neadecvată.
 În model trebuie inclus şi factorul aleator:
C=f(V,)
 Modelul cel mai simplu:
C=+V+
7
8
9
1
0
 y=a+bx Y
1000
1 a + be x
y=a+bz, z=ex
a + b 
 x
y=a+br, r=1/x
800

 y=a+bq, q=ln(x) 600
a + bx
Sau
400

 y=αx  ln(y)=+ln(x) 200
 Forma generală: a + b ln ( x )
f(yi)= +g(xi)+i
0
 -1 0. 003 0. 008 0. 013 0. 018 0. 023 0. 028 0. 033 0. 038 0. 043 0. 048 0. 053 0. 058 0. 063 0. 068
X
 Contra exemplu: 1 -200
y = +
+x
nu poate fi transformat în
-400

model liniar.
Modele ce pot fi linearizate
11
 Modelul probabilistic la populației totale:
yi =  0 + 1  xi +  i
 unde
 (xi,yi) reprezintă valorile numerice ale variabilelor cauză şi
efect înregistrate la nivelul unităţii statistice „i”;
 β0, β1 = parametri constanţi
 β0 = interceptie= punctul de intersecţie al dreptei de regresie
cu axa Oy;
 β1 = panta dreptei, se mai numeşte şi „coeficient de regresie”
şi arată cu câte unităţi de măsură se modifică Y dacă X se
modifică cu o unitate de măsură;
 ɛi = componenta reziduală (eroare aleatoare) pentru unitatea
statistică „i”.
1
2
 Valoarea reală yi a caracteristicii Y din modelul
probabilistic cuprinde:
 - componenta teoretică, deterministă ( ŷi ), adică
partea din valoarea reală yi care se poate
determina pe baza modelului pentru o anumită
valoare xi:
 yˆ i =  0 + 1  xi (Ecuația de regresie liniară)
 - componenta aleatoare (reziduală), numită şi
eroarea aleatoare, (ɛi), reprezentând acea parte
din valoarea reală a lui Y care nu se poate
cuantifica.
 yi = yˆ i +  i
1
3
 Dacă datele disponibile provin dintr-un eşantion, avem n
perechi de observaţii reale: (x1,y1), (x2, y2), ... , (xn, yn), pe
baza cărora se vor estima parametrii ecuaţiei, β0 şi β1.
 Modelul de regresie în eşantion va fi:
yi = b0 + b1  xi + ei
ei = y i − yˆ i
yˆ i = b0 + b1  xi
 unde:
◦ b0 = estimatorul parametrului β0 din pop. Totală (interceptie);
◦ b1 = estimatorul parametrului β1 din pop. Totală (panta);
◦ ei = valoarea reziduală pt. unitatea “i” în eşantion.
14
15
 Estimarea parametrilor modelului se poate face prin
următoarele metode:
◦ Metoda punctelor empirice
◦ Metoda punctelor medii
◦ Metoda celor mai mici pătrate
◦ Metoda celor mai mici pătrate generalizată
◦ Metoda verosimilităţii maxime cu informaţie limitată sau completă
 Metoda celor mai mici pătrate presupune maximizarea
similitudinii, a gradului de asemănare a valorilor teoretice cu
valorile reale, deci minimizarea erorilor. Cum erorile se pot
produce intr-un sens sau în altul faţă de valorile reale, ea
presupune minimizarea sumei pătratelor reziduurilor (sau
erorilor):
16
Erorile pot fi pozitive sau negative, dupa cum
punctele sunt situate deasupra sau dedesubtul
dreptei de regresie
y1 − ŷ1 y 3 − ŷ 3
y 2 − ŷ 2
0
x1 x2 x3 X
17
S =  ei2 = ( yi − yˆ i ) =  ( yi − b0 − b1  xi ) → minim
2 2
 Condiţiile de ordin 1 de minimizare a funcţiei sunt:
 S
 b = 0   2( yi − b0 − b1  xi )(− 1) = 0   yi − nb0 − b1  xi = 0
 0
  
 S
=0  2 ( y i − b0 − b1  xi )(− xi ) = 0  xi y i − b0  xi − b1  xi
2
=0

 b1
nb0 + b1  xi =  yi

b0  xi + b1  xi =  xi yi
2
18
Aplicând metoda determinanţilor, se obţine:
b0 =
 yi  x i
b1 =
n y i
x y x
i i
2
i x i x y
i i
=
n x i
 xi x 2
i
b0 =
b0
=
 i  i − xi   xi yi
y  x 2
 n xi2 − ( xi )
2
b1 n   xi yi −  xi   yi
b1 = =
 n xi − ( xi )
2 2
19
 Rămâne de verificat dacă este verificată condiţia de ordin 2, adică soluţia găsită este un
punct de minim. Matricea derivatelor parţiale de ordin doi trebuie să fie pozitiv
definită:
  2 (S )  2 (S ) 
 2 2   2n 2 xi 
 2 b0 b0 b1   
= i
  (S )  ( S )  2 xi
2
2 xi2 
 b b 2 2   i 
 b1 
i
 1 0


2 n  0
 2
2 xi  0
 i
 2 2 2
4n xi − 4( xi ) = 4n ( xi − x)  0
 i i i
 Deci matricea este pozitiv definita.
20
 “b1” se mai poate scrie:
x y − x y
i i i i

b1 n   xi yi −  xi   yi n n n xy − x  y
b1 = = = =
 n xi − ( xi )  xi −   xi   i − x2
2 2 2 2 2
x
n  n 
  n
 Numărătorul lui “b1” este:
cov( x, y ) = xy − x  y =
 x y x y
−
i

i i i
n n n
 Numitorul lui “b1” este:
   xi
2
x 2

= − 
2 i
s x
n  n 
  21
 Deci “b1” se mai poate scrie: b = cov(x, y )
1 2
sx
 Din expresia coeficientului de corelaţie:
cov( x, y ) s x2 sx
rxy = = b1  = b1 
sx  s y sx  s y sy
 Rezultă deci că:
sy
b1 = rxy 
sx
22
Semnul lui b1 arată direcția sau sensul legăturii
𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥
𝑦ො = 𝑏0 + 𝑏1 ∙ 𝑥 𝑏1 < 0 𝑏1 = 0
𝑏1 > 0
Linii de regresie cu
a) pantă pozitivă
b) pantă negativă
23
c) pantă egală cu zero
 Semnificația estimatorului Intercept (b0)
◦ Reprezintă valoarea medie a variabilei dependente
Y, la o valoare a variabilei independente X egală cu
0
 Semnificația estimatorului Pantă (b1)
◦ Arată cu câte u.m. se modifică, în medie Y dacă X se
modifică cu 1 u.m.
◦ Semnul său indică direcția sau sensul legăturii:
 b1 >0 legătură liniară directă
 b1 <0 legătură liniară inversă
 b1 =0 lipsa legăturii liniare (variabile necorelate linear)
24
 Sistemul de ecuaţii normale are următoarele
proprietăţi:
◦ Variabila aleatoare are media 0
 (y i − yˆ i ) = 0   (ei ) = 0   (ei ) = 0
◦ Principiul conservării informaţiilor
 (y i − yˆ i ) = 0   yˆ i   y i
◦ Dreapta de regresie trece prin punctul M x, y ( )

b0 + b1  x = y
25
Pentru obţinerea unor estimatori de calitate, se formulează următoarele presupuneri
(ipoteze):
1. Valorile xi (fixate sau aleatoare) sunt statistic independente de variabila aleatoare

εi .
Dacă se acceptă că
cov( , x ) =
 ( )( )=  (
 i −  xi − x  i xi − x)0
n n
variabilele ε şi x sunt independente.
2. Variabilele aleatoare εi sunt statistic independente una de alta, adică
cov( i ,  j ) = 0 i j (non-autocorelarea reziduurilor).
Dacă cov(εi, εj) ≠ 0, i ≠ j spunem că erorile sunt autocorelate.
26
3. Valorile variabilei reziduale εi urmează o distribuţie
normală, de medie zero (  ( i ) = 0, i = 1, n ) şi dispersie
constantă şi nenulă, pentru toate valorile Xi:
 2  0  2 = const i = 1, n
(homoscedasticitatea erorilor).
Cu alte cuvinte, întrucât distribuţia variabilei reziduu
este independentă de valorile variabilelor explicative, nici
dispersia perturbaţiei nu diferă semnificativ în raport cu
valorile Xi, ceea ce indică o stabilitate relativă a legăturii
dintre variabila rezultativă şi variabilele factoriale.
27
28
Dispersia reziduurilor a) constantă; b) variabilă
29
Homoscedasticitatea erorilor
The probability density function for yt at two levels of household

income, xt. has the same variance.
30
Heteroscedasticitatea erorilor
The variance of yt increases as household income, xt , increases.
31
 - crearea bazei de date
 - realizarea si interpretarea corelogramei
 - estimarea parametrilor modelului de
regresie liniara
Un specialist în marketing dorește să studieze legătura dintre vânzările unei firme
producătoare de mobilă și cheltuielile cu reclama și publicitatea. Pentru aceasta sunt
înregistrate valorile celor două variabile pentru 24 de perioade consecutive (u.m.).
Se cere:
a) Să se analizeze legătura dintre cele două variabile utilizând metoda grafică.
b) În ipoteza unei legături liniare, să se determine ecuația de regresie liniară în eșantion și
să se interpreteze valorile estimatorilor b0 și b1 ai parametrilor modelului.
c) Să se arate dacă punctul de coordonate (4.2, 12.3) aparține dreptei de regresie. Care este
eroarea în acest caz?
d) Să se previzioneze valoarea vânzărilor, dacă s-au cheltuit 6 u.m. cu reclama și
publicitatea.
32
Crearea bazei
de date
-Structurarea bazei de
date
- Popularea bazei de date
33
34
CORELOGRAMA (SCATTER PLOT)
Legătură liniara
directa
35
 Corelograma (digrama norului de puncte,
diagrama de împrăștiere)
 Indică:
◦ existența
◦ direcția legăturii dintre variabile
◦ forma
 Existența legăturii
Există Nu există Nu există Nu există

legătură legătură legătură legătură
 Sensul legăturii:
Legătură Legătură
directă inversă
 Forma legăturii
Legătură
liniară Legături neliniare
38
39
40
Interpretarea estimatorilor
parametrilor modelului
Interpretari:
b0 = 6.581 inseamna ca: dacă cheltuielile cu publicitatea
sunt 0, atunci valoarea medie a vânzărilor ar fi de 6.581
u.m.
b1 = 1.072 inseamna ca: daca cheltuielile cu publicitatea

cresc cu 1 u.m., atunci valoarea vânzărilor creste, in medie
cu 1.072 u.m.
b1>0 inseamna ca exista o legatura directa intre variabile
X=chelt. Cu reclama (variabila independenta)
Y=vanzarile (variabila dependenta)
n=24 (perioade consecutive)
𝑦ො𝑖 = 6.581 + 1.072 ⋅ 𝑥𝑖 Ecuația de regresie

liniară
41
 xi=4.2, yi=12.3
 Dacă acest punct aparține dreptei, atunci el
îndeplinește condiția: yi= 𝑦ො𝑖
 Aceasta înseamnă că:
 12.3 = 6.581 + 1.072 ⋅ 4.2
 12.3 = 11.08 𝐹𝐴𝐿𝑆
 Punctul nu aparține dreptei de regresie
 Eroarea 𝑒𝑖 = 𝑦𝑖 − 𝑦ො𝑖 =12.3-11.08=1.22
42
 Se consideră xi=6 și se înlocuiește în relația:
 𝑦ො𝑖 = 6.581 + 1.072 ⋅ 𝑥𝑖
 𝑦ො𝑖Τ𝑥𝑖 =6 = 6.581 + 1.072 ⋅ 6 = 13.01 𝑢𝑚
43
44
45
46
47
48

Curs 4 Regresia Liniara Unifactoriala 19.10

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Curs 4 Regresia Liniara Unifactoriala 19.10

Încărcat de

Drepturi de autor:

Formate disponibile

Econometrie - Curs 4,

BUSINESS&TOURISM, anul II, seria A

Variabila dependentă (Y)

 Contra exemplu: 1 -200

 Condiţiile de ordin 1 de minimizare a funcţiei sunt:

◦ Variabila aleatoare are media 0

◦ Principiul conservării informaţiilor

◦ Dreapta de regresie trece prin punctul M x, y ( )

1. Valorile xi (fixate sau aleatoare) sunt statistic independente de variabila aleatoare

2. Variabilele aleatoare εi sunt statistic independente una de alta, adică

cov( i ,  j ) = 0 i j (non-autocorelarea reziduurilor).

Dacă cov(εi, εj) ≠ 0, i ≠ j spunem că erorile sunt autocorelate.

The probability density function for yt at two levels of household

The variance of yt increases as household income, xt , increases.

Există Nu există Nu există Nu există

b1 = 1.072 inseamna ca: daca cheltuielile cu publicitatea

𝑦ො𝑖 = 6.581 + 1.072 ⋅ 𝑥𝑖 Ecuația de regresie

S-ar putea să vă placă și