Documente Academic
Documente Profesional
Documente Cultură
Tipuri de regresie
Legturile dintre variabilele statistice pot fi clasificate n mai multe categorii, dup
urmtoarele criterii: momentul la care se refer, tipul de dependen dintre variabile, numrul
variabilelor, tipul (forma) legturii etc.
Modele de moment i dinamice
Modelul de moment, numit i model static, este modelul econometric n care legtura dintre
variabile se refer la acelai moment sau la aceeai perioad de timp. Pentru construirea
acestor modele se utilizeaz date din anchete de moment, cum ar fi sondajele statistice,
recensmintele sau alte cercetri de moment.
Modelul dinamic este modelul econometric construit pe baza seriilor de timp. Factorul timp
apare n model prin precizarea momentelor sau a intervalelor de timp la care se refer datele.
Exist i modele n care timpul apare ca o variabil independent, exprimnd trendul seriei de
timp.
Modele deterministe i stochastice
Dependena dintre variabile poate fi:
- determinist sau funcional (matematic). Asemenea modele sunt mai rar ntlnite, pentru
c presupun c ntre variabile exist o legtur de tipul yi f ( xi ) , adic variabila dependent
este explicat n totalitate de variabilele independente din model. Modelele funcionale sunt
ntlnite n domeniul tiinelor naturii, pe cnd n tiinele sociale se utilizeaz mai frecvent
modelele probabiliste.
- stochastic sau probabilist. n aceste modele, pentru o valoare a variabilei independente,
exist mai multe valori ale variabilei dependente, determinate probabilistic. n modelele
stochastice, variabila dependent este influenat i de o serie de factori care nu apar explicit
n model, dar sunt sintetizai printr-o variabil aleatoare numit variabil rezidual. Modelul
stochastic este de forma:
yi f ( xi ) i .
Modele simple i multiple
Dac n modelul de regresie apare o singur variabil independent, regresia se numete
simpl. Un exemplu de model simplu este modelul care exprim dependena consumului de
pre: C f ( P ) . Aceste modele sunt ntlnite mai rar n economie, deoarece un fenomen
depinde, de regul, de mai muli factori de influen. Dac se alege totui un factor
determinant, ceilali factori pot fi considerai ca fiind avui n vedere prin variabila rezidual.
Dac n model apar cel puin dou variabile independente, regresia se numete multipl.
Modelul are forma: Y f ( X 1 , X 2 ) , iar variabila dependent este explicat prin influena
cumulat a factorilor care apar n model.
Modele liniare i neliniare
Modelul liniar este modelul n care relaia dintre variabile este una de proporionalitate,
legtura dintre variabile fiind descris de o funcie liniar. De exemplu, modelele
Y 0 1 X i Y 0 1 X 1 2 X 2 sunt modele liniare.
14
Modelul neliniar este modelul n care legtura dintre variabile este explicat de o funcie
neliniar. Exemple:
Y 0 1 ln X , ln Y 0 1 X , Y 0 X 11 etc.
2.2. Interpretarea geometric i statistic a regresiei
Interpretarea geometric
Locul geometric al mediilor condiionate ale variabilei dependente, pentru valori fixate ale
variabilei independente, reprezint o linie poligonal sau o curb (linia de regresie, pentru caz
discret, sau curba de regresie, pentru caz continuu).
Analiza dependenei legturii dintre cele dou variabile se poate realiza pe baza unei judeci
statistice elementare: tipul dependenei dintre cele dou variabile sau modul n care variabila
independent o influeneaz pe cea dependent este sugerat de forma curbei sau liniei de
regresie statistic, construit pe baza mediilor condiionate, calculate cu ajutorul datelor
disponibile.
De exemplu, dac linia de regresie statistic se apropie de o dreapt, datele sugereaz un tip
de dependen liniar ntre variabilele studiate (figura 1).
6.00
Value profit
5.00
4.00
3.00
2.00
60.00
70.00
80.00
90.00
100.00
ch_publicit
15
16
dY Y
, unde Y 0 1 X .
dX X
yx 0 1 x
1
0
17
x1
x2
xi
18
Prin metoda celor mai mici ptrate, estimatorii parametrilor modelului de regresie liniar
simpl se obin rezolvnd problema de optim:
S yi 0 1 xi )2 min .
i
Soluia se obine prin respectarea a dou condiii: de extrem i de minim, pentru aplicaia
S S( 0 , 1 ) .
Condiia de extrem presupune ecuaiile:
, )
S (
0
1
0
2 ( yi 0 1 xi )( 1 ) 0
sau
S ( 0 , 1 ) 0
2 ( yi 0 1 xi )( xi ) 0
i
Rezult:
( yi 0 1 xi ) 0
i
xi ( yi 0 1 xi ) 0
i
sau
n 0 1 xi yi
i
i
2
0 xi 1 xi yi xi
i
i
i
Rezolvarea sistemului conduce la urmtoarele relaii ale estimatorilor:
n xi yi xi yi
i
i
1 i
sau
n xi2 ( xi )2
i
19
( yi y )( xi x )
i
( xi x )
co v( X ,Y )
.
V( X )
0 y 1 x .
Proprietile estimatorilor 0 , 1
a. Proprietatea de nedeplasare
Proprietatea de nedeplasare a estimatorilor parametrilor modelului de regresie se
demonstreaz n condiiile respectrii ipotezei c variabila X este nestochastic i n baza
proprietii c variabilele aleatoare yi urmeaz aceeai lege de repartiie, adic:
yi ~ N( 0 1 xi , 2 ) .
Se demonstreaz c: M ( ) i M ( ) , ceea ce indic faptul c estimatorii
0
M ( 0 ) 0 , M ( 1 ) 1 ,
V ( 1 )
( xi x )2
x2
2 1
.
V ( 0 )
2
n ( xi x )
i
sau 1 ~ N 1 , 2 1 ,
1 ~ N 1 ,
2
( xi x )
x2
2 1
0 ~ N 0 ,
sau 0 ~ N 0 , 2 0 .
2
n
(
x
x
)
i
c. Proprietatea de convergen
Estimatorii 0 , 1 sunt convergeni, adic pentru un volum al eantionului suficient de mare
irurile estimatorilor converg n probabilitate ctre parametrii 0 , 1 . Au loc relaiile:
Econometrie Dnu JEMNA
20
0 nN
0 ,
1 nN
1 .
d. Proprietatea de eficien
Estimatorul 1 este eficient pentru parametrul 1 , adic, dintre toi estimatorii posibili, 1
are variana cea mai mic.
Se poate arta c un estimator nedeplasat al dispersiei erorilor este dat prin relaia:
i2 ( yi 0 1 xi )2
i
n2
, iar
n2
i2
2
M ( 2 ) M i
,
n
VT VE VR .
Rezult:
VR VT 12 ( xi x )2 2 1 ( xi x )( yi y ) , iar
i
( yi y )( xi x )
i
( xi x )
co v( X ,Y )
, de unde rezult:
V( X )
VR VT 1 ( xi x )( yi y ) , iar
i
Obinem rezultatul:
VT VE VR .
Econometrie Dnu JEMNA
21
b0 y b1 x .
, y
n
n
reprezint mediile variabilelor X, Y calculate la nivelul eantionului.
b. Estimarea prin interval de ncredere a parametrilor 0 , 1
La baza procedeului de estimare prin interval de ncredere stau legile normale de repartiie a
estimatorilor 0 , 1 . Astfel, dac se consider estimatorii standardizai, obinem statisticile:
0
1 1
~ N( 0, 1 ) , 0
~ N ( 0 , 1 ) , respectiv
0
1 1
~ t( n 2 ) , 0
~ t( n 2 ) ,
0
1
P 1
t / 2 1 .
Rezult:
P( 1 t / 2 1 1 t / 2 ) 1 , unde
1
( xi x )2
, iar
i2 ( yi 0 1 xi )2
i
n2
n2
sau 2
VR
.
n2
Cu alte cuvinte, pentru un nivel de ncredere egal cu (1-), limitele intervalului de ncredere
pentru parametrul 1 sunt:
Econometrie Dnu JEMNA
22
1 t / 2 .
1
/2
( yi b0 b1 xi )2
( n 2 ) ( xi x )2
s2
,
( xi x )2
s s 2 (
0
i
2
1
x
) , iar
n ( xi x )2
i
( yi b0 b1 xi )2
i
(n2)
ei2
i
(n2)
Exemplu
Considerm datele cu privire la repartiia unei populaii de 50 firme dup profitul realizat
(variabila dependent Y, exprimat n sute milioane lei) i cheltuielile cu publicitatea
(variabila independent X, exprimat n milioane lei).
23
Parametrii modelului liniar de regresie sunt estimai punctual i prin interval de ncredere cu
ajutorul programului SPSS, dup cum urmeaz:
Coefficientsa
Model
1
(Cons tant)
cheltuieli cu publicitatea
Uns tandardized
Coefficients
B
Std. Error
-3.951
1.795
.100
.022
Standardized
Coefficients
Beta
.551
V ( X )V ( Y )
N xi yi xi yi
i
i
i
2
2
2
2
N xi ( xi ) N yi ( yi )
i
i
i
i
unde: 1 1 .
Coeficientul de corelaie msoar intensitatea legturii dintre cele dou variabile.
Dac valoarea parametrului se apropie de unu, ntre variabile exist o legtur intens sau
puternic. Legtura este slab dac coeficientul are o valoare aproape de zero. Se consider
semnificativ intensitatea legturii dintre dou variabile dac 0 ,7 . Semnul coeficientului
indic sensul legturii dintre variabile.
Observaie
24
O alt relaie pentru coeficientul de corelaie se poate construi innd cont de relaia
coeficientului de regresie 1 :
V( X )
.
V(Y )
r b1
s x2
.
s y2
Observaie
Dac se realizeaz o standardizare a variabilelor X, Y, atunci estimatorul coeficientului de
corelaie pentru aceste variabile este identic cu cel al coeficientului de regresie 1 .
b. Raportul de determinaie i raportul de corelaie
Raportul de determinaie
Raportul de determinaie este un parametru care se calculeaz pe baza valorilor reale (yi) i a
valorilor teoretice ( yxi 0 1 xi ), valori calculate cu ajutorul modelului de regresie pentru
variabila dependent.
Raportul de determinaie msoar ct din variaia total a variabilei dependente este explicat
de modelul de regresie:
( yx
y )2
( yi y )
VE
V
1 R , unde: 0 2 1 .
VT
VT
( yi y )2 ( yi y )2 ( yi yi )2
i
sau
VT VE VR
Econometrie Dnu JEMNA
25
Observaie
Deoarece variabila dependent urmeaz o lege de repartiie normal, de parametri
( 0 1 X , 2 ), pentru variabilele de mai sus se pot construi variabile cu legi de repartiie
cunoscute:
VT ~ 2 ( n 1 ),
V ~ 2 ( k 1 ),
E
VR ~ 2 ( n k ),
unde k este numrul de parametri inclui n model. Pentru modelul liniar simplu, k=1.
Estimatorul raportului de determinaie se definete ca raport ntre estimatorul variaiei
explicate i estimatorul variaiei totale. n aceste condiii, se poate scrie relaia:
V
V
2 E 1 R .
VT
VT
O estimaie a raportului de determinaie se obine prin relaia:
( b0 b1 xi y )2
ESS
RSS
R2 i
1
.
2
TSS
TSS
( yi y )
i
Observaie
Pentru modelul liniar simplu, au loc relaiile:
2 2 , r 2 R2 .
Raportul de corelaie
Indicatorul 2 se numete raport de corelaie i msoar intensitatea legturii dintre
cele dou variabile.
Raportul de corelaie respect condiia: 0 1 . Estimaia raportului de corelaie se noteaz
cu R.
Exemplu
Pentru repartiia unei populaii de 50 firme dup profitul realizat (variabila dependent Y,
exprimat n sute milioane lei) i cheltuielile cu publicitatea (variabila independent X,
exprimat n milioane lei), estimaiile pentru raportul de corelaie i pentru raportul de
determinaie, calculate n SPSS, sunt:
Model Summ ary
Model
1
R
.551a
R Square
.304
26
Valoarea raportului de determinaie arat c 30,4% din variaia variabilei dependente este
explicat de variaia variabilei independente inclus n model. Deoarece legtura dintre
variabile este una direct, estimaia coeficientului de corelaie este egal cu cea a
coeficientului de corelaie, r=R=0,55, ceea ce indic o legtur de intensitate medie ntre cele
dou variabile.
5. Testarea parametrilor i a modelului de regresie
Testarea parametrilor modelului de regresie, precum i a modelului de regresie se realizeaz
dup schema clasic a unui procedeu de testare, ale crei etape sunt precizate n continuare.
Etapele procesului testrii unei ipoteze statistice sunt:
1. formularea ipotezelor (ipoteza nul i ipoteza alternativ);
2. alegerea pragului de semnificaie sau a limitei erorii de spea nti (eroarea de a
respinge ipoteza nul n condiiile n care aceasta este adevrat);
3. alegerea statisticii test adecvate, care, n condiiile acceptrii ipotezei nule, are o lege
de repartiie specificat;
4. determinarea unei valori teoretice a testului, n funcie de legea de repartiie i de
pragul de semnificaie ales;
5. calcularea unei valori a statisticii test pe baza datelor de la nivelul unui eantion;
6. aplicarea regulii de decizie de acceptare sau de respingere a ipotezei nule (care n
esen const n compararea valorii calculate a testului cu cea teoretic).
Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua n dou
moduri: prin compararea valorii calculate a testului cu valoarea teoretic sau prin compararea
semnificaiei testului cu pragul de semnificaie.
Valoarea teoretic se citete pentru un prag de semnificaie ales i pentru o statistic cu legea
de repartiie cunoscut. Pentru legea Student i un prag de semnificaie , valoarea din tabele
( t ,n ) are proprietatea: P( t t ,n ) .
Calculul exact al nivelului de semnificaie, p-value sau Sig
Probabilitatea calculat, asociat valorii calculate a testului, a primit numele de semnificaie a
testului i este notat cu p-value sau Sig. Pentru o statistic Student, Sig t este probabilitatea
cu care se accept ipoteza nul i este dat de relaia:
Sig t P( t tcalc ) .
Utiliznd tabela Student, pentru o valoare calculat egal cu 3,49, un eantion de volum egal
cu 40, Sig t este: P( t 3,49 ) 0 ,0015.
Decizia pe baza semnificaiei testului presupune urmtoarele dou situaii:
- dac semnificaia testului este mai mare sau egal dect pragul de semnificaie, Sigt , se
accept ipoteza nul, cu o probabilitate egal cu (1-);
Econometrie Dnu JEMNA
27
1 1
.
1
t 1 ~ t( n 2 ) , unde
1
( yi 0 1 xi )2
( n 2 ) ( xi x )2
Pentru pragul de semnificaie stabilit i cunoscnd legea de repartiie a statisticii test, pentru
n-2 grade de libertate, se citete din tabela Student valoarea teoretic t
. Se alege /2
2
;n 2
deoarece testul este bilateral (figura 3.5), iar zonele de respingere sunt delimitate de valorile
i t
.
t
2
;n 2
;n 2
28
t
2
;n 2
t
2
;n 2
2
2
s
(
y
b
x
)
e
i 0 1i
( n 2 ) ( xi x )2
i
( n 2 ) ( xi x )2
i
6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este urmtoarea:
- dac tcalc [ t , t
] , se accept H0 cu o probabilitate egal cu (1-);
2
;n 2
;n 2
Model
1
Standardized
Coefficients
Beta
.551
t
-2.201
4.540
Sig.
.033
.000
29
Valoarea calculat a testului Student, pentru fiecare parametru, se obine prin relaia
b
tcalc i , i 0 ,1 .
s
i
30
F ;k 1;n k
RSS ( yi b0 b1 xi )2 k 1
i
nk
Decizia se ia prin compararea valorii calculate a testului cu valoarea din tabela Fisher:
- dac Fcalc F ;k 1;n k , se respinge ipoteza nul;
- dac Fcalc F ;k 1;n k , se accept ipoteza nul, cu probabilitatea ( 1 ).
Exemplu
Modelul de regresie estimat pe baza datelor privind repartiia unei populaii de 50 firme dup
profitul realizat (variabila dependent Y, exprimat n sute milioane lei) i cheltuielile cu
publicitatea (variabila independent X, exprimat n milioane lei).este testat cu ajutorul
testului Fisher, conform datelor din tabelul de mai jos.
ANOVAb
Model
1
Regres sion
Res idual
Total
Sum of
Squares
51.021
116.979
168.000
df
1
48
49
Mean Square
51.021
2.437
F
20.935
Sig.
.000 a
31
Componentele variaiei:
- variaia explicat estimat este 51,021 (Explained Sum of Squares sau Regression Sum of
Squares);
- variaia rezidual estimat este 116,979 (Residual Sum of Squares);
- variaia total estimat, suma celor dou precedente, este 168 (Total Sum of Squares);
Gradele de libertate asociate:
k 1 = 1;
n k = 48;
n 1 = 49;
n = 50.
Variana estimat a erorilor este:
( yi b0 b1 xi )2
116 ,979
s2 i
2 ,437 .
n2
50 2
Valoarea statisticii Fisher este:
ESS
51,021
Fcalc k 1
20,935 .
RSS
2 ,437
nk
Valoarea ridicat a statisticii este determinat de valoarea sczut a estimaiei varianei
erorilor, ceea ce nseamn c modelul este valid sau este semnificativ pentru a explica
legtura dintre cele dou variabile.
n condiiile discutate, decizia cu privire la ipoteza nul este evident, aa cum o arat i
valoarea semnificaiei testului: Sig F = 0,0 < 0,05. Adic, cu o probabilitate de 95%, se
respinge ipoteza nul sau ipoteza c modelul nu este adecvat realitii studiate.
6. Testarea indicatorilor de corelaie
a. Testarea coeficientului de corelaie
1. Ipoteze
H 0 : 0 (ntre variabile nu exist o legtur semnificativ);
H 1 : 0 (variabilele sunt corelate semnificativ).
2. Pragul de semnificaie ( 0 ,05 )
3. Testul statistic
Se utilizeaz statistica Student, care n condiiile acceptrii ipotezei nule este:
32
1 2
n2
~ t( n 2 ) .
,
1 2 k 1
care urmeaz o lege de repartiie Fisher de k-1 i n-k grade de libertate.
- Se citete valoarea teoretic F ;k 1;nk din tabela lui Fisher, pentru un prag de semnificaie
stabilit i pentru k-1, respectiv (n-k) grade de libertate.
- Se obine valoarea calculat a testului:
Fcalc
R2
nk
,
2
1 R k 1
33
- Se ia decizia pe baza urmtoarei reguli: dac Fcalc F ;k 1;n k , se respinge ipoteza H0. n
funcie de semnificaia testului, dac SigF < , se respinge H0, cu o probabilitate egal cu 1.
Observaie
Testul Fisher utilizat pentru testarea modelului este identic cu cel folosit la testarea raportului
de corelaie:
ESS n k
R2 n k
. La baza acestei egaliti stau relaiile:
RSS k 1 1 R 2 k 1
ESS
R2
, TSS ESS RSS .
TSS
Fcalc