Obiective
- prezentarea tipurilor de regresie în econometrie
- analiza statistică şi geometrică a regresiei
- prezentarea modelului de regresie liniară simplă: componente, estimarea şi testarea
parametrilor, testarea modelului
Competenţe
- însuşirea conceptului de regresie
- formarea abilităţilor teoretice şi practice de construire a unui model de regresie liniară
simplă
- deprinderea de a construi un model liniar simplu cu date de la nivelul economiei României
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare
Termen mediu: 4 h
Bibliografie selectivă
1. Bourbonnais, R., Économétrie, Dunod, Paris, 2000
Legăturile dintre variabilele statistice pot fi clasificate în mai multe categorii, după
următoarele criterii: momentul la care se referă, tipul de dependenţă dintre variabile, numărul
variabilelor, tipul (forma) legăturii etc.
Modelul dinamic este modelul econometric construit pe baza seriilor de timp. Factorul timp
apare în model prin precizarea momentelor sau a intervalelor de timp la care se referă datele.
Există şi modele în care timpul apare ca o variabilă independentă, exprimând trendul seriei de
timp.
Dacă în model apar cel puţin două variabile independente, regresia se numeşte multiplă.
Modelul are forma: Y f ( X 1 , X 2 ) , iar variabila dependentă este explicată prin influenţa
cumulată a factorilor care apar în model.
Modelul neliniar este modelul în care legătura dintre variabile este explicată de o funcţie
neliniară. Exemple:
Y 0 1 ln X , ln Y 0 1 X , Y 0 X 11 etc.
Interpretarea geometrică
Locul geometric al mediilor condiţionate ale variabilei dependente, pentru valori fixate ale
variabilei independente, reprezintă o linie poligonală sau o curbă (linia de regresie, pentru caz
discret, sau curba de regresie, pentru caz continuu).
Analiza dependenţei legăturii dintre cele două variabile se poate realiza pe baza unei judecăţi
statistice elementare: tipul dependenţei dintre cele două variabile sau modul în care variabila
independentă o influenţează pe cea dependentă este sugerat de forma curbei sau liniei de
regresie statistică, construită pe baza mediilor condiţionate, calculate cu ajutorul datelor
disponibile.
De exemplu, dacă linia de regresie statistică se apropie de o dreaptă, datele sugerează un tip
de dependenţă liniară între variabilele studiate (figura 1).
6.00
5.00
Value profit
4.00
3.00
2.00
ch_publicit
b. Interpretarea statistică
Conform teoriei probabilităţilor şi statisticii matematice, regresia este o medie condiţionată
definită pe o distribuţie bi- sau multidimensională. În cazul unei legături dintre două variabile,
regresia este definită prin aplicaţia:
M ( Y / X xi ) f ( xi ) sau M ( Y / X ) f ( x )
Pentru cazul liniar, regresia sau media condiţionată este o funcţie liniară:
M ( Y / X ) 0 1 X , unde 0, 1 sunt parametrii modelului, iar X este variabila
independentă, considerată nestochastică.
1. Prezentarea modelului
Componentele modelului
Modelul econometric liniar simplu include două componente: una deterministă şi una
stochastică.
Componenta aleatoare este reprezentată de variabila aleatoare numită eroare sau reziduu,
notată cu . Natura acestei variabile este legată de următoarele probleme care însoţesc
procesul de modelare: natura fenomenului studiat, specificarea modelului, erorile de
măsurare1.
2. Parametrii modelului
În modelul de regresie liniară simplă, yi 0 1 xi i , există doi parametri: 0 şi 1 .
Aceştia se mai numesc şi coeficienţi de regresie.
- 0 este constanta sau termenul liber (intercept) şi indică valoarea medie a variabilei
dependente Y atunci când variabila independentă X ia valoarea zero. Este ordonata la origine a
dreptei de regresie sau intersecţia dreptei cu axa OY. În unele modele, acest parametru poate
să lipsească, caz în care dreapta trece prin origine.
dY Y
1 , unde Y 0 1 X .
dX X
yx 0 1 x
0 1
0 X
Modelarea econometrică implică anumite condiţii sau ipoteze asupra celor două componente
ale modelului, ipoteze care vor fi prezentate în continuare. Ipotezele acestui model se împart
în două categorii şi privesc cele două componente ale modelului: componenta deterministă şi
componenta aleatoare.
- ipoteza de homoscedasticitate: V ( i ) M ( i2 ) 2 .
Această ipoteză presupune că varianţa erorii este constantă la nivelul repartiţiilor condiţionate
de tipul Yi X xi . Repartiţiile variabilei reziduale pentru fiecare repartiţie condiţionată sunt
prezentate în figura 3.3.
Y
yx 0 1 x
0 x1 x2 xi X
Din relaţiile de mai sus, rezultă ˆ i yi ŷi sau ˆ i yi ˆ 0 ˆ 1 xi . Cu alte cuvinte, dacă se
dispune de un set de date statistice obţinute prin sondaj, se pot calcula erorile estimate ale
modelului de regresie ca diferenţe dintre valorile empirice şi cele estimate cu ajutorul
modelului pentru variabila dependentă.
Prin metoda celor mai mici pătrate, estimatorii parametrilor modelului de regresie liniară
simplă se obţin rezolvând problema de optim:
S yi ˆ 0 ˆ 1 xi )2 min .
i
Soluţia se obţine prin respectarea a două condiţii: de extrem şi de minim, pentru aplicaţia
S S( ˆ 0 , ˆ 1 ) .
Condiţia de extrem presupune ecuaţiile:
ˆ , ˆ )
S (
0 1
0 2 ( yi ˆ 0 ˆ 1 xi )( 1 ) 0
ˆ
0 i
ˆ ˆ sau
S ( 0 , 1 ) 0 2 ( yi ˆ 0 ˆ 1 xi )( xi ) 0
i
ˆ 1
Rezultă:
( yi ˆ 0 ˆ 1 xi ) 0
i
xi ( yi ˆ 0 ˆ 1 xi ) 0
i
sau
nˆ 0 ˆ 1 xi yi
i i
ˆ ˆ
0 xi 1 xi yi xi
2
i i i
n xi yi xi yi
ˆ 1 i i i
sau
n xi2 ( xi )2
i i
( yi ŷ )( xi x ) côv( X ,Y )
ˆ 1 i
.
( xi x ) 2
V( X )
i
ˆ 0 ŷ ˆ 1 x .
Proprietăţile estimatorilor ˆ 0 , ˆ 1
a. Proprietatea de nedeplasare
b. Proprietatea de normalitate
Dacă admitem ipoteza că i ~ N( 0, 2 ) , estimatorii ˆ 0 , ˆ 1 , care sunt combinaţii liniare de
variabile normal distribuite, sunt normal repartizaţi. Parametrii acestor repartiţii sunt
prezentaţi mai jos.
M ( ˆ 0 ) 0 , M ( ˆ 1 ) 1 ,
2
V ( ˆ 1 ) ,
( xi x )2
i
ˆ 2 1 x2
V ( 0 ) 2
.
n ( xi x )
i
În concluzie, rezultă următoarele repartiţii ale estimatorilor:
ˆ
1 ~ N 1 ,
2
2
sau ˆ 1 ~ N 1 , 2ˆ1 ,
i ( x x )
i
ˆ 2 1
0 ~ N 0 ,
x2
2
sau ˆ 0 ~ N 0 , 2ˆ0 .
n ( xi x )
i
c. Proprietatea de convergenţă
Estimatorii ˆ 0 , ˆ 1 sunt convergenţi, adică pentru un volum al eşantionului suficient de mare
şirurile estimatorilor converg în probabilitate către parametrii 0 , 1 . Au loc relaţiile:
ˆ 0 nN p
0 ,
ˆ 1 nN p
1 .
d. Proprietatea de eficienţă
Estimatorul ̂ 1 este eficient pentru parametrul 1 , adică, dintre toţi estimatorii posibili, ̂ 1
are varianţa cea mai mică.
Se poate arăta că un estimator nedeplasat al dispersiei erorilor este dat prin relaţia:
ˆ i2 ( yi ˆ 0 ˆ 1 xi )2
ˆ 2 i
i
, iar
n2 n2
ˆ i2
M ( ˆ 2 ) M i ,
2
n 2
VT VE VR .
Rezultă:
V̂R V̂T ˆ 12 ( xi x )2 2ˆ 1 ( xi x )( yi ŷ ) , iar
i i
( yi ŷ )( xi x ) côv( X ,Y )
ˆ 1 i
, de unde rezultă:
( xi x ) 2
V( X )
i
Obţinem rezultatul:
V̂T V̂E V̂R .
a. Estimarea punctuală
În baza proprietăţilor de nedeplasare şi convergenţă, parametrii modelului de regresie se
estimează punctual considerând estimaţiile calculate la nivelul unui eşantion reprezentativ
extras din populaţia de referinţă, pe baza relaţiilor:
n xi yi xi yi
b1 i i i
şi
n xi2 ( xi )2
i i
b0 y b1 x .
x i y i
x , y
i i
n n
reprezintă mediile variabilelor X, Y calculate la nivelul eşantionului.
ˆ 1 1 ˆ 0
~ t( n 2 ) , 0 ~ t( n 2 ) ,
ˆ ˆ 1
ˆ ˆ 0
Conform proprietăţilor repartiţiei Student, pentru un nivel de încredere (1-) fixat, intervalul
de încredere pentru parametrul 1 se determină pe baza relaţiei:
ˆ
P 1 1
t / 2 1 .
ˆ ˆ
1
Rezultă:
P( ˆ 1 t / 2ˆ ˆ 1 ˆ 1 t / 2ˆ ˆ ) 1 , unde
1 1
ˆ 2
ˆ ˆ , iar
1
( xi x )2
i
ˆ i2 ( yi ˆ 0 ˆ 1 xi )2 V̂R
ˆ 2 i
i
sau ˆ 2 .
n2 n2 n2
Cu alte cuvinte, pentru un nivel de încredere egal cu (1-), limitele intervalului de încredere
pentru parametrul 1 sunt:
ˆ t ˆ ˆ .
1 /2 1
( yi b0 b1 xi )2s2
sˆ i
,
1
( n 2 ) ( xi x )2 ( xi x )2
i i
1 x2
sˆ s 2 ( ) , iar
0
n ( xi x )2
i
( yi b0 b1 xi )2
s i
este estimaţia parametrului .
(n2)
ei2
s i
.
(n2)
i i
TSS = ESS + RSS.
Exemplu
Considerăm datele cu privire la repartiţia unei populaţii de 50 firme după profitul realizat
(variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu publicitatea
(variabila independentă X, exprimată în milioane lei).
Parametrii modelului liniar de regresie sunt estimaţi punctual şi prin interval de încredere cu
ajutorul programului SPSS, după cum urmează:
Coefficientsa
4. Indicatori de corelaţie
a. Coeficientul de corelaţie
i i i i
unde: 1 1 .
Dacă valoarea parametrului se apropie de unu, între variabile există o legătură intensă sau
puternică. Legătura este slabă dacă coeficientul are o valoare aproape de zero. Se consideră
Observaţie
O altă relaţie pentru coeficientul de corelaţie se poate construi ţinând cont de relaţia
coeficientului de regresie 1 :
V( X )
1 .
V(Y )
Observaţie
Dacă se realizează o standardizare a variabilelor X, Y, atunci estimatorul coeficientului de
corelaţie pentru aceste variabile este identic cu cel al coeficientului de regresie 1 .
Raportul de determinaţie
Raportul de determinaţie este un parametru care se calculează pe baza valorilor reale (yi) şi a
valorilor teoretice ( yxi 0 1 xi ), valori calculate cu ajutorul modelului de regresie pentru
variabila dependentă.
Raportul de determinaţie măsoară cât din variaţia totală a variabilei dependente este explicat
de modelul de regresie:
( yx i
y )2
VE V
2 i
1 R , unde: 0 2 1 .
( yi y ) 2
VT VT
i
Exprimată în procente, valoarea raportului de determinaţie arată cât la sută din variaţia
variabilei dependente este determinată de variaţia variabilei independente.
Observaţie
Deoarece variabila dependentă urmează o lege de repartiţie normală, de parametri
( 0 1 X , 2 ), pentru variabilele de mai sus se pot construi variabile cu legi de repartiţie
cunoscute:
V̂T ~ 2 ( n 1 ),
V̂E ~ 2 ( k 1 ),
V̂R ~ 2 ( n k ),
unde k este numărul de parametri incluşi în model. Pentru modelul liniar simplu, k=1.
2
( b0 b1 xi y )2 ESS RSS
R i 1 .
( yi y )2
TSS TSS
i
Observaţie
Pentru modelul liniar simplu, au loc relaţiile:
2 2 , r 2 R2 .
Raportul de corelaţie
Indicatorul 2 se numeşte raport de corelaţie şi măsoară intensitatea legăturii dintre
cele două variabile.
Exemplu
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), estimaţiile pentru raportul de corelaţie şi pentru raportul de
determinaţie, calculate în SPSS, sunt:
Model R R Square
1 .551a .304
a. Predictors: (Constant), chel tuieli cu publ icitatea
Valoarea raportului de determinaţie arată că 30,4% din variaţia variabilei dependente este
explicată de variaţia variabilei independente inclusă în model. Deoarece legătura dintre
variabile este una directă, estimaţia coeficientului de corelaţie este egală cu cea a
coeficientului de corelaţie, r=R=0,55, ceea ce indică o legătură de intensitate medie între cele
două variabile.
Regula de decizie cu privire la acceptarea sau respingerea ipotezei nule se poate lua în două
moduri: prin compararea valorii calculate a testului cu valoarea teoretică sau prin compararea
semnificaţiei testului cu pragul de semnificaţie.
Valoarea teoretică se citeşte pentru un prag de semnificaţie ales şi pentru o statistică cu legea
de repartiţie cunoscută. Pentru legea Student şi un prag de semnificaţie , valoarea din tabele
( t ,n ) are proprietatea: P( t t ,n ) .
Utilizând tabela Student, pentru o valoare calculată egală cu 3,49, un eşantion de volum egal
cu 40, Sig t este: P( t 3,49 ) 0 ,0015.
Testul t
Considerăm un test bilateral, cu următoarele etape:
1. Formularea ipotezelor
H 0 : 1 0 (între cele două variabile nu există o legătură liniară);
H 1 : 1 0 (între variabile există o legătură de tip liniar).
( yi ˆ 0 ˆ 1 xi )2
ˆ ˆ i
.
1
( n 2 ) ( xi x )2
i
Pentru pragul de semnificaţie stabilit şi cunoscând legea de repartiţie a statisticii test, pentru
n-2 grade de libertate, se citeşte din tabela Student valoarea teoretică t . Se alege /2
;n 2
2
deoarece testul este bilateral (figura 3.5), iar zonele de respingere sunt delimitate de valorile
t şi t .
;n 2 ;n 2
2 2
t 0 t
;n 2 ;n 2
2 2
6. Luarea deciziei
Regula de decizie, pe baza valorii calculate a testului, este următoarea:
- dacă tcalc [ t , t ] , se acceptă H0 cu o probabilitate egală cu (1-);
;n 2 ;n 2
2 2
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
Exemplu
Pentru repartiţia unei populaţii de 50 firme după profitul realizat (variabila dependentă Y,
exprimată în sute milioane lei) şi cheltuielile cu publicitatea (variabila independentă X,
exprimată în milioane lei), testarea parametrilor este realizată în SPSS pe baza rezultatelor din
tabelul de mai jos.
Coefficientsa
Standardized
Uns tandardized Coefficients Coefficients
Model B Std. Error Beta t Sig.
1 (Cons tant) -3.951 1.795 -2.201 .033
cheltuieli cu publicitatea .100 .022 .551 4.540 .000
a. Dependent Variable: profitul
Valoarea calculată a testului Student, pentru fiecare parametru, se obţine prin relaţia
b
tcalc i , i 0 ,1 .
sˆ
i
Din datele tabelului de mai sus, valoarea calculată a testului, prezentată în coloana a cincea
(coloana t), se obţine prin raportul dintre valorile coloanei a doua şi a treia. De exemplu,
pentru parametrul 1 , valoarea statisticii test este:
0 ,1
tcalc 4 ,54 .
0 ,022
În coloana a patra (valoarea lui Beta), este calculată estimaţia coeficientului de regresie în
cazul standardizării variabilelor din model. Valoarea coeficientului de regresie este identică,
în acest caz, cu cea a coeficientului de corelaţie (r=0,551).
În ultima coloană a tabelului sunt prezentate valorile calculate ale probabilităţilor cu care se
obţin cele două estimaţii ale parametrilor (Sig t).
Modelul de regresie se testează cu ajutorul testului Fisher. Este un test asupra semnificaţiei
modelului de regresie utilizat.
F ;k 1;n k
0
Decizia se ia prin compararea valorii calculate a testului cu valoarea din tabela Fisher:
- dacă Fcalc F ;k 1;n k , se respinge ipoteza nulă;
- dacă Fcalc F ;k 1;n k , se acceptă ipoteza nulă, cu probabilitatea ( 1 ).
Exemplu
Modelul de regresie estimat pe baza datelor privind repartiţia unei populaţii de 50 firme după
profitul realizat (variabila dependentă Y, exprimată în sute milioane lei) şi cheltuielile cu
publicitatea (variabila independentă X, exprimată în milioane lei).este testat cu ajutorul
testului Fisher, conform datelor din tabelul de mai jos.
ANOVAb
Sum of
Model Squares df Mean Square F Sig.
1 Regres sion 51.021 1 51.021 20.935 .000 a
Res idual 116.979 48 2.437
Total 168.000 49
a. Predictors: (Cons tant), cheltuieli cu publicitatea
b. Dependent Variable: profitul
Componentele variaţiei:
- variaţia explicată estimată este 51,021 (Explained Sum of Squares sau Regression Sum of
Squares);
- variaţia reziduală estimată este 116,979 (Residual Sum of Squares);
- variaţia totală estimată, suma celor două precedente, este 168 (Total Sum of Squares);
În condiţiile discutate, decizia cu privire la ipoteza nulă este evidentă, aşa cum o arată şi
valoarea semnificaţiei testului: Sig F = 0,0 < 0,05. Adică, cu o probabilitate de 95%, se
respinge ipoteza nulă sau ipoteza că modelul nu este adecvat realităţii studiate.
1. Ipoteze
H 0 : 0 (între variabile nu există o legătură semnificativă);
H 1 : 0 (variabilele sunt corelate semnificativ).
3. Testul statistic
Se utilizează statistica Student, care în condiţiile acceptării ipotezei nule este:
ˆ
t ~ t( n 2 ) .
1 ˆ 2
n2
6. Decizia
- dacă tcalc [ t / 2 ;n 2 , t / 2 ;n 2 ] , se acceptă H0 cu o probabilitate egală cu (1-);
- dacă nu se realizează această condiţie, se respinge ipoteza nulă, cu probabilitatea (1-).
- Se formulează ipotezele:
H 0 : 0 între variabile nu există o legătură semnificativă);
H1 : 0 (variabilele sunt corelate semnificativ).
- Se citeşte valoarea teoretică F ;k 1;nk din tabela lui Fisher, pentru un prag de semnificaţie
stabilit şi pentru k-1, respectiv (n-k) grade de libertate.
- Se ia decizia pe baza următoarei reguli: dacă Fcalc F ;k 1;n k , se respinge ipoteza H0. În
funcţie de semnificaţia testului, dacă SigF < , se respinge H0, cu o probabilitate egală cu 1-
.
Observaţie
Testul Fisher utilizat pentru testarea modelului este identic cu cel folosit la testarea raportului
de corelaţie:
ESS n k R2 n k
Fcalc . La baza acestei egalităţi stau relaţiile:
RSS k 1 1 R 2 k 1
ESS
R2 , TSS ESS RSS .
TSS
Test2
1. În modelul de regresie liniară simplă, parametrul reprezintă:
a) ordonata la origine
b) nivelul mediu al variabilei dependente dacă variabila independentă ia valoarea 1
c) variaţia absolută medie a variabilei dependente la o variaţie absolută cu o unitate a
variabilei independente
d) panta dreptei de regresie
2. Pentru un model de regresie liniară simplă, coeficientul de corelaţie este identic cu panta
dreptei de regresie dacă:
a) valorile variabilei dependente sunt mai mari decât cele ale variabilei independente
b) valorile celor două variabile sunt standardizate
c) valorile celor două variabile sunt diferite
4. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations
Educational
Level (years ) Current Salary
Educational Level (years ) Pears on Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pears on Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is s ignificant at the 0.01 level (2-tailed).
Valoarea calculată a testului Student care verifică ipoteza existenţei unei legături dintre cele două
variabile este:
a) 11,99
b) 19,11
c) 33,2
5. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients
6. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Correlations
Educational
Level (years ) Current Salary
Educational Level (years ) Pears on Correlation 1 ,661**
Sig. (2-tailed) ,000
N 474 474
Current Salary Pears on Correlation ,661** 1
Sig. (2-tailed) ,000
N 474 474
**. Correlation is s ignificant at the 0.01 level (2-tailed).
7. Pentru variabilele nivelul salariului ($) şi numărul de ani de studii (ani) s-a obţinut rezultatul de mai
jos.
Coefficients