Sunteți pe pagina 1din 43

3.

MODELE DE REGRESIE CLASICE

3.1. Modelul unifactorial de regresie liniar


Analiza de Regresie
Analiza de regresie se ocup cu descrierea i evaluarea legturii dintre o variabil dependent sau
explicat i una sau mai multe variabile independente sau explicative, cu scopul de a estima i de a
previziona valoarea medie a variabilei dependente, cunoscndu-se valorile fixate ale variabilelor
independente (valori fixate n urma unor eantionri repetate).
Regresia este o metod de modelare a legturilor dintre variabile.
Este cel mai important instrument de lucru al econometriei.
Originea termenului de regresie
Termenul de regresie provine din studiile efectuate, n domeniul ereditii, de statisticianul englez
Francis Galton (1822-1911). Acesta a observat c nlimea fiilor provenii din tai foarte nali se
apropie mai mult de nlimea medie a fiilor dect de nlimea tailor. Galton a constatat c avea loc
o regresie sau o revenire la nlimea medie.
Obiectivele Analizei de Regresie
1. Estimarea valoarii medii a variabilei dependente, date fiind valorile var. indep.
2. Testarea de ipoteze despre natura dependenei (ipoteze sugerate de teoria ec.)
3. Previzionarea valoarii medii a variabilei dependente, cunoscnd valorile viitoare ale variabilelor
independente.
Denumiri ale variabilelor n analiza de regresie
Variabila Y Variabilele X1,X2,...,Xk
1 Variabil dependent Variabile independente
2 Variabil explicat Variabile explicative
3 Regresand Regresori
4 Variabil estimat Estimatori
5 Variabil efect Variabile cauzale
6 Variabil edogen Variabile exogene
7 Variabil int Variabile de control
Aceti termeni sunt relevani pentru o anumit situaie a folosirii regresiei.
1,2,3 n discuii despre modele de regresie
4 dac intenia este de a prognoza valoarea unei variabile
5 n studii de cauzalitate
6 terminologie specific econometriei
7 terminologie specific n probleme de control optimal.
Modelul este instrumentul de baz din analiza de regresie
Modelul econometric: una sau mai multe ecuaii care descriu relaii statistice.
Modelul unifactorial de regresie, n care o variabil dependent Y este explicat printr-o singur
variabil independent X, este cel mai simplu model econometric.
Dependena determinist vs. dependena statistic
Dependena determinist dintre variabilele Y i X este o legtur ce poate fi descris complet prin
intermediul unei ecuaii de tip determinist, adic printr-o ecuaie ce conine toi termenii care intervin
n procesul studiat.
Dependena statistic (stochastic, aleatoare) dintre Y i X este acea legtur care nu genereaz
valori unice pentru Y, n cazul unor valori date ale lui X, ci o mulime de valori pentru Y. Aceast
legtur poate fi descris n termeni probabilistici.
Regresie vs. cauzalitate
Dei Analiza de regresie se ocup cu relaiile dintre o variabil dependent i una sau mai multe
variabile independente, ea nu implic, n mod necesar, cauzalitate, adic nu nseamn neaprat c

1
variabilele independente sunt cauza i variabila dependent este efectul. Dac exist cauzalitate ntre
o variabil independent i variabila dependent, aceasta trebuie justificat pe baza unei anumite
teorii economice.
De exemplu, legea cererii sugereaz c exist o relaie invers ntre cantitatea cerut dintr-un
anumit produs i preul su, cu condiia ca toate celelalte variabile care influeneaz cererea, s fie
meninute constante. Aici, teoria microeconomic sugereaz c preul poate fi cauza, iar cantitatea
cerut ar fi efectul.
Reinem c:
- regresia nu implic neaprat cauzalitate.
- cauzalitatea trebuie justificat de teoria economic care fundamenteaz fenomenul care este testat
empiric.
Regresie vs. corelaie
Analiza de corelaie msoar gradul de asociere dintre dou variabile.
Analiza de regresie estimeaz valoarea medie a unei variabile, cunoscnd valorile fixate ale altei
variabile.
Analiza de corelaie Analiza de regresie
Tratarea variabilelor simetric asimetric
Tipul variabilelor Variabile aleatoare Var.dependent este var.aleatoare
Variabilele independente: fixate

3.1.1. Specificarea modelului unifactorial de regresie


Definim modelul unifactorial de regresie printr-o relaie matematic ce presupune c variabila Y este
rezultatul a dou categorii de factori:
- un factor esenial, X
-mai muli factori neeseniali, specificai printr-o variabil aleatoare de perturbaie .
Specificarea modelului const n precizarea variabilei dependente Y i a variabilei independente X,
pe baza teoriei economice a fenomenului observat i n identificarea unei funcii matematice care
descrie legtura dintre variabilele Y i X.
Exemple de relaii de dependen:
Cheltuieli de Consum Venit
nlime - Vrst
Cererea pentru un produs Preul produsului
Venituri din vnzri Cheltuieli cu publicitatea
Cheltuieli pentru aprare PIB
Rata omajului Rata inflaiei
Considerm dou variabile economice X i Y pentru care cunoatem n perechi de
observaii: ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) .
Ne intereseaz cum se modific variabila Y sub aciunea variabilei X.
Reprezentarea grafic a datelor de observaie, ntr-o diagram a mprtierii, poate da informaii
despre existena unei relaii ntre cele dou variabile i despre tipul de relaie, n caz c aceasta
exist.
Coeficientul de corelaie de selecie poate indica, de asemenea, existena unei relaii.
O funcie de regresie, este o funcie care leag valorile lui X, de mediile condiionate
corespunztoare E (Y | X = x1 ) ,..., E (Y | X = x n ) .
E (Y | X = xi ) = f ( xi ) este funcia de regresie la nivelul populaiei (FRP).
Forma ei este dat de teoria economic. Ex: Consumul depinde liniar de Venit.
E (Y | X = xi ) = + xi - dac funcia de regresie f este liniar
Exemplu. Considerm modelul lui Keynes privind consumul.
Consumul=f(Venit,Ali factori) ; Consumul=+*Venit+
2
Legea psihologic fundamental c o persoan este dispus, de regul i n medie, s i creasc
consumul pe msur ce crete venitul, dar nu n aceeai msur, este sintetizat n relaia
dConsum
0< < 1 i este reprezentat prin parametrul al modelului de regresie. este nclinaia
dVenit
marginal spre consum (variaia consumului mprit la variaia venitului). Pe baza unui ansamblu
de observaii referitoare la Consum i Venit, se pot estima parametrii i . Rezultatele anticipate
sunt > 0 i 0 < < 1 .
Termenul eroare. Pentru o pereche de valori observate ( xi , y i ) , trebuie s atragem atenia c
valoarea observat y i nu va coincide cu media condiionat E (Y | X = xi ) Definim termenul
eroare aleatoare:
i = y i E (Y | X = xi ) - abaterea valorii individuale y i , de la media condiionat.
i este termenul eroare (eroarea aleatoare) (perturbaia) la observaia i.
Perturbaiile reale i sunt necunoscute.
Obinem y i = E (Y | X = xi ) + i sau y i = + xi + i
Ecuaia y i = + xi + i , i = 1,2,..., n este numit ecuaia de regresie a populaiei.
Aceast ecuaie definete modelul unifactorial de regresie liniar.
Modelul include o component determinist + xi i o component stochastic, .
Variabilele X i Y sunt variabile observabile, adic valorile lor pot fi msurate.
Variabila este numit eroare aleatoare sau termen eroare sau variabil de perturbaie i
reprezint efectul tuturor factorilor, n afara factorului X, care l afecteaz pe Y i care sunt
considerai neobservabili. Variabila capteaz erorile de msurare a valorilor variabilelor i
caracterul aleator al comportamentului uman. Termenul eroare reprezint acea parte din valoarea
variabilei Y care nu poate fi msurat printr-o relaie sistematic cu variabila X.
Parametrul se numete parametru de interceptare (intercepia)(interceptul).
Exprim valoarea variabilei dependente cnd variabila independent este egal cu zero, deci
reprezint punctul de intersecie al dreptei de regresie cu axa Oy, adic poriunea fixat a lui Y, care
nu poate fi explicat prin variabila independent. Parametrul reprezint panta dreptei de
regresie i indic cu ct se modific, n medie, variabila Y atunci cnd variabila X se modific
cu o unitate. = dY / dX . Semnul parametrului pant arat dac dependena dintre cele dou
variabile este direct sau invers.
Funcia de regresie a populaiei (FRP) descrie procesul de generare a datelor (PGD). Ea este
distribuia de probabilitate comun presupus a caracteriza ntrega populaie din care au fost extrase
datele.
n practic nu cunoatem FRP i trebuie s o estimm din datele de selecie, obinnd conceptul de
Funcie de regresie de selecie (FRS).
Dac reprezentm grafic perechile de valori observate ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) , se va obine o
diagram a mprtierii norului de puncte i se va pune problema de a trasa o dreapt care s
descrie norul de puncte. Este posibil s trasm numeroase drepte printr-un nor de puncte.
Care este cea mai bun dreapt care descrie comportamentul datelor?
Considerm doi estimatori a i b (sau i ) ai parametrilor reali i . Putem nlocui aceti
estimatori n funcia de ajustare:
y i = a + b x i , i = 1, 2,..., n .
Obinem funcia de regresie a seleciei (FRS).
y i se numete valoarea observat (real sau adevrat).
y i = a + b xi se numete valoarea ajustat a lui y i .

3
Definim ei = i = yi yi abaterea dintre valoarea observat i valoarea ajustat.
ei = i se numete reziduu sau eroare estimat sau variabil de perturbaie ajustat. Erorile
aleatoare i sunt neobservabile, dar reziduurile i , sunt observabile.
Relaia dintre FRP i FRS este dat de ecuaia y i = y i + i .
Primul obiectiv al analizei de regresie este de a estima FRP, y i = + xi + i , pe baza FRS,
y i = + xi + i , deoarece analiza se bazeaz, de cele mai multe ori, pe un singur eantion extras
din populaie.
Fiecare selecie determin o FRS diferit, adic sunt determinate valori numerice diferite pentru i
. Nici una din FRS nu este identic cu FRP. Fiecare este doar o aproximare a FRP reale.
Cum putem alege cea mai bun dreapt? Cutm dreapta care face distanele verticale de la
puncte la dreapt, ct mai mici posibil.
-Valoarea ajustat = distana vertical de la axa orizontal la dreapt, iar
-reziduul = distana vertical de la dreapt la punctul considerat.
Reziduurile arat ct de mult difer valorile observate de valorile ajustate.

Observaie. n discutarea modelelor de regresie, s-a dovedit incomod s se fac distincie, din punct
de vedere al notaiei, ntre variabile aleatoare i realizri ale acestora, aa nct practica standard este
de a folosi litere mici n ambele situaii.
Interpretarea termenului de regresie liniar
1) Liniaritatea n variabile. nelegem c valoarea medie condiionat a variabilei dependente este o
funcie liniar de variabilele independente. O funcie y = f ( x) este liniar n raport cu variabila X
dac variabila X apare doar la puterea 1 i nu apare nmulit sau mprit prin alt variabil, Z.
2) Liniaritatea n parametri. nelegem c valoarea medie condiionat a variabilei dependente este
o funcie liniar de parametrii ce apar n ecuaie, dar poate s nu fie liniar n variabilele explicative.
Vom folosi termenul de regresie liniar pentru modelele care sunt liniare n parametrii lor.
3.1.2. Estimarea parametrilor modelului prin metoda celor mai mici ptrate (MCMMP):
Se minimizeaz suma ptratelor abaterilor dintre valorile reale y i i valorile ajustate y i . Se folosete
i notaia OLS (Ordinary Least Squares).
Suma ptratelor reziduurilor sau erorilor estimate este o funcie de dou necunoscute, a i b, n raport
cu care se va face minimizarea. Avem:

4
n n n
S ( a, b) = ei2 = ( y i y i ) 2 = ( yi a b xi ) 2 = min
i =1 i =1 i =1

S (a, b) este minim cnd derivatele pariale ale funciei n raport cu a i b sunt egale cu zero, adic:
S (a, b)
( y i a bxi )(1) = 0 yi na b xi = 0
n n n
a = 2i =1 i =1 i =1
S (a, b) n n n n
= 2 ( y i a bxi )( xi ) = 0 xi yi a xi b xi = 0
2

b i =1 i =1 i =1 i =1

Rezult sistemul de ecuaii normale ale lui Gauss:


an + b xi = yi

a x i + b x i = xi y i
2

Soluiile sistemului se pot obine folosind metoda determinanilor:


y i xi xi xi y i
2
a= a = (1)
n xi2 ( xi ) 2
n xi y i xi y i
b= b = (2)
n xi2 ( xi ) 2
Dac mprim prima ecuaie normal prin n, obinem:
a = y bx (3)
Dup nlocuirea estimatorului a n a doua ecuaie normal, obinem:
x i y i nx y
b= (4)
x i nx
2 2

Avem nevoie de cteva rezultate privind nsumrile:


( x i x ) = ( x i 2 x x i + x ) = x i 2 x x i + x = x i nx
2 2 2 2 2 2 2
(5)
x ( y i y ) = x y i x y = x ny nx y = 0 (6)
( x i x ) ( y i y ) = x i ( y i y ) = ( x i x ) y i = x i y i nx y (7)
Relaia (4) devine: ( xi x )( yi y ) = b ( xi x ) 2

Cu condiia ca ( xi x ) 2 > 0 , panta estimat va fi dat de relaia


( xi x )( y i y ) S xy S xy
b= = = (8)
( xi x )
2
S xx S x2
( xi x )( y i y ) ( xi x )
2
S xy = i S x2 = reprezint covariana de selecie dintre X i Y,
n n
respectiv dispersia (variana) de selecie a lui X.
Notm c estimaiile pentru a i b sunt unice.
Artm c soluia obinut este un minim. Considerm derivatele pariale de ordinul doi ale sumei
ptratelor reziduurilor:
2 S ( a, b) 2 S ( a, b ) 2 S ( a, b)
= 2 n , = 2 i
x 2
, = 2 xi .
a 2 b 2 ab
2n 2 x i
Matricea hessian H = 2
este pozitiv definit, pentru c avem: 1 = 2n > 0
2 xi 2 xi
2 = 4n xi2 4 xi xi = 4n xi2 4(nx )(nx ) = 4n( xi2 nx 2 ) = 4n ( xi x ) 2 > 0 .
nseamn c soluia obinut este un minim.

5
Valorile a i b obinute prin MCMMP, pentru un anumit eantion s.n. estimaii ale parametrilor reali
i . Pentru eantioane diferite rezult estimaii diferite. Ansamblul lor descrie estimatorii
parametrilor i .
3.1.3. Ipoteze n fundamentarea modelului de regresie liniar unifactorial
Estimarea parametrilor prin MCMMP a condus la obinerea estimatorilor parametrilor modelului.
Cea mai bun dreapt pentru a aproxima norul de puncte de observaie este cea care minimizeaz
suma ptratelor erorilor estimate.
Ea se numete dreapta de regresie a lui Y n raport cu X.
Valorile a i b obinute prin MCMMP, pentru un anumit eantion se numesc estimaii ale
parametrilor reali i . Pentru eantioane diferite rezult estimaii diferite. Ansamblul lor descrie
estimatorii parametrilor i .
ntrebare: Ct de bune sunt estimaiile obinute i ct ncredere putem avea n previziunile pe
care le vom face? Cum putem fi siguri, pe baza unui singur eantion, c funcia de regresie estimat
(FRS) este o bun aproximaie a funciei de regresie a populaiei (FRP)?
Ar trebui s cunoatem procesul de generare a erorilor aleatoare.
Unui model de regresie i se asociaz o serie de ipoteze pentru a obine proprieti speciale, dorite,
pentru estimatorii parametrilor modelului. n statistic se utilizeaz numai estimaii de maxim
verosimilitate, care se obin doar n contextul satisfacerii anumitor condiii. Se fac, de obicei, 6
ipoteze standard pentru modelul clasic de regresie liniar.
I1) Forma funcional este liniar: y i = + xi + i , i = 1,2,..., n .
I2) Erorile aleatoare au media zero: E ( i ) = 0 , i = 1,2,..., n.
I3) Homoscedasticitatea erorilor aleatoare: Var ( i ) = 2 = 2 , i = 1,2,..., n .
I4) Erorile aleatoare nu sunt autocorelate: cov( i , j ) = 0 pentru i j
I5) Necorelarea ntre regresor i erorile aleatoare: cov( i , xi ) = 0 pentru orice i i j.
I6) Erorile aleatoare au distribuie normal: i ~ N (0, 2 ) .
Comentarii despre ipoteze.
I1) Ipoteza de liniaritate se refer la parametrii modelului.
O funcie este liniar n parametrii i , dac fiecare din aceti parametri apar numai la puterea
nti i nu apar nmulii sau mprii prin ali parametri.
nelegem c valoarea medie condiionat a variabilei dependente Y este o funcie liniar de
parametrii ce apar n ecuaie, dar poate s nu fie liniar n variabilele independente. Vom folosi
termenul de regresie liniar pentru modelele care sunt liniare n parametri.
Modelul trebuie s fie de forma y i = + xi + i fie n variabilele iniiale, fie dup ce au fost fcute
transformrile potrivite.
Un mod de a stabili dac variabila Y depinde liniar de variabila explicativ X este de a vedea dac
rata de modificare a lui Y n raport cu variabila X este independent de valoarea lui X.
I2) Erorile aleatoare au media zero. E ( i | xi ) = E ( i ) = 0 , i = 1,2,..., n.
Eroarea aleatoare este vzut ca suma efectelor individuale ale unor factori aleatori, cu semne
diferite. nseamn c, n medie, factorii nenregistrai nu are efect asupra mediei variabilei Y, adic
E (Y | X = xi ) = + xi . Valorile pozitive i negative ale lui se anuleaz ntre ele.
Dac n cadrul modelului au fost incluse acele variabile ce influeneaz n mod real valoarea lui Y,
atunci ecartul sau abaterea dintre cele dou tipuri de valori, reale i estimate, tinde spre zero, iar n
medie acesta este zero.
I3) Erorile aleatoare au variana constant pentru toate observaiile, adic sunt homoscedastice:
Var ( i ) = D( i ) = E ( i E ( i )) 2 = 2 = 2 () i = 1, n .

6
Deoarece E ( i ) = 0 , ipoteza de homoscedasticitate poate fi exprimat ntr-o form echivalent:
E ( i2 ) = 2 = 2 () i = 1, n .
Aceasta este proprietatea de homoscedasticitate a erorilor aleatoare. Pe baza acestei ipoteze se
poate admite c legtura dintre variabilele Y i X este relativ stabil.
nseamn c valorile individuale y i se situeaz n jurul valorii medii cu aceeai varian. Deoarece
valorile x i sunt fixate, singura surs de variaie din Y este de la eroarea aleatoare . Deci, dat fiind
xi , variana lui yi este aceeai cu a lui i , adic Var ( y i | xi ) = Var ( i | xi ) = 2 ,
Var ( y i | xi ) = Var ( i | xi ) = 2 () i = 1, n .
Dac ipoteza de homoscedasticitate nu este ndeplinit, erorile aleatoare sunt numite
heteroscedastice.
(Figuri cu erori aleatoare homoscedastice, respectiv heteroscedastice)
I4) Erorile aleatoare nu sunt autocorelate. Nu exist corelaie ntre doi termeni eroare. nseamn c
termenii eroare sunt aleatori.
Se scrie sub forma: cov( i , j ) = 0 sau E ( i j ) = 0 pentru i j .
Aceast ipotez nu implic faptul c y i i y j sunt necorelate ci faptul c abaterile valorilor
observate de la valorile medii sunt necorelate.
I5) Necorelarea dintre regresori i erorile aleatoare: cov( i , xi ) = 0 pentru orice i i j.
Aceast proprietate poate fi exprimat ntr-o form echivalent: E ( i x i ) = 0 pentru orice i i j.
Erorile aleatoare sunt independente de variabilele explicative. Variabila X nu este stochastic, adic
valorile x i sunt fixate n selecii repetate. nseamn c se regsesc aceleai valori dac se face o nou
selecie. n plus, se presupune c factorul X prezint variabilitate i deci, poate fi evideniat rolul
acestui factor.
I6) Erorile aleatoare sunt presupuse a fi normal distribuite, pentru orice i.
innd seama de ipotezele precedente, erorile aleatoare pot fi reprezentate prin relaiile:
i ~ N (0, 2 ) , () i = 1, n .
Teorema Limit Central: Dac exist un numr mare de v.a. independente i identic distribuite
(iid), atunci distribuia sumei lor tinde s fie o distribuie normal, atunci cnd numrul variabilelor
crete indefinit.
Orice funcie liniar de variabile distribuite normal este distribuit normal. Se demonstreaz c
estimatorii a i b sunt normal distribuii.
3.1.4. Testarea validitii modelului de regresie (testarea calitii ajustrii), folosind metoda
analizei de varian (ANOVA)
Dup ce dreapta de regresie a fost estimat, este important s se evalueze rezultatele, s se tie ct de
bine ajusteaz sau aproximeaz aceast dreapt datele de selecie. Utilizarea MCMMP asigur faptul
c valorile gsite pentru i sunt cele care aproximeaz cel mai bine datele de observaie, n
sensul specific de minimizare a sumei ptratelor reziduurilor. Nu exist nicio garanie c i
corespund exact cu parametrii necunoscui i i nici dac dreapta de regresie, determinat ca
fiind cea mai bun sau cea mai potrivit, aproximeaz corect datele observate.
Un indicator ce poate descrie calitatea reprezentrii, adic a liniei de regresie estimat, este
coeficientul de determinaie, notat R 2 .
Analiza Varianei (ANOVA) este un procedeu statistic de testare a calitii modelului, procedeu
bazat pe descompunerea variaiei totale n variaie datorat factorului de regresie i variaie datorat
factorilor nenregistrai.
Variabilei dependente Y i asociem dou medii: media total ( y ) i media condiionat
( y i = a + b xi ).
7
y i y = ( y i y i ) + ( y i y )
yi y este abaterea total, ( yi y i ) este abaterea neexplicat deoarece atunci cnd se modific x i se
modific att y i ct i y i , iar ( y i y ) este abaterea explicat, deoarece atunci cnd se modific x i
se modific doar y i iar y rmne constant.
Ridicm la ptrat i nsumm dup toate observaiile:
( y i y ) = ( y i y i ) + ( y i y )
2 2 2

SST = ( yi y ) 2 se numete variaia total a valorilor variabilei Y, suma ptratelor abaterilor totale.
SST este suma ptratelor abaterilor valorilor reale ale variabilei Y de la media lor de selecie, y . SST
msoar aciunea tuturor factorilor (de regresie i nenregistrai).
SSR = ( y i y ) 2 = ( y i y ) 2 = 2 ( xi x ) 2 este variaia explicat prin factorul de regresie, este
variaia datorat regresiei. Este suma ptratelor abaterilor valorilor ajustate ale variabilei Y de la
media lor de selecie. SSR msoar aciunea factorului de regresie.
SSE = ( yi yi ) 2 = i2 este variaia rezidual, variaia datorat erorilor. Este suma ptratelor
reziduurilor (abaterilor valorilor reale ale variabilei Y de la valoarile ajustate). SSE msoar aciunea
tuturor factorilor nenregistrai.
Cu aceste notaii avem relaia: SST=SSR+SSE
Pentru a testa validitatea modelului de regresie se folosete un Tabel de analiz a varianei.
Tabelul ANOVA
Sursa Suma ptratelor Nr grade de Media ptratelor Statistica
variaiei abaterilor libertate (MS) F
(SS) (df)
Regresia SSR 1 MSR=SSR/1 F=MSR/MSE
Eroarea SSE n-2 MSE=SSE/(n-2)
Total SST n-1
Pentru fiecare sum se consider numrul gradelor de libertate.
Media ptratelor = suma ptratelor/numr grade de libertate.
Se testez ipotezele
H 0 : MSR = MSE (modelul nu este valid statistic)
H 1 : MSR > MSE (modelul este valid statistic)
SSR / 1 R2
Fcalculat = F = ~ F1, n 2 sau F = (n 2) ~ F1, n 2
SSE /(n 2) 1 R2
dac se exprim cele dou sume cu ajutorul coeficientului de determinaie.
Se compar valoarea calculat sau observat F cu valoarea critic obinut din tabelele repartiiei F.
Se aplic regula de decizie: dac F > F ;(1,n 2) se respinge ipoteza nul n favoarea ipotezei
alternative. Modelul este valid statistic.
Dac pentru Fcalc se obine o valoare mare, se accept H1: modelul este valid statistic. Dac Fcalc 1 ,
nu putem respinge H0: modelul nu este valid statistic. Aceasta nseamn c variabila X nu are efect
asupra variabilei Y. n acest caz R 2 = 0
( y i y i )
2 2
ei
MSE = s e2 = = este estimatorul varianei erorilor aleatoare. Este un estimator
n2 n2
nedeplasat deoarece E ( s e2 ) = 2 . Abaterea medie ptratic a erorilor estimate este s e = s e2 .
- Dac abaterea medie ptratic a erorilor estimate, se , are o valoare mic, atunci se consider c
ajustarea datelor observate este foarte bun, iar modelul de regresie poate fi utilizat ca mijloc de
analiz i prognoz.

8
- se este un indicator foarte important n determinarea varianelor i erorilor standard ale
estimatorilor parametrilor modelului.
- se este util n compararea modelelor. Dac trebuie s alegem ntre mai multe modele, vom alege
modelul pentru care se are cea mai mic valoare.
3.1.5. Proprieti ale estimatorilor a i b ai parametrilor i
Proprieti numerice ale valorilor estimate a i b, obinute prin MCMMP.
1) ei = 0 , adic suma reziduurilor este zero, ceea ce este adevrat att timp ct exist o constant
n regresie. Reziduurile ei = y i a b xi , verific n mod automat ecuaiile normale ale lui Gauss.
Egalitatea ei = 0 implic e = 0 .
2) Dreapta de regresie trece totdeauna prin mediile de selecie, deci prin punctul ( x , y ) . Ecuaia
a = y bx poate fi scris sub forma y = a + bx .
3) ei xi = 0 . Deoarece aceast relaie poate fi gndit ca o covarian, fiind egal cu zero, rezult c
reziduurile i variabilele explicative sunt necorelate.
4) y i = yi , sau y = y , cu alte cuvinte, media valorilor ajustate/estimate este egal cu media
valorilor observate. Din yi = y i + i rezult: yi = ( y i + i ) = y i + i = y i .
5) ei y i = 0 , adic reziduurile i valorile ajustate, sunt necorelate.
Observaie: Deoarece exist numeroase pachete de programe care efectueaz calcule pentru
estimarea coeficienilor de regresie, nu trebuie s ne preocupe problema dificultii calculelor.
Proprieti statistice ale estimatorilor i (sau a i b), obinui prin MCMMP,
Observaie. Distincia dintre parametru, estimator i estimaie.
n analiza de regresie trebuie s facem distincie ntre urmtoarele trei concepte: parametru,
estimator i estimaie. Astfel:
-parametrul , al colectivitii generale, nu se cunoate i trebuie estimat;
-estimatorul este o variabil statistic, o formul de calcul;
-estimaia parametrului este un numr obinut prin introducerea valorilor observate n formula de
calcul a estimatorului.
Estimatorii i (sau a i b), obinui prin MCMMP, sunt funcii de datele de selecie (din
eantion). Ne vom referi la ei, uneori, ca fiind estimatori OLS (Ordinary Least Squares).
P1) Liniaritatea: Estimatorii i sunt funcii liniare de y1 ,..., y n .
Expresia estimatorului lui va putea fi scris n forma:
( xi x ) y i xi x
= sau = wi yi , unde wi = . Ponderile wi pot depinde de x1 ,..., x n dar
( xi x ) ( xi x )
2 2

nu depind de y1 ,..., y n i au urmtoarele proprieti: wi = 0 ; wi xi = 1; wi2 = 1 / ( xi x ) 2 .


P2) Nedeplasarea
Teorem. n condiiile I1-I4 avem:
E ( ) = pentru orice valori ale lui , ceea ce nseamn c estimatorul este estimator
nedeplasat pentru parametrul real ,
E ( ) = pentru orice valori ale lui , ceea ce nseamn c estimatorul este estimator
nedeplasat pentru parametrul real .
P3) Eficiena estimatorilor. Un estimator este eficient dac este nedeplasat i variana sa este mai
mic dect a oricrui alt estimator nedeplasat al parametrului.
Cel mai bun estimator liniar, nedeplasat (BLUE).

9
Teorema Gauss-Markov : n condiiile ipotezelor I1-I5, estimatorii obinui prin MCMMP sunt
estimatori liniari, nedeplasai i eficieni, deci sunt cei mai buni estimatori liniari i nedeplasai
pentru parametrii populaiei.
Forma scurt pentru referirea la cel mai bun estimator liniar i nedeplasat al unui parametru al
populaiei este de estimator BLUE (Best Linear Unbiased Estimator). Teorema Gauss-Markov
ofer justificarea teoretic pentru a folosi metoda celor mai mici ptrate pentru estimarea
parametrilor unui model de regresie liniar estimatorii obinui au proprieti puternice, speciale.
P4) Consistena estimatorilor. Estimatorii i sunt estimatori consisteni pentru parametrii
populaiei, adic, atunci cnd volumul seleciei este mare, i vor avea valori apropiate de
parametrii reali ai populaiei, cu o probabilitate foarte mare.
O condiie suficient pentru ca un estimator s fie consistent este s fie nedeplasat i variana sa s
tind la zero cnd n .
P5) Varianele estimatorilor i
Estimatorul , al parametrului , are o distribuie normal cu media E ( ) = i variana:
2 2
Var ( ) = Var (b) = . Avem ~ N ,
( xi x ) ( x i x )
2 2

Estimatorul , al parametrului , are o distribuie normal cu media E ( ) = i variana:
1 x2 2 x i2 1 x2
Var ( ) = Var (a ) = 2 + = . Avem ~ N , 2 +

n ( x x ) n (x x) 2
n ( xi x )
2 2
i i
Matricea varianelor i covarianelor estimatorilor modelului liniar de regresie simpl
xi
2
x

Var ( ) cov( , ) 2 n ( xi x )
2
( xi x )
2
x
unde cov( , ) = 2
cov( , ) Var ( ) = x 1 ( xi x )
2
.

( xi x ) ( xi x )
2 2

P6) Erorile standard ale estimatorilor parametrilor

se( ) = se(b) = s b = ,
( xi x )
2

2
1 x2 xi
se( ) = se(a ) = s a = + =
n ( xi x ) 2 n ( xi x ) 2
Estimaia este cu att mai precis, cu ct:
- eroarea standard este mai mic,
- mai mic,
- numrul de observaii este mai mare i
- variana valorilor variabilei explicative este mai mare.
Estimarea varianei erorilor
Variana erorilor este 2 dar este necunoscut i trebuie estimat.

Un estimator nedeplasat pentru este variana erorilor estmate: 2 = s e2 =


2
.
e 2
i

n2
Avem E ( s e2 ) = 2 , adic variana reziduurilor se2 , este estimator nedeplasat al lui 2 .
Abaterea medie ptratic a erorilor estimate este s e = s e2 .
Estimaiile erorilor standard ale estimatorilor parametrilor modelului
1
se( ) = se(b) = s b = s e
( xi x )
2

10
2
xi 1 x2
se( ) = se(a ) = s a = se = s e +
n ( xi x ) 2 n ( xi x ) 2
3.1.6. Inferena statistic n modelul de regresie liniar simpl
Testarea ipotezelor despre un coeficient de regresie
Inferena statistic folosete informaia dintr-o selecie de date pentru a trage concluzii despre
populaia din care a fost efectuat selecia aleatoare a datelor.
n scopul de a testa ipoteze cu privire la parametrii i , ai populaiei, este necesar cunoaterea
distribuiilor de selecie ale estimatorilor i . Pentru a realiza acest lucru putem proceda n dou
moduri.
O variant se bazeaz pe utilizarea ipotezei I6, care stabilete c variabilele de perturbaie i sunt
distribuite normal avnd media zero i variana constant 2 .
A doua variant: putem apela la teorema limit central aplicat estimatorilor obinui prin
MCMMP i folosim selecii suficient de mari pentru ca distribuia estimatorului s fie asimptotic
normal. n ambele variante, estimatorii obinui prin MCMMP sunt distribuii normal, cu mediile i
varianele determinate deja.
De asemenea, rezult c y i sunt distribuii normal : y i ~ N ( + x i , 2 ) .
Teste de bonitate. Teste de semnificaie
Testarea semnificaiei parametrului
H 0 : = 0 (parametrul nu este semnificativ statistic)
H 1 : 0 (parametrul este semnificativ statistic).
b
Sub ipoteza nul statistica: tb = t = ~ t n 2 deci urmeaz o distribuie Student cu (n-2) grade
se(b)
de libertate.
Regiunea critic este Rc :| t calc |> t / 2 ; n 2
Avem t critic = t / 2 ; n 2 . Dac | t calc |> t / 2 ; n 2 atunci respingem H 0 la un nivel de semnificaie de % i
acceptm H1, deci parametrul este semnificativ statistic.
Dac | t calc |< t / 2 ; n 2 atunci acceptm H 0 la un nivel de semnificaie de % , deci parametrul nu
este semnificativ statistic.
Inferena folosind p-value
n mod alternativ, se poate calcula unde se afl estimaia obinut, n distribuia estimatorului.
Aceast p-value reprezint rspunsul la ntrebarea: care este cel mai mic nivel de semnificaie la
care ipoteza nul ar trebui respins? Valoarea de probabilitate, sau p-value, asociat cu valoarea de
selecie calculat a statisticii de test, este definit ca cel mai mic nivel de semnificaie la care poate
fi respins ipoteza nul. Toate pachetele software relevante furnizeaz p-valori pentru testele de
ipoteze, astfel nct nu mai este nevoie s se caute n tabele valorile critice. O valoare de
probabilitate mic (aproape de 0) constituie argumentul evident contra ipotezei nule, n timp ce o
valoare de probabilitate mare (aproape de 1), constituie un argument slab contra ipotezei nule.
n concluzie, p-value este egal cu cel mai mic nivel de semnificaie la care putem respinge H 0 .
Regula de decizie este urmtoarea:
1. Dac p-value < respingem H 0 i acceptm H 1 , la nivelul de semnificaie .
2. Dac p-value acceptm H 0 la nivelul de semnificaie .
Intervale de ncredere pentru coeficienii de regresie
Forma general a intervalului de ncredere 100(1 )% pentru parametrul este:
( t critic se( ); + t critic se( )) sau (b t / 2;n 2 se(b); b + t / 2;n 2 se(b))

11
Regiunea corespunztoare intervalului de ncredere 100(1 )% este cunoscut ca regiunea de
acceptate a ipotezei nule, iar aria din afara acestui interval reprezint regiunea critic, de
respingere, a ipotezei nule. tim c o statistic este semnificativ dac valoarea statisticii
testului cade n regiunea critic.
Regula de decizie este: dac din ipoteza H 0 se afl n afara intervalului de ncredere construit
pentru parametrul pant, respingem H 0 , deci constatarea noastr este semnificativ. Deci se poate
testa dac = 0 privind la intervalul de ncredere pentru i observnd dac acesta conine
valoarea zero. Dac intervalul construit nu conine 0, atunci suntem ncreztori c 0 . Spunem c:
X are putere explicativ semnificativ pentru Y sau este semnificativ diferit de zero sau
este semnificativ statistic. Dac intervalul construit conine pe zero, valoarea real a coeficientului
respectiv poate fi zero. Se spune c X nu are putere explicativ semnificativ pentru Y sau este
nesemnificativ statistic. n mod uzual, coeficientul de ncredere este de 95% iar nivelul de
semnificaie este de 5%.
Un interval de ncredere 100(1 )% pentru parametrul de interceptare este de forma:
(a t critic se(a ); a + t critic se(a)) .
Mrimea celor dou intervale de ncredere este proporional cu eroarea standard a estimatorului. Cu
ct eroarea standard a estimatorului este mai mare, cu att este mai mic precizia cu care este
estimat valoarea real a parametrului necunoscut. n mod similar avem:
Testarea semnificaiei parametrului de interceptare
H 0 : = 0 (parametrul de interceptare nu este semnificativ statistic)
H 1 : = 0 (parametrul de interceptare este semnificativ statistic).
a
Sub ipoteza nul statistica: ta = t = ~ t n 2 deci urmeaz o distribuie Student cu (n-2) grade de
se( a )
libertate.
Regiunea critic este Rc :| t calc |> t critic
Avem t critic = t / 2 ; n 2 . Dac | t calc |> t critic atunci respingem H 0 la un nivel de semnificaie de % i
acceptm H1, deci parametrul de interceptare este semnificativ statistic.
Dac | t calc |< t critic atunci acceptm H 0 la un nivel de semnificaie de % , deci parametrul de
interceptare nu este semnificativ statistic.
Testarea semnificaiei parametrului 2
Aceasta se bazeaz pe o statistic ce urmeaz o distribuie hi-ptrat cu ( n 2) grade de libertate. Se
aplic testul 2 bilateral pentru a verifica ipoteza H 0 : 2 = 02 , contra alternativei H 1 : 2 02 , unde
02 este valoarea lui 2 sub H 0 . Se consider statistica:
( n 2) 2
U obs = ~ n2 2 .
2
Regula de decizie este: dac U obs > 2 / 2 sau U obs < 12 / 2 respingem H 0 .
Un interval de ncredere 100(1 )% pentru parametrul 2 este de forma:
( n 2) 2 ( n 2) 2
;
2 12 / 2
/2
3.1.7 Calcularea raportului de corelaie (R), a coeficientului de determinaie (R2) i testarea
semnificaiei acestora
Raportul de corelaie este un indicator relativ care se utilizeaz pentru:
- msurarea intensitii legturii dintre variabile
- validarea modelelor de regresie

12
( y i y ) ( yi y i )
2 2
SSR SSE
R= = sau R = 1 = 1
( yi y ) ( yi y )
2 2
SST SST
0 R 1
Dac R = 0 , nu exist legtur ntre variabile.
Dac R = 1 , valorile observate se situeaz chiar pe dreapta de regresie estimat. Exist o legtur
perfect ntre cele dou variabile analizate.
Valorile apropiate de valoarea 1 indic o legtur puternic ntre variabile.
Obs: Raportul de corelaie se calculeaz indiferent de forma legturii (liniar sau neliniar).
Coeficientul de determinaie este definit ca raportul dintre variaia valorilor lui Y, explicat prin
funcia de regresie i variaia total a valorilor variabilei Y.
SSR ( y i y ) 2 S Y2 2Y | X
R2 = = = = 2
SST ( yi y ) 2 S Y2 Y
Interpretarea coeficientului de determinaie.
Coeficientul de determinaie arat proporia din variaia total a variabilei dependente Y,
explicat de variaia variabilei independente X, deci prin modelul de regresie estimat. Cu alte
cuvinte, 100 R 2 este procentul din variaia valorilor lui Y care este explicat prin variabila exogen X.
Obs: Dac modelul nu are termen liber (constant), R2 nu mai are semnificaia de proporie.
( yi y i )
2 2
SSE ei
R2 = 1 = 1 1
( yi y ) ( yi y )
2 2
SST
ei este o msur a unei ajustri greite. Dac are o valoare mic, atunci potrivirea modelului cu
2

datele de observaie este bun i R 2 este mare.


Deoarece MCMMP minimizeaz variana reziduurilor (erorilor estimate), ea minimizeaz R2 prin
construcie.
0 R2 1
R 2 = 0 dac b = 0 , deci dac dreapta de regresie estimat este o dreapt orizontal. n acest caz
variabila X nu are putere explicativ.
R 2 = 1 dac toate punctele observate ( xi , y i ) , se afl pe o dreapt. n acest caz erorile vor fi 0.
Cu ct este mai mare valoarea lui R2, cu att mai bine explic funcia de regresie estimat valorile
observate.
Testarea semnificaiei Raportului de corelaie
Cele dou ipoteze ale testului sunt:
H 0 : R 2 = 0 ( modelul nu este corect specificat, adic var. X nu are efect asupra variabilei Y)
H 1 : R 2 > 0 (modelul este corect specificat, adic variabila X are efect asupra variabilei Y)
R2
F= (n 2) ~ F ;1, n 2
1 R2
Rc : Fcalc > F ;1, n 2
Se compar valoarea calculat a lui F cu valoarea critic obinut din tabelele repartiiei F. Se aplic
regula de decizie: Dac Fcalc > F ;1,n 2 se respinge ipoteza nul H0 i se accept H1, adic modelul este
corect specificat.
Obs: Coeficientul de determinaie R 2 (R-squared) nu apare ajustat cu gradele de libertate. Dac
SST SSE SSE
utilizm estimatorii nedeplasai S Y2 = i s e2 = = , obinem R 2 ajustat, notat
n 1 n 2 n k 1
SSE /( n k 1)
R 2 (Adjusted R-squared). R 2 = 1
SST /( n 1)

13
R 2 este folosit pentru a evidenia numrul de variabile explicative (k) i numrul de observaii (n), pe
baza crora au fost estimai parametrii modelului.
Valoarea lui R 2 este totdeauna mai mic dect a lui R 2 ( R 2 < R 2 ).
O problem major privind statistica R-squared, ca o msur a potrivirii modelului la datele
disponibile, se refer la faptul c valoarea lui R-squared nu scade niciodat, ci crete continuu, pe
msur ce se adaug mai muli regresori. Astfel, dac se includ att de muli regresori independeni,
cte observaii sunt n eantion, se poate obine o statistic egal cu 1. Statistica Adjusted R-squared
penalizeaz adugarea de regresori care nu contribuie la puterea explicativ a modelului. Astfel,
aceast statistic poate scdea pe msur ce sunt adugai regresori, iar pentru modelele pentru care
potrivirea la date nu este foarte bun, poate fi chiar negativ.
Obs: Raportul de corelaie R poate fi calculat numai dup estimarea parametrilor modelului de
regresie. n output-ul obinut n Excel apare ca Multiple R.
Coeficientul de corelaie poate fi utilizat pentru a msura intensitatea legturii dintre variabile nainte
de a construi modelul de regresie.
3.1.8 Calcularea coeficientului de corelaie liniar i testarea semnificaiei acestuia
Coeficientul de corelaie de selecie este un indicator ce caracterizeaz direcia i intensitatea
legturii liniare dintre dou variabile. Semnul acestui coeficient indic direcia legturi iar valoarea
sa indic intensitatea legturii.
cov( x, y ) S xy ( xi x )( yi y )
rxy = = = sau
SxSy SxSy 2
[
( xi x ) ( yi y )
2
][ ]
n xi y i xi y i
rxy =
[n x 2
i
2
][
( xi ) n yi2 ( yi )
2
]
Valoarea coeficientului de corelaie este ntre -1 i 1.
O valoare apropiat de 1 arat o legtur direct puternic
O valoare apropiat de -1 arat o legtur invers puternic.
( xi x )( yi y ) S xy S
b= = 2 rezult rxy = b x .
( xi x )
2
Sx Sy
Rezult c rxy are acelai semn cu coeficientul pant estimat, b .
S x2
n cazul corelaiei liniare simple avem R 2 = b 2 = r2.
S Y2
1 r2
Estimatorul coeficientului de corelaie este de medie r i abatere medie ptratic s r = .
n2
Testarea semnificaiei coeficientului de corelaie se face utiliznd testul t. Se testeaz ipotezele:
H 0 : = 0 ( coeficientul de corelaie nu este semnificativ statistic)
(ntre cele dou variabile nu exist o dependen liniar semnificativ)
H 1 : 0 ( coeficientul de corelaie este semnificativ statistic).
Statistica testului este:
rxy 0 rxy
t= = n 2 ~ S n2 .
se(rxy ) 1 rxy2
Rc : t calc < t / 2,n 2 sau t calc > t / 2,n 2
Dac t calc Rc , respingem H 0 i acceptm H 1 , adic este semnificativ statistic.
Obs: n cazul unei dependene liniare simple semnificative , avem R 2 = r 2 i atunci avem:
r2 R2
t =
2
(n 2) = (n 2) = F
1 r 2 1 R2
14
3.1.9 Previzionarea (Predicia) valorilor variabilei dependente pe baza modelului unifactorial
de regresie liniar
Se pot obine previziuni punctuale sau previziuni pe intervale de ncredere.
Prin previziunea punctual se estimeaz o singur valoare a variabilei dependente Y pentru o
valoare cunoscut a variabilei independente X.
Presupunem c x 0 este o valoare cunoscut a regresorului X i suntem interesai de a prognoza y 0 ,
adic valoarea variabilei Y, asociat cu x 0 .
Este evident c, dac X ia valoarea x 0 , valoarea previzionat pentru y 0 este y 0 = a + bx0 .
Prin previziunea pe interval de ncredere se estimeaz un interval de ncredere pentru Y, pentru o
valoare cunoscut a lui X. Se pot face dou feluri de predicii: pentru o valoare individual y 0 , sau
pentru valoarea medie condiionat a lui Y.
a) Previziunea mediei condiionate
Presupunem c X ia valoarea x 0 . Dorim s previzionm media condiionat E (Y | X = x0 ) . tim c
E (Y | X = x0 ) = + x0 .
Fie y 0 = a + bx0 estimatorul mediei condiionate a prediciei lui Y, E (Y | X = x0 ) .
Media condiionat a prediciei lui y cnd x = x0 este
E ( y | x = x0 ) = E (a + b x 0 ) = E (a) + E (b) x0 = + x0 = E ( y | x = x0 ) . Rezult c y 0 = a + bx0 este un
predictor condiionat nedeplasat al mediei condiionate E (Y | X = x0 ) = + x0 .
Dei teoria economic arat c, sub ipotezele modelului clasic de regresie, y 0 = a + bx0 este un
estimator nedeplasat al valorii medii reale (adic un punct de pe dreapta de regresie a populaiei),
este puin probabil s avem egalitate. Exist o eroare de previziune, e0 .
Determinarea unui Interval de ncredere pentru predicia valorii medii
Pentru a construi un Interval de ncredere pentru previzionare, este necesar s cunoatem distribuia
estimatorului, precum i media i variana acestuia.
Teorem: Dac x0 este fixat i eroarea aleatoare are o distribuie normal cu media 0 i variana
2 , atunci estimatorul (predictorul) y 0 = a + bx0 are o distribuie normal, cu media E ( y 0 ) = + x0
1 ( x 0 x ) 2
i variana Var ( y 0 ) = 2 +

n ( xi x ) 2
1 ( x 0 x ) 2
Avem deci: y 0 ~ N + x 0 , 2 + .
n ( xi x ) 2

Variana 2 este necunoscut i se aproximeaz prin estimatorul nedeplasat s e2 .
1 ( x0 x ) 2
Estimaia erorii standard a estimatorului y 0 va fi se( y 0 ) = se + .
n ( xi x ) 2
y 0 ( + x0 )
Statistica t = are o distribuie Student cu ( n 2) grade de libertate.
se( y 0 )
Putem folosi distribuia Student pentru a determina un interval de ncredere 100 (1 )% pentru
E (Y | x0 ) = + x0 , de forma:
y 0 t se( y 0 ) E ( y0 | x0 ) = + x0 y 0 + t se( y 0 ) ,
,n2 ,n 2
2 2
unde t / 2,n 2 este valoarea critic din distribuia Student cu (n 2) grade de libertate.
b) Previziunea unei valori individuale. Presupunem c X ia valoarea x 0 .
Dorim s previzionm o valoare a lui Y, adic y 0 = (Y | X = x 0 ) . Avem y 0 = + x0 + 0 .
15
y 0 = a + bx0 este predictor punctual i pentru y 0 = + x0 + 0 .
Determinarea unui Interval de ncredere pentru predicia individual
Dorim s obinem y0 = + x0 + 0 , dar prognozm aceasta ca fiind y 0 = a + bx0 . y 0 difer de
E ( y0 ) prin 0 . Eroarea de predicie sau eroarea de prognoz este:
e0 = y0 y 0 = ( a) + ( b) x0 + 0 .
Rezult c E (e0 ) = E ( y 0 y 0 ) = 0 .
Teorem: Dac x 0 este fixat i eroarea aleatoare are o distribuie normal cu media 0 i variana
2 , atunci eroarea de previziune e0 = y 0 y 0 are o distribuie normal, cu media 0 i variana
1 ( x0 x ) 2
Var ( y 0 y 0 ) = 2 1 + +
n ( xi x ) 2

1 ( x0 x ) 2
Avem deci: y 0 y 0 ~ N 0, 2 1 + + .
n (x x)2
i
Variana 2 este necunoscut i se aproximeaz prin estimatorul nedeplasat s e2
1 ( x0 x ) 2
Estimaia erorii standard: se( y 0 y 0 ) = s e 1 + + .
n ( xi x ) 2
y 0 y 0
Statistica t = are o distribuie Student cu ( n 2) grade de libertate.
se( y 0 y 0 )
Pentru un nivel de semnificaie fixat, (de cele mai multe ori = 0,05 ), se poate construi un interval
de ncredere (1 )% pentru y0 , de forma:
y 0 t se( y 0 y 0 ) y 0 y 0 + t se( y 0 y 0 )
,n2 ,n2
2 2
Diferena nu este ntre predictorul individual i predictorul valorii medii ci ntre varianele ataate
acestora. Trebuie remarcat faptul c se obine un interval de lungime mai mare pentru y 0 dect
pentru E ( y 0 ) . Banda de ncredere este mai mic atunci cnd x 0 se apropie de media de selecie x .
Intervalul de ncredere are o lungime cu att mai mic cu ct: valoarea lui s e este mai mic; valoarea
lui n este mai mare; x 0 este mai aproape de x ; variaia ( xi x ) 2 este mai mare.
(Figura cu benzile de ncredere n cele dou cazuri)
3.1.10. Raportarea rezultatelor analizei de regresie
n general, rezultatele analizei de regresie se prezit n diferite moduri. Pentru un model de regresie
liniar simpl se scrie ecuaia de regresie estimat (aici este cazul unui eantion de volum 10), plus
alte rezultate importante.
Prezentarea rezultatelor obinute se poate face sub forma urmtoare:
y i = 31,0537 + 0,4626 xi
se = (22,2075) (0,0784) R 2 = 0,8132
t = (1,3986) (5,9008) df = 8
p = (0,1994) (0,0003) F = 34,8196
Sub ecuaia de regresie estimat apar erorile standard ale coeficienilor de regresie, pe rndul urmtor
apar valorile estimate ale rapoartelor t, iar pe ultima linie sunt valorile probabilitilor asociate cu
valorile estimate ale coeficienilor de regresie. n partea din drepta apare coeficientul de
determinaie, numrul gradelor de libertate i valoarea statisticii F. Pentru un numr de grade de
libertate df = 8 , probabilitatea de a obine o valoare egal cu 1,3986 sau mai mare este de 0,19 iar
probabilitatea de a obine o valoare egal cu 5,9008 sau mai mare este de 0,0003. Astfel, sub ipoteza
nul c parametrul de interceptare este zero, p-value de a obine o valoare t de 1,3986 este de 0,19.
16
Rezult c nu putem respinge ipoteza nul. Estimaia parametrului de interceptare nu este statistic
semnificativ. Dac se calculeaz intervalul de ncredere pentru acest parametru, se observ c acesta
nu conine valoarea zero. De asemenea, sub ipoteza nul c parametrul pant este zero, p-value de a
obine o valoare t de 5,9008 este de 0,0003. Astfel, respingem ipoteza nul c panta dreptei de
regresie estimate este zero. Panta este statistic semnificativ. Se obine c nici intervalul de ncredere
construit pentru acest parametru nu conine valoarea zero.
3.1.11. Regresia prin origine
Uneori, modelul de regresie poate s nu conin termen constant: yi = xi + i , i = 1,2,..., n.
Ecuaia de regresie estimat, n cazul regresiei prin origine este y = x , i = 1,2,..., n . n acest caz
i i

ei nu trebuie s fie zero iar e = ( yi xi ) . Prin aplicarea MCMMP se obin relaiile:


2 2
i

xi y i xi ( xi + i ) xi i
= , = = + ,
xi xi xi
2 2 2

2 2
ei
Var ( ) = , 2
= s 2
e =
xi
2
n 1
Pentru modelul de regresie fr constant coeficientul de determinaie poate fi negativ. Dac nu
exist motive teoretice, este mai bine ca modelul s conin explicit un parametru de interceptare.
3.1.12. Analiza reziduurilor.
n aproape orice analiz de regresie este util un grafic al reziduurilor (pe axa vertical) raportate la
valorile ajustate ale variabilei dependente (pe axa orizontal). O bun aproximare are nu numai
valori mici pentru reziduuri dar i o reprezentare grafic a acestora n jurul axei orizontale fr un
model aparent, specific. Un grafic al reziduurilor care arat un anumit model cum ar fi o mulime de
reziduuri pozitive urmate de o mulime de reziduuri negative, indic o violare a uneia din ipotezele
impuse modelului de regresie sau indic folosirea unei forme funcionale greite.
Testul Jarque-Bera (JB) privind normalitatea reziduurilor (erorilor estimate)
Este un test asimptotic, bazat pe reziduurile obinute n urma estimrii modelului de regresie prin
MCMMP.
Acest test calculeaz mai nti coeficientul de asimetrie i coeficientul de boltire (aplatizare) pentru
reziduurile obinute.
Pentru o variabil X se definete k = E ( X E ( X )) k ca moment centrat de ordinul k.
3
Skewness S = i Kurtosis K = 42 . Distribuia Normal are S=0 i K=3. (K-3) este excesul de
23 / 2 2
boltire. Ipotezele de testat sunt:
H0: S = 0 i K = 3 (Reziduurile sunt distribuite normal)
H1: Reziduurile nu sunt distribuite normal
S 2 ( K 3) 2
Statistica testului este JB = n +
6 24
Sub ipoteza nul, c reziduurile sunt normal distribuite, Jarque i Bera au artat c, pentru eantioane
mari, statistica JB urmeaz o distribuie 22 .
Dac, ntr-o aplicaie, probabilitatea asociat statisticii calculate este suficient de mic ( < ) putem
respinge ipoteza nul, c reziduurile sunt normal distribuite.
Dac probabilitatea asociat statisticii calculate este mare ( > ), asimptotic, nu respingem ipoteza de
normalitate.
3.1.13. Estimarea parametrilor prin metoda verosimilitii maxime
Metoda verosimilitii maxime este o metod de estimare punctual a parametrilor modelului de
regresie, cu proprieti teoretice mai puternice dect MCMMP. Dac modelul de regresie liniar
satisface ipotezele I1-I6, atunci estimatorii obinui prin MCMMP sunt estimatori de maxim
17
verosimilitate. Ipoteza esenial este I6, care afirm c variabilele de perturbaie i sunt distribuite
normal, avnd media zero i variana constant 2 . Metoda verosimilitii maxime (Maximum
Likelihood-ML) maximizeaz funcia de verosimilitate a variabilei Y (distribuia comun a celor n
observaii). Aceasta depinde de parametrii modelului i dar i de variana 2 .
Dorim s determinm valorile lui i care sunt mai probabile a fi generat selecia considerat.
Funcia densitate de probabilitate a fiecrei variabile poate fi scris ca fiind:
12
1 1
f ( yi xi ) = 2
exp ( yi xi ) 2 . Avnd o selecie de dimensiune n, funcia
2 2 2

densitate de probabilitate comun este produsul funciilor densitate individuale. Cnd valorile
( y i , xi ) sunt cunoscute dar parametrii , i 2 sunt necunoscui, aceast funcie se numete
funcie de verosimilitate i se noteaz L( , , 2 | y, x) sau L( , , 2 ) . Atunci
n 2
1 1 ( y i xi ) 2
L ( , , ) =
2
exp . Metoda verosimilitii maxime const n
2 2
2
2
estimarea parametrilor necunoscui astfel nct probabilitatea de a obine datele observate s fie
maxim. Pentru a determina maximul funciei de verosimilitate este mai convenabil s se considere
logaritmul natural al acestei funcii. Avem:
n n 1 ( y i xi ) 2
ln L = ln 2 ln(2 )
2 2 2 2
Scriind condiiile de ordinul nti pentru aceast funcie obinem estimatorii de maxim
~
verosimilitate (numii uneori i estimatori ML) ~ , i ~ 2 pentru parametrii , i 2 .
Difereniem aceast funcie n raport cu parametrii necunoscui. Observm c doar termenul final
conine i , astfel c, prin difereniere, ceilali termeni dispar. Gsirea estimaiilor de maxim
verosimilitate pentru i este aceeai cu maximizarea termenului final sau minimizarea
1 ( yi xi )
2
termenului . n final, obinem aceeai estimatori ca cei din MCMMP. Rezult
2 2
c, n cazul modelului liniar, estimaiile obinute prin cele dou metode sunt echivalente, adic
~
= ~ , = . Totui, estimaia lui 2 nu este aceeai cu estimaia obinut prin MCMMP. Pentru
a vedea acest lucru difereniem ln L n raport cu acest parametru i egalm cu zero. Avem:
n ( yi xi ) ( yi xi ) 2 i
2 2
ln L ~ n2 2
= + = 0 = 2
= = s .
3
n n n
n concluzie, estimatorii pentru parametrii i coincid cu estimatorii obinui prin MCMMP, n
timp ce ~ 2 difer de s 2 numai la numitor. ~ 2 este un estimator deplasat n selecii finite dar este
asimptotic nedeplasat deci un estimator consistent pentru parametrul 2 . Se poate arta c, n
ipoteza I6, estimatorii pentru parametrii , i 2 , obinui prin MCMMP, sunt estimatori
nedeplasai i de varian minim. Acest rezultat este mai puternic dect cel din teorema Gauss-
Markov, deoarece include toi estimatorii nedeplasai nu numai pe cei liniari.
3.1.14. Forme funcionale ale modelelor de regresie
Fenomenele economice, cuantificate prin intermediul variabilelor economice, evolueaz dup
traiectorii liniare sau neliniare.
Cnd estimm modele de regresie, nu avem totdeauna informaii din teoria economic despre forma
funciei de regresie. n analiza statistic standard, relaia dintre variabila dependent i variabilele
independente este considerat liniar. Aceasta nseamn c rata de modificare a variabilei
dependente, determinat de modificarea variabilei independente nu variaz n funcie de valorile
variabilei independente. Se utilizeaz o form funcional liniar pentru simplitatea estimrii i
18
pentru simplitatea interpretrii coeficienilor. Pentru modelul liniar yi = + xi + i , cnd x crete
cu o unitate, y va crete sau va scdea, n medie, cu uniti. Ipoteza de liniaritate n variabile nu
este una restrictiv deoarece variabila dependent i variabilele independente pot fi transformri ale
variabilelor ce nu respect condiia de liniaritate. Dezavantajul utilizrii unei forme funcionale
liniare este tot simplitatea, pentru c cele mai multe relaii economice nu sunt liniare.
Modelul liniar este preferat datorit simplitii sale, chiar dac ar fi mai potrivit o funcie neliniar.
Deoarece teoria economic nu precizeaz forma funciei care trebuie s defineasc modelul de
regresie, se consider c este potrivit alegerea unei forme liniare ntre variabilele economice dac
dY
raportul = este constant.
dX
n cazul modelului de regresie liniar putem calcula elasticitatea lui Y n raport cu variabila
dY X X
explicativ i parametrul estimat: EY | X = =
dX Y Y
Ipoteza care ne permite estimarea parametrilor unui model prin MCMMP este liniaritatea n raport cu
parametrii modelului, nu liniaritatea n variabile.
Modelele neliniare n parametrii modelului se estimeaz prin metode speciale, mai complicate.
ntr-un model de regresie neliniar datele de observaie sunt modelate printr-o funcie care este o
combinaie neliniar de parametrii modelului i de una sau mai multe variabile explicative.
Modelele de regresie neliniare pot fi:
a) modele neliniare n variabilele explicative, dar liniare n parametri;
b) modele neliniare n parametri.
Pentru modelele neliniare n parametri, datele sunt ajustate printr-o metod de aproximaii succesive.
Ipoteza care ne permite estimarea prin MCMMP este liniaritatea n parametri i nu liniaritatea n
variabile. Exist metode de estimare i pentru relaii neliniare, dar acestea nu sunt simple, aa c
ncercm s gsim o cale de a transforma astfel de relaii pentru a le face liniare n parametri.
Transformrile liniare nu afecteaz forma distribuiei. Transformarea xi = + xi va produce
observaiile x1 , x 2 ,..., x n . n contextul analizei de regresie, aceasta nseamn c se vor schimba
coeficienii pant i de interceptare, dar coeficientul de determinaie, erorile standard i rapoartele t
vor rmne aceleai.
Pentru a schimba forma unei distribuii se folosesc transformrile neliniare. De exemplu,
folosim funcia putere, sau logaritm sau rdcina ptrat. Unul din motivele utilizrii transformrilor
neliniare este c poate fi redus asimetria. Numrul de valori aberante (puncte care se afl la distan
mare de curba ajustat) poate fi redus printr-o transformare neliniar. Un alt motiv ar fi faptul c
aproximarea funciei de regresie a populaiei printr-o funcie liniar poate fi bun pentru unele
variabile i eronat pentru altele.
Modele neliniare care pot fi transformate n modele liniare prin logaritmare
1) Modelul dublu logaritmic sau log-log ( estimeaz elasticitatea)
Modelul log-log presupune c elasticitatea lui y n raport cu x rmne constant i este folosit atunci
cnd suntem interesai de estimarea unei elasticiti. Forma funcional logaritmic se folosete
pentru a descrie funcii de cerere, funcii de cost, funcii de producie sau alte funcii descrise cu
funcia Cobb-Douglas.
Considerm modelul y i = A xi e i , unde Y este cantitatea cerut i X este preul. Calculm
dy
= A xi( 1) . Se vede c rata de modificare a lui Y n raport cu X nu este independent de X, deci
dx
nu este constant. Modelul este neliniar n variabila X.
Prin logaritmare obinem Modelul dublu logaritmic:
ln y i = + ln xi + i unde = ln A .

19
yi = + xi + i .
Dup crearea noilor variabile ln y i , ln xi , regresia este liniar. Dac sunt ndeplinite ipotezele
modelului clasic, modelul transformat poate fi estimat prin MCMMP, iar estimatorii astfel obinui
sunt BLUE. Coeficientul are interpretarea unei elasticiti:
d ln y i modificare relativa in regresandul y
= = = elasticitatea lui Y n raport cu X
d ln xi modificarea relativa in regresorul x
ln y i y i y i Y X X
= = : . EY | X = = ( slope)
ln xi xi xi X Y Y
Obs: Interpretm logaritmii ca schimbri proporionale sau procentaje.
Interpretarea coeficientul pant : atunci cnd X crete cu 1%, Y crete sau scade, n medie, cu
%, meninnd celelalte condiii nemodificate.
n exemplul de mai sus, coeficientul pant msoar elasticitatea preului cererii.
n general, elasticitatea i coeficientul pant sunt concepte diferite. Numai pentru modelul log-liniar
cele dou concepte sunt identice.
Deoarece funcia de regresie pentru modelul log-liniar este o dreapt, panta sa ( ) este constant.
Deoarece coef. pant =coef. de elasticitate, pentru acest model, elasticitatea este constant. Nu are
importan pentru ce valori ale lui X este calculat aceast elasticitate.
Modelul log-liniar se numete i model cu elasticitate constant.
2)Modelul lin-log are forma: y i = + ln xi + i .
modificare absoluta in regresandul y
= .
modificarea relativa in regresorul x
Interpretarea coeficientului pant: Atunci cnd X crete cu 1%, Y crete sau scade, n medie, cu
/ 100 uniti ( 0,01 uniti), meninnd celelalte condiii nemodificate.
3)Modelul log-lin are forma ln y i = + xi + i .
Coeficientul pant msoar modificarea relativ n y, pentru o modificare absolut n valoarea
regresorului.
modificarea relativa in regresandul y d (ln y ) dy 1
= , sau = = .
modificarea absoluta in regresorul x dx dx y
Interpretarea coeficientul pant : atunci cnd X crete cu o unitate, Y crete sau scade, n medie,
cu 100 %, meninnd celelalte condiii nemodificate.
n cazul n care variabila x este timpul, modelul descrie rata de cretere (dac > 0 ) sau de
descretere (dac < 0 ). Aceast proprietate este aplicabil relaiei dintre salarii i anii de educaie,
care este aproape totdeauna exprimat n forma ln Sal = + Ed + . Aceasta nseamn c, n caz
c la anii de educaie ai unei persoane se adaug un an, salariul va crete, n medie, cu 100 % .
Modelul exponenial
Modelul exponenial cu parametrii i este de forma y i = xi i , unde , R+ . Se
utilizeaz atunci cnd datele de observaie, reprezentate grafic, sunt orientate dup o curb
exponenial, mai concret, n cazul n care valorile variabilei explicative cresc n progresie aritmetic
iar valorile variabilei dependente cresc n progresie geometric. Parametrul se dovedete a defini
rata de cretere sau de descretere a variabilei dependente n funcie de variabila independent. Dac
> 1 , atunci variabila dependent y are o evoluie cresctoare. Dac (0,1) , atunci variabila
dependent y are o evoluie descresctoare.
Modelul reciproc sau hiperbolic

20
1
Modelul hiperbolic are forma yi = + + i , este neliniar n variabile i liniar n parametrii si.
xi
Acest model poate fi estimat aplicnd MCMMP unei regresii a variabilei y n raport cu o constant i
o variabil x = 1 / x . Transformarea invers face din numerele foarte mici, numere foarte mari, iar
din numerele foarte mari, numere foarte mici. ntr-un model reciproc, cnd x crete spre infinit,
termenul / x se apropie de zero, iar y tinde asimptotic ctre .
y
Pentru interpretarea coeficientului pant , calculm i = 2 . Dac > 0 , caracteristica y este
xi xi
descresctoare, iar dac este negativ, caracteristica y este cresctoare. Indiferent de semnul lui ,
avem lim y ( x) = .
x
Modelul hiperbolic se recomand n situaiile cnd o caracteristic y scade sau crete asimptotic spre
o anumit valoare real. Modelul reciproc de regresie este utilizat pentru a cerceta legtura dintre rata
omajului i rata inflaiei. Curba de regresie determinat pe baza seriilor de date pentru cele dou
variabile este numit curba Phillips.
Pentru a studia dependena dintre consumul unui produs i veniturile disponibile, se folosete un
model reciproc cu panta curbei de regresie negativ. Punctul de intersecie a curbei cu axa absciselor
este x = / i indic venitul minim care permite achiziionarea produsului de consum respectiv.
Modelul parabolic
Modelul parabolic este folosit n situaiile n care ritmul de evoluie al unei caracteristici este
reprezentat de o funcie liniar cu panta egal cu constanta a . Acest model poate fi descris printr-o
relaie de forma: yi = c + b xi + a xi2 + i , unde constantele a, b, c R . Efectul lui x asupra lui y
depinde de valoarea lui x. Cnd x crete cu o unitate, y crete cu b + 2a x uniti. Modelele cu funcii
ptratice sunt potrivite pentru a capta efectele marginale de cretere sau descretere. Exist totdeauna
o valoare pozitiv a lui x, unde efectul lui asupra lui y este zero. nainte de acest punct, x are efect
pozitiv asupra lui y, iar dup acest punct, x are efect negativ asupra lui y. n practic poate fi
important s se cunoasc care este acest punct de ntoarcere.
Modelul parabolic este utilizat pentru a descrie relaia dintre veniturile guvernamentale i rata de
impozitare.
Modelul polinomial
Modelul polinomial este descris printr-o funcie polinomial de ordinul k:
yt = 0 + 1 xt + 2 xt + L + k xt + t ,
2 k

unde xt , t = 1,2,..., n sunt valorile unei variabile independente. Este folosit pentru a reprezenta o
relaie despre care se tie c este puin probabil a fi liniar. Modelul este neliniar n raport cu
variabilele, dar este liniar n raport cu parametrii modelului.
Pentru ca modelul s devin liniar i n raport cu variabilele i s se poat aplica MCMMP se
utilizeaz transformrile: x = z1 , x 2 = z2 , x 3 = z3 ,... .
Modelele de regresie care conin funcii de producie neliniare continue pot fi transformate n modele
polinomiale de ordinul k cu ajutorul seriilor Taylor.
Cel mai cunoscut exemplu de utilizare a modelului polinomial este modelul prin care se definete
costul unui proces de producie y, n funcie de cantitatea produciei, x, realizat ntr-o anumit
perioad: yt = 0 + 1 xt + 2 xt2 + 3 xt3 + t . innd seama de relaia anterioar, se definesc
urmtoarele costuri ale procesului de producie y:
-costul mediu al produciei: ct = yt / xt = 0 / xt + ( 1 + 2 xt + 3 xt2 ) + t .
-costul mediu fix al produciei, cft , este reprezentat de primul termen al relaiei prin care se definete
costul mediu.

21
-costul mediu variabil este repretentat de al doilea termen al relaiei prin care se definete costul
mediu: cvt = ct cf t = 1 + 2 xt + 3 xt2 .
-costul marginal al produciei: cmt = yt / xt = 1 + 2 2 xt + 3 3 xt2 .
Modelul multiplicativ
Forma general a modelului multiplicativ este dat de relaia:
yt = x1t 1 x2t2 L xkt k e t ,
unde t este o variabil de perturbaie ce urmeaz o distribuie normal cu media zero i variana
2 . Prin logaritmarea modelului multiplicativ se obine un model echivalent:
ln yt = ln + 1 ln x1t + 2 ln x2t + L + k ln xkt + t
= 0 + 1 z1t + 2 z2t + L + k zkt + t
Coeficienii de regresie reprezint elasticiti:
y y ln yt
ej = t : t = = j.
x jt x jt ln x jt
Un exemplu foarte cunoscut de model multifactorial neliniar este funcia de producie Coob-
Douglas, care este multiplicativ.
Funcia de producie Cobb-Douglas fr progres tehnic se reprezint prin relaia: Yt = A K t Lt e t ,
unde: Yt reprezint producia sau costul produciei; K t reprezint capitalul fix; Lt reprezint fora de
munc; A, , sunt parametri reali; t = este variabil rezidual.
Parametrii i reprezint elasticiti pariale n raport cu fiecare factor de producie. Parametrul
reprezint elasticitatea parial a produciei n raport cu capitalul fix, adic:
Y Y ln Yt
eK = t : t = = .
K t K t ln K t
Parametrul reprezint elasticitatea parial a produciei n raport cu fora de munc.
Y Y ln Yt
eL = t : t = =.
Lt Lt ln Lt
Elasticitatea scalei este reprezentat de suma celor dou elasticiti, adic avem: e = eK + eL = + .
Atunci cnd avem + = 1 , procesul de producie este cu randament de scal constant. Dac cei
doi factori de producie cresc, outputul crete n aceeai proporie.
Atunci cnd avem + > 1 , procesul de producie este cu randament de scal cresctor. Dac cei
doi factori de producie cresc ntr-o anumit proporie, outputul va crete de asemenea, dar ntr-o
proporie mai mare.
Atunci cnd avem + < 1 , procesul de producie este cu randament de scal descresctor. Dac
cei doi factori de producie cresc ntr-o anumit proporie, outputul va crete de asemenea, dar ntr-o
proporie mai mic.
Pentru estimarea parametrilor funciei de producie Cobb-Douglas se liniarizeaz modelul prin
logaritmare. Se obine modelul logaritmic: ln Yt = ln A + ln K t + ln Lt + t . Parametrii modelului de
regresie se determin prin MCMMP.

3.2. Modelul multifactorial de regresie liniar


3.2.1. Modelul cu k variabile explicative
Modelul cu o singur variabil explicativ nu este foarte adecvat n practic, dac se ine seam de
faptul c o variabil economic depinde rareori de o singur variabil. Analiza de regresie multipl
ne permite s observm i s studiem mai muli factori care afecteaz variabila dependent y.

22
Modelul de regresie liniar multipl este o generalizare a modelului de regresie liniar simpl.
Specificarea modelului econometric multifactorial se face pe baza teoriei economice. Forma general
este: y = f ( x1 , x2 ,..., xk ) + . Funcia f exprim dependena variabilei explicate Y de variabilele
explicative x1 , x 2 ,..., x k , n condiiile n care sunt cunoscute valorile parametrilor. Funcia f poate
modela diferite relaii ntre variabila endogen Y i variabilele exogene x1 , x 2 ,..., x k , precum: relaii
de regresie, relaii de comportament, relaii tehnologice sau instituionale. n model pot fi incluse i
variabile decalate sau ntrziate, de tipul xt 1 .
Modelul de regresie liniar multipl poate fi specificat sub forma:
y i = 0 + 1 xi1 + 2 xi 2 + ... + k xik + i , i = 1,2,..., n .
Modelul de regresie liniar multipl este folosit pentru a studia dependena dintre o variabil
dependent y i k variabile independente x1 , x 2 ,..., x k , precum i o variabil de perturbaie .
y i = observaia cu numrul i asupra variabilei dependente y
xij = observaia cu numrul i asupra variabilei independente x j , j = 1,2,..., k .
0 = parametrul de interceptare
1 , 2 ,..., k = coeficieni de regresie pariali sau coeficieni pant.
Ei ne arat doar influena parial a fiecrei variabile independente, atunci cnd influena tuturor
celorlalte variabile independente este considerat constant.
Coeficientul de regresie parial, j , msoar cu ct se modific, n medie, valoarea variabilei
y, atunci cnd valoarea variabilei x j crete cu o unitate, ceilali factori rmnnd constani.
Variabila aleatoare i este variabila de perturbaie la observaia numrul i. Ea cuantific efectele
asupra lui y ale altor factori dect cei msurai prin x1 , x2 ,..., xk .
3.2.2. Ipoteze clasice pentru modelul de regresie liniar multipl
Pentru c dorim obinerea unor estimatori ai parametrilor modelului, cu proprieti speciale, este
necesar respectarea acelorai ipoteze, la nivelul colectivitii generale, ca i n cazul modelelor de
regresie liniare unifactoriale.
Presupunem c sunt satisfcute ipotezele clasice I1-I6 enunate la studiul modelului liniar de regresie
unifactorial, plus nc o ipotez.
I1) Forma funcional este liniar.
I2) E ( i | xi1 , xi 2 ,..., xik ) = 0 , i = 1,2,..., n .
Dac n cadrul modelului au fost incluse acele variabile ce influeneaz n mod real valoarea lui Y,
atunci diferena dintre cele dou tipuri de valori, reale i estimate, tinde spre zero, iar n medie,
aceasta este zero.
I3) Var ( i | xi1 , xi 2 ,..., xik ) = 2 = 2 > 0 , i = 1,2,..., n .
I4) Covariana condiionat a erorilor aleatoare este zero.
I5) Covariana dintre i i fiecare variabil x j este zero, adic avem cov( i , xij ) = 0 , j = 1,2,..., k ,
pentru orice i.
I6) Erorile aleatoare au o distribuie normal N (0, 2 ) .
I7) Variabilele explicative sunt liniar independente. Necoliniaritatea variabilelor explicative.
Nu exist proprietatea de multicoliniatitate perfect ntre variabilele explicative.
Ipoteza I7 cere ca n funcia de regresie a populaiei s fie incluse numai acele variabile care nu pot fi
scrise ca o combinaie liniar perfect a celorlalte variabile explicative. n caz contrar, nu este posibil
s se estimeze efectul liniar separat al fiecrui regresor asupra variabilei dependente.
3.2.3.Etape ale realizrii unui model de regresie multipl
I. Identificarea variabilelor modelului i scrierea modelului de regresie.

23
Pentru rezolvarea acestei probleme vom avea n vedere, pe de o parte, modelele folosite n teoria
economic, iar pe de alt parte, datele disponibile pentru determinarea caracteristicilor modelului de
regresie. n cazul n care modelul de regresie este neliniar, atunci va trebui s stabilim strategia de
estimare a parametrilor;
II. Definirea ipotezelor modelului clasic de regresie .
Pentru testarea validitii ipotezelor pe care se fundamenteaz modelul clasic se vor folosi diverse
teste statistice. n funcie de ipotezele care sunt ndeplinite de modelul de regresie se vor aplica
anumite metode pentru estimarea parametrilor modelului.
III. Estimarea parametrilor i validarea modelului de regresie. Pentru modelul clasic de regresie, se
pot estima parametrii prin metoda celor mai mici ptrate (MCMMP) sau prin metoda verosimilitii
maxime.
IV. Pentru variabilele exogene ale modelului vom determina matricea de corelaie. Prin aceast
matrice putem verifica prezena fenomenului de corelaie n rndul variabilelor exogene;
V. Pe baza modelului estimat se pot realiza previziuni privind valorile variabilei endogene. Se pot
determina estimri punctuale sau prin intervale de ncredere, avnd fixate valorile variabilelor
exogene i un nivel de semnificaie sau un nivel de ncredere n garantarea rezultatelor.
Estimarea modelului de regresie liniar multipl prin MCMMP
Pentru a determina estimatorii parametrilor de regresie prin MCMMP vom scrie mai nti funcia de
regresie a seleciei corespunztoare funciei de regresie a populaiei y i = 0 + 1 xi1 + ... + k xik + i ;
y = + x + ... + x ,
i 0 1 i1 k ik

ei = i = yi y i , ei = yi 0 1 xi1 ... k xik


MCMMP const n determinarea valorilor parametrilor necunoscui n aa fel nct suma ptratelor
reziduurilor s fie ct de mic este posibil. Suma
2
SSE = e 2 = ( y x ... x )
i i 0 1 i1 k ik
este minimizat folosind condiiile de ordinul nti, obinute prin derivarea parial n raport cu cei
k + 1 parametri necunoscui i egalarea cu zero a ecuaiilor rezultate.
3.2.4. Forma matriceal a modelului de regresie liniar simpl
Considerm modelul de regresie liniar simpl, asociat variabilelor X i Y, variabile observate prin
selecia sau eantionul ( xi , yi ) , i = 1, 2,..., n .
yi = 0 + 1 xi + i , i = 1,2,..., n
Aceste relaii se pot scrie sub forma:
y1 1 x1 1 y1 1 x1 1

y 2 1 x2 0 2 y2 1 x 2 0 2 a
M = M M + M . Notnd y = M ; X = M M ; = ; = M ; = b
1 1
y 1 x y 1 x
n n n n n n
Putem scrie modelul n expresie matriceal: y = X +
Estimarea parametrilor.
Parametrii se obin din sistemul de ecuaii normale ale lui Gauss, pe care le putem scrie ntr-o form
echivalent i n form matriceal:
an + b xi = yi n xi a yi
=
2
( X T X ) = X T y
a xi + b xi = xi y i xi xi b xi yi
2

Obs: Vom nota transpusa matricii X prin X T sau X .


Soluia sistemului se poate obine dac exist inversa matricii ( X T X ) .
= ( X T X ) 1 X T y

24
2 xi2 2 x
tim c Var ( a ) = ; Var (b) = , cov(a, b) = 2 ;
n ( xi x ) 2
( xi x )
2
( xi x )
2

Atunci, matricea de variane-covariane a vectorului este:


2 xi2 x
2
n ( xi x ) ( xi x )
2 2

= 2 ( X T X ) 1
x 2


2

( xi x ) ( xi x )
2 2

3.2.5. Studiul matriceal al modelelor de regresie liniar multipl
3.2.5.1. Formularea modelului
Presupunnd liniaritatea n variabile i parametri, modelul de regresie liniar multipl
y i = 0 + 1 xi1 + 2 xi 2 + ... + k xik + i , i = 1,2,..., n
poate fi reprezentat sub forma unei ecuaii matriceale:
y = X + .
este vectorul parametrilor necunoscui
este vectorul erorilor aleatoare
Pentru cele n observaii sunt nregistrate valorile y1 , y 2 ,..., y n , ce reprezint elementele vectorului
coloan y. Variabilele exogene sau independente, se reprezint sub forma variabilei vectoriale
X = ( x1 , x2 ,..., xk ) . Pentru fiecare observaie i=1,2,...,n, vom avea seria de valori xi1 , xi 2 ,..., xik .
Pentru fiecare variabil ansamblul cu datele nregistrate pentru cele n observaii va fi reprezentat prin
vectorul coloan x j cu j = 1,2,..., k .
y1 1 x11 L x1k 0 1

y2 1 x 21 L x2 k 1
y = ; X = ; = ; = 2 .
M M M M M M M

y 1 x
n n1 L xnk k n
(n 1) ( n ( k + 1)) ((k + 1) 1) (n 1)
rgX = k + 1 , n > k .
- variabila y reprezint rspunsul agenilor economici la aciunea factorilor inclui n X
- eroarea aleatoare conine abaterea fa de comportamentul mediu.
- X = componenta sistematic
- = componenta aleatoare a modelului
- j = coeficient de regresie parial.
3.2.5.2. Ipotezele asupra modelului, exprimate n form matriceal
I1) Liniaritatea n parametrii modelului: y = X + .
I2) Vectorul erorilor aleatoare are media zero: E ( ) = 0 .
Dac se ia n considerare aceast ipotez, modelul se scrie sub forma E ( y ) = X .
I3) Dispersia erorilor aleatoare este constant: Var ( i ) = D ( i ) = E ( i2 ) = 2 , i ).
I4) Erorile aleatoare i i j sunt necorelate : cov( i , j ) = 0, i j .
Ultimele dou ipoteze pot fi grupate n notaie matriceal Var ( ) = D( ) = E ( T ) = 2 I n .
I5) X este fixat, nu are elemente stochastice. Regresorii sunt strict exogeni, adic x j este independent
de , j . Avem cov( i , X ) = 0 .

25
Valorile variabilelor explicative sunt fixate pentru selecii repetate i ( x ji x j ) 2 / n are o limit
finit i diferit de zero.
I6) ~ N (0, 2 I n ) : Erorile aleatoare au o distribuie normal cu media 0 i dispersia 2 .
cov( 1 , 2 ) cov( 1 , 2 ) L cov( 1 , n ) 2 0 L 0

cov( 2 , 1 ) cov( 2 , 2 ) L cov( 2 , n ) 0 L 0
2
= E ( ) = = M
M M M M M M M

cov( , ) cov( , ) L cov( , ) 0 0 L 2
n 1 n 2 n n
Ipotezele 3,4 i 6, sub form matriceal, sunt: = 2 I n
I7) Variabilele explicative sunt liniar independente. Coloanele matricii X sunt liniar independente,
deci nu exist multicoliniaritate perfect ntre variabile.
Matricea X este nestochastic i are rangul maxim, adic rgX = k + 1 i n k + 1 .
Matricea ( X T X ) este nesingular (este inversabil).
Se presupune c valorile variabilelor explicative sunt observate fr erori.
3.2.5.3. Estimarea parametrilor modelului prin MCMMP
Obiectivul principal al etapei de estimare a parametrilor modelului const n determinarea vectorului
, care reprezint o estimare a vectorului , al parametrilor de regresie.
y i = 0 + 1 xi1 + 2 xi 2 + ... + k xik + i cu i = 1,2,..., n , reprezint valorile reale, observate, ale lui Y.
y = + x + x + ... + x cu i = 1,2,..., n , reprezint valorile ajustate, estimate, ale lui Y.
i 0 1 i1 2 i2 k ik
Reprezint componenta predictibil.
y = ( y1 , y 2 ,..., y n ) T este vectorul valorilor observate
y = ( y 1 , y 2 ,..., y n ) T este vectorul valorilor ajustate, sau estimate, ale lui Y (de dim. (n 1) )
y = X =funcia de regresie a modelului de regresie liniar multipl
Modelul estimat este y = X . Avem
y = y + = X + ,
e = = y X = vectorul reziduurilor (de dim. (n 1) ).
MCMMP presupune minimizarea sumei ptratelor reziduurilor ei2 , transcris matriceal ca e T e .
Estimatorul obinut prin MCMMP, este valoarea care minimizeaz suma ptratelor reziduurilor.
S ( ) = SSE = eT e = ( y X ) T ( y X ) = y T y y T X T X T y + T X T X
Cei patru termeni din ultima egalitate sunt scalari iar cei din mijloc sunt aceiai deoarece transpusa
unui scalar este tot un scalar, adic ( y T X ) T = T X T y .
S ( )
Condiiile de ordinul nti = 2 X T y + 2 X T X = 0

T
( X X ) = X y sunt ecuaiile normale ale lui Gauss, n form matriceal
T

Condiia necesar pentru ca ecuaiile normale ale lui Gauss s aibe soluie unic este ca n k + 1 .
Dac rgX = k + 1 , atunci vectorul este definit n mod unic pentru orice y i X.
Dac rgX = k + 1 , coloanele matricii sunt liniar independente, iar matricea ( X T X ) admite invers.
Se obine soluia unic:
= ( X T X ) 1 X T y .

26
Interpretarea estimaiilor parametrilor: Coeficientul pant j , al variabilei explicative x j ,
msoar, n medie, efectul marginal sau individual al acestei variabile asupra variabilei dependente,
meninnd toate celelalte variabile explicative constante.
Coeficientul de regresie parial, j , arat cu cte uniti crete sau scade, n medie, valoarea
variabilei y, atunci cnd valoarea variabilei x j crete cu o unitate, meninnd ceilali factori
nemodificai (ceteris paribus).
Caracteristici ale matricii ( X T X ) :
- Conine sumele ptratelor i produselor ncruciate ale variabilelor explicative. Sumele de ptrate se
gsesc pe diagonala principal, iar sumele produselor ncruciate sunt n afara diagonalei principale.
- Este o matrice simetric
- Este de ordinul ( k + 1, k + 1) , avnd k + 1 linii i k + 1 coloane.
n ecuaia ( X T X ) = X T y se cunosc ( X T X ) i X T y , iar este necunoscut.
Vectorul valorilor ajustate, sau estimate devine:
y = X = X ( X T X ) 1 X T y
3.2.5.4. Proprieti statistice ale estimatorului , obinut prin MCMMP
Proprietile statistice depind de presupunerile pe care le facem asupra modelului de regresie. Atunci
cnd se studiaz proprietile estimatorilor obinui, este necesar s se fac distincie ntre dou
categorii de proprieti. Pe de o parte, avem proprieti ale estimatorilor pentru selecii finite, cu
volum mic de observaii, proprieti care se pstreaz indiferent de mrimea seleciei. Pe de alt
parte, avem proprieti asimptotice, care sunt asociate cu seleciile foarte mari. n cazul seleciilor
finite se studiaz comportamentul unui estimator n ipoteza de a avea mai multe selecii i, n
consecin, mai muli estimatori ai parametrului care prezint interes. Media acestor estimatori ar
putea s aproximeze valoarea real a parametrului iar abaterea medie de la valoarea real s fie cea
mai mic.
1) Estimatorul , este un estimator liniar al lui , fiind o funcie liniar de valorile variabilei y.
= ( X T X ) 1 X T y = Ly , unde L = ( X T X ) 1 X T
2) Estimatorul , este un estimator nedeplasat al lui
E ( ) =
Avem = ( X T X ) 1 X T y = ( X T X ) 1 X T ( X + ) =
= ( X T X ) 1 X T X + ( X T X ) 1 X T = + ( X T X ) 1 X T .
Se observ c vectorul este o funcie liniar nu numai de y ci i de .
E ( | X ) = E ( ) = E ( + ( X T X ) 1 X T ) = + ( X T X ) 1 X T E ( ) = .
Teorema Gauss-Markov. Estimatorul , obinut prin MCMMP, este cel mai bun estimator liniar
nedeplasat (BLUE), al lui , n sensul c el are dispersia minim n interiorul clasei de estimatori
liniari nedeplasai.
3) Matricea de covariane a vectorului estimatorilor :
= Var ( ) = 2 ( X T X ) 1

Folosim proprietatea: Var ( A ) = AVar ( ) AT


= Var ( ) = E[( )( )] = E[( X T X ) 1 X T T X ( X T X ) 1 ] =

= Var ( ) = Var ( + ( X T X ) 1 X T ) = Var (( X T X ) 1 X T ) =


= ( X T X ) 1 X T Var ( )(( X T X ) 1 X T ))T =

27
= ( X T X ) 1 X T ( 2 I n ) X ( X T X ) 1 = 2 ( X T X ) 1 .
Aceast matrice de covariane este simetric, pozitiv definit i conine pe diagonal dispersiile
estimatorilor j , iar n afara diagonalei covarianele dintre j i h . Elementele diagonalei
principale sunt Var ( ) = 2 (( X X ) 1 )
j j +1, j +1 sau Var ( ) = 2 d
j .
j +1, j +1

Matricea de covariane ale vectorului poate fi scris i sub forma:


d11 d12 L d1,k +1

d d L d +
= Var ( ) = 2 ( X T X ) 1 = 2
21 22 2 , k 1

M M M M

L d k +1,k +1

4) Estimarea parametrului 2

Variana erorilor estimate este un estimator nedeplasat al varianei erorilor aleatoare


SSE eT e
se2 = 2 = = i E ( se2 ) = 2
n k 1 n k 1

5) Un estimator al matricei de covariane a vectorului estimatorilor este


= Var ( ) = s 2 ( X T X ) 1
e

Erorile standard ale estimatorilor sunt: se( j ) = se2 [( X X ) 1 j +1, j +1 ] = se2 d j +1, j +1
6) Vectorul estimatorilor parametrilor i vectorul reziduurilor sunt necorelai.
cov( , e) = 0
7) X T e = 0 .
Fiecare coloan din matricea datelor este ortogonal pe vectorul reziduurilor. Se obine din ecuaiile
normale ale lui Gauss.
( X T X ) X T y = X T ( y X ) = X T ( y y ) = X T e = 0
8)Estimatorul are distribuie normal. ~ N ( , 2 ( X X ) 1 ) .
Vectorul reziduurilor exprimat n funcie de variabila y:
e = = y y = y X = y X ( X T X ) 1 X T y = [ I X ( X T X ) 1 X T ] y = Gy
Matricea G = [ I X ( X T X ) 1 X T ] este: simetric ( G T = G ); idempotent ( GG = G ); -de ordinul
(k + 1, k + 1) ; GX T = 0 i GX = 0 .
Matricea proiecie: P = I G = X ( X T X ) 1 X T este simetric, idempotent, PX = X , PG = GP = 0
Matricile P = X ( X T X ) 1 X T i G = I P sunt numite matrici proiecii pentru proprietile lor.
P i G sunt simetrice i idempotente, deci P T = P , PP = P , G T = G , GG = G .
trP = k + 1 i trG = n k 1 , unde operatorul tr este suma elementelor de pe diagonal
Matricea P proiecteaz vectorul y pe spaiul generat de coloanele lui X.
y = X = X ( X T X ) 1 X T y = Py .
Vectorul reziduurilor este proiecia vectorului y pe spaiul ortogonal celui generat de coloanele lui X.
e = = G ( X + ) = GX + G = G
e = = y y = y X = y X ( X T X ) 1 X T y = ( I X ( X T X ) 1 X T ) y = Gy
Am folosit ( AB )T = B T AT
Rezult ei2 = e T e = y T y T X T y

28
3.2.5.5. Datele necesare calculrii coeficientului de determinaie multipl, R2:
SSE = ei2 = e T e = (Gy ) T (Gy ) = y T G T Gy = y T G 2 y = y T Gy =
= y T [ I X ( X T X ) 1 X T ] y = y T y y T X ( X T X ) 1 X T y = y T y y T X =
= y T y ( X T y ) T = y T y T X T y
SST = ( yi y ) = yi2 ny 2 = y T y ny 2
2

SST = y T y ny 2
SSE = ( yi y i ) 2 = ei2 = e T e = y T y T X T y
SSE = y T y T X T y
SSR = SST SSE = T X T y ny 2 SSR = T X T y ny 2
SSR T X T y ny 2 SSE y T y T X T y
R2 = = sau R 2
= 1 =
SST y T y ny 2 SST y T y ny 2
R 2 crete de cte ori se adaug o nou variabil n model. Se folosete R 2 ajustat:
SSE /(n k 1)
R 2 = 1 < R2
SST /(n 1)
Tabelul ANOVA

df SS MS F
Regression k SSR = X T y ny 2
T MSR = SSR / k F=MSR/MSE
Residual n k 1 MSE = SSE /(n k 1)
Total n 1 SSE = y T y T X T y
SST = y T y ny 2

3.2.5.6. Testarea validitii modelului de regresie:


H 0 : 1 = 2 = ... = k = 0 (modelul nu este valid statistic)
H1 : nonH 0 (modelul este valid statistic)
SSR / k ( T X T y ny 2 ) / k
F= = T = F ;k ,n k =1
SSE /(n k 1) ( y y T X T y ) /(n k 1)
Dac F > F ;k ,n k 1 se respinge ipoteza nul n favoarea ipotezei alternative. Modelul este valid
statistic.
3.2.5.7. Testarea ipotezelor privind coeficientii de regresie individuali, n notaie matriceal
Prin I6, am presupus c: ~ N (0, 2 I n ) , ceea ce implic ~ N ( , 2 ( X T X ) 1 )
Testarea semnificaiei statistice a parametrului j
H 0 : j = 0 (parametrul j nu este semnificativ statistic)
H 1 : j 0 (parametrul j este semnificativ statistic).
j 0
Sub ipoteza nul, statistica: tj = ~ S n k 1 urmeaz o distribuie Student cu (n-k-1) grade de
se( j )
libertate.
Regiunea critic este Rc :| t calc |> t / 2 ; n k 1
Avem t critic = t / 2 ; n k 1 . Dac | t calc |> t / 2 ; n k 1 atunci respingem H 0 la un nivel de semnificaie de
% i acceptm H1, deci parametrul j este semnificativ statistic.

29
Dac | t calc |< t / 2 ; n k 1 atunci acceptm H 0 la un nivel de semnificaie de % , deci parametrul j nu
este semnificativ statistic.

3.2.5.8. Previziuni pe baza modelului de regresie liniar multipl


Pentru o valoare dat X 0 se pot face dou feluri de predicii: pentru o valoare individual y0 , sau
pentru valoarea medie a acesteia E ( y 0 ) .
Se d vectorul x0T = ( x10 , x20 ,..., xn 0 ) , al valorilor variabilelor X
Regresia multipl estimat, n form scalar este y i = 0 + 1 xi1 + 2 xi 2 + ... + k xik , iar matriceal
este y = x T
i i

Valoarea real a lui y este y 0 = x0T + 0


Predicia mediei
Predicia punctual este y 0 = x0T
Avem: y 0 = x0T + 0 iar E ( y 0 | x0 ) = x0T
Pentru predicia pe interval de ncredere trebuie s tim c Var ( y 0 | x0T ) = se2 [ x0T ( X T X ) 1 x0 ]
Un interval de ncredere 100(1-)% pentru rspunsul mediu, dat fiind vectorul x0 , este:
y 0 t crt se2 [ x0T ( X T X ) 1 x0 ] E (Y | x0 ) y 0 + t crt se2 [ x0T ( X T X ) 1 x0 ]
Avem t critic = t / 2 ; n k 1 .
Predicia unei valori individuale y0
Predicia punctual este y = x T 0 0

Eroarea de previziune este e0 = y 0 y 0 = x0T ( ) + 0 i media ei este E (e0 ) = 0


Pentru predicia pe interval de ncredere trebuie s tim c
Var (e0 ) = Var ( y 0 y 0 ) = Var ( x0T ( )) + Var ( 0 ) = se2 [1 + x0T ( X T X ) 1 x0 ]
Un interval de ncredere 100(1-)% pentru rspunsul mediu, dat fiind vectorul x0 , este:
y 0 t crt se2 [1 + x0T ( X T X ) 1 x0 ] y 0 y 0 + t crt se2 [1 + x0T ( X T X ) 1 x0 ]

3.3. Verificarea Ipotezelor pe care se fundamenteaz estimarea parametrilor


unui model liniar de regresie
Modelul clasic de regresie se fundamenteaz pe cteva ipoteze care asigur estimatorilor obinui
prin MCMMP anumite proprieti statistice. Modelul de regresie liniar poate fi folosit n inferena
statistic i pentru a efectua previziuni ale valorilor variabilelor doar n cazul n care ipotezele pe
care acesta se bazeaz, sunt ndeplinite
Dac una (sau mai multe) din aceste ipoteze nu este ndeplinit, nu este recomandat s se foloseasc
MCMMP pentru estimarea parametrilor, deoarece vor fi afectate proprietile estimatorilor a..
estimatorii obinui nu vor mai fi BLUE.

1) Heteroscedasticitatea erorilor aleatoare (perturbaiilor aleatoare)


Ipoteza I3: Erorile aleatoare sunt homoscedastice, adic au, toate, aceeai varian, 2 , adic
Var ( i ) = E ( i E ( i )) 2 = 2 , i = 1,2,..., n , sau, echivalent: E ( i2 ) = 2 , i = 1,2,..., n .
Pe baza acestei ipoteze se poate admite c legtura dintre variabilele Y i X este relativ stabil.
Ce se ntmpl dac variana erorilor aleatoare nu este constant?

30
Erorile aleatoare sunt heteroscedastice, dac au dispersii diferite:
Var ( i ) = E ( i E ( i )) 2 = i2 , i = 1,2,..., n .
Exprimm proprietatea de heteroscedasticitate a erorilor prin relaiile echivalente:
E ( i2 ) = i2 , i = 1,2,..., n .
Observaie: Heteroscedasticitatea erorilor aleatoare se ntlnete, n general, n seriile de date
transversale, nu n seriile de timp.
Pentru un model de regresie consum-venit, figurile 1a i 2a ilustreaz presupunerea de importan
egal pentru fiecare observaie, spre deosebire de b) unde variabilitatea consumului crete odat cu
creterea venitului. n cazul 2b) distribuia erorii asociate fiecrei observaii are media 0 i este
normal, dar variana nu mai este constant.

.
.
.. . .
Yi Consum Consum
. .
.. . ..
Yi . . . .
.. . . .
. . . . . . .. .
. . . . . . . .
. . . . . . . . .. . .
. .. . . . . . . .. . . . . . . . .
.
.. .
. . . .
. . . .
.
.
Venit Xi Venit Xi

Fig.1: a) Modelul homoscedastic al erorilor b) Modelul heteroscedastic al erorilor Y


i

Yi
f(Yi) m
um ns
u
f(Yi) ns
. Co
Co
. .
. . venit mare

. .
venit mic
X1 X2 X3 X4 Venit Xi X1 X2 X3 Venit Xi

Fig.2: a) Cazul homoscedasticitii b) Cazul heteroscedasticitii

1.1. Cauze ale apariiei heteroscedasticitii erorilor aleatoare:


1. Modelul de regresie nu este corect specificat din punct de vedere al variabilelor explicative
(modelul nu include variabilele explicative eseniale sau forma sa nu este cea potrivit).
2. Neomogenitatea datelor. Seriile de date conin uniti statistice heterogene.
3. Erorile de msurare. Unele msurtori provin din rspunsuri mai precise sau mai puin precise.
4. Seriile de date sunt constituite din valori medii i nu din valori individuale.
5. Asupra seriilor de date nu au fost aplicate transformri corecte.

1.2. Consecine ale prezenei heteroscedasticitii erorilor aleatoare.


1. Estimatorii obinui prin MCMMP sunt, n continuare liniari i nedeplasai
2. Estimatorul convenional al varianei erorilor aleatoare este deplasat (nu mai este nedeplasat).
3. Estimatorii varianelor coeficienilor modelului sunt deplasai. Nu mai sunt BLUE.
4. Erorile standard ale coeficienilor modelului sunt estimate greit; testele t i F sunt incorecte.
5. Intervalele de ncredere i testele de ipoteze bazate pe distribuiile t i F nu sunt sigure.
Concluzie: Dac erorile aleatoare sunt heteroscedastice, nu se recomand estimarea parametrilor
modelului prin MCMMP. Se recomand MCMMP ponderat.

31
1.3.Detectarea heteroscedasticitii
1. Metoda grafic Se reprezint grafic valorile variabilei Y n raport cu valorile variabilei X i se
analizeaz modelul obinut (Fig. 1a i 1b).
Se reprezint grafic reziduurile regresiei n raport cu fiecare variabil explicativ sau n raport cu
valorile y i sau y i . Se observ dac exist o legtur sistematic ntre acestea. Se consider c erorile
aleatoare prezint heteroscedasticitate, dac se obine o structuri n trompet.
2. Testul White
Acest test este mai general. Mai nti se estimeaz modelul prin MCMMP i se rein reziduurile.
Testul White implic regresia ptratelor reziduurilor, ei2 , n funcie de toate variabilele explicative,
de ptratele variabilelor explicative i de produsele lor ncruciate.
Considerm modelul cu 2 variabile explicative:
y i = 0 + 1 xi1 + 2 xi 2 + i
Pas1. Estimm modelul iniial de regresie prin MCMMP i reinem reziduurile ei .
Pas2. Construim o regresie auxiliar:
ei2 = a 0 + a1 xi1 + a 2 xi 2 + a3 xi21 + a 4 xi22 + a5 xi1 xi 2 + i
Pas3. Obinem coeficientul de determinaie multipl din regresia auxiliar, coeficient notat Ra2 .
Verificm semnificaia parametrilor modelului auxiliar.
H 0 : a1 = a 2 = a 3 = a 4 = a5 = 0 ( nu exist heteroscedasticitate)
H 1 : () ai 0 (exist heteroscedasticitate)
Sub ipoteza nul, c nu exist heteroscedasticitate, White a artat c statistica W = nRa2 urmeaz
asimptotic o distribuie 2 cu gradele de libertate date de numrul de regresori din ecuaia auxiliar.
W = nRa2 ~ df2
n modelul considerat avem df=5.
Obs: Exist dou variante de aplicare a testului White:
- Utilizarea testului clasic F, bazat pe statistica F i pe ipoteza H 0 : a1 = a 2 = a3 = a 4 = a5 = 0
- Utilizarea testului LM, folosind statistica W = nRa2
Pas4. Dac valoarea calculat a statisticii W, adic Wcalculat = nRa2 > critic
2
; , sau dac p-value este

mai mic dect nivelul de semnificaie ales, respingem H 0 i acceptm H 1 . erorile aleatoare sunt
heteroscedastice.
Nu se cere ipoteza de normalitate a perturbaiilor, nici nu este necesar a preciza care variabil x este
responsabil de heteroscedasticitate.
Observaie: Testul White poate fi aplicat direct n EViews, fr a parcurge etapele enumerate.
Pasul1. Se estimeaz modelul iniial prin MCMMP i reinem reziduurile ei .
Pasul2. Se aplic testul White direct, pe seria reziduurilor.
3. Testul Park
Se bazeaz pe faptul c, dac exist heteroscedasticitate, variana heteroscedastic i2 poate fi legat
sistematic de o variabil explicativ a modelului.
Pas1. Estimm modelul iniial de regresie prin MCMMP , neglijnd heteroscedasticitatea, dac
aceasta exist i reinem reziduurile ei .
Pas2. Obinem seriile de date ei2 i ln ei2
Pas3: Se estimeaz modelul de regresie: ln ei2 = 0 + 1 ln xi + i , unde i este o variabil de
perturbaie care verific ipotezele asociate modelului clasic de regresie liniar.
Pas4. Testm ipotezele:

32
H 0 : 1 = 0 (exist homoscedasticitate)
H 1 : 1 0 (exist heteroscedasticitate)
Dac exist o relaie semnificativ statistic ntre ln ei2 i ln xi , respingem H 0 i acceptm H 1 , deci
exist heteroscedasticitate.
Dac acceptm H 0 , atunci coeficientul 0 poate fi interpretat ca fiind egal cu valoarea varianei
homoscedastice 2 .
4.Testul Glejser
Pas1. Se estimeaz modelul original prin MCMMP i se rein reziduurile ei .
Pas2. Se efectueaz regresia valorii absolute a lui ei n raport cu o variabil ce reprezint o
transformare a variabilei X, care este suspectat de a fi asociat cu variana heteroscedastic i2 .
Glejser a folosit diferite forme funcionale liniare n parametri:
1 1
ei = 0 + 1 x i + v i ; e i = 0 + 1 x i + v i ; e i = 0 + 1 + v i ; e i = 0 + 1 + vi ,
xi xi
unde vi este termenul eroare aleatoare.
Pas3. Se testeaz ipotezele:
H 0 : 1 = 0 (exist homoscedasticitate)
H 1 : 1 0 (exist heteroscedasticitate)
Un coeficient 1 semnificativ indic prezena heteroscedasticitii. S-a constatat c utilizarea acestui
test are rezultate satisfctoare n detectarea heteroscedasticitii pentru selecii mari.
5.Testul Goldfeld - Quandt
Este utilizat cnd se presupune c o singur variabil exogen este cauza heteroscedasticitii.
Acesta este un test intuitiv, aplicabil dac se presupune c dispersia heteroscedastic i2 are o relaie
de dependen pozitiv cu una din variabilele explicative ( i2 = 2 xi2 ). Ideea de baz este de a
mpri datele n dou grupe, una incluznd valorile mari, cealalt valorile mici ale variabilei x , apoi
de a aplica dou regresii separat i de a obine erori cu variane diferite (dac exist
heteroscedasticitate). Astfel:
1. Se ordoneaz cresctor observaiile n funcie de variabila exogen xi .
2. Se exclud din serie c observaii (valori) centrale , unde c este un numr dat reprezentnd o treime
sau un sfert din numrul total de observaii.
3. Cele (n-c) observaii rmase vor fi mprite n dou grupe a cte (n c) / 2 observaii. Se
estimeaz dou modele de regresie separat, pentru cele dou subserii. Observaiile omise separ
valorile mici ale lui x de valorile mari ale lui x. Dac exist heteroscedasticitate i exist o legtur
pozitiv cu xi , estimaiile lui 2 , rezultate din cele dou regresii, ar putea fi diferite.
4. Se calculeaz suma ptratelor reziduurilor pentru cele dou regresii:
Fie SSE1 = s12 pentru grupul cu variana mai mic
Fie SSE 2 = s 22 pentru grupul cu variana mai mare.
5. Calculm statistica testului ca fiind raportul dintre sumele ptratelor erorilor sau raportul dintre
dispersiile s12 , s 22 ale celor dou regresii deoarece gradele de libertate ale celor dou regresii sunt
aceleai. Statistica GQ = s 22 s12 are o distribuie F cu ((n c) / 2) k grade de libertate att la
numrtor ct i la numitor. Se folosesc tabelele acestei statistici pentru a obine valoarea critic.
Dac valoarea GQ este mai mare dect valoarea critic, respingem proprietatea de
homoscedasticitate i acceptm prezena heteroscedasticitii. Experimentele Monte Carlo au condus
la recomandarea urmtoarelor valori pentru c i n: dac n=30 atunci c=8 iar dac n=60, atunci c=16.

33
Acest test este destul de des folosit numai c se presupune c se cunoate cum poate fi ordonat
heteroscedasticitatea. Dac exist mai muli regresori nu se mai ordoneaz observaiile dup xi ci
dup y i .
Nu poate fi aplicat n mod direct, n Eviews.
6.Testul Breusch - Pagan
Testul Breusch-Pagan pornete de la presupunerea c dispersia variabilelor eroare heteroscedastice
este o funcie liniar de mai multe variabile factoriale.
1.4. Corectarea heteroscedasticitii
Dac suspectm c heteroscedasticitatea erorilor are cauze indirecte trebuie s ne asigurm c
modelul este corect specificat. Dac exist cauze directe ale heteroscedasticitii, remediile sunt
metoda celor mai mici ptrate ponderat, redefinirea variabilelor i erorile standard robuste ale lui
White.
Cazul 1. Forma de heteroscedasticitate este cunoscut: Var ( i ) = E ( i2 ) = i2 =cunoscut.
Se folosete Metoda celor mai mici ptrate ponderat
MCMMP obinuit atribuie importan egal fiecrei observaii. Prin noua metod, observaiile cu
variabilitate mai mare primesc ponderi mai mici dect cele cu variabilitate mai mic.
Modelul de regresie y i = 0 + 1 xi + i se transform mprind termenii prin i astfel:
yi 1 i xi y 1 x
= 0 + 1 . Folosim notaiile y i = i ; 0 = 0
+ ; xi = i ; i = i
i i i i i i i i

Obinem modelul transformat y i = 0 + 1 xi + i .
Este noua variabil de perturbaie homoscedastic? Dac rspunsul este da, atunci modelul
transformat nu are probleme de heteroscedasticitate. Presupunnd c celelalte ipoteze sunt
ndeplinite, estimatorii opbinui prin MCMMP vor fi BLUE i se poate trece la inferena statistic.
Artm c erorile aleatoare ale modelului transformat sunt homoscedastice.
Calculm: Var ( i ) = E (( i ) 2 ) = E ( i2 ) / i2 = i2 / i2 = 1 .
Rezult c perturbaiile transformate sunt homoscedastice.
Se poate aplica MCMMP modelului transformat deoarece sunt ndeplinite ipotezele clasice I1-I5.
y x
Pentru a estima modelul transformat vom construi mai nti seriile y i = i i xi = i . Fiecare
i i
observaie este ponderat prin propria abatere standard.
Deoarece MCMMP Ponderat este echivalent cu MCMMP asupra modelului transformat, putem
~ ~
folosi toate rezultatele deduse la MCMMP. Estimatorii obinui prin MCMMPP, notai 0 , 1 , vor fi
cei mai buni estimatori liniari, nedeplasai, consisteni i de dispersie minim (BLUE) pentru
~ ~ ~
modelul transformat. n consecin avem D ( 1 ) D ( 1 ) . Estimatori 0 , 1 obinui prin
MCMMPP sunt diferii de estimatorii obinuii , deoarece ei depind de 2 . Se numesc
0 1 i

estimatori ponderai datorit factorului 1 / i care reprezint o msur a preciziei observaiei i. Cu ct


este mai mic i , cu att este mai mare ponderea ataat observaiei i, deci i precizia observaiei i
este mai mare. Prin aceast metod observaiile cu variabilitate mai mare primesc ponderi mai mici
dect cele cu variabilitate mai mic. MCMMP Generalizat se numete i MCMMP ponderat.
Cazul 2. Varianele perturbaiilor sunt necunoscute: i2 = necunoscut
n multe cazuri, heteroscedasticitatea poate fi legat de o variabil explicativ.
a) Variana erorilor variaz direct cu o variabil explicativ, fiind proporional cu ptratul ei:
i2 = 2 xi2 .

34
yi 1
= 0 + 1 + i .
xi xi xi
yi 1 xi
Folosim notaiile y i = ; 0 = 0 ; xi = ; i = i i obinem modelul transformat
xi xi xi xi
y i = 0 xi + 1 + i .
i 1 2 xi2

Calculm: Var ( ) = Var = 2 Var ( i ) = 2 = 2
i
xi xi xi
Rezult c a fost eliminat heteroscedasticitatea erorilor aleatoare.
Observaie: Coeficientul pant original a devenit parametru de interceptare iar parametrul de
interceptare original a devenit coeficient pant. Dar aceste schimbri sunt valabile numai pentru
etapa de estimare. Dup ce modelul va fi estimat, vom nmuli prin xi ambii membri i revenim la
modelul iniial .
b) Variana erorilor este proporional cu o variabil explicativ: i2 = 2 xi
Transformm modelul mprind prin xi :
yi 1 xi i
= 0 + 1 +
xi xi xi xi
1 2 xi
Calculm: Var ( i ) = Var i = Var ( i ) = =2
x xi x
i i

Rezult c a fost eliminat heteroscedasticitatea erorilor aleatoare, deci putem estima modelul
transformat prin MCMMP. Trebuie s folosim procedura de estimare regresia prin origine.

Respecificarea modelului
n loc s facem presupuneri despre i2 , putem s alegem o alt form funcional.
Transformarea logaritmic este folosit n mod frecvent pentru a elimina heteroscedasticitatea,
deoarece reduce dispersia variabilelor iniiale. Se estimeaz prin MCMMP modelul
ln y i = 0 + 1 ln xi + i n locul modelului y i = 0 + 1 xi + i .
Un avantaj al modelului dublu logaritmic, este faptul c panta msoar elasticitatea lui Y n raport cu
X, adic modificarea procentual n Y, pentru o modificare procentual n X.

2) Autocorelarea erorilor aleatoare


Vom considera modelul clasic de regresie liniar. Acest model se bazeaz pe un numr de ipoteze
care asigur estimatorilor obinui prin MCMMP proprieti statistice speciale.
Ipoteza I4. Erorile aleatoare nu sunt autocorelate, adic eroarea oricrei observaii nu este
influenat de alt observaie.
Se scrie sub forma: cov( i , j ) = 0 sau E ( i j ) = 0 pentru i j .
2.1. Definirea autocorelrii erorilor aleatoare
Autocorelarea erorilor aleatoare poate fi definit ca prezena unei corelaii ntre perturbaiile
aleatoare, ordonate temporal n cazul seriilor cronologice, sau spaial, n cazul seriilor transversale.
Erorile aleatoare sunt autocorelate, dac avem cov( i , j ) = ij 0 pentru i j i i, j = 1,2,..., n .
Deoarece perturbaiile i au media zero, autocorelarea poate fi simbolizat prin relaia: E ( i j ) 0
pentru i j i i, j = 1,2,..., n .
Perturbaiile care afecteaz un model econometric nu sunt rezultatul unei extrageri aleatoare, ci
efectul unor variabile secundare, neluate n calcul, n mod explicit, n model.
35
Obs: Autocorelarea erorilor aleatoare apare frecvent n cazul seriilor de timp i mai rar n cazul
seriilor de tip transversal. De aceea este mai potrivit ca, n locul indicilor i i j s folosim indicii t i s
pentru a ne referi la observaiile seriilor cronologice. n cazul seriilor de timp, autocorelarea erorilor
aleatoare se numete i corelaie serial sau autocorelaie:
cov( t , s ) 0 sau E ( t s ) 0 pentru t s i t , s = 1,2,..., n .
2.2. Cauzele posibile ale apariiei autocorelrii erorilor aleatoare:
1. Absena unor variabile explicative importante din modelul de regresie
2. Forma funcional a modelului de regresie nu este potrivit
3. Transformrile efectuate asupra datelor sunt nepotrivite
De exemplu, n cazul seriilor cronologice, dac datele lunare (datele iniiale) sunt transformate n
date trimestriale prin calculul unor medii trimestriale, atunci fluctuaiile din datele lunare se
amortizeaz.
De asemenea, dac datele iniiale erau sub form de valori absolute iar modelul de regresie se
definete pe baza diferenelor absolute, apare autocorelarea erorilor aleatoare.
4. Modele autoregresive. Dac una din variabilele exogene este variabila endogen decalat
(ntrziat), se obine un model autoregresiv. y t = 0 + 1 xt + 2 y t 1 + t Dac se neglijeaz
termenul ntrziat, eroarea rezultat va avea o distribuie sistematic.
2.3. Consecine ale autocorelrii erorilor aleatoare
1. Estimatorii obinui prin MCMMP rmn estimatori liniari i nedeplasai, dar nu mai sunt eficieni,
deci nu mai sunt BLUE.
2. Uneori, formulele care estimeaz varianele i erorile standard ale estimatorilor subestimeaz
varianele i erorile reale, ceea ce face ca valorile t-calculat s creasc. n acest mod, un coeficient
apare ca fiind semnificativ diferit de zero, dei acest lucru nu este adevrat.
3. Testele uzuale t i F nu sunt de ncredere
4. Estimatorul convenional al varianei erorilor aleatoare s e2 = SSE / df , conduce la un estimator
deplasat al varianei reale 2 .
5. Coeficientul de determinaie R-Squared calculat nu este o msur de ncredere pentru R-Squared
real.
6. Varianele i abaterile medii ptratice ale previziunilor pot fi ineficiente.
Concluzie: Pentru estimarea parametrilor va trebui folosit alt metod dect MCMMP. De regul,
se folosete MCMMP Generalizat.

2.4. Detectarea autocorelrii erorilor aleatoare


1) Metoda grafic
Se estimeaz modelul iniial de regresie prin MCMMP i se rein reziduurile ei .
Se reprezint grafic reziduurile n raport cu timpul. Reziduurile indic existena autocorelrii dac
graficul prezint o anumit regularitate (valoarea curent depinde de valoarea anterioar). Dac
valorile reziduurilor tind s creasc sau s descreasc, nseamn c exist autocorelare.
Dac reziduurile intersecteaz de puine ori axa timpului, avem autocorelare pozitiv. Exist
autocorelare negativ dac valorile reziduurilor trec frecvent de la o valoare pozitiv la una negativ
a.. graficul intersecteaz de multe ori axa timpului.
Dac valorile reziduurilor sunt distribuite n mod aleator de o parte i de alta a axei, fr s apar un
model anume, atunci erorile nu sunt autocorelate, ci independente.

2) Testul Durbin-Watson. Este cel mai utilizat test pentru a pune n eviden autocorelarea erorilor.
Prin acest test se verific dac exist autocorelare de ordinul nti n seria reziduurilor. Se bazeaz pe
urmtoarele ipoteze:
1. Modelul de regresie trebuie s conin termen liber

36
2. Marticea X, a variabilelor independente, trebuie s nu fie stochastic (valorile ei sunt fixate n
urma unor eantionri repetate).
3. Valoarea perturbaiei la timpul t depinde de valoarea sa din perioada precedent (t-1), i un termen
pur aleator u. Intensitatea dependenei de valoarea trecut este msurat prin coeficientul de corelaie
. Erorile sunt generate printr-un mecanism numit proces autoregresiv de ordinul nti:
t = t 1 + u t AR(1)
4. Erorile aleatoare sunt presupuse a fi normal distribuite
5. Modelul de regresie nu conine, ca variabil exogen, variabila endogen cu decalaj.

n
t =2
(et et 1 ) 2
Folosim statistica Durbin-Watson: DW = d =

n 2
e
t =1 t

Avantajul acestei statistici este simplitatea: se bazeaz pe reziduurile et , calculate printr-o rutin, n
cele mai multe pachete de regresie. Printre rezultatele oferite prin apelarea funciei de regresie din
pachetul software EViews, este afiat valoarea calculat a satisticii DW i o probabilitate pentru
testul DW.
Proprieti ale statisticii DW:
ee
n
t = 2 t t 1
P1. DW 2(1 ) , unde = este coeficientul de corelaie de selecie.
e
n 2
t =1 t
P2. 0 DW 4
Dac nu exist autocorelaie, atunci = 0 i DW = 2 . Dac exist autocorelaie puternic pozitiv,
atunci = 1 i DW = 0 . Dac exist autocorelaie puternic negativ, atunci = 1 i DW = 4 .
Astfel, cel mai bine este ca DW = 2 .
Statistica DW nu urmeaz o distribuie clasic. Valorile sale critice sunt tabelate. Distribuia de
selecie a statisticii DW depinde de valorile variabilei explicative i de volumul seleciei. Pentru un
nivel de semnificaie dat, tabelul conine dou valori critice: limita inferioar d L i limita superioar
dU (notate i d1 , d 2 ).
Etape n aplicarea testului Durbin-Watson
Pas1. Se estimeaz parametrii modelului de regresie prin MCMMP i se obin reziduurile et . Se
testeaz ipotezele:
H 0 : = 0 (nu exist autocorelarea erorilor)
H 1 : 0 (exist autocorelarea erorilor).
Pas2. Se calculeaz valoarea statisticii DW.
Pas3. Se determin valorile critice d 1 , d 2
Pas4. Se compar valoarea calculat cu valorile critice obinute din tabele. Se localizeaz valoarea
statisticii DW n una din urmtoarele 5 regiuni sau zone de decizie:
Dac 0 < d < d 1 , seria reziduurilor prezint autocorelare de ordinul 1 pozitiv.
Dac d 1 < d < d 2 indecizie. Se recomand acceptarea autocorelrii pozitive.
Dac d 2 < d < 4 d 2 reziduurile sunt independente
Dac 4 d 2 < d < 4 d 1 indecizie. Se recomand acceptarea autocorelrii negative
Dac 4 d 1 < d < 4 , seria reziduurilor prezint autocorelare de ordinul 1 negativ.

reg1 reg2 reg 3 reg 4 reg 5


0 d1 d2 4-d2 4-d1 4

37
Tabelul de mai jos prezint, sub o alt form, regula de decizie la aplicarea testului Durbin-Watson.

Valoarea lui DW Concluzia


4 d L < DW < 4 Resping H 0 n favoarea H 1 : < 0
4 d U < DW < 4 d L Rezultat intermediar; Indecizie.
2 < DW < 4 d U Nu resping H 0 ; Accept c = 0
d U < DW < 2 Nu resping H 0 ; Accept c = 0
d L < DW < d U Rezultat intermediar; Indecizie.
0 < DW < d L Resping H 0 n favoarea H 1 : > 0

Tabelul Durbin-Watson pentru = 5 %.

n k=1 k=2 k=3 k=4 k=5


d1 d2 d1 d2 d1 d2 d1 d2 d1 d2
15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21
20 1,20 1,41 1,10 1,94 1,00 1,68 0,90 1,83 0,79 1,99
30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83
40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79
50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77
100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,37 1,78

3) Testul Breusch-Godfrey
Prin acest test se verific existena autocorelrii de ordin superior lui 1.
Se consider modelul de regresie multifactorial
y t = 0 + kj =1 j x jt + t , t = 1,2,..., n
Prin acest test se verific dac erorile aleatoare admit o reprezentare AR(r):
t = rs =1 s t s + u t , unde ut este zgomot alb, adic un ir de v.a. iid , necorelate, cu media i
variana constant. Etape n aplicarea testului Breusch-Godfrey
Pas1) Se estimeaz parametrii modelului de regresie dat iniial, prin MCMMP i se obin reziduurile
et . Se testeaz ipotezele:
H 0 : 1 = 2 = L = r = 0 ( erorile nu sunt autocorelate)
H 1 : () s 0 (exist autocorelare de ordin r)
Pas2) Se estimeaz prin MCMMP parametrii modelului auxiliar de regresie, model care descrie
legtura dintre reziduuri, variabilele exogene iniiale i reziduurile decalate:
et = rs =1 s et s + kj =1 j x jt + vt
Se reine coeficientul de determinaie Ra2 .
Pas3) Se calculeaz statistica testului
LM = n Ra2 , care urmeaz o distribuie 2 ,r .
Dac n Ra2 > 2 , r respingem H0 acceptm H1 erorile aleatoare sunt autocorelate
Dac n Ra2 < 2 ,r acceptm H0 erorile aleatoare nu sunt autocorelate
Avantajul acestui test este c nu se bazeaz pe nicio ipotez. Dezavantajul: nu se precizeaz r,
lungimea decalajului de autocorelare a erorilor.

38
2.5. Corectarea autocorelrii erorilor aleatoare. MCMMP Generalizat.
Dac un test folosit pentru detectarea autocorelrii erorilor a artat prezena acesteia, se analizeaz
dac modelul este corect specificat. Dac forma funcional nu este potrivit se va alege o nou
funcie de regresie. Dac au fost omise variabile explicative importante, acestea vor fi incluse n
model. Dac variabilele necesit transformri suplimentare, acestea se vor realiza. Dac se constat
c autocorelarea nu este indus de factorii menionai, se trece la eliminarea acesteia i estimarea
modelului prin MCMMPG.
Considerm modelul
y t = 0 + 1 xt + t
Presupunem c eroarea aleatoare urmeaz un model AR(1), adic t este generat prin schema
autoregresiv t = t 1 + u t , cu cunoscut, 1 1 i u t este zgomot alb.
Dac putem transforma modelul a.. erorile aleatoare ale modelului transformat s fie independente,
putem aplica MCMMP modelului transformat i vom obine estimatori BLUE. (Se presupune c
celelalte ipoteze ale modelului clasic de regresie liniar sunt ndeplinite.)
Scriem ecuaia de regresie pentru perioada anterioar, o nmulim cu i scdem din prima ecuaie:
y t 1 = 0 + 1 xt 1 + t 1
y t 1 = 0 + 1 xt 1 + t 1
y t y t 1 = 0 (1 ) + 1 ( xt xt 1 ) + u t
Deoarece perturbaiile aleatoare ndeplinesc ipotezele standard pentru a aplica MCMMP, avem o
transformare prin care am obinut un model fr corelaie serial:
y t = 0 + 1 xt + u t
Aplicm MCMMP variabilelor transformate y i x . Estimatorii asfel obinui vor avea
proprietile dorite, vor fi BLUE. Metoda se numete MCMMP Generalizat. Mai este referit ca
GLS (General Least Squares).
Concluzie: n cazul autocorelrii erorilor, n scopul testrii ipotezelor modelului de regresie i pentru
stabilirea intervalelor de ncredere, trebuie folosit MCMMPG, care va furniza estimatori de maxim
verosimilitate.
Not: Trebuie s cunoatem coeficientul de autocorelaie real, . Pentru c nu-l cunoatem, va
trebui estimat. Exist mai multe procedee de estimare.
A) Estimarea lui pe baza statisticii Durbin-Watson
Deoarece este verificat relaia DW 2(1 ) , nseamn c se poate obine o estimaie a lui din
statistica DW calculat. Rezult
1 DW / 2 .
Deoarece statistica DW este calculat de cele mai multe pachete de programe de regresie, se poate
obine uor o estimaie a lui . Dei este uor de folosit, acest procedeu de estimare d estimaii
bune ale lui numai dac volumul eantionului este mare.
B) Estimarea lui din reziduurile obinute prin MCMMP
t = t 1 + u t
Deoarece perturbaiile aleatoare t nu sunt observabile, vom folosi estimaiile lor i vom efectua
urmtoarea regresie:
et = et 1 + u t , unde este un estimator al lui .
Avantajul acestei regresii este simplitatea, pentru c noi folosim n mod obinuit MCMMP pentru a
obine reziduurile.
Dei n seleciile de volum redus este un estimator deplasat al lui real, cnd n crete, deplasarea
tinde s dispar.
39
Observaie. Transformarea folosit n cazul modelului cu o singur variabil explicativ poate fi
generalizat la un model cu k variabile explicative. Fie modelul:
y t = 0 + kj =1 j x jt + t , t = 1,2,..., n
t = t 1 + u t
Scriem ecuaia de regresie pentru perioada (t-1), o nmulim cu i scdem din prima ecuaie:
y t 1 = 0 + kj =1 j x jt 1 + t 1
y t y t 1 = 0 (1 ) + kj =1 j ( x jt x jt 1 ) + ( t t 1 )
y t = 0 + kj =1 j x jt + u t
cu ut zgomot alb. Parametrii modelului transformat se estimeaz prin MCMMP i se obin estimatori
de maxim verosimilitate.

3) Multicoliniaritatea variabilelor explicative


n modelul de regresie liniar multifactorial, coeficientul pant al unei variabile X este numit
coeficient de regresie parial i msoar efectul marginal sau individual al acelei variabile, asupra
variabilei dependente, meninnd toate celelalte variabile explicative constante. Relaia dintre o
variabil explicativ i o variabil dependent Y, nu este reflectat totdeauna, cu acuratee, de
coeficientul acelei variabile; acesta depinde i de celelalte variabile explicative incluse sau neincluse
n ecuaia de regresie.
Ipoteza I7: Variabilele explicative x1 , x 2 ,..., x k sunt independente ntre ele, formnd un sistem de
vectori liniar independeni.
Dac aceast ipotez nu este ndeplinit apare fenomenul de multicoliniaritate a variabilelor exogene.
Multicoliniaritatea nu este o problem a modelului ci o problem a datelor.
Considerm dou variabile exogene x1 i x 2 , care se reprezint grafic prin intermediul cercurilor cu
centrul n punctul determinat de valoarea medie a variabilei i cu raza egal cu variaia variabilei.
Putem reprezenta grafic situaiile n care cele dou variabile sunt necorelate, slab corelate, puternic
corelate i perfect corelate.
3.1. Tipuri de multicoliniaritate la nivelul unui model de regresie liniar
a) Multicoliniaritatea perfect apare dac printre variabilele explicative ale unui model de regresie
exist cel puin dou care sunt liniar dependente.
() i, j a., x j = xi , 0
Dac exist o relaie liniar exact ntre variabilele explicative ale unui model de regresie, nu se pot
obine estimaii unice pentru toi parametrii modelului.
Consecine:
matricea ( X T X ) are dou coloane liniar dependente
det( X T X ) = 0 matricea ( X T X ) nu este inversabil
estimarea parametrilor prin MCMMP este imposibil deoarece ar trebui s avem
( X X ) = X y i matricea ( X X ) nu este inversabil. Nu pot fi estimai efectiv parametrii
T T T

modelului ci o combinaie liniar a acestor parametri. Nu se poate distinge influena unei


variabile explicative de influena altor variabile explicative. Vectorul nu exist.
Multicoliniaritatea perfect ntre variabilele explicative face ca regresia s fie imposibil.
b) Multicoliniaritatea aproape perfect (imperfect) apare dac exist cel puin dou variabile
explicative care nu sunt liniar dependente dar sunt puternic corelate. Dac gradul de corelaie,
msurat prin coeficientul de corelaie liniar, are o valoare apropiat de 1 sau -1, atunci
det( X T X ) 0 , dar valoarea lui este apropiat de zero.

40
Deoarece multicoliniaritarea este ntlnit frecvent, nu se pune problema existenei coliniaritii ci a
gradului de coliniaritate a datelor din selecia considerat.
n condiii de Multicoliniaritate imperfect, se pot estima parametrii modelului prin MCMMP dar
estimatorii obinui nu sunt eficieni.
3.2. Cauze ale fenomenului de Multicoliniaritate
1. Datele nu au fost observate complet aleator sau au fost excluse anumite grupuri de subieci din
eantion.
2. Restriciile asupra modelului fac s fie eliminai subieci care difereniaz datele observate.
3. Specificarea modelului nu este corect.
4. Modelul este supradeterminat. Are mai multe variabile explicative dect observaii.
3.3 Consecine ale multicoliniaritii imperfecte
1. Varianele estimatorilor obinui prin MCMMP i erorile lor standard sunt foarte mari.
2. Se accept, n mod eronat, ipoteza nul c parametrii modelului nu sunt semnificativi, datorit
varianei mari.
3. Intervalele de ncredere pentru parametrii modelului sunt foarte largi, deci sunt imprecise.
4. Rapoartele t sunt foarte mici (coeficienii sunt nesemnificativi statistic)
Coeficientul de determinaie R 2 are o valoare foarte mare chiar n cazul n care valorile statisticilor t
sunt mici. Pe de o parte testul F respinge ipoteza nul c toi parametrii modelului sunt 0, iar pe de
alt parte testele individuale sunt nesemnificative. Aceste rezultate contradictorii se datoreaz
multicoliniaritii.
5. Estimatorii obinui prin MCMMP sunt sensibili la schimbri mici n date; tind s devin instabili.
6. Semnul coeficienilor de regresie este greit.
7. Nu se pot determina contribuiile individuale ale variabilelor exogene la suma ptratelor abaterilor
explicate, SSR.
3.4. Indicatori pentru detectatea multicoliniaritii-(Nu exist teste statistice).
1. Se determin matricea de corelaii liniare dintre variabilele explicative. Se observ astfel perechile
de variabile explicative care sunt puternic corelate ntre ele (dac | rxi , x j |> 0,85 ). O valoare absolut
apropiat de 1 indic multicoliniaritate.
2. Se reprezint grafic valorile variabilelor explicative. Dac se constat analogii n evoluie,
deducem c exist o corelaie puternic ntre variabile.
3. Calculm det( X T X ) . Dac det( X T X ) < 0,1 exist multicoliniaritate!
4. Se estimeaz modelul complet i se calculeaz R y2 . Se compar R y2 cu R 2 pentru modelul din care
s-a eliminat o variabil. Dac valorile sunt apropiate ca mrime, deducem c variabila omis este
coliniar cu celelalte variabile explicative.
5. Dac testul F arat c modelul este valid, dar testele t individuale arat c foarte puini coeficieni
sunt semnificativi, exist multicoliniaritate.

6. Criteriul lui Klein


Variabilele xi , x j sunt coliniare dac R y2 < rx2i x j
Pas1. Se estimeaz modelul complet (cu k variabile explicative) i se reine R-Squared, notat R y2 .
Pas2. Se calculeaz matricea de corelaii liniare ale variabilelor explicative (rxi , x j ) 1i , j k
Pas3. Se identific perechile de variabile pentru care exist o dependen semnificativ.

7. Regresii auxiliare.
Se regreseaz x j n raport cu restul variabilelor explicative i se reine R 2j . Dac exist un indice j,
astfel nct R 2j > R 2 , variabila x j este cea care induce multicoliniaritatea.

41
8. Criteriul factorului de inflaie a varianei (Variance Inflationary Factor)
Se regreseaz variabila x j n raport cu restul variabilelor explicative i se noteaz cu R 2j coeficientul
de determinaie.
Se calculeaz factorul de inflaie a varianei: VIF j = 1 /(1 R 2j ) .
Dac VIF j 10 , multicoliniaritatea este sever. 90% din variana lui x j este explicat prin celelalte
variabile explicative.
Dac VIF j [5,10 ) multicoliniaritatea este moderat.
Dac VIF j (1,5) multicoliniaritatea este de nivel redus.
Dac VIF j = 1 nu exist multicoliniaritate.
3.5. Soluii pentru a remedia multicoliniaritatea
- Se renun la una din cele dou variabile puternic corelate
- Se crete volumul eantionului, introducnd observaii suplimentare
- S se utilizeze serii transversale
- Se transform datele. De foarte multe ori problema se rezolv prin logaritmarea datelor.
Se pot mpri datele la una din variabile, dac are sens.
De asemenea, se pot face diferenele de ordinul nti, n cazul seriilor cronologice. Chiar dac
nivelurile sunt puternic corelate, adeseori diferenele nu mai sunt corelate.
- Aprioric, se calculeaz matricea coeficienilor de corelaie liniar, corespunztori variabilelor
exogene, pentru a selecta i ordona variabilele exogene care pot fi introduse n model.
- Partiionarea matricei variabilelor explicative n submatrici cu coloane liniar independente.
Presupunem c avem un model n care variabilele xi i x j cunt corelate ntre ele dar sunt necorelate
cu restul variabilelor. Se grupeaz variabilele a.. ( x1 ,..., xi ) - necorelate i ( x j ,..., x k ) - necorelate.
Se estimeaz modelul de regresie folosind variabilele explicative din primul grup:
y = 0 + 1 x1 + ... + i xi . Se calculeaz y = y y . Se estimeaz apoi restul parametrilor modelului:
y = + x + ... + x .
0 j j k k

4) Erorile aleatoare nu au media zero


nseamn c perturbaiile aleatoare au alt medie dect zero dar reziduurile au media egal cu zero.
Avem dou cazuri posibile:
- E ( i ) = 0 , adic erorile aleatoare au aceeai medie i aceasta este diferit de zero, spre
deosebire de modelul clasic n care = 0 .
O medie constant, nenul, pentru erorile aleatoare, va afecta numai estimaia parametrului de
interceptare, n timp ce coeficienii pant nu sunt afectai i, n cele mai multe aplicaii economice,
numai aceti coeficieni prezint importan, datorit interpretrii lor.
Dac modelul iniial este: y i = 0 + kj =1 j xij + i , i = 1,2,..., n , acesta se poate scrie sub forma:
y i = ( 0 + ) + kj =1 j xij + ( i ) = ( 0 + ) + kj =1 j xij + u i , iar E (u i ) = 0 .
Estimatorul parametrului de interceptare este deplasat dar estimatorii parametrilor sunt
nedeplasai.
Nendeplinirea ipotezei I2 se poate datora unei erori de specificare, de exemplu o variabil relevant
a fost omis din model.
- E ( i ) = i , adic perturbaiile aleatoare au o medie care variaz cu fiecare observaie. Parametrul
de interceptare variaz cu fiecare observaie i vom avea mai muli parametri dect observaii.
Modelul de regresie nu poate fi estimat fr informaii suplimentare.

42
5) Testarea de restricii liniare asupra coeficienilor unui model de regresie
Pentru a testa restricii liniare cu privire la parametrii modelului, se utilizeaz ipotezele:
H 0 : R = r (restriciile sunt valide)
H 1 : R r (restriciile nu sunt valide)
Matricea R M ( q ,k ) este o matrice de elemente cunoscute, q este numrul de restricii liniare de
testat, k este numrul de parametri de estimat, iar r este un vector cu q elemente cunoscute. rgR = q ,
ceea ce nseamn c restriciile sunt liniar independente. Matricea R i vectorul r permit exprimarea
oricror restricii liniare n form matriceal.
Ex1: Considerm un model cu 4 variabile explicative. Dorim s testm restricia
H 0 : 6 3 2 2 = 12 (restricia este valid)
H 1 : 6 3 2 2 12 (restricia nu este valid)
Matricea R este R = (0 2 6 0) , iar r = 12 .
Dac ipoteza nul include mai multe restricii, abordarea este similar:
Ex2:
H 0 : 2 1 + 2 = 1 (restriciile sunt valide)
1 + 3 4 = 2
H 1 : nonH 0 (restriciile nu sunt valide)
2 1 0 0 1
Matricea R este R = , iar r = .
1 0 0 3 2
n modelul cu restricii MR notm cu SSER suma ptratelor erorilor de estimare, pR numrul
parametrilor estimai i n numrul de observaii.
n modelul fr restricii MFR notm cu SSEFR suma ptratelor erorilor de estimare i pFR numrul de
parametrilor estimai.

I) Testul Wald, bazat pe statistica F

( SSE R SSE FR ) /( p FR p R )
F= ~ F( pFR , pR )
SSR FR /(n p FR )
Din tabelele repartiiei F se determin valoarea critic pentru nivelul de specificaie ales. Dac
Fcalc > Fcritic respingem H0 i acceptm H1, deci restriciile nu sunt valide.

II) Testul Hi-ptrat


Estimm modelul cu restricii MR i reinem reziduurile eR. Estimm apoi, o regresie auxiliar, a
acestor reziduuri, n raport cu toate variabilele explicative i reinem coeficientul de determinaie
obinut, Ra2 . Se folosete statistica:
LM = n Ra2 ~ (2pFR pR ) = q2
Dac valoarea calculat n Ra2 > critic
2
respingem H0 i acceptm H1, deci restriciile nu sunt valide.

43

S-ar putea să vă placă și