Sunteți pe pagina 1din 43

3.

MODELE DE REGRESIE CLASICE

3.1. Modelul unifactorial de regresie liniară


Analiza de Regresie
Analiza de regresie se ocupă cu descrierea şi evaluarea legăturii dintre o variabilă dependentă sau
explicată şi una sau mai multe variabile independente sau explicative, cu scopul de a estima şi de a
previziona valoarea medie a variabilei dependente, cunoscându-se valorile fixate ale variabilelor
independente (valori fixate în urma unor eşantionări repetate).
Regresia este o metodă de modelare a legăturilor dintre variabile.
Este cel mai important instrument de lucru al econometriei.
Originea termenului de regresie
Termenul de regresie provine din studiile efectuate, în domeniul eredităŃii, de statisticianul englez
Francis Galton (1822-1911). Acesta a observat că înălŃimea fiilor proveniŃi din taŃi foarte înalŃi se
apropie mai mult de înălŃimea medie a fiilor decât de înălŃimea taŃilor. Galton a constatat că avea loc
o regresie sau o revenire la înălŃimea medie.
Obiectivele Analizei de Regresie
1. Estimarea valoarii medii a variabilei dependente, date fiind valorile var. indep.
2. Testarea de ipoteze despre natura dependenŃei (ipoteze sugerate de teoria ec.)
3. Previzionarea valoarii medii a variabilei dependente, cunoscând valorile viitoare ale variabilelor
independente.
Denumiri ale variabilelor în analiza de regresie
Variabila Y Variabilele X1,X2,...,Xk
1 Variabilă dependentă Variabile independente
2 Variabilă explicată Variabile explicative
3 Regresand Regresori
4 Variabilă estimată Estimatori
5 Variabilă efect Variabile cauzale
6 Variabilă edogenă Variabile exogene
7 Variabilă Ńintă Variabile de control
Aceşti termeni sunt relevanŃi pentru o anumită situaŃie a folosirii regresiei.
1,2,3 – în discuŃii despre modele de regresie
4 – dacă intenŃia este de a prognoza valoarea unei variabile
5 – în studii de cauzalitate
6 – terminologie specifică econometriei
7 – terminologie specifică în probleme de control optimal.
Modelul este instrumentul de bază din analiza de regresie
Modelul econometric: – una sau mai multe ecuaŃii care descriu relaŃii statistice.
Modelul unifactorial de regresie, în care o variabilă dependentă Y este explicată printr-o singură
variabilă independentă X, este cel mai simplu model econometric.
DependenŃa deterministă vs. dependenŃa statistică
DependenŃa deterministă dintre variabilele Y şi X este o legătură ce poate fi descrisă complet prin
intermediul unei ecuaŃii de tip determinist, adică printr-o ecuaŃie ce conŃine toŃi termenii care intervin
în procesul studiat.
DependenŃa statistică (stochastică, aleatoare) dintre Y şi X este acea legătură care nu generează
valori unice pentru Y, în cazul unor valori date ale lui X, ci o mulŃime de valori pentru Y. Această
legătură poate fi descrisă în termeni probabilistici.
Regresie vs. cauzalitate
Deşi Analiza de regresie se ocupă cu relaŃiile dintre o variabilă dependentă şi una sau mai multe
variabile independente, ea nu implică, în mod necesar, cauzalitate, adică nu înseamnă neapărat că

1
variabilele independente sunt cauza şi variabila dependentă este efectul. Dacă există cauzalitate între
o variabilă independentă şi variabila dependentă, aceasta trebuie justificată pe baza unei anumite
teorii economice.
De exemplu, legea cererii sugerează că există o relaŃie inversă între cantitatea cerută dintr-un
anumit produs şi preŃul său, cu condiŃia ca toate celelalte variabile care influenŃează cererea, să fie
menŃinute constante. Aici, teoria microeconomică sugerează că preŃul poate fi cauza, iar cantitatea
cerută ar fi efectul.
ReŃinem că:
- regresia nu implică neapărat cauzalitate.
- cauzalitatea trebuie justificată de teoria economică care fundamentează fenomenul care este testat
empiric.
Regresie vs. corelaŃie
Analiza de corelaŃie măsoară gradul de asociere dintre două variabile.
Analiza de regresie estimează valoarea medie a unei variabile, cunoscând valorile fixate ale altei
variabile.
Analiza de corelaŃie Analiza de regresie
Tratarea variabilelor simetrică asimetrică
Tipul variabilelor Variabile aleatoare Var.dependentă este var.aleatoare
Variabilele independente: fixate

3.1.1. Specificarea modelului unifactorial de regresie


Definim modelul unifactorial de regresie printr-o relaŃie matematică ce presupune că variabila Y este
rezultatul a două categorii de factori:
- un factor esenŃial, X
-mai mulŃi factori neesenŃiali, specificaŃi printr-o variabilă aleatoare de perturbaŃie ε .
Specificarea modelului constă în precizarea variabilei dependente Y şi a variabilei independente X,
pe baza teoriei economice a fenomenului observat şi în identificarea unei funcŃii matematice care
descrie legătura dintre variabilele Y şi X.
Exemple de relaŃii de dependenŃă:
Cheltuieli de Consum – Venit
ÎnălŃime - Vârstă
Cererea pentru un produs – PreŃul produsului
Venituri din vânzări – Cheltuieli cu publicitatea
Cheltuieli pentru apărare – PIB
Rata şomajului – Rata inflaŃiei
Considerăm două variabile economice X şi Y pentru care cunoaştem n perechi de
observaŃii: ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) .
Ne interesează cum se modifică variabila Y sub acŃiunea variabilei X.
Reprezentarea grafică a datelor de observaŃie, într-o diagramă a împrăştierii, poate da informaŃii
despre existenŃa unei relaŃii între cele două variabile şi despre tipul de relaŃie, în caz că aceasta
există.
Coeficientul de corelaŃie de selecŃie poate indica, de asemenea, existenŃa unei relaŃii.
O funcŃie de regresie, este o funcŃie care leagă valorile lui X, de mediile condiŃionate
corespunzătoare E (Y | X = x1 ) ,..., E (Y | X = x n ) .
E (Y | X = xi ) = f ( xi ) este funcŃia de regresie la nivelul populaŃiei (FRP).
Forma ei este dată de teoria economică. Ex: Consumul depinde liniar de Venit.
E (Y | X = xi ) = α + β xi - dacă funcŃia de regresie f este liniară
Exemplu. Considerăm modelul lui Keynes privind consumul.
Consumul=f(Venit,AlŃi factori) ; Consumul=α+β*Venit+ε
2
Legea psihologică fundamentală că «o persoană este dispusă, de regulă şi în medie, să îşi crească
consumul pe măsură ce creşte venitul, dar nu în aceeaşi măsură», este sintetizată în relaŃia
dConsum
0< < 1 şi este reprezentată prin parametrul β al modelului de regresie. β este înclinaŃia
dVenit
marginală spre consum (variaŃia consumului împărŃită la variaŃia venitului). Pe baza unui ansamblu
de observaŃii referitoare la Consum şi Venit, se pot estima parametrii α şi β . Rezultatele anticipate
sunt α > 0 şi 0 < β < 1 .
Termenul eroare. Pentru o pereche de valori observate ( xi , y i ) , trebuie să atragem atenŃia că
valoarea observată y i nu va coincide cu media condiŃionată E (Y | X = xi ) Definim termenul
eroare aleatoare:
ε i = y i − E (Y | X = xi ) - abaterea valorii individuale y i , de la media condiŃionată.
ε i este termenul eroare (eroarea aleatoare) (perturbaŃia) la observaŃia i.
PerturbaŃiile reale ε i sunt necunoscute.
ObŃinem y i = E (Y | X = xi ) + ε i sau y i = α + β xi + ε i
EcuaŃia y i = α + β xi + ε i , i = 1,2,..., n este numită ecuaŃia de regresie a populaŃiei.
Această ecuaŃie defineşte modelul unifactorial de regresie liniară.
Modelul include o componentă deterministă α + β xi şi o componentă stochastică, ε .
Variabilele X şi Y sunt variabile observabile, adică valorile lor pot fi măsurate.
Variabila ε este numită eroare aleatoare sau termen eroare sau variabilă de perturbaŃie şi
reprezintă efectul tuturor factorilor, în afara factorului X, care îl afectează pe Y şi care sunt
consideraŃi neobservabili. Variabila ε captează erorile de măsurare a valorilor variabilelor şi
caracterul aleator al comportamentului uman. Termenul eroare ε reprezintă acea parte din valoarea
variabilei Y care nu poate fi măsurată printr-o relaŃie sistematică cu variabila X.
Parametrul α se numeşte parametru de interceptare (intercepŃia)(interceptul).
Exprimă valoarea variabilei dependente când variabila independentă este egală cu zero, deci
reprezintă punctul de intersecŃie al dreptei de regresie cu axa Oy, adică porŃiunea fixată a lui Y, care
nu poate fi explicată prin variabila independentă. Parametrul β reprezintă panta dreptei de
regresie şi indică cu cât se modifică, în medie, variabila Y atunci când variabila X se modifică
cu o unitate. β = dY / dX . Semnul parametrului pantă β arată dacă dependenŃa dintre cele două
variabile este directă sau inversă.
FuncŃia de regresie a populaŃiei (FRP) descrie procesul de generare a datelor (PGD). Ea este
distribuŃia de probabilitate comună presupusă a caracteriza întrega populaŃie din care au fost extrase
datele.
În practică nu cunoaştem FRP şi trebuie să o estimăm din datele de selecŃie, obŃinând conceptul de
FuncŃie de regresie de selecŃie (FRS).
Dacă reprezentăm grafic perechile de valori observate ( x1 , y1 ), ( x 2 , y 2 ),..., ( x n , y n ) , se va obŃine o
diagramă a împrăştierii norului de puncte şi se va pune problema de a trasa o dreaptă care să
descrie norul de puncte. Este posibil să trasăm numeroase drepte printr-un nor de puncte.
Care este “cea mai bună” dreaptă care descrie comportamentul datelor?
Considerăm doi estimatori a şi b (sau α̂ şi β̂ ) ai parametrilor reali α şi β . Putem înlocui aceşti
estimatori în funcŃia de ajustare:
yˆ i = a + b x i , i = 1, 2,..., n .
ObŃinem funcŃia de regresie a selecŃiei (FRS).
y i se numeşte valoarea observată (reală sau adevărată).
yˆ i = a + b xi se numeşte valoarea ajustată a lui y i .

3
Definim ei = εˆi = yi − yˆi abaterea dintre valoarea observată şi valoarea ajustată.
ei = εˆi se numeşte reziduu sau eroare estimată sau variabilă de perturbaŃie ajustată. Erorile
aleatoare ε i sunt neobservabile, dar reziduurile εˆi , sunt observabile.
RelaŃia dintre FRP şi FRS este dată de ecuaŃia y i = yˆ i + εˆi .
Primul obiectiv al analizei de regresie este de a estima FRP, y i = α + β xi + ε i , pe baza FRS,
y i = αˆ + βˆ xi + εˆi , deoarece analiza se bazează, de cele mai multe ori, pe un singur eşantion extras
din populaŃie.
Fiecare selecŃie determină o FRS diferită, adică sunt determinate valori numerice diferite pentru α şi
β . Nici una din FRS nu este identică cu FRP. Fiecare este doar o aproximare a FRP reale.
Cum putem alege cea mai bună dreaptă? Căutăm dreapta care face distanŃele verticale de la
puncte la dreaptă, cât mai mici posibil.
-Valoarea ajustată = distanŃa verticală de la axa orizontală la dreaptă, iar
-reziduul = distanŃa verticală de la dreaptă la punctul considerat.
Reziduurile arată cât de mult diferă valorile observate de valorile ajustate.

ObservaŃie. În discutarea modelelor de regresie, s-a dovedit incomod să se facă distincŃie, din punct
de vedere al notaŃiei, între variabile aleatoare şi realizări ale acestora, aşa încât practica standard este
de a folosi litere mici în ambele situaŃii.
Interpretarea termenului de regresie „liniară”
1) Liniaritatea în variabile. ÎnŃelegem că valoarea medie condiŃionată a variabilei dependente este o
funcŃie liniară de variabilele independente. O funcŃie y = f ( x) este liniară în raport cu variabila X
dacă variabila X apare doar la puterea 1 şi nu apare înmulŃită sau împărŃită prin altă variabilă, Z.
2) Liniaritatea în parametri. ÎnŃelegem că valoarea medie condiŃionată a variabilei dependente este
o funcŃie liniară de parametrii ce apar în ecuaŃie, dar poate să nu fie liniară în variabilele explicative.
Vom folosi termenul de regresie liniară pentru modelele care sunt liniare în parametrii lor.
3.1.2. Estimarea parametrilor modelului prin metoda celor mai mici pătrate (MCMMP):
Se minimizează suma pătratelor abaterilor dintre valorile reale y i şi valorile ajustate ŷi . Se foloseşte
şi notaŃia OLS (Ordinary Least Squares).
Suma pătratelor reziduurilor sau erorilor estimate este o funcŃie de două necunoscute, a şi b, în raport
cu care se va face minimizarea. Avem:

4
n n n
S ( a, b) = ∑ ei2 = ∑ ( y i − yˆ i ) 2 = ∑ ( yi − a − b xi ) 2 = min
i =1 i =1 i =1

S (a, b) este minimă când derivatele parŃiale ale funcŃiei în raport cu a şi b sunt egale cu zero, adică:
 ∂S (a, b)
( y i − a − bxi )(−1) = 0  ∑ yi − na − b ∑ xi = 0
n n n
 ∂a = 2i∑ =1  i =1 i =1
 ∂S (a, b) n n n n
 = 2∑ ( y i − a − bxi )(− xi ) = 0 ∑ xi yi − a ∑ xi − b ∑ xi = 0
2

 ∂b i =1 i =1 i =1 i =1

Rezultă sistemul de ecuaŃii normale ale lui Gauss:


 an + b ∑ xi = ∑ yi

 a ∑ x i + b ∑ x i = ∑ xi y i
2

SoluŃiile sistemului se pot obŃine folosind metoda determinanŃilor:


∆ ∑ y i ∑ xi − ∑ xi ∑ xi y i
2
a= a = (1)
∆ n∑ xi2 − (∑ xi ) 2
∆ n ∑ xi y i − ∑ xi ∑ y i
b= b = (2)
∆ n ∑ xi2 − (∑ xi ) 2
Dacă împărŃim prima ecuaŃie normală prin n, obŃinem:
a = y − bx (3)
După înlocuirea estimatorului a în a doua ecuaŃie normală, obŃinem:
∑ x i y i − nx y
b= (4)
∑ x i − nx
2 2

Avem nevoie de câteva rezultate privind însumările:


∑ ( x i − x ) = ∑ ( x i − 2 x x i + x ) = ∑ x i − 2 x ∑ x i + ∑ x = ∑ x i − nx
2 2 2 2 2 2 2
(5)
∑ x ( y i − y ) = x ∑ y i − x ∑ y = x ny − nx y = 0 (6)
∑ ( x i − x ) ( y i − y ) = ∑ x i ( y i − y ) = ∑ ( x i − x ) y i = ∑ x i y i − nx y (7)
RelaŃia (4) devine: ∑ ( xi − x )( yi − y ) = b∑ ( xi − x ) 2

Cu condiŃia ca ∑ ( xi − x ) 2 > 0 , panta estimată va fi dată de relaŃia


∑ ( xi − x )( y i − y ) S xy S xy
b= = = (8)
∑ ( xi − x )
2
S xx S x2
∑ ( xi − x )( y i − y ) ∑ ( xi − x )
2
S xy = şi S x2 = reprezintă covarianŃa de selecŃie dintre X şi Y,
n n
respectiv dispersia (varianŃa) de selecŃie a lui X.
Notăm că estimaŃiile pentru a şi b sunt unice.
Arătăm că soluŃia obŃinută este un minim. Considerăm derivatele parŃiale de ordinul doi ale sumei
pătratelor reziduurilor:
∂ 2 S ( a, b) ∂ 2 S ( a, b ) ∂ 2 S ( a, b)
= 2 n , = 2 ∑ i
x 2
, = 2∑ xi .
∂a 2 ∂b 2 ∂a∂b
 2n 2∑ x i 
Matricea hessiană H =  2
este pozitiv definită, pentru că avem: ∆ 1 = 2n > 0
 2 ∑ xi 2∑ xi 
∆ 2 = 4n ∑ xi2 − 4∑ xi ∑ xi = 4n ∑ xi2 − 4(nx )(nx ) = 4n( ∑ xi2 − nx 2 ) = 4n ∑ ( xi − x ) 2 > 0 .
Înseamnă că soluŃia obŃinută este un minim.

5
Valorile a şi b obŃinute prin MCMMP, pentru un anumit eşantion s.n. estimaŃii ale parametrilor reali
α şi β . Pentru eşantioane diferite rezultă estimaŃii diferite. Ansamblul lor descrie estimatorii
parametrilor α şi β .
3.1.3. Ipoteze în fundamentarea modelului de regresie liniară unifactorială
Estimarea parametrilor prin MCMMP a condus la obŃinerea estimatorilor parametrilor modelului.
Cea mai bună dreaptă pentru a aproxima norul de puncte de observaŃie este cea care minimizează
suma pătratelor erorilor estimate.
Ea se numeşte dreapta de regresie a lui Y în raport cu X.
Valorile a şi b obŃinute prin MCMMP, pentru un anumit eşantion se numesc estimaŃii ale
parametrilor reali α şi β . Pentru eşantioane diferite rezultă estimaŃii diferite. Ansamblul lor descrie
estimatorii parametrilor α şi β .
Întrebare: Cât de bune sunt estimaŃiile obŃinute şi câtă încredere putem avea în previziunile pe
care le vom face? Cum putem fi siguri, pe baza unui singur eşantion, că funcŃia de regresie estimată
(FRS) este o bună aproximaŃie a funcŃiei de regresie a populaŃiei (FRP)?
Ar trebui să cunoaştem procesul de generare a erorilor aleatoare.
Unui model de regresie i se asociază o serie de ipoteze pentru a obŃine proprietăŃi speciale, dorite,
pentru estimatorii parametrilor modelului. În statistică se utilizează numai estimaŃii de maximă
verosimilitate, care se obŃin doar în contextul satisfacerii anumitor condiŃii. Se fac, de obicei, 6
ipoteze standard pentru modelul clasic de regresie liniară.
I1) Forma funcŃională este liniară: y i = α + βxi + ε i , i = 1,2,..., n .
I2) Erorile aleatoare au media zero: E (ε i ) = 0 , i = 1,2,..., n.
I3) Homoscedasticitatea erorilor aleatoare: Var (ε i ) = σ ε2 = σ 2 , i = 1,2,..., n .
I4) Erorile aleatoare nu sunt autocorelate: cov(ε i , ε j ) = 0 pentru i ≠ j
I5) Necorelarea între regresor şi erorile aleatoare: cov(ε i , xi ) = 0 pentru orice i şi j.
I6) Erorile aleatoare au distribuŃie normală: ε i ~ N (0, σ 2 ) .
Comentarii despre ipoteze.
I1) Ipoteza de liniaritate se referă la parametrii modelului.
O funcŃie este liniară în parametrii α şi β , dacă fiecare din aceşti parametri apar numai la puterea
întâi şi nu apar înmulŃiŃi sau împărŃiŃi prin alŃi parametri.
ÎnŃelegem că valoarea medie condiŃionată a variabilei dependente Y este o funcŃie liniară de
parametrii ce apar în ecuaŃie, dar poate să nu fie liniară în variabilele independente. Vom folosi
termenul de regresie liniară pentru modelele care sunt liniare în parametri.
Modelul trebuie să fie de forma y i = α + βxi + ε i fie în variabilele iniŃiale, fie după ce au fost făcute
transformările potrivite.
Un mod de a stabili dacă variabila Y depinde liniar de variabila explicativă X este de a vedea dacă
rata de modificare a lui Y în raport cu variabila X este independentă de valoarea lui X.
I2) Erorile aleatoare au media zero. E (ε i | xi ) = E (ε i ) = 0 , i = 1,2,..., n.
Eroarea aleatoare ε este văzută ca suma efectelor individuale ale unor factori aleatori, cu semne
diferite. Înseamnă că, în medie, factorii neînregistraŃi nu are efect asupra mediei variabilei Y, adică
E (Y | X = xi ) = α + β xi . Valorile pozitive şi negative ale lui ε se anulează între ele.
Dacă în cadrul modelului au fost incluse acele variabile ce influenŃează în mod real valoarea lui Y,
atunci ecartul sau abaterea dintre cele două tipuri de valori, reale şi estimate, tinde spre zero, iar în
medie acesta este zero.
I3) Erorile aleatoare au varianŃa constantă pentru toate observaŃiile, adică sunt homoscedastice:
Var (ε i ) = D(ε i ) = E (ε i − E (ε i )) 2 = σ ε2 = σ 2 (∀) i = 1, n .

6
Deoarece E (ε i ) = 0 , ipoteza de homoscedasticitate poate fi exprimată într-o formă echivalentă:
E (ε i2 ) = σ ε2 = σ 2 (∀) i = 1, n .
Aceasta este proprietatea de homoscedasticitate a erorilor aleatoare. Pe baza acestei ipoteze se
poate admite că legătura dintre variabilele Y şi X este relativ stabilă.
Înseamnă că valorile individuale y i se situează în jurul valorii medii cu aceeaşi varianŃă. Deoarece
valorile x i sunt fixate, singura sursă de variaŃie din Y este de la eroarea aleatoare ε . Deci, dat fiind
xi , varianŃa lui yi este aceeaşi cu a lui ε i , adică Var ( y i | xi ) = Var (ε i | xi ) = σ 2 ,
Var ( y i | xi ) = Var (ε i | xi ) = σ 2 (∀) i = 1, n .
Dacă ipoteza de homoscedasticitate nu este îndeplinită, erorile aleatoare sunt numite
heteroscedastice.
(Figuri cu erori aleatoare homoscedastice, respectiv heteroscedastice)
I4) Erorile aleatoare nu sunt autocorelate. Nu există corelaŃie între doi termeni eroare. Înseamnă că
termenii eroare sunt aleatori.
Se scrie sub forma: cov(ε i , ε j ) = 0 sau E (ε i ε j ) = 0 pentru i ≠ j .
Această ipoteză nu implică faptul că y i şi y j sunt necorelate ci faptul că abaterile valorilor
observate de la valorile medii sunt necorelate.
I5) Necorelarea dintre regresori şi erorile aleatoare: cov(ε i , xi ) = 0 pentru orice i şi j.
Această proprietate poate fi exprimată într-o formă echivalentă: E (ε i x i ) = 0 pentru orice i şi j.
Erorile aleatoare sunt independente de variabilele explicative. Variabila X nu este stochastică, adică
valorile x i sunt fixate în selecŃii repetate. Înseamnă că se regăsesc aceleaşi valori dacă se face o nouă
selecŃie. În plus, se presupune că factorul X prezintă variabilitate şi deci, poate fi evidenŃiat rolul
acestui factor.
I6) Erorile aleatoare sunt presupuse a fi normal distribuite, pentru orice i.
łinând seama de ipotezele precedente, erorile aleatoare pot fi reprezentate prin relaŃiile:
ε i ~ N (0, σ 2 ) , (∀) i = 1, n .
Teorema Limită Centrală: Dacă există un număr mare de v.a. independente şi identic distribuite
(iid), atunci distribuŃia sumei lor tinde să fie o distribuŃie normală, atunci când numărul variabilelor
creşte indefinit.
Orice funcŃie liniară de variabile distribuite normal este distribuită normal. Se demonstrează că
estimatorii a şi b sunt normal distribuiŃi.
3.1.4. Testarea validităŃii modelului de regresie (testarea calităŃii ajustării), folosind metoda
analizei de varianŃă (ANOVA)
După ce dreapta de regresie a fost estimată, este important să se evalueze rezultatele, să se ştie cât de
bine ajustează sau aproximează această dreaptă datele de selecŃie. Utilizarea MCMMP asigură faptul
că valorile găsite pentru β̂ şi α̂ sunt cele care aproximează cel mai bine datele de observaŃie, în
sensul specific de minimizare a sumei pătratelor reziduurilor. Nu există nicio garanŃie că β̂ şi α̂
corespund exact cu parametrii necunoscuŃi β şi α şi nici dacă dreapta de regresie, determinată ca
fiind cea mai bună sau cea mai potrivită, aproximează corect datele observate.
Un indicator ce poate descrie calitatea reprezentării, adică a liniei de regresie estimată, este
coeficientul de determinaŃie, notat R 2 .
Analiza VarianŃei (ANOVA) este un procedeu statistic de testare a calităŃii modelului, procedeu
bazat pe descompunerea variaŃiei totale în variaŃie datorată factorului de regresie şi variaŃie datorată
factorilor neînregistraŃi.
Variabilei dependente Y îi asociem două medii: media totală ( y ) şi media condiŃionată
( yˆ i = a + b xi ).
7
y i − y = ( y i − yˆ i ) + ( yˆ i − y )
yi − y este abaterea totală, ( yi − yˆ i ) este abaterea neexplicată deoarece atunci când se modifică x i se
modifică atât y i cât şi ŷ i , iar ( yˆ i − y ) este abaterea explicată, deoarece atunci când se modifică x i
se modifică doar y i iar y rămâne constant.
Ridicăm la pătrat şi însumăm după toate observaŃiile:
∑ ( y i − y ) = ∑ ( y i − yˆ i ) + ∑ ( yˆ i − y )
2 2 2

SST = ∑ ( yi − y ) 2 se numeşte variaŃia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
SST este suma pătratelor abaterilor valorilor reale ale variabilei Y de la media lor de selecŃie, y . SST
măsoară acŃiunea tuturor factorilor (de regresie şi neînregistraŃi).
SSR = ∑ ( yˆ i − y ) 2 = ∑ ( yˆ i − yˆ ) 2 = βˆ 2 ∑ ( xi − x ) 2 este variaŃia explicată prin factorul de regresie, este
variaŃia datorată regresiei. Este suma pătratelor abaterilor valorilor ajustate ale variabilei Y de la
media lor de selecŃie. SSR măsoară acŃiunea factorului de regresie.
SSE = ∑ ( yi − yˆi ) 2 = ∑ εˆi2 este variaŃia reziduală, variaŃia datorată erorilor. Este suma pătratelor
reziduurilor (abaterilor valorilor reale ale variabilei Y de la valoarile ajustate). SSE măsoară acŃiunea
tuturor factorilor neînregistraŃi.
Cu aceste notaŃii avem relaŃia: SST=SSR+SSE
Pentru a testa validitatea modelului de regresie se foloseşte un Tabel de analiză a varianŃei.
Tabelul ANOVA
Sursa Suma pătratelor Nr grade de Media pătratelor Statistica
variaŃiei abaterilor libertate (MS) F
(SS) (df)
Regresia SSR 1 MSR=SSR/1 F=MSR/MSE
Eroarea SSE n-2 MSE=SSE/(n-2)
Total SST n-1
Pentru fiecare sumă se consideră numărul gradelor de libertate.
Media pătratelor = suma pătratelor/număr grade de libertate.
Se testeză ipotezele
H 0 : MSR = MSE (modelul nu este valid statistic)
H 1 : MSR > MSE (modelul este valid statistic)
SSR / 1 R2
Fcalculat = Fˆ = ~ F1, n − 2 sau Fˆ = (n − 2) ~ F1, n− 2
SSE /(n − 2) 1− R2
dacă se exprimă cele două sume cu ajutorul coeficientului de determinaŃie.
Se compară valoarea calculată sau observată F̂ cu valoarea critică obŃinută din tabelele repartiŃiei F.
Se aplică regula de decizie: dacă Fˆ > Fα ;(1,n − 2) se respinge ipoteza nulă în favoarea ipotezei
alternative. Modelul este valid statistic.
Dacă pentru Fcalc se obŃine o valoare mare, se acceptă H1: modelul este valid statistic. Dacă Fcalc ≈ 1 ,
nu putem respinge H0: modelul nu este valid statistic. Aceasta înseamnă că variabila X nu are efect
asupra variabilei Y. În acest caz R 2 = 0
∑ ( y i − yˆ i )
2 2
∑ ei
MSE = s e2 = = este estimatorul varianŃei erorilor aleatoare. Este un estimator
n−2 n−2
nedeplasat deoarece E ( s e2 ) = σ 2 . Abaterea medie pătratică a erorilor estimate este s e = s e2 .
- Dacă abaterea medie pătratică a erorilor estimate, se , are o valoare mică, atunci se consideră că
ajustarea datelor observate este foarte bună, iar modelul de regresie poate fi utilizat ca mijloc de
analiză şi prognoză.

8
- se este un indicator foarte important în determinarea varianŃelor şi erorilor standard ale
estimatorilor parametrilor modelului.
- se este util în compararea modelelor. Dacă trebuie să alegem între mai multe modele, vom alege
modelul pentru care se are cea mai mică valoare.
3.1.5. ProprietăŃi ale estimatorilor a şi b ai parametrilor α şi β
ProprietăŃi numerice ale valorilor estimate a şi b, obŃinute prin MCMMP.
1) ∑ ei = 0 , adică suma reziduurilor este zero, ceea ce este adevărat atât timp cât există o constantă
în regresie. Reziduurile ei = y i − a − b xi , verifică în mod automat ecuaŃiile normale ale lui Gauss.
Egalitatea ∑ ei = 0 implică e = 0 .
2) Dreapta de regresie trece totdeauna prin mediile de selecŃie, deci prin punctul ( x , y ) . EcuaŃia
a = y − bx poate fi scrisă sub forma y = a + bx .
3) ∑ ei xi = 0 . Deoarece această relaŃie poate fi gândită ca o covarianŃă, fiind egală cu zero, rezultă că
reziduurile şi variabilele explicative sunt necorelate.
4) ∑ ŷi = ∑ yi , sau yˆ = y , cu alte cuvinte, media valorilor ajustate/estimate este egală cu media
valorilor observate. Din yi = yˆ i + εˆi rezultă: ∑ yi = ∑ ( yˆ i + εˆi ) = ∑ yˆ i + ∑ εˆi = ∑ yˆ i .
5) ∑ ei yˆ i = 0 , adică reziduurile şi valorile ajustate, sunt necorelate.
ObservaŃie: Deoarece există numeroase pachete de programe care efectuează calcule pentru
estimarea coeficienŃilor de regresie, nu trebuie să ne preocupe problema dificultăŃii calculelor.
ProprietăŃi statistice ale estimatorilor α̂ şi β̂ (sau a şi b), obŃinuŃi prin MCMMP,
ObservaŃie. DistincŃia dintre parametru, estimator şi estimaŃie.
În analiza de regresie trebuie să facem distincŃie între următoarele trei concepte: parametru,
estimator şi estimaŃie. Astfel:
-parametrul β , al colectivităŃii generale, nu se cunoaşte şi trebuie estimat;
-estimatorul β̂ este o variabilă statistică, o formulă de calcul;
-estimaŃia parametrului este un număr obŃinut prin introducerea valorilor observate în formula de
calcul a estimatorului.
Estimatorii α̂ şi β̂ (sau a şi b), obŃinuŃi prin MCMMP, sunt funcŃii de datele de selecŃie (din
eşantion). Ne vom referi la ei, uneori, ca fiind estimatori OLS (Ordinary Least Squares).
P1) Liniaritatea: Estimatorii β̂ şi α̂ sunt funcŃii liniare de y1 ,..., y n .
Expresia estimatorului lui β va putea fi scrisă în forma:
∑ ( xi − x ) y i xi − x
βˆ = sau β̂ = ∑ wi yi , unde wi = . Ponderile wi pot depinde de x1 ,..., x n dar
∑ ( xi − x ) ∑ ( xi − x )
2 2

nu depind de y1 ,..., y n şi au următoarele proprietăŃi: ∑ wi = 0 ; ∑ wi xi = 1; ∑ wi2 = 1 / ∑ ( xi − x ) 2 .


P2) Nedeplasarea
Teoremă. În condiŃiile I1-I4 avem:
E ( βˆ ) = β pentru orice valori ale lui β , ceea ce înseamnă că estimatorul β̂ este estimator
nedeplasat pentru parametrul real β ,
E (αˆ ) = α pentru orice valori ale lui α , ceea ce înseamnă că estimatorul α̂ este estimator
nedeplasat pentru parametrul real α .
P3) EficienŃa estimatorilor. Un estimator este eficient dacă este nedeplasat şi varianŃa sa este mai
mică decât a oricărui alt estimator nedeplasat al parametrului.
Cel mai bun estimator liniar, nedeplasat (BLUE).

9
Teorema Gauss-Markov : În condiŃiile ipotezelor I1-I5, estimatorii obŃinuŃi prin MCMMP sunt
estimatori liniari, nedeplasaŃi şi eficienŃi, deci sunt cei mai buni estimatori liniari şi nedeplasaŃi
pentru parametrii populaŃiei.
Forma scurtă pentru referirea la cel mai bun estimator liniar şi nedeplasat al unui parametru al
populaŃiei este de estimator BLUE (Best Linear Unbiased Estimator). Teorema Gauss-Markov
oferă justificarea teoretică pentru a folosi metoda celor mai mici pătrate pentru estimarea
parametrilor unui model de regresie liniară – estimatorii obŃinuŃi au proprietăŃi puternice, speciale.
P4) ConsistenŃa estimatorilor. Estimatorii β̂ şi α̂ sunt estimatori consistenŃi pentru parametrii
populaŃiei, adică, atunci când volumul selecŃiei este mare, β̂ şi α̂ vor avea valori apropiate de
parametrii reali ai populaŃiei, cu o probabilitate foarte mare.
O condiŃie suficientă pentru ca un estimator să fie consistent este să fie nedeplasat şi varianŃa sa să
tindă la zero când n → ∞ .
P5) VarianŃele estimatorilor β̂ şi α̂
Estimatorul β̂ , al parametrului β , are o distribuŃie normală cu media E ( βˆ ) = β şi varianŃa:
σ2  σ2 
Var ( βˆ ) = Var (b) = . Avem βˆ ~ N  β , 
∑ ( xi − x ) ∑ ( x i − x ) 
2 2

Estimatorul α̂ , al parametrului α , are o distribuŃie normală cu media E (αˆ ) = α şi varianŃa:
1 x2  σ 2 ∑ x i2  1 x2 
Var (αˆ ) = Var (a ) = σ 2  + = . Avem ˆ ~ N α , σ 2  +
α 
 n∑ ( x − x )   n ∑ (x − x) 2 
 n ∑ ( xi − x )
2 2
 i   i 
Matricea varianŃelor şi covarianŃelor estimatorilor modelului liniar de regresie simplă
 ∑ xi
2
x 
 − 
 Var (αˆ ) cov(αˆ , βˆ )  2  n∑ ( xi − x )
2
∑ ( xi − x )
2
 x
  unde cov(αˆ , βˆ ) = −σ 2
 cov(αˆ , βˆ ) Var ( βˆ )  = σ  x 1  ∑ ( xi − x )
2
.
   − 
 ∑ ( xi − x ) ∑ ( xi − x )
2 2

P6) Erorile standard ale estimatorilor parametrilor
σ
se( βˆ ) = se(b) = s b = ,
∑ ( xi − x )
2

2
1 x2 ∑ xi
se(αˆ ) = se(a ) = s a = σ ⋅ + = σ ⋅
n ∑ ( xi − x ) 2 n ∑ ( xi − x ) 2
EstimaŃia este cu atât mai precisă, cu cât:
- eroarea standard este mai mică,
- σ mai mic,
- numărul de observaŃii este mai mare şi
- varianŃa valorilor variabilei explicative este mai mare.
Estimarea varianŃei erorilor
VarianŃa erorilor este σ 2 dar este necunoscută şi trebuie estimată.

Un estimator nedeplasat pentru σ este varianŃa erorilor estímate: σˆ 2 = s e2 =


2
.
∑e 2
i

n−2
Avem E ( s e2 ) = σ 2 , adică varianŃa reziduurilor se2 , este estimator nedeplasat al lui σ 2 .
Abaterea medie pătratică a erorilor estimate este s e = s e2 .
EstimaŃiile erorilor standard ale estimatorilor parametrilor modelului
1
se( βˆ ) = se(b) = s b = s e ⋅
∑ ( xi − x )
2

10
2
∑ xi 1 x2
se(αˆ ) = se(a ) = s a = se ⋅ = s e ⋅ +
n ∑ ( xi − x ) 2 n ∑ ( xi − x ) 2
3.1.6. InferenŃa statistică în modelul de regresie liniară simplă
Testarea ipotezelor despre un coeficient de regresie
InferenŃa statistică foloseşte informaŃia dintr-o selecŃie de date pentru a trage concluzii despre
populaŃia din care a fost efectuată selecŃia aleatoare a datelor.
În scopul de a testa ipoteze cu privire la parametrii α şi β , ai populaŃiei, este necesară cunoaşterea
distribuŃiilor de selecŃie ale estimatorilor α̂ şi β̂ . Pentru a realiza acest lucru putem proceda în două
moduri.
O variantă se bazează pe utilizarea ipotezei I6, care stabileşte că variabilele de perturbaŃie ε i sunt
distribuite normal având media zero şi varianŃa constantă σ 2 .
A doua variantă: putem apela la teorema limită centrală aplicată estimatorilor obŃinuŃi prin
MCMMP şi folosim selecŃii suficient de mari pentru ca distribuŃia estimatorului să fie asimptotic
normală. În ambele variante, estimatorii obŃinuŃi prin MCMMP sunt distribuiŃi normal, cu mediile şi
varianŃele determinate deja.
De asemenea, rezultă că y i sunt distribuiŃi normal : y i ~ N (α + βx i , σ 2 ) .
Teste de bonitate. Teste de semnificaŃie
Testarea semnificaŃiei parametrului β
H 0 : β = 0 (parametrul β nu este semnificativ statistic)
H 1 : β ≠ 0 (parametrul β este semnificativ statistic).
b
Sub ipoteza nulă statistica: tˆb = tˆβˆ = ~ t n − 2 deci urmează o distribuŃie Student cu (n-2) grade
se(b)
de libertate.
Regiunea critică este Rc :| t calc |> tα / 2 ; n − 2
Avem t critic = tα / 2 ; n −2 . Dacă | t calc |> tα / 2 ; n − 2 atunci respingem H 0 la un nivel de semnificaŃie de α % şi
acceptăm H1, deci parametrul β este semnificativ statistic.
Dacă | t calc |< tα / 2 ; n − 2 atunci acceptăm H 0 la un nivel de semnificaŃie de α % , deci parametrul β nu
este semnificativ statistic.
InferenŃa folosind p-value
În mod alternativ, se poate calcula unde se află estimaŃia obŃinută, în distribuŃia estimatorului.
Această „p-value” reprezintă răspunsul la întrebarea: care este cel mai mic nivel de semnificaŃie la
care ipoteza nulă ar trebui respinsă? Valoarea de probabilitate, sau „p-value”, asociată cu valoarea de
selecŃie calculată a statisticii de test, este definită ca cel mai mic nivel de semnificaŃie la care poate
fi respinsă ipoteza nulă. Toate pachetele software relevante furnizează p-valori pentru testele de
ipoteze, astfel încât nu mai este nevoie să se caute în tabele valorile critice. O valoare de
probabilitate mică (aproape de 0) constituie argumentul evident contra ipotezei nule, în timp ce o
valoare de probabilitate mare (aproape de 1), constituie un argument slab contra ipotezei nule.
În concluzie, p-value este egal cu cel mai mic nivel de semnificaŃie la care putem respinge H 0 .
Regula de decizie este următoarea:
1. Dacă p-value < α ⇒ respingem H 0 şi acceptăm H 1 , la nivelul de semnificaŃie α .
2. Dacă p-value ≥ α ⇒ acceptăm H 0 la nivelul de semnificaŃie α .
Intervale de încredere pentru coeficienŃii de regresie
Forma generală a intervalului de încredere 100(1 − α )% pentru parametrul β este:
( βˆ − t critic se( βˆ ); βˆ + t critic se( βˆ )) sau (b − tα / 2;n− 2 se(b); b + tα / 2;n− 2 se(b))

11
Regiunea corespunzătoare intervalului de încredere 100(1 − α )% este cunoscută ca regiunea de
acceptate a ipotezei nule, iar aria din afara acestui interval reprezintă regiunea critică, de
respingere, a ipotezei nule. Ştim că o statistică este semnificativă dacă valoarea statisticii
testului cade în regiunea critică.
Regula de decizie este: dacă β din ipoteza H 0 se află în afara intervalului de încredere construit
pentru parametrul pantă, respingem H 0 , deci constatarea noastră este semnificativă. Deci se poate
testa dacă β = 0 privind la intervalul de încredere pentru β şi observând dacă acesta conŃine
valoarea zero. Dacă intervalul construit nu conŃine 0, atunci suntem încrezători că β ≠ 0 . Spunem că:
„X are putere explicativă semnificativă pentru Y” sau „ β este semnificativ diferit de zero” sau „ β
este semnificativ statistic”. Dacă intervalul construit conŃine pe zero, valoarea reală a coeficientului
respectiv poate fi zero. Se spune că „X nu are putere explicativă semnificativă pentru Y” sau „ β este
nesemnificativ statistic”. În mod uzual, coeficientul de încredere este de 95% iar nivelul de
semnificaŃie este de 5%.
Un interval de încredere 100(1 − α )% pentru parametrul de interceptare α este de forma:
(a − t critic se(a ); a + t critic se(a)) .
Mărimea celor două intervale de încredere este proporŃională cu eroarea standard a estimatorului. Cu
cât eroarea standard a estimatorului este mai mare, cu atât este mai mică precizia cu care este
estimată valoarea reală a parametrului necunoscut. În mod similar avem:
Testarea semnificaŃiei parametrului de interceptare α
H 0 :α = 0 (parametrul de interceptare α nu este semnificativ statistic)
H 1 :α = 0 (parametrul de interceptare α este semnificativ statistic).
a
Sub ipoteza nulă statistica: tˆa = tˆαˆ = ~ t n − 2 deci urmează o distribuŃie Student cu (n-2) grade de
se( a )
libertate.
Regiunea critică este Rc :| t calc |> t critic
Avem t critic = tα / 2 ; n − 2 . Dacă | t calc |> t critic atunci respingem H 0 la un nivel de semnificaŃie de α % şi
acceptăm H1, deci parametrul de interceptare α este semnificativ statistic.
Dacă | t calc |< t critic atunci acceptăm H 0 la un nivel de semnificaŃie de α % , deci parametrul de
interceptare α nu este semnificativ statistic.
Testarea semnificaŃiei parametrului σ 2
Aceasta se bazează pe o statistică ce urmează o distribuŃie hi-pătrat cu ( n − 2) grade de libertate. Se
aplică testul χ 2 bilateral pentru a verifica ipoteza H 0 : σ 2 = σ 02 , contra alternativei H 1 : σ 2 ≠ σ 02 , unde
σ 02 este valoarea lui σ 2 sub H 0 . Se consideră statistica:
( n − 2)σˆ 2
U obs = ~ χ n2− 2 .
σ2
Regula de decizie este: dacă U obs > χ α2 / 2 sau U obs < χ 12−α / 2 respingem H 0 .
Un interval de încredere 100(1 − α )% pentru parametrul σ 2 este de forma:
 ( n − 2)σˆ 2 ( n − 2)σˆ 2 
 ; 
 χ2 χ 12−α / 2 
 α /2 
3.1.7 Calcularea raportului de corelaŃie (R), a coeficientului de determinaŃie (R2) şi testarea
semnificaŃiei acestora
Raportul de corelaŃie este un indicator relativ care se utilizează pentru:
- măsurarea intensităŃii legăturii dintre variabile
- validarea modelelor de regresie

12
∑ ( yˆ i − y ) ∑ ( yi − yˆ i )
2 2
SSR SSE
R= = sau R = 1 − = 1 −
∑ ( yi − y ) ∑ ( yi − y )
2 2
SST SST
0 ≤ R ≤1
Dacă R = 0 , nu există legătură între variabile.
Dacă R = 1 , valorile observate se situează chiar pe dreapta de regresie estimată. Există o legătură
perfectă între cele două variabile analizate.
Valorile apropiate de valoarea 1 indică o legătură puternică între variabile.
Obs: Raportul de corelaŃie se calculează indiferent de forma legăturii (liniară sau neliniară).
Coeficientul de determinaŃie este definit ca raportul dintre variaŃia valorilor lui Y, explicată prin
funcŃia de regresie şi variaŃia totală a valorilor variabilei Y.
SSR ∑ ( yˆ i − y ) 2 S Y2ˆ ∆2Y | X
R2 = = = = 2
SST ∑ ( yi − y ) 2 S Y2 ∆Y
Interpretarea coeficientului de determinaŃie.
Coeficientul de determinaŃie arată proporŃia din variaŃia totală a variabilei dependente Y,
explicată de variaŃia variabilei independente X, deci prin modelul de regresie estimat. Cu alte
cuvinte, 100 R 2 este procentul din variaŃia valorilor lui Y care este explicat prin variabila exogenă X.
Obs: Dacă modelul nu are termen liber (constant), R2 nu mai are semnificaŃia de proporŃie.
∑ ( yi − yˆ i )
2 2
SSE ∑ ei
R2 = 1− = 1− 1 −
∑ ( yi − y ) ∑ ( yi − y )
2 2
SST
∑ ei este o măsură a unei ajustări greşite. Dacă are o valoare mică, atunci potrivirea modelului cu
2

datele de observaŃie este bună şi R 2 este mare.


Deoarece MCMMP minimizează varianŃa reziduurilor (erorilor estimate), ea minimizează R2 prin
construcŃie.
0 ≤ R2 ≤1
R 2 = 0 dacă b = 0 , deci dacă dreapta de regresie estimată este o dreaptă orizontală. În acest caz
variabila X nu are putere explicativă.
R 2 = 1 dacă toate punctele observate ( xi , y i ) , se află pe o dreaptă. În acest caz erorile vor fi 0.
Cu cât este mai mare valoarea lui R2, cu atât mai bine explică funcŃia de regresie estimată valorile
observate.
Testarea semnificaŃiei Raportului de corelaŃie
Cele două ipoteze ale testului sunt:
H 0 : R 2 = 0 ( modelul nu este corect specificat, adică var. X nu are efect asupra variabilei Y)
H 1 : R 2 > 0 (modelul este corect specificat, adică variabila X are efect asupra variabilei Y)
R2
F= (n − 2) ~ Fα ;1, n− 2
1− R2
Rc : Fcalc > Fα ;1, n −2
Se compară valoarea calculată a lui F cu valoarea critică obŃinută din tabelele repartiŃiei F. Se aplică
regula de decizie: Dacă Fcalc > Fα ;1,n − 2 se respinge ipoteza nulă H0 şi se acceptă H1, adică modelul este
corect specificat.
Obs: Coeficientul de determinaŃie R 2 (R-squared) nu apare ajustat cu gradele de libertate. Dacă
SST SSE SSE
utilizăm estimatorii nedeplasaŃi S Y2 = şi s e2 = = , obŃinem R 2 ajustat, notat
n −1 n − 2 n − k −1
SSE /( n − k − 1)
R 2 (Adjusted R-squared). R 2 = 1 −
SST /( n − 1)

13
R 2 este folosit pentru a evidenŃia numărul de variabile explicative (k) şi numărul de observaŃii (n), pe
baza cărora au fost estimaŃi parametrii modelului.
Valoarea lui R 2 este totdeauna mai mică decât a lui R 2 ( R 2 < R 2 ).
O problemă majoră privind statistica R-squared, ca o măsură a potrivirii modelului la datele
disponibile, se referă la faptul că valoarea lui R-squared nu scade niciodată, ci creşte continuu, pe
măsură ce se adaugă mai mulŃi regresori. Astfel, dacă se includ atât de mulŃi regresori independenŃi,
câte observaŃii sunt în eşantion, se poate obŃine o statistică egală cu 1. Statistica Adjusted R-squared
penalizează adăugarea de regresori care nu contribuie la puterea explicativă a modelului. Astfel,
această statistică poate scădea pe măsură ce sunt adăugaŃi regresori, iar pentru modelele pentru care
potrivirea la date nu este foarte bună, poate fi chiar negativă.
Obs: Raportul de corelaŃie R poate fi calculat numai după estimarea parametrilor modelului de
regresie. În output-ul obŃinut în Excel apare ca „Multiple R”.
Coeficientul de corelaŃie poate fi utilizat pentru a măsura intensitatea legăturii dintre variabile înainte
de a construi modelul de regresie.
3.1.8 Calcularea coeficientului de corelaŃie liniară şi testarea semnificaŃiei acestuia
Coeficientul de corelaŃie de selecŃie este un indicator ce caracterizează direcŃia şi intensitatea
legăturii liniare dintre două variabile. Semnul acestui coeficient indică direcŃia legături iar valoarea
sa indică intensitatea legăturii.
cov( x, y ) S xy ∑ ( xi − x )( yi − y )
rxy = = = sau
SxSy SxSy 2
[
∑ ( xi − x ) ∑ ( yi − y )
2
][ ]
n ∑ xi y i − ∑ xi ∑ y i
rxy =
[n∑ x 2
i
2
][
− (∑ xi ) n ∑ yi2 − (∑ yi )
2
]
Valoarea coeficientului de corelaŃie este între -1 şi 1.
O valoare apropiată de 1 arată o legătură directă puternică
O valoare apropiată de -1 arată o legătură inversă puternică.
∑ ( xi − x )( yi − y ) S xy S
b= = 2 rezultă rxy = b x .
∑ ( xi − x )
2
Sx Sy
Rezultă că rxy are acelaşi semn cu coeficientul pantă estimat, b .
S x2
În cazul corelaŃiei liniare simple avem R 2 = b 2 = r2.
S Y2
1− r2
Estimatorul coeficientului de corelaŃie este de medie r şi abatere medie pătratică s r = .
n−2
Testarea semnificaŃiei coeficientului de corelaŃie se face utilizând testul t. Se testează ipotezele:
H 0 : ρ = 0 ( coeficientul de corelaŃie ρ nu este semnificativ statistic)
(între cele două variabile nu există o dependenŃă liniară semnificativă)
H 1 : ρ ≠ 0 ( coeficientul de corelaŃie ρ este semnificativ statistic).
Statistica testului este:
rxy − 0 rxy
t= = ⋅ n − 2 ~ S n−2 .
se(rxy ) 1 − rxy2
Rc : t calc < −tα / 2,n − 2 sau t calc > tα / 2,n − 2
Dacă t calc ∈ Rc , respingem H 0 şi acceptăm H 1 , adică ρ este semnificativ statistic.
Obs: În cazul unei dependenŃe liniare simple semnificative , avem R 2 = r 2 şi atunci avem:
r2 R2
t =
2
(n − 2) = (n − 2) = F
1− r 2 1− R2
14
3.1.9 Previzionarea (PredicŃia) valorilor variabilei dependente pe baza modelului unifactorial
de regresie liniară
Se pot obŃine previziuni punctuale sau previziuni pe intervale de încredere.
Prin previziunea punctuală se estimează o singură valoare a variabilei dependente Y pentru o
valoare cunoscută a variabilei independente X.
Presupunem că x 0 este o valoare cunoscută a regresorului X şi suntem interesaŃi de a prognoza y 0 ,
adică valoarea variabilei Y, asociată cu x 0 .
Este evident că, dacă X ia valoarea x 0 , valoarea previzionată pentru y 0 este yˆ 0 = a + bx0 .
Prin previziunea pe interval de încredere se estimează un interval de încredere pentru Y, pentru o
valoare cunoscută a lui X. Se pot face două feluri de predicŃii: pentru o valoare individuală y 0 , sau
pentru valoarea medie condiŃionată a lui Y.
a) Previziunea mediei condiŃionate
Presupunem că X ia valoarea x 0 . Dorim să previzionăm media condiŃionată E (Y | X = x0 ) . Ştim că
E (Y | X = x0 ) = α + β x0 .
Fie yˆ 0 = a + bx0 estimatorul mediei condiŃionate a predicŃiei lui Y, E (Y | X = x0 ) .
Media condiŃionată a predicŃiei lui y când x = x0 este
E ( yˆ | x = x0 ) = E (a + b x 0 ) = E (a) + E (b) x0 = α + β x0 = E ( y | x = x0 ) . Rezultă că yˆ 0 = a + bx0 este un
predictor condiŃionat nedeplasat al mediei condiŃionate E (Y | X = x0 ) = α + β x0 .
Deşi teoria economică arată că, sub ipotezele modelului clasic de regresie, yˆ 0 = a + bx0 este un
estimator nedeplasat al valorii medii reale (adică un punct de pe dreapta de regresie a populaŃiei),
este puŃin probabil să avem egalitate. Există o eroare de previziune, e0 .
Determinarea unui Interval de încredere pentru predicŃia valorii medii
Pentru a construi un Interval de Încredere pentru previzionare, este necesar să cunoaştem distribuŃia
estimatorului, precum şi media şi varianŃa acestuia.
Teoremă: Dacă x0 este fixat şi eroarea aleatoare ε are o distribuŃie normală cu media 0 şi varianŃa
σ 2 , atunci estimatorul (predictorul) yˆ 0 = a + bx0 are o distribuŃie normală, cu media E ( yˆ 0 ) = α + βx0
1 ( x 0 − x ) 2 
şi varianŃa Var ( yˆ 0 ) = σ 2  +

n ∑ ( xi − x ) 2 
 1 ( x 0 − x ) 2  
Avem deci: yˆ 0 ~ N  α + β x 0 , σ 2  + .
 n ∑ ( xi − x ) 2  
 
VarianŃa σ 2 este necunoscută şi se aproximează prin estimatorul nedeplasat s e2 .
1 ( x0 − x ) 2
EstimaŃia erorii standard a estimatorului ŷ 0 va fi se( yˆ 0 ) = se ⋅ + .
n ∑ ( xi − x ) 2
yˆ 0 − (α + β x0 )
Statistica t = are o distribuŃie Student cu ( n − 2) grade de libertate.
se( yˆ 0 )
Putem folosi distribuŃia Student pentru a determina un interval de încredere 100 (1 − α )% pentru
E (Y | x0 ) = α + βx0 , de forma:
yˆ 0 − t α ⋅ se( yˆ 0 ) ≤ E ( y0 | x0 ) = α + β x0 ≤ yˆ 0 + t α ⋅ se( yˆ 0 ) ,
,n−2 ,n − 2
2 2
unde tα / 2,n − 2 este valoarea critică din distribuŃia Student cu (n − 2) grade de libertate.
b) Previziunea unei valori individuale. Presupunem că X ia valoarea x 0 .
Dorim să previzionăm o valoare a lui Y, adică y 0 = (Y | X = x 0 ) . Avem y 0 = α + β x0 + ε 0 .
15
yˆ 0 = a + bx0 este predictor punctual şi pentru y 0 = α + β x0 + ε 0 .
Determinarea unui Interval de încredere pentru predicŃia individuală
Dorim să obŃinem y0 = α + βx0 + ε 0 , dar prognozăm aceasta ca fiind yˆ 0 = a + bx0 . y 0 diferă de
E ( y0 ) prin ε 0 . Eroarea de predicŃie sau eroarea de prognoză este:
e0 = y0 − yˆ 0 = (α − a) + ( β − b) x0 + ε 0 .
Rezultă că E (e0 ) = E ( y 0 − yˆ 0 ) = 0 .
Teoremă: Dacă x 0 este fixat şi eroarea aleatoare ε are o distribuŃie normală cu media 0 şi varianŃa
σ 2 , atunci eroarea de previziune e0 = y 0 − ŷ 0 are o distribuŃie normală, cu media 0 şi varianŃa
 1 ( x0 − x ) 2 
Var ( y 0 − yˆ 0 ) = σ 2 1 + + 
 n ∑ ( xi − x ) 2 
 
  1 ( x0 − x ) 2  
Avem deci: y 0 − yˆ 0 ~ N  0,σ 2 1 + + .
  n ∑ (x − x)2 
  i  
VarianŃa σ 2 este necunoscută şi se aproximează prin estimatorul nedeplasat s e2
1 ( x0 − x ) 2
EstimaŃia erorii standard: se( y 0 − yˆ 0 ) = s e ⋅ 1 + + .
n ∑ ( xi − x ) 2
yˆ 0 − y 0
Statistica t = are o distribuŃie Student cu ( n − 2) grade de libertate.
se( y 0 − yˆ 0 )
Pentru un nivel de semnificaŃie fixat, (de cele mai multe ori α = 0,05 ), se poate construi un interval
de încredere (1 − α )% pentru y0 , de forma:
yˆ 0 − t α ⋅ se( y 0 − yˆ 0 ) ≤ y 0 ≤ yˆ 0 + t α ⋅ se( y 0 − yˆ 0 )
,n−2 ,n−2
2 2
DiferenŃa nu este între predictorul individual şi predictorul valorii medii ci între varianŃele ataşate
acestora. Trebuie remarcat faptul că se obŃine un interval de lungime mai mare pentru y 0 decât
pentru E ( y 0 ) . Banda de încredere este mai mică atunci când x 0 se apropie de media de selecŃie x .
Intervalul de Încredere are o lungime cu atât mai mică cu cât: valoarea lui s e este mai mică; valoarea
lui n este mai mare; x 0 este mai aproape de x ; variaŃia ∑ ( xi − x ) 2 este mai mare.
(Figura cu benzile de încredere în cele două cazuri)
3.1.10. Raportarea rezultatelor analizei de regresie
În general, rezultatele analizei de regresie se prezită în diferite moduri. Pentru un model de regresie
liniară simplă se scrie ecuaŃia de regresie estimată (aici este cazul unui eşantion de volum 10), plus
alte rezultate importante.
Prezentarea rezultatelor obŃinute se poate face sub forma următoare:
ŷi = 31,0537 + 0,4626 × xi
se = (22,2075) (0,0784) R 2 = 0,8132
t = (1,3986) (5,9008) df = 8
p = (0,1994) (0,0003) F = 34,8196
Sub ecuaŃia de regresie estimată apar erorile standard ale coeficienŃilor de regresie, pe rândul următor
apar valorile estimate ale rapoartelor t, iar pe ultima linie sunt valorile probabilităŃilor asociate cu
valorile estimate ale coeficienŃilor de regresie. În partea din drepta apare coeficientul de
determinaŃie, numărul gradelor de libertate şi valoarea statisticii F. Pentru un număr de grade de
libertate df = 8 , probabilitatea de a obŃine o valoare egală cu 1,3986 sau mai mare este de 0,19 iar
probabilitatea de a obŃine o valoare egală cu 5,9008 sau mai mare este de 0,0003. Astfel, sub ipoteza
nulă că parametrul de interceptare este zero, p-value de a obŃine o valoare t de 1,3986 este de 0,19.
16
Rezultă că nu putem respinge ipoteza nulă. EstimaŃia parametrului de interceptare nu este statistic
semnificativă. Dacă se calculează intervalul de încredere pentru acest parametru, se observă că acesta
nu conŃine valoarea zero. De asemenea, sub ipoteza nulă că parametrul pantă este zero, p-value de a
obŃine o valoare t de 5,9008 este de 0,0003. Astfel, respingem ipoteza nulă că panta dreptei de
regresie estimate este zero. Panta este statistic semnificativă. Se obŃine că nici intervalul de încredere
construit pentru acest parametru nu conŃine valoarea zero.
3.1.11. Regresia prin origine
Uneori, modelul de regresie poate să nu conŃină termen constant: yi = β xi + ε i , i = 1,2,..., n.
EcuaŃia de regresie estimată, în cazul regresiei prin origine este yˆ = βˆx , i = 1,2,..., n . În acest caz
i i

∑ ei nu trebuie să fie zero iar ∑ e = ∑ ( yi − βˆxi ) . Prin aplicarea MCMMP se obŃin relaŃiile:
2 2
i

∑ xi y i ∑ xi ( β xi + ε i ) ∑ xi ε i
βˆ = , βˆ = =β + ,
∑ xi ∑ xi ∑ xi
2 2 2

σ2 2
∑ ei
Var ( βˆ ) = , σˆ 2
= s 2
e =
∑ xi
2
n −1
Pentru modelul de regresie fără constantă coeficientul de determinaŃie poate fi negativ. Dacă nu
există motive teoretice, este mai bine ca modelul să conŃină explicit un parametru de interceptare.
3.1.12. Analiza reziduurilor.
În aproape orice analiză de regresie este util un grafic al reziduurilor (pe axa verticală) raportate la
valorile ajustate ale variabilei dependente (pe axa orizontală). O bună aproximare are nu numai
valori mici pentru reziduuri dar şi o reprezentare grafică a acestora în jurul axei orizontale fără un
model aparent, specific. Un grafic al reziduurilor care arată un anumit model cum ar fi o mulŃime de
reziduuri pozitive urmate de o mulŃime de reziduuri negative, indică o violare a uneia din ipotezele
impuse modelului de regresie sau indică folosirea unei forme funcŃionale greşite.
Testul Jarque-Bera (JB) privind normalitatea reziduurilor (erorilor estimate)
Este un test asimptotic, bazat pe reziduurile obŃinute în urma estimării modelului de regresie prin
MCMMP.
Acest test calculează mai întâi coeficientul de asimetrie şi coeficientul de boltire (aplatizare) pentru
reziduurile obŃinute.
Pentru o variabilă X se defineşte µ k = E ( X − E ( X )) k ca moment centrat de ordinul k.
µ3 µ
Skewness S = şi Kurtosis K = 42 . DistribuŃia Normală are S=0 şi K=3. (K-3) este excesul de
µ 23 / 2 µ2
boltire. Ipotezele de testat sunt:
H0: S = 0 şi K = 3 (Reziduurile sunt distribuite normal)
H1: Reziduurile nu sunt distribuite normal
 S 2 ( K − 3) 2 
Statistica testului este JB = n + 
 6 24 
Sub ipoteza nulă, că reziduurile sunt normal distribuite, Jarque şi Bera au arătat că, pentru eşantioane
mari, statistica JB urmează o distribuŃie χ 22 .
Dacă, într-o aplicaŃie, probabilitatea asociată statisticii calculate este suficient de mică ( < α ) putem
respinge ipoteza nulă, că reziduurile sunt normal distribuite.
Dacă probabilitatea asociată statisticii calculate este mare ( > α ), asimptotic, nu respingem ipoteza de
normalitate.
3.1.13. Estimarea parametrilor prin metoda verosimilităŃii maxime
Metoda verosimilităŃii maxime este o metodă de estimare punctuală a parametrilor modelului de
regresie, cu proprietăŃi teoretice mai puternice decât MCMMP. Dacă modelul de regresie liniară
satisface ipotezele I1-I6, atunci estimatorii obŃinuŃi prin MCMMP sunt estimatori de maximă
17
verosimilitate. Ipoteza esenŃială este I6, care afirmă că variabilele de perturbaŃie ε i sunt distribuite
normal, având media zero şi varianŃa constantă σ 2 . Metoda verosimilităŃii maxime (Maximum
Likelihood-ML) maximizează funcŃia de verosimilitate a variabilei Y (distribuŃia comună a celor n
observaŃii). Aceasta depinde de parametrii modelului α şi β dar şi de varianŃa σ 2 .
Dorim să determinăm valorile lui α şi β care sunt mai probabile a fi generat selecŃia considerată.
FuncŃia densitate de probabilitate a fiecărei variabile poate fi scrisă ca fiind:
12
 1   1 
f ( yi − α − β xi ) =  2 
exp − ( yi − α − β xi ) 2  . Având o selecŃie de dimensiune n, funcŃia
 2πσ   2σ 2

densitate de probabilitate comună este produsul funcŃiilor densitate individuale. Când valorile
( y i , xi ) sunt cunoscute dar parametrii α , β şi σ 2 sunt necunoscuŃi, această funcŃie se numeşte
funcŃie de verosimilitate şi se notează L(α , β , σ 2 | y, x) sau L(α , β , σ 2 ) . Atunci
n 2
 1   1 ∑ ( y i − α − β xi ) 2 
L (α , β , σ ) = 
2
 exp −  . Metoda verosimilităŃii maxime constă în
 2πσ  σ2
2
 2 
estimarea parametrilor necunoscuŃi astfel încât probabilitatea de a obŃine datele observate să fie
maximă. Pentru a determina maximul funcŃiei de verosimilitate este mai convenabil să se considere
logaritmul natural al acestei funcŃii. Avem:
n n 1 ∑ ( y i − α − β xi ) 2
ln L = − ln σ 2 − ln(2π ) −
2 2 2 σ2
Scriind condiŃiile de ordinul întâi pentru această funcŃie obŃinem estimatorii de maximă
~
verosimilitate (numiŃi uneori şi estimatori ML) α~ , β şi σ~ 2 pentru parametrii α , β şi σ 2 .
DiferenŃiem această funcŃie în raport cu parametrii necunoscuŃi. Observăm că doar termenul final
conŃine α şi β , astfel că, prin diferenŃiere, ceilalŃi termeni dispar. Găsirea estimaŃiilor de maximă
verosimilitate pentru α şi β este aceeaşi cu maximizarea termenului final sau minimizarea
1 ∑ ( yi − α − β xi )
2
termenului . În final, obŃinem aceeaşi estimatori ca cei din MCMMP. Rezultă
2 σ2
că, în cazul modelului liniar, estimaŃiile obŃinute prin cele două metode sunt echivalente, adică
~
αˆ = α~ , βˆ = β . Totuşi, estimaŃia lui σ 2 nu este aceeaşi cu estimaŃia obŃinută prin MCMMP. Pentru
a vedea acest lucru diferenŃiem ln L în raport cu acest parametru şi egalăm cu zero. Avem:
n ∑ ( yi − α − β xi ) ∑ ( yi − α − β xi ) 2 ∑ εˆi
2 2
∂ ln L ~ n−2 2
=− + = 0 ⇒σ = 2
= = s .
∂σ σ σ 3
n n n
În concluzie, estimatorii pentru parametrii α şi β coincid cu estimatorii obŃinuŃi prin MCMMP, în
timp ce σ~ 2 diferă de s 2 numai la numitor. σ~ 2 este un estimator deplasat în selecŃii finite dar este
asimptotic nedeplasat deci un estimator consistent pentru parametrul σ 2 . Se poate arăta că, în
ipoteza I6, estimatorii pentru parametrii α , β şi σ 2 , obŃinuŃi prin MCMMP, sunt estimatori
nedeplasaŃi şi de varianŃă minimă. Acest rezultat este mai puternic decât cel din teorema Gauss-
Markov, deoarece include toŃi estimatorii nedeplasaŃi nu numai pe cei liniari.
3.1.14. Forme funcŃionale ale modelelor de regresie
Fenomenele economice, cuantificate prin intermediul variabilelor economice, evoluează după
traiectorii liniare sau neliniare.
Când estimăm modele de regresie, nu avem totdeauna informaŃii din teoria economică despre forma
funcŃiei de regresie. În analiza statistică standard, relaŃia dintre variabila dependentă şi variabilele
independente este considerată liniară. Aceasta înseamnă că rata de modificare a variabilei
dependente, determinată de modificarea variabilei independente nu variază în funcŃie de valorile
variabilei independente. Se utilizează o formă funcŃională liniară pentru simplitatea estimării şi
18
pentru simplitatea interpretării coeficienŃilor. Pentru modelul liniar yi = α + β xi + ε i , când x creşte
cu o unitate, y va creşte sau va scădea, în medie, cu β unităŃi. Ipoteza de liniaritate în variabile nu
este una restrictivă deoarece variabila dependentă şi variabilele independente pot fi transformări ale
variabilelor ce nu respectă condiŃia de liniaritate. Dezavantajul utilizării unei forme funcŃionale
liniare este tot simplitatea, pentru că cele mai multe relaŃii economice nu sunt liniare.
Modelul liniar este preferat datorită simplităŃii sale, chiar dacă ar fi mai potrivită o funcŃie neliniară.
Deoarece teoria economică nu precizează forma funcŃiei care trebuie să definească modelul de
regresie, se consideră că este potrivită alegerea unei forme liniare între variabilele economice dacă
dY
raportul β = este constant.
dX
În cazul modelului de regresie liniară putem calcula elasticitatea lui Y în raport cu variabila
dY X X
explicativă şi parametrul estimat: EY | X = ⋅ =β⋅
dX Y Y
Ipoteza care ne permite estimarea parametrilor unui model prin MCMMP este liniaritatea în raport cu
parametrii modelului, nu liniaritatea în variabile.
Modelele neliniare în parametrii modelului se estimează prin metode speciale, mai complicate.
Într-un model de regresie neliniară datele de observaŃie sunt modelate printr-o funcŃie care este o
combinaŃie neliniară de parametrii modelului şi de una sau mai multe variabile explicative.
Modelele de regresie neliniare pot fi:
a) modele neliniare în variabilele explicative, dar liniare în parametri;
b) modele neliniare în parametri.
Pentru modelele neliniare în parametri, datele sunt ajustate printr-o metodă de aproximaŃii succesive.
Ipoteza care ne permite estimarea prin MCMMP este liniaritatea în parametri şi nu liniaritatea în
variabile. Există metode de estimare şi pentru relaŃii neliniare, dar acestea nu sunt simple, aşa că
încercăm să găsim o cale de a transforma astfel de relaŃii pentru a le face liniare în parametri.
Transformările liniare nu afectează forma distribuŃiei. Transformarea xi∗ = α + β xi va produce
observaŃiile x1∗ , x 2∗ ,..., x n∗ . În contextul analizei de regresie, aceasta înseamnă că se vor schimba
coeficienŃii pantă şi de interceptare, dar coeficientul de determinaŃie, erorile standard şi rapoartele t
vor rămâne aceleaşi.
Pentru a schimba forma unei distribuŃii se folosesc transformările neliniare. De exemplu,
folosim funcŃia putere, sau logaritm sau rădăcina pătrată. Unul din motivele utilizării transformărilor
neliniare este că poate fi redusă asimetria. Numărul de valori aberante (puncte care se află la distanŃă
mare de curba ajustată) poate fi redus printr-o transformare neliniară. Un alt motiv ar fi faptul că
aproximarea funcŃiei de regresie a populaŃiei printr-o funcŃie liniară poate fi bună pentru unele
variabile şi eronată pentru altele.
Modele neliniare care pot fi transformate în modele liniare prin logaritmare
1) Modelul dublu logaritmic sau log-log ( estimează elasticitatea)
Modelul log-log presupune că elasticitatea lui y în raport cu x rămâne constantă şi este folosit atunci
când suntem interesaŃi de estimarea unei elasticităŃi. Forma funcŃională logaritmică se foloseşte
pentru a descrie funcŃii de cerere, funcŃii de cost, funcŃii de producŃie sau alte funcŃii descrise cu
funcŃia Cobb-Douglas.
Considerăm modelul y i = A ⋅ xiβ ⋅ e ε i , unde Y este cantitatea cerută şi X este preŃul. Calculăm
dy
= Aβ xi( β −1) . Se vede că rata de modificare a lui Y în raport cu X nu este independentă de X, deci
dx
nu este constantă. Modelul este neliniar în variabila X.
Prin logaritmare obŃinem Modelul dublu logaritmic:
ln y i = α + β ln xi + ε i unde α = ln A .

19
yi∗ = α + βxi∗ + ε i .
După crearea noilor variabile ln y i , ln xi , regresia este liniară. Dacă sunt îndeplinite ipotezele
modelului clasic, modelul transformat poate fi estimat prin MCMMP, iar estimatorii astfel obŃinuŃi
sunt BLUE. Coeficientul β are interpretarea unei elasticităŃi:
d ln y i modificare relativa in regresandul y
β= = = elasticitatea lui Y în raport cu X
d ln xi modificarea relativa in regresorul x
∂ ln y i ∂y i y i ∆Y X X
β= = : . EY | X = ⋅ = ( slope) ⋅
∂ ln xi ∂xi xi ∆X Y Y
Obs: Interpretăm logaritmii ca schimbări proporŃionale sau procentaje.
Interpretarea coeficientul pantă β : atunci când X creşte cu 1%, Y creşte sau scade, în medie, cu
β %, menŃinând celelalte condiŃii nemodificate.
În exemplul de mai sus, coeficientul pantă β măsoară elasticitatea preŃului cererii.
În general, elasticitatea şi coeficientul pantă sunt concepte diferite. Numai pentru modelul log-liniar
cele două concepte sunt identice.
Deoarece funcŃia de regresie pentru modelul log-liniar este o dreaptă, panta sa ( β ) este constantă.
Deoarece coef. pantă =coef. de elasticitate, pentru acest model, elasticitatea este constantă. Nu are
importanŃă pentru ce valori ale lui X este calculată această elasticitate.
Modelul log-liniar se numeşte şi model cu elasticitate constantă.
2)Modelul lin-log are forma: y i = α + β ln xi + ε i .
modificare absoluta in regresandul y
β= .
modificarea relativa in regresorul x
Interpretarea coeficientului pantă: Atunci când X creşte cu 1%, Y creşte sau scade, în medie, cu
β / 100 unităŃi ( 0,01β unităŃi), menŃinând celelalte condiŃii nemodificate.
3)Modelul log-lin are forma ln y i = α + β xi + ε i .
Coeficientul pantă măsoară modificarea relativă în y, pentru o modificare absolută în valoarea
regresorului.
modificarea relativa in regresandul y d (ln y ) dy 1
β= , sau β = = ⋅ .
modificarea absoluta in regresorul x dx dx y
Interpretarea coeficientul pantă β : atunci când X creşte cu o unitate, Y creşte sau scade, în medie,
cu 100 β %, menŃinând celelalte condiŃii nemodificate.
În cazul în care variabila x este timpul, modelul descrie rata de creştere (dacă β > 0 ) sau de
descreştere (dacă β < 0 ). Această proprietate este aplicabilă relaŃiei dintre salarii şi anii de educaŃie,
care este aproape totdeauna exprimată în forma ln Sal = α + β ⋅ Ed + ε . Aceasta înseamnă că, în caz
că la anii de educaŃie ai unei persoane se adaugă un an, salariul va creşte, în medie, cu 100 β % .
Modelul exponenŃial
Modelul exponenŃial cu parametrii α şi β este de forma y i = α ⋅ β xi ⋅ ε i , unde α , β ∈ R+∗ . Se
utilizează atunci când datele de observaŃie, reprezentate grafic, sunt orientate după o curbă
exponenŃială, mai concret, în cazul în care valorile variabilei explicative cresc în progresie aritmetică
iar valorile variabilei dependente cresc în progresie geometrică. Parametrul β se dovedeşte a defini
rata de creştere sau de descreştere a variabilei dependente în funcŃie de variabila independentă. Dacă
β > 1 , atunci variabila dependentă y are o evoluŃie crescătoare. Dacă β ∈ (0,1) , atunci variabila
dependentă y are o evoluŃie descrescătoare.
Modelul reciproc sau hiperbolic

20
1
Modelul hiperbolic are forma yi = α + β + ε i , este neliniar în variabile şi liniar în parametrii săi.
xi
Acest model poate fi estimat aplicând MCMMP unei regresii a variabilei y în raport cu o constantă şi
o variabilă x∗ = 1 / x . Transformarea inversă face din numerele foarte mici, numere foarte mari, iar
din numerele foarte mari, numere foarte mici. Într-un model reciproc, când x creşte spre infinit,
termenul β / x se apropie de zero, iar y tinde asimptotic către α .
∂y β
Pentru interpretarea coeficientului pantă β , calculăm i = − 2 . Dacă β > 0 , caracteristica y este
∂xi xi
descrescătoare, iar dacă β este negativ, caracteristica y este crescătoare. Indiferent de semnul lui β ,
avem lim y ( x) = α .
x →∞
Modelul hiperbolic se recomandă în situaŃiile când o caracteristică y scade sau creşte asimptotic spre
o anumită valoare reală. Modelul reciproc de regresie este utilizat pentru a cerceta legătura dintre rata
şomajului şi rata inflaŃiei. Curba de regresie determinată pe baza seriilor de date pentru cele două
variabile este numită curba Phillips.
Pentru a studia dependenŃa dintre consumul unui produs şi veniturile disponibile, se foloseşte un
model reciproc cu panta curbei de regresie negativă. Punctul de intersecŃie a curbei cu axa absciselor
este x = − β / α şi indică venitul minim care permite achiziŃionarea produsului de consum respectiv.
Modelul parabolic
Modelul parabolic este folosit în situaŃiile în care ritmul de evoluŃie al unei caracteristici este
reprezentat de o funcŃie liniară cu panta egală cu constanta a . Acest model poate fi descris printr-o
relaŃie de forma: yi = c + b xi + a xi2 + ε i , unde constantele a, b, c ∈ R . Efectul lui x asupra lui y
depinde de valoarea lui x. Când x creşte cu o unitate, y creşte cu b + 2a x unităŃi. Modelele cu funcŃii
pătratice sunt potrivite pentru a capta efectele marginale de creştere sau descreştere. Există totdeauna
o valoare pozitivă a lui x, unde efectul lui asupra lui y este zero. Înainte de acest punct, x are efect
pozitiv asupra lui y, iar după acest punct, x are efect negativ asupra lui y. În practică poate fi
important să se cunoască care este acest punct de întoarcere.
Modelul parabolic este utilizat pentru a descrie relaŃia dintre veniturile guvernamentale şi rata de
impozitare.
Modelul polinomial
Modelul polinomial este descris printr-o funcŃie polinomială de ordinul k:
yt = β 0 + β1 xt + β 2 xt + L + β k xt + ε t ,
2 k

unde xt , t = 1,2,..., n sunt valorile unei variabile independente. Este folosit pentru a reprezenta o
relaŃie despre care se ştie că este puŃin probabil a fi liniară. Modelul este neliniar în raport cu
variabilele, dar este liniar în raport cu parametrii modelului.
Pentru ca modelul să devină liniar şi în raport cu variabilele şi să se poată aplica MCMMP se
utilizează transformările: x = z1 , x 2 = z2 , x 3 = z3 ,... .
Modelele de regresie care conŃin funcŃii de producŃie neliniare continue pot fi transformate în modele
polinomiale de ordinul k cu ajutorul seriilor Taylor.
Cel mai cunoscut exemplu de utilizare a modelului polinomial este modelul prin care se defineşte
costul unui proces de producŃie y, în funcŃie de cantitatea producŃiei, x, realizată într-o anumită
perioadă: yt = β 0 + β1 xt + β 2 xt2 + β 3 xt3 + ε t . łinând seama de relaŃia anterioară, se definesc
următoarele costuri ale procesului de producŃie y:
-costul mediu al producŃiei: ct = yt / xt = β 0 / xt + ( β1 + β 2 xt + β3 xt2 ) + ηt .
-costul mediu fix al producŃiei, cft , este reprezentat de primul termen al relaŃiei prin care se defineşte
costul mediu.

21
-costul mediu variabil este repretentat de al doilea termen al relaŃiei prin care se defineşte costul
mediu: cvt = ct − cf t = β1 + β 2 xt + β 3 xt2 .
-costul marginal al producŃiei: cmt = ∂yt / ∂xt = β1 + 2 β 2 xt + 3β 3 xt2 .
Modelul multiplicativ
Forma generală a modelului multiplicativ este dată de relaŃia:
yt = α ⋅ x1βt 1 ⋅ x2βt2 ⋅ L ⋅ xktβ k ⋅ eε t ,
unde ε t este o variabilă de perturbaŃie ce urmează o distribuŃie normală cu media zero şi varianŃa
σ 2 . Prin logaritmarea modelului multiplicativ se obŃine un model echivalent:
ln yt = ln α + β1 ln x1t + β 2 ln x2t + L + β k ln xkt + ε t
= β 0 + β1 z1t + β 2 z2t + L + β k zkt + ε t
CoeficienŃii de regresie reprezintă elasticităŃi:
∂y y ∂ ln yt
ej = t : t = = βj.
∂x jt x jt ∂ ln x jt
Un exemplu foarte cunoscut de model multifactorial neliniar este funcŃia de producŃie Coob-
Douglas, care este multiplicativă.
FuncŃia de producŃie Cobb-Douglas fără progres tehnic se reprezintă prin relaŃia: Yt = A K tα Lβt eε t ,
unde: Yt reprezintă producŃia sau costul producŃiei; K t reprezintă capitalul fix; Lt reprezintă forŃa de
muncă; A,α , β sunt parametri reali; ε t = este variabilă reziduală.
Parametrii α şi β reprezintă elasticităŃi parŃiale în raport cu fiecare factor de producŃie. Parametrul
α reprezintă elasticitatea parŃială a producŃiei în raport cu capitalul fix, adică:
∂Y Y ∂ ln Yt
eK = t : t = =α .
∂K t K t ∂ ln K t
Parametrul β reprezintă elasticitatea parŃială a producŃiei în raport cu forŃa de muncă.
∂Y Y ∂ ln Yt
eL = t : t = =β.
∂Lt Lt ∂ ln Lt
Elasticitatea scalei este reprezentată de suma celor două elasticităŃi, adică avem: e = eK + eL = α + β .
Atunci când avem α + β = 1 , procesul de producŃie este cu randament de scală constant. Dacă cei
doi factori de producŃie cresc, outputul creşte în aceeaşi proporŃie.
Atunci când avem α + β > 1 , procesul de producŃie este cu randament de scală crescător. Dacă cei
doi factori de producŃie cresc într-o anumită proporŃie, outputul va creşte de asemenea, dar într-o
proporŃie mai mare.
Atunci când avem α + β < 1 , procesul de producŃie este cu randament de scală descrescător. Dacă
cei doi factori de producŃie cresc într-o anumită proporŃie, outputul va creşte de asemenea, dar într-o
proporŃie mai mică.
Pentru estimarea parametrilor funcŃiei de producŃie Cobb-Douglas se liniarizează modelul prin
logaritmare. Se obŃine modelul logaritmic: ln Yt = ln A + α ln K t + β ln Lt + ε t . Parametrii modelului de
regresie se determină prin MCMMP.

3.2. Modelul multifactorial de regresie liniară


3.2.1. Modelul cu k variabile explicative
Modelul cu o singură variabilă explicativă nu este foarte adecvat în practică, dacă se Ńine seamă de
faptul că o variabilă economică depinde rareori de o singură variabilă. Analiza de regresie multiplă
ne permite să observăm şi să studiem mai mulŃi factori care afectează variabila dependentă y.

22
Modelul de regresie liniară multiplă este o generalizare a modelului de regresie liniară simplă.
Specificarea modelului econometric multifactorial se face pe baza teoriei economice. Forma generală
este: y = f ( x1 , x2 ,..., xk ) + ε . FuncŃia f exprimă dependenŃa variabilei explicate Y de variabilele
explicative x1 , x 2 ,..., x k , în condiŃiile în care sunt cunoscute valorile parametrilor. FuncŃia f poate
modela diferite relaŃii între variabila endogenă Y şi variabilele exogene x1 , x 2 ,..., x k , precum: relaŃii
de regresie, relaŃii de comportament, relaŃii tehnologice sau instituŃionale. În model pot fi incluse şi
variabile decalate sau întârziate, de tipul xt −1 .
Modelul de regresie liniară multiplă poate fi specificat sub forma:
y i = β 0 + β 1 xi1 + β 2 xi 2 + ... + β k xik + ε i , i = 1,2,..., n .
Modelul de regresie liniară multiplă este folosit pentru a studia dependenŃa dintre o variabilă
dependentă y şi k variabile independente x1 , x 2 ,..., x k , precum şi o variabilă de perturbaŃie ε .
y i = observaŃia cu numărul i asupra variabilei dependente y
xij = observaŃia cu numărul i asupra variabilei independente x j , j = 1,2,..., k .
β 0 = parametrul de interceptare
β1 , β 2 ,..., β k = coeficienŃi de regresie parŃiali sau coeficienŃi pantă.
Ei ne arată doar influenŃa parŃială a fiecărei variabile independente, atunci când influenŃa tuturor
celorlalte variabile independente este considerată constantă.
Coeficientul de regresie parŃial, β j , măsoară cu cât se modifică, în medie, valoarea variabilei
y, atunci când valoarea variabilei x j creşte cu o unitate, ceilalŃi factori rămânând constanŃi.
Variabila aleatoare ε i este variabila de perturbaŃie la observaŃia numărul i. Ea cuantifică efectele
asupra lui y ale altor factori decât cei măsuraŃi prin x1 , x2 ,..., xk .
3.2.2. Ipoteze clasice pentru modelul de regresie liniară multiplă
Pentru că dorim obŃinerea unor estimatori ai parametrilor modelului, cu proprietăŃi speciale, este
necesară respectarea aceloraşi ipoteze, la nivelul colectivităŃii generale, ca şi în cazul modelelor de
regresie liniare unifactoriale.
Presupunem că sunt satisfăcute ipotezele clasice I1-I6 enunŃate la studiul modelului liniar de regresie
unifactorial, plus încă o ipoteză.
I1) Forma funcŃională este liniară.
I2) E (ε i | xi1 , xi 2 ,..., xik ) = 0 , ∀ i = 1,2,..., n .
Dacă în cadrul modelului au fost incluse acele variabile ce influenŃează în mod real valoarea lui Y,
atunci diferenŃa dintre cele două tipuri de valori, reale şi estimate, tinde spre zero, iar în medie,
aceasta este zero.
I3) Var (ε i | xi1 , xi 2 ,..., xik ) = σ ε2 = σ 2 > 0 , ∀ i = 1,2,..., n .
I4) CovarianŃa condiŃionată a erorilor aleatoare este zero.
I5) CovarianŃa dintre ε i şi fiecare variabilă x j este zero, adică avem cov(ε i , xij ) = 0 , j = 1,2,..., k ,
pentru orice i.
I6) Erorile aleatoare au o distribuŃie normală N (0, σ 2 ) .
I7) Variabilele explicative sunt liniar independente. Necoliniaritatea variabilelor explicative.
Nu există proprietatea de multicoliniatitate perfectă între variabilele explicative.
Ipoteza I7 cere ca în funcŃia de regresie a populaŃiei să fie incluse numai acele variabile care nu pot fi
scrise ca o combinaŃie liniară perfectă a celorlalte variabile explicative. În caz contrar, nu este posibil
să se estimeze efectul liniar separat al fiecărui regresor asupra variabilei dependente.
3.2.3.Etape ale realizării unui model de regresie multiplă
I. Identificarea variabilelor modelului şi scrierea modelului de regresie.

23
Pentru rezolvarea acestei probleme vom avea în vedere, pe de o parte, modelele folosite în teoria
economică, iar pe de altă parte, datele disponibile pentru determinarea caracteristicilor modelului de
regresie. În cazul în care modelul de regresie este neliniar, atunci va trebui să stabilim strategia de
estimare a parametrilor;
II. Definirea ipotezelor modelului clasic de regresie .
Pentru testarea validităŃii ipotezelor pe care se fundamentează modelul clasic se vor folosi diverse
teste statistice. În funcŃie de ipotezele care sunt îndeplinite de modelul de regresie se vor aplica
anumite metode pentru estimarea parametrilor modelului.
III. Estimarea parametrilor şi validarea modelului de regresie. Pentru modelul clasic de regresie, se
pot estima parametrii prin metoda celor mai mici pătrate (MCMMP) sau prin metoda verosimilităŃii
maxime.
IV. Pentru variabilele exogene ale modelului vom determina matricea de corelaŃie. Prin această
matrice putem verifica prezenŃa fenomenului de corelaŃie în rândul variabilelor exogene;
V. Pe baza modelului estimat se pot realiza previziuni privind valorile variabilei endogene. Se pot
determina estimări punctuale sau prin intervale de încredere, având fixate valorile variabilelor
exogene şi un nivel de semnificaŃie sau un nivel de încredere în garantarea rezultatelor.
Estimarea modelului de regresie liniară multiplă prin MCMMP
Pentru a determina estimatorii parametrilor de regresie prin MCMMP vom scrie mai întâi funcŃia de
regresie a selecŃiei corespunzătoare funcŃiei de regresie a populaŃiei y i = βˆ0 + βˆ1 xi1 + ... + βˆ k xik + εˆi ;
yˆ = βˆ + βˆ x + ... + βˆ x ,
i 0 1 i1 k ik

ei = εˆi = yi − yˆ i , ei = yi − βˆ0 − βˆ1 xi1 − ... − βˆ k xik


MCMMP constă în determinarea valorilor parametrilor necunoscuŃi în aşa fel încât suma pătratelor
reziduurilor să fie cât de mică este posibil. Suma
2
SSE = ∑ e 2 = ∑ ( y − βˆ − βˆ x − ... − βˆ x )
i i 0 1 i1 k ik
este minimizată folosind condiŃiile de ordinul întâi, obŃinute prin derivarea parŃială în raport cu cei
k + 1 parametri necunoscuŃi şi egalarea cu zero a ecuaŃiilor rezultate.
3.2.4. Forma matriceală a modelului de regresie liniară simplă
Considerăm modelul de regresie liniară simplă, asociat variabilelor X şi Y, variabile observate prin
selecŃia sau eşantionul ( xi , yi ) , i = 1, 2,..., n .
yi = β 0 + β1 xi + ε i , i = 1,2,..., n
Aceste relaŃii se pot scrie sub forma:
 y1  1 x1   ε1   y1  1 x1   ε1 
           
 y 2  1 x2   β 0   ε 2   y2  1 x 2   β0  ε 2  ˆ  a
 M  =  M M   β  +  M  . Notând y =  M ; X =  M M  ; β =  β  ; ε =  M ; β =  b 
    1        1    
 y  1 x  ε  y  1 x  ε 
 n  n  n  n  n  n
Putem scrie modelul în expresie matriceală: y = Xβ + ε
Estimarea parametrilor.
Parametrii se obŃin din sistemul de ecuaŃii normale ale lui Gauss, pe care le putem scrie într-o formă
echivalentă şi în formă matriceală:
 an + b ∑ xi = ∑ yi  n ∑ xi  a   ∑ yi 
 ⇔    = 
2  
 ⇔ ( X T X ) β̂ = X T y
 a ∑ xi + b ∑ xi = ∑ xi y i  ∑ xi ∑ xi  b   ∑ xi yi 
2

Obs: Vom nota transpusa matricii X prin X T sau X ′ .


SoluŃia sistemului se poate obŃine dacă există inversa matricii ( X T X ) .
βˆ = ( X T X ) −1 X T y

24
σ 2 ∑ xi2 σ2 x
Ştim că Var ( a ) = ; Var (b) = , cov(a, b) = −σ 2 ;
n ∑ ( xi − x ) 2
∑ ( xi − x )
2
∑ ( xi − x )
2

Atunci, matricea de varianŃe-covarianŃe a vectorului β̂ este:


 σ 2 ∑ xi2 x 
 −σ 2 
 n ∑ ( xi − x ) ∑ ( xi − x ) 
2 2

  = σ 2 ( X T X ) −1
x σ 2

 − σ
2

∑ ( xi − x ) ∑ ( xi − x )
2 2
 
3.2.5. Studiul matriceal al modelelor de regresie liniară multiplă
3.2.5.1. Formularea modelului
Presupunând liniaritatea în variabile şi parametri, modelul de regresie liniară multiplă
y i = β 0 + β 1 xi1 + β 2 xi 2 + ... + β k xik + ε i , i = 1,2,..., n
poate fi reprezentat sub forma unei ecuaŃii matriceale:
y = Xβ + ε .
β este vectorul parametrilor necunoscuŃi
ε este vectorul erorilor aleatoare
Pentru cele n observaŃii sunt înregistrate valorile y1 , y 2 ,..., y n , ce reprezintă elementele vectorului
coloană y. Variabilele exogene sau independente, se reprezintă sub forma variabilei vectoriale
X = ( x1 , x2 ,..., xk ) . Pentru fiecare observaŃie i=1,2,...,n, vom avea seria de valori xi1 , xi 2 ,..., xik .
Pentru fiecare variabilă ansamblul cu datele înregistrate pentru cele n observaŃii va fi reprezentat prin
vectorul coloană x j cu j = 1,2,..., k .
 y1  1 x11 L x1k   β0   ε1 
       
 y2  1 x 21 L x2 k   β1  ε 
y =  ; X =   ; β =  ; ε =  2  .
M M M M M M M
       
y  1 x     
 n  n1 L xnk   βk  ε n 
(n × 1) ( n × ( k + 1)) ((k + 1) × 1) (n × 1)
rgX = k + 1 , n > k .
- variabila y reprezintă răspunsul agenŃilor economici la acŃiunea factorilor incluşi în X
- eroarea aleatoare ε conŃine abaterea faŃă de comportamentul mediu.
- Xβ = componenta sistematică
- ε = componenta aleatoare a modelului
- β j = coeficient de regresie parŃial.
3.2.5.2. Ipotezele asupra modelului, exprimate în formă matriceală
I1) Liniaritatea în parametrii modelului: y = Xβ + ε .
I2) Vectorul erorilor aleatoare are media zero: E (ε ) = 0 .
Dacă se ia în considerare această ipoteză, modelul se scrie sub forma E ( y ) = Xβ .
I3) Dispersia erorilor aleatoare este constantă: Var (ε i ) = D (ε i ) = E (ε i2 ) = σ 2 , ∀ i ).
I4) Erorile aleatoare ε i şi ε j sunt necorelate : cov(ε i , ε j ) = 0, i ≠ j .
Ultimele două ipoteze pot fi grupate în notaŃie matriceală Var (ε ) = D(ε ) = E (ε T ε ) = σ 2 I n .
I5) X este fixat, nu are elemente stochastice. Regresorii sunt strict exogeni, adică x j este independent
de ε , ∀j . Avem cov(ε i , X ) = 0 .

25
Valorile variabilelor explicative sunt fixate pentru selecŃii repetate şi ∑ ( x ji − x j ) 2 / n are o limită
finită şi diferită de zero.
I6) ε ~ N (0,σ 2 I n ) : Erorile aleatoare au o distribuŃie normală cu media 0 şi dispersia σ 2 .
 cov(ε 1 , ε 2 ) cov(ε 1 , ε 2 ) L cov(ε 1 , ε n )   σ ε2 0 L 0 
   
 cov(ε 2 , ε 1 ) cov(ε 2 , ε 2 ) L cov(ε 2 , ε n )   0 σ ε L 0 
2
Ω ε = E (ε ′ε ) =  = M
M M M M M M M 
  
 cov(ε , ε ) cov(ε , ε ) L cov(ε , ε )   0 0 L σ ε2 
 n 1 n 2 n n  
Ipotezele 3,4 şi 6, sub formă matriceală, sunt: Ω ε = σ ε2 I n
I7) Variabilele explicative sunt liniar independente. Coloanele matricii X sunt liniar independente,
deci nu există multicoliniaritate perfectă între variabile.
Matricea X este nestochastică şi are rangul maxim, adică rgX = k + 1 şi n ≥ k + 1 .
Matricea ( X T X ) este nesingulară (este inversabilă).
Se presupune că valorile variabilelor explicative sunt observate fără erori.
3.2.5.3. Estimarea parametrilor modelului prin MCMMP
Obiectivul principal al etapei de estimare a parametrilor modelului constă în determinarea vectorului
β̂ , care reprezintă o estimare a vectorului β , al parametrilor de regresie.
y i = β 0 + β 1 xi1 + β 2 xi 2 + ... + β k xik + ε i cu i = 1,2,..., n , reprezintă valorile reale, observate, ale lui Y.
yˆ = βˆ + βˆ x + βˆ x + ... + βˆ x cu i = 1,2,..., n , reprezintă valorile ajustate, estimate, ale lui Y.
i 0 1 i1 2 i2 k ik
Reprezintă componenta predictibilă.
y = ( y1 , y 2 ,..., y n ) T este vectorul valorilor observate
yˆ = ( yˆ 1 , yˆ 2 ,..., yˆ n ) T este vectorul valorilor ajustate, sau estimate, ale lui Y (de dim. (n × 1) )
yˆ = Xβ̂ =funcŃia de regresie a modelului de regresie liniară multiplă
Modelul estimat este yˆ = Xβˆ . Avem
y = yˆ + εˆ = Xβˆ + εˆ ,
e = εˆ = y − Xβˆ = vectorul reziduurilor (de dim. (n × 1) ).
MCMMP presupune minimizarea sumei pătratelor reziduurilor ∑ ei2 , transcrisă matriceal ca e T e .
Estimatorul obŃinut prin MCMMP, este valoarea care minimizează suma pătratelor reziduurilor.
S ( βˆ ) = SSE = eT e = ( y − Xβˆ ) T ( y − Xβˆ ) = y T y − y T Xβˆ − βˆ T X T y + βˆ T X T Xβˆ
Cei patru termeni din ultima egalitate sunt scalari iar cei din mijloc sunt aceiaşi deoarece transpusa
unui scalar este tot un scalar, adică ( y T Xβˆ ) T = βˆ T X T y .
∂S ( βˆ )
CondiŃiile de ordinul întâi = −2 X T y + 2 X T Xβˆ = 0
∂βˆ
( X T X ) β̂ = X T y sunt ecuaŃiile normale ale lui Gauss, în formă matriceală
CondiŃia necesară pentru ca ecuaŃiile normale ale lui Gauss să aibe soluŃie unică este ca n ≥ k + 1 .
Dacă rgX = k + 1 , atunci vectorul β̂ este definit în mod unic pentru orice y şi X.
Dacă rgX = k + 1 , coloanele matricii sunt liniar independente, iar matricea ( X T X ) admite inversă.
Se obŃine soluŃia unică:
βˆ = ( X T X ) −1 X T y .

26
Interpretarea estimaŃiilor parametrilor: Coeficientul pantă β̂ j , al variabilei explicative x j ,
măsoară, în medie, efectul marginal sau individual al acestei variabile asupra variabilei dependente,
menŃinând toate celelalte variabile explicative constante.
Coeficientul de regresie parŃial, β j , arată cu câte unităŃi creşte sau scade, în medie, valoarea
variabilei y, atunci când valoarea variabilei x j creşte cu o unitate, menŃinând ceilalŃi factori
nemodificaŃi (ceteris paribus).
Caracteristici ale matricii ( X T X ) :
- ConŃine sumele pătratelor şi produselor încrucişate ale variabilelor explicative. Sumele de pătrate se
găsesc pe diagonala principală, iar sumele produselor încrucişate sunt în afara diagonalei principale.
- Este o matrice simetrică
- Este de ordinul ( k + 1, k + 1) , având k + 1 linii şi k + 1 coloane.
În ecuaŃia ( X T X ) β̂ = X T y se cunosc ( X T X ) şi X T y , iar β̂ este necunoscut.
Vectorul valorilor ajustate, sau estimate devine:
yˆ = Xβˆ = X ( X T X ) −1 X T y
3.2.5.4. ProprietăŃi statistice ale estimatorului β̂ , obŃinut prin MCMMP
ProprietăŃile statistice depind de presupunerile pe care le facem asupra modelului de regresie. Atunci
când se studiază proprietăŃile estimatorilor obŃinuŃi, este necesar să se facă distincŃie între două
categorii de proprietăŃi. Pe de o parte, avem proprietăŃi ale estimatorilor pentru selecŃii finite, cu
volum mic de observaŃii, proprietăŃi care se păstrează indiferent de mărimea selecŃiei. Pe de altă
parte, avem proprietăŃi asimptotice, care sunt asociate cu selecŃiile foarte mari. În cazul selecŃiilor
finite se studiază comportamentul unui estimator în ipoteza de a avea mai multe selecŃii şi, în
consecinŃă, mai mulŃi estimatori ai parametrului care prezintă interes. Media acestor estimatori ar
putea să aproximeze valoarea reală a parametrului iar abaterea medie de la valoarea reală să fie cea
mai mică.
1) Estimatorul β̂ , este un estimator liniar al lui β , fiind o funcŃie liniară de valorile variabilei y.
βˆ = ( X T X ) −1 X T y ⇔ β̂ = Ly , unde L = ( X T X ) −1 X T
2) Estimatorul β̂ , este un estimator nedeplasat al lui β
E ( βˆ ) = β
Avem βˆ = ( X T X ) −1 X T y = ( X T X ) −1 X T ( Xβ + ε ) =
= ( X T X ) −1 X T Xβ + ( X T X ) −1 X T ε = β + ( X T X ) −1 X T ε .
Se observă că vectorul β̂ este o funcŃie liniară nu numai de y ci şi de ε .
E ( βˆ | X ) = E ( βˆ ) = E ( β + ( X T X ) −1 X T ε ) = β + ( X T X ) −1 X T E (ε ) = β .
Teorema Gauss-Markov. Estimatorul β̂ , obŃinut prin MCMMP, este cel mai bun estimator liniar
nedeplasat (BLUE), al lui β , în sensul că el are dispersia minimă în interiorul clasei de estimatori
liniari nedeplasaŃi.
3) Matricea de covarianŃe a vectorului estimatorilor β̂ :
Ω = Var ( βˆ ) = σ 2 ( X T X ) −1
βˆ

Folosim proprietatea: Var ( Aε ) = AVar (ε ) AT


Ω = Var ( βˆ ) = E[( βˆ − β )( βˆ − β )′] = E[( X T X ) −1 X T εε T X ( X T X ) −1 ] =
βˆ

Ω βˆ = Var ( βˆ ) = Var ( β + ( X T X ) −1 X T ε ) = Var (( X T X ) −1 X T ε ) =


= ( X T X ) −1 X T Var (ε )(( X T X ) −1 X T ))T =

27
= ( X T X ) −1 X T (σ 2 I n ) X ( X T X ) −1 = σ 2 ( X T X ) −1 .
Această matrice de covarianŃe este simetrică, pozitiv definită şi conŃine pe diagonală dispersiile
estimatorilor β̂ j , iar în afara diagonalei covarianŃele dintre β̂ j şi β̂ h . Elementele diagonalei
principale sunt Var ( βˆ j ) = σ 2 (( X ′X ) −1 ) j +1, j +1 sau Var ( βˆ j ) = σ 2 d j +1, j +1 .
Matricea de covarianŃe ale vectorului β̂ poate fi scrisă şi sub forma:
 d11 d12 L d1,k +1 
 
 d d L d + 
Ω βˆ = Var ( βˆ ) = σ 2 ( X T X ) −1 = σ 2 
21 22 2 , k 1

M M M M 
 
 L d k +1,k +1 

4) Estimarea parametrului σ 2

VarianŃa erorilor estimate este un estimator nedeplasat al varianŃei erorilor aleatoare


SSE eT e
se2 = σˆ 2 = = şi E ( se2 ) = σ 2
n − k −1 n − k −1

5) Un estimator al matricei de covarianŃe a vectorului estimatorilor este


Ωˆ ˆ = Vˆar ( βˆ ) = s 2 ( X T X ) −1
β e

Erorile standard ale estimatorilor sunt: se( βˆ j ) = se2 [( X ′X ) −1 j +1, j +1 ] = se2 d j +1, j +1
6) Vectorul estimatorilor parametrilor şi vectorul reziduurilor sunt necorelaŃi.
cov(βˆ , e) = 0
7) X T e = 0 .
Fiecare coloană din matricea datelor este ortogonală pe vectorul reziduurilor. Se obŃine din ecuaŃiile
normale ale lui Gauss.
( X T X ) βˆ − X T y = − X T ( y − Xβˆ ) = − X T ( y − yˆ ) = − X T e = 0
8)Estimatorul β̂ are distribuŃie normală. βˆ ~ N ( β ,σ 2 ( X ′X ) −1 ) .
Vectorul reziduurilor exprimat în funcŃie de variabila y:
e = εˆ = y − yˆ = y − Xβˆ = y − X ( X T X ) −1 X T y = [ I − X ( X T X ) −1 X T ] y = Gy
Matricea G = [ I − X ( X T X ) −1 X T ] este: simetrică ( G T = G ); idempotentă ( GG = G ); -de ordinul
(k + 1, k + 1) ; GX T = 0 şi GX = 0 .
Matricea proiecŃie: P = I − G = X ( X T X ) −1 X T este simetrică, idempotentă, PX = X , PG = GP = 0
Matricile P = X ( X T X ) −1 X T şi G = I − P sunt numite matrici proiecŃii pentru proprietăŃile lor.
P şi G sunt simetrice şi idempotente, deci P T = P , PP = P , G T = G , GG = G .
trP = k + 1 şi trG = n − k − 1 , unde operatorul tr este suma elementelor de pe diagonală
Matricea P proiectează vectorul y pe spaŃiul generat de coloanele lui X.
yˆ = Xβˆ = X ( X T X ) −1 X T y = Py .
Vectorul reziduurilor este proiecŃia vectorului y pe spaŃiul ortogonal celui generat de coloanele lui X.
e = εˆ = G ( Xβ + ε ) = GXβ + Gε = Gε
e = εˆ = y − yˆ = y − Xβˆ = y − X ( X T X ) −1 X T y = ( I − X ( X T X ) −1 X T ) y = Gy
Am folosit ( AB )T = B T AT
Rezultă ∑ ei2 = e T e = y T y − β̂ T X T y

28
3.2.5.5. Datele necesare calculării coeficientului de determinaŃie multiplă, R2:
SSE = ∑ ei2 = e T e = (Gy ) T (Gy ) = y T G T Gy = y T G 2 y = y T Gy =
= y T [ I − X ( X T X ) −1 X T ] y = y T y − y T X ( X T X ) −1 X T y = y T y − y T Xβ̂ =
= y T y − ( X T y ) T βˆ = y T y − βˆ T X T y
SST = ∑ ( yi − y ) = ∑ yi2 − ny 2 = y T y − ny 2
2

SST = y T y − ny 2
SSE = ∑ ( yi − yˆ i ) 2 = ∑ ei2 = e T e = y T y − β̂ T X T y
SSE = y T y − β̂ T X T y
SSR = SST − SSE = βˆ T X T y − ny 2 SSR = βˆ T X T y − ny 2
SSR βˆ T X T y − ny 2 SSE y T y − βˆ T X T y
R2 = = sau R 2
= 1 − =
SST y T y − ny 2 SST y T y − ny 2
R 2 creşte de câte ori se adaugă o nouă variabilă în model. Se foloseşte R 2 ajustat:
SSE /(n − k − 1)
R 2 = 1− < R2
SST /(n − 1)
Tabelul ANOVA

df SS MS F
Regression k SSR = β X T y − ny 2
ˆ T MSR = SSR / k F=MSR/MSE
Residual n − k −1 MSE = SSE /(n − k − 1)
Total n −1 SSE = y T y − β̂ T X T y
SST = y T y − ny 2

3.2.5.6. Testarea validităŃii modelului de regresie:


H 0 : β1 = β 2 = ... = β k = 0 (modelul nu este valid statistic)
H1 : nonH 0 (modelul este valid statistic)
SSR / k ( βˆ T X T y − ny 2 ) / k
F= = T = Fα ;k ,n − k =1
SSE /(n − k − 1) ( y y − βˆ T X T y ) /(n − k − 1)
Dacă Fˆ > Fα ;k ,n − k −1 se respinge ipoteza nulă în favoarea ipotezei alternative. Modelul este valid
statistic.
3.2.5.7. Testarea ipotezelor privind coeficientii de regresie individuali, în notaŃie matriceală
Prin I6, am presupus că: ε ~ N (0, σ 2 I n ) , ceea ce implică βˆ ~ N ( β ,σ 2 ( X T X ) −1 )
Testarea semnificaŃiei statistice a parametrului β j
H 0 : β j = 0 (parametrul β j nu este semnificativ statistic)
H 1 : β j ≠ 0 (parametrul β j este semnificativ statistic).
βˆ j − 0
Sub ipoteza nulă, statistica: tˆj = ~ S n − k −1 urmează o distribuŃie Student cu (n-k-1) grade de
se( βˆ j )
libertate.
Regiunea critică este Rc :| t calc |> tα / 2 ; n − k −1
Avem t critic = tα / 2 ; n − k −1 . Dacă | t calc |> tα / 2 ; n −k −1 atunci respingem H 0 la un nivel de semnificaŃie de
α % şi acceptăm H1, deci parametrul β j este semnificativ statistic.

29
Dacă | t calc |< tα / 2 ; n − k −1 atunci acceptăm H 0 la un nivel de semnificaŃie de α % , deci parametrul β j nu
este semnificativ statistic.

3.2.5.8. Previziuni pe baza modelului de regresie liniară multiplă


Pentru o valoare dată X 0 se pot face două feluri de predicŃii: pentru o valoare individuală y0 , sau
pentru valoarea medie a acesteia E ( y 0 ) .
Se dă vectorul x0T = ( x10 , x20 ,..., xn 0 ) , al valorilor variabilelor X
Regresia multiplă estimată, în formă scalară este yˆ i = βˆ0 + βˆ1 xi1 + βˆ 2 xi 2 + ... + βˆ k xik , iar matriceal
este yˆ i = xiT β̂
Valoarea reală a lui y este y 0 = x0T β + ε 0
PredicŃia mediei
PredicŃia punctuală este yˆ 0 = x0T βˆ
Avem: y 0 = x0T β + ε 0 iar E ( y 0 | x0 ) = x0T β
Pentru predicŃia pe interval de încredere trebuie să ştim că Var ( yˆ 0 | x0T ) = se2 [ x0T ( X T X ) −1 x0 ]
Un interval de încredere 100(1-α)% pentru răspunsul mediu, dat fiind vectorul x0 , este:
yˆ 0 − t crt se2 [ x0T ( X T X ) −1 x0 ] ≤ E (Y | x0 ) ≤ yˆ 0 + t crt se2 [ x0T ( X T X ) −1 x0 ]
Avem t critic = tα / 2 ; n − k −1 .
PredicŃia unei valori individuale y0
PredicŃia punctuală este yˆ = x T βˆ 0 0

Eroarea de previziune este e0 = y 0 − yˆ 0 = x0T ( β − βˆ ) + ε 0 şi media ei este E (e0 ) = 0


Pentru predicŃia pe interval de încredere trebuie să ştim că
Var (e0 ) = Var ( y 0 − yˆ 0 ) = Var ( x0T ( β − βˆ )) + Var (ε 0 ) = se2 [1 + x0T ( X T X ) −1 x0 ]
Un interval de încredere 100(1-α)% pentru răspunsul mediu, dat fiind vectorul x0 , este:
yˆ 0 − t crt se2 [1 + x0T ( X T X ) −1 x0 ] ≤ y 0 ≤ yˆ 0 + t crt se2 [1 + x0T ( X T X ) −1 x0 ]

3.3. Verificarea Ipotezelor pe care se fundamentează estimarea parametrilor


unui model liniar de regresie
Modelul clasic de regresie se fundamentează pe câteva ipoteze care asigură estimatorilor obŃinuŃi
prin MCMMP anumite proprietăŃi statistice. Modelul de regresie liniară poate fi folosit în inferenŃa
statistică şi pentru a efectua previziuni ale valorilor variabilelor doar în cazul în care ipotezele pe
care acesta se bazează, sunt îndeplinite
Dacă una (sau mai multe) din aceste ipoteze nu este îndeplinită, nu este recomandat să se folosească
MCMMP pentru estimarea parametrilor, deoarece vor fi afectate proprietăŃile estimatorilor a.î.
estimatorii obŃinuŃi nu vor mai fi BLUE.

1) Heteroscedasticitatea erorilor aleatoare (perturbaŃiilor aleatoare)


Ipoteza I3: Erorile aleatoare sunt homoscedastice, adică au, toate, aceeaşi varianŃă, σ 2 , adică
Var (ε i ) = E (ε i − E (ε i )) 2 = σ 2 , i = 1,2,..., n , sau, echivalent: E (ε i2 ) = σ 2 , i = 1,2,..., n .
Pe baza acestei ipoteze se poate admite că legătura dintre variabilele Y şi X este relativ stabilă.
Ce se întâmplă dacă varianŃa erorilor aleatoare nu este constantă?

30
Erorile aleatoare sunt heteroscedastice, dacă au dispersii diferite:
Var (ε i ) = E (ε i − E (ε i )) 2 = σ i2 , i = 1,2,..., n .
Exprimăm proprietatea de heteroscedasticitate a erorilor prin relaŃiile echivalente:
E (ε i2 ) = σ i2 , i = 1,2,..., n .
ObservaŃie: Heteroscedasticitatea erorilor aleatoare se întâlneşte, în general, în seriile de date
transversale, nu în seriile de timp.
Pentru un model de regresie consum-venit, figurile 1a şi 2a ilustrează presupunerea de importanŃă
egală pentru fiecare observaŃie, spre deosebire de b) unde variabilitatea consumului creşte odată cu
creşterea venitului. În cazul 2b) distribuŃia erorii asociate fiecărei observaŃii are media 0 şi este
normală, dar varianŃa nu mai este constantă.

.
.
.. . .
Yi Consum Consum
. .
.. . ..
Yi . . . .
.. . . .
. . . . . . .. .
. . . . . . . .
. . . . . . . . .. . .
. .. . . . . . . .. . . . . . . . .
.
.. .
. . . .
. . . .
.
.
Venit Xi Venit Xi

Fig.1: a) Modelul homoscedastic al erorilor b) Modelul heteroscedastic al erorilor Y


i

Yi
f(Yi) m
um ns
u
f(Yi) ns
. Co
Co
. .
. . venit mare

. .
venit mic
X1 X2 X3 X4 Venit Xi X1 X2 X3 Venit Xi

Fig.2: a) Cazul homoscedasticităŃii b) Cazul heteroscedasticităŃii

1.1. Cauze ale apariŃiei heteroscedasticităŃii erorilor aleatoare:


1. Modelul de regresie nu este corect specificat din punct de vedere al variabilelor explicative
(modelul nu include variabilele explicative esenŃiale sau forma sa nu este cea potrivită).
2. Neomogenitatea datelor. Seriile de date conŃin unităŃi statistice heterogene.
3. Erorile de măsurare. Unele măsurători provin din răspunsuri mai precise sau mai puŃin precise.
4. Seriile de date sunt constituite din valori medii şi nu din valori individuale.
5. Asupra seriilor de date nu au fost aplicate transformări corecte.

1.2. ConsecinŃe ale prezenŃei heteroscedasticităŃii erorilor aleatoare.


1. Estimatorii obŃinuŃi prin MCMMP sunt, în continuare liniari şi nedeplasaŃi
2. Estimatorul convenŃional al varianŃei erorilor aleatoare este deplasat (nu mai este nedeplasat).
3. Estimatorii varianŃelor coeficienŃilor modelului sunt deplasaŃi. Nu mai sunt BLUE.
4. Erorile standard ale coeficienŃilor modelului sunt estimate greşit; testele t şi F sunt incorecte.
5. Intervalele de încredere şi testele de ipoteze bazate pe distribuŃiile t şi F nu sunt sigure.
Concluzie: Dacă erorile aleatoare sunt heteroscedastice, nu se recomandă estimarea parametrilor
modelului prin MCMMP. Se recomandă MCMMP ponderată.

31
1.3.Detectarea heteroscedasticităŃii
1. Metoda grafică Se reprezintă grafic valorile variabilei Y în raport cu valorile variabilei X şi se
analizează modelul obŃinut (Fig. 1a şi 1b).
Se reprezintă grafic reziduurile regresiei în raport cu fiecare variabilă explicativă sau în raport cu
valorile y i sau ŷ i . Se observă dacă există o legătură sistematică între acestea. Se consideră că erorile
aleatoare prezintă heteroscedasticitate, dacă se obŃine o structuriă „în trompetă”.
2. Testul White
Acest test este mai general. Mai întâi se estimează modelul prin MCMMP şi se reŃin reziduurile.
Testul White implică regresia pătratelor reziduurilor, ei2 , în funcŃie de toate variabilele explicative,
de pătratele variabilelor explicative şi de produsele lor încrucişate.
Considerăm modelul cu 2 variabile explicative:
y i = β 0 + β1 xi1 + β 2 xi 2 + ε i
Pas1. Estimăm modelul iniŃial de regresie prin MCMMP şi reŃinem reziduurile ei .
Pas2. Construim o regresie auxiliară:
ei2 = a 0 + a1 xi1 + a 2 xi 2 + a3 xi21 + a 4 xi22 + a5 xi1 xi 2 + η i
Pas3. ObŃinem coeficientul de determinaŃie multiplă din regresia auxiliară, coeficient notat Ra2 .
Verificăm semnificaŃia parametrilor modelului auxiliar.
H 0 : a1 = a 2 = a 3 = a 4 = a5 = 0 ( nu există heteroscedasticitate)
H 1 : (∃) ai ≠ 0 (există heteroscedasticitate)
Sub ipoteza nulă, că nu există heteroscedasticitate, White a arătat că statistica W = nRa2 urmează
asimptotic o distribuŃie χ 2 cu gradele de libertate date de numărul de regresori din ecuaŃia auxiliară.
W = nRa2 ~ χ df2
În modelul considerat avem df=5.
Obs: Există două variante de aplicare a testului White:
- Utilizarea testului clasic F, bazat pe statistica F şi pe ipoteza H 0 : a1 = a 2 = a3 = a 4 = a5 = 0
- Utilizarea testului LM, folosind statistica W = nRa2
Pas4. Dacă valoarea calculată a statisticii W, adică Wcalculat = nRa2 > χ critic
2
;α , sau dacă p-value este

mai mică decât nivelul de semnificaŃie ales, respingem H 0 şi acceptăm H 1 . ⇒ erorile aleatoare sunt
heteroscedastice.
Nu se cere ipoteza de normalitate a perturbaŃiilor, nici nu este necesar a preciza care variabilă x este
responsabilă de heteroscedasticitate.
ObservaŃie: Testul White poate fi aplicat direct în EViews, fără a parcurge etapele enumerate.
Pasul1. Se estimează modelul iniŃial prin MCMMP şi reŃinem reziduurile ei .
Pasul2. Se aplică testul White direct, pe seria reziduurilor.
3. Testul Park
Se bazează pe faptul că, dacă există heteroscedasticitate, varianŃa heteroscedastică σ i2 poate fi legată
sistematic de o variabilă explicativă a modelului.
Pas1. Estimăm modelul iniŃial de regresie prin MCMMP , neglijând heteroscedasticitatea, dacă
aceasta există şi reŃinem reziduurile ei .
Pas2. ObŃinem seriile de date ei2 şi ln ei2
Pas3: Se estimează modelul de regresie: ln ei2 = β 0 + β1 ln xi + η i , unde η i este o variabilă de
perturbaşie care verifică ipotezele asociate modelului clasic de regresie liniară.
Pas4. Testăm ipotezele:

32
H 0 : β1 = 0 (există homoscedasticitate)
H 1 : β 1 ≠ 0 (există heteroscedasticitate)
Dacă există o relaŃie semnificativă statistic între ln ei2 şi ln xi , respingem H 0 şi acceptăm H 1 , deci
există heteroscedasticitate.
Dacă acceptăm H 0 , atunci coeficientul β 0 poate fi interpretat ca fiind egal cu valoarea varianŃei
homoscedastice σ 2 .
4.Testul Glejser
Pas1. Se estimează modelul original prin MCMMP şi se reŃin reziduurile ei .
Pas2. Se efectuează regresia valorii absolute a lui ei în raport cu o variabilă ce reprezintă o
transformare a variabilei X, care este suspectată de a fi asociată cu varianŃa heteroscedastică σ i2 .
Glejser a folosit diferite forme funcŃionale liniare în parametri:
1 1
ei = β 0 + β 1 x i + v i ; e i = β 0 + β 1 x i + v i ; e i = β 0 + β 1 + v i ; e i = β 0 + β 1 + vi ,
xi xi
unde vi este termenul eroare aleatoare.
Pas3. Se testează ipotezele:
H 0 : β1 = 0 (există homoscedasticitate)
H 1 : β 1 ≠ 0 (există heteroscedasticitate)
Un coeficient β1 semnificativ indică prezenŃa heteroscedasticităŃii. S-a constatat că utilizarea acestui
test are rezultate satisfăcătoare în detectarea heteroscedasticităŃii pentru selecŃii mari.
5.Testul Goldfeld - Quandt
Este utilizat când se presupune că o singură variabilă exogenă este cauza heteroscedasticităŃii.
Acesta este un test intuitiv, aplicabil dacă se presupune că dispersia heteroscedastică σ i2 are o relaŃie
de dependenŃă pozitivă cu una din variabilele explicative ( σ i2 = σ 2 xi2 ). Ideea de bază este de a
împărŃi datele în două grupe, una incluzând valorile mari, cealaltă valorile mici ale variabilei x , apoi
de a aplica două regresii separat şi de a obŃine erori cu varianŃe diferite (dacă există
heteroscedasticitate). Astfel:
1. Se ordonează crescător observaŃiile în funcŃie de variabila exogenă xi .
2. Se exclud din serie c observaŃii (valori) centrale , unde c este un număr dat reprezentând o treime
sau un sfert din numărul total de observaŃii.
3. Cele (n-c) observaŃii rămase vor fi împărŃite în două grupe a câte (n − c) / 2 observaŃii. Se
estimează două modele de regresie separat, pentru cele două subserii. ObservaŃiile omise separă
valorile mici ale lui x de valorile mari ale lui x. Dacă există heteroscedasticitate şi există o legătură
pozitivă cu xi , estimaŃiile lui σ 2 , rezultate din cele două regresii, ar putea fi diferite.
4. Se calculează suma pătratelor reziduurilor pentru cele două regresii:
Fie SSE1 = s12 pentru grupul cu varianŃa mai mică
Fie SSE 2 = s 22 pentru grupul cu varianŃa mai mare.
5. Calculăm statistica testului ca fiind raportul dintre sumele pătratelor erorilor sau raportul dintre
dispersiile s12 , s 22 ale celor două regresii deoarece gradele de libertate ale celor două regresii sunt
aceleaşi. Statistica GQ = s 22 s12 are o distribuŃie F cu ((n − c) / 2) − k grade de libertate atât la
numărător cât şi la numitor. Se folosesc tabelele acestei statistici pentru a obŃine valoarea critică.
Dacă valoarea GQ este mai mare decât valoarea critică, respingem proprietatea de
homoscedasticitate şi acceptăm prezenŃa heteroscedasticităŃii. Experimentele Monte Carlo au condus
la recomandarea următoarelor valori pentru c şi n: dacă n=30 atunci c=8 iar dacă n=60, atunci c=16.

33
Acest test este destul de des folosit numai că se presupune că se cunoaşte cum poate fi ordonată
heteroscedasticitatea. Dacă există mai mulŃi regresori nu se mai ordonează observaŃiile după xi ci
după ŷ i .
Nu poate fi aplicat în mod direct, în Eviews.
6.Testul Breusch - Pagan
Testul Breusch-Pagan porneşte de la presupunerea că dispersia variabilelor eroare heteroscedastice
este o funcŃie liniară de mai multe variabile factoriale.
1.4. Corectarea heteroscedasticităŃii
Dacă suspectăm că heteroscedasticitatea erorilor are cauze indirecte trebuie să ne asigurăm că
modelul este corect specificat. Dacă există cauze directe ale heteroscedasticităŃii, remediile sunt
metoda celor mai mici pătrate ponderată, redefinirea variabilelor şi erorile standard robuste ale lui
White.
Cazul 1. Forma de heteroscedasticitate este cunoscută: Var (ε i ) = E (ε i2 ) = σ i2 =cunoscută.
Se foloseşte Metoda celor mai mici pătrate ponderată
MCMMP obişnuită atribuie importanŃă egală fiecărei observaŃii. Prin noua metodă, observaŃiile cu
variabilitate mai mare primesc ponderi mai mici decât cele cu variabilitate mai mică.
Modelul de regresie y i = β 0 + β1 xi + ε i se transformă împărŃind termenii prin σ i astfel:
yi 1 εi xi y 1 x ε
= β0 + β1 . Folosim notaŃiile y i∗ = i ; β 0∗ = β 0
+ ; xi∗ = i ; ε i∗ = i
σi σi σi σi σi σi σi σi
∗ ∗ ∗ ∗
ObŃinem modelul transformat y i = β 0 + β 1 xi + ε i .
Este noua variabilă de perturbaŃie homoscedastică? Dacă răspunsul este da, atunci modelul
transformat nu are probleme de heteroscedasticitate. Presupunând că celelalte ipoteze sunt
îndeplinite, estimatorii opbŃinuŃi prin MCMMP vor fi BLUE şi se poate trece la inferenŃa statistică.
Arătăm că erorile aleatoare ale modelului transformat sunt homoscedastice.
Calculăm: Var (ε i∗ ) = E ((ε i∗ ) 2 ) = E (ε i2 ) / σ i2 = σ i2 / σ i2 = 1 .
Rezultă că perturbaŃiile transformate sunt homoscedastice.
Se poate aplica MCMMP modelului transformat deoarece sunt îndeplinite ipotezele clasice I1-I5.
y x
Pentru a estima modelul transformat vom construi mai întâi seriile y i∗ = i şi xi∗ = i . Fiecare
σi σi
observaŃie este ponderată prin propria abatere standard.
Deoarece MCMMP Ponderată este echivalentă cu MCMMP asupra modelului transformat, putem
~ ~
folosi toate rezultatele deduse la MCMMP. Estimatorii obŃinuŃi prin MCMMPP, notaŃi β 0 , β1 , vor fi
cei mai buni estimatori liniari, nedeplasaŃi, consistenŃi şi de dispersie minimă (BLUE) pentru
~ ~ ~
modelul transformat. În consecinŃă avem D ( β1 ) ≤ D ( βˆ1 ) . Estimatori β 0 , β1 obŃinuŃi prin
MCMMPP sunt diferiŃi de estimatorii obişnuiŃi βˆ , βˆ deoarece ei depind de σ 2 . Se numesc
0 1 i

estimatori ponderaŃi datorită factorului 1 / σ i care reprezintă o măsură a preciziei observaŃiei i. Cu cât
este mai mic σ i , cu atât este mai mare ponderea ataşată observaŃiei i, deci şi precizia observaŃiei i
este mai mare. Prin această metodă observaŃiile cu variabilitate mai mare primesc ponderi mai mici
decât cele cu variabilitate mai mică. MCMMP Generalizată se numeşte şi MCMMP ponderată.
Cazul 2. VarianŃele perturbaŃiilor sunt necunoscute: σ i2 = necunoscut
În multe cazuri, heteroscedasticitatea poate fi legată de o variabilă explicativă.
a) VarianŃa erorilor variază direct cu o variabilă explicativă, fiind proporŃională cu pătratul ei:
σ i2 = σ 2 xi2 .

34
yi 1 ε
= β 0 + β1 + i .
xi xi xi
yi 1 xi ε
Folosim notaŃiile y i∗ = ; β 0∗ = β 0 ; xi∗ = ; ε i∗ = i şi obŃinem modelul transformat
xi xi xi xi
y i∗ = β 0∗ xi∗ + β1 + ε i∗ .
∗ εi  1 σ 2 xi2
 
Calculăm: Var (ε ) = Var   = 2 Var (ε i ) = 2 = σ 2
i
 xi  xi xi
Rezultă că a fost eliminată heteroscedasticitatea erorilor aleatoare.
ObservaŃie: Coeficientul pantă original a devenit parametru de interceptare iar parametrul de
interceptare original a devenit coeficient pantă. Dar aceste schimbări sunt valabile numai pentru
etapa de estimare. După ce modelul va fi estimat, vom înmulŃi prin xi ambii membri şi revenim la
modelul iniŃial .
b) VarianŃa erorilor este proporŃională cu o variabilă explicativă: σ i2 = σ 2 xi
Transformăm modelul împărŃind prin xi :
yi 1 xi εi
= β0 + β1 +
xi xi xi xi
 ε  1 σ 2 xi
Calculăm: Var (ε i∗ ) = Var  i  = Var (ε i ) = =σ2
 x  xi x
 i  i

Rezultă că a fost eliminată heteroscedasticitatea erorilor aleatoare, deci putem estima modelul
transformat prin MCMMP. Trebuie să folosim procedura de estimare „regresia prin origine”.

Respecificarea modelului
În loc să facem presupuneri despre σ i2 , putem să alegem o altă formă funcŃională.
Transformarea logaritmică este folosită în mod frecvent pentru a elimina heteroscedasticitatea,
deoarece reduce dispersia variabilelor iniŃiale. Se estimează prin MCMMP modelul
ln y i = β 0 + β 1 ln xi + ε i în locul modelului y i = β 0 + β1 xi + ε i .
Un avantaj al modelului dublu logaritmic, este faptul că panta măsoară elasticitatea lui Y în raport cu
X, adică modificarea procentuală în Y, pentru o modificare procentuală în X.

2) Autocorelarea erorilor aleatoare


Vom considera modelul clasic de regresie liniară. Acest model se bazează pe un număr de ipoteze
care asigură estimatorilor obŃinuŃi prin MCMMP proprietăŃi statistice speciale.
Ipoteza I4. Erorile aleatoare nu sunt autocorelate, adică eroarea oricărei observaŃii nu este
influenŃată de altă observaŃie.
Se scrie sub forma: cov(ε i , ε j ) = 0 sau E (ε i ε j ) = 0 pentru i ≠ j .
2.1. Definirea autocorelării erorilor aleatoare
Autocorelarea erorilor aleatoare poate fi definită ca prezenŃa unei corelaŃii între perturbaŃiile
aleatoare, ordonate temporal în cazul seriilor cronologice, sau spaŃial, în cazul seriilor transversale.
Erorile aleatoare sunt autocorelate, dacă avem cov(ε i , ε j ) = σ ij ≠ 0 pentru i ≠ j şi i, j = 1,2,..., n .
Deoarece perturbaŃiile ε i au media zero, autocorelarea poate fi simbolizată prin relaŃia: E (ε i ε j ) ≠ 0
pentru i ≠ j şi i, j = 1,2,..., n .
PerturbaŃiile care afectează un model econometric nu sunt rezultatul unei extrageri aleatoare, ci
efectul unor variabile secundare, neluate în calcul, în mod explicit, în model.
35
Obs: Autocorelarea erorilor aleatoare apare frecvent în cazul seriilor de timp şi mai rar în cazul
seriilor de tip transversal. De aceea este mai potrivit ca, în locul indicilor i şi j să folosim indicii t şi s
pentru a ne referi la observaŃiile seriilor cronologice. În cazul seriilor de timp, autocorelarea erorilor
aleatoare se numeşte şi corelaŃie serială sau autocorelaŃie:
cov(ε t , ε s ) ≠ 0 sau E (ε t ε s ) ≠ 0 pentru t ≠ s şi t , s = 1,2,..., n .
2.2. Cauzele posibile ale apariŃiei autocorelării erorilor aleatoare:
1. AbsenŃa unor variabile explicative importante din modelul de regresie
2. Forma funcŃională a modelului de regresie nu este potrivită
3. Transformările efectuate asupra datelor sunt nepotrivite
De exemplu, în cazul seriilor cronologice, dacă datele lunare (datele iniŃiale) sunt transformate în
date trimestriale prin calculul unor medii trimestriale, atunci fluctuaŃiile din datele lunare se
amortizează.
De asemenea, dacă datele iniŃiale erau sub formă de valori absolute iar modelul de regresie se
defineşte pe baza diferenŃelor absolute, apare autocorelarea erorilor aleatoare.
4. Modele autoregresive. Dacă una din variabilele exogene este variabila endogenă decalată
(întârziată), se obŃine un model autoregresiv. y t = β 0 + β1 xt + β 2 y t −1 + ε t Dacă se neglijează
termenul întârziat, eroarea rezultată va avea o distribuŃie sistematică.
2.3. ConsecinŃe ale autocorelării erorilor aleatoare
1. Estimatorii obŃinuŃi prin MCMMP rămân estimatori liniari şi nedeplasaŃi, dar nu mai sunt eficienŃi,
deci nu mai sunt BLUE.
2. Uneori, formulele care estimează varianŃele şi erorile standard ale estimatorilor subestimează
varianŃele şi erorile reale, ceea ce face ca valorile t-calculat să crească. În acest mod, un coeficient
apare ca fiind semnificativ diferit de zero, deşi acest lucru nu este adevărat.
3. Testele uzuale t şi F nu sunt de încredere
4. Estimatorul convenŃional al varianŃei erorilor aleatoare s e2 = SSE / df , conduce la un estimator
deplasat al varianŃei reale σ ε2 .
5. Coeficientul de determinaŃie R-Squared calculat nu este o măsură de încredere pentru R-Squared
real.
6. VarianŃele şi abaterile medii pătratice ale previziunilor pot fi ineficiente.
Concluzie: Pentru estimarea parametrilor va trebui folosită altă metodă decât MCMMP. De regulă,
se foloseşte MCMMP Generalizată.

2.4. Detectarea autocorelării erorilor aleatoare


1) Metoda grafică
Se estimează modelul iniŃial de regresie prin MCMMP şi se reŃin reziduurile ei .
Se reprezintă grafic reziduurile în raport cu timpul. Reziduurile indică existenŃa autocorelării dacă
graficul prezintă o anumită regularitate (valoarea curentă depinde de valoarea anterioară). Dacă
valorile reziduurilor tind să crească sau să descrească, înseamnă că există autocorelare.
Dacă reziduurile intersectează de puŃine ori axa timpului, avem autocorelare pozitivă. Există
autocorelare negativă dacă valorile reziduurilor trec frecvent de la o valoare pozitivă la una negativă
a.î. graficul intersectează de multe ori axa timpului.
Dacă valorile reziduurilor sunt distribuite în mod aleator de o parte şi de alta a axei, fără să apară un
model anume, atunci erorile nu sunt autocorelate, ci independente.

2) Testul Durbin-Watson. Este cel mai utilizat test pentru a pune în evidenŃă autocorelarea erorilor.
Prin acest test se verifică dacă există autocorelare de ordinul întâi în seria reziduurilor. Se bazează pe
următoarele ipoteze:
1. Modelul de regresie trebuie să conŃină termen liber

36
2. Marticea X, a variabilelor independente, trebuie să nu fie stochastică (valorile ei sunt fixate în
urma unor eşantionări repetate).
3. Valoarea perturbaŃiei la timpul t depinde de valoarea sa din perioada precedentă (t-1), şi un termen
pur aleator u. Intensitatea dependenŃei de valoarea trecută este măsurată prin coeficientul de corelaŃie
ρ . Erorile sunt generate printr-un mecanism numit proces autoregresiv de ordinul întâi:
ε t = ρε t −1 + u t AR(1)
4. Erorile aleatoare sunt presupuse a fi normal distribuite
5. Modelul de regresie nu conŃine, ca variabilă exogenă, variabila endogenă cu decalaj.

n
t =2
(et − et −1 ) 2
Folosim statistica Durbin-Watson: DW = d =

n 2
e
t =1 t

Avantajul acestei statistici este simplitatea: se bazează pe reziduurile et , calculate printr-o rutină, în
cele mai multe pachete de regresie. Printre rezultatele oferite prin apelarea funcŃiei de regresie din
pachetul software EViews, este afişată valoarea calculată a satisticii DW şi o probabilitate pentru
testul DW.
ProprietăŃi ale statisticii DW:
∑ ee
n
t = 2 t t −1
P1. DW ≈ 2(1 − ρˆ ) , unde ρ̂ = este coeficientul de corelaŃie de selecŃie.
∑ e
n 2
t =1 t
P2. 0 ≤ DW ≤ 4
Dacă nu există autocorelaŃie, atunci ρˆ = 0 şi DW = 2 . Dacă există autocorelaŃie puternic pozitivă,
atunci ρˆ = 1 şi DW = 0 . Dacă există autocorelaŃie puternic negativă, atunci ρˆ = −1 şi DW = 4 .
Astfel, cel mai bine este ca DW = 2 .
Statistica DW nu urmează o distribuŃie clasică. Valorile sale critice sunt tabelate. DistribuŃia de
selecŃie a statisticii DW depinde de valorile variabilei explicative şi de volumul selecŃiei. Pentru un
nivel de semnificaŃie dat, tabelul conŃine două valori critice: limita inferioară d L şi limita superioară
dU (notate şi d1 , d 2 ).
Etape în aplicarea testului Durbin-Watson
Pas1. Se estimează parametrii modelului de regresie prin MCMMP şi se obŃin reziduurile et . Se
testează ipotezele:
H 0 : ρ = 0 (nu există autocorelarea erorilor)
H 1 : ρ ≠ 0 (există autocorelarea erorilor).
Pas2. Se calculează valoarea statisticii DW.
Pas3. Se determină valorile critice d 1 , d 2
Pas4. Se compară valoarea calculată cu valorile critice obŃinute din tabele. Se localizează valoarea
statisticii DW în una din următoarele 5 regiuni sau zone de decizie:
Dacă 0 < d < d 1 , seria reziduurilor prezintă autocorelare de ordinul 1 pozitivă.
Dacă d 1 < d < d 2 ⇒ indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă d 2 < d < 4 − d 2 ⇒ reziduurile sunt independente
Dacă 4 − d 2 < d < 4 − d 1 ⇒ indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 − d 1 < d < 4 , seria reziduurilor prezintă autocorelare de ordinul 1 negativă.

reg1 reg2 reg 3 reg 4 reg 5


0 d1 d2 4-d2 4-d1 4

37
Tabelul de mai jos prezintă, sub o altă formă, regula de decizie la aplicarea testului Durbin-Watson.

Valoarea lui DW Concluzia


4 − d L < DW < 4 Resping H 0 în favoarea H 1 : ρ < 0
4 − d U < DW < 4 − d L Rezultat intermediar; Indecizie.
2 < DW < 4 − d U Nu resping H 0 ; Accept că ρ = 0
d U < DW < 2 Nu resping H 0 ; Accept că ρ = 0
d L < DW < d U Rezultat intermediar; Indecizie.
0 < DW < d L Resping H 0 în favoarea H 1 : ρ > 0

Tabelul Durbin-Watson pentru α= 5 %.

n k=1 k=2 k=3 k=4 k=5


d1 d2 d1 d2 d1 d2 d1 d2 d1 d2
15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21
20 1,20 1,41 1,10 1,94 1,00 1,68 0,90 1,83 0,79 1,99
30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83
40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79
50 1,50 1,59 1,46 1,63 1,42 1,67 1,38 1,72 1,34 1,77
100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,37 1,78

3) Testul Breusch-Godfrey
Prin acest test se verifică existenŃa autocorelării de ordin superior lui 1.
Se consideră modelul de regresie multifactorială
y t = β 0 + ∑kj =1 β j x jt + ε t , t = 1,2,..., n
Prin acest test se verifică dacă erorile aleatoare admit o reprezentare AR(r):
ε t = ∑rs =1 ρ s ε t − s + u t , unde ut este zgomot alb, adică un şir de v.a. iid , necorelate, cu media şi
varianŃa constantă. Etape în aplicarea testului Breusch-Godfrey
Pas1) Se estimează parametrii modelului de regresie dat iniŃial, prin MCMMP şi se obŃin reziduurile
et . Se testează ipotezele:
H 0 : ρ1 = ρ 2 = L = ρ r = 0 ( erorile nu sunt autocorelate)
H 1 : (∃) ρ s ≠ 0 (există autocorelare de ordin r)
Pas2) Se estimează prin MCMMP parametrii modelului auxiliar de regresie, model care descrie
legătura dintre reziduuri, variabilele exogene iniŃiale şi reziduurile decalate:
et = ∑ rs =1 ρ s et − s + ∑ kj =1 β j x jt + vt
Se reŃine coeficientul de determinaŃie Ra2 .
Pas3) Se calculează statistica testului
LM = n ⋅ Ra2 , care urmează o distribuŃie χ α2 ,r .
Dacă n ⋅ Ra2 > χ α2 , r ⇒ respingem H0 ⇒ acceptăm H1 ⇒ erorile aleatoare sunt autocorelate
Dacă n ⋅ Ra2 < χ α2 ,r ⇒ acceptăm H0 ⇒ erorile aleatoare nu sunt autocorelate
Avantajul acestui test este că nu se bazează pe nicio ipoteză. Dezavantajul: nu se precizează r,
lungimea decalajului de autocorelare a erorilor.

38
2.5. Corectarea autocorelării erorilor aleatoare. MCMMP Generalizată.
Dacă un test folosit pentru detectarea autocorelării erorilor a arătat prezenŃa acesteia, se analizează
dacă modelul este corect specificat. Dacă forma funcŃională nu este potrivită se va alege o nouă
funcŃie de regresie. Dacă au fost omise variabile explicative importante, acestea vor fi incluse în
model. Dacă variabilele necesită transformări suplimentare, acestea se vor realiza. Dacă se constată
că autocorelarea nu este indusă de factorii menŃionaŃi, se trece la eliminarea acesteia şi estimarea
modelului prin MCMMPG.
Considerăm modelul
y t = β 0 + β1 xt + ε t
Presupunem că eroarea aleatoare urmează un model AR(1), adică ε t este generat prin schema
autoregresivă ε t = ρε t −1 + u t , cu ρ cunoscut, − 1 ≤ ρ ≤ 1 şi u t este zgomot alb.
Dacă putem transforma modelul a.î. erorile aleatoare ale modelului transformat să fie independente,
putem aplica MCMMP modelului transformat şi vom obŃine estimatori BLUE. (Se presupune că
celelalte ipoteze ale modelului clasic de regresie liniară sunt îndeplinite.)
Scriem ecuaŃia de regresie pentru perioada anterioară, o înmulŃim cu ρ şi scădem din prima ecuaŃie:
y t −1 = β 0 + β1 xt −1 + ε t −1
ρy t −1 = ρβ 0 + ρβ1 xt −1 + ρε t −1
y t − ρy t −1 = β 0 (1 − ρ ) + β1 ( xt − ρxt −1 ) + u t
Deoarece perturbaŃiile aleatoare îndeplinesc ipotezele standard pentru a aplica MCMMP, avem o
transformare prin care am obŃinut un model fără corelaŃie serială:
y t∗ = β 0∗ + β 1 xt∗ + u t
Aplicăm MCMMP variabilelor transformate y ∗ şi x ∗ . Estimatorii asfel obŃinuŃi vor avea
proprietăŃile dorite, vor fi BLUE. Metoda se numeşte MCMMP Generalizată. Mai este referită ca
GLS (General Least Squares).
Concluzie: În cazul autocorelării erorilor, în scopul testării ipotezelor modelului de regresie şi pentru
stabilirea intervalelor de încredere, trebuie folosită MCMMPG, care va furniza estimatori de maximă
verosimilitate.
Notă: Trebuie să cunoaştem coeficientul de autocorelaŃie real, ρ . Pentru că nu-l cunoaştem, va
trebui estimat. Există mai multe procedee de estimare.
A) Estimarea lui ρ pe baza statisticii Durbin-Watson
Deoarece este verificată relaŃia DW ≈ 2(1 − ρˆ ) , înseamnă că se poate obŃine o estimaŃie a lui ρ din
statistica DW calculată. Rezultă
ρˆ ≈ 1 − DW / 2 .
Deoarece statistica DW este calculată de cele mai multe pachete de programe de regresie, se poate
obŃine uşor o estimaŃie a lui ρ . Deşi este uşor de folosit, acest procedeu de estimare dă estimaŃii
bune ale lui ρ numai dacă volumul eşantionului este mare.
B) Estimarea lui ρ din reziduurile obŃinute prin MCMMP
ε t = ρε t −1 + u t
Deoarece perturbaŃiile aleatoare ε t nu sunt observabile, vom folosi estimaŃiile lor şi vom efectua
următoarea regresie:
et = ρ̂ et −1 + u t , unde ρ̂ este un estimator al lui ρ .
Avantajul acestei regresii este simplitatea, pentru că noi folosim în mod obişnuit MCMMP pentru a
obŃine reziduurile.
Deşi în selecŃiile de volum redus ρ̂ este un estimator deplasat al lui ρ real, când n creşte, deplasarea
tinde să dispară.
39
ObservaŃie. Transformarea folosită în cazul modelului cu o singură variabilă explicativă poate fi
generalizată la un model cu k variabile explicative. Fie modelul:
y t = β 0 + ∑kj =1 β j x jt + ε t , t = 1,2,..., n
ε t = ρε t −1 + u t
Scriem ecuaŃia de regresie pentru perioada (t-1), o înmulŃim cu ρ şi scădem din prima ecuaŃie:
ρy t −1 = ρβ 0 + ∑kj =1 β j ρ x jt −1 + ρε t −1
y t − ρy t −1 = β 0 (1 − ρ ) + ∑ kj =1 β j ( x jt − ρ x jt −1 ) + (ε t − ρε t −1 )
y t∗ = β 0∗ + ∑ kj =1 β j x ∗jt + u t
cu ut zgomot alb. Parametrii modelului transformat se estimează prin MCMMP şi se obŃin estimatori
de maximă verosimilitate.

3) Multicoliniaritatea variabilelor explicative


În modelul de regresie liniară multifactorială, coeficientul pantă al unei variabile X este numit
coeficient de regresie parŃial şi măsoară efectul marginal sau individual al acelei variabile, asupra
variabilei dependente, menŃinând toate celelalte variabile explicative constante. RelaŃia dintre o
variabilă explicativă şi o variabilă dependentă Y, nu este reflectată totdeauna, cu acurateŃe, de
coeficientul acelei variabile; acesta depinde şi de celelalte variabile explicative incluse sau neincluse
în ecuaŃia de regresie.
Ipoteza I7: Variabilele explicative x1 , x 2 ,..., x k sunt independente între ele, formând un sistem de
vectori liniar independenŃi.
Dacă această ipoteză nu este îndeplinită apare fenomenul de multicoliniaritate a variabilelor exogene.
Multicoliniaritatea nu este o problemă a modelului ci o problemă a datelor.
Considerăm două variabile exogene x1 şi x 2 , care se reprezintă grafic prin intermediul cercurilor cu
centrul în punctul determinat de valoarea medie a variabilei şi cu raza egală cu variaŃia variabilei.
Putem reprezenta grafic situaŃiile în care cele două variabile sunt necorelate, slab corelate, puternic
corelate şi perfect corelate.
3.1. Tipuri de multicoliniaritate la nivelul unui model de regresie liniară
a) Multicoliniaritatea perfectă apare dacă printre variabilele explicative ale unui model de regresie
există cel puŃin două care sunt liniar dependente.
(∃) i, j a.î, x j = α xi , α ≠ 0
Dacă există o relaŃie liniară exactă între variabilele explicative ale unui model de regresie, nu se pot
obŃine estimaŃii unice pentru toŃi parametrii modelului.
ConsecinŃe:
⇒ matricea ( X T X ) are două coloane liniar dependente
⇒ det( X T X ) = 0 ⇒ matricea ( X T X ) nu este inversabilă
⇒ estimarea parametrilor prin MCMMP este imposibilă deoarece ar trebui să avem
( X X ) β̂ = X y şi matricea ( X X ) nu este inversabilă. Nu pot fi estimaŃi efectiv parametrii
T T T

modelului ci o combinaŃie liniară a acestor parametri. Nu se poate distinge influenŃa unei


variabile explicative de influenŃa altor variabile explicative. Vectorul β̂ nu există.
Multicoliniaritatea perfectă între variabilele explicative face ca regresia să fie imposibilă.
b) Multicoliniaritatea aproape perfectă (imperfectă) apare dacă există cel puŃin două variabile
explicative care nu sunt liniar dependente dar sunt puternic corelate. Dacă gradul de corelaŃie,
măsurat prin coeficientul de corelaŃie liniară, are o valoare apropiată de 1 sau -1, atunci
det( X T X ) ≠ 0 , dar valoarea lui este apropiată de zero.

40
Deoarece multicoliniaritarea este întâlnită frecvent, nu se pune problema existenŃei coliniarităŃii ci a
gradului de coliniaritate a datelor din selecŃia considerată.
În condiŃii de Multicoliniaritate imperfectă, se pot estima parametrii modelului prin MCMMP dar
estimatorii obŃinuŃi nu sunt eficienŃi.
3.2. Cauze ale fenomenului de Multicoliniaritate
1. Datele nu au fost observate complet aleator sau au fost excluse anumite grupuri de subiecŃi din
eşantion.
2. RestricŃiile asupra modelului fac să fie eliminaŃi subiecŃi care diferenŃiază datele observate.
3. Specificarea modelului nu este corectă.
4. Modelul este supradeterminat. Are mai multe variabile explicative decât observaŃii.
3.3 ConsecinŃe ale multicoliniarităŃii imperfecte
1. VarianŃele estimatorilor obŃinuŃi prin MCMMP şi erorile lor standard sunt foarte mari.
2. Se acceptă, în mod eronat, ipoteza nulă că parametrii modelului nu sunt semnificativi, datorită
varianŃei mari.
3. Intervalele de încredere pentru parametrii modelului sunt foarte largi, deci sunt imprecise.
4. Rapoartele t sunt foarte mici (coeficienŃii sunt nesemnificativi statistic)
Coeficientul de determinaŃie R 2 are o valoare foarte mare chiar în cazul în care valorile statisticilor t
sunt mici. Pe de o parte testul F respinge ipoteza nulă că toŃi parametrii modelului sunt 0, iar pe de
altă parte testele individuale sunt nesemnificative. Aceste rezultate contradictorii se datorează
multicoliniarităŃii.
5. Estimatorii obŃinuŃi prin MCMMP sunt sensibili la schimbări mici în date; tind să devină instabili.
6. Semnul coeficienŃilor de regresie este greşit.
7. Nu se pot determina contribuŃiile individuale ale variabilelor exogene la suma pătratelor abaterilor
explicate, SSR.
3.4. Indicatori pentru detectatea multicoliniarităŃii-(Nu există teste statistice).
1. Se determină matricea de corelaŃii liniare dintre variabilele explicative. Se observă astfel perechile
de variabile explicative care sunt puternic corelate între ele (dacă | rxi , x j |> 0,85 ). O valoare absolută
apropiată de 1 indică multicoliniaritate.
2. Se reprezintă grafic valorile variabilelor explicative. Dacă se constată analogii în evoluŃie,
deducem că există o corelaŃie puternică între variabile.
3. Calculăm det( X T X ) . Dacă det( X T X ) < 0,1 ⇒ există multicoliniaritate!
4. Se estimează modelul complet şi se calculează R y2 . Se compară R y2 cu R 2 pentru modelul din care
s-a eliminat o variabilă. Dacă valorile sunt apropiate ca mărime, deducem că variabila omisă este
coliniară cu celelalte variabile explicative.
5. Dacă testul F arată că modelul este valid, dar testele t individuale arată că foarte puŃini coeficienŃi
sunt semnificativi, există multicoliniaritate.

6. Criteriul lui Klein


Variabilele xi , x j sunt coliniare dacă R y2 < rx2i x j
Pas1. Se estimează modelul complet (cu k variabile explicative) şi se reŃine R-Squared, notat R y2 .
Pas2. Se calculează matricea de corelaŃii liniare ale variabilelor explicative (rxi , x j ) 1≤i , j ≤ k
Pas3. Se identifică perechile de variabile pentru care există o dependenŃă semnificativă.

7. Regresii auxiliare.
Se regresează x j în raport cu restul variabilelor explicative şi se reŃine R 2j . Dacă există un indice j,
astfel încât R 2j > R 2 , variabila x j este cea care induce multicoliniaritatea.

41
8. Criteriul factorului de inflaŃie a varianŃei (Variance Inflationary Factor)
Se regresează variabila x j în raport cu restul variabilelor explicative şi se notează cu R 2j coeficientul
de determinaŃie.
Se calculează factorul de inflaŃie a varianŃei: VIF j = 1 /(1 − R 2j ) .
Dacă VIF j ≥ 10 , multicoliniaritatea este severă. 90% din varianŃa lui x j este explicată prin celelalte
variabile explicative.
Dacă VIF j ∈ [5,10 ) multicoliniaritatea este moderată.
Dacă VIF j ∈ (1,5) multicoliniaritatea este de nivel redus.
Dacă VIF j = 1 nu există multicoliniaritate.
3.5. SoluŃii pentru a remedia multicoliniaritatea
- Se renunŃă la una din cele două variabile puternic corelate
- Se creşte volumul eşantionului, introducând observaŃii suplimentare
- Să se utilizeze serii transversale
- Se transformă datele. De foarte multe ori problema se rezolvă prin logaritmarea datelor.
Se pot împărŃi datele la una din variabile, dacă are sens.
De asemenea, se pot face diferenŃele de ordinul întâi, în cazul seriilor cronologice. Chiar dacă
nivelurile sunt puternic corelate, adeseori diferenŃele nu mai sunt corelate.
- Aprioric, se calculează matricea coeficienŃilor de corelaŃie liniară, corespunzători variabilelor
exogene, pentru a selecta şi ordona variabilele exogene care pot fi introduse în model.
- PartiŃionarea matricei variabilelor explicative în submatrici cu coloane liniar independente.
Presupunem că avem un model în care variabilele xi şi x j cunt corelate între ele dar sunt necorelate
cu restul variabilelor. Se grupează variabilele a.î. ( x1 ,..., xi ) - necorelate şi ( x j ,..., x k ) - necorelate.
Se estimează modelul de regresie folosind variabilele explicative din primul grup:
yˆ = αˆ 0 + αˆ 1 x1 + ... + αˆ i xi . Se calculează y∗ = y − yˆ . Se estimează apoi restul parametrilor modelului:
yˆ ∗ = βˆ + αˆ x + ... + αˆ x .
0 j j k k

4) Erorile aleatoare nu au media zero


Înseamnă că perturbaŃiile aleatoare au altă medie decât zero dar reziduurile au media egală cu zero.
Avem două cazuri posibile:
- E (ε i ) = µ ≠ 0 , adică erorile aleatoare au aceeaşi medie şi aceasta este diferită de zero, spre
deosebire de modelul clasic în care µ = 0 .
O medie constantă, nenulă, pentru erorile aleatoare, va afecta numai estimaŃia parametrului de
interceptare, în timp ce coeficienŃii pantă nu sunt afectaŃi şi, în cele mai multe aplicaŃii economice,
numai aceşti coeficienŃi prezintă importanŃă, datorită interpretării lor.
Dacă modelul iniŃial este: y i = β 0 + ∑ kj =1 β j xij + ε i , i = 1,2,..., n , acesta se poate scrie sub forma:
y i = ( β 0 + µ ) + ∑ kj =1 β j xij + (ε i − µ ) = ( β 0 + µ ) + ∑ kj =1 β j xij + u i , iar E (u i ) = 0 .
Estimatorul parametrului de interceptare este deplasat dar estimatorii parametrilor β sunt
nedeplasaŃi.
Neîndeplinirea ipotezei I2 se poate datora unei erori de specificare, de exemplu o variabilă relevantă
a fost omisă din model.
- E (ε i ) = µ i , adică perturbaŃiile aleatoare au o medie care variază cu fiecare observaŃie. Parametrul
de interceptare variază cu fiecare observaŃie şi vom avea mai mulŃi parametri decât observaŃii.
Modelul de regresie nu poate fi estimat fără informaŃii suplimentare.

42
5) Testarea de restricŃii liniare asupra coeficienŃilor unui model de regresie
Pentru a testa restricŃii liniare cu privire la parametrii modelului, se utilizează ipotezele:
H 0 : Rβ = r (restricŃiile sunt valide)
H 1 : Rβ ≠ r (restricŃiile nu sunt valide)
Matricea R ∈ M ( q ,k ) este o matrice de elemente cunoscute, q este numărul de restricŃii liniare de
testat, k este numărul de parametri de estimat, iar r este un vector cu q elemente cunoscute. rgR = q ,
ceea ce înseamnă că restricŃiile sunt liniar independente. Matricea R şi vectorul r permit exprimarea
oricăror restricŃii liniare în formă matriceală.
Ex1: Considerăm un model cu 4 variabile explicative. Dorim să testăm restricŃia
H 0 : 6 β 3 − 2 β 2 = 12 (restricŃia este validă)
H 1 : 6 β 3 − 2 β 2 ≠ 12 (restricŃia nu este validă)
Matricea R este R = (0 − 2 6 0) , iar r = 12 .
Dacă ipoteza nulă include mai multe restricŃii, abordarea este similară:
Ex2:
H 0 : 2 β1 + β 2 = 1 (restricŃiile sunt valide)
β1 + 3β 4 = 2
H 1 : nonH 0 (restricŃiile nu sunt valide)
 2 1 0 0 1
Matricea R este R =   , iar r =   .
1 0 0 3   2
În modelul cu restricŃii MR notăm cu SSER suma pătratelor erorilor de estimare, pR numărul
parametrilor estimaŃi şi n numărul de observaŃii.
În modelul fără restricŃii MFR notăm cu SSEFR suma pătratelor erorilor de estimare şi pFR numărul de
parametrilor estimaŃi.

I) Testul Wald, bazat pe statistica F

( SSE R − SSE FR ) /( p FR − p R )
F= ~ F( pFR , pR )
SSR FR /(n − p FR )
Din tabelele repartiŃiei F se determină valoarea critică pentru nivelul de specificaŃie ales. Dacă
Fcalc > Fcritic respingem H0 şi acceptăm H1, deci restricŃiile nu sunt valide.

II) Testul Hi-pătrat


Estimăm modelul cu restricŃii MR şi reŃinem reziduurile eR. Estimăm apoi, o regresie auxiliară, a
acestor reziduuri, în raport cu toate variabilele explicative şi reŃinem coeficientul de determinaŃie
obŃinut, Ra2 . Se foloseşte statistica:
LM = n ⋅ Ra2 ~ χ (2pFR − pR ) = χ q2
Dacă valoarea calculată n ⋅ Ra2 > χ critic
2
respingem H0 şi acceptăm H1, deci restricŃiile nu sunt valide.

43

S-ar putea să vă placă și