Modelul de Regresie Liniara Multipla

Capitolul 3
MODELUL DE REGRESIE LINIARĂ MULTIPLĂ
3.1. Ipotezele ce permit specificarea modelului clasic de regresie

liniară multiplă
Prima ipoteză se referă la:

(i1) Forma funcţională a modelului. Vom presupune că între o variabilă
dependentă Y şi un m-uplu de variabile independente X1,..., Xm se stabileşte o
dependenţă stochastică liniară de forma:
yi = β 0 + β1 ⋅ x1i + ... + β m ⋅ xmi + ε i (3.1′)
sau, în scriere matriceală:

y = X ⋅ β +ε (3.1′′)
Prezenţa erorii aditive, desemnată prin termenul ε i , dă caracterul stochastic al

modelului.
Este necesar să distingem între acest model, definit de parametrii necunoscuţi β0,
β1,..., βm prin care se specifică structural legăturile dintre variabile la nivelul întregii
populaţii statistice şi replicile sale construite pe baza unor eşantioane aleatoare, din
care se pot deduce tot atâtea serii de estimaţii posibile b0, b1,..., bm ale parametrilor
respectivi:
y i = b0 + b1 ⋅ x1i + ... + bm ⋅ x mi + ei (3.2′)
sau, în formă matriceală:

y = X ⋅b + e (3.2′′)
unde ei are semnificaţia unui termen rezidual.

Să considerăm un spaţiu de eşantionare n-dimensional, inclus în spaţiul
observaţiilor. Atunci y, x1 , x2 ,..., xm ∈ ℜ n sunt vectorii valorilor eşantionate, 1∈ ℜ n
este vectorul cu toate componentele egale cu unitatea, iar e ∈ ℜ n este vectorul
reziduurilor. Pentru modelele cu intercepţie (termen liber), vectorii 1, x1,..., xm
desemnează cele k = m+1 coloane ale matricei X. În modelul fără intercepţie,
X = ( x1 , K , x m ) , deci k = m.
Dacă notăm cu Θ ⊆ ℜ k spaţiul k-diemnsional al parametrilor, avem:
β , b ∈ Θ ⊆ ℜk (3.3)
Celelalte ipoteze fundamentale sunt:
70 Curs de econometrie
(i2) Ipoteze cu privire la erorile ε i .

(i2.a) Termenii eroare ε i sunt variabile aleatoare de medie (speranţă
matematică) nulă:
E (ε i ) = 0 , ∀i (3.4′)
ceea ce se mai poate scrie vectorial astfel:
E (ε ) = 0 (3.4′′)
(i2.b) Matricea de covarianţă a vectorului erorilor este de forma:
Σε = Cov (ε ) = E (ε ⋅ ε ′) = σ 2 ⋅ I (3.5)
ceea ce echivalează cu satisfacerea următoarelor două proprietăţi:
(i2.b1) Homoscedasticitate (dispersia este constantă: nu depinde de i , deci
de succesiunea în timp sau spaţiu a observaţiilor):
( )
Var (εi ) = E εi2 = σ 2 = constant ∀ i (3.6)
(i2.b2) Absenţa corelaţiei seriale (autocorelaţiei). Erorile {ε i } constituie o

secvenţă de variabile aleatoare necorelate între ele:
Cor (ε i , ε j ) = 0, ∀i ≠ j
Cum însă
(
Cor ε i , ε j = ) (
Cov ε i , ε j )
σ εi ⋅ σ ε j
ipoteza precedentă revine la a considera:

( ) ( )
Cov ε i , ε j = E ε i ⋅ ε j = 0, ∀i ≠ j (3.7)
În baza acestor presupoziţii, matricea de covarianţă a perturbaţiilor se poate

scrie:
 ε1   
 E ε 12 ( )
E (ε 1 ⋅ ε 2 ) E (ε 1 ⋅ ε 3 ) L
  
Cov(ε ) = E (ε ⋅ ε ′) = E  ε 2 [ε 1 ε 2 L] = 
E (ε 2 ⋅ ε1 ) E ε 22 ( )
E (ε 2 ⋅ ε n ) L

 L   E (ε 3 ⋅ ε1 ) E (ε 3 ⋅ ε 2 )

E ε 32 ( ) L

  
 L L L L
σ 2 0 0 L
 
0 σ 2
0 L
= = σ 2I
0 0 σ2 L 
 
 L L L L
Modelul de regresie liniară multiplă 71
(i3) Ipoteze cu privire la regresorii Xj .

(i3.a) Între variabilele explicative X j , j = 1, K , m şi variabila explicată Y
există o diferenţă de natură: primele se pot fixa experimental, deci nu au caracter
stochastic, spre deosebire de ultima, ale cărei realizări generează o distribuţie de
probabilităţi, chiar şi în ipoteza conservării condiţiilor experimentale, fapt ce îi
conferă caracter stochastic. Nestochasticitatea regresorilor X j implică independenţa
dintre X şi ε , adică:
(i3.a1) E (ε | X ) = E (ε ) = 0 (3.8)
(i3.a2) Cov ( X , ε ) = E ( X ′ ⋅ ε ) = X ′ ⋅ E (ε ) = 0 (3.9)
(i3.a3) Cov (ε | X ) = E (ε ⋅ ε ′ | X ) = E (ε ⋅ ε ′) = σ 2 ⋅ I (3.10)
(i3.b) Variabilele X 1 , K , X m sunt liniar independente, proprietate ce exclude
multicoliniaritatea şi se verifică prin condiţia ca rangul matricei X să fie maximal
(egal cu numărul de coloane):
rang ( X ) = k ≤ n (3.11)
Din ipotezele (i1) şi (i3.a1) deducem că partea deterministă a modelului coincide
cu media condiţionată a lui Y în raport cu X :
E ( y | X ) = X β + E (ε | X ) = X β (3.12)
Ultima relaţie, împreună cu ipotezele (i1) şi (i3.a3), arată, în plus, că matricea de
covarianţă a lui Y , condiţionată de X , coincide cu cea a lui ε :
′
Cov (Y | X ) = E  (Y − E (Y )) ⋅ (Y − E (Y )) X  = E (ε ⋅ ε ′ X ) = σ 2 ⋅ I (3.13)
 
3.2. Deducerea estimatorului CMMPO
În condiţiile verificării ipotezelor prezentate mai sus, metoda celor mai mici
pătrate ordinare (CMMPO) poate fi utilizată pentru determinarea unui estimator b al
vectorul necunoscut β al modelului de regresie liniară multiplă. Acest estimator
trebuie să îndeplinească câteva condiţii minimale, între care:
- să fie nedeplasat: E (b) = β , adică speranţa matematică a vectorului aleator b
să fie egală cu parametrul de estimat β ;
- să aibă dispersie minimă în clasa estimatorilor liniari nedeplasaţi.
Atunci când ipotezele prezentate în secţiunea 3.1 sunt satisfăcute, estimatorul
CMMPO îndeplineşte condiţiile precedente.
Metoda CMMPO ce permite deducerea estimatorului b constă în minimizarea
sumei pătratelor reziduurilor definite de componentele vectorului reziduurilor e .
Din relaţia y = X ⋅ b + e obţinem:
e= y− X b (3.14)
Suma pătratelor reziduurilor se exprimă atunci prin:

n
∑ ei2 = = e′e = ( y − Xb )′ ( y − Xb ) = ( y ′ − b′X ′)( y − Xb )
2
e
i =1
(3.15)
= y ′y − 2b′X ′y + b′X ′Xb = F (b )
Am utilizat faptul că b ′X ′ y = y ′Xb , deoarece prima formă pătratică este

transpusa celei de-a doua, ambele având drept rezultat scalari.
Criteriul CMMPO revine la a determina argumentul vectorial b al funcţiei F (b) ,
care minimizează suma pătratelor reziduurilor:
arg min F (b ) (3.16)
Condiţia necesară de ordinul întâi pentru această problemă de minim este:
∂ F (b )
= − 2 X ′y + 2 X ′Xb = 0 (3.17)
∂b
şi conduce la următorul sistem de ecuaţii normale:
X′ X b= X′ y (3.18)
De aici deducem următoarea relaţie (utilă în cele ce urmează):
X ′( y − Xb ) = X ′e = 0 (3.19)
Estimatorul b al vectorului β al parametrilor, bazat pe metoda CMMPO, se
obţine ca soluţie a acestui sistem, deci:
b = ( X ′X ) X ′y
−1
(3.20)
Pentru a vedea că soluţia b reprezintă într-adevăr un minim, să arătăm că el
verifică în plus condiţia suficientă de ordinul doi, adică hessiana:
∂ 2 F (b )
= 2 X ′X
∂b ∂b′
este pozitiv definită.

Fie forma pătratică q = c ′X ′Xc , definită pentru un vector arbitrar c. Atunci:
q = v ′v = ∑i vi2 , unde v = Xc
Cu excepţia cazului când fiecare element al lui v este nul, q este strict pozitivă.
Dar pentru a putea avea v identic nul ar trebui să existe o combinaţie liniară nulă
formată din coloanele lui X. Aceasta ar contrazice însă ipoteza (i3.b), conform căreia
X este de rang maximal:
rang ( X ) = k ≤ n
unde k este numărul de coloane al matricei X.
3.3. Interpretarea geometrică a estimatorului CMMPO. Matricea

asociată operatorului de proiecţie ortogonală
Fie ℜ n un spaţiu vectorial şi W1, respectiv W2, două subspaţii disjuncte

W1∩W2 = {0}, a căror reuniune generează ℜ n (notă: cu {0} s-a notat vectorul nul).
Atunci, ℜ n se poate exprima ca sumă directă de W1 şi W2:
ℜ n = W1 ⊕W2
în sensul că orice vector y∈ ℜ n se poate scrie în mod unic sub forma:

y = w1 + w2 , cu w1 ∈W1 , w2 ∈W2
Definiţie: Un proiector ortogonal p este un operator liniar ce acţionează ca
endomorfism pe spaţiul vectorial ℜ n şi este astfel încât:
Im( p ) ⊥ Ker ( p ) (3.21)
Un proiector ortogonal p : ℜ n → W induce decompoziţia spaţiului vectorial

ℜ n într-o sumă directă de două subspaţii:
ℜ n = W ⊕W ⊥ , cu W = Im( p ); W ⊥ = Ker ( p ) = Im(1 − p ) (3.22)
Endomorfismul (1 − p ) : ℜ n → W ⊥ este complementarul endomorfismului p

şi avem:
Ker(p) = Im(1−p) ⊥ Im(p)
W ⊥ se numeşte complementul ortogonal al subspaţiului W.
Teorema 3.1. P este o matrice de proiecţie ortogonală, asociată proiectorului

ortogonal p, dacă şi numai dacă P este simetrică şi idempotentă.
Demonstraţie: Fie y∈ ℜ n , yˆ ∈W şi să admitem că P este o matrice de proiecţie
ortogonală. Atunci P induce decompoziţia ℜ n = W ⊕ W ⊥ , deci putem scrie y sub
forma:
y = yˆ + ( y − yˆ )
unde: yˆ = Py ∈ Im(P ), y − yˆ = (I − P ) ⋅ y ∈W ⊥ = Im(I − P ) = Ker (P ) .

Dar Im(P) ⊥ Im(I−P), deci:
yˆ = Py ⊥ (I − P ) y = y − yˆ ⇒ < Py , (I − P ) y > = y ′(I − P ′) ⋅ Py = 0
∀ y ∈ ℜ n ⇒ (I − P ′) ⋅ P = 0 ⇒ P = P ′P ⇒ P ′ = (P ′P )′ = P ′P = P
deci P este simetrică. Totodată, din P = P ′P şi P ′ = P , rezultă P = P 2 , deci P

este idempotentă.
Reciproc, dacă admitem că P = P ′ = P 2 , atunci descompunerea y = yˆ + ( y − yˆ )
este ortogonală, deoarece:
( y - yˆ )′ yˆ = [( I - P ) y ]′ Py = y ′ ( I - P′) Py = y ′ ( P - P 2 ) y = 0
Fie acum modelul de regresie liniară Y = Xβ + ε şi să presupunem că X este de
rang maximal, adică rang(X) = k. Prin urmare, coloanele lui X reprezintă k vectori
liniari independenţi din ℜ n . Notăm cu Im(X) subspaţiul vectorial generat de
coloanele matricei X. Avem că:
X b∈ Im ( X ), ∀ b∈ℜ k (3.23)
deoarece se obţine ca o combinaţie liniară a coloanelor liniar independente ale lui X.
Pe de altă parte, fie P matricea de proiecţie ortogonală asociată proiectorului
ortogonal p: ℜ n → Im(X). Atunci, ∀y∈ ℜ n , ∃ ŷ ∈Im(X), astfel încât ŷ = Py. În
consecinţă, vectorul y − yˆ = y − Py aparţinând complementului ortogonal Im(X)⊥ al
subspaţiului Im(X), este ortogonal pe y şi implicit pe orice vector din Im(X). Cum
toţi vectorii din Im(X) au forma Xb rezultă că ∃b∈ ℜ k , astfel încât:
X b = yˆ = Py cu < X b, y − Py > = < Xb, y − Xb > = 0 ⇒
b′X ′( y − Xb ) = 0 ⇔ X ′y = X ′X b ⇔ b = ( X ′X )−1 X ′y ⇒ (3.24)
Py = Xb = X ( X ′X ) X ′y ⇒ P = X ( X ′X ) X ′
−1 −1
Am arătat astfel că matricea de proiecţie ortogonală a vectorului y ∈ ℜ n pe

subspaţiul Im(X), este de forma P = X ( X ′X ) X ′ . Se deduce imediat că matricea
−1
∈ ℜ n pe complementul ortogonal Im(X)⊥

de proiecţie ortogonală a vectorului y∈
al subspaţiului Im(X) este dată de:
[
Q = (I − P ) = I − X ( X ′X )−1 X ′ ] (3.25)
Astfel:
Q ⋅ y = (I − P ) ⋅ y = ( y − yˆ ) = e ∈ Im( X )⊥ (3.26)
3.4. Deducerea estimatorului CMMPO în cazul partiţionării matricei

X
Fie o matrice M nesingulară, de dimensiune p×p, partiţionată după cum

urmează:
 M 11 M 12 
M = 
 M 21 M 22 
unde: dim( M 11 )=p1×p1 ; dim( M 12 )=p1×p2 ;
dim( M 21 )=p2×p1 ; dim( M 22 )=p2×p2 .
−1
Presupunând că M 11 şi D = M 22 − M 21 M 11 M 12 sunt nesingulare, se
poate verifica relaţia:
M −1
−1
 M 11
=
(
I + M 12 D −1 M 21 M 11
−1
) −1
− M 11 M 12 D −1 

 − D −1 M 21 M 11
−1
D −1 
Vom utiliza acest rezultat pentru a obţine forma estimatorului CMMPO în

cazul partiţionării matricei X . Fie:
X = [X 1 X2]
unde: dim( X ) = n × k , dim( X 1 ) = n × k1 , dim( X 2 ) = n × k 2

Atunci modelul y = Xβ + ε se poate rescrie:
y = X 1 β1 + X 2 β 2 + ε
iar estimatorul CMMPO al lui β , adică b = (X′ X)−1 X′ y, devine:

−1
 b1   X 1′ X 1 X 1′ X 2   X 1′ y 
 =  ⋅  (3.27′)
b2   X 2′ X 1 X 2′ X 2   X 2′ y 
Notând:
Q1 = I − X 1 ( X 1′ X 1 )−1 X 1′
D = X 2′ X 2 − X 2′ X 1 ( X 1′ X 1 )−1 X 1′ X 2 = X 2′ Q1 X 2 (3.28)
şi aplicând regula de inversare (2.78) a unei matrici partiţionate, obţinem:

 b1  ( X 1′ X 1 )−1 X 1′ y − ( X 1′ X 1 )−1 X 1′ X 2 D −1 X 2′ Q1 y 
 =  (3.27′′)
b2   D −1 X 2′ Q1 y 

Putem utiliza acest rezultat pentru a da o formă mai convenabilă modelului
cu intercepţie (termen liber):
y = 1⋅ β 0 + X * ⋅ β* + ε
Vom partiţiona matricea X sub forma:

X = [1 X * ] ,
unde: dim( X ) = n × k , dim(1) = n × 1 , dim( X * ) = n × m

Atunci estimatorul b al vectorului β al parametrilor va fi exprimat prin:
−1
b0 
[ ′ −1
′ ]
 1′    1′ 
  = (1 X * ) (1 X * ) [1 X * ] y =  (1 X * )   y
 X *′    X *′ 
b* 
(3.29′)
−1 −1
 1′ 1 1′ X *   1′ y   n nX *′   ny 
=   =   
 X *′ 1 X *′ X *   X *′ y  nX *′ X *′ X *   X *′ y 
unde: X * este un vector coloană al mediilor celor m variabile ale căror valori
generează coloanele lui X * , iar y este media variabilei y .
Pentru simplificarea reprezentărilor, vom introduce un operator de centrare
a variabilelor iniţiale (coloanele lui X * ) în raport cu media acestora:
1 ⋅ 1′
Q1 = I − ; W = Q1 X * = X * − 1X *′
n
unde Q1 este simetrică şi idempotentă ( Q1′ = Q1 ; Q12 = Q1 ), reprezentând de fapt
matricea de proiecţie ortogonală pe subspaţiul Im(1) ⊥ , deci pe complementul
ortogonal al subspaţiului generat de vectorul 1. Cu notaţiile:
D = W ′W = X *′Q1Q1 X * = X *′Q1 X * = X *′ X * − nX * X *′
G = W ′y = X *′Q1 y = X *′ y − nyX *
se obţine:
−1
b0   1 + X *′ D −1 X * 
− X *′ D −1   ny 
  = n  =
b*   − D −1 X D −1 
  X *′ y 
 * (3.29′′)
−1
 y − X *′ D ( X *′ y − nyX * 
= 
 D −1 (X *′ y − nyX * ) 
În cazul unor implementări informatice sunt cu deosebire utile următoarele

forme echivalente ale estimatorii b* şi b0 :
b* = D −1 (X *′ y − nyX * ) = D −1G b* = (W ′W )−1W ′y
 ⇔  (3.29′′′)
 b0 = y − X *′ b*  b0 = y − X *′ b*
3.5. Proprietăţile estimatorului CMMPO. Teorema Gauss-Markov
În cele ce urmează, ne va interesa clasa estimatorilor liniari ai parametrului

vectorial necunoscut β, adică familia funcţiilor liniare L:
b = L ⋅ y = L ( Xβ + ε ) = LXβ + Lε (3.30)
unde L este o matrice care nu depinde decât de X. Mai mult, dintre estimatorii liniari
(potenţiali) ai lui β nu vom considera decât pe aceia care sunt nedeplasaţi, adică
E[b] = β. Dar, întrucât X nu este o matrice stochastică, iar E[ε]=0, avem:
E[b] = E[Ly] = E[L(Xβ+ε)] = LXβ+E[ε] = LXβ (3.31)
şi din condiţia ca b să nu fie deplasat, adică E[b] = β, deducem:
LX = I (3.32)
Din relaţia (3.3) rezultă imediat că:
XLX = X (3.33)
adică L este o inversă generalizată a lui X.
Observaţie: Această constatare este importantă, deoarece atunci când X nu este
de rang maximal (deci nu are coloanele liniar independente), nu există
invers[ ( X ′X )−1 şi nu putem utiliza pentru construcţia estimatorului liniar operatorul
L = ( X ′X )−1 X ′ , ci va trebui să apelăm la o inversă generalizată.
Propoziţie: Relaţia (3.33) este echivalentă cu:
(XL)2 = XL şi în plus Im(XL) = Im(X) (3.34)
Demonstrarea idempotenţei este imediată. Să arătăm acum că în baza lui (3.33)
are loc egalitatea Im(XL) = Im(X). Într-adevăr, să presupunem că ~y ∈ Im(XL ) .
Atunci:
y = XLv = Xw∈Im( X ), unde w = Lv
~
şi astfel avem incluziunea Im( XL ) ⊂ Im( X ) . Incluziunea Im( X ) ⊂ Im( XL ) se

demonstrează analog. Prin urmare, Im( XL ) = Im( X ) .
Reciproc, din presupunerea că Im( XL ) = Im( X ) este adevărată, rezultă că XL
este o matrice de proiecţie pe Im(X) (nu în mod necesar ortogonală, fiind doar
idempotentă; simetria ar asigura şi ortogonalitatea, iar atunci am
avea XL = X ( X ′X )−1 X ′ = P . Această proiecţie acţionează ca operator identitate pe
sub-spaţiul Im(X), adică:
XL( Xv ) = Xv ∀v ∈ ℜ k
ceea ce dă XLX = X.
Teorema 3.2 (Gauss-Markov). În ipotezele clasice ale modelului de regresie
liniară multiplă, estimatorul CMMPO dat de b = ( X ′X ) X ′y este estimatorul de
−1
dispersie minimă în clasa estimatorilor liniari nedeplasaţi (BLUE = "Best Linear

Unbiased Estimator"), iar matricea sa de covarianţă este:
∑ b = σ 2 ( X ′X )
−1
(3.35)
Demonstraţie: Din (3.30) - (3.32) rezultă:

b − β = b − E [b ] = Lε (3.36)
De aici deducem că matricea de covarianţă a estimatorului liniar nedeplasat b
este:
Σ b = E (b − β )(b − β )′  = E (Lε )(Lε )′  = E [Lεε ′L′]
    (3.37)
= LE [εε ] L = Lσ IL = σ LL
′ ′ 2
′ 2
′
Vom arăta că b este estimatorul liniar nedeplasat de dispersie minimă[ (BLUE)

dacă:
L = ( X ′ X ) −1 X ′ (3.38)
Se verifică imediat că L satisface condiţia (3.32):
LX = ( X ′X )−1 X ′X = I
deci estimatorul CMMPO construit cu ajutorul său este liniar şi nedeplasat.
Eroarea de eşantion a lui b este (conform (3.36)):
b − β = Lε = ( X ′X )−1 X ′ε (3.39)
iar din (3.8) rezultă matricea de covarianţă a lui b:
∑b = σ 2 LL′ = σ 2 ( X ′X )−1 X ′ ⋅ X ( X ′X )−1 = σ 2 ( X ′X )−1 (3.40)
Să presupunem prin absurd că ar exista (în condiţiile ipotezelor clasice din §3.1)
~
un alt estimator liniar nedeplasat b al lui β:
~ ~ ~
b = L y , cu L ≠ ( X ′X )−1 X ′ (3.41)
care să aibă dispersia mai mică decât b. Notăm:
~
L = L + Λ = ( X ′X )−1 X ′ + Λ (3.42)
unde Λ este o matrice nestochastică.
~
Pentru ca b să fie nedeplasat, este necesar ca:
~
L X = LX + ΛX = I + ΛX = I ⇒ ΛX = 0 (3.43)
şi în acest caz matricea de covarianţă va fi:

[
∑b~ = σ 2  ( X ′X )−1 X + Λ

] [(X ′X )
−1 ′
X′+ Λ 

]
[
= σ 2 ( X ′X )−1 + ΛX ( X ′X )−1 + ( X ′X )−1 X ′Λ ′ + ΛΛ ′ ]
=σ2 [(X ′X )−1
]
+ ΛΛ ′ = ∑ b + σ 2 ΛΛ ′ (3.44)
Ţinând cont de faptul că pentru orice matrice reală arbitrară Λ, produsul Λ⋅Λ/
reprezintă o matrice simetrică şi nenegativ definită, vedem că dispersia
~
estimatorului b nu poate fi decât mai mare, sau în cel mai bun caz egală cu dispersia
lui b. Prin urmare, estimatorul CMMPO dat de b = Ly = (X′X)-1 X′y, este estimatorul
de dispersie minimă în clasa estimatorilor liniari nedeplasaţi, iar matricea sa de
covarianţă este dată de (3.40).
Dacă ţinem seama de faptul că oricare ar fi două matrici A şi B avem:
rang ( A ⋅ B ) ≤ min{rang ( A), rang ( B )}
condiţia (i3.b) ca X să aibă rang maximal este esenţială pentru existenţa
estimatorului CMMPO dat în forma de mai sus (unde matricea X′X se presupune a fi
inversabilă).
3.6. Deducerea estimatorului nedeplasat al dispersiei erorilor
Deoarece dispersia σ2 a erorilor este un parametru necunoscut, în practică,

pentru calculul matricei de covarianţă Σb , trebuie să apelăm la o estimaţie s2 a lui σ2 ,
calculabilă plecând de la vectorul reziduurilor e . Astfel:
e = y − yˆ = ( Xβ + ε ) − Xb = ε − X (b − β ) = ε − XLε
(3.45)
= ε − Pε = [I − P ]ε = Qε
unde Q este matricea de proiecţie ortogonală (deci simetrică şi idempotentă) pe sub-
spaţiul Im(X)⊥ (complementul ortogonal al sub-spaţiului Im(X)).
Suma pătratelor reziduurilor este dată de produsul scalar:
e′e = ε ′Q ′Qε = ε ′Q 2ε = ε ′Qε (3.46)
Speranţa matematică a expresiei de mai sus se exprimă succesiv astfel:
E [e′ ⋅ e] = E [ε ′Qε ]
= E [tr (ε ′Qε )], deoarece ε ′Qε este un scalar
= E [tr (Qεε ′)], deoarece tr ( AB ) = tr (BA)
(
= tr (E [Qεε ′]), deoarece trace este o functie liniara (3.47)
(
= tr (QE [εε ′]), deoarece Q este nestocastica
( )
= tr Qσ 2 I , conform ipotezelor (i 2 )
= σ tr (Q ), deoarece tr (k ⋅ A) = k ⋅ tr ( A)
2
Pe de altă parte, ţinând cont de expresia lui Q (din secţiunea anterioară), avem:
[
tr (Q ) = tr I n − X ( X ′X )−1 X ′ ]
[ ]
= tr[I n ] − tr X ( X ′X )−1 X ′ , tr ( A + B ) = tr ( A) + tr (B )
= tr[I ] − tr [X ′X ( X ′X ) ],
n
−1
tr ( AB ) = tr (BA) (3.48)
= tr[I n ] − tr[I k ],
= n − k , deoarece tr[I n ] = n
Am demonstrat astfel că speranţa matematică a sumei pătratelor reziduurilor

este:
E [e′e] = σ 2 ⋅ (n − k ) (3.49)
de unde putem deduce că un estimator nedeplasat s2 al dispersiei erorilor σ2 se obţine
împărţind e′ ⋅ e la n-k, adică:
n
e′e
∑e 2
i
s2 = = i =1 (3.50)
n−k n−k
Într-adevăr:
E [e′e]
[ ]
E s2 =
n−k
=σ2 (3.51)
Notând cu m numărul variabilelor explicative, avem:
m + 1 dacă β 0 ≠ 0 (model cu interceptie)

k = (3.52)
m dacă β0 = 0
3.7. Estimatorul nedeplasat al matricei de covarianţă Σb a lui b
Ţinând cont de ipoteza conform căreia matricea X este nestochastică, urmează

că (X′X)-1 este de asemenea nestochastică şi, prin urmare, un estimator nedeplasat al
matricei de covarianţă a lui b se poate obţine utilizând s2 în locul lui σ2, adică:
S b = s 2 ⋅ ( X ′X )
−1
(3.53)
Într-adevăr:
[
E [Sb ] = E s 2 ⋅ ( X ′X )
−1
] = E[s ]⋅ ( X ′X )
2 −1
= σ 2 ⋅ ( X ′X ) = ∑ b
−1
(3.54)
3.8. Descompunerea dispersiei totale a lui y
Numim variaţie totală a variabilei dependente Y, suma pătratelor abaterilor

celor n valori individuale yi de la media lor empirică y . Există două surse ce induc
variabilitatea lui y şi care concură la formarea variaţiei totale a acestuia: una este
explicată de abaterea valorilor observate yi de la valorile ŷi situate pe hiperplanul
de regresie, iar cealaltă nu are o cauză sistematică (este deci "neexplicată") şi
reprezintă abaterile reziduale.
Matricea simetrică şi idempotentă:
1 ⋅ 1′
Q1 = I − (3.55)
n
joacă rolul unui operator de centrare al unei variabile în raport cu media acesteia.
Aplicând Q1 vectorului y asociat variabilei dependente Y, vom obţine vectorul
valorilor centrate γ i = y i − y (i=1,...,n), adică:
 y
 1 ⋅ 1′   
γ = Q1 ⋅ y =  I −  ⋅ y = y − Y = y − M  (3.56)
 n   y
 
Variaţia totală a lui Y (notată convenţional SST) se calculează cu relaţia:
n
SST = ∑ ( yi − y )2 = γ ′ ⋅ γ = (Q1 y )′ (Q1 y ) = y ′Q1′Q1 y
i =1
 1 ⋅ 1′ 
= y ′Q12 y = y ′Q1 y = y ′ I − y
 n  (3.57)
1 ⋅ 1′ y ′ ⋅ 1 y ⋅ 1′
= y ′y − y ′ y = y ′y − n ⋅ ⋅
n n n
= y ′y − n ⋅ y 2
Totodată, plecând de la y = X b + e = yˆ + e , suma pătratelor valorilor yi se poate

exprima cu ajutorul produsului scalar:
y′ y = yˆ ′ yˆ + e′ e (3.58)
Într-adevăr:
n
∑ yi2 = y ′ ⋅ y = ( Xb + e)′ ( Xb + e)
i =1
= b′X ′Xb + e′Xb + b′X ′e + e′e (3.59)
= b′X ′Xb + e′e = yˆ ′yˆ + e′e
Observaţie: Anularea termenilor X ′e , respectiv e′X , decurge din verificarea

condiţiilor de ordinul întâi care determină sistemul de ecuaţii normale:
X ′y = X ′Xb = X ′( y − Xb ) = X ′e = 0 (3.60)
La rândul său, vectorul reziduurilor se descompune astfel:
e = y − yˆ = y − Xb = y − X ( X ′X )−1 X ′y = [ I − X ( X ′X )−1 X ′] ⋅ y = Q ⋅ y (3.61)
unde Q este o matrice simetrică ( Q′ = Q ) şi în plus Q 2 = Q .

Variaţia reziduală (notată SSE) are atunci expresia:
n n
SSE = ∑ ( yi − yˆ i )2 = ∑ ei2 = e′ ⋅ e = y ′Q ′Q y = y ′Q 2 y = y ′Q y = (3.62)
i =1 i =1
= y ′ e = y ′ ( y − Xb ) = y ′ y − y ′ X b = y ′ y − b′ X ′ y
deoarece y ′ X b este un scalar şi deci y′ X b = ( y′ X b)′ = b′ X ′ y .

Diferenţa SSR = SST - SSE desemnează variaţia lui Y explicată de regresie. În
consecinţă, obţinem următoarea descompunere a variaţiei totale a lui Y:
(
SST = γ ′γ = y′y − ny 2 = b′X ′Xb − ny 2 + e′e ) (3.63)
( )
= b′X ′Xb − ny + ( y′y − b′X ′y ) = SSR + SSE
2
unde:
SST = γ ′γ = y′y − ny 2 = ∑ in=1 ( yi − y )
2
= variaţia totală a lui Y;
SSR = b′X ′Xb − ny 2 = ∑in=1 ( yˆ i − y )

2
= variaţia explicată a lui Y;
∑ ( y − yˆ )
n
SSE = y′y − b′X ′y = i =1 i i = variaţia reziduală a lui Y.
Următorul tabel sintetizează principalele rezultate referitoare la analiza

variaţiei:
Grade de Pătratul mediu

Sursa variaţiei Suma pătratelor
libertate (dispersia)
Explicată de
regresie b ′X ′Xb − ny 2 k-1 (b′X ′Xb − ny )/(k − 1)
2
Reziduală y ′y − b ′X ′y n-k ( y ′y − b ′X ′y ) / (n − k )
Totală y ′y − ny 2 n-1 (y ′y − ny )/(n − 1)
2
Notă: Tabelul furnizează rezultate corecte doar în cazul modelului cu intercepţie,

adică atunci când k = m + 1 , unde m este numărul variabilelor explicative. In
cazul modelului fără intercepţie, sumele nu se mai consideră ca abateri faţă
de medie, iar numărul gradelor de libertate se ajustează corespunzător ( n
pentru totală, n − m pentru reziduală şi m pentru explicată).
3.9. Analiza calităţii ajustării liniare
Calitatea ajustării liniare se poate evalua cu ajutorul indicatorilor:

• Coeficientul de determinaţie, ce reprezintă ponderea variaţiei explicate în
variaţia totală a lui Y şi are expresia:
R 2
=
∑ ( yî i − y)
2
=
b ′X ′Xb − ny 2
(3.64′)
∑ (y i i − y)
2
y ′y − ny 2
De asemenea, R 2 poate fi definit în raport cu variaţia reziduală astfel:
R 2
=1−
∑ ( y − yˆ ) i i i
2
=1−
y ′y − b ′X ′y
(3.64′′)
∑ (y − y) i i
2
y ′y − ny 2
Datorită modului în care a fost definit, R 2 reflectă contribuţia pe ansamblu a

variabilelor independente la explicarea variaţiei totale a lui Y , fiind totodată sensibil
la introducerea în model a unor noi variabile explicative. Acesta reprezintă un aspect
nedorit, ce poate fi eliminat prin corectarea lui R 2 cu gradele de libertate
corespunzătoare celor două variaţii (ceea ce revine la a efectua raportul a două
dispersii):
R 2 =1−
∑ ( y − yˆ )
i i i
2
/( n − k )
=1 −
( y ′y − b′X ′y ) ⋅ (n − 1)
∑ (y − y) i i
2
/( n − 1) (y ′y − ny )⋅ (n − k )
2 (3.65)
Printr-un calcul simplu se arată că între R 2 şi R 2 există relaţia:
R 2 =1− 1− R2 ⋅ ( ) n −1
n−k
(3.66)
• Coeficientul de corelaţie multiplă, ce se obţine extrăgând radical din

coeficientul de determinaţie:
R= 1−
∑ ( y − yˆ )
i i i
2
= 1−
y ′y − b ′X ′y
(3.67)
∑ (y − y) i i
2
y ′y − ny 2
Un alt indicator prin care se poate caracteriza global calitatea ajustării

modelului de regresie este:
• Eroarea standard a estimaţiei, obţinută din dispersia reziduală, prin
extragerea rădăcinii pătrate:
SY , X1 , X 2KX m =
∑ (y
i i − yˆ i )
2
=
e ′e
=
y ′y − b ′X ′y
(3.68)
n−k n−k n−k
3.10. Teste de semnificaţie a parametrilor modelului, întemeiate pe ipoteza

unei distribuţii normale a erorilor
La ipotezele prezentate în §3.1, ce au stat la baza specificării modelului

clasic de regresie, considerăm o ipoteză adiţională şi anume ipoteza de
normalitate a erorilor, respectiv:
(i1) y = Xβ + ε;
(i2.a) E[ε] = 0;
(i2.b) E[ε⋅ ε'] = σ2 ⋅I;
(i3.a) X este nestochastica;
m + 1 dacă β 0 ≠ 0 (∃ interceptie)
(i3.b) rang(X) = k ≤ n , unde k = 
m dacă β 0 = 0
Considerăm o ipoteză adiţională (care restrânge şi mai mult domeniul de

aplicativitate al modelului) şi anume ipoteza de normalitate a erorilor:
(i2.c) ε ∼ N(0, σ2 I)
Această ipoteză este de o importanţă deosebită, întrucât facilitează elaborarea
testelor de semnificaţie cu privire la parametrii modelului.
Vectorul ε definit de ipotezele (i2.a), (i2.b) şi (i2.c) se numeşte vector aleator
normal sferic.
Teorema 3.3. Dacă ε ∼ N(0, σ2 I), atunci:
(i) y ∼ N(Xβ, σ2 I) ;
(ii) b ∼ N(β, σ2 (X′X)-1) ;
(ii′) b − β ∼ N(0, σ2 (X′X)-1) ;
(iii) SSE = e ′e = ε ′Qε ~ σ 2 ⋅ χ n2−k , cu n− k =rang(Q)=tr(Q);
(iv) Notând cu s2 estimatorul nedeplasat al lui σ2:
SSE ε ′Qε s 2 ε ′Qε

= = 2 (n − k ) ~ χ n2−k unde : s 2 = (3.69)
σ 2
σ 2
σ n−k
(v) Forma liniară b − β = Lε este independentă de forma pătratică idempotentă
e′e = ε′Qε şi implicit de raportul [s2 /σ2 ]⋅(n − k).
(vi) Variabila normală standard (bi − β i ) / sbi urmează o distribuţie Student cu
(n− k) grade de libertate, adică:
bi − β i
~ t n −k (3.70)
sbi
Demonstraţie: Fie L=(X′X)-1 X′ matricea estimatorul CMMPO, P=XL matricea

de proiecţie ortogonală pe subspaţiul Im(X), iar Q = I - P matricea de proiecţie
ortogonală pe sub-spaţiul Im(X)⊥.
Punctele (i), (ii) şi (ii′) sunt consecinţe directe ale proprietăţii de conservare a
normalităţii distribuţiei, atunci când unui vector normal i se aplică o transformare
liniară:
ζ ~ N ( µ , Σ ) ⇒ Aζ + q ~ N ( Aµ + q, AΣA′) (3.71)
(i) Cum y = Xβ + ε = Iε + Xβ , este suficient să luăm µ = 0, Σ = σ2I, A = I,
q = Xβ şi rezultă:
(
ε ~ N 0, σ 2 I ) ⇒ y = Iε + Xβ ~ N ( Xβ , σ 2 I ) (3.72)
(ii) Cum b=Ly=L(Xβ+ε)=Lε+LXβ, este suficient să luăm µ = 0, Σ = σ2I, A = L,
( )
q = LXβ şi din ε ~ N 0, σ 2 I rezultă:
( ) (
b = Lε + LXβ ~ N LXβ , Lσ 2 IL ′ = N β , σ 2 ( X ′X )−1 ) (3.73)
(ii′) Estimatorul CMMPO fiind nedeplasat, avem E[b]=β şi deci:

(
b − β ~ N 0, σ 2 ( X ′X )−1 ) (3.74)
(iii) Rezultă direct din condiţiile teoremei 1.9, deoarece ε este un vector normal
sferic, iar ε'Qε este o formă pătratică idempotentă, de rang (n−k).
(iv) Ţinând cont de rezultatul de la punctul precedent, avem:
′
s2
(n − k ) = ε Q2ε ~ χ n2−k (3.75)
σ 2
σ
(v) Forma liniară b − β = Lε şi forma pătratică e′e = ε′Qε sunt independent
distribuite deoarece satisfac condiţiile teoremei 1.10, adică: ε este un vector normal
sferic, Q este o matrice idempotentă şi în plus:
LQ = (X′X)-1X′Q = 0 deoarece QX = (I−P)X = X−PX = X−X = 0
Implicit, deoarece σ2 este un parametru (deci nu are caracter stochastic), b-β = Lε
îşi conservă independenţa şi în raport cu cantitatea:
′
s2
(n − k ) = ε Q2ε (3.76)
σ 2
σ
(vi) Fie ∑ b = σ 2 ( X ′X )−1 matricea de covarianţă a lui b şi S b = s 2 ( X ′X )−1 un

estimator nedeplasat al său. Notăm prin σbi , respectiv sbi , rădăcinile pătratice ale
elementelor diagonale corespunzătoare matricelor Σb, respectiv Sb. Să considerăm

acum raportul:
bi − β i
=
(
bi − sbi σ bi )
=
(bi − β i ) σ bi
(3.77)
sbi sbi σ bi s2
(n − k ) (n − k )
σ2
unde am ţinut cont că sbi /σbi =s/σ. Construim variabilele:
bi − β i s2
zi = ~ N (0, 1) ; x= (n − k ) ~ χ n2−k (3.78)
sbi σ2
despre care am arătat că sunt independente (bi−βi sunt componente ale vectorului
b−β, ia σ bi este un parametru, deci este nestochastic, câtă vreme matricea X este
nestochastică; prin urmare, zi şi x sunt independente). Rezultă atunci (potrivit
teoremei 1.5) că:
bi − β i zi
= ~ t n −k (3.79)
sbi x (n − k )
Acest rezultat poate sta la baza unei probleme de decizie statistică. El ne permite
să formulăm şi să testăm o ipoteză cu privire la un coeficient oarecare βj, respectiv:
H 0 : β j = β *j (3.80)
şi să facem apel, în acest sens, la distribuţia Student (ale cărei valori sunt tabelate,
pentru diverse niveluri de semnificaţie şi grade de libertate).
În condiţiile ipotezei H0, putem să substituim β j cu β *j în raportul precedent,
deci să calculăm statistica:
b j − β *j
tj = (3.81)
sb j
a cărei valoare o vom compara cu valoarea critică tα ; (n − k ) (pentru testul bilateral),

respectiv tα / 2; (n − k ) (pentru testul unilateral), determinată din tabelul distribuţiei
Student, unde α reprezintă nivelul de semnificaţie, iar (n-k) desemnează numărul
gradelor de libertate. Ipoteza H0 este respinsă dacă t j este mai mare decât valoarea
critică şi este admisă în caz contrar.
În particular, pentru β *j = 0 , ipoteza nulă:
H0 : β j = 0 (3.82)
echivalează cu un test de semnificaţie pentru βj ; mai precis, ea reprezintă un criteriu

de a decide dacă o anumită variabilă explicativă X j influenţează (sau nu
influenţează) semnificativ nivelul variabilei dependente Y. În acest caz, se compară
valoarea statisticii t j :
bj
tj = (3.83)
sb j
cu valoarea critică determinată pentru nivelul de semnificaţie α şi gradele de

libertate corespunzătoare, iar respingerea ipotezei nule trebuie interpretată în sensul
acceptării unei influenţe semnificative a lui X j asupra lui Y.
O altă cale de urmat este aceea de a construi un interval de încredere pentru
fiecare coeficient β j , corespunzător pragului de semnificaţie α şi gradelor de
libertate (n − k ) :
β j = b j m tα ; (n − k ) ⋅ s b j (3.84′)
sau, echivalent,
[
β j ∈ b j − tα ; (n − k ) ⋅ s b j , b j + tα ; (n − k ) ⋅ s b j ] (3.84′′)
Între testul ipotezei nule H0 şi abordarea pe baza intervalelor de încredere există

similaritate. Astfel, ipoteza H 0 : β j = β *j este respinsă dacă β *j nu aparţine
intervalului de încredere corespunzător şi este admisă în caz contrar.
3.11. Criteriul lui Wald pentru testarea ipotezei liniare generale
Ipotezele formulate în secţiunea anterioară priveau doar un singur coeficient β j .

Vom analiza acum ipoteza liniară generală, care presupune considerarea unor
combinaţii liniare de coeficienţi:
H 0 : Rβ = q (3.85)
Fiecare linie a lui R reprezintă o restricţie liniară asupra vectorului β al
coeficienţilor, care trebuie testată. Se regăsesc astfel diverse cazuri particulare,
precum:
1°) Un coeficient egal cu zero:
H 0 : β j = 0 ⇔ R=(0,...,0,1,0,...,0) şi q=0;
2°) Doi coeficienţi egali:

H0 : β j = βk ⇔ R=(0,...,1,...,-1,...,0) şi q=0;
3°) Suma a trei coeficienţi egală cu unu:

H0 : β 2 + β 3 + β 4 = 1 ⇔ R=(0,1,1,1,0,...,0) şi q=1;
4°) O submulţime de coeficienţi egali cu zero:
1 0 0 L 0  0
   
H 0 : β1 = β 2 = β 3 = 0 ⇔ R =  0 1 0 L 0 ; q =  0 
0 0 1 L 0  0
   
5°) Mai multe restricţii simultan:
β 1 + β 2 = 1  1 1 0 0 0 1
    
H 0 : β 3 + β 4 = 0 ⇔ R =  0 0 1 1 0 ; q =  0 
β + β = 1  0 1 0 0 1 1
 2 5    
• Criteriul lui Wald

Se dă modelul de regresie liniară multiplă y = Xβ + ε şi fie b estimatorul
CMMPO al lui β. În ipotezele clasice cu privire la vectorul ε al erorilor,
ε ~ N (0, σ 2 ⋅ I n )
se deduc câteva consecinţe importante :
(i). (
b ~ N β , σ 2 ( X ′X ) −1 )
2
s 1
(ii). (n − k ) = (e′ ⋅ e) ~ χ n2− k
σ 2
σ2
(iii). b şi s 2 = e′e (n − k ) sunt independente.
Să considerăm problema elaborării unui test statistic pentru testarea ipotezei
existenţei unor restricţii liniare asupra coeficienţilor :
H 0 : Rβ = q
unde dim R = j × k , j fiind numărul de restricţii liniare.
Înlocuind vectorul necunoscut β al parametrilor cu estimaţia sa b , construim
diferenţa:
d = Rb − q (3.86)
care va semnifica vectorul "discrepanţelor" în raport cu restricţiile impuse prin
ipoteză. Deoarece b este un vector normal distribuit, iar d este o funcţie liniară de
b , rezultă că d este de asemenea un vector normal distribuit. Următorul pas este
determinarea distribuţiei de eşantion a lui d . Dacă ipoteza nulă H 0 : Rβ = q este
adevărată, vectorul speranţelor matematice şi matricea de covarianţă ale lui d vor

fi:
E [d ] = E [Rb − q ] = R ⋅ E [b] − q = Rβ − q = 0 (3.87′)
Cov[d ] = Cov[Rb − q ] = Cov[Rb] = E [Rbb′R′] = R ⋅ E [bb′] ⋅ R′ =

(3.87′′)
= R ⋅ Cov(b) ⋅ R′ = σ 2 R ( X ′X ) R′
−1
(
În plus, din faptul că d este o funcţie liniară de b , iar b ~ N β , σ 2 ( X ′X ) −1 , )
rezultă:
(
d ~ N 0, σ 2 ⋅ R ⋅ ( X ′X ) ⋅ R′
−1
) (3.87′′′)
Cu aceste observaţii, putem să ne fundamentăm testul ipotezei nule H 0 : Rβ = q
pe criteriul lui Wald. La baza construcţiei sale stă următorul rezultat: dându-se un
vector normal x, putem construi o formă pătratică de rang maximal în x, care să aibă
o distribuţie χ2, adică:
x ~ N (µ , Σ ) ⇒ (x − µ )′ Σ −1 (x − µ ) ~ χ 2j ; j = rang (Σ ) (3.88)
Astfel, fie θ vectorul parametrilor şi θˆ un estimator al său obţinut fără

impunerea vreunei restricţii. Să formulăm acum, drept ipoteză, un set de restricţii
asupra vectorului θ al parametrilor:
H 0 : Rθ = q
Dacă restricţiile sunt valide, atunci ele ar trebui să fie satisfăcute (cel puţin cu
aproximaţie) şi de estimaţia θˆ . Dimpotrivă, dacă ipotezele sunt eronate, atunci
Rθˆ = q ar trebui să se abată de la 0 mai mult decât ar putea să o explice doar
variabilitatea datorată eşantionului selectat. Cu precizările de mai sus, putem
construi statistica testului lui Wald:
( ′
)( [
W = Rθˆ − q Cov Rθˆ − q ]) (Rθˆ − q)
−1
(3.89)
În condiţiile ipotezei nule H 0 : Rθ = q , W va avea o distribuţie χ 2 cu un număr

de grade de libertate dat de numărul restricţiilor:
W ~ χ 2j , unde j este numărul restricţiilor (3.90)
În cazul nostru, ipoteza nulă este H 0 : Rβ = q , iar statistica W, distribuită χ 2j ,

este:
(
W = d ′ (Cov[d ])−1 d = d ′ σ 2 R ( X ′ X )−1 R ′ ) −1
d ~ χ 2j (3.91)
Aceasta este o formă pătratică în d, cu j = rang (Cov[d ])−1 . Totuşi, statistica de

mai sus nu prezintă interes practic, deoarece σ 2 ce intră în componenţa lui Cov[d ]
este un parametru necunoscut. Putem deriva însă o statistică utilizabilă prin

înlocuirea lui σ 2 cu s 2 . Fie:
F= 2
W j
=
( ′
( −1
)
Rb − q ) σ 2 R ( X ′X ) R′ (Rb − q ) j
−1
(3.92)
s   s2 
 2 (n − k ) (n − k )  2 (n − k ) (n − k )
σ  σ 
Ţinând cont şi de proprietatea enunţată în teorema 3.3(iv), statistica F este
raportul a doi vectori aleatori, distribuiţi χ 2 şi împărţiţi la gradele de libertate
corespunzătoare ( j , respectiv (n − k ) ). În plus, conform enunţului din teorema
3.3(v), cei doi vectori sunt independenţi, caz în care raportul F urmează, prin
definiţie1, o distribuţie Fisher :
F ~ F( j ; n−k ) (3.93)
Expresia lui F poate fi simplificată prin reducere cu 1 / σ 2 :
(Rb − q )′ (R( X ′X )−1 R′) (Rb − q )

−1
j
F= (3.94′)
e′e (n − k )
sau
(Rb − q )′ (s 2 R( X ′X )−1 R′) (Rb − q )
−1
F= (3.94′′)
j
Statistica astfel calculată se compară apoi cu valoarea critică din tabela

distribuţiei F, determinată pentru j, respectiv ( n − k ) grade de libertate şi pentru un
nivel de semnificaţie α, convenabil ales. Respingerea ipotezei se face atunci când
valoarea calculată este mai mare decât cea critică (tabelată).
3.12. Un caz standard: testarea semnificaţiei modelului de regresie

Un caz standard îl reprezintă utilizarea testului pentru validarea modelului de
regresie liniară, deci a măsurii în care acesta ajustează în chip adecvat datele
experimentale. Mai concret, testarea ipotezei:
H 0 : β1 = β 2 = K = β m = 0 (3.95)
echivalează cu un test de semnificaţie a modelului de regresie. Specific este faptul
că se urmăreşte testarea simultană a semnificaţiei tuturor parametrilor modelului cu
1
Fie W1 ~ χ n21 şi W2 ~ χ n22 , cu W1 şi W2 vectori aleatori independenţi. Atunci:
W1 / n1
~ Fn1 , n2
W2 / n2
rol de coeficienţi unghiulari (care ponderează cele m variabile explicative), exclusiv

termenul intercepţie β 0 :
 0 1 L 0 0  β 0   β1   0 
      
 0 0 L 0 0  β1   β 2   0 
H0 : R β = q ⇔ H0 :  = =
L L L L L L   L   L
      
 0 0 L 0 1  β   β   0 
  m   m   
În acest caz particular, statistica testului este definită de raportul dintre dispersia
explicată şi cea reziduală, raport ce urmează o distribuţie Fisher cu m , respectiv
n − k grade de libertate:
SSR / m
F= ~ F(m , n − k ) (3.96)
SSE / (n − k )
unde:
m + 1 dacă β0 ≠ 0
k =
m dacă β0 = 0
Prin urmare, admiterea sau respingerea ipotezei H 0 se face prin compararea

valorii acestei statistici cu valorile critice ale distribuţiei F pentru m , respectiv
n − k grade de libertate şi pragul de semnificaţie dorit. Formulele de calcul utile
sunt:
F=
(b′X ′Xb − ny ) m
2
(3.97′)
( y′y − b′X ′y ) (n − k )
sau, echivalent,
R2 m
F=
(1 − R ) (n − k )
2
(3.97′′)
Dacă valoarea calculată este mai mare decât valoarea tabelată, ipoteza nulă este
respinsă, deci modelul se consideră semnificativ.
Relaţia precedentă poate fi interpretată şi ca un test de semnificaţie pentru R 2 .
3.13. Estimatorul CMMPO cu restricţii liniare şi legătura sa cu estimatorul

CMMPO fără restricţii
Dacă notăm cu e = y − Xβ vectorul reziduurilor, estimatorul CMMPO cu

restricţii liniare asupra coeficienţilor se obţine ca soluţie a problemei de programare
pătratică:
′
min e ′e = min ( y − Xβ ) ( y − Xβ )
β
supusă la restricţia:
Rβ = q
Pentru a simplifica expresia soluţiei, vom considera vectorul multiplicatorilor
Lagrange dat sub forma: λ0 = 2 λ . Lagrangeanul asociat problemei se scrie atunci:
′
L (β ) = ( y − Xβ ) ⋅ ( y − Xβ ) + 2λ ′ (R β − q )
iar estimatorul CMMPO cu restricţii, notat br , este soluţia problemei:

br = arg min L ( β )
β
Evident, soluţia br şi multiplicatorul λ trebuie să verifice condiţiile necesare de

ordinul întâi:
 ∂L
 ∂ b = 2 X ′( y − Xbr ) + 2 R′λ = 0
 r

 ∂L = 2(Rbr − q ) = 0
 ∂ λ
Făcând substituţia X ′ y = X ′ X b , unde b este estimatorul CMMPO fără

restricţii, putem obţine o expresie pentru br în funcţie de b :
br = b + ( X ′X ) R′λ
−1
Înmulţind această relaţie prin R şi impunând restricţia Rbr = q . obţinem o

soluţie explicită pentru λ , adică:
[
λ = − R( X ′X )−1 R ]
−1
(Rb − q )
care, reinserată apoi în expresia lui br , ne permite să obţinem estimatorul CMMPO
cu restricţii sub forma:
−1
[
br = b − ( X ′X ) R ′ R ( X ′X ) R ′
−1
]
−1
(Rb − q ) (3.98)
3.14. Testul lui Chow. Testarea ipotezei schimbărilor structurale
Testul lui Chow permite să se verifice dacă două seturi de coeficienţi de regresie
sunt egale, în cazul în care primul set a fost obţinut prin estimarea modelului fără
restricţii, iar cel de al doilea set prin estimarea modelului cu restricţii. O variantă a
testului Chow permite de asemenea partiţionarea eşantionului în două subeşantioane
şi testarea egalităţii celor două seturi de estimaţii obţinute.
Fie sistemul de restricţii liniare asupra coeficienţilor Rβ = q . Mai întâi ne
propunem să exprimăm statistica testului lui Wald în funcţie de:
• reziduurile modelului cu restricţii şi ale celui fără restricţii;
• coeficienţii de determinaţie ai celor două modele.

Notăm prin er = y − Xbr vectorul reziduurilor în problema cu restricţii. Avem:
e r = y − Xbr = y − Xb − X (br − b ) = e − X (br − b )
Suma pătratelor reziduurilor în cazul cu restricţii devine:
′
e ′r ⋅ e r = e ′e + (br − b ) X ′X (br − b ) ≥ e ′e
deci introducerea unor restricţii face să crească suma pătratelor reziduurilor cu
diferenţa:
′
e ′r ⋅ e r − e ′e = (br − b ) X ′X (br − b )
Ţinând cont de relaţia lui br în funcţie de b dedusă mai sus, putem exprima:
[
br − b = −( X ′X ) R′ R ( X ′X ) R′
−1 −1
]−1
(Rb − q )
Rezultă:
′
[ −1
e ′r e r − e ′e = (Rb − q ) R( X ′X ) R ′ (Rb − q )
−1
]
Conform criteriului lui Wald, statistica testului ce permite verificarea ipotezei
liniare generale Rb − q este:
(Rb − q )′ [R( X ′X )−1 R′] (Rb − q ) (Rb − q )′ [s 2 R( X ′X )−1 R′] (Rb − q )

−1 −1
j
F= =
e′e /( n − k ) j
unde j reprezintă numărul de restricţii la care sunt supuşi coeficienţii.
Potrivit rezultatului de mai sus, statistica acestui test poate fi rescrisă după cum
urmează:
(e′ e − e′e) j
F= r r (3.99)
e′e (n − k )
∑ (y − y)
2
Pe de altă parte, împărţind numărătorul şi numitorul lui F prin ,
obţinem o altă formă a statisticii acestui test:
F=
(R − Rr2 j
2
) (3.100)
e′e ( n − k )
Să considerăm acum testarea ipotezei schimbărilor structurale. Această ipoteză

pleacă de la presupunerea că datele de observaţie ar putea să fie neomogene, ceea ce
ar conduce la ideea unei partiţionări a eşantionului total în două subeşantioane: y1 şi
y2 pentru y , respectiv X 1 şi X 2 pentru X .
O regresie fără restricţii care lasă coeficienţii să fie diferiţi în cele două
subeşatioane este:
 y1 = X 1β1 + ε 1  y  X 0   β1   ε 1 
 ⇔  1  =  1 ⋅  +  
 y2 = X 2 β 2 + ε 2  y2   0 X 2   β 2   ε 2 
Estimatorul CMMPO fără restricţii este:

−1
 b   X ′X 0   X 1′ y1   b = ( X 1′ X 1 )−1 X 1′ y1
b =  1  =  1 1    ⇔  1
 b2   0 X 2′ X 2   X 2′ y 2  b2 = ( X 2′ X 2 )−1 X 2′ y2
şi echivalează cu aplicarea metodei CMMPO separat celor două subeşantione. Prin

urmare, suma pătratelor reziduurilor pentru întregul eşantion va rezulta ca o sumă a
sumelor pătratelor reziduurilor obţinute pentru eşantioanele luate separat:
e 
e′e = e1′e1 + e2′ e2 , unde e =  1 
 e2 
Estimatorul CMMPO cu restricţii poate fi obţinut pe două căi. Formal, restricţia
 β  0
β1 = β 2 se scrie Rβ = q , adică (I k − I k ) ⋅  1  =   . Apoi se calculează br după
 β2   0
relaţia obţinută în secţiunea 3.9, adică:
[
br − b = −( X ′X ) R′ R ( X ′X ) R′
−1 −1
]−1
(Rb − q )
O cale mai uşoară de a proceda este să se încorporeze restricţia direct în model.
Astfel, în ipoteza unei restricţii de forma β1 = β 2 = β , modelul se poate scrie:
 y1 = X 1β + ε 1 y  X  ε 
 ⇔  1  =  1  ⋅ β +  1 
 y2 = X 2 β + ε 2  y2   X 2  ε 2 
Suma pătratelor reziduurilor corespunzătoare regresiei cu restricţii, er′ ⋅ er , se
utilizează apoi pentru construirea testului, împreună cu suma pătratelor reziduurilor
din modelul fără restricţii, adică e′e = e1′e1 + e′2 e2 . Gradele de libertate se specifică
astfel: la numărător, j este numărul de restricţii (în cazul nostru k ), iar la numitor
avem un număr de (n1 + n2 − 2 ⋅ k ) grade de libertate, unde n1 şi n2 reprezintă
numărul de observaţii cuprinse în cele două eşantioane. Statistica testului se scrie
aşadar:
F( k , n1 + n 2 − 2 k ) =
(er′ er − e′e) k = (er′ er − (e1′e1 + e2′ e2 )) k
(3.101)
e′e (n1 + n2 − 2 ⋅ k ) e′e (n1 + n2 − 2 ⋅ k )
3.15. Predicţie liniară şi intervale de încredere asociate
Problema predicţiei liniare se referă la utilizarea modelului de regresie liniară

în scopul obţinerii de predicţii pentru y, asociate unor seturi de valori ale variabilelor
explicative X1, ..., Xm , ce n-au făcut încă obiectul observării. Vom considera cazul
unui model cu intercepţie şi vom nota prin ~ x = (1, ~
x1 , K , ~
x m ) ′ vectorul acestor
valori.
Se defineşte eroarea de predicţie:
~
y − yˆ = ~
x′β +ε − ~ x ′ (b − β )
x′b = ε − ~
unde:
~y = β + β ~ ~ ~ ~ ~
0 1 x1 + K + β m x m + ε = x ′ β + ε
corespunde valorii (necunoscute) ce trebuie prezisă, iar:

yˆ = b0 + b1 ~
x1 + K + bm ~
xm = ~
x ′b (3.102)
reprezintă predicţia punctuală bazată pe estimatorul CMMPO.
Avem:
~y − yˆ = ε~ − ~
x ′ (b − β ) = ε~ − (b − β ) ′ ~
x
deci
(~y − yˆ )2 = ε~ 2 − 2 ~
x ′ (b − β ) ε~ + ~
x ′ (b − β ) (b − β ) ′ ~
x
Ţinând cont că
b − β = (X ′ X ) X ′ ε
−1
iar matricea de covarianţă a estimatorului b este

Σ b = E [(b − β ) (b − β )′] = σ 2 ( X ′ X ) −1
putem să deducem speranţa matematică şi dispersia erorii de predicţie:
E [~
y − yˆ ] = 0
[ ] x ′ E [(b − β ) ε~ ] + ~
σ y2ˆ = E ( ~y − yˆ )2 = E[ε~ 2 ] − 2 ~ x ′ Σb ~
x
x ′ ( X ′ X ) X ′ E[ε ε~ ] + σ 2 ~
= E[ε~ 2 ] − 2 ~ x ′ ( X ′ X ) −1 ~
−1
x
2
(
= σ 1 + x ′ (X ′ X ) x
~ −1 ~
)
unde s-a luat E[ε ~ε ] = 0 şi E[~ε 2 ] = σ 2 din ipoteza de homoscedasticitate (eroarea ~ε
nu este corelată cu ε şi are dispersia constantă σ 2 ).
Un estimator nedeplasat al parametrului (necunoscut) σ 2ŷ este:
( x ′ (X ′ X ) ~
s y2ˆ = s 2 1 + ~
−1
x ) (3.103)
Să observăm mai întâi că: s y2ˆ / σ y2ˆ = s 2 / σ 2 . Totodată, deoarece:
yˆ − ~
y s2
~ N (0, 1); (n − k ) ~ χ n2− k
σ yˆ σ2
putem construi o variabilă, notată t, care urmează o distribuţie Student cu n − k
grade de libertate:
yˆ − ~y ( yˆ − ~y ) σ yˆ
t=
s yˆ
= ~ t n − k , unde s yˆ = s 2 1 + ~ (
x ′ (X ′ X ) ~
−1
x )
s 2yˆ
(n − k ) (n − k )
σ 2
yˆ
Intervalul de încredere al predicţiei, garantat cu o probabilitate

( )
P ( yˆ − tα ; n − k ⋅ s yˆ ) < ~y < ( yˆ + tα ; n − k ⋅ s yˆ ) = 1 − α , se defineşte prin:
~y = yˆ ± t
α ; n − k ⋅ s yˆ , (3.104)
sau echivalent,
~ [
y ∈ yˆ − tα ; n − k ⋅ s yˆ , yˆ + tα ; n − k ⋅ s yˆ ] (3.105)
Exemplu: Se consideră modelul de regresie liniară multiplă:

yi = β0 + β1 ·x1i + β2·x2i + εi
Datele experimentale pentru un eşantion de dimensiune n = 13 sunt:
1 2 3 4 5 6 7 8 9 10 11 12 13
X1 70 35 55 25 28 43 15 33 23 4 45 20 56
X2 21 26 14 10 12 20 5 28 9 6 10 8 36
Y 198 209 197 156 85 187 43 211 120 62 176 117 273
Rezultate şi interpretarea acestora:
 13 452 205   2034 

   
X ′X =  452 19828 8452  ; X ′y =  82495  ;
   
 205 8452 4343  38769 
   
 0.40147 − 0.0063 − 0.00669 
 
( X ′X )−1 
= − 0.0063 0.00039 − 0.00047  .
 
 − 0.00669 − 0.00047 0.00146 
 
Analiza variaţiei (m = 2, k = m+1 = 3):
Explicată de regresie 46033.01661 k - 1= m = 2 23016.50830
Reziduală 7756.21416 n−k = 10 775.62142
Totală 53789.23077 n−1 = 12 4482.43590
Calitatea ajustării:
Coeficient de determinatie: R 2 = 0.85580
Coeficient de determinatie corectat: R 2 = 0.82696
Coeficient de corelaţie liniară multiplă: R = 0.9251
Eroarea standard a regresiei: SE = 27.84998
Testarea ipotezei nule H0 : βj =0 cu privire la coeficienţii de regresie:
βj bj sbj tj
β0 37.5023 17.64612 2.12524
β1 1.49629 0.55339 2.70388
β2 4.24462 1.06500 3.98556
Pentru ν = n − 3 = 10 grade de libertate şi un nivel de încredere α = 0.05 ,

valoarea critică dedusă din tabelul distribuţiei Student este t(10; 0.05) = 2.228 . Se
observă că pentru j = 1,2 avem t j > 2.228 , deci ipoteza nulă H0: βj = 0 este respinsă;
ea nu poate fi însă respinsă pentru j = 0, deoarece 2.12524 < 2.228 ceea ce înseamnă
că β0 nu diferă semnificativ de 0.
Se defineşte intervalul de încredere la nivelul de semnificaţie α = 0.05 prin:
bj ± t(10; 0.05) ⋅sbj = bj ± 2.228⋅sbj
βj bj −2.228·sbj bj bj +2.228·sbj Interpretare (decizie)
β0 −1.81326 37.5023 76.81786 (conţine 0 ⇒ se admite H0)

β1 0.26334 1.49629 2.72923 (nu conţine 0 ⇒ se respinge H0)
β2 1.87180 4.24462 6.61744 (nu conţine 0 ⇒ se respinge H0)
Testul F de semnificaţie a modelului: Modelul este semnificativ la α = 0.05:

F= 29.6749 > F2, 10 = 4.10;
Predicţie pentru ~
x = (1, ~
x1 , ~
x 2 ) ′ = (1, 64, 23)′ : yˆ = ~
x ′ ⋅ b = 230.891;
( x ′( X ′ X ) ~
s y2ˆ = s 2 1 + ~
−1
)
x = 996.16 ; s 2 = 775.62142 ; s yˆ = 31.562
~ [
y ∈ yˆ − 2.228 ⋅ s yˆ , yˆ + 2.228 ⋅ s yˆ ] = [160.57, 301.21]
3.16. Aplicaţii
A1 Se consideră o firmă pentru care nivelul activităţii trebuie să se ajusteze
lunar in funcţie de cererea pieţei. În tabelul următor se prezintă datele cu privire
la outputul Y şi factorii de producţie L , respectiv K , înregistrate pe o
perioadă de 39 luni:
Tabelul 1
Luna Y L K Luna Y L K
1 554.399 88 173 21 789.900 135 239
2 535.356 88 165 22 718.904 115 229
3 518.004 84 158 23 763.144 122 238
4 467.675 78 142 24 810.071 140 242
5 457.282 77 142 25 823.969 147 245
6 481.065 76 148 26 816.948 149 237
7 494.610 78 154 27 838.109 159 246
8 513.430 79 164 28 882.637 167 252
9 529.936 80 172 29 888.391 172 252
10 520.322 78 162 30 879.613 173 245
11 516.831 80 169 31 911.521 183 255
12 554.663 87 177 32 930.414 189 260
13 622.890 96 192 33 943.239 194 258
14 644.383 104 205 34 968.823 202 265
15 668.783 110 210 35 987.436 205 269
16 672.975 108 209 36 1010.960 216 275
17 654.045 102 202 37 1060.090 225 285
18 656.954 97 213 38 1098.900 236 297
19 712.060 106 224 39 1146.630 248 305
20 721.234 113 228
Funcţia de producţie Cobb-Douglas fără progres tehnic se specifică sub forma:

Yt = A ⋅ Lαt ⋅ K tβ
a. Prin ce transformare poate fi liniarizat modelul? Rescrieţi funcţia Cobb-Douglas
sub formă liniarizată.
b. Precizaţi ce restricţie trebuie impusă asupra coeficienţilor pentru ca aceştia să
verifice ipoteza randamentelor de scară constante.
c. Transformaţi modelul, astfel încât acesta să încorporeze direct restricţia
precizată la punctul anterior. Aceasta va fi forma modelului considerată în
continuare.
d. Scrieţi modelul de la punctul (c) sub forma matriceală y = X ⋅ b + e .
( )
e. Ce dimensiune are matricea X în acest caz? Fie xij notaţia generică pentru
elementele matricei X. Ce dimensiune are matricea X ′ X (unde semnul ' denotă
transpusa)? Definiţi analitic elementele matricei X ′ X .
f. Calculaţi numeric matricea X ′ X .
g. Calculaţi inversa ( X ′ X )−1 a matricei X ′ X .
h. Definiţi analitic elementele matricei X ′ y , apoi calculaţi numeric matricea X ′ y .
i. Precizaţi formula de calcul a vectorului b ale cărui componente reprezintă
estimaţiile coeficienţilor modelului de regresie şi aplicaţi formula respectivă
pentru a calcula efectiv aceste estimaţii.
j. Definiţi atât sub formă analitică, precum şi sub formă matriceală, variabilitatea
totală a lui y . Precizaţi care sunt componentele în care aceasta se descompune
şi furnizaţi relaţiile lor de calcul, în ambele forme (analitică şi matriceală).
k. Determinaţi numeric variabilităţile definite la punctul precedent, apoi specificaţi
pentru fiecare în parte numărul gradelor de libertate asociate şi calculaţi pătratul
mediu (dispersia) corespunzătoare. Prezentaţi rezultatele sub forma unui tabel.
l. Analizaţi calitatea ajustării liniare a modelului prin intermediul următorilor
indicatori: coeficientul de determinaţie; coeficientul de corelaţie liniară multiplă,
coeficientul de determinaţie corectat şi eroarea standard a regresiei (estimaţiei).
Ce concluzii desprindeţi?
m. Definiţi matricea de covarianţă a vectorului b al estimaţiilor coeficienţilor
modelului de regresie. Cum se poate determina estimaţia nedeplasată a acesteia?
Efectuaţi calculul numeric.
n. Definiţi ipoteza nulă cu privire la coeficienţii modelului de regresie. Descrieţi
cum se aplică testul t al lui Student pentru testarea semnificaţiei coeficienţilor.
o. Plecând de la estimaţia S b a matricei de covarianţă a vectorului b, determinaţi
erorile standard ale coeficienţilor şi calculaţi valorile statisticii t pentru fiecare
coeficient. Prezentaţi rezultatele sub formă tabelară.
p. Precizaţi numărul de grade de libertate şi valoarea critică a testului t la pragul
de semnificatie 5%.
q. Definiţi intervalele de încredere asociate parametrilor modelului de regresie,
pentru un prag de semnificaţie dat.
r. Pe baza rezultatelor de la punctele anterioare, calculaţi limitele inferioară şi
superioară ale intervalelor de încredere pentru fiecare coeficient estimat şi luaţi
o decizie cu privire la testul ipotezei nule.
s. Definiţi ipoteza cu privire la anularea simultană a tuturor coeficienţilor
unghiulari (coeficienţilor pantă) ai modelului şi particularizaţi ipoteza pentru
cazul analizat. Descrieţi cum se aplică testul F , datorat lui Fisher şi Snedecor,
pentru testarea adecvării modelului de regresie.
t. Precizaţi numărul de grade de libertate şi valoarea critică a testului F la pragul
de semnificatie 5%. Pe baza acestui test, luaţi o decizie cu privire la adecvarea
modelului de regresie.
u. Se consideră combinaţia de factori (L, K ) = (250 , 310 ) . Să se definească şi să se
calculeze predicţia punctuală pentru outputul (producţia) ce se estimează a fi
realizată cu această combinaţie de factori.
v. Definiţi şi calculaţi intervalul de încredere asociat acestei predicţii punctuale, la
pragul de semnificaţie 5%.
SOLUŢIE:
a. Modelul se poate liniariza prin logaritmare. Funcţia Cobb-Douglas sub formă

liniarizată este:
ln Yt = ln A + α ⋅ ln Lt + β ⋅ ln K t + et
unde et este un termen eroare şi arată că avem de a face cu un model stochastic,

nu cu unul pur determinist.
b. Ipoteza randamentelor de scară constante este verificată atunci când coeficienţii
satisfac restricţia α + β = 1 , caz în care modelul se scrie:
ln Yt = ln A + α ⋅ ln Lt + (1 − α )ln K t + et
c. O transformare a modelului prin care acesta să încorporeze direct restricţia
α + β = 1 poate fi realizată astfel:
ln Yt − ln K t = ln A + α ⋅ (ln Lt − ln K t ) + et
Cu notaţiile
y t = ln Yt − ln K t ; xt = ln Lt − ln K t ; b0 = ln A; b1 = α
modelul devine:
y t = b0 + b1 ⋅ x t + et
d. Sub forma matriceală, modelul se scrie:
b 
y = b0 ⋅ 1 + b1 ⋅ x + e = (1 x ) ⋅  0  + e = X ⋅ b + e ,
 b1 
unde 1 este un vector coloană de dimensiune n , cu toate elementele egale cu 1, iar
e este vectorul reziduurilor. Avem:
1  x1   1 x1   e1 
        b 
1 =  L ; x =  L  ; X = (1 x ) =  L L  , e =  L; b =  0 
1 x  1 x  e   b1 
   n  n  n
e. Matricea X are dimensiunea n × 2 . Matricea X ′ X are dimensiunea
(2 × n )(n × 2) = 2 × 2 . Obţinem:
 n

1 L 1 
 1 x1   n
  ∑x t


X ′ X =   ⋅ L L  =  n t =1
 x1 L x n   n 

∑
 1 x n   x t ∑ x t2 
 t =1 t =1 
f. Avem:
n n
n = 39; ∑x
t =1
t = -21.1996; ∑x
t =1
2
t = 12.8426
 n

 n

∑ x  t
 39 − 21.1996 
X′X = n t =1
n  =  − 21.1996 12.8425 
 xt
 ∑ ∑ xt2   
 t =1 t =1 
g. Inversa ( X ′ X )−1 a matricei X ′ X este:
 0.249694 0.412181 
X ′ X −1 =  
 0.412181 0.758272 
h. Matricea X ′ y se scrie:
 n 
1
 y1  
L 1     t =1
yt  ∑
  47.0594 
X ′ y =   ⋅  L  =  n  =  − 25.143 
 x1 xn     
∑
 y n   xt ⋅ y t 

 t =1 
i. Vectorul b al estimaţiilor coeficienţilor modelului de regresie se calculează
astfel:
b   1.387 
b =  0  = ( X ′ X ) ⋅ X ′ y = 
−1

 b1   0.332 
Înlocuind valorile estimate ale parametrilor, funcţia Cobb Douglas se specifică
prin:
ln Yˆt − ln K t = 1.387 + 0.332 ⋅ (ln Lt − ln K t )
unde cu Ŷt s-au notat valorile estimate ale outputului, pentru a le deosebi de
valorile observate Yt . Ţinând cont că b0 = ln A = 1.387 , deci A = e1.387 = 4.0028 ,
putem să specificăm modelul şi sub forma
Yˆt = A ⋅ Lαt ⋅ K t1−α = 4.0028 ⋅ L0t .332 ⋅ K t0.668
j. Variabilitatea totală a lui y (SST) se descompune în două componente:

variabilitatea lui y explicată de regresie (SSR) şi variabilitatea reziduală (SSE):
SST = SSR + SSE
n n n
Analitic : ∑ (y
t =1
t − y) =
2
∑ ( yˆ
t =1
t − y) +
2
∑ (y
t =1
t − yˆ t )
2
Matriceal : ( )
y ′y − n y 2 = b ′X ′Xb − ny 2 + ( y ′y − b ′X ′y )
k. Următorul tabel sintetizează principalele rezultate referitoare la analiza variaţiei:

(b′X ′Xb − ny )/ m
Explicată de
regresie b ′X ′Xb − ny 2 m = k− 1 2
Reziduală y ′y − b ′X ′y n−k ( y ′y − b ′X ′y ) / (n − k )
Totală y ′y − ny 2 n−1 (y ′y − ny )/(n − 1)
2
unde m este numărul variabilelor explicative, iar k = m + 1 (model cu intercepţie).

După efectuarea calculelor, obţinem:
Suma pătratelor Grade de Pătratul mediu
Sursa variaţiei
Explicată de
regresie 0.14515 1 0.14515
Reziduală 0.00378 37 0.00010
Totală 0.14893 38 0.00392
l. Analiza calităţii ajustării liniare a datelor de observaţie prin modelul de regresie

se realizează cu ajutorul următorilor indicatori:
• Coeficientul de determinaţie:
R 2
=
∑ ( yˆ
t t − y)
2
=
b ′X ′Xb − ny 2
sau R 2 = 1 −
∑ ( y − yˆ )
t t t
2
=1−
y ′y − b ′X ′y
∑ (y t t − y)
2
′
y y − ny 2
∑ (y − y)
t t
2
y ′y − ny 2
R 2 = 0.97461
• Coeficientul de corelaţie multiplă:
R= 1−
∑ ( y − yˆ )
i i i
2
= 1−
y ′y − b ′X ′y
= 0.98722
∑ (y − y) i i
2
y ′y − ny 2
• Coeficientul de determinaţie corectat:
2
=1−
∑ ( y − yˆ )
t t t
2
/( n − k )
=1−
( y ′y − b ′X ′y ) ⋅ (n − 1) = 1 − (1 − R 2 ) ⋅ n − 1
R
∑ (y − y) t t
2
/( n − 1) (y ′y − ny )⋅ (n − k )
2
n−k
R 2 = 0.97392
• Eroarea standard a estimaţiei:
SY , X1 , X 2KX m =
∑ (y t t − yˆ t )
2
=
e ′e
=
y ′y − b ′X ′y
= 0.01011
n−k n−k n−k
Întrucât R 2 , respectiv R şi R 2 , au valori apropiate de 1, putem aprecia calitatea

ajustării ca fiind foarte bună.
Fig. 3.1. Suprafaţa de producţie, punctele observate ( Lt , K t , Yt ) , punctele estimate

( L , K , Yˆ ) – ce aparţin suprafeţei de producţie – şi abaterilor dintre acestea
t t t
et = Yt − Yˆt (distanţele verticale de la punctele observate la suprafaţa de producţie)
m. Matricea de covarianţă a vectorului b al estimaţiilor coeficienţilor modelului de

regresie se scrie:
∑b = σ 2 (X ′ X )
−1
Deoarece dispersia σ 2 a erorilor este un parametru necunoscut, în practică,

pentru calculul matricei de covarianţă Σ b , trebuie să apelăm la o estimaţie
nedeplasată s 2 a lui σ 2 (adică astfel încât E [ s 2 ] = σ 2 ), calculabilă plecând de
la vectorul reziduurilor e :
n
′
ee
∑ et2
0.00378
s2 = = t =1 = = 0.0001
n−k n−k 37
Prin urmare, un estimator nedeplasat al matricei de covarianţă a lui b se poate
obţine utilizând s 2 în locul lui σ 2 , adică:
 0.0000255 0.0000421 
S b = s 2 ⋅ ( X ′X ) = 
−1

 0.0000241 0.00007749 
n. Ipoteza nulă cu privire la coeficienţii modelului de regresie se scrie

H 0 : β j = 0 şi echivalează cu un test de semnificaţie pentru βj (un criteriu de a
decide dacă o anumită variabilă explicativă x j influenţează sau nu în mod
bj − β j
semnificativ nivelul variabilei dependente y. Statistica testului este t j = ,
sb j
care în condiţiile ipotezei nule H 0 : β j = 0 , devine:
bj
tj =
sb j
Aceasta se compară (în valoare absolută) cu valoarea critică tα ; (n − k ) determinată
pentru nivelul de semnificaţie α şi n − k grade de libertate, preluată din tabelul
distribuţiei Student. Ipoteza nulă H0 este respinsă dacă t j > tα ; (n − k ) şi este
admisă în caz contrar. Respingerea ipotezei nule trebuie interpretată în sensul
acceptării unei influenţe semnificative a lui x j asupra lui y.
o. Erorile standard s b j ale coeficienţilor se calculează extrăgând rădăcina pătrată

din elementele diagonale ale matricei S b , după care se determină statisticile
t j = b j s b j ale testului Student. Rezultatele calculelor sunt prezentate mai jos:
Coeficienţi Estimaţii Eroarea standard Statistica

sb j tj
b0 1.38699 0.00505 274.5575
b1 0.33175 0.00880 37.68516
p. Valoarea critica a testului t pentru 37 grade de libertate la pragul de

semnificaţie α = 0.05 (5%) este 2.026.
q. Intervalul de încredere asociat fiecărui coeficient β j , corespunzător pragului de
semnificaţie α şi gradelor de libertate (n − k ) este:
[
β j ∈ b j − tα ; (n − k ) ⋅ s b j , b j + t α ; (n − k ) ⋅ s b j ]
Între testul ipotezei nule H0 şi abordarea pe baza intervalelor de încredere există
similaritate. Astfel, ipoteza H 0 : β j = 0 este respinsă dacă 0 nu aparţine
intervalului de încredere corespunzător şi este admisă în caz contrar.
r. Limitele intervalelor de încredere şi deciziile cu privire la testul ipotezei nule se

pot sintetiza astfel:
Coeficienţi Intervale de încredere H0 : β j = 0

Limita inferioară Limita superioară
b0 1.37675 1.39722 H 0 respinsă
b1 0.31392 0.34959 H 0 respinsă
s. Testul F permite validarea modelului de regresie privit în ansamblu, deci a

măsurii în care acesta ajustează în chip adecvat datele experimentale. El testează
ipoteza anulării simultane a tuturor coeficienţilor unghiulari (coeficienţilor
pantă) ai modelului (exclusiv termenul liber):
H 0 : β1 = β 2 = K = β m = 0
Statistica testului este definită de raportul dintre dispersia explicată şi cea
reziduală, raport ce urmează o distribuţie Fisher cu m , respectiv n − k grade de
libertate:
SSR / m b′X ′Xb − ny 2 n − k R2 n − k
F= = ⋅ = ⋅ ~ F(m , n − k )
SSE / (n − k ) y ′y − b′X ′y m 1− R2 m
Admiterea sau respingerea ipotezei H0 se face prin compararea valorii acestei
statistici cu valorile critice ale distribuţiei F pentru m , respectiv n − k grade
de libertate şi pragul de semnificaţie dorit. Dacă valoarea calculată este mai
mare decât valoarea tabelată, ipoteza nulă este respinsă, deci modelul se
consideră semnificativ.
t. Valoarea critică a testului F pentru (1, 37) grade de libertate, la pragul de
semnificaţie 5%, este F(1,37 ) = 4.11. Statistica testului calculată pentru modelul
estimat este:
F = 1420.17 > 4.11
Modelul este semnificativ la pragul de încredere considerat.
u. Pentru modelul estimat în formă logaritmică, cu restricţii explicite,
ln Yˆ − ln K = ln A + α ⋅ (ln L − ln K )
se poate determina predicţia punctuală ŷ asociată variabilei dependente
(rezultative) y t = ln Yt − ln K t , când se dă L = 250 şi K = 310 , adică:
yˆ = 1.387 + 0.332 ⋅ (ln 250 − ln 310 ) = 1.31562
Predicţia punctuală Yˆ a lui Y pentru modelul iniţial,

Yˆ = A ⋅ Lα ⋅ K 1−α = 4.00276 ⋅ L0.332 ⋅ K 0.668
se poate determina fie direct, înlocuind L = 250 şi K = 310 în formula

precedentă, fie utilizând relaţia y t = ln Yt − ln K t , adică:
yˆ = ln Yˆ − ln 310 = 1.31562 ⇒ ln Yˆ = yˆ + ln 310 ⇒ Yˆ = e yˆ + ln 310 = 1155.39
v. Intervalul de încredere asociat predicţiei punctuale ~

y , la pragul de semnificaţie
α = 0.05 (5%):
~y = yˆ ± t ~
α ; n − k ⋅ s yˆ , sau echivalent, y ∈ y [
ˆ − tα ; n − k ⋅ s yˆ , yˆ + tα ; n − k ⋅ s yˆ ]
unde: tα ; n − k = t 0.05; 37 = 2.03 ; s yˆ = s 2 1 + ~(
x ′ (X ′ X ) ~
−1
)
x = 0.0106389
e ′e
x ′ = (1
~ ln 250 − ln 310) = (1 − 0.22 ) ; s2 = = 0.0001
n−k
Se obţine: ~y ∈ [ 1.29402, 1.33722]
În final:
~ ~
[ ~
Y ∈ Yinf , Ysup ] = [1130.7, 1180.61]
~ ~
y + ln 310
unde Yînf = e yinf + ln 310 , Yˆsup = e sup
A2 Pentru datele din tabelul 1 şi o funcţie de producţie Cobb-Douglas

Yt = A ⋅ Lαt ⋅ K tβ , fără restricţii asupra coeficienţilor α şi β , se cere:
a. Să se estimeze coeficienţilor modelului de regresie.
b. Să se descompună variabilitatea totală a lui y şi să se analizeze calitatea
ajustării liniare a modelului.
c. Plecând de la estimaţia S b a matricei de covarianţă a vectorului b, să se
determine erorile standard ale coeficienţilor şi valorile statisticii t pentru fiecare
coeficient.
d. Să se calculeze limitele inferioară şi superioară ale intervalelor de încredere
pentru fiecare coeficient estimat şi să se ia o decizie cu privire la testul ipotezei
nule.
e. Să se testeze ipoteza nulă H 0 : α = β = 0 şi să ia o decizie cu privire
semnificaţia modelului de regresie la pragul de semnificaţie 5%.
f. Se consideră combinaţia de factori (L, K ) = (250 , 310 ) . Să se determine
predicţia punctuală pentru outputul (producţia) ce se estimează a fi realizată cu
această combinaţie de factori şi intervalul de încredere asociat acestei predicţii
punctuale, la pragul de semnificaţie 5%.
SOLUŢIE:
a. Modelul liniarizat: y t = ln Yt = ln A + α ⋅ ln Lt + β ⋅ ln K t .
Matricea variabilelor independente: X = (1 ln Lt ln K t ) .

Coeficienţii modelului de regresie:
 b0   1.41880 
   
b =  b1  = ( X ′ X ) ⋅ X ′ y =  0.33661
−1
b   0.65795 
 2  
unde:
X'X =
39 187.908 209.108
187.908 910.883 1010.53
209.108 1010.53 1123.02
X'y =
256.167
1238.09
1375.73
(X'X)-1 =
43.4513 7.00002 -14.3895
7.00002 1.76286 -2.88969
-14.3895 -2.88969 5.28047
b. Descompunerea variabilităţii totale a lui y şi analiza calitatea ajustării liniare a

modelului:
Sursa Suma Grade de Patratul
variatiei patratelor libertate mediu
Explicata 2.75600 2 1.37800

Reziduala 0.00376 36 0.00010
Totala 2.75976 38 0.07263
Coeficient de determinatie 0.99864

Coeficient de corelatie liniara multipla 0.99932
Coeficient de determinatie corectat 0.99856
Eroarea standard a regresiei 0.01022
c. Estimaţia S b a matricei de covarianţă a vectorului b, erorile standard ale

coeficienţilor şi valorile statisticii t pentru fiecare coeficient sunt:
Sb =
0.00453597 0.000730747 -0.00150215
0.000730747 0.000184028 -0.000301661
-0.00150215 -0.000301661 0.000551239
Coeficienti Estimatii Eroarea standard Statistica t

b0 1.41880 0.06735 21.06625
b1 0.33661 0.01357 24.81307
b2 0.65795 0.02348 28.02356
d. Limitele inferioară şi superioară ale intervalelor de încredere pentru fiecare

coeficient estimat şi decizia cu privire la testul ipotezei nule sunt:
Intervale de incredere
Coeficienti Limita Limita H0: b(j)=0
inferioara superioara
b0 1.28222 1.55539 H0 respinsa
b1 0.30910 0.36412 H0 respinsa
b2 0.61034 0.70557 H0 respinsa
Valoarea critica a testului t pentru 36 grade de libertate

la pragul de semnificatie 5% este 2.028
e. Testul F de adecvare a modelului asociat ipotezei nule H 0 : α = β = 0 :
Valoarea critica a testului F pentru (2, 36) grade de libertate

la pragul de semnificatie 5% este: 3.26
Statistica F = 13200.22 > 3.26
Modelul este semnificativ la pragul de incredere considerat.
f. Pentru modelul estimat în formă logaritmică, ln Yˆ = ln A + α ⋅ ln L + β ⋅ ln K ,

predicţia punctuală yˆ = ln Yˆ când se dă L = 250 şi K = 310 , este ŷ = 7.05175.
Predicţia punctuală Yˆ a lui Y pentru modelul iniţial, Yˆ = A ⋅ Lα ⋅ K β , este
Yˆ = e yˆ = 1154.87.
Intervalul de încredere asociat predicţiei punctuale ~
~ [
~
α = 0.05 (5%) este y ∈ y , y ~
inf sup ]
= [ 7.02984, 7.07366] , iar intervalul asociat
~ ~ ~
[ ~
lui Y este Y ∈ Yinf , Ysup ] = [1129.85, 1180.46] , unde Yînf = e yinf , Yˆsup = e sup .
~ y~
A3 Aceleaşi întrebări ca la aplicaţia precedentă, în condiţiile utilizării unei

funcţii de producţie Cobb-Douglas cu progres tehnic neutral: Yt = A ⋅ e λt ⋅ Lαt ⋅ K tβ .
SOLUŢIE:
Modelul liniarizat: yt = ln Yt = ln A + λt + α ⋅ ln Lt + β ⋅ ln K t .
Matricea variabilelor independente: X = (1 t ln Lt ln K t ) .
Coeficienţii modelului de regresie:
 b0   1.91391 
   
 b1   0.00268 
b =   = (X ′ X ) ⋅ X ′ y = 
−1
b 0.29096 
 2  
b   0.59662 
 3  
unde:
X'X =
39 780 187.908 209.108
780 20540 3920.8 4275.49
187.908 3920.8 910.883 1010.53
209.108 4275.49 1010.53 1123.02
X'y =
256.167
5239.6
1238.09
1375.73
(X'X)-1 =
886.677 4.57008 -70.7388 -118.846
4.57008 0.0247688 -0.421326 -0.56613
-70.7388 -0.421326 8.92976 6.74039
-118.846 -0.56613 6.74039 18.2203
Sursa Suma Grade de Patratul

variatiei patratelor libertate mediu
Explicata 2.75629 3 0.91876

Reziduala 0.00347 35 0.00010
Totala 2.75976 38 0.07263
Coeficient de determinatie 0.99874

Coeficient de corelatie liniara multipla 0.99937
Coeficient de determinatie corectat 0.99864
Sb =
0.087842 0.000452752 -0.007008 -0.0117739
0.000452752 2.45381e-006 -4.17402e-005 -5.60858e-005
-0.007008 -4.17402e-005 0.000884661 0.000667762
-0.0117739 -5.60858e-005 0.000667762 0.00180506
Coeficienti Estimatii Eroarea standard Statistica t

b0 1.91391 0.29638 6.45760
b1 0.00268 0.00157 1.71302
b2 0.29096 0.02974 9.78244
b3 0.59662 0.04249 14.04270
Valoarea critica a testului t pentru 35 grade de libertate la

pragul de semnificatie 5% este 2.03
Intervale de incredere
Coeficienti Limita Limita H0: b(j)=0
inferioara superioara
b0 1.31226 2.51557 H0 respinsa
b1 -0.00050 0.00586 H0 respinsa
b2 0.23058 0.35134 H0 respinsa
b3 0.51037 0.68286 H0 respinsa
Testul F de adecvare a modelului

Valoarea critica a testului F pentru (3, 35) grade de libertate
la pragul de semnificatie 5% este: 2.87
Statistica F = 9273.99 > 2.87
Modelul este semnificativ la pragul de incredere considerat.
Pentru modelul estimat în formă logaritmică, ln Yˆ = ln A + λt + α ⋅ ln L + β ⋅ ln K ,

predicţia punctuală yˆ = ln Yˆ când se dă t = 40 , L = 250 şi K = 310 , este
yˆ = 7.05032 . Predicţia punctuală Yˆ a lui Y pentru modelul iniţial,
Yˆ = A ⋅ e λt ⋅ Lα ⋅ K β , este Yˆ = e yˆ = 1153.23.
Intervalul de încredere asociat predicţiei punctuale ~
α = 0.05 (5%) este ~y ∈ [ ~yinf , ~ysup ] = [ 7.02891, 7.07173] , iar intervalul asociat
~ ~ ~
[ ~
lui Y este Y ∈ Yinf , Ysup ] = [1128.8, 1178.19] , unde Yînf = e yinf , Yˆsup = e sup .
~ y~
A4 Se consideră observaţiile din tabelul de mai jos şi un model cu o variabilă

explicată Y, respectiv două variabile explicative X1 şi X2 :
Y = a1 X1 + a2 X2 + a3 + ε
sau, în scriere matriceală:
Y = X⋅a + ε
t yt x1t x2t
1 100 100 100
2 106 104 99
3 107 106 110
4 120 111 126
5 111 111 113
6 116 115 103
7 123 120 102
8 133 124 103
9 137 126 98
1) Se presupun verificate ipotezele clasice ale metodei CMMPO. Specificaţi

proprietăţile estimatorului â corespunzător CMMPO al parametrului a şi arătaţi care
este expresia sa.
2) Calculaţi matricele X′ X , (X′ X)-1 şi X′ Y. Deduceţi vectorul â al estimaţiilor
parametrilor modelului prin metoda CMMPO. Pentru toate aceste calcule procedaţi
la o centrare a datelor în raport cu media.
3) Calculaţi Yˆ = Xaˆ şi reziduul εˆ = Y − Yˆ .
4) Specificaţi formula estimatorului nedeplasat σˆ ε2 al lui σ ε2 şi calculaţi
estimaţia acestuia.
5) Daţi expresia matricei de covarianţă a estimatorilor â1 şi â2 şi calculaţi
estimaţia sa.
6) Calculaţi coeficientul de determinaţie R2. Ce concluzie desprindeţi? Calculaţi,

 a1   0 
plecând de la R2, statistica testului Fischer. Testaţi ipoteza nulă H0:   =   faţă
 a   0
 2  
 a1   0 
de ipoteza alternativă H1:   ≠   plecând de la F. Ce se poate concluziona cu
 a   0
 2  
privire la variabilele Y, X1 şi X2 ?
7) Calculaţi estimaţia σˆ aˆ1 a abaterii standard a lui â1 . Efectuaţi testul Student
pentru â1. Construiţi un interval de încredere cu 95% probabilitate de garantare
pentru â1. Procedaţi la fel şi pentru â2. Ce concluzie desprindeţi?
SOLUŢIE:
1) • Principalele ipoteze ale modelului liniar sunt:

a. Ipoteze privind erorile:
E(ε) = 0
E(ε⋅ε′) = σ ε2 I (homoscedasticitate)
( )
adică: E(εt⋅εs) = 0 dacă t ≠ s ; E ε t2 = σ ε2 , ∀ t.
b. Dacă numărul de variabile exogene este m, iar numărul de parametri de
estimat este k =m+1, trebuie să avem: rang X = k < n, unde n este numărul total de
observaţii. Se deduce astfel că matricea X este regulată şi X′X este inversabilă; aici
n = 9 , m = 2 şi k = m + 1 = 3 .
• Estimatorul liniar nedeplasat de dispersie minimă (BLUE) este:
â = (X′ X)-1 X′ Y
2) Pentru simplificarea calculelor, vom proceda în prealabil la o centrare a
datelor. Modelul se scrie atunci:
Y − Y = a1 (X 1 − X 1 ) + a 2 (X 2 − X 2 ) + ε − ε
Fie: X1 = X 1 − X 1, X 2 = X 2 − X 2 , Y = Y − Y
Tabelul valorilor centrate este următorul:
t Y = Y −Y X1 = X 1 − X 1 X2 = X 2 − X 2
1 -17 -13 -6
2 -11 -9 -7
3 -10 -7 4
4 3 -2 20
5 -6 -2 7
6 -1 2 -3
7 6 7 -4
8 16 11 -3
9 20 13 -8
Pe baza acestui model fără termen liber cu două variabile exogene X1 şi

X 2 se estimează coeficienţii a1 şi a2 prin metoda CMMPO şi se obţine:
 aˆ1 
aˆ =   = (X ′X )−1 (X ′Y ) (matricea X ′X fiind acum de dimensiuni 2×2)
 aˆ 
 2
−1 −1

= 
∑ X12t ∑ X1t X 2t  ⋅
∑
 X1tYt 

 = 650 − 112   872 
⋅ 
  X Y  − 72 

 ∑ X1t X 2t ∑ X 22t   ∑ 2t t  
− 112 648   
1  648 112   872   1.362985 

= ⋅ ⋅ = 
408656  112 650   − 72   0.1244665
Pentru a determina estimaţia termenului liber, notat a3 , se utilizează faptul

că:
Y = Yˆ = aˆ1 X 1 + aˆ 2 X 2 + aˆ 3
de unde: aˆ 3 = Y − aˆ1 X 1 − aˆ 2 X 2 = −50.20644
3) Yˆ = X ⋅ aˆ = 1.362985 ⋅ X 1 + 0.12446665 ⋅ X 2 - 50.20644

Prin definiţie, reziduul este: εˆ = Y − Yˆ = Y − X aˆ
( )( )
sau încă: εˆ = Y − Yˆ − Yˆ − Yˆ = Y − Yˆ = Y − X ⋅ aˆ .
În cazul nostru:
εˆ = Y − 1.362985 ⋅ X 1 − 0.12446665 ⋅ X 2 + 50.20644
4) Estimatorul nedeplasat al lui σ 2 este:
σˆ 2 =
εˆ'⋅εˆ
=
(Y − Xaˆ )′ (Y − Xaˆ ) = Y ′Y − aˆ ′ Y ′Y
T − k −1 T − k −1 T − k −1
 872 
Dar: aˆ '⋅X ′Y = (1.362985 0.12446665) ⋅   = 1179.5614
 − 72 
 
şi se găseşte: Y ′Y = ∑ 2
Yt = 1248
68.4386
Obţinem deci: σˆ 2 = = 11.406433
6
 aˆ1 
5) Prin definiţie, matricea de covarianţă a vectorului   este:
 aˆ 
 2
Ω aˆ = σ (X ′ X ) .
2 −1
O estimaţie nedeplasată a acestei matrici se obţine înlocuind σ 2 prin σ̂ 2 în

expresia sa. Aşadar:
Ω aˆ = σˆ (X ′ X )
2 −1
11.406433  648 112   0.018087 0.0031261 

= ⋅ =
408656  112 650   0.0031261 0.0181428 
6) R 2 = (variabilitatea explicată) / (variabilitatea totală)

= 1 − (variabilitatea reziduală) / (variabilitatea totală)
variabilitatea totală = ∑ ( yt 0 − y )2 = ∑Yt 2 = 1248

variabilitatea reziduală = ∑ εˆt2 = 68.438659
variabilitatea explicată = variabilitatea totală - variabilitatea reziduală

= 1117.5614
Se obţine deci: R2 = 0.945167. Ajustarea este bună, dar coeficientul de
determinaţie ridicat poate fi explicat şi prin numărul mic de observaţii.
Tabelul de analiză a dispersiei şi testul Fisher (variabile centrate)
Sursa Nmărul gradelor Pătratul mediu

Suma pătratelor
variaţiei de libertate (dipersie estimată)
∑ Yt 2 = 1248 ∑Yt 2 = 156

Totală n-1=8 n −1
Explicată de ∑Yˆt2 = 1179.561 m = k −1 = 2 ∑Yˆt 2 = 589.78

regresie k −1
∑ ε$ t ≈ 68.439
2
n−k = 6 ∑ε t2 = 11.406
Reziduală n−k
Pentru a testa validitatea modelului, se calculează cantitatea:
∑Yˆt 2
Fˆ = k − 12
∑ε t
n−k
pe care o comparăm cu valoarea critică tabelată a distribuţiei Fisher, pentru

ν1 = k − 1 = 2 şi ν2 = n − k = 6 grade de libertate, la pragul de semnificaţie α = 5%.
O formulă alternativă pentru F$ , definită pe baza coeficientului de determinaţie
2
R , este:
R2 n − k
Fˆ = ⋅
1 − R2 k −1
Se obţine F̂ ≈ 51.71. Dar F25,% ˆ

6 = 5.14 << F . Se respinge deci ipoteza nulă, conform
căreia variabilele explicative X i nu ar influenţa variabila explicată Y la pragul
α=5%; aşadar, modelul de regresie poate fi considerat verosimil.
7) Calculul matricei Ω̂ â ne-a furnizat drept estimaţii ale abaterilor standard ale
estimatorilor:
σˆ aˆ1 = 0.018087 = 0.1344879

σˆ aˆ2 = 0.0181428 = 0.1346952
aˆ i − a i
Se ştie că (i=1 sau 2) urmează o lege Student cu n − k grade de libertate.
σˆ aî
Pentru a putea afirma că parametrul ai este semnificativ diferit de 0 la pragul α,
trebuie ca intervalul de încredere al lui ai să nu conţină pe 0. Altfel spus:
aˆ i α 
>t 
σ aî
ˆ 2
α 
unde t   este luat din tabelul distribuţiei Student cu n − k grade de libertate.
2
aˆ
- Pentru coeficientul a1 se obţine t aˆ1 = i ≈ 10.1346 . Dar t6(0.025)=2.447;
σˆ aî
valoarea empirică t â1 este net superioară lui t şi â1 este deci în mod semnificativ
diferit de zero (la pragul α=5%).
aˆ 2
- Pentru coeficientul a2, valoarea empirică t aˆ2 = ≈ 0.924 este inferioară
σˆ aˆ2
lui t6(0.025). Deci, la pragul α=5%, se poate concluziona că a2 este statistic nul. În
acest caz, variabila explicativă X2 trebuie să fie eliminată din model şi ar trebui
procedat la o reestimare a coeficientului a1, utilizându-se modelul redus:
Y = a1X1 + a3 + ε.
A5 Fie modelul de regresie reprezentat de funcţia de producţie Cobb-Douglas:

ln Yt = β 1 + β 2 ⋅ ln Lt + β 3 ⋅ ln K t + ε t
Estimarea modelului prin metoda CMMPO fără restricţii a condus la
următoarele rezultate:
Număr de observaţii 27
Suma pătratelor reziduurilor 0.85163
Coeficient de determinaţie R2 0.94346
2
Coeficient de determinaţie corectat R 0.93875
Variabile Coeficienţi Eroarea Statistica

standard t
Intercepţie 1.1710 0.3268 3.583
ln Lt 0.6030 0.1260 4.787
ln Kt 0.3757 0.0853 4.402
Matricea de covarianţă a estimaţiilor:

Intercepţie ln Lt ln Kt
Intercepţie 0.10680
ln Lt -0.01984 0.01586
ln Kt 0.00189 -0.00961 0.00728
a. Utilizaţi criteriul lui Wald pentru a verifica ipoteza H 0 : β 2 = 1 .

b. Relativ la funcţia de producţie Cobb-Douglas estimată mai sus, testaţi
ipoteza randamentelor de scară constante, adică: H 0 : β 2 + β 3 = 1 .
SOLUŢIE:
a. Ipoteza H 0 : β 2 = 1 revine la a considera R = (0 1 0) , respectiv q = 1 .

Atunci, R ( X ′ X ) R ′ va selecta cel de-al doilea element de pe diagonala
−1
[ ]
−1
matricei ( X ′ X )−1 şi deci s 2 R ( X ′X )−1 R′ = Var (b2 ) . Totodată, Rb − q = b2 − 1 ,
deci (Rb − q )′ (Rb − q ) = (b − 1)2 . În plus, numărul de restricţii este j = 1 .
2
Statistica testului F devine în acest caz:
Rb − q ) (s 2 R( X ′X ) R ′) (Rb − q ) (b2 − 1)
( ′ −1
F1,24 =
−1
=
2
=
(0.6030 − 1)2 = 9.937
j Var (b2 ) 0.01586
Cum valoarea critică la pragul de 5% este 5.99, ipoteza H 0 : β 2 = 1 este respinsă.

b. Ipoteza H 0 : β 2 + β 3 = 1 revine la a considera R = (0 1 1), respectiv q=1.

(Rb − q )′ (Rb − q ) = (b2 + b3 − 1)2
( )−1
s 2 R ( X ′X ) R ′ =
−1 1
(
Var (b2 ) + Var (b3 ) + 2 ⋅ Cov b2 ,b3)
Statistica testului se scrie:
Rb − q ) (s 2 R( X ′X ) R ′) (Rb − q )
′ −1
F1, 24 =
( −1
=
j
(b2 + b3 − 1)2
= =
Var (b2 ) + Var (b3 ) + 2 ⋅ Cov (b2 ,b3 )
=
(0.6030 + 0.3757 − 1)2 = 0.1157
0.01586 + 0.00728 + 2(−0.00961)
Se admite deci ipoteza β 2 + β 3 = 1 .
A6 Se consideră modelul macroeconomic cu trei variabile exogene:

yt = a1 ⋅ x1t + a2 ⋅ x2t + a3 ⋅ x3t + b + ε t ; t = 1, K, 18 (1)
y - reprezintă importurile unei anumite ţări;
x1 - reprezintă produsul intern brut;
x2 - reprezintă formarea stocurilor;
x3 - este o variabilă auxiliară.
Modelul estimat se scrie:
yˆ t = 0.133 ⋅ x1t + 0.550 ⋅ x2t + 2.10 ⋅ x3t − 5.92
(2)
(0.006) (0.110) (0.10) (1.27)
Cantităţile dintre paranteze, sub parametrii estimaţi, reprezintă estimaţiile
abaterilor standard ale coeficienţilor de regresie.
a. Presupunând că erorile ε t sunt independente şi normal distribuite, determinaţi
un interval de încredere la nivelul α = 0.05 pentru a1 şi a2.
b. Calculaţi rapoartele t corespunzătoare testului Student pentru estimatorii
parametrilor a1 şi a2. Ce se poate concluziona despre variabilele exogene
asociate acestor parametri?
c. Se doreşte să se testeze ipoteza existenţei unor restricţii asupra parametrilor,
definite de egalităţile: a1 = 0.13 şi a2 = 0.30. Cum se procedează? Precizaţi, la un
prag de încredere α = 0.05, dacă aceste valori sunt acceptabile pentru a1 şi a2 ,
dacă estimaţia matricei de covarianţă a estimatorilor â1 şi â 2 este:
 0.36 − 1.47 
Ωˆ (aˆ1 , aˆ 2 ) = 10− 4 ⋅  
 − 1.47 121.9 
 
iar din tabelul distribuţiei Fisher-Snedecor se obţine valoarea critică:
F 5% ( 2, 14 ) = 3.74
d. Dacă între momentele T şi θ este prevăzută o variaţie de 25 unităţi pentru x1 ,
de 3 unităţi pentru x2 şi de o unitate pentru x3 , care este variaţia prevăzută
pentru variabila endogenă y?
e. Introducerea unei variabile suplimentare x4 conduce la următorul model
estimat:
yˆ t = −0.021 ⋅ x1t + 0.559 ⋅ x2t + 0.235 ⋅ x3t + 2.103 ⋅ x4t − 8.79

(0.051) (0.087) (0.162) (0.077) (1.38)
Ce se poate spune despre estimaţiile lui a1 şi a2 în raport cu modelul estimat la

punctul (2)? Introducerea unei variabile explicative este întotdeauna dezirabilă?
În ce caz particular estimaţia obţinută este mai puţin bună?
SOLUŢIE:
a. Intervalul de încredere la nivelul α pentru a1 rezultă din condiţia:
 aˆ − a 
P i i
≤ t (α ) = 1 − α
 σˆ aî 
unde t este o variabilă repartizată Student pentru T-k = 18-4 = 14 grade de

libertate. Abaterile standard σ̂ â i sunt specificate în cadrul ecuaţiei (2). Totodată,
5%
tabelul distribuţiei Student ne dă t14 = 2.145 . Obţinem:
a1 ∈ [0.121; 0.145]; a2 ∈ [0.314; 0.786].
b. Testarea ipotezei nule H0: a1 = 0 în raport cu ipoteza alternativa H1: a1 ≠ 0 ,
presupune mai întâi calculul raportului:
aˆ1 0.133
t= = = 22.16
σˆ aˆ1 0.006
Această valoare a lui t este mai mare de 2.145, reprezentând valoarea critică
preluată din tabelul repartiţiei Student. Se respinge deci ipoteza nulă şi se poate
accepta ipoteza H1: a1 este statistic semnificativ. Vom spune în acest caz că
variabila exogenă x1 joacă un rol determinant în evoluţia variabilei endogene
considerate.
La fel pentru a2:

aˆ 2 0.550
t= = = 5 > 2.145 = t14
5%
σˆ aˆ 2 0.110
Se acceptă deci H 1 : a2 ≠ 0 . Dar valoarea lui t , mai apropiată de valoarea critică

găsită în tabel, arată că intervalul de încredere pentru â 2 , deşi nu conţine pe 0,
se află totuşi în vecinătatea acestuia, deci că x2 joacă un rol mai puţin
semnificativ decât x1 în evoluţia lui y .
c. Numărul de restricţii este j = 2 . Avem :
1 0  aˆ   0.133   0.13 
R =   ; aˆ =  1  =   ; q =  
0 1  aˆ 2   0.550   0.30 
 aˆ − q   0.133 − 0.13 
Raˆ − q =  1 1  =   ; s 2 R( X ′X )R′ = Ω
ˆ −1 (aˆ , aˆ )
1 2
 a2 − q2   0.550 − 0.30 
ˆ
Statistica testului Wald este :
F2, 14 =
(Raˆ − q )′ Ωˆ −1 (aˆ1 , aˆ2 )(Raˆ − q ) =
j
−1
1  0.133 − 0.13  4  0.36 − 1.47   0.133 − 0.13 
=  10     ≈ 3.05
2  0.550 − 0.30   − 1.47 121.9   0.550 − 0.30 
Vom compara valoarea calculată a lui F cu valoarea critică F (α ; ν 1 , ν 2 ) luată
din tabelul repartiţiei Fisher-Snedecor, cu ν 1 = q = 2 şi ν 2 = T − k = 18 − 4 = 14 .
În cazul nostru, F (α ; ν 1 , ν 2 ) = F (0.05; 2, 14 ) = 3.74 . Cum 3.05 < 3.74 , acceptăm
ipoteza nulă H 0 : Ra = q , adică a1 = 0.13 şi a2 = 0.30 .
d. ∆ y = aˆ1 ∆ x1 + aˆ 2 ∆ x2 + aˆ3 ∆x3 = 0.133 ⋅ 25 + 0.550 ⋅ 3 + 2.10 ⋅ 1 = 7.075
e. Calculăm noile rapoarte ale testului t relative la â1 şi â 2 , respectiv:
0.021 0.559
= 0.41 ; = 6 .4
0.051 0.087
5%
Pentru n − k = 18 − 5 = 13 grade de libertate, valoarea critică este t13 = 2.160 .
Chiar fără a cunoaşte cu precizie această valoare, se poate spune că a1 nu mai
poate fi considerat semnificativ şi că putem accepta ipoteza a1 = 0.
Concluzia cu privire la a2 nu diferă de cea de la modelul cu numai trei variabile
exogene; putem deci admite că parametrul a2 este statistic nenul la pragul de
5%.
5%
Construcţia intervalelor de încredere pentru t13 = 2.160 conduce la:
− 0.123 ≤ a1 ≤ 0.081; 0.385 ≤ a2 ≤ 0.733
Deci: - nu se poate spune dacă a1 este pozitiv sau negativ la nivelul α =5%;
- intervalul referitor la a2 este aproximativ acelaşi cu cel obţinut la
primul model.
Concluzie: Introducerea unei variabile exogene suplimentare nu este deci
întotdeauna dezirabilă; în particular, ea este complet inoportună atunci când
provoacă apariţia unei cvasi-coliniarităţi între variabilele exogene, deci când
valorile sale rezultă aproximativ ca o combinaţie liniară de valorile altor
variabile exogene. Această situaţie se verifică aici cu valorile lui x1 şi x4 .
Abaterile standard ale lui â1 şi â 2 devin atunci foarte mari. De altfel, am putea
regăsi o precizie analoagă celei de la primul model înlocuind pe x1 şi x4 cu o
combinaţie liniară a acestor variabile, adică: α ⋅ x1 + β ⋅ x4 .
A7 Să presupunem că salariul orar poate fi modelat prin următoarea ecuaţie de

regresie:
ln Wi = β 0 + β1 X i + β 2 Di + ε i , i = 1, K, 10 (1)
unde Wi = salariul orar pentru individul i (u.m.)
Xi = anii de vechime ai individului i
 1, dacã individul i este bãrbat
Di = 
0, dacã individul i este femeie
a. Dacă ecuaţia (1) este estimată cu metoda CMMPO, ce ipoteze trebuie
îndeplinite pentru ca estimaţiile să fie cele mai bune estimaţii liniare
nedeplasate?
b. Dacă ipotezele de mai sus sunt verificate, estimaţi ecuaţia salariului prin
metoda CMMPO, folosind următorul eşantion aleator de 10 indivizi:
Wi Xi Di
20 10 0
30 14 0
40 23 0
30 12 0
20 2 0
30 14 1
40 18 1
50 24 1
40 13 1
30 2 1
c. Interpretaţi rezultatele. Dacă vechimea se modifică cu 1%, cu câte procente se

modifică salariul orar? Ce efect are sexul persoanei asupra salariului orar?
d. Este semnificativ efectul sexului persoanei ?
e. Care este salariul orar prognozat pentru un bărbat cu o vechime de10 ani?
SOLUŢIE:
a. E (ε i ) = 0 pentru toţi i ;
E (ε ⋅ ε ′) = σ 2 ⋅ I , deci nu există autocorelaţie şi nici heteroscedasticitate;
X şi D nu sunt stochastice.
β$ = (X′X) ⋅X′Y
-1
b.
 10 132 5   34.574915 
   
unde X′X = 132 2242 71 , X′Y =  471.88712 
 5 71 5   18.092177 
  
 0.5040033 − 0.024918 − 0.150163 
 
(X′X) =  − 0.024918 0.0020425 − 0.004085 
-1
 − 0.150163 − 0.004085 0.4081699 

 
 2.9504
Prin urmare: $β =  0.0283 .
 
 
 0.2651
c. Determinăm elasticitatea salariului orar W în raport cu vechimea X1. Întrucât

modelul estimat se mai poate scrie:
Wˆ = e β 0 + β1 ⋅ X i + β 2 ⋅Di
ˆ ˆ ˆ
i
avem:
( )
E X i Wî =
∂ Wî / ∂ X i ˆ
Wˆ / X
= β1 X i
i i
Am optat pentru evaluarea acestei elasticităţi la o valoare a lui X apropiată de
medie, să spunem X = 13. În acest caz, elasticitatea este de aproximativ 0.37.
Astfel, o creştere a vechimei cu un procent va duce la o creştere a salariului orar
cu aproximativ 0.37%.
Pentru a evalua efectul sexului persoanelor, se observă că derivatele nu pot fi
folosite, deoarece această variabilă este discretă. De aceea, vom evalua diferenţa
dintre speranţele matematice ale lui Ŵ , condiţionate de faptul că D = 1 ,
( ) (
respectiv D = 0 , adică E D Wˆ | D = 1 − E D Wˆ | D = 0 , unde:)
E D (Wˆ | D = 1) = e β 0 + β1 ⋅13+ β 2 = 36.03 ; E D (Wˆ | D = 0) = e β 0 + β1 ⋅13 = 27.64
ˆ ˆ ˆ ˆ ˆ
Aşadar, evaluat pentru X = 13, modelul prognozează că bărbaţii vor câştiga cu

aproximativ 8 u.m. sau cu 30% mai mult pe oră decât femeile. Observaţi că
( ˆ ˆ
) ( ˆ
)
diferenţa e β 2 ⋅1 − e β 2 ⋅0 ⋅ 100 = e β 2 − 1 ⋅ 100 % reprezintă un mod mai simplu de a
obţine acelaşi răspuns.
( )
d. Trebuie să determinăm statistica t = βˆ2 std βˆ2 , ceea ce înseamnă că trebuie
să calculăm eroarea standard a lui β̂ 2 . Începem prin a calcula matricea de
covarianţă V = σˆ 2 ⋅ ( X ′ X )−1 , unde:
σˆ 2 = εˆ′ εˆ (n − k ) = 0.1533178/7 = 0.0219
Observaţi că: εˆ′ εˆ = Y ′ Y − βˆ ′ X ′ Y
Efectuând calculele, obţinem:
 0 . 011039 − 0 . 000546 − 0 . 003289 
V=  − 0 . 000546 0 . 0000447 − 0 . 000089

,
 − 0 . 003289 − 0 . 000089 0 . 00894 
 
( )
iar std β̂ 2 = (0.00894)1/2 = 0.09455. Astfel, t = 0.2651 / 0.09455. Care este
valoarea critică pentru un nivel de semnificaţie de 5% şi 7 grade de libertate?
Dacă a fost dificil să o memorăm, să ne reamintim totuşi că valoarea critică
pentru un eşantion mare este 1.96 ≈ 2 . Deoarece 2.8 este mai mare decât 2, vom
concluziona că este semnificativ efectul sexului persoanelor.
e. ln Ŵ = 2.9504 + 0.0283·10 + 0.2651 = 3.4985 ⇒ Ŵ = e3.4985 = 33.06
A8 Următoarea ecuaţie a fost estimată cu metoda CMMPO, folosind date

trimestriale pe perioda a 19 ani:
yt = 2.20 + 0.104 xt1 - 3.48 xt2 + 0.34 xt3
(3.4) (0.05) (2.2) (0.15)
Erorile standard sunt specificate în paranteze; suma pătratelor explicată de
regresie este egală cu 109.6, iar suma reziduală a pătratelor este de 18.48 .
a. Testaţi semnificaţia fiecărui coeficient unghiular din ecuaţia de regresie.
b. Calculaţi R2 .
c. Adăugând trei variabile de sezonalitate şi reestimând ecuaţia, suma explicată
a pătratelor a crescut la 114.8 . Testaţi prezenţa sezonalităţii.
SOLUŢIE:
a. Pentru a testa coeficienţii unghiulari β̂ i , vom calcula :
βî
t=
eroarea standard a lui βî
şi vom compara valoarea absolută a acestei cantităţi cu valoarea critică

t0.05 (76 − 4) = t0.05 (72) = 2.0 . Statisticile t sunt:
t = 20.8 pentru β̂1 , t = 1.58 pentru β̂ 2 , t = 2.27 pentru β̂ 3
Astfel, β̂1 şi β̂ 3 diferă semnificativ de zero, la un nivel de 95%, în timp ce β̂ 2

nu diferă.
b. SST = SSE + SSR = 109.6 + 18.48 = 128.08.

SSR SSE
R2 = =1− = 0.856
SST SST
c. Modelul original este un model cu restricţii, deoarece presupune implicit că

factorii sezonieri sunt zero, adică nu există variaţie sezonieră. Pentru noul model,
fără restricţii privind variabilele de sezonalitate, avem:
′ ⋅ εˆFR = SST - SSRFR = 128.08 - 114.8 = 13.28

εˆFR
Folosind testul Chow ⇒ F j , n − k =

(εˆ R′ εˆ R ′ εˆ FR
− εˆ FR ′ ) j
.
′ (n − k )
′ εˆ FR
εˆ FR
Indicii R sunt pentru modelul cu restricţii, iar FR pentru modelul fără restricţii.
Avem 3 restricţii, deci j = 3 , k = 7, n = 76 şi prin urmare:
(18.48 − 13.28) / 3
F3, 69 = = 9.01
13.28 /(76 − 7)
Deoarece valoarea critică F 5% (3, 69) = 2.737 < 9.01, respingem ipoteza H 0 a
inexistenţei efectelor sezoniere.
A9 Să considerăm un model de regresie multiplă în care sunt satisfăcute toate

ipotezele clasice, dar care nu conţine termen constant. Să admitem că se doreşte
să se testeze ipoteza nulă H 0 : β1 = β 2 = L = β m = 0 , ce presupune inexistenţa
unei relaţii între Y şi coloanele lui X , faţă de ipoteza alternativă ce afirmă
existenţa cel puţin a unui β j diferit de zero, cu j ∈ {1,..., m}. Construiţi testul
statistic corespunzător şi specificaţi distribuţia sa (inclusiv numărul
corespunzător de grade de libertate).
SOLUŢIE:
Pornind de la modelul fără intercepţie (termen constant):

y = β1 x1 + β 2 x2 + L + β m xm + ε
dorim să testăm ipoteza că toţi β j sunt egali cu zero. Aceasta poate fi scrisă:
R β̂ = r , unde R = I m , r = 0 m
Pentru a construi statistica testului, trebuie să observăm că, deoarece
rang ( X ′ X ) = m (şi nu k = m + 1 , ca în cazul modelului cu intercepţie),
estimatorul nedeplasat pentru σ 2 este dat de relaţia:
εˆ′ εˆ εˆ′ εˆ
σˆ 2 = , iar nu de σˆ 2 = .
n−m n − (m + 1)
εˆ′ ⋅ εˆ
Din acest motiv, ~ χ n2− m , adică urmează o distribuţie χ 2 cu n − m grade
σ2
de libertate, iar statistica testului F este:
βˆ 'X ' X βˆ / m ( y′y − εˆ′ ⋅ εˆ ) / m
= ∼ Fm, n − m
uˆ' uˆ /( n − m) εˆ′ ⋅ εˆ /( n − m)
A10 a. Testul Chow permite verificarea ipotezei omogenităţii observaţiilor unui

eşantion, contra ipotezei unor schimbări structurale (constând în faptul că o parte
sau toţi coeficienţii de regresie sunt diferiţi în cadrul unor sub-eşantioane
diferite). Arătaţi ce forme specifice ia modelul cu restricţii când testarea
schimbărilor structurale de la un eşantion la altul priveşte: 1°) toţi coeficienţii;
2°) numai termenul constant; 3°) numai coeficienţii unghiulari; 4°) numai o
mulţime oarecare de coeficienţi.
b. Se consideră un eşantion de date corespunzând unei perioade de 31 ani, care
se ajustează după un model liniar de forma:
yt = α1wt + α 2 zt + α 3 + ε t ; t ∈ {1,...,31}; T = 31
Vom presupune că perturbaţiile ε t sunt variabile aleatoare independente, ce

urmează o distribuţie normală de medie nulă şi dispersie σ 2 . Să notăm prin SSE
suma pătratelor reziduurilor obţinute în urma aplicării metodei CMMPO.
Precizăm totodată că s-au efectuat mai multe ajustări prin metoda CMMPO.
Astfel:
(i) pentru subperioada 1-21 s-a obţinut SSE1 = (εˆ (1) )′ ⋅ εˆ (1) = 4.62;
(ii) pentru subperioada 22-31 s-a obţinut SSE2 = (εˆ ( 2 ) )′ ⋅ εˆ ( 2) = 1.72;
(iii) pentru întreaga perioadă 1-31 s-a obţinut SSEr = (εˆ ( r ) )′ ⋅ εˆ ( r ) = 9.26;
Se cere să se testeze omogenitatea rezultatelor obţinute pentru cele două
subperioade considerate, aplicând în acest sens testul Chow construit la punctul
precedent. Ce concluzie se obţine la pragul de semnificaţie α = 5% ?
SOLUŢIE:
a. Considerăm un eşantion ale cărui observaţii subîntind o perioadă de la 1 la T.

Alegem apoi în cadrul său două sub-eşantioane disjuncte, corespunzătoare sub-
perioadelor de la 1 la T1, respectiv de la T1+1 la T, pentru care ne propunem să
testăm ipoteza de omogenitate.
Modelul de regresie fără restricţii (care permite coeficienţilor să fie diferiţi în
cele două perioade), presupune estimarea separată a coeficienţilor de regresie
pentru ecuaţiile asociate fiecărui sub-eşantion în parte; eventual se poate proceda
la reunirea ecuaţiilor corespunzătoare celor două sub-perioade într-un singur
model, scris sub formă matriceală:
 Y (1)   X (1) 0  α (1)   ε (1) 

    + 
 Y (2 )  =  0 X (2 )  α (2 )   ε (2 ) 
  
Prin urmare, estimatorul CMMPO fără restricţii va fi:
−1
 αˆ (1)   X (1) ′ ⋅ X (1)
( ) 0
  (1) ′ (1) 
 ⋅ X ( )
⋅Y 
 
 αˆ (2 )  = 
   0 (X ) (2 ) ′   ′
( ) 
⋅ X (2 )   X 2 ⋅ Y (2 ) 
De remarcat că suma totală a pătratelor reziduurilor asociate ecuaţiei matriceale

de mai sus se poate obţine adunând sumele pătratelor reziduurilor obţinute
pentru cele două modele de regresie considerate separat. Avem:
εˆ (1) = Y (1) − X (1) ⋅ αˆ (1) ; εˆ (2 ) = Y (2 ) − X (2 ) ⋅ αˆ (2 )
 εˆ (1)   Y (1)   X (1) 0   αˆ (1) 
sau matriceal: εˆ =  (2 )  =  (2 )  −  ⋅ 
 εˆ   Y   0 X (2 )   αˆ (2 ) 
de unde se poate deduce uşor că:
( )′ ( )′
εˆ′ ⋅ εˆ = εˆ (1) ⋅ εˆ (1) + εˆ ( 2) ⋅ εˆ (2 )
Pe de altă parte, pentru a obţine estimatorul α̂ (r ) al modelului cu restricţii,
respectiv vectorul εˆ (r ) al reziduurilor generate în cadrul acestuia, se poate
proceda în două moduri, astfel:
- Se definesc restricţiile prin relaţii matriceale de forma Rα = q . Spre exemplu,
restricţia α (1) = α (2 ) echivalează cu a lua R = (I − I ) şi q = 0 . Se aplică apoi
tehnica de estimare specifică metodei celor mai mici pătrate cu restricţii.
- O cale mai simplă este aceea de a încorpora restricţia direct în model. Vom
explicita cazurile când testarea ipotezei omogenităţii contra celei a schimbărilor
structurale priveşte:
1°) toţi coeficienţii, adică: α (1) = α ( 2 ) = α ( r ) . Modelul cu restricţii se scrie:
Y(1) = X(1) ⋅ α ( r ) + ε (r1) ; Y ( 2 ) = X( 2 ) ⋅ α ( r ) + ε (r2 )
sau matriceal:
 Y(1)   X(1)   ε (1) 

Y = X ⋅ α ( r ) + ε r , cu: Y =  ( 2 )  ; X =  ( 2 )  ; ε r =  (r2 ) 
Y  X   εr 
2°) numai termenii constanţi: α 0(1) = α 0(2 ) = α (0r ) . Modelul cu restricţii se scrie:
Y (1) = α 0(r ) + X (1) ⋅ α*(1) + ε r(1) ; Y (2 ) = α 0(r ) + X (2 ) ⋅ α*(2 ) + ε r(2 )

sau matriceal:
 α 0(r ) 
 Y (1)  1 X (1) 0   (1)   ε r(1) 
    ⋅  α*  +  
 Y (2 )  = 1 0 X (2 )   (2 )   ε r(2 ) 
  
 α* 
3°) numai coeficienţii unghiulari: α *(1) = α *(2 ) = α *(r ) . Modelul cu restricţii se scrie:
Y (1) = α 0(1) ⋅ + X (1) ⋅ α*( r ) + ε r(1) ; Y (2 ) = α 0(2 ) + X (2 ) ⋅ α*(r ) + ε r(2 )

sau matriceal:
 α 0(1) 
 Y (1)   1 0 X (1)   (2 )   ε r(1) 
    ⋅ α 0  +  
 Y (2 )  =  0 1 X (2 )   ( r )   ε r(2 ) 
  
α* 
4°) numai o mulţime oarecare de coeficienţi: α (b1) = α (b2 ) = α (br ) . Modelul cu
restricţii se scrie:
Y (1) = X a(1)α a(1) + X b1 ⋅ α b(r ) + ε r(1) ; Y ( 2 ) = X a(2 ) ⋅ α a(2 ) + X b(2 ) ⋅ α b(r ) + ε r(2 )
 (1) 
(1)   α a   (1) 
 Y (1)   X a(1) 0 Xb (2 ) ε
     r 
sau matriceal:  Y (2 )  =  0 (2 )  ⋅  α a  +  (2 ) 
   X a(2 ) X b   (r )   ε r 
αb 
Pe baza estimării modelului cu restricţii, în oricare dintre variantele prezentate,
se poate determina vectorul reziduurilor εˆr şi deci suma pătratelor acestora,
εˆr ′ ⋅ εˆr . Cu aceste elemente, putem construi statistica testului :
′
(εˆr ⋅ εˆr − εˆ′ ⋅ εˆ ) / j
F=
εˆ′ ⋅ εˆ /( n − k )
unde j este numărul de restricţii.
b. Modelul este:
yt = α1wt + α 2 zt + α 3 + ε t ; t ∈ {1,...,31}; T = 31
Dat fiind că s-a efectuat regresia atât pentru întreaga perioadă de 31 ani, cât şi
pentru cele două sub-perioade, se poate testa cu uşurinţă omogenitatea
coeficienţilor.
Într-adevăr, să notăm cu H 1 ipoteza potrivit căreia datele relative la cele două

subperioade nu sunt omogene:
- pentru sub-perioada 1-21: yt(1) = α1(1) wt(1) + α 2(1) zt(1) + α 3(1) + ε t(1) ;
- pentru sub-perioada 22-31: yt( 2 ) = α1(1) wt( 2 ) + α 2( 2 ) zt( 2) + α 3( 2 ) + ε t( 2) ;
unde ε t(1) şi ε t( 2) sunt presupuse a fi variabile aleatoare normal distribuite,
independente, cu matrice de covarianţă σ 2 I Putem reuni cele două ecuaţii
într-un singur model liniar scris sub formă matriceală:
 α1(1) 
 
 α 2(1) 
 
 Y (1)  W (1) Z (1) U (1) 0 0 0   α 3(1)   ε (1) 
 = ⋅ + 
 Y ( 2)   0 0 0 W (2)
Z ( 2)
U ( 2 )   (2 )   ( 2 ) 
α ε
    1  
 (2 ) 
α
 2 
 α (2 ) 
 3 
 Y1 
(1)
 Y1 
( 2)
   
unde: Y =  M  , Y =  M  , ...
(1) ( 2)
 (1)   ( 2 ) 
 Y21   Y10 
deoarece dispunem de T1 = 21 observaţii pentru prima sub-perioadă şi de
T2 = 10 observaţii pentru a doua; U reprezintă aici variabila unitate. Punând:
 α1(1)  α1(2 ) 
   
α1 =  α 2(1) , α 2 = α 2(2 ) 
 (1)   (2 ) 
 α1  α 3 
(
X (1) = W (1) Z (1) U (1) ) (matrice (T1 × 3))
X ( 2)
= (W ( 2)
Z (2)
U (2)
) (matrice (T2 × 3))
modelul se mai poate scrie:
 Y (1)   X (1) 0  α (1)   ε (1) 
 =  + 
 Y (2 )   0 X (2 )  α (2 )   ε (2 ) 
  
El furnizează estimaţiile fără restricţii şi reziduurile corespunzătoare, pe baza
cărora se poate calcula suma reziduurilor: εˆ ′ ⋅ εˆ . Dacă cele două ecuaţii sunt
estimate separat, atunci acelaşi rezultat se va obţine prin cumularea sumelor
reziduurilor relative la sub-eşantioanele respective:
εˆ ′ ⋅ εˆ = (εˆ (1) )′ ⋅ εˆ (1) + (εˆ (2 ) )′ ⋅ εˆ (2 ) .
εˆ′ ⋅ εˆ
De remarcat că avem: ~ χ N2 -q , unde N = 31 este numărul total de
σ 2
observaţii, iar q = 6 numărul total al parametrilor de estimat.

Să definim acum modelul cu restricţii. Vom nota cu H0 ipoteza conform căreia:

α1(1) = α1( 2 ) , α (21) = α (22 ) şi α (31) = α (32 ) . Ne plasăm prin urmare în condiţiile cazului
1°), iar modelul cu restricţii se scrie:
 Y (1)   X (1)  (r )  ε r(1) 
     
 Y (2 )  =  X (2 )  ⋅ α +  ε (2 ) 
     r 
Suma pătratelor reziduurilor ε$ ′r ⋅ ε$ r urmează legea:
εˆ′ ⋅ εˆ
~ χ N2 − k
σ2
unde N = 31 este numărul total al observaţilor, iar k = 3 numărul parametrilor
de estimat ( q = 2k ). Se poate deduce că, în condiţiile ipotezei H 0 , raportul
εˆr′ ⋅ εˆr − εˆ′ ⋅ εˆ
urmează o repartiţie χ 2 cu ( N − k ) − ( N − 2k ) = k grade de
σ 2
libertate. Statistica testului este dată de raportul:

′
(εˆr ⋅ εˆr − εˆ′ ⋅ εˆ) / k
F=
εˆ′ ⋅ εˆ /( N − 2k )
care trebuie, în ipoteza H 0 , să urmeze o distribuţie F cu k şi N − 2k grade de
libertate. Dacă F > Fα , putem respinge ipoteza H 0 ( α1 = α 2 ), la nivelul de
semnificaţie α . În cazul nostru:
(9.26 − 6.34) / 3
F= ≈ 3.84
6.34 /(31 − 6)
Cum F35, %25 ≈ 2.99 , se respinge ipoteza H 0 de omogenitate a coeficienţilor. Cele

două sub-eşantioane trebuie deci estimate separat.
A11 Un eşantion privind bugetele de familie este partiţionat în sub-eşantioane,

după cum familiile sunt întreţinute de: 1) lucrători zilieri; 2) lucrători salariaţi; 3)
patroni. Pentru determinarea legăturii dintre cheltuieli (c ) şi venituri (v ) se
foloseşte un model log-liniar:
ln ci = α + β ⋅ ln vi + ε i , ε i ~ N 0, σ 2 ( )
Estimat pentru fiecare sub-eşantion şi pentru eşantionul total, acesta conduce la
următoarele rezultate:
β̂ j σˆ 2j Tj
Lucrători zilieri 1.02 0.24 102

Lucrători salariaţi 0.91 0.46 104
Patroni 0.76 0.30 26
Total familii 0.86 0.39 232
unde T este dimensiunea eşantionului.

a. Arătaţi că β reprezintă elasticitatea lui c în raport cu v .
b. Testaţi ipoteza de omogenitate exprimată prin:
H0: atât termenii liberi ( α ) cât şi coeficienţii unghiulari ( β ) coincid, pentru
toate grupele de forţă de muncă.
c. În situaţia respingerii ipotezei nule formulate la punctul b) puteţi preciza dacă
acest fapt a fost cauzat de eterogenitatea coeficientului α, a coeficientului β, sau
a ambilor coeficienţi? Motivaţi răspunsul.
SOLUŢIE:
a. Modelul log-liniar se poate pune sub formă multiplicativă astfel:

ci = A ⋅ viβ ⋅ ξ i ; unde : A = eα ; ξ i = e ε i
Elasticitatea lui c în raport cu v este, prin definiţie:
∂c / ∂v β ⋅ A ⋅ viβ −1 ⋅ ξi
Ev c = = =β
c/v A ⋅ viβ ⋅ ξi / v
b. Se ştie că estimatorul nedeplasat al dispersiei reziduurilor se exprimă prin
εˆ′ ⋅ εˆ
relaţia: σ 2 = . Întrucât în enunţul problemei se specifică σ 2j şi T j atât
T −2
pentru ecuaţiile de regresie estimate separat pentru cele trei sub-eşantioane cât şi
pentru modelul cu restricţii asociat întregului eşantion, relaţia precedentă ne
permite să calculăm suma pătratelor reziduurilor în fiecare dintre cazurile
menţionate.
Suma pătratelor reziduurilor pentru modelul fără restricţii asupra coeficienţilor
se obţine prin cumularea sumelor pătratelor reziduurilor aferente modelelor
estimate pentru fiecare subeşantion în parte:
3
εˆ′ ⋅ εˆ = εˆ1′ εˆ1 + εˆ2′ εˆ2 + εˆ3′ εˆ3 = ∑ (Ti − 2) ⋅ σˆ i2 =
i =1
= 100 ⋅ 0.24 + 102 ⋅ 0.46 + 24 ⋅ 0.30 = 78.12

Numărul total al parametrilor de estimat în cazul modelului fără restricţii este
2 k = 2 ⋅ 3 = 6 : α 1 , β1 , α 2 , β 2 , α 3 , β 3 .
În condiţiile ipotezei nule:
H 0 : "atât termenii liberi (α ) cât şi coeficienţii unghiulari ( β ) coincid,

pentru toate grupele de forţă de muncă",
există patru restricţii: α 2 = α 1 ; α 3 = α1 ; β 2 = β1 ; β 3 = β1 , deci j = 4 .
Din datele problemei furnizate în enunţ putem calcula suma pătratelor
reziduurilor pentru modelul cu restricţii:
εˆr′ ⋅ εˆr = (T − 2) ⋅ σˆ 2 = 230 ⋅ 0.39 = 89.70
Statistica testului de omogenitate poate fi acum precizată:
(εˆr′ ⋅ εˆr − εˆ′ ⋅ εˆ) / j (89.7 − 78.12) / 4
F= = = 8.38
εˆ′ ⋅ εˆ /(T − 2k ) 78.12 / (232 − 6)
Deşi valoarea critică a testului F pentru 4, respectiv 226 grade de libertate, nu
este tabelată, totuşi ea trebuie să fie cuprinsă între valorile tabelate F45,%100 = 2.46
şi F45,%∞ = 2.37 . Valoarea calculată fiind net mai mare decât aceste valori de
referinţă, ipoteza nulă este respinsă. Prin urmare, trebuie admisă ipoteza
existenţei unor schimbări structurale la trecerea de la un sub-eşantion la altul,
fapt ce impune estimarea separată a modelului pentru fiecare tip de familie
investigată.
c. Nu putem preciza dacă respingerea ipotezei nule a fost cauzată de
eterogenitatea coeficentului α , a coeficientului β , sau a ambilor coeficienţi.
Într-adevăr, datele problemei nu ne-au permis decât testarea ipotezei H 0
referitoare la omogenitatea (sau dimpotrivă, eterogenitatea) ansamblului
coeficienţilor. Pentru testarea explicită a termenului constant α , respectiv a
coeficientului unghiular β , ar mai fi necesară estimarea unor modele care să ia
în considerare existenţa unor restricţii parţiale, relative doar la unul sau altul
dintre coeficienţii menţionaţi.
A12 Se consideră o funcţie de producţie Cobb-Douglas specificată prin relaţia:

Yt = A ⋅ Lβt 1 ⋅ K tβ 2
Se poate admite ipoteza potrivit cărei coeficienţii sunt stabili pentru perioada
21 − 39 , comparativ cu perioada 1− 20 , faţă de ipoteza alternativă a existenţei
unor schimbări structurale? În scopul efectuării analizei, se dau următoarele
rezultate:
Pentru perioada 1− 39 :
ln Yt = −3.8766 + 1.4106 ⋅ ln Lt + 0.4162 ⋅ ln K t
(−15.20) (15.90) (8.24)
Notă: Valorile dintre paranteze sunt valori calculate ale testului t (rapoarte
Student).
R 2 = 0.9937 ; σˆ ε = 0.03755
Matricea de covarianţă a estimatorilor este:
( )  5.5461 − 3.0032 
Cov βˆ1 , βˆ2 = σˆ ε2  
 − 3.0032 1.8079 
Pentru perioada 1− 20 :
ln Yt = −4.0576 + 1.6167 ⋅ ln Lt + 0.2197 ⋅ ln K t
(−11.36) (7.74) (0.96)
R 2 = 0.9759 ; σˆ ε = 0.04573
Pentru perioada 21 − 39 :
ln Yt = −1.9564 + 0.8336 ⋅ ln Lt + 0.6631 ⋅ ln K t
(−2.19) (3.35) (7.86)
R 2 = 0.9904 ; σˆ ε = 0.02185
SOLUŢIE:
Se aplică o variantă a testului lui Fisher şi anume testul Chow, vizând ipoteza de
omogenitate, sau stabilitate a modelului (contra ipotezei unor schimbări
structurale).
Suma pătratelor reziduurilor pentru prima sub-perioadă (1-20) este:
εˆ1′ ⋅ εˆ1′ = σˆ ε(1) ⋅ (T1 − k ) = (0.04573) 2 ⋅ 17 , deoarece numărul observaţiilor este
T1 = 20 şi există k = 3 parametri.
Suma pătratelor reziduurilor pentru a doua sub-perioadă (21-39) este:
εˆ2′ ⋅ εˆ2′ = σˆ ε( 2 ) ⋅ (T2 − k ) = (0.02185) 2 ⋅ 16 , deoarece numărul observaţiilor este
T2 = 19 şi există tot k = 3 parametri.
Suma pătratelor reziduurilor pentru modelul fără restricţii se obţine atunci prin
însumarea sumelor pătratelor reziduurilor corespunzătoare celor două sub-
perioade:
′ ⋅ εˆFR
εˆFR ′ = εˆ1′ ⋅ εˆ1′ + εˆ2′ ⋅ εˆ2′ = 0.04319
şi corespunde unui număr de T − 2 k = 33 grade de libertate.
Suma pătratelor reziduurilor pentru modelul cu restricţii, definit şi estimat sub
forma prezentată la cazul a), ce corespunde situaţiei de stabilitate (omogenitate),
se determină astfel:
εˆR′ ⋅ εˆR′ = σˆ ε( R ) ⋅ (T − k ) = (0.03755) 2 ⋅ 36 = 0.05076
unde T = 39 , iar k = 3 .
Statistica testului este definită de:
(εˆ′R ⋅ εˆR − εˆ′FR ⋅ εˆFR ) / k ( 0.05076 − 0.04319) 3
F3, 33 = = = 1.93
′ ⋅ εˆFR /(T − 2k )
εˆFR 0.04319 33
Valoarea critică la pragul α = 0.05, obţinută din tabelul distribuţiei Fisher este
F 5% (3, 33) = 2.90. Cum 1.93 < 2.90, trebuie să respingem ipoteza de stabilitate
a coeficienţilor pentru cele două sub-perioade considerate.
Anexa 3A. Funcţii în limbajul Matlab pentru modelul de regresie liniară

multiplă: estimare parametrică, testare şi predicţie
function [b_stat,bint,anova_stat,valid_model,t_infer,F_infer,ye,e] =
reg_lin_mult(X,y,is1,alpha)
if nargin < 2
error(message('Prea putine intrari!'));
elseif nargin < 3
is1 = 1;
elseif nargin == 3
alpha = 0.05;
end
[n,ncolX] = size(X);
if ~isvector(y) || numel(y) ~= n
error(message('Numarul de elemente ale vectorului y si numarul de
linii ale matricei X sunt diferite!'));
end
% Daca is1 > 0, modelul este cu interceptie (termen liber), deci se

% suplimenteaza matricea X cu un vector coloana unitate
if is1 > 0
% Se introduce ca prima coloana a lui X un vector unitate
X = [ones(n,1), X];
ncolX = ncolX + 1;
end;
% Se utilizeaza descompunerea QR pentru determinarea rangului lui X

% si se elimina coloanele dependente ale lui X
[Q,R,perm] = qr(X,0);
% qr produce o matrice triunghiular superioara R de dimensiune
% (n, ncolX), si o matrice ortogonala Q (cu proprietatea Q'*Q=I);
% perm este un vector permutare, astfel incat X(:,perm) = Q*R
if isempty(R)
k = 0;
elseif isvector(R)
k = double(abs(R(1))>0);
else
k = sum(abs(diag(R)) > max(n,ncolX)*eps(R(1)));
end
% Daca k < ncolX, adica X nu este de rang maximal, se retin numai

% primele k coloane ale lui Q si primele k linii ale lui R.
if k < ncolX
warning(message('X nu este de rang maximal'));
R = R(1:k,1:k);
Q = Q(:,1:k);
perm = perm(1:k);
end
% Se calculeaza doar primele k elemente ale vectorului b al

% estimatiilor parametrilor de regresie;
% ceilalti se seteaza la zero.
% Avem: X*b = y; X = Q*R ; Q'*Q = I

% Q*R*b = y => R*b = Q'*y (sistem triunghiular)
% Daca X este de rang maximal, atunci R este inversabila.
% Daca rangul k al lui X nu este maximal, atunci matricea R formata
% doar din cele pcoloane liniar independente este inversabila,
% astfel incat exista o solutie unica:
% b(perm) = R^(-1)*Q'*y
% Trebuie evitat calculul direct al lui R^(-1), mai eficient fiind
% sa se determine solutia prin "impartire" la stanga cu R:
% b(perm) = R \ (Q'*y)
b = zeros(ncolX,1);
b(perm) = R \ (Q'*y);
% - Valorile estimate ale lui y.

ye = X*b;
% - Reziduurile e
e=y-ye;
% - sqrt(e'*e), adica radical din suma patratelor reziduurilor
normr = norm(e); % norma (lungimea vectorului e)
% - Suma patratelor reziduurilor SSE = e'*e
SSE = normr.^2;
% - Suma patratelor explicata de regresie.
SSR = norm(ye-mean(y))^2;
% - Suma totala a patratelor.
SST = norm(y-mean(y))^2;
% - Coeficientul de determinatie
R2 = 1 - SSE/SST;
% - Coeficientul de corelatie liniara multipla
R = sqrt(R2);
% - Numarul de grade de libertate (n-k) al reziduurilor
n_k = max(0,n-k);
if n_k ~= 0
% ----- Dispersia reziduala - estimator nedeplasat al dispersiei
% ----- erorilor
s2 = SSE/n_k;
% ----- Coeficientul de determinatie corectat
R2c = 1 - SSE*(n-1)/(SST*(n_k));
% ----- Eoarea standard a selectiei: RMSE = sqrt(e'*e/(n-k))
RMSE = normr/sqrt(n_k);
% ----- Inversa matricei R, adica RI = R^(-1)
RI = R\eye(k);
% ----- Vectorul sb al estimatiilor abaterilor standard ale
% ----- coeficientilor de regresie
sb = zeros(ncolX,1);
sb(perm,:) = RMSE*sqrt(sum(abs(RI).^2,2));
% ----- Vectorul t al statisticilor testului lui Student
t = abs(b)./sb;
% ----- Valoarea critica a distributiei t (Student) pentru (n-k)
% ----- grade de libertate, la pragul de semnificatie alpha
tval = tinv((1-alpha/2),n_k);
% ----- Intervalele de incredere ale coeficientilor de regresie
bint = [b - tval*sb, b + tval*sb];
else
s2 = NaN;
R2c = NaN;
RMSE = NaN;
sb = NaN;
t = NaN;
tval = 0;
bint = NaN;
end
% Statistica F a testului lui Fisher
if k > 1
F = (SSR/(k-1))/s2;
else
F = NaN;
end
% Probabilitatea pvalue asociata semnificatiei modelului
% de regresie
prob = fpvalue(F,k-1,n_k);
b_stat = [b, sb, t];

anova_stat = [SSR, k-1, SSR/(k-1); SSE, n_k, s2; SST, n-1,
SST/(n-1)];
valid_model = [R2; R2c; R; RMSE];
t_infer =[n_k, tval];
F_infer = [k-1, n_k, F, prob];
end
%
% FuncŃie pentru predicŃie liniara
%
function [yp,sy] = predictie(X,is1,b,s2,x)
n=size(X,1);
one=ones(n,1);
if is1 > 0
X=[one, X];
x=[1 x];
end;
yp=X*b;
sy=sqrt(s2*(1+x*inv(X'*X)*x'));
%
% FuncŃie pentru testul lui Wald
%
function F = Wald(X,is1,R,b,q,s2)
n=size(X,1);
j=size(R,1);
if is1 > 0
X=[ ones(n,1), X];
end;
F=(R*b-q)'*inv(s2*R*inv(X'*X)*R')*(R*b-q)/j;

Modelul de Regresie Liniara Multipla

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Modelul de Regresie Liniara Multipla

Încărcat de

Drepturi de autor:

Formate disponibile

Capitolul 3

MODELUL DE REGRESIE LINIARĂ MULTIPLĂ

3.1. Ipotezele ce permit specificarea modelului clasic de regresie

Prima ipoteză se referă la:

sau, în scriere matriceală:

Prezenţa erorii aditive, desemnată prin termenul ε i , dă caracterul stochastic al

sau, în formă matriceală:

unde ei are semnificaţia unui termen rezidual.

(i2) Ipoteze cu privire la erorile ε i .

(i2.b2) Absenţa corelaţiei seriale (autocorelaţiei). Erorile {ε i } constituie o

ipoteza precedentă revine la a considera:

În baza acestor presupoziţii, matricea de covarianţă a perturbaţiilor se poate

(i3) Ipoteze cu privire la regresorii Xj .

3.2. Deducerea estimatorului CMMPO

Suma pătratelor reziduurilor se exprimă atunci prin:

Am utilizat faptul că b ′X ′ y = y ′Xb , deoarece prima formă pătratică este

este pozitiv definită.

3.3. Interpretarea geometrică a estimatorului CMMPO. Matricea

Fie ℜ n un spaţiu vectorial şi W1, respectiv W2, două subspaţii disjuncte

în sensul că orice vector y∈ ℜ n se poate scrie în mod unic sub forma:

Un proiector ortogonal p : ℜ n → W induce decompoziţia spaţiului vectorial

ℜ n = W ⊕W ⊥ , cu W = Im( p ); W ⊥ = Ker ( p ) = Im(1 − p ) (3.22)

Endomorfismul (1 − p ) : ℜ n → W ⊥ este complementarul endomorfismului p

W ⊥ se numeşte complementul ortogonal al subspaţiului W.

Teorema 3.1. P este o matrice de proiecţie ortogonală, asociată proiectorului

unde: yˆ = Py ∈ Im(P ), y − yˆ = (I − P ) ⋅ y ∈W ⊥ = Im(I − P ) = Ker (P ) .

deci P este simetrică. Totodată, din P = P ′P şi P ′ = P , rezultă P = P 2 , deci P

Am arătat astfel că matricea de proiecţie ortogonală a vectorului y ∈ ℜ n pe

∈ ℜ n pe complementul ortogonal Im(X)⊥

3.4. Deducerea estimatorului CMMPO în cazul partiţionării matricei

Fie o matrice M nesingulară, de dimensiune p×p, partiţionată după cum

Vom utiliza acest rezultat pentru a obţine forma estimatorului CMMPO în

unde: dim( X ) = n × k , dim( X 1 ) = n × k1 , dim( X 2 ) = n × k 2

iar estimatorul CMMPO al lui β , adică b = (X′ X)−1 X′ y, devine:

şi aplicând regula de inversare (2.78) a unei matrici partiţionate, obţinem:

Vom partiţiona matricea X sub forma:

unde: dim( X ) = n × k , dim(1) = n × 1 , dim( X * ) = n × m

În cazul unor implementări informatice sunt cu deosebire utile următoarele

3.5. Proprietăţile estimatorului CMMPO. Teorema Gauss-Markov

În cele ce urmează, ne va interesa clasa estimatorilor liniari ai parametrului

şi astfel avem incluziunea Im( XL ) ⊂ Im( X ) . Incluziunea Im( X ) ⊂ Im( XL ) se

dispersie minimă în clasa estimatorilor liniari nedeplasaţi (BLUE = "Best Linear

Demonstraţie: Din (3.30) - (3.32) rezultă:

Vom arăta că b este estimatorul liniar nedeplasat de dispersie minimă[ (BLUE)

∑b = σ 2 LL′ = σ 2 ( X ′X )−1 X ′ ⋅ X ( X ′X )−1 = σ 2 ( X ′X )−1 (3.40)

3.6. Deducerea estimatorului nedeplasat al dispersiei erorilor

Deoarece dispersia σ2 a erorilor este un parametru necunoscut, în practică,

Am demonstrat astfel că speranţa matematică a sumei pătratelor reziduurilor

Notând cu m numărul variabilelor explicative, avem:

m + 1 dacă β 0 ≠ 0 (model cu interceptie)

3.7. Estimatorul nedeplasat al matricei de covarianţă Σb a lui b

Ţinând cont de ipoteza conform căreia matricea X este nestochastică, urmează

3.8. Descompunerea dispersiei totale a lui y

Numim variaţie totală a variabilei dependente Y, suma pătratelor abaterilor

Totodată, plecând de la y = X b + e = yˆ + e , suma pătratelor valorilor yi se poate

Observaţie: Anularea termenilor X ′e , respectiv e′X , decurge din verificarea

e = y − yˆ = y − Xb = y − X ( X ′X )−1 X ′y = [ I − X ( X ′X )−1 X ′] ⋅ y = Q ⋅ y (3.61)

unde Q este o matrice simetrică ( Q′ = Q ) şi în plus Q 2 = Q .

deoarece y ′ X b este un scalar şi deci y′ X b = ( y′ X b)′ = b′ X ′ y .

SSR = b′X ′Xb − ny 2 = ∑in=1 ( yˆ i − y )

Următorul tabel sintetizează principalele rezultate referitoare la analiza

Grade de Pătratul mediu

Notă: Tabelul furnizează rezultate corecte doar în cazul modelului cu intercepţie,