Sunteți pe pagina 1din 92

BAZELE

ECONOMETRIEI
ANUL III Semestrul 1

Cluj-Napoca 2018

1
I. INFORMAŢII GENERALE ................................................................................................................. 2
Date de contact ale titularului de curs...........................................................................................................2
Obiective ……………………………….......................................................................................................2
Competenţe profesionale.............................................................................................................................. 2
Competenţe transversale ………………………...........................................................................................3
Materiale bibliografice ................................................................................................................................. 2
Materiale şi instrumente necesare pentru curs ............................................................................................. 3
Studenţi cu dizabilităţi ................................................................................................................................. 4
II. SUPORTUL DE CURS ........................................................................................................................ 5
Modulul 1: LEGI DE PROBABILITATE SI TEORIA ESTIMATIEI........................................................5
Unitatea 1.1: Legi de probabilitate discrete şi continue.................................................................................5
Unitatea 1.2: Teoria estimaţiei.....................................................................................................................25
Modulul 2: MODELUL LINIAR SIMPLU............................................................................................... 25
Unitatea 2.1: Descrierea şi ipotezele modelului; estimarea parametrilor acestuia......................................25
Unitatea 2.2: Proprietaţile estimatorilor şi inferenţa lor statistică...............................................................29
Unitatea 2.3: Analiza varianţei. Previziunea variabilei endogene...............................................................35
Aplicaţie privind modelul liniar simplu......................................................................................................39
Modulul 3: MODELUL LINIAR MULTIPLU......................................................................................... 48
Unitatea 3.1: Descrierea şi ipotezele modelului; estimarea parametrilor acestuia......................................48
Unitatea 3.2: Proprietaţile estimatorilor şi inferenţa lor statistică...............................................................51
Unitatea 3.3: Analiza varianţei. Previziunea variabilei endogene...............................................................55
Aplicaţie privind modelul liniar multiplu....................................................................................................60
Unitatea 3.4: Selecţia variabilelor explicative.............................................................................................69
Aplicaţie privind selecţia variabilelor explicative.......................................................................................78

1
I. INFORMAŢII GENERALE

Date de contact ale titularului de curs


Nume: Prof.univ.dr. Alexandru Todea
Suport de curs conceput de: Prof.univ.dr. Cristian Dragoş
Birou: Sala 236, sediul Fac. de Ştiinţe Economice şi Gestiunea Afacerilor,
str. Teodor Mihali 58-60
Telefon: 0264-418654
E-mail: alexandru.todea@econ.ubbcluj.ro

Obiective
Acomodarea studenților cu principalele concepte legate de tehnicile econometrice de bază.
Dobândirea cunoştintelor necesare analizei fenomenelor economico-financiare prin tehnicile
elementare ale econometriei. Insuşirea modului de organizare a bazelor de date necesare
prelucrărilor cantitative. Analiza, prelucrarea si interpretarea datelor in concordanţă cu teoria
economica.

Competenţe profesionale
- Utilizarea adecvată a conceptelor, teoriilor, metodelor şi instrumentelor de natură
financiară cu sprijin tehnic bazat pe modelare econometrica

- Culegerea, analiza şi interpretarea de date şi informaţii referitoare la probleme


economico-financiare

- Realizarea de proiecte de natură financiară la nivelul organizaţiilor cu sprijin tehnic bazat


pe calcule specifica econometriei

Competenţe transversale : cunoaşterea, înţelegerea, analiza şi utilizarea conceptelor, teoriilor,


principiilor şi a metodelor fundamentale de investigare şi prospectare specifice economiei de
piaţă.

Materiale bibliografice
1. ANDREI T., BOURBONNAIS R. – Econometrie, Ed. Economica, Bucuresti, 2008
2. DORMONT B. - Introduction à l'économétrie, Ed. Montchrestien, Paris, 2007
3. DRAGOS C. – Bazele econometriei si modelarii econometrice, Ed. Mediamira, Cluj N., 2008

2
4. GREENE W. – Econometric Analysis, Ed. Prentice Hall, 2011
5. WOOLDRIGE J.M. - Introductory Econometrics: A Modern Approach, Ed. South-Western
College Pub, 2008
6. ASHENFELTER O., LEVINE P., ZIMMERMAN D.J. - Statistics and Econometrics :
Methods and Applications, Ed. Wiley, 2006
7. MIGNON V. - Econométrie : Théorie et applications, Ed. Economica, Paris, 2008

Materiale şi instrumente necesare pentru curs


Derularea în condiţii optime a cursului de Bazele contabilităţii presupune utilizarea următoarelor
echipamente:
- Laptop (asigurat de facultate);

- Videoproiector (asigurat de facultate);

- Sala de informatica dotata cu calculatoare (asigurată de facultate);

- Soft-ware de econometrie – STATA (asigurat de facultate);

- Suport de curs şi seminar (format electornic şi/sau tipărit, asigurate de departament);

- Referinţe bibliografice indicate (asigurate prin intermediul bibliotecii facultăţii).

Elemente de deontologie academică


Plagiatul este o problemă serioasă şi este pedepsită cu asprime. Orice student care este prins că
plagiază se poate aştepta să îi fie anulată munca şi să se întreprindă măsuri disciplinare din partea
organismelor de conducere ale facultăţii. Pentru clarificarea noţiunii de plagiat, propunem
următoarele exemple:
- realizarea proiectului de cercetare de către o altă persoană;
- copierea parţială sau totală a unui proiect de cercetare;
- copierea unui proiect de cercetare de pe internet şi răspândirea acestuia şi în
rândul altor studenţi;
- conspectarea unor surse bibliografice fără citirea prealabilă a acestora.
Studenţii pot să utilizeze surse bibliografice aferente tematicii abordate, cu condiţia ca
respectivele surse să fie identificate şi prezentate în cadrul proiectului de cercetare. Un proiect
care se constituie în mare parte din compilarea unor idei ale unor autori, neavând o contribuţie
proprie din partea studentului va fi notat cu un calificativ inferior.

3
Studenţi cu dizabilităţi
În vederea oferirii de şanse egale studenţilor afectaţi de dizabilităţi motorii sau intelectuale,
titularul de curs îşi manifestă disponibilitatea de a comunica cu studenţii prin intermediul
sistemelor informatice disponibile (spre exemplu: e-mail, website, blog, etc.). Astfel, studenţii cu
dizabilităţi vor putea adresa întrebări legate de tematica cursului pe adresa de email a titularului
de curs, menţionată la începutul acestui silabus, putând primi lămuririle necesare în maxim 48 de
ore de la primirea mesajului.

4
Modulul 1. LEGI DE PROBABILITATE
SI TEORIA ESTIMATIEI

Unitatea de curs 1.1


Legi de probabilitate discrete şi continue

Definiţie. În statistica descriptivă o populaţie statistică este o mulţime finită de


obiecte (indivizi sau unităţi statistice) care constituie obiectul unui studiu şi ale
cărei elemente posedă mai multe caracteristici comune.

Definiţie. O variabilă aleatoare este o funcţie definită asupra ansamblului rezultatelor posibile
ale unei experienţe aleatoare, astfel încât să fie posibil să determinăm probabilitatea ca ea să ia o
anumită valoare dată sau să ia o valoare situată într-un anumit interval.
La origine, o variabilă era o funcţie de câştig care reprezenta câştigul obţinut ca rezultat
al unui joc. De exemplu, presupunem că un jucător lansează un zar şi câştigă 10 lei dacă obţine
“şase” şi pierde 2 lei dacă obţine alt rezultat. Se poate defini o variabilă aleatoare a câştigului
care asociază valoarea 10 rezultatului “şase” şi valoarea -2 oricărui alt rezultat. În aplicaţii,
variabilele aleatoare sunt utilizate pentru a modela rezultatul unui mecanism nedeterminist sau al
unei experienţe nedeterministe care generează un rezultat aleator.

Definiţie. Inferenţa statistică constă în a induce caracteristicile necunoscute ale unei populaţii
pornind de la un eşantion extras din acea populaţie. Caracteristicile eşantionului (cunoscute)
reflectă cu o anumită marjă de eroare pe cele ale populaţiei.

1.2. Variabile aleatoare discrete


Presupunem că în urma unui mecanism sau experiment nedeterminist
(aleator) rezultă o mulţime finită de rezultate posibile
I={ x 1 , x2 ,. .. , x n }

unde
x 1 ,x 2 ,..., x n reprezintă valori numerice. Fie pi probabilitatea de realizare a fiecărui
eveniment (rezultat).

5
Definiţie. Numim variabilă aleatoare o aplicaţie f care asociază fiecărui eveniment elementar un

număr
xi .

Definiţie. Legea de probabilitate a variabilei discrete X este mulţimea de cupluri ( xi , pi ) unde


x i ∈ I este un rezultat posibil, iar pi probabilitatea evenimentului asociat acestui rezultat.
O variabilă aleatoare se notează simbolic:

X:
( x 1 .. .
p 1 .. .
xi . ..
pi . ..
xn
pn )
n
∑ pi =1
unde pi=Pr ( X=x i ) şi i=1 .

Definiţie. Fie
X:
()
xi
pi i=!,n
o variabilă aleatoare. Dacă pentru orice număr real x notăm cu F( x)
probabilitatea ca X să ia valori mai mici decât x, respectiv:
F( x )=Pr( X < x )= ∑ p i
x i <x

atunci funcţia F definită prin această egalitate se numeşte funcţia de repartiţie a variabilei
aleatoare X.

1.3. Legi de probabilitate discrete

Legea Bernoulli
Admite două valori posibile: 0 şi 1, cu probabilităţile de realizare q şi respectiv p.
Se notează de obicei cu 1 cazul favorabil.

( )
Z ( p ): 0 1
q p
Deoarece q+ p=1 , cunoaştera lui p este suficientă pentru caracterizarea variabilei. Momentele
centrate şi necentrate până la ordinul 2 se deduc uşor:
E( Z )=0 q +1 p= p
2 2 2
V (Z )=E( Z )−[ E(Z ) ] = p−p =pq
O astfel de distribuţie apare în experienţe de tipul: cumpăr/ nu cumpăr un anumit produs, votez/
nu votez un anumit candidat, etc.
6
Legea Binomială
O variabilă binomială este suma a n variabile Bernoulli independente şi de acelaşi
parametru p.
X (n , p)=Z 1 ( p )+Z 2 ( p )+.. .+Z n ( p)

unde Z i ( p ) , i=1,n este o variabilă Bernoulli. O variabilă binomială poate lua valori de la 0 la
n. Probabilităţile fiecărei stări sunt:
n
p0 =Pr ( X =0 )=q
p1 =Pr ( X=1 )= pqn−1
……..
k k n−k
pk =Pr( X =k )=C n p q
……...
n
pn =Pr ( X =n )= p
Calculăm speranţa matematică şi varianţa teoretică a variabilei:
E( X )=E( Z 1 + Z 2 +.. .+ Z n )=E( Z1 )+ E( Z 2 )+. . .+ E(Z n )=np

Pentru calculul varianţei ne folosim de faptul că variabilele


Z i sunt independente, deci varianţa
sumei este egală cu suma varianţelor:
V ( X )=V ( Z1 +Z 2 +.. .+Z n )=V (Z 1 )+V (Z 2 )+.. .+V ( Zn )=npq

Variabila Z ( p) indică probabilitatea de apariţie a cazului favorabil. O variabilă binomială


semnifică repetarea de n ori în aceleaşi condiţii a unui experiment de tip Bernoulli.

Figura 1.1 Probabilităţile obţinute pentru două distribuţii binomiale cu n=6

7
0.35

0.3

0.25

0.2

0.15

0.1

0.05

p=0.30 . p=0.65

Figura 1.2 Probabilităţile obţinute pentru două distribuţii binomiale cu n=30

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

0
1 3 5 7 9 11 13 15 17 19 21 23 25

p=0.3 . p=0.65

Legea Poisson
Se mai numeşte şi legea evenimentelor rare. Este des întâlnită în teoria şirurilor de
aşteptare. O variabilă Poisson admite ca valori numere întregi pozitive, cu
probabilităţile de apariţie a stărilor conform relaţiei:
k
λ
Pr ( X =k )= e−λ
k!
unde λ este un parametru pozitiv. Sub formă generală, o variabilă ce urmează o distribuţie
Poisson se poate scrie:

8
( )
k
X ( λ ):
λk −λ
e
k ! k =0,1,.. .,∞
Se cunoaşte din matematică relaţia:
∞ k
λ
∑ k!
=e λ
k =0

de unde rezultă că suma probabilităţilor este egală cu 1:



∑ pk =1
k =0

Speranţa matematică şi varianţa teoretică sunt:


E( X )=λ
V ( X )=λ
Pentru a ajunge la aceste relaţii trebuie utilizată funcţia generatoare de momente, care nu a fost
definită în această lucrare (pentru detalii, a se vedea Florea & colab., 2000).

Figura 1.3 Distribuţiile Poisson cu λ=5 şi λ=10

0.2

0.18

0.16

0.14

0.12

0.1

0.08

0.06

0.04

0.02

lambda=5 . lambda=10

Legea geometrică
O variabilă este distribuită după o lege geometrică dacă admite ca valori numere
naturale nenule, cu probabilităţile de apariţie egale cu:
Pr( X =k )= pqk −1
Distribuţia se poate scrie:
9
X ( p): ( )k
pq k−1 k=1,2 ,. .. ,∞

unde p ,q ∈ [ 0 ,1 ] , iar p+q=1 . Suma probabilităţilor este egală cu 1 (se poate demonstra că

∑ pqk−1=1
k=1 ).
Folosind funcţia generatoare de momente (vezi Florea & colab., 2000) se obţine:
1
E( X )=
p
q
V ( X )=
p2
Pentru a caracteriza total o distribuţie geometrică este suficientă cunoaşterea unuia din cei doi
parametri, p sau q.

Legea hipergeometrică
Presupunem o populaţie de volum N , împărţită în două subpopulaţii de volum

N 1 şi respective N 2 . Dacă din populaţia iniţială se fac n extracţii fără revenire,

atunci numărul k de unităţi din cele extrase care aparţin primei subpopulaţii este o variabilă
hipergeometrică. O variabilă hipergeometrică admite ca valori posibile k numere întregi,
probabilităţile fiind date de formula:
CkN 1 Cn−k
N
2
Pr ( X =k )= n
CN

cu condiţia Max(0 , n−N 2 )≤k≤Min(n , N 1 ) .


N1
p=
Notăm variabila cu H ( N ,n , p) , unde N . Distribuţia se poate scrie:

( )
k
k n−k
H ( N , n , p ): C N 1 C N 2
n
CN k =1,2 , ...

k n−k
C N1 C N2
Pr ( X =k )= n
Pentru a explicita probabilitatea CN , observăm că la numitor avem numărul
n C k Cn −k
total de cazuri posibile, respectiv C N . Numărul de cazuri favorabile este N 1 N 2 , deoarece celor
C kN N CnN−k
1 moduri de a alege k unităţi din cele 1 li se asociază 2 moduri de a alege restul de
n−k unităţi din cele N 2 .

10
Fără demonstraţie dăm expresiile speranţei matematice şi varianţei (se deduc din funcţia
generatoare de momente):
E( X )=np
N−n
V ( X )=npq
N−1

Legea uniformă discretă


O variabilă aleatoare X urmează legea uniformă discretă dacă cele n valori

posibile sunt echiprobabile şi uniform repartizate pe intervalul [ 0,1 ] . Distribuţia


se poate scrie:

( )
1 2 k n−1
0 . .. .. .
X: n n n n
1 1 1 1 1
. .. .. .
n n n n n

Prin uşoare artificii de calcul (vezi Florea & colab., 2000) se obţine:
n−1
E( X )=
2n
(n−1)(n+1 )
V ( X )=
12 n2

1.4. Variabile aleatoare continue


În studiul problemelor practice din economie modelarea comportamentului
probabilistic al unor fenomene prin variabile discrete se dovedeşte adesea
nesatisfăcător. De exemplu estimarea veniturilor sau ratei profitului unei firme,
mărimea dividendelor, produsului intern brut al unei ţări, a ratei şomajului sau a
inflaţiei, etc, nu se pot face într-un cadru discret, deoarece numărul valorilor posibile ale acestor
variabile este foarte mare, necesitând utilizarea unor distribuţii continue. Domeniul de definiţie a
unei variabile aleatoare continue este axa reală sau submulţimi ale acesteia. O astfel de variabilă
se defineşte prin funcţia de repartiţie sau funcţia densitate de probabilitate.

Definiţie. Fie X o variabilă aleatoare continuă. Dacă pentru ∀ x ∈ R notăm :

F( x )=Pr( X <x )

Atunci funcţia F( x) definită în acest mod se numeşte funcţia de repartiţie a


variabilei aleatoare X.

11
Cele mai importante proprietăţi ale funcţiei de repartiţie F( x) sunt:

1) F( x) este o funcţie continuă

2) F( x) este o funcţie nedescrescătoare

3) 0≤F ( x)≤1 , ∀ x ∈R
lim F ( x )=0 lim F ( x )=1
4) x →−∞ şi x→∞

Probabilitatea ca X să aparţină unui anumit interval, de exemplu [a,b) se scrie:


Pr (a≤X <b )=Pr ( X <b )−Pr ( X <a )=F (b )−F( a)

Definiţie. O funcţie f (x ) este densitate de probabilitate a unei variabile X , dacă


îndeplineşte condiţiile:

1) f (x )=0 , ∀ x ∉ D (în toate punctele care nu sunt în domeniul de definiţie a lui


X)

2) f (x )≥0 , ∀ x ∈ D (în toate punctele din domeniul de definiţie a lui X )



3) ∫−∞ f (x)dx=1

Legătura dintre funcţia de repartiţie F şi densitatea de probabilitate f este dată de relaţia:


x
F( x)=∫−∞ f ( y)dy
Densitatea de probabilitate este practic derivata funcţiei de repartiţie.

Ca şi în cazul variabilelor discrete, şi variabilele continue sunt caracterizate de nişte valori


caracteristice. Cel mai des întâlnite sunt speranţa matematică şi varianţa.

Definiţie. Pentru o variabilă continuă X, de densitate de probabilitate f (x )


expresia:

E(X )=∫−∞ xf (x )dx
reprezintă speranţa sa matematică.

12
Definiţie. Pentru o variabilă continuă X, de densitate de probabilitate f (x )
expresia:

E( X )=∫−∞ x f ( x)dx
k k

k
respectiv speranţa matematică a variabilei X , reprezintă momentul de ordinul k.

Definiţie. Pentru o variabilă continuă X, de densitate de probabilitate f (x )


expresia:

E( X−E( X )) =∫−∞ ( x−E( X )) f ( x)dx
k k

k
respectiv speranţa matematică a variabilei ( X−E ( X )) , reprezintă momentul centrat de ordinul
k. Pentru k =2 vorbim de momentul centrat de ordinul 2, care se mai numeşte şi varianţă.

Varianţa se mai poate scrie şi astfel:


∞ ∞ ∞
V ( X )=∫−∞ (x−E( X )) f ( x)dx=∫−∞ xf ( x)dx−∫−∞ E( X) f ( x)dx=E( X )−( E( X ))
2 2 2

1.5. Legi de probabilitate continue


Legea normală centrată şi redusă
O variabilă aleatoare continuă X urmează o lege de probabilitate normală centrată
şi redusă dacă funcţia sa de repartiţie este de forma:
1 x −t 2 /2
F( x)= ∫ e dt
√2 π −∞
care exprimă probabilitatea ca variabila X să ia valori mai mici decât x. Densitatea de

probabilitate f (x ) , ca derivată a distribuţiei de probabilitate ia următoarea expresie:


1 − x2 /2
f (x )= e dt
√2 π
Legea de probabilitate astfel definită se mai numeşte legea Gauss-Laplace.

Figura 1.4 Funcţia de repartiţie a unei variabile normale centrate şi reduse

13
1

0,5

0
0
Figura 1.5 Densitatea de probabilitate a unei variabile normale centrate şi reduse

−∞ −1 1 ∞

Pentru o variabilă normală centrată şi redusă speranţa matematică şi varianţa sunt:


E( X )=0
V ( X )=1
Legea normală
O variabilă aleatoare continuă Y este o variabilă normală, dacă Y =σX+ m , unde
+
X este o variabilă normală centrată şi redusă, σ ∈ R , iar m∈ R .
E(Y )=E(σX + m)=σE( X )+m=m
V (Y )=V (σX +m)=σ 2 V ( X )=σ 2

Figura 1.6 Densităţile de probabilitate ale unor variabile normale de diverse medii şi varianţe

14
0 200 400 600 800 1000

Legea log-normală
O variabilă aleatoare Z de forma:
Z =eY
2
este o variabilă log-normală dacă Y este o variabilă normală de medie m şi de varianţă σ .

Astfel, Z este o variabilă log-normală dacă logaritmul natural al acesteia (adică ln( Z ) ) este o
variabilă normală.
2 2
E( Z )=E( eσX +m )=e m E (e σX )=e m e σ /2 =e
m+ σ /2

2 2
V (Z )=e 2m e σ (e −1 )
σ

Figura 1.7 Densitatea de probabilitate ale unei variabile lognormale

15
0.007

0.006

0.005

0.004

0.003

0.002

0.001

0 1 2 3 4 5 6 7 8 9

Legea hi-patrat

Dacă avem un şir


U i , unde :

( )
2
X i −m
U 2i =
σ , i=1,n

iar
X i sunt variabile normale şi independente, de medie m
2
şi varianţă σ , atunci variabila:
n
χ ( n)=∑ U 2i
2

i=1

urmează legea de probabilitate hi-patrat.

Legea Student
O variabilă Student este raportul dintre o variabilă normală centrată şi redusă (U)
2
şi rădăcina patrată a unei variabile χ cu ν grade de libertate divizată prin
numărul gradelor de libertate:
U
t=

√ χ2( ν )
ν

Legea Fisher-Snedecor

16
2
O variabilă Fisher-Snedecor este raportul dintre două variabile χ divizate prin numărul
gradelor lor de libertate:
χ 2 ( ν1 )/ ν1
F=
χ 2 ( ν 2 )/ ν2

1.6. Convergenţa în probabilitate

Definiţie. Un şir de variabile aleatoare converge în probabilitate spre un număr a,


dacă fiind date ε şi η două numere arbitrar alese mici este posibil să găsim un

număr N (ε ,η ) astfel încât:

∀ n>N (ε , η) → P {|X n−a|> ε }<η


Sub o formă echivalentă putem scrie:

(
P lim X n =a →1
n→∞ )

Teoremă. O condiţie suficientă pentru ca un şir de variabile aleatoare să conveargă în


probabilitate spre un număr finit a, este ca speranţa sa matematică să tindă spre a, iar varianţa sa
să tindă spre 0 când n tinde la infinit:
lim E( X n )=a lim V ( X n )=0
n→∞ n→∞

Pentru demonstraţia acestei teoreme (bazată pe inegalitatea lui Bienaymé-Cebîşev), un exemplu


(legea slabă a numerelor mari), convergenţa în medie patratică şi alte noţiuni legate de
convergenţa în probabilitate a se consulta de exemplu Florea & colab. (2000).

1.7. Convergenţa în lege

Fie un şir de variabile aleatoare:


X 1 , X 2 ,. .. , X n

care admit ca funcţii de repartiţie: F1 ( x ) , F 2 ( x), .. . ,F n ( x)

ψ X ( t ) , ψ X ( t ) , .. . ,ψ X ( t )
şi ca funcţii generatoare de momente: 1 2 n

Definiţie. Fie o variabilă aleatoare X cu o funcţie de repartiţie F( x) şi funcţie


X
generatoare de momente ψ X ( t ) . Şirul n converge în lege către X când n→ ∞ ,
ψ (t )
dacă Fn ( x) converge către F( x) sau dacă X n converge către ψ X ( t ) :

17
}
Fn ( x ) → F ( x )
n →∞ L
ψ X (t ) → ψ X (t ) X n → X [ F( x ), ψ X ( t ) ]
n n →∞ ⇒ n→∞

Convergenţa funcţiei de repartiţie este echivalentă cu convergenţa funcţiei generatoare de


momente (nu prezentăm aici demonstraţia).

Există câteva cazuri particulare de convergenţă de la legi discrete la alte legi discrete, de
la legi discrete la legi continue sau de la legi continue la alte legi continue. Prezentăm sintetic în
tabelul următor câteva cazuri mai des utilizate în practică (pentru unele demonstraţii, a se vedea
Florea & colab., 2000).

Tabelul 1.1. Câteva cazuri de convergenţă în lege

Variabila iniţială Convergenţa spre Condiţii


variabila
Binomială Normală n mare,
Bin(n , p ) N (np, √ npq ) np>15 , nq>15
Binomială Poisson n mare, p<0,1
Bin(n , p ) N ( λ=np ) np> λ , λ mic
Poisson Normală λ>15
N ( λ=np ) N ( λ , √ λ)
Hipergeometrică Binomială N mare,
H(N ,n, p) Bin(n , p ) n f. mic în raport cu N
Hipergeometrică Normală N mare,
H(N ,n, p) N (np , √ npq(1−n)/ N ) n mic în raport cu N
p semnificativ ¿ 0

Figura 1.8 Convergenţa distribuţiei binomiale (n=70, p=0.3) spre o distribuţie normală

18
0.12

0.1

0.08

0.06

0.04

0.02

0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

Figura 1.9 Convergenţa distribuţiei Poisson ( λ=30 ) spre o distribuţie normală


0.08

0.07

0.06

0.05

0.04

0.03

0.02

0.01

0
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70

Se observă că distribuţiile sunt aproape simetrice în jurul mediei, ceea ce nu este cazul şi pentru
distribuţiile binomiale cu valori mici ale lui n sau respectiv distribuţiile Poisson cu valori mici
ale lui λ (vezi figurile 1.1 şi 1.3).

19
Unitatea de curs 1.2
Teoria estimaţiei

În ştiinţele sociale în general şi în economie în particular, observarea unei populaţii întregi este
foarte rară. Observarea se face la nivel de eşantion iar rezultatele se extrapolează la întreaga
populaţie din care acesta a fost extras. Caracteristicile populaţiei sunt descrise de către diverşi
2
parametri: media variabilei ( X̄ ), varianţa ( σ X ), mediana M e ( X ) , etc. Toţi aceşti parametri
(notăm sub formă generală θ ) sunt observaţi la nivel de eşantion şi prin inferenţa statistică sunt
extrapolaţi la nivelul populaţiei.

Estimatorul unui parametru necunoscut θ al unei populaţii este o variabilă de

eşantionare care depinde şi de parametrul respectiv:


^ [ X (θ), X (θ ),. . . , X (θ ) ]
θ=f 1 2 n

O estimaţie punctuală a unui parametru θ este valoarea numerică a estimatorului

corespunzătoare unui eşantion particular ( x1 ,x 2 ,.. .,x n ) .


^
Eroarea de estimare a unui parametru θ este diferenţa dintre estimatorul acestuia θ şi
^
parametrul θ , respectiv variabila aleatoare θ−θ .
Eroarea limită de estimare a unui parametru θ are expresia:
^
Δ θ=max| ^
θ−θ| sub formă absolută
Δ θ^
Rθ^ =
θ sub formă relativă
^ ^
Un estimator θ al lui θ este nedeplasat dacă şi numai dacă E( θ )=θ .
^
Un estimator θ al lui θ este absolut corect dacă sunt satisfăcute condiţiile:

E( θ^ )=θ
lim V ( θ^ )=0
n→∞

1.10. Estimarea prin interval de încredere


Vom considera pentru toate cazurile care urmează o populaţie caracterizată de o

variabilă X, de medie X̄ necunoscută şi pe care dorim să o estimăm. Variabila


20
aleatoare
X i asociată momentului i care precede selecţia este caracterizată prin E( X i )= X̄ şi
2
V ( X i )=σ X .

1.10.1. Estimarea valorii medii pentru o populaţie normală şi varianţă cunoscută

Populaţia fiind normală în raport cu X, cu E( X )= X̄ şi V ( X )=σ 2X , variabila X i este şi ea

normală şi de aceeaşi parametri ∀i=1,n . Ca urmare, media de eşantionare X¯^ fiind o funcţie

liniară de variabile normale este şi ea normală, cu E( X¯^ )= X̄ . În consecinţă, variabila


¯X−
^ X̄
Z=
σ ¯X^
este normală, centrată şi redusă. Pentru un prag de semnificaţie α=0 ,05 dat se
poate scrie:

( )
¯X−
^ X̄ 1 zα −t 2 /2
Pr −z α <
σ X¯^
< zα = ∫ e dt=φ( zα )=1−α
√ 2 π −zα

unde φ( z α ) este distribuţia normală centrată şi redusă.

φ( z α )=1−α

α /2 α /2

−∞
−z α 0 zα ∞

După artificii de calcul, putem scrie:


¯^ −z σ < X̄ < X
Pr( X ¯^ + z σ )=φ( z )
α X¯^ α ¯X^ α

Cu o probabilitate φ( z α )=1−α intervalul acoperă valoarea lui X̄ .


1.10.2. Estimarea valorii medii pentru o populaţie normală şi varianţă necunoscută
2
Presupunem că varianţa variabilei X, respectiv σ X este necunoscută şi va fi estimată prin
estimatorul său:

21
n
1
s 2X = ∑ ( X − X¯^ )2
n−1 i =1 i
Ca urmare, variabila:
¯^ X̄
X−
t= 2
σX

este distribuită după o lege Student cu ν =n−1 grade de libertate. Rezultă astfel intervalul:

Pr (−t α <t<tα )=∫−t f (t , ν )dt=1−α
α

unde f (t , ν) este densitatea de probabilitate a variabilei t . Înlocuind expresia lui t , intervalul


devine:
¯^ −t σ^ < X̄ < X
Pr ( X ¯^ +t σ^ )=1−α
α X¯^ α X¯^

unde α este pragul de semnificaţie.

1.10.3. Estimarea varianţei


2
Fie o populaţie de medie X̄ şi varianţă σ X necunoscută. În cazul extragerii unui eşantion de
volum n, iar populaţia este normal distribuită în raport cu X, atunci:

( )
n ¯^
X i− X
2

∑ σX
i=1

2
este distribuită după o lege χ cu ν =n−1 grade de libertate. În acest caz este posibil să găsim
2 2
două valori numerice χ 1 şi χ 2 , pentru care pentru un prag de semnificaţie dat ( α ) să putem
scrie:

( )
n
∑ ( X i − X¯^ )2
i=1
Pr χ 12 < < χ 22 =1−α
σ 2X
de unde rezultă:

( )
n n
∑ ( X i− X¯^ )2 ∑ ( X i − ¯X^ )2
i=1
Pr <σ 2X < i=1 =1−α
χ 21 χ 22

1.11. Teste de semnificaţie

22
Testele de semnificaţie constau în verificarea egalităţii unui parametru cu o valoare dată. Se
poate testa semnificaţia unei medii, proporţii, varianţe, etc.

1.11.1. Testarea semnificaţiei unei medii

Presupunem o populaţie observată în raport cu variabila X, distribuită normal, de medie X̄ şi


2
varianţă σ X . Ipoteza se formulează astfel:
H 0 : X̄ =x 0
H 1 : X̄ ≠x0
Dacă din populaţie s-au efectuat n extrageri independente, avem variabila de eşantionare:
¯^ = 1 ( X + X + .. .+ X )
X
n 1 2 n

Se pot deduce astfel:

¯^ )=E
E( X
[ 1
]
( X + X +. ..+ X n ) = X̄
n 1 2

[ ]
2
¯^ )=V 1 ( X + X +. ..+ X ) = σ X
V(X
n 1 2 n
n
σ 2X
¯ H
Ca urmare X^ se distribuie normal, de medie X̄ şi de varianţă n . Testarea ipotezei 0 se
2 2
face în funcţie de următoarele două situaţii posibile: a) σ X cunoscută; b) σ X necunoscută.

2
a) σ X cunoscută
Variabila Z este normală, centrată şi redusă:
¯X−x
^
0
Z= ∈ N (0,1 )
σX
√n
Dacă ipoteza
H 0 este adevărată, atunci există un prag de semnificaţie α căruia să-i corespundă

o valoare tabelată
z α astfel încât |Z|< z α cu o probabilitate P=1−α . Regula de decizie a
testului devine:

- dacă
|Z|< z α acceptăm
H 0 , adică X¯^ nu este diferit statistic faţă de x 0 (cu un prag de
semnificaţie α );

23
- dacă
|Z|≥z α H ¯ x
acceptăm H 1 şi respingem 0 , adică X^ este diferit statistic faţă de 0 (cu un
prag de semnificaţie α ).

2
b) σ X necunoscută
2
Deoarece varianţa σ X nu se cunoaşte, se estimează prin:
n
1 ¯^ )2
s 2X = ∑
n−1 i =1
( xi − X

2 2
Dacă înlocuim σ X prin s X , atunci raportul:
¯^ X̄
X−
t= ∈ S ν=n−1
sX
√n
Nu mai este o variabilă normală, ci una Student, cu ν =n−1 grade de libertate. Dacă ipoteza
nulă este adevărată, atunci:
¯^
X−x 0
t=
sX
√n
este tot o variabilă Student cu ν =n−1 grade de libertate.

Dacă ipoteza
H 0 este adevărată, atunci există un prag de semnificaţie α căruia să-i corespundă

o valoare tabelată
t α,ν astfel încât |t|<t α,ν cu o probabilitate P=1−α . Regula de decizie a
testului devine:

- dacă
|t|<t α,ν acceptăm
H 0 , adică X¯^ nu este diferit statistic faţă de x 0 (cu un prag de
semnificaţie α );

- dacă
|t|≥t α ,ν H ¯ x
acceptăm H 1 şi respingem 0 , adică X^ este diferit statistic faţă de 0 (cu un
prag de semnificaţie α ).

1.11.2. Testarea semnificaţiei unei proporţii


Presupunem o populaţie observată în raport cu variabila X, distribuită de tip Bernoulli, de o
anumită proporţie p. Ipoteza se formulează astfel:
H 0 : p= p 0

24
H 1 : p≠ p0

Dacă din populaţie s-au efectuat n extrageri independente, se vor extrage variabilele
Xi
independente, de acelaşi parametru p. Avem proporţia de eşantionare:
1
^p= ( X 1 + X 2 +. ..+ X n )
n
1 np
E( ^p )=
n
[ E( X 1 )+ E ( X 2 )+ .. .+ E( X n ) ]= = p
n
1 np ( 1− p) p(1− p )
2[
V ( ^p )= V ( X 1 )+V ( X 2 )+ .. .+V ( X n ) ] = =
n n2 n
Conform criteriilor de convergenţă, dacă n este mare proporţia de eşantionare va fi distribuită
(asimptotic) spre o lege normală:

(√
¯^p ∈ N p , p(1− p )
n )
Raţionând ca şi în cazul mediei, variabila Z este normală, centrată şi redusă:
^p− p 0
Z= ∈ N (0,1)

√ p (1− p)
n

Dacă ipoteza
H 0 este adevărată, atunci există un prag de semnificaţie α căruia să-i corespundă

o valoare tabelată
z α astfel încât |Z|< z α cu o probabilitate P=1−α . Regula de decizie a
testului devine:

- dacă
|Z|< z α acceptăm
H 0 , adică p^ nu este diferit statistic faţă de p0 (cu un prag de
semnificaţie α );

- dacă
|Z|≥z α H p
acceptăm H 1 şi respingem 0 , adică p^ este diferit statistic faţă de 0 (cu un
prag de semnificaţie α ).

25
Modulul 2. MODELUL LINIAR SIMPLU

Unitatea de curs 2.1


Descrierea şi ipotezele modelului, estimarea parametrilor acestuia

2.1.1 Forma modelului

Sub forma cea mai generală, un model liniar simplu se poate scrie:

y t =a 0 +a 1 xt + ε t t=1,...,T (2.1)

 t indexează observaţiile. Acestea pot fi diferite unităţi statistice observate în acelaşi

moment de timp, caz în care modelul este de tip « cross-section » sau « en coupe
instantanée ». Sau putem avea aceeaşi unitate observată la momente diferite de timp, ceea
ce ne dă o serie de timp sau cronologică.

 y t este realizarea variabilei Y observată în momentul t (sau observaţia cu rangul t a

variabilei Y). Variabila Y se numeşte variabilă endogenă, explicată sau dependentă).

 x t este realizarea variabilei X observată în momentul t (sau observaţia cu rangul t a

variabilei X). Variabila X se numeşte variabilă exogenă sau explicativă).

 ε t este realizarea în t a variabilei reziduale, aleatoare. Aceasta conţine realizările tuturor


variabilelor neobservate sau neincluse în model.

 a0 şi a1 şi sunt parametrii sau coeficienţii ale căror valori dorim să le estimăm.

Acest tip de model se numeşte liniar, deoarece


y t este liniar în raport cu parametrii a0 şi a1 . Din
punct de vedere econometric ne interesează liniaritatea în raport cu parametrii, nu cu variabilele,
deoarece modelele neliniare necesită metode de estimare diferite, rezultând implicit proprietăţi
diferite ale estimatorilor.

26
2.1.2. Rolul termenului aleator

În general, fenomenele din ştiinţele sociale pe care dorim să le modelăm


prin econometrie sunt fenomene complexe, ce nu pot fi explicate printr-un singur
factor. Există deci o mulţime de alţi factori susceptibili de a-l putea explica pe Y. Din acest

considerent adăugăm un termen


ε t care sintetizează ansamblul informaţiilor neincluse în model.
El măsoară diferenţa dintre valorile reale (observate) ale lui Y şi valorile estimate prin model.

Termenul
ε t grupează trei tipuri de erori (Bourbonnais, 1998):

- eroare de specificare, datorită faptului că am inclus în model doar o variabilă explicativă,


nu toţi factorii care ar putea influenţa variabila endogenă
- eroare de măsură, dacă datele nu au fost exact măsurate
- eroare de eşantionare, datorată fluctuaţiilor ce pot să apară de la un eşantion la altul în
privinţa observaţiilor şi deci şi a estimaţiilor.

2.1.3. Ipoteze fundamentale asupra modelului

Ipotezele ce vor fi detaliate mai jos nu sunt verificate întotdeauna.


Considerând că ele sunt potenţial verificate vom studia proprietăţile estimatorilor
şi a metodelor de estimare. Procedurile care permit testarea acestor ipoteze vor fi detaliate în
secţiunile următoare. Pentru o analiză detaliată privind consecinţele acestor ipoteze, a se vedea
MacKinnon şi Davidson, 2004, Green, 2007, Giraud (1994), Dormont (1999) sau Maddala,
1987.

 H1 : E(ε t )=0  ; variabila reziduală este de medie nulă. Ansamblul factorilor lui y t care nu au
fost reţinuţi în model este de speranţă matematică nulă. Avem astfel :
E( y t / x t )=a 0 +a 1 xt
 H2 : y t şi x t reprezintă valori numerice observate fără erori. Termenul x t nu este deci
aleator, ci determinist. Modelul devine aleator prin intermediul lui
ε t . În acest caz,
speranţa condiţională considerată mai sus se reduce la:
E( y t )=a0 +a1 x t
Sensul acestei ipoteze este acela că X este o variabilă economică, la fel ca Y.
Considerând H2  adevărată înseamnă că încercăm să modelăm fenomenul descris de
yt
condiţionat de realizările
x t observate în eşantion.
 H3 : Modelul este liniar în raport cu x t sau o transformare a lui x t (logaritm, inversiune, etc.)

27
2 2
 H4 : E(ε t )=σ ∀t
Presupunem că varianţa perturbaţiilor este constantă, indiferent de t. Este cunoscută ca
ipoteza de homoscedasticitate a perturbaţiilor. Intuitiv, considerăm că amploarea
erorilor, deci aproximaţia efectuată de model este constantă în raport cu t.
 H5 : cov (ε t , ε t ' )=0
sau E(ε t ,ε t ' )=0 deoarece E(ε t )=E( ε t ' )=0 ∀ t ,t '
Covarianţa perturbaţiilor este nulă, două erori cu privire la două observaţii diferite t şi t’
sunt independente între ele.
 H6 : cov ( x t , ε t )=0
Perturbaţiile sunt independente în raport cu variabila explicativă.
 H7 : Presupunem că primele momente empirice ale lui X sunt finite atunci când T este foarte
mare:
T
1
lim ∑ x t = x̄≠0
T →∞ T t=1 cantitate finită (media empirică)
T
1
lim
T →∞ T
∑ ( x t − x̄ )2=s 2≠0
t=1 cantitate finită (varianţa empirică)
2
Presupunem că varianţa empirică a lui X converge spre o valoare nenulă σ x . Ipoteza
poate fi verificată în cazul staţionar, adică dacă
x t sunt realizări ale unor variabile
2
aleatoare independente şi identic distribuite, de varianţe egale cu σ x . Important de
x
reţinut este că în această ipoteză, t conservă o oarecare varianţă când T →∞ , deci
observaţiile suplimentare ameliorează informaţia (Dormont, 1999).
2
 H8 : ε t ≈ N (0 , σ ) ∀ t
Ipoteza permite efectuarea unor teste asupra modelului. Pertinenţa ei se datorează
teoremei limită-centrală. Nu este necesar să presupunem normalitatea componentelor lui
ε t , ci doar un număr mare de factori independenţi şi identic distribuiţi între care există o
relaţie de tip aditiv.

2.1.4. Estimarea parametrilor


a0 şi a1 prin MPM - metoda patratelor

minime

În cvasi-totalitatea situaţiilor reale, datele utilizate pentru modelarea unui fenomen provin dintr-

un eşantion. Ca urmare, deşi există adevăraţii parametrii


a0 şi a1 , la nivelul întregii populaţii, în

realitate nu îi vom cunoaşte niciodată. Vom găsi doar nişte estimaţii ale acestora,
a^ 0 şi a^ 1 , pe
baza datelor din eşantion.

Ne propunem să determinăm
a^ 0 şi a^ 1 astfel încât valorile lor să minimizeze suma
patratelor erorilor:

28
T T
∑ ε 2t = ∑ ( y t −a 1 x t −a0 )2 =f ( a0 , a1 )
t =1 t =1 (2.2)

Putem deci să exprimăm suma patratelor erorilor ca o funcţie de


a0 şi a1 . Pentru a minimiza

f (a0 , a 1 ) trebuie satisfăcută o condiţie necesară (sau condiţia de ordinul 1) şi una suficientă
(condiţia de ordinul 2). Condiţia necesară presupune anularea derivatelor în raport cu cei doi
parametri:

{
∂f
=0
∂ a1

∂f
=0
∂a 0
(2.3)

Prin efectuarea derivării, sistemul devine :

{
T
∑ ( y t −a1 x t −a0 ) x t =0
t =1
T
∑ ( y t −a 1 xt −a0 )=0
t =1
(2.4)

Însumând în raport cu t divizând fiecare termen cu T obţinem:

{
T T
1 1

T t=1
y t x t −a1 ∑ xt −a 0 x̄=0
T t=1
2

ȳ−a 1 x̄−a0 =0
(2.5)

Considerând
a^ 0 şi a^ 1 soluţiile sistemului, obţinem:

{
T
∑ ( y t − ȳ )( x t − x̄ )
^ 1 = t =1
a T
∑ ( x t − x̄ )2
t =1
^ 0 = ȳ− a^ 1 x̄
a
(2.6)

Estimatorii
a^ 0 şi a^ 1 sunt variabile aleatoare, deoarece sunt funcţii de Y, care este o variabilă
aleatoare prin intermediul lui ε .

Condiţia suficientă (de ordinul 2):


29
2 2
∂ f ∂ f
∂2 f ∂ a21 ∂a1 ∂a0
>0 ; | |>0
∂a21 ∂2 f ∂2 f
∂ a 0 ∂ a1 ∂a0
2
(2.7)

este întotdeauna îndeplinită (nu prezentăm aici demonstraţia, deoarece nu e necesară în


înţelegerea a ceea ce urmează).

Începând de aici, estimatorii


a^ 0 şi a^ 1 pe care îi vom folosi vor fi cei din expresia 2.6.

Unitatea de curs 2.2


Proprietăţile estimatorilor şi inferenţa lor statistică

2.2.1. Proprietăţi ale estimatorilor


a^ 0 şi a^ 1

Vom demonstra în acest paragraf că ţinând cont de ipotezele din paragraful 2.3,
estimatorii obţinuţi prin metoda patratelor minime sunt nedeplasaţi şi convergenţi. Pentru

aceasta, vom transforma mai întâi expresiile lui


a^ 0 şi a^ 1 (vezi Giraud & Chaix, 1989, Green,
2007).

i) Transformări ale expresiei estimatorilor


a^ 0 şi a^ 1

Considerăm în continuare modelul:

y t =a 0 +a 1 xt + ε t (2.8)

Însumând în raport cu t şi divizând prin T, obţinem:

ȳ=a0 + a1 x̄+ ε̄ (2.9)

Din ecuaţiile 1.8 şi 1.9, prin scădere:

y t − ȳ=a1 ( x t − x̄ )+(ε t − ε̄ ) (2.10)

30
Înlocuind
y t − ȳ din expresia de mai sus în formula lui a^ 1 , avem :

T
∑ [ a1 ( x t − x̄ )+( ε t − ε̄ ) ]( x t − x̄ )
a^ 1 = t =1 T
∑ ( x t − x̄ )2
t=1 (2.11)

T
∑ ( x t − x̄ )( ε t −ε̄ )
a^ 1 =a 1 + t=1 T
∑ ( x t − x̄ )2
t =1 (2.12)

T
ε̄ ∑ ( x t − x̄ )=0
Din ipotezele asupra modelului, deducem că t =1 , deci putem scrie :

T
∑ ( x t − x̄ ) ε t
t=1
a^ 1 =a 1 + T
∑ ( x t − x̄ )2
t =1 (2.13)

Din 1.6 şi 1.9 ştim că:

{ ȳ=^a1 x̄ + a^ 0
ȳ =a1 x̄ +a0 + ε^
(2.14)

De unde deducem:

a^ 0 =a0 + ε̄−( a^ 1−a1 ) x̄ (2.15)

ii)
a^ 0 şi a^ 1 sunt estimatori nedeplasaţi ai lui a0 şi a1

Notând pentru simplificare:

( x t − x̄ )
ωt = T
∑ ( x t − x̄ )2
t=1 (2.16)

Ecuaţia 1.13 devine :

T
a^ 1 =a 1 + ∑ ω t ε t
t =1 (2.17)

31
De unde :

T
E( a^ 1 )=a1 + ∑ ωt E( ε t )
t=1

Dar E(ε t )=0 , deci :

E( a^ 1 )=a1 (2.18)

a^ 1 este un estimator nedeplasat al lui a1 .

În mod similar, deducem :

E( a^ 0 )=a0 +E( ε̄ )− x̄ E ( a^ 0 −a 0 ) (2.19)

T
1
E( ε̄ )= ∑ E (ε t )=0
Dar T t =1 ^
şi E( a 1−a1 )=0 , deci:

E( a^ 0 )=a0 (2.20)

a^ 0 este şi el un estimator nedeplasat al lui a0 .

iii)
a^ 0 şi a^ 1 sunt estimatori convergenţi ai lui a0 şi a1

Cunoaştem că dacă un estimator este nedeplasat, pentru ca el să fie convergent este necesar ca
varianţa lui să tindă la 0. În cazul nostru,

lim V ( a^ 0 )=0
T →∞

lim V ( a^ 1 )=0
T →∞

Pornind de la 2.17 şi folosind ipotezele fundamentale formulate asupra modelului, se poate

demonstra (Giraud şi Chaix, 1994, Green, 2007, Wooldridge, 2005) că varianţa lui a^ 1 se poate
scrie sub forma:

2
σε
V ( a^ 1 )= T
∑ ( xt − x̄ )2
t=1 (2.21)

Din H7 ştim că :


32
T
1
lim
T →∞ T
∑ (x t − x̄ )2=s 2≠0
t=1

2
σε
V ( a^ 1 ) → →0
T → ∞ Ts 2
(2.22)

deci a^ 1 converge în probabilitate spre a1 :

P
a^ 1 → a1
T →∞ (2.23)

Procedând similar, se poate arăta că varianţa lui


a^ 0 se poate scrie sub forma:

[ ]
1 x̄ 2
V ( a^ 0 )=σ 2ε +
T T
∑ (x t − x̄ )2
t=1
(2.24)

1
→0
Atunci când T →∞ , T şi în consecinţă :

1 1
T
→ →0
Ts 2
∑ ( x t − x̄ )2
t =1

deci :

V ( a^ 0 ) → 0
T →∞ (2.25)

şi
a^ 0 converge în probabilitate spre a0 :

P
a^ 0 → a0
T→∞ (2.26)

iv) Matricea de varianţe şi covarianţe a lui


a^ 0 şi a^ 1

Deoarece în secţiunea precedentă au fost date expresiile varianţelor lui


a^ 0 şi a^ 1 , rămâne
de calculat expresia covarianţei :

33
Cov( a^ 0 , a^ 1 )=E [( a^ 0 −a 0 )( a^ 1 −a1 )]
=E[( a^ 1 −a1 )( ε̄− x̄ ( a^ 1 −a1 ))]
=E[( a^ 1 −a1 ) ε̄− x̄ ( a^ 1−a1 )2 ]

^
Dar E[( a1 −a1 ) ε̄ ] , deci:

Cov( a^ 0 , a^ 1 )=− x̄ E( a^ 1−a1 )2


=− x̄ V ( a^ 1 )

σ 2ε x̄
Cov( a^ 0 , a^ 1 )=− T
∑ ( x t − x̄ )2
t =1 (2.27)

Notăm
Ω(a^ , a^ )≡
0 1 ( V ( a^ 0 )
Cov ( a^ 0 , a^ 1 )
Cov ( a^ 0 , a^ 1 )
V ( a^ 1 ) ) a^
matricea de varianţe şi covarianţe a lui 0 şi a^ 1 .

( )
1 x̄ 2 x̄
+ −
T T T

2
∑ ( x t − x̄ )2 ∑ ( x t − x̄ )2
Ω(a^ =σ ε
t =1 t=1
0,a
^ 1)
x̄ 1
− T T

∑ ( x t − x̄ )2 ∑ ( x t − x̄ )2
t =1 t=1
(2.28)

Expresia matricei de varianţe şi covarianţe conţine şi varianţa lui


ε t , respectiv σ 2ε care este
2
^
necunoscută. Este deci necesară găsirea unui estimator σ ε cu bune proprietăţi. Se poate
demonstra (Giraud şi Chaix, 1994, Green, 2007, Wooldridge, 2005) că un astfel de estimator
este:

T
1
σ^ 2ε = ∑ ^ε2
T −2 t=1 t (2.29)

2 2
^
Deoarece se poate arăta că E( σ ε )=σ ε , estimatorul este nedeplasat.

2.2.2. Consecinţe ale normalităţii erorilor. Teste şi intervale de încredere

34
Ipoteza de normalitate a erorilor nu e absolut necesară pentru a obţine estimatori convergenţi, dar
ea permite construirea unor teste statistice privind validitatea modelului.

T
1
2 σ^ 2ε = ∑ ^ε 2t
Dacă ε t ≈ N (0 , σ ε ) şi T −2 t =1 atunci se pot deduce următoarele:

σ^ 2ε
(T −2) ≈ χ (2T −2) 2
1) σ 2ε (o distribuţie χ cu T-2 grade de libertate)

a^ 0 −a 0 a^ 1 −a1
≈N ( 0,1 ) ≈ N (0,1)
σ a^ σ a^
2) 0 şi 1 (o distibuţie normală de medie nulă şi varianţă unitară)

a^ 0 −a 0 a^ 1 −a1
σ^ a^ σ^ a^
3) 0 şi 1 urmează o distribuţie Student cu T-2 grade de libertate

1
F= ¿ ¿
4) 2 (o distribuţie Fisher-Snedecor cu 2 şi
respectiv T-2 grade de libertate).

Ţinând cont de de aceste distribuţii se pot construi teste şi regiuni de încredere pentru coeficienţi:

1) Pentru un anumit nivel de semnificaţie α dat, se poate determina un interval de încredere

pentru
a0 (sau a1 ) :

Prob |
{ a^ 0 −a 0
σ^ a^
0
}
|≤t α =1−α
(2.30)

unde
t α este extras din distribuţia Student cu T-2 grade de libertate. Sau sub o formă echivalentă:

Prob ( a^ 0 −t α σ^ a^ ≤a0 ¿ a^ 0 +t α ^ σ a^ ) =1−α


0 0 (2.31)

Analog se construiesc intervalele de încredere şi pentru a1 .

2) Pentru un anumit nivel de semnificaţie α dat, avem:

Prob ( F≤F (2 ;T −2 )) =1−α

35
Prob ¿ ¿ (2.32)

¿
Pentru a testa simultan două valori oarecare
a0 şi a¿1 , anterior alese, le vom substitui lui a0 şi
a1 în expresia lui F. Dacă:

¿ ¿ α
F( a0 , a1 )≤F (2 ;T −2 ) (2.33)

Putem accepta aceste valori cu un prag de semnificaţie α , în caz contrar le respingem.

Unitatea de curs 2.3


Analiza varianţei. Previziunea variabile endogene.

2.3.1. Analiza varianţei

Vom demonstra mai întâi două relaţii din care vom putea deduce ecuaţia de
analiză a varianţei:

T
∑ εt =0 y t =a^ 0 + a^ 1 xt + ε t ,
1) Suma reziduurilor este nulă, respectiv: t=1 . Pornind de la ecuaţia
din care însumând după t, obţinem:

T T T T
∑ y t =∑ a^ 0 +a^ 1 ∑ xt + ∑ εt
t =1 t=1 t=1 t=1

T T T
∑ y t −n a^ 0−a^ 1 ∑ x t =∑ ε t
t =1 t=1 t =1

36
T

a^ 0 = ȳ −^a1 x̄ şi divizând prin T rezultă că ∑ εt =0


Ştiind că t=1 .

2) Media (suma) seriei variabilei endogene este egală cu media (suma) seriei ajustate:
T T T T T T
∑ y t =∑ ^y t y − ȳ=ε t , ∑ y t −∑ ^y t =∑ ε t ∑ εt =0
t =1 t=1 şi t t =1 t=1 t=1 , dar t=1 , deci :

T T
∑ y t =∑ ^y t ȳ t = ^ȳ t
t=1 t =1 sau

Din aceste două relaţii putem deduce ecuaţia de analiză a varianţei:

T T T
∑ ( y t − ȳ)2=∑ ( ^yt − ^ȳ)2+∑ ε2t
t=1 t=1 t=1
SPT = SPE + SPR (2.34)

Suma patratelor totală (SPT) = Suma patratelor explicată (SPE)+

+ Suma patratelor reziduală (SPR)

Într-o formă echivalentă, prin divizare cu T, ecuaţia devine:

T T T
1 1 1
T
∑ ( y t − ȳ )2= T
∑ ( ^y t − ^ȳ )2 + T
∑ ε2t
t =1 t=1 t =1
VT = VE + VR (1.35)

Varianţa totală (VT) = Varianţa explicată (VE) + Varianţa reziduală (VR)

Această ecuaţie ne permite să apreciem calitatea ajustării unui model. Cu cât varianţa
explicată este mai aproape de cea totală, cu atât norul de puncte este mai apropiat de dreapta de
regresie estimată prin metoda patratelor minime. Se calculează şi raportul dintre varianţa
explicată şi varianţa totală.

T T
∑ ( ^y t − ȳ )2 ∑ ε 2t
R2 = t =1
T
=1− T
t =1

∑ ( y t − ȳ )2 ∑ ( y t − ȳ )2
t =1 t =1 (2.36)

2
unde R se numeşte coeficient de determinaţie, iar R coeficient de corelaţie multiplă (coincide
cu coeficientul de corelaţie liniară simplă în cazul unei singure variabile explicative).

Analiza varianţei pentru o regresie liniară simplă se poate reprezenta schematic astfel:
37
Tabelul 2.1 : Analiza varianţei

Sursa variaţiei Suma patratelor Numărul


gradelor de
libertate
T

Variabila explicativă SPE=∑ ( y^ t − ȳ )2 1


t =1
(X)
T

Variabila reziduală ( ε SPR =∑ ε 2t T −2


t =1
)
T

Total SPT =∑ ( y t − ȳ )2 T −1
t =1

Numărul gradelor de libertate corespunde numărului de valori ce pot fi alese arbitrar (numărul de
valori minus numărul de restricţii).

Se poate demonstra că testul de nulitate a coeficientului de regresie (


H 0 :a 1=0 ) este
echivalent cu testul de analiză a varianţei unde F empiric este dat de:

SPE /1
F=
SPR/(T −2 ) (2.37)

cu F urmând o distribuţie Fisher-Snedecor cu 1 şi respectiv T −2 grade de libertate. Expresia lui


F se poate scrie şi în raport cu coeficientul de determinaţie:

2
R
F= 2
(1−R )/(T −2 ) (2.38)

0 ,05
Dacă de exemplu pentru un prag de semnificaţie α=0 ,05 avem
F>F (1 ,T −2 ) , respingem ipoteza

de egalitate a varianţei explicative şi a varianţei reziduale şi considerăm variabila X ca fiind


semnificativă. În caz contrar, acceptăm ipoteza de egalitate a varianţelor, variabila X nefiind o
variabilă explicativă a variabilei Y.

2.3.2. Previziunea variabilei endogene prin regresia liniară simplă

Dacă parametrii modelului au fost estimaţi, se pot realiza previziuni ale variabilei
endogene Y, pentru valori date ale variabilei exogene X. Presupunem că dorim să

38
realizăm o previziune la momentul t+1 sau pentru unitatea statistică t+1. Valoarea previzionată a
lui Y, conform modelului va fi:

p
y t+1 =a^ 0 + a^ 1 x t+1 (2.39)

Valoarea efectivă a lui Y va fi:

y t+1 =a0 +a1 x t+1 +ε t+1 (2.40)

Eroarea de previziune se poate exprima printr-o variabilă aleatoare:

p
ε t +1 = y t +1 − y t+1 =( a^ 0 −a0 )+( a^ 1 −a1 ) xt +1 −ε t+1 (2.41)

Se observă că speranţa matematică a erorii de previziune este nulă:

p
E( y t+1 − y t+1 )=0 (2.42)

Varianţa erorii de previziune se scrie:

p
V ( y t+1 − y t+1 )=E( y tp+1 − y t+1 )2
=E( a^ 0−a0 )2 +x 2t+1 E( a^ 1−a1 )2
+E (ε 2t+1 )+2 x t +1 E [( a^ 0 −a 0 )( a^ 1−a1 )] (2.43)

^ ^
deoarece Cov( a0 , ε t +1 )=0 şi Cov( a1 , ε t+1 )=0 .

2
^ ^ ^ σ
Înlocuind V ( a0 ) , V ( a1 ) şi Cov( a0 , a1 ) şi notând cu εt +1 varianţa erorii de previziune, după
^

efectuarea calculelor avem:

[ ]
2
2 1 (x t +1 − x̄ )
2
σ ε =σ 1+ + T
ε
t +1 T
∑ ( xt − x̄)2
t =1
(2.44)

2
^2
Dar σ ε este necunoscut şi se estimează prin σ ε , deci varianţa erorii de previziune se estimează
prin:

[ ]
2
2 1 (x t +1 − x̄ )
2
σ^ ε =σ^ 1+ + T
ε
t +1 T
∑ ( xt − x̄ )2
t =1
(2.45)
39
Se observă că varianţa este cu atât mai redusă (şi implicit previziunea mai precisă) cu cât

numărul de observaţii (eşantionul) T este mai mare, iar


x t+1 este mai apropiat de x̄ .

Figura 2.1 : Previziunea variabilei endogene prin regresie liniară simplă

y 18

16

14

ȳ 12

^y = a^ 0 + a^ 1 x
10

550 600 650 700 750 800 850 900 950 1000 1050

x̄ x t+1 x

Dacă
ε t are o distribuţie normală, şi a^ 0 −a0 , respectiv a^ 1 −a 1 sunt normal distribuite, deci:

p
y t +1− y t +1
≈ N (0,1)
σε
t+1 (2.46)

p
y t +1− y t +1
σε σ^ ε σ^ ε
Dar t +1 este înlocuit prin estimatorul său t +1 , deci expresia t+1 urmează o distribuţie
x
Student, cu T-2 grade de libertate. Pentru un prag de semnificaţie α şi o anumită valoare t+1
putem construi un interval de încredere a valorii previzionate a variabilei endogene:

(
Prob ^y t +1 −t Tα −2 σ^ ε ≤ y t +1 ¿ ^y t +1 +t αT −2 ^ σ ε
t +1 t+1 ) =1−α (2.47)

40
Aplicaţie privind modelul liniar simplu

Un produs a fost propus spre vânzare pe 20 de pieţe (zone geografice) la preţuri


diferite, cu venituri (medii) ale consumatorilor diferite, înregistrându-se valori
diferite ale cererii pentru fiecare piaţă. Tabelul 2.2 :
Nr. Cerere Venit Preţ Nr. crt. Cerere Venit Preţ
crt.

1 11,7 777 5,4 11 11,0 814 9,0

2 9,3 802 5,9 12 7,6 801 8,4

3 13,4 635 8,0 13 12,6 768 5,6

4 16,1 952 5,9 14 16,4 965 5,7

5 14,5 998 8,8 15 9,4 990 8,9

6 11,9 988 8,7 16 17,6 806 6,2

7 9,0 586 7,1 17 12,9 820 7,5

8 16,1 658 6,4 18 5,3 553 8,5

9 11,0 520 6,5 19 14,6 684 7,4

10 15,8 960 5,0 20 14,5 756 5,6

Notăm:
y t = cererea (variabila endogenă) x 1t = venitul x 2t = preţul

1) În ipoteza unei legături liniare între cerere şi venit, să se calculeze estimatorii parametrilor
a^ 0
şi a^ 1 .

2) Parametrii
a0 şi a1 sunt semnificativ diferiţi de 0 ?

3) Să se stabilească intervale de încredere la un prag de 95% pentru cei doi parametri.

H :a =0 este echivalentă cu testarea ipotezei r=0 , unde


4) Să se arate că testarea ipotezei 0 1 r
este coeficientul de corelaţie liniară simplă între cerere şi venit.
5) Să se construiască tabloul de analiză a varianţei şi testul Fisher adecvat.
6) Să se facă o previziune a cererii pentru o valori ale venitului de 600 şi respectiv 800.
7) Să se parcurgă aceleaşi etape pentru regresia liniară simplă dintre cerere şi preţ.

41
1) Un grafic adecvat, de exemplu norul de puncte permite evidenţierea legăturii dintre cele două
variabile:

Figura 2.4.1 Legătura liniară dintre cerere şi venit

20

18
16

14
12
cerere (Y)

10

0
400 500 600 700 800 900 1000 1100
venit (X1)

20 20 20
1 1
ȳ=
20
∑ y t =12,535 x̄=
20
∑ x t =791,65 ∑ ( xt − x̄ )2=435358,6
t=1 , t=1 , t =1 ,
20
∑ ( xt − x̄ )( y t − ȳ )=3396,345
t=1

20
∑ ( x t − x̄ )( y t − ȳ )
a^ 1 = t =1 20
=0 , 007801


∑ ( x t − x̄ ) 2

t =1

a^ 0 = ȳ −^a1 x̄=12 , 535−0 ,007801⋅791 , 65=6 ,3591

Desigur aceste calcule se pot face foarte repede, utilizând soft-ware adecvat de statistică şi
econometrie: SPSS, Stata, SAS, Eviews, Limdep, etc.

2) Este foarte important să testăm îndeosebi nulitatea parametrului a1 , deoarece dacă el nu este
semnificativ diferit de 0, variabila « venit » nu poate fi considerată explicativă pentru variabila
endogenă « cerere ». Formulăm o ipoteză nulă, cu alternativa ei:

H 0 :a 1=0
H 1 :a1 ≠0

42
Dacă respingem ipoteza
H 0 la un prag de semnificaţie α fixat, a1 este considerat semnificativ

diferit de 0. Pragul cel mai adesea utilizat este α=0 ,05 adică un risc de eroare de 5%.

a^ 1 −a1
σ^ a^
Cunoaştem că: 1 urmează o distribuţie Student cu T-2 grade de libertate

a^ 1 −0 a^ 1
= =t ^a
H 0 , relaţia devine: σ^ a^ σ^ a^ 1
Sub ipoteza 1 1 care urmează o distribuţie Student cu 20-2=18
σ^
grade de libertate. a^ 1 =0 , 0078 a fost calculat la punctul precedent, iar expresia lui ^a1 se
cunoaşte din relaţia 1.28, respectiv:

T
1
2
σ^ ε

T −2 t =1
ε^ 2t
σ^ 2^a = T
= T
1

∑ ( x t − x̄ ) ∑ ( xt − x̄ )2
2

t=1 t =1

Tabelul 2.3 : Calculul reziduurilor din estimare

2
Nr. crt. yt ^y t =6, 359+0,0078⋅x t ε^ t ε^ t
1 11,7 12,42 -0,72 0,518
2 9,3 12,615 -3,315 10,989
3 13,4 11,312 2,088 4,36
4 16,1 13,785 2,315 5,359
5 14,5 14,143 0,357 0,127
6 11,9 14,065 -2,165 4,687
7 9,0 10,93 -1,93 3,725
8 16,1 11,491 4,609 21,243
9 11,0 10,415 0,585 0,342
10 15,8 13,847 1,953 3,814
11 11,0 12,708 -1,708 2,917
12 7,6 12,607 -5,007 25,07
13 12,6 12,349 0,251 0,063
14 16,4 13,886 2,514 6,32
15 9,4 14,081 -4,681 21,912
16 17,6 12,646 4,954 24,542
17 12,9 12,755 0,145 0,021
18 5,3 10,672 -5,372 28,858
19 14,6 11,694 2,906 8,445
20 14,5 12,256 2,244 5,036
20
∑ ε^ 2t
t =1 178,348
σ^ 2ε = = =9,9082
T −2 20−2

43
ceea ce ne permite să calculăm varianţa estimată a lui a^ 1 :

σ^ 2ε 9 , 9082
σ^ 2^a = T
= =0 , 0000 22759
1 435358,6
∑ ( x t − x̄ )2
t=1

σ^ ^a =√ 0 , 0000 22759=0,0047706
şi respectiv: 1

Figura 2.3 : Distribuţia de eşantionare sub ipoteza


H0

1. 95

1. 45

0. 95

α α
% %
0. 45
2 2

-0.05 0. 15 0.35 0. 55 0.75 0.95

-0.05

−∞ ∞
a1

Regula de decizie pentru un prag α=0,05 devine:

a^ 1 0 ,05
=t a^ ¿ t n−2
σ^ a^ 1
H 0 , coeficientul a1 este semnificativ diferit de 0
 dacă 1 respingem ipoteza

(acceptăm a1 ≠0 ), venitul este deci o variabilă explicativă pentru cerere.


a^ 1 0 ,05
=t a^ ¿ t n−2
σ^ a^ 1
H 0 , coeficientul a1 nu este semnificativ diferit de 0
 dacă 1 acceptăm ipoteza

(acceptăm a1 =0 ), venitul nu este deci o variabilă explicativă pentru cerere.


Calculăm:

a^ 1 0 , 007801
t ^a1 = = =1 , 64
σ^ a^ 0,0047706 t 180,05=2 ,101
1

t ^a1 ≤t 018, 05
ceea ce înseamnă că din punct de vedere statistic, a1 =0 .

44
3) Pentru construirea intervalului de încredere pentru a1 =0 , cunoaştem că:

Prob ( a^ 1 −t α σ^ a^ ≤a1 ¿ a^ 1 +t α ^ σ a^ ) =1−α


1 1

Aplicând pentru o probabilitate de 95%:

Prob ( 0 ,0078−2 ,101⋅0 ,00477≤a 1≤0 ,0078+ 2, 101⋅0 , 00477 ) =95 %

Prob ( -0,00222≤a 1≤0 ,01782) =95 %

Exită deci un risc de 5% ca adevăratul coeficient a1 să se afle în afara intervalului


[ -0,00222 ; 0 ,01782 ] . Valoarea 0 se află în interval, ceea ce ne duce la aceeaşi concluzie ca mai
a
înainte, respectiv a1 =0 . Acelaşi demers se poate urma şi pentru coeficientul 0 , dar vom lăsa
calculele la latitudinea cititorului.

4) Coeficientul de corelaţie liniară simplă este egal cu:

[∑ ]
T T 2

∑ ( x t − x̄ )( y t − ȳ ) ( x t − x̄ )( y t − ȳ )
t =1 t =1
r= r2=


T T T T
∑ ( x t − x̄ )2⋅∑ ( y t − ȳ )2 ∑ ( x t − x̄ )2⋅∑ ( y t − ȳ )2
t =1 t =1 , de unde: t =1 t =1

T
∑ ( x t − x̄ )( y t − ȳ )
a^ 1 = t =1 T
∑ ( x t − x̄ )2
Dar: t =1

T
a^ 1 ∑ ( x t − x̄ )( y t − ȳ )
2 t =1 SPE
r = = =R 2
T SPT
∑ ( y t − ȳ )2
De unde putem deduce: t =1

deci pentru regresia liniară simplă, coeficientul de determinaţie este patratul coeficientului de
corelaţie liniară simplă.

2 2
R r
F= 2
= 2
=(t∗)2
(1−R )/(T −2 ) (1−r )/(T −2)

de unde deducem:

45
r √T −2
t∗¿
√ 1−r2 care urmează o distribuţie Student cu T −2 grade de libertate.

Aceasta permite să testăm dacă relaţia dintre Y şi X este semnificativă, sau în mod echivalent
dacă r este semnificativ diferit de 0.

r √ 18
t∗¿ 1 ,64=
√ 1−r2 ⇒
2
r =0 ,1293 ⇒ |r|=0,3596
5) Pentru tabloul de analiză a varianţei, calculăm:

20 20 20
SPE=∑ ( y^ i − ȳ ) =26,4957 SPR=∑
2
ε 2t =178,349 SPT =∑ ( y i− ȳ )2=204,845
t =1 t=1 t=1

Putem observa că obţinem aceeaşi valoare a coeficientului de corelaţie şi pe baza componentelor


varianţei:

SPE SPR 26 , 4957


r 2 =R2 = =1− = =0 ,1293
SPT SPT 204 ,845

Tabelul 1.4 : Analiza varianţei

Sursa variaţiei Suma patratelor Numărul


gradelor de
libertate
Variabila explicativă SPE=26,4957 1
(X)
Variabila reziduală ( ε SPR=178,349 20-2
)
Total SPT =204 ,845 20-1

SPE/1
F∗¿ =2 , 67
SPR/(20−2) . Din tabelele cu distribuţia Fisher-Snedecor avem:

0 , 05 0 , 05
F( 1; 18)=4 , 41 . F∗¿ F(1 ;18 ) deci variabila « venit » nu poate fi considerată ca fiind explicativă

pentru variabila endogenă, «cerere ».

Observaţie

Cele trei teste sunt echivalente:

46
H 0 :a 1=0 H 0 :r x, y=0 H 0 : SPE=0
| | |
H 1 :a1 ≠0 ⇔ H 1 :r x , y ≠0 ⇔ H 1 :SPE≠0

Problema a fost rezolvată până aici într-o manieră didactică, cu calcule făcute fără a utiliza
programe informatice de specialitate. Prin software-ul STATA, de exemplu, toate aceste
rezultate sunt furnizate imediat. Informaţiile de bază redate pentru o regresie simplă, fără a
utiliza opţiuni suplimentare sunt următoarele:

. regress cerere venit

Source | SS df MS Number of obs = 20


---------+------------------------ F( 1, 18) = 2.67
Model | 26.4957 1 26.495 Prob > F = 0.1194
Residual | 178.349 18 9.9083 R-squared = 0.1293
---------+------------------------ Adj R-squared = 0.0810
Total | 204.845 19 10.781 Root MSE = 3.1477

-------------------------------------------------------------
cerere | Coef. Std.Err. t P>|t| [95% Conf.Interv.]
---------+---------------------------------------------------
venit | .007801 .004770 1.64 0.119 -.00222 .01782
cons | 6.35913 3.84170 1.66 0.115 -1.7119 14.430
-------------------------------------------------------------

Prima linie a rezultatelor declară variabilele asupra cărora s-a efectuat regresia.

Tabelul de analiză a varianţei este identic cu cel prezentat anterior.

F(1, 18) = 2.67 este de asemenea o valoare calculată identică cu cea obţinută de noi anterior.

Prob > F = 0.1194 ne arată riscul cu care putem accepta SPE≠0 (respectiv în mod echivalent
R≠0 ). Riscul este mai mare decât acel 5% în general acceptat, similar cu ceea ce am
concluzionat anterior.

Ultimul tabel prezintă estimatorii parametrilor, abaterea medie patratică a estimatorilor


parametrilor, valoarea calculată a lui t, riscul de nulitate a parametrilor şi intervalul de încredere
la 95%. Observăm acelaşi prag de semnificaţie 0.119 ca şi la testul F pentru analiza varianţei.

6) Pentru observaţia de rangul t+1 avem


x t+1=600 .

^y t+1 =^a0 +^a1 x t+1 =6 , 359+0 , 007801⋅600=11 , 0396

Eroarea de estimare este:

47
[ ] [ ]
2 20 2
1 (x t +1 − x̄ ) 1 1 ( x t +1− x̄ )
2
σ^ ε =σ^ 1+ + T
t +1 T
2
ε = ∑ ε ¿ 1+ T + T
2
T −2 t =1 t
∑ ( xt − x̄ ) 2
∑ ( x t − x̄ )2
t =1 t=1

[ ]
2
2 1 1 (600−791, 65 )
σ^ ε = ⋅178 ,349⋅ 1+ + =11,2396 σ^ =3,3525
t +1 20−2 20 435358,6 εt +1

Intervalul de încredere pentru y T+1 se scrie:

(
Prob ^y t +1 −t Tα −2 σ^ ε ≤ y t +1 ¿ ^y t +1 +t αT −2 ^ σ ε
t +1 t +1 ) =1−α , ceea ce pentru o probabilitate de 95% devine:

Prob ( 11 , 0396−2 ,09⋅3 ,3525≤ y t+1 ≤11, 0396+ 2, 09⋅3 ,3525 ) =95 %
,
Prob ( 4 , 03≤ y t+1≤19, 05 ) =95 %

Intervalul de încredere este foarte larg, nesatisfăcător, datorită varianţei reziduale mari.

Pentru observaţia de rangul t+2 avem


x t+2=800 .

^y t+2 =^a0 +^a1 x t+2 =6 , 359+0 , 007801⋅800=12,5998

Eroarea de estimare este:

[ ]
2
1 1 (800−791 ,65 )
σ^ 2ε = ⋅178 ,349⋅ 1+ + =10,4053 σ^ =3,2257
t +2 20−2 20 435358,6 εt +2

Prob ( 12,5998−2 , 09⋅3 , 2257≤ y t +2 ≤12,5998+2 , 09⋅3 , 2257 ) =95 %

Prob ( 5 , 86≤ y t +2 ≤19 ,34 ) =95 %

Intervalul de încredere este mai îngust decât cel obţinut anterior, deoarece
x t+2=800 se apropie

mai mult de x̄=791,65 , dar este tot nesatisfăcător, datorită varianţei reziduale mari.

7) Pentru regresia liniară simplă dintre cerere şi preţ nu detaliem calculele, ci le lăsăm la
latitudinea cititorului. Prezentăm doar rezultatele estimaţiilor obţinute prin utilizarea programului
STATA.

. regress cerere pret

Source | SS df MS Number of obs = 20


---------+------------------------ F( 1, 18) = 5.71

48
Model | 49.3031 1 49.3031 Prob > F = 0.0281
Residual | 155.542 18 8.64124 R-squared = 0.2407
---------+------------------------ Adj R-squared = 0.1985
Total | 204.845 19 10.7813 Root MSE = 2.9396

-------------------------------------------------------------
cerere | Coef. Std.Err. t P>|t| [95% Conf.Interv.]
---------+---------------------------------------------------
pret |-1.18353 .4954869 -2.39 0.028 -2.2245 -.14255
cons | 20.8493 3.542316 5.89 0.000 13.407 28.291
-------------------------------------------------------------

Remarcăm că de această dată coeficientul corespunzător variabilei explicative este semnificativ.

49
Modulul 3. MODELUL LINIAR MULTIPLU

Unitatea de curs 3.1


Descrierea şi ipotezele modelului, estimarea parametrilor acestuia

3.1.1. Forma modelului

În general fenomenele economice pe care dorim să le modelăm prin econometrie


sunt complexe şi nu pot fi reprezentate printr-un model liniar simplu. Modelul
liniar multiplu corespunde mai bine acestei necesităţi, introducând mai multe variabile
explicative.

y t =a 0 +a 1 x1 t +a2 x 2t +. ..+ ak x kt + ε t t=1,...,T (3.1)

 t indexează observaţiile

 T numărul de observaţii

 y t variabila endogenă la momentul t (sau observaţia cu rangul t )

 x 1t este realizarea variabilei explicative 1 la momentul t (sau observaţia cu rangul t)

 x 2t este realizarea variabilei explicative 2 la momentul t (sau observaţia cu rangul t)


.. . .. . .

 x kt este realizarea variabilei explicative k la momentul t (sau observaţia cu rangul t)

 ε t este realizarea în t a variabilei reziduale


a0 ,a1 ,a2 ,...,ak parametrii de estimat ai modelului.

Sub forma din ecuaţia 3.1 modelul este greu de utilizatat, fapt pentru care vom prefera o
formă mai condensată, matricială. Dacă rescriem modelul observaţie cu observaţie, obţinem:

y 1 =a0 +a1 x 11+a2 x 21+. . .+ak x k 1 +ε 1


y 2 =a0 +a1 x 12+a2 x 22+. . .+ak x k 2 +ε 2
.. . .. ..
y t =a 0 +a 1 x1 t +a2 x 2t +. ..+ak x kt +ε t
.. . .. ..
y T =a0 +a1 x 1T +a 2 x2 T +. ..+a k x kT +ε T
50
ceea ce sub formă matricială (între paranteze numărul de linii şi respectiv de coloane) devine:

Y ¿ ¿
( T , 1) ¿ (3.2)

() ( ) () ()
y1 1 x 11 x 21 .. . xk 1 ε1
y2 1 x 12 x 21 .. . xk 2 a0 ε2
a1
Y = .. . X = . .. . . . .. . .. . . .. ε = . ..
yt 1 x 1t x 2 t .. . x kt a= a εt
2
.. . . .. . . . .. . .. . . .. . .. . ..
yT 1 x 1 T x2 T .. . x kT ak εT
unde:

Prima coloană a matricei X conţine doar valoarea 1, care corespunde coeficientului


a0 . Astfel
matricea X are T linii şi k+1 coloane (k variabile explicative plus constanta).

3.1.2. Estimarea parametrilor

Considerăm modelul sub formă matricială, cu k variabile explicative şi T


observaţii:

Y = X⋅a+ ε

Pentru estimarea componentelor vectorului a , având ca şi componente coeficienţii


a0 ,a1 ,a2 ,...,ak aplicăm ca şi la modelul liniar simplu metoda patratelor minime (MPM),
T
S=∑ ε 2t
minimizând suma patratelor erorilor. Notăm: t =1 şi

T
min ∑ ε 2t =min (ε ' ε )
t=1
=min (Y −Xa )' (Y −Xa )
=min (Y ' Y −Y ' Xa−a' X ' Y +a ' X ' Xa)
=min (Y ' Y −2 a ' X ' Y +a ' X ' Xa ) (3.3)

unde : ε ' este vectorul transpus al lui ε  ; a' este vectorul transpus al lui a  ; Y ' este vectorul
transpus al lui Y  ; X ' este transpusa matricii X .

Pentru a minimiza expresia, derivăm în raport cu a :

51
∂S
=−2 X ' Y +2 X ' X a^ =0
∂a (3.4)

−1
⇒ a^ =( X ' X ) X ' Y (3.5)

Această soluţie este realizabilă dacă matricea patratică X ' X este inversabilă. Matricea este este
neinversabilă doar în caz de coliniaritate perfectă între oricare două variabile explicative.

3.1.3. Ipoteze fundamentale asupra modelului

Pentru o analiză mai detaliată a importanţei lor, a se vedea Dormont, 1999,


Maddala, 1987 sau Green, 2007.

 H1 : E(ε t )=0  ; variabila reziduală este de medie nulă ;

 H2 : y t şi x t reprezintă valori numerice observate fără erori

 H3 : Modelul este liniar în raport cu x t sau o transformare a lui x t (logaritm, inversiune,


etc.) ;
2 2
 H4 : E(ε t )=σ ∀ t (varianţa perturbaţiilor este constantă, indiferent de t)

 H5 : cov (ε t , ε t ' )=0 (erorile nu sunt corelate) ;

 H6 : cov ( xit , ε t )=0 ∀i=1,2,...,k


perturbaţiile sunt independente în raport cu variabilaele explicative ;

2
 H7 : ε t ≈ N (0 , σ ) ∀t

Pe lângă aceste ipoteze întâlnite şi la modelul liniar simplu, mai avem şi ipoteze structurale, care
ţin de forma modelului:

 H8 : variabilele explicative nu sunt coliniare. Aceasta implică existenţa matricei inverse a lui
−1
( X ' X ) , respectiv ( X ' X )  ;
(X' X)
 H9 : T tinde spre o matrice finită nesingulară ;

 H10 : T > k +1 , adică numărul de observaţii este mai mare decât numărul de variabile
explicative plus constanta.
În cazul T > k +1 s-ar obţine un sistem de ecuaţii nedeterminat.

52
În cazul T =k +1 s-ar obţine un sistem de T ecuaţii cu T necunoscute perfect
determinat.

Unitatea de curs 3.2


Proprietăţile estimatorilor şi inferenţa lor statistică

3.2.1. Proprietăţile estimatorilor

Sub formă matricială, modelul poate fi scris sub diferite forme:

Y = X⋅a+ ε

Y^ = X⋅a^

Obţinem:

a^ =( X ' X )−1 X ' Y


=( X ' X )−1 X ' ( Xa+ε )
=( X ' X )−1 X ' ( Xa)+( X ' X )−1 X ' ε
=a+( X ' X )−1 X ' ε (3.6)

Dar cunoaştem că E(ε )=0 ,

−1
⇒ E( a^ )=a+( X ' X ) X ' E( ε)=a (3.7)

deci estimatorul este nedeplasat:

E( a^ )=a (3.8)

Calculăm matricea varianţelor şi covarianţelor coeficienţilor modelului


Ωa^ :

−1
Ωa^ =E [( a^ −a)( a−a
^ ) ] (3.9)

Din 3.6 avem :

53
−1
a^ −a=( X ' X ) X ' ε

şi deci:

−1
( a^ −a )'=ε ' X ( X ' X )

−1
deoarece ( X ' X ) este o matrice simetrică.

−1 −1
( a^ −a )( a^ −a)'=( X ' X ) X ' εε ' X ( X ' X )

de unde obţinem:

−1 −1
Ωa^ =( a^ −a)( a−a
^ )'=( X ' X ) X ' E(εε ' ) X ( X ' X ) (3.10)

Notând cu: E(εε ' )=Ωε matricea varianţelor şi covarianţelor lui ε şi ţinând cont de ipotezele de
homoscedasticitate (varianţa erorilor constantă) şi de independenţa a erorilor, avem:

( )( )
E( ε 1 ε 1 ) E (ε 1 ε 2 ) . .. E ( ε1 ε T ) σ 2ε 0 ... 0
E( ε 2 ε 1 ) E (ε 2 ε 2 ) . .. E ( ε2 ε T ) 0 σ 2ε ... 0
Ωε =E ( εε ' )= =
.. . .. . . .. ... . .. . .. ... ...
E( ε T ε 1 ) E( ε T ε 2 ) . .. E ( εT εT ) 0 0 0 σ 2ε

de unde:

2 −1 −1
Ωa^ =σ ε ( X ' X ) X ' X ( X ' X )

Ωa^ =σ 2ε ( X ' X )−1 (3.11)

Fără a prezenta aici calculele, se poate demonstra (vezi Dormont, 1999) că un estimator
2
nedeplasat al lui σ ε este:

ε' ε
σ^ 2ε =
T −k −1 (3.12)

Înlocuind varianţa erorilor prin estimatorul său în expresia matricei de varianţe şi covarianţe a
coeficienţilor (3.11), obţinem:

^ =σ^ 2 ( X ' X )−1


Ωa^ ε (3.13)

54
−1
Tot fără a demonstra aici, menţionăm că estimatorul obţinut prin a^ =( X ' X ) X ' Y este BLUE
(Best Linear Unbiased Estimator), adică este nedeplasat şi are varianţe minime ale estimatorilor.

3.2.2. Teste şi intervale de încredere

a^ i−ai
2 ≈N (0,1)
σ a^
Din ipoteza de normalitate a erorilor ε t ≈ N (0 , σ ) rezultă : i

σ^ a^ i
2
2
(T −k −1) 2
¿ χ (T−k−1 )
σ a^
i ca fiind suma patratelor unei variabile aleatoare normale. Ca urmare,
a^ i−ai
σ^ a^
i este raportul dintre o variabilă normală şi rădăcina patrată a unei variabile care urmează
2
o distribuţie χ , deci:

a^ i−ai
≈Student (T−k−1 )
σ^ a^
i (3.14)

1 ^ −1
( a^ −a )' Ω ^a ( a^ −a )≈ χ ( k+1 ) şi k +1 ( a^ −a)' Ωa^ ( a^ −a)≈ Fisher(k +1 ;T −k−1)
−1 2

Teste referitoare la un coeficient

Testăm egalitatea unui coeficient cu o valoare dată a∗¿¿ (utilizăm această notaţie, deoarece am
notat cu a vectorul parametrilor.

H0:ai=a∗¿¿H1:ai≠a∗

55
a^ i−ai
≈Student (T−k−1 )
σ^ a^ H 0 , rezultă:
Ştim din 2.14 că i . Sub ipoteza

|^ai −a i| ¿
=t a^ i ¿ Student (T −k−1)
σ^ a^
i (3.15)

t ¿^a ¿ t αT−k−1 H 0 , deci ai este semnificativ diferit de a∗¿¿ (cu un risc de α % )


- dacă i respingem
¿ α
- dacă
t ^a ¿ t T−k−1
i acceptăm
H 0 , deci ai nu este semnificativ diferit de a∗¿¿ (cu un risc de α % )
În cele mai multe situaţii dorim să testăm nulitatea coeficienţilor pentru a şti dacă o variabilă
explicativă este într-adevăr semnificativă, ceea ce devine un caz particular al ipotezei de mai sus,
pentru care a∗¿ 0 . Relaţia 3.15 devine:

|^ai| ¿
=t ^ ¿ Student (T −k−1)
σ^ a^ ai
i (3.16)

Se poate construi astfel un interval de încredere pentru coeficientul


ai :

Prob( a^ i−t αT −k −1 σ^ a^ i ≤ai ¿ a^ i +t Tα −k−1 ^ σ a^ i )=1−α


(3.17)

Test referitor la un ansamblu de coeficienţi

Testăm simultan egalitatea unui ansamblu de coeficienţi din modelul de regresie cu un ansamblu
de valori fixate.

¿
H 0 :a m=a m
¿
H 1 :am ≠am

¿
Efectuăm testul cu privire la m a a
coeficienţi, deci m şi respectiv m sunt vectori de dimensiune
m :

1 ^ −1( a^ m −am )=F ¿^a ¿ Fisher(m;T −k−1 )


( a^ m −am )' Ω ^am
m m
(3.18)

¿
F¿^a ¿ F α(m ;T −k−1) H 0 , deci am nu este semnificativ diferit de am (cu un risc de
- dacă m acceptăm
α% )

56
¿
F¿^am ¿ F α(m ;T −k−1)
respingem 0 , deci m este semnificativ diferit de am (cu un risc de
- dacă
H a
α % ).
Desigur şi pentru testul cu privire la un ansamblu de coeficienţi, dorim să testăm cel mai adesea
nulitatea lor. Testul devine:

H 0 :a m=0m
H 1 :am ≠0m

unde
0m este vectorul nul de dimensiune m :

1 ^ −1 a^m =F ¿a^ ¿ Fisher(m ; T−k−1 )


a^ m ' Ω a^ m
m m
(3.19)

Unitatea de curs 3.3


Analiza varianţei. Previziunea variabile endogene.

3.3.1. Analiza varianţei

Ca şi în cazul modelului liniar simplu, avem următoarele relaţii:

1) Suma reziduurilor este nulă:

T
∑ εt =0
t=1 .

2) Media (suma) seriei variabilei endogene este egală cu media (suma) seriei ajustate:

T T
∑ y t =∑ ^y t ȳ = ^ȳ
t=1 t =1 , t t

Din aceste două relaţii putem deduce ecuaţia de analiză a varianţei:

T T T
∑ ( y t − ȳ)2=∑ ( ^yt − ^ȳ)2+∑ ε2t
t=1 t=1 t=1
SPT = SPE + SPR (3.20)

57
Suma patratelor totală (SPT) = Suma patratelor explicată (SPE) +

+ Suma patratelor reziduală (SPR)

Ecuaţia ne permite să apreciem global calitatea ajustării modelului. Aceasta este cu atât
mai bună cu cât varianţa (suma patratelor) reziduală este mai mică. Pentru că valoarea ei depinde
de unitatea de măsură a variabilei, preferăm un parametru adimensionat:

T T
∑ ( ^y t − ȳ )2 ∑ ε 2t
t =1 t =1
R2 = T
=1− T
∑ ( y t − ȳ )2 ∑ ( y t − ȳ )2
t =1 t =1 (3.21)

2
care este de fapt raportul dintre varianţa explicată şi cea totală. R se numeşte coeficient de
determinaţie, iar R coeficient de corelaţie liniară multiplă.

Ştim că dacă numărul de observaţii T este egal cu numărul de variabile explicative plus
constanta (k+1) funcţia trece prin toate punctele de coordonate reprezentate de observaţii.
Abaterile fiind nule, coeficientul de determinaţie va fi egal cu 1, dar puterea explicativă a
modelului este nulă. Atunci când numărul de observaţii este relativ mic în raport cu numărul de
2 2
variabile explicative calculăm un R corectat, pe care îl notăm cu R̄ :

T −1
R̄2 =1− (1−R 2 )
T −k −1 (3.22)

Analiza varianţei permite estimarea semnificativităţii globale a modelului de regresie.


Testul se formulează astfel:

H 0 :a 1=a2 =.. .=ak =0


H 1 :exista cel putin un coeficient nenul

Nulitatea termenului constant


a0 nu ne interesează, ci doar variabilele explicative. Oricum, un

model în care numai termenul constant este semnificativ nu are sens economic. Dacă ipoteza
H0
este acceptată înseamnă că nu există nici o relaţie liniară semnificativă între variabila endogenă
şi cele explicative, adică SPE nu este semnificativ diferită de 0. Pe baza ecuaţiei de analiză a
varianţei:

T T T
∑ ( y t − ȳ ) =∑ ( ^y t − ^ȳ )2 + ∑ ε 2t
2

t =1 t =1 t=1

58
construim tabloul de analiză a varianţei:

Tabelul 3.1 : Analiza varianţei

Sursa variaţiei Suma patratelor Numărul


gradelor de
libertate
T
Variabilele explicative
x ,x ,..., x k ) SPE =∑ ( y^ t − ȳ )2 k
( 1 2 t =1
T

Variabila reziduală SPR=∑ ε 2t T −k −1


t =1
T

Total SPT =∑ ( y t − ȳ )2 T −1
t=1

Se construieşte raportul:

[ ]
T
∑ ( ^y t − ȳ )2 / k 2
t =1 R /k
F∗¿ =

[∑ ]
2
T ( 1−R )/( T −k −1)
ε 2t /( T −k−1 )
t =1 (3.23)

Din ipoteza de normalitate e erorilor şi sub ipoteza


H 0 rezultă că F∗¿ ¿ urmează o distribuţie
2
Fisher (fiind un raport între două variabile χ ) cu k, respectiv T-k-1 grade de libertate.

F∗¿ Fisher( k,T−k −1)


(3.24)

α
- dacă
F∗¿ F( k, T−k−1) respingem ipoteza H 0 , modelul este global explicativ;
α
- dacă
F∗¿ F( k, T−k−1) acceptăm ipoteza H 0 , modelul nu este global explicativ.

3.3.2. Variabile indicatoare în modelul liniar multiplu

În anumite situaţii dorim să integrăm într-un model un factor explicativ binar de


tipul « un fenomen are loc sau nu » sau un factor cu două valori posibile

59
« bărbat / femeie » sau « a mai avut / nu a mai avut accident ». Pentru a modela astfel de
fenomene apelăm la variabile indicatoare, care pot lua doar două valori: 0 sau 1. Modelul de
regresie diferă după apariţia / neapariţia fenomenului doar prin valoarea unui coeficient, iar
ceilalţi coeficienţi rămân identici.

- în cazul existenţei fenomenului:

y t =a 0 +a 1 x1 t +a2 x 2t +. ..+ ak x kt + ε t t=1,...,T (3.25)

- în cazul inexistenţei fenomenului:

y t =b 0 +a 1 x1 t + a2 x 2t +. ..+ak x kt +ε t t=1,...,T (3.26)

Putem scrie aceste două ecuaţii sub forma unei ecuaţii unice:

y t =( b0 −a0 ) Dt +a1 x 1t +a 2 x 2t +.. .+a k x kt + ε t (3.27)

unde:
Dt =1 atunci când fenomenul există ;

Dt =0 atunci când fenomenul nu există.

Se încorporează deci o variabilă explicativă suplimentară faţă de modelul iniţial şi se aplică


metodele clasice de estimare.

3.3.3.. Previziunea variabilei endogene prin regresia liniară multiplă

Problema se pune ca şi la modelul liniar simplu de a estima valoarea variabilei


endogene pentru un ansamblu cunoscut de valori ale variabilelor explicative.
Presupunem modelul estimat sub forma:

y t =a^ 0 + a^ 1 x1 t + a^ 2 x 2t +. ..+ a^ k x kt + ε t (3.28)

Valoarea punctuală previzionată pentru observaţia t+1 este:

^y t+1 =^a0 +^a1 x 1t +1 +^a2 x 2 t+1 +. ..+ a^ k x kt +1 (3.29)

Eroarea de previziune este:

ε t +1 = y t +1 − ^y t+1 (3.30)
60
Valoarea estimată
^y t+1 este nedeplasată dacă ipotezele modelului liniar multiplu sunt respectate.

Previziunea se poate realiza astfel doar dacă valorile variabilelor explicative sunt
cunoscute cu exactitate. În cazul în care acestea sunt probabiliste este necesară o altă abordare.
Este cazul seriilor de timp de exemplu pentru care s-a dezvoltat o teorie diferită.

Varianţa erorii de previziune este egală cu:

σ 2ε =σ 2ε [ 1+ X ' t +1 ( X ' X )−1 X t+ 1 ]


t +1 (3.31)

()
1
x1 t+1
X t +1 = x2 t+1
.. .
x kt +1
unde este matricea (vectorul) valorilor variabilelor explicative pentru observaţia
t+1 .

Expresia varianţei erorii de previziune a fost dată fără demonstraţie. Pentru detalii privind
deducerea ei vezi Dormont (1998).

σ 2ε
Eroarea de previziune este distribuită normal de medie nulă şi varianţă t +1 :

ε t +1 ≈N ( 0 , σ 2ε )
t+1

2
Dacă înlocuim σ ε cu estimatorul său:

T
1
σ^ 2ε = ∑ ε2
T −k −1 t =1 t

atunci:

^y t+1 − y t +1
≈Student (T −k−1)
σ^ ε [1+ X ' t +1 ( X ' X )−1 X t +1 ]
2
(3.32)

Ca şi la modelul liniar simplu, varianţa erorii de previziune este cu atât mai mică cu cât varianţa
reziduală este mai mică şi valorile variabilelor explicative se apropie de mediile lor. Putem
construi şi un interval de încredere pentru valoarea previzionată a variabilei endogene:

(
Prob ^y t +1 −t Tα −k−1 σ^ ε ≤ y t +1 ¿ ^y t+1 +t αT−k−1 ^ σ ε
t+1 t +1 ) =1−α (3.33)

61
unde:


T
1
σ^ ε = ∑ ε 2t ¿ [ 1+ X ' t +1 ( X ' X )−1 X t+ 1 ]
t +1 T −k−1 t =1 (3.34)

62
Aplicaţie privind modelul liniar multiplu

Presupunem că o variabilă
y t este influenţată de factorii x 1t , x 2t , x 3t . Dispunem de 23 de
observaţii cu privire la realizările acestor variabile.

Tabelul 3.2

Nr. yt x 1t x 2t x 3t Nr. yt x 1t x 2t x 3t
crt. crt.
1 163 669 17,4 69 13 295 869 10,3 67
2 381 872 10,5 75 14 256 824 17,5 88
3 455 1191 14,3 64 15 309 676 13,0 64
4 451 933 12,5 85 16 286 885 13,2 67
5 373 668 15,3 90 17 379 1179 11,8 60
6 321 733 13,8 61 18 425 1161 13,9 86
7 316 933 15,0 85 19 404 1074 11,5 64
8 410 1165 10,7 74 20 330 775 16,0 89
9 348 932 8,2 70 21 354 752 8,9 76
10 383 840 8,1 66 22 384 740 15,1 85
11 386 901 12,0 87 23 233 590 9,3 62
12 163 669 17,4 64

Se cere:

1) În ipoteza unei legături liniare multiple dintre


y t şi factorii x 1t , x 2t , x 3t să se calculeze
estimatorii parametrilor.

2) Să se testeze nulitatea fiecărui parametru.

3) Să se stabilească intervale de încredere la un prag de 95% pentru parametrii modelului.

4) Să se testeze simultan nulitatea tuturor coeficienţilor din modelul de regresie.

2 2
5) Să se calculeze R şi R̄ .

6) Să se construiască tabloul de analiză a varianţei şi testul Fisher adecvat.

7) Să se facă o previziune a lui


y t+1 , dacă x 1t+1 =880 , x 2t+1 =12,5 , x 3t+1 =75 .

8) Să se compare precizia estimării prin regresia multiplă în raport cu regresia simplă.

63
1) Conform relaţiei 3.5 estimatorii parametrilor se obţin prin:

−1
a^ =( X ' X ) X ' Y

În cazul aplicaţiei noastre avem:

( )( ) ( )( )
1 x 11 x 21 x 31 1 669 17 , 4 69 y1 163
1 x 12 x 22 x 32 1 872 10 ,5 75 y 381
X= = Y= 2 =
. .. . . . .. . .. . .. . .. . .. . .. . .. . .. .
1 x 1 T x2 T x 3T 1 590 9,3 62 yT 233
, unde T =23 .

a^ =( X ' X )−1 X ' Y

[( )] (
−1

)( )( )
1 1 ... 1 1 669 17,4 69 1 1 . .. 1 163
a^ = 669 872 ... 590 ⋅ 1 872 10,5 75 ⋅ 669 872 . .. 590 ⋅ 381
17 ,4 10 ,5 ... 9,3 ... ... ... ... 17,4 10, 5 . .. 9,3 ...
69 75 ... 62 1 590 9,3 62 69 75 . .. 62 233

( )
20,530
0,2643
a^ =
-11,065
3,1281

Estimatorii parametrilor sunt deci:

a^ 0 =20 , 530 , a^ 1 =0 , 2643 , a^ 2 =−11, 065 , a^ 3 =3, 1281

2) Pentru testarea ipotezelor de nulitate a parametrilor avem nevoie de varianţa fiecărui


estimator. Acestea se pot deduce din matricea de varianţe şi covarianţe a parametrilor (vezi
relaţia 3.13):

^ =σ^ 2 ( X ' X )−1


Ωa^ ε

unde estimatorul varianţei variabilei reziduale este dat de:

ε' ε
σ^ 2ε =
T −k −1

64
Tabelul 3.3 : Calculul reziduurilor din estimare

Nr. crt. yt ^y t =20,530+0,2643⋅x 1t − εt


−11,065⋅x 2t +3,1281⋅x 3 t
1 163 220.65 -57.65
2 381 369.42 11.58
3 455 377.28 77.72
4 451 394.7 56.3
5 373 309.32 63.68
6 321 252.38 68.62
7 316 367.04 -51.04
8 410 441.52 -31.52
9 348 395.09 -47.09
10 383 359.37 23.63
11 386 398.03 -12.03
12 163 205.01 -42.01
13 295 345.82 -50.82
14 256 319.95 -63.95
15 309 255.55 53.45
16 286 317.96 -31.96
17 379 389.26 -10.26
18 425 442.6 -17.6
19 404 377.34 26.66
20 330 326.72 3.28
21 354 358.54 -4.54
22 384 314.92 69.08
23 233 267.5 -34.5

23 23
ε' ε 1 1
σ^ 2ε = = ∑
T −k −1 T −k−1 t =1
ε 2t = ∑ ε 2t 2
19 t =1 , σ^ ε =2494,055

[( )]
−1

)(
1 1 .. . 1 1 669 17 , 4 69
Ω^ a^ =σ^ 2ε ( X ' X )−1 =2494 , 055⋅ 669 872 .. . 590 ⋅ 1 872 10 , 5 75
17 , 4 10 , 5 .. . 9,3 . .. . .. . .. . ..
69 75 .. . 62 1 590 9,3 62

( )
9656,855 -3,557957 -137,9706 -63,33703
-3,557957 0,0035984 0,049006 -0,002791
Ω^ a^ =
-137,9706 0,049006 15,91290 -1,480421
-63,33703 -0,002791 -1 . 480421 1,148658

Pentru toate testele cu privire la câte un parametru, vom avea :

α 0, 05
t T −k−1 =t 23 =2 , 093
65
 Pentru parametrul
a0 :

|^a 0| 20 , 53
= =0 , 21<2 ,093
σ^ a^ √ 9656 , 855 a0 nu este semnificativ diferit de 0.
0 şi acceptăm că

Intervalul de încredere (95%) pentru


a0 este :

α
Prob( a^ i−t T −k −1 σ^ a^ i ≤ai ¿ a^ i +t T −k−1 ^ σ a^ i )=1−α
α

Prob( a^ 0 −t 0, 05
^ ^ 0 +t 019, 05 ^ σ a^ )=0 , 95
19 σ a^ 0≤a0 ¿ a 0

Prob(20 , 53−2 ,093⋅ 98,2693≤a0 ≤20 , 53−2, 093⋅98,2693)=0 , 95

Prob( -185,15≤a 0≤226,21)=0 , 95

 Pentru parametrul a1 :
|^a1| 0 , 2643
= =4 , 41>2 ,093
σ^ a^ √ 0 ,0035984
1 şi acceptăm că a1 este semnificativ diferit de 0.

Intervalul de încredere (95%) pentru a1 este :

Prob( 0,1387≤a1 ≤0 , 3898)=0 , 95

 Pentru parametrul a2 :
|^a 2| 11 , 065
= =2, 77>2 , 093
σ^ a^ √ 15,9129
2 şi acceptăm că a2 este semnificativ diferit de 0.

Intervalul de încredere (95%) pentru a2 este :

Prob( -19,414≤a2 ≤-2,715)=0 , 95

 Pentru parametrul
a3 :

|^a 3| 3 , 1281
= =2 , 92> 2, 093
σ^ a^ √ 1,1486 a3 este semnificativ diferit de 0.
3 şi acceptăm că

Intervalul de încredere (95%) pentru


a3 este :

66
Prob( 0,884≤a 3≤5,371 )=0 , 95

4) La latitudinea cititorului.

2
5) Pentru calculul lui R folosim formula:

T T T
∑ ( ^y t − ȳ )2 ∑ ε 2t ∑ ε 2t
47387,05
R2 = t =1 =1− t =1
R2 =1− t =1
=1− =0,6623
T T T 140311,2
∑ ( y t − ȳ )2 ∑ ( y t − ȳ )2 ∑ ( y t −339, 35 )2
t =1 t =1 , t =1

2 2
Pentru calculul lui R corectat, notat cu R̄ , folosim:

T −1 23−1
R̄2 =1− (1−R 2 ) R̄2 =1− (1−0 , 6623)=0 , 6089
T −k −1 23−3−1

6) Pentru tabloul de analiză a varianţei, calculăm:

23 23 20
SPE=∑ ( y^ i − ȳ ) =92924,15 2
SPR =∑ ε 2t =47387,05 SPT =∑ ( y i− ȳ )2=140311,2
t=1 , t =1 , t =1

Tabelul 3.4 : Analiza varianţei

Sursa variaţiei Suma patratelor Numărul gradelor


de libertate
Variabilele explicative (
x 1 ,x 2 ,..., x k ) SPE=92924,15 3

Variabila reziduală SPR=47387,05 19

Total SPT =140311,2 22

[∑ ]
T
( ^y t − ȳ )2 / k
2
t =1 R /k
F∗¿ =

[∑ ]
T 2
( 1−R )/( T −k −1)
ε 2t /( T −k−1 )
t =1

67
SPE/3
F∗¿ =4,194
SPR/ 19

α 0 , 05
Din tabelele cu distribuţia Fisher-Snedecor avem:
F( k, T−k −1)=F( 3; 19)=3 ,13

α
F∗¿ F( k, T−k−1) ⇒ respingem ipoteza H 0 , modelul este global explicativ.

7) Previziunea punctuală a lui


y t+1 , dacă x 1t+1 =880 , x 2t+1 =12,5 , x 3t+1 =75 este:

^y t+1 =^a0 +^a1 x 1t +1 +^a2 x 2 t+1 +^a 3 x3 t+1

^y t+1 =20 ,530+0 ,2643⋅880−11 , 065⋅12 , 5+3 ,1281⋅75 , adică ^y t+1 =349 ,4

Sub formă generală, intervalul de încredere se scrie:

( )
α
Prob ^y t +1 −t Tα −k−1 σ^ ε ≤ y t +1 ¿ ^y t+1 +t T−k−1 ^ σ ε t +1 =1−α
t+1


T
1
σ^ εt +1=
T −k−1 ∑ e 2t ¿ [ 1+X 't +1 ( X ' X )−1 X t +1 ]
unde: t =1

X 't +1 ( X ' X )−1 X t+1 =

[( )( )] ( )
−1
1 1 ... 1 1 669 17 ,4 69 1
669 872 ... 590 1 872 10 ,5 75 880
¿ ( 1 880 12 ,5 75 )⋅ ⋅ ⋅ =
17 , 4 10 ,5 ... 9,3 ... ... ... ... 12 ,5
69 75 ... 62 1 590 9,3 62 75
¿0,0453887

√ √
T
1 1
σ^ εt +1= ∑
19 t=1
ε 2t ¿(1+0 , 0453887 )=
19
⋅47387,05⋅1 ,0453887=51 , 061

Din valorile tabelate ale distribuţiei Student, deducem:

α 0,05
t T −k−1 =t19 =2 , 09

Intervalul de încredere va fi deci:

68
Prob ( 349 , 4−2 , 09⋅51 , 061≤ y t +1 ≤349 , 4 +2 ,09⋅51 ,061 ) =95 %

Prob ( 242,7≤ y t +1 ≤456,1 ) =95 %

Constatăm o abatere de ±106,8 (sau ±30,6% ) faţă de limitele intervalului de încredere.

Aceleaşi rezultate cu privire la model, obţinute prin software-ul STATA sunt următoarele:

. regress Y X1 X2 X3

Source | SS df MS Number of obs = 23

---------+----------------------- F( 3, 19) = 12.42

Model | 92924.1 3 30974.7 Prob > F = 0.0001

Residual | 47387.0 19 2494.05 R-squared = 0.6623

-------------+------------------- Adj R-squared = 0.6089

Total | 140311.1 22 6377.78 Root MSE = 49.941

------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X1 | .264256 .05998 4.41 0.000 .13870 .38981

X2 | -11.065 3.9890 -2.77 0.012 -19.41 -2.715

X3 | 3.1280 1.0717 2.92 0.009 .88485 5.371

_cons | 20.529 98.269 0.21 0.837 -185.1 226.2

------------------------------------------------------------

Pentru a compara intervalul de încredere obţinut pentru regresia multiplă cu intervalele de


încredere obţinute prin regresiile simple, estimăm parametrii celor trei modele simple tot cu
STATA:

. regress Y X1

Source | SS df MS Number of obs = 23

---------+------------------------ F( 1, 21) = 17.05

Model | 62868.5 1 62868.5 Prob > F = 0.0005

Residual | 77442.6 21 3687.74 R-squared = 0.4481

69
---------+------------------------ Adj R-squared = 0.4218

Total | 140311.2 22 6377.78 Root MSE = 60.727

------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

--------+---------------------------------------------------

X1 | .294662 .071365 4.13 0.000 -49.187 .44307

_cons| 82.7220 63.4299 1.30 0.206 -185.15 214.63

------------------------------------------------------------

. regress Y X2

Source | SS df MS Number of obs = 23

---------+------------------------ F( 1, 21) = 3.56

Model | 20358.5 1 20358.5 Prob > F = 0.0729

Residual | 119952.7 21 5712.03 R-squared = 0.1451

---------+------------------------ Adj R-squared = 0.1044

Total | 140311.2 22 6377.78 Root MSE = 75.578

------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X2 | -10.470 5.54617 -1.89 0.073 -22.004 1.0633

_cons | 473.963 73.0252 6.49 0.000 322.098 625.82

------------------------------------------------------------

. regress Y X3

Source | SS df MS Number of obs = 23

---------+------------------------ F( 1, 21) = 1.50

Model | 9347.64 1 9347.64 Prob > F = 0.2344

Residual | 130963.5 21 6236.36 R-squared = 0.0666

---------+------------------------ Adj R-squared = 0.0222

70
Total | 140311.2 22 6377.78 Root MSE = 78.971

------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X3 | 1.94564 1.58919 1.22 0.234 -1.3592 5.2505

_cons | 195.708 118.474 1.65 0.113 -50.672 442.08

------------------------------------------------------------

Fără a detalia calculele, prezentăm comparativ pentru cele trei modele simple şi pentru modelul
multiplu intervalele de încredere (95%) pentru estimarea variabilei endogene.

2
Variabila Variabile R Interval de Eroare limită Eroare limită
endogenă exogene încredere absolută relativă (%)
Y X1 0,4481 (212,4 ; 471,7) 129,7 37,9
Y X2 0,1451 (181,7 ; 504,5) 161,4 47,0
Y X3 0,0666 (173,0 ; 510,3) 168,6 49,4
Y X1 , X2 , X3 0,6623 (242,7 ; 456,1) 106,8 30,6

Se observă o eroare limită mai mică la modelul multiplu şi deci o estimare mai precisă a
2
variabilei endogene. La modelele simple se observă o precizie cu atât mai bună cu cât R este
2
mai mare. Acest fapt este perfect coerent, deoarece atât R cât şi eroare de estimare depind în
bună măsură de varianţa reziduală.

71
Unitatea de curs 3.4
Selecţia variabilelor explicative

Fenomenele economice pe care dorim să le modelăm prin econometrie sunt complexe şi


foarte adesea există un număr foarte mare de factori care determină un rezultat. În acest capitol
prezentăm căteva elemente privind modul de selecţie şi introducere în model al unui număr
rezonabil de variabile dintr-o mulţime mai vastă de posibili factori care ne stau la dispoziţie.

3.4.1. Corelaţia parţială

Presupunem un comerciant care vinde bere în apropierea unui stadion de fotbal.


El observă că vânzările sale sunt corelate puternic cu anotimpurile. Neglijează
însă faptul că vânzările sale sunt în strânsă legătură cu sezonul fotbalistic, el însuşi corelat cu
anotimpurile. Nu putem spune însă că vânzările nu depind de anotimp.

Un alt exemplu: presupunem că dorim să studiem factorii care determină înscrierea sau
nu a unei persoane în sindicat. Constatăm că în care femeile sunt înscrise într-un sindicat este
mult mai mare decât al bărbaţilor şi concluzionăm că sexul are o influenţă foarte puternică.
Concluzia poate fi greşită, deoarece în sectoarele publice unde acţionează de obicei sindicatele,
procentajul de femei este mult mai mare decât al bărbaţilor şi deci acest factor (sectorul de
activitate) influenţează sau nu înscrierea în sindicat, nu sexul.

Sunt multe astfel de exemple, datorate faptului că în multe cazuri variabilele explicative
sunt corelate între ele. Pentru a estima influenţa fiecărui factor în explicarea rezultatului folosim
corelaţia parţială.

Coeficientul de corelaţie liniară simplă măsoară legătura dintre două variabile, atunci
când influenţa celei de a treia este eliminată.

În exemplele de mai sus şi în orice situaţie în care presupunem o variabilă de explicat y

şi două variabile explicative x 1 şi x 2 putem calcula trei coeficienţi de corelaţie liniară simplă.

R yx
 1 - coeficientul de corelaţie liniară între y şi x 1
R yx
 2 - coeficientul de corelaţie liniară între y şi x 2

72
Rx x
 1 2 - coeficientul de corelaţie liniară între x 1 şi x 2
Dacă dorim să eliminăm influenţa unei variabile, calculăm coeficienţii de corelaţie parţială:

R yx . x
 1 2 - coeficient de corelaţie parţială între y şi x 1 , influenţa lui x 2 fiind eliminată
R yx .x
 2 1 - coeficient de corelaţie parţială între y şi x 2 , influenţa lui x 1 fiind eliminată
Dacă generalizăm la cazul mai multor variabile, considerăm coeficientul de corelaţie parţială ca
fiind legătura dintre două variabile atunci când influenţa uneia sau mai multor variabile este
eliminată (Bourbonnais, 1998).

De exemplu, dacă presupunem o variabilă de explicat y şi trei variabile explicative x 1 ,


x 2 şi x 3 putem calcula trei coeficienţi de corelaţie liniară simplă.

R2yx 1 R2yx 2 R2yx 3


, , măsoară varianţa lui y explicată numai de către x 1 , numai de către x 2 şi

respectiv numai
x 3 . Se pot calcula şase coeficienţi de corelaţie parţială de ordinul întâi, respectiv

R2yx . x R2yx . x R2yx .x1 R2yx .x3 R2yx .x R2yx .x 2


1 2 , 1 3 , 2 , 2 , 3 1 , 3 şi trei coeficienţi de corelaţie parţială de ordinul doi:
R2yx . x x R2yx .x 1 x 3 R2yx .x x
1 2 3 , 2 , 3 1 2 .

Cu cât coeficientul de corelaţie parţială este mai mare, cu atât variabila în cauză
contribuie mai mult la explicarea modelului şi respectiv a variabilei dependente. Astfel, corelaţia
parţială ne permite să apreciem necesitatea de a include sau nu o variabilă explicativă în model.

3.4.1.1. Calculul coeficienţilor corelaţiei parţiale folosind t al lui Student

Pentru o analiză mai detaliată şi demonstraţii a se vedea Maddala (1987) sau


Wooldridge (2005). Fie un model cu o variabilă dependentă y şi k variabile
x x x
explicative: x 1 , x 2 ,..., i ,..., k . Pentru variabila i , coeficientul de corelaţie de ordinul k−1 se
poate scrie:

2
2 ti
R yx . x x . . . . xk = 2
i 1 2
t i +(T −k−1 ) (4.1)

2
x
unde ti este t al lui Student corespunzător variabilei i din regresia liniară multiplă.

73
Particularizând pentru trei variabile y , x 1 , x 2 (Wooldridge, 2005) se obţine o relaţie
între coeficienţii de corelaţie simplă şi coeficienţii de corelaţie parţială:

- dacă eliminăm influenţa lui x 2 :

R yx −R yx ¿ R x x
2 1 2 1 2
R yx =
1 . x2
√(1−R 2
yx
2
)(1−Rx x )
2
1 2 (4.2)

- dacă eliminăm influenţa lui x 1 :

R yx −R yx ¿ R x
2 2 1 1 x2
R yx =
2.x1
√(1−R 2
yx
1
)(1−R2x x )
1 2 (4.3)

3.4.1.2. Calculul coeficienţilor corelaţiei parţiale folosind regresia liniară


simplă

Pentru o analiză mai detaliată şi demonstraţii a se vedea Maddala (1987) şi


Dormont (1999). Fie un model cu o variabilă dependentă y şi k variabile
x x x
explicative: x 1 , x 2 ,..., i ,..., k . Pentru variabila i , coeficientul de corelaţie de ordinul k−1 se
poate scrie folosind corelaţia simplă dintre :

 variabila reziduală obţinută prin regresia liniară simplă dintre variabila endogenă y şi
fiecare din celelalte k−1 variabile explicative;

 variabila reziduală obţinută prin regresia liniară simplă dintre variabila


x i şi fiecare din

celelalte k−1 variabile explicative.


x
De exemplu pentru un model cu o variabilă dependentă y şi trei variabile explicative x 1 , x 2 , 3 ,
x
în care vrem să calculăm corelaţia parţială pentru x 2 , eliminând influenţa lui x 1 şi 3 procedăm
astfel:

- estimăm parametrii regresiei:


y= a^ 0 + a^ 1 x 1 + a^ 3 x 3 +ε y , x
1 x3

ε y, x x
- calculăm valorile variabilei reziduale 1 3 :
ε y , x1 x3= y −( a^ 0 + a^ 1 x 1 + a^ 3 x 3 )
74
- estimăm parametrii regresiei:
x 2= b^ 0 + b^ 1 x 1 + b^ 3 x 3 +ε x
2 , x1 x3

εx
- calculăm valorile variabilei reziduale 2 ,x1 x3 :
εx ^ ^ ^
2
, x1 x3 =x2 −( b 0 + b1 x 1 + b3 x 3 )

ε y, x εx
- calculăm coeficientul de corelaţie simplă dintre 1 x3 şi 2 , x1 x3 :
2 2
R yx 2 . x 1 x 3 =R ε y , x x ,ε x , x x
1 3 2 1 3 (4.4)

4.1.3. Relaţii între coeficienţii de corelaţie simplă, multiplă şi parţială

1) Pentru un model cu o variabilă dependentă y şi două variabile explicative x 1

2
R
şi x 2 şi notând y .x1 x2 coeficientul de determinaţie al regresiei, avem:

1−R2y . x x =(1−R 2y .x )(1−R2yx .x )


1 2 1 2 1 (3.5)

(pentru demonstraţie, a se vedea Bourbonnais, 2006 sau MacKinnon şi Davidson, 2004).

Descompunerea arată influenţa fiecărei variabile: a lui x 1 asupra y şi a lui x 2 asupra lui y când

influenţa lui x 1 este eliminată.

x
2) Pentru un model cu o variabilă dependentă y şi trei variabile explicative x 1 , x 2 şi 3
2
R y .x1 x2 x3
şi notând coeficientul de determinaţie al regresiei, avem:

2 2 2 2
1−R y . x x x =(1−R yx )(1−R yx .x )(1−R yx .x x )
1 2 3 1 2 1 3 1 2 (4.6)

x
3) Pentru un model cu o variabilă dependentă y şi patru variabile explicative x 1 , x 2 , 3 şi
2
x 4 şi notând R y .x1 x2 x3 x 4 coeficientul de determinaţie al regresiei, avem:

1−R2y . x 1 x 2 x 3 x 4 =(1−R2yx1 )(1−R2yx 2 . x1 )(1−R2yx 3 . x1 x 2 )(1−R 2yx4 . x 1 x 2 x3 )


(4.7)

Relaţia se poate generaliza pentru oricâte variabile dependente şi în orice ordine de succesiune a
variabilelor.

75
76
3.4.2. Identificarea, consecinţele şi corecţia multicolinearităţii

Prin multicolinearitate se înţelege existenţa unei structuri de corelaţie între


variabilele explicative ale unui model. La polul opus se află ortogonalitatea,
respectiv situaţia în care între variabilele explicative există o corelaţie nulă.

3.4.2.1. Identificarea multicolinearităţii

Testul lui Klein

Acest test se bazează pe comparaţia dintre coeficientul de determinaţie al regresiei


multiple, cu toate variabilele explicative incluse şi coeficienţii de corelaţie liniară simplă dintre
variabilele explicative (pentru mai multe detalii, a se vedea Klein, 1962, Giraud, 1994 sau
Bourbonnais, 2006). Testul nu este propriu-zis un test statistic, nu presupune verificarea unei
ipoteze, ci formulează doar un criteriu de prezumţie a unei eventuale coliniarităţi.

x x
Fie un model cu o variabilă dependentă y şi k variabile explicative: x 1 , x 2 ,..., i ,..., j
2
,...,
x k . Notăm R y k coeficientul de determinaţie al regresiei care include toate variabilele
Rx x x i şi x j ( i, j=1,k ; i≠ j ).
dependente şi i j coeficientul de corelaţie liniară simplă dintre

2 2
Dacă
Ry ¿ Rx x
k i j ∀i , j=1,k ; i≠j atunci există o suspiciune de multicolinearitate între
variabilele dependente.

Testul lui Farrar & Glauber

Acest test se bazează pe matricea coeficienţilor de corelaţie dintre variabilele explicative


(pentru mai multe detalii a se vedea Farrar & Glauber, 1967). Există un risc major de
multicolinearitate dacă determinantul acestei matrici tinde spre 0. Pentru un model cu o variabilă
x
dependentă y şi k variabile explicative x 1 , x 2 ,..., k determinantul se scrie:

1 Rx x . .. R x x
1 2 1 k

det M=|R x 2 x 1 1 . .. R x 2 x k |
. .. .. . . .. . ..
R x x Rx x . .. 1
k 1 k 2 (4.8)

77
Pentru a înţelege mai bine ce se întâmplă în cazurile extreme, luăm un exemplu un o variabilă

dependentă y şi două variabile explicative x 1 şi x 2 :

 pentru o corelaţie perfectă (şi directă) între x 1 şi x 2 , avem:


1 Rx 1 1
x
det M=| |=|
1 2 |=0
Rx x 1 1 1
1 2

 pentru o corelaţie nulă între x 1 şi x 2 , avem:


1 Rx 1 0
det M =| 1 x2
|=| |=1
Rx x 1 0 1
1 2

În general, testăm ipoteza:

H 0 :det M=1
H 1 :det M <1

2
Se calculează o statistică χ calc pe baza datelor din eşantion:

[ 1
]
χ 2calc =− T −1− (2 k +7 ) ⋅ln(det M )
6 (4.9)

unde T reprezintă numărul de observaţii din eşantion, iar k numărul de variabile explicative (fără
2 2
constantă). Farrar & Glauber (1967) au demonstrat că χ calc urmează o distribuţie χ cu
1
k(k−1)
2 grade de libertate.

2 2
χ ≥χ H
 dacă calc (α , k( k+1)/2) atunci ipoteza 0 este respinsă cu un prag de semnificaţie α , există
deci prezumţia de multicoliniaritate;
2 2
 dacă
χ calc < χ ( α , k( k +1) /2) atunci ipoteza H 0 este acceptată cu un prag de semnificaţie α ,
considerăm că variabilele explicative nu sunt corelate (situaţie de ortogonalitate).

3.4.2.2. Consecinţele multicolnearităţii

Problemele pe care le ridică multicolinearitatea sunt numeroase. Amintim doar trei dintre
ele:

78
 în cazul extrem în care multicolinearitatea este maximă, toţi coeficienţii de corelaţie sunt

egali cu 1, deci det( X ' X )=0 şi coeficienţii regresiei nu pot fi estimaţi, iar varianţa lor este
infinită;
 în caz de multicolinearitate oarecare, estimatorii coeficienţilor sunt foarte instabili o
modificare minoră a unei valori a unei variabile poate duce la modificarea importantă a
valorii unui estimator;
 dacă coliniaritatea unor variabile creşte, varianţa estimată a unor coeficienţi va creşte
semnificativ.

3.4.2.3. Corecţia multicolinearităţii

Fără a intra în detalii vom aminti doar două tehnici privind posibile ameliorări în cazul
manifestării situaţiei de multicoliniaritate. Pentru o prezentare mai detaliată, a se vedea: Judge
(1985), Bourbonnais (2006), Dormont (1999) sau Green (2007).

 “Ridge Regression” este o tehnică ce constă în transformarea matricii X ' X într-o matrice
( X ' X +cI ) unde c este o constantă, iar I este matricea unitate. Se cresc astfel valorile din
prima diagonală a matricei, reducându-se efectul multicoliniarităţii (din punct de vedere strict
numeric).
 Creşterea volumului eşantionului. Această metodă este eficientă numai dacă observaţiile
adăugate diferă semnificativ faţă de cele deja existente.
Cele două tehnici amintite sunt strict numerice, ele nu înlătură cauza multicoliniarităţii. Singura
soluţie cu adevărat eficientă este eliminarea unor variabile dacă este probabil ca ele să reprezinte
acelaşi fenomen.

79
4.3. Metode de selecţie a variabilelor din model

În ştiinţele sociale în general şi în economie în particular numărul de variabile


explicative susceptibile de a descrie un fenomen este în general foarte mare.
Teoria economică este în general cea care decide introducerea variabilelor în
model. În lipsa unei teorii economice adecvate există metode strict statistice de selecţie a
variabilelor explicative. Există totuşi riscul ca folosirea acestor metode să conducă la modele ale
căror interpretare economică să lase mult de dorit. Ca principiu general, se încearcă selectarea
unor variabile care să respecte două pricipii: a) să prezinte o corelaţie cât mai puternică cu
variabila endogenă; b) să fie cât mai puţin corelate între ele (Bourbonnais, 1998, Verbeek, 2004).

1) Efectuarea tuturor regresiilor posibile. Presupunem o variabilă dependentă y şi k


x
variabile explicative: x 1 , x 2 ,.., k . Putem efectua astfel:
1
C k=k regresii cu 1 variabilă explicativă

k (k−1 )
C2k=
2 regresii cu 2 variabile explicative

................

k!
C kj=
j!( k− j)! regresii cu j variabile explicative

................

k
C k=1 regresie cu k variabile explicative.

k
În total există 2 −1 regresii posibile dacă avem la dispoziţie k variabile explicative. Soluţia
2
constă în efectuarea tuturor acestor regresii şi reţinerea aceleia pentru care R este cea mai mare.
O problemă este numărul mare de regresii posibile când k creşte. Chiar dacă această problemă ar
fi surmontată, ar fi greu de demonstrat că acel model ales reprezintă cel mai bine fenomenul şi
este în concordanţă cu teoria economică.

2) “Backward Elimination” – eliminarea progresivă. Procedeul constă în a efectua o regresie


cu toate variabilele disponibile şi a elimina succesiv variabilele pentru care t al lui Student este

cel mai mic şi sub pragul critic ales (în general α=0,05 ).

80
3) “Forward Regression” - selecţia progresivă. Într-o primă etapă reţinem variabila pentru

care coeficientul de corelaţie liniară simplă în raport cu y este cel mai mare. Fie
x i acea variabilă

R yx =max R yx ; l=1, k
l
( i l ). În a doua etapă, calculăm coeficienţii de corelaţie parţială (
R yx .x ; j=1 ,k ; j≠i
i j ) şi reţinem variabila cu coeficientul cel mai mare. Continuăm procedeul
până începem să avem variabile nesemnificative (t Student este sub pragul critic ales, în general
α=0,05 ).
4) “Stepwise Regression” – regresia pas cu pas. Este o metodă asemănătoare cu cea
precedentă, cu deosebirea că după introducerea unei noi variabile explicative examinăm valorile
t Student ale fiecărei variabile deja selecţionate şi le eliminăm din model pe cele pentru care t
Student este sub pragul critic.
5) “Stagewise Regression” – regresia etajată. Procedeul ajută la minimizarea
intercorelaţiilor dintre variabilele explicative folosind studiul reziduurilor. Reţinem variabila

pentru care coeficientul de corelaţie liniară simplă în raport cu y este cel mai mare. Fie
x i acea

R yx =max R yx ; l=1, k
l
variabilă ( i l ). Efectuăm regresia simplă în raport cu acea variabilă.

Calculăm apoi coeficienţii de corelaţie liniară simplă dintre variabila reziduală obţinută ε 1 şi
Rε x ; l=1,k ; l≠i
celelalte variabile explicative ( 1 i ). Reţinem pe aceea cu coeficientul cel mai

mare, fie ea
x j ( Rε 1 x j =max
l
R ε x ; l=1 ,k ; l≠i
1 l
). Includem şi această variabilă în model,
extragem o nouă variabilă reziduală cu care calculăm coeficienţii de corelaţie în raport cu
variabilele rămase, etc. Procedeul se opreşte când coeficienţii de corelaţie obţinuţi nu mai diferă
semnificativ de zero.

81
Aplicaţie privind selecţia variabilelor explicative

Folosind baza de date de la exerciţiul precedent, se cere:

1) Calculul coeficienţilor corelaţiei parţiale de ordinul 1 folosind t Student.


2) Calculul coeficienţilor corelaţiei parţiale de ordinul 2 folosind t Student.
3) Calculul coeficienţilor corelaţiei parţiale de ordinul 1 folosind regresia.
4) Calculul coeficienţilor corelaţiei parţiale de ordinul 2 folosind regresia.
1−R2y . x x x =(1−R 2yx )(1−R 2yx .x )(1−R 2yx .x x )
5) Să se verifice relaţia: 1 2 3 1 2 1 3 1 2 .
6) Testul lui Klein pentru prezumţia de coliniaritate.
7) Testul lui Farrar & Glauber.

1) Coeficienţii de ordinul 1.

Efectuăm regresia liniară multiplă a lui y asupra lui x 1 şi x 2 (STATA 9.0):

. regress Y X1 X2
------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X1 | .271857 .070298 3.87 0.001 .12521 .41849

X2 | -7.03360 4.38972 -1.60 0.125 .23791 2.1232

_cons | 193.011 92.0967 2.10 0.049 55.325 385.12

------------------------------------------------------------

Conform formulei (4.1), avem:

2
2 ti
R yx . x x . . . . xk = 2
i 1 2
t i +(T −k−1 )

R2yx . x
Pentru calculul lui 1 2 :

2
2 3 , 87
R yx = =0 , 428
t 1 =3 ,87 şi 1 . x2 2
3 , 87 +(23−2−1)

82
R2yx 2 .x 1
Pentru calculul lui :

2
2 (−1 ,60 )
R yx . x = =0 , 113
t 2=−1 ,60 şi 2 1
(−1 , 60)2 +(23−2−1 )

x
Efectuăm regresia liniară multiplă a lui y asupra lui x 1 şi 3 (STATA 9.0):

. regress Y X1 X3

------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X1 | .298333 .067834 4.40 0.000 .15683 .43983

X3 | 2.09864 1.16159 1.81 0.086 -.32439 4.5217

_cons | -75.4090 106.266 -0.71 0.486 -297.07 146.25

------------------------------------------------------------

R2yx . x
Pentru calculul lui 1 3 :

2
2 4 , 40
R yx . x = =0 , 492
t 1 =4 , 40 şi 1 3 2
4 , 40 +(23−2−1)

R2yx 3 .x1
Pentru calculul lui :

2
2 (1 , 81)
R yx = =0 , 141
t3 =1,81 şi 3 . x1
(1 , 81)2 +(23−2−1 )

x
Efectuăm regresia liniară multiplă a lui y asupra lui x 1 şi 3 (STATA 9.0):

. regress Y X2 X3
------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X2 | -14.6639 5.41071 -2.71 0.013 -25.950 -3.3773

X3 | 3.33302 1.48377 2.25 0.036 .23791 6.4281

_cons | 281.810 108.575 2.60 0.017 55.325 508.29

------------------------------------------------------------
83
R2yx 2 . x 3
Pentru calculul lui :

2
(−2 ,71 )
2
R yx . x = =0 , 269
t 2=−2 , 71 şi 2 3
(−2 , 71)2 +(23−2−1)

R2yx .x 2
Pentru calculul lui 3 :

2
2 (2 , 25)
R yx = =0 ,202
t3 =2 , 25 şi 3. x2
(2, 25 )2 +(23−2−1 )

2) Coeficienţii de ordinul 2.

x
Efectuăm regresia liniară multiplă a lui y asupra lui x 1 , x 2 şi 3 (utilizând STATA 9.0):

. regress Y X1 X2 X3
------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X1 | .264256 .059987 4.41 0.000 .13870 .38981

X2 | -11.0651 3.98909 -2.77 0.012 -19.414 -2.715

X3 | 3.12806 1.07175 2.92 0.009 .88485 5.3712

_cons | 20.5296 98.2693 0.21 0.837 -185.15 226.20

------------------------------------------------------------

Conform formulei (4.1), avem:

2
2 ti
R yx . x x . . . . xk = 2
i 1 2
t i +(T −k−1 )

R2yx1 . x2 x3
Pentru calculul lui :

2
2 4 , 41
R yx1 . x2 x3 = =0 , 506
t1 =4 , 41 şi 2
4 , 41 +(23−3−1)

84
R2yx 2 . x 1 x 3
Pentru calculul lui :

2
2 (−2 , 77)
R yx . x x = =0 ,288
t 2=−2 , 77 şi 2 1 3
(−2 , 77 )2 +(23−3−1)

R2yx . x1 x2
Pentru calculul lui 3 :

2 , 922
R2yx = =0 , 310
t3 =2 , 92 şi 3 . x1 x2
2 , 922 +(23−3−1)

3) Pentru calculul coeficienţilor corelaţiei parţiale de ordinul 1 efectuăm regresiile simple:

2
R yx . x
a) Ex: calculul lui 1 2

 regresia lui y asupra lui x 2 :


. regress Y X2
------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X2 | -10.470 5.54617 -1.89 0.073 -22.004 1.0633

_cons | 473.963 73.0252 6.49 0.000 322.098 625.82

------------------------------------------------------------

Calculăm reziduurile din estimare:

ε y , x = y −( 473 ,963−10 , 47 x 2 )
2

 regresia lui x 1 asupra lui x 2 :


. regress X1 X2
------------------------------------------------------------

X1 | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X2 | -12.643 13.3441 -0.95 0.354 -40.393 15.108

_cons | 1033.45 175.699 5.88 0.000 688.066 1398.8

------------------------------------------------------------

Calculăm reziduurile din estimare:


85
ε x1 , x2=x 1 −(1033 , 45−12 ,643 x 2 )

ε y, x εx , x
 coeficientul de corelaţie liniară simplă dintre 2 şi 1 2

Tabelul 4.1. Reziduurile din cele două estimări

Nr. crt. ε y, x εx , x
2 1 2

1 -128,77 -144,47
2 16,98 -28,71
3 130,77 338,34
4 107,92 57,58
5 59,24 -172,02
6 -8,47 -125,99
7 -0,9 89,19
8 48,07 266,82
9 -40,1 2,22
10 -6,15 -91,05
11 37,68 19,26
12 -128,77 -144,47
13 -71,12 -34,23
14 -34,73 11,79
15 -28,85 -193,1
16 -49,75 18,43
17 28,59 294,73
18 96,58 303,28
19 50,45 185,94
20 23,57 -56,17
21 -26,77 -168,93
22 68,14 -102,55
23 -143,59 -325,88
2 2
Rε ε =0 ,654 R yx 1 . x2 =R ε y , x εx , x =0 , 428
y ,x 2 x 1 , x 2 , 2 1 2

R2yx 2 . x 3
b) Ex: calculul lui


x
regresia lui y asupra lui 3 :
. regress Y X3
------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X3 | 1.94564 1.58919 1.22 0.234 -1.3592 5.2505

_cons | 195.708 118.474 1.65 0.113 -50.672 442.08


86
------------------------------------------------------------

Calculăm reziduurile din estimare:

ε y , x = y−(195 , 708+1 , 94564 x3 )


3


x
regresia lui x 2 asupra lui 3 :
. regress X2 X3
------------------------------------------------------------

X2 | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X3 | .094612 .056167 1.68 0.107 -.022194 .21141

_cons | 5.87168 4.18726 1.40 0.175 -2.83621 14.579

------------------------------------------------------------

Calculăm reziduurile din estimare:

ε x2 , x3 =x2 −(5 , 87168+0 , 094212 x3 )

ε y, x εx , x3
coeficientul de corelaţie liniară simplă dintre 3 şi 2

2 2
Rε ε =−0 ,518 R yx 2 . x 3 =Rε y , x ε x , x =0 , 269
y ,x 3 x 2 , x 3 , 3 2 3

R2yx . x
c) În mod similar se calculează şi ceilalţi coedicienţi de ordinul 1 ai corelaţiei parţiale: 1 3 ,
R2yx R2yx R2yx
2. x 1 , 3 .x 1 , 3 .x 2 . Calculele rămân la latitudinea cititorului.

4) Pentru calculul coeficienţilor corelaţiei parţiale de ordinul 2 efectuăm regresiile cu două


variabile explicative.

R2yx . x x
a) Ex: calculul lui 1 2 3


x
regresia lui y asupra lui x 2 şi 3 :
. regress Y X2 X3
------------------------------------------------------------

Y | Coef. Std.Er. t P>|t| [95% Conf.Interv]

87
---------+--------------------------------------------------

X2 | -14.6639 5.41071 -2.71 0.013 -25.950 -3.3773

X3 | 3.33302 1.48377 2.25 0.036 .23791 6.4281

_cons | 281.810 108.575 2.60 0.017 55.325 508.29

------------------------------------------------------------

Calculăm reziduurile din estimare:

ε y , x2 x3= y −(281 , 81−14 , 6639 x 2 +3 , 33302 x 3 )


x
regresia lui x 1 asupra lui x 2 şi 3 :
. regress X1 X2 X3
------------------------------------------------------------

X1 | Coef. Std.Er. t P>|t| [95% Conf.Interv]

---------+--------------------------------------------------

X2 | -13.6184 14.5544 -0.94 0.361 -43.978 16.741

X3 | .775632 3.99126 0.19 0.848 -7.5500 9.1012

_cons | 988.736 292.060 3.39 0.003 379.50 1597.9

------------------------------------------------------------

Calculăm reziduurile din estimare:

εx , x 2 x3 =x1 −(988 , 736−13 ,6184 x2 +0 , 775632 x 3 )


1

Tabelul 4.2. Reziduurile din cele două estimări

Nr. crt. ε y, x εx , x
2 x3 1 2 x3

1 -93,64 -136,29
2 3,18 -31,92
3 169,57 347,37
4 69,18 48,56
5 15,58 -182,18
6 38,24 -115,12
7 -29,16 82,61
8 38,45 264,58
9 -46,88 0,64
10 -0,01 -89,62
11 -9,82 8,2
12 -76,97 -132,42
88
13 -59,08 -31,43
14 -62,5 5,33
15 4,51 -185,34
16 -25,56 24,06
17 70,24 304,42
18 60,38 294,85
19 77,51 192,23
20 -13,83 -64,87
21 -50,61 -174,48
22 40,31 -109,03
23 -119,08 -320,17

Rε ε =0 , 711 R2yx 1 . x2 x3 =R2ε y , x x ε x , x x =0 ,506


y , x2 x3 x1 , x 2 x3 şi 2 3 1 2 3

b) În mod similar obţinem:

2 2 2 2
R yx 2 . x 1 x 3 =R ε y , x x εx ,x x =0 , 288 R yx 3 . x1 x2 =R ε y ,x x εx ,x x =0 , 310
1 3 2 1 3 , 1 2 3 1 2

Remarcăm că rezultatele sunt similare cu cele obţinute la punctul 2 al problemei, prin testul t
Student.

5) Din calculele anterioare, cunoaştem:

R yx =0 , 669 ⇒ R2yx =0 , 448


1 1

R2yx . x 1 =0 ,113 R2yx . x1 x2 =0 ,310


2 , 3

2 2 2
(1−R yx1 )(1−R yx 2 . x 1 )(1−R yx 3 . x 1 x 2 )=
=(1−0,448)(1−0,113)(1−0,310)=
=0,338
2
⇒ R y . x1 x2 x3 =1−0 , 338=0 , 662

Acelaşi rezultat îl obţinem şi efectuând regresia:

. regress Y X1 X2 X3

Source | SS df MS Number of obs = 23

---------+----------------------- F( 3, 19) = 12.42


89
Model | 92924.1 3 30974.7 Prob > F = 0.0001

Residual | 47387.0 19 2494.05 R-squared = 0.6623

-------------+------------------- Adj R-squared = 0.6089

Total | 140311.1 22 6377.78 Root MSE = 49.941

6) Testul lui Klein

Cunoaştem din calculele anterioare raportul de determinaţie:

2
R =0 ,662

Şi patratele coeficienţilor de corelaţie simplă dintre variabilele explicative:

R2x x =0 , 041 R2x x =0 , 001 R2x x =0 , 119


1 2 , 1 3 , 2 3

2 2
R > R xi x j ∀i , j=1,3 ; i≠j ⇒ nu există prezumţie de coliniaritate conform testului lui Klein.

7) Testul lui Farrar & Glauber

( )(
1 Rx R x1 x3

)
1 x2 1 -0,202 -0,030
M = Rx x 1 R x 2 x 3 = -0,202 1 0,345
2 1

Rx 3 x1 R x3 x 2 1 -0,030 0,345 1

1 -0,202 -0,030
det M=|-0,202 1 0,345 |=0,843
-0,030 0,345 1

1
6 [ ,
]1
χ 2calc =− T −1− (2 k +7 ) ⋅ln(det M ) χ 2calc =− 23−1− (2⋅3+7 ) ⋅ln(0 , 843)
6 [ ]
2
χ calc =3 ,387

2
Din tabelele cu distribuţia χ avem:

90
2 2 2 2
χ (α , k(k+1)/2)= χ (0, 05 ; 6 )=12, 59 . χ calc < χ( 0 , 05; 6) atunci ipoteza
H 0 este acceptată cu un prag de
semnificaţie de 5%, considerăm că variabilele explicative nu sunt corelate (situaţie de
ortogonalitate).

91

S-ar putea să vă placă și