Sunteți pe pagina 1din 224

Econometrie

Conf. univ. dr. Claudiu HERŢELIU

URL: http://www.hertz.ase.ro

Joi, 19 Februarie 2015


Finalitate


Examen scris 


 Activitatea de la seminar: (30% din nota finală); 

 Examen final: (70% din nota finală). 


Tematica (1)
1. Curs organizatoric şi introductiv
2. Modelul unifactorial liniar
3. Generalizarea modelului (multifactorial, neliniar etc.)
4. Teste de semnificaţie
5. Ipotezele MCMMP/ OLS (I)
6. Ipotezele MCMMP (II)
7. Analiză şi prognoză cu modelul de regresie
Tematica (2)
8. Introducere în serii cronologice
9. Staționaritatea seriilor cronologice
10. Modele de tip ARMA
11. Modele cu ecuații simultane
Bibliografie
 Andrei, T., Bourbonnais, R. Econometrie,

Ed. Economică, 2007 
 Andrei, T., Statistică şi Econometrie, Ed. Economică,

2005 
 Pecican, E. Ş. Econometrie, Ed. C. H. Beck, Bucureşti,
2006 
Econometria – definiţie


provine din cuvintele greceşti: „eikonomia” - economie şi 
„metren” - măsură. 

 „experienţa a arătat că fiecare din următoarele 3 puncte de vedere,
al statisticii, al teoriei economice şi al matematicii este o condiţie
necesară, dar nu şi suficientă pentru o înţelegere efectivă a
relaţilor cantitative din economia modernă; unificarea lor este

aceea care asigură eficienţa. Econometria este tocmai această 
unificare.” (R.Frisch, Econometrica) 

 scopul econometriei este acela de a testa o teorie
economică folosind date reale. 
 Econometria poate fi folosită în două moduri, care nu sînt
mutual exclusive: 



 Ca unealtă de previziune i.e. date fiind valori ipotetice ale
anumitor variabile, putem previziona valoarea variabilei de interes. 


 Ca metodă explicatorie i.e. poate fi folosită pentru a confirma


sau infirma o teorie economică. 
Etapele demersului econometric



Delimitarea ipotezelor din teoria economică ce urmează a fi testate 


 Teoria cererii si ofertei 



Formularea matematică a ipotezelor economice 


 P=f(Q), unde f’(Q)<0 



Specificarea modelului econometric 


 P=a+bQ+ε 



Culegerea datelor 


Estimarea parametrilor 


Predicţia pe baza modelului 
 Concluzii şi recomandări: e.g. poate fi ales acel preţ care maximizează
profitul 
Statistică vs Econometrie
 Econometria pleacă de la un model economic, adică există
anumite relaţii a priori acceptate pe baza unui model
economic; aceste relaţii sînt testate folosind date reale. 







 Statistica, de cele mai multe ori, caută anumite corelaţii
între variabile, dar fără a avea la bază o teorie economică. 
Modelul econometric
 Modelul econometric: un model economic formulat astfel
încât parametrii să poată fi estimaţi dacă se face presupunerea
 că modelul este corect. 


Relaţiile statistice pe care se bazează modelul econometric: 
 relaţii de identitate sau deterministe: sunt formulări logice cu privire
 la procesul economic descris (exemplu: VN=VB - I ); 
 relaţii de comportament: au în vedere modificările tradiţiilor, atitudinilor,

înclinaţiilor (sub raportul satisfacţie/efort) (exemplu: C = a + bV ); 
 relaţii tehnologice: restricţiile impuse output-urilor în raport cu input-

urile (exemplu: funcţia Cobb Douglas: Q = I L1- , 0 1); 
 relaţii instituţionale: conform unor reglementări impuse de
lege (exemplu:amortizarea, impozitul pe venit etc.). 
Variabile şi date statistice


Variabilele economice determină structura modelului econometric: 

 endogene: variabile determinate în cadrul sistemului; 
 exogene: variabile determinate în afara sistemului, despre care

modelul econometric nu are nimic de spus. 


Tipuri de date: modalitatea de observare a fenomenelor şi proceselor 

 date de tip profil (cross-sectional data) 
 "tăieturi informaţionale" efectuate într-o populaţie la un moment dat, "tăieturi" care

sunt de tip transversal, în raport cu axa timpului. 

 starea pe care o au la un moment dat unităţile populaţiei statistice. 

 date de tip serii de timp (serii cronologice) 
 reprezintă "secţiuni informaţionale" de-a lungul axei timpului, de-a lungul evoluţiei;

adică sunt secţiuni longitudinale în raport cu axa timpului. 

 date de tip panel 

 sunt combinaţii, mixturi, ale datelor de tip profil şi datelor de tipul seriilor de timp. 
 "tăieturi informaţionale mixte" transversale şi logitudinale, în raport cu axa timpului.
Caracteristica esenţială a acestor date este simultaneitatea. 
Modelarea economică

X S Y
 Modelele deterministe: y = f(x) (de exemplu: Q = wL) se utilizează frecvent în
practica economică în analiza pe factori a variaţiei, în timp sau spaţiu, a
fenomenelor social economice. 


 Modelul econometric descrie legătura statistică sau stochastică dintre intrările
sistemului - factorii de influenţă X - şi ieşirile acestuia, variabilele rezultative
Y: Y = f(X)+U 
Tipologia modelelor econometrice

1. după numărul factorilor luaţi în considerare


 modele unifactoriale: se fundamentează pe ipoteza că în rândul factorilor de
influenţă ai variabilei rezultative y există un factor determinant x, ceilalţi
factori cu excepţia acestuia având o influenţă întâmplătoare (exprimată prin
intermediul variabilei reziduale u) sau fiind invariabili în perioada analizată 
y = f(x)+u
 modele multifactoriale: elimină deficienţa modelului unifactorial, însă
trebuie ca numărul factorilor luaţi în considerare să nu fie foarte mare pentru
a nu fi mult prea complex, dificil de estimat etc. 
y = f(x1,x2,...,xp)+u
2. după forma legăturii dintre variabila rezultativă şi variabilele cauză

 modele liniare: dacă legătura este liniară 
 modele neliniare: dacă legătura este neliniară 
Tipologia modelelor econometrice
3. după includerea factorului timp în model
 modele statice: dependenţa variabilei endogene y faţă de valorile
variabilei exogene xj se realizează în aceeaşi perioadă de timp: 
y = f(x1t,...,xjt,...,xkt) + ut


modele dinamice: 
 introducerea variabilei timp ca o variabilă explicativă 
y = f(xt,t) + ut
 autoregresive : variabila rezultativă cu valori decalate este una din
variabilele explicative 
y = f(xt,yt-k) + ut
 model cu decalaj: variabila explicativă x îşi exercită influenţa asupra
 variaţiei variabilei rezultative pe mai multe perioade de timp: 
y = f(xt,xt-1,... xt-k) + ut
Tipologia modelelor econometrice

4. Numărul de ecuaţii din model


 modele cu o singură ecuaţie: toate modelele prezentate anterior 

 modele cu ecuaţii multiple: sunt formate dintr-un sistem de ecuaţii 

 Forma structurală a unui model cu ecuaţii multiple este: 
Y bY ... b Y c X c X ... c X U
1 12 2 1n n 11 1 12 2 1m m 1
b21Y1 Y2 ... b2nYn c21 X1 c22 X 2 ... c2m X m U 2

bY b Y ... Y c X c X ... c X U
n1 1 n2 2 n n1 1 n2 2 nm m n

Yi ,i 1,n variabile rezultative sau endogene


X j , j 1, m variabile explicative sau exogene
Sintetizarea datelor primare
 sinteza tendinţei centrale
n
x
 media: x i 1 ki
nk 1

 sinteza numericăa variabilităţii


 dispersia variabilei xi este si2 1 n (xki x i )2
n 1k 1
 abaterea standard sau abaterea medie pătratică: sisi2
 sinteza numerică a legăturii de tip liniar 

 covarianţa: exprimarea variaţiilor simultane a două variabile liniar dependente 
1 n
sij (xki x i )(xkj x j)
n 1k 1

Dacă cele două variabile coincid sii=si 2 s


ij
r
 coeficientul de corelaţie Pearson ij
si s j [ 1,1]
Rafinarea datelor

 Curățarea datelor (purificarea datelor) primare


este necesară pentru asigurarea: consistenţei;

relevanţei; comparabilităţii 


Se realizează prin: 
 recalcularea datelor după metodologii care au ieşire

date comparabile; 

 interpolare sau completarea datelor omise; 
 extrapolarea: completarea datelor omise la capetele

seriilor de timp; 
 ajustarea datelor, netezirea datelor. 
REGRESIE SI CORELATIE
LINIARA
Joi, 26 Februarie 2015
1
Regresia – scurt istoric al termenului

 Sir Francis Galton(1822-1911) – spirit enciclopedic al


perioadei victoriene, fiind cel care a introdus termenii de regresie
 şi corelaţie statistică 
 Originea regresiei ca metodă statistică se află în studiile sale de
 genetică aplicată în studiul plantelor- 1877 
 Plantînd boabe dintr-un anumit soi de mazăre dulce a observat că
există o legătură liniară între diametrele acestor boabe şi
diametrele boabelor recoltate de la noile plante. El a numit iniţial
panta acestei drepte “coefficient of reversion”, schimbîndu-i apoi
 numele în “coefficient of regression”. 
 Termenul de regresie provine de la descoperirile sale în domeniul
eredităţii: în general, progeniturile indivizilor geniali au abilităţi
care îi aşază mai degrabă la nivelul mediei; de asemenea,
înalţimea copiilor proveniţi din taţi foarte înalţi se apropie mai
mult de înălţimea medie decît înălţimea taţilor. 

2
Modele

 Un model este o reprezentare a unui anumit


 fenomen 
 Model matematic - o reprezentare

 matematică a unui fenomen 


 De cele mai multe ori un model descrie
legăturile existente între două sau mai multe
 variabile 
 În general, sînt două clase de modele: 


 Modele deterministe 
 Modele probabiliste 
3
Modele Modele probabiliste
deterministe Componenta
Exprimăo relaţie deterministă
exactă între Componenta aleatoare
variabile Eroarea de previziune
Teoretic, eroarea este nenulă
de previziune este Componenta aleatoare
nulă poate fi datorată
factorilor obiectivi, ce
Exemplu: nu sînt incluşi în model
Principiul al doilea al Exemplu: Volumul
mecanicii vînzărilor=10 *
newtoniene: Cheltuielile cu
publicitatea +
F = m.a
Componenta aleatoare
4
Tipuri de modele probabiliste

ProbabilisticModele

probabilisteModels

Modele de Modele de Alte


Regression C rr lation Other
Other

Models Models Models


modele
regresie corelatie Models

5
Regresia – metodă de modelare a legăturilor
dintre variabile

 În general, orice fenomen este


rezultatul acţiunii unuia sau mai multor
 factori 
 Exprimarea matematică: 

Y f ( X 1 , ..., X n )

Variabila Variabile Variabila


dependentă independente reziduală
(variabila (variabile
endogenă) exogene/explicative)
6
Exemplu: Legea lui Keynes privind legătura
dintre venit şi consum



Suma cheltuită pentru consum depinde de: 

mărimea venitului pe de o parte 
alte obiective în funcţie de circumstanţe (de
 exemplu investiţiile) 

alte nevoi subiective 
 „O persoană este dispusă de regulă şi în medie să îşi
crească consumul pe măsura creşterii venitului dar nu
în aceeaşi măsură” 
d C
0 d V 1

Modelul de regresie:C= + V+, unde 0< <1 .

7
Clasificarea modelelor de regresie

1 Variabilă Modele 2+ Variabile


explicativă de regresie explicative

Simple Multiple

Non- Non-
Linear Linear
Linear Linear

8
Tipuri de modele de regresie
Legătură liniară directă Legătură neliniară

Legătură liniară inversă Absenţa vreunei legături

9
Modelul de regresie liniară simplă

10
Exemplu
practic
 Există o legătură între
suprafaţa unor
apartamente din zona
centrală şi preţul de
 închiriere a acestora? 
 Selectăm aleator 25 de
astfel de apartamente la
care urmărim valorile celor
două variabile X –
suprafaţa(m2) şi Y – chiria
lunară(RON). 

11
Regresia folosind EXCEL
Accesăm meniul TOOLS>DATA ANALYSIS>REGRESSION

12
Regresia folosind EXCEL
Selectăm valorile variabilelor

13
14
Corelograma(Scatter plot)
Graficul punctelor de coordonate (Xi,Yi), i=1,n.

2500

2000
Chiria(RON)

1500

1000

500

0
0 50 100 150 200 250
Suprafata(m2)
15
Modelul de regresie liniară simplă
 Pe baza corelogramei este rezonabil să presupunem că
media variabilei Y depinde de X printr-o relaţie liniară: 





 Atunci modelul de regresie liniară simplă este dat de
relaţia următoare: 
Y intercept (termenul constant)
Variabila
de
Y X perturbaţie
i 0 1 i i
Variabila
Variabila independentă
dependentă
(răspuns) Panta dreptei de (explicativă) 16

regresie
Media şi dispersia variabilei dependente

Dacă presupunem că media şi dispersia lui sînt 0 ş i 2,


atunci media lui Y pentru o valoare particulară a lui X
este dată de relaţia:

Dispersia lui Y pentru o valoare particulară a lui


X este dată de relaţia:

17
• La nivelul populaţiei regresia se reduce la
exprimarea mediei condiţionate a lui Y:

unde 1 are semnificaţia unui coeficient de


elasticitate: arată modificarea lui Y la o modificare
cu o unitate a lui x.
De asemenea, variabilitatea lui Y pentru o
valoare particulară x este determinată de dispersia
variabilei reziduale, 2.
Există o distribuţie a valorilor lui Y pentru
fiecare x şi dispersia acestei distribuţii este constantă
pentru
orice x. 18
Distribuţia condiţionată a lui Y

Dreapta de regresie
Y

X
19
Modelul de regresie liniară la
nivelul populaţiei
Y Y X Valoarea
i 0 1 i i observată

i = Eroarea

X
YX 0 1 i
(E(Y))
X
Valoarea 20

observată
Modelul de regresie liniară la
nivelul eşantionului
ˆ ˆ ˆ
Y i 0 1 Xi
Yi = Valoarea estimată a lui Y pentru observaţia i
Xi = Valoarea lui X pentru observaţia i
ˆ = Estimatorul termenului liber 0
0
ˆ = Estimatorul pantei 1
21
1
Estimarea parametrilor modelului de regresie
Metoda celor mai mici pătrate(M.C.M.M.P.)
–Ordinary Least Squares(OLS sau LS)
Presupunem căavemnperechi de observaţii

(x1,y1), (x2, y2), …, (xn, yn).


Ideea este săminimizăm distanţa dintre valorile
estimate şi valorilen reale ˆ 2 n 2
LYi Yi ˆi min
Ne reamintim căi1 i1 deci
ˆ ˆ ˆ
Y
i 0 1xi
22
Ilustrare grafică

LS minimizează n ˆi2 ˆ12 ˆ22 ˆ32 ˆ42


i1
Y
Y2 01 X 2 2
^ ^
2 4

^
1 ^3
Yi 01X i
X 23
 Condiţiile de minim: 




















 Simplificînd, obţinem sistemul de ecuaţii
normale 

24
Estimatorii modelului de regresie

b1 cov( X ,Y )
s 2x
b 0 y b1 x

25
Notaţii

 Valoarea estimată: 

 Valoarea reziduală(reziduul): 

26
Estimatorul dispersiei modelului

 Dacă notăm suma pătratelor erorilor de


regresie 







atunci un estimator al varianţei variabilei
reziduale este 

27
Proprietăţile estimatorilor modelului de regresie
ˆ ˆ
şi sînt estimatori nedeplasaţi ai parametrilor şi
0 1 0 1
ˆ ˆ
E( ) şi E( )
0 0 1 1

-Dispersiile celor doi estimatori sînt date de relaţiile


ˆ 2 1 x 2
V( 0 )
S
n xx

V( )
ˆ 2
1 S
xx

unde S xx n (xi x)2 şi 2


este dispersia variabilei reziduale
i1
ˆ ˆ
-Estimatorii şi urmează o distribuţie normală
0 1
28
Distribuţia estimatorului pantei de regresie

Y Sample 1 Line
All Possible
Sample Slopes
Sample 2 Line
 Sample 1: 2.5 
Population Line 
 Sample 2: 1.6 
X 
 Sample 3: 1.8 

 Sample 4: 2.1 

Sampling Distribution
::
S^ Very large number of
1 sample slopes

^
29
1 1
Eroarea standard a estimatorilor
n

ei 2
Întrucît varianţa reziduală 2 se estimează prin i1
putem avea o estimare
2
n 2
ˆ a erorii standard a celor doi estimatori:

ˆ ˆ S
2

-SE( ) V( 1) xx ˆ2
1 S
df n 2 xx

2 1 x2
ˆ
ˆ V( 0 ) n S
xx 2 1 x2
-SE( 0 ) ˆ
S
df n 2 n xx

Erorile standard vor fi folosite la testarea semnificaţiei parametrilor


modelului de regresie 30
Intervale de încredere pentru parametrii
modelului
Pentru termenul liber(intercept)
ˆ
ˆ t SE (
ˆ ) ˆ t
SE( )
0 / 2, n 2 0 0 0 / 2, n 2 0

ˆ t 2 1 x2 ˆ 2 1 x2
0 / 2, n 2 ˆ S 0 0 t / 2, n 2 ˆ S
n xx
n xx

Pentru panta dreptei de regresie(slope)


ˆ ˆ ˆ ˆ
t SE ( ) t SE( )
1 / 2, n 2 1 1 1 / 2, n 2 1

2 2
ˆ t 2 ˆ 2
1 / 2, n 2 ˆ x
1 1 t / 2, n 2 ˆ x

S S
xx xx

unde n e i2 este estimatorul dispersiei modelului.


i 1
ˆ2
n 2
31
Teorema Gauss-Markov
 Estimatorii obţinuţi prin metoda celor mai mici
pătrate sînt B.L.U.E. i.e. orice alt estimator liniar
are o dispersie mai mare decît cei obţinuţi prin 
MCMMP.
Conform OLS, estimatorul pantei este o combinaţie liniară de valorile variabilei dependente:
n n n n
ˆ ( yi y )(xi x ) yi ( xi x ) y (xi x ) yi ( xi x ) n

1
i1 i1 i1 i1 y
n n n i i
2 2 2 i1
(xi x) (xi x) (xi x)
i1 i1 i1

' n
qy n n n
q
Fie i i0 qi 1 qi x i i i un alt estimator liniar.
i1 i1 i1 i1

Pentru ca E( ' ) 1, e necesar ca n


qi 0 şi n
qi xi 1.
i1 i1

Rezultă ' n
qi i 1, deci varianţa sa este V( ' ) 2 n
qi2.
i1 i1

Fie vi q i i , atunci qi i vi şi avem V( ' ) 2 n


( i vi )2
i1

n 2 2 2 n 2 2 2 n 2
ˆ
2 ( i 2 i vi vi ) (i vi ) i V( 1).***QED 32
i1 i1 i1
Exemplu-chiria ca funcţie de suprafaţă

 Panta dreptei de regresie este pozitivă, deci există


o legătură directă între chirie şi suprafaţa
 apartamentelor. 
 În plus, dacă chiria creşte cu o unitate(1 m2) ,chiria
 va creşte cu 10.640 lei. 
 Doar panta dreptei de regresie este semnifcativ
 diferită de zero. 
 P-value – probabilitatea ipotezei ca parametrul
estimat să fie egal cu zero; dacă P-value este mai 
mic decît pragul de semnificaţie
atunci respingem
această ipoteză.
33
Regresie şi corelaţie (2)

Joi, 5 martie 2015


1
Analiza varianţei pentru modelul de regresie

 Dacă între X şi Y nu există nici o legătură,


atunci putem face predicţii privind valoarea
 medie a lui Y pentru orice valoare a lui X 
 Dacă există o legătură între X şi Y, în ce măsură
cunoaşterea valorilor lui X poate explica
abaterea variabilei dependente de la media sa? 
Abaterea totala = abaterea explicata +
Abaterea reziduala

ˆ ˆ
(Yi - Y) (Yi - Y) (Yi - Yi )
2
Descompunerea variaţiei

Y
SSE = (Y - Y )2
i i
_
SST = (Y - Y)2
i

_
SSR = (Yi - Y)2 _
Y

X
X
X i
3
ANOVA pentru regresie
2 ˆ 2 ˆ 2
(Yi Y) (Yi Y) (Yi Yi )
SST = SSR + SSE
SST = Total Sum of Squares
_
Măsoară variaţia valorilor observate Yi în jurul mediei Y
SSR = Regression Sum of Squares
Măsoară variaţia explicată de modelul de regresie

SSE = Error Sum of Squares


Măsoară variaţia ce poate fi atribuită altor factori, diferiţi
de variabila explicativă X 4
Excel Output (selecţie)

5
2
Coeficientul de determinaţie R
Este o măsurăa proporţiei varianţei explicate de
model n n

(y
ˆ y)2 e
2
i i
R2 SSR i1 1 i1 0,1
SST ( yi y ) 2 ( yi y)2
i i

 R2 este afectat de creşterea numărului de


parametri; de aceea pentru modele cu multi
parametri se calculează R2 ajustat, care are
aceeaşi interpretare. 

R
2 2 n1 n1
adj 1 (1 R ) 1 ,1
n k 1 n k 1
6
Exemplu-chiria ca funcţie de suprafaţă

•Modelul explică 72.23% din variaţia chiriei pentru apartamentele


din zona centrală

Standard Error :
n
ei2
ˆ i1

n 2 7
Observaţii

2
 R este adesea folosit pentru a alege cel
mai bun model din punctul de vedere al

varianţei explicate. 



 Comparaţiile de acest fel trebuie făcute
între modele de aceeaşi natură. 

8
Foarte important!!
Pentru modele de regresie fărătermen liber, de tipul
yx
R2 nu mai are semnificaţia de proporţie a varianţei
explicate.
Exemplu: considerăm douăastfel de modele
y x
1 1 1 1 , unde y2 i y1işi x2 i x1i

y2 2 x2 2

 Deşi ar părea că modelul al doilea este mai performant, nu


sînt argumente pentru a susţine această ipoteză 
9
Coeficientul de determinaţie şi coeficientul
de corelaţie liniară

Y R2 = 1, r = +1 Y R2 = 1,^ r = -1
Yi = b0 + b1Xi
^
i = b0 + b1Xi
X X
2 2
YR = .8, r = +0.9 Y R = 0, r = 0
^ ^
i = b 0 + b 1X i Yi = b0 + b1Xi
X X
10
Tabelul ANOVA

Source of Sum of Squares df Mean F


Variation Square

Regression SSR n
( yˆi y)2 k- 1 MSR= SSR MSR
i1 k 1 MSE
SSE
Error SSE n
( yi yˆi )2 n
ei 2 n- k MSE=
i1 i1 n k
2 SST
Total SST( yi y) n- 1
i n 1

Testul k-numărul de parametri ai


modelului

este folosit la verificarea validităţ ii modelului. Un model este valid dacă proporţia
varianţ ei explicate prin model este semnificativă. Ipoteza nulă pentru testul F in cazul
acesta este cea de model nevalid.
11
Excel Output

SUMMARY OUTPUT

Regression Statistics

Multiple R 0.85

R Square 0.72

Adjusted R Square 0.71

Standard Error 194.70

Observations 25

ANOVA
df SS MS F Significance F

Regression 1 2267827.07 2267827.07 59.82347359 0.00

Residual 23 871898.93 37908.64913

Total 24 3139726

12
Regresie şi corelaţie (3)

Joi, 12 martie 2015

1
REGRESIA MULTIPLĂ

2
Regresie multipla
Coeficienti
de regresie
Variabila eroare

y = 0 + 1x1+ 2x2 + …+ kxk +

Variabila
Variabile Independente
Dependenta

3
Forma generală a modelului

Modelul regresiei multiple se prezintă sub forma


ecuaţiei:
yi = 1x1i + 2 x2i + … + kxki + i.

În cazul acestei ecuaţii de regresie se identifică urmãtoarele


variabilele:
– grupul de variabile exogene sau independente, ce se
reprezintă sub forma variabilei vectoriale X = (X1, X2, …, Xk ).

Pentru fiecare moment/ caz, ce va fi simbolizat prin


indicele t , vom avea seria de valori x1t, x2t, …, xkt; pentru fiecare
variabilă ansamblul datele înregistrate pentru n momente vor fi
reprezentate prin vectorul coloană xi cu i=1,…k. 4
Forma generală matriceală a modelului

x11
k
y1 x 1

x 1 1k 1
2
x
Y , X 2 , ,
k
y n x1n n
xk

Y=X +

5
Estimarea parametrilor prin MCMMP

Minimizăm suma pătratelor erorilor de ajustare:


ˆ ˆ ˆ ˆ ˆ
S ( )ei2 (yi 1 x1i 2 x 2i ... k xki ) 2 ( yi 2
'xi) .
i i i

Vom folosi scrierea matriceală:


e1
ˆ
S( )n e i2( e 1 e2 ...en )e2 e 'e
i 1 .
en
ˆ
Minimizarea S se realizează în raport cu parametrii modelului de regresie . Astfel,
vom avea:
ˆ ˆ ˆ ˆ ˆ ˆ
[min] S ( ) e ' e (Y X )'(Y X ) Y ' Y 2 ' X ' Y 'X'X .
ˆ
ˆ ' X 'Y
În dezvoltarea ultimei expresii s-a luat în considerare faptul că este un scalar
real.

6
Estimarea parametrilor prin MCMMP
ˆ
Derivînd în raport cu avem:
ˆ ˆ ˆ ˆ ˆ ˆ
S( ) [Y 'Y 2 ' X 'Y 'X'X ] [ 'X'X ]
ˆ ˆ ˆ ˆ
2X 'Y 2X 'Y 2X ' X 0.
Din ipoteza V matricea X’X este nesingulară, deci estimatorul vectorului parametrilor
modelului de regresie multiplă este:
ˆ 1
( X ' X ) X 'Y.
Cum
S( ˆ) ˆ S( ˆ )
ˆ 2X'Y 2X'X atunci 2ˆ ˆ ' 2X' X .
ˆ
Ultima expresie este pozitiv definită, deci soluţia este optimă.
*Pentru mai multe detalii vezi Green, Econometric Analysis, Cap.2 şi 6.
7
Interpretarea parametrilor
Pentru a interpreta semnificaţia parametrilor modelului de regresie considerăm
modelul:
ˆ ˆ ˆ
yi 1x1i 2 x2i ... k xki.
Atunci, dacă x2, … xk sunt constante se obţine următoarea egalitate:
ˆ
yi 1 x1i ,
Rezolvând ecuaţia de mai sus se obţine că estimatorul parametrului 1 este rata
marginală de substituţie a variabilei endogene în raport cu variabila exogenă X1:
yi
ˆ 1 x1i .
ˆ
Coeficientul 1 arată cu câte unităţi creşte sau se micşorează
caracteristica Y, dacă caracteristica X1 se modifică cu x1i unităţi,
în condiţiile în care celelalte caracteristici
X2, …, Xp rămân constante.
În cazul în care variabilele endogene sunt necorelate, atunci
semnul coeficientului fiecărei variabile din modelul multiplu de
regresie coincide cu semnul coeficientului din modelul simplu de
regresie de analiză al variabilei endogene funcţie de fiecare
8
variabilă exogenă în parte.
Exemplu: Stabilirea locatiei unui hotel (1)

 O companie hotelieră doreşte construirea unui


 nou hotel. 
 Managementul doreşte să stabilească locaţia
 probabil cea mai profitabilă. 
 Profitabilitatea unei locatii depinde de factori
 cum sunt: 

 Competiţia 
 Cunoaşterea pieţei 

 Generatori de cerere 

 Elemente de demografie 

Calitatea elementelor fizice din zonă 9


Exemplu (2)

Profitabilitatea Marja

Cunoaşterea
Competiţia Clienţii Comunitatea Elemente fizice
pieţei

Camere Apropiere Spaţii Gară, Venitul Dist. Oraş


de birouri aeroport etc.
Numarul de Venitul
Distanta pana median al Distanţa până în centru
hoteluri/ moteluri/
la cel mai apropiat gospodariilor
pensiuni/ camere
pe o rază de 5 km hotel
10
Exemplu (3)
 Se folosesc date pentru un esantion de
100 hoteluri care apartin aceluiaşi lanţ, si
se foloseste urmatorul model : 
Marja = Camere Apropiere Birouri G/Aerop. +
5Venit + 6Dist_oraş+

Hotel Marja Camere Apropiere Birouri G/Aerop. Venit Dist_oras


1 55,5 3203 0,1 549 8 37 12,1
2 33,8 2810 1,5 496 17,5 39 0,4
3 49 2890 1,9 254 20 39 12,2
4 31,9 3422 1 434 15,5 36 2,7
5 57,4 2687 3,4 678 15,5 32 7,9
6 49 3759 1,4 635 19 41 4
11
Exemplu (4)

Regression Statistics
Multiple R 0,724611
R Square 0,525062
Adjusted R 0,49442 Marja = 72.455 - 0.008*Camere -1.646*Apropiere
Standard E 14. 0.02*Birouri +0.212*G/Aerop
Observatio 0.413*Venit + 0.225*Dist_oraş
ANOVA
df SS MS F gnificanceF
Regressio 6 3123,832 520,6387 17,13581 3,03E-13
Residual 93 2825,626 30,38307
Total 99 5949,458

s andard Err t Stat P-value Lower 95%Upper 95%


Intercept 7,893104 9,179483 1,11E-14 56,78049 88,12874
Camere 0,001255 -6,06871 2,77E-08 -0,01011 -0,00513
Apropiere 0,632837 -2,60136 0,010803 -2,90292 -0,38955
Birouri 0,00341 5,795594 9,24E-08 0,012993 0,026538
G/Aerop. 0,133428 1,587246 0,115851 -0,05318 0,476744
Venit 0,139552 -2,96034 0,003899 -0,69025 -0,136 12
Dist_oras 0,178709 1,260475 0,210651 -0,12962 0,580138
Exemplu (5)
• Utilizarea modelului
 Predictie pentru un hotel cu urmatoarele
 caracteristici: 

 3815 camere în raza de 5 km, 

 Cel mai apropiat competitor la 3.4 km, 

 476 sute de metri patrati de birouri, 

 24,500 flux gara/ aeroport, 

 $39,000 venitul median al gospodăriilor, 
 3.6 km distanţă de centrul oraşului. 

Marja = 72.455 - 0.008(3815) -1.646(3.4) + 0.02(476)


+0.212(24.5) - 0.413(39) + 0.225(3.6) = 37.1%
13
Variabile calitative
 În multe situaţii din viaţa reală, una sau mai
 multe variabile independente sunt calitative. 
 O variantă de includere a variabilelor
calitative în modelele de regresie este prin
 utilizarea variabilelor indicator (“dummy”). 
 O variabilă indicator (I) poat sa ia una dintre
cele două valori (binare), “zero” sau “unu”. 

1 dacă temperatura a fost sub 10o


I= 0 dacă temperatura a fost de 10o sau mai mult
ţe

14
Exemplu (1)
 Consideram ca pretul este determinat si
 de culoarea masinii. 
 Consideram trei culori : 

 Alb 

Argintiu
I = 1 daca culoarea este alba
1
Alte culori 0 pentru alta culoare
I = 1 daca culoarea este argintie
2
0 pentru alta culoare

15
Exemplu (2)

  Folosim modelul 
y = 0 + 1(Kilometraj) + 2I1 + 3I2 + 

Pret Kilometraj I-1 I-2


5318 37388 1 0 Alba
5061 44758 1 0
5008 45833 0 0 Alta culoare
5795 30862 0 0
5784 31705 0 1
5359 34010 0 1 Argintie
. . . .
16
. . . .
Exemplu (3)
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.835482
R Square 0.69803
Adjusted R 0.688594
Standard E 142.271
Observatio 100

ANOVA
df SS MS F gnificance F
Regressio 3 4491749 1497250 73.97095 7.22E-25
Residual 96 1943141 20241.05
Total 99 6434890

Coefficients andard Err t Stat P-value Lower 95%Upper 95%


Intercept 6350.323 92.16653 68.90053 1.5E-83 6167.374 6533.272
Odometer -0.02777 0.002369 -11.7242 3.14E-20 -0.03247 -0.02307
I-1 45.24098 34.08443 1.327321 0.187551 -22.4161 112.8981 17
I-2 147.738 38.18499 3.869007 0.000199 71.94135 223.5347
Etapele realizării unui model de regresie multiplă (1)
I. Identificarea variabilelor modelului de regresie şi scrierea
acestuia reprezintă una din etapele importante ale analizei economice prin
intermediul modelelor de regresie.
Pentru rezolvarea acestei probleme vom avea în vedere, pe de o parte,
modelele folosite în teoria economică, iar pe de altă parte, datele disponibile
pentru determinarea caracteristicilor modelului de regresie. În cazul în care
modelul de regresie este neliniar, atunci va trebui să stabilim strategia de estimare
a parametrilor;

II. Definirea ipotezelor modelului clasic de regresie.


Pentru testarea valabilităţii ipotezelor pe care se fundamentează modelul
clasic se vor folosi diverse teste statistice. În funcţie de ipotezele ce sunt
satisfăcute de modelul de regresie vom aplica anumite metode pentru estimarea
parametrilor;
18
Etapele realizării unui model de regresie multiplă (2)

III. Estimarea parametrilor şi validarea modelului de regresie. Pentru


modelul clasic de regresie, care va fi prezentat în acest capitol, vom estima parametrii
folosind metoda celor mai mici pătrate (MCMMP), precum şi metoda verosimilităţii
maxime.

IV. Pentru variabilele exogene ale modelului vom determina matricea de


corelaţie. Prin intermediul acestui instrument vom primi un prim semnal în legătură cu
prezenţa fenomenului de corelaţie în rândul variabilelor exogene;

V. Pe baza modelului estimat se vor efectua diverse previziuni pentru variabila


endogenă. Vom recurge prin intermediul modelului de regresie la estimări punctuale
sau la cele prin intervale de încredere, stabilind în acest sens valorile variabilelor
exogene şi un prag de încredere în garantarea rezultatelor.
19
Liniarizarea modelelor de regresie


 În general modelele pot fi linearizate. 
  y=a+bx 
 y=a+bz, z=ex 
  y=a+br, r=1/x 
 y=a+bq, q=ln(x) 

y= xβ ln(y)= + ln(x)
 Forma generală: f(yi)= + g(xi)+ i 

1
Contra exemplu: y nu poate fi
x
transformat în model liniar.

20
Modele ce pot fi linearizate

Y
1000

a b
1 a be x
x
800

600

a bx
400

200

a b ln x

0
-1 0 . 003 0 . 008 0 . 013 0 . 018 0 . 023 0 . 0 28 0 . 033 0 . 0 38 0 . 043 0 . 04 8 0 . 053 0 . 05 8 0 . 063 0 . 068

X
200

400

21
Modele particulare (1)

Cazul 1. Modelul liniar de regresie centrat în medie este


reprezentat prin următoarea ecuaţie:
zi = *1u1t+ *2uzt+ …+ *kukt+ t,
unde E(Z) = 0 şi E(Uj) = 0, j = 1, p .
În cazul acestui model, planul de regresie trece prin originea
reperului.
Cazul 2. Modelul liniar centrat redus va avea ecuaţia de
regresie
zi = **1u1t+ **2 uzt+ …+ **kukt+ t,
unde E(Z) = 0 , Var (Z) = 1,E (Ut) = 0 şi Var (Ut ) = 1.

22
Modele particulare (2)
Între parametrii modelului iniţial de regresie şi cele doua
modele obţinute prin transformări de date există următoarele
relaţii mai importante:
j * j;
y
j **j.
xi

– pentru a obţine modelul centrat vom utiliza


următoarele transformările de date:
zt yt y şi u jt x jt x j ;
– pentru transformarea modelului iniţial de regresie într-un
model centrat redus folosim transformările următoare:
x
y t
y jt xj
Zt y si u jt .
j

unde j reprezintă abaterea medie standard a variabilei Xj.


23
Modele particulare (3)
Coeficienţii de corelaţie parţială
Prin modul de definire modelul centrat redus permite estimarea
parametrilor şi pe baza altor date decât cele necesare în cazul
modelului normal.
Definim coeficienţii de corelaţie ai variabilelor luate doua câte
două după cum urmează:
r cov( y, xi ) cov(xi , x j ) .
y/x r
i σy σx şi xi / xj σ σ
xi xj
i
Pentru modelul centrat, luând în considerare proprietaţile matricilor
se obţin următoarele:
yx x x
t it it jt
t t

cov( y , x i ) n şi cov(xi , x j ) n .
Se obţin atunci următoarele egalităţi:
yt x jt n cov( y, xi )
t
xit x jt n cov( xi , x j ). 24
t
Modele particulare (4)
Luând în considerare relaţiile de mai sus vom scrie pentru modelul centrat matricile X´X şi X´y după cum urmează:

n x2 n cov( x1, x2 ) ... n cov( x1, xk )


1
2
n cov( x2 , x1 ) n x
... n cov( x , x ) 2 k
X'X 2 nC x ,x ,...,x ,
................... ................... ... .................... 1 2 k
n cov( x , x ) n cov( x , x ) 2
k 1 k 2 ... n xk
unde prin C[x1, x2, …, xk], s-
a notat matricea de covarianţă
a variabilelor exogene. În mod
asemănător, vom scrie:
cov(y, x )
X'y n 1 nC y,X ,
cov(y, xp)

unde C(y,X) reprezintă vectorul coloană al


covarianţelor variabilei Y în funcţie de fiecare
variabilă exogenă. Vom scrie acum sistemul
normal de ecuaţii pentru modelul centrat:

C(x1,x2,..
ˆ
.,xk) *
C(y,X)
Rezolvând sistemul de ecuaţii se obţine soluţia:
-1
ˆ C (x ,x ,...,x )C(y,X)
* 1 2k .

Testarea ipotezelor
statistice
Joi, 19 martie 2015

1
Concepte (1)
 Ipoteză statistică = ipoteza care se face cu privire la
parametrul unei repartiţii sau la legea de repartiţie pe
 care o urmează anumite variabile aleatoare. 
 Ipoteză nulă (H0) = ipoteza care se consideră a priori
 adevărată. 
 Ipoteză alternativă (H1) = o ipoteză care contrazice
ipoteza nulă. Ea va fi acceptată doar când există
 suficiente dovezi în favoarea acesteia. 
 Dacă ipoteza nulă constă în afirmaţia că parametrul θ al
unei distribuţii este egal cu o anumită valoare θ0: 
ipotezăalternativăsimplă:θ=θ1
2
ipotezăalternativăcompusă: { 1 , 2 ,..., k }
Concepte (2)
 Testul statistic este utilizat drept criteriu de acceptare
 sau de respingere a ipotezei nule 
 Regiunea critică, Rc = valorile numerice ale testului
 statistic pentru care ipoteza nulă va fi respinsă. 
 este astfel aleasă încât probabilitatea ca ea să conţină testul
statistic, când ipoteza nulă este adevărată să fie α, cu α mic
 (α=0.01 etc). 
 Dacă valoarea calculată a testului statisticic se află în regiunea
 critică Rc, ipoteza H0 se respinge 
 regiunea critică este delimitată de valoarea critică, C –
punctul de tăietură în stabilirea acesteia. 
3
Concepte (3)
 Eroare de genul întâi = eroarea pe care o facem eliminînd o ipoteză
nulă, deşi este adevărată. 
 Riscul de genul întâi (α) = probabilitatea comiterii unei erori de
 genul întâi; se numeşte nivel sau prag de semnificaţie. 
 Nivelul de încredere al unui test statistic este (1-α) iar în expresie
procentuală, (1-α)100 reprezintă probabilitatea ca rezultatele să fie
 adevărate. 
 Eroare de genul al doilea = eroarea pe cere o facem acceptînd o
 ipoteză nulă, deşi este falsă. 
 Probabilitatea (riscul) comiterii unei erori de genul al doilea este β. 


 Puterea testului statistic este (1-β). 
 P-value=cel mai mic nivel de semnificaţie la care poate fi respinsă
ipoteza nulă. 

4
Concepte (4)


Ipoteza alternativă poate avea una din trei forme (pe care le vom exemplifica 
pentru testarea egalităţii parametrului „media colectivităţii generale“, μ cu
valoarea μ0) 

test bilateral:
H0: μ = μ0 


H1: μ ≠ μ0 (μ < μ0 sau μ > μ0) 
 test unilateral dreapta: 
H0: μ = μ0
H1: μ > μ0 
test unilateral stânga: 
H0: μ = μ0
H1: μ < μ0 5
Regiunea critică

α/2 α/2 α α

z μ z μ z z μ
/2 a) /2 b) c)

Regiunea critică pentru a) test bilateral; b) test unilateral dreapta; c) test unilateral stînga

6
Concepte (5)

Erorile în testarea ipotezelor statistice

Decizia de Ipoteza adevărată


acceptare H0 H1
H0 Decizie corectă Eroare de tip II
(probabilitate 1-α) (risc β)
H
1 Eroare de tip I Decizie corectă
(risc α) (probabilitate 1-β)

 α= P(respingere H0 ‫ ׀‬H0 este adevărată)=P(eroare de tip I) 



 β= P(acceptare H0 ‫ ׀‬H0 este falsă)=P(eroare de tip II) 
7
Concepte (6)
f( x)
H
0 H1

μ C μ x

Legătura dintre probabilităţile α şi β

8
Etapele verificării ipotezelor statistice


 Identificarea ipotezelor ce trebuie testate 
 Identificarea testului statistic 

 Specificarea nivelului de semnificaţie 

 Stabilirea regulii de decizie 

 Culegerea datelor şi realizarea calculelor 

 Luarea deciziei statistice 

 Aplicarea deciziei statistice în lumea concretă 

9
Efectuarea testului statistic
 Condiţia esenţială în verificarea ipotezelor statistice este
că variabila de interes urmează o repartiţie normală: 

N( , 2)
 Se extrage un eşantion aleator din respectiva
 populaţie normală 
x : ( x1 ,..., xn )
 Pe baza eşantionului se calculează valoarea
estimatorului parametrului populaţiei de interes şi apoi
valoarea testului 
 Forma generală a testului statistic: 
valoarea estimată - valoarea ipotetică
eroarea standard a estimatorului 10
Concepte (7)
 Se fac presupuneri despre populaţia sau populaţiile ce

sunt eşantionate (normalitate etc.). 
 Se calculează apoi testul statistic şi se determină


valoarea sa numerică, pe baza datelor din eşantion. 
 Se desprind concluziile: ipoteza nulă este fie acceptată,


fie respinsă, astfel: 
dacă valoarea numerică a testului statistic cade în regiunea
critică (Rc), respingem ipoteza nulă şi acceptăm ipoteza
alternativă. Această decizie este incorectă doar în 100 α %
 din cazuri; 
dacă valoarea numerică a testului nu se află în regiunea 
critică (Rc), se acceptă ipoteza nulă H0. 11
Testarea semnificaţiei parametrilor modelului
liniar de regresie (1)
H0: i = 0
H1 : i 0.
Dacă notăm ii [(X'X)–1ii] termenul (i, i) din matricea (X’X)–1, atunci
dacă sunt satisfăcute ipotezele pe care se fundamentează modelul regresiei
multiple vom avea următoarele două rezultate:
1
ˆ , X'X
i N i

iar ii
ˆ
ii
zi N (0,1).
1

X'X ii
Cum în aplicaţiile practice nu cunoaştem , atunci această statistică nu
poate fi utilizată în inferenţele statistice asupra parametrilor modelului 12de
regresie.
Testarea semnificaţiei parametrilor modelului
liniar de regresie (2)
Pentru definirea unei statistici operabile ţinem seama de faptul că:
2 2 1
ˆ
ˆi e X'X ii .
ˆ
i i
ti 1
Atunci urmează o repartiţie Student cu n-k
e X ' X ii
grade de libertate.
Vom formula deci ipotezele:
H :ˆ = 0
o i
H:ˆ ≠0
1 i
Decizia:
Dacă tcalc>ttab se alege H1 . Altfel, acceptam H0
13
Exemplu (1)
 Se cere să se construiască un model de
regresie care să analizeze modul în care
media de la examenul de Bacalaureat,
media anilor de liceu şi genul
candidatului au influenţat rezultatele la
 admiterea ASE 2006. 
 În acest scop s-a realizat un eşantion
selectat aleator de 50 de candidaţi precum
şi punctajul maxim realizat de către
aceştia 
14
Exemplu (2)
Modelul de regresie

Punctaj 0 1* Bac 2 * Lic 3 *Gen

 Avem n=50 observaţii (cazuri), k=3 variabile


independente (Bac, Liceu şi Gen) 

50 412, 49 427,53 14 2538


412, 49 3433,82 3546,72 117, 24 21249,63
X'X 427,53 3546,72 3688, 43 116,98 X 'Y 22029,03

14 117, 24 116,98 14 665

15
Exemplu (3)
2,78 0,16 0,17 0,05
( X ' X ) 1 0,16 0,06 0,04 0,02 51, 64
0
0,17 0,04 0,05 0,02
1
0,05 0,02 0,02 0,11
ˆ 1 ( X ' X ) X 'Y 6, 78
5,57
2

3 4,19

Punctaj 51,64 6,78* Bac 5,57* Lic 4,19*Gen


1
S 2 S 2 * diag X ' X 1
S2 n k 1 y y 2 174,42

2,78

S 2 174, 42* 0,06 Punctaj 51,64 6,78* Bac 5,57* Lic 4,19*Gen
0,05
(22,02) (3,12) (3,05) (4,34)
0,11 16
Exemplu (4) – Testarea semnificaţiei
parametrilor de regresie
Calculam valorile testului t
ˆ
ti i 0
calc

pe care le comparăm cu valorilte teoretice a repartiţiei Student cu n-k


grade de libertate.
t; n k t 0.05 ;47 2, 32
2 2

Vom formula deci ipotezele:


ˆ
H o: i =0
ˆ
H1: i ≠0
Decizia:
Dacă tcalc>ttab se alege H1 . Altfel, acceptam H0

17
Exemplu (5) - Testarea semnificaţiei
parametrilor de regresie

În concluzie, cu excepţia parametrului ß3 ( corespunzător


variabilei Gen), toţi ceilalţi parametri de regresie au un prag de
semnificaţie suficient de bun.

Decizie: Analiza va fi refăcută cu eliminarea


variabilei Gen
18
Exemplu (6) - ANOVA

19
Ipotezele MCMMP

Joi, 2 aprilie 2015

1
Ipotezele modelului de regresie (1)

Datele sunt obţinute corect şi fără erori


sistematice de observare. De asemenea numărul
de cazuri este suficient de mare.
Dispersia oricărei variabile independente
Xi este nenulă şi finită.
Liniaritatea modelului de regresie

Y i X i

2
Ipotezele modelului de regresie (2)
Variabilele independente Xi nu sunt puternic
corelate (nu prezintă multicoliniaritate).
Cazul ideal este acela in care coeficientul de
corelaţie dintre oricare două variabile
independente să fie nul. Existenţa coliniarităţii
face ca matricea (X’X) să nu fie inversabilă.
Variabilele independente sunt
nestochastice şi în eventualitatea în care am
repeta sondajul s-ar obţine aproximativ aceleaşi
valori.
Modelul de regresie este corect specificat (s-a
ales o funcţie potrivită) şi a rezultat un grad de
determinaţie suficient de mare.
3
Ipotezele modelului de regresie (3)
Erorile sînt normal distribuite cu
medie zero E(εi)=0 i.
Homoscedasticitatea (dispersie constantă).

Necorelarea erorilor E(εi εk)=0 (i<>k)


Necorelarea dintre oricare variabilă
independentă Xi şi variabila reziduală ε

4
Multicolinearitatea

 Este determinată de prezenţa corelării între


variabilele exogene determinantul matricei X’X
 este zero, deci aceasta nu este inversabilă. 


Problemele ce se pun în acest caz sunt: 
Indicatori pentru semnalarea coliniarităţii
Înlăturarea efectului de multicoliniaritate

5
Indicatori pentru semnalarea
coliniarităţii (1)
 Coeficienţii de corelaţie din matricea de
corelaţie a variabilelor independente
inregistrează valori foarte ridicate (peste
 0,85-0,90) 
 Gradul de determinaţie se apropie de 1 în
condiţiile în care parametrii de regresie nu
trec testul t 
 Dacă determinantul matricii (X’X) este
extrem de mic (în cazul coliniarităţii perfecte
el este egal cu 0) 
6
Indicatori pentru semnalarea
coliniarităţii (2)
Criteriul Klein
 se determină raportul de corelaţie Ry2 şi
coeficienţii liniari de corelaţie a variabilelor 
exogene rxi /xj , i j.
douăvariabile exogene Xişi Xjsunt coliniare dacă:

R2 r2
y xi /xj

sunt identificate numai dependenţele liniare


dintredouă variabile exogene.
7
Indicatori pentru semnalarea
coliniarităţii (3)
 Criteriul Belsley 

 se calculează valorile proprii ale matricei X’X, deci soluţii ale

ecuaţiei: X’X- Ip =0. 


 în cazul în care una sau mai multe valori proprii sunt zero
sau aproximativ zero, fenomenul de colinearitate este
semnificativ şi va afecta într-o bună măsură calitatea 
estimatorilor.
max
se calculeazăindicatorul: (X)
min

 dacă valorile acestui indicator sunt superioare lui 1


colinearitatea 

 o valoare cuprinsă între 20 şi 30 sau mai mare, pentru
datele reale, relevă o colinearitate puternică a variabilelor
exogene. 
8
Înlăturarea efectului de
multicoliniaritate (1)
 Dacă putem suplimenta numărul de cazuri probabil că
această procedură va duce la diminuarea

multicolinearităţii 
 În cazul în care regresia este una pe date culese în
timp (serii cronologice) dacă s-ar utiliza date
transversale am putea să ne aşteptăm ca variabilele

independente să fie mai puţin corelate între ele 
 Dacă putem renunţa la o variabilă independentă
puternic corelată cu alta în condiţiile în care gradul
de determinaţie să nu se diminueze semnificativ cu
siguranţă efectul de multicoliniaritate s-ar manifesta
la dimensiuni mai reduse 

9
Înlăturarea efectului de
multicoliniaritate (2)

Estimareaprin partiţionarea matricei X în


douăblocuri de variabile

se considerăpartiţionarea matricei în douăsubmatrice ale


căror coloane sunt liniar independente: X=(Xm, Xp-m)
 se estimează parametrii modelului de regresie:
ym=Xm m+ m
 se calculează apoi: y* y y m
 şi se estimează parametrii modelului liniar de
regresie: y*=Xr r+ r 

10
Analiza variabilei reziduale în
modelarea econometrică

11
Ipoteza cămedia erorilor este zero:
E( i)=0 i, este naturală atâta timp cât este
văzută ca suma efectelor individuale, cu semne
diferite. Dacă media erorilor este diferită de zero, ea
poate fi considerată ca o parte sistematică a
regresiei: E( )= + x + = ( + ) + x + ( - )
media erorilor fiind acum nulă.
 Ipoteza de homoscedasticitate:
Var( i)= 2 constantă i 
Se consideră un model care descrie consumul unor
gospodării în funcţie de venitul acestora. În acest
caz, consumul gospodăriilor mari pot varia mult mai
mult faţă de consumul gospodăriilor cu venituri mici.
Deci ipoteza de homoscedasticitate nu este
respectată.
12
Exemplu de încălcare a ipotezei de
homoscedasticitate
Functia de consum
1200

1000

800
consum

600

400

200

0
200 300 400 500 600 700 800 900 1000
venit

13
 Necorelarea erorilor: E( i j)=0 i j 
Această ipoteză nu implică faptul că yi şi yj sunt
necorelate, ci faptul că deviaţiile observaţiilor de la
valorile lor aşteptate sunt necorelate.
 Ipoteza de normalitate a erorilor i
N(0, 2) 
Este o ipoteză de lucru, tehnică, ce permite
obţinerea unor estimatori “buni”.
 Dacă ipotezele precedente sînt respectate,
vom obţine estimatori B.L.U.E. (Best 
Linear Unbiased Estimators)

14
Variaţia erorilor în jurul dreptei de regresie

Valorile y sînt normal distribuite


în jurul dreptei de regresie.
f(e)
Pentru fiecare valoare x, dispersia
în jurul dreptei de regresie este
constantă.

Y
X2

X1
X
Dreapta de regresie 15
Daca varianta este constanta avem
homoscedasticitate

+
^
y ++
Residual +
+ +
+ + + ++
++ + +
+

+ + +
+ + +
+ + +
+ + + + ^
y
+
+
+ +
+ + + + +
+
+ + + + ++
+ ++
+

++

16
Variabila reziduala are varianta constanta:
Homoscedasticitate/Heteroscedasticitate
 Daca este incalcata conditia variantei
constante suntem in cazul heteroscedasticitatii. 

+
^
y ++
Residual +
+
+ + +
+
++
+ + + + + + +
+ + ++ + + + ^ ++ +
+ ++ + + y +
+
+
+ + + ++
+ ++

+ + +
Imprastierea creste odata cu y
17
Testarea normalităţii (cu medie zero)
distribuţiei variabilei reziduale (1)
 Evident că pentru ca E(εi)=0 suma erorilor la
 puterea întâi trebuie să fie nulă 
 În ceea ce priveşte normalitatea distribuţiei o putem
testa cu ajutorul testului JB (Jarque şi Bera) care
presupune că în ipoteza că distribuţia este normală
valoarea calculată a testului urmează o repartiţie χ2
 cu 2 grade de libertate 
 Cele două ipoteze sunt: 
H0 – erorile sunt normal distribuite
H1 – erorile nu sunt normal distribuite
 Un prag de semnificaţie acceptabil este unul mai mic
decât 0,3 sau 0,2 
18
Testarea normalităţii (cu medie zero)
distribuţiei variabilei reziduale (1)


Decizia 
 Dacă valoarea testului JB calculată este inferioară valorii 
vom accepta ipoteza H0; altfel alegem
2
tabelare,2
ipoteza H1
Valoarea statisticii JB se calculeazăcu formula:
2 2
JB n C as Cbolt 3
6 24

unde

Cas este coeficientul de asimetrie al variabilei reziduale şi


Cbolt este coeficientul e boltire al aceleiaşi variabile

19
Asimetria şi boltirea (recapitulare)
Coeficienţii lui Pearson
4
2 Cbolt 2
C 3
3 2
as 1
2
2
unde: unde:

2 i 2 4
i
2 4
n n
(momentul centrat de ordin 2)
(momentul centrat de ordinul 4)
3
i
3
n
(momentul centrat de ordin 3) În Excel =kurt(…)
În Excel =skew(…) 20
Exemplu (1)
 La modelul prezentat la cursul anterior (în care era
studiată dependenţa dintre punctajul obţinut la admiterea
ASE şi media examenului de Bacalaureat, media anilor de
liceu precum şi genul candidaţilor distribuţia erorilor este
următoarea: 12 
10

2 Std. Dev = 12,80


Mean = -,0

0 N = 50,00
-30,0 -20,0 -10,0 0,0 10,0 20,0
-25,0 -15,0 -5,0 5,0 15,0

21
VAR00001
Exemplu (2)
Valoarea statisticii JB :

2 2 2 2
JB n C as Cbolt 3 50 0,51 0,1446 3 22,7
6 24 6 24

Cum valoarea tabelară a distribuţiei Hi pătrat cu 2


grade de libertate pentru un nivel de semnificaţie
de 0,01 este 9,21, inferioară statisticii JB calculate
vom alege ipoteza H1 conform căreia nu avem de-
a face cu o distribuţie normală a rezidurilor.

22
Ipotezele MCMMP

Joi, 26 martie 2015

1
Autocorelarea erorilor

Problemele ce se pun în acest caz sunt:


Identificarea cauzelor de apariţie
a corelării erorilor
Testele statistice utilizate
pentru depistarea autocorelării
Metode de estimare a parametrilor în
cazul autocorelării

2
Cauzele de apariţie a autocorelării
erorilor (1)
 Absenţa uneia sau mai multor variabile
 explicative importante 
 neincluderea uneia sau mai multor variabile
explicative importante poate genera
autocorelarea erorilor. 
exemplu:yia bx1icx2i i

 variabila exogenă x3 este omisă


variabilele reziduale sunt autocorelate şi
reziduul va fi explicitat prin intermediul
acestei variabile 
omise: ix3i ui
3
Cauzele de apariţie a autocorelării
erorilor (2)

 Modelul de regresie nu este corect


specificat: fie modelul se exprimă sub
forma unei combinaţii liniare de variabile
în condiţiile în care o specificare corectă a
modelului trebuie să fie exprimată printr-o
combinaţie liniară de logaritmi de variabile
exogene etc. 

 Au fost făcute transformări neadecvate
sau interpolări în cadrul seriei de date 
4
Variabila reziduala este necorelata?
e(t-1) e(t)
-0.684 -0.623
-0.623 -0.712
Corelograma dintre e(t) şi e(t-1)
-0.712 0.080
0.080 0.042 2.5
0.042 -0.322
-0.322 1.370 2.0
1.370 -0.093
1.5
-0.093 -0.240
-0.240 -0.249 1.0
-0.249 0.281
0.281 0.532 0.5
0.532 0.035 0.0
0.035 0.873
-3 -2 -1 0 1 2 3
0.873 -0.165 -0.5
-0.165 -0.182
-0.182 -2.130 -1.0
-2.130 0.962
-1.5
0.962 -1.047
-1.047 0.086 -2.0
0.086 -0.121
-0.121 1.928 -2.5
1.928 1.130
-3.0
1.130 -2.308
-2.308 1.559
5
e(t-2) e(t)
-0.684 -0.712 Corelograma dintre e(t) şi e(t-2)

-0.623 0.080 2.5


-0.712 0.042
0.080 -0.322 2.0

0.042 1.370
1.5
-0.322 -0.093
1.370 -0.240
1.0
-0.093 -0.249
-0.240 0.281 0.5
-0.249 0.532
0.281 0.035 0.0

0.532 0.873
-3 -2 -1 -0.5 0 1 2 3
0.035 -0.165
0.873 -0.182 -1.0
-0.165 -2.130
-0.182 0.962 -1.5
-2.130 -1.047
-2.0
0.962 0.086
-1.047 -0.121
-2.5
0.086 1.928
-0.121 1.130 -3.0
1.928 -2.308
1.130 1.559 6
Independenta erorilor in timp
Tipuri de variabila reziduala care indica existenta autocorelatiei erorilor
In timp.

Residual Residual

+
++ + +
++ + +
0 + + + 0 + +
+ Time Time
+ +
+ + ++
+ + +
+++
+

7
Autocorelatie de ordinul I pozitiva
Autocorelatie de ordinul I pozitiva
+ + Reziduri
+
+
0
Timp
+

+ +

Autocorelatie de ordinul I negativa


Autocorelatie de ordinul I negativa
Reziduri
+ +
+
0
+ + + Timp
8
Testele statistice utilizate pentru depistarea
autocorelării: Durbin Watson
Variabila rezidualăsatisface: ii 1 ui
 Ipoteze: Ho: =0 H1: 0
n
(ei ei 1 )2
Statistica testului: DW i 2

n
ei 2
i1

Numărătorul statisticii va fi scris sub forma echivalentă:
n 2 n n n n n
2 2 2
e e e 2 eee 2 e 2 ee e2 e2
i i1 i ii1 i1 i i i 1 1n
i2 i2 i2 i2 i1 i2

Atunci statistica d va fi:


e12 e n2
d 2 1 ρ1 .
n
e i2
i 1
Dacă seria de date este suficient de mare, vom neglija termenii
extremi din seria reziduurilor, obţinând: 9

d 2 1 ρ1 .
Testul Durbin-Watson (2)
 d1 şi d2 extrase din tabela Durbin Watson
 pentru , k şi n: 
 0 < DW < d1 autocorelare pozitivă a erorilor 
d1 DW d2 indecizie, recomandată acceptarea
 autocorelării pozitive 
 d2 < DW < 4-d2 erori independente 
4-d2 DW 4-d 1 indecizie, recomandată
 acceptarea autocorelării negative 
4-d1< DW <4 autocorelare negativă a erorilor 

10
Decizia in cazul testului Durbin-Watson

Auto indecizie Indepen Indepen Indecizie Auto


corelatie denta denta corelatie

0 d1 d2 2 4-d2 4-d1 4

11
Testul Durbin Watson
Testul Durbin-Watson pentru α= 5 %.
n k=1 k=2 k=3 k=4 k=5
d1 d2 d1 d2 d1 d2 d1 d2 d1 d2
15 1,08 1,36 0,95 1,54 0,82 1,75 0,69 1,97 0,56 2,21
20 1,20 1,41 1,10 1,94 1,00 1,68 0,90 1,83 0,79 1,99
30 1,35 1,49 1,28 1,57 1,21 1,65 1,14 1,74 1,07 1,83
40 1,44 1,54 1,39 1,60 1,34 1,66 1,29 1,72 1,23 1,79
50 1,50 1,59 1,46 1, 63 1,42 1,67 1,38 1,72 1,34 1,77
100 1,65 1,69 1,63 1,72 1,61 1,74 1,59 1,76 1,37 1,78

12
Metode de estimare a parametrilor în
cazul autocorelării (1)
 Erorile prezintă o autocorelare de un anumit ordin
estimatorii parametrilor sunt nedeplasaţi şi consistenţi, dar
nu sunt eficienţi. 
1. Se estimează parametrii modelului de regresie: Y=X prin
metoda celor mai mici pătrate şi se obţine seria erorilor
(e )
i i=1,n

2. Se consideră că erorile urmează un proces autoregresiv


de ordinul I:
ee
n i i 1
i 2
n u
e i2 1 i i1 i
i 2

13
Metode de estimare a parametrilor în
cazul autocorelării (2)
p p
y x yi y (1 ) (x ji x )
3. i 0 j ji i i1 0 j ji 1 i i1
j1 j1

*
y yiyi
i 1 p

Notând: x*ji x jix ji 1 yi* *


0j x ji i
j1
2
0 0 (1) N(0, )
i

4. Se estimează parametrii noului model.

14
Homoscedasticitatea
u
Y=X
E( ) 0
w1 0 0
x
Var ( ) 2 0 w1 0

w
0 0 1



Problemele ce se pun în acest caz sunt: 
Testele statistice utilizate pentru
depistarea heteroscedasticităţii
Metode de estimare a parametrilor în cazul
heteroscedasticităţii
15
Testele statistice utilizate pentru depistarea
heteroscedasticităţii - Testul White (1)
1. Se estimează parametrii modelului de regresie: Y=X
prin metoda celor mai mici pătrate şi se obţine seria
erorilor (ei)i=1,n
2. Se explicitează seria (ei2)i=1,n în raport cu una sau
mai multe variabile exogene şi se defineşte modelul
de regresie:

a) e 2k ajxj k
b j x 2j v
j 1 j 1

ei2 a1x1i a2x2i b1x12i b2x22i c1x1i x2i vi

16
Testele statistice utilizate pentru depistarea
heteroscedasticităţii - Testul White (2)
Ipotezele testului:
  H0: a1=...=ak=b1=...=bk=0 model homoscedastic 

 H 1 : a1 0 sau bj 0 model heteroscedastic 

Statistica testului: LM=nR2 2


;k-1

Decizia: Daca LM< 2 ;k-1 se acceptă H0 altfel, acceptăm H1


 Observaţie: 
  o creştere a lui r conduce la diminuarea puterii testului 
 pentru un număr mare de variabile exogene se recomandă
 modelul a) 
 pentru un număr moderat de variabile exogene se
recomandă modelul b) 

17
Testele statistice utilizate pentru depistarea
heteroscedasticităţii – Testul GQ (Goldfeld-Quandt)
Ipotezele testului:
 H0: model homoscedastic 
H1: model heteroscedastic 
2. Statistica testului: n

2 2
F
F
i1
calc n

2
;n/2-k; n/2-k
i n2 1

3. Decizia

Daca Fcalc < F ;n/2-k; n/2-k se acceptă H0 altfel, acceptăm H1

18
Metode de estimare a parametrilor în
cazul heteroscedasticităţii (1)
 În cazul în care avem un număr suficient de mare
de valori putem împărţi datele în două serii şi
realiza modele pentru fiecare dintre ele separat 



 În cazul în care heteroscedasticitatea este
indusă de o variabilă exogenă într-o manieră 
multiplicativă: i2 2 x2ji ,
 Fenomenul de heteroscedasticitate se elimină prin
transformarea modelului: 
x
yi x pi
i
1i

1 ... p
x x x x 19

ji ji ji ji
Metode de estimare a parametrilor în
cazul heteroscedasticităţii (2)
Notând:
x
*
y i x* x1i
,...,
pi * i
y
i x i
x
ji
x
ji i x
ji ji

* **
Modelul devine: yi xii
 După estimarea parametrilor acestui model
transformat se revine în modelul iniţial cu
estimatorii. 

20
Prognoze cu ajutorul
modelelor de regresie

Joi, 9 aprilie 2015

1
Predicţia folosind modelul de regresie


 1. Tipuri de predicţii 


 Estimări punctuale 
 Estimări pe intervale de încredere 





 2. Care e obiectul predicţiei? 
 Media populaţiei E(Y) pentru o valoare
 particulară a lui X 
 Valoarea individuală (Yi) pentru o
valoare particulară a lui X 

2
Intervale de încredere pentru parametrii
modelului unifactorial
Pentru termenul liber(intercept)
ˆ
ˆ t SE (
ˆ ) ˆ t
SE( )
0 / 2, n 2 0 0 0 / 2, n 2 0

ˆt 2 1 x2 ˆ 2 1 x2
0 / 2, n 2 ˆ S 0 0 t / 2, n 2 ˆ S
n xx
n xx

Pentru panta dreptei de regresie(slope)


ˆ ˆ ˆ ˆ
t SE ( ) t SE( )
1 / 2, n 2 1 1 1 / 2, n 2 1

2 2
ˆt 2 ˆ 2
1 / 2, n 2 ˆ x
1 1 t / 2, n 2 ˆ x

S S
xx xx

unde n e i2 este estimatorul dispersiei modelului.


i 1
ˆ2
n 2
3
Interval de încredere pentru media lui
Y pentru modelul liniar unifactorial

ˆ ˆ Sˆ
Y t Sˆ E (Y ) Y t
/ 2, n 2 Y / 2, n 2 Y
unde
n
2
x 2 e
i

Sˆ ˆ 1 p x şi ˆ 2 i1
Y
n
2
n xi x n 2
i1
4
Factori care afectează lungimea intervalului de încredere

1. Nivelul de încredere (1 - ) 



Creşterea nivelului de încredere duce la
creşterea intervalului de încredere 
 2. Dispersia datelor (σ2) 
Creşterea dispersiei duce la creşterea

intervalului de încredere 
 3. Volumul eşantionului 

Creşterea volumului eşantionului duce la
 micşorarea intervalului de încredere 
  4. Distanţa lui Xp faţă de media X 
Creşterea acestei distante duce la creşterea 
intervalului de încredere 5
Distanţa lui Xp faţă de media X

Y
e
in
L

l
e
1
Dispersie
p
m
mai mare
_ S
a

decît la X1
Y S
ample 2 Li

ne
X
X
1X X2
6
Exemplu
Un analist de marketing stabileşte căvolumul
vînzărilordepinde liniar de cheltuielile cu reclama.
Estimează
un model de regresie şi obţine β0 = -0.1, β1 = 0.7 & ˆ =
0.60553.
Cheltuieli cu reclama $ Vînzări(bucăţi)
1 1
2 1
3 2
4 2
5 4
Cît vor fi vînzările medii dacăse cheltuiesc
4$pentrureclamă?
alfa=0.05
7
Soluţie
ˆ ˆ
Y t Sˆ E (Y ) Y t Sˆ
/ 2, n 2 Y / 2, n 2 Y

ˆ
Y 0.1 0.7 4 2.7 Valoarea particulară
pentru X

1 4 32
Sˆ 0.60553 0.3316
Y 5 10
2.7 3.1824 0.3316 E (Y ) 2.7 3.1824 0.3316

1.6445 E (Y ) 3.7553
8
Interval de predicţie pentru valori particulare

ˆ t S ˆ t S
/ 2, n 2 / 2, n 2
Y ˆ YP Y ˆ
Y Y Y Y
unde

n 2
2 ei
1 xP x 2
S Y Y
ˆ ˆ 1 n
şi ˆ i1

n xi x 2 n 2
i1

9
Predicţia

Y
Y we're trying to ^X
predict i
+ 1
^
^

Expected Y
=
0

(Mean) Y i

E(Y) = 0 + 1X
^
Prediction, Y
X
XP 10
Intervale de predicţie hiperbolice

Y
^X
+ 1
i

^
^

=
0
Y

_ X
X
X P
11
Intervale de încredere pentru
parametrii de regresie multifactorială
ˆ t ˆ ˆ t ˆ
i / 2; n k ˆi i i / 2;n k ˆi

Unde eroarea standard a ficărui estimator


provine din:
2 2 1

ˆ
ˆ i e X'X ii
De obicei se construiesc intervale de încredere
pentru parametrii de regresie utilizând un prag de
semnificaţie =0.05
12
Exemplu rezultate calculate cu
ajutorul Excel (1)
Modelul de regresie
ˆ ˆ ˆ ˆ
Punctaj 0 1 * Bac 2 * Lic 3 *Gen
 Avem n=50 observaţii (cazuri), k=4 parametri de
regresie. 

13
Exemplu rezultate calculate cu
ajutorul Excel (2)
Intervalul de încredere pentru parametrul ßi
(coeficientul variabelei media examenului de
Bacalaureat)
Valoarea tabelară a distribuţiei
Student corespunzătoare este:
t 2, 013
0,05;50 4

Intervalul de încredere va fi:


ˆ t ˆˆ t ˆ
i / 2; n k ˆi i / 2;n k ˆ
i i

6, 78 2, 013 3,121 6, 78 2, 013 3,12


0,50113, 07
14
Interval de încredere pentru media valorilor
y pentru valori prestabilite ale variabilelor
independente

yˆ t ˆ E ( yˆ ) yˆ t ˆ
/ 2; n k yˆ / 2;n k yˆ

Unde eroarea standard a predicţiei pentru media


valorilor y pentru valorile prestabilite (xp1, xp2,
..., xpk) ale variabilelor independente:

1 ' 1 x
ˆ yˆ e x pi xi X'X pi xi
n

15
Exemplu (1)
Pentru modelul de
regresie:Punctajˆ0ˆ1*Bacˆ2*Licˆ3*Gensă se
estimeze un interval de încredere (cu un prag
de semnificaţie =0,05) pentru punctajul mediu al
candidaţilor de gen masculin care aveau la
Bacalaureat media 8,50 şi care aveau media anilor
de liceu 8,00.
x pi xi1 1 8,5 8, 2498 8 8,5506 1 0, 28
0 0, 25020,5506 0, 72
2, 78 0,16 0,17 0, 05

0 (X'X)1 0,16 0, 06 0, 04 0, 02
0,17 0, 04 0, 05 0, 02
' 0, 2502 0, 05 0, 02 0, 02 0,11
x pi xi 0,5506 16
0, 72
Exemplu (2)
Eroarea standard de predicţie:
1 ' 1
ˆ yˆ e
x
pi xi X'X x
pi xi
n
2, 78 0,16 0,17 0, 05 0

13, 2079 10 0, 2502 0,5506 0, 72 0,16 0.06 0, 04 0, 02 0, 2502


50 0,17 0, 04 0, 05 0, 02 0,5506
0, 05 0, 02 0, 02 0,11 0, 72
0

13, 2079 0, 02 0, 0215 0, 0195 0, 0234 0, 0617 0, 2502 13, 2079 0, 02 0, 0622 3, 7865
0,5506
0, 72
Intervalul de încredere pentru media punctajelor la
admitere ale candidaţilor este:
yˆ t / 2; n k ˆ yˆ E ( yˆ ) yˆ t / 2;n k ˆ yˆ 17
Exemplu (3)
unde t0,05;50 4 2,103
ˆ
iar y 51, 64 6, 78*8,5 5,57 *8 4,19*1 46,37

în final ajungem la:

yˆ t ˆ E ( yˆ ) yˆ t ˆ
/ 2; n k yˆ / 2;n k yˆ

46,37 2, 013 3, 7865 E ( yˆ) 46,37 2, 013 3, 7865 38,


75 E ( yˆ) 53,99

18
Interval de încredere pentru o valoare punctuală
a lui y pentru valori prestabilite ale variabilelor
independente

yˆ t ˆ y yˆ t ˆ
/ 2; n k yˆ y / 2;n k yˆ y

Unde eroarea standard a predicţiei punctuale


pentru media valorilor y pentru valorile
prestabilite (xp1, xp2, ..., xpk) ale
variabilelor independente:

ˆ 1 ' 1 x
yˆ y e 1+ x pi xi X'X pi xi
n

19
Exemplu (4)
 Să se estimeze punctual (cu un prag de
semnificaţie =0,05) punctajul pe care îl
va obţine un candidat de gen masculin,
cu media la Bacalaureat 8,5 şi media
anilor de liceu 8. 
Eroarea standard a predicţiei punctuale va fi:
ˆ 1 ' 1 x
yˆ ye 1+ x pi xi X'X pi xi 13, 2079 1 0, 02 0, 0622 13, 739
n
Intervalul de încredere pentru predicţia
punctuală va fi:
yˆ t ˆ y yˆ t ˆ
/ 2; n k yˆ y / 2;n k yˆ y
46,37 2, 013 13, 739 y 46,37 2, 013 13,
739
2
0

18, 72 y 70 ( din calcule :74, 03)


Introducere în analiza seriilor
de timp

Joi, 14 mai 2015

1
Argumente
 Timpul este o coordonată esenţială

a existenţei umane. 
 Realitatea economică şi socială se

localizează în timp şi spaţiu. 
 În general, fenomenele economice
nu au caracter static, manifestîndu-se
în cadrul unei evoluţii temporale. 

2
Definiţie şi exemple
[0, T ] ,K,
Definiţia 1. Fie un orizont de timp, (
P) (X )
un spaţiu de probabilitate şi t t

un proces stochastic.
Vom numi serie de timp (serie cronologică –
time series) o realizare a procesului
(X )
stochastic t t .

( X )
Definţia 2. O serie de timp t t [0,T ]

reprezintă o mulţime de observaţii


efectuate la diferite momente de timp
asupra unei variabile aleatoare X.
3
Staţionaritate

4
Staţionaritate
Definiţia 4. O serie de timp este staţionară
în sens larg dacă:
(X )
– Media seriei t t 1,n este constantă pe orice

perioadă de timp;
– Matricea de corelaţie a vectorului aleator ( Xt1 ,
X ,..., X )
t2 tn nu depinde de .

Definiţia 5. O serie de timp care prezintă o


anumită tendinţă de evoluţie se numeşte
nestaţionară.

5
Staţionaritate

6
Procedee de staţionarizare
 Dacă seria este nestaţionară în medie, se
calculeză diferenţele de ordinul întîi. 

Xt Xt Xt 1
 Dacă seria este nestaţionară în dispersie, se
calculează seria logaritmată. 
Yt log( Xt )

7
Yt 3 t t , t WN (0,50)
800

600

400

200

-200

-400
100 200 300 400 500

Fig. 3 Graficul unei serii nestaţionare în medie


8
Yt t t1

600

400

200

-200

-400

-600
100 200 300 400 500

DIF

Fig. 4 Graficul seriei diferenţiate 9


Xt 2 20t t ,( t ) t WN (6, 4)
120000

100000

80000

60000

40000

20000

0
100 200 300 400 500

XT

10
Yt ln( Xt )t

12

11

10

4
100 200 300 400 500

LNXT
11
Clasificarea seriilor de timp


După natura intervalului de timp: 
- de momente (serii de stoc)
- valoarea determinată prin însumarea termenilor nu
are semnificaţie concretă
- e.g. populaţia României măsurată la recensăminte

- de intervale(serii de flux)
- hibride
12
Clasificarea seriilor de timp
 După proprietăţile mulţimii de valori: 

Serii de timp exprimate sub forma
mărimilor absolute: e.g. PIB

Serii de timp definite printr-o succesiune


de mărimi relative: e.g. PIB/locuitor

Serii de timp formate din mărimi medii: e.g.


Productivitatea muncii
13
Comparabilitatea în timp
 Trebuie avută în vedere omogenitatea seriei de
timp analizate. 
Rata inflaţiei în România

300.00%

250.00%
200.00%

150.00%
100.00%

50.00%
0.00%

98
3 4 86
9
7 89
9 99
0 1 93
9
4 96
9 99
7 8 00
0
1
00
03
0 00
4 5
1 1 1 1 1 1 1 2 2 2 2

198 1985 198 1988 199 1992 199 1995 199 1999 2002 200 14
Indicatorii seriilor temporale
Utilizare – compararea a două sau
mai multe serii cronologice


Indicatori absoluti 


Indicatori relativi 
 Indicatori medii 

15
Indicatori medii
YT Y1
Modificarea medie absolută: 

T 1
Y
Indicele mediu de dinamică: T
I T 1
Y1
Ritmul mediu al dinamicii:R I1

16
Nivelul mediu al seriei

17
Nivelul mediu al seriei
- se calculează pentru fiecare perioadă de timp, cuprinsă între două
momente succesive, nivelul mediu al caracteristicii;
– se determină apoi media aritmetică ponderată :
n Y t
i i
i=1
Y= n .
ti
i=1

Data Stocul Durata între Stocul mediu pe fiecare


Yt momente (zile) perioadăY t
(buc.)
01.01.2005 200 48 (200 + 320)/2
18.02.2005 320 62 (320 + 100)/2
20.04.2005 100 56 (100 + 140)/2
8.06.2005 140 92 (140 + 250)/2
10.09.2005 250 36 (250 + 300)/2
16.10.2005 300 74 (300 + 140)/2
01.01.2005 140 - -
200 48 +32 62+48 +100 56+62 +140 92+56 250 36 92 300 74 36
140 74 Y = 2 2 2 2 2 2 2
48+62+56+92+36+74
18
Componentele unei serii
cronologice



Trendul 


Componenta sezonieră 


Componenta ciclică 
 Componenta aleatoare 

19
Fazele unui ciclu economic

20
Componentele seriilor de timp
ˆ
Modelul aditiv: Yt Yt S t Ct t
- dacă amplitudinea oscilaţiilor este constantă de-a lungul
timpului

ˆ
Modelul multiplicativ: Yt Yt * S t * C t * t
- dacă amplitudinea oscilaţiilor este variabilă de-a lungul
timpului

21
Trendul
 Metode mecanice 

metoda modificării medii absolute
metoda indicelui mediu de dinamică
metoda mediilor mobile
 Metode analitice 

funcţie liniară de gradul I
funcţie parabolică
funcţie exponenţială
22
Metoda modificării medii absolute
 Se foloseşte cînd diferenţele a oric ăror doi
termeni consecutivi sînt constante şi egale cu
Ecuaţia trendului:

Yt Y1 (t 1), t 1..T
Se determinăsuma pătratelor erorilor de ajustare
T
SSE (Yt Yt )2
t1

23
Exemplu
Volumul vînzărilor de apă minerală în România (mii cases)

14,000
12,000
10,000
8,000
6,000
4,000
2,000
0
l00 0 l01 2 2 l02 0 l03 0 l04 0 l05 6
0 0
Ju an
J
Ju Ju Ju n Ju an
J
Ju

Apr00 Oct00 Apr01 Oct01Jan Apr0 Oct02Jan Apr03 Oct03Ja Apr04 Oct04 Apr05 Oct05Jan

Yt 3041 65.46(t 1), t 1..70


SSE 514370020.6
24
Metoda indicelui mediu
Se foloseşte cînd rapoartele oricăror doi termeni
succesivi sînt constante şi egale cu I
Ecuaţia trendului:

Y Y ( I ) t 1, t 1..T
t 1

Se determinăsuma pătratelor erorilor de ajustare


T
SSE (Yt Yt )2
t1

25
Trendul-funcţie liniară de timp
Modelul: Yt o1tt
 Presupunem îndeplinite ipotezele modelului liniar
de regresie 

 Estimatorii parametrilor modelului se obţin prin 
M.C.M.M.P. ca soluţii ale sistemului: 

ˆ ˆ
0n 1 tYt 0
t t

ˆ ˆ
0 t 1 t 2Yt t
t t t
1
Y
t *t 2 Y t t *t
t t t t

nt 2 (t ) 2
t t

n Y t tt *Y t
t t t

nt 2 ( t)2
t t 26
Exemplu
Volumul vînzărilor de apă minerală în România (mii cases)

14,000
12,000
10,000
8,000
6,000

4,000 Yt = 102.4t + 3542.6


2
2,000 R = 0.5673
0
0 0 1 1 01 0 0 4 4 5 5 5 6
0
n0 t r04 0
n0 pr0 Jul05 ct
0
n0
pr0 Jul00 ct a Jul01 J
ul
J
ul p
Jul0 ct a

A O J Apr0 Oc Jan02Apr02 Oct02 Jan03Apr03 Oct03Jan04 A O Ja A O J


T
SSE(Yt Yt ) 2 228126582.8 1 case=5.618 litri
t1 27
Predicţia pe baza trendului
 Întotdeauna pentru estimarea trendului va fi ales
acel model care minimizează suma pătratelor
 erorilor de ajustare 
 Pe baza modelului liniar putem realiza predicţii: 
- Volumul vînzărilor pentru februarie 2006:

Y71 3524.64 102.4 * 71 10812.97


- - Volumul vînzărilor pentru martie 2006:

Y72 3524 .64 102 .4 * 72 10915 .37

28
Metoda mediilor mobile
Se foloseşte pentru filtrarea componentei sezoniere
şi a componentei aleatoare k p
1
 Media mobilă de ordinul p : Y p Yt , k 0,T p .
p
tk1


Date lunare  p=12 
 Date trimestriale  p=4 

29
30
Media mobilă de ordinul 12
Volumul vînzărilor de apă minerală în România(mii cases) Actual
Forecast

14,000

12,000

10,000

8,000

6,000

4,000

2,000

0
0 4 5 6
Jul Jul01 Jul02 Jul03 Jul04 Jul05 t05
Apr00 Oct00 Jan01Apr01 Oct01 Jan02Apr02 Oct02 Jan03Apr03 Oct03 Jan04Apr04 Oct0 Jan05Apr0 Oc Jan0
31
Stationaritatea seriilor de
timp si modelele AR(I)MA

21 mai 2015

1
Staţionaritatea unei serii de timp


Proprietăţile unei serii staţionare: 
 Are media constantă de-a lungul timpului(i.e. nu prezintă

trend) 

 Are dispersie constantă de-a lungul timpului 
 Corelaţia de-a lungul timpului depinde de legătura dintre
 Yt şi Y la lagul k, (Yt-k) şi nu depinde de alte variabile 


Cum recunoaştem o serie staţionară? 

 Analiza grafică 
 Evoluţia funcţiei de autocorelaţie(ACF) şi autocorelaţie

parţială(PACF) 
 Testul Dickey-Fuller 

2
Funcţia de autocorelaţie-ACF

 Măsoară corelaţia între valorile seriei la


diverse distanţe temporale. 
,Y )
t t k
2
Y

 Graficul funcţiei de autocorelaţie pentru diverse


lag-uri k se numeşte corelogramă. 

3
 Seriile nestaţionare au ACF care

converge “încet” spre zero 
 În general, se consideră că dacă după 5 paşi
valoarea ACF este mai mare decît 0.7, atunci

seria este nestaţionară. 
 Seriile staţionare au ACF care converg

rapid spre zero. 

4
Funcţia de autocorelaţie parţială-PACF
 Măsoară corelaţia între Yt şi Yt-k fără a ţine cont de
corelaţiile dintre Yt şi Yt-1, Yt-2.... 
 De exemplu, există o corelaţie între Yt şi Yt-1 care
este măsurată prin ACF(1); de asemenea, există o
corelaţie între Yt-1 şi Yt-2 care este măsurată tot de
ACF(1). Dar corelaţia dintre Yt şi Yt-2, dincolo de
cea măsurată prin ACF(1) sau ACF(2) este dată de
 PACF(2) 
 Coeficienţii de autocorelaţie parţială se obţin prin
modele de regresie 

5
Ipoteza de rădăcină unitară-Unit Root

 Seriile nestaţionare se spune că au



rădăcină unitară 
 Ipoteze: 

HO: seria are rădăcină unitară şi este nestaţionară


H1: seria este staţionară
 Dacă respingem ipoteza nulă, putem
accepta staţionaritatea. 

6
Testul Dickey-Fuller(Unit Root Test) (1)
Presupunem următorul model de serie temporală:
ˆˆ ˆ
Yt0 ˆYt 11tt

 Dacă |ρ|=1, atunci seria nu este staţionară 
 Dacă ß1 este semnificativ diferit de zero (din punct de
vedere al testului t) atunci staţionaritatea se obţine eliminând
 componenta trend 
 Dacă ß1 nu este semnificativ diferit de zero (din punct de
vedere al testului t) atunci staţionaritatea se obţine cu diferenţe
de ordinul 1 sau 2 

7
Testul Dickey-Fuller(Unit Root Test) (2)

 Dacă |ρ|<<1, atunci seria prezintă următoarele



elemente: 
 Dacă ß1 este semnificativ diferit de zero (din punct
de vedere al testului t) atunci staţionaritatea se obţine
 eliminând componenta trend 
 Este staţionară dacă ß1 nu este semnificativ diferit
de zero (din punct de vedere al testului t) şi dacă ρ
este semnificativ diferit faţă de zero 

8
Modele Auto Regresive (AR)

Sunt acele modele cu evoluţii datorate realizărilor anterioare.

Model autoregresiv de ordinul 1: (AR1)


ˆˆ ˆ
Y
Y t0 1 t1 t
Model autoregresiv de ordinul 2: (AR2)
ˆˆ ˆ ˆ
Y Y
Yt0 1 t1 2 t 2 t
Model autoregresiv de ordinul p: (ARp)
ˆˆ ˆ ˆ ˆ
Y Y
Yt0 1 t1 2 t 2 ...p Yt p t

9
Modele de medie mobilă (în engleză
Moving Average) (MA)
 Sunt acele modele care presupun că nivelul
fenomenului urmează unei acţiuni compensatorii în
vederea contracărării unor “acţiuni” din afara
sistemului. 
 Se consideră că nivelul fenomenului din perioada t
depinde de erorile din trecut (erori în sensul abaterii
faţă de normal, sau faţă de medie) aşa încât
devierea (sau devierile) accidentală este urmată de
 o redresare. 
 Eroarea sau componenta reziduală (ut) este
 presupusă a fi un zgomot alb (“white noise”). 
Zgomot alb – o componentă pur aleatoare de medie zero şi
dispersie finită dar diferită de zero 

10
Modele de medie mobilă (MA)
Model de medie mobilăde ordinul 1: (MA1)
ˆ
Yt Y ˆ1ut 1 ut
Model de medie mobilăde ordinul 2: (MA2)
ˆ
Yt Y ˆ1ut 1 ˆ2 ut 2 ut
Model de medie mobilăde ordinul q: (MAq)

ˆ
Yt Y ˆ1ut 1 ˆ 2 ut 2 ... ˆq ut q ut
11
Modele ARMA (Auto Regressive
Moving Average)
 Modelează fenomenele sau procesele când sunt

prezente ambele categorii de evoluţii (AR şi MA). 
 Pentru p=1 şi q =1 vom avea ARMA (1,1) 
ˆ ˆ ˆ
Y ˆu ut
Yt0 1 t1 1 t 1

Pentru p=2şi q =2 vom avea ARMA(2,2)


ˆ ˆ ˆ ˆ
Yt0 Y
1 t1
Y
2 t 2 ˆ1ut 1 ˆ2 ut 2 ut
Media lui Y este inclusă în model prin intermediul
parametrului ß0

12
Modele ARIMA (Auto Regressive Integrated Moving
Average) ARIMA (p,d,q)

 Sunt acele modele ARMA aplicate pe serie


 cronologică ce includea iniţial componenta trend. 
Componenta trend a fost eliminată prin diferenţe
de ordinul 1 sau 2. 


În primul caz vom avea ARIMA de ordinul 1 
(integrate de ordinul 1 – s-au calculat diferenţe de 
ordinul 1) ; Yt Yt Yt 1



În al doilea caz vom avea ARIMA de ordinul 2 
(integrate de ordinul 2 – sau calculat diferenţe de 
2
ordinul 2).
Y Y Y
t t t1

13

S-ar putea să vă placă și