Curs 1
05.10.2010
1
Etapa 5. Testarea şi validarea modelului
Parametrii au putut fi estimaţi cu suficientă precizie?
Modelul este stabil pe întreaga perioadă?
Creşterea numărului de observări îmbunătăţeşte semnificativ calitatea ajustării?
Adăugarea în model a unor noi factori explicativi îmbunătăţeşte semnificativ calitatea
acestuia?
Curs 2
12.10.2010
a. Forma generală
yt = a0 + a1xt + εt
unde:
yt = variabila de explicat
xt = variabila explicativă
a0, a1 = parametri
εt = eroarea de specificare
Vt = a0 + a1SMt + εt
unde:
Vt = încasările din vânzarea calculatoarelor
SMt = salariul mediu
b. Culegerea datelor
t yt xt
1 120 10
2 135 18
3 140 20
4 145 23
5 150 24
6 160 26
7 165 30
8 170 31
9 175 36
10 180 38
11 185 39
12 190 40
13 195 42
14 200 44
15 205 48
c. Reprezentare grafică
250
200
150
Series1
100
50
0
10
20
24
30
36
39
42
48
d. Estimarea parametrilor
2
Pentru determinarea estimatorilor parametrilor modelului regresiei simple se foloseşte
metoda celor mai mici pătrate. Aceasta presupune minimizarea sumei pătratelor erorii.
εt = yt – a0 – a1xt
εt2 = (yt – a0 – a1xt)2
Min ∑ εt2 = Min ∑(yt – a0 – a1xt)2
Formulele de calcul ale estimatorilor:
â1 = ∑(xt-xmed)*(yt-ymed)/ ∑(xt-xmed)2
â0 = ymed – â1*xmed
Cum se procedează?
xmed 31.26667
ymed 167.6667
a1 2.336226
a0 94.62066
Modalităţi de scriere
yt = a0 + a1*xt + εt
εt – eroarea de specificare
yt = â0 + â1*xt + et
yt – valori observate
et – reziduu
ŷt = â0 + â1*xt - ecuaţia dreptei de regresie
ŷt – valori teoretice (calculate) ale lui y
yt - ŷt = et
Reziduul reprezintă diferenţa dintre yt şi ŷt.
ŷt = 94,62 + 2,33*xt
ŷt1 = 94,62 + 2,33*10 = 117.9829
3
250
200
150
Series1
100
50
10 20 24 30 36 39 42 48
e. Ipoteze
Aplicarea metodei celor mai mici pătrate pentru determinarea valorilor estimative ale
parametrilor se face în prezenţa următoarelor ipoteze:
H1: Modelul este liniar în xt: x apare în model la puterea întâi.
H2: Valorile variabilei x sunt observate fără erori: x nu este o variabilă aleatoare.
H3: Media erorilor de specificare este nulă; erorile pozitive se compensează cu cele
negative.
E(εt) = 0
E – speranţa matematică
E(εt) = ∑εt/n
H4: Varianta erorii (dispersia) este constantă (ipoteza de homoscedasticitate).
E(εt2) – constantă
H5: Erorile nu sunt corelate, o eroare la momentul t nu influenţează erorile de la alt
moment de timp.
H6: Variabila x şi erorile nu sunt corelate.
Cov(xt, εt) = 0
Curs 3
26.10.2010
4
xt = cheltuielile cu publicitatea în anul t, exprimat în lei;
a0, a1 = parametrii modelului;
εt = eroarea de specificare.
Datele folosite pentru exprimarea parametrilor sunt:
Anul t yt (lei) xt (lei)
1990
1991
.
.
.
2008
- nu facem analiza evoluţiei unor mărimi economice, ci analiza influenţei unui factor
asupra unei mărimi economice.
- Nu descoperim formule cunoscute!
RS = NS *100 / P0
Rezultatele2 estimării prametrilor sunt:
E εt
yt = 2,55 + 7,82*xt + et
yt = a0 + a1*x1 + εt
â0, â1 = estimatorii parametrilor
a0, a1 = mărimi fixe, dar necunoscute
â0, â1 = variabile aleatoare
εt = o variabilă aleatoare
O ipoteză importantă:
Se presupune că εt urmează o lege normală de distribuţie de medie 0 şi varianţă
constantă.
εt → N(0, σ εt2)
var(εt) = σ εt2 = constantă
Presupunând că această ipoteză este îndeplinită se poate arăta că mărimea (â 1-a1)/σâ1
urmează o lege de distribuţie student cu n-a grade de libertate.
Această proprietate permite efectuarea unor teste statistice prin care se verifică dacă
valoarea parametrului a1 este semnificativ diferită de o valoare fixată.
Valoarea fixată cel mai des folosită este 0, în fapt dacă valoarea parametrului a 1 nu
este semnificativ diferită de 0 atunci variabila explicativă xt nu influenţează în mod
semnificativ valoarea de explicat.
Testul Student
tn-2α/2
Tabela Student
Pragul de semnificaţie α se ia 5%
TINV (0,05; 17) = 2,19
Pasul 4: se compară t â1* cu tn-2α/2
Dacă tâ1* ≤ tn-2α/2 se acceptă ipoteza H0 se respinge ipoteza H1.
Vom spune că, cu probabilitate de 1-α, variabila explicativă introdusă în model (x)
nu influenţează în mod semnificativ variabila de explicat.
Modelul trebuie rescris.
Dacă tâ1* > tn-2α/2 vom spune că, cu probabilitate de 1-α variabila explicativă (x) are o
influenţă semnificativă asupra variabilei de explicat.
Cum se face?
- se scrie modelul: yt = a0 + a1*xt + εt
- se culeg datele
6
- se estimează valorile parametrilor: â0, â1
- se calculează seria de reziduuri: et
et = yt – ŷt
ŷt = â0 + â1*xt
- se ridică la pătrat valorile lui et şi se însumează
- se împarte suma la n-2; se obţine un estimator al varianţei erorii: σε2 = ∑et2/(n-2)
- se calculează un estimator al varianţei lui â1: σâ12 = σε2/∑(xt-xmed)2
- se extrage radical din valoarea σâ12 = σâ1
- se calculează raţia Student: tâ1* = â1/ σâ1
Curs 4
02.11.2010
Testul Fisher
7
09.11.2010
Regresia multiplă
Modelul
yt = a0 + a1x1t + a2x2t +... + akxkt + εt
k – variabila explicativă
Forma matricială
t = 1 y1 = a0 + a1x11 + a2x21 +... + akxk1 + ε1
t = 2 y2 = a0 + a1x12 + a2x22 +... + akxk2 + ε2
...
t = n yt = a0 + a1x1n + a2x2n +... + akxkn + εn
Notăm
y1
y2
Y = ..
yn
(n,1)
a0
a1
a= ...
ak
(k+1, 1)
ε1
ε2
ε= ...
εn
(n,1)
Y = X*a + ε
Ex.:
yt = a0 + a1x1t + a2x2t +... + akxkt + εt
t yt x1 x2 x3
1 100 12 52 201
2 120 15 54 207
... ... ... ... ...
15 119 14 53 203
100
120
Y = ..
119
(15,1)
8
1 12 52 ... 201
1 15 54 ... 207
X= ... ... ... ... ...
1 14 53 ... 203
(15, 4)
a0
a1
a= a2
a3
(4, 1)
ε1
ε2
ε= ...
ε15
(15,1)
Curs 6
16.11.2010
ε1
ε2
ε= ...
εn
(n,1)
ε’ = (ε1, ε2, ..., εn)
ε = (y – xa)
ε’ = (y’ – a’x’)
Min∑εt2 = Min(ε’ ε) = Min[(y’-a’x’)(y+xa)] = MinS
әS/әa = 0 → â = (x’x)-1x’y
Determinarea estimatorilor folosind metoda celor mai mici pătrate se face când
următoarele ipoteze sunt îndeplinite:
H1: Modelul este liniar în x (variabilele apar în model la puterea 1).
H2: Valorile variabilelor explicative x sunt observate fără erori (x nu sunt variabile
aleatoare).
H3: Media erorilor εmed = E(ε) este nulă (speranţa matematică a lui ε).
H4: Varianţa erorii var(εt) = υ ε2 este constantă.
H5: Erorile nu usnt corelate E(εt, εt,) = 0 (o eroare de la momentul t nu influenţează o
eroare de la momentul t’).
H6: Erorile şi variabilele explicative nu sunt corelate cov(ε, x) = 0.
H7: Numărul de observări este mai mare decât numărul de variabile explicative
incluse în model n > k + 1.
9
H8: xx’ are inversă.
Proprietăţile estimatorilor:
- lipsa deplasării;
- convergenţa.
Un estimator este nedeplasat dacă speranţa sa matematică (media) este egală cu
valoarea parametrului pe care îl estimează E(â1) = a1.
Un estimator este convergent dacă varianţa sa tinde către 0 atunci când numărul de
observări tinde spre infinit.
Dacă un estimator este în acelaşi timp nedeplasat şi convergent el este un estimator
BLUE (Best Liniar Unbiesed Estimator), cel mai bun estimator liniar nedeplasat.
Folosind metoda celor mai mici pătrate obţinem estimatori BLUE.
Notaţii
var(ε1) cov(ε1, ε2) cov(ε1, ε2) ... cov(ε1, εn)
cov(ε2, ε1) var(ε2) cov(ε2, ε3) ... cov(ε2, εn)
Ω ε = ... ... ... ... ... = υ ε2*In
cov(εn, ε1) cov(εn, ε2) ... ... var(εn)
â0
â1
â= ...
âk
Raţiile Student astfel determinate se compară cu o valoare luată din tabela legii de
distribuţie Student corespunzător t n-k-1α/2, n-k-1 grade de libertate şi un program de
semnificaţie α/2.
Dacă o raţie Student mai mică sau egală cu valoarea luată din tabel vom spune că, cu
probabilitatea de 1-α variabila explicativă ataşată parametrului respectiv nu influenţează în
mod semnificativ variabila de explicat. Variabila respectivă poate fi eliminată din model,
modelul rescriindu-se şi reestimându-se fără aceasta.
Ecuaţia şi tabelul de analiză a varianţei
∑(yt – ymed)2 = ∑(ŷt – ymed)2 + ∑(yt – ŷt)2
SCT = SCE + SCR
Cu cât SCE se apropie mai mult de SCT cu atât factorii explicativi incluşi în model
explică într-o măsură mai mare evoluţia lui y. Pentru a aprecia mai uşor acest lucru se
calculează R2 = SCE/SCT (coeficientul de determinaţie).
10
O valoare apropiată de 1 ne arată un model bine construit.
În practică, când n este redus se calculează coeficientul de determinaţie corectat.
R2med = 1 – [(n-1)(1-R2)]/(n-k-1)
Când n→∞ valoarea R2 med tinde către valoarea lui R2.
Se foloseşte acest tabel pentru a efectua Testul Fisher. Acest test dă răspuns la
întrebarea: Ansamblul variabilelor explicative incluse în model influenţează în mod
semnificativ variabila de explicat?
F* = (SCE/k)/[SCR/(n-k-1)]
Fαk, n-k-1 se extrage din tabela legii de distribuţie Fisher
Dacă F*≤ Fαk, n-k-1 vom spune că, cu probabilitatea de 1-α, ansamblul variabilelor
explicative incluse în model nu influenţează în mod semnificativ variabila de explicat.
Modelul trebuie rescris, căutându-se factorii explicative care au fost omişi.
Astfel dacă F*> Fαk, n-k-1 variabilele explicative incluse în model influenţează
semnificativ varibila de explicat şi aceasta cu probabilitate de 1-α.
Modul de prezentare a rezultatelor
Rezultatele obţinute sunt:
ŷt = 2,25 + 7,63x1t + 3,15x2t – 7,85x3t
(6,25) (5,18) (3,28) (2,15) abateri standard
t* = 0,35 1,15 0,98 3,45
R2med = 0,86; n = 15
Curs 7
23.11.2010
Alte teste
a. Testul de stabilitate pe întreaga perioadă analizată = testul Chow
t yt x1t x2t
1
2
3
...
17
n1 = 9
nt = 17 = n1 + n2
n2 = 8
Pasul 1. Se divide perioadă analizată în două subperioade.
Pasul 2. Se estimează modelul pe întreaga perioadă. Se determină: SCT, SCE, SCR.
Pasul 3. Se estimează modelul pe prima subperioadă. Se determină: SCT 1, SCE1,
SCR1.
Pasul 4. Se estimează modelul pe cea de-a doua subperioadă. Se determină: SCT2,
SCE , SCR2.
2
Pasul 5. Se calculează:
gl1 = n – k – 1 – (n1 – k – 1 + n2 – k – 1) = k + 1
11
gl2 = n1 – k – 1 + n2 – k – 1 = n - 2k – 2
Pasul 6. Se extrage din tabela de distribuţie Fisher: Fαk+1, n-2k-2.
Pasul 7. Se compară această valoare cu F*.
Dacă F*≤ Fαk+1, n-2k-2 vom spune că, cu probabilitatea de 1-α, modelul este stabil pe
întreaga perioadă. Nu este necesară estimarea modelului pe subperioade.
Dacă F*> Fαk+1, n-2k-2 vom spune că, cu probabilitatea de 1- α, modelul nu este stabil pe
întreaga perioadă. În acest caz, estimarea se va face pe subperioade.
Rezultatele estimării sunt:
a. Pentru perioada 1 – 9
ŷt = 2,58 – 6,23 x1t ...
(... ) (...)
t* = ... ....
2
R med = ...; n=...; F*=...
b. Pentru perioada 10 – 17
Curs 8
30.11.2010
12
Rezultatele estimării sunt:
Vt = 7,658 + 3,25Popt + 4,53NRt – 120,5Dt
( ) ( ) ( ) ( )
t = 6,25 4,18 5,13 7,63
R2 = 0,86; n = 21; t170,025 = 2,19
Cu probabilitatea de 95%, războiul din Iugoslavia a influenţat în mod semnificativ
sectorul de turism din România.
În anul 1999 producţia sectorului de turism a fost cu 120,5 u.m. mai mică decât în
ceilalţi ani şi aceasta se datorează, probabil, războiului din Iugoslavia.
2. În scopul determinării factorilor care asigură succesul la examenul de licenţă la
facultatea de Ştiinţe Economice, un tânăr economist a specificat următorul model:
NLi = a0 + a1MAi + a2MUAi + a3Di + εt
unde:
NLi – nota obţinută la examenul de licenţă de către studentul i;
MAi – media anilor de studii a studentului i;
MUAi – media ultimului an de studiu a studentului i;
Di – variabilă dummy (0 – fată, 1 – băiat).
A fi băiat sau fată are o influenţă asupra notei de la licenţă?
Autocorelaţia erorilor
Una dintre ipotezele în prezenţa căreia se poate aplica metoda celor mai mici pătrate
este aceea că erorile nu sunt corelate: eroarea de la momentul t nu influenţează eroarea de la
momentul t’.
Când această ipoteză nu este îndeplinită, folosirea metodei celor mai mici pătrate
pentru calculul estimatorilor parametrilor nu conduce la cei mai buni estimatori. În acest caz,
modelul va trebui transformat şi adus la o formă care să nu prezinte caracteristica de
autocorelaţie a erorilor.
εt = ρεt-1 + vt (1)
εt = ρεt-1 + θεt-2 + vt (2)
...
Problema autocorelaţiei erorilor apare atunci când:
- din model lipseşte o variabilă explicativă importantă;
- modelul este greşit specificat, în sensul că nu reflectă legătura reală dintre variabila
de explicat şi variabilele explicative; de regulă, acest lucru se întâmplă atunci când modelul
folosit este liniar, dar relaţia între variabila de explicat şi variabilele explicative este, în
realitate, una neliniară;
- datele folosite sunt obţinute ca medii mobile sau sunt obţinute prin interpolare.
13
Autocorelaţia erorilor este probabil să apară în modelele specificate în serie temporală.
În modelele specificate în serie instantanee, autocorelaţia erorilor nu poate fi pusă în evidenţă
decât dacă datele sunt ordonate după valorile variabilei de explicat.
Detectarea autocorelaţiei erorilor
1. Metoda grafică – reprezentarea grafică a reziduurilor
2. Metoda analitică – Testul Durbin-Watson
Pasul 1. Se estimeză modelul, se determină seria de reziduuri, se calculează mărimea:
DW = ∑(et-et-1)2/∑et2
Prin modul său de calcul această mărime ia valori în intervalul (0, 4).
Pasul 2. În funcţie de pragul de semnificaţie ales (5%) şi de numărul de observări (n)
se extrag din tabela DW două valori: d1, d2.
Pasul 3.
Dacă DW € [0; d1] spunem cu probabilitatea de 95% că ρ > 0
Dacă DW€[4-d1; 4] ρ < 0
Dacă DW€[d2; 4-d2] ρ = 0
Dacă DW€(d1; d2)U(4-d2; 4-d1) nedeterminare – nu se poate preciza cu probabilitatea
aleasă dacă există sau nu autocorelaţia erorilor (revedem modelul).
Testul DW se aplică numai pentru determinarea existenţei autocorelaţiei de ordinul 1.
Numărul de observări trebuie să fie mai mare decât 15. Modelul trebuie să aibă termen liber.
Estimarea parametrilor în cazul prezenţei autocorelaţiei erorilor:
εt = ρεt-1 + vt
vt → N(0, σv2)
vt – nu prezintă caracteristica autocorelaţiei
yt = a0 + a1x1t + a2x2t + ... + akxkt + εt
ρyt-1 = ρa0 + ρa1x1t-1 + ρa2x2t-1 + ... + ρakxkt-1 + ρεt-1
zt = b0 + b1m1t + b2m2t + ... + bk mkt + vt
a0 = b0/ (1-ρ) a1 = b1 b2 = b2
DW ρ≠0
Pasul 5. Transformarea datelor
t yt x1t x2t
1 100 5 25
2 120 7 23
... ... ... ...
15 112 11 24
1. Metoda directă
ρ = 1 – DW/2
2. Metoda Cochrane-Oureut
Pasul 1. Se estimează modelul, se determină mărimea DW, i se atribuie lui ρ o valoare prin
metoda directă.
ρ 0 = 1 – DW/2
14
Pasul 2. Se foloseşte valoarea lui ρ calculată la pasul anterior pentru a transforma seria de
date.
Se estimează modelul folosind noile date.
Se determină noua mărime DW, i se atribuie lui ρ o nouă valoare:
ρ 1 = 1 – DW/2
Pasul 3. Se foloseşte noua valoare a lui ρ pentru a transforma încă o dată datele.
Se continuă la fel ca şi la pasul 2. Se vor efectua 3-4 iteraţii de acest fel până când estimatorii
parametrilor devin stabili de la o iteraţie la alta.
2. Metoda Hildreth-Lu
Pasul 1. Se determină cu ajutorul Testului DW tipul autocorelaţiei (pozitivă, negativă).
ρ>0
I se atribuie lui ρ succesiv valorile diviziunilor şi se estimează modelul pe baza datelor
transformate.
Se reţine acea valoare a lui ρ pentru care suma de pătrate de reziduuri este cea mai mică.
ρ = 0,2
I se atribuie lui ρ valorile diviziunilor stabilite şi se estimează modelul pe datele transformate
şi se reţine acea valoare a lui ρ pentru care suma de pătrate este minimă.
15