Sunteți pe pagina 1din 23

Corelația serială

Ipotezele clasice sunt:


I. Modelul de regresie este liniar, este specificat corect și are un termen de eroare aditiv.
II. Termenul de eroare are o medie a populației egală cu zero.
III. Variabilele explicative nu sunt corelate cu termenul de eroare.
IV. Erorile nu sunt corelate între ele.
V. Varianța erorii este constantă (lipsa heteroskedasticității).
VI. Nicio variabilă explicativă nu este o funcție liniară perfectă a oricăror altor
variabile explicative (lipsa multicoliniarității).
VII. Erorile urmează legi normale de distribuție (această presupunere este opțională, dar
de obicei este invocată).

În următoarele două capitole se va analiza termenul de eroare stocastică, ε, în vederea


alegerii formei sale corecte. Primul subiect, existența corelației seriale, reprezintă încălcarea
ipotezei clasice IV, conform căreia erorile nu trebuie să fie corelate între ele. Corelația serială,
numită și autocorelație, poate exista în orice cercetare în care ordinea observărilor are o
semnificație și apare cel mai frecvent în seturile de date temporale. În esență, corelația
serială implică faptul că mărimea erorii dintr-o perioadă de timp depinde, într-un mod
sistematic, de mărimea erorii din alte perioade de timp. Deoarece datele temporale sunt
utilizate în multe aplicații ale econometriei, este important să se înțeleagă corelația serială și
consecințele acesteia asupra estimatorilor OLS.
Abordarea corelației seriale din acest capitol va fi similară cu cea utilizată în capitolul
precedent. Se vor analiza aceleași patru probleme:
1. Care este natura corelației seriale?
2. Care sunt consecințele corelației seriale?
3. Cum este diagnosticată corelația serială?
4. Ce remedii sunt disponibile?

Serii de timp

Practic, toate ecuațiile de până acum au fost de natură transversală, dar în acest
capitol lucrurile se vor schimba. Ca urmare, merită analizate unele dintre caracteristicile
ecuațiilor care folosesc date reprezentând serii de timp. Seriile de timp sau temporale, cum
se mai numesc, implică o singură entitate (precum o persoană, o corporație sau un stat)
observată în mai multe perioade în timp. O astfel de abordare a seriei de timp permite
cercetătorilor să investigheze probleme analitice care nu pot fi examinate foarte ușor cu o
regresie transversală. De exemplu, modelele macroeconomice și modelele ofertei și cererii
sunt cel mai bine studiate folosind date temporale, nu transversale.
Notația pentru un model în care sunt folosite serii de timp este diferită de cea pentru un
model care utilizează date transversale. Notația pentru ecuația cu date transversale familiară
(pentru o perioadă de timp și n entități diferite) este:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀, 𝑖 = 1,2, … , 𝑛

O regresie cu date temporale presupune entități observate în t perioade de timp diferite,


notația utilizată fiind:

𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋2𝑡 + ⋯ + 𝛽𝑘 𝑋𝑘𝑡 + 𝜀𝑡 , 𝑡 = 1,2, … , 𝑇

Astfel, dând valori lui 𝑡, se obține:

𝑡=1 𝑌1 = 𝛽0 + 𝛽1 𝑋11 + 𝛽2 𝑋21 + ⋯ + 𝛽𝑘 𝑋𝑘1 + 𝜀1 se referă la observările din prima


perioadă de timp;
𝑡=2 𝑌2 = 𝛽0 + 𝛽1 𝑋12 + 𝛽2 𝑋22 + ⋯ + 𝛽𝑘 𝑋𝑘2 + 𝜀2 se referă la observările din a 2-a
perioadă de timp;

𝑡=𝑇 𝑌𝑇 = 𝛽0 + 𝛽1 𝑋1𝑇 + 𝛽2 𝑋2𝑇 + ⋯ + 𝛽𝑘 𝑋𝑘𝑇 + 𝜀𝑇 se referă la observările din a T - a
perioadă de timp;

Se poate observa că, în loc de indicele 𝑖 se folosește indicele 𝑡, iar 𝑛 a fost înlocuit cu 𝑇.
Se observă, de asemenea, că:

1. Ordinea observărilor dintr-o serie de timp este fixată. În cazul unui set de date
transversale, observările se pot încărca în orice ordine, dar în cazul unui set de date
temporale, trebuie păstrată ordinea observărilor, adică ordinea lor cronologică. De
exemplu, pentru seriile de timp referitoare la angajați, datele din anul 2010 preced pe
cele din anul 2011. În analiza seriilor de timp se presupune că trecutul poate fi un bun
ghid pentru viitorul.
2. Cum se poate interpreta caracterul aleatoriu în cazul seriilor de date temporale? În mod
cert, datele economice temporale satisfac cerința intuitivă pentru a fi considerate
rezultate ale proces aleatoriu. De exemplu, astăzi nu se știe cât va fi nivelul indicelui
prețurilor de consum luna viitoare. Nu se cunoaște creșterea anuală a output-lui pentru
anii care vin. Pentru că rezultatele acestor variabile nu sunt cunoscute dinainte, ele pot fi
în mod clar privite ca rezultate aleatorii. Formal, o secvență de variabile aleatorii
indexate în timp este numită proces stohastic (stohastic înseamnă aleatoriu). Când se
colectează un set de date pentru o serie temporală, se obține de fapt un rezultat posibil,
o realizare a procesului stohastic. La un moment dat, se poate vedea numai o singură
realizare, deoarece nu se poate merge înapoi în timp și să se reia procesul respectiv.
𝑌

𝑝. 𝑑. 𝑓.
𝑌𝑡1
𝑝. 𝑑. 𝑓.
𝑌𝑡2 𝑝. 𝑑. 𝑓.
𝑌𝑡3 𝑝. 𝑑. 𝑓
𝑌𝑡4 𝑝. 𝑑. 𝑓.
𝑡1 𝑌𝑡5
𝑡2
𝑡3
𝑡4
𝑡5

Figura 1. Proces stohastic de generare a lui 𝑌𝑡


Proces stohastic care generează valorile lui 𝑌𝑡 este reprezentat de mecanismul prin care datele sunt generate
în timp. O serie temporală constă în realizările observabile ale procesului stohastic la fiecare moment de timp,
fiind reprezentată de secvența de valori indicate prin puncte.

Aceasta este analog cu seriile transversale unde se pot colecta eșantioane formate în mod
aleatoriu. Oricum, dacă anumite condiții din trecut s-au schimbat, în general se vor obține
realizări diferite pentru procesul stohastic, iar acesta este motivul pentru care datele
dintr-o serie temporală pot fi interpretate ca fiind realizări ale unui proces aleatoriu.
Mulțimea tuturor realizărilor posibile ale unui proces în serie temporală joacă rolul pe
care populația totală îl are în analiza seriilor transversale. În Figura 1 este ilustrat un
proces stohastic de generare a datelor, precum și o serie temporală specifică acestuia.
Seria temporală constă în realizările procesului stohastic în fiecare perioadă de timp.
3. Eșantioanele dintr-o serie de timp tind să fie mult mai mici decât cele dintr-o serie
transversală. Majoritatea populațiilor din seriile de timp au mult mai puține observări
potențiale decât cele ale secțiunilor transversale, iar aceste seturi de date mai mici fac ca
inferența statistică să fie mai dificilă. În plus, este mult mai greu să se genereze o
observare nouă într-o serie de timp decât într-o serie transversală. La urma urmei, este
nevoie să treacă un an pentru a obține încă o observare într-o serie de timp anuală!
4. Teoria care stă la baza analizei seriilor de timp poate fi destul de complexă. În parte din
cauza problemelor menționate mai sus, econometria seriilor de timp include o serie de
subiecte complexe, care necesită tehnici mai avansate de estimare.

Termenul de eroare stocastică într-o ecuație cu date temporale este adesea afectat de
evenimente care au avut loc într-o perioadă de timp anterioară. Aceasta este corelația serială.
Corelația serială pură

Corelația serială pură apare atunci când, într-o ecuație specificată corect, ipoteza
clasică IV, care presupune că erorile sunt necorelate, este încălcată. Dacă există o corelație
între erori, se spune că erorile sunt corelate serial. Când econometricienii folosesc termenul
de corelație serială fără nici-o altă mențiune, ei se referă la corelația serială pură.
Corelația serială luată în considerare cel mai adesea este corelația serială de ordinul
întâi, în care valoarea curentă a termenului de eroare este o funcție a valorii anterioare a
acestui termen:

𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑢𝑡

unde: ε = termenul de eroare al ecuației de regresie;


ρ = coeficientul de autocorelație de ordinul întâi;
u = un termen de eroare clasic (care nu corelat serial).

Forma funcțională de mai sus este numită schemă Markov de prim ordin. Noul simbol,
ρ (rho, pronunțat „row”), numit coeficient de autocorelație de ordinul întâi, măsoară
intensitatea legăturii între mărimea curentă a erorii și mărimea sa anterioară.
Mărimea lui ρ indică tăria corelației seriale. Dacă ρ este zero, atunci nu există o
corelație serială (deoarece ε ar fi egal cu u, un termen de eroare clasic). Pe măsură ce ρ se
apropie de 1 în valoare absolută, mărimea erorii anterioare, 𝜀𝑡−1 , devine mai importantă în
determinarea valorii sale curente, 𝜀𝑡 . În acest caz, există un grad ridicat de corelație serială.
Valorile absolute ale lui ρ mai mari de 1 nu pot fi luate în considerare deoarece aceasta ar
implica faptul că termenul de eroare are tendința de a crește continuu în timp („ar exploda”).
Ca urmare, se poate afirma că:

−1 < 𝜌 < 1

Semnul lui ρ indică natura corelației seriale într-o ecuație. O valoare pozitivă pentru
ρ implică faptul că termenul de eroare tinde să aibă același semn de la o perioadă de timp la
alta; aceasta se numește corelație serială pozitivă. O astfel de tendință înseamnă că 𝜀𝑡 preia
o valoare mare din valoarea sa anterioară, erorile următoare având tendința de a păstra o
parte din această valoare și au același semn ca eroarea originală. De exemplu, în modelele cu
serii temporale, efectele unui șoc extern mare pentru o economie (precum un cutremur, o
pandemie etc.) într-o singură perioadă pot dura mai multe perioade de timp. Termenul de
eroare va tinde să fie pozitiv pentru o serie de observări, apoi negativ pentru alte câteva
observări, iar apoi din nou pozitiv și așa mai departe.
Figura 2 prezintă, în partea de sus, o corelație serială pozitivă. Observările asupra
termenului de eroare ilustrate în această figură sunt aranjate în ordine cronologică, prima
valoare observată fiind cea din prima perioadă pentru care sunt disponibile date, a doua fiind
din cea de-a doua, etc. Pentru a vedea diferența dintre termenii de eroare cu și fără corelația
serială pozitivă sau negativă, se pot compara tiparele din Figura 2 cu cel din Figura 3, în care
nu există corelație serială (ρ = 0).

Corelația pozitivă

Figura 2. Corelația serială


Figura 3. Erori necorelate

O valoare negativă a lui ρ implică faptul că termenul de eroare are tendința de a


comuta semnele de la negativ la pozitiv și din nou la negativ, în observări consecutive;
aceasta se numește corelație serială negativă. Corelația serială negativă implică faptul că
există un fel de ciclu (precum un pendul) în spatele tulburărilor stocastice. Figura 2
ilustrează, în partea de jos, corelație serială negativă. De exemplu, o corelație serială negativă
ar putea exista în termenul de eroare al unei ecuații care este specificată în primele diferențe,
deoarece schimbările într-o variabilă urmează adesea un model ciclic. Cu toate acestea, în
majoritatea aplicațiilor cu serii de timp, corelația serială pură negativă este mult mai rară
decât corelația serială pură pozitivă. Drept urmare, majoritatea econometricienilor care
analizează corelația serială pură se preocupă în primul rând de corelația serială pozitivă.
Corelația serială poate avea mai multe forme, altele decât corelația serială de prim
ordin. De exemplu, într-un model trimestrial, termenul de eroare al trimestrului curent poate
fi corelat cu termenul de eroare al aceluiași trimestru din anul precedent. Aceasta se numește
corelație serială sezonieră:

𝜀𝑡 = 𝜌𝜀𝑡−4 + 𝑢𝑡

În mod similar, este posibil ca termenul de eroare într-o ecuație să fie o funcție a mai
multor observări anterioare ale termenului de eroare:

𝜀𝑡 = 𝜌1 𝜀𝑡−1 + 𝜌2 𝜀𝑡−2 + 𝑢𝑡

O astfel de formă a corelației seriale se numește corelație serială de ordinul doi.


Corelația serială impură

Corelație serială impură se referă la corelația serială care este cauzată de o eroare de
specificare, cum ar fi o variabilă omisă sau o formă funcțională incorectă. În timp ce corelația
serială pură este cauzată de distribuția de bază a termenului de eroare al unei ecuații
specificate corect (care nu poate fi modificată de cercetător), corelația serială impură este
cauzată de o eroare de specificare care poate fi adesea corectată. Cum este posibil ca o eroare
de specificare să producă corelații seriale? Așa cum s-a menționat anterior, termenul de
eroare poate fi gândit ca reprezentând efectul variabilelor omise, neliniarităților, erorilor de
măsurare și perturbărilor stocastice pure asupra variabilei dependente. Aceasta înseamnă,
de exemplu, că dacă se omite o variabilă relevantă sau se folosește o formă funcțională
greșită, atunci partea din efectul omis care nu poate fi repartizată variabilelor explicative
incluse va fi absorbită de termenul de eroare. Termenul de eroare pentru o ecuație
specificată incorect include astfel o parte din efectul omiterii oricărei variabile relevante și /
sau o parte a efectului diferenței dintre forma funcțională corectă și cea aleasă de cercetător.
Acest termen de eroare ar putea fi corelat serial, chiar dacă în esență, corelația nu există.
Dacă acesta este cazul, corelația serială este cauzată de alegerea de către cercetător a unei
anumite specificații și nu de termenul de eroare pur asociat cu specificația corectă.
Remediul adecvat pentru corelația serială depinde de tipul corelației seriale: pură sau
impură. Nu este surprinzător că cel mai bun remediu pentru corelația serială impură este
încercarea de a găsi variabila omisă (sau a unui bun substituent al acesteia) sau forma
funcțională corectă pentru ecuație. Atât deplasamentul, cât și corelația serială impură vor
dispărea dacă eroarea de specificare este corectată. Ca urmare, majoritatea econometricilor
încearcă să se asigure că au cea mai bună specificație posibilă înainte de a se îngrijora de
corelația serială pură.
Pentru a vedea cum o variabilă omisă poate determina serialitatea termenului de
eroare, se presupune că ecuația adevărată este:

𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋2𝑡 + 𝜀𝑡

unde 𝜀𝑡 este un termen de eroare clasic. Dacă 𝑋2 este omis din greșeală din ecuație (sau dacă
datele pentru 𝑋2 nu sunt disponibile), atunci:

𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1𝑡 + 𝜀𝑡∗ unde 𝜀𝑡∗ = 𝛽2 𝑋2𝑡 + 𝜀𝑡

Astfel, termenul de eroare în cazul variabilei omise, nu este termenul de eroare clasic,
𝜀𝑡 . În acest caz, termenul de eroare este o funcție a uneia dintre variabilele independente, 𝑋2.
Ca urmare, noul termen de eroare, 𝜀𝑡∗, poate fi corelat în serie chiar dacă adevăratul termen
de eroare 𝜀𝑡 nu are această caracteristică. În special, noul termen de eroare 𝜀𝑡∗ va avea
tendința de a manifesta corelații seriale detectabile atunci când:
1. 𝑋2 în sine este corelat serial (acest lucru este destul de probabil într-o serie de
timp) și
2. dimensiunea lui 𝜀𝑡 este mică în comparație cu dimensiunea 𝛽2 𝑋̅2 . Dacă valorile
tipice ale lui 𝜀𝑡 sunt semnificativ mai mari în mărime absolută decât 𝛽2 𝑋̅2 , atunci
chiar și o variabilă omisă corelată în serie (𝑋2) nu va schimba foarte mult 𝜀𝑡∗ . În
plus, variabila omisă, 𝑋2 , va determina un deplasament în estimarea lui 𝛽1 , în
funcție de corelația dintre cele două X-uri. Dacă 𝛽̂1 este deplasat din cauza
omisiunii lui 𝑋2 , atunci o parte a efectului lui 𝛽2 𝑋̅2 trebuie să fi fost absorbită de
𝛽̂1 și nu va ajunge în reziduuri. Drept urmare, testele pentru corelația serială
bazată pe acele reziduuri pot oferi concluzii incorecte. Astfel de reziduuri pot
determina concluzii înșelătoare cu privire la posibile erori de specificare.

Aceste tendințe sunt valabile chiar dacă există o serie de variabile incluse și / sau
omise. Prin urmare:


𝜀𝑡∗ = 𝜌𝜀𝑡−1 + 𝑢𝑡

Un alt tip comun de corelație serială impură este cauzat de o formă funcțională
incorectă. Alegerea formei funcționale greșite poate determina corelația serială a termenului
de eroare. Să presupunem că adevărata ecuație este de natură polinomială:

2
𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋1𝑡 + 𝜀𝑡

În loc să se aleagă această formă, se scrie regresia liniară:

𝑌𝑡 = 𝛼0 + 𝛼1 𝑋1𝑡 + 𝜀𝑡∗

Noul termen de eroare 𝜀𝑡∗ este o funcție a termenului de eroare adevărat 𝜀𝑡 și a


diferențelor dintre formele funcționale liniare și polinomiale. După cum se poate observa în
Figura 4, aceste diferențe urmează adesea tipare destul de autoregresive. Adică, diferențele
pozitive tind să fie urmate de diferențe pozitive, iar diferențele negative tind să fie urmate
de diferențele negative. Ca urmare, utilizarea unei forme funcționale liniare atunci când cea
neliniară este potrivită, va duce de obicei la o corelație serială impură pozitivă.
Figura 4. Forma funcțională incorectă ca sursă a corelației seriale impure

Consecințele corelației seriale

Consecințele corelației seriale sunt de natură destul de diferită față de consecințele


problemelor discutate până acum. Variabilele omise, variabilele irelevante și
multicoliniaritatea au efecte externe destul de ușor de recunoscut. Fiecare dintre aceste
probleme modifică coeficienții și erorile standard estimate într-un mod anume, iar o
examinare a acestor modificări (și a teoriei de bază) oferă adesea suficiente informații
pentru a ca problema să fie detectată. După cum se va vedea, corelația serială este mai
probabil să aibă simptome interne. Aceasta afectează ecuația estimată într-un mod care nu
este ușor de observat dintr-o examinare în sine a rezultatelor. Existența corelației seriale în
termenul de eroare al unei ecuații încalcă ipoteza clasică IV, iar estimarea ecuației cu OLS are
cel puțin trei consecințe:
1. Corelația serială pură nu provoacă deplasamente ale estimatorilor coeficienților.
2. Corelația serială face ca estimatorii OLS să nu mai fie estimatori de varianță minimă
(dintre toți estimatorii liniari nedeplasați).
3. Corelația serială face ca estimările OLS ale abaterilor standard ale estimatorilor
coeficienților, 𝑆𝐸(𝛽̂ ), să fie deplasate, ceea ce duce la nesiguranță în testarea unor
ipoteze.

1. Corelația serială pură nu provoacă un deplasament al estimatorilor coeficienților. Dacă


termenul de eroare este corelat serial, una dintre ipotezele Teoremei Gauss-Markov este
încălcată, dar această încălcare nu determină un deplasament al coeficienților. Dacă
corelația serială este impură, totuși, deplasamentul poate fi introdus prin utilizarea unei
specificații incorecte. Această lipsă de deplasare nu înseamnă neapărat că valorile OLS
estimate ale coeficienților unei ecuații cu erorile corelate serial vor fi apropiate de
valorile adevărate ale coeficienților. O valoare estimată pentru un coeficient poate
proveni dintr-o gamă largă de valori posibile. În plus, erorile standard ale acestor
estimatori vor fi de obicei crescute în prezența corelației seriale. Această creștere va mări
probabilitatea ca o valoare estimată 𝛽̂ să difere semnificativ de valoarea adevărată β.
Semnificația lipsei deplasamentului în acest caz este aceea că distribuția valorilor
estimate ale lui 𝛽̂ este încă centrată în jurul adevăratei valori a coeficientului β.
2. Corelația serială face ca OLS să nu mai producă estimări de varianță minimă (dintre toți
estimatorii liniari nedeplasați). Deși încălcarea ipotezei clasice IV nu provoacă un
deplasament, aceasta afectează și cealaltă concluzie principală a Teoremei Gauss-
Markov, cea a variației minime. În special, nu se poate dovedi că distribuția OLS a 𝛽̂ este
de varianță minimă (dintre estimatorii liniari nedeplasați) atunci când se încalcă ipoteza
IV. Termenul de eroare corelat în serie face ca variabila dependentă să fluctueze într-un
mod pe care procedura de estimare OLS o atribuie uneori variabilelor independente.
Astfel, este mult mai probabil ca OLS să estimeze greșit adevăratele valori ale
coeficienților β în prezența corelației seriale. În schimb, 𝛽̂ sunt încă nedeplasați,
deoarece supraestimările sunt la fel de probabile ca subestimările, dar aceste erori
măresc varianța distribuției valorilor estimate, crescând mărimea cu care orice estimare
este probabil să difere de adevărata valoare a lui β.
3. Corelația serială face ca estimările OLS ale 𝑆𝐸(𝛽̂ ) să fie deplasate, ceea ce duce la
nesiguranță în testarea ipotezelor. În prezența corelației seriale, formula OLS pentru
eroarea standard produce estimări deplasate ale 𝑆𝐸(𝛽̂ ). Deoarece 𝑆𝐸(𝛽̂ ) este o
componentă principală în statistica t, aceste 𝑆𝐸(𝛽̂ ) deplasate determină scoruri t
deplasate, iar testele bazate pe acestea sunt neconcludente. În esență, corelația serială
face ca OLS să producă valori incorecte pentru 𝑆𝐸(𝛽̂ ) și pentru scorurile t. Nu este
surprinzător așadar, că cei mai mulți econometrici sunt foarte ezitanți să acorde multă
încredere testelor ipotezelor făcute în prezența corelației seriale pure.
Ce fel de deplasament are tendința de a provoca corelația serială? De obicei,
deplasamentul estimării 𝑆𝐸(𝛽̂ ) este negativ, ceea ce înseamnă că OLS subestimează
mărimea erorilor standard ale coeficienților. Se întâmplă acest lucru deoarece corelația
serială are ca rezultat, de regulă, un model al erorilor care permite o ajustare mai bună
decât ar permite, în realitate, erorile necorelate în serie. Această tendință a OLS de a
subestima 𝑆𝐸(𝛽̂ ) înseamnă că OLS de obicei supraestimează scorurile 𝑡 ale coeficienților
estimate, deoarece:
(𝛽̂ − 𝛽𝐻0 )
𝑡𝛽 =
𝑆𝐸(𝛽̂ )

Astfel, scorurile 𝑡 afișate de un software de regresie în prezența corelației seriale sunt


probabil mai mari decât în realitate. În mod similar, intervalele de încredere pentru
coeficienți vor tinde să fie mai restrânse.
Ce se va întâmpla cu testarea ipotezei dacă OLS subestimează 𝑆𝐸(𝛽̂ ) și, prin urmare,
supraestimează scorurile 𝑡 ? Ei bine, 𝑆𝐸(𝛽̂ ) „prea scăzut” va provoca un scor 𝑡 „prea
mare” pentru un anumit coeficient, iar acest lucru va face mai probabil să se respingă o
ipoteză nulă (de exemplu 𝐻0 : 𝛽 ≤ 0) când aceasta este de fapt adevărată. Această șansă
crescută de a respinge 𝐻0 înseamnă că se măresc șansele de a respinge o ipoteză nulă
adevărată, așa că sunt mai multe șanse de a păstra în ecuația de regresie o variabilă
irelevantă, deoarece scorul t al coeficientului său a fost supraestimat. Cu alte cuvinte,
testarea ipotezelor devine nesigură în prezența corelației seriale pure.

Detectarea corelației seriale

Cum se poate detecta corelația serială? Deși prima indicație a corelației seriale apare
adesea atunci când se observă că reziduurile urmează un anumit „model”, similar cu cele din
Figura 2, majoritatea econometricienilor se bazează pe teste mai formale precum testul
Durbin - Watson și testul Multiplicatorul Lagrange (LM) pentru detectarea corelației seriale.

Testul Durbin – Watson

Testul Durbin - Watson este utilizat pentru a determina dacă există o corelație serială
de prim ordin în termenul de eroare al unei ecuații, examinând reziduurile unei estimări
particulare a ecuației respective. Este important să se folosească testul Durbin - Watson doar
atunci când se sunt îndeplinite următoarele condiții:
1. Modelul de regresie include un termen liber (𝛽0);
2. Corelația serială, în natura sa, este de prim ordin:

𝜀𝑡 = 𝜌𝜀𝑡−1 + 𝑢𝑡

unde 𝜌 este coeficientul de autocorelație, iar 𝑢 este un termen de eroare clasic (normal
distribuit).
3. Modelul de regresie nu include printre variabilele independente variabila dependentă
decalată în timp.

Ecuația pentru statistica Durbin-Watson, pentru 𝑇 observări, este:

𝑇 𝑇

𝑑 = ∑(𝑒𝑡 − 𝑒𝑡−1 ⁄∑ 𝑒𝑡2


)2
𝑡=2 𝑡=1

unde 𝑒𝑡 sunt reziduurile OLS. Rețineți că numărătorul utilizează cu o observare mai puțin
decât numitorul, deoarece o observare trebuie utilizată pentru a calcula 𝑒𝑡−1 . Statistica
Durbin-Watson este egală cu 0 dacă există corelații seriale pozitive extreme, este egală cu 2
dacă nu există corelație serială și cu 4 dacă există corelații seriale negative. Pentru a vedea
acest lucru, se înlocuiesc în ecuația de mai sus valorile adecvate ale reziduurilor, pentru
fiecare dintre aceste trei cazuri. Se obține:

1. Corelație serială extremă pozitivă: d = 0.


În acest caz, 𝑒𝑡 = 𝑒𝑡−1 , deci (𝑒𝑡 − 𝑒𝑡−1 ) = 0, 𝑑 = ∑(𝑒𝑡 − 𝑒𝑡−1 )2 ⁄∑(𝑒𝑡 )2 = 0
2. Corelație seria extremă negativă: d ≈ 4.
În acest caz, 𝑒𝑡 = −𝑒𝑡−1 , și 𝑒𝑡 − 𝑒𝑡−1 = 2𝑒𝑡 . Se obține: 𝑑 = ∑(2𝑒𝑡 )2⁄∑(𝑒𝑡 )2 ≈ 4
3. Fără corelație în serie: d ≈ 2.
Când nu există o corelație serială, media distribuției lui d este egală cu 2. Adică, dacă nu
există corelație serială, d ≈ 2.

Utilizarea testului Durbin – Watson

Testul Durbin-Watson este diferit de alte teste cel puțin în două privințe. În primul
rând, econometricienii nu testează aproape niciodată ipoteza nulă unilaterală că există o
corelație serială negativă în reziduuri, deoarece corelația serială negativă, așa cum s-a
menționat anterior, este destul de dificil de explicat teoretic în analiza economică sau a
mediului de afaceri. Existența corelației seriale negative înseamnă de obicei că o corelație
serială impură a fost cauzată de o eroare de specificație. În al doilea rând, testul Durbin –
Watson este uneori neconcludent. Întrucât regulile de decizie explicate anterior au avut
întotdeauna doar regiuni de „acceptare” și regiuni de respingere, testul Durbin-Watson are
o a treia posibilitate, denumită regiune neconcludentă. Din motivele prezentate mai jos, nu
se recomandă aplicarea unui remediu pentru corelația serială dacă testul Durbin - Watson
este neconcludent.
Cu aceste excepții, utilizarea testului Durbin-Watson este similară cu cea a testului 𝑡.
Pentru a testa corelația serială pozitivă, sunt necesari următorii pași:
1. Obținerea reziduurilor OLS din ecuația de testat și calcularea statisticii 𝑑 utilizând
ecuația menționată mai sus.
2. Determinarea dimensiunii eșantionului și a numărului de variabile explicative și apoi
extragerea din tabelul DW a valorii critice superioară, 𝑑𝑈 , respectiv a valorii critice
inferioară, 𝑑𝐿 .
3. Având în vedere ipoteza nulă a inexistenței corelații seriale pozitive și a unei ipoteze
alternative unilaterale:

𝐻0 : 𝜌 ≤ 0 (lipsa corelației seriale pozitive)


𝐻𝐴 : 𝜌 > 0 (corelație serială pozitive)

regula de decizie este:


𝑑𝑎𝑐ă 𝑑 < 𝑑𝐿 se respinge 𝐻0
𝑑𝑎𝑐ă 𝑑 > 𝑑𝑈 nu se poate respinge 𝐻0
𝑑𝑎𝑐ă 𝑑𝐿 ≤ 𝑑 ≤ 𝑑𝑈 neconcludentă

În situații rare, de exemplu în cazul unor ecuații pe diferențe de prim ordin, un test
bilateral Durbin-Watson ar putea fi adecvat. Într-un astfel de caz, etapele 1 și 2 rămân
încă valabile, dar pasul 3 devine:
Având în vedere ipoteza nulă a lipsei corelației seriale și a unei ipoteze alternative
bilaterale:

𝐻0 : 𝜌 = 0 (lipsa corelației seriale pozitive)


𝐻𝐴 : 𝜌 ≠ 0 (corelație serială)

regula de decizie este:


𝑑𝑎𝑐ă 𝑑 < 𝑑𝐿 se respinge 𝐻0
𝑑𝑎𝑐ă 𝑑 > 4 − 𝑑𝐿 se respinge 𝐻0
𝑑𝑎𝑐ă 4 − 𝑑𝑈 > 𝑑 > 𝑑𝑈 nu se poate respinge 𝐻0
𝑎𝑙𝑡𝑓𝑒𝑙 neconcludență
Exemple de utilizare a statisticii Durbin – Watson

Înainte de parcurgerea unor aplicații ale testului Durbin – Watson sunt necesare
câteva mențiuni cu privire la folosirea tabelului DW. În primul rând, valorile critice ale lui d,
respectiv 𝑑𝐿 și 𝑑𝑈 , depind de numărul de variabile explicative (nu se numără și termenul
constant), dimensiunea eșantionului și nivelul de semnificație al testului. De exemplu,
pentru un test unilateral cu nivelul de semnificație de 5%, pentru o regresie cu trei variabile
explicative și 25 de observări, valorile critice sunt 𝑑𝐿 = 1.12 și 𝑑𝑈 = 1.66. Ca urmare, dacă
ipotezele sunt:

𝐻0 : 𝜌 ≤ 0 (lipsa corelației seriale pozitive)


𝐻𝐴 : 𝜌 > 0 (corelație serială pozitive)

atunci regula de decizie este:


𝑑𝑎𝑐ă 𝑑 < 1.12 se respinge 𝐻0
𝑑𝑎𝑐ă 𝑑 > 1.66 nu se poate respinge 𝐻0
𝑑𝑎𝑐ă 1.12 ≤ 𝑑 ≤ 1.66 neconcludență

O statistică Durbin-Watson de 1.78, de exemplu, ar indica faptul că nu există dovezi de


corelație serială pozitivă. Dacă valoarea este 1.28, testul este neconcludent, iar dacă valoarea
este 0.60, concluzie este că există corelație serială pozitivă. Figura 5 ilustrează grafic
regiunile de „acceptare”, de respingere și neconcludentă pentru acest exemplu.

Figura 5. Un exemplu de test unilateral Durbin-Watson


Pentru un exemplu concret, se reia un model simplu, în serie temporală, privind
consumul anual de carne de pui în Statele Unite. Există o varietate de variabile care ar putea
avea sens într-o astfel de ecuație, dar cel puțin trei variabile par evidente: consumul anual
de carne de pui este o funcție negativă de prețul cărnii de pui, o funcție pozitivă de venitul
disponibil și o funcție pozitivă de prețul unui înlocuitor al cărnii de pui, în acest caz, carnea
de vită:

− + +
𝑌𝑡 = 𝛽0 + 𝛽1 𝑃𝐶𝑡 + 𝛽2 𝑃𝐵𝑡 + 𝛽3 𝑌𝐷𝑡 + 𝜀𝑡
unde:
𝑌𝑡 = cantitatea de carne de pui, pe locuitor (în 𝐾𝐺), consumată în anul 𝑡, în 𝑆𝑈𝐴
𝑃𝐶𝑡 = prețul unitar al cărnii de pui (în $/𝐾𝐺), practicat în anul 𝑡, în 𝑆𝑈𝐴
𝑃𝐵𝑡 = prețul unitar al cărnii de vită (în $/𝐾𝐺), practicat în anul 𝑡, în 𝑆𝑈𝐴
𝑌𝐷𝑡 = venitul disponibil, pe locuitor (în 𝑚𝑖𝑖 $), în anul 𝑡, în 𝑆𝑈𝐴

Utilizând datele observate pentru aceste variabile pentru perioada 1974 - 2002, se
obțin următoarele rezultate:

𝑌̂𝑡 = 27.7 − 0.11𝑃𝐶𝑡 + 0.03𝑃𝐵𝑡 + 0.25𝑌𝐷𝑡


(0.03) (0.02) (0.01)
𝑡 = −3.38 + 1.86 + 15.7
̅𝑅 = 0.9904
2
𝑛 = 29 (date anuale din perioada 1974 − 2002)

Cum arată ecuația estimată? Gradul de ajustare (overall fit) este excelent, iar fiecare
dintre coeficienții individuali de regresie sunt semnificativ diferiți de zero în direcția
așteptată. Prețul cărnii de pui are într-adevăr un efect negativ semnificativ (cu condiția
menținerii constante a prețului cărnii de vită și a venitului disponibil), iar prețul cărnii de
vită și venitul disponibil au într-adevăr efecte pozitive (cu condiția menținerii celorlalte
variabile independente constante). Totuși, aceasta este o ecuație care utilizează date
temporale, așa că, dacă există o corelație serială, testarea ipotezelor nu va fi credibilă, iar
unul sau mai multe dintre aceste scoruri t ar putea fi artificial ridicat. Este bine să se
efectueze mai întâi un test Durbin – Watson!
Statistica Durbin – Watson calculată pentru această ecuație este d = 0.99. Reprezintă
această valoare un motiv de preocupare legat de corelația serială? Care este rezultatul unui
test unilateral al ipotezei nule de existență a corelației seriale pozitive, pentru α= 5% ? Odată
ce statistica Durbin-Watson a fost calculată, următorul pas este consultarea tabelului
statistic DW. În tabelul respectiv, K este numărul de variabile explicative, egal cu 3, iar n este
numărul de observări, egal cu 29, se regăsesc valorile d critice, care sunt: 𝑑𝐿 = 1.20 și 𝑑𝑈 =
1.65.
Astfel, regula de decizie va fi:
𝑑𝑎𝑐ă 𝑑 < 1.20 se respinge 𝐻0
𝑑𝑎𝑐ă 𝑑 > 1.65 nu se poate respinge 𝐻0
𝑑𝑎𝑐ă 1.20 ≤ 𝑑 ≤ 1.65 neconcludentă
Deoarece 0.99 este mai mic decât limita critică inferioară a statisticii d, se respinge
ipoteza nulă a lipsei corelației seriale pozitive și trebuie luate în considerare procedurile
necesare pentru a face față acestei probleme.

Testul Multiplicatorul Lagrange (LM)

Din păcate, testul Durbin-Watson are o serie de limitări. Așa cum s-a menționat mai
sus, acest test poate fi utilizat numai atunci când corelația serială este de prim ordin, când o
constantă este inclusă în ecuație și când ecuația nu include printre variabilele independente
variabila dependentă decalată. Regiunea neconcludentă a testului Durbin-Watson este de
asemenea un dezavantaj, mai ales că dimensiunea regiunii neconcludente crește pe măsură
ce crește numărul de variabile independente.
O alternativă pentru testul Durbin-Watson este testul Multiplicatorul Lagrange (LM),
care verifică corelația serială analizând cât de bine explică reziduurile decalate din ecuația
inițială într-o ecuație care include și toate variabilele explicative ale modelului original. Dacă
reziduurile decalate sunt semnificative în explicarea reziduurilor din acest model (așa cum
arată testul chi-pătrat), atunci se poate respinge ipoteza nulă a lipsei corelației seriale.
Testul corelației seriale LM este doar o aplicație a unui test general Multiplicatorul Lagrange,
care poate fi aplicat la o varietate de probleme econometrice.
Utilizarea testului Multiplicatorul Lagrange (LM) pentru a investiga existența
corelației seriale presupune parcurgerea a trei etape:
1. Obținerea reziduurile ecuației inițiale. Pentru o ecuație cu două variabile independente,
aceasta sunt egale cu:

𝑒𝑡 = 𝑌𝑡 − 𝑌̂𝑡 = 𝑌𝑡 − 𝛽̂0 − 𝛽̂1 𝑋1𝑡 − 𝛽̂2 𝑋2𝑡

2. Se utilizează aceste reziduuri ca variabilă dependentă într-o ecuație auxiliară care


include ca variabile independente toate variabilele independente ale ecuației originale,
precum și reziduurile decalate:

𝑒𝑡 = 𝛼0 + 𝛼1 𝑋1𝑡 + 𝛼2 𝑋2𝑡 + 𝛼3 𝑒𝑡−1 + 𝑢𝑡

3. Se estimează ecuația auxiliară folosind OLS și apoi se testează ipoteza nulă 𝐻0 : 𝛼3 = 0,


cu următorul test statistic:
LM = 𝑛 ∙ 𝑅 2

unde n este mărimea eșantionului, iar 𝑅 2 este coeficientul de determinație neajustat,


ambele ale ecuației auxiliare.
Pentru eșantioane mari, LM are o distribuție chi-pătrat, cu un număr de grade de
libertate egal cu unu (numărul de restricții din ipoteza nulă). Dacă LM este mai mare decât
valoarea chi-pătrat critică din tabelul statistic 𝜒 2 , atunci se respinge ipoteza nulă că 𝛼3 = 0
și se trage concluzia că există o corelație serială în ecuația inițială. Se reține că, deși 𝛼3 tinde
să fie pozitiv în exemple economice, acesta este un test bilateral.

Exemplu de utilizare a testului LM

Pentru exemplificare, se va efectua un test cu 𝛼 = 5% pentru testarea corelației


seriale pe modelul cererii de carne pui. Ecuația LM adecvată pentru a rula testul este:

𝑒𝑡 = 𝛼0 + 𝛼1 𝑃𝐶𝑡 + 𝛼2 𝑃𝐵𝑡 + 𝛼3 𝑌𝐷𝑡 + 𝛼4 𝑒𝑡−1 + 𝑢𝑡

unde 𝑒𝑡 sunt reziduurile din ecuația originală.


Deoarece în ecuația originală sunt trei variabile independente, ipoteza nulă devine
𝐻0 : 𝛼4 = 0. Din estimarea ecuației auxiliare se obține 𝑅 2 = 0.291. Deoarece dimensiunea
eșantionului este 29, aceasta înseamnă că:

𝐿𝑀 = 𝑛 ∙ 𝑅 2 = 29 ∙ 0.291 = 8.439

Regula de decizie este de a respinge ipoteza nulă dacă 𝑛 ∙ 𝑅 2 este mai mare decât
valoarea critică chi-pătrat pentru un număr de grade de libertate egal cu 1. Următorul pas
este consultarea tabelului 𝜒 2 pentru a căuta valoarea critică. Se poate constata că această
valoare, pentru un 𝛼 = 5%, cu 1 grad de libertate, este 3,84. Deoarece 8.439 > 3.84, se
respinge ipoteza nulă și se trage concluzia că există corelație serială în modelul cererii de
pui. Testul LM este un test bilateral, dar confirmă rezultatul testului unilateral Durbin –
Watson. Este clar că în ecuația cererii de carne de pui, erorile sunt corelate serial!

Remedii pentru corelația serială

Dacă testul Durbin-Watson sau testul LM detectează corelația serială în reziduurile


ecuației de regresie, cum trebuie procedat? Există vreun remediu? Unii studenți sugerează
reorganizarea datelor observate despre Y și X, pentru a evita corelația serială. Ei cred că dacă
termenul de eroare pare să fie afectat de cel anterior, de ce să nu reordonează datele la
întâmplare pentru a scăpa de această problemă? Răspunsul este că reordonarea datelor nu
elimină corelația serială; doar problema corelației seriale devine mai dificil de detectat. Dacă
𝜀2 = 𝑓(𝜀1 ) și se reordonează datele, atunci valorile erorii sunt în continuare legate între ele,
dar nu mai urmează un model anume și devine aproape imposibil de descoperit corelația
serială. Interesant, reordonarea datelor schimbă statistica Durbin - Watson, dar nu modifică
deloc valorile estimate pentru coeficienți sau abaterile lor standard.

Corecția corelației seriale începe cu analiza atentă a specificației ecuației de


regresie, pentru a elimina erorile care ar putea provoca corelația serială impură.
Forma funcțională este corectă? Există variabile omise? Remedierea corelației seriale
pure trebuie luată în considerare numai după ce specificația ecuației a fost revizuită
cu atenție.

De remarcat faptul că, dacă o variabilă este omisă sau dacă setul de date este
reordonat logic (de exemplu, în funcție de mărimea uneia dintre variabile), atunci testul
Durbin-Watson sau testul LM poate ajuta la detectarea corelației seriale impure. Un rezultat
semnificativ al testului Durbin-Watson sau al testului LM poate fi determinat cu ușurință de
o variabilă omisă sau de o formă funcțională incorectă. În astfel de circumstanțe, testele
Durbin-Watson sau LM nu fac distincția între corelația serială pură și impură, iar detectarea
corelației seriale negative este adesea un indiciu puternic că există o corelația serială impură.
Dacă corelația serială este pură, atunci răspunsul adecvat este luarea în considerare
a metodei de estimare GLS (Generalized Least Squares) sau a metodei Erorile standard
Newey-West , așa cum este descris în secțiunile următoare.

Metoda GLS - Generalized Least Squares

Metoda pătratelor minime generalizate (GLS) este o metodă de eliberare a unei


ecuații de regresie de corelația serială pură de ordinul întâi, în vederea restabilirii
proprietății de varianță minimă a estimatorilor. GLS începe cu o ecuație care nu corespunde
ipotezelor clasice (existența corelației seriale pure în termenul de eroare) și o transformă
într-una care îndeplinește aceste ipoteze. Se începe cu o ecuație în care există corelație
serială de prim ordin:

𝑌𝑡 = 𝛽0 + 𝛽1 ∙ 𝑋1𝑡 + 𝜀𝑡

în care, dacă se înlocuiește 𝜀𝑡 = 𝜌 ∙ 𝜀𝑡−1 + 𝑢𝑡 (corelație serială pură de ordinul întâi), se


obține:
𝑌𝑡 = 𝛽0 + 𝛽1 ∙ 𝑋1𝑡 + 𝜌 ∙ 𝜀𝑡−1 + 𝑢𝑡
unde:
𝜀𝑡 = eroarea de specificare, corelată serial;
𝑢𝑡 = termen de eroare clasic (necorelat serial).

Dacă s-ar putea elimina termenul 𝜌 ∙ 𝜀𝑡−1din ecuația de mai sus, corelația serială ar
dispărea, deoarece 𝑢𝑡 , partea rămasă din termenul de eroare, nu are nicio corelație serială în
el. Pentru a elimina 𝜌 ∙ 𝜀𝑡−1 din ecuație, se înmulțește ecuația originală cu 𝜌 și apoi se scrie
ecuația decalată cu o perioadă. Se obține:

𝜌 ∙ 𝑌𝑡−1 = 𝜌 ∙ 𝛽0 + 𝜌 ∙ 𝛽1 ∙ 𝑋1𝑡−1 + 𝜌𝜀𝑡−1

Se observă că noua ecuație conține 𝜌 ∙ 𝜀𝑡−1. Dacă se scade această ecuație din cea anterioară,
ecuația rezultată nu va mai conține componenta corelată în serie a termenului de eroare:

𝑌𝑡 − 𝜌 ∙ 𝑌𝑡−1 = 𝛽0 (1 − 𝜌) + 𝛽1 (𝑋1𝑡 − 𝜌 ∙ 𝑋1𝑡−1 ) + 𝑢𝑡

Această ecuație poate fi rescrisă în felul următor:

𝑌𝑡∗ = 𝛽0∗ + 𝛽1 ∙ 𝑋1𝑡



+ 𝑢𝑡
unde:
𝑌𝑡∗ = 𝑌𝑡 − 𝜌 ∙ 𝑌𝑡−1
𝑋𝑡∗ = 𝑋1𝑡 − 𝜌 ∙ 𝑋1𝑡−1
𝛽𝑡∗ = 𝛽0 − 𝜌 ∙ 𝛽0

Ecuația aceasta este denumită ecuația GLS (sau ecuația cu „cvasi-diferențe”). Se observă că:

1. Termenul de eroare nu este corelat serial. Ca urmare, estimările OLS ale acestei ecuații
au varianța minimă (se pot obține aceste estimări dacă se cunoaște 𝜌 sau dacă 𝜌 poate fi
estimat cu destul de mare precizie).
2. Coeficientul pantă 𝛽1 este același cu coeficientul pantă al ecuației inițiale, în care erorile
sunt corelate serial. Astfel, coeficienții estimați cu GLS au aceeași semnificație ca și cei
estimați cu OLS.
3. Variabila dependentă este diferită față de cea inițială. Aceasta înseamnă că 𝑅̅ 2 𝐺𝐿𝑆 nu
este comparabil cu 𝑅̅ 2 𝑂𝐿𝑆.

Din păcate, nu se poate folosi OLS pentru a estima un model GLS, deoarece ecuațiile GLS
sunt neliniare în coeficienți. Într-o ecuație GLS, trebuie estimate valorile nu numai ale
coeficienților 𝛽0 și 𝛽1, ci și ale lui 𝜌, iar 𝜌 este înmulțit cu 𝛽0 și 𝛽1. Deoarece OLS necesită ca
ecuația să fie liniară în coeficienți, este nevoie de o procedură de estimare diferită.
Din fericire, există o serie de tehnici care pot fi utilizate pentru a estima ecuațiile GLS.
Deși cea mai cunoscută dintre acestea este metoda Cochrane – Orcutt, recomandarea noastră
este pentru utilizarea unei metode ușor diferite, metoda Prais-Winsten. Metoda Prais –
Winsten este o tehnică iterativă în două etape care eliberează o ecuație de corelația serială,
producând mai întâi o estimare a 𝜌 și apoi estimând ecuația GLS folosind acel 𝜌̂. Cei doi pași
sunt:
1. Se estimează 𝜌 executând o regresie bazată pe reziduurile ecuației suspectate de
corelație serială:
𝜀𝑡 = 𝜌 ∙ 𝜀𝑡−1 + 𝑢𝑡
unde 𝑒𝑡 –urile sunt reziduurile OLS din ecuația suspectată de corelație serială pură,
iar 𝑢𝑡 este un termen de eroare clasic (necorelat serial).

2. Se utilizează 𝜌̂ pentru a estima ecuația GLS, substituind 𝜌̂ în GLS și utilizând OLS


pentru a estima ecuația cu datele ajustate.

Aceste două etape se repetă (se iterează) până când, de la o iterație la alta, schimbarea
lui 𝜌̂ este mică. Odată ce 𝜌̂ converge către o anumită valoare (de obicei, în doar câteva
iterații), ultima estimare a sa este utilizată ca estimare finală pentru ecuația GLS.
Din păcate, toate metodele de estimare a ecuațiilor GLS folosesc tehnici iterative de
regresie neliniară, care sunt mult dincolo de scopul acestui text. Ca urmare, majoritatea
cercetătorilor se bazează pe pachetele lor de software econometrice pentru a estima
ecuațiile GLS. În Stata, de exemplu, metoda Prais-Winsten poate fi rulată folosind comanda
prais urmată de o listă a variabilelor dependente și independente.
În continuare se va aplica GLS, metoda Prais – Winsten, la exemplul cererii de carne
de pui, model care s-a dovedit într-o secțiunea anterioară că are o corelație serială pozitivă.
Se reamintește că cererea de carne de pui pe cap de locuitor depinde de prețul cărnii de pui,
de prețul cărnii de vită și de venitul disponibil:

𝑌̂𝑡 = 27.7 − 0.11𝑃𝐶𝑡 + 0.03𝑃𝐵𝑡 + 0.23𝑌𝐷𝑡


(0.03) (0.02) (0.01)
𝑡 = −3.38 + 1.86 + 15.7
̅𝑅 2 = 0.9904 𝑛 = 29 𝐷𝑊 = 0.99

Se observă că s-a adăugat la rezultate statistica Durbin – Watson, cu notația 𝐷𝑊 .


Toate rezultatele viitoare ale seriilor de timp vor include statistica 𝐷𝑊, dar nu este necesară
documentarea 𝐷𝑊, cu excepția cazului în care observările sunt ordonate într-o manieră
semnificativă (cum ar fi de la cea mai mică până la cea mai mare sau de la cea mai nouă până
la cea mai veche).
Dacă se re-estimează ecuația cu metoda Prais – Winsten a GLS, se obține:
𝑌̂𝑡 = 28.5 − 0.08𝑃𝐶𝑡 + 0.01𝑃𝐵𝑡 + 0.24𝑌𝐷𝑡
(0.04) (0.021) (0.02)
𝑡 = −2.13 + 0.74 + 13.12
̅𝑅 2 = 0.963 𝑛 = 29 𝜌̂ = 0.56

În primul rând, se observă că 𝜌̂ utilizat în ecuația GLS este 0,56. Aceasta înseamnă că
Y a fost rulat efectiv ca 𝑌𝑡∗ = 𝑌𝑡 − 0.56𝑌𝑡−1 , PC ca 𝑃𝐶𝑡∗ = 𝑃𝐶𝑡 − 0.56𝑃𝐶𝑡−1 etc. În al doilea
rând, 𝜌̂ înlocuiește DW în documentația estimărilor GLS, deoarece DW din GLS nu este strict
comparabil cu DW-uri non-GLS (este deplasat către 2).
Estimările GLS, indiferent de modul în care sunt produse, au cel puțin două probleme.
În primul rând, chiar dacă corelația serială nu provoacă deplasamente ale estimatorilor 𝛽̂ ,
estimatorii GLS sunt de obicei diferiți de cei OLS. De exemplu, în exemplul dat, toți cei trei
coeficienți pantă se schimbă atunci când ce se trece de la OLS la GLS. Acest lucru nu este
surprinzător, deoarece estimări diferite pot determina valori estimate diferite ale
coeficienților, chiar dacă valorile lor așteptate sunt aceleași. A doua problemă este mai
importantă. Se dovedește că GLS funcționează bine dacă 𝜌̂ este aproape de ρ real, dar în
eșantioane mici, GLS 𝜌̂ este deplasat. Deplasamentul lui 𝜌̂ introduce un deplasament al
estimatorilor GLS ai coeficienților β. Din fericire, există un remediu pentru corelația serială
care ajută la evitarea ambelor probleme: erorile standard Newey – West.

Erorile standard Newey – West

Nu toate corecțiile pentru corelația serială pură implică folosirea GLS. Erorile
standard Newey – West sunt 𝑆𝐸(𝛽̂ ), care țin cont de corelația serială fără a schimba în niciun
fel estimatorii 𝛽̂ . Logica din spatele erorilor standard Newey – West este puternică. Dacă
corelația serială nu cauzează deplasamente ale estimatorilor 𝛽̂ , dar are impact asupra
erorilor standard, atunci are sens să se ajusteze ecuația estimată într-un mod care să
modifice 𝑆𝐸(𝛽̂ ), dar nu și estimatorii 𝛽̂ .
Astfel, erorile standard Newey-West au fost calculate special pentru a evita
consecințele corelației seriale pure de prim ordin. Tehnica Newey-West produce un
estimator al erorilor standard care, deși este deplasat, este mai precis decât erorile standard
necorectate pentru eșantioane mari (mai mari de 100), în prezența corelației seriale. Ca
urmare, erorile standard Newey-West pot fi utilizate pentru testele 𝑡 și alte tipuri de teste,
în majoritatea eșantioanelor, fără erorile de inferență potențial cauzate de corelația serială.
De obicei, 𝑆𝐸(𝛽̂ ) Newey – West sunt mai mari decât 𝑆𝐸(𝛽̂ ) OLS, producând astfel scoruri 𝑡
mai mici și scăzând probabilitatea ca un coeficient oarecare să fie declarat în mod eronat ca
fiind semnificativ diferit de zero.
Pentru a vedea cum funcționează metoda erorilor standard Newey-West, se va aplica
la aceeași ecuație a cererii de carne de pui, corelată serial, la care s-a aplicat GLS. Dacă se
utilizează metoda erorilor standard Newey – West în estimarea ecuației, se obține:

𝑌̂𝑡 = 27.7 − 0.11𝑃𝐶𝑡 + 0.03𝑃𝐵𝑡 + 0.23𝑌𝐷𝑡


(0.03) (0.02) (0.01)
𝑡 = −3.30 + 2.12 + 19.2
̅𝑅 2 = 0.9904 𝑛 = 29

Se poate observa, în primul rând, că estimatorii coeficienților sunt aceeași. Metoda


erorile standard Newey – West nu modifică valorile estimate OLS ale lui 𝛽̂ . În al doilea rând,
deși nu se poate observa schimbarea din cauza rotunjirilor, erorile standard Newey-West
trebuie să fie diferite de erorile standard OLS, deoarece scorurile 𝑡 s-au schimbat, chiar dacă
coeficienții estimați sunt identici. Cu toate acestea, două dintre 𝑆𝐸(𝛽̂ ) Newey – West sunt
puțin mai mici decât 𝑆𝐸(𝛽̂ ) OLS, ceea ce este o surpriză chiar și într-un eșantion mic ca
acesta. Un astfel de rezultat indică faptul că în această ecuație poate exista o variabilă omisă
sau ne-staționară (care va trebui discutată într-un capitol următor).

Sumar

1. Corelația serială sau autocorelația erorilor încalcă ipoteza clasică IV, conform căreia
erorile nu trebuie să fie corelate între ele. De obicei, econometricienii se concentrează pe
corelația serială de prim ordin, în care se presupune că eroarea curentă este o funcție a
erorii anterioare, la care se adaugă un termen de eroare necorelat în serie (𝑢):

𝜀𝑡 = 𝜌 ∙ 𝜀𝑡−1 + 𝑢𝑡

unde 𝜌 reprezintă coeficientul de autocorelație.

2. Corelația serială pură este corelația serială care există într-o ecuației de regresie
specificată corect. Corelația serială impură este cauzată de erori de specificare, cum ar fi
o variabilă omisă sau o formă funcțională incorectă. În timp ce corelația serială impură
poate fi pozitivă (0 < 𝜌 < 1) sau negativă (−1 < 𝜌 < 0) , corelația serială pură în
economie sau în mediul de afaceri este aproape întotdeauna pozitivă (cu excepția cazului
în care în ecuația de regresie sunt implicate primele diferențe).

3. Consecința principală a corelației seriale constă în introducerea unor deplasamente ale


abaterilor standard ale estimatorilor, 𝑆𝐸(𝛽̂ ) 𝑂𝐿𝑆, care determină nesiguranță în testarea
ipotezelor. Corelația serială pură nu provoacă un deplasament al valorilor estimate ale
estimatorilor parametrilor, 𝛽̂ .

4. O metodă frecvent folosită pentru detectarea corelației seriale de ordinul întâi este testul
Durbin-Watson, care utilizează reziduurile regresiei estimate pentru a testa ipoteza
corelației seriale a erorilor. O alternativă preferată adesea este testul Lagrange
Multiplicator (LM), care este mult mai general decât testul Durbin – Watson.

5. Primul pas în eliberarea unei ecuații de regresie de corelația serială este verificarea
eventualelor erori de specificare. Numai o dată ce posibilitatea corelației seriale impure
a fost redusă la minimum, trebuie luate în considerare căile de corecție ale corelației
seriale pure.

6. Generalized Least Squares (GLS) este o metodă de transformare a unei ecuații de regresie
pentru a o scăpa de corelația serială pură de ordinul întâi. Utilizarea GLS necesită
estimarea lui 𝜌.

7. Metoda Erorilor standard Newey – West este un remediu alternativ pentru corelația
serială, prin care se ajustează estimatorii erorilor standard 𝑆𝐸(𝛽̂ ) 𝑂𝐿𝑆, pentru a ține cont
de corelația serială, fără a schimba valorile estimate ale parametrilor, 𝛽̂ .

S-ar putea să vă placă și