Sunteți pe pagina 1din 18

Heteroscedasticitatea

Ipoteza V, cea a homoscedasticității, introdusă în Capitolul 4, stabilește că varianța


termenului de eroare, 𝜀, condiționată de variabilele independente, este constantă. Ipoteza
homoscedasticității nu este îndeplinită în modelele cu variabile explicative omise, iar
influența acestora, inclusă în 𝜀, determină schimbări ale varianței termenului de eroare
pentru diferite segmente ale populației, care sunt determinate de diferitele valori ale
variabilelor explicative. De exemplu, în ecuația economisirilor, heteroscedasticitatea este
prezentă dacă varianța factorilor neincluși în model care afectează economisirile se schimbă
odată cu creșterea venitului. Ipoteza homoscedasticității nu este îndeplinită nici atunci când
modelul este specificat corect, dar termenul de eroare prezintă variații, în funcție de valorile
unei variabile independente inclusă în model. De exemplu, într-un model care explică
consumul, este posibil ca erorile asociate cu țările cu populație numeroasă să provină din
distribuții cu varianțe mai mari decât cele asociate cu țări cu populație redusă. Verificarea
indeplinirii ipotezei V, cea a homoscedasticității, este importantă deoarece OLS, atunci când
această metodă este aplicată modelelor heteroscedastice, produce distribuții de eșantionare
ale valorilor estimate care nu mai au varianța minimă, deși aceste distribuții rămân
nedeplasate și consistente.
În acest capitol se vor analiza consecințele heteroscedasticității pentru OLS, testele de
detectare, precum și procedurile care pot fi aplicate pentru a estima cu suficientă precizie
valorile adevărate ale parametrilor. În general, se consideră că heteroscedasticitatea este
mai probabilă în modele cu serii transversale decât în modele cu serii de timp. Adevărul este
că seriile de timp nu sunt scutite de această problemă. De fapt, heteroscedasticitatea s-a
dovedit a fi un factor important în studiile privind piețele financiare, în cadrul cărora seriile
temporale sunt esențiale.

Heteroscedasticitatea pură

Heteroscedasticitatea pură se referă la heteroscedasticitatea caracteristică


termenului de eroare, 𝜀, al unei ecuații de regresie specificată corect. Ca și în cazul corelației
seriale, utilizarea cuvântului „heteroscedasticitate” fără nicio mențiune (precum pură sau
impură) implică heteroscedasticitatea pură. O astfel de heteroscedasticitate pură apare
atunci când ipoteza clasică V, care presupune că varianța termenului de eroare este
constantă, este încălcată într-o ecuație specificată corect. Ipoteza V presupune că:

𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 2 = o constantă 𝑖 = 1,2, … , n


Figura 1. Homoscedasticitatea și heteroscedasticitatea

Dacă ipoteza V este îndeplinită, toate observările termenului de eroare pot fi


considerate ca decurgând din aceeași distribuție: o distribuție cu medie egală cu zero, 𝜇 = 0,
și o varianță, 𝜎 2 = constantă. Proprietatea de a avea o varianță 𝜎 2 care nu se modifică pentru
diferite observări ale termenului de eroare se numește homoscedasticitate. Distribuția
homoscedastică a termenului de eroare este ilustrată în partea se sus a Figurii 1. Se poate
observa că varianța distribuției este constantă (chiar dacă observările individuale extrase
din eșantion vor varia destul de mult).
Când heteroscedasticitatea este prezentă, varianța termenului de eroare nu este
constantă. În acest caz, varianța distribuției termenului de eroare depinde exact de
observația care se ia în considerare:
𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎𝑖2 𝑖 = 1,2, … , n
Se poate observa că singura diferență între aceste două ecuații este indicele 𝑖 atașat
2
lui 𝜎 , ceea ce implică faptul că, în loc să fie constantă pentru toate observările, varianța
erorii se poate modifica în funcție de fiecare observare în parte. Heteroscedasticitatea apare
adesea în seturile de date în care există o mare diferență între cea mai mare și cea mai mică
valoare observată a variabilei dependente. Cu cât este mai mare diferența dintre mărimea
observațiilor variabilei dependente într-un eșantion, cu atât este mai mare probabilitatea ca
termenul de eroare asociate acestora să aibă variații diferite și, prin urmare, să fie
heteroscedastice. Mai precis, este de așteptat ca distribuția termenului de eroare pentru
observări de valori foarte mari să aibă o varianță mare, iar distribuția termenului de eroare
pentru observări de valori foarte mici să aibă o varianță mică.

0 𝜀 homoscedastic

distribuție
"îngustă"

distribuție
"largă"

0 𝜀 heteroscedastic

Figura 2. Homoscedasticitatea și heteroscedasticitatea


În modelele homoscedastice, distribuția termenului de eroare are o varianță
constantă, astfel încât erorile sunt generate continuu de aceeași distribuție, prezentată în
partea de sus a Figurii 1. În cel mai simplu caz heteroscedastic, există două varianțe diferite
ale termenului de eroare și, prin urmare, două distribuții diferite, una mai “largă” decât
cealaltă, prezentate în partea de jos a Figurii 1, din care ar putea proveni erorile.
Singura diferență între ecuațiile de mai sus este indicele „𝑖 ” atașat la σ2, ceea ce
implică faptul că, în loc să fie constantă pentru toate observările, varianța erorii
heteroscedastică se poate modifica în funcție de observare, indicată prin acest indice.
Heteroscedasticitatea apare adesea în seturile de date în care există o mare diferență între
cea mai mare și cea mai mică valoare observată a variabilei dependente.
Cu cât este mai mare diferența dintre valorile observate ale variabilei dependente
într-un eșantion, cu atât este mai mare probabilitatea ca erorile asociate acestora să aibă
variații diferite și, prin urmare, să fie heteroscedastice. Cu alte cuvinte, distribuția erorii
pentru observări de valori foarte mari poate avea o varianță mare, iar distribuția erorii
pentru observări de valori mici poate avea o varianță mică. În seturile de date transversale,
este ușor să se obțină un interval atât de mare între valorile cele mai mari și cele mai mici ale
variabilelor. De exemplu, diferența dintre Germania și România în ceea ce privește valoarea,
în euro, a consumului de bunuri și servicii este destul de mare (comparabilă, în termeni
procentuali, cu diferența dintre înălțimea unui jucător de baschet și cea a unui șoricel).
Deoarece modelele transversale includ adesea, în același eșantion, observări de dimensiuni
semnificativ diferite (de exemplu, studiile privind economiile țărilor din UE includ, de obicei,
Germania și România ca observări individuale), heteroscedasticitatea este greu de evitat.
Cel mai simplu mod de a vizualiza heteroscedasticitatea pură este de a imagina o lume
în care erorile ar putea fi grupate în doar două distribuții diferite, „largă” și „îngustă”. Această
heteroscedasticitate se numește heteroscedasticitate discretă. Ambele distribuții sunt
centrate în jurul valorii zero, dar una are o varianță mai mare decât cealaltă, așa cum este
indicat în partea de jos Figurii 2. Pentru un model homoscedastic, toate erorile provin din
aceeași distribuție. Când modelul este heteroscedastic, erorile provin din diferite distribuții.
Un exemplu de heteroscedasticitate discretă este exemplul despre înălțimea jucătorilor de
baschet și a șoarecilor. Cu siguranță este de așteptat ca varianța să fie mai mare pentru
jucătorii de baschet, ca grup, decât pentru șoareci, așa că distribuția erorii pentru înălțimile
jucătorilor de baschet ar putea arăta ca distribuția „largă” din Figura 2, iar distribuția erorii
pentru șoareci ar putea arăta ce distribuția „îngustă”.
Heteroscedasticitatea ia forme mult mai complexe. De fapt, numărul modelelor
heteroscedasticității este practic nelimitat, iar o analiză chiar a unui mic procent din aceste
alternative ar fi o sarcină imensă. În schimb, se pot aborda principiile generale ale
heteroscedasticității, atenția fiind concentrată pe cel mai des analizat tip de
heteroscedasticitate pură, la fel cum în cazul corelației seriale pure, pozitive, atenția a fost
concentrată pe cea de prim ordin. Nu trebuie, totuși, să se ajungă la concluzia că
heteroscedasticitatea este doar de un fel.
Heteroscedasticitatea analizată cel mai adesea presupune că varianța erorii este
legată de o variabilă exogenă 𝑍𝑖 . Pentru o ecuație de regresie tipică:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀, 𝑖 = 1,2, … , 𝑛
varianța erorii ar putea fi egală cu 𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 2 𝑍𝑖 , unde Z poate fi sau nu unul dintre 𝑋-urile
din ecuație. Variabila 𝑍 este numită factor de proporționalitate, deoarece varianța
termenului de eroare se modifică proporțional cu 𝑍𝑖 . Cu cât valoarea lui 𝑍𝑖 este mai mare, cu
atât varianța distribuției erorii este mai mare. În acest caz, vor exista n distribuții diferite ale
erorii, câte una pentru fiecare observare, din care eroarea ar putea proveni, în funcție de
numărul de valori diferite pe care le ia 𝑍. Pentru a vedea cum arată distribuțiile
homoscedastice și heteroscedastice ale erorii, în raport cu 𝑍, se pot compara cele două
grafice ilustrate în Figura 3. De notat că distribuția heteroscedastică se lărgește pe măsură
ce 𝑍 crește, dar distribuția homoscedastică își menține aceeași lățime, indiferent de valoarea
pe care o ia 𝑍.

Figura 3. Homoscedasticitatea și heteroscedasticitatea erorii


Factorul de proporționalitate, 𝑍, schimbă întreaga distribuție a erorii. De exemplu, în
modelul de consum, care explică cheltuielile de consum dintr-un stat în funcție de veniturile
sale, se poate constata că pentru un stat mic, precum România, cheltuielile nu sunt la fel de
variabile, în valoare absolută, precum cheltuielile unui stat mare, cum este Germania. O
schimbare de 10% a cheltuielilor unui un stat mare implică mult mai mulți bani decât o
schimbare de 10% a cheltuielilor unui stat mic. Într-un astfel de caz, variabila dependentă
poate fi consumul, iar factorul de proporționalitate, 𝑍, poate fi numărul populației. Pe măsură
ce populația crește, la fel se întâmplă și cu varianța erorii într-o ecuație construită pentru a
explica consumul. Distribuțiile termenului de eroare ar semăna cu cele reprezentate în
partea de jos a Figurii 3, unde 𝑍 din figură este mărimea populației.
Acest exemplu accentuează faptul că heteroscedasticitatea este mai probabil să apară
în modele transversale din cauza variației mari variabilei dependente implicate. De exemplu,
o perturbare exogenă care poate părea imensă pentru un stat mic, poate părea infimă pentru
un stat mare.
Heteroscedasticitatea poate apărea într-un model de serie de timp în care variabila
dependentă suferă modificări semnificative. Dacă se modelează vânzările de telefoane
inteligente din 1990 până în 2015, este foarte posibil ca termen de eroare să fi
heteroscedastic. Pe măsură ce industria a înregistrat o creștere fenomenală, probabil că și
variația termenului de eroare a crescut. O astfel de posibilitate este puțin probabilă în seriile
de timp care au rate mici de schimbare. Heteroscedasticitatea poate apărea, de asemenea, în
orice model, serie de timp sau secțiune transversală, în care calitatea colectării datelor de
eșantion se schimbă dramatic. Pe măsură ce tehnicile de colectare a datelor se îmbunătățesc,
variația termenului de eroare ar trebui să scadă, deoarece erorile de măsurare sunt incluse
în termenul de eroare. Deoarece erorile de măsurare scad, la fel se întâmplă și cu varianța
termenului de eroare.

Heteroscedasticitatea impură

Heteroscedasticitatea care este cauzată de o eroare în specificație, cum ar fi o


variabilă omisă, este denumită heteroscedasticitate impură. Astfel, heteroscedasticitatea
impură este similară corelației seriale impure.
O variabilă omisă poate provoca un termen de eroare heteroscedastic, deoarece
partea efectului omis care nu este preluată de una dintre variabilele explicative incluse
trebuie să fie absorbită de termenul de eroare. Dacă acest efect are o componentă
heteroscedastică, termenul de eroare al ecuației specificate greșit ar putea fi heteroscedastic
chiar dacă termenul de eroare al ecuației corecte nu este. Această distincție este importantă,
deoarece, când heteroscedasticitatea este impură, remediul corect este găsirea variabilei
omise și includerea ei în regresie. Prin urmare, este important ca specificația modelului să
fie corectă înainte de a se încerca detectarea sau să remedierea heteroscedasticității.
Consecințele heteroscedasticității

Dacă se cunoaște că termenul de eroare al ecuației tale este heteroscedastic, ce


înseamnă asta pentru estimarea coeficienților tăi? Dacă termenul de eroare al unei ecuații
este heteroscedastic, există trei consecințe majore:
1. Heteroscedasticitatea pură nu provoacă un deplasament al estimatorilor coeficienților.
Chiar dacă se cunoaște că termenul de eroare al unei ecuații este pur heteroscedastic,
acea heteroscedasticitate nu va cauza deplasamente ale estimatorilor OLS ai
coeficienților. Acest lucru este valabil pentru că, deși erorile pozitive mari sunt mai
probabile, la fel sunt și erorile negative mari. Cele două tind să se compenseze reciproc,
lăsând estimatorul OLS nedeplasat. Drept urmare, se poate spune că o ecuație specificată
corect, care are heteroscedasticitate pură, are încă proprietatea:

𝐸(𝛽̂ ) = 𝛽 pentru toți coeficienții 𝛽

Lipsa deplasamentului nu garantează estimări „exacte” ale coeficienților, mai ales că


heteroscedasticitatea crește varianța estimatorilor, dar distribuțiile estimatorilor sunt
încă centrată în jurul adevăratelor valori ale coeficienților β. Ecuațiile cu
heteroscedasticitate impură, cauzate de o variabilă omisă, vor avea un deplasament
posibil, datorită specificării.
2. Heteroscedasticitatea determină, în mod obișnuit, ca estimatorii OLS să nu mai fie
estimatori de varianță minimă (dintre toți estimatorii liniari nedeplasați).
Heteroscedasticitatea pură nu provoacă deplasamente ale estimatorilor coeficienților
OLS dar afectează proprietatea de varianță minimă. Dacă termenul de eroare al unei
ecuații este heteroscedastic în raport cu un factor de proporționalitate 𝑍:

𝑉𝑎𝑟(𝜀𝑖 ) = 𝜎 2 𝑍𝑖

atunci proprietatea de varianță minimă a teoremei Gauss-Markov nu poate fi îndeplinită,


deoarece există și alți estimatori liniari nedeplasați care au varianțe mai mici. Acest lucru
se datorează faptului că termenul de eroare heteroscedastic determină fluctuații ale
variabilei dependente, iar procedura de estimare OLS atribuie aceste fluctuații
variabilelor independente. Astfel, OLS are mai multe șanse de a greși adevărații 𝛽 în
prezența heteroscedasticității. Estimatorii 𝛽̂ sunt nedeplasați, deoarece supraestimările
sunt la fel de probabile ca subestimările.
3. Heteroscedasticitatea face ca estimările OLS ale 𝑆𝐸(𝛽̂ ) fie deplasate, ceea ce duce la
nesiguranță în testarea ipotezelor. În prezența heteroscedasticității, formula OLS pentru
eroarea standard produce estimări deplasate ale 𝑆𝐸(𝛽̂ ). Deoarece 𝑆𝐸(𝛽̂ ) este o
componentă principală în statistica 𝑡, aceste 𝑆𝐸(𝛽̂ ) deplasate determină scoruri 𝑡
deplasate, iar testarea ipotezelor devine nesigură. În esență, heteroscedasticitatea face
ca OLS să calculeze 𝑆𝐸(𝛽̂ ) și scoruri 𝑡 deplasate! Nu este surprinzător că cei mai mulți
economiști ezită să acorde multă încredere rezultatelor testelor ipotezelor care au fost
făcute în prezența heteroscedasticității. Ce fel de deplasament al erorile standard tinde
să provoace heteroscedasticitatea? De obicei, heteroscedasticitatea face ca estimările
OLS ale erorilor standard să fie deplasate în jos, ceea ce le face prea mici. Uneori, însă,
sunt deplasarea este în sus, adică le face prea mari. În general, este greu de prezis tipul
de deplasament. În orice caz, aceste deplasamente reprezintă o mare problemă pentru
testarea ipotezelor și construirea intervalelor de încredere.
Ce se va întâmpla dacă OLS subestimează o eroare standard? Ei bine, 𝑆𝐸(𝛽̂ ) „prea
scăzut” va determina un scor 𝑡 „prea mare” pentru un anumit coeficient, iar acest lucru va
face mai probabilă respingerea ipotezei nule (de exemplu, 𝐻0 : 𝛽 ≤ 0) atunci când, de fapt,
aceasta este adevărată. Aceste șanse crescute de a respinge 𝐻0 înseamnă șanse mai mari de
a comite o eroare de tip I și mai multe șanse de a păstra în ecuație o variabilă irelevantă. De
asemenea, deoarece intervalele de încredere depind direct de 𝑆𝐸(𝛽̂ ), subestimarea 𝑆𝐸(𝛽̂ )
va face ca estimarea să pară mai precisă decât este în realitate.
Cu alte cuvinte, heteroscedasticitatea pură poate denatura rezultatele estimării.
Testarea ipotezei va deveni lipsită de încredere, iar intervalele de încredere vor fi
înșelătoare.

Teste pentru detectarea heteroscedasticității

După cum s-a discutat, heteroscedasticitatea este o problemă dificilă. Vestea bună
este că există multe teste pentru detectarea heteroscedasticității. Vestea proastă este
heteroscedasticitatea poate lua multe forme diferite și nici un test nu le poate găsi pe toate.
În această secțiune, se prezintă două dintre cele mai populare și puternice teste pentru
detectarea heteroscedasticitate, testul Breusch-Pagan și testul White. Deși niciun test nu
poate „demonstra” existența heteroscedasticității, de multe ori aceste teste pot oferi destul
de multe informații referitoare la prezența heteroscedasticității, precum și la faptul dacă
aceasta reprezintă o problemă pentru modelul de regresie. Înainte de a folosi orice test
pentru detectarea heteroscedasticității, este bine să se răspundă la câteva întrebări
preliminare:

1. Se pot observa erori evidente de specificare? Există variabile omise? Modelul specificat
este liniar, cu toate că, de exemplu, un model log-log ar fi mai potrivit?
Heteroscedasticitatea nu trebuie testată până când specificația nu este cât se poate de
bună. La urma urmei, dacă heteroscedasticitatea este detectată într-un model specificat
incorect, sunt șanse ca în modelul corect acesta să nu existe.
2. Există semne de avertizare timpurie a heteroscedasticității? La fel cum anumite tipuri de
nori pot avertiza asupra furtunilor potențiale, anumite tipuri de date pot semnala o
posibilă heteroscedasticitate. În special, dacă valoarea maximă a variabilei dependente
este de multe ori mai mare decât valoarea minimă, atenție la heteroscedasticitate.

3. Graficul reziduurilor prezintă vreo dovadă a heteroscedasticității? Uneori se


economisește timp prin observarea graficului reziduurilor în raport cu un potențial
factor de proporționalitate 𝑍 sau în raport cu variabila dependentă. Dacă se observă un
tipar al reziduurilor, există o problemă. În Figura 4 sunt ilustrate câteva exemple de
tipare heteroscedastice în reziduuri. În această figură sunt ilustrate exemple didactice de
heteroscedasticitate.

Figura 4. Heteroscedasticitate în reziduuri


Lumea reală este întotdeauna mult mai “dezordonată” decât arată aceste grafice.
Uneori, privind graficele reziduurilor nu se poate spune cu siguranță dacă acestea urmează
sau nu un anumit tipar. Ca urmare, chiar dacă nu există erori evidente de specificare, nici
semne de avertizare timpurie și niciun tipar rezidual vizibil, este necesar să se facă unui test
statistic formal pentru detectarea heteroscedasticității.

Testul Breusch-Pagan

Testul Breusch-Pagan este o metodă de detectare a prezenței heteroscedasticității în


termenul de eroare, cercetând dacă pătratele reziduurilor pot fi explicate prin factori de
proporționalitate posibili. Pentru efectuarea testului Breusch-Pagan se parcurg următorii
pași:
1. Se obțin reziduurile din ecuația de regresie estimată. Pentru o ecuație cu două variabile
independente, acestea sunt:

𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 = 𝑌𝑖 − 𝛽̂0 − 𝛽̂1 𝑋1𝑖 − 𝛽̂2 𝑋2𝑖

2. Se utilizează reziduurile ridicate la pătrat ca variabilă dependentă într-o ecuație


auxiliară. Ca variabile explicative în regresia auxiliară, se utilizează variabile din partea
dreaptă a regresiei inițiale care sunt suspecte fi factori de proporționalitate. Pentru mulți
economiști, opțiunea implicită este să le includă pe toate. Dacă, de exemplu, ecuația
inițială are două variabile explicative, atunci regresia auxiliară este:

𝑒𝑖2 = 𝛼0 + 𝛼1 𝑋1𝑖 + 𝛼2 𝑋2𝑖 + 𝑢𝑖

3. Se testează semnificația generală a ecuației auxiliare cu un test chi-pătrat. Ipoteza nulă și


ipoteza alternativă sunt:
𝐻0 : 𝛼1 = 𝛼2 = 0
𝐻𝐴 : 𝐻0 este falsă;

Ipoteza nulă este cea a homoscedasticității, deoarece dacă 𝛼1 = 𝛼2 = 0, atunci varianța


este egală cu 𝛼0 , care este o constantă. Testul statistic aici este n⸱𝑅 2 , adică dimensiunea
eșantionului (𝑛) înmulțită cu 𝑅 2 neajustat al ecuației auxiliare. Acest test are o distribuție
chi-pătrat, 𝜒 2 , cu gradele de libertate egale cu numărul de coeficienți pantă din regresia
auxiliară. Dacă n⸱𝑅 2 este mai mare sau egal decât valoarea critică chi-pătrat, atunci se
respinge ipoteza nulă a homoscedasticității.
Dacă există suspiciunea că doar anumite variabile sunt factori 𝑍 plauzibili, atunci
trebuie rulat testul Breusch-Pagan folosind doar o constantă și variabilele respective.
Gradele de libertate pentru statistica chi-pătrat, desigur, s-ar schimba într-o astfel de
situație, deoarece acestea sunt egale cu numărul de variabile din partea dreaptă a ecuației
auxiliare. Dacă există doar un singur factor de proporționalitate 𝑍 și nu sunt prezente alte
forme de heteroscedasticitate, nu trebuie folosită în mod necesar statistica chi-pătrat. Se
poate face doar un test 𝑡 bilateral pentru 𝛼̂ lui 𝑍.
Punctele forte ale testului Breusch - Pagan sunt ușurința de utilizare și siguranța în
cazul în care heteroscedasticitatea este legată de unul sau mai mulți factori de
proporționalitate liniară. Slăbiciunea sa este că, dacă nu reușește să găsească
heteroscedasticitate, înseamnă că nu există nicio dovadă de heteroscedasticitate legată de 𝑍-
urile alese, nu și de alte 𝑍-uri posibile. Dacă 𝑋-urile din regresia auxiliară sunt singurii factori
de proporționalitate plauzibili, testul este satisfăcător. Dar dacă pot exista și alți factori de
proporționalitate, testul nu poate răspunde la întrebarea privind existența
heteroscedasticității. În acest caz atunci este indicată folosirea testului White.
Pentru un exemplu de utilizare a testului Breusch-Pagan, se revine la exemplul
restaurantelor Woody și se utilizează reziduurile ecuației pentru a testa
heteroscedasticitatea. Se reamintește că prin regresia Woody se explică numărul de clienți,
măsurat prin volumul încasărilor (𝑌) pentru o serie transversală a 33 de restaurante Woody
diferite, în funcție de numărul de concurenți din apropiere (𝑁), populația din apropiere (𝑃)
și venitul mediu al gospodăriilor populației din zona apropiată localului (I):

𝑦̂𝑖 = 102.192 − 9075 ∙ 𝑁𝑖 + 0.3547 ∙ 𝑃𝑖 + 1.288 ∙ 𝐼𝑖


(2053) (0.073) (0.543)
t= –4.42 4.88 2.37
n = 33 R̅2 = 0.579

Primul pas pentru efectuarea testului Breusch-Pagan este obținerea seriei de


reziduuri. Se estimează regresia. Majoritatea software-urilor oferă această serie de
reziduuri.
Al doilea pas este ridicarea la pătrat a reziduurilor și folosirea acestei noi serii ca
variabilă dependentă într-o regresie auxiliară. Dacă se includ toate variabilele independente
în ecuația auxiliară, se obține:

𝑒𝑖2 = 𝛼0 + 𝛼1 𝑁𝑖 + 𝛼2 𝑃𝑖 + 𝛼3 𝐼𝑖 + 𝑢𝑖

La al treilea pas, se estimează ecuația auxiliară, se notează 𝑅 2 = 0.0441. Deoarece se


cunoaște n = 33, se poate calcula statistica chi-pătrat: 𝜒 2 = 𝑛 ∙ 𝑅 2 = 33 ∙ (0.0441) = 1.455.
Deoarece valoarea critică pentru un prag de semnificație de 5% a lui 𝜒 2 , cu 3 grade de
libertate, este 7,81, nu se poate respinge ipoteza nulă 𝐻0 : 𝛼1 = 𝛼2 = 𝛼3 = 0. Ca urmare,
testul Breusch-Pagan nu oferă nicio dovadă că ecuația Woody suferă de heteroscedasticitate.
Rezultatul are sens. Chiar dacă eșantionul Woody este în secțiune transversală, cea mai mare
valoare a variabilei dependente nu este chiar de două ori dimensiunea celei mai mici, așa că
nu există vreun motiv ca heteroscedasticitatea pură să fie bănuită.

Testul White

Testul White este, probabil, cel mai popular dintre toate testele de
heteroscedasticitate, deoarece poate găsi mai multe tipuri de heteroscedasticitate decât
orice alt test. Acesta este un avantaj distinct într-o lume în care aproape orice variabilă sau
o combinație de variabile, liniare sau neliniare, ar putea ridica o problemă de
heteroscedasticitate. Testul White investighează posibilitatea heteroscedasticității într-o
ecuație, analizând posibilitatea ca pătratul reziduurilor să poată fi explicat prin variabilele
independente ale ecuației, pătratele lor și produsele lor încrucișate. Pentru a rula testul
White trebuie parcurși următorii pași:
1. Se estimează ecuația inițială. Se obține seria de reziduuri.
2. Se estimează regresia auxiliară, utilizând pătratul reziduurilor ca variabilă dependentă,
iar ca variabile independente se folosesc fiecare 𝑋 din ecuația inițială, pătratul fiecărui 𝑋
și produsul fiecărui 𝑋 cu fiecare dintre ceilalți 𝑋 . De exemplu, dacă variabilele
independente ale ecuației originale sunt 𝑋1 și 𝑋2 , ecuația auxiliară pentru testul White
este:

𝑒𝑖2 = 𝛼0 + 𝛼1 𝑋1𝑖 + 𝛼2 𝑋2𝑖 + 𝛼3 𝑋1𝑖


2 2
+ 𝛼4 𝑋2𝑖 + 𝛼5 𝑋1𝑖 𝑋2𝑖 + 𝑢𝑖

3. Se testează semnificația generală a ecuației auxiliare cu un test chi-pătrat. Încă o dată,


statistica testului este 𝑛 ∙ 𝑅 2 , unde 𝑛 este dimensiunea eșantionului, iar 𝑅 2 este
coeficientul de determinație neajustat al ecuației auxiliare. Această statistică are o
distribuție chi-pătrat cu numărul gradelor de libertate egal cu numărul coeficienților
pantă din regresia auxiliară. Ipoteza nulă este că toți coeficienții pantă din ecuația
auxiliară sunt egali cu zero, iar dacă 𝑛 ∙ 𝑅 2 este mai mare decât valoarea critică chi-pătrat,
atunci se poate respinge ipoteza nulă și se poate concluziona că există dovezi de
heteroscedasticitate.

Ca variabile explicative în ecuația auxiliară se includ toate variabilele din modelul inițial,
pătratele și produsele lor încrucișate. Includerea tuturor variabilelor din modelul original
permite testului White să verifice dacă unele dintre ele sau toate sunt factori de
proporționalitate 𝑍 . Includerea tuturor termenilor la pătrat și a produselor încrucișate
permite testarea unor tipuri de heteroscedasticitate mai exotice și complexe. În aceasta stă
puterea testului White.
Testul White conține mai multe variabile în partea dreaptă a ecuației decât regresia
inițială, uneori mult mai multe. Aceasta poate fi cea mai mare slăbiciune a sa. Pentru a
înțelege de ce, se poate observa că, odată cu creșterea numărului de variabile explicative din
regresia originală, numărul de variabile explicative din regresia auxiliară a testului White
crește mult mai repede. De exemplu, există cinci variabile explicative în ecuația auxiliară,
chiar dacă modelul inițial avea doar două, 𝑋1 și 𝑋2 . Cu trei variabile în modelul inițial,
regresia auxiliară White are 9 variabile explicative. Cu 12 variabile explicative în modelul
original, sunt 90 de regresori în regresia White, cu toate pătratele și termenii încrucișați
incluși!
Dacă numărul de variabile din partea dreaptă a regresiei auxiliare depășește numărul de
observări, nu se poate rula regresia White, deoarece numărul de grade de libertate în ecuația
auxiliară devine negativ! Chiar dacă gradele de libertate în ecuația auxiliară sunt pozitive,
dar mici, testul White este nerelevant în detectarea heteroscedasticității, deoarece cu cât
sunt mai puține grade de libertate, cu atât este slabă puterea acestui test. Într-o astfel de
situație, se revine la testul Breusch-Pagan sau la o alternativă a sa.
Ca exemplu de utilizare a testului White, se reia modelul restaurantelor Woody. Ca și în
cazul testului Breusch-Pagan, primul pas este obținerea reziduurilor ecuației inițiale Woody.
Al doilea pas este ridicarea la pătrat a reziduurilor și folosirea acestora ca variabilă
dependentă în ecuația de regresie auxiliară care include ca variabile independente N, P, I,
pătratele lor și produsele lor încrucișate:

𝑒𝑖2 = 𝛼0 + 𝛼1 𝑁𝑖 + 𝛼2 𝑃𝑖 + 𝛼3 𝐼𝑖 + 𝛼4 𝑁𝑖2 + 𝛼5 𝑃𝑖2 + 𝛼6 𝐼𝑖2 + 𝛼7 𝑁𝑖 𝑃𝑖 + 𝛼8 𝑁𝑖 𝐼𝑖 + 𝛼9 𝑃𝑖 𝐼𝑖 + 𝑢𝑖

Se estimează această ecuație cu datele Woody. Se obține 𝑅 2 = 0,1218. Cum n = 33, se


obține statistica chi-pătrat: 𝜒 2 = 𝑛 ∙ 𝑅 2 = 33 ∙ 0,1218 = 4,02. Aceasta valoare este mai mică
decât pragul critic pentru 𝛼 = 5% și 9 grade de libertate, care este 16,92. Ca urmare, încă
odată, nu se poate respinge ipoteza nulă a homoscedasticității, nu există indicii de
heteroscedasticitate în ecuația Woody.

Remedii pentru heteroscedasticitate

Primul lucru de făcut dacă testul Breusch-Pagan sau testul White indică posibilitatea
heteroscedasticității este de a examina cu atenție ecuația pentru a elimina erorile de
specificare. Deși nu ar trebui inclusă niciodată o variabilă explicativă pur și simplu pentru că
un test indică posibilitatea heteroscedasticității, specificarea ecuației de regresie trebuie
gândită riguros. Dacă această regândire vă permite să descoperiți o variabilă care ar fi trebuit
să fie în regresie de la început, atunci acea variabilă ar trebui să fie adăugată în ecuație. În
mod similar, dacă forma funcțională a fot aleasă greșit la început, descoperirea
heteroscedasticității ar putea fi sugestia de a regândi specificația astfel încât să se aleagă
forma funcțională care reprezintă cel mai bine teoria de bază. Cu toate acestea, dacă nu există
erori evidente în specificație, heteroscedasticitatea este probabil de natură pură și trebuie
luat în considerare unul dintre remediile descrise în această secțiune.

Erori standard heteroscedastic corectate (𝑯𝑪)

Cel mai popular remediu pentru heteroscedasticitate este corectarea erorilor


standard heteroscedastice, prin care se ajustează estimatorii 𝑆𝐸(𝛽̂ ) pentru
heteroscedasticitate, folosind în continuare estimările OLS ale coeficienților pantă. Logica
din spatele acestei abordări este puternică. Deoarece heteroscedasticitatea provoacă
probleme cu 𝑆𝐸(𝛽̂ ), dar nu și cu 𝛽̂ , are sens să se îmbunătățească estimatorii 𝑆𝐸(𝛽̂ ) într-un
mod care să nu modifice estimatorii coeficienților pantă. Această abordare este practic
identică cu utilizarea erorilor standard Newey-West ca remediu pentru corelația serială.
Astfel, erorile standard heteroscedastic corectate (𝐻𝐶) sunt 𝑆𝐸(𝛽̂ ) − uri care au fost
calculate special pentru a evita consecințele heteroscedasticității. Procedura 𝐻𝐶 produce
estimatori ai erorilor standard care, deși sunt deplasați, sunt, în general, mai exacți decât
erorile standard necorectate pentru eșantioane mari, în prezența heteroscedasticității. Ca
urmare, 𝑆𝐸(𝛽̂ ) 𝐻𝐶 pot fi utilizat în teste 𝑡 și alte teste de ipoteză în majoritatea
eșantioanelor, fără erori de inferență potențial cauzate de heteroscedasticitate. De obicei,
𝑆𝐸(𝛽̂ ) HC sunt mai mari decât 𝑆𝐸(𝛽̂ ) OLS, producând astfel scoruri 𝑡 mai mici și scăzând
probabilitatea ca un coeficient estimat să fie declarat în mod eronat semnificativ diferit de
zero. Tehnica a fost sugerată de Halbert White în același articol în care a propus testul White
pentru heteroscedasticitate.
Există câteva probleme cu utilizarea erorilor standard heteroscedastic corectate. În
primul rând, tehnica funcționează cel mai bine pentru eșantioane mari, așa că este mai bine
să se evite 𝑆𝐸(𝛽̂ ) 𝐻𝐶 în eșantioane mici. În al doilea rând, detaliile privind calculul
𝑆𝐸(𝛽̂ ) 𝐻𝐶 sunt dincolo de domeniul de aplicare al acestui text și implică un model care este
substanțial mai general decât construcția teoretică de bază, 𝑉𝐴𝑅(𝜀𝑖 ) = 𝜎 2 𝑍𝑖 , de la acest
capitol. În plus, nu toate pachetele software de regresie calculează erori standard
heteroscedastic corectate.

Redefinirea variabilelor

O altă abordare pentru eliberarea unei ecuații de heteroscedasticitate este de a reveni


la teoria de bază a ecuației și de a redefini variabilele într-un mod care să evite
heteroscedasticitatea. O redefinire a variabilelor este adesea utilă pentru a permite ecuației
estimate să se concentreze mai mult pe aspectele comportamentale ale relației. O astfel de
regândire este un proces dificil și descurajant, deoarece pare să respingă toată munca deja
făcută. Cu toate acestea, odată revizuită lucrarea teoretică, abordările alternative care sunt
descoperite sunt adesea captivante prin faptul că oferă modalități posibile de a evita
problemele care păreau anterior insurmontabile. Se cere atenție însă, deoarece redefinirea
variabilelor este o modificare funcțională a formei specificației care poate schimba dramatic
ecuația de regresie. În unele cazuri, singura redefinire necesară pentru a elibera o ecuație de
heteroscedasticitate este trecerea de la o formă funcțională liniară la o formă funcțională cu
dublu log. Forma log-log are o varianță în mod inerent mai mică decât forma liniară, astfel
încât este mai puțin probabil să se confrunte cu heteroscedasticitatea. În plus, există multe
subiecte de cercetare pentru care forma log-log este la fel de logică teoretic ca forma liniară.
Acest lucru este valabil mai ales dacă forma liniară a fost aleasă implicit, așa cum se întâmplă
adesea.
În alte situații, ar putea fi necesară regândirea completă a proiectului de cercetare, în
ceea ce privește fundamentul său teoretic. De exemplu, construirea unui model transversal
al cheltuielilor totale ale primăriilor diferitelor orașe. Variabilele explicative logice care
trebuie luate în considerare într-o astfel de analiză sunt veniturile agregate, populația și
salariul mediu din fiecare oraș. Cu cât este mai mare venitul total al rezidenților și al
afacerilor din oraș, de exemplu, cu atât sunt mai mari cheltuielile orașului (Figura 5). În acest
caz, nu este foarte edificator să se cunoască faptul că orașele mai mari au venituri mai mari
și cheltuieli mai mari (în magnitudine absolută) decât cele mai mici.
Adaptarea unei linii de regresie la astfel de date, cum este ilustrat în Figura 6, acordă,
de asemenea, o greutate nejustificată orașelor mai mari, deoarece altfel ar da naștere la
pătrate de reziduuri mai mari. Cu alte cuvinte, întrucât OLS reduce la minimum pătratul
reziduurilor și din moment ce reziduurile din orașele mari sunt susceptibile de a fi mari
datorită pur și simplu dimensiunii orașului, estimarea regresiei va fi deosebit de sensibilă la
reziduurile din orașele mari. Aceasta este adesea numită „corelație falsă” datorită mărimii.

Figura 5. Cheltuielile agregate ale orașelor


Figura 6. Cheltuielile per locuitor

În plus, reziduurile pot indica heteroscedasticitate. Este logic să ia în considerare


reformularea modelului într-un mod care să reducă factorul de scară, dimensiunea orașelor,
și să sublinieze comportamentul de bază privind cheltuielile. În acest caz, cheltuielile pe cap
de locuitor ar fi o variabilă dependentă logică. O astfel de transformare este prezentată în
Figura 6. Această formă a ecuației plasează Bucureștiul și Clujul, pe aceeași scară cu, să zicem,
Codlea și Sinaia, și, astfel, le dă aceeași pondere în estimarea. În cazul în care o variabilă
explicativă nu este o funcție de dimensiunea orașului, totuși, nu ar trebui să fie ajustată la
termeni per capita. Dacă ecuația ar include salariul mediu al lucrătorilor din oraș, de
exemplu, acel salariu nu ar trebui să fie împărțit la populație în ecuația transformată.
De exemplu, dacă ecuația originală este:

𝐸𝑋𝑃𝑖 = 𝛽0 + 𝛽1 𝑃𝑂𝑃𝑖 + 𝛽2 𝐼𝑁𝐶𝑖 + 𝛽3 𝑊𝐴𝐺𝐸𝑖 + 𝑢𝑖

unde 𝐸𝑋𝑃𝑖 se referă la cheltuieli, 𝐼𝑁𝐶𝑖 se referă la venituri, 𝑊𝐴𝐺𝐸𝑖 se referă la salariul mediu,
iar 𝑃𝑂𝑃𝑖 se referă la populația orașului.
Ecuația transformată este:

𝐸𝑋𝑃𝑖 𝐼𝑁𝐶𝑖
= 𝛼0 + 𝛼1 + 𝛼2 𝑊𝐴𝐺𝐸𝑖 + 𝑢𝑖
𝑃𝑂𝑃𝑖 𝑃𝑂𝑃𝑖

unde 𝑢𝑖 este un termen clasic de eroare homosedastică. În timp ce ecuația transformată


direct evită probabil heteroscedasticitatea, o astfel de soluție ar trebui considerată
incidentală pentru beneficiile regândirii ecuației într-un mod care să se concentreze pe
comportamentul de bază examinat. Este posibil ca ecuația reformulată să aibă, în continuare,
heteroschedasticitate. Variațiile erorii pot fi mai mari pentru observările pentru care,
valorile pe cap de locuitor pentru cheltuieli, diferă semnificativ între orașe. Astfel, este
legitim să suspectăm și să testăm heteroscedasticitatea chiar și în acest model transformat.
O astfel de heteroscedasticitate în ecuația transformată este totuși, puțin probabilă, deoarece
va exista o mică parte a variației în dimensiune, în mod normal asociată cu
heteroscedasticitatea.
Ecuația transformată este foarte similară cu ecuația Weighted Least Squares (WLS).
WLS este un remediu pentru heteroscedasticitate care constă în împărțirea întregii ecuații,
inclusiv a termenului constant și a erorii, prin factorul de proporționalitate 𝑍 (aici 𝑍 este
𝑃𝑂𝑃𝑖 ) și apoi reestimarea ecuației cu OLS. Pentru exemplul din această secțiune, ecuația
WLS ar fi:

𝐸𝑋𝑃𝑖 𝛽0 𝐼𝑁𝐶𝑖 𝑊𝐴𝐺𝐸𝑖


= + 𝛽1 + 𝛽2 + 𝛽3 + 𝑢𝑖
𝑃𝑂𝑃𝑖 𝑃𝑂𝑃𝑖 𝑃𝑂𝑃𝑖 𝑃𝑂𝑃𝑖

unde coeficienții β și variabilele sunt identice cu cele din ecuația originală. Împărțirea prin 𝑍
face ca 𝑢𝑖 să fie un termen de eroare homoscedastic, atât timp cât factorul de
proporționalitate 𝑍 este ales corect. Această alegere a factorului de proporționalitate nu este
o problemă banală. Există alte transformări, precum HC, care sunt mult mai ușor de utilizat
decât WLS, așa că nu recomandăm utilizarea WLS.

Sumar

1. Heteroscedasticitatea este încălcarea ipotezei clasice V, conform căreia erorile urmează


o distribuție cu o varianță constantă. Erorile homoscedastice provin dintr-o distribuție
care are o varianță constantă pentru toate observările, iar erorile heteroscedastice
provin din distribuții ale căror variații diferă de la observare la observare.
Heteroscedasticitatea apare cel mai frecvent în seturile de date transversale.
2. Varianța erorii heteroscedastice nu este egală cu 𝜎 2 , o constantă. În schimb, ea este egală
cu 𝜎𝑖2 , unde indicele 𝑖 indică faptul că varianța se poate schimba de la observare la
observare. Sunt posibile mai multe tipuri de heteroscedasticitate, dar un model comun
este unul în care varianța se schimbă sistematic ca funcție a unei alte variabile, un factor
de proporționalitate Z:

𝑉𝐴𝑅(𝜀𝑖 ) = 𝜎 2 𝑍𝑖

Factorul de proporționalitate Z este de obicei o variabilă legată într-un fel de


dimensiunea sau precizia variabilei dependente.
3. Heteroscedasticitatea pură este o caracteristică a erorii într-o ecuației de regresie
specificată corect. Heteroscedasticitatea impură este cauzată de o eroare de specificare,
cum ar fi o variabilă omisă.
4. Consecința majoră a heteroscedasticității este deplasarea 𝑆𝐸(𝛽̂ ) 𝑂𝐿𝑆, care determină
nesiguranță în testarea ipotezelor. Heteroscedasticitatea pură nu provoacă
deplasamente ale estimatorilor coeficienților, 𝛽̂ .
5. Două teste sunt des folosite pentru detectarea heteroscedasticității: testul Breusch-
Pagan și testul White. Ambele testează heteroscedasticitatea analizând măsura în care
pătratele reziduurilor ecuației originale pot fi explicate printr-o ecuație auxiliară.
6. Primul pas în corectarea heteroscedasticității este verificarea unei erori de specificație
care ar putea provoca heteroscedasticitate impură. Dacă specificația este cât se poate de
bună, atunci trebuie luate în considerare soluții precum erorile standard heteroscedastic
corectate 𝐻𝐶 sau redefinirea variabilelor.

S-ar putea să vă placă și