Sunteți pe pagina 1din 35

4.

Modelul clasic

În econometrie, termenul clasic se referă la un set de ipoteze elementare, necesare


pentru a considera 𝑂𝐿𝑆 ca fiind cel mai bun estimator disponibil pentru modelele de regresie.
Când una sau mai multe dintre aceste ipoteze nu sunt îndeplinite, alte tehnici de estimare,
cum ar fi metoda celor mai mici pătrate generalizată, 𝐺𝐿𝑆 (metodă care va fi explicată într-
un capitol viitor), pot fi mai bune decât 𝑂𝐿𝑆.
Ca urmare, una dintre cele mai importante etape în analiza de regresie este aceea de
a decide dacă, pentru o anumită ecuație, ipotezele clasice sunt îndeplinite. Dacă da, tehnica
de estimare 𝑂𝐿𝑆 este cea mai bună disponibilă. În caz contrar, avantajele și dezavantajele
tehnicilor alternative de estimare trebuie analizate. Aceste alternative sunt de obicei ajustări
ale 𝑂𝐿𝑆 care țin cont de ipoteza concretă care a fost încălcată. În consecință, cea mai mare
parte a restului acestui curs se ocupă, într-un fel sau altul, de a da răspuns la întrebarea: ce
trebuie făcut atunci când una dintre ipotezele clasice nu este îndeplinită? Întrucât
econometricienii petrec atât de mult timp analizând încălcările ipotezelor clasice, este
crucială cunoașterea și înțelegerea acestor ipoteze.

Ipotezele clasice

Ipotezele clasice trebuie îndeplinite pentru ca estimatorii 𝑂𝐿𝑆 să fie cei mai buni
disponibili. Datorită importanței lor în analiza de regresie, ipotezele sunt prezentate aici în
formă tabelară, precum și în cuvinte.

Ipotezele clasice

I. Modelul de regresie este liniar, este specificat corect și are un termen de eroare
aditiv
II. La nivelul populației, termenul de eroare are media egală cu zero
III. Nici una dintre variabilele independente nu este corelată cu termenul de eroare
IV. Observările reprezentând termenul de eroare sunt necorelate între ele (lipsa
corelației seriale)
V. Termenul de eroare are o varianță constantă (fără heteroscedasticitate)
VI. Nicio variabilă independentă nu este o funcție liniară perfectă a oricărei alte
variabilă/variabile independente (fără multicoliniaritate perfectă)
VII. Termenul de eroare este normal distribuit (această ipoteză este opțională, dar de
obicei este invocată)
În capitolele următoare se vor investiga încălcările majore ale ipotezelor clasice și se vor
introduce tehnici de estimare care pot oferi estimări mai bune în astfel de cazuri. Un termen
de eroare care îndeplinește ipotezele I până la V se numește un termen de eroare clasic, iar
dacă se adaugă ipoteza VII, termenul de eroare se numește termen de eroare normal clasic.

I. Modelul de regresie este liniar, este specificat corect și are un termen de eroare aditiv.
Se presupune că modelul de regresie este liniar:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖

Presupunerea că modelul de regresie este liniar nu necesită ca funcția subiacentă să fie


liniară. De exemplu, o ecuație reprezentând o funcție exponențială:

𝛽
𝑌𝑖 = 𝑒 𝛽0 𝑋1 1 𝑒 𝜀𝑖

unde 𝑒 este baza logaritmului natural, poate fi transformată într-o ecuație liniară aplicând
logaritmul natural ambelor părți ale ecuației de mai sus. Se obține:

ln(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝑙𝑛(𝑋𝑖 ) + 𝜀𝑖

Dacă variabilele sunt reetichetate, notând: 𝑌𝑖∗ = 𝑙𝑛(𝑌𝑖 ) ș𝑖 𝑋𝑖∗ = 𝑙𝑛(𝑋𝑖 ), se obține ecuația:

𝑌𝑖∗ = 𝛽0 + 𝛽1 𝑋𝑖∗ + 𝜀𝑖

În această ecuație, care este una liniară, proprietățile estimatorului 𝑂𝐿𝑆 ale
coeficienților 𝛽 sunt încă valabile.
În plus, trebuie îndeplinite două proprietăți suplimentare. În primul rând, se
presupune că ecuația este specificată corect. Dacă o ecuație are o variabilă omisă sau o formă
funcțională incorectă, șansele ca ecuația să funcționeze corect sunt reduse. În al doilea rând,
se presupune că în ecuație a fost adăugat un termen de eroare stocastică. Acest termen de
eroare trebuie să fie unul aditiv și nu poate fi înmulțit sau divizat prin niciuna dintre
variabilele din ecuație.

II. Media termenul de eroare, la nivelul populației, este egală cu zero.


După cum s-a subliniat anterior, econometricienii adaugă un termen de eroare
stocastică (aleatorie) la ecuațiile de regresie, pentru a lua în considerare variația variabilei
dependente care nu este explicată de model. Valoarea specifică a termenului de eroare
pentru fiecare observare este determinată pur întâmplător. Probabil cel mai bun mod de a
ilustra acest concept este cel din Figura 1, în care fiecare observare a termenului de eroare
este considerată a fi extrasă din distribuția unei variabile aleatoare. În Figura 1 este
reprezentată o distribuție normală, de medie zero.
Probabilitate

− 0 + 𝜀
Figura 1. O distribuție a termenului de eroare, cu media zero
Se presupune că observările termenului de eroare stocastică sunt extrase din distribuția unei variabile
aleatoare, cu media egală cu zero. Dacă este îndeplinită ipoteza clasică II, valoarea așteptată (media) a
termenului de eroare este egală cu zero.

Ipoteza clasică II afirmă că media acestei distribuții este zero. Altfel spus, atunci când
se ia în considerare întreaga populație de valori posibile pentru termenul de eroare
stocastică, valoarea medie a acelor valori este zero. Pentru un eșantion mic, nu este
improbabil ca media să fie diferită de zero, dar pe măsură ce dimensiunea eșantionului se
apropie de infinit, media eșantionului se apropie de zero.
Ce se întâmplă dacă media nu este egală cu zero într-un eșantion? De îndată ce în
ecuație este adăugat un termen constant, 𝛽0, estimarea sa va absorbi diferența mediei
termenului de eroare față de zero. În esență, termenul constant este egal cu partea fixă a
variației lui 𝑌 care nu poate fi explicată de variabilele independente, iar termenul de eroare
este egal cu partea stocastică a valorii neexplicate a lui 𝑌.
Deși este adevărat că termenul de eroare nu poate fi observat niciodată, este
instructiv să se parcurgă un raționament matematic pentru a înțelege felul în care termenul
constant absoarbe media non-zero a termenului de eroare dintr-un eșantion. Fie o ecuație
de regresie tipică:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

Dacă se presupunem că media lui 𝜀𝑖 este 3 în loc de 0, atunci 𝐸(𝜀𝑖 − 3) = 0. Dacă în ecuație
se adăugă 3 la termenul constant și se scade 3 din termenul de eroare, se obține:

𝑌𝑖 = (𝛽0 + 3) + 𝛽1 𝑋𝑖 + (𝜀𝑖 − 3)
Deoarece cele două ecuații sunt echivalente, și pentru că 𝐸(𝜀𝑖 − 3) = 0, atunci ultima ecuație
poate fi rescrisă într-un format în care termenul de eroare are media zero, în felul următor:

𝑌𝑖 = 𝛽0∗ + 𝛽1 𝑋𝑖 + 𝜀𝑖∗

unde 𝛽0∗ = 𝛽0 + 3, iar 𝜀𝑖∗ = 𝜀𝑖 − 3. După cum se poate vedea, ultima ecuație este conformă cu
ipoteza II. În esență, dacă ipoteza clasică II este încălcată într-o ecuație care include un
termen constant, atunci estimarea lui 𝛽0 absoarbe diferența față de zero a termenului de
eroare, iar estimările celorlalți coeficienți nu sunt afectate.

III. Toate variabilele explicative sunt necorelate cu termenul de eroare.


Această ipoteză constă în presupunerea că valorile observate ale variabilelor explicative
sunt independente de valorile termenului de eroare.
Dacă o variabilă explicativă și termenul de eroare ar fi în schimb corelate între ele,
estimatorul 𝑂𝐿𝑆 probabil ar atribui lui 𝑋 o parte din variația lui 𝑌, care vine, de fapt, de la
termenul de eroare. Dacă termenul de eroare și 𝑋 ar fi corelate pozitiv, de exemplu, atunci
coeficientul estimat ar fi probabil mai mare decât ar fi fost altfel (deplasat în sus), deoarece
programul 𝑂𝐿𝑆 ar considera greșit că variația lui 𝑌 este cauzată de 𝑋. Prin urmare, este
important să se verifice că variabilele explicative sunt necorelate cu termenul de eroare.
Ipoteza clasică III este încălcată cel mai frecvent atunci când din model este omisă o
variabilă independentă importantă. În acest caz, termenul de eroare se va modifica atunci
când variabila omisă se modifică. Dacă această variabilă omisă este corelată cu o variabilă
independentă inclusă (așa cum se întâmplă adesea în economie), atunci termenul de eroare
este corelat și cu acea variabilă independentă. Se încalcă astfel ipoteza III! Datorită acestei
încălcări, 𝑂𝐿𝑆 va atribui variabilei incluse impactul variabilei omise, în măsura în care cele
două variabile sunt corelate.

IV. Valorile observate ale termenului de eroare sunt necorelate între ele.
Valorile observate ale termenului de eroare sunt generate independent unele de
celelalte. Dacă există o corelație sistematică între o valoare observată a termenului de eroare
și alta, atunci estimările 𝑂𝐿𝑆 vor fi mai puțin precise decât estimările provenite din tehnici
de estimare care iau în considerare corelația. De exemplu, dacă se constată că 𝜀 dintr-o
observare este pozitiv, iar acest fapt crește probabilitatea ca și 𝜀 dintr-o altă observare să fie
pozitiv, atunci cele două observări ale termenului de eroare sunt corelate pozitiv. O astfel de
corelație încalcă ipoteza clasică IV.
În aplicațiile economice, această ipoteză este mai probabil să apară în modelele în serie
temporală. Într-un astfel de context, ipoteza IV spune că o creștere a termenului de eroare
într-o perioadă de timp (un șoc aleatoriu, de exemplu) nu apare sau nu afectează în niciun
fel termenul de eroare într-o altă perioadă de timp. În unele cazuri, însă, această ipoteză este
nerealistă, deoarece efectele unui șoc aleatoriu durează uneori un număr de perioade de
timp. De exemplu, un eveniment aleatoriu precum pandemia de coronavirus va avea un
impact negativ asupra economiei mondiale mult timp după declanșarea sa. Dacă, pentru
toate observările din eșantion, 𝜀𝑡+1 este corelat cu 𝜀𝑡 , atunci se spune că termenul de eroare
este corelat în serie (sau autocorelat), iar ipoteza IV este încălcată. Încălcările acestei ipoteze
sunt luate în considerare mai detaliat într-un capitol viitor.

V. Termenul de eroare are o varianță constantă.


Varianța (sau dispersia) distribuției din care sunt extrase observările termenului de
eroare este constantă. Adică, se presupune că observările termenului de eroare sunt extrase
continuu din distribuții identice (cum este, de exemplu, cea ilustrată în Figura 1). Alternativa
ar fi ca varianța distribuției termenului de eroare să se schimbe pentru fiecare observare sau
pentru un interval de observări. În Figura 2, de exemplu, varianța termenului de eroare
crește pe măsură ce variabila 𝑍 crește. Un astfel de model încalcă ipoteza clasică V. Valorile
reale ale termenului de eroare nu sunt direct observabile, dar lipsa unei varianțe constante
pentru distribuția termenului de eroare face ca 𝑂𝐿𝑆 să genereze estimări inexacte ale
erorilor standard ale coeficienților.
Un exemplu de încălcare a ipotezei V poate fi studiul sumelor de bani cheltuite pentru
educație în cele 50 de state ale SUA. New York și California sunt mai populate decât New
Hampshire și Nevada, deci este probabil ca varianța termenului de eroare pentru statele
mari să fie mai mare decât pentru statele mici. Partea de variație neexplicată a cheltuielilor
educaționale pare să fie mai mare în statele mari precum New York, decât în statele mici
precum New Hampshire. Încălcarea ipotezei V este denumită heteroskedasticitate și va fi
discutată mai detaliat într-un capitol viitor.

𝑌 Valori mari ale lui 𝜀 asociate


cu valori mari ale lui 𝑍

𝐸 𝑌|𝑋 = 𝛽0 + 𝛽1 𝑍

Valori mici ale lui 𝜀 asociate


cu valori mici ale lui 𝑍
0 𝑍

Figura 2. Un termen de eroare a cărui varianță crește pe măsură ce valorile lui 𝑍 cresc
Un exemplu în care ipoteza clasică V nu este îndeplinită. O astfel de situație apare atunci când varianța
termenului de eroare crește pe măsură ce 𝑍 crește. Într-o astfel de situație (numită heteroskedasticitate),
observările sunt, în medie, mai departe de linia de regresie adevărată pentru valori mari ale 𝑍, decât pentru
valori mici ale 𝑍.
VI. Nicio variabilă explicativă nu este o funcție liniară perfectă a oricărei alte variabile
explicative.
Coliniaritatea perfectă între două variabile independente implică faptul că acestea
sunt, în realitate, aceeași variabilă, sau că una este multiplu a celeilalte sau că diferă printr-o
constantă. Adică, mișcările relative ale unei variabile explicative vor fi replicate exact de
mișcările relative ale celeilalte, chiar dacă dimensiunea absolută a mișcărilor ar putea diferi.
Deoarece fiecare mișcare a uneia dintre variabile este replicată exact de o mișcare relativă a
celeilalte, procedura de estimare 𝑂𝐿𝑆 va fi incapabilă să distingă o variabilă de cealaltă.
Multe cazuri de coliniaritate perfectă (sau multicoliniaritate, dacă sunt implicate mai
mult de două variabile independente) sunt rezultatul faptului că cercetătorul nu ia în
considerare identitățile (echivalențe definiționale) printre variabilele independente.
Această problemă poate fi corectată cu ușurință, prin eliminarea din ecuație a uneia dintre
variabilele perfect coliniare.
Un exemplu de multicoliniaritate perfectă poate apărea într-un model al profiturilor
magazinelor de anvelope dintr-un oraș, variabilele independente fiind vânzările anuale de
anvelope (în dolari) ale fiecărui magazin și impozitul anual pe vânzări plătit de fiecare
magazin. Deoarece magazinele de anvelope sunt toate din același oraș, toate plătesc același
procent de impozit pe vânzări, deci impozitul pe vânzări plătit va fi un procent constant din
vânzările lor totale. Dacă rata impozitului pe vânzări este, de exemplu, 7%, atunci impozitele
totale plătite vor fi 7% din vânzări pentru fiecare magazin de anvelope. Astfel, taxa pe vânzări
va fi o funcție liniară perfectă a vânzărilor, iar modelul va avea o multicoliniaritate perfectă!
Multicoliniaritatea perfectă poate apărea, de asemenea, atunci când două variabile
independente însumate dau întotdeauna aceeași valoare (o treime, de exemplu) sau când
una dintre variabilele explicative nu se modifică în eșantion. În modelele cu
multicoliniaritate perfectă, 𝑂𝐿𝑆 (sau orice altă tehnică de estimare) nu va putea estima
coeficienții variabilelor coliniare (cu excepția cazului în care există o eroare de rotunjire).
Deși este destul de neobișnuit ca un cercetător experimentat să se confrunte cu
multicoliniaritatea perfectă, chiar și multicolinealitatea imperfectă poate cauza probleme de
estimare, după cum se va vedea într-un capitol viitor.

VII. Termenul de eroare este distribuit după o lege de distribuție normală.


Deși s-a presupus că observările termenului de eroare sunt extrase independent
(ipoteza IV) dintr-o distribuție care are o medie zero (ipoteza II) și care are o varianță
constantă (ipoteza V), nu s-a spus nimic despre forma distribuției. Ipoteza VII afirmă că
observările termenului de eroare sunt extrase dintr-o distribuție normală (adică în formă de
clopot și, în general, urmând modelul simetric prezentat în Figura 3).
Această presupunere de normalitate nu este necesară pentru estimarea 𝑂𝐿𝑆. Aplicația
sa majoră este la testarea ipotezelor și determinarea intervalelor de încredere, care
utilizează coeficientul de regresie estimat pentru a investiga ipotezele privind
comportamentul economic. Testarea ipotezelor face obiectul unui capitol viitor, iar fără
ipoteza normalității, majoritatea testelor pentru eșantioane mici nu ar fi valide.
Probabilitate

Distribuția B
Distribuția A
𝜇=2
𝜇=0
𝜎 2 = 0.5
𝜎2 = 1

−2.0 0 +2.0 +4.0

Figura 3. Distribuții normale


Deși toate distribuțiile normale sunt simetrice și au formă de clopot, ele nu au neapărat aceeași medie și
varianță. Distribuția A are media 0 și varianța 1, în timp ce distribuția B are o medie de 2 și o varianță de 0,5.
După cum se poate vedea, întreaga distribuție se schimbă atunci când media se schimbă, iar distribuția devine
mai „grasă” pe măsură ce varianța crește.

Chiar dacă ipoteza VII este opțională, este de obicei recomandabil să se adauge
ipoteza de normalitate la celelalte șase ipoteze, cel puțin din două motive:
a. Termenul de eroare 𝜀𝑖 poate fi considerat ca sumă a unui număr de influențe minore sau
erori. Pe măsură ce numărul acestor influențe minore crește, distribuția termenului de
eroare tinde să se apropie de distribuția normală.
b. Statistica 𝑡 și statistica 𝐹, care vor fi dezvoltate într-un capitol viitor, nu sunt cu adevărat
aplicabile decât dacă termenul de eroare este normal distribuit.

Figura 3 arată cum diferă distribuțiile normale atunci când mediile și varianțele sunt
diferite. Distribuția normală A (o distribuție normală standard), are media 0 și varianța 1.
Distribuția normală B, are media 2, iar varianța este 0,5. Când media este diferită, întreaga
distribuție este deplasată. Când varianța este diferită, distribuția devine mai „grasă” sau mai
„slabă”.

̂
Distribuția de eșantionare a lui 𝜷

La fel cum termenul de eroare urmează o lege de distribuție, și estimările lui 𝛽


urmează, la rândul lor, legi de distribuție. De fapt, fiecare eșantion diferit de date produce,
de obicei, o estimare diferită a lui 𝛽. Distribuția de probabilitate a acestor valori ale lui 𝛽̂
provenite de la diferite eșantioane se numește distribuția de eșantionare a lui 𝛽̂ .
Reamintim că un estimator este o formulă, cum ar fi formula 𝑂𝐿𝑆, care spune cum să
se calculează 𝛽̂ , în timp ce o estimare este o valoare a lui 𝛽̂ calculată cu formula respectivă,
pentru un eșantion dat. Deoarece cercetătorii au de obicei un singur eșantion,
econometricienii începători presupun adesea că analiza de regresie poate produce o singură
estimare pentru 𝛽, pentru o anumită populație. Cu toate acestea, în realitate, fiecare eșantion
diferit din aceeași populație va produce o estimare diferită a lui 𝛽. În mulțimea tuturor
eșantioanelor posibile, valorile lui 𝛽̂ au o anumită distribuție, cu o anumită medie și o
anumită varianță. Proprietățile acestei distribuții de eșantionare ale lui 𝛽̂ trebuie analizate,
chiar dacă în majoritatea aplicațiilor reale se întâlnește doar o singură valoare estimată a sa.
O distribuție de eșantionare se referă la distribuirea diferitelor valori ale lui 𝛽̂ în diferite
eșantioane, nu doar în cadrul unuia. Aceste 𝛽̂ -uri sunt de obicei presupuse a fi distribuite în
mod normal, deoarece normalitatea termenului de eroare implică faptul că estimările 𝑂𝐿𝑆
ale lui 𝛽 sunt, de asemenea, normal distribuite.
Pentru a exemplifica conceptul de distribuție de eșantionare a lui 𝛽̂ , se revine la
exemplul din primul curs al relației dintre înălțime și greutate:

+
𝑊𝑖 = 𝛽0 + 𝛽1 𝐻𝑖 + 𝜀𝑖

Pentru un eșantion de șase studenți, de exemplu, se poate obține o estimare 𝑂𝐿𝑆 a lui
𝛽1, folosind formulele deja prezentate. Dacă se selectează un al doilea eșantion de șase
studenți și se face același lucru, se va obține o altă estimare a lui 𝛽1. Al doilea 𝛽1 va depinde
de al doilea eșantion, care aproape sigur va fi diferit de primul eșantion. Dacă eșantionul
construit aleator include câțiva studenți foarte înalți, este probabil să se obțină un coeficient
estimat mare. Dacă studenții din eșantion se întâmplă să fie scunzi, se va obține o valoare
estimată mai mică. Chiar dacă nu este nimic neobișnuit în al doilea eșantion, se va obține cu
siguranță un alt 𝛽̂1. Se întâmplă acest lucru deoarece date diferite generează estimări diferite.
Dacă se fac 100 de eșantioane, se vor obține probabil 100 de valori diferite ale lui 𝛽̂1.
Toate aceste estimări ale lui 𝛽̂1 urmează o distribuție care are propria medie și
propria varianță. Această distribuție este numită distribuție de eșantionare. Pentru 100 de
eșantioane diferite de câte șase studenți, estimând ecuația de mai sus de 100 de ori, se obțin
100 de valori ale lui 𝛽̂1. În Figura 4 sunt sintetizate rezultatele obținute. Cu ajutorul unei
histograme, au fost reprezentate grafic cele 100 de valori ale lui 𝛽̂1, astfel încât să se poată
observa distribuția de eșantionare. În timp ce histograma din Figura 4 nu este normal
distribuită, cum arată linia subțire, este aproape de o astfel de distribuție. Se observă cum
estimările sunt grupate în mijloc, aproape de media 7.75, cu estimări din ce în ce mai puține
spre cozi. Efectuând mai multe estimări ale 𝛽1, este de așteptat ca histograma să arate din ce
în ce mai mult ca o curbă normală.
Frecvența
40

30

20

10

0
−10 0 10 20 30
Estimări ale lui 𝛽1

−5.41 7.75 23.03


min media max

Figura 4. Distribuția de eșantionare a lui 𝛽̂1 pentru ecuația înălțime-greutate


Ecuația înălțime-greutate a fost estimată pentru 100 de eșantioane a câte șase studenți fiecare. În Figura 4 sunt
reprezentate cele 100 de valori ale lui 𝛽̂1 . Rezultatul este o distribuție de eșantionare a 𝛽̂1 cu o medie de 7,75 și
un model care este în mod rezonabil aproape de a fi normal distribuit (linia subțire).

Pentru ca o tehnică de estimare să fie „bună”, media distribuției de eșantionare a lui


̂
𝛽 ar trebui să fie egală cu adevărata medie a populației. Această proprietate are un nume
special în econometrie: lipsa deplasării. Deși adevărata medie nu se cunoaște, este probabil
că dacă s-ar forma suficiente eșantioane - poate mii - media lui 𝛽̂1 s-ar apropia de aceasta. De
exemplu, când s-au luat 1000 de eșantioane de câte șase studenți fiecare, media lui 𝛽̂1 a fost
de 6,88. Șansele sunt ca 6,88 să fie mai aproape de adevărata medie decât este 7,75, media
celor 100 de estimări prezentate în Figura 4.
Morala poveștii este că, deși un singur eșantion oferă o singură estimare a lui 𝛽1,
această estimare provine dintr-o distribuție de eșantionare care are o medie și o varianță
proprie. În analiza proprietățile estimatorilor, este important să se țină seama că se discută
proprietățile unei distribuții de eșantionare, nu proprietățile unui eșantion.

Proprietățile mediei

O proprietate dezirabilă a unei distribuții de eșantionare este ca media sa să fie egală


cu media reală a variabilei estimate. Un estimator care produce astfel de estimări se numește
estimator nedeplasat.

Un estimator 𝛽̂ este un estimator nedeplasat dacă distribuția sa de eșantionare are ca


valoare așteptată valoarea reală a lui 𝛽. Acest lucru se scrie prescurtat în felul următor:
𝐸(𝛽̂ ) = 𝛽
În practică se obține o singură valoare a lui 𝛽̂ , dar proprietatea de lipsă a deplasării
este utilă deoarece o singură estimare extrasă dintr-o distribuție nedeplasată este mai
probabil să fie mai aproape de valoarea adevărată (presupunând varianțe identice), decât
una luată dintr-o distribuție care nu este centrată în jurul valorii adevărate. Dacă un
estimator produce 𝛽̂ -uri care nu sunt centrate în jurul valorii adevărate, estimatorul este
denumit estimator deplasat.
Nu se poate spune cu siguranță că fiecare estimare produsă de un estimator
nedeplasat este mai bună decât fiecare estimare generată de un estimator deplasat, deoarece
o estimare particulară nedeplasată ar putea, din întâmplare, să fie mai departe de valoarea
reală decât ar putea fi o estimare deplasată. Acest lucru se poate produce din întâmplare sau
pentru că estimatorul deplasat are o varianță mai mică. De exemplu, un ceas spart este un
estimator deplasat al orei din zi, dar are o varianță zero și se întâmplă să arate ora corectă
de două ori pe zi. Fără alte informații despre distribuția estimărilor, totuși, se preferă
întotdeauna o estimare nedeplasată decât una deplasată.

Proprietățile varianței

La fel cum este de dorit ca distribuția 𝛽̂ -urilor să fie centrată în jurul adevăratului 𝛽
al populației, este de dorit ca această distribuție să fie cât mai îngustă (sau precisă) posibil.
O distribuție centrată în jurul adevărului 𝛽, dar cu o varianță extrem de mare, ar putea fi
foarte puțin utilă, deoarece orice estimare dată ar fi foarte probabil să se situeze departe de
valoarea reală. Pentru o distribuție a lui 𝛽̂ cu o varianță mică, estimările sunt probabil
apropiate de media distribuției de eșantionare. Pentru exemplificare, se pot compara
distribuțiile A și B (ambele fiind nedeplasate) din Figura 5. Distribuția A, care are o varianță
mai mare decât distribuția B, este mai puțin precisă decât distribuția B.
În scop comparativ, în Figura 5 este reprezentată și o distribuție deplasată, distribuția
C. Se poate observa că deplasarea implică faptul că valoarea cea mai așteptată a distribuției,
care este media, este situată la dreapta sau la stânga adevăratei valori 𝛽.
Varianța distribuției lui 𝛽̂ poate fi scăzută prin creșterea dimensiunii eșantionului.
Acest lucru mărește, de asemenea, gradele de libertate, deoarece numărul de grade de
libertate este egal cu dimensiunea eșantionului minus numărul de coeficienți sau parametri
estimat. Pe măsură ce numărul observărilor crește, celelalte rămânând neschimbate,
varianța distribuției de eșantionare tinde să scadă. Deși nu este neapărat adevărat că un
eșantion de 60 va produce întotdeauna estimări mai apropiate de adevăratul 𝛽 decât un
eșantion de 6, este destul de probabil să se întâmple acest lucru. Aceasta înseamnă că ar
trebui căutate astfel de eșantioane mai mari. Figura 6 prezintă distribuții ilustrative de
eșantionare ale lui 𝛽̂ pentru 6, 60 și 600 de observări, pentru estimatorii 𝑂𝐿𝑆 ai lui 𝛽, când
adevăratul 𝛽 este egal cu 1. Eșantioanele mai mari produc într-adevăr distribuții de
eșantionare care sunt mai strâns centrate în jurul mediei lor.
Distribuția B
nedeplasată, varianță mică

Distribuția C
deplasată, varianță medie
Distribuția A
nedeplasată, varianță mare

𝛽 adevărat
Figura 5. Distribuții ale lui 𝛽̂
Distribuții diferite ale lui 𝛽̂ pot avea medii și varianțe diferite. Distribuțiile 𝐴 și 𝐵, de exemplu, sunt ambele
nedeplasate, dar distribuția 𝐴 are o varianță mai mare decât distribuția 𝐵. Distribuția 𝐶 are o varianță mai mică
decât distribuția 𝐴, dar este deplasată.

Ceea ce trebuie reținut din Figura 6 este că, pentru maximizarea șanselor de a obține
o estimare apropiată de valoarea reală, 𝑂𝐿𝑆 trebuie aplicat unui eșantion mare. Nu există
nicio garanție că se va obține o estimare mai precisă dintr-un eșantion mare, dar șansele
sunt mai mari. Eșantioanele mai mari, toate celelalte fiind egale, tind să conducă la estimări
mai precise. Și dacă estimatorul este nedeplasat, estimările mai precise sunt estimări care au
o acuratețe mai mare.
De exemplu, a avea câțiva studenți scunzi într-un eșantion de 6 ar putea duce la o
estimare destul de nerealistă a parametrului 𝛽1, dar influența lor asupra lui 𝛽̂1 va fi mult mai
mică într-un eșantion de 60. Se poate întâmpla ca într-un eșantion de 6 studenți, format în
mod aleator, 2 să fie scunzi, dar este mult mai puțin probabil ca într-un eșantion de 60 de
studenți, 20 să fie scunzi. Deci, folosirea unor eșantioane mai mari este indicată.
În econometrie, importante sunt tendințele generale. Elementul întâmplător, aleator,
este întotdeauna prezent în estimarea coeficienților de regresie, iar unele estimări pot fi
departe de valoarea reală, indiferent cât de bună este tehnica de estimare. Cu toate acestea,
dacă distribuția este centrată pe valoarea reală și are o varianță cât mai mică posibil,
elementul întâmplător este mai puțin probabil să inducă o estimare slabă. Dacă distribuția
eșantionării este centrată în jurul unei alte valori decât cea a adevăratului 𝛽, adică dacă 𝛽̂
este deplasat, atunci o varianță mai mică implică faptul că cea mai mare parte a distribuției
eșantionării lui 𝛽̂ este concentrată pe valoarea greșită. Cu toate acestea, dacă această valoare
nu este foarte diferită de valoarea adevărată, care de obicei în practică nu este cunoscută,
atunci precizia mai mare va fi totuși valoroasă.
𝑛 = 600
Distribuții ale lui 𝛽̂

𝑛 = 60

𝑛=6

−3 −2 −1 0 1 2 3 4 5

Figura 6. Distribuții de eșantionare a lui 𝛽̂ pentru numere diferite de observări


Pe măsură ce mărimea eșantionului crește, varianța distribuției lui 𝛽̂ tinde să scadă. În cazul extrem
(neprezentat), un eșantion egal cu populația ar produce doar o estimare egală cu media distribuției respective,
care (pentru estimatorii nedeplasați) ar fi egală cu adevăratul 𝛽, iar varianța estimării ar fi zero.

O metodă de a decide dacă această varianță scăzută a distribuției lui 𝛽̂ este suficient
de valoroasă pentru a compensa deplasamentul este compararea diferitelor tehnici de
estimare utilizând o măsură numită eroarea medie pătratică (Mean Square Error, 𝑀𝑆𝐸).
Eroarea medie pătratică este egală cu varianța plus pătratul deplasamentului. Cu cât 𝑀𝑆𝐸
este mai mic, cu atât este mai bine din punctul de vedere al estimării.
Un ultim element important de menționat este că, pe măsură ce varianța termenului
de eroare crește, crește și varianța distribuției lui 𝛽̂ . Motivul pentru care varianța lui 𝛽̂ crește
este acela că, cu cât varianța lui 𝜀𝑖 este mai mare, valori extreme ale lui 𝜀𝑖 sunt observate cu
o frecvență mai mare, iar termenul de eroare devine mai important în determinarea valorilor
lui 𝑌𝑖 .

̂
Eroarea standard a lui 𝜷

Întrucât eroarea standard a coeficientului estimat, 𝑆𝐸(𝛽̂ ), este rădăcina pătrată a


varianței estimate a lui 𝛽̂ , aceasta este afectată de dimensiunea eșantionului și de ceilalți
factori menționați în mod similar cu varianța. De exemplu, o creștere a dimensiunii
eșantionului va determina scăderea 𝑆𝐸(𝛽̂ ). Astfel, cu cât eșantionul este mai mare, cu atât
mai precise vor fi estimările coeficienților de regresie.
Teorema Gauss – Markov și proprietățile estimatorilor OLS

Teorema Gauss – Markov se referă la două proprietăți importante ale estimatorilor


𝑂𝐿𝑆. Această teoremă este demonstrată în toate manualele de econometrie avansată, dar
pentru un utilizator de regresie este mai important să știe ce implică teorema decât să o
poată demonstra. Teorema Gauss – Markov afirmă că:

Date fiind ipotezele clasice I până la VI (ipoteza VII, normalitatea, nu este necesară
pentru această teoremă), 𝑂𝐿𝑆 (𝑂𝑟𝑑𝑖𝑛𝑎𝑟𝑦 𝐿𝑒𝑎𝑠𝑡 𝑆𝑞𝑢𝑎𝑟𝑒𝑠) este estimatorul cu varianța
minimă din mulțimea tuturor estimatorilor liniari nedeplasați ai lui 𝛽𝑘 , pentru 𝑘 = 0 , 1,
2, … , K.

Teorema lui Gauss – Markov este probabil cel mai ușor de reținut prin expresia „𝑂𝐿𝑆
este 𝐵𝐿𝑈𝐸” unde 𝐵𝐿𝑈𝐸 înseamnă „𝐵est (cel mai bun, adică cu varianță minimă) 𝐿inear
𝑈nbiased (nedeplasat) 𝐸stimator ”. Studenții care ar putea uita că aici „best” înseamnă
varianță minimă ar putea să scrie „𝑂𝐿𝑆 este 𝑀𝑣𝐿𝑈𝐸”, (𝑀𝑣 însemnând minimum de varianță)
dacă o astfel de expresie este mai ușor de reținut.
Dacă estimarea coeficientului unei ecuații este nedeplasată (adică, dacă fiecare dintre
coeficienții estimați este produs de un estimator nedeplasat al coeficientului real al
populației), atunci:

𝐸(𝛽̂𝑘 ) = 𝛽𝑘 (𝑘 = 0,1,2, … , 𝐾)

Cel mai bun înseamnă că fiecare 𝛽̂𝑘 are cea mai mică varianță posibilă, în acest caz,
dintre toți estimatorii liniari nedeplasați ai lui 𝛽𝑘 . Un estimator nedeplasat cu cea mai mică
varianță se numește eficient și se spune că acel estimator are proprietatea de eficiență.
Deoarece varianța scade de obicei pe măsură ce mărimea eșantionului crește, eșantioanele
mai mari produc aproape întotdeauna estimări ale coeficientului mai precise decât
eșantioanele mai mici.
Teorema Gauss – Markov cere ca doar primele șase din cele șapte ipoteze clasice să
fie îndeplinite. Ce se întâmplă dacă se adaugă și a șaptea ipoteză, conform căreia termenul
de eroare este normal distribuit? În acest caz, rezultatul teoremei Gauss – Markov este întărit
deoarece se poate demonstra că estimatorul 𝑂𝐿𝑆 este cel mai bun (cu varianță minimă)
estimator nedeplasat dintre toți estimatorii posibili, nu doar dintre estimatorii liniari. Cu alte
cuvinte, dacă toate cele șapte ipoteze sunt îndeplinite, 𝑂𝐿𝑆 este „𝐵𝑈𝐸”.
Având în vedere toate cele șapte ipoteze clasice, se poate demonstra că estimatorii
𝑂𝐿𝑆 ai coeficienților au următoarele proprietăți:
1. Sunt nedeplasați, adică 𝐸(𝛽̂ ) este egal cu 𝛽. Aceasta înseamnă că estimările 𝑂𝐿𝑆 ale
coeficienților sunt centrate în jurul valorilor reale ale parametrilor populației care se
estimează.
2. Au varianță minimă. Distribuția estimărilor coeficienților în jurul valorilor adevărate ale
parametrilor este cea restrânsă distribuție nedeplasată. Niciun alt estimator nedeplasat
nu are o varianță mai mică pentru fiecare coeficient estimat decât 𝑂𝐿𝑆.

3. Sunt consistenți. Pe măsură ce dimensiunea eșantionului se apropie de infinit, estimările


converg către parametrii reali ai populației. Astfel, pe măsură ce dimensiunea
eșantionului devine din ce în ce mai mare, varianța devine din ce în ce mai mică și fiecare
estimare se apropie mai mult de valoarea reală a coeficientului estimat.

4. Sunt normali distribuiți. Acest lucru se scrie în felul următor:

𝛽̂ ~𝑁(𝛽, Var[𝛽̂ ])

Astfel, diferite teste statistice bazate pe distribuția normală pot fi într-adevăr aplicate
acestor estimări, așa cum se va face într-un capitol viitor.

Notații econometrice standard

Această secțiune prezintă notațiile standard utilizate în literatura de econometrie.


Tabelul 1 prezintă diferite alternative de notare, utilizate pentru a reprezenta diferiți
parametri ai populației (adevărați) și estimările corespunzătoare ale acestora (pe baza
eșantioanelor).

Tabelul 1. Notații folosite în literatura econometrică


𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑖𝑖 𝑝𝑜𝑝𝑢𝑙𝑎ț𝑖𝑒𝑖 𝐸𝑠𝑡𝑖𝑚ă𝑟𝑖
(valori adevărate, dar neobservabile) (valori calculate din eșantion)

Nume Simbol Nume Simbol


Coeficient de 𝛽𝑘 Coeficient de
regresie regresie estimat 𝛽̂𝑘
Valoarea așteptată a coef.
de regresie estimat 𝐸(𝛽̂𝑘 )
Varianța estimată a
Varianța erorii 𝜎 2 sau 𝑉𝑎𝑟(𝜀𝑖 ) 𝑆 2 sau 𝜎̂ 2
erorii
Abaterea standard a O estimare a abaterii
𝜎 𝑠 sau 𝑆𝐸
erorii standard a erorii
Varianța unui Varianța estimată a
coeficient estimat 𝜎 2 (𝛽̂𝑘 ) sau 𝑉𝑎𝑟(𝛽̂𝑘 ) unui coeficient estimat 𝑆 2 (𝛽̂𝑘 ) sau 𝑉𝑎𝑟
̂ (𝛽̂𝑘 )
Abaterea standard Abaterea standard
a unui coeficient estimat 𝜎𝛽̂𝑘 sau 𝜎(𝛽̂𝑘 ) estimată a unui 𝜎̂(𝛽̂𝑘 ) sau 𝑆𝐸(𝛽̂𝑘 )
coeficient estimat
Termenul de eroare Reziduul (o estimare a
sau disturbanța 𝜀𝑖 erorii, în sens vag) 𝑒𝑖
Măsura tendinței centrale a distribuției de eșantionare a lui 𝛽̂ , care poate fi
considerată ca fiind media 𝛽̂ -urilor, este notată cu 𝐸(𝛽̂ ), citită ca „valoarea așteptată a lui
beta estimat”. Varianța lui 𝛽̂ este măsura tipică a dispersiei distribuției de eșantionare a 𝛽̂ .
Varianța (sau, alternativ, rădăcina pătrată a varianței, denumită abatere standard) are mai
multe moduri de notare, inclusiv 𝑉𝑎𝑟(𝛽̂ ) și 𝜎 2 (𝛽̂ ), citite ca „varianța lui beta-estimat”.
Varianța estimată este un parametru al populației care nu se observă niciodată în practică.
În schimb, se estimează cu 𝜎̂ 2 (𝛽̂𝑘 ), uneori scrisă 𝑠 2 (𝛽̂𝑘 ). Varianța adevăratului 𝛽, 𝜎 2 (𝛽) este
zero, deoarece există un singur 𝛽 adevărat, fără distribuție în jurul său. Astfel, varianța
estimată a coeficientului estimat este definită și observată, varianța reală a coeficientului
estimat este neobservabilă, iar varianța reală a coeficientului adevărat este zero. Rădăcina
pătrată a varianței estimate a coeficientului estimat este eroarea standard a lui 𝛽̂ , 𝑆𝐸(𝛽̂𝑘 ),
care se va folosi pe scară largă în testarea ipotezelor.

Sumar

1. Cele șapte ipoteze clasice afirmă că modelul de regresie este liniar, cu un termen de
eroare aditiv. Termenul de eroare are media zero, este necorelat cu variabilele
explicative și cu alte observări ale termenului de eroare, are o varianță constantă și este
normal distribuit (opțional). În plus, variabilele explicative nu trebuie să fie funcții liniare
perfecte, una de alta sau de celelalte.

2. Cele mai importante două proprietăți ale unui estimator sunt lipsa deplasării și varianța
minimă. Un estimator este nedeplasat atunci când valoarea așteptată a coeficientului
estimat este egală cu valoarea sa reală. Varianța minimă se menține atunci când
distribuția de eșantionare are cea mai mică varianță dintre toți estimatorii dintr-o clasă
dată de estimatori (de exemplu, estimatori nedeplasați).

3. Având în vedere ipotezele clasice, se poate demonstra că 𝑂𝐿𝑆 este un estimator liniar,
nedeplasat, cu varianța minimă (sau 𝐵𝐿𝑈𝐸, pentru că este cel mai bun estimator liniar
nedeplasat). Aceasta este Teorema lui Gauss– Markov. Când una sau mai multe dintre
ipotezele clasice nu se mențin (cu excepția normalității), 𝑂𝐿𝑆 nu mai este 𝐵𝐿𝑈𝐸, deși
poate oferi estimări mai bune în unele cazuri decât tehnicile alternative de estimare
discutate în capitolele următoare.

4. Deoarece distribuția de eșantionare a estimatorului 𝑂𝐿𝑆 al lui 𝛽̂𝑘 este 𝐵𝐿𝑈𝐸, aceasta are
proprietăți dorite. Mai mult, varianța sau măsura dispersiei distribuției de eșantionare a
lui 𝛽̂𝑘 scade odată cu creșterea numărului de observări.

5. Există notații standard utilizate în literatura econometrică. Tabelul 1 prezintă o parte a


setului destul de complex de notații utilizate în analiza de regresie.
Testul 4.1

IP1. În figura alăturată sunt ilustrate punctele determinate de valorile observate ale variabilei
independente X și ale variabilei dependente Y, într-un model de regresie simplă. Conform
ipotezei clasice I, pentru a obține estimări cu proprietăți dorite, estimatorul OLS trebuie
aplicat unui model liniar, corect specificat și care are un termen de eroare aditiv. Pentru cazul
prezentat în figura alăturată, această ipoteză este îndeplinită?

• observări

Selectați una dintre variantele următoare:


a. Da, dar modelul nu trebuie să aibă variabile omise, iar forma funcțională trebuie aleasă
corect;
b. Nu, deoarece relația dintre Y și X nu este liniară;
c. Da, deoarece punctele determinate de valorile observate se aliniază după o dreaptă;
d. Nu, deoarece alinierea punctelor arată că termenul de eroare nu este liniar;
e. Nu, deoarece media valorilor observate ale lui Y nu poate fi egală cu zero;
IP2. Un economist, având la dispoziție 16 observări ale lui Y și X, a estimat cu metoda OLS valorile
coeficienților unui model de regresie univariat. A reprezentat apoi pe un grafic, cum este cel
din figura alăturată, punctele observate precum și linia de regresie. A marcat, pe același
grafic, alte 5 noi puncte observate. Ipoteza clasică I este îndeplinită în acest caz?

• observări noi observări

𝑌𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

Selectați una dintre variantele următoare:


a. da, deoarece relația dintre Y și X este liniară;
b. da, deoarece termenul de eroare este unul aditiv;
c. da, dar trebuie să includă în estimare și cele 5 noi observări;
d. nu, deoarece modelul trebuie să fie multifactorial;
e. nu, deoarece nu a ales o formă funcțională adecvată;
IP3. Ipoteza clasică II afirmă că media termenului de eroare, la nivelul populației, este egală cu
zero, așa cum este ilustrat în figura alăturată. Dacă media termenului de eroare pentru un
eșantion este diferită de zero și dacă ecuația are inclus un termen constant 𝛽0 , atunci:

Probabilitate

− 0 + 𝜀

Selectați una dintre variantele următoare:


a. ipoteza clasică II este întotdeauna îndeplinită;
b. media non-zero va fi absorbită de coeficienții estimați ai variabilelor independente;
c. ipoteza clasică II nu mai poate fi îndeplinită;
d. OLS nu mai poate fi un estimator nedeplasat;
e. estimarea termenului constant va absorbi media non-zero a termenului de eroare;
IP4. Ipoteza clasică III afirmă că termenul de eroare nu este corelat cu nici una dintre variabilele
independente. Fie, de exemplu, ecuația:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀1

Dacă termenul de eroare este corelat cu 𝑋1 , OLS atribuie lui 𝑋1 o parte din variația lui 𝑌, care
vine, de fapt, de la termenul de eroare. Dacă termenul de eroare și 𝑋1 sunt corelate pozitiv,
atunci coeficientul estimat al lui 𝑋1 va fi:

𝛽1 𝛽1 + 𝛼 𝛽̂1

Selectați una dintre variantele următoare:


a. egal cu valoarea sa reală;
b. deplasat spre stânga;
c. mai mare decât ar fi fost altfel;
d. mai mic decât ar fi fost altfel;
e. egal cu zero;
IP5. Ipoteza clasică IV afirmă că valorile observate ale termenului de eroare sunt necorelate între
ele. Când 𝜀𝑡+1 este corelat cu 𝜀𝑡 , 𝑡 = 1,2, … , 𝑛, atunci se spune că termenul de eroare este
corelat în serie (sau autocorelat), iar ipoteza IV este încălcată. În acest caz:

Distribuții ale lui 𝜀𝑖

Selectați una dintre variantele următoare:


a. estimările OLS vor fi mai puțin precise comparativ cu estimările obținute cu alte tehnici de
estimare;
b. media termenului de eroare la nivelul populației nu va mai fi egală cu zero;
c. estimatorul OLS va deveni un estimator deplasat;
d. modelul de regresie devine neliniar, iar estimarea sa va fi dificilă;
e. termenul de eroare nu va mai avea varianța constantă;
IP6. Ipoteza clasică V afirmă că termenul de eroare are o varianță constantă. Dacă varianța
distribuției termenului de eroare se schimbă pentru fiecare observare sau pentru un interval
de observări, ipoteza V este încălcată. Dacă varianța termenului de eroare crește pe măsură
ce cresc valorile unei variabile independente, 𝑍, cum este ilustrat în figura alăturată, atunci:

𝑌 Valori mari ale lui 𝜀


asociate cu valori mari ale

𝐸 𝑌|𝑋 = 𝛽0 + 𝛽1 𝑍

Valori mici ale lui 𝜀 asociate


cu valori mici ale lui 𝑍

0 𝑍

Selectați una dintre variantele următoare:


a. estimările OLS ale erorilor standard ale coeficienților vor fi inexacte;
b. estimările OLS ale coeficienților vor fi deplasate spre dreapta;
c. se vor putea observa valorile reale ale termenului de eroare;
d. estimările OLS ale coeficienților vor fi deplasate spre stânga;
e. valorile termenului de eroare sunt extrase de fiecare dată din distribuții identice;
IP7. Ipoteza clasică VI afirmă că nicio variabilă explicativă nu este funcție liniară perfectă a oricărei
alte variabile explicative. Această ipoteză se referă la posibilitatea coliniarității perfecte dintre
două (sau mai multe, când este vorba de multicoliniaritate) variabile independente. Pentru
modelele în care există o multicoliniaritate perfectă:

𝑋
𝑋2 = 𝑋1 + 10

𝑋1

Timp

Selectați una dintre variantele următoare:


a. OLS va considera termenul de eroare ca nefiind aditiv;
b. OLS va considera ecuația de regresie ca fiind neliniară;
c. OLS nu va putea determina valorile estimate ale coeficienților variabilelor coliniare;
d. OLS va calcula varianța minimă a coeficienților estimați ai variabilelor coliniare;
e. OLS va calcula valori deplasate ale coeficienților estimați ai variabilelor coliniare;
IP8. Ipoteza clasică VII consideră termenul de eroare ca fiind normal distribuit. În figura alăturată
sunt ilustrate, spre exemplificare, două distribuții normale ce pot fi distribuții ale termenului
de eroare: distribuția A, de medie 0 și varianță 1 și distribuția B, de medie 2 și varianță 0.5.
Deși ipoteza normalității termenului de eroare nu este necesară pentru estimarea OLS, ea
este foarte importantă pentru:

Probabilitate

Distribuția B
Distribuția A 𝜇=2
𝜇=0 𝜎 2 = 0.5
𝜎2 = 1

−2.0 0 + 2.0 + 4.0 𝜀

Selectați una dintre variantele următoare:


a. determinarea valorilor reale ale coeficienților de regresie;
b. alegerea formei funcționale;
c. alegerea variabilelor explicative;
d. alegerea variabilei dependente;
e. testarea ipotezelor și determinarea intervalelor de încredere;
IP9. Figura alăturată ilustrează trei distribuții posibile ale termenului de eroare, toate satisfăcând
ipoteza clasică VII deoarece toate sunt distribuții normale. Distribuția (𝑎) are media, notată
cu 𝜇, egală cu 0 și varianța, notată cu 𝜎 2 , egală cu 3, distribuția (𝑏) are media egală cu 0 și
varianța egală cu 1, iar distribuția (𝑐) are media egală cu 2 și varianța egală cu 2. Care dintre
cele trei distribuții pot fi distribuții ale termenului de eroare care îndeplinesc și celelalte
ipoteze clasice?

𝑏
𝜇 = 0, 𝜎 2 = 1

𝑐
𝜇 = 2, 𝜎 2 = 2
𝑎
𝜇 = 0, 𝜎 2 = 3

0 2

Selectați una dintre variantele următoare:


a. distribuția (𝑎), deoarece media sa este egală cu zero;
b. distribuția (𝑏), deoarece are o varianță mai mică decât distribuția (𝑎);
c. distribuția (𝑐), deoarece are o medie mai mare decât distribuțiile (𝑎) și (𝑏);
d. distribuțiile (𝑎) și (𝑏), deoarece ambele sunt distribuții normale de medie 0;
e. toate cele trei distribuții pot fi distribuții din care termenul de eroare poate fi extras;
IP10. În literatura econometrică se utilizează un set standard de notații, notații prezentate în
tabelul alăturat. O estimare a abaterii standard a termenului de eroare este notată cu:

𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑖𝑖 𝑝𝑜𝑝𝑢𝑙𝑎ț𝑖𝑒𝑖 𝐸𝑠𝑡𝑖𝑚ă𝑟𝑖


(valori adevărate, dar neobservabile) (valori calculate din eșantion)

Nume Simbol Nume Simbol


Coeficient de 𝛽𝑘 Coeficient de
regresie regresie estimat 𝛽̂𝑘
Valoarea așteptată a coef.
de regresie estimat 𝐸(𝛽̂𝑘 )
Varianța estimată a
Varianța erorii 𝜎 2 sau 𝑉𝑎𝑟(𝜀𝑖 ) 𝑆 2 sau 𝜎̂ 2
erorii
Abaterea standard a O estimare a abaterii
𝜎 𝑠 sau 𝑆𝐸
erorii standard a erorii
Varianța unui Varianța estimată a
coeficient estimat 𝜎 2 (𝛽̂𝑘 ) sau 𝑉𝑎𝑟(𝛽̂𝑘 ) unui coeficient estimat 𝑆 2 (𝛽̂𝑘 ) sau 𝑉𝑎𝑟
̂ (𝛽̂𝑘 )
Abaterea standard Abaterea standard
a unui coeficient estimat 𝜎𝛽̂𝑘 sau 𝜎(𝛽̂𝑘 ) estimată a unui 𝜎̂(𝛽̂𝑘 ) sau 𝑆𝐸(𝛽̂𝑘 )
coeficient estimat
Termenul de eroare Reziduul (o estimare a
sau disturbanța 𝜀𝑖 erorii, în sens vag) 𝑒𝑖

Selectați una dintre variantele următoare:


a. 𝜎 2
b. 𝜎
c. 𝜀𝑖
d. 𝛽𝑖
e. 𝑆𝐸
Testul 4.2

DE1. Un estimator este o formulă, cum ar fi formula OLS pentru calculul valorilor estimate ale
coeficienților. O estimare a unui coeficient este o valoare obținută aplicând formula
estimatorului pe un eșantion de date. Folosind de mai multe ori aceeași formulă de calcul,
dar pe eșantioane diferite care provin din cadrul aceleiași populații, se obțin valori diferite
pentru coeficienții estimați ai modelului de regresie. Pentru un anumit coeficient,
distribuția de probabilitate a valorilor sale estimate, obținute prin aplicarea estimatorului
la eșantioane diferite, se numește:

Distribuția de eșantionare ale lui 𝛽̂

O estimare a lui 𝛽

Selectați una dintre variantele următoare:


a. distribuție normală, cu media egală cu zero și varianță constantă;
b. distribuția coeficientului real la nivelul populației;
c. varianța termenului de eroare, numită uneori dispersie;
d. distribuție a erorilor provenite din eșantionare;
e. distribuție de eșantionare a coeficientului estimat respectiv;
DE2. În figura alăturată este ilustrată histograma valorilor estimate pentru coeficientul 𝛽1 ,
obținute pentru 100 de eșantioane din cadrul aceleiași populații. Se observă cum estimările
sunt grupate la mijloc, aproape de medie, cu un număr din ce în ce mai mic spre cozi. Dacă
se formează mai multe eșantioane, este de așteptat ca histograma să arate din ce în ce
mai mult cu o curbă a distribuției normale. Aceasta este distribuția de eșantionare a
valorilor estimate ale lui 𝛽1 . Pentru ca o tehnică de estimare să fie bună, media distribuției
de eșantionare a valorilor estimate ale lui 𝛽1 trebuie să fie egală cu adevărata valoare a
lui 𝛽1 de la nivelul populației. Această proprietate are un nume special în econometrie:

Frecvența
40

30

20

10

0
−10 0 10 20 30
Estimări ale lui 𝛽1

−5.41 7.7 23.03


min media max

Selectați una dintre variantele următoare:


a. varianță minimă;
b. consistență;
c. lipsa deplasării;
d. normalitate;
e. convergență;
DE3. În figura alăturată este ilustrată distribuția de eșantionare a valorilor estimate ale lui 𝛽. Se
observă că aceasta este deplasată, media sa nefiind egală cu valoarea reală a coeficientului
𝛽. Nu se poate spune însă cu siguranță că fiecare estimare produsă de un estimator
deplasat este mai rea decât o estimare produsă de un estimator nedeplasat. Acest lucru
se poate produce din întâmplare sau pentru că estimatorul deplasat are o varianță mai
mică decât cel nedeplasat. În figura alăturată se poate observa că o estimare particulară a
lui 𝛽 produsă de estimatorul deplasat este foarte apropiată de valoarea reală a
coeficientului. Totuși, fără alte informații, întotdeauna se preferă:

Distribuția de eșantionare a lui 𝛽̂

O estimare particulară
a lui 𝛽

𝛽 adevărat 𝐸 𝛽̂

Selectați una dintre variantele următoare:


a. un estimator cât mai mare;
b. un estimator nedeplasat;
c. un estimator cu varianța minimă;
d. un estimator deplasat;
e. un estimator liniar;
DE4. La fel cum este de dorit ca o distribuție de eșantionare a valorilor estimate ale lui 𝛽 să fie
centrată în jurul adevăratului 𝛽, este de dorit ca această distribuție să fie cât mai îngustă
(sau precisă). Ca urmare, dintre distribuțiile de eșantionare ilustrate în figura alăturată ar fi
de preferat:

Distribuția C

Distribuția B

Distribuția A

𝛽 adevărat

Selectați una dintre variantele următoare:


a. distribuția A;
b. distribuția C;
c. distribuția B;
d. oricare dintre distribuțiile A și B;
e. cea pentru care MSE are valoarea minimă;
DE5. În figura alăturată sunt ilustrate trei distribuții de eșantionare ale valorilor estimate ale
lui 𝛽. Se poate observa că distribuția cu varianța cea mai mică este distribuția C, aceasta
fiind cea mai "strânsă" în jurul valorii reale a coeficientului (în acest caz particular, adevărata
valoare a coeficientului se presupune că este egală cu 1). Cum poate fi micșorată varianța
distribuției de eșantionare:

Distribuția 𝐶
Distribuții de eșantionare ale lui 𝛽̂

Distribuția 𝐵

Distribuția 𝐴

−3 −2 −1 0 𝛽=1 2 3 4 5

Selectați una dintre variantele următoare:


a. prin creșterea dimensiunii eșantionului;
b. prin eliminarea termenului de eroare;
c. prin alegerea unui estimator nedeplasat;
d. prin reducerea numărului de observări;
e. prin întâmplare, în funcție de aplicația abordată;
DE6. Teorema Gauss - Marcov se referă la două proprietăți importante ale estimatorului OLS. În
figura alăturată este reprezentată o distribuție de eșantionare care poate ilustra această
teoremă. Teorema Gauss - Marcov poate fi exprimată sintetic prin expresia BLUE, care este
acronimul expresiei Best Linear Unbiesed Estimator. "Best" aici înseamnă:

Distribuția de eșantionare a lui 𝛽̂𝑘

𝐸 𝛽̂𝑘 = 𝛽

Selectați una dintre variantele următoare:


a. estimator liniar;
b. mai bun decât estimatorul OLS;
c. cel mai des întâlnit estimator;
d. varianță minimă;
e. lipsa deplasării;
DE7. Conform teoremei Gauss - Markov, când sunt îndeplinite toate cele șapte ipoteze clasice,
estimatorii OLS au următoarele proprietăți:
1. sunt nedeplasați;
2. au varianță minimă;
3. sunt consistenți;
4. sunt normal distribuiți.

Un estimator este consistent atunci când varianța distribuției sale de eșantionare devine
din ce în ce mai mică și fiecare estimare se apropie din ce în ce mai mult de valoarea
reală a coeficientului estimat pe măsură ce:

Distribuții de eșantionare ale lui 𝛽̂

𝑛 = 600

𝑛 = 60

𝑛=6

−3 −2 −1 0 1 2 3 4 5

Selectați una dintre variantele următoare:


a. pachetele software de analiză a datelor devin din ce în ce mai complexe;
b. dimensiunea eșantionului devine din ce în ce mai mare;
c. tehnica de estimare devine din ce în ce mai sofisticată;
d. datele disponibile devin din ce în ce mai corecte;
e. dimensiunea eșantionului devine din ce în ce mai mică;
DE8. În figura alăturată sunt ilustrate două distribuții de eșantionare ale valorilor estimate ale
lui 𝛽, obținute utilizând doi estimatori diferiți (sau două formule diferite). Se presupune că
adevărata valoare a lui 𝛽 este 0. Se presupune, de asemenea, că este disponibil un singur set
de date (de obicei, cercetătorii au la dispoziție un singur set de date). Pentru setul de date
respectiv, primul estimator, cel care produce distribuția de eșantionare nr. 1, estimează
valoarea lui 𝛽 ca fiind egală cu 1.5 (punctul A), iar cel de-al doilea estimator, cel care produce
distribuția de eșantionare nr. 2, estimează valoarea lui 𝛽 ca fiind egală cu 0.5 (punctul B). Se
poate observa că cel de-al doilea estimator produce, pentru eșantionul de date disponibil,
o estimare mult mai bună a adevăratei valori a lui 𝛽. Se observă, de asemenea, că varianța
distribuției de eșantionare generată de primul estimator este mai mare decât varianța
distribuției de eșantionare generată de cel de-al doilea estimator. În aceste condiții, care
dintre cei doi estimatori este cel ales să fie folosit pentru estimarea lui 𝛽?

Distribuții de eșantionare ale lui 𝛽̂

Distribuția nr. 2
Distribuția nr. 1
𝜇=2
𝜇=0
𝜎 2 = 0.5
𝜎2 = 1 𝐴

−2.0 𝛽 = 0 0.5 1.5 2.0 4.0

Selectați una dintre variantele următoare:


a. nu sunt suficiente informații pentru a decide care dintre cei doi estimatori este mai bun;
b. ambii estimatori sunt la fel de buni, chiar dacă produc estimări particulare atât de diferite;
c. al doilea estimator, pentru că produce o estimare mult mai bună a coeficientului decât
primul estimator;
d. primul estimator, chiar dacă estimarea particulară se abate mult de la valoarea reală a
coeficientului;
e. nici unul dintre estimatori nu poate fi folosit eficient la estimarea coeficientului β;
DE9. În figura alăturată este ilustrată distribuția de eșantionare a valorilor estimate ale lui 𝛽
obținute cu un estimator OLS. Deși valoarea reală a parametrului 𝛽 este pozitivă, 𝛽 = 1,
o estimare a sa obținută cu acest estimator este negativă, egală cu -0.5, așa cum se poate
observa în figura alăturată. Care dintre următoarele afirmații cu privire la acest estimator
este adevărată?

Distribuția de eșantionare ale lui 𝛽̂

O estimare a lui β
𝛽̂ = −0.5

−2 −1 −0.5 0 𝛽=1 2 3 4

Selectați una dintre variantele următoare:


a. este un estimator deplasat, estimarea produsă fiind deplasată față de valoarea reală a
coeficientului;
b. nu are proprietățile dorite, nu este un estimator BLUE;
c. un coeficient așteptat a fi pozitiv nu poate fi estimat printr-o valoare negativă;
d. are proprietățile dorite, este un estimator BLUE;
e. un coeficient așteptat a fi negativ nu poate fi estimat printr-o valoare pozitivă;
DE10. În literatura econometrică se utilizează un set standard de notații, care sunt sintetizate în
tabelul alăturat. Notația folosită pentru varianța estimată a termenului de eroare este:

𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑖𝑖 𝑝𝑜𝑝𝑢𝑙𝑎ț𝑖𝑒𝑖 𝐸𝑠𝑡𝑖𝑚ă𝑟𝑖


(valori adevărate, dar neobservabile) (valori calculate din eșantion)

Nume Simbol Nume Simbol


Coeficient de 𝛽𝑘 Coeficient de
regresie regresie estimat 𝛽̂𝑘
Valoarea așteptată a coef.
de regresie estimat 𝐸(𝛽̂𝑘 )
Varianța estimată a
Varianța erorii 𝜎 2 sau 𝑉𝑎𝑟(𝜀𝑖 ) 𝑆 2 sau 𝜎̂ 2
erorii
Abaterea standard a O estimare a abaterii
𝜎 𝑠 sau 𝑆𝐸
erorii standard a erorii
Varianța unui Varianța estimată a
coeficient estimat 𝜎 2 (𝛽̂𝑘 ) sau 𝑉𝑎𝑟(𝛽̂𝑘 ) unui coeficient estimat 𝑆 2 (𝛽̂𝑘 ) sau 𝑉𝑎𝑟
̂ (𝛽̂𝑘 )
Abaterea standard Abaterea standard
a unui coeficient estimat 𝜎𝛽̂𝑘 sau 𝜎(𝛽̂𝑘 ) estimată a unui 𝜎̂(𝛽̂𝑘 ) sau 𝑆𝐸(𝛽̂𝑘 )
coeficient estimat
Termenul de eroare Reziduul (o estimare a
sau disturbanța 𝜀𝑖 erorii, în sens vag) 𝑒𝑖

Selectați una dintre variantele următoare:


a. 𝑒𝑖
b. 𝑆𝐸
c. 𝑉𝑎𝑟(𝜀𝑖 )
d. 𝑆 2
e. 𝜎

S-ar putea să vă placă și