Documente Academic
Documente Profesional
Documente Cultură
Modelul clasic
Ipotezele clasice
Ipotezele clasice trebuie îndeplinite pentru ca estimatorii 𝑂𝐿𝑆 să fie cei mai buni
disponibili. Datorită importanței lor în analiza de regresie, ipotezele sunt prezentate aici în
formă tabelară, precum și în cuvinte.
Ipotezele clasice
I. Modelul de regresie este liniar, este specificat corect și are un termen de eroare
aditiv
II. La nivelul populației, termenul de eroare are media egală cu zero
III. Nici una dintre variabilele independente nu este corelată cu termenul de eroare
IV. Observările reprezentând termenul de eroare sunt necorelate între ele (lipsa
corelației seriale)
V. Termenul de eroare are o varianță constantă (fără heteroscedasticitate)
VI. Nicio variabilă independentă nu este o funcție liniară perfectă a oricărei alte
variabilă/variabile independente (fără multicoliniaritate perfectă)
VII. Termenul de eroare este normal distribuit (această ipoteză este opțională, dar de
obicei este invocată)
În capitolele următoare se vor investiga încălcările majore ale ipotezelor clasice și se vor
introduce tehnici de estimare care pot oferi estimări mai bune în astfel de cazuri. Un termen
de eroare care îndeplinește ipotezele I până la V se numește un termen de eroare clasic, iar
dacă se adaugă ipoteza VII, termenul de eroare se numește termen de eroare normal clasic.
I. Modelul de regresie este liniar, este specificat corect și are un termen de eroare aditiv.
Se presupune că modelul de regresie este liniar:
𝛽
𝑌𝑖 = 𝑒 𝛽0 𝑋1 1 𝑒 𝜀𝑖
unde 𝑒 este baza logaritmului natural, poate fi transformată într-o ecuație liniară aplicând
logaritmul natural ambelor părți ale ecuației de mai sus. Se obține:
ln(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝑙𝑛(𝑋𝑖 ) + 𝜀𝑖
Dacă variabilele sunt reetichetate, notând: 𝑌𝑖∗ = 𝑙𝑛(𝑌𝑖 ) ș𝑖 𝑋𝑖∗ = 𝑙𝑛(𝑋𝑖 ), se obține ecuația:
𝑌𝑖∗ = 𝛽0 + 𝛽1 𝑋𝑖∗ + 𝜀𝑖
În această ecuație, care este una liniară, proprietățile estimatorului 𝑂𝐿𝑆 ale
coeficienților 𝛽 sunt încă valabile.
În plus, trebuie îndeplinite două proprietăți suplimentare. În primul rând, se
presupune că ecuația este specificată corect. Dacă o ecuație are o variabilă omisă sau o formă
funcțională incorectă, șansele ca ecuația să funcționeze corect sunt reduse. În al doilea rând,
se presupune că în ecuație a fost adăugat un termen de eroare stocastică. Acest termen de
eroare trebuie să fie unul aditiv și nu poate fi înmulțit sau divizat prin niciuna dintre
variabilele din ecuație.
− 0 + 𝜀
Figura 1. O distribuție a termenului de eroare, cu media zero
Se presupune că observările termenului de eroare stocastică sunt extrase din distribuția unei variabile
aleatoare, cu media egală cu zero. Dacă este îndeplinită ipoteza clasică II, valoarea așteptată (media) a
termenului de eroare este egală cu zero.
Ipoteza clasică II afirmă că media acestei distribuții este zero. Altfel spus, atunci când
se ia în considerare întreaga populație de valori posibile pentru termenul de eroare
stocastică, valoarea medie a acelor valori este zero. Pentru un eșantion mic, nu este
improbabil ca media să fie diferită de zero, dar pe măsură ce dimensiunea eșantionului se
apropie de infinit, media eșantionului se apropie de zero.
Ce se întâmplă dacă media nu este egală cu zero într-un eșantion? De îndată ce în
ecuație este adăugat un termen constant, 𝛽0, estimarea sa va absorbi diferența mediei
termenului de eroare față de zero. În esență, termenul constant este egal cu partea fixă a
variației lui 𝑌 care nu poate fi explicată de variabilele independente, iar termenul de eroare
este egal cu partea stocastică a valorii neexplicate a lui 𝑌.
Deși este adevărat că termenul de eroare nu poate fi observat niciodată, este
instructiv să se parcurgă un raționament matematic pentru a înțelege felul în care termenul
constant absoarbe media non-zero a termenului de eroare dintr-un eșantion. Fie o ecuație
de regresie tipică:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
Dacă se presupunem că media lui 𝜀𝑖 este 3 în loc de 0, atunci 𝐸(𝜀𝑖 − 3) = 0. Dacă în ecuație
se adăugă 3 la termenul constant și se scade 3 din termenul de eroare, se obține:
𝑌𝑖 = (𝛽0 + 3) + 𝛽1 𝑋𝑖 + (𝜀𝑖 − 3)
Deoarece cele două ecuații sunt echivalente, și pentru că 𝐸(𝜀𝑖 − 3) = 0, atunci ultima ecuație
poate fi rescrisă într-un format în care termenul de eroare are media zero, în felul următor:
𝑌𝑖 = 𝛽0∗ + 𝛽1 𝑋𝑖 + 𝜀𝑖∗
unde 𝛽0∗ = 𝛽0 + 3, iar 𝜀𝑖∗ = 𝜀𝑖 − 3. După cum se poate vedea, ultima ecuație este conformă cu
ipoteza II. În esență, dacă ipoteza clasică II este încălcată într-o ecuație care include un
termen constant, atunci estimarea lui 𝛽0 absoarbe diferența față de zero a termenului de
eroare, iar estimările celorlalți coeficienți nu sunt afectate.
IV. Valorile observate ale termenului de eroare sunt necorelate între ele.
Valorile observate ale termenului de eroare sunt generate independent unele de
celelalte. Dacă există o corelație sistematică între o valoare observată a termenului de eroare
și alta, atunci estimările 𝑂𝐿𝑆 vor fi mai puțin precise decât estimările provenite din tehnici
de estimare care iau în considerare corelația. De exemplu, dacă se constată că 𝜀 dintr-o
observare este pozitiv, iar acest fapt crește probabilitatea ca și 𝜀 dintr-o altă observare să fie
pozitiv, atunci cele două observări ale termenului de eroare sunt corelate pozitiv. O astfel de
corelație încalcă ipoteza clasică IV.
În aplicațiile economice, această ipoteză este mai probabil să apară în modelele în serie
temporală. Într-un astfel de context, ipoteza IV spune că o creștere a termenului de eroare
într-o perioadă de timp (un șoc aleatoriu, de exemplu) nu apare sau nu afectează în niciun
fel termenul de eroare într-o altă perioadă de timp. În unele cazuri, însă, această ipoteză este
nerealistă, deoarece efectele unui șoc aleatoriu durează uneori un număr de perioade de
timp. De exemplu, un eveniment aleatoriu precum pandemia de coronavirus va avea un
impact negativ asupra economiei mondiale mult timp după declanșarea sa. Dacă, pentru
toate observările din eșantion, 𝜀𝑡+1 este corelat cu 𝜀𝑡 , atunci se spune că termenul de eroare
este corelat în serie (sau autocorelat), iar ipoteza IV este încălcată. Încălcările acestei ipoteze
sunt luate în considerare mai detaliat într-un capitol viitor.
𝐸 𝑌|𝑋 = 𝛽0 + 𝛽1 𝑍
Figura 2. Un termen de eroare a cărui varianță crește pe măsură ce valorile lui 𝑍 cresc
Un exemplu în care ipoteza clasică V nu este îndeplinită. O astfel de situație apare atunci când varianța
termenului de eroare crește pe măsură ce 𝑍 crește. Într-o astfel de situație (numită heteroskedasticitate),
observările sunt, în medie, mai departe de linia de regresie adevărată pentru valori mari ale 𝑍, decât pentru
valori mici ale 𝑍.
VI. Nicio variabilă explicativă nu este o funcție liniară perfectă a oricărei alte variabile
explicative.
Coliniaritatea perfectă între două variabile independente implică faptul că acestea
sunt, în realitate, aceeași variabilă, sau că una este multiplu a celeilalte sau că diferă printr-o
constantă. Adică, mișcările relative ale unei variabile explicative vor fi replicate exact de
mișcările relative ale celeilalte, chiar dacă dimensiunea absolută a mișcărilor ar putea diferi.
Deoarece fiecare mișcare a uneia dintre variabile este replicată exact de o mișcare relativă a
celeilalte, procedura de estimare 𝑂𝐿𝑆 va fi incapabilă să distingă o variabilă de cealaltă.
Multe cazuri de coliniaritate perfectă (sau multicoliniaritate, dacă sunt implicate mai
mult de două variabile independente) sunt rezultatul faptului că cercetătorul nu ia în
considerare identitățile (echivalențe definiționale) printre variabilele independente.
Această problemă poate fi corectată cu ușurință, prin eliminarea din ecuație a uneia dintre
variabilele perfect coliniare.
Un exemplu de multicoliniaritate perfectă poate apărea într-un model al profiturilor
magazinelor de anvelope dintr-un oraș, variabilele independente fiind vânzările anuale de
anvelope (în dolari) ale fiecărui magazin și impozitul anual pe vânzări plătit de fiecare
magazin. Deoarece magazinele de anvelope sunt toate din același oraș, toate plătesc același
procent de impozit pe vânzări, deci impozitul pe vânzări plătit va fi un procent constant din
vânzările lor totale. Dacă rata impozitului pe vânzări este, de exemplu, 7%, atunci impozitele
totale plătite vor fi 7% din vânzări pentru fiecare magazin de anvelope. Astfel, taxa pe vânzări
va fi o funcție liniară perfectă a vânzărilor, iar modelul va avea o multicoliniaritate perfectă!
Multicoliniaritatea perfectă poate apărea, de asemenea, atunci când două variabile
independente însumate dau întotdeauna aceeași valoare (o treime, de exemplu) sau când
una dintre variabilele explicative nu se modifică în eșantion. În modelele cu
multicoliniaritate perfectă, 𝑂𝐿𝑆 (sau orice altă tehnică de estimare) nu va putea estima
coeficienții variabilelor coliniare (cu excepția cazului în care există o eroare de rotunjire).
Deși este destul de neobișnuit ca un cercetător experimentat să se confrunte cu
multicoliniaritatea perfectă, chiar și multicolinealitatea imperfectă poate cauza probleme de
estimare, după cum se va vedea într-un capitol viitor.
Distribuția B
Distribuția A
𝜇=2
𝜇=0
𝜎 2 = 0.5
𝜎2 = 1
Chiar dacă ipoteza VII este opțională, este de obicei recomandabil să se adauge
ipoteza de normalitate la celelalte șase ipoteze, cel puțin din două motive:
a. Termenul de eroare 𝜀𝑖 poate fi considerat ca sumă a unui număr de influențe minore sau
erori. Pe măsură ce numărul acestor influențe minore crește, distribuția termenului de
eroare tinde să se apropie de distribuția normală.
b. Statistica 𝑡 și statistica 𝐹, care vor fi dezvoltate într-un capitol viitor, nu sunt cu adevărat
aplicabile decât dacă termenul de eroare este normal distribuit.
Figura 3 arată cum diferă distribuțiile normale atunci când mediile și varianțele sunt
diferite. Distribuția normală A (o distribuție normală standard), are media 0 și varianța 1.
Distribuția normală B, are media 2, iar varianța este 0,5. Când media este diferită, întreaga
distribuție este deplasată. Când varianța este diferită, distribuția devine mai „grasă” sau mai
„slabă”.
̂
Distribuția de eșantionare a lui 𝜷
+
𝑊𝑖 = 𝛽0 + 𝛽1 𝐻𝑖 + 𝜀𝑖
Pentru un eșantion de șase studenți, de exemplu, se poate obține o estimare 𝑂𝐿𝑆 a lui
𝛽1, folosind formulele deja prezentate. Dacă se selectează un al doilea eșantion de șase
studenți și se face același lucru, se va obține o altă estimare a lui 𝛽1. Al doilea 𝛽1 va depinde
de al doilea eșantion, care aproape sigur va fi diferit de primul eșantion. Dacă eșantionul
construit aleator include câțiva studenți foarte înalți, este probabil să se obțină un coeficient
estimat mare. Dacă studenții din eșantion se întâmplă să fie scunzi, se va obține o valoare
estimată mai mică. Chiar dacă nu este nimic neobișnuit în al doilea eșantion, se va obține cu
siguranță un alt 𝛽̂1. Se întâmplă acest lucru deoarece date diferite generează estimări diferite.
Dacă se fac 100 de eșantioane, se vor obține probabil 100 de valori diferite ale lui 𝛽̂1.
Toate aceste estimări ale lui 𝛽̂1 urmează o distribuție care are propria medie și
propria varianță. Această distribuție este numită distribuție de eșantionare. Pentru 100 de
eșantioane diferite de câte șase studenți, estimând ecuația de mai sus de 100 de ori, se obțin
100 de valori ale lui 𝛽̂1. În Figura 4 sunt sintetizate rezultatele obținute. Cu ajutorul unei
histograme, au fost reprezentate grafic cele 100 de valori ale lui 𝛽̂1, astfel încât să se poată
observa distribuția de eșantionare. În timp ce histograma din Figura 4 nu este normal
distribuită, cum arată linia subțire, este aproape de o astfel de distribuție. Se observă cum
estimările sunt grupate în mijloc, aproape de media 7.75, cu estimări din ce în ce mai puține
spre cozi. Efectuând mai multe estimări ale 𝛽1, este de așteptat ca histograma să arate din ce
în ce mai mult ca o curbă normală.
Frecvența
40
30
20
10
0
−10 0 10 20 30
Estimări ale lui 𝛽1
Proprietățile mediei
Proprietățile varianței
La fel cum este de dorit ca distribuția 𝛽̂ -urilor să fie centrată în jurul adevăratului 𝛽
al populației, este de dorit ca această distribuție să fie cât mai îngustă (sau precisă) posibil.
O distribuție centrată în jurul adevărului 𝛽, dar cu o varianță extrem de mare, ar putea fi
foarte puțin utilă, deoarece orice estimare dată ar fi foarte probabil să se situeze departe de
valoarea reală. Pentru o distribuție a lui 𝛽̂ cu o varianță mică, estimările sunt probabil
apropiate de media distribuției de eșantionare. Pentru exemplificare, se pot compara
distribuțiile A și B (ambele fiind nedeplasate) din Figura 5. Distribuția A, care are o varianță
mai mare decât distribuția B, este mai puțin precisă decât distribuția B.
În scop comparativ, în Figura 5 este reprezentată și o distribuție deplasată, distribuția
C. Se poate observa că deplasarea implică faptul că valoarea cea mai așteptată a distribuției,
care este media, este situată la dreapta sau la stânga adevăratei valori 𝛽.
Varianța distribuției lui 𝛽̂ poate fi scăzută prin creșterea dimensiunii eșantionului.
Acest lucru mărește, de asemenea, gradele de libertate, deoarece numărul de grade de
libertate este egal cu dimensiunea eșantionului minus numărul de coeficienți sau parametri
estimat. Pe măsură ce numărul observărilor crește, celelalte rămânând neschimbate,
varianța distribuției de eșantionare tinde să scadă. Deși nu este neapărat adevărat că un
eșantion de 60 va produce întotdeauna estimări mai apropiate de adevăratul 𝛽 decât un
eșantion de 6, este destul de probabil să se întâmple acest lucru. Aceasta înseamnă că ar
trebui căutate astfel de eșantioane mai mari. Figura 6 prezintă distribuții ilustrative de
eșantionare ale lui 𝛽̂ pentru 6, 60 și 600 de observări, pentru estimatorii 𝑂𝐿𝑆 ai lui 𝛽, când
adevăratul 𝛽 este egal cu 1. Eșantioanele mai mari produc într-adevăr distribuții de
eșantionare care sunt mai strâns centrate în jurul mediei lor.
Distribuția B
nedeplasată, varianță mică
Distribuția C
deplasată, varianță medie
Distribuția A
nedeplasată, varianță mare
𝛽 adevărat
Figura 5. Distribuții ale lui 𝛽̂
Distribuții diferite ale lui 𝛽̂ pot avea medii și varianțe diferite. Distribuțiile 𝐴 și 𝐵, de exemplu, sunt ambele
nedeplasate, dar distribuția 𝐴 are o varianță mai mare decât distribuția 𝐵. Distribuția 𝐶 are o varianță mai mică
decât distribuția 𝐴, dar este deplasată.
Ceea ce trebuie reținut din Figura 6 este că, pentru maximizarea șanselor de a obține
o estimare apropiată de valoarea reală, 𝑂𝐿𝑆 trebuie aplicat unui eșantion mare. Nu există
nicio garanție că se va obține o estimare mai precisă dintr-un eșantion mare, dar șansele
sunt mai mari. Eșantioanele mai mari, toate celelalte fiind egale, tind să conducă la estimări
mai precise. Și dacă estimatorul este nedeplasat, estimările mai precise sunt estimări care au
o acuratețe mai mare.
De exemplu, a avea câțiva studenți scunzi într-un eșantion de 6 ar putea duce la o
estimare destul de nerealistă a parametrului 𝛽1, dar influența lor asupra lui 𝛽̂1 va fi mult mai
mică într-un eșantion de 60. Se poate întâmpla ca într-un eșantion de 6 studenți, format în
mod aleator, 2 să fie scunzi, dar este mult mai puțin probabil ca într-un eșantion de 60 de
studenți, 20 să fie scunzi. Deci, folosirea unor eșantioane mai mari este indicată.
În econometrie, importante sunt tendințele generale. Elementul întâmplător, aleator,
este întotdeauna prezent în estimarea coeficienților de regresie, iar unele estimări pot fi
departe de valoarea reală, indiferent cât de bună este tehnica de estimare. Cu toate acestea,
dacă distribuția este centrată pe valoarea reală și are o varianță cât mai mică posibil,
elementul întâmplător este mai puțin probabil să inducă o estimare slabă. Dacă distribuția
eșantionării este centrată în jurul unei alte valori decât cea a adevăratului 𝛽, adică dacă 𝛽̂
este deplasat, atunci o varianță mai mică implică faptul că cea mai mare parte a distribuției
eșantionării lui 𝛽̂ este concentrată pe valoarea greșită. Cu toate acestea, dacă această valoare
nu este foarte diferită de valoarea adevărată, care de obicei în practică nu este cunoscută,
atunci precizia mai mare va fi totuși valoroasă.
𝑛 = 600
Distribuții ale lui 𝛽̂
𝑛 = 60
𝑛=6
−3 −2 −1 0 1 2 3 4 5
O metodă de a decide dacă această varianță scăzută a distribuției lui 𝛽̂ este suficient
de valoroasă pentru a compensa deplasamentul este compararea diferitelor tehnici de
estimare utilizând o măsură numită eroarea medie pătratică (Mean Square Error, 𝑀𝑆𝐸).
Eroarea medie pătratică este egală cu varianța plus pătratul deplasamentului. Cu cât 𝑀𝑆𝐸
este mai mic, cu atât este mai bine din punctul de vedere al estimării.
Un ultim element important de menționat este că, pe măsură ce varianța termenului
de eroare crește, crește și varianța distribuției lui 𝛽̂ . Motivul pentru care varianța lui 𝛽̂ crește
este acela că, cu cât varianța lui 𝜀𝑖 este mai mare, valori extreme ale lui 𝜀𝑖 sunt observate cu
o frecvență mai mare, iar termenul de eroare devine mai important în determinarea valorilor
lui 𝑌𝑖 .
̂
Eroarea standard a lui 𝜷
Date fiind ipotezele clasice I până la VI (ipoteza VII, normalitatea, nu este necesară
pentru această teoremă), 𝑂𝐿𝑆 (𝑂𝑟𝑑𝑖𝑛𝑎𝑟𝑦 𝐿𝑒𝑎𝑠𝑡 𝑆𝑞𝑢𝑎𝑟𝑒𝑠) este estimatorul cu varianța
minimă din mulțimea tuturor estimatorilor liniari nedeplasați ai lui 𝛽𝑘 , pentru 𝑘 = 0 , 1,
2, … , K.
Teorema lui Gauss – Markov este probabil cel mai ușor de reținut prin expresia „𝑂𝐿𝑆
este 𝐵𝐿𝑈𝐸” unde 𝐵𝐿𝑈𝐸 înseamnă „𝐵est (cel mai bun, adică cu varianță minimă) 𝐿inear
𝑈nbiased (nedeplasat) 𝐸stimator ”. Studenții care ar putea uita că aici „best” înseamnă
varianță minimă ar putea să scrie „𝑂𝐿𝑆 este 𝑀𝑣𝐿𝑈𝐸”, (𝑀𝑣 însemnând minimum de varianță)
dacă o astfel de expresie este mai ușor de reținut.
Dacă estimarea coeficientului unei ecuații este nedeplasată (adică, dacă fiecare dintre
coeficienții estimați este produs de un estimator nedeplasat al coeficientului real al
populației), atunci:
𝐸(𝛽̂𝑘 ) = 𝛽𝑘 (𝑘 = 0,1,2, … , 𝐾)
Cel mai bun înseamnă că fiecare 𝛽̂𝑘 are cea mai mică varianță posibilă, în acest caz,
dintre toți estimatorii liniari nedeplasați ai lui 𝛽𝑘 . Un estimator nedeplasat cu cea mai mică
varianță se numește eficient și se spune că acel estimator are proprietatea de eficiență.
Deoarece varianța scade de obicei pe măsură ce mărimea eșantionului crește, eșantioanele
mai mari produc aproape întotdeauna estimări ale coeficientului mai precise decât
eșantioanele mai mici.
Teorema Gauss – Markov cere ca doar primele șase din cele șapte ipoteze clasice să
fie îndeplinite. Ce se întâmplă dacă se adaugă și a șaptea ipoteză, conform căreia termenul
de eroare este normal distribuit? În acest caz, rezultatul teoremei Gauss – Markov este întărit
deoarece se poate demonstra că estimatorul 𝑂𝐿𝑆 este cel mai bun (cu varianță minimă)
estimator nedeplasat dintre toți estimatorii posibili, nu doar dintre estimatorii liniari. Cu alte
cuvinte, dacă toate cele șapte ipoteze sunt îndeplinite, 𝑂𝐿𝑆 este „𝐵𝑈𝐸”.
Având în vedere toate cele șapte ipoteze clasice, se poate demonstra că estimatorii
𝑂𝐿𝑆 ai coeficienților au următoarele proprietăți:
1. Sunt nedeplasați, adică 𝐸(𝛽̂ ) este egal cu 𝛽. Aceasta înseamnă că estimările 𝑂𝐿𝑆 ale
coeficienților sunt centrate în jurul valorilor reale ale parametrilor populației care se
estimează.
2. Au varianță minimă. Distribuția estimărilor coeficienților în jurul valorilor adevărate ale
parametrilor este cea restrânsă distribuție nedeplasată. Niciun alt estimator nedeplasat
nu are o varianță mai mică pentru fiecare coeficient estimat decât 𝑂𝐿𝑆.
𝛽̂ ~𝑁(𝛽, Var[𝛽̂ ])
Astfel, diferite teste statistice bazate pe distribuția normală pot fi într-adevăr aplicate
acestor estimări, așa cum se va face într-un capitol viitor.
Sumar
1. Cele șapte ipoteze clasice afirmă că modelul de regresie este liniar, cu un termen de
eroare aditiv. Termenul de eroare are media zero, este necorelat cu variabilele
explicative și cu alte observări ale termenului de eroare, are o varianță constantă și este
normal distribuit (opțional). În plus, variabilele explicative nu trebuie să fie funcții liniare
perfecte, una de alta sau de celelalte.
2. Cele mai importante două proprietăți ale unui estimator sunt lipsa deplasării și varianța
minimă. Un estimator este nedeplasat atunci când valoarea așteptată a coeficientului
estimat este egală cu valoarea sa reală. Varianța minimă se menține atunci când
distribuția de eșantionare are cea mai mică varianță dintre toți estimatorii dintr-o clasă
dată de estimatori (de exemplu, estimatori nedeplasați).
3. Având în vedere ipotezele clasice, se poate demonstra că 𝑂𝐿𝑆 este un estimator liniar,
nedeplasat, cu varianța minimă (sau 𝐵𝐿𝑈𝐸, pentru că este cel mai bun estimator liniar
nedeplasat). Aceasta este Teorema lui Gauss– Markov. Când una sau mai multe dintre
ipotezele clasice nu se mențin (cu excepția normalității), 𝑂𝐿𝑆 nu mai este 𝐵𝐿𝑈𝐸, deși
poate oferi estimări mai bune în unele cazuri decât tehnicile alternative de estimare
discutate în capitolele următoare.
4. Deoarece distribuția de eșantionare a estimatorului 𝑂𝐿𝑆 al lui 𝛽̂𝑘 este 𝐵𝐿𝑈𝐸, aceasta are
proprietăți dorite. Mai mult, varianța sau măsura dispersiei distribuției de eșantionare a
lui 𝛽̂𝑘 scade odată cu creșterea numărului de observări.
IP1. În figura alăturată sunt ilustrate punctele determinate de valorile observate ale variabilei
independente X și ale variabilei dependente Y, într-un model de regresie simplă. Conform
ipotezei clasice I, pentru a obține estimări cu proprietăți dorite, estimatorul OLS trebuie
aplicat unui model liniar, corect specificat și care are un termen de eroare aditiv. Pentru cazul
prezentat în figura alăturată, această ipoteză este îndeplinită?
• observări
𝑌𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖
Probabilitate
− 0 + 𝜀
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀1
Dacă termenul de eroare este corelat cu 𝑋1 , OLS atribuie lui 𝑋1 o parte din variația lui 𝑌, care
vine, de fapt, de la termenul de eroare. Dacă termenul de eroare și 𝑋1 sunt corelate pozitiv,
atunci coeficientul estimat al lui 𝑋1 va fi:
𝛽1 𝛽1 + 𝛼 𝛽̂1
𝐸 𝑌|𝑋 = 𝛽0 + 𝛽1 𝑍
0 𝑍
𝑋
𝑋2 = 𝑋1 + 10
𝑋1
Timp
Probabilitate
Distribuția B
Distribuția A 𝜇=2
𝜇=0 𝜎 2 = 0.5
𝜎2 = 1
𝑏
𝜇 = 0, 𝜎 2 = 1
𝑐
𝜇 = 2, 𝜎 2 = 2
𝑎
𝜇 = 0, 𝜎 2 = 3
0 2
DE1. Un estimator este o formulă, cum ar fi formula OLS pentru calculul valorilor estimate ale
coeficienților. O estimare a unui coeficient este o valoare obținută aplicând formula
estimatorului pe un eșantion de date. Folosind de mai multe ori aceeași formulă de calcul,
dar pe eșantioane diferite care provin din cadrul aceleiași populații, se obțin valori diferite
pentru coeficienții estimați ai modelului de regresie. Pentru un anumit coeficient,
distribuția de probabilitate a valorilor sale estimate, obținute prin aplicarea estimatorului
la eșantioane diferite, se numește:
O estimare a lui 𝛽
Frecvența
40
30
20
10
0
−10 0 10 20 30
Estimări ale lui 𝛽1
O estimare particulară
a lui 𝛽
𝛽 adevărat 𝐸 𝛽̂
Distribuția C
Distribuția B
Distribuția A
𝛽 adevărat
Distribuția 𝐶
Distribuții de eșantionare ale lui 𝛽̂
Distribuția 𝐵
Distribuția 𝐴
−3 −2 −1 0 𝛽=1 2 3 4 5
𝐸 𝛽̂𝑘 = 𝛽
Un estimator este consistent atunci când varianța distribuției sale de eșantionare devine
din ce în ce mai mică și fiecare estimare se apropie din ce în ce mai mult de valoarea
reală a coeficientului estimat pe măsură ce:
𝑛 = 600
𝑛 = 60
𝑛=6
−3 −2 −1 0 1 2 3 4 5
Distribuția nr. 2
Distribuția nr. 1
𝜇=2
𝜇=0
𝜎 2 = 0.5
𝜎2 = 1 𝐴
O estimare a lui β
𝛽̂ = −0.5
−2 −1 −0.5 0 𝛽=1 2 3 4