Sunteți pe pagina 1din 31

2.

Metoda celor mai mici pătrate

Estimarea coeficienților modelelor econometrice folosind o tehnică numită metoda


celor mai mici pătrate (𝑂𝐿𝑆 = Ordinary Least Squares) reprezintă pâinea și untul analizei de
regresie. Primele două secțiuni ale acestui capitol prezintă raționamentul și tehnica din
spatele 𝑂𝐿𝑆. Utilizatorii modelului de regresie se bazează pe calculatoare pentru a efectua
calculele 𝑂𝐿𝑆, astfel că accentul este pus aici pe înțelegerea a ceea ce încearcă să facă 𝑂𝐿𝑆 și
mai puțin pe cum face. Cum se poate distinge o ecuație bună de la una mai puțin bună, odată
ce a fost estimată? Există o serie de criterii utile, inclusiv măsura în care ecuația estimată se
potrivește cu datele observate. Este totuși necesară o atenție sporită atunci când se utilizează
criteriul potrivirii sau ajustării, cum se mai numește. Un exemplu de utilizare greșită a
acestui criteriu este prezentat în finalul acestui capitol.

Estimarea regresiilor cu o singură variabilă independentă

Scopul analizei de regresie este ca, plecând de la o ecuație pur teoretică, precum:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

și, utilizând un set de date, să se determine o ecuație estimată, cum ar fi:

𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

unde fiecare „căciulă” indică o estimare al valorii adevărate a parametrului, determinată pe


baza unui eșantion (în cazul lui 𝑌, „valoarea adevărată” la nivelul populației este 𝐸(𝑌|𝑋)).
Scopul folosirii unei tehnici de estimare este obținerea unor valori numerice adecvate pentru
coeficienții unei ecuații de regresie, ecuație complet teoretică în esența sa.
Cea mai utilizată metodă de obținere a acestor estimări este Ordinary Least Squares
(𝑂𝐿𝑆), care a devenit un standard încât estimările sale sunt prezentate ca punct de referință
chiar și atunci când sunt utilizate alte tehnici de estimare. Ordinary Least Squares (𝑂𝐿𝑆) este
o tehnică de calcul a valorilor estimate ale coeficienților 𝛽 care minimizează suma pătratelor
reziduurilor, astfel:

𝑂𝐿𝑆 minimizează ∑ 𝑒𝑖2 (𝑖 = 1,2, … , 𝑛)


𝑖=1
Deoarece aceste reziduuri, 𝑒𝑖 -urile, sunt diferențele dintre 𝑌-urile reale (observate)
și 𝑌-urile estimate produse de regresie, 𝑌̂𝑖 -urile, această ecuație este echivalentă cu a spune
2
că 𝑂𝐿𝑆 minimizează ∑(𝑌𝑖 − 𝑌̂𝑖 ) .

De ce se utilizează 𝑶𝑳𝑺?

Deși 𝑂𝐿𝑆 este cea mai utilizată tehnică de estimare a regresiei, nu este singura metodă
de estimare. Într-adevăr, econometricienii au dezvoltat ceea ce par a fi sute sau chiar mii de
tehnici de estimare diferite, despre care se va discuta mai târziu în acest text.
Există cel puțin trei motive importante care justifică utilizarea 𝑂𝐿𝑆 pentru estimarea
modelelor de regresie: 𝑂𝐿𝑆 simplă și relativ ușor de utilizat; scopul minimizării ∑ 𝑒𝑖2 este
adecvat din punct de vedere teoretic; estimările 𝑂𝐿𝑆 au o serie de caracteristici utile.
Primul motiv pentru utilizarea 𝑂𝐿𝑆 este acela că este cea mai simplă dintre toate tehnicile
de estimare econometrică. Multe dintre celelalte tehnici de estimare implică formule
neliniare complicate sau proceduri iterative, unele fiind extensii ale 𝑂𝐿𝑆. În schimb,
estimările 𝑂𝐿𝑆 sunt suficient de simple încât, dacă ar fi necesar, s-ar putea calcula fără a
utiliza un computer sau un calculator de buzunar (pentru un model cu o variabilă
independentă). Într-adevăr, în „perioadele întunecate” de dinainte de apariția
calculatoarelor de buzunar și computerelor, econometricienii calculau estimările 𝑂𝐿𝑆 de
mână!
Al doilea motiv pentru utilizarea 𝑂𝐿𝑆 este acela că reducerea la minimum a sumei
pătratelor reziduurilor este un obiectiv rezonabil din punct de vedere teoretic. Acest lucru
este mai ușor de înțeles dacă se ține cont de faptul că reziduul măsoară cât de aproape trece
linia de regresie față de datele observate efectiv:

𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 (𝑖 = 1,2, … , 𝑛)

Deoarece teoretic este rezonabil ca ecuația de regresie să fie cât mai aproape de datele
observate, se poate dori reducerea la minimum a sumei acestor reziduuri. Problema
principală cu însumarea reziduurilor este că unele sunt negative, altele pozitive. Astfel,
reziduurile negative și cele pozitive s-ar putea anula reciproc, suma putând deveni foarte
mică chiar dacă ecuația de regresie este total greșită. De exemplu, dacă pentru două
observări consecutive 𝑌 este egal cu 1000000, iar ecuația estimată arată valorile 1100000
și, respectiv, 900000, reziduurile vor fi de +100000 și -100000, ceea ce se face ca suma lor
să fie zero! Cu alte cuvinte, o sumă a reziduurilor egală cu zero nu spune nimic despre cât de
mari sunt aceste reziduuri, respectiv cât de apropiată de datele observate este linia de
regresie. Minimizarea sumei reziduurilor a fost înlocuită cu minimizarea sumei pătratelor
acestor reziduuri.
În sfârșit, al treilea motiv este acela că estimatorul OLS are câteva proprietăți utile,
cum ar fi lipsa deplasării și varianța minimă, proprietăți ce vor fi discutate într-un capitol
viitor.

Cum lucrează 𝑶𝑳𝑺?

Cum estimează 𝑂𝐿𝑆 un model de regresie cu o singură variabilă independență?

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖

𝑂𝐿𝑆 selectează acele estimări ale lui 𝛽0 și 𝛽1 care reduc la minimum pătratul reziduurilor,
însumate pentru toate observările eșantionului. Pentru o ecuație cu o singură variabilă
independentă, aceste estimări ale coeficienților se obțin folosind formulele:

∑𝑛𝑖=1[ (𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) ]


𝛽̂1 =
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

și, dată fiind această estimare a lui 𝛽1 se obține: 𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅, unde 𝑋̅ = media lui 𝑋 sau
∑ 𝑋𝑖 /𝑛, iar 𝑌̅ = media lui 𝑌 sau ∑ 𝑌𝑖 /𝑛. Pentru eșantioane diferite de date, se obțin estimări
diferite ale lui 𝛽1 și 𝛽0.

O ilustrare a estimărilor 𝑶𝑳𝑺

Ecuațiile pentru calcularea coeficienților de regresie pot părea oarecum inaccesibile,


dar nu este greu să fie aplicate pe seturi de date care au doar câteva observări și pentru
ecuații cu câteva variabile independente. Deși, de obicei, se utilizează pachete software de
regresie pentru a face estimarea, 𝑂𝐿𝑆 se înțelege mai bine dacă se parcurge următorul
exemplu de calcul „de mână”.
Pentru simplitate, se estimează coeficienții de regresie pornind de la datele privind
înălțimea și greutatea unor persoane. Pentru comoditate, datele observate sunt reproduse
în Tabelul 1. După cum s-a menționat anterior, formulele pentru estimarea 𝑂𝐿𝑆 pentru o
ecuație de regresie cu o singură variabilă independentă sunt:

∑𝑛𝑖=1[ (𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) ]


𝛽̂1 =
∑𝑛𝑖=1(𝑋𝑖 − 𝑋̅)2

𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅

Dacă se efectuează calculele prezentate în Tabelul 1 și se înlocuiesc rezultatele în aceste


formule, se obțin următoarele valori:
590.20
𝛽̂1 = = 6.38
92.5
𝛽̂0 = 169.40 − (6.38 ∙ 10.35) = 103.40

Ca urmare, ecuația de regresie estimată este:

𝑌̂𝑖 = 103.40 + 6.38𝑋𝑖

Printr-o simplă comparație, se poate constata că estimările coeficienților calculate manual


sunt aceleași cu rezultatele produse de un computer.

Tabelul 1. Calculul valorilor estimate ale coeficienților, pentru exemplul greutate/înălțime


După cum se poate observa în Tabelul 1, suma lui 𝑌̂ (coloana 8) este egală cu suma 𝑌 (coloana
2), deci suma reziduurilor (coloana 9) este egală cu zero (cu excepția erorilor de rotunjire).

Estimarea 𝑶𝑳𝑺 a unei regresii multivariate

În realitate, îndeosebi în economie, există doar câteva variabile dependente ce pot fi


explicate pe deplin de o singură variabilă independentă. Cele mai multe mărimi economice
sunt explicate de un set mai numeros de variabile independente. În exemplul de mai sus,
greutatea unei persoane, este influențată, de obicei, de mai multe variabile, nu doar de
înălțimea acelei persoane. Aici se pot enumera structura osoasă, procentul de grăsime
corporală, obiceiurile privind efectuarea de exerciții fizice, dieta, ereditatea etc.
Oricât de importante ar putea părea variabilele explicative suplimentare pentru
exemplul W/H, în aplicațiile economice există multe motive pentru a include în ecuații o
varietate de variabile independente. De exemplu, deși cantitatea pe cap de locuitor
consumată dintr-un produs este cu siguranță afectată de preț, aceasta nu este întreaga
poveste. Publicitatea, veniturile pe cap de locuitor, prețurile înlocuitorilor, influența piețelor
externe, calitatea serviciilor pentru clienți, posibilele obiceiuri, capricii și schimbarea
gusturilor sunt importante în modelele din lumea reală. Drept urmare, este vital să se treacă
de la regresii cu o singură variabilă independență la modele de regresie multivariate sau
ecuații cu mai mult de o variabilă independentă.

Semnificația coeficienților unei regresii multivariate

Modelul general de regresie multivariată cu 𝑘 variabile independente poate fi


reprezentat în felul următor:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖

unde 𝑖, ca și mai sus, ia valori de la 1 la 𝑛 și indică numărul observării. Astfel, 𝑋1𝑖 indică a 𝑖-a
observare a variabilei independente 𝑋1, 𝑋2𝑖 indică a 𝑖-a observare unei alte variabile
independente, 𝑋2 etc.
Cea mai mare diferență dintre un model de regresie cu o singură variabilă
independență și un model de regresie multivariat apare în interpretarea coeficienților pantă
ai acestuia din urmă. Acești coeficienți, adesea numiți coeficienți 𝑝𝑎𝑟ț𝑖𝑎𝑙𝑖 de regresie, sunt
definiți pentru a permite unui cercetător să distingă impactul unei variabile de cel al altor
variabile independente, asupra variabilei dependente.
Un coeficient parțial de regresie multivariată indică schimbarea suferită de variabila
dependentă ca urmare a creșterii cu o unitate a variabilei independente atașată
acelui coeficient, menținând constante celelalte variabile independente din ecuație.

Această ultimă parte a frazei de mai sus, scrisă cu caractere italice, este cheia pentru
înțelegerea regresiei multiple (așa cum se numește adesea regresia multivariată).
Coeficientul 𝛽1 măsoară impactul asupra 𝑌 a unei creșteri cu o unitate a lui 𝑋1, păstrând
constante 𝑋2 , 𝑋3 , … , 𝑋𝑘 . Nu rămân însă constante variabilele independente care nu au fost
incluse în ecuație, de exemplu 𝑋𝑘+1 . Coeficientul 𝛽0 reprezintă valoarea lui 𝑌 atunci când
toate 𝑋-urile și termenul de eroare sunt egale cu zero. După cum se va vedea în continuare,
un astfel de termen ar trebui inclus întotdeauna într-o ecuație de regresie, dar nu ar trebui
folosite estimările sale pentru inferența statistică.

Ca exemplu, se consideră următorul model estimat al consumului anual, pe cap de


locuitor, de carne de vită, în Statele Unite:

̂ 𝑡 = 37.54 − 0.88 ∙ 𝑃𝑡 + 11.9 ∙ 𝑌𝑑𝑡


𝐶𝐵

unde: 𝐶𝐵𝑡 = consumul de carne de vită, pe cap de locuitor, în anul 𝑡 (în livre/persoană);
𝑃𝑡 = prețul cărnii de vită, în anul 𝑡 (în cenți pe livră);
𝑌𝑑𝑡 = venitul disponibil pe cap de locuitor în anul 𝑡 (în mii dolari).

Coeficientul estimat al venitului, egal cu 11.9, arată că la o creștere cu 1000 de dolari


a venitului disponibil pe cap de locuitor, menținând constant prețul cărnii de vită, consumul
de carne de vită va crește cu 11.9 livre pe persoană. Capacitatea de a menține constant prețul
este crucială, deoarece este de așteptat ca o creștere atât de mare a venitului pe cap de
locuitor să stimuleze cererea, în condițiile în care prețurile ar rămâne constante. Dacă ar
crește în același timp și prețurile, creșterea cantității cerute nu ar mai fi sigură, iar efectul
creșterii venitului nu ar putea fi diferențiat de efectul creșterii prețurilor. Estimarea regresiei
multivariate permite concentrarea atenției asupra impactului pe care în are modificarea
variabilei de venit, menținând constantă variabila de preț. Trebuie însă reținut faptul că nu
rămân constante alte variabile posibile (cum ar fi prețul unui înlocuitor), deoarece aceste
variabile nu sunt incluse în ecuație.
Înainte de a trece la următoarea secțiune, se vor analiza mai în detaliu coeficienții
estimați ai ecuației de mai sus. În primul rând, coeficientul lui 𝑃 arată impactul unei creșteri
cu un cent a prețului cărnii de vită asupra consumului pe locuitor de carne de vită, venitul
pe cap de locuitor rămânând constant. Cum se poate observa, coeficientul estimat are semnul
pe care teoria economică îl va prezice. În al doilea rând, coeficienții estimați se modifică dacă
se modifică unitățile de măsură. De exemplu, dacă unitatea de măsură a venitului disponibil
se schimbă de la „mii de dolari” la „dolari”, ecuația estimată va rămâne aceeași, cu excepția
faptului că coeficientul lui 𝑌𝑑 va scădea de la 11.9 la 0.0119.

Estimarea 𝑶𝑳𝑺 a modelelor de regresie multivariate

Aplicarea 𝑂𝐿𝑆 la o ecuație cu mai multe variabile independente este destul de similară
cu aplicarea sa la un model cu o variabilă independentă unică. Pentru a vedea acest lucru, se
consideră estimarea celui mai simplu model multivariat, unul cu doar două variabile
independente:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

Scopul 𝑂𝐿𝑆 este de a alege acele 𝛽̂ -uri care reduc la minimum suma pătratelor
reziduurilor. Aceste reziduuri provin acum dintr-un model multivariat, dar suma lor poate fi
redusă la minimum utilizând aceeași abordare matematică folosită pentru regresia cu o
singură variabilă independentă. Astfel, estimarea 𝑂𝐿𝑆 a modelelor multivariate este identică
cu abordarea generală a estimării 𝑂𝐿𝑆 a modelelor cu o singură variabilă independentă.
Ecuațiile în sine sunt mai greoaie, dar principiul care stă la baza estimării 𝛽̂ -urilor care reduc
la minimum suma de pătrate de reziduuri rămâne același.
Din fericire, pachetele software prietenoase pot calcula estimări ale coeficienților,
pentru modele cu oricât de multe variabile independente, în mai puțin de o secundă. Într-
adevăr, doar cineva pierdut în timp sau blocat într-o insulă pustie s-ar deranja să estimeze
un model de regresie multivariată fără computer. Ceilalți vor folosi Stata, EViews, SPSS, SAS
sau oricare alt pachet de regresie, disponibil pe piață.

Un exemplu de model de regresie multivariată

Ca exemplu de regresie multivariată, se va analiza un model de acordare a ajutoarelor


financiare la un colegiu de arte. Variabila dependentă într-un astfel de studiu ar fi suma în
dolari acordată unui anumit solicitant de ajutor financiar: 𝐹𝐼𝑁𝐴𝐼𝐷𝑖 = ajutorul anual financiar
(măsurat în dolari), acordat solicitantului 𝑖. Ce variabile independente ar putea influența
valoarea ajutorului financiar primit de un student dat? Ei bine, majoritatea ajutoarelor sunt
bazate pe nevoi sau pe merite, deci are sens să se ia în considerare un model care să includă
cel puțin aceste două atribute:

− +
𝐹𝐼𝑁𝐴𝐼𝐷𝑖 = 𝛽0 + 𝛽1 𝑃𝐴𝑅𝐸𝑁𝑇𝑖 + 𝛽2 𝐻𝑆𝑅𝐴𝑁𝐾𝑖 + 𝜀𝑖
unde: 𝑃𝐴𝑅𝐸𝑁𝑇𝑖 = suma (în dolari pe an) pe care părinții studentului 𝑖 sunt capabili să o
plătească, ca o contribuție la susținerea cheltuielilor facultății;
𝐻𝑆𝑅𝐴𝑁𝐾𝑖 = clasamentul (ranking-ul 𝐺𝑃𝐴 − 𝐺𝑟𝑎𝑑𝑒 𝑃𝑜𝑖𝑛𝑡 𝐴𝑣𝑒𝑟𝑎𝑔𝑒) studentului 𝑖 la
liceu, conform clasamentului 𝐺𝑃𝐴, determinat ca procent (variind de la 0 la 100).

Semnele de deasupra coeficienților arată că se anticipează că are loc o scădere a


ajutorului financiar atunci când capacitatea părinților de a contribui la educația copilului lor
crește. În mod similar, este de așteptat ca un student care are 𝐺𝑃𝐴 la liceu mai ridicat, să
primească o sumă mai mare ca ajutor financiar. Când se estimează ecuația folosind 𝑂𝐿𝑆 și
datele din Tabelul 2, se obține:

̂ 𝑖 = 8927 − 0.36𝑃𝐴𝑅𝐸𝑁𝑇𝑖 + 87.4𝐻𝑆𝑅𝐴𝑁𝐾𝑖


𝐹𝐼𝑁𝐴𝐼𝐷

Care este semnificația acestor coeficienți estimați? Coeficientul estimat al lui 𝑃𝐴𝑅𝐸𝑁𝑇
este –0.36, ceea ce indică faptul că subvenția de ajutor financiar a studentului va scădea cu
0.36 USD pentru fiecare creștere de un dolar a capacității de plată a părinților săi, păstrând
ranking-ul de la liceu constant. Semnul coeficientului estimat corespunde așteptărilor?
Răspunsul este DA. Are sens mărimea coeficientului? Și de data aceasta răspunsul este DA.
În același mod se interpretează și coeficientul estimat al lui 𝐻𝑆𝑅𝐴𝑁𝐾. Se poate
observa că modelul implică faptul că subvenția pentru ajutor financiar a studentului va
crește cu 87.40 dolari pentru fiecare creștere a punctului procentual în ranking-ul de liceu,
păstrând capacitatea de plată a părinților constantă. Și acest coeficient estimat pare
rezonabil.
O analiză a ecuației estimate este necesară. Nu se poate spune că 𝐻𝑆𝑅𝐴𝑁𝐾 este cea
mai importantă variabilă independentă a modelului doar pentru că are un coeficient estimat,
egal cu 87.4, mult mai mare decât coeficientul estimat al lui 𝑃𝐴𝑅𝐸𝑁𝑇, egal cu -0.36. Pentru a
înțelege acest lucru, se poate analiza ecuația în care unitățile de măsură ale 𝑃𝐴𝑅𝐸𝑁𝑇 sunt
mii de dolari în loc de dolari. În acest caz, rezultatul estimării este:

̂ 𝑖 = 8927 − 367𝑃𝐴𝑅𝐸𝑁𝑇𝑖 + 87.4𝐻𝑆𝑅𝐴𝑁𝐾𝑖


𝐹𝐼𝑁𝐴𝐼𝐷

Lucrurile stau acum total diferit. Acum, coeficientul lui 𝑃𝐴𝑅𝐸𝑁𝑇 este mult mai mare decât
coeficientul 𝐻𝑆𝑅𝐴𝑁𝐾. Întrucât mărimea unui coeficient depinde în mod clar de unitățile de
măsură ale variabilei, nu se poate folosi, singură, dimensiunea coeficientului pentru a face
judecăți despre importanța unei variabile. Se va reveni la această problemă într-o secțiune
viitoare.
Figura 1 și Figura 2 ilustrează două puncte de vedere diferite asupra ecuației
analizate. Figura 1 este o diagramă a efectului variabilei 𝑃𝐴𝑅𝐸𝑁𝑇 asupra variabilei
dependente 𝐹𝐼𝑁𝐴𝐼𝐷, menținând constantă variabila 𝐻𝑆𝑅𝐴𝑁𝐾, iar Figura 2 arată efectul
𝐻𝑆𝑅𝐴𝑁𝐾 asupra 𝐹𝐼𝑁𝐴𝐼𝐷, menținând constant 𝑃𝐴𝑅𝐸𝑁𝑇.
𝐹𝐼𝑁𝐴𝐼𝐷𝑖

Panta = −0.36 = 𝛽̂1 (menținând constant 𝐻𝑆𝑅𝐴𝑁𝐾𝑖 )

0 𝑃𝐴𝑅𝐸𝑁𝑇𝑖

Figura 1. Ajutorul financiar, ca funcție de ranking-ul de la liceu

O creștere cu un dolar a capacității de plată a părinților scade ajutorul financiar acordat cu 0,36 USD, păstrând
ranking-ul de liceu constant.

Aceste două figuri sunt reprezentări grafice ale coeficienților de regresie multivariați
deoarece măsoară impactul asupra variabilei dependente a unei variabile independente,
menținând constante celelalte variabile din ecuație.

𝐹𝐼𝑁𝐴𝐼𝐷𝑖

Panta = 87.40 = 𝛽̂2 (menținând constant 𝑃𝐴𝑅𝐸𝑁𝑇𝑖 )

0 𝐻𝑆𝑅𝐴𝑁𝐾𝑖

Figura 2. Ajutorul financiar, ca funcție de ranking-ul de la liceu

O creștere cu un punct procentual a ranking-lui liceal, crește ajutorul financiar acordat cu 87,40 dolari,
menținând capacitatea de plată a părinților constantă.
Tabelul 2. Date pentru exemplul ajutorului financiar
i FINAID PARENT HSRANK SEX
1 19640 0 92 0
2 8325 9147 44 1
3 12950 7063 89 0
4 700 33344 97 1
5 7000 20497 95 1
6 11325 10487 96 0
7 19165 519 98 1
8 7000 31758 70 0
9 7925 16358 49 0
10 11475 10495 80 0
11 18790 0 90 0
12 8890 18304 75 1
13 17590 2059 91 1
14 17765 0 81 0
15 14100 15602 98 0
16 18965 0 80 0
17 4500 22259 90 1
18 7950 5014 82 1
19 7000 34266 98 1
20 7275 11569 50 0
21 8000 30260 98 1
22 4290 19617 40 1
23 8175 12934 49 1
24 11350 8349 91 0
25 15325 5392 82 1
26 22148 0 98 0
27 17420 3207 99 0
28 18990 0 90 0
29 11175 10894 97 0
30 14100 5010 59 0
31 7000 24718 97 1
32 7850 9715 84 1
33 0 64305 84 0
34 7000 31947 98 1
35 16100 8683 95 1
36 8000 24817 99 0
37 8500 8720 20 1
38 7575 12750 89 1
39 13750 2417 41 1
40 7000 26846 92 1
41 11200 7013 86 1
42 14450 6300 87 0
43 15265 3909 84 0
44 20470 2027 99 1
45 9550 12592 89 0
46 15970 0 57 0
47 12190 6249 84 0
48 11800 6237 81 0
49 21640 0 99 0
50 9200 10535 68 0
Sumele de pătrate totale, explicate și reziduale

Înainte de a merge mai departe, se vor prezenta unele mărimi care arată cât de mult
din variația variabilei dependente este explicată prin ecuația de regresie estimată. O astfel
de comparare a valorilor estimate cu valorile reale poate ajuta un cercetător să judece cât de
adecvată este regresia estimată la problema sa reală.
Economiștii folosesc pătratul variațiilor lui 𝑌 în jurul mediei sale ca o măsură a
mărimii variației care trebuie explicată prin regresie. Această mărime calculată este
denumită, de obicei, suma totală de pătrate sau 𝑇𝑆𝑆 (Total Sum of Square) și se calculează
conform relației:

𝑇𝑆𝑆 = ∑(𝑌𝑖 − 𝑌̅)2


𝑖=1

unde 𝑌̅ = media lui 𝑌𝑖 sau ∑𝑖(𝑌𝑖 /𝑛).

Pentru 𝑂𝐿𝑆, suma totală a pătratelor are două componente: o variație care poate fi
explicată prin regresie și o variație care nu poate explicată prin aceasta:

2
∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑ 𝑒𝑖2
𝑖 𝑖 𝑖
Suma Suma Suma
totală explicată reziduală
de pătrate de pătrate de pătrate
(𝑇𝑆𝑆) (𝐸𝑆𝑆) (𝑅𝑆𝑆)

Această ecuație este denumită, în mod uzual, ecuația de descompunere a varianței.


Figura 3 ilustrează descompunerea varianței pentru un model de regresie simplă (cu o
singură variabilă independentă). Valorile estimate ale lui 𝑌𝑖 se află pe linia de regresie
estimată 𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖 . Variația lui 𝑌 în jurul valorii sale medii (𝑌𝑖 − 𝑌̅), poate fi descompusă
în două părți componente:
1. (𝑌̂𝑖 − 𝑌̅) = diferența dintre valoarea estimată a lui 𝑌 (𝑌̂) și valoarea sa medie (𝑌̅);
2. (𝑌𝑖 − 𝑌̂𝑖 ) = diferența dintre valoarea reală a lui 𝑌 și valoarea sa estimată (𝑌̂𝑖 ).
Prima componentă măsoară partea din pătratul abaterii lui 𝑌𝑖 de la media sa, sau 𝑇𝑆𝑆,
parte care este explicată prin linia de regresie. Această componentă a sumei totale a
pătratului abaterilor, numită suma explicată a pătratelor, sau 𝐸𝑆𝑆, este atribuită liniei de
regresie. Porțiunea neexplicată a 𝑇𝑆𝑆 (neexplicată în sens empiric, prin ecuația de regresie
estimată), se numește suma reziduală a pătratelor, sau 𝑅𝑆𝑆.
Y
𝑌𝑖 𝑋𝑖 , 𝑌𝑖

𝑌𝑖 − 𝑌̂𝑖 = 𝑒𝑖
𝑌𝑖 − 𝑌̅ 𝑋𝑖 , 𝑌̂𝑖
𝑌̂𝑖 − 𝑌̅
𝑌̅ 𝑋𝑖 , 𝑌̅

𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

0 𝑋̅ 𝑋𝑖 X

Figura 3. Descompunerea variației lui 𝑌


Variația lui 𝑌 în jurul mediei sale, (𝑌𝑖 − 𝑌̅) poate fi descompusă în două părți: (1) (𝑌̂𝑖 − 𝑌̅ ), adică diferența dintre
valoarea estimată a lui 𝑌 (𝑌̂) și valoarea sa medie (𝑌̅) și (2) (𝑌𝑖 − 𝑌̂𝑖 ), adică diferența dintre valoarea observată
a lui 𝑌 și valoarea sa estimată.

Din ecuația de descompunere a varianței se poate constata că, cu cât 𝑅𝑆𝑆 este mai mic
în raport cu 𝑇𝑆𝑆, cu atât mai bine se potrivesc datele cu linia de regresie estimată. Astfel, 𝑂𝐿𝑆
este tehnica de estimare care minimizează 𝑅𝑆𝑆 și, prin urmare, maximizează 𝐸𝑆𝑆 pentru un
anumit 𝑇𝑆𝑆.

Evaluarea calității unei ecuații de regresie

Dacă estimarea 𝑂𝐿𝑆 reprezintă pâinea și untul analizei de regresie, atunci evaluarea
calității acestei estimări reprezintă inima și sufletul econometriei. Mulți econometricieni
începători au tendința de a accepta estimările pe măsură ce calculatorul le produce sau așa
cum sunt publicate într-un articol, fără a se gândi la sensul sau la validitatea acestor estimări.
O astfel de credință oarbă este la fel cu a cumpăra un dulap întreg de haine fără a le încerca.
Unele dintre haine se vor potrivi bine, dar multe altele se vor dovedi a fi prea mari sau prea
mici.
În schimb, misiunea unui econometrician este să gândească cu atenție și să evalueze
fiecare aspect al ecuației, de la teoria de bază la calitatea datelor, înainte de a accepta un
rezultat de regresie ca valid. De fapt, majoritatea econometricienilor buni petrec destul de
mult timp gândindu-se la ce să se aștepte de la o ecuație, înainte de a estima acea ecuație.
Cu toate acestea, odată realizate estimările cu ajutorul calculatorului, este timpul ca
rezultatele regresiei să fie evaluate. Lista de întrebări care trebuie puse în timpul unei astfel
de evaluări este lungă. Ea cuprinde cel puțin următoarele întrebări:

1. Ecuația are suport sau rezonanță teoretică?


2. Cât de bine se potrivește regresia estimată datelor observate?
3. Setul de date este destul de mare și precis?
4. 𝑂𝐿𝑆 este cel mai bun estimator utilizat pentru această ecuație?
5. Coeficienții estimați corespund așteptărilor formulate de cercetător înainte de colectarea
datelor?
6. Toate variabilele care, conform teoriei, sunt importante au fost incluse în ecuație?
7. A fost utilizată cea mai logică formă funcțională?
8. Regresia pare să fie lipsită de probleme econometrice majore?

Scopul acestui curs este acela de a constitui un ajutor pentru dezvoltarea capacității
voastre de a pune și de a răspunde corespunzător la astfel de întrebări. De fapt, numărul din
fața fiecărei întrebări de mai sus corespunde aproximativ cursului în care se vor aborda
problemele ridicate de întrebarea respectivă. Întrucât acesta este cursul 2, nu va fi o surpriză
să se constate că restul capitolului va fi dedicat celui de-al doilea dintre aceste subiecte –
potrivirea (ajustarea) generală a modelului estimat.

Descrierea potrivirii generale a modelului estimat

În general, este de preferat ca o ecuație de regresie estimată să explice destul de exact


variația variabilei dependente din eșantion. Dacă se întâmplă acest lucru, se poate spune că
modelul estimat se potrivește bine datelor.
Analiza potrivirii (ajustării) generale a unui model estimat este utilă nu numai pentru
evaluarea calității regresiei, ci și pentru compararea modelelor care au seturi de date diferite
sau combinații diferite de variabile independente. Nu se poate spune niciodată cu siguranță
că un model estimat reprezintă adevărul mai mult decât altul, dar evaluarea calității
potrivirii generale a ecuației este un ingredient într-o alegere între diferite formulări ale unui
model de regresie. Totuși, calitatea potrivirii este un ingredient minor în această alegere și
mulți cercetători începători își permit să fie influențați excesiv de aceasta.

Coeficientul de determinație 𝑹𝟐

Cea mai simplă măsură, folosită în mod uzual, este 𝑅 2 , denumit coeficientul de
determinație. 𝑅 2 este raportul dintre suma explicată și suma totală a pătratelor:
𝐸𝑆𝑆 𝑅𝑆𝑆 ∑ 𝑒𝑖2
𝑅2 = = 1− =1−
𝑇𝑆𝑆 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅)2

Cu cât 𝑅 2 este mai mare, cu atât ecuația de regresie estimată se potrivește mai bine cu
datele eșantionului. Măsurile de acest tip se numesc măsuri ale „bunei potriviri”. 𝑅 2 măsoară
procentul variației lui 𝑌 în jurul valorii sale medii 𝑌̅, explicat prin ecuația de regresie. Se stie
că 𝑂𝐿𝑆 selectează acele estimări ale coeficienților care reduc la minim 𝑅𝑆𝑆, 𝑂𝐿𝑆 furnizează
cel mai mare 𝑅 2 posibil, pentru un model liniar dat.
Deoarece 𝑇𝑆𝑆, 𝑅𝑆𝑆 și 𝐸𝑆𝑆 nu sunt negative (sunt sume de pătrate) și din moment ce
𝐸𝑆𝑆 ≤ 𝑇𝑆𝑆, rezultă că 𝑅 2 trebuie să se afle în intervalul 0 ≤ 𝑅 2 ≤ 1. O valoare a lui 𝑅 2
apropiată de 1 arată o potrivire generală excelentă, în timp ce o valoare apropiată de 0 arată
un eșec al ecuației de regresie estimată de a explica valorile lui 𝑌𝑖 mai bine decât pot fi
explicate prin media eșantionului 𝑌̅.
Figurile 4 - 6 ilustrează unele cazuri extreme. Figura 4 prezintă un 𝑋 și un 𝑌 care nu
au legătură între ele. Aceeași potrivire cu cea a liniei de regresie ar putea fi făcută prin 𝑌̂ =
𝑌̅, valoare care poate fi determinată chiar dacă 𝑋 ar fi omis din ecuație. Ca urmare, regresia
liniară estimată nu este mai bună decât media eșantionului, ca estimare a lui 𝑌𝑖 . Porțiunea
explicată, 𝐸𝑆𝑆, = 0, iar porțiunea neexplicată, 𝑅𝑆𝑆, este egală cu totalul pătratelor abaterilor
𝑇𝑆𝑆. În acest caz 𝑅 2 = 0.

Linia de regresie

𝑌̅
𝑅2 = 0

0 𝑋

Figura 4. Linia de regresie orizontală


Când 𝑋 și 𝑌 nu sunt legate una de cealaltă, linia de regresie este orizontală. Într-un astfel de caz, 𝑅2 este egal cu
zero.
𝑌

Linia de regresie

𝑅2 = 0.92

0 𝑋

Figura 5. Potrivire bună a liniei de regresie


Un set de date pentru 𝑋 și 𝑌 care poate fi explicat destul de bine cu o linie de regresie (𝑅2 = 0.92).

Figura 5 arată o relație între 𝑋 și 𝑌 care poate fi explicată destul de bine printr-o
ecuație de regresie liniară: valoarea lui 𝑅 2 este 0.92. Acest tip de rezultat este tipic pentru o
regresie a unei serii de timp, cu un grad de potrivire bun. Cea mai mare parte a variației este
explicată, dar rămâne în continuare o porțiune a variației care este esențial aleatorie sau
neexplicată de model.

Linia de regresie

𝑅2 = 1

0 𝑋

Figura 6. Potrivire perfectă a liniei de regresie


O potrivire perfectă: toate punctele determinate de combinațiile de date sunt pe linia de regresie, 𝑅2 = 1.
Gradul de potrivire este apreciat în raport cu tema studiată. În cazul seriilor de timp,
se obțin adesea valori ridicate pentru 𝑅 2 deoarece pot exista tendințe de evoluție în timp
semnificative pentru ambele părți ale ecuației. În cazul în care se utilizează date transversale,
se obțin deseori valori scăzute pentru 𝑅 2 , deoarece unitățile de observare (de exemplu,
țările) diferă în moduri care nu sunt cuantificabile cu ușurință. Într-o astfel de situație, un 𝑅 2
de 0.50 ar putea fi considerat că arată o potrivire bună, iar cercetătorii tind să se concentreze
pe identificarea variabilelor care au un impact substanțial asupra variabilei dependente, nu
pe 𝑅 2 . Cu alte cuvinte, nu există o metodă simplă de a determina cât de ridicat trebuie să fie
𝑅 2 pentru ca potrivirea să fie considerată satisfăcătoare. În schimb, a ști când 𝑅 2 este relativ
mare sau mic este o problemă de experiență. Trebuie remarcat faptul că un 𝑅 2 ridicat nu
implică faptul că modificările lui 𝑋 conduc la modificări în 𝑌, deoarece poate exista o variabilă
de bază ale cărei modificări duc la schimbări simultane atât în 𝑋 cât și în 𝑌.
Figura 6 prezintă o potrivire perfectă, iar 𝑅 2 = 1. O astfel de potrivire presupune că
nu este necesară nicio estimare. Relația este complet deterministă, iar panta și intercept-ul
pot fi calculate din coordonatele a două puncte. De fapt, ecuațiile pentru care 𝑅 2 sunt egale
(sau foarte apropiate) de 1 ar trebui privite cu suspiciune. Este foarte probabil ca acestea să
nu explice mișcările variabilei dependente 𝑌 în termenii afirmației cauzale avansate, chiar
dacă le explică empiric. Această precauție se aplică aplicațiilor economice, dar nu, în mod
necesar, și celor din domenii precum fizica sau chimia.

̅𝟐
𝑹𝟐 ajustat, 𝑹

O problemă majoră cu 𝑅 2 este că adăugarea unei alte variabile independente la o


anumită ecuație nu poate determina niciodată scăderea sa. Cu alte cuvinte, dacă se compară
două ecuații identice (aceeași variabilă dependentă și variabile independente), cu excepția
faptului că una are o variabilă independentă suplimentară, ecuația cu numărul mai mare de
variabile independente va avea întotdeauna o mai bună (sau egală) măsură a potrivirii, adică
un 𝑅 2 mai mare.
Acest lucru se poate vedea din ecuația de calcul a lui 𝑅 2 :

2
𝐸𝑆𝑆 𝑅𝑆𝑆 ∑ 𝑒𝑖2
𝑅 = = 1− =1−
𝑇𝑆𝑆 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅)2

Ce se întâmplă cu 𝑅 2 dacă se adaugă o nouă variabilă în ecuație? Adăugarea unei


variabile nu poate modifica 𝑇𝑆𝑆, dar, în cele mai multe cazuri, variabila adăugată va reduce
𝑅𝑆𝑆, astfel 𝑅 2 va crește. Se știe că 𝑅𝑆𝑆 nu poate crește, deoarece programul 𝑂𝐿𝑆 ar putea seta
întotdeauna coeficientul variabilei nou adăugate ca fiind egal cu zero, oferind astfel aceeași
potrivire ca și ecuația anterioară. Un coeficient egal cu zero al noii variabile este singura
circumstanță în care 𝑅 2 va rămâne același când aceasta este adăugată în ecuație. În caz
contrar, 𝑅 2 va crește întotdeauna când o variabilă este adăugată într-o ecuație de regresie.
Poate un exemplu va clarifica acest lucru. Pentru aceasta, se revine la regresia de
ghicire a greutății:

̂𝑖 = 103.40 + 6.38 ∙ 𝐻𝑖
𝑊

𝑅 2 pentru această ecuație este egal cu 0,74. Dacă se adaugă în ecuație o variabilă complet
lipsită de sens, de exemplu, codul poștal al fiecărui individ, atunci se dovedește că rezultatele
devin:

̂𝑖 = 103.40 + 6.36 ∙ 𝐻𝑖 + 0.02 ∙ 𝐵𝑂𝑋𝑖


𝑊

iar 𝑅 2 pentru această ecuație este 0,75! Astfel, cineva care utilizează 𝑅 2 ca singură măsură a
calității potrivirii regresiei ar alege a doua versiune a ecuației, pentru că potrivirea este mai
bună.
Includerea variabilei codul poștal nu numai că face ca o variabilă fără sens să fie
prezentă în ecuație, dar necesită și estimarea unui nou coeficient. Acest lucru reduce gradele
de libertate sau excesul peste numărul de observări (n) față de numărul de coeficienți
(inclusiv intercept-ul) estimați (𝑘 + 1). De exemplu, atunci când variabila cod poștal este
adăugată în ecuația W/H, numărul de observări rămâne constant la 20, dar numărul
coeficienților de estimat crește de la 2 la 3, astfel încât numărul de grade de libertate scade
de la 18 la 17. Această scădere are un cost, deoarece cu cât sunt mai mici gradele de libertate,
cu atât estimările sunt susceptibile a fi mai puțin fiabile. Astfel, creșterea calității ajustării,
cauzată de adăugarea unei variabile trebuie să fie comparată cu scăderea gradelor de
libertate înainte de a putea lua o decizie cu privire la impactul statistic al variabilei adăugate.
În concluzie, 𝑅 2 nu prea este de ajutor atunci când se decide dacă adăugarea unei
variabile la o ecuație îmbunătățește sau nu capacitatea acesteia de a explica, în mod
semnificativ, variabila dependentă. Din cauza acestei probleme, econometricienii au
dezvoltat o altă măsură a calității potrivirii unei ecuații. Această măsură este 𝑅̅ 2 (pronunțat
𝑅-𝑝ă𝑡𝑟𝑎𝑡-𝑏𝑎𝑟𝑎𝑡), care este 𝑅 2 ajustat cu gradele de libertate:

∑ 𝑒𝑖2 /(𝑛 − 𝑘 − 1) 𝑛−1


𝑅̅ 2 = 1 − = 1 − (1 − 𝑅 2 )
∑(𝑌𝑖 − 𝑌̅)2 /(𝑛 − 1) 𝑛−𝑘−1

𝑅̅ 2 măsoară procentul din variația lui 𝑌 în jurul valorii sale medii, explicat prin ecuația
de regresie, ajustat cu gradele de libertate.
Atunci când o nouă variabilă este adăugată în ecuație, 𝑅̅ 2 va crește, va scădea sau va
rămâne același, după cum îmbunătățirea ajustării cauzată de adăugarea noii variabile
depășește sau nu pierderea datorată scăderii numărului gradelor de libertate. O creștere a
lui 𝑅̅ 2 indică faptul că beneficiul marginal al adăugării unei variabile depășește costul
marginal, în timp ce o scădere a sa indică faptul că costul marginal depășește beneficiul
marginal. Într-adevăr, 𝑅̅ 2 pentru ecuația de estimare a greutății scade la 0,72 când se adaugă
variabila cod poștal. Variabila cod poștal, deoarece nu are nicio relevanță teoretică în raport
cu greutatea, nu ar trebui niciodată să fie inclusă în ecuație, iar măsura 𝑅̅ 2 susține această
concluzie.
Cel mai mare 𝑅̅ 2 posibil este de 1, la fel ca pentru 𝑅 2 . Cel mai mic 𝑅̅ 2 posibil nu este
0. Când 𝑅 2 este extrem de scăzut, 𝑅̅ 2 poate fi ușor negativ.

𝑅̅ 2 poate fi utilizat pentru a compara gradul de potrivire al ecuațiilor cu aceeași


variabilă dependentă și numere diferite de variabile independente. Datorită acestei
proprietăți, atunci când se evaluează gradul de potrivire al ecuațiilor de regresie
estimate se folosește, de regulă, 𝑅̅ 2 în loc de 𝑅 2 Totuși, 𝑅̅ 2 nu este la fel de util atunci
când se compară gradele de potrivire a două ecuații care au variabile dependente
diferite sau variabile dependente care sunt măsurate în unități de măsură diferite.

În cele din urmă, un avertisment este necesar. Trebuie ținut cont întotdeauna că
gradul de potrivire al unei ecuații estimate este doar o măsură a calității generale a regresiei
respective. După cum s-a menționat anterior, gradul în care coeficienții estimați se
conformează teoriei economice și așteptărilor anterioare ale cercetătorului cu privire la
acești coeficienți, sunt două lucruri la fel de importante ca și ajustarea în sine. De exemplu, o
ecuație estimată, cu o potrivire bună, dar cu un semn neverosimil pentru unul dintre
coeficienții estimați ar putea da predicții neverosimile și, prin urmare, nu ar fi o ecuație
foarte utilă. Alți factori, cum ar fi relevanța teoretică și utilitatea, intră și în joc. Parcurgând
un exemplu, se pot observa acești factori.

̅𝟐
Un exemplu de utilizare greșită a lui 𝑹

Secțiunea anterioară implică faptul că, cu cât potrivirea generală a unei ecuații date
este mai mare, cu atât este mai bine. Din păcate, mulți începători presupun că dacă un 𝑅̅ 2
ridicat este bun, atunci maximizarea lui 𝑅̅ 2 este cea mai bună modalitate de a maximiza
calitatea unei ecuații. O astfel de presupunere este periculoasă, deoarece o potrivire generală
bună este doar o măsură a calității unei ecuații.
Poate că cel mai bun mod de a vizualiza pericolele inerente maximizării lui 𝑅̅ 2 fără a
ține cont de semnificația economică sau de semnificația statistică a unei ecuații, este analiza
unui exemplu de astfel de abuzuri. Această analiză este importantă, deoarece pentru un
cercetător, una este să fie de acord în teorie că „maximizarea lui 𝑅̅ 2 ” este o cale greșită și cu
totul altceva este să evite maximizarea inconștientă a lau 𝑅̅ 2 într-un anumit proiect. Este ușor
să se accepte ideea că obiectivul regresiei nu este maximizarea lui 𝑅̅ 2 , dar este greu să se
reziste acestei tentații.
De exemplu, combinarea dragostei pentru pizza cu iubirea pentru economie ar putea
duce la estimarea unui model al factorilor determinanți ai consumului de brânză mozzarella.
Teoretic, mozzarella este un bun normal, așa că variabila independentă inclusă în model este
venitul. Colectând un mic eșantion de date, se estimează ecuația de regresie și se obțin
următoarele rezultate:

̂
𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴 𝑡 = −0.85 + 0.375 ∙ 𝐼𝑁𝐶𝑂𝑀𝐸𝑡
𝑛 = 10 𝑅̅ 2 = 0.88

unde:
𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴𝑡 = consumul de brânză mozzarella pe cap de locuitor în S.U.A. (în kg),
în anul 𝑡;
𝐼𝑁𝐶𝑂𝑀𝐸𝑡 = venitul real disponibil pe cap de locuitor în S.U.A. (în mii de dolari),
în anul 𝑡.

Gradul de potrivire pare foarte bun. Dar mulți economiști în devenire se vor întreba dacă nu
ar fi și mai bine dacă în ecuație ar adăuga încă o variabilă independentă. Căutând alte câteva
date și adăugând în ecuație o nouă variabilă, efectuând din nou regresia se obține:

̂
𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴 𝑡 = 3.33 + 0.248 ∙ 𝐼𝑁𝐶𝑂𝑀𝐸𝑡 − 0.046 ∙ 𝐷𝑅𝑂𝑊𝑁𝐼𝑁𝐺𝑆𝑡
𝑛 = 10 𝑅̅ 2 = 0.97
unde:
𝐷𝑅𝐴𝑊𝑁𝐼𝑁𝐺𝑆𝑡 = numărul de decese prin înec din S.U.A., datorate căderii dintr-o
barcă de pescuit, în anul 𝑡.
A doua ecuație are un 𝑅̅ 2 mult mai mare decât prima, aleasă pe baza teoriei. Asta
înseamnă că al doilea model este mai bun? Înainte de a răspunde la întrebare, ar trebui recitit
avertismentul dat mai sus despre calitatea potrivirii, 𝑅̅ 2 fiind doar o măsură a calității
generale a unei regresii.
Odată citit avertismentul respectiv, răspunsul este imediat: NU! Ecuația a doua se
potrivește mai bine, dar este absurd să se creadă că numărul de înecuri datorate căderii
dintr-o barcă de pescuit aparține unei ecuații pentru consumul de brânză mozzarella pe cap
de locuitor. Nicio teorie economică rezonabilă nu ar putea lega înecurile cu consumul de
brânză! Ceea ce s-a întâmplat aici este că, în acest mic eșantion, 𝐷𝑅𝑂𝑊𝑁𝐼𝑁𝐺𝑆 este foarte
corelat cu 𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴. Fără alte motive decât coincidența, decesele prin înec datorate
căderii din bărcile de pescuit au scăzut constant din 2000 până în 2009, în timp ce consumul
pe cap de locuitor de brânză mozzarella a crescut. Cele două variabile par, în mod fals,
corelate negativ, astfel încât prin adăugarea lui 𝐷𝑅𝑂𝑊𝑁𝐼𝑁𝐺𝑆, 𝑅̅ 2 a crescut. Astfel, faptul că
ecuația a doua are un grad de potrivire mai mare, nu înseamnă că este mai bună. Un astfel de
rezultat lipsit de sens este numit uneori regresie falsă (spurious regression) și ar trebui
ignorat. Ecuația a doua nu ar trebui rulată niciodată. Este o idee prea prostească pentru a o
lua în serios.
Astfel, un economist care folosește 𝑅̅ 2 ca singură măsură a calității unei ecuații (în
detrimentul teoriei economice sau al semnificației statistice) își mărește șansele de a avea
rezultate nereprezentative sau înșelătoare. Această practică ar trebui evitată cu orice preț.
Totuși, o regulă simplă de urmat privind estimarea econometrică nu va funcționa în toate
cazurile. În schimb, o combinație de competență tehnică, judecată teoretică și bun simț
economic poate face dintr-un tânăr un bun econometrician.
Pentru a evita dorința naturală de a maximiza 𝑅̅ 2 fără a ține cont de restul ecuației,
poate fi utilă următoarea conversație imaginară:
𝑇𝑢: Uneori, se pare că cel mai bun mod de a alege între două modele este alegerea celui
care are cel mai mare 𝑅̅ 2 .
Eul tău: Dar asta ar fi greșit.
𝑇𝑢: Se cunoaște că scopul analizei de regresie este acela de a obține cele mai bune
estimări posibile ale coeficienților reali ai populației și de a nu obține un 𝑅̅ 2 ridicat,
dar rezultatele „arată mai bine” dacă potrivirea este mai bună.
Eul tău: arată mai bine pentru cine? Nu este deloc neobișnuit ca 𝑅̅ 2 să fie mare, dar unii dintre
coeficienții de regresie să aibă semne sau magnitudini care sunt contrare așteptărilor
teoretice.
𝑇𝑢: Contează mai mult relevanța logică a variabilelor explicative, decât gradul de
potrivire, nu?
Eul tău: Corect! Dacă în acest proces se obține un 𝑅̅ 2 ridicat, bine, dar dacă 𝑅̅ 2 este ridicat, nu
înseamnă că modelul este bun.

Sumar

1. Metoda celor mai mici pătrate (Ordinary Least Squares -𝑂𝐿𝑆) este metoda utilizată cel
mai frecvent pentru obținerea de estimări ale coeficienților de regresie, folosind un set
de date (un eșantion). 𝑂𝐿𝑆 alege acele 𝛽̂ -uri care minimizează suma pătratelor
reziduurilor (∑ 𝑒𝑖2 ), pentru eșantionul respectiv.
2. 𝑅-pătrat-barat, 𝑅̅ 2 , măsoară procentul din variația lui 𝑌 în jurul mediei sale, care este
explicat printr-o anumită ecuație de regresie, ajustat cu gradele de libertate. 𝑅̅ 2 crește
atunci când o variabilă este adăugată la o ecuație numai dacă îmbunătățirea potrivirii
cauzată de adăugarea noii variabile compensează cu plus pierderea gradului de libertate
care este consumat în estimarea coeficientului noii variabile. Ca urmare, majoritatea
cercetătorilor utilizează automat 𝑅̅ 2 atunci când evaluează gradul de potrivire (ajustare)
al ecuațiilor de regresie estimate.

3. Trebuie ținut cont întotdeauna că potrivirea (ajustarea) unei ecuații estimate este doar
una dintre măsurile calității generale a regresiei respective. O serie de alte criterii,
inclusiv gradul în care coeficienții estimați se conformează teoriei economice și
așteptărilor (dezvoltate de cercetător înainte ca datele să fie colectate) sunt mai
importante decât mărimea lui 𝑅̅ 2 .
Testul 2.1

CM1. Analiza de regresie are ca scop determinarea unei ecuații estimate, plecând de la o ecuație
pur teoretică, precum 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 și utilizând un set de date, adică un eșantion. În
figura alăturată sunt reprezentate punctele determinate de valorile observate ale lui Y și X,
precum și linia estimată de regresie. Se poate spune că pâinea și untul analizei de regresie
este:

𝑌

× estimări

𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

Selectați una dintre variantele următoare:


a. determinarea adevăratelor valori ale coeficienților;
b. determinarea diferenței dintre valorile observate și valorile estimate;
c. reprezentarea grafică a liniei de regresie;
d. estimarea coeficienților folosind tehnică OLS;
e. răspunsurile la întrebările legate de calitatea regresiei;
CM2. Cea mai utilizată metodă de obținere a estimărilor coeficienților ecuațiilor de regresie este
OLS = Ordinary Least Squares. OLS este o tehnică de calcul a valorilor estimate ale
coeficienților β ai unei ecuații de regresie care minimizează suma pătratelor reziduurilor,
cum se arată și în figura alăturată. Aceasta înseamnă că OLS minimizează:

𝑛
𝑌
𝑂𝐿𝑆 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒𝑎𝑧ă ∑ 𝑒𝑖2 𝑖 = 1,2, … , 𝑛
𝑖=1 • observări
× estimări

𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

Selectați una dintre variantele următoare:


a. suma diferențelor dintre 𝑌-urile observate și 𝑌-urile estimate;
b. suma pătratelor diferențelor dintre 𝑌-urile observate și 𝑌-urile estimate;
c. suma pătratelor abaterilor valorilor observate ale lui 𝑌 de la media sa;
d. suma pătratelor diferențelor dintre 𝑌-urile reale și 𝑌-urile observate;
e. suma diferențelor dintre 𝑋-urile observate și 𝑋-urile estimate;
CM3. Utilizarea OLS pentru determinarea valorilor estimate ale coeficienților se justifică din cel
puțin trei motive importante:

1. OLS este o tehnică simplă, relativ ușor de utilizat;


2. Scopul minimizării sumei pătratelor reziduurilor este adecvat din punct de vedere
teoretic;
3. Estimatorul OLS are o serie de caracteristici utile.

În perioadele "întunecate", adică cele de dinaintea apariției calculatoarelor de


buzunar sau a celor electronice, economiștii calculau estimările OLS:

Selectați una dintre variantele de răspuns:


a. în oglindă;
b. în cap;
c. cu laptop-ul;
d. cu abacul;
e. de mână;
CM4. În cazul în care ecuația de regresie are o singură variabilă independentă X, pentru
determinarea valorilor estimate ale coeficienților β0 și β1, OLS utilizează formulele ilustrate
în figura alăturată. Având în vedere aceste formule, se poate observa că OLS:

𝑌

× estimări

𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅

∑𝑛𝑖=1 𝑋𝑖 − 𝑋̅ 𝑌𝑖 − 𝑌̅
𝛽̂1 =
∑𝑛𝑖=1 𝑋𝑖 − 𝑋̅ 2
𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

Selectați una dintre variantele următoare:


a. calculează mai întâi valoarea estimată a lui 𝛽0 ;
b. calculează mai întâi suma pătratelor reziduurilor;
c. calculează simultan valorile estimate ale lui 𝛽0 și 𝛽1 ;
d. determină mai întâi traseul liniei de regresie;
e. calculează mai întâi valoarea estimată a lui 𝛽1 ;
CM5. Mărimea coeficientului de autocorelație de ordinul întâi în cazul ilustrat în figura
alăturată este:

Nr.crt. Date observate Etape ale calculului


𝒊 𝑌𝑖 𝑋𝑖 𝑌𝑖 − 𝑌̅ 𝑋𝑖 − 𝑋̅ (𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅) (𝑋𝑖 − 𝑋̅)2 𝑌̂𝑖 𝑒𝑖
1 140.0 5.00 -29.4 -5.35 157.29 28.62 135.3 ?
2 157.0 9.00 -12.4 -1.35 16.74 1.82 160.8 -3.8
3 205.0 13.00 35.6 2.65 94.34 7.02 186.3 18.7
4 198.0 12.00 28.6 1.65 47.19 2.72 179.9 18.1
5 162.0 10.00 -7.4 -0.35 2.59 0.12 167.2 -5.2
… … … … … … … … …
20 155.0 11.00 -14.4 0.65 -9.36 0.42 173.5 -18.5
Suma 3388.0 207.00 0.0 0.00 590.20 92.55 3388.0 0.0
Media 169.4 10.35 0.0 0.00 - - - -

Selectați una dintre variantele următoare:


a. -18.5
b. -3.80
c. 0.00
d. 4.70
e. -4.70
CM6. O diferență importantă între un model de regresie cu o singură variabilă explicativă (model
univariat) și un model cu mai multe variabile explicative (model multivariat), modele
ilustrate în figura alăturată, constă în interpretarea coeficienților pantă. În cazul regresiei
multivariate, coeficienții pantă sunt denumiți adesea coeficienți parțiali de regresie. Un
coeficient parțial de regresie indică schimbarea suferită de variabila dependentă, datorată
creșterii cu o unitate a variabilei independente atașate coeficientului parțial respectiv,
presupunând că:

I. 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
model univariat

II . 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + ⋯ + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖


model multivariat

Selectați una dintre variantele următoare:


a. în ecuație au fost introduse toate variabilele independente relevante;
b. ceilalți coeficienți parțiali de regresie rămân constanți;
c. celelalte variabile independente din ecuație se mențin constante;
d. variabilele independente neincluse în ecuație se mențin constante;
e. variabila dependentă se menține constantă;
CM7. În figura alăturată este prezentat un model estimat al consumului anual de carne de vită,
pe locuitor, într-o țară. Dacă unitatea de măsură a venitului disponibil se schimbă, de la
"mii dolari" la "dolari", coeficientul estimat al lui 𝑌𝐷 devine:

𝐶𝐵𝑡 = 37.58 − 0.85 𝑃𝑡 + 11.95 𝑌𝐷𝑡 + 𝑒𝑡

unde: 𝐶𝐵𝑡 = cantitatea de carne de vită, pe locuitor în kg , consumată în anul 𝑡;


𝑃𝑡 = prețul unitar al cărnii de vită în lei kg , în anul 𝑡;
𝑌𝐷𝑡 = venitul disponibil pe locuitor, în mii lei , în anul 𝑡.

Selectați una dintre variantele următoare:


a. 0,00119
b. 11900
c. 0,0119
d. -11,9
e. 1,190
CM8. În figura alăturată este ilustrată descompunerea variației lui 𝑌 în jurul mediei sale. Astfel,
variația totală a lui 𝑌 în jurul mediei sale poate fi descompusă în două părți: variația
explicată și variația reziduală. Variația explicată se consideră egală cu diferența dintre
valoarea estimată a lui 𝑌 și valoarea sa medie, în timp ce variația reziduală este egală cu
diferența dintre valoarea observată a lui 𝑌 și valoarea sa estimată. În econometrie, suma
totală de pătrate se notează cu 𝑇𝑆𝑆, suma explicată de pătrate se notează cu 𝐸𝑆𝑆, iar suma
reziduală de pătrate se notează cu 𝑅𝑆𝑆. Ecuația de descompunere a varianței arată că:

𝑌
𝑌𝑖
𝑛
𝑌𝑖 − 𝑌̂𝑖 𝑅𝑆𝑆 = ∑ 𝑌𝑖 − 𝑌̂𝑖
2
𝑛
𝑖=1
𝑇𝑆𝑆 = ∑ 𝑌𝑖 − 𝑌̅ 2 𝑌𝑖 − 𝑌̅
𝑛
𝑖=1 2
𝑌̂𝑖 − 𝑌̅ 𝐸𝑆𝑆 = ∑ 𝑌̂𝑖 − 𝑌̅
𝑖=1
𝑌̅

𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖

0 𝑋̅ 𝑋𝑖 𝑋

Selectați una dintre variantele următoare:


a. RSS +TSS = ESS
b. RSS = ESS
c. TSS = RSS = ESS
d. TSS + ESS = RSS
e. ESS + RSS = TSS
CM9. În figura alăturată sunt enumerate întrebările la care trebuie să se răspundă în etapa
evaluării unei ecuații de regresie. Cu referire la întrebarea numărul 2, cea mai simplă
măsură a potrivirii (ajustării), utilizată în mod uzual, este:

1. Ecuația are suport sau rezonanță teoretică?


2. Cât de bine se potrivește regresia estimată la datele observate?
3. Setul de date este destul de mare și precis?
4. OLS este cel mai bun estimator pentru ecuația aleasă?
5. Cât de bine corespund coeficienții estimați cu așteptările formulate înaite de
colectarea datelor?
6. Toate variabilele, care conform teoriei sunt importante, sunt incluse în ecuație?
7. Forma funcțională utilizată este cea mai indicată?
8. Regresia pare să fie lipsită de probleme econometrice majore?

Selectați una dintre variantele următoare:


a. coeficientul liber, numit și intercept;
b. coeficientul de determinație;
c. coeficienții pantă ai ecuației;
d. coeficientul estimat atașat primei variabile independente;
e. coeficienții parțiali de regresie;
CM10. Când linia de regresie arată ca cea din figura alăturată, coeficientul de determinație este
egal cu 0. Aceasta arată că între 𝑌 și 𝑋 nu există nici un fel de relație. Ca urmare, regresia
liniară estimată nu este mai bună decât:

𝑌
𝑅2 = 0

Linia de regresie

𝑌̅

0 𝑋

Selectați una dintre variantele următoare:


a. media valorilor lui 𝑌 pe întregul eșantion;
b. regresia neestimată și neevaluată;
c. previziunile calitative privind evoluția viitoare a lui 𝑌;
d. coeficientul de determinație ajustat;
e. așteptările formulate înainte de estimare;

S-ar putea să vă placă și