Documente Academic
Documente Profesional
Documente Cultură
Scopul analizei de regresie este ca, plecând de la o ecuație pur teoretică, precum:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
De ce se utilizează 𝑶𝑳𝑺?
Deși 𝑂𝐿𝑆 este cea mai utilizată tehnică de estimare a regresiei, nu este singura metodă
de estimare. Într-adevăr, econometricienii au dezvoltat ceea ce par a fi sute sau chiar mii de
tehnici de estimare diferite, despre care se va discuta mai târziu în acest text.
Există cel puțin trei motive importante care justifică utilizarea 𝑂𝐿𝑆 pentru estimarea
modelelor de regresie: 𝑂𝐿𝑆 simplă și relativ ușor de utilizat; scopul minimizării ∑ 𝑒𝑖2 este
adecvat din punct de vedere teoretic; estimările 𝑂𝐿𝑆 au o serie de caracteristici utile.
Primul motiv pentru utilizarea 𝑂𝐿𝑆 este acela că este cea mai simplă dintre toate tehnicile
de estimare econometrică. Multe dintre celelalte tehnici de estimare implică formule
neliniare complicate sau proceduri iterative, unele fiind extensii ale 𝑂𝐿𝑆. În schimb,
estimările 𝑂𝐿𝑆 sunt suficient de simple încât, dacă ar fi necesar, s-ar putea calcula fără a
utiliza un computer sau un calculator de buzunar (pentru un model cu o variabilă
independentă). Într-adevăr, în „perioadele întunecate” de dinainte de apariția
calculatoarelor de buzunar și computerelor, econometricienii calculau estimările 𝑂𝐿𝑆 de
mână!
Al doilea motiv pentru utilizarea 𝑂𝐿𝑆 este acela că reducerea la minimum a sumei
pătratelor reziduurilor este un obiectiv rezonabil din punct de vedere teoretic. Acest lucru
este mai ușor de înțeles dacă se ține cont de faptul că reziduul măsoară cât de aproape trece
linia de regresie față de datele observate efectiv:
𝑒𝑖 = 𝑌𝑖 − 𝑌̂𝑖 (𝑖 = 1,2, … , 𝑛)
Deoarece teoretic este rezonabil ca ecuația de regresie să fie cât mai aproape de datele
observate, se poate dori reducerea la minimum a sumei acestor reziduuri. Problema
principală cu însumarea reziduurilor este că unele sunt negative, altele pozitive. Astfel,
reziduurile negative și cele pozitive s-ar putea anula reciproc, suma putând deveni foarte
mică chiar dacă ecuația de regresie este total greșită. De exemplu, dacă pentru două
observări consecutive 𝑌 este egal cu 1000000, iar ecuația estimată arată valorile 1100000
și, respectiv, 900000, reziduurile vor fi de +100000 și -100000, ceea ce se face ca suma lor
să fie zero! Cu alte cuvinte, o sumă a reziduurilor egală cu zero nu spune nimic despre cât de
mari sunt aceste reziduuri, respectiv cât de apropiată de datele observate este linia de
regresie. Minimizarea sumei reziduurilor a fost înlocuită cu minimizarea sumei pătratelor
acestor reziduuri.
În sfârșit, al treilea motiv este acela că estimatorul OLS are câteva proprietăți utile,
cum ar fi lipsa deplasării și varianța minimă, proprietăți ce vor fi discutate într-un capitol
viitor.
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
𝑂𝐿𝑆 selectează acele estimări ale lui 𝛽0 și 𝛽1 care reduc la minimum pătratul reziduurilor,
însumate pentru toate observările eșantionului. Pentru o ecuație cu o singură variabilă
independentă, aceste estimări ale coeficienților se obțin folosind formulele:
și, dată fiind această estimare a lui 𝛽1 se obține: 𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅, unde 𝑋̅ = media lui 𝑋 sau
∑ 𝑋𝑖 /𝑛, iar 𝑌̅ = media lui 𝑌 sau ∑ 𝑌𝑖 /𝑛. Pentru eșantioane diferite de date, se obțin estimări
diferite ale lui 𝛽1 și 𝛽0.
𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅
unde 𝑖, ca și mai sus, ia valori de la 1 la 𝑛 și indică numărul observării. Astfel, 𝑋1𝑖 indică a 𝑖-a
observare a variabilei independente 𝑋1, 𝑋2𝑖 indică a 𝑖-a observare unei alte variabile
independente, 𝑋2 etc.
Cea mai mare diferență dintre un model de regresie cu o singură variabilă
independență și un model de regresie multivariat apare în interpretarea coeficienților pantă
ai acestuia din urmă. Acești coeficienți, adesea numiți coeficienți 𝑝𝑎𝑟ț𝑖𝑎𝑙𝑖 de regresie, sunt
definiți pentru a permite unui cercetător să distingă impactul unei variabile de cel al altor
variabile independente, asupra variabilei dependente.
Un coeficient parțial de regresie multivariată indică schimbarea suferită de variabila
dependentă ca urmare a creșterii cu o unitate a variabilei independente atașată
acelui coeficient, menținând constante celelalte variabile independente din ecuație.
Această ultimă parte a frazei de mai sus, scrisă cu caractere italice, este cheia pentru
înțelegerea regresiei multiple (așa cum se numește adesea regresia multivariată).
Coeficientul 𝛽1 măsoară impactul asupra 𝑌 a unei creșteri cu o unitate a lui 𝑋1, păstrând
constante 𝑋2 , 𝑋3 , … , 𝑋𝑘 . Nu rămân însă constante variabilele independente care nu au fost
incluse în ecuație, de exemplu 𝑋𝑘+1 . Coeficientul 𝛽0 reprezintă valoarea lui 𝑌 atunci când
toate 𝑋-urile și termenul de eroare sunt egale cu zero. După cum se va vedea în continuare,
un astfel de termen ar trebui inclus întotdeauna într-o ecuație de regresie, dar nu ar trebui
folosite estimările sale pentru inferența statistică.
unde: 𝐶𝐵𝑡 = consumul de carne de vită, pe cap de locuitor, în anul 𝑡 (în livre/persoană);
𝑃𝑡 = prețul cărnii de vită, în anul 𝑡 (în cenți pe livră);
𝑌𝑑𝑡 = venitul disponibil pe cap de locuitor în anul 𝑡 (în mii dolari).
Aplicarea 𝑂𝐿𝑆 la o ecuație cu mai multe variabile independente este destul de similară
cu aplicarea sa la un model cu o variabilă independentă unică. Pentru a vedea acest lucru, se
consideră estimarea celui mai simplu model multivariat, unul cu doar două variabile
independente:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖
Scopul 𝑂𝐿𝑆 este de a alege acele 𝛽̂ -uri care reduc la minimum suma pătratelor
reziduurilor. Aceste reziduuri provin acum dintr-un model multivariat, dar suma lor poate fi
redusă la minimum utilizând aceeași abordare matematică folosită pentru regresia cu o
singură variabilă independentă. Astfel, estimarea 𝑂𝐿𝑆 a modelelor multivariate este identică
cu abordarea generală a estimării 𝑂𝐿𝑆 a modelelor cu o singură variabilă independentă.
Ecuațiile în sine sunt mai greoaie, dar principiul care stă la baza estimării 𝛽̂ -urilor care reduc
la minimum suma de pătrate de reziduuri rămâne același.
Din fericire, pachetele software prietenoase pot calcula estimări ale coeficienților,
pentru modele cu oricât de multe variabile independente, în mai puțin de o secundă. Într-
adevăr, doar cineva pierdut în timp sau blocat într-o insulă pustie s-ar deranja să estimeze
un model de regresie multivariată fără computer. Ceilalți vor folosi Stata, EViews, SPSS, SAS
sau oricare alt pachet de regresie, disponibil pe piață.
− +
𝐹𝐼𝑁𝐴𝐼𝐷𝑖 = 𝛽0 + 𝛽1 𝑃𝐴𝑅𝐸𝑁𝑇𝑖 + 𝛽2 𝐻𝑆𝑅𝐴𝑁𝐾𝑖 + 𝜀𝑖
unde: 𝑃𝐴𝑅𝐸𝑁𝑇𝑖 = suma (în dolari pe an) pe care părinții studentului 𝑖 sunt capabili să o
plătească, ca o contribuție la susținerea cheltuielilor facultății;
𝐻𝑆𝑅𝐴𝑁𝐾𝑖 = clasamentul (ranking-ul 𝐺𝑃𝐴 − 𝐺𝑟𝑎𝑑𝑒 𝑃𝑜𝑖𝑛𝑡 𝐴𝑣𝑒𝑟𝑎𝑔𝑒) studentului 𝑖 la
liceu, conform clasamentului 𝐺𝑃𝐴, determinat ca procent (variind de la 0 la 100).
Care este semnificația acestor coeficienți estimați? Coeficientul estimat al lui 𝑃𝐴𝑅𝐸𝑁𝑇
este –0.36, ceea ce indică faptul că subvenția de ajutor financiar a studentului va scădea cu
0.36 USD pentru fiecare creștere de un dolar a capacității de plată a părinților săi, păstrând
ranking-ul de la liceu constant. Semnul coeficientului estimat corespunde așteptărilor?
Răspunsul este DA. Are sens mărimea coeficientului? Și de data aceasta răspunsul este DA.
În același mod se interpretează și coeficientul estimat al lui 𝐻𝑆𝑅𝐴𝑁𝐾. Se poate
observa că modelul implică faptul că subvenția pentru ajutor financiar a studentului va
crește cu 87.40 dolari pentru fiecare creștere a punctului procentual în ranking-ul de liceu,
păstrând capacitatea de plată a părinților constantă. Și acest coeficient estimat pare
rezonabil.
O analiză a ecuației estimate este necesară. Nu se poate spune că 𝐻𝑆𝑅𝐴𝑁𝐾 este cea
mai importantă variabilă independentă a modelului doar pentru că are un coeficient estimat,
egal cu 87.4, mult mai mare decât coeficientul estimat al lui 𝑃𝐴𝑅𝐸𝑁𝑇, egal cu -0.36. Pentru a
înțelege acest lucru, se poate analiza ecuația în care unitățile de măsură ale 𝑃𝐴𝑅𝐸𝑁𝑇 sunt
mii de dolari în loc de dolari. În acest caz, rezultatul estimării este:
Lucrurile stau acum total diferit. Acum, coeficientul lui 𝑃𝐴𝑅𝐸𝑁𝑇 este mult mai mare decât
coeficientul 𝐻𝑆𝑅𝐴𝑁𝐾. Întrucât mărimea unui coeficient depinde în mod clar de unitățile de
măsură ale variabilei, nu se poate folosi, singură, dimensiunea coeficientului pentru a face
judecăți despre importanța unei variabile. Se va reveni la această problemă într-o secțiune
viitoare.
Figura 1 și Figura 2 ilustrează două puncte de vedere diferite asupra ecuației
analizate. Figura 1 este o diagramă a efectului variabilei 𝑃𝐴𝑅𝐸𝑁𝑇 asupra variabilei
dependente 𝐹𝐼𝑁𝐴𝐼𝐷, menținând constantă variabila 𝐻𝑆𝑅𝐴𝑁𝐾, iar Figura 2 arată efectul
𝐻𝑆𝑅𝐴𝑁𝐾 asupra 𝐹𝐼𝑁𝐴𝐼𝐷, menținând constant 𝑃𝐴𝑅𝐸𝑁𝑇.
𝐹𝐼𝑁𝐴𝐼𝐷𝑖
0 𝑃𝐴𝑅𝐸𝑁𝑇𝑖
O creștere cu un dolar a capacității de plată a părinților scade ajutorul financiar acordat cu 0,36 USD, păstrând
ranking-ul de liceu constant.
Aceste două figuri sunt reprezentări grafice ale coeficienților de regresie multivariați
deoarece măsoară impactul asupra variabilei dependente a unei variabile independente,
menținând constante celelalte variabile din ecuație.
𝐹𝐼𝑁𝐴𝐼𝐷𝑖
0 𝐻𝑆𝑅𝐴𝑁𝐾𝑖
O creștere cu un punct procentual a ranking-lui liceal, crește ajutorul financiar acordat cu 87,40 dolari,
menținând capacitatea de plată a părinților constantă.
Tabelul 2. Date pentru exemplul ajutorului financiar
i FINAID PARENT HSRANK SEX
1 19640 0 92 0
2 8325 9147 44 1
3 12950 7063 89 0
4 700 33344 97 1
5 7000 20497 95 1
6 11325 10487 96 0
7 19165 519 98 1
8 7000 31758 70 0
9 7925 16358 49 0
10 11475 10495 80 0
11 18790 0 90 0
12 8890 18304 75 1
13 17590 2059 91 1
14 17765 0 81 0
15 14100 15602 98 0
16 18965 0 80 0
17 4500 22259 90 1
18 7950 5014 82 1
19 7000 34266 98 1
20 7275 11569 50 0
21 8000 30260 98 1
22 4290 19617 40 1
23 8175 12934 49 1
24 11350 8349 91 0
25 15325 5392 82 1
26 22148 0 98 0
27 17420 3207 99 0
28 18990 0 90 0
29 11175 10894 97 0
30 14100 5010 59 0
31 7000 24718 97 1
32 7850 9715 84 1
33 0 64305 84 0
34 7000 31947 98 1
35 16100 8683 95 1
36 8000 24817 99 0
37 8500 8720 20 1
38 7575 12750 89 1
39 13750 2417 41 1
40 7000 26846 92 1
41 11200 7013 86 1
42 14450 6300 87 0
43 15265 3909 84 0
44 20470 2027 99 1
45 9550 12592 89 0
46 15970 0 57 0
47 12190 6249 84 0
48 11800 6237 81 0
49 21640 0 99 0
50 9200 10535 68 0
Sumele de pătrate totale, explicate și reziduale
Înainte de a merge mai departe, se vor prezenta unele mărimi care arată cât de mult
din variația variabilei dependente este explicată prin ecuația de regresie estimată. O astfel
de comparare a valorilor estimate cu valorile reale poate ajuta un cercetător să judece cât de
adecvată este regresia estimată la problema sa reală.
Economiștii folosesc pătratul variațiilor lui 𝑌 în jurul mediei sale ca o măsură a
mărimii variației care trebuie explicată prin regresie. Această mărime calculată este
denumită, de obicei, suma totală de pătrate sau 𝑇𝑆𝑆 (Total Sum of Square) și se calculează
conform relației:
Pentru 𝑂𝐿𝑆, suma totală a pătratelor are două componente: o variație care poate fi
explicată prin regresie și o variație care nu poate explicată prin aceasta:
2
∑(𝑌𝑖 − 𝑌̅)2 = ∑(𝑌̂𝑖 − 𝑌̅) + ∑ 𝑒𝑖2
𝑖 𝑖 𝑖
Suma Suma Suma
totală explicată reziduală
de pătrate de pătrate de pătrate
(𝑇𝑆𝑆) (𝐸𝑆𝑆) (𝑅𝑆𝑆)
𝑌𝑖 − 𝑌̂𝑖 = 𝑒𝑖
𝑌𝑖 − 𝑌̅ 𝑋𝑖 , 𝑌̂𝑖
𝑌̂𝑖 − 𝑌̅
𝑌̅ 𝑋𝑖 , 𝑌̅
0 𝑋̅ 𝑋𝑖 X
Din ecuația de descompunere a varianței se poate constata că, cu cât 𝑅𝑆𝑆 este mai mic
în raport cu 𝑇𝑆𝑆, cu atât mai bine se potrivesc datele cu linia de regresie estimată. Astfel, 𝑂𝐿𝑆
este tehnica de estimare care minimizează 𝑅𝑆𝑆 și, prin urmare, maximizează 𝐸𝑆𝑆 pentru un
anumit 𝑇𝑆𝑆.
Dacă estimarea 𝑂𝐿𝑆 reprezintă pâinea și untul analizei de regresie, atunci evaluarea
calității acestei estimări reprezintă inima și sufletul econometriei. Mulți econometricieni
începători au tendința de a accepta estimările pe măsură ce calculatorul le produce sau așa
cum sunt publicate într-un articol, fără a se gândi la sensul sau la validitatea acestor estimări.
O astfel de credință oarbă este la fel cu a cumpăra un dulap întreg de haine fără a le încerca.
Unele dintre haine se vor potrivi bine, dar multe altele se vor dovedi a fi prea mari sau prea
mici.
În schimb, misiunea unui econometrician este să gândească cu atenție și să evalueze
fiecare aspect al ecuației, de la teoria de bază la calitatea datelor, înainte de a accepta un
rezultat de regresie ca valid. De fapt, majoritatea econometricienilor buni petrec destul de
mult timp gândindu-se la ce să se aștepte de la o ecuație, înainte de a estima acea ecuație.
Cu toate acestea, odată realizate estimările cu ajutorul calculatorului, este timpul ca
rezultatele regresiei să fie evaluate. Lista de întrebări care trebuie puse în timpul unei astfel
de evaluări este lungă. Ea cuprinde cel puțin următoarele întrebări:
Scopul acestui curs este acela de a constitui un ajutor pentru dezvoltarea capacității
voastre de a pune și de a răspunde corespunzător la astfel de întrebări. De fapt, numărul din
fața fiecărei întrebări de mai sus corespunde aproximativ cursului în care se vor aborda
problemele ridicate de întrebarea respectivă. Întrucât acesta este cursul 2, nu va fi o surpriză
să se constate că restul capitolului va fi dedicat celui de-al doilea dintre aceste subiecte –
potrivirea (ajustarea) generală a modelului estimat.
Coeficientul de determinație 𝑹𝟐
Cea mai simplă măsură, folosită în mod uzual, este 𝑅 2 , denumit coeficientul de
determinație. 𝑅 2 este raportul dintre suma explicată și suma totală a pătratelor:
𝐸𝑆𝑆 𝑅𝑆𝑆 ∑ 𝑒𝑖2
𝑅2 = = 1− =1−
𝑇𝑆𝑆 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅)2
Cu cât 𝑅 2 este mai mare, cu atât ecuația de regresie estimată se potrivește mai bine cu
datele eșantionului. Măsurile de acest tip se numesc măsuri ale „bunei potriviri”. 𝑅 2 măsoară
procentul variației lui 𝑌 în jurul valorii sale medii 𝑌̅, explicat prin ecuația de regresie. Se stie
că 𝑂𝐿𝑆 selectează acele estimări ale coeficienților care reduc la minim 𝑅𝑆𝑆, 𝑂𝐿𝑆 furnizează
cel mai mare 𝑅 2 posibil, pentru un model liniar dat.
Deoarece 𝑇𝑆𝑆, 𝑅𝑆𝑆 și 𝐸𝑆𝑆 nu sunt negative (sunt sume de pătrate) și din moment ce
𝐸𝑆𝑆 ≤ 𝑇𝑆𝑆, rezultă că 𝑅 2 trebuie să se afle în intervalul 0 ≤ 𝑅 2 ≤ 1. O valoare a lui 𝑅 2
apropiată de 1 arată o potrivire generală excelentă, în timp ce o valoare apropiată de 0 arată
un eșec al ecuației de regresie estimată de a explica valorile lui 𝑌𝑖 mai bine decât pot fi
explicate prin media eșantionului 𝑌̅.
Figurile 4 - 6 ilustrează unele cazuri extreme. Figura 4 prezintă un 𝑋 și un 𝑌 care nu
au legătură între ele. Aceeași potrivire cu cea a liniei de regresie ar putea fi făcută prin 𝑌̂ =
𝑌̅, valoare care poate fi determinată chiar dacă 𝑋 ar fi omis din ecuație. Ca urmare, regresia
liniară estimată nu este mai bună decât media eșantionului, ca estimare a lui 𝑌𝑖 . Porțiunea
explicată, 𝐸𝑆𝑆, = 0, iar porțiunea neexplicată, 𝑅𝑆𝑆, este egală cu totalul pătratelor abaterilor
𝑇𝑆𝑆. În acest caz 𝑅 2 = 0.
Linia de regresie
𝑌̅
𝑅2 = 0
0 𝑋
Linia de regresie
𝑅2 = 0.92
0 𝑋
Figura 5 arată o relație între 𝑋 și 𝑌 care poate fi explicată destul de bine printr-o
ecuație de regresie liniară: valoarea lui 𝑅 2 este 0.92. Acest tip de rezultat este tipic pentru o
regresie a unei serii de timp, cu un grad de potrivire bun. Cea mai mare parte a variației este
explicată, dar rămâne în continuare o porțiune a variației care este esențial aleatorie sau
neexplicată de model.
Linia de regresie
𝑅2 = 1
0 𝑋
̅𝟐
𝑹𝟐 ajustat, 𝑹
2
𝐸𝑆𝑆 𝑅𝑆𝑆 ∑ 𝑒𝑖2
𝑅 = = 1− =1−
𝑇𝑆𝑆 𝑇𝑆𝑆 ∑(𝑌𝑖 − 𝑌̅)2
̂𝑖 = 103.40 + 6.38 ∙ 𝐻𝑖
𝑊
𝑅 2 pentru această ecuație este egal cu 0,74. Dacă se adaugă în ecuație o variabilă complet
lipsită de sens, de exemplu, codul poștal al fiecărui individ, atunci se dovedește că rezultatele
devin:
iar 𝑅 2 pentru această ecuație este 0,75! Astfel, cineva care utilizează 𝑅 2 ca singură măsură a
calității potrivirii regresiei ar alege a doua versiune a ecuației, pentru că potrivirea este mai
bună.
Includerea variabilei codul poștal nu numai că face ca o variabilă fără sens să fie
prezentă în ecuație, dar necesită și estimarea unui nou coeficient. Acest lucru reduce gradele
de libertate sau excesul peste numărul de observări (n) față de numărul de coeficienți
(inclusiv intercept-ul) estimați (𝑘 + 1). De exemplu, atunci când variabila cod poștal este
adăugată în ecuația W/H, numărul de observări rămâne constant la 20, dar numărul
coeficienților de estimat crește de la 2 la 3, astfel încât numărul de grade de libertate scade
de la 18 la 17. Această scădere are un cost, deoarece cu cât sunt mai mici gradele de libertate,
cu atât estimările sunt susceptibile a fi mai puțin fiabile. Astfel, creșterea calității ajustării,
cauzată de adăugarea unei variabile trebuie să fie comparată cu scăderea gradelor de
libertate înainte de a putea lua o decizie cu privire la impactul statistic al variabilei adăugate.
În concluzie, 𝑅 2 nu prea este de ajutor atunci când se decide dacă adăugarea unei
variabile la o ecuație îmbunătățește sau nu capacitatea acesteia de a explica, în mod
semnificativ, variabila dependentă. Din cauza acestei probleme, econometricienii au
dezvoltat o altă măsură a calității potrivirii unei ecuații. Această măsură este 𝑅̅ 2 (pronunțat
𝑅-𝑝ă𝑡𝑟𝑎𝑡-𝑏𝑎𝑟𝑎𝑡), care este 𝑅 2 ajustat cu gradele de libertate:
𝑅̅ 2 măsoară procentul din variația lui 𝑌 în jurul valorii sale medii, explicat prin ecuația
de regresie, ajustat cu gradele de libertate.
Atunci când o nouă variabilă este adăugată în ecuație, 𝑅̅ 2 va crește, va scădea sau va
rămâne același, după cum îmbunătățirea ajustării cauzată de adăugarea noii variabile
depășește sau nu pierderea datorată scăderii numărului gradelor de libertate. O creștere a
lui 𝑅̅ 2 indică faptul că beneficiul marginal al adăugării unei variabile depășește costul
marginal, în timp ce o scădere a sa indică faptul că costul marginal depășește beneficiul
marginal. Într-adevăr, 𝑅̅ 2 pentru ecuația de estimare a greutății scade la 0,72 când se adaugă
variabila cod poștal. Variabila cod poștal, deoarece nu are nicio relevanță teoretică în raport
cu greutatea, nu ar trebui niciodată să fie inclusă în ecuație, iar măsura 𝑅̅ 2 susține această
concluzie.
Cel mai mare 𝑅̅ 2 posibil este de 1, la fel ca pentru 𝑅 2 . Cel mai mic 𝑅̅ 2 posibil nu este
0. Când 𝑅 2 este extrem de scăzut, 𝑅̅ 2 poate fi ușor negativ.
În cele din urmă, un avertisment este necesar. Trebuie ținut cont întotdeauna că
gradul de potrivire al unei ecuații estimate este doar o măsură a calității generale a regresiei
respective. După cum s-a menționat anterior, gradul în care coeficienții estimați se
conformează teoriei economice și așteptărilor anterioare ale cercetătorului cu privire la
acești coeficienți, sunt două lucruri la fel de importante ca și ajustarea în sine. De exemplu, o
ecuație estimată, cu o potrivire bună, dar cu un semn neverosimil pentru unul dintre
coeficienții estimați ar putea da predicții neverosimile și, prin urmare, nu ar fi o ecuație
foarte utilă. Alți factori, cum ar fi relevanța teoretică și utilitatea, intră și în joc. Parcurgând
un exemplu, se pot observa acești factori.
̅𝟐
Un exemplu de utilizare greșită a lui 𝑹
Secțiunea anterioară implică faptul că, cu cât potrivirea generală a unei ecuații date
este mai mare, cu atât este mai bine. Din păcate, mulți începători presupun că dacă un 𝑅̅ 2
ridicat este bun, atunci maximizarea lui 𝑅̅ 2 este cea mai bună modalitate de a maximiza
calitatea unei ecuații. O astfel de presupunere este periculoasă, deoarece o potrivire generală
bună este doar o măsură a calității unei ecuații.
Poate că cel mai bun mod de a vizualiza pericolele inerente maximizării lui 𝑅̅ 2 fără a
ține cont de semnificația economică sau de semnificația statistică a unei ecuații, este analiza
unui exemplu de astfel de abuzuri. Această analiză este importantă, deoarece pentru un
cercetător, una este să fie de acord în teorie că „maximizarea lui 𝑅̅ 2 ” este o cale greșită și cu
totul altceva este să evite maximizarea inconștientă a lau 𝑅̅ 2 într-un anumit proiect. Este ușor
să se accepte ideea că obiectivul regresiei nu este maximizarea lui 𝑅̅ 2 , dar este greu să se
reziste acestei tentații.
De exemplu, combinarea dragostei pentru pizza cu iubirea pentru economie ar putea
duce la estimarea unui model al factorilor determinanți ai consumului de brânză mozzarella.
Teoretic, mozzarella este un bun normal, așa că variabila independentă inclusă în model este
venitul. Colectând un mic eșantion de date, se estimează ecuația de regresie și se obțin
următoarele rezultate:
̂
𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴 𝑡 = −0.85 + 0.375 ∙ 𝐼𝑁𝐶𝑂𝑀𝐸𝑡
𝑛 = 10 𝑅̅ 2 = 0.88
unde:
𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴𝑡 = consumul de brânză mozzarella pe cap de locuitor în S.U.A. (în kg),
în anul 𝑡;
𝐼𝑁𝐶𝑂𝑀𝐸𝑡 = venitul real disponibil pe cap de locuitor în S.U.A. (în mii de dolari),
în anul 𝑡.
Gradul de potrivire pare foarte bun. Dar mulți economiști în devenire se vor întreba dacă nu
ar fi și mai bine dacă în ecuație ar adăuga încă o variabilă independentă. Căutând alte câteva
date și adăugând în ecuație o nouă variabilă, efectuând din nou regresia se obține:
̂
𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴 𝑡 = 3.33 + 0.248 ∙ 𝐼𝑁𝐶𝑂𝑀𝐸𝑡 − 0.046 ∙ 𝐷𝑅𝑂𝑊𝑁𝐼𝑁𝐺𝑆𝑡
𝑛 = 10 𝑅̅ 2 = 0.97
unde:
𝐷𝑅𝐴𝑊𝑁𝐼𝑁𝐺𝑆𝑡 = numărul de decese prin înec din S.U.A., datorate căderii dintr-o
barcă de pescuit, în anul 𝑡.
A doua ecuație are un 𝑅̅ 2 mult mai mare decât prima, aleasă pe baza teoriei. Asta
înseamnă că al doilea model este mai bun? Înainte de a răspunde la întrebare, ar trebui recitit
avertismentul dat mai sus despre calitatea potrivirii, 𝑅̅ 2 fiind doar o măsură a calității
generale a unei regresii.
Odată citit avertismentul respectiv, răspunsul este imediat: NU! Ecuația a doua se
potrivește mai bine, dar este absurd să se creadă că numărul de înecuri datorate căderii
dintr-o barcă de pescuit aparține unei ecuații pentru consumul de brânză mozzarella pe cap
de locuitor. Nicio teorie economică rezonabilă nu ar putea lega înecurile cu consumul de
brânză! Ceea ce s-a întâmplat aici este că, în acest mic eșantion, 𝐷𝑅𝑂𝑊𝑁𝐼𝑁𝐺𝑆 este foarte
corelat cu 𝑀𝑂𝑍𝑍𝐴𝑅𝐸𝐿𝐿𝐴. Fără alte motive decât coincidența, decesele prin înec datorate
căderii din bărcile de pescuit au scăzut constant din 2000 până în 2009, în timp ce consumul
pe cap de locuitor de brânză mozzarella a crescut. Cele două variabile par, în mod fals,
corelate negativ, astfel încât prin adăugarea lui 𝐷𝑅𝑂𝑊𝑁𝐼𝑁𝐺𝑆, 𝑅̅ 2 a crescut. Astfel, faptul că
ecuația a doua are un grad de potrivire mai mare, nu înseamnă că este mai bună. Un astfel de
rezultat lipsit de sens este numit uneori regresie falsă (spurious regression) și ar trebui
ignorat. Ecuația a doua nu ar trebui rulată niciodată. Este o idee prea prostească pentru a o
lua în serios.
Astfel, un economist care folosește 𝑅̅ 2 ca singură măsură a calității unei ecuații (în
detrimentul teoriei economice sau al semnificației statistice) își mărește șansele de a avea
rezultate nereprezentative sau înșelătoare. Această practică ar trebui evitată cu orice preț.
Totuși, o regulă simplă de urmat privind estimarea econometrică nu va funcționa în toate
cazurile. În schimb, o combinație de competență tehnică, judecată teoretică și bun simț
economic poate face dintr-un tânăr un bun econometrician.
Pentru a evita dorința naturală de a maximiza 𝑅̅ 2 fără a ține cont de restul ecuației,
poate fi utilă următoarea conversație imaginară:
𝑇𝑢: Uneori, se pare că cel mai bun mod de a alege între două modele este alegerea celui
care are cel mai mare 𝑅̅ 2 .
Eul tău: Dar asta ar fi greșit.
𝑇𝑢: Se cunoaște că scopul analizei de regresie este acela de a obține cele mai bune
estimări posibile ale coeficienților reali ai populației și de a nu obține un 𝑅̅ 2 ridicat,
dar rezultatele „arată mai bine” dacă potrivirea este mai bună.
Eul tău: arată mai bine pentru cine? Nu este deloc neobișnuit ca 𝑅̅ 2 să fie mare, dar unii dintre
coeficienții de regresie să aibă semne sau magnitudini care sunt contrare așteptărilor
teoretice.
𝑇𝑢: Contează mai mult relevanța logică a variabilelor explicative, decât gradul de
potrivire, nu?
Eul tău: Corect! Dacă în acest proces se obține un 𝑅̅ 2 ridicat, bine, dar dacă 𝑅̅ 2 este ridicat, nu
înseamnă că modelul este bun.
Sumar
1. Metoda celor mai mici pătrate (Ordinary Least Squares -𝑂𝐿𝑆) este metoda utilizată cel
mai frecvent pentru obținerea de estimări ale coeficienților de regresie, folosind un set
de date (un eșantion). 𝑂𝐿𝑆 alege acele 𝛽̂ -uri care minimizează suma pătratelor
reziduurilor (∑ 𝑒𝑖2 ), pentru eșantionul respectiv.
2. 𝑅-pătrat-barat, 𝑅̅ 2 , măsoară procentul din variația lui 𝑌 în jurul mediei sale, care este
explicat printr-o anumită ecuație de regresie, ajustat cu gradele de libertate. 𝑅̅ 2 crește
atunci când o variabilă este adăugată la o ecuație numai dacă îmbunătățirea potrivirii
cauzată de adăugarea noii variabile compensează cu plus pierderea gradului de libertate
care este consumat în estimarea coeficientului noii variabile. Ca urmare, majoritatea
cercetătorilor utilizează automat 𝑅̅ 2 atunci când evaluează gradul de potrivire (ajustare)
al ecuațiilor de regresie estimate.
3. Trebuie ținut cont întotdeauna că potrivirea (ajustarea) unei ecuații estimate este doar
una dintre măsurile calității generale a regresiei respective. O serie de alte criterii,
inclusiv gradul în care coeficienții estimați se conformează teoriei economice și
așteptărilor (dezvoltate de cercetător înainte ca datele să fie colectate) sunt mai
importante decât mărimea lui 𝑅̅ 2 .
Testul 2.1
CM1. Analiza de regresie are ca scop determinarea unei ecuații estimate, plecând de la o ecuație
pur teoretică, precum 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 și utilizând un set de date, adică un eșantion. În
figura alăturată sunt reprezentate punctele determinate de valorile observate ale lui Y și X,
precum și linia estimată de regresie. Se poate spune că pâinea și untul analizei de regresie
este:
𝑌
•
× estimări
𝑛
𝑌
𝑂𝐿𝑆 𝑚𝑖𝑛𝑖𝑚𝑖𝑧𝑒𝑎𝑧ă ∑ 𝑒𝑖2 𝑖 = 1,2, … , 𝑛
𝑖=1 • observări
× estimări
𝑌
•
× estimări
𝛽̂0 = 𝑌̅ − 𝛽̂1 𝑋̅
∑𝑛𝑖=1 𝑋𝑖 − 𝑋̅ 𝑌𝑖 − 𝑌̅
𝛽̂1 =
∑𝑛𝑖=1 𝑋𝑖 − 𝑋̅ 2
𝑌̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑋𝑖
I. 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖
model univariat
𝑌
𝑌𝑖
𝑛
𝑌𝑖 − 𝑌̂𝑖 𝑅𝑆𝑆 = ∑ 𝑌𝑖 − 𝑌̂𝑖
2
𝑛
𝑖=1
𝑇𝑆𝑆 = ∑ 𝑌𝑖 − 𝑌̅ 2 𝑌𝑖 − 𝑌̅
𝑛
𝑖=1 2
𝑌̂𝑖 − 𝑌̅ 𝐸𝑆𝑆 = ∑ 𝑌̂𝑖 − 𝑌̅
𝑖=1
𝑌̅
0 𝑋̅ 𝑋𝑖 𝑋
𝑌
𝑅2 = 0
Linia de regresie
𝑌̅
0 𝑋