Utilizarea Analizei de Regresie

3.
Utilizarea analizei de regresie
După o lectură rapidă a cursului anterior, ar fi ușor de tras concluzia că analiza de

regresie este, nici mai mult nici mai puțin, doar o aplicare mecanică a unui set de ecuații la
un eșantion de date. O astfel de practică ar fi similară cu a spune că tot ceea ce contează în
jocul de golf este modul de lovire a mingii. Jucătorii de golf pot afirma însă că modul de lovire
a mingii este mai puțin important dacă crosa folosită este necorespunzătoare sau dacă
mingea este trimisă într-o direcție greșită, spre o capcană, într-un copac sau într-un iaz.
Jucătorii de golf petrec mult mai puțin timp gândindu-se la tehnica de lovire a mingii decât o
fac în legătură cu alte aspecte ale jocului. În mod similar, economiștii cu experiență în analiza
econometrică petrec mult mai puțin timp gândindu-se la estimarea OLS a unei ecuații decât
o fac cu privire la o serie de alți factori. Scopul acestui curs este de a ilustra unele dintre
aceste preocupări ale economiștilor „din lumea reală”.
Prima secțiune, care este o prezentare generală a celor șase etape ce trebuie parcurse
în mod obișnuit în analiza de regresie aplicată, este cea mai importantă din cadrul acestui
curs. Capacitatea de a învăța și de a înțelege un subiect specific, cum ar fi estimarea OLS, este
îmbunătățită dacă cititorul are o viziune clară asupra rolului pe care subiectul respectiv îl
ocupă în cadrul general al analizei de regresie. În plus, parcurgerea celor șase pași face
dificilă ratarea funcției cruciale a teoriei în dezvoltarea cercetării econometrice solide.
Urmează apoi un exemplu complet al modului de parcurgere a celor șase etape în
regresia aplicată: o analiză a locației pentru lanțul de restaurante Woody's, care se bazează
pe datele reale ale companiei. La acest exemplu se va reveni în capitolele următoare, pentru
aplicarea unor idei și teste noi. Capitolul se încheie cu o prezentare introductivă a
variabilelor dummy.
Etapele analizei de regresie aplicate
Deși nu există rețete bune și rapide pentru efectuarea cercetărilor econometrice,

majoritatea cercetătorilor urmează, în mod obișnuit, o procedură standard pentru realizarea
analizei de regresie. Accentul relativ și efortul cheltuit pentru fiecare etapă variază, dar în
mod normal, toți pașii sunt necesari pentru o cercetare de succes. Acești șase pași nu includ
selecția variabilei dependente, deoarece această alegere este determinată de scopul
cercetării. Totuși, într-un capitol viitor se va trata subiectul alegerii variabilei dependente.
Odată ce variabilă dependentă a fost aleasă, pentru realizarea analizei de regresie aplicate,
este logic să se urmeze următorii șase pași:
1. Dezvoltarea modelului teoretic pe baza literaturii de specialitate
2. Specificarea modelului: selecția variabilelor independente și a formei funcționale
3. Formularea ipotezelor privind semnele așteptate ale coeficienților
4. Colectarea datelor; verificarea și corectarea eventualelor erori privind datele
5. Estimarea ecuației și evaluarea rezultatelor
6. Documentarea rezultatelor
Scopul sugerării acestor pași nu este acela de a descuraja utilizarea unor abordări
inovatoare sau neobișnuite, ci mai degrabă de a dezvolta cititorului un sentiment al modului
riguros în care economiștii profesioniști și analiștii mediului de afaceri realizează, în mod
obișnuit, analiza de regresie.
1. Examinarea literaturii de specialitate și dezvoltarea modelului teoretic
Primul pas în orice cercetare aplicată este acela de a dobândi o bună înțelegere
teoretică a subiectului care urmează să fie studiat. Cei mai buni analiști de date nu încep cu
datele, ci cu teoria! Acest lucru se datorează faptului că multe decizii econometrice, plecând
de la variabilele care trebuie incluse până la forma funcțională utilizată, sunt determinate de
modelul teoretic de bază. Este practic imposibil să se construiască un model econometric
bun fără o înțelegere solidă a subiectului studiat.
Pentru majoritatea subiectelor, acest lucru înseamnă că este imperios necesară
revizuirea literaturii științifice înainte de a face orice altceva. Dacă un cercetător a investigat
teoria din spatele subiectului abordat, este bine ca acest lucru să fie cunoscut. Dacă alți
cercetători au estimat ecuații pentru variabila dependentă aleasă, nu este rău ca unul dintre
modelele lor să fie aplicat setului de date disponibile. Pe de altă parte, dacă abordarea acestor
cercetători pare nesatisfăcătoare, este bine ca atenția să fie concentrată într-o nouă altă
direcție. În ambele cazuri, nu ar trebui reinventată roata. Cercetarea ar trebui să înceapă de
acolo de unde au ajuns cercetătorii anteriori. Orice lucrare academică pe un subiect empiric
ar trebui să înceapă cu un rezumat al acoperirii și calității cercetărilor anterioare.
Cele mai convenabile abordări pentru revizuirea literaturii sunt obținerea mai multor
numere recente ale Journal of Economic Literature sau o publicație de rezumate orientată
spre economie sau afaceri. Este utilă, de asemenea, efectuarea unei căutări pe Internet sau
a unei căutări pe EconLit pe tema studiată. Folosind aceste resurse, se pot găsi și citi mai
multe articole recente referitoare la subiectul abordat. Este necesară acordarea unei atenții
sporite bibliografiilor acestor articole. Dacă un articol mai vechi este citat de mai mulți autori
actuali sau dacă titlul său atinge subiectul studiului, literatura de specialitate trebuie
urmărită înapoi, iar acel articol trebuie găsit. Mai multe sfaturi cu privire la revizuirea
literaturii se vor da într-un capitol viitor.
În puține cazuri, un subiect va fi atât de nou sau atât de obscur încât nu se vor putea
găsi articole pe tema respectivă. În astfel de situații sunt recomandate două strategii posibile.
În primul rând, se încercă ca teoria care stă la baza unui subiect similar să fie transferată
către subiectul studiat. De exemplu, când se construiește un model al cererii pentru un
produs nou, trebuie urmărite studiile în care se analizează cererea pentru produse similare,
existente. În al doilea rând, dacă toate celelalte nu reușesc, se poate contacta o persoană care
lucrează în domeniul investigat. De exemplu, dacă se construiește un model al vânzărilor de
locuințe într-un oraș necunoscut, este indicat să se apeleze la un agent imobiliar care
lucrează în orașul respectiv.
2. Specificarea modelului: selecția variabilele independente și a formei funcționale
Cel mai important pas în analiza regresiei aplicate este specificarea modelului de
regresie teoretică. După selectarea variabilei dependente, specificarea unui model implică:
1. alegerea variabilele independente și a modului în care acestea trebuie măsurate;
2. alegerea formei funcționale (a expresiei matematice) a ecuației de regresie;
3. stabilirea proprietăților termenului de eroare stocastică.
O ecuație de regresie este specificată complet atunci când fiecare dintre aceste elemente
a fost tratat în mod adecvat. Detaliile acestor decizii privind specificarea modelului se vor
analiza în capitolele următoare.
Fiecare dintre elementele specificării este determinat în primul rând pe baza teoriei
economice. O greșeală în oricare dintre cele trei elemente are ca rezultat o eroare de
specificație. Dintre toate tipurile de greșeli care pot fi făcute în analiza de regresie aplicată,
eroarea de specificație este de obicei cea mai dezastruoasă pentru validitatea ecuației
estimate. Astfel, cu cât se acordă mai multă atenție teoriei economice la începutul unui
proiect, cu atât rezultatele regresiei sunt mai bune.
Accentul din acest curs este pus pe estimarea ecuațiilor comportamentale, cele care
descriu comportamentul entităților economice. Atenția este concentrată pe selectarea
variabilelor independente pe baza teoriei economice referitoare la acel comportament.
Astfel, o variabilă explicativă este aleasă pentru că este un determinant teoretic al variabilei
dependente și pentru că este de așteptat ca ea să explice cel puțin o parte a variației variabilei
dependente. Regresia oferă dovezi ale existenței unei relații între variabile, dar nu dovedește
cauzalitatea economică. Așa cum un exemplu nu dovedește regula, un rezultat de regresie nu
dovedește teoria.
Există anumite pericole în specificarea variabilelor independente. Scopul economistului
este ca specificarea să conțină numai variabilele explicative relevante, cele care din punct de
vedere teoretic, este de așteptat să exercite o influență substanțială asupra variabilei
dependente. Variabilele suspectate că au un efect mic ar trebui excluse, cu excepția cazului
în care impactul lor posibil asupra variabilei dependente prezintă un anumit interes (de
exemplu, interes politic).
De exemplu, într-o ecuație care explică cantitatea cerută dintr-un bun de consum se pot
include, ca variabile independente, prețul acelui bun și venitul sau avuția consumatorului.
Teoria indică, de asemenea, că bunurile complementare și substituibile sunt importante. Prin
urmare, se pot include și prețurile bunurilor complementelor și ale unor înlocuitori. Dar care
bunuri complemente trebuie incluse și care înlocuitori? Desigur, selectarea celor mai
apropiate bunuri complemente și a celor mai buni înlocuitori este necesară, dar până unde
trebuie mers cu această selecție? Alegerea trebuie să se bazeze pe judecata teoretică și astfel
de judecăți sunt adesea destul de subiective.
Când cercetătorii decid, de exemplu, că trebuie incluse prețurile pentru alte două bunuri,
se spune că își impun așteptările (adică credința teoretică anterioară) sau ipotezele lor de
lucru asupra ecuației de regresie. Impunerea unor astfel de așteptări este o practică
obișnuită care determină numărul și tipul de ipoteze pe care trebuie să le testeze ecuația de
regresie. Pericolul este că o așteptare poate fi greșită și ar putea diminua utilitatea ecuației
de regresie estimate. Prin urmare, fiecare dintre așteptări trebuie explicată și justificată în
detaliu.
3. Formularea ipotezelor privind semnele așteptate ale coeficienților
După ce variabilele independente au fost selectate, este important să se facă ipoteze

asupra semnelor așteptate ale coeficienților pantă, înainte de a colecta datele. În multe
cazuri, teoria de bază constă într-un set de cunoștințe generale, deci nu este nevoie de
discutarea motivelor pentru care un anumit semn este așteptat să apară. Cu toate acestea,
dacă o anumită îndoială învăluie alegerea unui semn așteptat, atunci ar trebui documentate
motivele pentru care a fost ales semnul respectiv.
De exemplu, poate prezenta interes studierea impactului dimensiunii clasei asupra
performanțelor elevilor din învățământul primar. O variabilă dependentă rezonabilă (𝑌) ar
putea fi punctajul elevului la testul de gramatică, matematică și științe exacte (fizica, chimia,
…). Variabilele independente ar include, probabil, nivelul de venit al familiei elevului (𝑋1 ) și
dimensiunea (în elevi pe profesor) a clasei elevului (𝑋2).
+ –
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀
Semnele de deasupra coeficienților indică semnele așteptate ale acestora.

𝑌
0 𝑋
Figura 1. Potrivirea matematică a unei linii la două puncte

Dacă există doar două puncte într-un set de date, ca în Figura 1, o linie dreaptă poate fi suprapusă matematic,
fără erori, peste cele două puncte, deoarece două puncte determină complet o linie dreaptă.
Faptul că deasupra lui 𝛽1 este pus semnul + arată că este de așteptat ca un venit mai
mare să îmbunătățească scorurile obținute la teste, menținând constant numărul de elevi din
clasă. Această ipoteză pare rezonabilă, un venit mai mare al familiei însemnând oportunități
suplimentare de învățare pe care copiii și le-ar putea permite (meditații, de exemplu).
Semnul ipotetic al lui 𝛽2 este puțin mai complicat de stabilit. Ar trebui să fie negativ?
4. Colectarea datelor. Inspectarea și corectarea unor erori pe care datele le pot conține.
Obținerea unui set de date reale și pregătirea corespunzătoare a acestuia pentru

regresie este o sarcină surprinzător de dificilă. Acest pas implică mai mult decât o
înregistrare mecanică a datelor, deoarece trebuie ales și tipul și dimensiunea eșantionului.
O regulă generală cu privire la mărimea eșantionului este aceea că cu cât se fac mai
multe observări, cu atât este mai bine, atâta timp cât observările provin de la aceeași
populație generală. În mod obișnuit, cercetătorii folosesc toate observările aproximativ
comparabile, care sunt ușor disponibile.
În analiza de regresie, toate variabilele trebuie să aibă același număr de observări. De
asemenea, trebuie să aibă aceeași frecvență (lunară, trimestrială, anuală etc.) și să se refere
la aceeași perioadă de timp. Adesea, frecvența selectată este determinată de disponibilitatea
datelor.
𝑌
0 𝑋
Figura 2. Potrivirea statistică a unei linii la trei puncte

Dacă există trei (sau mai multe) puncte într-un set de date, ca în Figura 2, atunci aproape întotdeauna linia
trebuie să fie potrivită statistic la puncte, folosind procedurile de estimare.
Motivul pentru care ar trebui să existe cât mai multe observări se referă la conceptul
statistic al gradelor de libertate, menționat pentru prima dată în secțiunea anterioară.
Trebuie să se țină cont că sunt suficiente două puncte pentru a determina o dreaptă, într-un
sistem de coordonate X, Y, ca în Figura 1. Un astfel de exercițiu poate fi realizat matematic,
fără erori. Ambele puncte se află pe linie, deci nu este necesară o estimare a coeficienților
implicați. Cele două puncte determină exact cei doi parametri, intercept-ul și panta.
Estimarea are loc numai atunci când o linie dreaptă este trasată pentru a potrivi pe
trei sau mai multe puncte generate de un proces care nu este exact. Excesul numărului de
observări ( în acest caz egal cu 3), față de numărul de coeficienți care urmează să fie estimat,
(în acest caz egal cu 2: intercept-ul și panta), reprezintă numărul gradelor de libertate. Tot
ceea ce este necesar pentru estimare este existența unui singur grad de libertate, ca în Figura
2. Cu cât există însă mai multe grade de libertate, cu atât este mai bine. Acest lucru se
datorează faptului că atunci când numărul de grade de libertate este mare, fiecare eroare
pozitivă este mai probabil să fie echilibrată de o eroare negativă. Când numărul gradelor de
libertate este scăzut, este mai probabil ca elementul aleatoriu să nu reușească să ofere astfel
de observări compensatoare. De exemplu, cu cât o monedă este aruncată de mai multe ori,
cu atât este mai probabil ca proporția observată de fețe „cap” să reflecte adevărata
probabilitate de 0,5. Un alt element de îngrijorare are legătură cu unitățile de măsură ale
variabilelor. Contează dacă o variabilă este măsurată în dolari sau mii de dolari? Contează
dacă variabila măsurată diferă în mod constant de variabila adevărată cu 10 unități?
Interesant este că astfel de modificări nu contează în ceea ce privește analiza de regresie, cu
excepția interpretării scalei coeficienților.
Toate concluziile despre semne, semnificație și teorie economică sunt independente
de unitățile de măsură. De exemplu, nu prea are importanță dacă o variabilă independentă
este măsurată în dolari sau mii de dolari. Termenul constant și măsurile potrivirii generale
rămân neschimbate. Un astfel de factor multiplicator schimbă coeficientul pantă, dar numai
cu cantitatea exactă necesară pentru a compensa schimbarea unităților de măsură ale
variabilei independente. În mod similar, un factor constant adăugat unei variabile modifică
numai termenul intercept, fără a modifica coeficientul pantă.
Ultimul pas înainte de a estima ecuația este inspectarea și eliminarea erorilor din
date. Întotdeauna este bine să se verifice setul de date, pentru a se vedea dacă conține erori.
Motivul este evident: este inutilă folosirea unor instrumente sofisticate de prelucrare a
datelor dacă acestea sunt incorecte.
Pentru a inspecta datele, este indicată realizarea unor grafice care să permită
observarea mai ușoară a unor valori anormale. O valoare anormală (outlier) este o observare
care se află în afara intervalului restului observărilor, iar căutarea unor valori anormale este
o modalitate ușoară de a găsi erori de înregistrare a datelor. În plus, este un bun obicei să se
analizeze media, maximul și minimul fiecărei variabile și apoi să se evalueze posibilele
neconcordanțe din date. Există observări imposibile sau nerealiste? S-a dublat PIB-ul într-un
an? Consumul este negativ?
De obicei, datele pot fi „curățate” de aceste erori, înlocuind un număr incorect cu cel
corect. În circumstanțe extrem de rare, o observare poate fi eliminată din eșantion, dar
numai dacă numărul corect nu poate fi găsit sau dacă respectiva observare nu este, în mod
clar, din aceeași populație ca restul eșantionului. Simpla existență a unei valori anterioare
cu care să fie comparată nu este însă o justificare pentru eliminarea unei observări din
eșantion. O regresie trebuie să fie capabilă să explice toate observările dintr-un eșantion, nu
doar pe cele care „se comportă bine”. Pentru mai multe detalii despre colectarea datelor,
consultați secțiunile viitoare. Pentru mai multe informații despre generarea propriilor date
printr-un experiment economic, consultați, de asemenea, secțiunile următoare.
5: Estimarea și evaluarea ecuației
Poate dura câteva luni pentru a finaliza pașii 1-4 pentru o ecuație de regresie. În
schimb, estimarea ecuației, folosind un software precum Stata sau EViews, poate dura mai
puțin de o secundă! De obicei, estimarea se face folosind 𝑂𝐿𝑆, așa cum s-a arătat în capitolul
anterior, dar dacă se utilizează o altă tehnică de estimare, motivele acestei tehnici alternative
ar trebui să fie explicate și evaluate cu atenție.
S-ar putea crede că odată ce ecuația a fost estimată, lucrarea este terminată, dar nu
este așa. Trebuie evaluate rezultatele într-o varietate de moduri. Cât de bine se potrivește
ecuația datelor? Semnele și mărimile coeficienților estimați sunt cele așteptate? Cea mai
mare parte a restului acestei cărți se referă la evaluarea ecuațiilor econometrice estimate,
iar cercetătorii începători ar trebui să fie pregătiți să petreacă o perioadă considerabilă de
timp făcând această evaluare.
După finalizarea acestei evaluări, nu se trece automat la pasul 6. Rezultatele regresiei
sunt rareori ceea ce se așteaptă a fi, iar deseori este necesară dezvoltarea unui model
suplimentar. De exemplu, o evaluare a rezultatelor ar putea indica faptul că ecuației îi
lipsește o variabilă importantă. Într-un astfel de caz, se revine la pasul 1 pentru a examina
literatura și a adăuga variabila corespunzătoare în ecuația inițială. Se parcurg apoi, în ordine,
fiecare dintre pașii anteriori, până când se estimează noua specificație la pasul 5. Se trece la
pasul 6 numai dacă cercetătorul este mulțumit de ecuația estimată. Totuși, astfel de ajustări
nu trebuie făcute în grabă, pentru că ajustarea teoriei doar pentru a se potrivi cu datele nu
este de dorit. Un cercetător trebuie să parcurgă o linie fină între efectuarea modificărilor
adecvate și evitarea celor necorespunzătoare, iar luarea acestor decizii este unul dintre
elementele artistice ale econometriei aplicate.
În cele din urmă, merită adesea să se estimeze specificații suplimentare ale unei
ecuații, pentru a vedea cât de stabile sunt rezultatele obținute. Această abordare, numită
analiza senzitivității, va fi discutată într-o secțiune viitoare.
6: Documentarea rezultatelor
Un format standard folosit de obicei pentru a prezenta rezultatele regresiei estimate este
următorul:
𝑌̂𝑖 = 103.40 + 6.38 ∙ 𝑋𝑖

(0.88)
𝑡 = 7.22
𝑛 = 20 𝑅̅ 2 = 0.73
Numărul din paranteze este eroarea standard estimată a coeficientului estimat, iar valoarea
𝑡 este cea utilizată pentru a testa ipoteza că adevărata valoare a coeficientului este diferită
de zero. Alte măsuri ale calității regresiei vor fi discutate în capitolele ulterioare. Ceea ce este
important de remarcat este că documentația rezultatelor regresiei, utilizând un format ușor
de înțeles, este considerată parte a analizei în sine. Pentru seturile de date temporale,
documentația include, de asemenea, frecvența de observare (de exemplu, trimestrială sau
anuală) și perioada de timp pentru care datele au fost observate.
Una dintre părțile importante ale documentației este explicarea modelului, a
ipotezelor, procedurilor și datelor utilizate. Documentația scrisă trebuie să conțină suficiente
informații, astfel încât întregul studiu să poată fi reprodus de către alții. Cu excepția cazului
în care variabilele au fost definite într-un glosar sau tabel, ar trebui prezentate definiții
scurte împreună cu ecuațiile. Dacă există o serie de ecuații de regresie estimate, atunci
tabelele ar trebui să furnizeze informațiile relevante pentru fiecare ecuație. Toate
prelucrările și manipulările de date, precum și sursele de date ar trebui să fie documentate
pe deplin. Când există multe lucruri de explicat, această documentație este de obicei pusă
într-o anexă. Dacă datele nu sunt disponibile în general sau sunt disponibile numai după
efectuarea unui calcul, setul de date în sine ar putea fi inclus în această anexă.
Utilizarea analizei de regresie pentru a alege locațiile restaurantelor
Pentru consolidarea înțelegerii celor șase pași de bază ai analizei de regresie aplicată,
se va parcurge un exemplu complet de regresie. Se presupune că lanțul de restaurante
familiale Woody's, care practică prețuri moderate și care sunt deschise non-stop, caută cea
mai bună locație pentru următorul său restaurant. Pentru a veni în sprijinul luării celei mai
bune decizii, se construiește un model de regresie care să explice volumul brut al vânzărilor
fiecăruia dintre restaurantele din lanț, în funcție de diferiți descriptori ai locației sale. Dacă
se poate construi o ecuație solidă pentru a explica vânzările brute în funcție de locație, atunci
se poate utiliza această ecuație pentru a ajuta Woody’s să decidă unde să își construiască un
nou restaurant. Având în vedere datele privind costurile terenurilor, costurile de construcție
și regulile locale privind clădirile și restaurante, proprietarii Woody’s vor putea lua o decizie
în cunoștință de cauză.
1. Recenzia literaturii și dezvoltarea unui model teoretic. Se pot obține informații despre
industria restaurantelor în diverse moduri, dar în acest caz recenzia literaturii constă în
principal într-o discuție cu diferiți experți din cadrul firmei. Aceștia pot oferi câteva idei
bune despre atributele locației restaurantelor Woody de succes. Experții pot spune că
toate restaurantele lanțului sunt identice (aceasta este uneori o critică a lanțului) și că
toate locațiile se află în ceea ce s-ar putea numi medii „suburbane sau rezidențiale” (care
se disting de zonele centrale ale orașelor sau de zonele rurale). Din această cauză, multe
dintre motivele care ar putea ajuta la explicarea diferențelor volumului vânzărilor față
de alte lanțuri de restaurante nu se aplică în acest caz, deoarece toate locațiile Woody
sunt similare (dacă s-ar compara restaurantele Woody cu cele ale altui lanț de
restaurante, astfel de variabile ar putea fi neadecvate).
În plus, discuțiile cu persoanele din departamentul de planificare strategică Woody
pot scoate în evidență faptul că diferențele de preț și diferențele de meniu nu sunt așa de
importante pentru determinarea numărului de clienți dintr-o anumită locație. Acest
lucru este de natură să provoace îngrijorare, deoarece variabila planificată inițial a fi
studiată, volumul brut al vânzărilor, variază pe măsură ce prețurile se schimbă. Deoarece
compania controlează aceste prețuri, se poate prefera o estimare a „potențialului” de
vânzări. Ca urmare, variabila dependentă specificată este numărul de clienți deserviți
(măsurat prin numărul de cecuri sau facturi pe care le-au înregistrat serverele) într-o
locație dată, în ultimul an pentru care sunt disponibile date complete.
2. Specificarea modelului: selectarea variabilelor independente și a formei funcționale.
Discuțiile cu experții firmei conduc la o serie de variabile sugerate de către aceștia. Se
ajunge treptat la concluzia că există trei factori principali care determină vânzările
restaurantelor Woody (numărul clienților lor), asupra cărora practic toată lumea este de
acord. Acești factori sunt numărul de persoane care locuiesc în apropierea locației,
nivelul general al veniturilor acestora, precum și numărul de concurenți direcți, apropiați
locației respective. În plus, există alte două sugestii bune pentru potențiale variabile
explicative. Acestea sunt numărul de mașini care trec zilnic pe lângă locație și numărul
de luni în care restaurantul respectiv este deschis. După o analiză serioasă a
alternativelor, ultimele posibilități nu sunt luate în calcul. Aceasta deoarece toate locațiile
au fost deschise suficient de mult timp pentru a obține o clientelă stabilă, iar colectarea
datelor despre numărul de mașini care trec pe lângă fiecare locație în parte este foarte
costisitoare. Totuși, în cazul în care populația se dovedește a fi un determinant slab al
numărului de clienți dintr-o locație, trebuie prevăzute fonduri pentru a colecta date
complete despre trafic. Definițiile exacte ale variabilelor independente incluse în model
sunt:
N = concurența: numărul de concurenți direcți pe piață, pe o rază de două mile față
de locația Woody;
P = populația: numărul de persoane care trăiesc pe o rază de trei mile în jurul
locației restaurantului Woody;
I = venitul: venitul mediu pe gospodărie al populației măsurată de variabila P.
Se va folosi o formă funcțională liniară și o formă tipică a termenului de eroare,
deoarece încă nu au fost dezvoltate variante ale acestora.
3. Formularea ipotezelor privind semnele așteptate ale coeficienților. După alegerea
variabilelor independente trebuie stabilite așteptările privind semnele coeficienților.
Pentru două dintre variabile, acest lucru este ușor de făcut. Toată lumea se așteaptă ca,
cu cât concurența este mai mare, cu atât numărul clienți va fi mai mic (menținând
constantă populația și veniturile unei zone) și, de asemenea, cu cât sunt mai mulți oameni
care locuiesc în apropierea unui anumit restaurant, cu atât restaurantul va avea mai mulți
clienți (ținând constantă concurența și veniturile). În ceea ce privește veniturile, lucrurile
sunt discutabile. S-ar putea spune că, cu cât într-o anumită zonă veniturile sunt mai mari,
cu atât mai mulți oameni vor alege să mănânce într-un restaurant de familie. Cu toate
acestea, oamenii din zonele cu venituri mari sau foarte mari ar putea dori să mănânce
într-un restaurant care are mai multă „atmosferă” decât un restaurant de familie precum
Woody’s. În consecință, se poate aprecia că variabila de venit ar putea avea un impact
pozitiv, dar foarte slab. Pe scurt, așteptările privind semnele sunt următoarele:
− + +?
𝑌𝑖 = 𝛽0 + 𝛽𝑁 𝑁𝑖 + 𝛽𝑃 𝑃𝑖 + 𝛽𝐼 𝐼𝑖 + 𝜀𝑖
unde semnele de deasupra coeficienților indică impactul așteptat al acelei variabile

independente particulare asupra variabilei dependente, menținând constante
celelalte două variabile explicative, iar 𝜀𝑖 este un termen tipic de eroare stohastică.
Tabelul 1. Date pentru exemplul Woody
4. Colectarea datelor. Inspectarea și corectarea datelor. Se caută date pentru fiecare

restaurant din lanțul Woody, pentru variabila dependentă și pentru variabilele
independente. Se inspectează datele și se verifică calitatea acestora cel puțin sub
următoarele trei aspecte: fiecare manager de restaurant a măsurat variabilele în
același mod, în eșantion au fost incluse toate restaurantele Woody, iar informațiile se
referă toate la același an. Setul de date este prezentat în Tabelul 1.
Tabelul 2. Matricea de corelație
Tabelul 3. Rezultate EViews ale estimării
5. Estimarea și evaluarea ecuației. Se rulează o regresie 𝑂𝐿𝑆 pe datele disponibile, dar

numai după ce modelul a fost analizat din nou, pentru a vedea dacă există indicii ale unor
greșeli teoretice. Pentru exemplul dat rezultatele estimării 𝑂𝐿𝑆 sunt:
𝑌̂𝑖 = 102.192 − 9075𝑁𝑖 + 0.355𝑃𝑖 + 1.288𝐼𝑖

(2053) (0.073) (0.543)
𝑡 = −4.42 4.88 2.37
𝑛 = 33 𝑅̅ = 0.579
2
Aceste rezultate satisfac nevoile pe termen scurt. Coeficienții estimați au semnele

așteptate. Potrivirea generală, deși nu este remarcabilă, pare rezonabilă pentru un grup
atât de divers de locații. Pentru a prezice 𝑌, se obțin valorile lui 𝑁, 𝑃 și 𝐼 pentru fiecare
nouă locație potențială și se înlocuiesc în ecuația de mai sus. Toate celelalte fiind egale,
cu cât 𝑌 este mai mare, cu atât este mai bună locația din punctul de vedere al lui Woody.
6. Documentarea rezultatelor. Rezultatele prezentate la punctul 5 îndeplinesc cerințele de
documentare. Cu toate acestea, nu este ușor pentru un cercetător începător să parcurgă
toate rezultatele regresiei furnizate de un calculator, astfel încât să găsească toate
elementele necesare redactării documentației. Pentru exemplul dat, rezultatele sunt cele
furnizate de Stata, dar acestea sunt similare cu cele furnizate de EViews și altele.
Primele elemente enumerate sunt datele reale. Acestea sunt urmate de coeficienții de
corelație simpli între toate perechile de variabile din setul de date. Urmează o listă a
coeficienților estimați, a erorilor standard estimate și a valorilor 𝑡 asociate, urmate de
𝑅 2 , 𝑅̅ 2 , 𝑅𝑆𝑆, rația 𝐹, precum și de alte elemente care vor fi explicate în capitolele
următoare. În cele din urmă, este afișată o listă a 𝑌-urilor observate, estimate și a
reziduurilor pentru fiecare observare.
Tabelul 4. Reziduurile și reprezentarea lor grafică

Variabile dummy
Unele concepte (de exemplu, genul) ar putea părea imposibil de inclus într-o ecuație,
deoarece sunt inerent calitative și nu pot fi exprimate ca număr. Din fericire, astfel de
concepte pot fi cuantificate utilizând variabile dummy (sau fictive). O variabilă dummy ia
valorile 1 sau 0 (și numai aceste valori), în funcție de îndeplinirea unei condiții specificate.
Pentru a ilustra utilizarea unei variabile dummy, se presupune, de exemplu, că 𝑌𝑖
reprezintă salariul profesorului 𝑖, și că salariile depind în primul rând de experiența
profesorului și de tipul de diplomă pe care acesta o deține. Toți profesorii au licența, 𝐵𝐴, dar
unii au și o diplomă de absolvire a unui master, 𝑀𝐴. O ecuație care reprezintă relația dintre
câștigurile salariale ale profesorilor și aceste variabile este următoarea:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖 + 𝜀𝑖
unde: 𝑌𝑖 = venitul salarial al profesorului 𝑖, în dolari;

𝑋1= numărul de ani de experiență didactică ai profesorului 𝑖;
1 dacă profesorul 𝑖 are o diplomă de absolvire a unui master
𝐷𝑖 = {
0 altfel
Variabila 𝐷𝑖 ia doar valorile 1 sau 0. 𝐷𝑖 se numește a variabilă dummy (sau variabilă fictivă)
sau doar „dummy”. Termenul a generat multe jocuri de cuvinte. În acest exemplu, variabila
dummy reprezintă condiția de a avea o diplomă de absolvire a unui master. Coeficientul 𝛽2
indică salariul suplimentar care poate fi atribuit obținerii unei diplome universitare de
masterat, menținând constantă experiența didactică.
Întrucât o experiență mai mare și o diplomă de master sunt de așteptat să crească
câștigurile cadrelor didactice, coeficienți așteptați sunt pozitivi pentru ambele variabile,
după cum indică semnele de deasupra lor. O inversare a definiției lui 𝐷𝑖 schimbă semnul
așteptat al coeficientului 𝛽2. Astfel, dacă 𝐷𝑖 este definit să fie egal cu 1 când profesorul 𝑖 nu
are o diplomă de master și egal cu 0 în caz contrar, semnul așteptat pentru 𝛽2 va fi negativ.
Cum se poate vedea în Figura 3, intercept-ul se schimbă în funcție de valoarea lui 𝐷𝑖 ,
dar panta rămâne constantă. Acest lucru este adevărat chiar dacă variabila dummy este
„inversată”, adică 𝐷𝑖 = 0 dacă condiția particulară este îndeplinită și 𝐷𝑖 = 1 în caz contrar.
În acest exemplu se utilizează o singură variabilă dummy, chiar dacă sunt formulate
două condiții. Într-un model, numărul de variabile dummy trebuie să fie cu 1 mai mic decât
numărul condițiilor. Evenimentul care nu este reprezentat în mod explicit de o variabilă
dummy, condiția omisă, formează baza cu care sunt comparate condițiile incluse.
Astfel, pentru situații duale, este inclusă ca variabilă independentă o singură variabilă
dummy. Coeficientul său este interpretat ca reprezentând efectul condiției incluse în raport
cu condiția omisă. Nu se folosesc niciodată două variabile dummy pentru a descrie cele două
condiții. Acest lucru ar fi ca și cum cele două sensuri ale aceleiași străzi ar fi denumite diferit.
𝑌
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖
𝐷𝑖 = 1
𝑎𝑚𝑏𝑒𝑙𝑒 𝑝𝑎𝑛𝑡𝑒 = 𝛽1
𝛽2
𝛽0 + 𝛽2
𝛽2 > 0 𝐷𝑖 = 0
𝛽0
𝑋
0
Figura 3. O variabilă dummy care modifică intercept-ul

Dacă în ecuație se adaugă o variabilă dummy (𝛽2 𝐷𝑖 ), graficul ecuației va avea intercept-uri diferite pentru cele
două condiții calitative specificate de variabila dummy. Diferența dintre cele două intercept-uri este egală cu
𝛽2 . Pantele sunt constante în raport cu condițiile calitative specificate de variabila dummy.
Dacă se face această greșeală, numită uneori capcana variabilei dummy, în model
apare multicoliniaritatea perfectă, temă care va fi tratată într-o secțiune viitoare. Un alt
exemplu în care se poate observa semnificația coeficientului unei variabile dummy este cel
al relației dintre clasamentul studenților după media notelor obținute la examene și
apartenența la o organizație studențească.
Cei mai mulți ar aborda această problemă de cercetare prin calcularea mediei notelor
studenților membrii ai unei organizații studențești, pe care ar compara-o apoi cu media
notele studenților care nu fac parte din nicio organizație studențească. O astfel de abordare
ar ignora relația pe care notele o au cu alte caracteristici decât apartenența la o organizație
studențească. De aceea, este indicat să se construiască un model de regresie care să explice
clasamentul studenților la nivel de facultate. Pe lângă variabila independentă care se referă
la calitatea de a fi membru al unei organizații studențești, modelul trebuie să includă și alți
predictori ai performanței academice, cum ar fi media de admitere și media notelor din liceu.
Calitatea de a fi membru al unei organizații studențești este o variabilă calitativă.
Pentru a o include în model, trebuie creată o variabilă dummy în felul următor:
1 dacă studentul este un membru activ al unei

𝐷𝑖 = { organizații studențești
0 altfel
Pe baza datelor colectate de la toți studenții dintr-o grupă, se estimează ecuația implicată în
acest exemplu și se obține:
̂ 𝑖 = 0.37 + 0.81𝐻𝐺𝑖 + 0.00001𝑆𝑖 − 0.38𝐷𝑖

𝐶𝐺
𝑅̅ 2 = 0.45 𝑛 = 25
unde: 𝐶𝐺𝑖 = punctajul cumulativ al creditelor obținute de studentul 𝑖;

𝐻𝐺𝑖 = media de la liceu a studentului 𝑖;
𝑆𝑖 = suma notelor de la BAC, la limba română și la matematică, a
studentului 𝑖.
Semnificația coeficientului estimat al 𝐷𝑖 în ecuația de mai sus este foarte specifică.

Coeficientul estimat al lui 𝐷𝑖 este egal cu −0.38, ceea ce înseamnă că, pentru eșantionul
folosit, punctajul cumulativ al membrilor organizațiilor studențești este cu 0,38 puncte de
credit mai mic decât pentru studenții nemembri, 𝐻𝐺 și 𝑆 fiind constante. Astfel, membrii
organizațiilor studențești se descurcă mai greu cu activitatea academică decât s-ar putea
aștepta cineva.
Cu toate acestea, înainte de a se grăbi și a renunța la activitatea desfășurată într-o
organizație studențească, studenții trebuie să rețină că acest eșantion este destul de mic, iar
din ecuație s-au omis, cu siguranță, câțiva factori determinanți ai succesului academic. Ca
urmare, nu ar trebui încă trasă concluzia că activitatea desfășurată într-o organizație
studențească este de natură să afecteze negativ performanțele academice.
Până în acest moment, variabilele dummy au fost folosite doar pentru a reprezenta
acele variabile calitative care au exact două posibilități (cum ar fi genul). Dar sunt și situații
în care o variabilă calitativă are trei sau mai multe alternative. De exemplu, în studiul privind
salariile profesorilor de liceu, este posibil ca unii dintre profesori să aibă doctoratul. În acest
caz, trebuie să se poată face distincția dintre profesorii care au doctoratul, de cei care au
masteratul și de către cei care au doar licența. Soluția nu constă în definirea unei variabile
dummy care să fie egală cu 2 pentru doctorat, cu 1 pentru masterat și cu 0 pentru licență,
pentru că nu există niciun motiv să se creadă că impactul obținerii unui doctorat asupra
salariului este exact dublu față de cel al masteratului.
În astfel de cazuri, trebuie create un număr de variabile dummy cu 1 mai mic decât
numărul posibilităților sau condițiilor și să utilizeze fiecare variabilă dummy pentru a
reprezenta doar una dintre condițiile posibile. În cazul salariilor profesorilor de liceu, se
creează doar două variabile dummy pentru a reprezenta cele trei condiții, în felul următor:
1 dacă profesorul 𝑖 deține titlul de doctor

𝑃𝐻𝐷𝑖 = {
0 altfel
și
1 dacă profesorul 𝑖 deține diploma de master
𝑀𝐴𝑖 = {
0 altfel
Condiția omisă (când profesorul are doar licența) este reprezentată de faptul că
ambele variabile dummy sunt egale cu 0. În acest fel se poate măsura impactul fiecărui grad
independent, fără a fi nevoie ca acesta să fie interpretat prin raportul dintre impactul
masterului și doctoratului asupra salariului. Ecuația salariului ar putea fi următoarea:
+ + ?
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑃𝐻𝐷𝑖 + 𝛽3 𝑀𝐴𝑖 + 𝜀𝑖
Este important de subliniat că, atunci când există două sau mai multe variabile
dummy înrudite, interpretarea coeficienților este dificilă. Coeficientul arată creșterea
variabilei dependente cauzată de îndeplinirea condiției, în comparație cu condiția omisă.
Astfel, de exemplu, 𝛽3 măsoară impactul asupra salariului al deținerii unui 𝑀𝐴 (menținând
constant 𝑋 și 𝑃𝐻𝐷) în comparație cu condiția omisă, care este deținerea doar a unei diplome
𝐵𝐴. Revenind la ecuația anterioară, care este semnul așteptat al lui 𝛽3? Ar fi corect să fie
pozitiv, deoarece este de așteptat ca un profesor de liceu care deține un 𝑀𝐴 să aibă un salariu
mai mare decât al unui profesor care are doar 𝐵𝐴 (menținând 𝑋 și 𝑃𝐻𝐷 constante).
O variabilă dummy care are o singură observare cu valoarea 1, în timp ce restul
observărilor sunt 0 (sau invers) ar trebui evitată dacă variabila nu este cerută de teorie. O
astfel de variabilă dummy unică acționează doar pentru a elimina respectiva observare din
setul de date, îmbunătățind artificial potrivirea, stabilind coeficientul variabilei dummy egal
cu reziduul pentru respectiva observație. S-ar obține exact aceleași estimări ale celorlalți
coeficienți dacă respectiva observare ar fi ștearsă. Ștergerea unei observări este rareori, dacă
acest lucru se poate întâmpla vreodată, indicată.
Deși acesta este sfârșitul secțiunii, nu este sfârșitul discuției despre variabilele
dummy. Într-o secțiune viitoare se va discuta despre variabilele dummy care modifică panta
dreptei de regresie, iar într-un capitol viitor se va analiza ce se întâmplă atunci când variabila
dependentă este o variabilă dummy.
Sumar
1. În general, pentru efectuarea analizei de regresie trebuie parcurse șase etape. Acestea
sunt:
a. Revizuirea literaturii de specialitate și dezvoltarea modelului teoretic.
b. Specificarea modelului: selectarea variabilelor independente și a formei funcționale.
c. Formularea ipotezelor privind semnele așteptate ale coeficienților.
d. Colectarea datelor. Inspectarea datelor și eliminarea celor eronate.
e. Estimarea și evaluarea ecuației.
f. Documentarea rezultatelor.
2. O variabilă dummy ia doar valorile 1 sau 0, după cum este îndeplinită sau nu o condiție.
Un exemplu de variabilă dummy este cea care desemnează genul unei persoane: D egal
cu 1 dacă o anumită persoană este femeie și D egal cu 0 dacă persoana respectivă este
bărbat. Numărul de variabile dummy incluse într-o ecuație trebuie să fie cu 1 mai mic
decât numărul condițiilor. Evenimentul care nu este reprezentat în mod explicit de o
variabilă dummy, condiția omisă, reprezintă baza cu care sunt comparate condițiile
incluse.
Testul 3.1
UT1. În tabelul alăturat sunt prezentate etapele ce trebuie parcurse în mod obișnuit în analiza de
regresie aplicată. Se poate observa că estimarea OLS este doar o etapă dintre acestea, etapă
ce include și evaluarea rezultatelor. Deși cunoașterea și aplicarea corectă a tehnicii de
estimare OLS este importantă și necesită un timp pentru a fi aplicată, economiștii cu
experiență în analiza econometrică petrec cel mai mult timp pentru:
1. Dezvoltarea modelului teoretic pe baza literaturii de specialitate;
2. Specificarea modelului: selectarea variabilelor explicative și alegerea formei funcției;
3. Formularea ipotezelor privind semnele așteptate ale coeficienților;
4. Colectarea datelor; verificarea și corectarea eventualelor erori;
5. Estimarea OLS a ecuației și evaluarea rezultatelor;
6. Documentarea rezultatelor.
Selectați una dintre variantele următoare:

a. dezvoltarea modelului teoretic pe baza literaturii de specialitate;
b. colectarea datelor;
c. specificarea modelului;
d. documentarea rezultatelor;
e. formularea ipotezelor privind semnele așteptate ale coeficienților;
UT2. Primul pas în orice cercetare econometrică aplicată, așa cum se poate observa și în tabelul
alăturat, este dobândirea unei bune înțelegeri teoretice a temei abordate. Cei mai buni
analiști de date nu încep cu datele, ci cu teoria! Este practic imposibil să se construiască un
model econometric bun fără o înțelegere solidă a subiectului studiat. Acest lucru se
datorează faptului că multe decizii econometrice, plecând de la variabilele ce trebuie incluse
în ecuație și până la forma funcțională utilizată sunt determinate pe baza:
1. Dezvoltarea modelelului teoretic
2. Specificarea modelului. Formularea ipotezelor
3. Colectarea datelor
4. Estimarea și evaluarea modelului
5. Modelul este adecvat?
Nu Da
Reformularea modelului 6. Documentarea rezultatelor
7. Utilizarea modelului

a. experienței și inspirației cercetătorului;
b. recomandărilor profesorilor;
c. dorințelor beneficiarului cercetării econometrice;
d. rezultatelor obținute de alți specialiști;
e. teoriei fundamentale din domeniul respectiv;
UT3. În figura alăturată sunt ilustrate cele trei tipuri de decizii sau alegeri, care împreună
reprezintă ceea ce se numește specificarea unui model econometric: alegerea variabilelor
independente, alegerea formei termenului de eroare stohastică și alegerea formei
funcționale. O ecuație de regresie este specificată complet atunci când fiecare dintre aceste
alegeri a fost făcută în mod adecvat. O greșeală de alegere a variabilelor independente, a
formei termenului de eroare stohastică sau a formei funcționale este o greșeală de:
Alegerea formei funcționale
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + … + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖
Alegerea variabilelor independente Alegerea formei termenului de eroare stohastică

a. specificare a modelului;
b. înregistrare a datelor;
c. estimare a coeficienților;
d. interpretare a rezultatelor;
e. de natură teoretică;
UT4. După ce variabilele independente au fost selectate, urmează formularea unor ipoteze asupra
semnelor așteptate ale coeficienților pantă. În multe cazuri, motivele pentru care este de
așteptat ca un coeficient pantă să aibă un anumit semn nu sunt discutate, deoarece teoria
economică de bază oferă suficiente informații cu privire la semnul respectiv. Când însă există
o anumită îndoială, o anumită ambiguitate privind semnul așteptat, motivele alegerii trebuie
documentate. Oricum, formularea ipotezelor privind semnele așteptate ale coeficienților
pantă se face:
Ipoteze privind semnele coeficienților pantă
+ − +
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + … + 𝛽𝑘 𝑋𝑘𝑖

a. în timpul evaluării rezultatelor;
b. înainte de colectarea datelor;
c. chiar înainte de estimarea ecuației;
d. la documentarea rezultatelor;
e. înainte de specificarea modelului;
UT5. Obținerea unui set de date reale și pregătirea corespunzătoare a datelor pentru efectuarea
estimării sunt sarcini surprinzător de dificile. Din acest motiv, economiștii începători în
analiza econometrică au tendința de a face cât mai puține observări, de a folosi eșantioane
de date cât mai restrânse. Când pentru un model cu o singură variabilă independentă pentru
estimare se folosește un eșantion de date care conține doar două observări, situație ilustrată
în figura alăturată, estimarea este:
𝐵 𝑋1 , 𝑌1
𝑌1
𝐴 𝑋0 , 𝑌0
𝑌0
Dreapta de regresie
0 𝑋0 𝑋1 𝑋

a. inspirată;
b. inutilă;
c. inteligentă;
d. imposibilă;
e. imprecisă;
UT6. Excesul numărului de observări față de numărul de coeficienți care trebuie estimați este egal
cu numărul gradelor de libertate. Când există un număr mare de grade de libertate este mai
probabil ca fiecare eroare pozitivă să fie compensată de o eroare negativă. Când numărul
gradelor de libertate este scăzut, elementul aleatoriu nu reușește să ofere astfel de observări
compensatorii. Pentru situația ilustrată în figura alăturată, numărul gradelor de libertate
este egal cu:
𝑌̂𝑖 = 𝛽0 + 𝛽1 𝑋𝑖
0 𝑋

a. 1
b. 5
c. 3
d. 4
e. 2
UT7. Ultimul pas înaintea estimării ecuației de regresie este inspectarea și eliminarea eventualelor
erori conținute de date. Pentru a inspecta datele, este indicată realizarea unor grafice care
să permită observarea cu ușurință a valorilor anormale. În plus, un bun obicei este acela de
a analiza media, maximul și minimul fiecărei variabile, evaluarea putând să facă referință la
acestea. În figura alăturată, punctul 𝐴 descrie o situație anormală, deoarece indică un:
𝑌̂𝑖 = 𝛽0 + 𝛽1 𝑋𝑖
0 𝑋

a. outdoor;
b. outlook;
c. outlet;
d. outlier;
e. outsider;
UT8. Poate dura câteva luni pentru a finaliza etapele 1-4. În schimb, estimarea ecuației, folosind
unul dintre software-rile specializate precum Stata, EViews, SPSS, poate dura mai puțin de o
secundă. De obicei, metoda de estimare folosită este OLS. Dacă se utilizează altă metodă,
motivele trebuie să fie explicate. După estimare urmează evaluarea rezultatelor. După
evaluarea rezultatelor, se trece la etapa a 6-a:
1. Dezvoltarea modelelului teoretic
2. Specificarea modelului. Formularea ipotezelor
3. Colectarea datelor
4. Estimarea și evaluarea modelului
5. Modelul este adecvat?
Da Nu
6. ⋯ Reformularea modelului
7. Utilizarea modelului

a. după ce se mai parcurge odată etapa întâi, pentru a verifica că totul este bine;
b. numai dacă cercetătorul este mulțumit de ecuația estimată;
c. indiferent de așteptările privind semnele coeficienților;
d. numai dacă documentarea rezultatelor este cerută de beneficiar;
e. numai după ce se parcurge etapa denumită analiza senzitivității;
UT9. Un format standard folosit în mod obișnuit pentru a prezenta rezultatele regresiei estimate
este cel ilustrat în figura alăturată. Numărul din paranteze este eroarea standard estimată a
coeficientului, iar mărimea 𝑡 este cea utilizată pentru a testa că adevărata valoare a
coeficientului este semnificativ diferită de zero. Pentru ecuațiile cu serii de date temporale,
documentația include, de asemenea, frecvența de observare și perioada de timp pentru care
datele au fost observate. Ceea ce este important de remarcat este că documentarea
rezultatelor, utilizând un format ușor de înțeles, este considerată a fi parte a:
𝐶̂𝑆𝑖 = −300 + 0.9 𝑌𝐷𝑖 + 0.072 𝐿𝐴𝑖

1.8 0.16
𝑡= −0.5 0.45
𝑅̅ 2 = 0.9905 𝑛 = 40
unde:
𝐶𝑆𝑖 = cheltuieli ale studentului 𝑖, exceptând taxele școlare;

𝑌𝐷𝑖 = venitul anual disponibil al studentului 𝑖;
𝐿𝐴𝑖 = active lichide economisiri, … deținute de către studentul 𝑖;

a. colectării datelor;
b. analizei de regresie;
c. specificării;
d. estimării;
e. evaluării rezultatelor;
UT10. Când într-o ecuație cu o singură variabilă independentă, cum este cea din figura alăturată,
se adaugă o variabilă dummy care specifică două condiții calitative, pot fi posibile două
drepte de regresie. Aceste drepte vor avea intercept-uri diferite, în funcție de cele două
condiții calitative specificate de variabila dummy. Diferența dintre cele două intercept-uri
este egală cu valoarea estimată pentru 𝛽2 . Cum se poate observa în figura alăturată,
pantele celor două drepte de regresie posibile sunt aceleași. Pentru situațiile în care
variabila calitativă are trei alternative, în ecuația de regresie se introduc:
𝑌 𝑌̂𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖
𝐷𝑖 = 1
𝛽2 𝑎𝑚𝑏𝑒𝑙𝑒 𝑝𝑎𝑛𝑡𝑒 = 𝛽1
𝛽0 + 𝛽2
𝛽2 > 0 𝐷𝑖 = 0
𝛽0
0 𝑋

a. trei noi observări;
b. două variabile dummy;
c. o singură variabilă dummy;
d. trei variabile independente;
e. trei variabile dummy;

Utilizarea Analizei de Regresie

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Utilizarea Analizei de Regresie

Încărcat de

Drepturi de autor:

Formate disponibile

3.

Utilizarea analizei de regresie

După o lectură rapidă a cursului anterior, ar fi ușor de tras concluzia că analiza de

Etapele analizei de regresie aplicate

Deși nu există rețete bune și rapide pentru efectuarea cercetărilor econometrice,

1. Examinarea literaturii de specialitate și dezvoltarea modelului teoretic

2. Specificarea modelului: selecția variabilele independente și a formei funcționale

3. Formularea ipotezelor privind semnele așteptate ale coeficienților

După ce variabilele independente au fost selectate, este important să se facă ipoteze

Semnele de deasupra coeficienților indică semnele așteptate ale acestora.

Figura 1. Potrivirea matematică a unei linii la două puncte

Obținerea unui set de date reale și pregătirea corespunzătoare a acestuia pentru

Figura 2. Potrivirea statistică a unei linii la trei puncte

5: Estimarea și evaluarea ecuației

𝑌̂𝑖 = 103.40 + 6.38 ∙ 𝑋𝑖

Utilizarea analizei de regresie pentru a alege locațiile restaurantelor

unde semnele de deasupra coeficienților indică impactul așteptat al acelei variabile

Tabelul 1. Date pentru exemplul Woody

4. Colectarea datelor. Inspectarea și corectarea datelor. Se caută date pentru fiecare

Tabelul 3. Rezultate EViews ale estimării

5. Estimarea și evaluarea ecuației. Se rulează o regresie 𝑂𝐿𝑆 pe datele disponibile, dar

𝑌̂𝑖 = 102.192 − 9075𝑁𝑖 + 0.355𝑃𝑖 + 1.288𝐼𝑖

Aceste rezultate satisfac nevoile pe termen scurt. Coeficienții estimați au semnele

Tabelul 4. Reziduurile și reprezentarea lor grafică

unde: 𝑌𝑖 = venitul salarial al profesorului 𝑖, în dolari;

Figura 3. O variabilă dummy care modifică intercept-ul

1 dacă studentul este un membru activ al unei

̂ 𝑖 = 0.37 + 0.81𝐻𝐺𝑖 + 0.00001𝑆𝑖 − 0.38𝐷𝑖

unde: 𝐶𝐺𝑖 = punctajul cumulativ al creditelor obținute de studentul 𝑖;

Semnificația coeficientului estimat al 𝐷𝑖 în ecuația de mai sus este foarte specifică.

1 dacă profesorul 𝑖 deține titlul de doctor

1. Dezvoltarea modelului teoretic pe baza literaturii de specialitate;

2. Specificarea modelului: selectarea variabilelor explicative și alegerea formei funcției;

3. Formularea ipotezelor privind semnele așteptate ale coeficienților;

4. Colectarea datelor; verificarea și corectarea eventualelor erori;

5. Estimarea OLS a ecuației și evaluarea rezultatelor;

Selectați una dintre variantele următoare:

1. Dezvoltarea modelelului teoretic

2. Specificarea modelului. Formularea ipotezelor

4. Estimarea și evaluarea modelului

5. Modelul este adecvat?

Reformularea modelului 6. Documentarea rezultatelor

Selectați una dintre variantele următoare:

Alegerea formei funcționale

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + … + 𝛽𝑘 𝑋𝑘𝑖 + 𝜀𝑖

Alegerea variabilelor independente Alegerea formei termenului de eroare stohastică

Selectați una dintre variantele următoare:

Ipoteze privind semnele coeficienților pantă

Selectați una dintre variantele următoare:

Selectați una dintre variantele următoare:

Selectați una dintre variantele următoare:

Selectați una dintre variantele următoare:

1. Dezvoltarea modelelului teoretic

2. Specificarea modelului. Formularea ipotezelor

4. Estimarea și evaluarea modelului

5. Modelul este adecvat?

Selectați una dintre variantele următoare:

𝐶̂𝑆𝑖 = −300 + 0.9 𝑌𝐷𝑖 + 0.072 𝐿𝐴𝑖

𝐶𝑆𝑖 = cheltuieli ale studentului 𝑖, exceptând taxele școlare;

Selectați una dintre variantele următoare:

Selectați una dintre variantele următoare:

S-ar putea să vă placă și