Documente Academic
Documente Profesional
Documente Cultură
Scopul sugerării acestor pași nu este acela de a descuraja utilizarea unor abordări
inovatoare sau neobișnuite, ci mai degrabă de a dezvolta cititorului un sentiment al modului
riguros în care economiștii profesioniști și analiștii mediului de afaceri realizează, în mod
obișnuit, analiza de regresie.
Primul pas în orice cercetare aplicată este acela de a dobândi o bună înțelegere
teoretică a subiectului care urmează să fie studiat. Cei mai buni analiști de date nu încep cu
datele, ci cu teoria! Acest lucru se datorează faptului că multe decizii econometrice, plecând
de la variabilele care trebuie incluse până la forma funcțională utilizată, sunt determinate de
modelul teoretic de bază. Este practic imposibil să se construiască un model econometric
bun fără o înțelegere solidă a subiectului studiat.
Pentru majoritatea subiectelor, acest lucru înseamnă că este imperios necesară
revizuirea literaturii științifice înainte de a face orice altceva. Dacă un cercetător a investigat
teoria din spatele subiectului abordat, este bine ca acest lucru să fie cunoscut. Dacă alți
cercetători au estimat ecuații pentru variabila dependentă aleasă, nu este rău ca unul dintre
modelele lor să fie aplicat setului de date disponibile. Pe de altă parte, dacă abordarea acestor
cercetători pare nesatisfăcătoare, este bine ca atenția să fie concentrată într-o nouă altă
direcție. În ambele cazuri, nu ar trebui reinventată roata. Cercetarea ar trebui să înceapă de
acolo de unde au ajuns cercetătorii anteriori. Orice lucrare academică pe un subiect empiric
ar trebui să înceapă cu un rezumat al acoperirii și calității cercetărilor anterioare.
Cele mai convenabile abordări pentru revizuirea literaturii sunt obținerea mai multor
numere recente ale Journal of Economic Literature sau o publicație de rezumate orientată
spre economie sau afaceri. Este utilă, de asemenea, efectuarea unei căutări pe Internet sau
a unei căutări pe EconLit pe tema studiată. Folosind aceste resurse, se pot găsi și citi mai
multe articole recente referitoare la subiectul abordat. Este necesară acordarea unei atenții
sporite bibliografiilor acestor articole. Dacă un articol mai vechi este citat de mai mulți autori
actuali sau dacă titlul său atinge subiectul studiului, literatura de specialitate trebuie
urmărită înapoi, iar acel articol trebuie găsit. Mai multe sfaturi cu privire la revizuirea
literaturii se vor da într-un capitol viitor.
În puține cazuri, un subiect va fi atât de nou sau atât de obscur încât nu se vor putea
găsi articole pe tema respectivă. În astfel de situații sunt recomandate două strategii posibile.
În primul rând, se încercă ca teoria care stă la baza unui subiect similar să fie transferată
către subiectul studiat. De exemplu, când se construiește un model al cererii pentru un
produs nou, trebuie urmărite studiile în care se analizează cererea pentru produse similare,
existente. În al doilea rând, dacă toate celelalte nu reușesc, se poate contacta o persoană care
lucrează în domeniul investigat. De exemplu, dacă se construiește un model al vânzărilor de
locuințe într-un oraș necunoscut, este indicat să se apeleze la un agent imobiliar care
lucrează în orașul respectiv.
Cel mai important pas în analiza regresiei aplicate este specificarea modelului de
regresie teoretică. După selectarea variabilei dependente, specificarea unui model implică:
1. alegerea variabilele independente și a modului în care acestea trebuie măsurate;
2. alegerea formei funcționale (a expresiei matematice) a ecuației de regresie;
3. stabilirea proprietăților termenului de eroare stocastică.
O ecuație de regresie este specificată complet atunci când fiecare dintre aceste elemente
a fost tratat în mod adecvat. Detaliile acestor decizii privind specificarea modelului se vor
analiza în capitolele următoare.
Fiecare dintre elementele specificării este determinat în primul rând pe baza teoriei
economice. O greșeală în oricare dintre cele trei elemente are ca rezultat o eroare de
specificație. Dintre toate tipurile de greșeli care pot fi făcute în analiza de regresie aplicată,
eroarea de specificație este de obicei cea mai dezastruoasă pentru validitatea ecuației
estimate. Astfel, cu cât se acordă mai multă atenție teoriei economice la începutul unui
proiect, cu atât rezultatele regresiei sunt mai bune.
Accentul din acest curs este pus pe estimarea ecuațiilor comportamentale, cele care
descriu comportamentul entităților economice. Atenția este concentrată pe selectarea
variabilelor independente pe baza teoriei economice referitoare la acel comportament.
Astfel, o variabilă explicativă este aleasă pentru că este un determinant teoretic al variabilei
dependente și pentru că este de așteptat ca ea să explice cel puțin o parte a variației variabilei
dependente. Regresia oferă dovezi ale existenței unei relații între variabile, dar nu dovedește
cauzalitatea economică. Așa cum un exemplu nu dovedește regula, un rezultat de regresie nu
dovedește teoria.
Există anumite pericole în specificarea variabilelor independente. Scopul economistului
este ca specificarea să conțină numai variabilele explicative relevante, cele care din punct de
vedere teoretic, este de așteptat să exercite o influență substanțială asupra variabilei
dependente. Variabilele suspectate că au un efect mic ar trebui excluse, cu excepția cazului
în care impactul lor posibil asupra variabilei dependente prezintă un anumit interes (de
exemplu, interes politic).
De exemplu, într-o ecuație care explică cantitatea cerută dintr-un bun de consum se pot
include, ca variabile independente, prețul acelui bun și venitul sau avuția consumatorului.
Teoria indică, de asemenea, că bunurile complementare și substituibile sunt importante. Prin
urmare, se pot include și prețurile bunurilor complementelor și ale unor înlocuitori. Dar care
bunuri complemente trebuie incluse și care înlocuitori? Desigur, selectarea celor mai
apropiate bunuri complemente și a celor mai buni înlocuitori este necesară, dar până unde
trebuie mers cu această selecție? Alegerea trebuie să se bazeze pe judecata teoretică și astfel
de judecăți sunt adesea destul de subiective.
Când cercetătorii decid, de exemplu, că trebuie incluse prețurile pentru alte două bunuri,
se spune că își impun așteptările (adică credința teoretică anterioară) sau ipotezele lor de
lucru asupra ecuației de regresie. Impunerea unor astfel de așteptări este o practică
obișnuită care determină numărul și tipul de ipoteze pe care trebuie să le testeze ecuația de
regresie. Pericolul este că o așteptare poate fi greșită și ar putea diminua utilitatea ecuației
de regresie estimate. Prin urmare, fiecare dintre așteptări trebuie explicată și justificată în
detaliu.
+ –
𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀
0 𝑋
Faptul că deasupra lui 𝛽1 este pus semnul + arată că este de așteptat ca un venit mai
mare să îmbunătățească scorurile obținute la teste, menținând constant numărul de elevi din
clasă. Această ipoteză pare rezonabilă, un venit mai mare al familiei însemnând oportunități
suplimentare de învățare pe care copiii și le-ar putea permite (meditații, de exemplu).
Semnul ipotetic al lui 𝛽2 este puțin mai complicat de stabilit. Ar trebui să fie negativ?
4. Colectarea datelor. Inspectarea și corectarea unor erori pe care datele le pot conține.
0 𝑋
Motivul pentru care ar trebui să existe cât mai multe observări se referă la conceptul
statistic al gradelor de libertate, menționat pentru prima dată în secțiunea anterioară.
Trebuie să se țină cont că sunt suficiente două puncte pentru a determina o dreaptă, într-un
sistem de coordonate X, Y, ca în Figura 1. Un astfel de exercițiu poate fi realizat matematic,
fără erori. Ambele puncte se află pe linie, deci nu este necesară o estimare a coeficienților
implicați. Cele două puncte determină exact cei doi parametri, intercept-ul și panta.
Estimarea are loc numai atunci când o linie dreaptă este trasată pentru a potrivi pe
trei sau mai multe puncte generate de un proces care nu este exact. Excesul numărului de
observări ( în acest caz egal cu 3), față de numărul de coeficienți care urmează să fie estimat,
(în acest caz egal cu 2: intercept-ul și panta), reprezintă numărul gradelor de libertate. Tot
ceea ce este necesar pentru estimare este existența unui singur grad de libertate, ca în Figura
2. Cu cât există însă mai multe grade de libertate, cu atât este mai bine. Acest lucru se
datorează faptului că atunci când numărul de grade de libertate este mare, fiecare eroare
pozitivă este mai probabil să fie echilibrată de o eroare negativă. Când numărul gradelor de
libertate este scăzut, este mai probabil ca elementul aleatoriu să nu reușească să ofere astfel
de observări compensatoare. De exemplu, cu cât o monedă este aruncată de mai multe ori,
cu atât este mai probabil ca proporția observată de fețe „cap” să reflecte adevărata
probabilitate de 0,5. Un alt element de îngrijorare are legătură cu unitățile de măsură ale
variabilelor. Contează dacă o variabilă este măsurată în dolari sau mii de dolari? Contează
dacă variabila măsurată diferă în mod constant de variabila adevărată cu 10 unități?
Interesant este că astfel de modificări nu contează în ceea ce privește analiza de regresie, cu
excepția interpretării scalei coeficienților.
Toate concluziile despre semne, semnificație și teorie economică sunt independente
de unitățile de măsură. De exemplu, nu prea are importanță dacă o variabilă independentă
este măsurată în dolari sau mii de dolari. Termenul constant și măsurile potrivirii generale
rămân neschimbate. Un astfel de factor multiplicator schimbă coeficientul pantă, dar numai
cu cantitatea exactă necesară pentru a compensa schimbarea unităților de măsură ale
variabilei independente. În mod similar, un factor constant adăugat unei variabile modifică
numai termenul intercept, fără a modifica coeficientul pantă.
Ultimul pas înainte de a estima ecuația este inspectarea și eliminarea erorilor din
date. Întotdeauna este bine să se verifice setul de date, pentru a se vedea dacă conține erori.
Motivul este evident: este inutilă folosirea unor instrumente sofisticate de prelucrare a
datelor dacă acestea sunt incorecte.
Pentru a inspecta datele, este indicată realizarea unor grafice care să permită
observarea mai ușoară a unor valori anormale. O valoare anormală (outlier) este o observare
care se află în afara intervalului restului observărilor, iar căutarea unor valori anormale este
o modalitate ușoară de a găsi erori de înregistrare a datelor. În plus, este un bun obicei să se
analizeze media, maximul și minimul fiecărei variabile și apoi să se evalueze posibilele
neconcordanțe din date. Există observări imposibile sau nerealiste? S-a dublat PIB-ul într-un
an? Consumul este negativ?
De obicei, datele pot fi „curățate” de aceste erori, înlocuind un număr incorect cu cel
corect. În circumstanțe extrem de rare, o observare poate fi eliminată din eșantion, dar
numai dacă numărul corect nu poate fi găsit sau dacă respectiva observare nu este, în mod
clar, din aceeași populație ca restul eșantionului. Simpla existență a unei valori anterioare
cu care să fie comparată nu este însă o justificare pentru eliminarea unei observări din
eșantion. O regresie trebuie să fie capabilă să explice toate observările dintr-un eșantion, nu
doar pe cele care „se comportă bine”. Pentru mai multe detalii despre colectarea datelor,
consultați secțiunile viitoare. Pentru mai multe informații despre generarea propriilor date
printr-un experiment economic, consultați, de asemenea, secțiunile următoare.
Poate dura câteva luni pentru a finaliza pașii 1-4 pentru o ecuație de regresie. În
schimb, estimarea ecuației, folosind un software precum Stata sau EViews, poate dura mai
puțin de o secundă! De obicei, estimarea se face folosind 𝑂𝐿𝑆, așa cum s-a arătat în capitolul
anterior, dar dacă se utilizează o altă tehnică de estimare, motivele acestei tehnici alternative
ar trebui să fie explicate și evaluate cu atenție.
S-ar putea crede că odată ce ecuația a fost estimată, lucrarea este terminată, dar nu
este așa. Trebuie evaluate rezultatele într-o varietate de moduri. Cât de bine se potrivește
ecuația datelor? Semnele și mărimile coeficienților estimați sunt cele așteptate? Cea mai
mare parte a restului acestei cărți se referă la evaluarea ecuațiilor econometrice estimate,
iar cercetătorii începători ar trebui să fie pregătiți să petreacă o perioadă considerabilă de
timp făcând această evaluare.
După finalizarea acestei evaluări, nu se trece automat la pasul 6. Rezultatele regresiei
sunt rareori ceea ce se așteaptă a fi, iar deseori este necesară dezvoltarea unui model
suplimentar. De exemplu, o evaluare a rezultatelor ar putea indica faptul că ecuației îi
lipsește o variabilă importantă. Într-un astfel de caz, se revine la pasul 1 pentru a examina
literatura și a adăuga variabila corespunzătoare în ecuația inițială. Se parcurg apoi, în ordine,
fiecare dintre pașii anteriori, până când se estimează noua specificație la pasul 5. Se trece la
pasul 6 numai dacă cercetătorul este mulțumit de ecuația estimată. Totuși, astfel de ajustări
nu trebuie făcute în grabă, pentru că ajustarea teoriei doar pentru a se potrivi cu datele nu
este de dorit. Un cercetător trebuie să parcurgă o linie fină între efectuarea modificărilor
adecvate și evitarea celor necorespunzătoare, iar luarea acestor decizii este unul dintre
elementele artistice ale econometriei aplicate.
În cele din urmă, merită adesea să se estimeze specificații suplimentare ale unei
ecuații, pentru a vedea cât de stabile sunt rezultatele obținute. Această abordare, numită
analiza senzitivității, va fi discutată într-o secțiune viitoare.
6: Documentarea rezultatelor
Un format standard folosit de obicei pentru a prezenta rezultatele regresiei estimate este
următorul:
Numărul din paranteze este eroarea standard estimată a coeficientului estimat, iar valoarea
𝑡 este cea utilizată pentru a testa ipoteza că adevărata valoare a coeficientului este diferită
de zero. Alte măsuri ale calității regresiei vor fi discutate în capitolele ulterioare. Ceea ce este
important de remarcat este că documentația rezultatelor regresiei, utilizând un format ușor
de înțeles, este considerată parte a analizei în sine. Pentru seturile de date temporale,
documentația include, de asemenea, frecvența de observare (de exemplu, trimestrială sau
anuală) și perioada de timp pentru care datele au fost observate.
Una dintre părțile importante ale documentației este explicarea modelului, a
ipotezelor, procedurilor și datelor utilizate. Documentația scrisă trebuie să conțină suficiente
informații, astfel încât întregul studiu să poată fi reprodus de către alții. Cu excepția cazului
în care variabilele au fost definite într-un glosar sau tabel, ar trebui prezentate definiții
scurte împreună cu ecuațiile. Dacă există o serie de ecuații de regresie estimate, atunci
tabelele ar trebui să furnizeze informațiile relevante pentru fiecare ecuație. Toate
prelucrările și manipulările de date, precum și sursele de date ar trebui să fie documentate
pe deplin. Când există multe lucruri de explicat, această documentație este de obicei pusă
într-o anexă. Dacă datele nu sunt disponibile în general sau sunt disponibile numai după
efectuarea unui calcul, setul de date în sine ar putea fi inclus în această anexă.
Pentru consolidarea înțelegerii celor șase pași de bază ai analizei de regresie aplicată,
se va parcurge un exemplu complet de regresie. Se presupune că lanțul de restaurante
familiale Woody's, care practică prețuri moderate și care sunt deschise non-stop, caută cea
mai bună locație pentru următorul său restaurant. Pentru a veni în sprijinul luării celei mai
bune decizii, se construiește un model de regresie care să explice volumul brut al vânzărilor
fiecăruia dintre restaurantele din lanț, în funcție de diferiți descriptori ai locației sale. Dacă
se poate construi o ecuație solidă pentru a explica vânzările brute în funcție de locație, atunci
se poate utiliza această ecuație pentru a ajuta Woody’s să decidă unde să își construiască un
nou restaurant. Având în vedere datele privind costurile terenurilor, costurile de construcție
și regulile locale privind clădirile și restaurante, proprietarii Woody’s vor putea lua o decizie
în cunoștință de cauză.
1. Recenzia literaturii și dezvoltarea unui model teoretic. Se pot obține informații despre
industria restaurantelor în diverse moduri, dar în acest caz recenzia literaturii constă în
principal într-o discuție cu diferiți experți din cadrul firmei. Aceștia pot oferi câteva idei
bune despre atributele locației restaurantelor Woody de succes. Experții pot spune că
toate restaurantele lanțului sunt identice (aceasta este uneori o critică a lanțului) și că
toate locațiile se află în ceea ce s-ar putea numi medii „suburbane sau rezidențiale” (care
se disting de zonele centrale ale orașelor sau de zonele rurale). Din această cauză, multe
dintre motivele care ar putea ajuta la explicarea diferențelor volumului vânzărilor față
de alte lanțuri de restaurante nu se aplică în acest caz, deoarece toate locațiile Woody
sunt similare (dacă s-ar compara restaurantele Woody cu cele ale altui lanț de
restaurante, astfel de variabile ar putea fi neadecvate).
În plus, discuțiile cu persoanele din departamentul de planificare strategică Woody
pot scoate în evidență faptul că diferențele de preț și diferențele de meniu nu sunt așa de
importante pentru determinarea numărului de clienți dintr-o anumită locație. Acest
lucru este de natură să provoace îngrijorare, deoarece variabila planificată inițial a fi
studiată, volumul brut al vânzărilor, variază pe măsură ce prețurile se schimbă. Deoarece
compania controlează aceste prețuri, se poate prefera o estimare a „potențialului” de
vânzări. Ca urmare, variabila dependentă specificată este numărul de clienți deserviți
(măsurat prin numărul de cecuri sau facturi pe care le-au înregistrat serverele) într-o
locație dată, în ultimul an pentru care sunt disponibile date complete.
2. Specificarea modelului: selectarea variabilelor independente și a formei funcționale.
Discuțiile cu experții firmei conduc la o serie de variabile sugerate de către aceștia. Se
ajunge treptat la concluzia că există trei factori principali care determină vânzările
restaurantelor Woody (numărul clienților lor), asupra cărora practic toată lumea este de
acord. Acești factori sunt numărul de persoane care locuiesc în apropierea locației,
nivelul general al veniturilor acestora, precum și numărul de concurenți direcți, apropiați
locației respective. În plus, există alte două sugestii bune pentru potențiale variabile
explicative. Acestea sunt numărul de mașini care trec zilnic pe lângă locație și numărul
de luni în care restaurantul respectiv este deschis. După o analiză serioasă a
alternativelor, ultimele posibilități nu sunt luate în calcul. Aceasta deoarece toate locațiile
au fost deschise suficient de mult timp pentru a obține o clientelă stabilă, iar colectarea
datelor despre numărul de mașini care trec pe lângă fiecare locație în parte este foarte
costisitoare. Totuși, în cazul în care populația se dovedește a fi un determinant slab al
numărului de clienți dintr-o locație, trebuie prevăzute fonduri pentru a colecta date
complete despre trafic. Definițiile exacte ale variabilelor independente incluse în model
sunt:
N = concurența: numărul de concurenți direcți pe piață, pe o rază de două mile față
de locația Woody;
P = populația: numărul de persoane care trăiesc pe o rază de trei mile în jurul
locației restaurantului Woody;
I = venitul: venitul mediu pe gospodărie al populației măsurată de variabila P.
Se va folosi o formă funcțională liniară și o formă tipică a termenului de eroare,
deoarece încă nu au fost dezvoltate variante ale acestora.
3. Formularea ipotezelor privind semnele așteptate ale coeficienților. După alegerea
variabilelor independente trebuie stabilite așteptările privind semnele coeficienților.
Pentru două dintre variabile, acest lucru este ușor de făcut. Toată lumea se așteaptă ca,
cu cât concurența este mai mare, cu atât numărul clienți va fi mai mic (menținând
constantă populația și veniturile unei zone) și, de asemenea, cu cât sunt mai mulți oameni
care locuiesc în apropierea unui anumit restaurant, cu atât restaurantul va avea mai mulți
clienți (ținând constantă concurența și veniturile). În ceea ce privește veniturile, lucrurile
sunt discutabile. S-ar putea spune că, cu cât într-o anumită zonă veniturile sunt mai mari,
cu atât mai mulți oameni vor alege să mănânce într-un restaurant de familie. Cu toate
acestea, oamenii din zonele cu venituri mari sau foarte mari ar putea dori să mănânce
într-un restaurant care are mai multă „atmosferă” decât un restaurant de familie precum
Woody’s. În consecință, se poate aprecia că variabila de venit ar putea avea un impact
pozitiv, dar foarte slab. Pe scurt, așteptările privind semnele sunt următoarele:
− + +?
𝑌𝑖 = 𝛽0 + 𝛽𝑁 𝑁𝑖 + 𝛽𝑃 𝑃𝑖 + 𝛽𝐼 𝐼𝑖 + 𝜀𝑖
Unele concepte (de exemplu, genul) ar putea părea imposibil de inclus într-o ecuație,
deoarece sunt inerent calitative și nu pot fi exprimate ca număr. Din fericire, astfel de
concepte pot fi cuantificate utilizând variabile dummy (sau fictive). O variabilă dummy ia
valorile 1 sau 0 (și numai aceste valori), în funcție de îndeplinirea unei condiții specificate.
Pentru a ilustra utilizarea unei variabile dummy, se presupune, de exemplu, că 𝑌𝑖
reprezintă salariul profesorului 𝑖, și că salariile depind în primul rând de experiența
profesorului și de tipul de diplomă pe care acesta o deține. Toți profesorii au licența, 𝐵𝐴, dar
unii au și o diplomă de absolvire a unui master, 𝑀𝐴. O ecuație care reprezintă relația dintre
câștigurile salariale ale profesorilor și aceste variabile este următoarea:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖 + 𝜀𝑖
Variabila 𝐷𝑖 ia doar valorile 1 sau 0. 𝐷𝑖 se numește a variabilă dummy (sau variabilă fictivă)
sau doar „dummy”. Termenul a generat multe jocuri de cuvinte. În acest exemplu, variabila
dummy reprezintă condiția de a avea o diplomă de absolvire a unui master. Coeficientul 𝛽2
indică salariul suplimentar care poate fi atribuit obținerii unei diplome universitare de
masterat, menținând constantă experiența didactică.
Întrucât o experiență mai mare și o diplomă de master sunt de așteptat să crească
câștigurile cadrelor didactice, coeficienți așteptați sunt pozitivi pentru ambele variabile,
după cum indică semnele de deasupra lor. O inversare a definiției lui 𝐷𝑖 schimbă semnul
așteptat al coeficientului 𝛽2. Astfel, dacă 𝐷𝑖 este definit să fie egal cu 1 când profesorul 𝑖 nu
are o diplomă de master și egal cu 0 în caz contrar, semnul așteptat pentru 𝛽2 va fi negativ.
Cum se poate vedea în Figura 3, intercept-ul se schimbă în funcție de valoarea lui 𝐷𝑖 ,
dar panta rămâne constantă. Acest lucru este adevărat chiar dacă variabila dummy este
„inversată”, adică 𝐷𝑖 = 0 dacă condiția particulară este îndeplinită și 𝐷𝑖 = 1 în caz contrar.
În acest exemplu se utilizează o singură variabilă dummy, chiar dacă sunt formulate
două condiții. Într-un model, numărul de variabile dummy trebuie să fie cu 1 mai mic decât
numărul condițiilor. Evenimentul care nu este reprezentat în mod explicit de o variabilă
dummy, condiția omisă, formează baza cu care sunt comparate condițiile incluse.
Astfel, pentru situații duale, este inclusă ca variabilă independentă o singură variabilă
dummy. Coeficientul său este interpretat ca reprezentând efectul condiției incluse în raport
cu condiția omisă. Nu se folosesc niciodată două variabile dummy pentru a descrie cele două
condiții. Acest lucru ar fi ca și cum cele două sensuri ale aceleiași străzi ar fi denumite diferit.
𝑌
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖
𝐷𝑖 = 1
𝑎𝑚𝑏𝑒𝑙𝑒 𝑝𝑎𝑛𝑡𝑒 = 𝛽1
𝛽2
𝛽0 + 𝛽2
𝛽2 > 0 𝐷𝑖 = 0
𝛽0
𝑋
0
Dacă se face această greșeală, numită uneori capcana variabilei dummy, în model
apare multicoliniaritatea perfectă, temă care va fi tratată într-o secțiune viitoare. Un alt
exemplu în care se poate observa semnificația coeficientului unei variabile dummy este cel
al relației dintre clasamentul studenților după media notelor obținute la examene și
apartenența la o organizație studențească.
Cei mai mulți ar aborda această problemă de cercetare prin calcularea mediei notelor
studenților membrii ai unei organizații studențești, pe care ar compara-o apoi cu media
notele studenților care nu fac parte din nicio organizație studențească. O astfel de abordare
ar ignora relația pe care notele o au cu alte caracteristici decât apartenența la o organizație
studențească. De aceea, este indicat să se construiască un model de regresie care să explice
clasamentul studenților la nivel de facultate. Pe lângă variabila independentă care se referă
la calitatea de a fi membru al unei organizații studențești, modelul trebuie să includă și alți
predictori ai performanței academice, cum ar fi media de admitere și media notelor din liceu.
Calitatea de a fi membru al unei organizații studențești este o variabilă calitativă.
Pentru a o include în model, trebuie creată o variabilă dummy în felul următor:
+ + ?
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑃𝐻𝐷𝑖 + 𝛽3 𝑀𝐴𝑖 + 𝜀𝑖
Este important de subliniat că, atunci când există două sau mai multe variabile
dummy înrudite, interpretarea coeficienților este dificilă. Coeficientul arată creșterea
variabilei dependente cauzată de îndeplinirea condiției, în comparație cu condiția omisă.
Astfel, de exemplu, 𝛽3 măsoară impactul asupra salariului al deținerii unui 𝑀𝐴 (menținând
constant 𝑋 și 𝑃𝐻𝐷) în comparație cu condiția omisă, care este deținerea doar a unei diplome
𝐵𝐴. Revenind la ecuația anterioară, care este semnul așteptat al lui 𝛽3? Ar fi corect să fie
pozitiv, deoarece este de așteptat ca un profesor de liceu care deține un 𝑀𝐴 să aibă un salariu
mai mare decât al unui profesor care are doar 𝐵𝐴 (menținând 𝑋 și 𝑃𝐻𝐷 constante).
O variabilă dummy care are o singură observare cu valoarea 1, în timp ce restul
observărilor sunt 0 (sau invers) ar trebui evitată dacă variabila nu este cerută de teorie. O
astfel de variabilă dummy unică acționează doar pentru a elimina respectiva observare din
setul de date, îmbunătățind artificial potrivirea, stabilind coeficientul variabilei dummy egal
cu reziduul pentru respectiva observație. S-ar obține exact aceleași estimări ale celorlalți
coeficienți dacă respectiva observare ar fi ștearsă. Ștergerea unei observări este rareori, dacă
acest lucru se poate întâmpla vreodată, indicată.
Deși acesta este sfârșitul secțiunii, nu este sfârșitul discuției despre variabilele
dummy. Într-o secțiune viitoare se va discuta despre variabilele dummy care modifică panta
dreptei de regresie, iar într-un capitol viitor se va analiza ce se întâmplă atunci când variabila
dependentă este o variabilă dummy.
Sumar
1. În general, pentru efectuarea analizei de regresie trebuie parcurse șase etape. Acestea
sunt:
a. Revizuirea literaturii de specialitate și dezvoltarea modelului teoretic.
b. Specificarea modelului: selectarea variabilelor independente și a formei funcționale.
c. Formularea ipotezelor privind semnele așteptate ale coeficienților.
d. Colectarea datelor. Inspectarea datelor și eliminarea celor eronate.
e. Estimarea și evaluarea ecuației.
f. Documentarea rezultatelor.
2. O variabilă dummy ia doar valorile 1 sau 0, după cum este îndeplinită sau nu o condiție.
Un exemplu de variabilă dummy este cea care desemnează genul unei persoane: D egal
cu 1 dacă o anumită persoană este femeie și D egal cu 0 dacă persoana respectivă este
bărbat. Numărul de variabile dummy incluse într-o ecuație trebuie să fie cu 1 mai mic
decât numărul condițiilor. Evenimentul care nu este reprezentat în mod explicit de o
variabilă dummy, condiția omisă, reprezintă baza cu care sunt comparate condițiile
incluse.
Testul 3.1
UT1. În tabelul alăturat sunt prezentate etapele ce trebuie parcurse în mod obișnuit în analiza de
regresie aplicată. Se poate observa că estimarea OLS este doar o etapă dintre acestea, etapă
ce include și evaluarea rezultatelor. Deși cunoașterea și aplicarea corectă a tehnicii de
estimare OLS este importantă și necesită un timp pentru a fi aplicată, economiștii cu
experiență în analiza econometrică petrec cel mai mult timp pentru:
6. Documentarea rezultatelor.
3. Colectarea datelor
Nu Da
7. Utilizarea modelului
+ − +
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 𝑋2𝑖 + … + 𝛽𝑘 𝑋𝑘𝑖
𝐵 𝑋1 , 𝑌1
𝑌1
𝐴 𝑋0 , 𝑌0
𝑌0
Dreapta de regresie
0 𝑋0 𝑋1 𝑋
𝑌̂𝑖 = 𝛽0 + 𝛽1 𝑋𝑖
0 𝑋
𝑌̂𝑖 = 𝛽0 + 𝛽1 𝑋𝑖
0 𝑋
3. Colectarea datelor
Da Nu
6. ⋯ Reformularea modelului
7. Utilizarea modelului
unde:
𝑌 𝑌̂𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖
𝐷𝑖 = 1
𝛽2 𝑎𝑚𝑏𝑒𝑙𝑒 𝑝𝑎𝑛𝑡𝑒 = 𝛽1
𝛽0 + 𝛽2
𝛽2 > 0 𝐷𝑖 = 0
𝛽0
0 𝑋