Sunteți pe pagina 1din 18

Specificarea: alegerea formei funcționale

Chiar dacă au fost alese variabilele independente, specificarea ecuației nu s-a încheiat.
Următorul pas este alegerea formei funcționale a relației dintre fiecare variabilă
independentă și variabila dependentă. Ar trebui ca ecuația să treacă prin origine? Relația
poate fi reprezentată printr-o curbă în loc de o linie dreaptă? Ecuația descrie o evoluție spre
un vârf, pe care îl atinge la un moment dat, iar apoi tendința devine descrescătoare? Un
răspuns afirmativ la oricare dintre aceste întrebări sugerează că o altă ecuație decât modelul
liniar standard din capitolelor anterioare ar putea fi adecvată. Astfel de specificații
alternative sunt importante din două motive: o variabilă explicativă corectă poate părea
nesemnificativă sau poate avea un semn neașteptat dacă se folosește o formă funcțională
inadecvată, iar consecințele unei forme funcționale incorecte pentru interpretare și
prognoză pot fi severe.
Considerațiile teoretice dictează de obicei forma unui model de regresie. Tehnica de
bază implicată în luarea deciziei asupra unei forme funcționale este alegerea modelului care
reflectă cel mai bine principiile economice sau de afaceri așteptate și apoi utilizarea formei
matematice care se potrivește acestui model. Pentru a ajuta la această alegere, acest capitol
conține graficele celor mai frecvent utilizate forme funcționale împreună cu ecuațiile
matematice care corespund fiecăruia.
Capitolul începe cu o scurtă discuție despre termenul constant 𝛽0. Se recomandă ca
termenul constant să fie păstrat în ecuații, iar estimările termenului constant nu ar trebui să
fie invocate în inferență sau analiză. Capitolul se încheie cu o discuție asupra variabilelor
𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă.

Utilizarea și interpretarea termenului constant

În modelul liniar de regresie, 𝛽0 este intercept-ul sau termenul constant. 𝛽0 este


valoarea așteptată a lui 𝑌 atunci când toate variabilele explicative, inclusiv termenul de
eroare, sunt egale cu zero.
O estimare a lui 𝛽0 are cel puțin trei componente:
1. adevăratul 𝛽0;
2. impactul constant al oricăror erori de specificare (o variabilă omisă, de exemplu);
3. media lui 𝜀 într-o ecuație corect specificată, dacă această medie nu este egală cu zero.
Din păcate, aceste componente nu pot fi distinse una de alta, deoarece se poate
observa doar 𝛽0, suma celor trei componente, nu și fiecare componentă în parte. Ca urmare,
𝛽0 ar trebui analizat într-un mod diferit de modul în care se analizează ceilalți coeficienți din
ecuație.
Uneori, 𝛽0 are o importanță teoretică. Fie, de exemplu, următoarea ecuație a
costurilor:
𝐶𝑖 = 𝛽0 + 𝛽1 𝑄𝑖 + 𝜀𝑖

unde 𝐶𝑖 este costul total de producție implicat de producerea cantității 𝑄𝑖 .


Termenul 𝛽1 𝑄𝑖 reprezintă costul variabil total asociat nivelului producției 𝑄𝑖 , iar 𝛽0
reprezintă costul fix total, definit ca fiind costul total când 𝑄𝑖 = 0. Astfel, o ecuație de regresie
ar putea părea utilă unui cercetător care dorește să determinăm mărimile relative ale
costurilor fixe și variabile. Acesta este un exemplu de utilizare a termenului constant pentru
inferență.
Pe de altă parte, produsul implicat ar putea fi unul despre care se știe că are costuri
fixe mici, sau inexistente. Într-un astfel de caz, un cercetător ar putea dori să elimine
termenul constant. Făcând acest lucru s-ar conforma noțiunii de costuri fixe egale cu zero și
ar conserva un grad de libertate (ceea ce ar face probabil estimarea lui 𝛽1 mai precisă).
Acesta este un exemplu în care eliminarea termenului constant din ecuația de regresie ar fi
necesară. Cu toate acestea, nici eliminarea termenului constant și nici folosirea sa pentru
inferență nu sunt indicate, motivele fiind explicate în secțiunile următoare.

Termenul constant nu trebuie eliminat din ecuația de regresie

În cele mai multe cazuri, eliminarea termenului constant duce la o încălcare a


ipotezelor clasice, deoarece se întâmplă foarte rar ca teoria economică să prevadă faptul că
adevăratul intercept, 𝛽0, trebuie să fie egal cu zero. În fond, de exemplu, există foarte puține
procese productive, dacă există, care nu implică costuri fixe. Dacă se omite termenul
constant, atunci impactul constantei este transferat spre estimările celorlalți coeficienți,
provocând un potențial deplasament. Acest lucru se poate observa în Figura 1. Având în
vedere punctele determinate de observările lui 𝑋 și 𝑌, estimarea unei ecuații de regresie cu
un termen constant 𝛽0 destul de diferit de zero, ar produce probabil o linie de regresie
estimată foarte asemănătoare cu adevărata linie de regresie. Panta acestei linii estimate este
foarte mică, iar scorul 𝑡 al coeficientului pantă estimat poate fi foarte apropiat de zero.
În cazul în care cercetătorul ar elimina termenul constant, ceea ce ar implica faptul că
linia de regresie estimată trebuie să treacă prin origine, atunci ar rezulta linia de regresie
estimată prezentată în Figura 1. Coeficientul pantă este deplasat spre dreapta (este mai
mare) comparativ cu coeficientul de pantă real. Scorul 𝑡 este, de asemenea, deplasat spre
dreapta (în plus față de cel anterior) și poate deveni destul de mare pentru a indica faptul că
coeficientul pantă estimat este statistic semnificativ pozitiv. O astfel de concluzie ar fi,
evident, incorectă.
Astfel, chiar dacă unele pachete de regresie permit eliminarea termenului constant
(setat la zero), regula generală este: NU! Termenul constant NU se elimină din ecuație!

Estimările termenului constant nu trebuie folosite

Ar părea logic că, de vreme ce este o idee proastă ca termenul constant să fie eliminat,
atunci termenul constant trebuie să fie un instrument analitic important utilizat în evaluarea
rezultatelor regresiei. Din păcate, există cel puțin două motive care sugerează că intercept-
ul nu ar trebui să fie utilizat în scopuri de analiză sau inferență.
𝑌
Dreapta de regresie
fără intercept

Adevărata dreaptă
de regresie
𝛽0

0 𝑋

Figura 1. Efectul nociv al eliminării termenului constant


Dacă termenul constant (sau intercept-ul) este eliminat, linia de regresie estimată va trece prin origine. Un
astfel de efect poate deplasa 𝛽̂ -urile și mări scorurile 𝑡. În acest exemplu particular, panta adevărată este
aproape de zero la nivelul eșantionului, dar forțarea regresiei să treacă prin origine face ca panta să devină
semnificativ pozitivă.

În primul rând, termenul de eroare este generat, în parte, de omiterea unui număr de
variabile independente marginale, al căror efect mediu este plasat în termenul constant.
Termenul constant acționează ca un colector de gunoi, o cantitate necunoscută a acestui efect
mediu fiind aruncată în el. Valoarea estimată a termenului constant poate fi diferit de ceea
ce ar fi fost fără îndeplinirea acestei sarcini, care se realizează în interesul ecuației în
ansamblul său. Prin urmare, nu are sens să se efectueze un test 𝑡 pentru 𝛽0.
În al doilea rând, termenul constant este valoarea variabilei dependente atunci când
toate variabilele independente și termenul de eroare sunt zero. Variabilele utilizate pentru
analiza economică sunt însă de obicei pozitive. Astfel, originea se află adesea în afara
intervalului de observări ale eșantionului, așa cum este ilustrat în Figura 1. Deoarece
termenul constant este o estimare a lui 𝑌 când 𝑋 -urile se află în afara intervalului de
observări ale eșantionului, estimările acestuia sunt lipsite de acuratețe.

Forme funcționale alternative

Alegerea unei forme funcționale pentru o ecuație este o parte vitală a specificației
acelei ecuații. Cu toate acestea, înainte de a putea vorbi despre aceste forme funcționale,
trebuie făcută distincția între o ecuație care este liniară în coeficienți și una care este liniară
în variabile.
O ecuație este liniară în variabile dacă trasarea graficului funcției în termeni de 𝑋 și 𝑌
generează o linie dreaptă. De exemplu, ecuația:
𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀

este liniară în variabile. Ecuația:

𝑌 = 𝛽0 + 𝛽1 𝑋 2 + 𝜀

nu este liniară în variabile deoarece dacă se trasează graficul său se va obține o parabolă, nu
o linie dreaptă.
O ecuație este liniară în coeficienți numai dacă coeficienții apar în forma lor cea mai
simplă, adică nu sunt ridicați la nici o putere (alta decât puterea întâi), nu sunt înmulțiți sau
împărțiți cu alți coeficienți și nu includ ei înșiși nici un fel de funcție (cum ar fi logaritmi sau
exponenți). De exemplu, ecuația 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀 este liniară în coeficienți, în timp ce
ecuația 𝑌 = 𝛽0 + 𝑋𝛽1 nu este liniară în coeficienții 𝛽0 și 𝛽1 . Această ecuație nu este liniară
deoarece nu există nici o posibilitate de rearanjare a sa astfel încât să devină liniară în
coeficienții 𝛽 originali, respectiv 𝛽0 și 𝛽1. În fapt, dintre toate posibilele ecuații cu o singură
variabilă independentă, numai funcțiile cu forma generală:

𝑓(𝑌) = 𝛽0 + 𝛽1 𝑓(𝑋)

sunt liniare în coeficienții 𝛽0 și 𝛽1. În esență, orice fel de notații ale 𝑋-lor și ale lui 𝑌 pot fi
utilizate astfel încât ecuația să continue să fie liniară în coeficienți. La fel, chiar și o mică
schimbare în notația coeficienților 𝛽 poate face ca ecuația să devină neliniară în coeficienți.
Analiza de regresie liniară poate fi aplicată unei ecuații care este neliniară în variabile
atâta timp cât ecuația este liniară în coeficienți. Într-adevăr, atunci când econometricienii
folosesc sintagma „regresie liniară” (de exemplu, în ipotezele clasice), înseamnă de obicei
„regresie care este liniară în coeficienți”.
Utilizarea OLS necesită ca ecuația să fie liniară în coeficienți, dar există o mare
varietate de forme funcționale care sunt liniare în coeficienți, fiind în același timp neliniare
în variabile. Într-adevăr, în capitolele anterioare am folosit deja mai multe ecuații care sunt
liniare în coeficienți și neliniare în variabile, dar am spus puțin despre când să folosim astfel
de ecuații neliniare. Scopul secțiunii curente este de a prezenta detaliile celor mai frecvent
utilizate forme funcționale pentru a ajuta cititorul să-și dezvolte capacitatea de a o alege pe
cea corectă atunci când specifică o ecuație.
Alegerea unei forme funcționale ar trebui să se bazeze aproape întotdeauna pe teoria
fundamentală și numai rareori trebuie aleasă forma care oferă cea mai bună potrivire. Forma
logică a relației dintre variabila dependentă și variabila independentă în cauză ar trebui
comparată cu proprietățile diferitelor forme funcționale și ar trebui aleasă cea care se
apropie cel mai mult de teoria respectivă. Pentru a permite o astfel de comparație, în
paragrafele care urmează sunt descrise cele mai frecvent utilizate forme, în termeni de
grafice, ecuații și exemple. În unele cazuri, mai multe forme funcționale pot fi utilizate, dar
de obicei o alegere între forme funcționale alternative se poate face pe baza informațiilor pe
care le vom prezenta în continuare.
Forma liniară

Modelul de regresie liniar, utilizat aproape exclusiv în acest text până acum, se
bazează pe ipoteza că panta relației dintre variabila independentă și variabila dependentă
este constantă:

∆𝑌
= 𝛽𝑘 𝑘 = 1,2, … , 𝐾
∆𝑋𝑘

Dacă relația ipotetică dintre 𝑌 și 𝑋 este de așa natură încât se poate aștepta ca panta
relației să fie constantă, atunci ar trebui utilizată forma funcțională liniară. Deoarece panta
este constantă, elasticitatea lui 𝑌 față de 𝑋 (modificarea procentuală a variabilei dependente
determinată de o creștere cu 1 la sută a variabilei independente, menținând constante
celelalte variabile din ecuație, poate fi calculată destul de ușor:

∆𝑌/𝑌 ∆𝑌 𝑋𝑘 𝑋𝑘
Elasticitatea 𝑌,𝑋𝑘 = = ∙ = 𝛽𝑘 ∙
∆𝑋𝑘 /𝑋𝑘 ∆𝑋𝑘 𝑌 𝑌

Dacă teoria, bunul simț economic sau experiența nu justifică utilizarea unei alte forme
funcționale, ar trebui să fie utilizată forma liniară. Fiind utilizată în mod implicit, forma
liniară este uneori denumită forma funcțională implicită.

Forma dublu-log

Forma dublu-log este cea mai comună formă funcțională care este neliniară în
variabile, fiind totuși liniară în coeficienți. Într-adevăr, forma dublu-log este atât de populară
încât unii cercetători o folosesc ca formă funcțională implicită în locul formei liniare. Într-o
formă funcțională dublu-log, logaritmul natural al lui 𝑌 este variabila dependentă și
logaritmul natural al 𝑋 –lor sunt variabilele independente:

𝑙𝑛𝑌 = 𝛽0 + 𝛽1 𝑙𝑛𝑋1 + 𝛽2 𝑙𝑛𝑋2 + 𝜀

unde 𝑙𝑛𝑌 reprezintă logaritmul natural al lui Y, 𝑙𝑛𝑋1 reprezintă logaritmul natural al lui 𝑋1
etc.
Forma dublu-log, uneori numită forma log-log, este adesea utilizată atunci când elasticitățile
modelului sunt constante și pantele nu. Acest lucru este în contrast cu modelul liniar, în care
pantele sunt constante, dar elasticitățile nu.
Într-o ecuație dublu-log, un coeficient pantă poate fi interpretat ca o elasticitate
deoarece:

∆𝑙𝑛(𝑌) ∆𝑌⁄𝑌
𝛽𝑘 = = = 𝐸𝑙𝑎𝑠𝑡𝑖𝑐𝑖𝑡𝑎𝑡𝑒𝑎Y,Xk
∆𝑙𝑛(𝑋𝑘 ) ∆𝑋𝑘 ⁄𝑋𝑘
𝑋2 𝑌 𝛽1 > 1

𝑙𝑛 𝑌 = 𝛽0 + 𝛽1 𝑙𝑛 𝑋1 + 𝛽2 𝑙𝑛 𝑋2
0 < 𝛽1 < 1

𝑌2
𝛽1 < 0
𝑌1

𝑋1 𝑋1

Figura 2. Forma funcțională dublu-log


În funcție de valorile coeficienților de regresie, forma funcțională dublu-log poate avea grafice diferite. Panoul
din stânga arată utilizarea unei funcții dublu-log pentru a descrie o formă utilă în modelarea conceptului
economic de izoquantă sau al unei curbe de indiferență. Panoul din dreapta prezintă diferite grafice care pot fi
realizate cu o funcție dublu-log, atunci când 𝑋2 este menținut constant sau nu este inclus în ecuație.

Deoarece coeficienții de regresie sunt constanți, condiția ca modelul să aibă o


elasticitate constantă este îndeplinită de ecuația dublu-log. Modul de a interpreta 𝛽𝑘 într-o
ecuație dublu-log este acela că, dacă 𝑋𝑘 crește cu 1 la sută în timp ce celelalte 𝑋-uri sunt
menținute constante, atunci 𝑌 se va schimba cu 𝛽𝑘 la sută. Deoarece elasticitățile sunt
constante, pantele nu mai sunt constante.
Figura 2 ilustrează un grafic al funcției dublu-log (ignorând termenul de eroare).
Panoul din stânga arată conceptul economic al unei izoquante sau a unei curbe de
indiferență. Izoquantele dintr-o funcțiile de producție descriu diferitele combinații de factori
𝑋1 și 𝑋2, probabil capital și forță de muncă, care pot fi folosite pentru a produce un nivel dat
al output-lui 𝑌. Panoul din dreapta din Figura 2 arată relația dintre 𝑌 și 𝑋1 care ar exista dacă
𝑋2 ar fi menținut constant sau nu ar fi inclus în model. Rețineți că forma curbei depinde de
semnul și magnitudinea coeficientului 𝛽1. Dacă 𝛽1 este negativ, o formă funcțională dublu-
log poate fi utilizată pentru a modela o curbă tipică a cererii. Modelele dublu-log trebuie
rulate numai atunci când variabilele înregistrate iau valori pozitive. Variabilele fictive, care
pot lua valoarea zero, nu trebuie utilizate.

Forma semi-log

Forma funcțională semi-log este o variantă a formei dublu-log din care unele, dar nu toate
variabilele, dependente și independente, sunt exprimate în termenii logaritmilor lor naturali.
De exemplu, se poate alege să se utilizeze logaritmul uneia dintre variabilele independente
originale, ca în exemplu următor:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑙𝑛(𝑋1𝑖 ) + 𝛽2 𝑋2𝑖 + 𝜀𝑖

În acest caz, semnificațiile economice ale celor doi coeficienți pantă sunt diferite,
deoarece 𝑋2 este legat liniar de 𝑌 în timp ce 𝑋1 este neliniar legat de 𝑌.
Partea dreaptă a Figurii 3 arată relația dintre 𝑌 și 𝑋1 în acest tip de ecuație semi-log
când 𝑋2 este menținut constant. Dacă 𝛽1 este mai mare decât zero, impactul modificării lui
𝑋1 asupra 𝑌 scade pe măsură ce 𝑋1 devine mai mare. Astfel, forma funcțională semi-log ar
trebui utilizată atunci când se presupune că relația dintre 𝑋1 și 𝑌 are această formă „crescând
cu o rată descrescătoare” .
Aplicațiile formei semi-log sunt destul de frecvente. De exemplu, majoritatea
funcțiilor de consum tind să crească cu o rată descrescătoare, când venitul crește peste un
anumit nivel. Aceste curbe Engel tind să se aplatizeze, deoarece pe măsură ce veniturile
cresc, un procent mai mic al lor se îndreaptă spre consum și un procent mai mare se duce
spre economisire. Consumul crește astfel cu o rată descrescătoare. Dacă 𝑌 este consumul
unui bun, iar 𝑋1 este venit disponibil (cu 𝑋2 reprezentând toate celelalte variabile
independente), atunci utilizarea formei funcționale semi-log este justificată ori de câte ori
este de așteptat să aibă loc o creștere a consumului bunului cu o rată descrescătoare pe
măsură ce venitul crește.
De exemplu, în ecuația cererii de carne de vită:

̂ 𝑡 = 37.54 − 0.88𝑃𝑡 + 11.9𝑌𝑑𝑡


𝐶𝐵
(0.16) (1.76)
𝑡= −5.36 6.75
̅𝑅 2 = 0.631 𝑛 = 28 (anual)

unde: CB = consumul de carne de vită pe locuitor;


P = prețul cărnii de vită, în cenți pe livră;
Yd = venitul disponibil, în mii de dolari, în SUA.

Dacă se înlocuiește venitul disponibil 𝑌𝑑𝑡 cu logaritmul venitului disponibil, 𝑙𝑛(𝑌𝑑𝑡 ),


se obține:

̂ 𝑡 = −71.75 − 0.87𝑃𝑡 + 98.87𝑙𝑛(𝑌𝑑𝑡 )


𝐶𝐵
(0.13) (11.11)
𝑡= −6.93 8.90
̅𝑅 = 0.750
2
𝑛 = 28 (anual)

În această ecuație, variabilele independente includ prețul cărnii de vită și logaritmul


venitului disponibil. Ecuația aceasta ar fi potrivită dacă s-ar presupune că odată cu creșterea
venitului, consumul va crește cu o rată descrescătoare. Pentru alte produse, cum ar fi
iahturile sau casele de vară, s-ar putea ca ipoteza ratei descrescătoare să nu fie adevărată,
iar funcția semi-log să nu fie adecvată.
Nu toate funcțiile semi-log au logaritmul în partea dreaptă a ecuației, ca în ecuația
anterioară. Forma semi-log alternativă este de a avea logaritmul în partea stângă a ecuației.
Acest lucru ar însemna că logaritmul natural al lui 𝑌 ar fi o funcție a valorilor ne-logaritmate
ale 𝑋-urilor, ca în ecuația următoare:

ln(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

Acest model nu are nici coeficienții pantă constanți, nici elasticitățile constante, dar
coeficienții au o interpretare foarte utilă. Dacă 𝑋1 crește cu o unitate, atunci 𝑌 se va schimba
în termeni procentuali. Mai exact, 𝑌 se va schimba cu 𝛽1*100 procente pentru fiecare unitate
cu care 𝑋1 se mărește, menținând constant 𝑋2. În partea stângă a Figurii 3 este prezentată o
astfel de funcție semi-log. Acest fapt înseamnă că funcția semi-log 𝑙𝑛𝑌 a ecuației anterioare
este perfectă pentru orice model în care variabila dependentă se ajustează în termeni
procentuali la o schimbare cu o unitate a unei variabile independente. Cea mai obișnuită
aplicație economică și de afaceri a ecuației semi-log este modelarea câștigurilor persoanelor
fizice, unele firme acordând adesea creșteri anuale în termeni procentuali. Într-un astfel de
model, 𝑌 este salariul sau câștigul angajatului 𝑖 , iar 𝑋1 este experiența lucrătorului 𝑖 . În
fiecare an, 𝑋1 crește cu 1 astfel încât 𝛽1 măsoară creșterea procentuală a lui Y.
Există două tipuri diferite de forme funcționale semi-log, astfel putând apărea o
confuzie. Pentru a evita acest lucru, mulți econometrici folosesc fraze precum „semi-log
dreapta” sau „forma lin-log” sau „semi-log stânga” sau „forma log-lin”.

𝑌 𝛽1 > 0 𝑌 𝑌 = 𝛽0 + 𝛽2 𝑋2 + 𝛽1 𝑙𝑛𝑋1

𝛽1 < 0
𝛽1 > 0

𝑙𝑛 𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2

𝛽1 < 0

0 𝑋1 0 𝑋1

Menținând 𝑋2 constant Menținând 𝑋2 constant

Figura 3. Funcții semi-log


Forma funcțională semi-log dreapta, 𝑙𝑛(𝑋), poate fi utilizată pentru a descrie o situație în care se așteaptă ca
impactul lui 𝑋1 asupra lui 𝑌 să crească cu o rată descrescătoare pe măsură ce 𝑋1 devine mai mare, atât timp cât
𝛽1 este mai mare decât zero (menținând 𝑋2 constant). Forma funcțională semi-log stânga, 𝑙𝑛(𝑌) , poate fi
utilizată pentru a descrie o situație în care o creștere a lui 𝑋1 determină creștere lui 𝑌 cu o rată crescătoare.
Forme polinomiale

Majoritatea funcțiilor de cost mediu au panta curbei costurilor care se modifică ca


urmare a modificării output-lui. Dacă este de așteptat ca panta unei curbe să depindă de
nivelul variabilei în sine, atunci ar trebui luat în considerare un model polinomial. Formele
funcționale polinomiale exprimă 𝑌 ca o funcție a variabilelor independente, dintre care unele
sunt ridicate la alte puteri decât puterea 1. De exemplu, într-o ecuație polinomială de gradul
doi (numită și pătratică), cel puțin o variabilă independentă este ridicată la pătrat:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1𝑖 + 𝛽2 (𝑋1𝑖 )2 + 𝛽3 𝑋2𝑖 + 𝜀𝑖

Un astfel de model poate produce într-adevăr pante care schimbă semnul pe măsură
ce variabilele independente se schimbă. Panta lui 𝑌 față de 𝑋1 în ecuația de mai sus este:

∆𝑌
= 𝛽1 + 2𝛽2 𝑋1
∆𝑋1

Se poate observa că panta depinde de nivelul lui 𝑋1. Pentru valorile mici ale lui 𝑋1, 𝛽1
ar putea domina panta, dar pentru valorile mari ale lui 𝑋1, 𝛽2 va domina întotdeauna panta.
Dacă aceasta ar fi o funcție de cost, 𝑌 fiind costul total mediu de producție și 𝑋1 fiind nivelul
de producție al firmei, atunci este de așteptat, ținând cont de forma tipică de U a curbei
costurilor totale medii, ca 𝛽1 să fie negativ iar 𝛽2 să fie pozitiv. Acest lucru se poate observa
în jumătatea din stânga a Figurii 4.

𝑌 𝑌
2
𝛽2 < 0
𝑌 = (𝛽0 +𝛽3 𝑋2 ) + (𝛽1 𝑋1 + 𝛽2 𝑋1 )
𝛽1 > 0

𝛽2 > 0
𝛽1 < 0

0 Menținând 𝑋2 constant 𝑋1 0 Menținând 𝑋2 constant 𝑋1

Figura 4. Funcții polinomiale


Formele funcționale pătratice (polinoame cu termeni la pătrat) iau forme de U sau U inversate, în funcție de
valorile coeficienților (menținând 𝑋2 constant). Panoul din stânga arată forma unei funcții pătratice care ar
putea fi utilizată pentru a arăta o curbă tipică a costurilor; panoul din dreapta permite descrierea unui impact
care determină creșterea și apoi scăderea (cum ar fi, de exemplu, impactul vârstei asupra câștigurilor).
Fie, de exemplu, un model al câștigurilor anuale ale angajaților în funcție de vârsta
fiecărui angajat și o serie de alte măsuri ale productivității, cum ar fi educația. Care este
impactul așteptat al vârstei asupra câștigurilor? Pe măsură ce un tânăr lucrător
îmbătrânește, câștigurile sale vor crește de obicei. Cu toate acestea, dincolo de un anumit
punct, o creștere a vârstei nu va mai fi însoțită de creșterea câștigurilor, iar în jurul vârstei
de pensionare, este de așteptat să înceapă scăderea acestora. Ca rezultat, o relație logică între
câștiguri și vârstă ar putea arăta ca în jumătatea din dreapta a Figurii 4: câștigurile cresc,
ating un vârf și apoi încep să scadă pe măsura înaintării în vârstă. O astfel de relație teoretică
ar putea fi modelată cu o ecuație pătratică:

Câștiguri𝑖 = 𝛽0 + 𝛽1 Vârsta𝑖 + 𝛽2 (Vârsta𝑖 )2 + ⋯ + 𝜀𝑖

Care ar fi semnele așteptate ale lui 𝛽1 și 𝛽2 ? Întrucât este de așteptat ca impactul


vârstei asupra câștigurilor să crească și apoi să scadă, 𝛽1 ar trebui să fie pozitiv iar 𝛽2 să fie
negativ (toate celelalte fiind egale). Exact acest lucru l-au observat mulți cercetători din
domeniul economiei muncii.
În cazul regresiilor polinomiale, interpretarea coeficienților individuali de regresie
devine dificilă, iar ecuația poate produce rezultate nedorite pentru anumite intervale ale lui
𝑋. Când se utilizează o ecuație de regresie polinomială, atenția trebuie să fie maximă, pentru
a se asigura că forma funcțională va realiza ceea ce intenționează cercetătorul, nu mai mult.

Alegerea formei funcționale

Cel mai bun mod de a alege o formă funcțională pentru un model de regresie este
selectarea specificației care se potrivește cel mai bine cu teoria de bază a ecuației. În
majoritatea cazurilor, forma liniară va fi adecvată, iar dacă acest lucru nu se întâmplă, bunul
simț economic va indica o alegere destul de ușoară între alternativele prezentate mai sus.
Tabelul 1 conține un rezumat al proprietăților diferitelor forme funcționale alternative.

Tabelul 1. Sumarul formelor funcționale alternative


Forma funcțională Ecuația (un singur X) Modificarea lui 𝑌 când se modifică 𝑋
Liniară 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 Când 𝑋 crește cu o unitate, 𝑌 se va
modifica cu 𝛽1unități
Dublu-log 𝑙𝑛(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝑙𝑛𝑋𝑖 + 𝜀𝑖 Când 𝑋 crește cu 1 la sută, 𝑌 se va
schimba cu 𝛽1 la sută Astfel 𝛽1 este
elasticitatea lui 𝑌 față de 𝑋.
Semi-log (𝑙𝑛𝑋) 𝑌𝑖 = 𝛽0 + 𝛽1 𝑙𝑛(𝑋𝑖 ) + 𝜀𝑖 Când 𝑋 crește cu 1 la sută, 𝑌 se va
schimba cu 𝛽1 /100 de unități.
Semi-log (𝑙𝑛𝑌) 𝑙𝑛(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 + 𝜀𝑖 Când 𝑋 crește cu o unitate, 𝑌 se va
modifica cu 100𝛽1 la sută.
Polinomială 𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑋𝑖 2 + 𝜀𝑖 Când 𝑋 crește cu o unitate, 𝑌 se va
schimba cu (𝛽1 + 2𝛽2 𝑋) unități.
Variabile independente decalate

Practic, toate regresiile de până acum au fost de natură „instantanee”. Cu alte cuvinte,
au inclus variabile independente și dependente din aceeași perioadă de timp, ca în:

𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1𝑡 + 𝛽2 𝑋2𝑡 + 𝜀𝑡

unde indicele 𝑡 este folosit pentru a se referi la un anumit moment în timp. Dacă toate
variabilele au același indice, atunci ecuația este instantanee.
Cu toate acestea, nu toate situațiile economice sau de afaceri implică astfel de relații
instantanee între variabilele dependente și independente. În multe cazuri, trece un anumit
timp între o modificare a variabilei independente și schimbarea rezultată a variabilei
dependente. Perioada de timp dintre cauză (schimbarea în 𝑋) și efect (schimbarea în 𝑌) se
numește decalaj temporal, întârziere sau lag. Perioadele de timp pot fi măsurate în zile, luni,
ani etc. Multe ecuații econometrice includ una sau mai multe variabile independente
întârziate, cum ar fi 𝑋1𝑡−1 , unde indicele 𝑡 - 1 indică faptul că observarea lui 𝑋1 este făcută în
perioada de timp anterioară perioadei de timp 𝑡, ca în următoarea ecuație:

𝑌𝑡 = 𝛽0 + 𝛽1 𝑋1𝑡−1 + 𝛽2 𝑋2𝑡 + 𝜀𝑡

În această ecuație, 𝑋1 este decalat în urmă cu o perioadă de timp, dar relația dintre Y
și 𝑋2 este încă instantanee. Acest decalaj de o singură perioadă este cel mai frecvent decalaj
din economie. Decalajele de două sau mai multe perioade de timp pot fi utilizate atunci când
acest lucru este justificat de teoria de bază.
Pentru exemplificarea utilizării unei variabile independentă întârziate, se analizează
procesul prin care are loc oferta unui produs agricol. Deoarece bunurile agricole necesită
timp pentru a fi obținute, deciziile cu privire la suprafața cultivată sau câte ouă se pun la
clocit pentru a deveni găini ouătoare (în loc să se vândă imediat) trebuie luate cu luni, dacă
nu chir cu ani, înainte ca produsul să fie efectiv furnizat consumatorul. Orice modificare pe o
piață agricolă, cum ar fi o creștere a prețului pe care agricultorul îl poate obține pentru
produsul său, are un efect întârziat asupra ofertei produsului respectiv. De exemplu, pentru
analiza ofertei de bumbac din anul 𝑡 poate fi utilizată următoarea ecuație:

𝐶𝑡 = 𝛽0 + 𝛽1 𝑃𝐶𝑡−1 + 𝛽2 𝑃𝐹𝑡 + 𝜀𝑡

unde: 𝐶𝑡 = cantitatea de bumbac furnizată în anul 𝑡;


𝑃𝐶𝑡−1 = prețul bumbacului în anul 𝑡 - 1;
𝑃𝐹𝑡 = prețul muncii în agricultură în anul 𝑡.

Această ecuație presupune un decalaj între prețul bumbacului și producția de


bumbac, dar nu și între prețul muncii în agricultură și producția de bumbac. Este rezonabil
să se presupună că, dacă prețul bumbacului se schimbă, fermierii nu vor putea reacționa
imediat, deoarece durează ceva timp până când bumbacul este plantat și crescut.
Semnificația coeficientului unei variabile decalate într-o ecuație de regresie nu este
aceeași cu semnificația coeficientului unei variabile nedecalate. Coeficientul estimat al unui
𝑋 decalat măsoară modificarea 𝑌-ului din anul curent atribuită unei creșteri cu o unitate a
𝑋 -ului din anul anterior (menținând constant celelalte 𝑋 -uri din ecuație). Astfel, 𝛽1 din
ecuația anterioară măsoară numărul suplimentar de unități de bumbac care ar fi produse
anul acesta ca urmare a creșterii cu o unitate a prețului bumbacului de anul trecut, dacă se
păstrează constant prețul muncii din agricultură din acest an.
Dacă se presupune că structura întârzierii va avea loc pe mai mult de o perioadă de
timp sau dacă o variabilă dependentă întârziată este inclusă în partea dreaptă a unei ecuații,
problema devine semnificativ mai complexă. Astfel de cazuri, numite întârzieri distribuite
sau cu lag distribuit, vor fi tratate într-un capitolul viitor.

Variabile 𝒅𝒖𝒎𝒎𝒚 𝒑𝒂𝒏𝒕ă

În cursul 3 s-a introdus conceptul de 𝑣𝑎𝑟𝑖𝑎𝑏𝑖𝑙ă 𝑑𝑢𝑚𝑚𝑦 , care a fost definită ca o


variabilă ce ia valorile 0 sau 1, în funcție de un atribut calitativ. În acea secțiune, accentul a
fost pus pe utilizarea unei variabile dummy care modifică termenul constant sau intercept-
ul ecuației de regresie, în funcție de condiția calitativă. Aceste variabile iau forma generală:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖 + 𝜀𝑖

1 𝑑acă a 𝑖 − a observare îndeplinește condiția particulară,


𝑢𝑛𝑑𝑒 𝐷𝑖 = {
0 altfel

Până acum, fiecare variabilă independentă din acest text a fost înmulțită cu exact un
alt element: coeficientul pantă. Cum se poate observa în ecuația de mai sus, 𝑋1 este înmulțit
doar cu 𝛽1, iar D este înmulțit doar cu 𝛽2 și nu sunt implicați alți factori.
Această restricție nu se aplică unui nou tip de variabilă numită
𝑡𝑒𝑟𝑚𝑒𝑛 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑎𝑐ț𝑖𝑢𝑛𝑒. Un termen de interacțiune este o variabilă independentă dintr-o
ecuație de regresie care este multiplul a două sau mai multe alte variabile independente.
Fiecare termen de interacțiune are propriul său coeficient de regresie, astfel încât rezultatul
final este că termenul de interacțiune are trei sau mai multe componente, ca în 𝛽3 𝑋𝑖 𝐷𝑖 . Astfel
de termeni de interacțiune sunt utilizați atunci când schimbarea suferită de 𝑌 datorată unei
variabile independente, în acest caz 𝑋, depinde de nivelul unei alte variabile independente,
în acest caz 𝐷.
Termenii de interacțiune pot implica două variabile cantitative 𝛽3 𝑋1 𝑋2 , sau două
variabile fictive 𝛽3 𝐷1 𝐷2 , dar cea mai frecventă aplicare a termenilor de interacțiune implică
o variabilă cantitativă și o variabilă fictivă 𝛽3 𝑋1𝐷1 , o combinație care este denumită în mod
obișnuit 𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă . Variabilele 𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă permit ca panta relației dintre variabila
dependentă și o variabilă independentă să fie diferită în funcție de îndeplinirea condiției
specificate de o variabilă fictivă. Acest lucru este în contrast cu o variabilă 𝑑𝑢𝑚𝑚𝑦 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡,
care, atunci când este îndeplinită o anumită condiție, schimbă intercept-ul, dar nu schimbă
panta.
În general, o variabilă 𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă este introdusă prin adăugarea în ecuație a unei
variabile care este o înmulțire a variabilei independente a cărei pantă de dorește a fi
modificată cu variabila 𝑑𝑢𝑚𝑚𝑦 care descrie condiția stabilită. Forma generală a unei ecuații
cu variabile 𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă este:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖 + 𝛽3 𝑋𝑖 𝐷𝑖 + 𝜀𝑖

Această ecuație este aceeași cu ce anterioară, cu excepția faptului că s-a adăugat un


termen de interacțiune în care variabila fictivă este înmulțită cu o variabilă independentă,
𝛽3 𝑋𝑖 𝐷𝑖 . Panta lui 𝑌 față de 𝑋 se schimbă într-adevăr dacă 𝐷 se schimbă:

Când 𝐷 = 0, ∆𝑌⁄∆𝑋 = 𝛽1
Când 𝐷 = 1, ∆𝑌⁄∆𝑋 = (𝛽1 + 𝛽3 )

În esență, coeficientul lui 𝑋 se modifică atunci când este îndeplinită condiția


specificată de 𝐷. Pentru a vedea acest lucru, se înlocuiește 𝐷 = 0 și respectiv 𝐷 = 1 în ecuație
și grupează termenii cu 𝑋.
Se observă că ultima ecuație include atât o variabilă 𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă, cât și o variabilă
𝑑𝑢𝑚𝑚𝑦 î𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡. Ori de câte ori se folosește o variabilă pantă, este vital ca în ecuație să
existe atât 𝛽1 𝑋𝑖 cât și 𝛽2 𝐷𝑖 , pentru a evita deplasamentul în estimarea coeficientului
𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă. Dacă într-o ecuație există alte variabile X, acestea nu ar trebui să fie înmulțite
cu 𝐷, cu excepția cazului în care se presupun că pantele se schimbă și în raport cu 𝐷.

𝑌
𝐷𝑖 = 1, Panta = 𝛽1 + 𝛽3 𝛽3 > 0

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝐷𝑖 + 𝛽3 𝑋𝑖 𝐷𝑖

𝛽2
𝐷𝑖 = 0, Panta = 𝛽1
𝛽0 + 𝛽2
𝛽2 > 0 𝛽0

0 𝑋

Figura 5. Variabile dummy pantă și intercept


Dacă termenul dummy pantă, 𝛽3 𝑋𝑖 𝐷𝑖 și termenul dummy intercept, 𝛽2 𝐷𝑖 , sunt adăugați la o ecuație, graficul
ecuației va avea intercept-uri diferite și pante diferite în funcție de valoarea condiției calitative specificată de
variabila dummy. Diferența dintre cele două intercept-uri este de 𝛽2 , în timp ce diferența dintre cele două pante
este de 𝛽3 .
În Figura 5 este ilustrată situația în care în ecuația de regresie sunt incluse atât o
variabilă dummy pantă, cât și o variabilă dummy intercept. În Figura 5 intercept-ul va fi egal
cu 𝛽0 când 𝐷 = 0 și egal cu 𝛽0 + 𝛽2 când 𝐷 = 1. În plus, panta lui 𝑌 față de 𝑋 va fi egală cu 𝛽1
când 𝐷 = 0 și 𝛽1 + 𝛽3 când 𝐷 = 1. Ca rezultat, există într-adevăr două ecuații:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 𝑐â𝑛𝑑 𝐷 = 0
𝑌𝑖 = (𝛽0 + 𝛽2 ) + (𝛽1 +𝛽3 ) 𝑋𝑖 𝑐â𝑛𝑑 𝐷 = 1

În practică, variabilele 𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă au multe utilizări. De exemplu, problema


diferențelor de câștiguri dintre bărbați și femei. Deși există puține argumente că aceste
diferențiale există, sunt destul de multe controverse cu privire la măsura în care aceste
diferențe sunt cauzate de discriminarea de gen (spre deosebire de alți factori). Se poate
construi un model al câștigurilor pentru a obține o imagine mai bună asupra acestei
probleme. Dacă ipoteza este că bărbații câștigă în medie mai mult decât femeile, atunci se va
utiliza o variabilă 𝑑𝑢𝑚𝑚𝑦 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡 pentru gen, în ecuație trebuind să fie incluse variabile
independente precum experiența, abilitățile speciale, educația și altele:

𝑙𝑛(câștiguri𝑖 ) = 𝛽0 + 𝛽1 𝐷𝑖 + 𝛽2 𝐸𝑋𝑃𝑖 + ⋯ + 𝜀𝑖

unde: 𝐷𝑖 = 1 dacă angajatul 𝑖 este bărbat, 0 altfel;


𝐸𝑋𝑃𝑖 = anii de experiență ai angajatului 𝑖;
𝜀𝑖 = un termen de eroare clasic.

În ecuația aceasta 𝛽̂1 ar fi o estimare a diferenței medii de câștiguri dintre bărbați și


femei, menținând constantă experiența lor și ceilalți factori din ecuație. Ecuația forțează, de
asemenea, impactul creșterii experienței (și a celorlalți factori din ecuație) să aibă același
efect pentru femei ca și pentru bărbați, deoarece pantele sunt aceleași pentru ambele sexe.
Dacă se emite ipoteza că bărbații câștigă mai mult pe an de experiență decât femeile,
atunci se include în ecuație un 𝑑𝑢𝑚𝑚𝑦 𝑝𝑎𝑛𝑡ă, precum și un 𝑑𝑢𝑚𝑚𝑦 𝑖𝑛𝑡𝑒𝑟𝑐𝑒𝑝𝑡:

𝑙𝑛(câștiguri𝑖 ) = 𝛽0 + 𝛽1 𝐷𝑖 + 𝛽2 𝐸𝑋𝑃𝑖 + 𝛽3 𝐷𝑖 𝐸𝑋𝑃𝑖 + ⋯ + 𝜀𝑖

În această ecuație, 𝛽̂3 ar fi o estimare a impactului diferențiat dintre bărbați și femei,


al unui an suplimentar de experiență asupra câștigurilor. Se poate testa posibilitatea unui
adevărat 𝛽3 pozitiv efectuând un test 𝑡 unilateral pe 𝛽̂3. Dacă 𝛽̂3 ar fi semnificativ diferit de
zero în direcție pozitivă, atunci se poate respinge ipoteza nulă că nu există nicio diferență
datorată genului privind impactul experienței asupra câștigurilor, menținând constante
celelalte variabile din ecuație.
Probleme cu forme funcționale incorecte

Din când în când poate apărea o circumstanță în care modelul este logic neliniar în
variabile, dar forma exactă a acestei neliniarități este greu de specificat. Într-un astfel de caz,
forma liniară nu este corectă și totuși o alegere între diferitele forme neliniare nu poate fi
făcută pe baza teoriei economice. Chiar și în aceste cazuri, trebuie totuși făcut un efort (în
ceea ce privește înțelegerea relațiilor adevărate) pentru a evita alegerea unei forme
funcționale numai pe baza gradului de potrivire.
Dacă formele funcționale sunt similare și dacă teoria nu specifică exact ce formă
trebuie folosită, de ce ar trebui evitată folosirea gradului de potrivire la nivelul eșantionului
pentru a determina ce ecuație trebuie folosită? Această secțiune va evidenția două
răspunsuri la această întrebare:

1. Coeficienții 𝑅̅ 2 sunt dificil de comparat dacă variabila dependentă este transformată.


2. O formă funcțională incorectă poate oferi o potrivire rezonabilă în cadrul eșantionului,
dar are potențialul de a comite erori mari de prognoză atunci când este utilizată în afara
eșantionului.

̅ 𝟐 sunt dificil de comparat când 𝒀 este transformat


Coeficienții 𝑹

Când variabila dependentă este transformată din versiunea sa liniară, măsura


generală a ajustării sau potrivirii, 𝑅̅ 2 , nu poate fi utilizată pentru a compara potrivirea
ecuației neliniare cu cea liniară originală. Această problemă nu este deosebit de importantă
în majoritatea cazurilor, deoarece accentul în analiza de regresie aplicată este pus, de obicei,
pe estimările coeficienților. Cu toate acestea, dacă 𝑅̅ 2 sunt folosite vreodată pentru a
compara potrivirea a două forme funcționale diferite, atunci devine crucial ca această lipsă
de comparabilitate să fie amintită. De exemplu, să presupunem că se încearcă compararea
unei ecuații liniare:

𝑌𝑖 = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

cu o versiune semi-log a aceleiași ecuații, folosind versiunea semi-log stânga:

ln(𝑌𝑖 ) = 𝛽0 + 𝛽1 𝑋𝑖 + 𝛽2 𝑋2𝑖 + 𝜀𝑖

Singura diferență dintre cele două ecuații este forma funcțională a variabilei
dependente. Motivul pentru care 𝑅̅ 2 ale celor două ecuații nu pot fi utilizate pentru a
compara gradele de potrivire generale ale celor două ecuații, este că suma totală a pătratelor
(𝑇𝑆𝑆) ale variabilei dependente din jurul mediei sale este diferită în cele două formulări.
Adică, 𝑅̅ 2 nu sunt comparabile, deoarece variabilele dependente sunt diferite. Nu există
niciun motiv pentru care variabile dependente diferite să aibă grade de dispersie identice
(sau ușor de comparat) în jurul mediilor lor.
Forme funcționale incorecte în afara intervalului eșantionului

Dacă se folosește o formă funcțională incorectă, atunci probabilitatea unor inferențe


greșite despre parametrii adevărați ai populației va crește. Utilizarea unei forme funcționale
incorecte este un fel de eroare de specificație similară cu deplasamentul variabilelor omise.
Chiar dacă o formă funcțională incorectă oferă statistici bune în cadrul unui eșantion,
reziduurile mari vor apărea aproape sigur când ecuația greșit specificată este utilizată pe
date care nu au făcut parte din eșantionul utilizat pentru a estima coeficienții.

𝑌 𝑌
𝑎 Dublu-log 𝛽 < 0 𝑏 Liniară

În afara
eșantionului
În afara
eșantionului

0 Eșantion 𝑋 0 Eșantion 𝑋

𝑌 c Semilog dreapta 𝑌 d Polinomială

În afara
eșantionului

În afara
eșantionului

0 𝑋 0 𝑋
Eșantion Eșantion

Figura 6. Forme funcționale incorecte în afara eșantionului


Dacă se aplică o formă funcțională incorectă unor date din afara intervalului eșantionului pe care a fost estimat,
probabilitatea unor greșeli mari crește. În special, rețineți cum forma funcțională polinomială poate schimba
panta rapid în afara intervalului eșantionului (panoul b) și faptul că o formă liniară poate provoca greșeli dacă
forma funcțională adevărată este neliniară.
În general, extrapolarea unei ecuații de regresie la date care se află în afara
intervalului în care a fost estimată ecuația prezintă riscuri crescute de erori mari de
prognoză și concluzii incorecte despre valorile populației. Acest risc este crescut dacă
regresia utilizează o formă funcțională care este inadecvată pentru variabilele particulare
studiate.
Două forme funcționale care se comportă similar în intervalul eșantionului se pot
comporta destul de diferit în afara acestui interval. Dacă forma funcțională este aleasă pe
baza teoriei, atunci cercetătorul poate lua în considerare modul în care ecuația ar acționa
asupra oricărui interval de valori, chiar dacă unele dintre aceste valori sunt în afara
intervalului eșantionului. Dacă se aleg forme funcționale pe baza potrivirii, extrapolarea în
afara eșantionului devine slabă.
Figura 6 conține o serie de exemple ipotetice. După cum se poate observa, unele forme
funcționale au potențialul de a se încadra destul de prost în afara eșantionului. Astfel de
grafice sunt date ca exemple ale a ceea ce s-ar putea întâmpla, nu ca afirmații despre ceea ce
neapărat se va întâmpla, atunci când formele funcționale incorecte sunt împinse în afara
intervalului eșantionului peste care au fost estimate. Nu trebuie trasă concluzia din aceste
diagrame că funcțiile neliniare ar trebui evitate. Dacă relația adevărată este neliniară, atunci
forma funcțională liniară va face erori mari de prognoză în afara eșantionului. În schimb,
cercetătorul trebuie să-și ia timpul să se gândească la modul în care ecuația va acționa pentru
valori atât în interiorul, cât și în afara eșantionului înainte de a alege o formă funcțională pe
care să o folosească pentru a estima ecuația. Dacă ecuația neliniară teoretic adecvată pare să
funcționeze bine peste gama relevantă de valori posibile, atunci ar trebui utilizată fără griji.

Sumar

1. Termenul constant nu trebuie eliminat din ecuație. Pe de altă parte, estimările


termenului constant nu trebuie folosite pentru inferență, chiar dacă par a fi semnificative
din punct de vedere statistic.

2. Alegerea unei forme funcționale ar trebui să se bazeze pe baza teoria economică, în


măsura în care teoria sugerează o formă similară cu cea oferită de o anumită formă
funcțională. O formă care este liniară în variabile ar trebui utilizată implicit, cu excepția
cazului în care teoria sugerează o formă specifică diferită.

3. Formele funcționale care sunt neliniare în variabile includ forma dublu-log, forma semi-
log și forma polinomială. Forma dublu-log este utilă mai ales dacă elasticitățile implicate
sunt de așteptat să fie constante. Forma semi-log are avantajul de a permite ca efectul
unei variabile independente asupra variabilei dependente să se reducă pe măsură ce acea
variabilă crește. Forma polinomială este utilă dacă se așteaptă ca pantele să schimbe în
funcție de nivelul unei variabile independente.
4. O variabilă dummy pantă este o variabilă care este înmulțită cu o variabilă independentă
pentru a permite ca panta relației dintre variabila dependentă și variabila independentă
particulară să se schimbe în funcție de îndeplinirea unei anumite condiții.

5. Utilizarea formelor funcționale neliniare poate determina apariția unor probleme. În


special, coeficienții 𝑅̅ 2 sunt dificil de comparat dacă 𝑌 a fost transformat, iar reziduurile
sunt potențial mai mari dacă pentru prognoză se utilizează o formă funcțională ce se
dovedește a fi incorectă în afara intervalului eșantionului.

S-ar putea să vă placă și