REGRESIA NELINIARĂ
Obiective
- definirea neliniarităţii în economie
- prezentarea tipurilor de modele neliniare
- estimarea şi testarea parametrilor, testarea modelelor liniarizabile
- compararea rezultatelor şi alegerea celui mai bun model neliniar
Competenţe
- însuşirea conceptului de neliniaritate
- înţelegerea demersului metodologic al construirii unui model neliniar
- deprinderea de a construi un model neliniar cu date de la nivelul economiei României
- capacitatea de a analiza critic şi de a compara mai multe modele neliniare posibile pentru un
anumit fenomen
- însuşirea cunoştinţelor şi deprinderilor de utilizare a unui soft statistic pentru modelare
Termen mediu: 6 h
Bibliografie selectivă
1. Bourbonnais, R., Économétrie, Dunod, Paris, 2000
4. Iacob, A.I., Tanasoiu, O., Modele econometrice, Editura ASE Bucureşti, 2005
Modelul log-liniar este un model de regresie neliniară. În acest model, variabilele apar prin
funcţia logaritm. Relaţia dintre variabilele logaritmate este de tip liniar, ceea ce permite
utilizarea proprietăţilor modelelor liniare pentru estimarea şi testarea parametrilor modelului.
1. Estimarea modelului
Modelul obţinut este un model log-liniar, adică un model de tip liniar în care ambele variabile
apar prin funcţia logaritm.
Pentru a utiliza cu uşurinţă proprietăţile modelului liniar simplu, modelul log-liniar se poate
transforma într-un model liniar, considerând notaţiile:
yi* ln yi ;
0* ln 0 ;
1* 1 ;
xi* ln xi ;
i* i .
Astfel, rezultă modelul: yi* 0* 1* xi* i* .
Pentru modelul obţinut, se poate aplica metoda celor mai mici pătrate pentru estimarea
parametrilor 0* , 1* . Conform rezultatelor şi proprietăţilor cunoscute pentru modelul liniar
simplu, modelul nou (*) admite doi estimatori nedeplasaţi, convergenţi şi eficienţi pentru
parametrii 0* , 1* . Estimatorii au următoarele relaţii:
n ln xi ln yi ln xi ln yi
ˆ
1 i
* i i
, pentru care ˆ 1* ˆ 1 ,
n (ln xi )2 ( ln xi )2
i i
1 1
ˆ 0* ln xi ˆ 1* ln yi , pentru care ˆ 0* ln ˆ 0 , ˆ 0 e 0 .
ˆ*
n i n i
Observaţii
1. Pentru modelul iniţial, parametrul 1 este estimat nedeplasat cu ajutorul modelului liniar,
în schimb parametrul 0 este estimat deplasat.
2. Pentru modelul (*), parametrul 1 reprezintă panta dreptei sau tangenta unghiului format
dY * d ln Y
de dreapta de regresie cu axa Ox, adică 1 1* *
. Cu alte cuvinte,
dX d ln X
parametrul exprimă variaţia medie relativă a variabilei dependente la o variaţie relativă de
o unitate a variabilei independente.
3. Parametrul 0 are următoarea semnificaţie: este valoarea medie a variabilei dependente,
când variabila independentă ia valoarea unu (X=1).
2. Elasticitatea
Observaţii
1. Dacă modificările realizate la nivelul celor două variabile sunt mici, atunci elasticitatea se
poate scrie sub forma:
dY X d ln Y
E sau E
dX Y d ln X
dY X X
2. Pentru un model de regresie liniară simplă, elasticitatea este de forma: E 1 ,
dX Y Y
adică nu este constantă, ci depinde de raportul valorilor celor două variabile. În practică, de
obicei, se determină o elasticitate medie, pornind de la valorile medii ale celor două variabile
X
şi de la parametrul de regresie. Astfel, elasticitatea medie va fi de forma: E 1 .
Y
d ln Y
3. Pentru modelul log-liniar, elasticitatea este tocmai parametrul 1, adică E 1 .
d ln X
Pentru acest tip de modele, elasticitatea este constantă.
Exemplu
viaţă, la 1000 de copii născuţi vii), ca variabilă dependentă, şi Gross Domestic Product /
capita (produsul intern brut pe cap de locuitor, exprimat în dolari), ca variabilă independentă.
200.0 Observed
Power
150.0
100.0
50.0
0.0
Aşa cum arată figura 1, legătura dintre cele două variabile poate fi explicată cu ajutorul unui
model log-liniar.
ANOVA
Sum of
Squares df Mean Square F Sig.
Regres s ion 86.842 1 86.842 336.253 .000
Res idual 27.634 107 .258
Total 114.476 108
The independent variable is Gros s domes tic product / capita.
Tabelul ANOVA oferă rezultatele testării modelului log-liniar. Semnificaţia testului Fisher
este SigF = 0,000, ceea ce conduce la decizia de a respinge ipoteza nulă. Se poate afirma cu o
probabilitate de 0,95 că modelul este semnificativ sau între variabile există o legătură de tip
putere.
Coefficients
Interpretare
- estimaţia b1 = -0,628 este elasticitatea mortalităţii infantile în raport cu produsul intern
brut pe cap de locuitor şi arată că la o creştere de 1% a PIB/locuitor, mortalitatea
infantilă scade cu 0,628%.
- estimaţia b0 = 3755,157 ne indică mortalitatea infantilă când valoarea PIB/cap de
locuitor este egală cu 1$.
Testul Student pentru fiecare parametru indică estimaţii semnificative statistic pentru
parametrii modelului, deoarece Sigt = 0. În concluzie, se consideră că între cele două
variabile există o legătură ce poate fi modelată cu ajutorul modelului log-liniar.
Modelele semi-logaritmice sunt modele neliniare în care fie variabila independentă, fie
variabila dependentă apar ca variabile logaritmate. Aceste modele sunt construite de regulă cu
scopul de a estima variaţia relativă sau absolută a variabilei dependente la o variaţie absolută
sau relativă a variabilei independente.
Aceste modele sunt construite pentru studiul legăturii dintre variabile prin utilizarea
modelelor matematice de tipul funcţiilor exponenţiale.
ln yi ln 0 ln 1 xi i
Se observă că acest model este unul liniar, în care doar variabila dependentă apare
logaritmată, deci este un model liniar semi-logaritmic.
Aplicând metoda celor mai mici pătrate pentru acest nou model (*), se obţin estimatorii:
n ln xi ln yi ln xi ln yi
, iar ˆ 1 e 1 ;
ˆ*
ˆ 1* i i i
n (ln xi ) ( ln xi )
2 2
i i
1 1
ln xi ˆ 1* ln yi , iar ˆ 0 e 0 .
ˆ *
ˆ 0*
n i n i
Observaţii
1. Modelul semi-logaritmic de forma ln Y 0 1 X se poate utiliza în practică pentru
a estima modificările relative medii ale unei variabile dependente la modificarea absolută
cu o unitate a variabilei independente. Această estimaţie este tocmai estimaţia pentru
d ln Y
parametrul 1. Cu alte cuvinte, pentru acest model, 1 . Parametrul 0 este nivelul
dX
mediu al variabilei dependente, atunci când variabila independentă ia valoarea X=0.
2. În cazul unui model de forma ln Y 0 1 X , elasticitatea este definită prin relaţia
d ln Y
E 1 X .
d ln X
3. Dacă se consideră variaţia în timp a unui fenomen reprezentat de variabila Y, atunci
modelul de regresie este un model de trend şi are forma: ln Y 0 1 t , în care t
d ln Y
este variabila timp. Pentru acest model, elasticitatea este E 1 t . Parametrul 1
d ln t
oferă variaţia medie relativă (rata medie de variaţie) a variabilei Y la un moment dat.
4. O variantă a modelului semi-logaritmic este modelul de creştere care are la bază expresia:
yi e0 1xi i . Prin logaritmare se obţine modelul:
ln yi 0 1 xi i .
5. O altă variantă a modelului semi-logaritmic cu variabilă dependentă logaritmată este
modelul:
ln Y ln X , care în SPSS se numeşte model exponenţial.
Modelul iniţial prezentat, ln Y ln ln X , în SPSS, se numeşte model Compound.
În figura 2 este prezentată repartiţia unităţilor din eşantion după cele două variabile. Din
figură se observă că timpul de accelerare a unei maşini scade o dată cu creşterea puterii
motorului, iar această scădere poate fi considerată una neliniară.
25
Observed
Growth
20
15
10
Horsepower
În SPSS, modelarea econometrică a permis obţinerea rezultatelor din tabelele de mai jos.
Tabelul de mai sus indică o legătură puternică între cele două variabile. Raportul de corelaţie
estimat este de 0,726, iar raportul de determinaţie este 0,526.
ANOVA
Sum of
Squares df Mean Square F Sig.
Regres s ion 7.395 1 7.395 442.360 .000
Res idual 6.654 398 .017
Total 14.049 399
The independent variable is Hors epower.
Coefficients
Pe baza estimaţiilor prezentate în tabelul de mai sus, se poate scrie modelul estimat:
ln Y 3,092 0,004 X .
Interpretare
- timpul mediu de accelerare a unei maşini de la 0 până la 60mph, atunci când X=0, este de
lny=3,092 secunde, adică y e 3 ,092 22 secunde;
- la o creştere a puterii maşinii cu un cal-putere, timpul de accelerare a maşinii scade în medie
cu 0,004*100=0,4%.
Interesul cu privire la acest tip de model poate fi confirmat prin interpretarea parametrului de
dY
regresie 1. Astfel, pentru acest model, 1 şi exprimă variaţia absolută medie a
d ln X
variabilei dependente la o modificare cu un procent a variabilei independente.
Parametrii modelului se estimează pe baza metodei celor mai mici pătrate, după relaţiile
cunoscute şi cu respectarea condiţiilor şi proprietăţilor prezentate la modelul liniar simplu.
Exemplu
Observed
Logarithmic
80
70
60
50
40
Figura 3. Repartiţia bidimensională a celor 109 ţări după PIB/locuitor şi speranţa medie de
viaţă la femei
Variabile
Din baza de date au fost selectate următoarele variabile:
- speranţa medie de viaţă la femei (ani), variabilă dependentă (Y);
- PIB/locuitor ($), variabilă independentă (X).
Diagrama din figura 3 arată că legătura dintre cele două variabile poate fi aproximată cu
ajutorul unui model de regresie semi-logaritmic.
În SPSS, în urma prelucrării datelor, s-au obţinut rezultatele prezentate în tabelele de mai jos.
În tabelul Model Summary se observă că valoarea raportului de corelaţie este de 0,831, ceea
ce arată o legătură puternică între cele două variabile.
ANOVA
Sum of
Squares df Mean Square F Sig.
Regres s ion 8336.907 1 8336.907 238.935 .000
Res idual 3733.441 107 34.892
Total 12070.349 108
The independent variable is Gros s domes tic product / capita.
Testul Fisher din tabelul ANOVA arată că modelul propus pentru a explica dependenţa dintre
speranţa medie de viaţă feminină şi PIB/locuitor este semnificativă (SigF=0,00).
Coefficients
Interpretare
- valoarea b0=21,67 este speranţa medie de viaţă feminină pentru o ţară, în condiţiile în care
valoarea PIB/locuitor este de 1 $ ;
- valoarea b1=6,154/100=0,061 ani arată cu cât creşte în medie speranţa de viaţă feminină la
o creştere cu 1% a PIB/locuitor.
Testul Student pentru fiecare parametru evidenţiază că pentru modelul considerat, parametrii
sunt semnificativi statistic (Sigt=0,00).
Modelele econometrice care au la bază ecuaţia unei hiperbole poartă numele de modele
reciproce. Acestea sunt modelele în care variabila independentă apare prin inversa sau prin
reciproca sa.
1. Prezentarea modelului
Modelul reciproc este definit prin relaţia:
1
Y 0 1 .
X
Pentru acest model, parametrul 0 reprezintă o valoare limită pe care o atinge variabila
dependentă, atunci când valorile variabilei independente cresc la infinit.
În teoria şi practica economică a fost consacrat modelul reciproc pentru a exprima dependenţa
dintre următoarele două variabile:
- indicele salariului real (Y), exprimat în procente (în alte modele apare rata
inflaţiei);
- rata şomajului (X), exprimată în procente.
Repartiţia bidimensională din figura 4 arată că între cele două variabile există o legătură care
poate fi modelată cu ajutorul curbei Philips.
indice_sal
85.00 Observed
Inverse
80.00
75.00
70.00
65.00
60.00
55.00
rata_somaj
Raportul de determinaţie arată că 62,5% din variaţia variabilei dependente, indicele real al
salariului, este explicat de variaţia variabilei independente, rata şomajului. Între aceste două
variabile există o legătură puternică.
ANOVA
Sum of
Squares df Mean Square F Sig.
Regres s ion 544.710 1 544.710 19.982 .001
Res idual 327.113 12 27.259
Total 871.824 13
The independent variable is rata_s omaj.
Testul Fisher, prezentat în Tabelul ANOVA, conduce la decizia de a respinge ipoteza nulă
conform căreia dependenţa dintre variabile nu este semnificativ explicată de modelul reciproc.
Cu o probabilitate de 0,95 se admite alternativa, şi anume că modelul este semnificativ
statistic.
Coefficients
Conform rezultatelor din tabelul de mai sus, modelul reciproc estimat este de forma:
1
Y 52,029 103,302 .
X
Interpretare
- estimaţia b0 = 52,029 reprezintă indicele salariului real când rata şomajului tinde spre
infinit;
- estimaţia b1 = 103,302 este valoarea care arată cu cât scade în medie indicele real al
salariului la o creştere a ratei şomajului cu 1%.
Modelele polinomiale sunt modele de regresie neliniară care admit o legătură între variabila
dependentă şi cea independentă care poate fi explicată printr-o funcţie polinomială de grad
mai mare sau egal cu doi.
Parametrii acestui model se estimează cu ajutorul metodei celor mai mici pătrate. Aplicarea
acestei metode conduce la un sistem de ecuaţii cu trei necunoscute (estimatorii parametrilor
modelului) care admite trei soluţii. Sistemul de ecuaţii este de forma:
ˆ ˆ
n 0 1 xi ˆ 2 xi2 yi
i i i
ˆ ˆ ˆ
0 xi 1 xi 2 xi xi yi
2 3
i i i i
ˆ x 2 ˆ x 3 ˆ x 4 x 2 y
0 i i 1
i
i 2
i
i
i
i i
Prin rezolvarea sistemului se obţin relaţiile pentru cei trei estimatori, iar pe baza acestora se
obţin relaţiile de calcul pentru estimaţiile parametrilor modelului.
Diagrama din figura 5 arată că între costul unitar şi producţia firmei există o legătură de tip
parabolic cu un punct de minim.
cost_unit
50.00 Observed
Quadratic
40.00
30.00
20.00
10.00
productie
În urma prelucrării datelor în SPSS, s-au obţinut rezultatele prezentate în tabelele de mai jos.
Tabelul Model Summary indică o legătură foarte puternică între cele două variabile, legătură
explicată prin modelul parabolic (R=0,941).
ANOVA
Sum of
Squares df Mean Square F Sig.
Regres s ion 1091.326 2 545.663 27.133 .001
Res idual 140.774 7 20.111
Total 1232.100 9
The independent variable is productie.
În urma testării modelului, se ajunge la concluzia că modelul propus este semnificativ statistic
pentru a explica dependenţa dintre costul unitar şi producţie (SigF=0,001, este mai mică decât
0,05).
Coefficients
Pe baza modelului estimat se pot face predicţii şi se pot stabili coordonatele punctului de
minim, adică nivelul producţiei optim pentru care costul unitar este minim. Abscisa punctului
b 25,79
de minim este: 1 6 ,11 (vezi figura 5) şi corespunde unei producţii de 611
2b2 4 ,22
bucăţi din produsul A, producţie la care costul unitar este minim.
2. Modelul cubic
Modelul cubic are la bază o funcţie polinomială de gradul trei şi are forma:
Y 0 1 X 2 X 2 3 X 3
Acest model este utilizat pentru a aprecia evoluţii mai complexe ale unor realităţi economice.
Un exemplu tipic întâlnit în literatura de specialitate este funcţia costului total (Y), care
depinde de valoarea producţiei (X).
Parametrii modelului se estimează prin metoda celor mai mici pătrate. Prin aplicarea acestei
metode rezultă un sistem de ecuaţii cu patru necunoscute. Sistemul de ecuaţii obţinut este:
nˆ 0 ˆ 1 xi ˆ 2 ˆ 3 xi3 yi
i i i
ˆ
0 xi ˆ 1 xi2 ˆ 2 xi3 ˆ 3 xi4 xi yi
i i i i i
ˆ ˆ ˆ ˆ
0 xi 1 xi 2 xi 3 xi xi yi
2 3 4 5 2
i i i i i
ˆ x 3 ˆ x 4 ˆ x 5 ˆ x 6 x 3 y
0 i i 1
i
i 2
i
i 3
i
i
i
i i
Exemplu
Din baza de date World 95, oferită de SPSS, se selectează două variabile: gradul de urbanizare
(procentul populaţiei urbane dintr-o ţară), ca variabilă dependentă, şi PIB/locuitor, ca
variabilă independentă.
Conform reprezentării grafice din figura 6, se observă că dependenţa dintre cele două
variabile poate fi explicată cu ajutorul unui model cubic. O dată cu creşterea gradului de
dezvoltare economică creşte şi ponderea populaţiei urbane a acelei ţări. Continuarea creşterii
economice poate determina şi un uşor fenomen de scădere a gradului de urbanizare prin
fenomenul de migraţie spre zonele rurale din preajma marilor aglomeraţii urbane. Creşterea
economică poate antrena urbanizarea prin cooptarea acestor regiuni în zonele metropolitane.
100 Observed
Cubic
80
60
40
20
Indicatorii de corelaţie, prezentaţi în tabelul Model Summary, indică existenţa unei legături
intense, semnificative între variabile, după legea modelului cubic (R=0,699).
ANOVA
Sum of
Squares df Mean Square F Sig.
Regres s ion 30615.972 3 10205.324 33.100 .000
Res idual 32064.944 104 308.317
Total 62680.917 107
The independent variable is Gros s domes tic product / capita.
Coefficients
Test1
1. Pentru variabilele indicele salariului real şi rata somajului, observate pentru România în
perioada 1990-2005, s-au obţinut rezultatele din tabelul de mai jos.
Coefficients
2. Rezultatele modelării legăturii dintre variabilele PIB/loc ($) şi Speranţa medie de viaţă
(ani), pentru un eşantion de ţări, în anul 2007, sunt prezentate în tabelul de mai jos.
Coefficients
3. Rezultatele modelării legăturii dintre variabilele PIB/loc ($) şi mortalitatea infantilă (decese
la 1000 de născuţi vii) pentru un eşantion de ţări, sunt prezentate în tabelul de mai jos.
Coefficients
4. Rezultatele modelării legăturii dintre variabilele PIB/loc ($) şi Speranţa medie de viaţă
(ani), pentru un eşantion de ţări, sunt prezentate în tabelul de mai jos.
Coefficients
5. Rezultatele modelării legăturii dintre variabilele PIB/loc ($) şi Speranţa medie de viaţă
(ani), pentru un eşantion de ţări, sunt prezentate în tabelul de mai jos.
Coefficients