Sunteți pe pagina 1din 18

ACADEMIA DE STUDII ECONOMICE DIN BUCUREŞTI

FACULTATEA DE MANAGEMENT ECONOMIC

APLICAŢIE ECONOMETRIE

Analiza corelaţiei dintre cheltuielile medii cu procurarea


mărfurilor alimentare si venitul mediu
- Model liniar unifactorial -

- Bucuresti -
2011
DESCRIEREA PROBLEMEI
Veniturile oricărei gospodării sunt fracţionate pentru a satisface diferitele
necesităţi ale sale. Astfel, mai întâi sunt avute în vedere necesităţile primare: hrana,
îmbrăcămintea şi locuinţa, pentru a se asigura întreţinerea funcţiilor vitale, protecţie şi
adăpost pentru toţi membrii acesteia. Este evident faptul că prima cheltuială pe care o
face orice gospodărie este cea cu alimentele, hrana reprezentând o condiţie de prima
importanţă în asigurarea existenţei omului.
Din momentul în care venitul gospodăriei trece peste un anumit prag, cheltuielile
alimentare devin relativ stabile, fiind foarte puţin legate de puterea de cumpărare a
acestuia. Acest fenomen reflectă, de fapt, legea lui Engel: pe măsură ce venitul unei
gospodării creşte, partea din el consacrată cheltuielilor alimentare rămâne relativ stabilă
din punct de vedere absolut, dar sub aspect relativ prezintă o tendinţă de scădere.
Nivelul total al cheltuielilor gospodăriei depinde de volumul veniturilor obţinute.
În România, în ultimii ani, veniturile reale ale populaţiei au fost în continuă
scădere. În aceste condiţii, veniturile au fost folosite aproape în totalitate pentru
acoperirea nevoilor zilnice – cu preponderenţă a celor alimentare – şi a plăţilor
obligatorii (impozite, taxeetc.conform datelor furnizate de INSSE).
Variabilele selectate pentru acest studiu de caz sunt cheltuielile medii cu
procurarea marfurilor alimentare şi venitul mediu şi sunt exprimate în lei. Legatura dintre
aceste doua variabile se presupune a fi mare deoarece marfurile alimentare sunt bunuri
inferioare fără de care oamenii nu pot trăi. Numărul de observaţii este de 10,
reprezentând numărul de ani supuşi cercetării (1999-2008). Sursa datelor ce stau la
baza acestui proiect este site-ul Institutului Naţional de Statistică al României
(www.insse.ro).
Încercăm să stabilim dacă cheltuielile medii cu procurarea mărfurilor alimentare
sunt influenţate de venit prin construirea unui model econometric unifactorial de forma
y=f(x)+e.
Considerăm ecuaţia de regresie yi=a+b*xi+ei , i=1…n unde :
yi = variabila endogenă -> cheltuieli medii cu procurarea mărfurilor alimentare
(lei)
xi = variabila exogenă -> venituri totale ale gospodăriei
ei = variabila reziduală reprezentată de influenţa celorlalţi factori ai variabilei y,
nespecificaţi în model, consideraţi factori întamplători cu influene nesemnificative
asupra lui y
( de ex. preţul mărfurilor alimentare)
n = numărul de ani luaţi în calcul (numărul de observaţii)
i = , sunt estimatorii parametrilor a și b

ei = yi - i = yi - xi

Prezentarea datelor
Setul de date utilizat este introdus în tabelul următor:
Se înregistrează un eşantion de n=10 ani, cupluri de valori (xi, yi), cu privire la
efectul venitului unei familii (lei) asupra consumului cu alimentele(lei).
Tab.1

Sursă: site-ul INSSE


Astfel între variabila X reprezentată de venit şi cea Y care arată valoarea
cheltuielilor alimentare există o legătură statistică pe care încercăm să o exprimăm
printr-un model de regresie liniară simplă. Într-un astfel de model variabila dependentă
ar fi explicată numai de o variabilă independentă. Se înţelege că, în problema pe care o
rezolvăm, cheltuielile cu produsele alimentare nu depind numai de venit, ci şi de un
ansamblu de alte variabile pe care le exprimăm sintetic printr-o variabilă numită eroare
sau reziduu.
Definirea modelului de regresie liniară simplă
Forma modelului de regresie liniară simplă este:

Y= α + βXi + ε

Variabilele modelului, pentru exemplul considerat sunt:

- variabila dependentă (rezultativă): Cheltuilile cu alimentele – Y;

- variabila independentă (factorială, exogenă, predictor): Venitul unei gospodarii –


X;

- variabila eroare (reziduu): ε – variabila aleatoare, variabila care însumează


influenţa altor variabile asupra cheltuielilor alimentare, dar care un sunt specificate

expres în model. Variabila ε exprimă abaterile între valorile observate şi valorile


estimate prin model.

Parametrii modelului de regresie liniară simplă, numiţi şi coeficienţi de


regresie, sunt:

- α - ordonata la origine – arată valoarea medie a variabilei Y, când X este 0;

- β – panta dreptei – arată variaţia medie a variabilei dependente, Y, la o variaţie


absolută cu o unitate a variabilei X, adică variaţia variabilei Y este proporţională
cu variaţia variabilei X:
Proprietăţi ale modelului liniar:
- simplitate;
- capacitate de aplicare directă pentru verificarea existenţei unei relaţii între
variabile;
- estimarea directă a parametrilor prin metoda celor mai mici pătrate.
În Excel, pentru a obţine tabela de regresie se alege comanda Tools din linia
meniului principal, apoi Data Analysis.

Pentru obţinerea tabelei de regresie în sheet-ul de lucru, se va marca Output


Range şi în caseta din dreapta se va specifica o celula care va reprezenta colţul din
stânga sus al tabelei de regresie. Celelalte posibilităţi pentru apariţia tabelei de regresie
pot fi: un alt sheet sau un alt fişier de lucru workbook.

Tabelul cu rezultate de regresie:


Tab.2

Din aplicaţia Excel, introducând datele din primul tabel şi apelând funcţia
Regression, se obţin datele din Tab.2.
Ecuaţia de regresie se scrie cu ajutorul coloanei Coefficient din tabelul de mai

sus, unde prima linie corespunde estimatorului α , iar cea de-a doua linie corespunde

estimatorului β .

În tabelul de mai sus este prezentată estimarea parametrilor modelului prin


metoda celor mai mici patrate (tehnica OLS).
au rezultat din următorul sistem de ecuaţii:

 - ;


Valorile lui şi β le preluăm din coloana Coefficients al Tab.2.

- = 79,554;

- β = 0.232;

Cum , > 0 rezultă că legatura dintre cele doua variabile este directă.

iar erorile standard din coloana Standard Error:


- ) = 9,307;

- 0,008;

yi = + ßxi + ei; i = ;
∧ ∧
y =
i + β xi;
P-value, reprezintă pragul de semnificaţie α, de la care valorile coeficienţilor
devin semnificativ diferite de 0. P-value a α şi ß sunt ambele subunitare, ceea ce va
permite respingerea ipotezei nule.
- p – value ( ) = 5,801E-06;

- p – value (ß) = 1,397E-14;

P – value ( ) =2,70348E-05; sau α = 0.00002703%, deci se poate afirma cu o


probabilitate 100 – α, de 99,99% ca valoarea intercept-ului este semnificativ diferită de
0. P-value (ß) conduce la aceeaşi concluzie. În plus se observă că valoarea P-value
este aceeaşi cu cea din Significance F pentru că fiind o regresie simplă, semnificaţia
globală se reduce la semnificatia coeficientului variabilei explicative.
În coloanele urmatoare tabela de regresie conţine intervalele de încredere ale
estimatorilor coeficienţilor modelului, pentru probabilitatea de 95%. Pentru probabilitatea
95%, intervalele de încredere apar implicit.

TESTUL DE SEMNIFICAŢIE “t”

Testarea semnificaţiei parametrului α:


- se stabileşte ipoteza nulă:
H 0: α = 0
- se stabileşte ipoteza alternativă:
H 1: α 0
Nivelul de semnificaţie al testului îl stabilim la 5%.
- se calculează testul t: = ; =79,554; = 0.232;
=8,547; (îl preluăm din Tab.2, coloana t Stat, linia Intercept)
Aflam t critic folosind funcţia TINV(0.05, 8) în Excel => tcrt = 2.306004
Cum ∉(- tcrt;+ tcrt), adică ∉(-2.306004;+ 2.306004), sunt în regiunea de
respingerea a lui H0.
Acest fapt reiese şi studiind coloana P-value din Tab.2. P-value este o
probabilitate ce ia valori în intervalul (0,1). De aici rezultă:
- ipoteza nulă H0: “α = 0” va fi respinsă (deoarece P – value =2,7035* , adică
foarte mică, ceea ce înseamnă că eroarea pe care o facem pentru respingerea
H0 foarte mică, deci o respingem)
- acceptam ipoteza alternativa H1: “α 0”;
Intervale de încredere
Urmărind coloanele Lower Bound şi Upper Bound din Tab.2, observăm că
probabilitateaca αi să se gasească în intervalul (58,091; 101,017) este 95 %;
58,091 α 101,017

Testarea semnificaţiei parametrului :


- se stabileşte ipoteza nulă:
H 0: =0
- se stabileşte ipoteza alternativă:
H 1: 0

- se calculează testul t: = ; =0,232; = 0,008;

= ; = 28,934;( îl putem prelua din Tab.2, coloana t Stat, linia X Variable


1)
Aflam t critic pentru o probabilitate de 0,05 şi 8 grade de libertate, folosind funcţia
TINV(0.05, 8) în Excel => tcrt = 2.306004
Cum ∉(- tcrt;+ tcrt), adică ∉(-2.306004;+ 2.306004) sunt în regiunea de
respingerea a lui H0.
Acest fapt reiese şi studiind coloana P-value din Tab.2. P-value este o
probabilitate ce ia valori în intervalul (0,1). De aici rezultă:
- ipoteza nulă H0: “ = 0” va fi respinsă (deoarece P – value =2,2033* , adică
foarte mică, ceea ce înseamnă că eroarea pe care o facem pentru respingerea
H0 foarte mică, deci o respingem)
- acceptam ipoteza alternativa H1:” 0”;
Intervale de încredere

Urmărind coloanele Lower Bound şi Upper Bound din Tab.2, observăm că


probabilitateaca i să se gasească în intervalul (0,2139; 0,2510) este 95 %;
0,2139 i 0,2510
Astfel ecuaţia de regresie se scrie ca:
i =
(9,3074) (0,008)

Termenul liber 79,554 ( α ) ne arată ca la un venit egal cu 0, cheltuielile cu
mărfurile alimentare ar fi de 79,554 lei, lucru perfect normal având în vedere ca orice
om trebuie să-şi procure marfuri alimentare pentru a putea supravieţui.
Coeficientul variabilei x este panta de regresie şi este egal cu 0.232, ceea ce
înseamnă că dacă venitul familiei creşte cu un leu, cheltuielile cu mărfurile alimentare
cresc cu 0,232 lei. Faptul că acest coeficient este pozitiv înseamnă că există legătură
directă între cheltuielile cu mărfurile alimentare.

b.) Analiza casetei SUMMARY OUTPUT

Coeficientul de deteminaţie (R-square) este de 0,990534, ceea ce denotă o


legătură puternică şi directă între cheltuielile cu mărfurile alimentare şi veniturile familiei.
Acest coeficient ne arată că 99,05% din valoarea variabilei dependente (Y) este
explicată prin model.

Multiple R se obtine din R-Square: , iar in acest exemplu, =


0,990534, este o valoare apropiata de 1, indicand ca modelul este bine ales, venitul pe
fospodărie, xi, explica variaţia cheltuielilor cu alimentele, yi, într-o proporţie de 99,05%.

Adjusted R-squared ( ) – coeficientul de determinatie ajustat / corectat este


utilizat în vederea evidenţierii numărului de variabile factoriale cuprinse în model,
precum şi a numărului de observaţii pe baza cărora au fost estimaţi parametrii
modelului.
=1- (1- ), n = numărul de observaţii; k = nr variabile exogene;
=0.989351.
Standard Error este eroarea standard si arata cu cat se abat in medie valorile

observate yi, de la valorile teoretice aflate pe dreapta de regresie, (în acest caz cu
±15,04). Aceasta valoare ridicata la puterea a 2-a reprezintă dispersia reziduurilor.
Eroarea standard a modelului este de 15,04%.

Observations (n), numărul de observaţii este 10, conform ultimei linii a tabelului
Regression Statitics şi este echivalent cu numărul de ani luaţi în considerare pentru
studiul fenomenului.

c.) Analiza casetei ANOVA

ANOVA reprezintă tabelul de analiză a varianţei. Pentru varianţa datorată


factorului exogen x, Regression, varianţa reziduală, datorată celorlalţi factori
neînregistraţi, Residual, şi varianţa totală, datorată tuturor factorilor, Total, se specifică:
df (degrees freedom), gradele de libertate: k – numarul de variabile explicative x
(fiind regresie simplă atunci k=1, pentru un singur factor x), n-k-1 pentru reziduuri (10-1-
1=8 grade de libertate) si n-1 pentru total variatie (10-1=9);

Între gradelede libertate asociate reziduurilor şi factorului X există următoarea


relaţie:

k + (n – k – 1) = n – 1(Suma df pentru Regression si Residual este egala cu df pe


Total), adică 1 + 8 =9
SS, prescurtarea de la Sum Square, adică suma pătratelor abaterilor sunt
prezentate în cea de-a doua coloană a tabelului ANOVA:

- Regression: = 189.548,8274 (notat şi ca SSR) - Varianţa


(componenta explicată prin model)

- Residual: = 1.811,3032 (notat şi ca SSE) - Varianţa


reziduală (partea neexplicată a modelului)

- Total: = 191.360, 1306 (notat şi ca SST) - Dispersia sau varianţa


totală a datelor

Intre aceste variante exista relatia: Total = Regression + Residual, adică


(SST = SSR + SSE)

MS, prescurtarea de la Modified Sum, numite sume modificate, de fapt, dispersii


modificate:

- Regression: = 189.548,8274 (notat şi ca MSR)

(Media pătratelor abaterilor valorilor ajustate ale lui y de la medie);

- Residual: = 226,4129 (notat şi ca MSE)

(Media patratelor abaterilor valorilor y de la valoarea lor ajustată sau dispersia


reziduurilor, care este egala cu Eroarea Standard ridicata la patrat)

F, testul Fisher de semnificaţie globală a regresiei, reprezintă raportul dintre cele


doua dispersii corectate cu gradele de libertate, corespunzatoare:

MSR
F= (F= )
MSE

În cazul de faţă F=837,18.

Testul de semnificaţie „F”


H 0 : β1 = β 2 = β3 = .... = β k

H 1 : ∃ cel puţin un coeficient βs ≠ 0 , cu 1<s<k

În cadrul situaţiei de faţă k=1 (model liniar unifactorial), deci testul F este similar testului
t student întrucât va avea aceleaşi ipoteze.

Significance F, reprezintă pragul de semnificaţie α, de la care valoarea testului F


devine semnificativă: 2,20327E-09 este o valoare foarte mică, deci α = 0, iar
probabilitatea 1-α=1, indică probabilitatea de 100%, ca regresia sa fie global
semnificativă. Deci moelul este valid.

d.) Analiza casetei RESIDUAL OUTPUT


În tabelul următor sunt calculate valorile reziduale (residuals) şi valorile
previzionate (predicted Y) pe baza modelului de regresie.

În coloana Predicted Y sunt înscrise valorile ajustate ale lui y ( y ) pentru cele n
observaţii (pentru 10 ani).
Coloana Residuals conţine informaţii despre reziduurile (ri) aferente fiecărei
observaţii din cei 10 ani.
Coloana Standard Residuals conţine rezultatul raportului dintre reziduu şi eroarea
standard a modelului (ri/s), pentru fiecare observaţie i, cu i=1...n.
e.) Analiza graficelor
- graficul cu valori ajustate şi valori observate (corelogramă sau diagrama norului
de puncte)

Legătura dintre cheltuielile medii cu măfurile alimentare şi venitul mediu pe familie

În graficul de mai sus sunt prezentate cu roşu valorile yi observate pentru fiecare xi,

cu i=1...10, iar cu albastru valorile lui yi ajustate ( y ) aferente lui xi.


În graficul de deasupra este prezentată corelaţia dintre xi şi yi, cu i=1…10 şi este de
asemenea trasată o linie de trend, care marchează vizual dependenţa crescătoare care se
stabileşte între cele două variabile.

În acest al treilea grafic sunt marcate toate cele trei elemente conţinute de
reprezentările anterioare: valorile observate, valorile ajustate (previzionate) şi linia de trend.
În concluzie, din graficele de mai sus se observă cum între variabila X şi variabila Y
există o corelaţie în sensul că, împreună cu creşterea lui X creşte şi Y-ul. Astfel între cele
două există o dependenţă crescătoare.

- graficul reziduurilor
În graficul de mai sus sunt reprezentate reziduurile, adică erorile făcute la fiecare din
cele 10 observaţii. După cum se observă acestea au valori atât valori pozitive cât şi
negative, ceea ce este bine, întrucât suma reziduurilor pentru cele 10 observaţii trebuie să
fie 0, conform proprietăţilor reziduurilor. De asemenea după forma norului de puncte
deducem că între erorile făcute şi valorile lui X nu exită dependenţă statistică.

TESTE DE AUTOCORELARE A ERORILOR


ABATEREA STANDARD A MODELULUI
i.)

În graficul de mai jos am reprezentat corelaţia dintre reziduuri şi reziduurile


întârziate.
Analizând graficul de mai sus observăm că există o oarecare autocorelare între
erori.

ii.) Corelaţia dintre două serii de date este definită prin aşa-numitul coeficient de
corelaţie Pearson:
rX ,Y = C
S X SY ,

unde C reprezintă covarianţa dintre cele două serii de date, iar S X , respectiv
S Y sunt abaterile standard ale celor două serii de date. El ia valori în intervalul [0,1].
Coeficientul de corelaţie rxy=0.60995>0, dar mai apropiată de 1 decât de 0.
Valoarea acestui coeficient indică faptul că între erori există autocorelare pozitivă. Acest
coeficient a fost calculat în Excel cu ajutorul funcţie CORREL.

iii.) Detectarea autocorelării prin testul statistic Durbin Watson

∑(r i −r i −1)
2

i =2
DW= n

∑r i
2
, unde ri – reziduurile aferente fiecarei observaţii i
i =2

i – ordinul observaţiei
n. numărul total de obsrvaţii, 10 în cazul de faţă
Înlocuind în formulă cu datele obţinute prin prelucrarea tableului de mai jos în
Excel, rezultă:
5.37820267 8
DW= = 0,83
6.46747

(ri −ri −1)


2

ri ri-1 ri 2
-1.591391867 0 0 0
-0.209144039 -1.59139 1.910609058 0.043741
-0.306383524 -0.20914 0.009455517 0.093871
0.288627038 -0.30638 0.354037569 0.083306
0.780197596 0.288627 0.241641613 0.608708
1.191791108 0.780198 0.169409219 1.420366
1.440121924 1.191791 0.061668194 2.073951
0.369421295 1.440122 1.146399836 0.136472
-0.781742361 0.369421 1.325177764 0.611121
-1.18149717 -0.78174 0.159803907 1.395936
Total 5.378202678 6.467472

Decizia se ia astfel:

– Dacă DW are valoare apropiată de 2 ⇒ nu există autocorelare între erori;


– Dacă DW este aproximativ egal cu 0 ⇒ autocorelare pozitivă;
– Dacă DW are valoare aropiata de 4 ⇒ exista autocorelare negativă între
erori
Conform indicatorului obţinut, DW=0,83, testul Durbin Watson arată că între erori
există o oarecare autocorelare pozitivă deoarece valoarea sa este cuprinsă între 0 şi 2,
dar mai aproape de 0.

iv.) Testarea proprietăţii de homoshedasticitate a modelului

σ
2
“Fiecare eroare are aceeaşi dispersie (împrăştiere) a valorilor notată .”

σ
2
Var (ei) = , i =1,…10

Pentru aceasta folosim Testul lui White:

Enunţarea ipotezelor testului:


σi = σ
2 2
H0 : ∀i (Dispersiile sunt aceleaşi indiferent de observaţie)
,

σi σ
2 2
H 1 : exista i, i =1,…10 astfel încât ≠
(Heteroschedasticitate)

∧ ∧ ∧

y=β +β e
1 xi1
+ i
0

r = y − yi , i=1,…10
i i

∧ ∧ ∧
Se estimează parametrii acestui model ( β , β1 ). Pe baza lor găsim y :
0

∧ ∧ ∧

y=β +β
0 1 xi1
Se construieşte o regresie auxiliară care are următoarea formă:

= α 0 + α 1 xi1 + α 2 xi1 + vi , i=1,…10


2 2
r i

ri ri 2 xi x i2

-1.59139 2.532528 192.17 36929.309


-0.20914 0.043741 284.04 80678.722
-0.30638 0.093871 521.79 272264.8
0.288627 0.083306 658.51 433635.42
0.780198 0.608708 795.09 632168.11
1.191791 1.420366 1085.79 1178939.9
1.440122 2.073951 1212.18 1469380.4
0.369421 0.136472 1386.32 1921883.1
-0.78174 0.611121 1686.74 2845091.8
-1.1815 1.395936 2131.67 4544017
H0 :
α =α
1 2
= 0 (corespunde ipotezei de hemoschedasticitate)

H1 : ∃ α j
≠ 0 , j=1,2 (corespunde heteroschedasticităţii)

Prin testele realizate mai sus am aratat că modelul econometric popus este valid
şi că într-adevăr veniturile unei gospodării influenţează mărimea cheltuielilor cu
produsele alimentare.

BIBLIOGRAFIE
www.inesse.ro –Sursa datelor folosite pentru analiză

S-ar putea să vă placă și