Sunteți pe pagina 1din 11

Proiect Econometrie

Modelul de regresie unifactorial i multifactorial



Nstase Radu Gabriel
12/16/2013




Academia de Studii Economice - Bucureti

1

Table of Contents
1) Problematica analizat: ................................................................................................................................................... 2
2) Modelul unifactorial: ....................................................................................................................................................... 3
Interpretarea parametrilor obinui: .................................................................................................................................. 4
Testarea semnificaiei statistice a parametrului pant () i determinarea unui interval de ncredere de 95% pentru
acesta: ................................................................................................................................................................................. 5
Testarea validitii modelului de regresie: ......................................................................................................................... 5
Testarea validitii ipotezelor modelului clasic de regresie liniar: .................................................................................... 5
Autocorelarea erorilor aleatoare: ....................................................................................................................................... 8
Previzionai valoarea variabilei dependente Y dac variabila X creste cu .......................................................................... 8
10% fa de ultima valoare nregistrat: ............................................................................................................................. 8
Specificarea modelului multifactorial. Verificarea multicoliniaritii: ................................................................................ 8
Criteriul lui Klein: ................................................................................................................................................................. 9
Calcularea factorului de inflaie a varianei pentru X
2
: ...................................................................................................... 9
Explicarea parametrilor
1
,
2
,
3
: ..................................................................................................................................... 10




2

1) Problematica analizat:

Pentru a ilustra i analiza modelul de regresie uni i multifactorial am ales o serie de date referitoare la producia
de petrol i gaze naturale a Rusiei pe decursul a 20 de ani (datele le-am preluat de pe www.erae.oxfordjournals.org )
Datele sunt reprezentate n urmatorul tabel :
Consum gaze naturale si petrol Productie An An
50 120 1 1993
100 170 2 1994
80 200 3 1995
240 225 4 1996
300 266 5 1997
300 295 6 1998
221 324 7 1999
298 376 8 2000
250 400 9 2001
310 412 10 2002
340 420 11 2003
319 420 12 2004
475 440 13 2005
310 460 14 2006
331 480 15 2007
510 500 16 2008
350 505 17 2009
400 510 18 2010
398 540 19 2011
425 555 20 2012

* Datele sunt exprimate n milioane tone, astfel nct consumul n anul 1993 a fost de 50.000.000 t, iar producia de
120.000.000 t.
Scopul acestei analize este de a diseca relaia dintre consumul intern de gaze naturale i petrol a Rusie i producia
sa anual. Producia nu este fixat, ea poate varia n funcie de avansarea tehnologiei sau diferite calamiti naturale,
consumul pe de alt parte, poate fi influenat de creterea numarului de automobile, de diferitele stri economice etc.
nsumnd toi aceti factori am raportat aceti doi indicatori (consum i producie) la o perioad de 20 de ani, ncepnd
cu anul 1993 i terminnd cu anul 2012.
Pentru modelul de regresie unifactorial vom lua urmatoarele variabile:
Y variabila dependent Consumul rii (mil. t).
X variabila independet Producia rii (mil. t).
Pentru modelul de regresie multifactorial vom avea urmatoarele variabile:
Y Consumul de petrol i gaze naturale al rii (mil. t).
X
1
Producia de petrol i gaze naturale(mil. t).
X
2
Timpul (raportat n ani).




3

2) Modelul unifactorial:

Calculele i scatter plot-ul le-am efectuat utiliznd MS Excel, dup cum reiese din tabelul urmtor:




0
100
200
300
400
500
600
0 100 200 300 400 500 600
C
o
n
s
u
m
u
l

d
e

g
a
z
e

n
a
t
u
r
a
l
e

s
i

p
e
t
r
o
l

Productia de gaze naturale si petrol
Consumul raportat la productie
Consumul raportat la productie

4

Se identific fr nicio ndoial c ntre variabile exist o legtur direct i aproximativ liniar, datorit
fluctuaiilor consumului. Se observ i din datele afiate mai sus c producia nu a fost ntotdeauna mai mare dect
consumul. Datori legturii putem considera c ntre acetia exist o legtur de forma:
Y
i
= + X
i
+
i
, unde i=1,2, n.

Dup efectuarea calculelor rezult dreapta de regresie:

i
= -7,9565086 + 0,80941588x
i

Fiecare punct de pe dreapta de regresie este o estimaie a valorii medii a lui Y, corespunzator valorii alese pentru X. Deci
este o estimaie pentru E(Y|X
i
).
Interpretarea parametrilor obinui:
Valoarea lui b 0,80941588, care msoar panta dreptei de regresie, ne arat c atunci cnd producia crete cu
o unitate (10
6
t ), consumul se crete n medie cu 0,80941588 x 10
6
t.
Valoarea lui a, ne arat care este nivelul consumului atunci cnd producia este 0. Acest parametru se
interpreteaz ca a -7,9565086, fiind efectul mediu a tuturor factorilor care nu sunt luai n consideraie n
modelul de regresie, asupra lui Y.

Mai jos am ataat tabelul ANOVA redat n MS Excel








5

Testarea semnificaiei statistice a parametrului pant () i determinarea unui interval de
ncredere de 95% pentru acesta:

Avem 2 ipoteze :
H
0
: = 0 (Parametrul nu este semnificativ statistic; modelul nu este valid).
H
1
: 0 (Parametrul este semnificativ statistic; modelul este valid).
Sub ipoteza nul avem :
t =

care urmeaz o distrbuie Student, cu (n-2) grade de libertate, dac H


0
este adevrat.
Pentru a accepta H
0
avem nevoie | t
calc
| < t
critic
. Analizm valorile : t
calc
= 7,35183 (din tabelul ANOVA) i t
critic
= 2,101
valoare tabelar t
calc
> t
critic
. Din aceast cauz respingem H
0
i acceptm H
1
Parametrul pant () este semnificativ
statistic.

Intervalul de ncredere este dat n tabelul ANOVA lower 95% i upper 95% :
Parametrul este cuprins n intervalul 0,578110227 () 1,040721444. Intervalul nu conine valoarea 0, deci
0. Aceast concluzie ne arat c producia de petrol i gaze naturale a Rusiei are putere explicativ semnificativ
asupra consumului intern al acesteia. Dat fiind un coeficient de ncredere de 95%, pe termen lung, n 95 din 100 de
cazuri, ntr-un interval de forma 0,578110227 () 1,040721444 , vom ntlni valoarea real a lui .

Testarea validitii modelului de regresie:

Avem 2 ipoteze :
H
0
: Modelul nu este valid statistic ( MSR = MSE).
H
1
: Modelul este valid statistic (MSR > MSE).
Avem valoarea tabelar f
critic
=4,41 pentru un nivel de semnificaie de 0,05.
Se observ clar din tabelul ANOVA c MSR > MSE , 209161,7>2869,824, dar regula de decizie rezult din comparaia lui
f
critic
cu f
calculat
. Din tabelul ANOVA, lum Statistica F ( Testul F), care are formula f
calculat
=

= 54,04941. Rezult clar c


f
calculat
> f
critic
acceptm H
1
, respingem H
0
, modelul este valid statistic.

Testarea validitii ipotezelor modelului clasic de regresie liniar:

Se consider modelul liniar : Y =
0
+
1
X +
i
Formm grupul Y X C pentru a determina legtura dintre Y (Consumul de
gaze naturale i petrol ) i X ( Producia de gaze naturale i petrol).

= -7,956492 + 0,809416 X R-squared = 0,750171


se = (44,18281) (0,110097)
t = (-0,180081) (7,351830)
p = (0,8591) (0.0000)

R-squared = 75,01% , acest procent ne indic c 75,01% din variaia consumului este explicat de variaia produciei.

6




n graficul de mai sus am reprezentat consumul n funcie de producie. Se observ ca valorile nu se abat foarte
semnificativ de la dreapta regresiei, nici cnd volumul produciei crete, indicnd faptul c nu exist
heteroscedasticitate. n urmatorul grafic am reprezentat rezidurile fa de producie. Se remarc faptul c rezidurile
(care reprezint nite aproximaii ale variabilelor de perturbaie) sunt distribuite aproximativ uniform, sugernd c exist
homoscedasticitate.



7


Pentru a determinat cu exactitate dac exist heteroscedasticitate, aplicm Testul White :
Testul solicit ca dup determinarea rezidurilor din ecuaia de regresie original, s se calculeze o regresie auxiliar, a
ptratelor rezidurilor n raport cu o constant, variabilelel explicative ale modelului original, ptratele lor i produsele lor
ncruciate.
e
i
2
=
0
+
1
X
i
+
2
X
i
2
+
i

Din aceast ecuaie de regresie auxiliar se reine coeficientul de determinaie multipl (W). Din ipoteza testului
White ( pentru selecii cu volum mare) rezult : W = nR
a
2
~ X
2
. Acest fapt ne arat c W urmeaz o distribuie asimptotic
cu gradele de libertate date de numarul de regresori din ecuaia de regresie auxiliar (X
2
) : 2 regresori pentru acest caz.
i n acest caz avem 2 ipoteze :
H
0
:
1
=
2
=0 (Nu exist heteroscedasticitate, ci exist homoscedasticitate).
H
1
: ()
i
0, i =1,2 (Exist heteroscedasticitate).

Conform statisticii W
calculat
= 0,435670 (nR
a
2
), care
este mai mic dect X
2
critic;
= 5,99 (valoare tabelar pentru
nivelul de semnificaie 0,05 i =2 ) respingem H
1
i
acceptm H
0
, n caz contrar W
calculat
> X
2
critic;
, caz n care am
fi respins H
0
.
A doua modalitate de a decide ce ipotez alegem
este valoarea lui p-value. n cazul nostru p-value (pentru
statistica W) este egal cu 0,804258 > 0,05 (nivel de
semnificaie) , caz n care respingem H
1
i acceptm H
0
.








8

Autocorelarea erorilor aleatoare:
Testul Durbin-Watson verific dac exist autocorelare de ordinul nti n seria reziduurilor. Se
bazeaz pe urmtoarele ipoteze:
1) Modelul de regresie trebuie s conin termen liber.
2) Marticea X, a variabilelor independente, s nu fie stochastic.
3) Valoarea perturbaiei la timpul t depinde de valoarea sa n perioada (t-1), si un termen pur
aleator u. Intensitatea dependenei de valoarea trecut este msurat prin coeficientul de
corelaie . Erorile fiind generate printr-un proces autoregresiv de ordinul nti.
4) Erorile aleatoare sunt normal distribuite.
5) Modelul de regresie nu conine, ca variabil exogen, variabila endogen cu decalaj.
Statistica DW nu urmeaz o distribuie clasic. Valorile sale critice sunt tabelate. Pentru un
nivel de semnificaie dat, tabelul conine dou valori critice: limita inferioar d1 si limita
superioar d2 (notate si d
L
si d
U
).
Avem 2 ipoteze :
H
1
: = 0 (Nu exist autocorelarea erorilor aleatoare).
H
2
: 0 (Exist autocorelarea erorilor aleatoare).
Din tabelul de mai sus lum valoarea coeficientului DW = 2,1747. Din tabelul distribuiei DW avem valorile :
nivel de semnificaie 5%, n=20, k=1 gsim valorile d
1
= 1,20, respectiv d
2
= 1,41. Dup ce am aflat aceste date tragem
concluzia c d
1
DW 4-d
2
, respectiv 1,20 2,075566 2,59 rezidurile sunt independente. Deoarece modelul nu are
nevoie de corectare, tragem concluzia c erorile aleatoare au o distribuie normal.
Previzionai valoarea variabilei dependente Y dac variabila X creste cu 10% fa de
ultima valoare nregistrat:
Dac variabila X (producia) crete cu 10% vom avea o nou valoare a lui X = 605. Rezult:


=

-7,9565086 + 0,80941588 * 610,5 = 486,191886.
Specificarea modelului multifactorial. Verificarea multicoliniaritii:

Pentru modelul de regresie multifactorial ecuaia de regresie arat n felul urmtor:
Y
i
=
0
+
1
x
1
+
2
x
2
+
i


Din tabel aflm c producia i timpul explic 98,27% din
variaia consumului de gaze naturale i petrol a Rusiei.
Nici unul din coeficieni nu este semnificativ statistic
( t
1calculat
< t
critic
, t
2calculat
< t
critic
, unde t
critic
=2,101), dar
modelul este valid statistic (f
calculat
> f
critic
, unde f
critic
=
3,55). Faptul c testul F este semnificativ dar valorile t
calculate n cazul variabilelor X1 si X2 nu sunt
semnificative nseamn c cele 2 variabile sunt puternic
corelate, adic este imposibil s izolm
influena fiecrei variabile asupra consumului.
(Ecuaia M1).




9




Concluzia pe care o tragem din ultimul tabel este c ntre variabilele X1 si X2 exist o legtur direct aproape
perfect, r
x1,x2
= 0,975383. Variabilele X1 si X2 sunt aproape perfect corelate.
(M2) Dac regresm X2 n raport cu X1 obinem EQ02, redat n tabelul de mai jos. Aceast regresie arat c
exist o corelaie extrem de mare ntre X1 i X2 (0,951371).
Criteriul lui Klein:
Se foloseste pentru identificarea dependenelor liniare dintre 2 variabile exogene.
- S verifice relaia R
y
2
< r
2
x1,x2
.
- Coeficientul de corelaie liniar (r
x1,x2
)s fie semnificativ diferit de 0.


R
y
2
= 0,7519; r
x1,x2
= 0,975383; r
2
x1,x2
= 0,951371;

Relaia se verific : R
y
2
< r
2
x1,x2
.

Calcularea factorului de inflaie a
varianei pentru X2 :
Calculm in Eviews valoarea lui VIFX2 =
20,563904; astfel deducem c variabila X2 introduce
multicoliniaritate sever.



10

Regresm Y n funcie de X
2
i Y n funcie de X
1
i
descoperim c n aceste modele coeficienii sunt
semnificativi statistic spre deosebire de modelul unde
aveam 2 variabile factoriale. Ultimele 2 regresii arat
foarte clar c, n cazul multicoliniaritii, eliminarea
variabilei coliniare va face ca cealalt variabil X s fie
semnificativ statistic.









Explicarea parametrilor 1, 2,3 :

i) Primul parametru (
1
) : Coeficientul
1
, arat c atunci cnd celelalte variabile sunt constante, iar producia (X
1
)
crete cu 10
6
tone, consumul crete n medie cu 0,982751*10
6
tone.
ii) Al doilea parametru (
2
) : Coeficientul
2
, ne arat c , meninnd celelalte varibabile constante, consumul a
sczut n medie, cu aproximativ 4*10
6
tone, pentru fiecare an analizat.
iii) Al treilea parametru (
0
) : Coeficientul
0
, ne arat c daca cele 2 variabile explicative X
1
i X
2
au valoarea 0,
consumul de gaze naturale i petrol va fi estimat la circa -33,09533*10
6
tone.

S-ar putea să vă placă și