Table of Contents 1) Problematica analizat: ................................................................................................................................................... 2 2) Modelul unifactorial: ....................................................................................................................................................... 3 Interpretarea parametrilor obinui: .................................................................................................................................. 4 Testarea semnificaiei statistice a parametrului pant () i determinarea unui interval de ncredere de 95% pentru acesta: ................................................................................................................................................................................. 5 Testarea validitii modelului de regresie: ......................................................................................................................... 5 Testarea validitii ipotezelor modelului clasic de regresie liniar: .................................................................................... 5 Autocorelarea erorilor aleatoare: ....................................................................................................................................... 8 Previzionai valoarea variabilei dependente Y dac variabila X creste cu .......................................................................... 8 10% fa de ultima valoare nregistrat: ............................................................................................................................. 8 Specificarea modelului multifactorial. Verificarea multicoliniaritii: ................................................................................ 8 Criteriul lui Klein: ................................................................................................................................................................. 9 Calcularea factorului de inflaie a varianei pentru X 2 : ...................................................................................................... 9 Explicarea parametrilor 1 , 2 , 3 : ..................................................................................................................................... 10
2
1) Problematica analizat:
Pentru a ilustra i analiza modelul de regresie uni i multifactorial am ales o serie de date referitoare la producia de petrol i gaze naturale a Rusiei pe decursul a 20 de ani (datele le-am preluat de pe www.erae.oxfordjournals.org ) Datele sunt reprezentate n urmatorul tabel : Consum gaze naturale si petrol Productie An An 50 120 1 1993 100 170 2 1994 80 200 3 1995 240 225 4 1996 300 266 5 1997 300 295 6 1998 221 324 7 1999 298 376 8 2000 250 400 9 2001 310 412 10 2002 340 420 11 2003 319 420 12 2004 475 440 13 2005 310 460 14 2006 331 480 15 2007 510 500 16 2008 350 505 17 2009 400 510 18 2010 398 540 19 2011 425 555 20 2012
* Datele sunt exprimate n milioane tone, astfel nct consumul n anul 1993 a fost de 50.000.000 t, iar producia de 120.000.000 t. Scopul acestei analize este de a diseca relaia dintre consumul intern de gaze naturale i petrol a Rusie i producia sa anual. Producia nu este fixat, ea poate varia n funcie de avansarea tehnologiei sau diferite calamiti naturale, consumul pe de alt parte, poate fi influenat de creterea numarului de automobile, de diferitele stri economice etc. nsumnd toi aceti factori am raportat aceti doi indicatori (consum i producie) la o perioad de 20 de ani, ncepnd cu anul 1993 i terminnd cu anul 2012. Pentru modelul de regresie unifactorial vom lua urmatoarele variabile: Y variabila dependent Consumul rii (mil. t). X variabila independet Producia rii (mil. t). Pentru modelul de regresie multifactorial vom avea urmatoarele variabile: Y Consumul de petrol i gaze naturale al rii (mil. t). X 1 Producia de petrol i gaze naturale(mil. t). X 2 Timpul (raportat n ani).
3
2) Modelul unifactorial:
Calculele i scatter plot-ul le-am efectuat utiliznd MS Excel, dup cum reiese din tabelul urmtor:
0 100 200 300 400 500 600 0 100 200 300 400 500 600 C o n s u m u l
d e
g a z e
n a t u r a l e
s i
p e t r o l
Productia de gaze naturale si petrol Consumul raportat la productie Consumul raportat la productie
4
Se identific fr nicio ndoial c ntre variabile exist o legtur direct i aproximativ liniar, datorit fluctuaiilor consumului. Se observ i din datele afiate mai sus c producia nu a fost ntotdeauna mai mare dect consumul. Datori legturii putem considera c ntre acetia exist o legtur de forma: Y i = + X i + i , unde i=1,2, n.
Dup efectuarea calculelor rezult dreapta de regresie:
i = -7,9565086 + 0,80941588x i
Fiecare punct de pe dreapta de regresie este o estimaie a valorii medii a lui Y, corespunzator valorii alese pentru X. Deci este o estimaie pentru E(Y|X i ). Interpretarea parametrilor obinui: Valoarea lui b 0,80941588, care msoar panta dreptei de regresie, ne arat c atunci cnd producia crete cu o unitate (10 6 t ), consumul se crete n medie cu 0,80941588 x 10 6 t. Valoarea lui a, ne arat care este nivelul consumului atunci cnd producia este 0. Acest parametru se interpreteaz ca a -7,9565086, fiind efectul mediu a tuturor factorilor care nu sunt luai n consideraie n modelul de regresie, asupra lui Y.
Mai jos am ataat tabelul ANOVA redat n MS Excel
5
Testarea semnificaiei statistice a parametrului pant () i determinarea unui interval de ncredere de 95% pentru acesta:
Avem 2 ipoteze : H 0 : = 0 (Parametrul nu este semnificativ statistic; modelul nu este valid). H 1 : 0 (Parametrul este semnificativ statistic; modelul este valid). Sub ipoteza nul avem : t =
care urmeaz o distrbuie Student, cu (n-2) grade de libertate, dac H
0 este adevrat. Pentru a accepta H 0 avem nevoie | t calc | < t critic . Analizm valorile : t calc = 7,35183 (din tabelul ANOVA) i t critic = 2,101 valoare tabelar t calc > t critic . Din aceast cauz respingem H 0 i acceptm H 1 Parametrul pant () este semnificativ statistic.
Intervalul de ncredere este dat n tabelul ANOVA lower 95% i upper 95% : Parametrul este cuprins n intervalul 0,578110227 () 1,040721444. Intervalul nu conine valoarea 0, deci 0. Aceast concluzie ne arat c producia de petrol i gaze naturale a Rusiei are putere explicativ semnificativ asupra consumului intern al acesteia. Dat fiind un coeficient de ncredere de 95%, pe termen lung, n 95 din 100 de cazuri, ntr-un interval de forma 0,578110227 () 1,040721444 , vom ntlni valoarea real a lui .
Testarea validitii modelului de regresie:
Avem 2 ipoteze : H 0 : Modelul nu este valid statistic ( MSR = MSE). H 1 : Modelul este valid statistic (MSR > MSE). Avem valoarea tabelar f critic =4,41 pentru un nivel de semnificaie de 0,05. Se observ clar din tabelul ANOVA c MSR > MSE , 209161,7>2869,824, dar regula de decizie rezult din comparaia lui f critic cu f calculat . Din tabelul ANOVA, lum Statistica F ( Testul F), care are formula f calculat =
= 54,04941. Rezult clar c
f calculat > f critic acceptm H 1 , respingem H 0 , modelul este valid statistic.
Testarea validitii ipotezelor modelului clasic de regresie liniar:
Se consider modelul liniar : Y = 0 + 1 X + i Formm grupul Y X C pentru a determina legtura dintre Y (Consumul de gaze naturale i petrol ) i X ( Producia de gaze naturale i petrol).
= -7,956492 + 0,809416 X R-squared = 0,750171
se = (44,18281) (0,110097) t = (-0,180081) (7,351830) p = (0,8591) (0.0000)
R-squared = 75,01% , acest procent ne indic c 75,01% din variaia consumului este explicat de variaia produciei.
6
n graficul de mai sus am reprezentat consumul n funcie de producie. Se observ ca valorile nu se abat foarte semnificativ de la dreapta regresiei, nici cnd volumul produciei crete, indicnd faptul c nu exist heteroscedasticitate. n urmatorul grafic am reprezentat rezidurile fa de producie. Se remarc faptul c rezidurile (care reprezint nite aproximaii ale variabilelor de perturbaie) sunt distribuite aproximativ uniform, sugernd c exist homoscedasticitate.
7
Pentru a determinat cu exactitate dac exist heteroscedasticitate, aplicm Testul White : Testul solicit ca dup determinarea rezidurilor din ecuaia de regresie original, s se calculeze o regresie auxiliar, a ptratelor rezidurilor n raport cu o constant, variabilelel explicative ale modelului original, ptratele lor i produsele lor ncruciate. e i 2 = 0 + 1 X i + 2 X i 2 + i
Din aceast ecuaie de regresie auxiliar se reine coeficientul de determinaie multipl (W). Din ipoteza testului White ( pentru selecii cu volum mare) rezult : W = nR a 2 ~ X 2 . Acest fapt ne arat c W urmeaz o distribuie asimptotic cu gradele de libertate date de numarul de regresori din ecuaia de regresie auxiliar (X 2 ) : 2 regresori pentru acest caz. i n acest caz avem 2 ipoteze : H 0 : 1 = 2 =0 (Nu exist heteroscedasticitate, ci exist homoscedasticitate). H 1 : () i 0, i =1,2 (Exist heteroscedasticitate).
Conform statisticii W calculat = 0,435670 (nR a 2 ), care este mai mic dect X 2 critic; = 5,99 (valoare tabelar pentru nivelul de semnificaie 0,05 i =2 ) respingem H 1 i acceptm H 0 , n caz contrar W calculat > X 2 critic; , caz n care am fi respins H 0 . A doua modalitate de a decide ce ipotez alegem este valoarea lui p-value. n cazul nostru p-value (pentru statistica W) este egal cu 0,804258 > 0,05 (nivel de semnificaie) , caz n care respingem H 1 i acceptm H 0 .
8
Autocorelarea erorilor aleatoare: Testul Durbin-Watson verific dac exist autocorelare de ordinul nti n seria reziduurilor. Se bazeaz pe urmtoarele ipoteze: 1) Modelul de regresie trebuie s conin termen liber. 2) Marticea X, a variabilelor independente, s nu fie stochastic. 3) Valoarea perturbaiei la timpul t depinde de valoarea sa n perioada (t-1), si un termen pur aleator u. Intensitatea dependenei de valoarea trecut este msurat prin coeficientul de corelaie . Erorile fiind generate printr-un proces autoregresiv de ordinul nti. 4) Erorile aleatoare sunt normal distribuite. 5) Modelul de regresie nu conine, ca variabil exogen, variabila endogen cu decalaj. Statistica DW nu urmeaz o distribuie clasic. Valorile sale critice sunt tabelate. Pentru un nivel de semnificaie dat, tabelul conine dou valori critice: limita inferioar d1 si limita superioar d2 (notate si d L si d U ). Avem 2 ipoteze : H 1 : = 0 (Nu exist autocorelarea erorilor aleatoare). H 2 : 0 (Exist autocorelarea erorilor aleatoare). Din tabelul de mai sus lum valoarea coeficientului DW = 2,1747. Din tabelul distribuiei DW avem valorile : nivel de semnificaie 5%, n=20, k=1 gsim valorile d 1 = 1,20, respectiv d 2 = 1,41. Dup ce am aflat aceste date tragem concluzia c d 1 DW 4-d 2 , respectiv 1,20 2,075566 2,59 rezidurile sunt independente. Deoarece modelul nu are nevoie de corectare, tragem concluzia c erorile aleatoare au o distribuie normal. Previzionai valoarea variabilei dependente Y dac variabila X creste cu 10% fa de ultima valoare nregistrat: Dac variabila X (producia) crete cu 10% vom avea o nou valoare a lui X = 605. Rezult:
Pentru modelul de regresie multifactorial ecuaia de regresie arat n felul urmtor: Y i = 0 + 1 x 1 + 2 x 2 + i
Din tabel aflm c producia i timpul explic 98,27% din variaia consumului de gaze naturale i petrol a Rusiei. Nici unul din coeficieni nu este semnificativ statistic ( t 1calculat < t critic , t 2calculat < t critic , unde t critic =2,101), dar modelul este valid statistic (f calculat > f critic , unde f critic = 3,55). Faptul c testul F este semnificativ dar valorile t calculate n cazul variabilelor X1 si X2 nu sunt semnificative nseamn c cele 2 variabile sunt puternic corelate, adic este imposibil s izolm influena fiecrei variabile asupra consumului. (Ecuaia M1).
9
Concluzia pe care o tragem din ultimul tabel este c ntre variabilele X1 si X2 exist o legtur direct aproape perfect, r x1,x2 = 0,975383. Variabilele X1 si X2 sunt aproape perfect corelate. (M2) Dac regresm X2 n raport cu X1 obinem EQ02, redat n tabelul de mai jos. Aceast regresie arat c exist o corelaie extrem de mare ntre X1 i X2 (0,951371). Criteriul lui Klein: Se foloseste pentru identificarea dependenelor liniare dintre 2 variabile exogene. - S verifice relaia R y 2 < r 2 x1,x2 . - Coeficientul de corelaie liniar (r x1,x2 )s fie semnificativ diferit de 0.
R y 2 = 0,7519; r x1,x2 = 0,975383; r 2 x1,x2 = 0,951371;
Relaia se verific : R y 2 < r 2 x1,x2 .
Calcularea factorului de inflaie a varianei pentru X2 : Calculm in Eviews valoarea lui VIFX2 = 20,563904; astfel deducem c variabila X2 introduce multicoliniaritate sever.
10
Regresm Y n funcie de X 2 i Y n funcie de X 1 i descoperim c n aceste modele coeficienii sunt semnificativi statistic spre deosebire de modelul unde aveam 2 variabile factoriale. Ultimele 2 regresii arat foarte clar c, n cazul multicoliniaritii, eliminarea variabilei coliniare va face ca cealalt variabil X s fie semnificativ statistic.
Explicarea parametrilor 1, 2,3 :
i) Primul parametru ( 1 ) : Coeficientul 1 , arat c atunci cnd celelalte variabile sunt constante, iar producia (X 1 ) crete cu 10 6 tone, consumul crete n medie cu 0,982751*10 6 tone. ii) Al doilea parametru ( 2 ) : Coeficientul 2 , ne arat c , meninnd celelalte varibabile constante, consumul a sczut n medie, cu aproximativ 4*10 6 tone, pentru fiecare an analizat. iii) Al treilea parametru ( 0 ) : Coeficientul 0 , ne arat c daca cele 2 variabile explicative X 1 i X 2 au valoarea 0, consumul de gaze naturale i petrol va fi estimat la circa -33,09533*10 6 tone.