Sunteți pe pagina 1din 18

Proiect - Econometrie

Student:

Ianuarie 2013

nregistrai pentru cel puin 15 uniti valorile unei perechi de caracteristici x i y ntre care exist o legtur logic. Datele prezentate sub form tabelar fac parte din problem A. Prezentarea problemei B. Definirea modelului de regresie liniar simpl a. forma, variabilele i parametrii modelului de regresie b. aproximarea grafic a modelului legturii dintre variabile c. estimarea parametrilor modelului i. estimarea punctual ii. estimarea cu ajutorul intervalelor de ncredere d. testarea semnificaiei corelaiei i a parametrilor modelului de regresie i. testarea semnificatiei corelatiei ii. testarea parametrilor unui model de regresie e. testarea ipotezelor clasice asupra modelului de regresie simpl i. ipoteze statistice clasice asupra modelului de regresie simpl ii. testarea liniaritii modelului propus iii. testarea normalitii erorilor iv. testarea ipotezei de homoscedasticitate v. testarea ipotezei de autocorelare a erorilor f. previziunea valorii variabilei y daca variabila x crete cu 10% fa de ultima valoare nregistrat. A. Prezentarea problemei n vederea realizrii prezentului proiect am utilizat aplicaia Excel din Microsoft Office i formularea concluziilor care se pot determina pe baza outputului din Excel. Pentru analiza modelului de regresie simpl, am folosit date referitoare la venitul mediu per capita i consumul mediu per capita, date specifice celor 27 de ri membre din Uniunea Europeana. Am sintetizat informaiile despre cele 27 ri, membre ale Uniunii Europene i cele 2 variabile pentru anul 2009, in tabelul urmator: Nr. Crt. 1 2 3 4 5 6 7 8 9 10 11 Tara Austria Belgia Bulgaria Cehia Cipru Danemarca Estonia Finlanda Franta Germania Grecia Consum mediu x 16600.00 14500.00 4300.00 10300.00 18600.00 13400.00 7800.00 13600.00 14500.00 15200.00 16800.00 Venit mediu y 34733.27 33850.91 4531.40 12943.66 20144.55 44162.47 10513.45 34351.91 31869.36 31742.24 21714.83

12 15800.00 33110.63 Irlanda 13 14500.00 26253.71 Italia 14 8700.00 9264.70 Letonia 15 8400.00 8531.90 Lituania 16 25600.00 57360.36 Luxemburg 17 11800.00 12480.05 Malta 18 17000.00 30934.66 Marea Britanie 19 13800.00 36236.25 Olanda 20 8700.00 9167.49 Polonia 21 11900.00 16383.33 Portugalia 22 5800.00 6228.81 Romania 23 10100.00 12061.30 Slovacia 24 12000.00 17587.22 Slovenia 25 15200.00 24017.92 Spania 26 13600.00 36520.40 Suedia 27 8700.00 9705.87 Ungaria Tabel 1: Consumul mediu si venitul mediu per capita pentru cele 27 de tari membre ale Uniunii Europene Surse: www.insse.ro, Eurostat, www.bnr.ro Pentru a determina n ce msur variabila independenta contribuie la modificarea variabilei dependente vom elabora un model de regresie liniar simpl, vom determina dac acesta poate fi considerat valid, adic dac exist, sau nu, o legtur liniar ntre venitul mediu per capita i consumul mediu per capita, iar dac acesta va fi valid, vom realiza o previziune a venitului mediu pentru o alta perioada, caracterizata de anumite valori ale variabilei independente. Venitul mediu reprezint salariul mediu brut per persoana Consum mediu reprezinta cheltuielile unei persoane pentru toate serviciile si produsele necesare B. Definirea modelului de regresie liniar simpl a. forma, variabilele i parametrii modelului de regresie In cazul nostrum modelul econometric este unui unifactorial dat fiind faptul ca avem o influenta ai variabilei rezultative y consumul mediuc - de catre un factor determinant x venitul mediu. Pornind de la datele aplicaiei se poate construi un model econometric unifactorial de forma: y f (x ) u (1) unde: y = valorile reale ale variabilelor dependente; x = valorile reale ale variabilelor independente; u =variabila rezidual, reprezentnd influenele celorlali factori ai variabilei y, nespecificai n model, considerai factori ntmpltori, cu influene nesemnificative asupra variabilei y.

Analiza datelor din tabel, n raport cu procesul economic descris conduce la urmtoarea specificare a variabilelor: y = Consumul mediu (endogen) variabila independenta; x = Venitul mediu (exogen) variabila dependenta respectiv factorul considerat prin ipoteza de lucru cu influena cea mai puternic asupra variabilei y. Identificarea modelului unifactorial const n alegerea unei funcii care s aproximeze valorile variabilei endogene y numai n funcie de valorile variabilei exogene x. Aplicaia aleas de mine conine ca variabil efect, consumul mediu, consum care este dat de ecuaia de regresie y a bx u (2) unde: x= Venitul mediu In baza acestei reprezentari grafice de la punctu b. se poate vedea clar o legatura liniara intre cele doua variabile astfel modelul devine un model unifactorial liniar. Si dat fiind ca dependent variabilei endogene y consumul mediu fata de valorile variabilei exogene x venitul mediu se realizeaza in aceeasi perioada de timp modelul devine un model unifactorial liniar static. b. aproximarea grafic a modelului legturii dintre variabile Procedeul cel mai des folosit, n cazul unui model unifactorial, l constituie reprezentarea grafic a celor dou iruri de valori cu ajutorul corelogramei. Corelograma care reprezinta legtura consumul mediu si venitul mediu este prezentat n graficul de mai zos in baza datelor din primul tabel.

c. estimarea parametrilor modelului i. estimarea punctual ii. estimarea cu ajutorul intervalelor de ncredere Deoarece parametrii modelului sunt necunoscuti, valorile acestora se pot estima cu ajutorul mai multor moment, in mod curent fiind folosita M.C.M.M.P. Utilizarea metodei porneste de la urmatoarea relatie:

Unde: valorile teoretice ale variabilei y obtinute numai in functie de valorile factorului x si de valorile estimatorilor parametrilor a si b, respectiv si Estimatiile valorilor variabilei reziduale:

In mod concret MCMMP consta in a minimize functia Conditiile de minim a acestei functii rezulta din: 27 + 626402.66 = 347200.00 19192854479.37 = 9332908414.35

626402.66 + Se determina = 6497.8252 = 0.2741 Coefficients 6497.825219 0.274198577 si :

Intercept Venit mediu X

Dispunand de estimatiile parametrilor se pot calcula valorile teoretice (estimate) ale variabilei endogene cu ajutorul relatiei: si valorile rezidualei

6497.8252 + 0.2741

Predicted Consum mediu Y 16021.63716

Residuals 578.3628393

15779.69748 7740.328994 10046.95729 12021.43111 18607.11119 9380.598005 15917.07001 15236.35837 15201.50266 12452.00173 15576.71419 13696.55584 9038.191849 8837.258895 22225.95469 9919.836442 14980.06634 16433.75475 9011.537477 10990.11197 8205.755326 9805.017611 11320.21611 13083.5053 16511.66753 9159.161688

-1279.697482 -3440.328994 253.0427098 6578.568889 -5207.111188 -1580.598005 -2317.070011 -736.3583719 -1.502655449 4347.998273 223.2858084 803.4441616 -338.1918488 -437.258895 3374.045307 1880.163558 2019.933661 -2633.75475 -311.5374773 909.8880288 -2405.755326 294.9823889 679.7838905 2116.494704 -2911.667528 -459.1616883

Estimarea prin interval de ncredere a parametrilor modelului de regresie liniara. => [6671.365825 , 10728.63417] => [-2028.359976 , 2028.908373] Valorile variabilei reziduale se calculeaz dup relaia:

Pe baza acestor valori se pot calcula abaterea medie ptratica a variabilei reziduale si abaterile medii ptratice ale celor doi estimatori: 158944876.65 Abaterea medie ptratica a valorii reziduale:

= 6357795.066 = 2521.466848 k= nr. Parametrilor = 2 Abaterea medie ptratica a estimatorului : = 969779.5775 = 984.7738713 Abaterea medie ptratica a estimatorului : = 0.00136426 = 0.036935894 In urma acestor calcule, modelul econometric se poate scrie:

(984.7738713) (0.036935894) d. testarea semnificaiei corelaiei i a parametrilor modelului de regresie i. testarea semnificatiei corelatiei ii. testarea parametrilor unui model de regresie Estimatorii sunt semnificativ diferii de zero, cu un prag de semnificaie , daca se verifica urmtoarele relaii:

in exemplu:

Pe baza calculelor se observa faptul ca ambii estimatori sunt semnificativ diferii de zero, cu un prag de semnificaie Pentru a verifica ipoteza de liniaritate se calculeaz coeficientul de corelatie liniara:

ceea ce indica o corelatie foarte puternica intre export si import. Verificarea verosimilitatii modelului se face cu ajutorul analizei dispersionale.
ANOVA df Regression Residual Total 1 25 26 SS 350380308.5 158944876.7 509325185.2 MS 350380308.5 6357795.066 F 55.11034956 Significance F 8.93E-08

Testul Fisher-Snedecor indica faptul ca rezultatele obinute sunt semnificative pentru pragul de semnificaie de 5%:

Pe baza datelor din tabel se poate calcula si raportul de corelaie:

Se poate demonstra ca in cazul unei legturi liniare, raportul de corelaie este egal cu coeficientul de corelaie liniara:

Verificarea semnificaiei raportului de corelaie si, implicit, a coeficientului de corelaie liniara se face cu ajutorul testului Fisher-Snedecor:

Rx,y este semnificativ daca:

Pentru exemplu nostru:

Deoarece raportul de corelaie este semnificativ diferit de zero cu un prag de semnificaie modelul descrie corect dependenta dintre venit si consum, explicand in masura a 68,79% influenta factorului de influenta asupra variabilei dependente. e. testarea ipotezelor clasice asupra modelului de regresie simpl i. ipoteze statistice clasice asupra modelului de regresie simpl ii. testarea liniaritii modelului propus iii. testarea normalitii erorilor iv. testarea ipotezei de homoscedasticitate v. testarea ipotezei de autocorelare a erorilor Estimatorii obtinuti cu ajutorul M.C.M.M.P. sunt estimatori de maxima verosimilitate daca pot fi acceptate urmatoarele ipoteze: 1. variabilele observate nu sunt afectate de erori de msura. Aceasta condiie se verifica cu regula celor trei sigma, regula care consta in verificarea urmtoarelor relaii:

Deoarece valorile acestor variabile apartin intervalelor , ipoteza de mai sus poate fi acceptata fara rezerve.

si

2. variabila reziduala (aleatoare) este de medie nula , iar dispersia ei, , este constanta si independenta de X ipoteza de homoscedasticitate, pe baza creia se poate admite ca legtura dintre X si Y este relativ stabila. Acceptarea se poate face folosind mai multe metode: 2.1 care consta in construirea corelogramei privind valorile variabilei factoriale variabilei reziduale . si ale

Deoarece graficul punctelor empirice prezinta o distributie oscilanta, se poate accepta ipoteza ca cele doua variabile sunt independente si necorelate.. 2.2 Procedeul dispersiilor variabilei reziduale In cazul de fata nu se recomanda utilizeazarea acestui procedeu, deoarece nu s-ar obtine rezultate concludente datorita numarului mic de date. 3. valorile variabilei reziduale ( autocorelare. sunt independente, respectiv nu exista fenomenul de

Acceptarea sau respingerea acestei condiii se poate face cu: 3.1 procedeul grafic (corelograma dintre valorile variabilei dependente variabilei reziduale si valorile

Ca si in graficul precedent se observa ca distribuia punctelor empirice este oscilanta, deci se poate accepta ipoteza de independenta a erorilor. 3.2 Testul Durbin-Watson (DW) consta in calcularea termenului empiric:

si compararea acestei mrimi d cu doua valori teoretice d1 si d2, preluate din tabela DurbinWatson in funcie de un prag de semnificaie , arbitrar ales, de numrul variabilelor exogene (k) si de valorile observate n. Acceptarea sau respingerea ipotezei de independenta a erorilor se bazeaz pe o an umita regula, care consta in: autocorelare pozitiva; indecizie; erorile sunt independente; indecizie; autocorelare negativa;

Pentru exemplul nostru d=2.2152; d1=1.30; d2=1.46

se poate accepta ipoteza de independenta a valorilor variabilei reziduale. 3.3 coeficientul de autocorelaie de ordinul 1 este:

Stiind ca:

Deoarece coeficientul tinde catre zero inseamna ca poate fi acceptata ipoteza de independenta a valorilor variabilei reziduale. 4. verificarea ipotezei de normalitate a valorilor variabilei reziduale. Se stie ca, daca erorile urmeaza legea normala de medie 0 si de abatere medie patratica (consecinta ipotezelor 1,2,3) atunci are loc relatia:

Pe baza acestei relaii, in funcie de diferite praguri de semnificaie , din tabela distribuiei normale se vor prelua valorile corespunztoare ale lui Lucrnd cu de libertate v = n-2 = 27-2 = 25 din tabelul Student se preia valoarea variabilei, cu un numr de grade

iar, pentru

avem

Cu ajutorul acestor date, verificarea ipotezei de normalitate se poate face pe baza urmtorului grafic: pe axa Ox se vor reprezenta valorile ajustate ale variabilei y ( , iar pe axa Oy se vor trece valorile variabilei reziduale .

Se observa ca valorile variabilei reziduale se inscriu in banda construita pentru pragul de semnificaie . Ca urmare, ipoteza de normalitate a variabilei reziduale poate fi acceptata cu acest prag de semnificaie. f. previziunea valorii variabilei y stiind ca o tara are un venit mediu de 30000 euro. In continuare este calculat consumul estimat pentru un venit mediu de 30000 euro (in conditiile modelului econometric construit ).

Concluzii Modelul de regresie multipl estimat s-a dovedit a fi unul precis are un coeficient de determinare mare = 0.687930459, adic consumul se explic n msur de aproape 70% de ctre variabila independente inclusa n model. n plus, sunt perfect verificabile ipotezele metodei celor mai mici ptrate (MCMMP) erorile sunt homoscedastice, nu sunt autocorelate, iar variabilele nu sunt coliniare. Valoarea testului F este suficient de mare pentru a determina validitatea global a modelului pentru un prag de semnificaie de cel puin Significance F = 8.93232E-08, cu mult mai mic dect ales.

Anexa 1 Utiliznd funcia de regresie din EXCEL, i anume selectnd TOOLS DATA ANALYSIS REGRESSION, am obinut urmtoarele rezultate, care vor fi interpretate fiecare in parte.

SUMMARY OUTPUT

Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations 0.829415734 0.687930459 0.675447678 2521.466848 27

ANOVA df Regression Residual Total 1 25 26 SS 350380308.5 158944876.7 509325185.2 MS 350380308.5 6357795.066 F 55.11034956 Significance F 8.93232E-08

Coefficients Intercept Venit mediu X 6497.825219 0.274198577

Standard Error 984.7738713 0.036935894

t Stat 6.598291657 7.423634525

P-value 6.50863E-07 8.93232E-08

Lower 95% 4469.645482 0.19812768

Upper 95% 8526.004956 0.350269474

Lower 95.0% 4469.645482 0.19812768

Upper 95.0% 8526.004956 0.350269474

RESIDUAL OUTPUT Predicted Consum mediu Y 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 16021.63716 15779.69748 7740.328994 10046.95729 12021.43111 18607.11119 9380.598005 15917.07001 15236.35837 15201.50266 12452.00173 15576.71419 13696.55584 9038.191849 8837.258895 22225.95469 9919.836442 14980.06634 16433.75475 9011.537477 10990.11197 8205.755326 9805.017611 11320.21611 13083.5053 16511.66753 9159.161688

Observation

Residuals 578.3628393 -1279.697482 -3440.328994 253.0427098 6578.568889 -5207.111188 -1580.598005 -2317.070011 -736.3583719 -1.502655449 4347.998273 223.2858084 803.4441616 -338.1918488 -437.258895 3374.045307 1880.163558 2019.933661 -2633.75475 -311.5374773 909.8880288 -2405.755326 294.9823889 679.7838905 2116.494704 -2911.667528 -459.1616883

Anexa 2 Interpretarea generala a rezultatelor SUMMARY OUTPUT Regression Statistics Multiple R R Square Adjusted R Square Standard Error Observations 0.829415734 0.687930459 0.675447678 2521.466848 27

Multiple R (coeficientul multiplu de corelaie sau r) = 0.829415734. Observm c valoarea lui r este > 0, ceea ce inseamn ca ntre cele dou variabile considerate: consumul mediu si venitul mediu exist o legatur directa. R Square (coeficientul de determinare sau R2) este egal cu patratul coeficientului de corelatie multipla). Poate fi gandit, exprimat procentual, drept proportia din variatia variabilei dependente explicata de variatia variabilelor independente R Square (R) (coeficientul de determinaie), exprim ct din variaia frecvenei consumului mediu este explicat de variaia venitului mediu. El poate lua valori in intervalul [0,1]. Cu ct valoarea lui este mai apropiat de 1, cu att partea din variaia lui Y, explicat de X, este mai mare, i legtura dintre ele este mai puternic. In cazul nostru, R Square are valoarea 0.687930459; exprimnd procentual 68,79% din variaia consumului mediu poate fi explicat de variabila venitul mediu. Adjusted R Square (Raportul de corelatie ajustat) = 0.675447678 arata ca 0.675447678 din variaia total este datorat liniei de regresie, innd cont de numrul de grade de libertate (n -k=272=25). Standard Error (eroarea standard a estimatiei). Se calculeaz ca abaterea standard a reziduurilor si este estimatia abaterii standard a erorilor (in ipoteza normalitatii acestora). In cazul nostru are valoarea 2521.466848 Observations (numarul de observatii din esantion) = in acest caz sunt 27 observatii in esantion. Rezultatele din tabelul ANOVA ANOVA df SS Regression 1 350380308.5 Residual 25 158944876.7 Total 26 509325185.2

MS 350380308.5 6357795.066

F 55.11034956

Significance F 8.93232E-08

Testul ANOVA (analysis of variance) este folosit pentru validarea modelului de regresie utilizat. Variaia explicat prin modelul de regresie este de 350380308.5, iar media variaiei explicat, corectata prin numarul de grade de libertate (2), este 350380308.5. Variaia rezidual (variaia neexplicat de modelul de regresie) este de 158944876.7, iar media variatiei reziduale corectat cu numrul de grade de libertate (25) = 6357795.066. n tabel este calculat testul F (Fisher). Intrucat F= 55.11034956, iar Significance F (pragul de semnificatie)= 8.93232 (mult mai mare decat = 0,05) modelul de regresie construit este valid pentru o probabilitate de cel mult 95% i poate fi utilizat pentru analiza dependenei dintre variabilele consum mediu si venit mediu. df (numrul gradelor de libertate): k 1=1, n k=25, n 1=26, unde k = 2 este numrul de variabile ale modelului (variabila x, respectiv y), iar n = 27 este numrul de observaii. SS (sumele de patrate) potrivit descompunerii: Suma global de ptrate = Suma de ptrate datorata regresiei + Suma de ptrate rezidual; MS (media sumelor de ptrate): SS mparit la numrul respectiv de grade de libertate.Valoarea de pe linia a doua (Residual) este estimaia dispersiei pentru repartiia erorilor i este ptratul erorii standard a estimaiei. F (valoarea statisticii F) pentru testul caracterizat de: H0 : modelul nu este valid statistic; H1 : modelul este valid statistic; Significance F (probabilitatea critic unilateral). Dac valoarea rezultat este mai mic dect pragul de semnificaie fixat, atunci se respinge ipoteza nul n favoarea ipotezei alternative. Coefficie Standard nts Error t Stat Interce 6497.825 984.7738 6.598291 pt 219 713 657 Venit mediu 0.274198 0.036935 7.423634 X 577 894 525 PLower Upper Lower Upper value 95% 95% 95.0% 95.0% 6.5086 4469.645 8526.004 4469.645 8526.004 3E-07 482 956 482 956 8.9323 0.198127 0.350269 0.198127 0.350269 2E-08 68 474 68 474

Intercept este termenul liber, deci coeficientul b1= 6497.825219. Termenul liber este punctul n care variabila explicativ este 0. Deoarece t statistic = 6.598291 657, iar P-value 6.50863E-07 < 0,05, nseamn c acest coeficient este semnificativ. Termenul liber al ecuaiei de regresie se gsete cu o probabilitate de 95% in intervalul : [4469.645482; 8526.004956] Coeficientul corespunztor variabilei independente (b2) are o valoare de 0.274198577 ceea ce nseamna c la creterea cu o unitate a venitului mediu, consumul mediu va crete cu 0.274198577. Din cauza ca pragul de semnificatie P-value= 8.93232E-08 < 0,05 nseamn c acest coeficient este semnificativ diferit de zero. Intervalul de ncredere pentru parametrul venit mediu este [0.19812768; 0.350269474]. Din analiza coeficientilor, deducem ca modelul de regresie este : Legatura dintre cele dou variabile este direct. Dupa cum subliniam i anterior la cresterea cu o unitate a variabilei X (venit mediu), variabila Y(consum mediu) crete cu 0.274198577.
Y = 6497.825219 + 0.274198577 * X.

RESIDUAL OUTPUT Predicted Consum mediu Y 16021.63716 15779.69748 7740.328994 10046.95729 12021.43111 18607.11119 9380.598005 15917.07001 15236.35837 15201.50266 12452.00173 15576.71419 13696.55584 9038.191849 8837.258895 22225.95469 9919.836442 14980.06634 16433.75475 9011.537477 10990.11197 8205.755326 9805.017611 11320.21611 13083.5053 16511.66753 9159.161688

Observation 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27

Residuals 578.3628393 -1279.697482 -3440.328994 253.0427098 6578.568889 -5207.111188 -1580.598005 -2317.070011 -736.3583719 -1.502655449 4347.998273 223.2858084 803.4441616 -338.1918488 -437.258895 3374.045307 1880.163558 2019.933661 -2633.75475 -311.5374773 909.8880288 -2405.755326 294.9823889 679.7838905 2116.494704 -2911.667528 -459.1616883

n tabelul RESIDUAL OUTPUT, pe coloane, sunt enumerate toate observaiile luate n considerare (27), valorile ajustate dup ecuaia de regresie i valoarea rezidual. Pentru fiecare observatie (linie din tabelul de date iniial) se afiseaza: Observation (numarul de ordine al observatiei); Predicted y valoarea y (Consumul mediu) prognozat pentru observaia respectiv; (se obine nlocuind valorile X ale observaiei n modelul estimate) Residuals valoarea erorii de predicie (diferena dintre valoarea observat i valoarea prognozat); Standard Reziduals valoarea standardizat a erorii. Este obinut prin mparirea reziduului la abaterea standard a reziduurilor.