Sunteți pe pagina 1din 12

REGRESIA LINIARA SIMPLA

REGRESIA LINIARA MULTIPLA

În vederea realizării prezentului proiect, ceea ce implică utilizarea programului


EXCEL pentru analiza modelelor de regresie simplă şi multiplă, au fost selectate date
referitoare la venitul mediu pe oră, datoria publica şi inflaţia, date specifice anumitor ţări
din Uniunea Europeana.
Am sintetizat informaţii despre cele 17 ţări, membre ale Uniunii Europene şi cele 3
variabile pentru anul 2005, in tabelul urmator:

Datoria pubilca(mii $) - Venit mediu pe ora($) -


Tari UE x1 Inflatie(%) - x2 y
Austria 3.422930263 2.129913861 2.088209595
Belgia 10.268884330 3.484718303 2.946346483
Republica Ceha 7.496629329 5.992203056 8.161848649
Danemarca 2.546071565 2.947258008 3.425860459
Finlanda 3.780929586 4.076730117 3.412007444
Franta 3.024943072 1.435790279 1.316547236
Germania 2.344495076 1.387067582 1.764262428
Grecia 9.982262280 10.4191139 9.328742913
Ungaria 5.292620429 8.153364837 7.142647823
Irlanda 4.731071662 7.182185914 7.127425952
Italia 8.712831415 7.774621449 7.494064314
Luxemburg 1.532731690 1.053590966 0.957462919
Polonia 7.135334429 7.046640695 7.242160206
Portugalia 5.904325408 9.167510144 8.223989008
Spania 3.287704054 7.181596162 7.100040569
Suedia 3.749179320 1.789597341 2.458261417
Elvetia 3.115389906 1.916861325 1.045510351

Datoria publică – cuprinde datoria pe care o are statul faţă de terţi, precum persoane
private, persoane juridice, bănci, intreprinderi, din ţară sau din străinătate, care au cumpărat
obligaţiuni emise de stat pentru a acoperi nevoile financiare ale statului.
Inflaţia - reprezintă acea stare de dezechilibru economic în care masa monetară existentă
în economie depăşeşte necesarul real de monedă, ducând la creşterea generalizată a preţurilor şi la
scăderea puterii de cumpărare a banilor.
Venitul mediu pe oră – reprezintă salariul mediu brut pe oră

A. Modelul econometric de regresie simplă

În vederea analizării şi reprezentării modelului econometric de regresie simplă, este


folosit programul EXCEL, din care au rezultat următoarele grafice şi tabele.
Pentru modelul respectiv au fost selectate datele: variabila independenta(Y) – venitul
mediu pe oră, si variabila dependentă(X) – datoria publică.

2
Graficul venitului mediu pe ora in functie de datoria
publica
y = 0.5819x + 2.5315
Venit mediu pe ora 12 R2 = 0.3569
10
8
datorie pubilca(mii $) -
6
x
4 Liniară (datorie
2 pubilca(mii $) - x)
0
0.0 2.0 4.0 6.0 8.0 10.0
Datoria publica

Modelul de regresie folosit este de forma: Y = b + a* X + ε, unde :


Y- este variabila dependentă (venitul mediu pe oră);
b - este termenul liber ;
a - este coeficientul de regresie ;
X- variabila independenta (datoria publică) ;
ε - este o variabila de perturbaţie, care exprimă influenţa variabilelor nespecificate de
model.

Utilizând funcţia de regresie din EXCEL, şi anume selectând TOOLS – DATA


ANALYSIS – REGRESSION, am obţinut următoarele rezultate, care vor fi interpretate fiecare in
parte:

SUMMARY OUTPUT

Regression Statistics
0.59741
Multiple R 4
0.35690
R Square 3
Adjusted R
0.31671

3
2.39948
Standard Error 3
Observations 18

ANOVA
Significanc
df SS MS F eF
51.1245 8.87961
Regression 1 51.12457 7 8 0.008843
5.75751
Residual 16 92.1203 9
Total 17 143.2449

Coefficie Standard Upper Lower Upper


nts Error t Stat P-value Lower 95%95% 95.0% 95.0%
1.52106 1.23547 0.23448 4.13099
Intercept 1 1.231157 3 9 -1.08888 7 -1.08888 4.130997
0.61337 2.97986 0.00884
X Variable 1 8 0.205841 9 3 0.177015 1.04974 0.177015 1.04974

RESIDUAL OUTPUT

Predicte
Observation dY Residuals
1 3.62061 -1.5324
7.81976
2 6 -4.87342
6.11932
3 6 2.042522
3.08276
4 5 0.343096
3.84019
5 9 -0.42819
3.37649
6 4 -2.05995
2.95912
7 2 -1.19486
7.64395
8 8 1.684785
4.76743
9 6 2.375211
4.42299
10 5 2.704431
6.86531
11 8 0.628747
2.46120
12 5 -1.50374
5.89771
13 6 1.344444
5.14264
14 3 3.081346
15 3.53766 3.562375

4
5
3.82072
16 4 -1.36246
3.43197
17 2 -2.38646
7.22547
18 4 -2.42547

Interpretarea rezultatelor

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.597414
R Square 0.356903
Adjusted R Square 0.31671
Standard Error 2.399483
Observations 18

Multiple R (coeficientul multiplu de corelaţie sau r) =0.597414 .Observăm că valoarea


lui “r” este > 0, ceea ce inseamnă ca între cele două variabile considerate: venitul mediu pe oră şi
datoria publică există o legatură directa.

R Square (R²) (coeficientul de determinaţie), exprimă cât din variaţia frecvenţei


venitului mediu pe oră este explicat de variaţia datoriei publice. El poate lua valori in intervalul
[0,1]. Cu cât valoarea lui este mai apropiată de 1, cu atât partea din variaţia lui Y, explicată de X,
este mai mare, şi legătura dintre ele este mai puternică. In cazul nostru, R Square are valoarea
0.356903 ; exprimând procentual 35,69% din variaţia venitului mediu pe oră poate fi explicată de
variabila datoria publică.

R Square (coeficientul de determinare sau R2) este egal cu patratul coeficientului de


corelatie multipla). Poate fi gandit, exprimat procentual, drept proportia din variatia variabilei
dependente explicata de variatia variabilelor independente: 99,97% din variatia PIB-ului este
explicată de variabila consum final al populatiei.

Adjusted R Square (Raportul de corelatie ajustat) R = 0.31671) arata ca 0,31671 din
variaţia totală este datorată liniei de regresie, ţinând cont de numărul de grade de libertate (n-k=18-
2=16).

5
Standard Error (eroarea standard a estimatiei). Se calculează ca abaterea standard a
reziduurilor si este estimatia abaterii standard a erorilor ε (in ipoteza normalitatii acestora).In
cazul nostru are valoarea 2.399483
Observations (numarul de observatii din esantion) = in acest caz sunt 18 observatii in
esantion.

Rezultatele din tabelul ANOVA

ANOVA
Significanc Î
df SS MS F eF
51.1245 51.1245 8.87961
Regression 1 7 7 8 0.008843
5.75751
Residual 16 92.1203 9
143.244 Testul
Total 17 9
ANOVA (analysis of
variance) este folosit pentru validarea modelului de regresie utilizat. In acest scop este calculat
testul F (Fisher). Intrucat F= 8.879618, iar Significance F (pragul de semnificatie)= 0.008843
(mult mai mic decat α= 0,05) modelul de regresie construit este valid pentru o probabilitate de cel
mult 95% şi poate fi utilizat pentru analiza dependenţei dintre variabilele venit mediu pe oră şi
datoria publică.
df (numărul gradelor de libertate): k – 1=1, n – k=16, n – 1=17, unde k = 2 este
numărul de variabile ale modelului (variabila x, respectiv y), iar n = 18 este numărul de observaţii.
SS (sumele de patrate) potrivit descompunerii:
Suma globală de pătrate = Suma de pătrate datorata regresiei + Suma de pătrate
reziduală;
MS (media sumelor de pătrate): SS împarţită la numărul respectiv de grade de
libertate.Valoarea de pe linia a doua (Residual) este estimaţia dispersiei pentru repartiţia erorilor şi
este pătratul erorii standard a estimaţiei.
F (valoarea statisticii F) pentru testul caracterizat de:
H0 : modelul nu este valid statistic;
H1 : modelul este valid statistic;

6
Significance F (probabilitatea critică unilaterală). Dacă valoarea rezultată este mai mică
decât pragul de semnificaţie fixat, atunci se respinge ipoteza nulă în favoarea ipotezei alternative.

Coeffici Standa P- Lower Upper Lower Upper


ents rd Error t Stat value 95% 95% 95.0% 95.0%
1.52106 1.2311 1.2354 0.2344 - 4.1309 - 4.1309
Intercept 1 57 73 89 1.08888 97 1.08888 97
X 0.61337 0.2058 2.9798 0.0088 0.1770 1.0497 0.1770 1.0497
Variable 1 8 41 69 43 15 4 15 4

Intercept este termenul liber, deci coeficientul b = 1.521061. Termenul liber este punctul
în care variabila explicativă este 0. Deoarece t statistic= 1.235473, iar P-value 0.234489 > 0,05,
înseamnă că acest coeficient este nesemnificativ. Termenul liber al ecuaţiei de regresie se găseşte
cu o probabilitate de 95% in intervalul : [-1.0888;4.130997]
Coeficientul corespunzător variabilei independente ( a ) are o valoare de 0.613378 ceea
ce înseamna că la creşterea cu o unitate datoriei publice, venitul mediu pe oră va creşte cu
0.613378. Din cauza ca pragul de semnificatie P-value= 0.008843< 0,05 înseamnă că acest
coeficient este semnificativ diferit de zero. Intervalul de încredere pentru parametrul „datorie
publică” este [0,177015; 1,04974].
Din analiza coeficientilor, deducem ca modelul de regresie este :

Y = 1.521061+ 0.613378* X.
Legatura dintre cele două variabile este directă. Dupa cum subliniam şi anterior la
cresterea cu o unitate a variabilei X (datoria publică), variabila Y(venitul mediu pe oră) creşte cu
0.613378 .
RESIDUAL OUTPUT

Observation Predicted Y Residuals


1 3.62061 -1.5324
2 7.819766 -4.87342
3 6.119326 2.042522
4 3.082765 0.343096
5 3.840199 -0.42819
6 3.376494 -2.05995
7 2.959122 -1.19486
8 7.643958 1.684785
9 4.767436 2.375211

7
10 4.422995 2.704431
11 6.865318 0.628747
12 2.461205 -1.50374
13 5.897716 1.344444
14 5.142643 3.081346
15 3.537665 3.562375
16 3.820724 -1.36246
17 3.431972 -2.38646
18 7.225474 -2.42547
În tabelul RESIDUAL OUTPUT, pe coloane, sunt enumerate toate observaţiile luate în
considerare (18), valorile ajustate după ecuaţia de regresie şi valoarea reziduală.
Pentru fiecare observatie (linie din tabelul de date iniţial) se afiseaza:
Observation (numarul de ordine al observatiei);
Predicted y – valoarea y (Venitul mediu pe oră) prognozată pentru observaţia respectivă;
(se obţine înlocuind valorile X ale observaţiei în modelul estimate)
Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi valoarea
prognozată);
Standard Reziduals – valoarea standardizată a erorii. Este obţinută prin împarţirea
reziduului la abaterea standard a reziduurilor.

B. Modelul de regresie multiplă

Pentru modelul econometric de regresie multiplă, parcurgem aceiasi paşi, ca la modelul


de regresie simplă, în care variabila independentă ramane aceeaşi, si anume venitul mediu, doar că
vor fi luate in considerare două variabile dependente datoria publică şi inflaţia.

8
S-au obţinut următoarele rezultate:
SUMMARY OUTPUT

Regression Statistics
Multiple R 0.9673982
R Square 0.9358594
Adjusted R
0.9266964
Standard
0.8101054
Observations 17

ANOVA
Significanc
df SS MS F eF
Regression 2 134.05665 67.02832 102.1352 4.47E-09
Residual 14 9.1877899 0.656271
Total 16 143.24444

Coefficient Standard Upper Lower Upper


s t Stat P-value Lower 95%
Intercept 0.1718149 0.4363407 0.393763 0.699688 -0.76404 1.107673 -0.76404 1.107673
X Variable 1 0.0294565 0.0969386 0.303867 0.765698 -0.17846 0.237369 -0.17846 0.237369
X Variable 2 0.9113872 0.08479 10.74876 3.79E-08 0.729531 1.093244 0.729531 1.093244

RESIDUAL OUTPUT

Predicted
Observation Y Residuals
1 2.2138186 -0.125609
2 3.6502277 -0.703881
3 5.8538564 2.3079923
4 2.9329065 0.492954
5 3.9986675 -0.58666
6 1.56948 -0.252933
7 1.5050311 0.2592313
8 9.9617042 -0.632961
9 7.7585892 -0.615941
10 6.856928 0.270498
11 7.5141547 -0.02009
12 1.1771931 -0.21973
13 6.8042149 0.4379453
14 8.700887 -0.476898
15 6.813874 0.2861666
16 1.9132687 0.5449928
17 2.0105862 -0.965076

9

Modelul de regresie folosit este de forma : y = b +a1*x1 + a2*x2

y - venitul mediu pe oră

b - termenul liber ;
a1 , a 2 - coeficient de regresie ;

x1 - datoria publică ;

x 2 - inflaţia
Interpretarea rezultatelor

SUMMARY OUTPUT

Regression Statistics
Multiple R 0.9673982
R Square 0.9358594

Adjusted R Square 0.9266964


Standard Error 0.8101054
Observations 17

R/ Multiple (R 0.9673982) - Raportul de corelatie arată ca între cele trei variabile :


venitul mediu pe oră, datoria publică şi inflaţia există o legatură puternică.
R Square (R²) - Coeficientul de determinaţie, arată ca 93.58% din variaţia venitului
mediu pe oră, este explicată de variaţia datoriei publice şi a inflaţiei. Influenţa datoriei publice si a
inflaţiei asupra variaţiei venitului mediu pe oră este puternci semnificativă.
Abaterea medie patratica a erorilor (eroarea standard, standard error)= 0,8101054. În
cazul în care acest indicator este 0, toate punctele sunt situate pe dreapta de regresie. Deci o
valoare empirica se abate cu 0,81 faţă de dreapta (cu alte cuvinte, distanţa punctelor faţă de dreaptă
este de 0,81).
Numarul de observatii luate in calcul a fost de 17.

ANOVA
Significance
df SS MS F F
Regression 2 134.05665 67.02832 102.1352 4.47E-09
Residual 14 9.1877899 0.656271
Total 16 143.24444

10
Testul ANOVA (analysis of variance) este folosit pentru validarea modelului de regresie
utilizat.
Variaţia explicată prin modelul de regresie este de 134.05665, iar media variaţiei
explicată, corectata prin numarul de grade de libertate (2), este 67.02832. Variaţia reziduală
(variaţia neexplicată de modelul de regresie) este de 9.1877899, iar media variatiei reziduale
corectată cu numărul de grade de libertate (14) = 0.656271.
În tabel este calculat testul F (Fisher). Întrucât F= 102.1352, iar Significance F (pragul de
semnificaţie)= 4.47E-09 (< α= 0,05) modelul de regresie construit este valid pentru o probabilitate
de cel mult 95% şi poate fi utilizat pentru analiza dependenţei dintre variabilele venit mediu pe oră
,datoria publică si inflaţia.

Standard Upper Lower Upper


Coefficients t Stat P-value Lower 95%
Intercept 0.1718149 0.4363407 0.393763 0.699688 -0.76404 1.107673 -0.76404 1.107673
X Variable 1 0.0294565 0.0969386 0.303867 0.765698 -0.17846 0.237369 -0.17846 0.237369
X Variable 2 0.9113872 0.08479 10.74876 3.79E-08 0.729531 1.093244 0.729531 1.093244

Intercept este termenul liber, deci coeficientul b = 0.1718149. Termenul liber este
punctul în care variabila explicativă este 0. Deoarece t statistic=0.393763 , iar P-value 0.699688 >
0,05, înseamnă că acest coeficient este nesemnificativ. Termenul liber al ecuaţiei de regresie se
găseşte cu o probabilitate de 95% in intervalul : [-0.76404; 1.107673]
Coeficientul corespunzător variabilei independente (a1) are o valoare de 0.0294565 . Din
cauză ca pragul de semnificatie P-value= 0.765698 > 0,05 înseamnă că acest coeficient este
nesemnificativ. Intervalul de încredere pentru parametrul „datorie publică” este [-0.17846;
0.237369].
Coeficientul corespunzător variabilei independente (a2) are o valoare de 0.9113872. Din
cauză ca pragul de semnificatie P-value= 3.79E-08 < 0,05 înseamnă că acest coeficient este
semnificativ diferit de zero. Intervalul de încredere pentru parametrul „inflaţie” este [0.729531;
1.093244].

Din analiza coeficienţilor, deducem că modelul de regresie este :



Y = 0.1718149+ 0.0294565 * X1+0.9113872*X2

11
RESIDUAL OUTPUT

Observation Predicted Y Residuals


1 2.2138186 -0.125609
2 3.6502277 -0.703881
3 5.8538564 2.3079923
4 2.9329065 0.492954
5 3.9986675 -0.58666
6 1.56948 -0.252933
7 1.5050311 0.2592313
8 9.9617042 -0.632961
9 7.7585892 -0.615941
10 6.856928 0.270498
11 7.5141547 -0.02009
12 1.1771931 -0.21973
13 6.8042149 0.4379453
14 8.700887 -0.476898
15 6.813874 0.2861666
16 1.9132687 0.5449928
17 2.0105862 -0.965076

În tabelul RESIDUAL OUTPUT, pe coloane, sunt enumerate toate observaţiile luate în


considerare (17), valorile ajustate după ecuaţia de regresie şi valoarea reziduală.
Pentru fiecare observatie (linie din tabelul de date iniţial) se afişează:
Observation (numarul de ordine al observatiei);
Predicted y – valoarea y (Venitul mediu pe oră) prognozată pentru observaţia respectivă;
(se obţine înlocuind valorile X ale observaţiei în modelul estimate)
Residuals – valoarea erorii de predicţie (diferenţa dintre valoarea observată şi valoarea
prognozată);
Standard Reziduals – valoarea standardizată a erorii. Este obţinută prin împarţirea
reziduului la abaterea standard a reziduurilor.

12