Sunteți pe pagina 1din 11

Universitatea Politehnica Bucuresti

Master Modele de Decizie, Risc si Prognoza

Elemente de prognoza

Regresii Liniare Multiple


cu ajutorul Excel

CRACIUN ANA MARIA

2016

Regresia liniar, prin metoda celor mai mici ptrate, este metoda de
modelare cea mai des utilizat. Este metoda denumit regresie, regresie
liniar, regresie multipl sau cele mai mici ptrate atunci cnd se
construiete un model.
Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a
evidenia relaia dintre o variabil dependent (explicat, endogen,
rezultativ) i o mulime de variabile independente (explicative, factoriale,
exogene, predictori). Prin utilizarea regresiei multiple se ncearc, adesea,
obinerea rspunsului la una dintre ntrebrile: care este cea mai bun
predicie pentru ?, cine este cel mai bun predictor pentru ? .
De reinut c metoda regresiei multiple este generalizat prin teoria
modelului liniar general, n care se permit mai multe variabile dependente
simultan i, de asemenea, variabile factoriale care nu sunt independente liniar.
Clasa modelelor liniare poate fi exprimat prin
y = x +
und
e

y este variabila dependent (explicat, endogen, rezultativ),

x este vectorul variabilelor independente (explicative,


exogene), de dimensiune 1p,

este vectorul coeficienilor, de dimensiune p1, parametrii modelului,

este o variabil, interpretat ca eroare (perturbare, eroare de


msurare etc.).

Cu alte cuvinte,
y = 1x1+2x2++pxp+
care exprim relaia liniar dintre y i x.

Exemplu :
Datele au fost preluate de siteul INS, din anuarul statistic 2007 referitor la statistica
internationala.
Centru Administrativ
Tirana
Andorra la Vella
Viena
Misk
Buxelles
Sarajevo
Sofia
Praga
Zagreb
Copenhaga
Berna
Tallin
Thorshavn
Helsinki
Paris
Berlin
Gibraltar
Atena
Dublin
Reykjavik
Roma
Riga
Luxemburg
Chisinau
Monaco

Suprafata(km)

Populatia(mil. loc.)

28748
468
83858
207600
30528
51197
110912
78866
56538
43094
41284
4100
1399
338145
551500
357022
6
131957
70273
103000
301318
64600
2586
33851
2

3.2
0.1
8.3
9.7
10.5
3.9
7.7
10.3
4.4
5.4
7.5
1.3
0.05
5.3
61.2
82.4
0.03
11.1
4.2
0.3
59
2.3
0.5
4
0.03

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.210924
R Square
0.044489
Adjusted
R Square
-0.04238
Standard
Error
3160.832
Observatio
ns
25

Densitatea(loc/km)
111.3
213.7
99
46.7
343.9
76.2
69.4
130.6
77.8
125.3
181.7
28.8
35.7
15.7
111
230.8
5000
84.1
59.8
2.9
195.8
35.6
193.3
118.2
15000

ANOVA

Regressio
n

df
2

Residual

22

Total

24

SS
102338
94
2.2E+0
8
2.3E+0
8

Coefficie
nts

Standar
d Error

1411.953

808.459
3

X Variable
1
X Variable
2

Intercept

MS
511694
7
999086
1

F
0.5121
63

t Stat

P-value
0.0946
78

-0.00594

0.00785
1

1.7464
74
0.7572
1

10.88973

50.7737
7

0.2144
76

Significan
ce F
0.606169

Lower
95%

Upper
95%

-264.689

3088.5
95

0.4569
59

-0.02223

0.0103
37

0.8321
52

-94.4086

116.18
81

Lower
95.0%
264.6
89
0.022
23
94.40
86

Upper
95.0%
3088.5
95
0.0103
37
116.18
81

Folosind informaiile din tabel(coloana Coefficients), elaborm modelul liniar de regresie


multipla:
Y 0 1 X 1 2 X 2 u ,unde X-Suprafata(km)

X-Populatia(loc)
Y-Densitatea(loc/km)
De unde Y=1411.953-0.00594*X+10.88973*X
Observand datele din tabel putem deduce faptul ca intensitatea legaturii dintre variabilele
analizate este slaba, deoarece indicatorul Multiple R=0.210924 nu se afla in apropierea
maximului 1.
R Square fiind in proportie de 4,4489% ceea ce inseamna ca variatia densitatii(variabila
Y) este explicata de variatia suprafetei si a populatiei in proportie de 4,4489%.

Interpretarea coeficientilor
: Intercept reprezinta cresterea medie a densitatii in conditiile in care suprafata si populatia
sunt nule.
t=1.746474 iar pragul de semnificatie este 0.094678>0.05 inseamna ca acest parametru este
nesemnificativ.Probabilitatea fiind de 100-9.4678=90.5322%<95%
: La o crestere a suprafetei cu 1 km, in conditiile in care populatia ramane constanta,
densitatea va scadea in medie cu 0.00594 loc/km.
Intervalul de incredere fiind (-0.02223; 0.010337).
t=-0.75721 iar pragul de semnificatie este 0.456959>0.05 ceea ce insemna ca parametrul este
nesemnificativ.Probabilitatea fiind de 100-45.6959=54.3041%<95%.
: La o crestere a populatiei cu 1 mil loc, in conditiile in care suprafata ramane constanta,
densitatea va creste in medie cu 10.88973 loc/km.
Intervalul de incredere fiind (-94.4086; 116.1881).
t=0.214476 iar pragul de semnificatie este 0.832152>0.05 ceea ce insemna ca parametrul nu
este semnificativ. Probabilitatea fiind de 100-83.2152=16.7848%<95%.

Testul Fisher
Ipoteze:

H 0 : Vy2/ x

~ Vu2

H1 : Vy2/ x Vu2
F=

n k 1 Vx2
2 ,unde
k
Vu

n= numarul de observatii
k=numarul de parametrii
V x2

= ( y y) 2

Vu2

(y y )

Ymediu

U=Yreal-Y calc
Y=+*X+*X+u
Y=1411.953-0.00594*X+10.88973*X+u

Y calculat

Y calculat-Y
mediu

(Y calculat-Y mediu)

1276.037016
1410.262053
1004.221239
284.439381
1344.958845
1150.312767
836.986641
1055.653179
1124.032092

-1164.737016
-1196.562053
-905.221239
-237.739381
-1001.058845
-1074.112767
-767.586641
-925.053179
-1046.232092

1356612.316
1431760.747
819425.4915
56520.01328
1002118.811
1153718.236
589189.2514
855723.384
1094601.59

372.545016
506.770053
100.729239
-619.052619
441.466845
246.820767
-66.505359
152.161179
220.540092

138789.7889
256815.8866
10146.37959
383226.1451
194892.9752
60920.49102
4422.962776
23153.02439
48637.93218

1214.779182
1248.399015
1401.755649
1404.187427
-538.912731
-1197.505524
188.556072
1412.244052
749.004423
1040.268246

-1089.479182
-1066.699015
-1372.955649
-1368.487427
554.612731
1308.505524
42.243928
3587.755948
-664.904423
-980.468246

1186964.888
1137846.789
1885007.214
1872757.836
307595.2814
1712186.706
1784.549453
12871992.74
442097.8917
961317.9814

311.287182
344.907015
498.263649
500.6954265
-1442.404731
-2100.997524
-714.935928
508.7520519
-154.487577
136.776246

96899.70968
118960.849
248266.6639
250695.9101
2080531.408
4414190.596
511133.3811
258828.6503
23866.41145
18707.74147

803.399919
264.61815
1053.275379
1402.037025
1254.43698
1412.267812

-800.499919
-68.81815
-1017.675379
-1208.737025
-1136.23698
13587.73219

640800.1203
4735.937769
1035663.177
1461045.196
1291034.475
184626466
219798966.6

-100.092081
-638.87385
149.783379
498.545025
350.94498
508.7758119

10018.42468
408159.7962
22435.06062
248547.142
123162.379
258852.8268
10214262.54

F=

25 2 1 10214262.54

2
219798966.6

F=0.511180237
Pentru a afla F critic consultand tabelul cu Valori Critice Pentru Repartitia F : 0.05 cu 2 si 22
grade de libertate observam F critic=3.44>0.511180237(F calculat) => alegem acceptam H,
model valid statistic.

Testul Durbin-Watson pentru verificarea autocorelarii

DW

n 1
2

(u t u t 1 ) 2
n

2
t

257636219.7 - 1356612.316
1.165972758
219798966.6

Ut

Ut-1
-1164.737016
-1196.562053
-905.221239

(Ut-Ut-1)
1356612.316
-1164.737016 1012.83298
-1196.562053 84879.4699

(Ut)
1356612.316
1431760.747
819425.4915

-237.739381
-1001.058845
-1074.112767
-767.586641
-925.053179
-1046.232092
-1089.479182
-1066.699015
-1372.955649

-905.221239
-237.739381
-1001.058845
-1074.112767
-767.586641
-925.053179
-1046.232092
-1089.479182
-1066.699015

445532.0308
582656.6041
5336.87552
93958.26592
24795.71059
14684.32896
1870.310793
518.9360085
93793.12587

56520.01328
1002118.811
1153718.236
589189.2514
855723.384
1094601.59
1186964.888
1137846.789
1885007.214

-1368.487427
554.612731
1308.505524
42.243928
3587.755948
-664.904423
-980.468246

-1372.955649
-1368.487427
554.612731
1308.505524
42.243928
3587.755948
-664.904423

19.96501231
3698314.216
568354.3433
1603418.43
12570655.48
18085120.23
99580.52639

1872757.836
307595.2814
1712186.706
1784.549453
12871992.74
442097.8917
961317.9814

-800.499919
-68.81815
-1017.675379
-1208.737025
-1136.23698
13587.73219

-980.468246
-800.499919
-68.81815
-1017.675379
-1208.737025
-1136.23698

32388.59872
535358.2111
900330.041
36504.55257
5256.256525
216795268.1
257636219.7

640800.1203
4735.937769
1035663.177
1461045.196
1291034.475
184626466
219798966.6

Din tabelul Durbin Watson preluam valorile d1 si d2 (25 de observatii si 2 parametrii):


d1=1.29 si d2=1,45.
DW apartine intervalului (0; d1) tragem concluzia ca intre erori exista o autocorelare
puternica si directa.

Testul Klein pentru verificarea multicolinearitatii


Y=1411.953-0.00594*X+10.88973*X+u
Construim modelul:
X 1 1 2 X 2 v

SUMMARY
OUTPUT
Regression Statistics
Multiple R
0.806991251
R Square
0.65123488
Adjusted R
Square
0.636071179
Standard Error
83951.711
Observations
25
ANOVA
df
Regression
Residual

SS
MS
F
1 3.0269E+11 3.03E+11 42.94696
23 1.621E+11 7.05E+09
8

Significance
F
1.1E-06

Total

24 4.6479E+11

Intercept
X Variable 1

Coefficients
44518.45799
5219.155463

Standard
Error
19362.5082
796.405061

t Stat
P-value
2.299209 0.030912
6.553393 1.1E-06

Upper
Lower 95%
95%
4464.058 84572.86
3571.666 6866.645

Multiple R=0.806991251 repezentand noul model al regresiei.


R 2 0.65123488. Obtinem r>R2, deci multicolinearitatea poate fi neglijata.

Testarea ipotezei de normalitate a erorilor JB


Ipoteze:
H: perturbatia u are o disributie normala
H:perturbatia u nu are o ditributie normala

s 2 (k 3) 2
JB n
, unde:
6
24

n- numarul de observatii,
s- este coeficientul de asimetrie
k-coeficientul de aplatizare.
Acesti coeficienti se calculeaza cu ajutorul aplicatiei Excel:
s=SKEW(erori)=> s=4.142778
k=KURT(erori)=> k=18.46461

4.1427782 (18.46461 3) 2

Deci JBcalc 25
320.6297924
6
24

02,05;3 7.815 JBcalc deci acceptam H1

Lower
95.0%
4464.058
3571.666

Testarea homoscedasticitatii GQ
H: erori homoscedastice
H: erori heteroscedasice
Y=1411.953-0.00594*X+10.88973*X+u
U=y-ycalc
X

13587.73

2
0.03 1412.268

3587.756

6
0.03 1412.244

-1196.56

468
0.1 1410.262

-1368.49

1399
0.05 1404.187

-1208.74

2586
0.5 1402.037

-1164.74

28748
3.2 1276.037

-1001.06

30528
10.5 1344.959

-1136.24

33851
4 1254.437

-1066.7

41284
7.5 1248.399

-1089.48

43094
5.4 1214.779

-1129.42

45100
1.3 1158.216

-1074.11

51197
3.9 1150.313

-1046.23

56538
4.4 1124.032

-1017.68

64600
2.3 1053.275

-980.468

70273
4.2 1040.268

-925.053

78866
10.3 1055.653

-905.221

83858
8.3 1004.221

-800.5

103000
0.3 803.3999

10

-767.587

110912
7.7 836.9866

-664.904

131957
11.1 749.0044

-237.739

207600
9.7 284.4394

-68.8182

301318
59 264.6182

554.6127

338145
5.3

-538.913
42.24393

357022
82.4 188.5561

1308.506

551500
61.2

-1197.51

Eliminam din centrul seriei k=n\3=25\3~9 unitati


SP1=205913788.1
SP2=3754909.752
gl=(n-c)/2-k=(25-9)/2-2=6
Testul Fisher
F=(SP1/gl)/(sp2/gl)=(205913788.1/6)/(3754909.752/6)=34318964.68/625818.292=54.83854518
F,6,6=4,28<F=>prezumtia homoscedasticitatii este infirmata(acceptam alternativa).Eroarea u
este heteroscedastica

11

S-ar putea să vă placă și