Craciun Ana Maria PDF

Universitatea Politehnica Bucuresti
Master Modele de Decizie, Risc si Prognoza
Elemente de prognoza
Regresii Liniare Multiple

cu ajutorul Excel
CRACIUN ANA MARIA
2016
Regresia liniar, prin metoda celor mai mici ptrate, este metoda de
modelare cea mai des utilizat. Este metoda denumit regresie, regresie
liniar, regresie multipl sau cele mai mici ptrate atunci cnd se
construiete un model.
Scopul regresiei multiple (termen utilizat de Pearson, 1908) este de a
evidenia relaia dintre o variabil dependent (explicat, endogen,
rezultativ) i o mulime de variabile independente (explicative, factoriale,
exogene, predictori). Prin utilizarea regresiei multiple se ncearc, adesea,
obinerea rspunsului la una dintre ntrebrile: care este cea mai bun
predicie pentru ?, cine este cel mai bun predictor pentru ? .
De reinut c metoda regresiei multiple este generalizat prin teoria
modelului liniar general, n care se permit mai multe variabile dependente
simultan i, de asemenea, variabile factoriale care nu sunt independente liniar.
Clasa modelelor liniare poate fi exprimat prin
y = x +
und
e
y este variabila dependent (explicat, endogen, rezultativ),
x este vectorul variabilelor independente (explicative,

exogene), de dimensiune 1p,
este vectorul coeficienilor, de dimensiune p1, parametrii modelului,
este o variabil, interpretat ca eroare (perturbare, eroare de

msurare etc.).
Cu alte cuvinte,
y = 1x1+2x2++pxp+
care exprim relaia liniar dintre y i x.
Exemplu :
Datele au fost preluate de siteul INS, din anuarul statistic 2007 referitor la statistica
internationala.
Centru Administrativ
Tirana
Andorra la Vella
Viena
Misk
Buxelles
Sarajevo
Sofia
Praga
Zagreb
Copenhaga
Berna
Tallin
Thorshavn
Helsinki
Paris
Berlin
Gibraltar
Atena
Dublin
Reykjavik
Roma
Riga
Luxemburg
Chisinau
Monaco
Suprafata(km)
Populatia(mil. loc.)
28748
468
83858
207600
30528
51197
110912
78866
56538
43094
41284
4100
1399
338145
551500
357022
6
131957
70273
103000
301318
64600
2586
33851
2
3.2
0.1
8.3
9.7
10.5
3.9
7.7
10.3
4.4
5.4
7.5
1.3
0.05
5.3
61.2
82.4
0.03
11.1
4.2
0.3
59
2.3
0.5
4
0.03
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.210924
R Square
0.044489
Adjusted
R Square
-0.04238
Standard
Error
3160.832
Observatio
ns
25
Densitatea(loc/km)
111.3
213.7
99
46.7
343.9
76.2
69.4
130.6
77.8
125.3
181.7
28.8
35.7
15.7
111
230.8
5000
84.1
59.8
2.9
195.8
35.6
193.3
118.2
15000
ANOVA
Regressio
n
df
2
Residual
22
Total
24
SS
102338
94
2.2E+0
8
2.3E+0
8
Coefficie
nts
Standar
d Error
1411.953
808.459
3
X Variable
1
X Variable
2
Intercept
MS
511694
7
999086
1
F
0.5121
63
t Stat
P-value
0.0946
78
-0.00594
0.00785
1
1.7464
74
0.7572
1
10.88973
50.7737
7
0.2144
76
Significan
ce F
0.606169
Lower
95%
Upper
95%
-264.689
3088.5
95
0.4569
59
-0.02223
0.0103
37
0.8321
52
-94.4086
116.18
81
Lower
95.0%
264.6
89
0.022
23
94.40
86
Upper
95.0%
3088.5
95
0.0103
37
116.18
81
Folosind informaiile din tabel(coloana Coefficients), elaborm modelul liniar de regresie

multipla:
Y 0 1 X 1 2 X 2 u ,unde X-Suprafata(km)
X-Populatia(loc)
Y-Densitatea(loc/km)
De unde Y=1411.953-0.00594*X+10.88973*X
Observand datele din tabel putem deduce faptul ca intensitatea legaturii dintre variabilele
analizate este slaba, deoarece indicatorul Multiple R=0.210924 nu se afla in apropierea
maximului 1.
R Square fiind in proportie de 4,4489% ceea ce inseamna ca variatia densitatii(variabila
Y) este explicata de variatia suprafetei si a populatiei in proportie de 4,4489%.
Interpretarea coeficientilor
: Intercept reprezinta cresterea medie a densitatii in conditiile in care suprafata si populatia
sunt nule.
t=1.746474 iar pragul de semnificatie este 0.094678>0.05 inseamna ca acest parametru este
nesemnificativ.Probabilitatea fiind de 100-9.4678=90.5322%<95%
: La o crestere a suprafetei cu 1 km, in conditiile in care populatia ramane constanta,
densitatea va scadea in medie cu 0.00594 loc/km.
Intervalul de incredere fiind (-0.02223; 0.010337).
t=-0.75721 iar pragul de semnificatie este 0.456959>0.05 ceea ce insemna ca parametrul este
nesemnificativ.Probabilitatea fiind de 100-45.6959=54.3041%<95%.
: La o crestere a populatiei cu 1 mil loc, in conditiile in care suprafata ramane constanta,
densitatea va creste in medie cu 10.88973 loc/km.
Intervalul de incredere fiind (-94.4086; 116.1881).
t=0.214476 iar pragul de semnificatie este 0.832152>0.05 ceea ce insemna ca parametrul nu
este semnificativ. Probabilitatea fiind de 100-83.2152=16.7848%<95%.
Testul Fisher
Ipoteze:
H 0 : Vy2/ x
~ Vu2
H1 : Vy2/ x Vu2
F=
n k 1 Vx2
2 ,unde
k
Vu
n= numarul de observatii
k=numarul de parametrii
V x2
= ( y y) 2
Vu2
(y y )
Ymediu
U=Yreal-Y calc
Y=+*X+*X+u
Y=1411.953-0.00594*X+10.88973*X+u
Y calculat
Y calculat-Y
mediu
(Y calculat-Y mediu)
1276.037016
1410.262053
1004.221239
284.439381
1344.958845
1150.312767
836.986641
1055.653179
1124.032092
-1164.737016
-1196.562053
-905.221239
-237.739381
-1001.058845
-1074.112767
-767.586641
-925.053179
-1046.232092
1356612.316
1431760.747
819425.4915
56520.01328
1002118.811
1153718.236
589189.2514
855723.384
1094601.59
372.545016
506.770053
100.729239
-619.052619
441.466845
246.820767
-66.505359
152.161179
220.540092
138789.7889
256815.8866
10146.37959
383226.1451
194892.9752
60920.49102
4422.962776
23153.02439
48637.93218
1214.779182
1248.399015
1401.755649
1404.187427
-538.912731
-1197.505524
188.556072
1412.244052
749.004423
1040.268246
-1089.479182
-1066.699015
-1372.955649
-1368.487427
554.612731
1308.505524
42.243928
3587.755948
-664.904423
-980.468246
1186964.888
1137846.789
1885007.214
1872757.836
307595.2814
1712186.706
1784.549453
12871992.74
442097.8917
961317.9814
311.287182
344.907015
498.263649
500.6954265
-1442.404731
-2100.997524
-714.935928
508.7520519
-154.487577
136.776246
96899.70968
118960.849
248266.6639
250695.9101
2080531.408
4414190.596
511133.3811
258828.6503
23866.41145
18707.74147
803.399919
264.61815
1053.275379
1402.037025
1254.43698
1412.267812
-800.499919
-68.81815
-1017.675379
-1208.737025
-1136.23698
13587.73219
640800.1203
4735.937769
1035663.177
1461045.196
1291034.475
184626466
219798966.6
-100.092081
-638.87385
149.783379
498.545025
350.94498
508.7758119
10018.42468
408159.7962
22435.06062
248547.142
123162.379
258852.8268
10214262.54
F=
25 2 1 10214262.54
2
219798966.6
F=0.511180237
Pentru a afla F critic consultand tabelul cu Valori Critice Pentru Repartitia F : 0.05 cu 2 si 22
grade de libertate observam F critic=3.44>0.511180237(F calculat) => alegem acceptam H,
model valid statistic.
Testul Durbin-Watson pentru verificarea autocorelarii
DW
n 1
2
(u t u t 1 ) 2
n
2
t
257636219.7 - 1356612.316
1.165972758
219798966.6
Ut
Ut-1
-1164.737016
-1196.562053
-905.221239
(Ut-Ut-1)
1356612.316
-1164.737016 1012.83298
-1196.562053 84879.4699
(Ut)
1356612.316
1431760.747
819425.4915
-237.739381
-1001.058845
-1074.112767
-767.586641
-925.053179
-1046.232092
-1089.479182
-1066.699015
-1372.955649
-905.221239
-237.739381
-1001.058845
-1074.112767
-767.586641
-925.053179
-1046.232092
-1089.479182
-1066.699015
445532.0308
582656.6041
5336.87552
93958.26592
24795.71059
14684.32896
1870.310793
518.9360085
93793.12587
56520.01328
1002118.811
1153718.236
589189.2514
855723.384
1094601.59
1186964.888
1137846.789
1885007.214
-1368.487427
554.612731
1308.505524
42.243928
3587.755948
-664.904423
-980.468246
-1372.955649
-1368.487427
554.612731
1308.505524
42.243928
3587.755948
-664.904423
19.96501231
3698314.216
568354.3433
1603418.43
12570655.48
18085120.23
99580.52639
1872757.836
307595.2814
1712186.706
1784.549453
12871992.74
442097.8917
961317.9814
-800.499919
-68.81815
-1017.675379
-1208.737025
-1136.23698
13587.73219
-980.468246
-800.499919
-68.81815
-1017.675379
-1208.737025
-1136.23698
32388.59872
535358.2111
900330.041
36504.55257
5256.256525
216795268.1
257636219.7
640800.1203
4735.937769
1035663.177
1461045.196
1291034.475
184626466
219798966.6
Din tabelul Durbin Watson preluam valorile d1 si d2 (25 de observatii si 2 parametrii):

d1=1.29 si d2=1,45.
DW apartine intervalului (0; d1) tragem concluzia ca intre erori exista o autocorelare
puternica si directa.
Testul Klein pentru verificarea multicolinearitatii

Y=1411.953-0.00594*X+10.88973*X+u
Construim modelul:
X 1 1 2 X 2 v
SUMMARY
OUTPUT
Regression Statistics
Multiple R
0.806991251
R Square
0.65123488
Adjusted R
Square
0.636071179
Standard Error
83951.711
Observations
25
ANOVA
df
Regression
Residual
SS
MS
F
1 3.0269E+11 3.03E+11 42.94696
23 1.621E+11 7.05E+09
8
Significance
F
1.1E-06
Total
24 4.6479E+11
Intercept
X Variable 1
Coefficients
44518.45799
5219.155463
Standard
Error
19362.5082
796.405061
t Stat
P-value
2.299209 0.030912
6.553393 1.1E-06
Upper
Lower 95%
95%
4464.058 84572.86
3571.666 6866.645
Multiple R=0.806991251 repezentand noul model al regresiei.

R 2 0.65123488. Obtinem r>R2, deci multicolinearitatea poate fi neglijata.
Testarea ipotezei de normalitate a erorilor JB

Ipoteze:
H: perturbatia u are o disributie normala
H:perturbatia u nu are o ditributie normala
s 2 (k 3) 2
JB n
, unde:
6
24
n- numarul de observatii,
s- este coeficientul de asimetrie
k-coeficientul de aplatizare.
Acesti coeficienti se calculeaza cu ajutorul aplicatiei Excel:
s=SKEW(erori)=> s=4.142778
k=KURT(erori)=> k=18.46461
4.1427782 (18.46461 3) 2
Deci JBcalc 25
320.6297924
6
24
02,05;3 7.815 JBcalc deci acceptam H1
Lower
95.0%
4464.058
3571.666
Testarea homoscedasticitatii GQ
H: erori homoscedastice
H: erori heteroscedasice
Y=1411.953-0.00594*X+10.88973*X+u
U=y-ycalc
X
13587.73
2
0.03 1412.268
3587.756
6
0.03 1412.244
-1196.56
468
0.1 1410.262
-1368.49
1399
0.05 1404.187
-1208.74
2586
0.5 1402.037
-1164.74
28748
3.2 1276.037
-1001.06
30528
10.5 1344.959
-1136.24
33851
4 1254.437
-1066.7
41284
7.5 1248.399
-1089.48
43094
5.4 1214.779
-1129.42
45100
1.3 1158.216
-1074.11
51197
3.9 1150.313
-1046.23
56538
4.4 1124.032
-1017.68
64600
2.3 1053.275
-980.468
70273
4.2 1040.268
-925.053
78866
10.3 1055.653
-905.221
83858
8.3 1004.221
-800.5
103000
0.3 803.3999
10
-767.587
110912
7.7 836.9866
-664.904
131957
11.1 749.0044
-237.739
207600
9.7 284.4394
-68.8182
301318
59 264.6182
554.6127
338145
5.3
-538.913
42.24393
357022
82.4 188.5561
1308.506
551500
61.2
-1197.51
Eliminam din centrul seriei k=n\3=25\3~9 unitati

SP1=205913788.1
SP2=3754909.752
gl=(n-c)/2-k=(25-9)/2-2=6
Testul Fisher
F=(SP1/gl)/(sp2/gl)=(205913788.1/6)/(3754909.752/6)=34318964.68/625818.292=54.83854518
F,6,6=4,28<F=>prezumtia homoscedasticitatii este infirmata(acceptam alternativa).Eroarea u
este heteroscedastica
11

Craciun Ana Maria PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Craciun Ana Maria PDF

Încărcat de

Drepturi de autor:

Formate disponibile

Universitatea Politehnica Bucuresti

Master Modele de Decizie, Risc si Prognoza

Regresii Liniare Multiple

CRACIUN ANA MARIA

y este variabila dependent (explicat, endogen, rezultativ),

x este vectorul variabilelor independente (explicative,

este vectorul coeficienilor, de dimensiune p1, parametrii modelului,

este o variabil, interpretat ca eroare (perturbare, eroare de

Folosind informaiile din tabel(coloana Coefficients), elaborm modelul liniar de regresie

Testul Durbin-Watson pentru verificarea autocorelarii

Din tabelul Durbin Watson preluam valorile d1 si d2 (25 de observatii si 2 parametrii):

Testul Klein pentru verificarea multicolinearitatii

Multiple R=0.806991251 repezentand noul model al regresiei.

Testarea ipotezei de normalitate a erorilor JB

02,05;3 7.815 JBcalc deci acceptam H1

Eliminam din centrul seriei k=n\3=25\3~9 unitati

S-ar putea să vă placă și