Documente Academic
Documente Profesional
Documente Cultură
Model Bilet Examen-Rezolvat Aplicatie Regresie Multifactoriala
Model Bilet Examen-Rezolvat Aplicatie Regresie Multifactoriala
Pentru a decide în ce zonă să fie amplasat un magazin de casete video, managerul unei firme de comercializare şi
închiriere de casete video realizează un studiu. Astfel, el consideră că succesul afacerii este cuantificat prin profitul
anual brut obţinut (sute euro). Factorii, consideraţi determinanţi pentru succesului acestei afaceri, sunt:
numărul de locuitori pe o rază de un kilometru (mii loc.)
venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro)
numărul competitorilor pe o rază de un kilometru
preţul unei casete video la închiriere (euro)
Sunt selectate aleator 15 de supermarket-uri şi sunt înregistrate valorile celor 5 variabile.
Profit Nr. Venit Competitori Preţ
Loc.
323,581 5,556 42,746 3 2,49
343,682 5,917 43,106 2 2,99
375,264 5,483 46,993 5 2,99
351,242 6,4 43,249 2 1,99
328,417 5,917 40,695 3 2,49
318,069 6,683 41,253 3 2,49
330,959 6,065 40,791 2 2,49
267,236 7,491 39,932 3 2,49
320,883 6,284 36,826 1 2,99
409,535 5,851 45,3 3 2,99
316,262 5,681 42,645 3 2,49
351,806 5,187 42,306 2 2,99
333,655 6,164 44,842 3 1,99
372,679 7,32 45,233 3 2,99
362,796 5,062 41,426 3 2,99
a) Analizaţi dependenţa dintre profitul obţinut şi cei 4 factori de influenţă cu ajutorul unui model de regresie
(nivel de semnificaţie de 5%).
b) Analizaţi corelaţiile dintre variabile.
Rezolvare:
1
Se obţin rezultatele:
SUMMARY OUTPUT
Regression Statistics
Raportul de corelatie multipla (R)
n n
yˆ i y y yˆ i
2 2
i
Multiple R 0,85879
Ry / x1 , x 2 , ..., x k i 1
n
1 i 1
n
y
i 1
i y
2
y
i 1
i y
2
yˆ
n
2
i y
R Square 0,737519 SSR SSE
R2 1 i 1
y
n
SST SST 2
i y
i 1
Valoarea ajustată a coeficientului de determinaţie
Adjusted R Square 0,632527 SSE / n k 1
Rˆ 2 1
SST / n 1
Abaterea medie pătratică a erorilor în eşantion
n
y yˆ i
2
Standard Error 19,95674 i
SSE
se i 1
n2 n2
Observations 15 Numarul observaţiilor (n)
ANOVA
df MS
SS (varianţa)
Sursa variaţiei (grade de (media patratelor) F(calculat) Significance F
(suma pătratelor)
libertate) (dispersia corectată)
n
SSR yˆ i y
2
Regression
(variaţia SSR
4 (k) i 1 MSR
datorată k Testul 0,00584031<
regresiei)
=
11190,66123 =2797,665307 F=7,024515 0.05
n F= MSR / (resping H0 –
SSE y i yˆ i model valid
2
Residual SSE MSE
MSE pentru
(variaţia 10 (n-k-1) i 1 n k 1 o probabilitate de
reziduală) = =398,2716528 cel mult
3982,716528 100-0,58=
n
SST y i y
2 99,42%>95% )
Total (variaţia SST
14 (n-1) i 1 s y2
totală) n 1
=
15173,37776
2
s b4 t b4
Preţ b4=35,32166 =15,26008696 =2,314643414 0,043165<0,05 1,320067288 69,32325
RESIDUAL OUTPUT
Predicted
Observation Residuals
Profit
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043
R= 0,85879 arată că între profitul anual şi cele 4 variabile luate în studiu (nr. locuitori, venit, nr.
competitori, preţ) există o legătură puternică.
R2=0,737519 arată că 73% din variaţia profitului este explicată de influenţa celor 4 variabile (nr. locuitori,
venit, nr. competitori, preţ).
Abaterea medie pătratică a erorilor se = 19,95674. În cazul în care acest indicator este zero înseamnă că
toate punctele sunt pe dreapta de regresie.
În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F=7,024515, iar
Significance F (pragul de semnificatie) este 0,00584031 (valoare mai mică de 0.05) atunci modelul de regresie
construit este valid pentru o probabilitate de cel mult 100-0,58=99,42% şi poate fi utilizat pentru analiza
dependenţei dintre variabilele precizate.
Intercept este termenul liber, deci coeficientul b0 este -136,286. Termenul liber este punctul în care toate
variabilele explicative sunt 0. Deci profitul care s-ar obţine, dacă nu ar fi nici un locuitor pe o rază de 1
Km, veniturile medii ale acestora ar fi zero, nu ar fi nici un competitor şi nu s-ar plăti nici o chirie pentru
casetele închiriate, ar fi de -136,286 sute euro. Deoarece tb0= - 1,010944678 iar pragul de semnificatie P-
value este 0,335878>0,05 înseamnă că acest coeficient este nesemnificativ (probabilitate de 100-
33,59=66,41%<95%, cât s-a stabilit iniţial). De altfel, faptul că limita inferioară a intervalului de încredere
(-36,6620065 1 164,0904) pentru acest parametru este negativă, iar limita superioară este pozitivă
arată că parametrul din colectivitatea generală este aproximativ zero.
3
Coeficientul b1 este 9,73134, ceea ce însemnă că la creşterea numărului de locuitori cu 1000, profitul va
creste cu 9,73134 sute euro. Deoarece t b1 = -1,212288244 iar pragul de semnificaţie P-value este
0,253266>0,05 înseamnă că acest coeficient este nesemnificativ (probabilitate 100-25,32=74,68%). De
altfel, faptul că limita inferioară a intervalului de încredere (-27,61715833 1 8,154484) pentru acest
parametru este negativă, iar limita superioară este pozitivă arată că parametrul din colectivitatea generală
este aproximativ zero.
Coeficientul b2 este 11,33031, ceea ce înseamnă că la creşterea venitului mediu al locuitorilor cu 10 euro
t
profitul va creşte cu 11,33031 sute euro. Deoarece b2 =3,987095005 iar pragul de semnificaţie P-value
este 0,002571<0,05 înseamnă că acest coeficient este semnificativ (pentru o probabilitate de 100-
0,257=99,743%>95%). Intervalului de încredere (4,99850612 2 17,66211) pentru acest parametru
arată că dacă managerul respectiv îşi deschide o firmă de închiriere şi vânzare de casete video, atunci la o
creştere a venitului mediu a unui locuitor din zonă cu 10 euro, profitul va creşte cu o valoare cuprinsă între
aprox. 5 si 17.6 euro.
Coeficientul b3 este -14,4479, ceea ce înseamnă că la creşterea numărului de competitori cu o unitate (adică
t
1000), profitul va scade cu –14,4479 sute euro. Deoarece b3 = -1,786154907 iar pragul de semnificaţie
P-value este 0,104378>0,05 înseamnă că acest coeficient este nesemnificativ (probabilitate de 100-
10,4=89,6%<95%, stabilită iniţial). De altfel faptul că limita inferioară a intervalului de încredere (-
32,47090868 3 3,575129) pentru acest parametru este negativă, iar limita superioară este pozitivă
arată că parametrul din colectivitatea generală este aproximativ zero.
Coeficientul b4 este 35,32166, ceea ce înseamnă că la creşterea preţului plătit pentru închirierea unei casete
t
cu un euro, profitul va creşte cu 35,32166 sute euro. Deoarece b4 =2,314643414 iar pragul de
semnificaţie P-value este 0,043165<0,05 înseamnă că acest coeficient este semnificativ (pentru o
probabilitate de 100-4,3=95,7%>95%, stabilită în problemă). Intervalului de încredere (1,320067288
4 69,32325) pentru acest parametru arată că dacă managerul respectiv îşi deschide o firmă de
închiriere şi vânzare de casete video, atunci la o creştere a preţului mediu plătit pentru închirierea unei
casete cu un euro profitul va creşte cu o valoare cuprinsă între aprox. 1.32 si 69 euro.
Observăm că pentru variabilele nr. locuitori, şi nr. competitori am obţinut coeficienţi de regresie nesemnificativi.
Dacă studiem corelaţiile existente între variabile observăm că cea mai puternică corelaţie (directă) este între
Yi şi Xi2, adică între profit şi venitul mediu pe locuitor din zonă (coeficient de corelaţie: 0,665). Cea mai slabă
corelaţie este între variabilele Yi şi Xi3, adică între profit şi numărul competitorilor (coeficientul de corelaţie: 0,22).
4
De asemenea, se observă că profitul este invers corelat cu numărul de locuitori (coeficient de corelaţie între
variabilele Yi şi Xi1 de -0,397).
yi=profit
Regression Statistics
SSR 7666,094
Ry / x1 , x 2 , ..., x k 0,50 0,71 ....
Multiple R SST 15173,378
........
SSR SSE 7666,094
R
2
1 0,50 ............
R Square SST SST 15173,378
SSE / n k 1
Rˆ 2 1 = 0,423
Adjusted R Square SST / n 1
SSE 7507,284
se 25,012 ....….
Standard Error n k 1 15 2 1
Observations 15
ANOVA
df SS MS F Significance F
0,015
SignF<5% pentru ca
modelul sa fie valid
Fcalc=MSR/ corest identificat, cele
SSR =15173,378- MSE=3833,04 doua variabile cauza
Regression k =2 7507,284= MSR=SSR/K=.7666,094/2= 7/625,607=6,1 influenteaza variabila
......… 7666,094.. ...…... 3833,047.…... 2… efect
n-k-1 =15- 625,607= MSE=SSE/n-k-1
2- SSE = MSE* n-k-
Residual 1=12 .... 1=625,607*12= 625,607=SSE/12→SSE=625
.… 7507,284.. ....….. ,607*12=7507,284
SST= 15173,378
SST=SSR+SSE→S
n-1 =15- SR=SST-
Total 1=14 SSE=15176,378-
......… 7507,287=7666,094 Fcritic=3,88
P-
value-
Standard <5%<
Coefficients Error t Stat 0,05 Lower 95% Upper 95%
tcalcβ0= -0,899
Intercept b0=.- b0-
0,899*133,661= tcalcβ0=bo/sb0→b0=t tcriticβ0*sb0 bo+tcriticβ0*s
-120,161...... sb0=133,661 calcβ0*sbo 0,386 = -411,388 b0=171,056
Venit –x1 tcalcβ1=3,316 b1-
b1=.3,538*3,316=11 tcalcβ1=b1/sb1→b1=t tcriticβ1*sb1 b1+tcriticβ1*s
,732.…. sb1=3,538 calcβ1*sb1 0,006 = 4,024 b1=19,442
5
b2-
tcriticβ2*sb2
= b2+tcriticβ2*s
Competito -13,886 b2=
ri-x2 tcalcβ2=b2/sb2= -2,179*10,1 -13,886+2,17
-13,886/10,134= 34= -35,96 9*10,13 4
b2=-13,886 sb2=10,134 -1,3702388..…. 0,196 …... =8,19.…
Ipotezele:
H0: R*= 0, R nu este semnificativ statistic
H1:R*≠0 ,R este semnificativ statistic , semnificativ diferit de zero
n k 1 R2
Fcalc
k 1 R2
Fcalc > Fcritic→raportul de corelatie este semnificativ diferit de zero, semnificativ statistic pentru o
probabilitate de 95%
12 0,5
F calc= * 6
2 1 0,5
Fcalc> Fcritic; 6 > 3,88→Pentru o probabilitate de 95% ca exista destula evidenta statistica pentru a
aprecia raportul de corelatie este semnificativ statistic , semnificativ diferit de zero, se respinge ipoteza H0..