Sunteți pe pagina 1din 6

Aplicatie regresie multifactoriala

Pentru a decide în ce zonă să fie amplasat un magazin de casete video, managerul unei firme de comercializare şi
închiriere de casete video realizează un studiu. Astfel, el consideră că succesul afacerii este cuantificat prin profitul
anual brut obţinut (sute euro). Factorii, consideraţi determinanţi pentru succesului acestei afaceri, sunt:
 numărul de locuitori pe o rază de un kilometru (mii loc.)
 venitul mediu al locuitorilor de pe o rază de un kilometru (zeci euro)
 numărul competitorilor pe o rază de un kilometru
 preţul unei casete video la închiriere (euro)
Sunt selectate aleator 15 de supermarket-uri şi sunt înregistrate valorile celor 5 variabile.
Profit Nr. Venit Competitori Preţ
Loc.
323,581 5,556 42,746 3 2,49
343,682 5,917 43,106 2 2,99
375,264 5,483 46,993 5 2,99
351,242 6,4 43,249 2 1,99
328,417 5,917 40,695 3 2,49
318,069 6,683 41,253 3 2,49
330,959 6,065 40,791 2 2,49
267,236 7,491 39,932 3 2,49
320,883 6,284 36,826 1 2,99
409,535 5,851 45,3 3 2,99
316,262 5,681 42,645 3 2,49
351,806 5,187 42,306 2 2,99
333,655 6,164 44,842 3 1,99
372,679 7,32 45,233 3 2,99
362,796 5,062 41,426 3 2,99

a) Analizaţi dependenţa dintre profitul obţinut şi cei 4 factori de influenţă cu ajutorul unui model de regresie
(nivel de semnificaţie de 5%).
b) Analizaţi corelaţiile dintre variabile.

Rezolvare:

a) Modelul liniar de regresie în eşantion este:

yi = b0 + b1xi1 + b2xi2 + b3xi3+ b4xi4+ ei

Rezolvare folosind EXCEL:

1. Introduceţi datele din tabel începând din celula A1.


2. Apăsaţi Tools-Data Analysis şi Regression.
3. La Input Y Range selectaţi A1:A16. La Input X Range selectaţi B1:E16. Selectaţi Labels.
4. Dacă doriţi să calculaţi valorile reziduale, selectaţi Residuals. Apăsaţi OK.

1
Se obţin rezultatele:
SUMMARY OUTPUT
Regression Statistics
Raportul de corelatie multipla (R)
n n

  yˆ i  y   y  yˆ i 
2 2
i
Multiple R 0,85879
Ry / x1 , x 2 , ..., x k  i 1
n
 1 i 1
n

 y
i 1
i  y
2
 y
i 1
i  y
2

Coeficientul (gradul ) de determinaţie

  yˆ 
n
2
i y
R Square 0,737519 SSR SSE
R2   1  i 1

y 
n
SST SST 2
i y
i 1
Valoarea ajustată a coeficientului de determinaţie
Adjusted R Square 0,632527 SSE / n  k  1
Rˆ 2  1 
SST / n  1
Abaterea medie pătratică a erorilor în eşantion
n

 y  yˆ i 
2
Standard Error 19,95674 i
SSE
se   i 1

n2 n2
Observations 15 Numarul observaţiilor (n)

ANOVA
df MS
SS (varianţa)
Sursa variaţiei (grade de (media patratelor) F(calculat) Significance F
(suma pătratelor)
libertate) (dispersia corectată)

 
n
SSR   yˆ i  y
2
Regression
(variaţia SSR
4 (k) i 1 MSR 
datorată k Testul 0,00584031<
regresiei)
=
11190,66123 =2797,665307 F=7,024515 0.05
n F= MSR / (resping H0 –
SSE    y i  yˆ i  model valid
2
Residual SSE MSE
MSE  pentru
(variaţia 10 (n-k-1) i 1 n  k 1 o probabilitate de
reziduală) = =398,2716528 cel mult
3982,716528 100-0,58=
 
n
SST   y i  y
2 99,42%>95% )
Total (variaţia SST
14 (n-1) i 1 s y2 
totală) n 1
=
15173,37776

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Limita inf. a Limita sup. a
(Abaterea medie
Testul t intervalului de intervalului
patratica)
incredere de incredere
s b0 t b0 = -1,010944678
Intercept b0= -136,286 =134,8103572 0,335878>0,05 -436,6620065 164,0904
s b1 t b1 = -1,212288244
Nr. Loc. b1= -9,73134 =8,027247094 0,253266>0,05 -27,61715833 8,154484
s b2 t b2
Venit b2=11,33031 =2,841745705 =3,987095005 0,002571<0,05 4,99850612 17,66211
Compet- s b3 t b3
itori b3= -14,4479 =8,08882227 = -1,786154907 0,104378>0,05 -32,47090868 3,575129

2
s b4 t b4
Preţ b4=35,32166 =15,26008696 =2,314643414 0,043165<0,05 1,320067288 69,32325

RESIDUAL OUTPUT
Predicted
Observation Residuals
Profit
1 338.5796 -14.9986
2 371.2542 -27.5722
3 376.1748 -0.9108
4 332.8525 18.3895
5 311.8281 16.5889
6 310.6962 7.3728
7 325.9235 5.0355
8 287.8659 -20.6299
9 310.9763 9.9067
10 382.3073 27.2277
11 336.2188 -19.9568
12 369.2938 -17.4878
13 338.7504 -5.0954
14 367.2528 5.4262
15 346.0917 16.7043

Interpretare rezultate din tabelul SUMMARY OUTPUT:

 R= 0,85879 arată că între profitul anual şi cele 4 variabile luate în studiu (nr. locuitori, venit, nr.
competitori, preţ) există o legătură puternică.
 R2=0,737519 arată că 73% din variaţia profitului este explicată de influenţa celor 4 variabile (nr. locuitori,
venit, nr. competitori, preţ).
 Abaterea medie pătratică a erorilor se = 19,95674. În cazul în care acest indicator este zero înseamnă că
toate punctele sunt pe dreapta de regresie.

Interpretare rezultate din tabelul ANOVA:

În acest tabel este calculat testul F pentru validarea modelului de regresie. Întrucât F=7,024515, iar
Significance F (pragul de semnificatie) este 0,00584031 (valoare mai mică de 0.05) atunci modelul de regresie
construit este valid pentru o probabilitate de cel mult 100-0,58=99,42% şi poate fi utilizat pentru analiza
dependenţei dintre variabilele precizate.

Interpretare rezultate din tabel:

 Intercept este termenul liber, deci coeficientul b0 este -136,286. Termenul liber este punctul în care toate
variabilele explicative sunt 0. Deci profitul care s-ar obţine, dacă nu ar fi nici un locuitor pe o rază de 1
Km, veniturile medii ale acestora ar fi zero, nu ar fi nici un competitor şi nu s-ar plăti nici o chirie pentru
casetele închiriate, ar fi de -136,286 sute euro. Deoarece tb0= - 1,010944678 iar pragul de semnificatie P-
value este 0,335878>0,05 înseamnă că acest coeficient este nesemnificativ (probabilitate de 100-
33,59=66,41%<95%, cât s-a stabilit iniţial). De altfel, faptul că limita inferioară a intervalului de încredere
(-36,6620065  1  164,0904) pentru acest parametru este negativă, iar limita superioară este pozitivă
arată că parametrul din colectivitatea generală este aproximativ zero.

3
 Coeficientul b1 este 9,73134, ceea ce însemnă că la creşterea numărului de locuitori cu 1000, profitul va
creste cu 9,73134 sute euro. Deoarece t b1 = -1,212288244 iar pragul de semnificaţie P-value este
0,253266>0,05 înseamnă că acest coeficient este nesemnificativ (probabilitate 100-25,32=74,68%). De
altfel, faptul că limita inferioară a intervalului de încredere (-27,61715833  1  8,154484) pentru acest
parametru este negativă, iar limita superioară este pozitivă arată că parametrul din colectivitatea generală
este aproximativ zero.

 Coeficientul b2 este 11,33031, ceea ce înseamnă că la creşterea venitului mediu al locuitorilor cu 10 euro
t
profitul va creşte cu 11,33031 sute euro. Deoarece b2 =3,987095005 iar pragul de semnificaţie P-value
este 0,002571<0,05 înseamnă că acest coeficient este semnificativ (pentru o probabilitate de 100-
0,257=99,743%>95%). Intervalului de încredere (4,99850612   2  17,66211) pentru acest parametru
arată că dacă managerul respectiv îşi deschide o firmă de închiriere şi vânzare de casete video, atunci la o
creştere a venitului mediu a unui locuitor din zonă cu 10 euro, profitul va creşte cu o valoare cuprinsă între
aprox. 5 si 17.6 euro.

 Coeficientul b3 este -14,4479, ceea ce înseamnă că la creşterea numărului de competitori cu o unitate (adică
t
1000), profitul va scade cu –14,4479 sute euro. Deoarece b3 = -1,786154907 iar pragul de semnificaţie
P-value este 0,104378>0,05 înseamnă că acest coeficient este nesemnificativ (probabilitate de 100-
10,4=89,6%<95%, stabilită iniţial). De altfel faptul că limita inferioară a intervalului de încredere (-
32,47090868   3  3,575129) pentru acest parametru este negativă, iar limita superioară este pozitivă
arată că parametrul din colectivitatea generală este aproximativ zero.

 Coeficientul b4 este 35,32166, ceea ce înseamnă că la creşterea preţului plătit pentru închirierea unei casete
t
cu un euro, profitul va creşte cu 35,32166 sute euro. Deoarece b4 =2,314643414 iar pragul de
semnificaţie P-value este 0,043165<0,05 înseamnă că acest coeficient este semnificativ (pentru o
probabilitate de 100-4,3=95,7%>95%, stabilită în problemă). Intervalului de încredere (1,320067288
  4  69,32325) pentru acest parametru arată că dacă managerul respectiv îşi deschide o firmă de
închiriere şi vânzare de casete video, atunci la o creştere a preţului mediu plătit pentru închirierea unei
casete cu un euro profitul va creşte cu o valoare cuprinsă între aprox. 1.32 si 69 euro.

Observăm că pentru variabilele nr. locuitori, şi nr. competitori am obţinut coeficienţi de regresie nesemnificativi.

b) Pentru calculul corelaţiilor dintre variabile se parcurg paşii:


1. Introduceţi datele din tabel începând din celula A1.
2. Apăsaţi Tools-Data Analysis şi Correlation.
3. La Input Range selectaţi A1:E16.
4. Selectaţi Grouped by: Columns
5. Selectaţi Labels in first row. Apăsaţi OK.

Se obţin rezultatele următoare, sub forma matricei corelaţiilor:

  Yi Xi1 Xi2 Xi3 Xi4


Yi 1
Xi1 -0,39738 1
Xi2 0,654076 -0,15141 1
Xi3 0,227572 -0,10321 0,665457 1
Xi4 0,448854 -0,25737 0,025395 0,037226 1

Dacă studiem corelaţiile existente între variabile observăm că cea mai puternică corelaţie (directă) este între
Yi şi Xi2, adică între profit şi venitul mediu pe locuitor din zonă (coeficient de corelaţie: 0,665). Cea mai slabă
corelaţie este între variabilele Yi şi Xi3, adică între profit şi numărul competitorilor (coeficientul de corelaţie: 0,22).

4
De asemenea, se observă că profitul este invers corelat cu numărul de locuitori (coeficient de corelaţie între
variabilele Yi şi Xi1 de -0,397).

Exemplu bilet examen aplicatia 4


Pentru a decide zona de amplasare a unui nou magazin, managerul unui lanţ de supermarketuri realizează
un studiu pe următoarele variabile: profitul anual brut obţinut (sute euro), venitul mediu al locuitorilor
din zonă (sute euro) şi numărul competitorilor pe o rază de un kilometru. În urma înregistrării şi
prelucrării datelor înregistrate de la 15 supermarketuri şi în ipoteza unei dependenţe liniare între
variabilele considerate, s-au obţinut următoarele rezultate:

yi=profit
Regression Statistics
SSR 7666,094
Ry / x1 , x 2 , ..., x k    0,50  0,71 ....
Multiple R SST 15173,378
........
SSR SSE 7666,094
R 
2
 1   0,50 ............
R Square SST SST 15173,378
SSE / n  k  1
Rˆ 2  1  = 0,423
Adjusted R Square SST / n  1
SSE 7507,284
se    25,012 ....….
Standard Error n  k 1 15  2  1
Observations 15

ANOVA
  df SS MS F Significance F

0,015
SignF<5% pentru ca
modelul sa fie valid
Fcalc=MSR/ corest identificat, cele
SSR =15173,378- MSE=3833,04 doua variabile cauza
Regression k =2 7507,284= MSR=SSR/K=.7666,094/2= 7/625,607=6,1 influenteaza variabila
......… 7666,094.. ...…... 3833,047.…... 2… efect
n-k-1 =15- 625,607= MSE=SSE/n-k-1
2- SSE = MSE* n-k-
Residual 1=12 .... 1=625,607*12= 625,607=SSE/12→SSE=625
.… 7507,284.. ....….. ,607*12=7507,284
SST= 15173,378
SST=SSR+SSE→S
n-1 =15- SR=SST-
Total 1=14 SSE=15176,378-
......… 7507,287=7666,094    Fcritic=3,88  

P-
value-
Standard <5%<
  Coefficients Error t Stat 0,05 Lower 95% Upper 95%
tcalcβ0= -0,899
Intercept b0=.- b0-
0,899*133,661= tcalcβ0=bo/sb0→b0=t tcriticβ0*sb0 bo+tcriticβ0*s
-120,161...... sb0=133,661 calcβ0*sbo 0,386 = -411,388 b0=171,056
Venit –x1 tcalcβ1=3,316 b1-
b1=.3,538*3,316=11 tcalcβ1=b1/sb1→b1=t tcriticβ1*sb1 b1+tcriticβ1*s
,732.…. sb1=3,538 calcβ1*sb1 0,006 = 4,024 b1=19,442

5
b2-
tcriticβ2*sb2
= b2+tcriticβ2*s
Competito -13,886 b2=
ri-x2 tcalcβ2=b2/sb2= -2,179*10,1 -13,886+2,17
-13,886/10,134= 34= -35,96 9*10,13 4
b2=-13,886 sb2=10,134 -1,3702388..…. 0,196 …... =8,19.…

a) Completati spatiile libere din tabele .


b) Testaţi semnificaţia statistică a ultimului parametru al modelului şi determinaţi şi interpretaţi intervalul său de
încredere (valoare critică: 2,179);
c) Analizaţi dacă modelul de regresie identificat este valid statistic, pentru un nivel de semnificaţie de 5% (valoare
critică: 3,88);
d) Măsuraţi intensitatea legăturii dintre cele trei variabile; testaţi semnificaţia statistică a indicatorului folosit.

Ipotezele:
H0: R*= 0, R nu este semnificativ statistic
H1:R*≠0 ,R este semnificativ statistic , semnificativ diferit de zero

n  k 1 R2
Fcalc  
k 1 R2

Fcalc > Fcritic→raportul de corelatie este semnificativ diferit de zero, semnificativ statistic pentru o
probabilitate de 95%
12 0,5
F calc= * 6
2 1  0,5
Fcalc> Fcritic; 6 > 3,88→Pentru o probabilitate de 95% ca exista destula evidenta statistica pentru a
aprecia raportul de corelatie este semnificativ statistic , semnificativ diferit de zero, se respinge ipoteza H0..

S-ar putea să vă placă și