Sunteți pe pagina 1din 8

APLICAŢIE rezolvată - regresie liniară multiplă

1. Se cunosc următoarele date privind vânzările la produsul alimentar „A”, înregistrate în 10 unităţi
comerciale:
Numărul curent al Vânzări Număr vânzători Suprafaţa
unităţii comerciale (bucăţi) (persoane) comercială (mp)
1 22 7 98
2 20 5 90
3 23 8 110
4 26 9 130
5 30 12 140
6 32 15 145
7 45 22 156
8 50 25 160
9 52 32 164
10 60 40 175
Se cere:
1. Să se determine modelul de regresie pe baza datelor din esantion şi să se interpreteze parametrii acesteia;
2. Să se verifice validitatea modelului de regresie pentru un nivel de semnificaţie 0,05;
3. Să se arate cum se stabilesc( sau să se determine) intervalele de încredere pentru parametrii modelului liniar
de regresie;
4. Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie 0,05;
5. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie şi raportul de
corelaţie, testând semnificaţia acestora pentru un nivel de semnificaţie 0,05;
6. Ce pondere din variaţia variabilei efect este explicată de variatia variabilei cauză?

Rezolvare:
Notăm cu :
Y - variabila “vânzări”.
X1 - variabila “numărul vânzătorilor”,
X2 - variabila “suprafaţa comercială”

yi = f ( x1i , x2i )
Vânzări = f ( număr vânzători, suprafaţă comercială )
y i = yˆ i + ei

Numărul curent al Vânzări Număr vânzători Suprafaţa


unităţii comerciale (bucăţi) (persoane) comercială (mp)
Yi X1i X2i
1 22 7 98
2 20 5 90
3 23 8 110
4 26 9 130
5 30 12 140
6 32 15 145
7 45 22 156
8 50 25 160
9 52 32 164
10 60 40 175
Rezolvare folosind EXCEL:
1. Introduceţi datele din tabel începând din celula A1.
2. Apăsaţi Tools-Data Analysis şi Regression.
3. La Input Y Range selectaţi A1:A11. La Input X Range selectaţi B1:E11. Selectaţi Labels.
4. Dacă doriţi să calculaţi valorile reziduale, selectaţi Residuals. Apăsaţi OK.

Se obţin rezultatele:

SUMMARY OUTPUT
Regression Statistics
Multiple R 0,989430469
R Square 0,978972653
Adjusted R Square 0,97296484
Standard Error 2,377677944
Observations 10
ANOVA
df SS MS F Significance F
Regression 2 1842,426533 921,2133 162,94991 1,34817E-06
Residual 7 39,57346682 5,653352
Total 9 1882

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 4,702902918 6,18676278 0,760156 0,4719829 -9,926466387 19,332272
Numar vanzatori
(persoane) 0,974543752 0,151386668 6,437448 0,0003545 0,616571165 1,3325163
Suprafata comerciala
(mp) 0,104112437 0,061427843 1,694874 0,133923 -0,04114133 0,2493662

RESIDUAL OUTPUT
Predicted
Vânzari
Observation (bucati) Residuals
1 21,72772804 0,272271963
2 18,94574103 1,054258965
3 23,95162104 -0,951621037
4 27,00841353 -1,008413534
5 30,97316916 -0,973169163
6 34,41736261 -2,417362606
7 42,38440568 2,61559432
8 45,72448669 4,275513315
9 52,9627427 -0,962742698
10 61,90432952 -1,904329524

1 Să se determine modelul de regresie pe baza datelor din esantion şi să se interpreteze parametrii


acesteia
Modelul de regresie are în vedere stabilirea funcţiei de regresie

yˆ x1 , x2 ,i = b0 + b1 x1i + b2 x 2i

Coefficients Coeficienţii

Intercept 4,702902918 b0 termen liber


Numar vanzatori
b1 coeficient de regresie (primul factor)
(persoane) 0,974543752
Suprafata comerciala
b2 coeficient de regresie (al doilea factor)
(mp) 0,104112437

yˆ x1 , x2 ,i = 4,7029 + 0,9745 x1i + 0,1041 x 2i

b0 termen liber – NU ARE INTERPRETARE ECONOMICA; ne arată că funcţia de regesie ŷ intersectează axa
Oy în punctul 4,7029;
b1 = +0,9754 , ceea ce însemnă că creşterea numărului de vânzători cu unul, vânzarea va creşte cu 0,9745
bucăţi;
b2 = +0,1041 ne arată că, la o creştere cu 1 mp a suprafeţei comerciale, vânzarea va înregistra o creştere
cu 0,1041 bucăţi.

2 Să se verifice validitatea modelului de regresie pentru un nivel de semnificaţie 0,05.

ANOVA
df SS MS F Significance F
Regression 2 1842,426533 921,2133 162,94991 1,34817E-06
Residual 7 39,57346682 5,653352
Total 9 1882

MS
df (media
Tabel 2 ---- SS (varianţa)
(grade de patratelor) F(calculat) Significance F
ANOVA (suma pătratelor)
libertate) (dispersia
corectată)
Regression ∆2y / x
(variaţia df 1 = k ∆2y / x s 2
y/x = 1,34817E-06
datorată k Testul este
2 1842,426533
regresiei) 921,2133 1,34817 ⋅10 −6
F=162,94991
Residual ∆2e este
df 1 = n − k − 1 ∆2e
2 2
(variaţia s =
2
e
F= s y / x / se 0,00000134817
n − k −1
reziduală) 7 39,57346682 < α = 0,05
5,653352
(se respinge H0 –
df 1 = df 1 + df 2
Total (variaţia ∆2y = ∆ y / x + ∆e Modelul este valid)
totală) df 1 = n −1
1882
9

H0: modelul nu este valid statistic (împrăştierea valorilor ŷ t datorate factorului timp nu diferă
semnificativ de împrăştierea aceloraşi valori datorate întâmplării)
H1: modelul este valid statistict
Ştiind că pragul de semnificaţie este α = 0,05 şi k = 2 (există doi factori de influenţă) se stabileşte:
♦ valoarea critică: Ftabelar = Fα; k ; n −k −1 = Fα; 2; n −2 −1 = F0, 05 ; 2; 7 = 4,96
♦ regiunea de respingere: dacă Fc >Fα; k ; n −k −1 , atunci H0 se respinge
s y2 / x 921,2133
Determinarea statisticii testului ( calculat ) are la bază relaţia: F = 2 =
F = 162 ,9499
se 5,6533

Decizia: deoarece Fcalculat (162,9499) > Fα; k ; n −k −1 (4,96) ⇒ H 0 se respinge, deci H 1 este
adevărată, prin urmare, modelul este valid.

7. Să se arate cum se stabilesc( sau să se determine) intervalele de încredere pentru parametrii modelului
liniar de regresie

Lower 95% Upper 95%


(limita inferioara) (limita superioara)

-9,926466387 19,332272
Intercept b0 −t α / 2; n −k −1 ⋅ s b 0 b0 +t α / 2; n −k −1 ⋅ s b 0

Numar vanzatori 0,616571165 1,3325163


(persoane) b1 −tα / 2; n −k −1 ⋅ s b1 b1 +t α / 2; n −k −1 ⋅ s b1

Suprafata -0,04114133 0,2493662


comerciala (mp) b2 −t α / 2; n −k −1 ⋅ s b 2 b 2 +t α / 2; n −k −1 ⋅ s b 2

Lower ≤ β ≤ Upper
Interval de încredere pentru β0 :
b0 − tα / 2; n −k −1 ⋅ s b 0 ≤ β0 ≤ b0 + tα / 2; n −k −1 ⋅ s b 0
b0 − tαBILATERAL ; n −3 ⋅ s b 0 ≤ β0 ≤ b0 + tαBILATERAL ; n −3 ⋅ sb 0
b0 − t 0 ,5 BILATERAL ;7 ⋅ s b 0 ≤ β0 ≤ b0 + t 0 , 5 BILATERAL ;7 ⋅ sb 0
4,702902918 − 2,365 ⋅ 6,18676278 ≤ β0 ≤ 4,702902918 + 2,365 ⋅ 6,18676278
− 9,926466387 ≤ β0 ≤ 19 ,332272
Interval de încredere pentru β1 :

b1 − tα / 2; n −k −1 ⋅ s b1 ≤ β1 ≤ b1 + tα / 2; n −k −1 ⋅ s b1
b1 − tαBILATERAL ; n −3 ⋅ s b1 ≤ β1 ≤ b1 + tαBILATERAL ; n −3 ⋅ s b1
b1 − t 0,5 BILATERAL ;7 ⋅ s b1 ≤ β1 ≤ b1 + t 0,5 BILATERAL ;7 ⋅ s b1
0,9745 43752 − 2,365 ⋅ 0,151386668 ≤ β1 ≤ 0,974543752 + 2,365 ⋅ 0,151386668
0,616571165 ≤ β1 ≤ 1,3325163

Interval de încredere pentru β2 :


b2 − t α / 2; n −k −1 ⋅ s b 2 ≤ β2 ≤ b2 + tα / 2; n −k −1 ⋅ s b 2
b2 − tαBILATERAL ; n −3 ⋅ s b 2 ≤ β2 ≤ b2 + tαBILATERAL ; n −3 ⋅ sb 2
b2 − t 0, 5 BILATERAL ;7 ⋅ s b 2 ≤ β2 ≤ b2 + t 0, 5 BILATERAL ;7 ⋅ sb 2
0,104112437 − 2,365 ⋅ 0,061427843 ≤ β 2 ≤ 0,104112437 + 2,365 ⋅ 0,061427843
− 0,04114133 ≤ β 2 ≤ 0,2493662
1 Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie 0,05.

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 4,702902918 6,18676278 0,760156 0,4719829 -9,926466387 19,332272
Numar vanzatori
(persoane) 0,974543752 0,151386668 6,437448 0,0003545 0,616571165 1,3325163
Suprafata comerciala
(mp) 0,104112437 0,061427843 1,694874 0,133923 -0,04114133 0,2493662

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Tabel 3 Limita inf. a Limita sup. a
(Abaterea medie
Testul t intervalului de intervalului de
patratica)
incredere incredere
b0
tb0 = 0,4719829>0,05 -9,926466387 19,332272
Intercept b0= 4,7029 s b0 sb 0 coeficientul b0
6,18676278 b0 − t α / 2; n −3 ⋅ s b 0 b0 + t α / 2; n −3 ⋅ s b 0
0,760156 nu este semnificativ

b1 0,0003545<0,05
s b1 t b1 = 0,616571165 1,3325163
sb1 coeficientul b1 b1 −tα / 2; n −3 ⋅ s b1 b1 + tα / 2; n −3 ⋅ s b1
Nr.vânz. b1= 0,9745
0,151386668 este
6,437448 semnificativ

b2
tb2 = 0,133923>0,05 -0,04114133
0,2493662
Supraf. s b2 sb 2 b2 + t α / 2; n −3 ⋅ s b 2
b2=0,1041 coeficientul b2 b2 − t α / 2; n −3 ⋅ s b 2
Com. 0,06142784
1,694874 nu este semnificativ

I. Testarea semnificaţiei parametrului β0 :


H0 : β0 = 0 (panta β0 este zero, adică β0 nu este semnificativ diferit de zero, deci β0 nu este
semnificativ statistic)
H1 : β0 ≠ 0, (panta β0 nu este diferită de zero, adică β0 este semnificativ diferit de zero, deci β0
este semnificativ statistic)
Deoarece n = 10 < 30 avem eşantion de volum redus şi pentru testare vom utiliza testul t.
Ştiind că pragul de semnificaţie este α = 0,05 şi k = 2 (există doi factori de influenţă) se stabileşte:
t critic =t α = tα = t 0,5 BILATERAL = t 0,5 BILATERAL = 2,365
♦ valoarea critică: ; n −k −1 ; n −3
;10 −3 ;7
2 2

t calc > t α
♦ regiunea de respingere: dacă ; n −3 sau t b 0 > t α;n −3 atunci H0 se respinge
2 2

b0 4,702902918
Statistica testului este: t calc = t b 0 = = = 0,760156
sb 0 6,186766278
Decizia:
Se observă că parametrul β0 nu este semnificativ statistic deoarece:
 din compararea statisticii testului cu valoarea testului critic (tabelar sau teoretic) rezultă că:
− t critic ( − 2,365 ) < t b 0 ( 0,7602 ) < t critic ( 2,365 ) ;
 pragul critic P-value b0 = 0,4719829 > α = 0,05 pragul de semnificaţie
 limita inferioară a intervalului de încredere (lower 95% = - 9,926466387) este cu semn contrar faţă de
limita superioară a intervalului (upper 95% = + 19,332272); intervalul de încredere este
− 9,926466387 ≤ β0 ≤ 19 ,332272 ;
II. Testarea semnificaţiei parametrului β1 :
H0 : β1 = 0 (panta β1 este zero, adică β1 nu este semnificativ diferit de zero, deci β1 nu este
semnificativ statistic)
H1 : β 1 ≠ 0, (panta β 1 nu este diferită de zero, adică β1 este semnificativ diferit de zero, deci β 1

este semnificativ statistic)


Deoarece n = 10 < 30 avem eşantion de volum redus şi pentru testare vom utiliza testul t.
Ştiind că pragul de semnificaţie este α = 0,05 şi k = 2 (există doi factori de influenţă) se stabileşte:
t critic =t α = tα = t 0,5 BILATERAL = t 0,5 BILATERAL = 2,365
♦ valoarea critică: ; n −k −1 ; n −3
;10 −3 ;7
2 2

♦ regiunea de respingere: dacă t calc > t α;n −3 sau t b1 > t α;n −3 atunci H0 se respinge
2 2

b 0,974543752
Statistica testului este: t calc = t b1 = 1 = = 6,437448
s b1 0,151386668
Decizia:
Se observă că parametrul β1 este semnificativ statistic deoarece:
 din compararea statisticii testului cu valoarea testului critic (tabelar sau teoretic) rezultă că:
t c ( 6,4374 ) > t critic ( 2,365 ) ;

 pragul critic P-value b0 = 0,0003545 < α = 0,05 pragul de semnificaţie


 limita inferioară a intervalului de încredere (lower 95% = + 0,616571165)
este cu acelaşi semn ca
limita superioară a intervalului (upper 95% = + 1,3325163); intervalul de încredere este
+ 0,616571165 ≤ β1 ≤ + 1,3325163 ;

III. Testarea semnificaţiei parametrului β2 :


H0 : β2 = 0 ( β2 este zero, adică β2 nu este semnificativ diferit de zero, deci β2 nu este
semnificativ statistic)
H1 : β2 ≠ 0, ( β2 nu este diferit de zero, adică β2 este semnificativ diferit de zero, deci β2 este
semnificativ statistic)
Deoarece n = 10 < 30 avem eşantion de volum redus şi pentru testare vom utiliza testul t.
Ştiind că pragul de semnificaţie este α = 0,05 şi k = 2 (există doi factori de influenţă) se stabileşte:
t critic =t α = tα = t 0,5 BILATERAL = t 0,5 BILATERAL = 2,365
♦ valoarea critică: ; n −k −1 ; n −3
;10 −3 ;7
2 2

♦ regiunea de respingere: dacă t calc > t α;n −3 sau t b 2 > t α;n −3 atunci H0 se respinge
2 2

b 0,104112437
Statistica testului este: t calc = t b 2 = 2 = = 1,694874
s b 2 0,061427843
Decizia:
Se observă că parametrul β2 nu este semnificativ statistic deoarece:
 din compararea statisticii testului cu valoarea testului critic (tabelar sau teoretic) rezultă că:
− t critic ( − 2,365 ) < t b 2 (1,694874 ) < t critic ( 2,365 )
 pragul critic P-value b2 = 0,1339 > α = 0,05 pragul de semnificaţie
 limita inferioară a intervalului de încredere (lower 95% = - 0,04114133) este cu semn contrar faţă de
limita superioară a intervalului (upper 95% = + 0,2493662); intervalul de încredere este
− 0,04114133 ≤ β 2 ≤ 0,2493662

2 Să se măsoare intensitatea legăturii dintre variabile folosind cu indicatorul adecvat, testând


semnificaţia acestora pentru un nivel de semnificaţie 0,05.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,989430469
R Square 0,978972653
Adjusted R Square 0,97296484
Standard Error 2,377677944
Observations 10

Din tabel avem Multiple R (Raportul de corelaţie): R = 0,989430469 ∈( 0,95 ;1) ceea ce
înseamnă că legătura dintre vânzări, număr vânzători şi suprafaţă comercială este foarte puternică.

Testarea semnificaţiei raportului de corelaţie:


Ipoteza nulă H 0 : R = 0 (raportul de corelaţie al colectivităţii din care s-a extras eşantionul de 10 unităţi,
nu diferă semnificativ de zero, deci nu este semnificativ statistic);
Ipoteza alternativă H 1 : R ≠ 0 ( raportul de corelaţie al colectivităţii din care s-a extras eşantionul de
10 unităţi, diferă semnificativ de zero, deci este semnificativ statistic);

Ştiind că pragul de semnificaţie este α = 0,05 şi k = 2 (există doi factori de influenţă) se stabileşte:
♦ valoarea critică: Ftabelar = Fα; k ; n −k −1 = Fα; 2; n −2 −1 = F0, 05 ; 2; 7 = 4,96
♦ regiunea de respingere: dacă Fc >Fα; k ; n −k −1 , atunci H0 se respinge
Determinarea statisticii testului ( Fcalculat = Fc ) are la bază relaţia:
R2 n − k −1 0,98943 2 7 0,97897 7
Fc = ⋅ = ⋅ = ⋅ = 162 ,93
1− R 2
k 1 − 0,998943 2
2 1 − 0,97897 2
Concluzie:
Deoarece Fc (162 ,93 ) > F0, 05 ; 1; 13 ( 4,96 ) , atunci H 0 se respinge, deci H 1 se acceptă, ceea ce
înseamnă că raportul de corelaţie al colectivităţii din care s-a extras eşantionul de 10 unităţi, diferă
semnificativ de zero, deci este semnificativ statistic.

3 Ce pondere din variaţia variabilei efect este explicată de variatia variabilei cauză?

SUMMARY OUTPUT
Regression Statistics
Multiple R 0,989430469 Coeficientul de
R Square 0,978972653
Adjusted R Square 0,97296484 determinaţie (R SQUARE - R 2 )
Standard Error 2,377677944 ne indică pondrea de influenţă a
Observations 10
factorului (x) în variaţia
rezultatului ( y )
R SQUARE - R 2 = 0,978972653 ne arată că, 97,897% reprezintă influenţa ambilor factori (număr
vânzători şi suprafaţă) asupra variaţiei vânzărilor.

OBSERVAŢIE !
Tabelul RESIDUAL OUTPUT cuprinde informaţii privind

RESIDUAL OUTPUT
Predicted Vânzari
Residuals
(bucati)
ŷ ei = y i − yˆ i
Observation
1 21,72772804 0,272271963
2 18,94574103 1,054258965
3 23,95162104 -0,951621037
4 27,00841353 -1,008413534
5 30,97316916 -0,973169163
6 34,41736261 -2,417362606
7 42,38440568 2,61559432
8 45,72448669 4,275513315
9 52,9627427 -0,962742698
10 61,90432952 -1,904329524

S-ar putea să vă placă și