Sunteți pe pagina 1din 3

Regresie liniară simplă  output din Excel de completat  Rezolvare

M3: Pentru a determina legătura dintre Consumul zilnic de tablete de ciocolată al unei persoane şi Preţul
unei tablete (în euro), am folosit un model de regresie liniară unifactorială 𝑌 𝛽 𝛽 𝑋 𝜀.
În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:

Regression Statistics
Multiple R ………
R Square ………
Adjusted R Square 0,6205
Standard Error 0,1289
Observations 11
ANOVA
df SS MS F
Regression ……….. ……… ……….. 17,3554.
Residual ……….. ……… ………..
Total ……… ………..
Coefficients Stand.Error t Stat P-value Lower 95% Upper 95%
Intercept 2,6917 0,1220 ……….. 0,0000 2,4157 ………
X Variab.1 ……….. 0,1145 ……….. 0,0024 -0,7359 ………..

a) Completaţi informaţiile care lipsesc


(se vor preciza formulele utilizate pentru obţinerea valorilor care lipsesc).
b) Scrieţi ecuaţia de regresie estimată. Interpretaţi valoarea coeficientului pantă.
c) Testaţi validitatea modelului (nivelul de semnificaţie este   0,05 şi valoarea tabelară 5,12) .
d) În ce proporţie consumul de ciocolată este influenţat de preţ ?
e) Testaţi semnificaţia coeficientului pantă şi interpretaţi intervalul de încredere pentru acesta
(nivelul de semnificaţie este 5% şi valoarea tabelară 2,26).
f) Testaţi dacă parametrul pantă diferă semnificativ de -0,3.
g) Previzionaţi Consumul zilnic de tablete de ciocolată al unei persoane ştiind că Preţul unei tablete este
de 2 euro

Rezolvare.
a) Ne gândim ce informaţii sunt cunoscute şi care informaţii pot fi completate mai întâi.
Multiple R este Raportul de corelaţie dintre cele două variabile: 𝑅 = ? Nu putem calcula acum.
R Square este Coeficientul de determinaţie: 𝑅 = ? Nu putem calcula acum.
Standard Error este abaterea standard a erorilor în eşantion: 𝑠 = 0,1289
Ştim că 𝑀𝑆𝐸 𝑠 0,1289 = 0,016615 = 0,0166
Pe coloana df avem: k=1; n-2=9; n-1=10
Putem calcula SSE=MSE*9 = 0,1494
Din F și MSE aflăm MSR=F*MSE = (17,3554)*(0,0166) = 0,2881
Rezultă SSR = 0,2881
SST = SSR+SSE = 0,2881+0,0166 = 0,4375
,
Coeficientul de determinaţie este: 𝑅 = 0,6585
,

Raportul de corelaţie este : 𝑅 0,6585 = 0,8115


Putem calcula parametrul pantă din limitele Intervalelor de încredere.
Limita inferioară (Lower 95%) = 𝑏 𝑡 ; ∙ 𝑠 = 0,7359
𝑏 𝑡 ; ∙𝑠 + (0,7359) = (2,26)*(0,1145) 0,7359 = 0,4771
Completăm coloana „t Stat”
,
Pentru 𝑏 avem 𝑡calc = 22,0631
,
,
Pentru 𝑏 avem 𝑡calc = 4,1668
,
Completăm coloana „Upper 95%”
Pentru 𝑏 avem Limita superioară (Upper 95%) = 𝑏 𝑡 ; ∙𝑠 = 2,6917+(2,26)*(0,1220) = 2,9674
Pentru 𝑏 avem Limita superioară (Upper 95%) = 𝑏 𝑡 ; ∙𝑠 = (0,4771)+2,26*(0,1145) = 0,2183

b) Dreapta de regresie estimată este 𝑦 2,6917 0,4771 ⋅ 𝑥


Interpretare:
𝑏 0,4771 măsoară panta dreptei de regresie şi arată că, atunci când Preţul unei tablete de ciocolată
creşte cu un euro, Consumul zilnic de tablete de ciocolată al unei persoane, scade, în medie,
cu 0,4771 tablete.

c) Testaţi validitatea modelului (nivelul de semnificaţie este   0,05 şi valoarea tabelară 5,12) .
H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
Statistica testului este: 𝐹 ~𝐹𝑖𝑠h𝑒𝑟 1,𝑛 2
Regiunea critică: 𝑅 : 𝐹 𝐹; ,
𝐹tabelat 𝐹critic 𝐹 ; , 𝐹, ; , 5,12
𝐹calculat = 17,3554 > 5,12
Deoarece 𝐹calculat ∈ 𝑅 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.

d) În ce proporţie consumul de ciocolată este influenţat de preţ ?


,
Coeficientul de determinaţie este: 𝑅 = 0,6585
,
 65,85% din variaţia variabilei Y (Consumul zilnic de tablete de ciocolată al unei persoane)
este explicată prin variaţia variabilei X (Preţul unei tablete de ciocolată).

e) Testaţi semnificaţia coeficientului pantă şi interpretaţi intervalul de încredere pentru acesta


(nivelul de semnificaţie este 5% şi valoarea tabelară 2,26).

Testarea semnificaţiei parametrului pantă 1


𝐻 :𝛽 0 (𝛽 nu diferă semnificativ de zero)
𝐻 :𝛽 0 (𝛽 diferă semnificativ de zero).
Statistica testului este 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡

Regiunea critică: 𝑅 : 𝑡 𝑡 , sau 𝑡 𝑡 ,


Decizia: Dacă 𝑡 ∈ 𝑅 respingem H0 şi acceptăm H1
,
𝑡calc = 4,1668
,
𝑡critic 𝑡tabela 𝑡 , ; = 2,26
Deoarece 4,1668 < 2,26  𝑡 ∈ 𝑅  respingem H0 şi acceptăm H1 ⇒ 𝛽 este semnificativ statistic.
Observaţie:
Pentru cazul k=1 şi pentru coeficientul pantă avem: 𝑡 𝐹
Verificare: 4,1668  17,3622
Notă: Putem testa semnificaţia coeficientului pantă folosind P-value:
P-value = 0,0024 < 0,05  respingem H0 şi acceptăm H1 ⇒ 𝛽 este semnificativ statistic.

Intervalul de încredere 95% pentru parametrul pantă 𝛽 este: 0,7359 𝛽 0,2183


Intervalul 0,7359; 0,2183 acoperă valoarea reală a parametrului 𝛽 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽 0.
Spunem că: „𝛽 este semnificativ diferit de zero” sau „𝛽 este semnificativ statistic”.

Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
 Folosim testul t
 Folosim P-value
 Folosim intervalele de încredere

f) Testaţi dacă parametrul pantă diferă semnificativ de 0,3.


𝐻 :𝛽 0,3 (𝛽 nu diferă semnificativ de 0,3)
𝐻 :𝛽 0,3 (𝛽 diferă semnificativ de 0,3).
Statistica testului este 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡

Avem: 𝑡

, ,
𝑡calc = 1,54
,
Deoarece 1,54 > 2,26  𝑡 𝑅  acceptăm H0 ⇒ 𝛽 nu diferă semnificativ de 0,3.

g) Previzionaţi Consumul zilnic de tablete de ciocolată al unei persoane ştiind că Preţul unei tablete este
de 2 euro.

Folosim ecuaţia de regresie estimată: 𝑦 2,6917 0,4771 ⋅ 𝑥


Se doreşte predicţia unei valori individuale a lui Y, cunoscând că x = 2.
𝑦 𝑏 𝑏𝑥 2,6917 0,4771 ⋅ 2 = 1,7375 tablete, este o estimaţie punctuală (predicţie punctuală)
a valorii individuale 𝑦 𝛽 𝛽𝑥 𝜀

Output-ul completat este:

S-ar putea să vă placă și