Sunteți pe pagina 1din 4

Regresie liniară multiplă  output din Excel de completat  Rezolvare

Model de regresie liniară cu doi regresori: 𝑌 𝛽 𝛽𝑋 𝛽𝑋 𝜀.

M4: Pentru a se studia legătura dintre variabilele Y = preţul unei case (în mii euro),
X1 = suprafaţa casei (în mp) şi X2 = vechimea casei (în ani), folosim un număr de 23 observaţii
şi modelul liniar cu două variabile explicative:
𝑦 𝛽 𝛽𝑥 𝛽𝑥 𝜀 , 𝑖 1,2, … , 𝑛.
Datele de observaţie se găsesc în fişierul „AT3 M4 Date-Pret.casa-Supraf-Vechime.xls”.
Utilizăm modelul liniar cu două variabile explicative:
În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:

Regression Statistics   
Multiple R  ……… 
R Square  ……… 
Adjusted R 
Square  0.7085 
Standard Error  ……… 
Observations  ………. 

ANOVA   
   df  SS  MS  F  Significance F   
Regression  ……  8659.1982 ……….. ………..  
Residual  ……  ………… 156.1075
Total  22  ………..           

   Coefficients  StandardError t Stat  P‐value  Lower 95%  Upper 95% 


Intercept  59.0848  10.4539 5.6520 0.0000 37.2784  80.8912
X1  0.1732  0.0329 ………… 0.0000 0.1047  …………
X2  ………….  0.2382 ………… 0.0041 ………….  0.2745

a) Completaţi informaţiile care lipsesc


(se vor preciza formulele utilizate pentru obţinerea valorilor care lipsesc).
b) Scrieţi ecuaţia de regresie estimată. Interpretaţi valoarea coeficientilor pantă.
c) Testaţi validitatea modelului (nivelul de semnificaţie este 𝛼 0,05 şi valoarea tabelară este 3,49) .
d) În ce proporţie preţul unei case este influenţat de suprafaţa casei şi de vechimea casei?
e) Testaţi semnificaţia parametrului pantă 𝛽 şi interpretaţi intervalul de încredere pentru acesta
(nivelul de semnificaţie este 5% şi valoarea tabelară 2,086).
f) Testaţi dacă parametrul pantă al variabilei X2 diferă semnificativ de 0,7.
g) Previzionaţi preţul unei case ştiind că suprafaţa casei este de 500 mp şi vechimea casei este de 10 ani.

Rezolvare.
a) Ne gândim ce informaţii sunt cunoscute şi care informaţii pot fi completate mai întâi.
Multiple R este Raportul de corelaţie dintre cele două variabile: 𝑅 = ? Nu putem calcula acum.
R Square este Coeficientul de determinaţie: 𝑅 = ? Nu putem calcula acum.
Ştim că dispersia reziduala este 𝑀𝑆𝐸 𝑠 = 156,1075
Standard Error este abaterea standard a erorilor în eşantion:
𝑠 𝑠 156,1075 = 12,494298 = 12,4943
Care este numarul de observatii? n = 23.
Pe coloana df avem: k=2; n3=23-3=20; n1=23-1=22
Folosim formulele cunoscute: 𝑀𝑆𝑅 𝑀𝑆𝐸 𝐹

Din MSE=SSE/20 = 156,1075 putem calcula


SSE=MSE*20 = (156,1075)*20 = 3 122,15
SST = SSR+SSE = 8 659,1982 + 3 122,15 = 11 781,3482

Daca se cunoaste SSR = 8 659,1982 putem calcula MSR = SSR/2 = 4 329,5991


Putem calcula F=MSR/MSE = 4 329,5991/156,1075 = 27,7347
,
Coeficientul de determinaţie este: 𝑅 = 0,73499 = 0,7350
,

Raportul de corelaţie este : 𝑅 0,7350 = 0,8573


Putem calcula parametrul pantă din limitele Intervalelor de încredere.
Limita superioară (Upper 95%) = 𝑏 𝑡 ; ∙ 𝑠 = 0,2745
𝑏 𝑡 ; ∙𝑠 + (0,2745) = (2,086)*(0,2382)  0,2745 = 0,771385 = 0,7713
Completăm coloana „t Stat”
,
Pentru 𝑏 avem 𝑡calc = 5,2644
,
,
Pentru 𝑏 avem 𝑡calc = 3,2380
,
Completăm coloana „Lower 95%”
Pentru 𝑏 avem Limita inferioară (Lower 95%) = 𝑏 𝑡 ; ∙𝑠 = 0,47712,086*0,2382 = 0,2682

Completăm coloana „Upper 95%”


Pentru 𝑏 avem Limita superioară (Upper 95%) = 𝑏 𝑡 ; ∙𝑠 = 0,1732+2,086*(0,0329) = 0,2418

b) Dreapta de regresie estimată este 𝑦 𝛽 𝛽𝑥 𝛽𝑥


𝑦 59,0848 0,1732 ⋅ 𝑥 0,7714 ⋅ 𝑥

Interpretare:
𝛽 = parametrul de interceptare
𝛽 = coeficient de regresie parţial pentru variabila independentă X1.
𝛽 = coeficient de regresie parţial pentru variabila independentă X2.
𝛽 𝑏 = 0,1732 este coeficient pantă şi arată că, în perioada analizată,
menţinând celelalte variabile constante, atunci când Suprafaţa casei (X1)
creşte cu 1 mp (o unitate), preţul casei creşte, în medie, cu 0,1732 mii euro.
𝛽 𝑏 = 0,7713 este coeficient pantă şi arată că, în perioada analizată,
menţinând celelalte variabile constante, atunci când vechimea casei (X2)
creşte cu un an, preţul casei scade, în medie, cu 0,7714 mii euro.
𝛽 𝑏 = 59,0848 este parametru de interceptare şi arată că, dacă cele două
variabile explicative, X1 şi X2 au valoarea 0, valoarea medie a
preţului casei este estimată la 59,0848 mii euro.

c) Testaţi validitatea modelului (nivelul de semnificaţie este 𝛼 0,05 şi valoarea tabelară 3,49) .
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:

df SS MS F Fcritic
Regression k=2 SSR MSR= F= 𝐹; ,

Residual n-k-1=n-3 SSE MSE=𝑠


Total n-1 SST
k reprezintă numărul de variabile explicative din model

H0: modelul nu este valid statistic (MSR=MSE)


H1: modelul este valid statistic (MSR>MSE)
Statistica testului este: 𝐹 ~𝐹𝑖𝑠h𝑒𝑟 𝛼;𝑘,𝑛 𝑘 1 adica 𝐹𝑖𝑠h𝑒𝑟 ; ,
Regiunea critică: 𝑅 : 𝐹 𝐹; ,
𝐹critic 𝐹 ; , 𝐹; , 𝐹 , ; , = 3,49
Avem 𝐹calculat = 27,7347 > 3,49
Deoarece 𝐹calculat ∈ 𝑅 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.

d) În ce proporţie preţul unei case este influenţat de suprafaţa casei şi de vechimea casei?
Coeficientul de determinaţie este: 𝑅 = 0,7350
 73,50% din variaţia variabilei Y (preţul unei case) este explicată prin variaţia variabilelor
X1 si X2 (suprafaţa casei şi vechimea casei).

e) Testaţi semnificaţia parametrului pantă 𝛽 şi interpretaţi intervalul de încredere pentru acesta


(nivelul de semnificaţie este 5% şi valoarea tabelară 2,086).

Testarea semnificaţiei parametrului pantă 2


𝐻 :𝛽 0 (𝛽 nu diferă semnificativ de zero)
𝐻 :𝛽 0 (𝛽 diferă semnificativ de zero).
Statistica testului este 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡

Regiunea critică: 𝑅 : 𝑡 𝑡 , sau 𝑡 𝑡 ,


Decizia: Dacă 𝑡 ∈ 𝑅 respingem H0 şi acceptăm H1

,
𝑡calc = 3,2385
,

𝑡critic 𝑡tabela 𝑡 , ; = 2,086


Deoarece 3,2385 < 2,086  𝑡 ∈ 𝑅  respingem H0 şi acceptăm H1 ⇒ 𝛽 este semnificativ statistic.
Notă: Putem testa semnificaţia coeficientului pantă folosind P-value:
P-value = 0,0041 < 0,05  respingem H0 şi acceptăm H1 ⇒ 𝛽 este semnificativ statistic.
Intervalul de încredere 95% pentru parametrul pantă 𝛽 este: 1,2682 𝛽 0,2745
Intervalul 1,2682; 0,2745 acoperă valoarea reală a parametrului 𝛽 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽 0.
Spunem că: „𝛽 este semnificativ diferit de zero” sau „ 𝛽 este semnificativ statistic”.

Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
 Folosim testul t
 Folosim P-value
 Folosim intervalele de încredere

f) Testaţi dacă parametrul pantă 𝛽 diferă semnificativ de 0,7.


𝐻 :𝛽 0,7 (𝛽 nu diferă semnificativ de 0,7)
𝐻 :𝛽 0,7 (𝛽 diferă semnificativ de 0,7).
Statistica testului este 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡

Avem: 𝑡

, ,
𝑡calc = 0,2997
,
Deoarece 0,2997 > 2,086  𝑡 𝑅  acceptăm H0 ⇒ 𝛽 nu diferă semnificativ de 0,7.

g) Previzionaţi preţul unei case ştiind că suprafaţa casei este de 500 mp şi vechimea casei este de 10 ani.

Folosim ecuaţia de regresie estimată: 𝑦 59,0848 0,1732 ⋅ 𝑥 0,7714 ⋅ 𝑥

Se doreşte predicţia unei valori individuale a lui Y, cunoscând că x1 = 500 iar x2 = 10.

𝑦 𝛽 𝛽𝑥 𝛽 𝑥 = 59,0848 0,1732 ⋅ 500 0,7714 ⋅ 10 = 137,97


este o estimaţie punctuală (predicţie punctuală) a valorii individuale 𝑦 𝛽 𝛽𝑥 𝛽𝑥 𝜀

Output-ul completat este:

Regression Statistics   
Multiple R  0.8573 
R Square  0.7350 
Adjusted R 
Square  0.7085 
Standard Error  12.4943 
Observations  23 

ANOVA   
   df  SS  MS  F  Significance F   
Regression  2  8659.1982 4329.5991 27.7347 0.0000 
Residual  20  3122.1500 156.1075
Total  22  11781.3482           

   Coefficients  StandardError t Stat  P‐value  Lower 95%  Upper 95% 


Intercept  59.0848  10.4539 5.6520 0.0000 37.2784  80.8912
X1  0.1732  0.0329 5.2644 0.0000 0.1047  0.2418
X2  ‐0.7714  0.2382 ‐3.2385 0.0041 ‐1.2682  ‐0.2745

S-ar putea să vă placă și