Sunteți pe pagina 1din 5

Regresie liniară multiplă  cu verificare ipoteze

Model de regresie liniară cu doi regresori: 𝑌 𝛽 𝛽𝑋 𝛽𝑋 𝜀.

M4: Pentru a se studia legătura dintre variabilele Y = preţul unei case (în mii euro),
X1 = suprafaţa casei (în mp) şi X2 = vechimea casei (în ani), folosim un număr de 23 observaţii
Datele de observaţie se găsesc în tabelele de mai jos:

Datele de observaţie se găsesc și în fişierul „M4 Date-Pret.casa-Supraf-Vechime.xls”.

a) Analizați dependența dintre variabilele considerate utilizând un model de regresie liniară


cu două variabile explicative:
𝑦 𝛽 𝛽𝑥 𝛽𝑥 𝜀 , 𝑖 1,2, … , 𝑛.

Rezolvare folosind EXCEL:

1. Introduceți datele din tabel începând din celula A1.

2. Apăsați pe DATA, Data Analysis și selectați Regression.

3. La Input Y Range selectați A1:A24. La Input X Range selectați B1:C24.


Bifați Labels.

4. Dacă doriți să calculați valorile reziduale, bifați Residuals. Apăsați OK.

În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:

1
SUMMARY OUTPUT

Dreapta de regresie estimată este


𝑦 𝑏 𝑏 𝑥 𝑏 𝑥 59,0848 0,1732 ⋅ 𝑥 0,7714 ⋅ 𝑥

Regression Statistics
Multiple R 0,8573
Raportul de corelaţie multiplă: 𝑅 1
  R Square 0,7350 Coeficientul de determinaţie: 𝑅 1
   Adjusted R Square 0,7085 Valoarea ajustată a coeficientului de determinație
Standard Error 12,4943 Abaterea medie pătratică a erorilor în eșantion 𝑠 𝑠
Observations 23 Volumul eșantionului sau Numărul observațiilor (n)

ANOVA
df SS MS F Fcritic
Regression k=2 SSR MSR= F= 𝐹; ,

Residual n-k-1=n-3 SSE MSE=𝑠


Total n-1 SST

Coefficients StandardError t Stat P‐value Lower 95% Upper 95%


Intercept 𝑏 59,0848 𝑠 𝑡
X1 𝑏 0,1732 𝑠 𝑡
X2 𝑏 0,7713 𝑠 𝑡

Pe  coloana  Coefficients se găsesc Coeficienții ecuației de regresie în eșantion: 𝑏 , 𝑏 și 𝑏 (Estimațiile


parametrilor modelului de regresie).
Pe  coloana   Standard Error  se găsesc  Abaterile standard ale estimatorilor sau Abaterile medii pătratice ale
estimatorilor parametrlor modelului.
Pe coloana  t Stat se găsesc Valorile calculate ale testului t pentru estimatorii 𝑏 , 𝑏 și 𝑏 .

2
Interpretare rezultate din tabelul SUMMARY OUTPUT:
 R= 0,8573 (o valoare apropiata de 1) arată că între Variabila explicată Y (preţul unei case) și cele 2
variabile explicative X1 (suprafaţa casei) și X2 (vechimea casei) există o legătură puternică.
 R2=0,7350 arată că 73,50% din variația totală a Prețului (Y) este explicată de variația celor 2 variabile
independente (suprafaţa casei, vechimea casei), iar restul de 26,50 % din variația totala a Prețului este
dată de factorii reziduali.
 Abaterea standard a erorilor în eşantion este 𝑠 = 12,4943. Cu cât valoarea acestui indicator este
mai mică, cu atât este mai bună potrivirea modelului.

Interpretare rezultate din tabelul ANOVA:


În tabelul ANOVA este calculat testul F pentru validarea modelului de regresie, adică se testează:
H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
Statistica testului este: 𝐹 ~𝐹𝑖𝑠h𝑒𝑟 2,𝑛 3
Regiunea critică: 𝑅 : 𝐹 𝐹 ; ,

Deoarece Fcalc= 27,7347 iar Significance F (pragul de semnificație calculat, nu impus, al testului) este
0,0000017 (valoare mai mică de 0,05= nivelul de semnificație considerat sau impus al testului), atunci
respingem H0 si acceptîm H1, adică modelul de regresie construit este valid statistic, pentru o
probabilitate maximă de 100  0,0000017100%  99,99983%  95% , și poate fi utilizat pentru analiza
dependenței dintre variabilele precizate.

Interpretare rezultate din tabelul coeficienților:

𝛽 𝑏 = 0,1732 este coeficient pantă şi arată că, în perioada analizată,


menţinând celelalte variabile constante, atunci când Suprafaţa casei (X1)
creşte cu 1 mp (o unitate), preţul casei creşte, în medie, cu 0,1732 mii euro.
𝛽 𝑏 = 0,7713 este coeficient pantă şi arată că, în perioada analizată,
menţinând celelalte variabile constante, atunci când vechimea casei (X2)
creşte cu un an, preţul casei scade, în medie, cu 0,7714 mii euro.
𝛽 𝑏 = 59,0848 este parametru de interceptare şi arată că, dacă cele două
variabile explicative, X1 şi X2 au valoarea 0, valoarea medie a
preţului casei este estimată la 59,0848 mii euro.

Testarea semnificaţiei parametrului pantă 1


𝐻 :𝛽 0 (𝛽 nu diferă semnificativ de zero)
𝐻 :𝛽 0 (𝛽 diferă semnificativ de zero).
Statistica testului este 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡
Valoarea calculată a statisticii testului este 𝑡 5,2717.
Deoarece pragul de semnificație calculat (nu impus) al testului, P-value, este 0,000037 < 0,05= ,
înseamnă că acest coeficient (𝛽 ) este semnificativ (pentru o probabilitate maximă de
100  0,000037100%  99,9963%  95% ).
Intervalul 0,1047; 0,2418 acoperă valoarea reală a parametrului 𝛽 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci putem spune că „𝛽 este semnificativ diferit de zero”

Testarea semnificaţiei parametrului pantă 2


𝐻 :𝛽 0 (𝛽 nu diferă semnificativ de zero)
𝐻 :𝛽 0 (𝛽 diferă semnificativ de zero).
Statistica testului este 𝑡 ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡

3
Valoarea calculată a statisticii testului este 𝑡 -3,2385.
Deoarece pragul de semnificație calculat (nu impus) al testului, P-value, este 0,004118 < 0,05= ,
înseamnă că acest coeficient (𝛽 ) este semnificativ (pentru o probabilitate maximă de
100  0,004118100%  99,5882%  95% ).
Intervalul 1,2681; 0,2745 acoperă valoarea reală a parametrului 𝛽 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci putem spune că „𝛽 este semnificativ diferit de zero”

b) Să se verifice ipoteza de non-autocorelare a erorilor aleatoare

Pe baza seriei reziduurilor să se testeze ipoteza de non-autocorelare a erorilor utilizând


testul Durbin-Watson pentru un nivel de semnificaţie de 5% (d1=1,17 şi d2=1,54)
𝐻 : 𝜌 0 (nu există Autocorelarea erorilor aleatoare)
𝐻 : 𝜌 0 (există Autocorelare de ordin 1 a erorilor aleatoare).

𝐷𝑊 𝑑 ∑
, 𝐷𝑊 2 1 𝜌 ,

𝜌 𝑟 , ∑
, 0 𝐷𝑊 4
Dacă 0 𝐷𝑊 𝑑 , seria reziduurilor prezintă Autocorelare de ordinul 1 pozitivă ⇒ 𝜌 0.
Dacă 𝑑 𝐷𝑊 𝑑 ⇒indecizie. Se recomandă acceptarea autocorelării pozitive.
Dacă 𝑑 𝐷𝑊 4 𝑑 ⇒ reziduurile sunt independente
Dacă 4 𝑑 𝐷𝑊 4 𝑑 ⇒indecizie. Se recomandă acceptarea autocorelării negative
Dacă 4 𝑑 𝐷𝑊 4, seria reziduurilor prezintă Autocorelare de ordinul 1 negativă ⇒ 𝜌 0.

reg1 reg2 reg 3 reg 4 reg 5


0 𝜌 0 d1 ?? d2 𝜌 0 4-d2 ?? 4-d1 𝜌 0 4
0 1,17 1,54 2,46 2,83 4
Vom folosi seria reziduurilor, cu notația 𝑒 și vom folosi doar 2 zecimale

4
,
DW = 𝑑 = 2.0971 
,
Deoarece 𝐷𝑊 2,0971  𝐷𝑊 ∈ 𝑟𝑒𝑔3  Nu există Autocorelare (de ordin 1).
c) Să se verifice ipoteza de necoliniaritate a variabilelor explicative
Detectarea multicoliniarităţii pe baza coeficientului de corelaţie liniară dintre variabilele explicative
X1 si X2:
Pentru calculul corelațiilor dintre variabile se parcurg pașii următori:

1. Introduceți datele din tabel începând din celula A1.


2. Apăsați DATA, Data Analysis și selectați Correlation.
3. La Input Range selectați A1:C24.
4. Selectați Grouped by: Columns
5. Selectați Labels in first row. Apăsați OK

Se obțin rezultatele următoare, sub forma matricei corelațiilor:

𝑟 , 0,3283  Între variabilele X1 şi X2 există o legătură slabă inversă.


 Nu există Multicoliniaritate

 Criteriul lui Klein.


Se foloseşte pentru identificarea dependenţelor liniare dintre 2 variabile exogene.
Variabilele 𝑥 , 𝑥 sunt coliniare dacă 𝑅 𝑟 ,
Se estimează modelul complet (cu k regresori) şi se reţine R-Squared, notat 𝑅 .
𝑅 0,7350 iar 𝑟 , 0,3283 0,1078
 Nu există Multicoliniaritate
5

S-ar putea să vă placă și