Sunteți pe pagina 1din 25

Aplicaţii regresie (II)

Aplicaţii regresie

1. O agenţie imobiliară doreşte să


previzioneze preţul de vânzare al unor
case pe baza unui model de regresie liniar
unifactorial în funcţie de suprafaţa locuibilă
a acestora. Rezultatele obţinute în urma
prelucrării în EXCEL a datelor înregistrate
pentru un eşantion de 15 locuinţe sunt:
SUMMARY OUTPUT
Regression Statistics Suprafaţa (m2)
Multiple R 0.9036
R Square 0.8164 Mean -xmediu 58
Adjusted R
0.8023 Sample Variance- 160. 4286
Square
Standard Error 6.3937 S2(x)
Observations 15
ANOVA
df SS MS F Significance F
Fcalc=MS
R/
MSR=2363.
SSR=2363,49… MSE=2363
Regression K=1….. 4978(SSR/ 0.000013
((SST-SSE)…. ,49/40,87=
k)
57,82……
….
MSE=SSE/
n-k-1=15-1- n-k-
Residual SSE=531.4356
1=13….. 1=531,43/13
40,87…….
(SST=SSR+
Total n-1=14 SST=2894.9333
SSE)
Lower Upper
Coefficients Standard Error t Stat
95% 95%
tcalc(b0)
Intercept 21.2356 Sb0…….. ……. …….
……..
tcalc(b1)
X Variable 1 1.0258 Sb1……… …… ……..
Aplicaţii regresie

Se cere:
a) Să verifice semnificaţia parametrilor
modelului, să se interpreteze valorile
acestora şi să se determine intervalele
de încredere corespunzătoare
acestora(tcritic= 2,65);
b) Să se verifice validitatea modelului de
regresie pentru un prag de semnificaţie
de 5% (Fcritic =4,67).
Aplicaţii regresie
Soluţie:
a) yi =preţul de vânzare al caselor (zeci mii lei);
xi = suprafaţa locuibilă (m2).
Ecuaţia de regresie
- la nivelul colectivităţii generale este:
 0 1 i  1, n  1,15
yi = + xi + ei,

- la nivelul eşantionului este:


y i  bˆ0  bˆ1 xi  21,2356  1,0258 xi
Aplicaţii regresie

Verificarea semnificaţiei parametrului β0:


H0 :  0= 0 (adică  0nu este semnificativ diferit
de zero, deci  0 nu este semnificativ statistic)
H1 :  0 0, (adică  0este semnificativ diferit de
zero, deci  0 este semnificativ statistic)
Deoarece n = 15  30 avem eşantion de volum
redus, deci vom utiliza testul t bilateral.
tcalc  t / 2;n  k 1
Decizia: dacă se respinge ipoteza H0
Determinarea
bˆ   lui
ˆ t calc
b 0 b
se
ˆ face cu relaţia :
0 bˆ0
t bˆ   0
 0
0
s bˆ s bˆ s bˆ
0 0 0
Aplicaţii regresie
 
 
2 1
sbˆ  s e   n
x2   531,4356   1  58 2 
  63,9539
n  
15  1  1  15 160,4286  14 

0

 ( xi  x ) 2 
 i 1 
x  58 m 2
15

 i i
y  ˆ
y 2

SSE 531,4356
se2  i 1
   40,8797
n  k 1 n  2 15  1  1

 x  x   x  x 
15 15
2 2
i i
s 
2
x
i 1
 i 1
 160,4286
n 1 14

 
15
  xi  x  14 160,4286  2246
2

i 1
21,2356
t bˆ   0,3321
0
63,9539
Aplicaţii regresie
Verificarea semnificaţiei parametrului β1:
H0 :  1 = 0 (panta  1 este zero, adică  1 nu este
semnificativ diferit de zero, deci  1nu este semnificativ
statistic)
H1 :  1  0 , (panta  1este diferită de zero, adică  1 este
semnificativ diferit de zero, deci  1 este semnificativ
statistic)
Deoarece n = 15  30 avem eşantion de volum redus,
tcalc  t / 2;n  k 1
deci vom utiliza testul t. Dacă se respinge
ipoteza H0 bˆ1   bˆ bˆ1  0 bˆ1
t bˆ   1

Determinarea lui tcalc se face cu relaţia : sbˆ
1
sbˆ sbˆ
1 1 1

s 2
40,8797 bˆ1 1,0258
sbˆ  e
  0,1349 t bˆ    7,2353
 x 
n
1 2 2246 1
sbˆ 0,1349
i x 1
i 1
Interpretarea rezultatelor :
ˆ
• Intercept este termenul liber, deci coeficientul b0  21,2356. Termenul
liber este punctul în care variabila explicativă (factorială) este egală cu
0. Deci preţul de vânzare a caselor, dacă suprafaţa locuibilă este egală
cu 0, este 21,2356 zeci mii lei.
Deoarece t bˆ  0,3321  t critic  2,65, înseamnă că parametru (  )
0 0

nu este semnificativ diferit de zero, nu este semnificativ statistic.


Concluzionam ca este foarte probabil ca estimatorul b̂0 sa provina
dintr-o populatie cu  0 =0 ;deci parametru din populatie 0 nu este
semnificativ statistic.

 
Intervalul de încredere pentru acest parametru este:
 0  bˆ0  t critic  sbˆ   0   148,2422;190,7134
0

ˆ
• Coeficientul b1  1,0258 , ceea ce însemnă că, la creşterea suprafeţei
locuibile cu un m2, preţul de vânzare a caselor va creşte cu 1,0258 zeci
mii lei. Deoarece t bˆ1  7,2353  t critic  2,65, înseamnă că parametru ( 1 )
este semnificativ diferit de zero, semnificativ statistic. Intervalul de
 
încredere pentru acest parametru este:  1 bˆ1  t critic  sbˆ1  1  0,6683; 1,3833
Aplicaţii regresie

b) Testarea validităţii modelului de regresie:


- se stabileşte ipoteza nulă H0: împrăştierea
valorilor datorate factorilor nu diferă semnificativ
de împrăştierea aceloraşi valori datorate
întâmplării, deci modelul nu este valid;
- se stabileşte ipoteza alternativă H1: modelul
este valid.
- se calculează testul F.
Aplicaţii regresie

n n

  yˆi  y  
 i 
2 2
ˆ
y  y
s y2 x  i 1
 i 1
 2363,4978
k 1
MSR
MSE  40,8797( SSE / n  k  1)

MSR 2363,4978
Fcalc    57,8159
MSE 40,8797

Deoarece Fcalc = 57,8159  Fcritic =4,67 


modelul este valid corect identificat din punct de
vedere statistic .
Aplicaţii regresie
SUMMARY OUTPUT
Regression Statistics
n n

 yˆ  y   y  yˆ 
2 2
i i i
Multiple R SSR SSE
0.9036 R y,x  i 1
 1 i 1
  1
Raportul de corelaţie (R) R= r= n n
SST SST

 iy  y 2

 iy  y 2

i 1 i 1

 yˆ 
n
2

R Square i y
SSR
R2  i 1

Coeficientul (gradul ) de 0.8164
 y 
n
2 SST
y
determinaţie i 1
i

nk
Adjusted R Square R  1
2
c
n 1

1  R2 
Valoarea ajustată a coeficientului 0.8023
de determinaţie 2 SSE / n  k  1
R  1
SST / n  1
n
Standard Error 
 i i
y  ˆ
y 2
Abaterea medie pătratică a 6.3937 SSE
erorilor în eşantion se   i 1

n2 n2
Observations
15
Numărul observaţiilor (n) n
Aplicaţii regresie
Interpretarea rezultatelor din tabelul
Regression Statistics:

• R= +0,9036 arată că între suprafaţa locuibilă şi


preţul de vânzare a caselor există o legătură
puternică, semnificativă si directa;
• R2 =0,8164 arată că aproximativ 82% din variaţia
preţului de vânzare a caselor este explicată de
dimensiunea suprafeţei locuibile a acestora.
• Abaterea medie pătratică a erorilor
Se = 6,3937. În cazul în care valoarea acestui
indicator este egală cu zero înseamnă că toate
punctele sunt situate pe dreapta de regresie.
Aplicaţii regresie

P2. Pentru a studia efectul publicităţii prin


intermediul ziarelor şi al radioului asupra valorii
vânzărilor unui produs au fost selectate date din
22 de localităţi privind valoarea vânzărilor (y) şi
valoarea cheltuielilor cu publicitatea prin
intermediul radioului (x), măsurate în mii RON,
pe baza cărora a fost construit următorul model
de regresie: yi = b̂0+ b̂1xi + i  1, n  1,22
e i, ,rezultatele fiind prezentate în
tabelul de mai jos:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.90
R Square ……….
Adjusted R
0.79
Square
Standard Error …………
Observations n=22
ANOVA
df SS MS F

Regression K=1 SSR=2028032.69 MSR……. Fcalc=….

Residual n-k-1=……... SSE=……… MSE=……. ..

Total n-1=21 SST=2507792.59

Coefficients Standard Error t Stat Lower 95% Upper 95%

Intercept bo=156.43 Sb0=126.76 tbo=…… ……. ……

X Variable 1 b1=13.08 Sb1=1.76 tb1=…… 8.63 17.53


Aplicaţii regresie

Se cere:a) Sa se completeze spatiile


goale din tabelul Excel (outputul de
regresie)
a) Să verifice semnificaţia parametrilor
modelului, să se interpreteze valorile
acestora şi să se determine intervalele
de încredere corespunzătoare acestora
(tcritic= 2,528);
b) Să se verifice validitatea modelului de
regresie pentru un prag de semnificaţie
de 5% (Fcritic =4,35).
Aplicaţii regresie
Soluţie:
a) yi =valoarea vânzărilor unui produs (mii RON);
xi = cheltuielilor cu publicitatea prin intermediul
radioului (mii RON).
Ecuaţia de regresie
- la nivelul colectivităţii generale este:
, yi = 0 
 + 1 xi +ε i  1, n  1,22

- la nivelul eşantionului este:


y i  bˆ0  bˆ1 xi  156,43  13,08 xi
Aplicaţii regresie

Verificarea semnificaţiei parametrului β0:


H0 :  0= 0 (adică  0 nu este semnificativ diferit
de zero, deci  0 nu este semnificativ statistic)
H1 :  0  0, (adică  0 este semnificativ diferit de
zero, deci  0 este semnificativ statistic)
Deoarece n = 22  30 avem eşantion de volum
redus, deci vom utiliza testul t bilateral.
tcalc  t / 2;n  k 1
Decizia: dacă se respinge ipoteza H0
Determinarea
bˆ   ˆ lui
ˆ tcalc ˆse face 156
cu ,relaţia
43 :
0 b0 b0  0 b0 t bˆ   1,2341
t bˆ   
0
sbˆ
0
sbˆ
0
sbˆ
0
0
126,76
Aplicaţii regresie
Verificarea semnificaţiei parametrului β1:
H0 :  1= 0 (panta  1 este zero, adică  1 nu este
semnificativ diferit de zero, deci  1nu este semnificativ
statistic)
H1 :  1  0 , (panta  1 este diferită de zero, adică  1este
semnificativ diferit de zero, deci  1este semnificativ
statistic)
Deoarece n = 22  30 avem eşantion de volum redus,
deci vom utiliza testul t bilateral.
Dacă tcalc  t / 2;n  k 1 se respinge ipoteza H0
Determinarea lui tcalc se face cu relaţia :
bˆ1   bˆ bˆ1  0 bˆ1 13,08
t bˆ  1
  t bˆ   7,4318
1
sbˆ sbˆ sbˆ 1
1,76
1 1 1
Aplicaţii regresie
Interpretarea rezultatelor :
• Intercept este termenul liber, deci coeficientul bˆ0  156,.Termenul
43
liber este punctul în care variabila explicativa (factorială) este egală cu
0. Deci valoarea vânzărilor unui produs, dacă valoarea cheltuielilor cu
publicitatea prin intermediul radioului este egală cu 0 este 156,43 mii
RON.
Deoarece t bˆ  1,2341  t critic  2,528 , înseamnă că este foarte
0
probabil ca estimatorul b̂ sa provina dintr-o populatie cu
0 0  0
(adica  nu este semnificativ diferit de zero,nu este semnificativ
0
statistic). Intervalul de încredere pentru acest parametru este:

 
 0  bˆ0  t critic  sbˆ   0   164,02;476,88
0
• Un argument in plus ca
 0nu este semnificativ statistic este acela
ca intervalul de incredere include si valoarea zero.
• Coeficientul ˆ , ceea ce însemnă că, la creşterea cheltuielilor cu
b1  13,08
publicitatea prin intermediul radioului cu o mie RON, valoarea
vânzărilor unui produs va creşte cu 13,08 mii RON.
Aplicaţii regresie
Deoarece t bˆ  7,4318  t critic  2,528 , înseamnă că este
1

foarte probabil ca estimatorul b̂1 sa provina dintr-o


populatie cu  1 diferit de zero, adica  1 este
semnificativ statistic. Intervalul de încredere pentru acest
 
parametru este: 1  bˆ1  t critic  sbˆ  1  8,63; 17,53
Un argument in plus ca  1 este semnificativ statistic
1

este acela ca intervalul de incredere nu include si


valoarea zero.
b) Testarea validităţii modelului de regresie:
- se stabileşte ipoteza nulă H0: împrăştierea valorilor datorate
factorilor nu diferă semnificativ de împrăştierea aceloraşi valori
datorate întâmplării, deci modelul nu este valid;
- se stabileşte ipoteza alternativă H1: modelul este valid.
- se calculează testul F.
Aplicaţii regresie

b) Testarea validităţii modelului de regresie:


- se stabileşte ipoteza nulă H0: împrăştierea
valorilor datorate factorilor nu diferă semnificativ
de împrăştierea aceloraşi valori datorate
întâmplării, deci modelul nu este valid;
- se stabileşte ipoteza alternativă H1: modelul
este valid.
- se calculează testul F.
Aplicaţii regresie

n

 iˆ
y  y 2

SSR 2028032,69
s 2
y x  MSR  i 1
   2028032,69
k df 1 1
SST  SSR  SSE  SSE  SST  SSR
SSE  2507792,59  2028032,69  479759.9
15

 i i y  ˆ
y 2

SSE 479759.9
( s e2 )  MSE  i 1
   23987.995
n  k 1 n2 22  1  1
MSR 2028032,69
Fcalc    84.54
MSE 23987.995
Deoarece Fcalc = 84.54  Fcritic =4,35  modelul este valid, corect identificat din
punct de vedere statistic,pentru o probabilitate de garantare a rezultatelor de
95%.Variabila cauza poate sa fie utilizata in continuare in analiza de corelatie. .
Aplicaţii regresie
SUMMARY OUTPUT
Regression Statistics
n n

  yˆ  y  y  yˆ i 
2 2
i i
Multiple R
0.90 Ry,x  i 1
 1 i 1
Raportul de corelaţie (R) n n

 y  y  y  y
2 2
i i
i 1 i 1

 yˆ 
n
2
i y
R Square R2  i 1
0.81
 y 
n
2
Coeficientul (gradul ) de determinaţie i y
i 1

nk
Adjusted R Square
Valoarea ajustată a coeficientului de 0.79 Rc2  1 
n 1

1  R2 
determinaţie

n
Standard Error
 y  yˆ i 
2
i
Abaterea medie pătratică a erorilor în 158.90 SSE
eşantion se   i 1

n2 n2
Observations
22
Numărul observaţiilor (n)
Aplicaţii regresie
Interpretarea rezultatelor din tabelul
Regression Statistics:

• R= +0,90 arată că între valoarea vânzărilor unui


produs şi valoarea cheltuielilor cu publicitatea
prin intermediul radioului există o legătură
puternică, semnificativă si directa;
• R2 =0,81 arată că 81% din variaţia valorii
vânzărilor unui produs este explicată de
valoarea cheltuielilor cu publicitatea prin
intermediul radioului;
• Abaterea medie pătratică a erorilor
se = 158,90. În cazul în care valoarea acestui
indicator este egală cu zero înseamnă că toate
punctele sunt situate pe dreapta de regresie.

S-ar putea să vă placă și