Sunteți pe pagina 1din 43

Exemplu Model unifactorial

de regresie liniară

1
Număr poliţe în funcţie de Timpul mediu
Pentru 15 agenţi de asigurări, angajaţi ai unei companii de asigurări de
viaţă, se cunosc datele privind timpul mediu (X) petrecut de un agent cu
un potenţial client şi numărul de poliţe (Y) încheiate de fiecare într-o
săptămână .

X: Timp mediu
25 23 30 25 20 33 18 21 22 30 26 26 27 29 20
(în minute)

Y: Nr. poliţe 10 11 14 12 8 18 9 10 10 15 11 15 12 14 11

Cerinţe:
1. Să se testeze validitatea modelului de regresie pentru un nivel de
semnificaţie  = 5% (valoare tabelară: 4,67);
2. Să se testeze semnificaţia parametrilor modelului de regresie
( nivel de semnificaţie  = 5%; valoare tabelară: 2,160);
3. Să se determine intervalele de încredere ale acestora;
4. Să se testeze semnificația raportului de corelație pentru un nivel de
semnificaţie  = 5% (valoare tabelară: 2,160);
Estimarea modelului în Excel

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
0.763923
Square
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000
Upper
Coefficients Standard Error t Stat P-value Lower 95%
95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.689313
Timpul mediu 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619
Regression Statistics
Table 1.SUMMARY OUTPUT
Regression Statistics

SSR SSE
Multiple R
0.883621 R= = 1−
Raportul de corelatie (R) SST SST

SSR SSE
R Square
Coeficientul (gradul ) de determinaţie
0.780786 R2 = = 1−
SST SST

Adjusted R Square 2 SSE /(n − k − 1)


Valoarea ajustată a coeficientului de 0.763923 R = 1−
determinaţie SST /(n − 1)

Standard Error SSE


Abaterea medie pătratică a erorilor în 1.311483 se =
eşantion
n − k −1

Observations
15
Numărul observaţiilor (n)
Interpretare R-Square

• Interpretare rezultate din tabelul SUMMARY OUTPUT:

• R= 0,883621 arată că între numărul de poliţe încheiate şi timpul mediu


petrecut cu un potenţial client există o legătură puternică.

• R2 =0,780786 arată că 78,0786% din variaţia numărului de poliţe încheiate


este explicată de timpul mediu petrecut de un agent cu un potenţial client.

• Abaterea medie pătratică a erorilor se = 1,311483.


În cazul în care acest indicator este zero înseamnă că toate punctele
sunt pe dreapta de regresie.
Tabelul ANOVA

df
SS (degree of MS =SS / df
F
Sursa variaţiei (Sum of Squares) freedom) (media pătratelor Significance F
(testul F)
(suma pătratelor) (grade de =dispersia corectată)
libertate)

( )
n
SSR =  yˆ i − y SSR
2
MSR =
i =1 k=1 k
Regression (variaţia
SSR=79,64 79,640152
datorată regresiei) Testul
n SSE
SSE =  ( yi − yˆ i ) MSE = MSR
2 0,000013< 0,05
n-k-1=13 n − k −1 F=
i =1 MSE
Residual (resping H0 –
(variaţia reziduală) SSE= 22,36 1,719988 model valid)

( )
n F = 46,302727
SST =  yi − y
2

i =1 n-1=14
Total (variaţia SST= 102
totală) SST=SSR + SSE
Testarea validităţii modelului de regresie

– H0: MSR = MSE (modelul nu este valid);


(influenţa lui X nu este diferită de cea a factorilor aleatori)
– H1: MSR  MSE (modelul este valid);
(influenţele lui X şi ale factorilor aleatori diferă semnificativ)
MSR 79,64
F = = = 46,30
– Statistica testului: MSE 1,7199
– Regiunea critică: Fc  F ; k ; n − k −1
– Valoarea critică: Ftabelar = F ; k ; n−k −1 = F ;1;n−2 = F0, 05;1;13 = 4,67

– Deoarece Fcalc (46,30 )  F0,05; 1; 13 (4,67 )


atunci Ho se respinge, se acc.H1 modelul este valid
o Significance F (probabilitate critică) este 0,000013 < 0,05 (pragul de semnificaţie)
Modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre
cele două variabile.
Testarea semnificaţiei lui R sau R2

❑ H 0 : R 2 = 0 (raportul de corelaţie al eşantionului care-l estimează pe cel de la nivelul colectivităţii,


nu diferă semnificativ de zero, deci nu este semnificativ statistic, prin urmare modelul nu este valid);
• H1 : R  0 (raportul de corelaţie al eşantionului care-l estimează pe cel de la nivelul colectivităţii,
2

diferă semnificativ de zero, deci este semnificativ statistic);


• Statistica testului:
R 2 n − k − 1 0,78 13
Fcalc =  =  = 46,09
1− R2 k 1 − 0,78 1
• Regiunea critică: Fcalc  F ; k ; n − k −1

• Valoarea critică: Fcritic = F ; k ; n −k −1 = F ;k ;n −2 = F0,05;1;13 = 4,67

• Decizia: deoarece Fcalc  F0,05; 1; 13 (46,9>4,67) 

 Se respinge H0 si se accepta H1, ceea ce înseamnă că raportul de corelaţie al eşantionului care-l


estimează pe cel de la nivelul colectivităţii, diferă semnificativ de zero, deci este semnificativ
statistic, la pragul de semnificatie de 5%.
Testarea semnificaţiei parametrilor modelului
I

9
I
Testarea semnificaţiei parametrilor modelului

0 nu este semnificativ
diferit de zero
1 este semnificativ diferit
de zero
R2=78.07%

Fcalc=46.30

modelul este valid

10
Testarea semnificaţiei parametrilor modelului

Testăm ipotezele
a) H0: 0= 0 a − 1.73
tcalc = = = −0.846
sa 2.046
H1: 0 ≠ 0
tcritic = t0, 025;13 = 2,160
b) H0: 1 = 0 b 0.549
tcalc = = = 6.804
sb 0.08
H1: 1≠ 0
Deoarece n = 15  30 avem eşantion de volum redus şi pentru testare vom
utiliza testul t.

11
Testarea semnificaţiei parametrilor modelului

Decizia pentru 0:


– Deoarece tcalc  t / 2;n − 2 ( − 0.846  2.160)

acceptăm Ho, ceea ce înseamnă că

0 nu este semnificativ diferit de zero, deci 0 nu este semnificativ statistic.

Decizia pentru 1 :

–Deoarece tcalc  t / 2;n − 2 ( 6.804  2.160)

respingem Ho şi acceptăm H1, adică


1 este semnificativ diferit de zero, deci 1 este semnificativ statistic.

12
Testarea semnificaţiei parametrilor folosind P-value
Despre P-value

• Înaintea începerii unui test statistic clasic, se pune problema alegerii


unui nivel de semnificaţie. Acesta exprimă riscul maximal de a greşi pe
care suntem dispuşi să-l acceptăm (de regulă 5%, 1% sau chiar mai mic)
atunci când luăm decizia de respingere a ipotezei nule.

• Pachetele software evaluează riscul de a lua decizia greşită, pe baza


datelor de care dispunem, rămânând la latitudinea fiecăruia dacă îşi asumă
sau nu acest risc. Acest risc evaluat pe baza datelor apare în tabele, la
fiecare test de semnificaţie, şi se numeşte valoarea P (P-value).

• Pentru ca un coeficient să fie semnificativ diferit de zero, deci


variabila independentă asociată lui să influenţeze variabila dependentă,
trebuie ca în coloana P-value să avem valori mai mici decât pragul de
semnificaţie (5%).

13
Testarea semnificaţiei parametrilor folosind P-value

Pentru parametrul 0 :

Avem P-value = 0,412843 >  (0,05) pragul de semnificaţie. Putem


afirma că, dacă respingem ipoteza nulă potrivit căreia interceptul este
egal cu zero, facem o eroare mare (41,28%). Prin urmare se acceptă
Ho, potrivit careia parametrul 0 nu este semnificativ diferit de zero.

Pentru parametrul 1 :

Avem P-value = 0,000013 <  (0,05) pragul de semnificaţie. Putem


afirma că, dacă respingem ipoteza nulă că parametrul 1 este egal cu
zero, facem o eroare foarte mică, de 0,0013%. Prin urmare,
respingem Ho şi acceptăm ca adevărată ipoteza H1, că 1 este diferit
de zero.

14
Intervale de încredere pentru parametrii
modelului

❑ Intervalul de încredere pentru 0:


a − t / 2,n − 2  sa   0  a + t / 2,n − 2  sa
− 1,73 − 2,160  2,046   0  −1,73 + 2,160  2,046
− 6,15   0  2,68

 Intervalul de încredere pentru 1:


b − t / 2, n − 2  sb  1  b + t / 2, n − 2  sb

0,549 − 2,160  0,08  1  0,549 + 2,160  0,08


0,374  1  0,723

15
Coeficientul de corelaţie liniară

Coeficientul de corelaţie liniară r reprezintă un estimator al


parametrului ρ, coeficientul de corelaţie din colectivitatea generală.
N

COV ( X ,Y )  xy ( x i −  X )( yi − Y )
= = = i =1
 x y  x y  N 2 
N
2
 
 i =1
( xi −  X )  
  i =1
( y i −  Y ) 

Media estimatorului r este
E (r ) = 
Abaterea standard este

1− r2
sr =
n−2

16
Testarea semnificaţiei coeficientului de corelaţie

❑ Este un indicator sintetic care măsoară intensitatea legăturii liniare dintre


două variabile n n n
n  xi yi −  xi   yi
 − 1,1
cov(x, y ) i =1 i =1 i =1
r= =
sx  s y  n 2  n   n 2  n  
2 2

n  xi −   xi   n  yi −   yi  
 i =1  i =1    i =1  i =1  

Testarea semnificaţiei coeficientului liniar de corelaţie

H0 :  = 0
( nu este semnificativ statistic)
H1 :   0
(  este semnificativ statistic)
r n−2
tcalc = t critic = t / 2,n − 2
1− r 2

t calc  t critic (t / 2,n − 2 )


❑ Decizia: dacă , respingem Ho şi acceptăm H1,  este
semnificativ statistic.
Testarea semnificaţiei coeficientului de corelaţie

Validarea coeficientului de corelaţie determinat anterior (r=0.8836):


H0 :  = 0 (  nu este semnificativ statistic)
(  este semnificativ statistic)
H1 :   0
Se alege nivelul de încredere al testului statistic (1 −  ) = 95 %   = 0.05

Se calculează valoarea numerică a testului statistic (Student):


r n−2 0,8836 15 − 2 3,185
tcalc = = = = 6,804
1− r 2 1 − 0,88362 0,468

Se determină din tabelul cu valorile repartiţiei t (Student) în funcţie de  şi numărul gradelor de


libertate (n-2): tcritic = t0, 025;13 = 2,160

Decizia: tcalc  t / 2,n − 2 se resp.Ho, se acc.H1, coeficientul de corelatie  este semnificativ statistic.
18
Realizarea de previziuni utilizând modelul de regresie

• Tipuri de previziuni
– Previziuni punctuale
– Previziuni pe intervale de încredere

19
Realizarea de previziuni utilizând modelul de regresie

A. Previziunea mediei condiţionate


Fiind dată valoarea x0 , dorim să previzionăm media condiţionată E (Y | X = x0 ) .
Ştim că E (Y | X = x0 ) =  0 + 1 x0 .
Fie y 0 = a + bx0 estimatorul mediei condiţionate a predicţiei lui Y, E (Y | X = x0 ) .
Media estimatorului y 0 = a + bx0 este

E ( y 0 ) = E (a + b x 0 ) = E (a) + E (b) x 0 =  0 + 1 x 0 .
Rezultă că y 0 = a + bx0 este un predictor nedeplasat al mediei condiţionate
E (Y | X = x0 ) =  0 + 1 x0 .
Deşi teoria economică arată că, sub ipotezele modelului clasic de regresie, y 0 = a + bx0
este un estimator nedeplasat al valorii medii reale (adică un punct de pe dreapta de
regresie a populaţiei), este puţin probabil să avem egalitate. Există o eroare de
previziune, e 0 .

20
Realizarea de previziuni utilizând modelul de regresie

Determinarea unui Interval de încredere pentru predicţia valorii medii condiţionate



Teoremă: Dacă x 0 este fixat şi eroarea aleatoare  ~ N (0,  2 ) , atunci predictorul y 0 = a + bx0 are o

distribuţie normală, cu media E ( y 0 ) =  0 +  1 x 0
 
( x0 − x ) 2   
 , adică: yˆ 0 ~ N   0 + 1 x0 ,  2  1 + ( x0 − x )
2
 2 1
 .
şi varianţa Var ( y 0 ) =  +
 n  (x − x) 2   n  (x − x)2 
 i    i 
Varianţa  2 este necunoscută şi se aproximează prin estimatorul nedeplasat s e2 .
  1 ( x0 − x ) 2
Estimaţia erorii standard a estimatorului y 0 va fi se( y 0 ) = s e  + .
n  ( xi − x ) 2

y 0 − ( 0 + 1 x0 )
Statistica t = are o distribuţie Student cu ( n − 2) grade de libertate.
se( yˆ 0 )
Putem folosi distribuţia Student pentru a determina un interval de încredere 100 (1 −  )% pentru
E (Y | x0 ) =  0 + 1 x0 , de forma:
   
y 0 − t / 2, n − 2  se ( y 0 )  E ( y 0 | x 0 ) =  0 +  1 x 0  y 0 + t / 2, n − 2  se( y 0 ) ,
unde t / 2,n − 2 este valoarea critică din distribuţia Student cu ( n − 2) grade de libertate.

21
Realizarea de previziuni utilizând modelul de regresie

B. Previziunea unei valori individuale


Presupunem că X ia valoarea x 0 . Dorim să previzionăm o valoare a lui Y: y 0 = (Y | X = x 0 ) . Avem
y 0 =  0 + 1 x0 +  0 .

y 0 = a + bx0 este un predictor punctual pentru valoarea y 0 =  0 + 1 x0 +  0 .

Dorim să obţinem y 0 =  0 + 1 x0 +  0 , dar prognozăm aceasta ca fiind y 0 = a + bx0 .
y 0 diferă de E ( y 0 ) prin  0 . Apare o eroare de previziune.

Eroarea de previziune estimată este: e0 = y 0 − y 0 = (a −  0 ) + (b − 1 ) x0 +  0 .

Media erorii de previziune etimate este: E (e0 ) = E ( y 0 − y 0 ) = E (a −  0 ) + x 0 E (b − 1 ) + E ( 0 ) = 0 dacă
E (a −  0 ) = 0 , E (b − 1 ) = 0 şi E ( 0 ) = 0 .

Varianţa erorii de previziune estimate este: Var ( y 0 − y 0 ) = Var (a) + x02Var (b) + 2 x0 Cov (a, b) + Var ( 0 ) =
 1 x 2  2 x02 2 2 x0 x
 1 ( x0 − x ) 2 
=   +
2
 +
 − +  =  1 + +
2 2

2 
 n S xx  S xx S xx  n  ( xi − x ) 

22
Realizarea de previziuni utilizând modelul de regresie

Determinarea unui Interval de încredere pentru predicţia individuală


Pentru a construi un Interval de Încredere pentru previzionare, este necesar să cunoaştem distribuţia
estimatorului, precum şi media şi varianţa acestuia.
Teoremă: Dacă x 0 este fixat şi eroarea aleatoare  are o distribuţie normală cu media 0 şi varianţa  2 ,

atunci eroarea de previziune e0 = y 0 − y 0 are o distribuţie normală, cu media 0 şi varianţa
 2 1 ( x0 − x ) 2     1 ( x0 − x ) 2  
Var ( y0 − y0 ) =  1 + +  , adică: y0 − y0 ~ N  0, 1 + +
2
 .
2    2 
 n  ( xi − x )    n  ( xi − x )  
Varianţa  2 este necunoscută şi se aproximează prin estimatorul nedeplasat s e2
 1 ( x0 − x ) 2
Estimaţia erorii standard: se( y0 − y0 ) = se  1 + + .
n  ( xi − x ) 2


y0 − y0
Statistica t =  are o distribuţie Student cu ( n − 2) grade de libertate.
se( y 0 − y 0 )
Un interval de încredere 100 (1 −  )% pentru y0 , este de forma:
   
y 0 − t / 2, n − 2  se( y 0 − y 0 )  y 0  y 0 + t / 2, n − 2  se( y 0 − y 0 )

23
Realizarea de previziuni utilizând modelul de regresie

A) Interval de încredere
pentru valoarea medie a Y

Yˆi
lui y , fiind dat x0

B) Intervalul de încredere
pentru predicţia unei valori y0
fiind dat x0

24
Realizarea de previziuni

Cerinţă
◼ 6. Să se construiască un interval de încredere pentru numărul de poliţe
dacă valoarea anticipată a timpului mediu petrecut de un agent cu un
potenţial client este de 35 minute, dacă rezultatele se garantează cu o
probabilitate de 95%.
Realizarea de previziuni utilizând modelul de regresie

Estimaţie
punctuală
Dacă timpul mediu este x0 = 35 , atunci

yˆ 0 = −1.73 + 0.5492 x0 = −1.73 + 0.5492 * 35 = 17 .492


Intervalul de încredere pentru numărul de poliţe încheiate de un agent,
dacă timpul mediu a fost de 35 min:
  t / 2;n − 2 = t0.025,13 = 2,53
1 ( x0 − x ) 2
y0   yˆ 0  t   se  1 + +   ( yi − yˆ i )
2
22.35
 , n−2 n  ( x − x ) 2
 se2 = = = 1,719
2 i
n−2 13
Dispersia erorii de prognoză este egală cu:

 
 1 2 
( x0 − x )   1 (35 − 25) 2 
2
se 1 + + n = 1.7191 + +  = 2.484

 n 2   15 264 
  i ( x − x )  Rezultatele se
 i =1 
garantează cu
probabilitatea 95%
y0  17 .492  2,53 1.576  = 13,5;21,5 26
Problemă Regresie liniară simplă rezolvată (1) Econometrie: MK, an II, 2021-2022

Pentru un magazin de mobilă s-au cules date privind numărul de spoturi publicitare difuzate şi numărul
vizitatorilor (mii pers.). În urma prelucrării datelor observate cu Excel am obținut următorul output:

a) Scrieți ecuația de regresie folosind coeficienții din output-ul Excel;


b) Care este interpretarea economica a coeficienților obținuți?
c) Sunt coeficienții semnificativi din punct de vedere statistic?
d) În ce măsură numărul de vizitatori este determinat de numărul de spoturi publicitare difuzate?
e) Estimați profitul in condițiile in care s-ar difuza 50 de clipuri publicitare folosind coeficienții
obținuți.
f) Este modelul semnificativ din punct de vedere statistic?

Rezolvare:

a) Ecuația de regresie este 𝑦̂𝑖 = 1,49 + 2,99 ∙ 𝑥𝑖 (am rotunjit valorile la a doua zecimală)

b) 𝑏0 = estimatorul parametrului „Intercept” al modelului de regresie liniară unifactorială;

Interpretare 𝑏0 : În absența difuzării spoturilor publicitare (𝑥𝑖 =0), numărul mediu al


vizitatorilor ar fi de 1,49 mii persoane;

𝑏1 = estimatorul parametrului „Pantă” al modelului de regresie liniară unifactorială.

Interpretare 𝑏1 :
semnul lui 𝑏1 : 𝑏1 > 0 ⇒ există o legătură directă între cele două variabile (valorile celor două
variabile se modifică în același sens: ambele cresc sau ambele scad);

valoarea lui 𝑏1 : la creșterea numărului de spoturi publicitare cu o unitate, se estimează că


numărul vizitatorilor va crește, în medie, cu 2,99 mii persoane.

Atenție: 𝑏0 nu are întotdeauna semnificație economică, deci atenție la interpretări!


Problemă Regresie liniară simplă rezolvată (1) Econometrie: MK, an II, 2021-2022

c) Dacă nu este specificat în problemă, se consideră 𝛼 = 5%.

Testarea semnificației parametrului ”β0”


H0: β0=0 (β0 nu e semnificativ statistic)
H1: β0≠0 (β0 este semnificativ statistic)

Folosim P-value. Pentru nivelul de semnificație dat,


Deoarece P-value = 0,757134 > 𝛼 acceptăm ipoteza nulă 𝐻0 și concluzionăm :
β0 nu diferă semnificativ de valoarea 0 pentru un nivel de semnificație de 5%.

Testarea semnificației parametrului ”β1”

H0: β1=0 (β1 nu e semnificativ statistic)


H1: β1≠0 (β1 este semnificativ statistic)
Folosim P-value. Pentru nivelul de semnificație dat,
Deoarece P-value = 0,009101 < 𝛼 acceptăm ipoteza alternativă 𝐻1 și concluzionăm:
β1 diferă semnificativ de valoarea 0 pentru un nivel de semnificație de 5%.

d) Folosim coeficientul de determinație R2 (R square). R2 = 0,773158 arată că 77,31% din


variația numărului de vizitatori este explicată de variația nr. de spoturi publicitare
difuzate, sau de modelul de regresie.

e) Estimația punctuală folosește formula 𝑦̂𝑖 = 1,49 + 2,99 ∙ 𝑥𝑖 .


Pentru 𝑥𝑖 = 50 vom scrie
𝑦̂𝑖 = 1,49 + 2,99 ∙ 𝑥𝑖 = 1,49 + 2,99 ∙ 50 = 150,99.
Deci dacă s-ar difuza un număr de 50 de spoturi publicitare, numărul de vizitatori
estimat ar fi, în medie, de aproximativ 151 de mii.

f) Validitatea modelului
H0: modelul nu este valid (nu există deosebiri esențiale între împrăștierea
valorilor lui Y datorate factorului X și împrăștierea valorilor lui Y datorate erorii)

H1: modelul este valid (împrăștierea valorilor lui Y datorate factorului X diferă
semnificativ de împrăștierea valorilor lui Y datorate erorii)

𝑀𝑆𝑅
Se folosește testul F: 𝐹𝑐𝑎𝑙𝑐 = 𝑀𝑆𝐸
Corespunzător valorii lui F calculat avem Significance F, (de fapt, valoarea
P-value corespunzătoare lui F calculat) care reprezintă pragul de semnificație calculat
(probabilitatea de a obține o valoare mai mare ca F calculat, sau, altfel spus reprezintă
probabilitatea de a face o eroare dacă respingem ipoteza nulă 𝐻0).

În absența furnizării unui prag de semnificație α, acesta se consideră a fi de 5% (0,05).

Pentru nivelul de semnificație dat (𝛼 = 0,05), deoarece Significance F = 0.0091 < 𝛼


respingem ipoteza nulă 𝐻0 și concluzionăm ca modelul este valid.
Cu alte cuvinte, variația numărului de vizitatori este influențată în mod semnificativ
de numărul de spoturi publicitate difuzate, la un nivel de semnificație de 5%.
Seminar ECONOMETRIE − Regresie liniară unifactorială

Exercițiu. Pentru a studia legătura dintre două variabile (X şi Y) au fost înregistrate valorile
pentru 12 unităţi statistice. În urma prelucrării datelor s-au obţinut următoarele rezultate:

∑ 𝑦𝑖 = 127; ∑ 𝑦𝑖2 = 1451; 𝑥̅ = 8,75; ∑(𝑥𝑖 − 𝑥̅ )2 = 106,25; ∑ 𝑥𝑖 ∙ 𝑦𝑖 = 1211;

1) Care din cele două variabile este mai omogenă?


2) Calculaţi coeficientul de corelaţie liniară Pearson, dintre X şi Y.
3) Estimaţi parametrii modelului de regresie liniară simplă.

1) Calculaţi şi comparaţi coeficienţii de variaţie ai celor două variabile


Coeficientul de variaţie al variabilei X este:
𝑆𝑥
𝑉𝑥 = 𝑥
⋅ 100 = ? 𝑥̅ = ? 𝑠𝑥 = ?

∑𝑛
𝑖=1(𝑥𝑖 −𝑥̅ )
2
unde 𝑠𝑥2 = , ∑(𝑥𝑖 − 𝑥̅ )2 = ∑(𝑥𝑖2 − 2 ∙ 𝑥̅ ∙ 𝑥𝑖 + 𝑥̅ 2 ) = ∑ 𝑥𝑖2 − 𝑛 ∙ 𝑥̅ 2
𝑛−1

Coeficientul de variaţie al variabilei Y este


𝑆𝑦
𝑉𝑦 = 𝑦
⋅ 100 = ? 𝑦̅ = ? 𝑠𝑦 = ?

∑𝑛 ̅)2
𝑖=1(𝑦𝑖 −𝑦
unde 𝑠𝑦2 = , ∑(𝑦𝑖 − 𝑦̅)2 = ∑(𝑦𝑖2 − 2 ∙ 𝑦̅ ∙ 𝑦𝑖 + 𝑦̅ 2 ) = ∑ 𝑦𝑖2 − 𝑛 ∙ 𝑦̅ 2
𝑛−1

Concluzia? Care din cele două variabile este mai omogenă? X sau Y? De ce?

2) Coeficientul de corelaţie de selecţie este un indicator ce caracterizează direcţia şi intensitatea


legăturii liniare dintre două variabile.

𝑐𝑜𝑣(𝑥,𝑦) 𝑆𝑥𝑦 ∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ )


𝑟𝑥𝑦 = = = sau
𝑆𝑥 𝑆𝑦 𝑆𝑥 𝑆𝑦 √[∑(𝑥𝑖 −𝑥̄ )2 ][∑(𝑦𝑖 −𝑦̄ )2 ]

𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟𝑥𝑦 = ∈ [−1, +1]
√[𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 ][𝑛 ∑ 𝑦𝑖2 −(∑ 𝑦𝑖 )2 ]

O valoare apropiată de +1 arată o legătură directă puternică. O valoare apropiată de −1 arată o


legătură inversă puternică.
𝑟𝑥𝑦 = ...........?
Semnul acestui coeficient indică direcţia legăturii iar valoarea sa indică intensitatea legăturii.

Interpretare ?
𝑟𝑥𝑦 = ........ arată că între variabilele X şi Y există o legătură ..........................................?

1
3) Analiza de regresie se ocupă cu descrierea şi evaluarea legăturii dintre o variabilă
dependentă sau explicată şi una sau mai multe variabile independente sau explicative, cu scopul
de a estima şi de a previziona valoarea medie a variabilei dependente, cunoscându-se valorile
fixate ale variabilelor independente (valori fixate în urma unor eşantionări repetate).
Considerăm două variabile economice X şi Y pentru care cunoaştem n perechi de
observaţii:(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), . . . , (𝑥𝑛 , 𝑦𝑛 ).
Ne interesează cum se modifică variabila Y sub acţiunea variabilei X.
Ecuaţia 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
defineşte modelul unifactorial de regresie liniară.
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖
Modelul include o componentă deterministă 𝛽0 + 𝛽1 𝑥𝑖 şi o componentă stochastică, 𝜀.
Variabilele X şi Y sunt variabile observabile, adică valorile lor pot fi măsurate.
Variabila 𝜺 este numită eroare aleatoare sau termen eroare sau variabilă de perturbaţie şi
reprezintă efectul tuturor factorilor, în afara factorului X, care îl afectează pe Y şi care sunt
consideraţi neobservabili.
Parametrii de regresie 𝛽0 şi 𝛽1 se vor estima pe baza valorilor variabilelor X şi Y.
Parametrul  0 se numeşte parametru de interceptare. Parametrul 𝛽0 exprimă valoarea
variabilei dependente Y când variabila independentă X, este egală cu zero,
Parametrul 𝛽1 reprezintă panta dreptei de regresie şi arată cu cât se modifică, în medie,
variabila Y atunci când variabila X se modifică cu o unitate.

Semnul parametrului pantă 𝛽1 arată dacă dependenţa dintre cele două variabile este directă sau
inversă.
Considerăm doi estimatori: 𝛽̂0 şi 𝛽̂1, ai parametrilor reali 𝛽0 şi 𝛽1
(se pot folosi notatiile: 𝑏0 şi 𝑏1 )
𝑦𝑖 se numeşte valoarea observată (reală sau adevărată).
𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 𝑥𝑖 ( 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 ) se numeşte valoarea ajustată a lui y i .
Definim 𝑒𝑖 = 𝜀̂𝑖 = 𝑦𝑖 − 𝑦̂𝑖 abaterea dintre valoarea observată şi valoarea ajustată.
𝑒𝑖 = 𝜀̂𝑖 se numeşte reziduu sau valoare reziduală sau eroare estimată.
Erorile aleatoare 𝜀𝑖 sunt neobservabile, dar reziduurile 𝜀̂𝑖 , sunt observabile.

Estimarea parametrilor modelului prin metoda celor mai mici pătrate (MCMMP):

Se minimizează suma pătratelor abaterilor dintre valorile reale 𝑦𝑖 şi valorile ajustate 𝑦̂𝑖 .
Se foloseşte şi notaţia OLS (Ordinary Least Squares).

Suma pătratelor reziduurilor sau erorilor estimate este o funcţie de două necunoscute, 𝛽̂0 şi 𝛽̂1
(sau 𝑏0 şi 𝑏1 , sau a şi b), în raport cu care se va face minimizarea. Avem:
𝑛 𝑛 𝑛

𝑆(𝑏0 , 𝑏1 ) = ∑ 𝑒𝑖2 = ∑(𝑦𝑖 − 𝑦̂𝑖 ) = ∑(𝑦𝑖 − 𝑏0 − 𝑏1 𝑥𝑖 )2 = 𝑚𝑖𝑛


2

𝑖=1 𝑖=1 𝑖=1


𝑆(𝑏0 , 𝑏1 ) este minimă când derivatele parţiale ale funcţiei în raport cu 𝑏0 şi 𝑏1 sunt egale cu zero.
𝑏0 𝑛 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖
Rezultă sistemul de ecuaţii normale ale lui Gauss: {
𝑏0 ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 𝑦𝑖

2
𝑏0 ∙ 𝑛 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖
{
𝑏0 ∙ ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 ∙ 𝑦𝑖
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:

𝛥𝑏0 ∑ 𝑦𝑖 ∑ 𝑥𝑖2 −∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖
𝑏0 = = (1)
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2
𝛥𝑏1 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑏1 = = (2)
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2
Dacă împărţim prima ecuaţie normală prin n, obţinem:
𝑏0 = 𝑦̄ − 𝑏1 𝑥̄ (3)
După înlocuirea estimatorului a în a doua ecuaţie normală, obţinem:

∑ 𝑥𝑖 𝑦𝑖 −𝑛𝑥̄ 𝑦̄
𝑏1 = ∑ 𝑥𝑖2 −𝑛𝑥̄ 2
(4)

Avem nevoie de câteva rezultate privind însumările:


∑(𝑥𝑖 − 𝑥̄ )2 = ∑(𝑥𝑖2 − 2𝑥̄ 𝑥𝑖 + 𝑥̄ 2 ) = ∑ 𝑥𝑖2 − 2𝑥̄ ∑ 𝑥𝑖 + ∑ 𝑥̄ 2 = ∑ 𝑥𝑖2 − 𝑛𝑥̄ 2 (5)
∑ 𝑥̄ (𝑦𝑖 − 𝑦̄ ) = 𝑥̄ ∑ 𝑦𝑖 − 𝑥̄ ∑ 𝑦̄ = 𝑥̄ 𝑛𝑦̄ − 𝑛𝑥̄ 𝑦̄ = 0 (6)
∑(𝑥𝑖 − 𝑥̄ ) (𝑦𝑖 − 𝑦̄ ) = ∑ 𝑥𝑖 (𝑦𝑖 − 𝑦̄ ) = ∑(𝑥𝑖 − 𝑥̄ )𝑦𝑖 = ∑ 𝑥𝑖 𝑦𝑖 − 𝑛𝑥̄ 𝑦̄ (7)

Relaţia (4) devine: ∑(𝑥𝑖 − 𝑥̄ ) (𝑦𝑖 − 𝑦̄ ) = 𝑏1 ∑(𝑥𝑖 − 𝑥̄ )2


Cu condiţia ca ∑(𝑥𝑖 − 𝑥̄ )2 > 0, panta estimată va fi dată de relaţia

∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑆𝑥𝑦


𝑏1 = = (8)
∑(𝑥𝑖 −𝑥̄ )2 𝑆𝑥2

∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ )


𝑆𝑥𝑦 = reprezintă covarianţa de selecţie dintre X şi Y
𝑛
∑(𝑥𝑖 −𝑥̄ )2
𝑆𝑥2 = este dispersia (varianţa) de selecţie a lui X.
𝑛
Notăm că estimaţiile pentru 𝑏0 şi 𝑏1 (𝛽̂0 şi 𝛽̂1) sunt unice.
Se poate arăta că soluţia obţinută este un minim.

Estimăm parametrul pantă:


∑ 𝑥𝑖 𝑦𝑖 −𝑛𝑥̄ 𝑦̄
𝛽̂1 = 𝑏1 = 2 = ??
∑ 𝑥𝑖 −𝑛𝑥̄ 2
Interpretare pentru 𝜷 ̂ 𝟏:
𝛽̂1=… măsoară panta dreptei de regresie şi arată că, atunci când variabila X creşte cu o
unitate, variabila Y se modifică (creşte sau scade), în medie, cu 𝛽̂1=.…unităţi.

Estimăm parametrul de interceptare:


𝛽̂0 = 𝑏0 = 𝑦̄ − 𝑏1 𝑥̄ = ???
Ecuaţia estimată este :
𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 = ......+........ 𝑥𝑖

3
Modele Regresie liniară unifactorială (simplă)
Ex1. Consumul unei familii în funcţie de Venitul disponibil

Pentru a evalua influenţa Venitului disponibil asupra Cheltuielilor de consum ale unei familii, au fost
înregistrate, pentru 10 familii, valorile următoarelor variabile: Venitul disponibil al familiei si Cheltuielile
de Consum ale familiei.
X 80 100 120 140 160 180 200 220 240 260
Y 70 65 90 95 110 115 120 140 155 150
Fiecare familie a fost selectată, la întâmplare, dintr-un grup de familii cu un venit net disponibil fixat.
Valorile celor două variabile sunt exprimate în mii lei, astfel încât prima familie câştigă 80 mii lei şi
consumă 70 mii lei anual.
Variabilele sunt:
X – Venitul disponibil al familiei, exprimat în mii lei
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – Cheltuielile de Consum ale familiei, exprimate în mii lei
(variabila dependentă sau variabila explicată sau variabila endogenă)

1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
2. Pe baza datelor din eşantion, estimaţi coeficienţii modelului de regresie adecvat analizei dependenţei
dintre cele două variabile şi interpretaţi valorile obţinute.
3. Să se testeze validitatea modelului de regresie liniară la un prag de semnificaţie de 5%
(nivel de semnificaţie =0,05; valoare tabelară 5,32).
4. Calculaţi coeficientul de determinaţie şi interpretaţi rezultatul obţinut.
5. Calculaţi raportul de corelaţie, testaţi semnificaţia acestuia şi interpretaţi rezultatul obţinut.
6. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie
Pearson si testaţi semnificaţia statistică a acestuia.
7. Să se rezolve problema în Excel
8. Să se testeze semnificaţia statistică a parametrilor modelului
(nivel de semnificaţie =0,05; valoare tabelară: 2,306).
9. Determinaţi şi interpretaţi intervalele de încredere 95% pentru parametrii modelului
10. Să se raporteze rezultatele analizei de regresie
11. Să se previzioneze cheltuielile medii de consum ale unei familii, în ipoteza că venitul disponibil
este de 280 mii lei.
12. Să se previzioneze cheltuielile de consum ale unei familii, în ipoteza că venitul disponibil este de
280 mii lei.

Rezolvare:

1. Pentru a identifica existenţa unei relaţii de dependenţă între variabilele analizate, ca şi forma şi sensul
relaţiei de dependenţă, construim diagrama împrăştierii datelor. Pentru a crea o diagramă a datelor trebuie
să stabilim care variabilă ar trebui să apară pe axa orizontală. În analiza de regresie, variabila explicativă
apare totdeauna pe axa orizontală iar variabila explicată pe axa verticală.

Folosim Excel pentru a efectua calculele pentru estimarea unui model de regresie.
Valorile observate pentru variabilele X şi Y pot fi introduse în coloanele A şi B sau B și C.

1
Reprezentăm grafic perechile de puncte observate (𝑥𝑖 , 𝑦𝑖 ).
În Excel, selectăm: Insert / Chart / XY(Scatter)…

Se observă că între variabilele X şi Y există o legătură directă şi liniară.

2. Rezultă că putem considera că între cele două variabile există o relaţie de forma: 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 ; 𝑖 = 1,2, . . . , 𝑛.
Notăm estimatorii parametrilor 𝛽0 şi 𝛽1 cu 𝑏0 şi 𝑏1 sau 𝛽̂0 şi 𝛽̂1
Pentru a determina estimatorii 𝑏0 şi 𝑏1 ai parametrilor 𝛽0 şi 𝛽1, rezolvăm sistemul de ecuaţii normale:
𝑏0 𝑛 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 10𝑏0 + 1700𝑏1 = 1110
{ 2 {
𝑏0 ∑ 𝑥𝑖 + 𝑏1 ∑ 𝑥𝑖 = ∑ 𝑥𝑖 𝑦𝑖 1700𝑏0 + 322000𝑏1 = 205500
Soluţiile sistemului se pot obţine folosind metoda determinanţilor:
𝛥𝑏0 ∑ 𝑦𝑖 ∑ 𝑥𝑖2 −∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 (1110)(322000)−(1700)(205500)
𝑏0 = = ⇒ 𝑏0 = ≈ 24,4545
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝛥𝑏1 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖 (10)(205500)−(1700)(1110)
𝑏1 = = ⇒ 𝑏1 = ≈ 0,5091
𝛥 𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 (10)(322000)−(1700)2
𝑛 ∑ 𝑥𝑖 ∑ 𝑦𝑖 ∑ 𝑥𝑖 𝑛 ∑ 𝑦𝑖
unde ∆= | 2 |; ∆𝑏0 = | | ; ∆𝑏1 = | |
∑ 𝑥𝑖 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖 ∑ 𝑥𝑖2 ∑ 𝑥𝑖 ∑ 𝑥𝑖 𝑦𝑖
Valorile estimatorii 𝑏0 şi 𝑏1 se pot afla și folosind formulele:
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) (16800)
𝑏1 = ⇒ 𝑏1 = ≈ 0,5091
∑(𝑥𝑖 −𝑥̄ )2 √(33000)(8890)
𝑏0 = 𝑦̄ − 𝑏1 𝑥̄ ⇒ 𝑏0 = 111 − (0,5091)(170) ≈ 24,4545

Dreapta de regresie estimată este 𝑦̂𝑖 = 𝑏0 + 𝑏1 ⋅ 𝑥𝑖 sau 𝑦̂𝑖 = 𝛽̂0 + 𝛽̂1 ⋅ 𝑥𝑖


𝑦̂𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
Fiecare punct de pe dreapta de regresie este o estimaţie a valorii medii a lui Y, corespunzător valorii alese
pentru X. Deci 𝑦̂𝑖 este o estimaţie pentru 𝐸(𝑌|𝑋𝑖 ).
Interpretarea parametrilor obţinuţi:
𝑏1 = 𝛽̂1 ≈ 0,5091 măsoară panta dreptei de regresie şi arată că, atunci când Venitul (X) creşte cu o
unitate, adica cu 1000 lei, Cheltuielile de consum (Y) cresc, în medie, cu 0,5091 mii lei.
𝑏0 = 𝛽̂0 ≈ 24,4545 arată nivelul cheltuielilor de consum, atunci când venitul este 0.
Interpretăm pe 𝑏0 ≈ 24,4545 ca fiind efectul mediu asupra lui Y, al tuturor factorilor care nu sunt luaţi în
considerare în modelul de regresie.

3. Testarea validităţii modelului de regresie folosind metoda ANOVA


Să se verifice dacă modelul de regresie identificat este valid statistic
(valoare tabelară: 5,32 pentru un nivel de semnificaţie de 0,05).

2
Fie α nivelul sau pragul de semnificaţie al testului, iar 1-α este nivelul de încredere al testului. Dacă nu se
specifică, vom considera în general că =0,05 sau 100α% = 5%, iar 1-=0,95 sau 100(1-α)% = 95%.
Pentru testarea validităţii modelului de regresie construim tabelul ANOVA:

Sursă variaţie df SS MS F Fcritic


Regression k SSR=∑(𝑦̂𝑖 − 𝑦̄ )2 MSR=
𝑆𝑆𝑅 𝑀𝑆𝑅
F=𝑀𝑆𝐸 𝐹𝛼;𝑘,𝑛−𝑘−1
𝑘
Residual n-k-1 SSE=∑(𝑦𝑖 − 𝑦̂𝑖 ) 2 𝑆𝑆𝐸
MSE=𝑠𝑒2 = 𝑛−𝑘−1
Total n-1 SST=∑(𝑦𝑖 − 𝑦̄ )2
Aici k reprezintă numărul de variabile explicative din model

Se completează tabelul de analiză a varianţei (ANOVA)


Sursă Nr grade Suma pătratelor Media pătratelor Statistica
variaţie libertate (df) abaterilor (SS) (MS) F
Regresia k=1 SSR=8552,73 MSR=SSR/1=8552,73 F=MSR/MSE=202,87
Eroarea n-2=8 SSE=337,27 MSE=SSE/(n-2)=42,159
Totală n-1=9 SST=8890,00

𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̄ )2 = 8890,0 - variaţia totală a valorilor variabilei Y, suma pătratelor abaterilor totale.
𝑆𝑆𝑅 = ∑(𝑦̂𝑖 − 𝑦̄ )2 =8552,73 reprezintă variaţia explicată prin factorul de regresie.
𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2 = ∑ 𝑒𝑖2 =337,27 - variaţia neexplicata (reziduala), variaţia datorată erorilor.
SST=SSR+SSE
𝑆𝑆𝐸
𝑀𝑆𝐸 = 𝑛−2 = 𝑠𝑒2 =337,27/8=42,159 - varianţa erorilor în eşantion (dispersia reziduurilor)
𝑆𝑆𝐸
𝑠𝑒 = √𝑛−2 este abaterea standard a erorilor în eşantion
𝑆𝑆𝑇
De asemenea, se poate calcula si dispersia de selecţie a lui Y, adică 𝑠𝑦2 = 𝑛−1

Pentru testarea validităţii modelului se formulează 2 ipoteze:


H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
𝑆𝑆𝑅
𝑀𝑆𝑅 𝑘
Folosim statistica: 𝐹 = = 𝑆𝑆𝐸 care urmează o distribuţie 𝐹𝑖𝑠h𝑒𝑟 𝑘,𝑛−𝑘−1.
𝑀𝑆𝐸
𝑛−𝑘−1
Regiunea critică: 𝑅𝑐 : 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;1,𝑛−2
Dacă 𝐹calculat > 𝐹𝛼;1,𝑛−2 respingem H0 şi acceptăm H1
𝐹calculat = 8552,73/42,159 = 202,87,
𝐹tabelat = 𝐹critic = 𝐹𝛼;1,𝑛−2 = 𝐹0,05;1,8 = 5,32
Deoarece 202,87 > 5,32 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.
Observaţie: În tabelul din Excel apare şi o probabilitate (Significance F)

4. Calculați coeficientul de determinaţie şi interpretaţi rezultatul obţinut.


Coeficientul de determinaţie arată proporţia din variaţia totală a variabilei dependente Y, explicată de
variaţia variabilei independente X, deci prin modelul de regresie estimat.

3
𝑆𝑆𝑅 ∑(𝑦̂ −𝑦̄ )2 𝑆𝑆𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑅 2 = 𝑆𝑆𝑇 = ∑(𝑦𝑖 −𝑦̄ )2 sau 𝑅 2 = 1 − 𝑆𝑆𝑇 = 1 − ∑(𝑦𝑖 −𝑦̄ )2
0 ≤ 𝑅2 ≤ 1
𝑖

În ce măsură, variaţia cheltuielilor de consum este influenţată de venitul disponibil al familiei, pe baza
modelului de regresie determinat?
𝑹𝟐 ≈ 𝟎, 𝟗𝟔𝟐𝟏, arată că 96,21% din variaţia cheltuielilor de consum (Y) este explicată prin variaţia
venitului disponibil (X). Deoarece 𝑅 2 poate fi cel mult 1, valoarea obţinută sugerează că dreapta de
regresie estimată aproximează (ajustează) foarte bine datele de observaţie.

5. Determinarea raportului de corelaţie şi testarea semnificaţiei acestuia


Raportul de corelaţie (Multiple R) dintre cele două variabile este:
𝑆𝑆𝑅 ∑(𝑦̂ −𝑦̄ )2 𝑆𝑆𝐸 ∑(𝑦𝑖 −𝑦̂𝑖 )2
𝑅 = √𝑆𝑆𝑇 = √∑(𝑦𝑖 −𝑦̄ )2 sau 𝑅 = √1 − 𝑆𝑆𝑇 = √1 − ∑(𝑦𝑖 −𝑦̄ )2
0≤𝑅≤1
𝑖
𝑹 ≈ 𝟎, 𝟗𝟖𝟎𝟖
Raportul de corelaţie se determină pentru legături liniare sau neliniare.
Egalitatea |𝑟| = R este un test de liniaritate pentru model.
Valoarea apropiată de 1 a raportului de corelatie arată că între cele două variabile există o legătură foarte
puternică.
Coeficientul de determinaţie ajustat (Adjusted R-squared)
̅ 𝟐 = 1 − 𝑆𝑆𝐸/(𝑛−𝑘−1). Totdeauna avem: 𝑹
𝑹 ̅ 𝟐 < 𝑹𝟐 . Coeficientul de determinaţie ajustat se utilizează
𝑆𝑆𝑇/(𝑛−1)
pentru a identifica variabilele independente care au influenţă asupra lui Y. Dacă în model se introduce o
variabilă independentă care are efect explicativ asupra lui Y, valoarea lui 𝑹 ̅ 𝟐 creşte. Dacă în model se
̅ 𝟐 scade.
introduce o variabilă independentă care nu are efect explicativ asupra lui Y, valoarea lui 𝑹

Testarea semnificaţiei Raportului de corelaţie


Cele două ipoteze ale testului sunt:
𝐻0 : 𝑅 2 = 0 ( Raportul de corelaţie nu este semnificativ statistic; modelul nu este corect specificat)
(adică variabila X nu are efect asupra variabilei Y)
2
𝐻1 : 𝑅 > 0 ( Raportul de corelaţie este semnificativ statistic; modelul este corect specificat)
( adică variabila X are efect asupra variabilei Y)
𝑅2
𝐹= (𝑛 − 2)~𝐹𝑖𝑠h𝑒𝑟1,𝑛−2
1 − 𝑅2
Se aplică regula de decizie: dacă 𝐹calc > 𝐹𝛼;1,𝑛−2 se respinge ipoteza nulă în favoarea ipotezei alternative.
Deoarece 𝐹calc ≈ 202 şi 𝐹𝛼;1,𝑛−2 = 5,32 respingem H0 şi acceptăm H1, modelul este corect specificat
⇒ Raportul de corelaţie este semnificativ statistic
⇒ variabila X are efect asupra variabilei Y.
6. Calculaţi coeficientul liniar de corelaţie Pearson şi testaţi semnificaţia statistică a acestuia.
Se notează cu ρ coeficientul de corelaţie din colectivitatea generală.
Se notează cu r coeficientul de corelaţie liniara din esantion
1−𝑟 2
Media estimatorului r este ρ şi abaterea standard este 𝑠𝑟 = √ 𝑛−2
Coeficientul de corelaţie de selecţie caracterizează direcţia şi intensitatea legăturii liniare dintre două
variabile. Semnul acestui coeficient indică direcţia legături iar valoarea sa indică intensitatea legăturii.
𝑆𝑥𝑦 ∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑛 ∑ 𝑥𝑖 𝑦𝑖 −∑ 𝑥𝑖 ∑ 𝑦𝑖
𝑟𝑥𝑦 = 𝑆 𝑆 = 2 2
= ∈ [−1, +1]
𝑥 𝑦 √[∑(𝑥𝑖 −𝑥̄ ) ][∑(𝑦𝑖 −𝑦̄ ) ] √[𝑛 ∑ 𝑥𝑖2 −(∑ 𝑥𝑖 )2 ][𝑛 ∑ 𝑦𝑖2 −(∑ 𝑦𝑖 )2 ]

4
∑(𝑥𝑖 −𝑥̄ )(𝑦𝑖 −𝑦̄ ) 𝑆𝑥𝑦 𝑆
𝑏1 = =𝑆 ⇒ 𝑟𝑥𝑦 = 𝑏1 𝑆𝑥 .
∑(𝑥𝑖 −𝑥̄ )2 𝑥𝑥 𝑦
Rezultă că 𝑟𝑥𝑦 are acelaşi semn cu coeficientul de regresie 𝑏1 .
𝑟 = 𝑟𝑥𝑦 = 0,9808 ⇒ există o legătură directă şi foarte puternică între cele două variabile analizate.
În EXCEL se utilizează funcţia CORREL pentru determinarea coeficientului de corelaţie Pearson.

Testarea semnificaţiei coeficientului de corelaţie liniară se face utilizând testul t.


𝐻0 : 𝜌 = 0 (coeficientul de corelaţie 𝜌 nu este semnificativ statistic)
(între cele două variabile nu există o dependenţă liniară semnificativă)
𝐻1 : 𝜌 ≠ 0 ( coeficientul de corelaţie 𝜌 este semnificativ statistic).
(între cele două variabile există o dependenţă liniară semnificativă)

Statistica testului urmează o distribuţie Student cu (n-2) grade de libertate.


𝑟−0 𝑟
𝑡 = 𝑠 = √1−𝑟2 ⋅ √𝑛 − 2 ~ 𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑟
Dacă 𝑡calculat > 𝑡critic , respingem 𝐻0 şi acceptăm 𝐻1 , adică 𝜌 este semnificativ statistic.
𝑡critic = 𝑡α/2,n-2 = 𝑡0,025;8 = 2,306
0,980847
𝑡calculat = ⋅ √10 − 2 = 14,25039
√1 − (0,980847)2
Doarece 14,25039 > 2,306, deci avem 𝑡calculat > 𝑡α/2;n-2 rezultă că
vom respinge 𝐻0 şi vom accepta 𝐻1 ;
⇒ Coeficientul de corelaţie liniara este semnificativ statistic.
⇒ Între cele două variabile există o dependenţă liniară semnificativă.

7. Estimarea parametrilor modelului de regresie liniară unifactorială utilizând EXCEL


Selectăm: Data, apoi Data Analysis şi apoi Regression din lista de instrumente de analiză afişate.
Introducem valorile pentru variabilele Y şi X.

5
8. Să se testeze semnificaţia statistică a parametrilor modelului
Inferenţa statistică privind parametrii modelului se poate realiza prin:
• Testarea ipotezei statistice referitoare la semnificaţia parametrilor;
• Estimarea pe interval de încredere a parametrilor modelului.

Calculăm abaterile medii pătratice ale estimatorilor parametrilor modelului


Varianţele estimatorilor 𝛽̂1 şi 𝛽̂0 sunt date de următoarele relaţii:
𝜎2 1 𝑥̄ 2 𝜎2 ∑ 𝑥𝑖2
𝑉𝑎𝑟(𝛽̂1 ) = ; 𝑉𝑎𝑟(𝛽̂0 ) = 𝜎 2 ( +
∑(𝑥𝑖 −𝑥̄ )2
)= ∑(𝑥𝑖 −𝑥̄ )2
𝑛 𝑛 ∑(𝑥𝑖 −𝑥̄ )2
2
Varianţa erorilor aleatoare este 𝜎 , dar este necunoscută şi trebuie estimată.
Un estimator nedeplasat pentru 𝝈𝟐 este varianţa erorilor estimate: 𝜎̂ 2 = 𝑠𝑒2 = 42,159.
Abaterea medie pătratică a erorilor estimate este: 𝑠𝑒 = √42,159 = 6,493
Estimaţiile abaterilor medii pătratice ale estimatorilor parametrilor modelului sunt:
1
𝑠𝛽̂1 = 𝑠𝑏1 = 𝑠𝑒 ⋅ 2
= 0,0357
√∑(𝑥𝑖 −𝑥̄ )

𝑖 ∑ 𝑥2 1 𝑥̄ 2
𝑠𝛽̂0 = 𝑠𝑏0 = 𝑠𝑒 ⋅ √𝑛 ∑(𝑥 −𝑥̄ = 𝑠𝑒 ⋅ √𝑛 + ∑(𝑥 −𝑥̄ )2 = 6,4138
)2 𝑖 𝑖

Testarea semnificaţiei parametrului pantă 1


𝐻0 : 𝛽1 = 0 (parametrul pantă 𝛽1 nu este semnificativ statistic; 𝛽1 nu diferă semnificativ de zero)
𝐻1 : 𝛽1 ≠ 0 (parametrul pantă 𝛽1 este semnificativ statistic; 𝛽1 diferă semnificativ de zero).
̂1 −0
𝛽 𝑏1 −0
Statistica testului este 𝑡= = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑏1
1
adică urmează o distribuţie Student cu (n-2) grade de libertate dacă H0 este adevărată.
𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟−𝑣𝑎𝑙𝑜𝑎𝑟𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑢
Avem: 𝑡 = 𝑎𝑏𝑎𝑡𝑒𝑟𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑢𝑙𝑢𝑖
Avem TB (Test Bilateral)
Vom determina Regiunea critică sau de respingere a ipotezei H0.

Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2


2 2
sau 𝑅𝑐 : |𝑡calc | > 𝑡𝛼;𝑛−2
2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1
Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑏1 −0 0,5091
𝑡calc = = 0,0357 = 14,2432
𝑠𝑏1
𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 =2,306
Deoarece 14,2432>2,306  𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒ 𝛽1 este semnificativ statistic.
(Spunem că o statistică este semnificativă dacă valoarea testului statistic se găseşte în regiunea critică.
În acest caz se respinge H0.)

6
Observaţie:
2
Pentru cazul k=1 şi coeficientul pantă avem 𝑡𝑐𝑎𝑙𝑐 =𝐹
2
Verificare: (14,2432) = 202,87

Testarea semnificaţiei parametrului de interceptare 𝛽0


𝐻0 : 𝛽0 = 0 (𝛽0 nu este semnificativ statistic; 𝛽0 nu diferă semnificativ de zero)
𝐻1 : 𝛽0 ≠ 0 (𝛽0 este semnificativ statistic; 𝛽0 diferă semnificativ de zero).
̂0 −0
𝛽 𝑏0 −0
Sub ipoteza nulă statistica: 𝑡 = = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑏0
0
Vom determina Regiunea critică sau de respingere a ipotezei H0
Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2
2 2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1

Dacă |𝑡calc | > 𝑡𝛼;𝑛−2 atunci respingem 𝐻0 şi acceptăm 𝐻1 la un nivel de semnificaţie de 𝛼%.
2
𝑏0 −0 24,4545
𝑡calc = = = 3,8128
𝑠𝑏0 6,4138
𝑡calc = 24,4545/6,4138 = 3,8128; 𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;8 = 2,306
Deoarece 3,8128>2,306  𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒ 𝛽0 este semnificativ statistic.

9. Estimarea pe interval de încredere a parametrilor modelului.


Un interval de încredere 𝟏𝟎𝟎(𝟏 − 𝜶)% pentru parametrul pantă 𝜷𝟏 este de forma:
(𝑏1 − 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 ≤ 𝛽1 ≤ 𝑏1 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 )
2 2
(0,5091 − (2,306)(0,0357) ≤ 𝛽1 ≤ 0,5901 + 2,306(0,0357))
0,4268 ≤ 𝛽1 ≤ 0,5914
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul 0,4268 ≤ 𝛽1 ≤ 0,5914, vor include valoarea reală a lui 𝛽1.
Intervalul [0,4268; 0,5914] acoperă valoarea reală a parametrului 𝛽1 cu o probabilitate de 95%.
Se poate testa dacă 𝛽1 = 0 privind la intervalul de încredere pentru 𝛽1 şi observând dacă acesta conţine
valoarea zero. Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽1 ≠ 0. Spunem că:
„Factorul X are putere explicativă semnificativă pentru Y” sau „𝛽1 este semnificativ diferit de zero” sau
„𝛽1 este semnificativ statistic”.
Un interval de încredere 100(1-α)% pentru parametrul 𝜷𝟎 este de forma:
(𝑏0 − 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏0 ≤ 𝛽0 ≤ 𝑏0 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏0 )
2 2
(24,4545 − (2,306)(6,4138); 24,4545 + 2,306(6,4138)) ⇒
9,6643 ≤ 𝛽0 ≤ 39,2448 ⇒ Interpretare...
Interpretare: Dat fiind un coeficient de încredere de 95%, pe termen lung, în 95 din 100 de cazuri, intervale
precum intervalul [9,6643 ≤ 𝛽0 ≤ 39,2448], vor include valoarea reală a lui 𝛽0.
Intervalul [9,6643; 39,2448] acoperă valoarea reală a parametrului 𝛽0 cu o probabilitate de 95%.
Se poate testa dacă 𝛽0 = 0 privind la intervalul de încredere pentru 𝛽0 şi observând dacă acesta conţine
valoarea zero. Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽0 ≠ 0.
Important! Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
• Folosim testul t
• Folosim P-value
• Folosim intervalele de încredere

7
10. Raportarea rezultatelor analizei de regresie
𝑦̂𝑖 = 24,4545 + 0,5091 × 𝑥𝑖
𝑠𝑒 (6,4138) (0,0357) 𝑅 2 = 0,9621
𝑡 (3,8128) (14,2432) 𝑑𝑓 = 8
𝑝 (0,0051) (0,0000) 𝐹 = 202,8679

11. Să se previzioneze (prognozeze) cheltuielile medii de consum ale unei familii, în ipoteza că
venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Suntem în situaţia de a prognoza media condiționată 𝐸(𝑌|𝑋 = 𝑥𝑛+1 ) = 𝛽0 + 𝛽1 𝑥𝑛+1
Putem obţine estimaţii punctuale sau prin intervale de încredere.
Folosim ecuaţia de regresie estimată: 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
O estimaţie punctuală a previziunii mediei este
𝑦̂𝑛+1 = 𝑏0 + 𝑏1 𝑥𝑛+1 = 24,4545 + 0,5091 ⋅ 280 = 167,0025 mii lei
Un Interval de încredere pentru predicţia mediei condiţionate este de forma :
1 (𝑥𝑛+1 − 𝑥̄ )2
𝑦̂𝑛+1 ± 𝑡𝛼,𝑛−2 ⋅ √𝑠𝑒2 ( + )
2 𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (4,4356) 
156,7741 ≤ 𝐸(𝑌|𝑥𝑛+1 = 280) ≤ 177,2310
Dacă obţinem intervale de încredere 95% pentru fiecare X dat, vom obţine, ca interval de încredere, o
bandă de încredere pentru funcţia de regresie a populaţiei.

12. Să se previzioneze (prognozeze) cheltuielile de consum ale unei familii, în ipoteza că


venitul disponibil este 𝑥𝑝 = 𝑥𝑛+1 =280 mii lei.
Se doreşte predicţia unei valori individuale a variabilei Y
Putem obţine estimaţii punctuale sau prin intervale de încredere
Folosim ecuaţia de regresie estimată: 𝑦̂𝑖 = 𝑏0 + 𝑏1 𝑥𝑖 = 24,4545 + 0,5091 ⋅ 𝑥𝑖
O predicţie punctuală a valorii individuale 𝑦𝑛+1 = 𝛽0 + 𝛽1 𝑥𝑛+1 + 𝜀𝑛+1 este
𝑦̂𝑛+1 = 𝑏0 + 𝑏1 𝑥𝑛+1 = 24,4545 + 0,5091 ⋅ 280=167,0025 mii lei
Un Interval de încredere pentru predicţia valorii individuale 𝑦𝑛+1 este de forma :
1 (𝑥𝑛+1 − 𝑥̄ )2
𝑦̂𝑛+1 ± 𝑡𝛼,𝑛−2 ⋅ √𝑠𝑒2 (1 + + )
2 𝑛 ∑(𝑥𝑖 − 𝑥̄ )2
167,0025 ± (2,306) ⋅ (7,8634) 
148,8695 ≤ (𝑦𝑛+1 |𝑥𝑛+1 = 280) ≤ 185,1355
8
Observaţie: Se obţine un interval de lungime mai mare pentru o valoare individuală 𝑦𝑛+1 decât pentru
media condiționată 𝐸(𝑌|𝑥𝑛+1 ). Banda de încredere este mai mică atunci când valoarea lui 𝑥𝑛+1 se apropie
de media de selecţie 𝑥̄ .

Ex2. Cererea pentru un produs în funcţie de Preţ


Legea cererii postulează o relaţie inversă între cantitatea cerută dintr-un produs şi preţul său, toate celelalte
variabile care afectează cererea fiind considerate constante.
O editură doreşte să studieze legătura dintre numărul de albume vândute şi preţul unui anumit album (de
pictură). În acest scop, au fost înregistrate, în 10 oraşe, valorile următoarelor variabile:
Y – numărul de albume vândute;
X – preţul albumului (în euro).
Y 49 45 44 39 38 37 34 33 30 29
X 1 2 3 4 5 6 7 8 9 10
1. Să se reprezinte grafic datele de observaţie şi să se comenteze legătura dintre cele două variabile.
Se observă că între variabilele X şi Y există o legătură liniară inversă.

Modelul Cerere-Pret

60
50
40
cantitate

30 Series1
20
10
0
0 2 4 6 8 10 12
pret

2. Pe baza datelor de la nivelul eşantionului, să se determine ecuaţia de regresie liniară care modelează
legătura dintre cele două variabile. Să se estimeze parametrii modelului şi să se interpreteze rezultatele
obţinute.
Considerăm modelul:
𝑦𝑖 = 𝛽0 + 𝛽1 𝑥𝑖 + 𝜀𝑖 , 𝑖 = 1,2, . . . , 𝑛.
Pentru a determina estimatorii 𝛽̂0 şi 𝛽̂1 ai parametrilor 𝛽0 şi 𝛽1, rezolvăm sistemul de ecuaţii normale ale
lui Gauss.
𝛽̂0 𝑛 + 𝛽̂1 ∑ 𝑥𝑖 = ∑ 𝑦𝑖 10𝛽̂0 + 55𝛽̂1 = 378
{ { .
𝛽̂0 ∑ 𝑥𝑖 + 𝛽̂1 ∑ 𝑥𝑖2 = ∑ 𝑥𝑖 𝑦𝑖 55𝛽̂0 + 385𝛽̂1 = 1901
Obţinem: 𝛽̂0 ≈ 49,6667 şi 𝛽̂1 ≈ −2,1575
Dreapta de regresie estimată este
𝑦̂𝑖 = 49,6667 − 2,1575 ⋅ 𝑥𝑖

Interpretarea parametrilor obţinuţi:


𝛽̂1 ≈ −2,1575 măsoară panta dreptei de regresie şi arată că, atunci când Preţul (X) creşte cu un euro,
numărul de albume vândute (Y) scade, în medie, cu două unităţi (bucăţi).
Valoarea 𝛽̂0 ≈ 49,6667 arată numărul de albume vândute, atunci când preţul unui album este 0. În
general, parametrul de interceptare nu are semnificaţie economică. Interpretăm pe 𝛽̂0 ≈ 49,6667 ca fiind
efectul mediu asupra lui Y, al tuturor factorilor care nu sunt luaţi în considerare în modelul de regresie.

9
Regresie liniară simplă − output din Excel de completat − Rezolvare

Exercițiu: Pentru a determina legătura dintre Consumul zilnic de tablete de ciocolată al unei persoane şi
Preţul unei tablete (în euro), am folosit un model de regresie liniară unifactorială 𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀.
În urma prelucrării datelor observate cu Excel, am obţinut rezultatele de mai jos:

Regression Statistics
Multiple R ………
R Square ………
Adjusted R Square 0,6205
Standard Error 0,1289
Observations 11
ANOVA
df SS MS F
Regression ……….. ……… ……….. 17,3554.
Residual ……….. ……… ………..
Total ……… ………..
Coefficients Stand.Error t Stat P-value Lower 95% Upper 95%
Intercept 2,6917 0,1220 ……….. 0,0000 2,4157 ………
X Variab.1 ……….. 0,1145 ……….. 0,0024 -0,7359 ………..

a) Completaţi informaţiile care lipsesc


(se vor preciza formulele utilizate pentru obţinerea valorilor care lipsesc).
b) Scrieţi ecuaţia de regresie estimată. Interpretaţi valoarea coeficientului pantă.
c) Testaţi validitatea modelului (nivelul de semnificaţie este  = 0,05 şi valoarea tabelară 5,12) .
d) În ce proporţie consumul de ciocolată este influenţat de preţ ?
e) Testaţi semnificaţia coeficientului pantă şi interpretaţi intervalul de încredere pentru acesta
(nivelul de semnificaţie este 5% şi valoarea tabelară 2,26).
f) Testaţi dacă parametrul pantă diferă semnificativ de -0,3.
g) Previzionaţi Consumul zilnic de tablete de ciocolată al unei persoane ştiind că Preţul unei tablete este
de 2 euro

Rezolvare.
a) Ne gândim ce informaţii sunt cunoscute şi care informaţii pot fi completate mai întâi.
𝑆𝑆𝑅
Multiple R este Raportul de corelaţie dintre cele două variabile: 𝑅 = √𝑆𝑆𝑇 = ? Nu putem calcula acum.
𝑆𝑆𝑅
R Square este Coeficientul de determinaţie: 𝑅 2 = 𝑆𝑆𝑇 = ? Nu putem calcula acum.
Standard Error este abaterea standard a erorilor în eşantion: 𝑠𝑒 = 0,1289
𝑆𝑆𝐸
Ştim că 𝑀𝑆𝐸 = 𝑛−2 = 𝑠𝑒2 = (0,1289)2 = 0,016615 = 0,0166
Pe coloana df avem: k=1; n-2=9; n-1=10
Putem calcula SSE=MSE*9 = 0,1494
Din F și MSE aflăm MSR=F*MSE = (17,3554)*(0,0166) = 0,2881
Rezultă SSR = 0,2881
SST = SSR+SSE = 0,2881+0,0166 = 0,4375
𝑆𝑆𝑅 0,2881
Coeficientul de determinaţie este: 𝑅 2 = 𝑆𝑆𝑇 = 0,4375 = 0,6585
𝑆𝑆𝑅
Raportul de corelaţie este : 𝑅 = √𝑆𝑆𝑇 = √0,6585 = 0,8115
Putem calcula parametrul pantă din limitele Intervalelor de încredere.
Limita inferioară (Lower 95%) = 𝑏1 − 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 = −0,7359
2
 𝑏1 = 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 + (−0,7359) = (2,26)*(0,1145) −0,7359 = −0,4771
2
Completăm coloana „t Stat”
𝑏0 −0 2,6917
Pentru 𝑏0 avem 𝑡calc = = 0,1220 = 22,0631
𝑠𝑏0
𝑏1 −0 −0,4771
Pentru 𝑏1 avem 𝑡calc = = = −4,1668
𝑠𝑏1 0,1145
Completăm coloana „Upper 95%”
Pentru 𝑏0 avem Limita superioară (Upper 95%) = 𝑏0 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏0 = 2,6917+(2,26)*(0,1220) = 2,9674
2
Pentru 𝑏1 avem Limita superioară (Upper 95%) = 𝑏1 + 𝑡𝛼;𝑛−2 ∙ 𝑠𝑏1 = (−0,4771)+2,26*(0,1145) = −0,2183
2

b) Dreapta de regresie estimată este 𝑦


̂𝑖 = 2,6917 − 0,4771 ⋅ 𝑥𝑖
Interpretare:
𝑏1 = −0,4771 măsoară panta dreptei de regresie şi arată că, atunci când Preţul unei tablete de ciocolată
creşte cu un euro, Consumul zilnic de tablete de ciocolată al unei persoane, scade, în medie,
cu 0,4771 tablete.

c) Testaţi validitatea modelului (nivelul de semnificaţie este  = 0,05 şi valoarea tabelară 5,12) .
H0: modelul nu este valid statistic (MSR=MSE)
H1: modelul este valid statistic (MSR>MSE)
𝑀𝑆𝑅
Statistica testului este: 𝐹 = ~𝐹𝑖𝑠h𝑒𝑟 1,𝑛−2
𝑀𝑆𝐸
Regiunea critică: 𝑅𝑐 : 𝐹𝑐𝑎𝑙𝑐 > 𝐹𝛼;1,𝑛−2
𝐹tabelat = 𝐹critic = 𝐹𝛼;1,𝑛−2 = 𝐹0,05;1,9 = 5,12
𝐹calculat = 17,3554 > 5,12
Deoarece 𝐹calculat ∈ 𝑅𝑐 ⇒ respingem H0 ⇒ acceptăm H1 ⇒ Modelul este valid statistic.

d) În ce proporţie consumul de ciocolată este influenţat de preţ ?


𝑆𝑆𝑅 0,2881
Coeficientul de determinaţie este: 𝑅 2 = 𝑆𝑆𝑇 = 0,4375 = 0,6585
 65,85% din variaţia variabilei Y (Consumul zilnic de tablete de ciocolată al unei persoane)
este explicată prin variaţia variabilei X (Preţul unei tablete de ciocolată).

e) Testaţi semnificaţia coeficientului pantă şi interpretaţi intervalul de încredere pentru acesta


(nivelul de semnificaţie este 5% şi valoarea tabelară 2,26).

Testarea semnificaţiei parametrului pantă 1


𝐻0 : 𝛽1 = 0 (𝛽1 nu diferă semnificativ de zero)
𝐻1 : 𝛽1 ≠ 0 (𝛽1 diferă semnificativ de zero).
̂1 −0
𝛽 𝑏1 −0
Statistica testului este 𝑡= = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂ 𝑠𝑏1
1

Regiunea critică: 𝑅𝑐 : 𝑡𝑐𝑎𝑙𝑐 < −𝑡𝛼,𝑛−2 sau 𝑡𝑐𝑎𝑙𝑐 > 𝑡𝛼,𝑛−2


2 2
Decizia: Dacă 𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐 respingem H0 şi acceptăm H1
𝑏 −0 −0,4771
𝑡calc = 𝑠1 = 0,1145 = −4,1668
𝑏1
𝑡critic = 𝑡tabela𝑡 = 𝑡0,025;9 = 2,26
Deoarece −4,1668 < −2,26  𝑡𝑐𝑎𝑙𝑐 ∈ 𝑅𝑐  respingem H0 şi acceptăm H1 ⇒ 𝛽1 este semnificativ statistic.
Observaţie:
2
Pentru cazul k=1 şi pentru coeficientul pantă avem: 𝑡𝑐𝑎𝑙𝑐 =𝐹
Verificare: (−4,1668)  17,3622
2
Notă: Putem testa semnificaţia coeficientului pantă folosind P-value:
P-value = 0,0024 < 0,05  respingem H0 şi acceptăm H1 ⇒ 𝛽1 este semnificativ statistic.

Intervalul de încredere 95% pentru parametrul pantă 𝛽1 este: −0,7359 ≤ 𝛽1 ≤ −0,2183


Intervalul [−0,7359; −0,2183] acoperă valoarea reală a parametrului 𝛽1 cu o probabilitate de 95%.
Intervalul construit nu conţine valoarea 0, deci suntem încrezători că 𝛽1 ≠ 0.
Spunem că: „𝛽1 este semnificativ diferit de zero” sau „𝛽1 este semnificativ statistic”.

Important!
Pentru testarea semnificaţiei coeficienţilor avem 3 posibilităţi, cu rezultate identice:
• Folosim testul t
• Folosim P-value
• Folosim intervalele de încredere

f) Testaţi dacă parametrul pantă diferă semnificativ de −0,3.


𝐻0 : 𝛽1 = −0,3 (𝛽1 nu diferă semnificativ de −0,3)
𝐻1 : 𝛽1 ≠ −0,3 (𝛽1 diferă semnificativ de −0,3).
̂1 −𝛽1
𝛽 𝑏1 −𝛽1
Statistica testului este 𝑡= = ~𝑆𝑡𝑢𝑑𝑒𝑛𝑡𝑛−2
𝑠𝛽
̂1 𝑠𝑏1
𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟−𝑣𝑎𝑙𝑜𝑎𝑟𝑒 𝑝𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑢
Avem: 𝑡 = 𝑎𝑏𝑎𝑡𝑒𝑟𝑒𝑎 𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝑎 𝑒𝑠𝑡𝑖𝑚𝑎𝑡𝑜𝑟𝑢𝑙𝑢𝑖

𝑏1 −𝛽1 −0,4771−(−0,3)
𝑡calc = = = −1,54
𝑠𝑏1 0,1145
Deoarece −1,54 > −2,26  𝑡𝑐𝑎𝑙𝑐 𝑅𝑐  acceptăm H0 ⇒ 𝛽1 nu diferă semnificativ de −0,3.

g) Previzionaţi Consumul zilnic de tablete de ciocolată al unei persoane ştiind că Preţul unei tablete este
de 2 euro.

Folosim ecuaţia de regresie estimată: 𝑦̂𝑖 = 2,6917 − 0,4771 ⋅ 𝑥𝑖


Se doreşte predicţia unei valori individuale a lui Y, cunoscând că x = 2.
𝑦̂𝑝 = 𝑏0 + 𝑏1 𝑥𝑝 = 2,6917 − 0,4771 ⋅ 2 = 1,7375 tablete, este o estimaţie punctuală (predicţie punctuală)
a valorii individuale 𝑦𝑝 = 𝛽0 + 𝛽1 𝑥𝑝 + 𝜀𝑝

Output-ul completat este:

Regression Statistics
Multiple R 0.8114
R Square 0.6584
Adjusted R Square 0.6205
Standard Error 0.1289
Observations 11

ANOVA
df SS MS F Significance F
Regression 1 0.2881 0.2881 17.3479 0.0024
Residual 9 0.1495 0.0166
Total 10 0.4376

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%


Intercept 2.6917 0.1220 22.0617 0.0000 2.4157 2.9677
X Variable 1 -0.4769 0.1145 -4.1651 0.0024 -0.7360 -0.2179

S-ar putea să vă placă și