Sunteți pe pagina 1din 27

Exemplu Model unifactorial

de regresie liniară

1
Exemplu. Număr-poliţe în funcţie de Timpul-mediu
Pentru 15 agenŃi de asigurări, angajaŃi ai unei companii de asigurări de
viaŃă, se cunosc datele privind timpul mediu (X) petrecut de un agent cu
un potenŃial client şi numărul de poliŃe (Y) încheiate de fiecare într-o
săptămână .

X: Timp mediu
25 23 30 25 20 33 18 21 22 30 26 26 27 29 20
(în minute)

Y: Nr. poliŃe 10 11 14 12 8 18 9 10 10 15 11 15 12 14 11

CerinŃe:
1. Să se testeze validitatea modelului de regresie pentru un nivel de
semnificaŃie α = 5% (valoare tabelară: 4,67);
2. Să se testeze semnificaŃia parametrilor modelului de regresie
( nivel de semnificaŃie α = 5%; valoare tabelară: 2,160);
3. Să se determine intervalele de încredere ale acestora;
4. Să se testeze semnificația raportului de corelație pentru un nivel de
semnificaŃie α = 5% (valoare tabelară: 2,160);
Exemplu. Estimarea modelului în Excel

SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
0.763923
Square
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000
Upper
Coefficients Standard Error t Stat P-value Lower 95%
95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.689313
Timpul mediu 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619
Exemplu. Regression Statistics
Table 1.SUMMARY OUTPUT
Regression Statistics

SSR SSE
Multiple R
0.883621 R = = 1−
Raportul de corelatie (R) SST SST

R Square SSR SSE


Coeficientul (gradul ) de determinaŃie
0.780786 R2 = = 1−
SST SST

Adjusted R Square 2 SSE /(n − k − 1)


Valoarea ajustată a coeficientului de 0.763923 R = 1−
determinaŃie SST /(n − 1)

Standard Error SSE


Abaterea medie pătratică a erorilor în 1.311483 se =
eşantion
n − k −1

Observations
15
Numărul observaŃiilor (n)
Exemplu. Interpretare R-Square

• Interpretare rezultate din tabelul SUMMARY OUTPUT:

• R= 0,883621 arată că între numărul de poliţe încheiate şi timpul mediu


petrecut cu un potenţial client există o legătură puternică.

• R2 =0,780786 arată că 78,0786% din variaţia numărului de poliţe încheiate


este explicată de timpul mediu petrecut de un agent cu un potenţial client.

• Abaterea medie pătratică a erorilor se = 1,311483.


În cazul în care acest indicator este zero înseamnă că toate punctele
sunt pe dreapta de regresie.
Exemplu. Tabelul ANOVA

df
MS
SS (degree of
=SS / df F
Sursa variaŃiei (Sum of Squares) freedom) Significance F
(media pătratelor (testul F)
(suma pătratelor) (grade de
=dispersia corectată)
libertate)

( )
n
SSR = ∑ yˆi − y
2 SSR
MSR =
i =1 k=1 k
Regression (variaŃia
SSR=79,64 79,640152
datorată regresiei) Testul
n SSE
SSE = ∑( yi − yˆi ) MSR
2
MSE = 0,000013< 0,05
n-k-1=13 n − k −1 F=
i =1 MSE
Residual (resping H0 –
SSE= 22,36 1,719988 model valid)
(variaŃia reziduală)

( )
n F = 46,302727
SST = ∑ yi − y
2

i =1 n-1=14
Total (variaŃia SST= 102
totală) SST=SSR + SSE
Exemplu. Testarea validităţii modelului de regresie

– H0: MSR = MSE (modelul nu este valid);


(influenţa lui X nu este diferită de cea a factorilor aleatori)
– H1: MSR > MSE (modelul este valid);
(influenţele lui X şi ale factorilor aleatori diferă semnificativ)
MSR 79 , 64
F = = = 46 , 30
– Statistica testului: MSE 1 , 7199
– Regiunea critică: F c > Fα ; k ; n − k − 1
– Valoarea critică: Ftabelar = Fα ; k ; n − k −1 = Fα ;1;n − 2 = F0, 05;1;13 = 4,67

– Deoarece Fcalc (46,30) > F0,05; 1; 13 (4,67)


atunci Ho se respinge, se acc.H1⇒ modelul este valid
o Significance F (probabilitate critică) este 0,000013 < 0,05 (pragul de semnificaţie)
Modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre
cele două variabile.
Testarea semnificaţiei lui R sau R2

 H 0 : R 2 = 0 (raportul de corelaţie al eşantionului care-l estimează pe cel de la nivelul colectivităţii,


nu diferă semnificativ de zero, deci nu este semnificativ statistic, prin urmare modelul nu este valid);
• H1 : R > 0 (raportul de corelaţie al eşantionului care-l estimează pe cel de la nivelul colectivităţii,
2

diferă semnificativ de zero, deci este semnificativ statistic);


• Statistica testului:
R2 n − k −1 0,78 13
Fcalc = ⋅ = ⋅ = 46,09
1 − R2 k 1− 0,78 1
• Regiunea critică: Fcalc > Fα ; k ; n−k −1
• Valoarea critică: Fcritic = Fα;k;n−k−1 = Fα;k;n−2 = F0,05;1;13 = 4,67

• Decizia: deoarece Fcalc > F0,05;1;13 (46,9>4,67) ⇒

⇒ Se respinge H0 si se accepta H1, ceea ce înseamnă că raportul de corelaţie al eşantionului care-l


estimează pe cel de la nivelul colectivităţii, diferă semnificativ de zero, deci este semnificativ
statistic, la pragul de semnificatie de 5%.
Testarea semnificaţiei parametrilor modelului
I

9
I
Testarea semnificaţiei parametrilor modelului

β0 nu este semnificativ
diferit de zero
β1 este semnificativ diferit
de zero
R2=78.07%

Fcalc=46.30

modelul este valid

10
Testarea semnificaţiei parametrilor modelului

Testăm ipotezele
a) H0: β0= 0 a − 1.73
tcalc = = = −0.846
sa 2.046
H1: β0 ≠ 0
tcritic = t0,025;13 = 2,160
b) H0: β1 = 0 b 0.549
tcalc = = = 6.804
sb 0.08
H1: β1≠ 0
Deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom
utiliza testul t.

11
Testarea semnificaţiei parametrilor modelului

Decizia pentru β0:


– Deoarece tcalc < tα / 2;n − 2 ( − 0.846 < 2.160)

acceptăm Ho, ceea ce înseamnă că

β0 nu este semnificativ diferit de zero, deci β0 nu este semnificativ statistic.

Decizia pentru β1 :

–Deoarece tcalc > tα / 2;n − 2 ( 6.804 > 2.160)

respingem Ho şi acceptăm H1, adică


β1 este semnificativ diferit de zero, deci β1 este semnificativ statistic.

12
Testarea semnificaţiei parametrilor folosind P-value
Despre P-value

• Înaintea începerii unui test statistic clasic, se pune problema alegerii


unui nivel de semnificaŃie. Acesta exprimă riscul maximal de a greşi pe
care suntem dispuşi să-l acceptăm (de regulă 5%, 1% sau chiar mai mic)
atunci când luăm decizia de respingere a ipotezei nule.

• Pachetele software evaluează riscul de a lua decizia greşită, pe baza


datelor de care dispunem, rămânând la latitudinea fiecăruia dacă îşi asumă
sau nu acest risc. Acest risc evaluat pe baza datelor apare în tabele, la
fiecare test de semnificaŃie, şi se numeşte valoarea P (P-value).

• Pentru ca un coeficient să fie semnificativ diferit de zero, deci


variabila independentă asociată lui să influenŃeze variabila dependentă,
trebuie ca în coloana P-value să avem valori mai mici decât pragul de
semnificaŃie (5%).

13
Testarea semnificaţiei parametrilor folosind P-value

Pentru parametrul β0 :

Avem P-value = 0,412843 > α (0,05) pragul de semnificaŃie. Putem


afirma că, dacă respingem ipoteza nulă potrivit căreia interceptul este
egal cu zero, facem o eroare mare (41,28%). Prin urmare se acceptă
Ho, potrivit careia parametrul β0 nu este semnificativ diferit de zero.

Pentru parametrul β1 :

Avem P-value = 0,000013 < α (0,05) pragul de semnificaŃie. Putem


afirma că, dacă respingem ipoteza nulă că parametrul β1 este egal cu
zero, facem o eroare foarte mică, de 0,0013%. Prin urmare,
respingem Ho şi acceptăm ca adevărată ipoteza H1, că β1 este diferit
de zero.

14
Intervale de încredere pentru parametrii
modelului

 Intervalul de încredere pentru β0:


a − tα / 2 , n − 2 ⋅ s a ≤ β 0 ≤ a + tα / 2 , n − 2 ⋅ s a
− 1,73 − 2,160 ⋅ 2,046 ≤ β 0 ≤ −1,73 + 2,160 ⋅ 2,046
− 6 ,15 ≤ β 0 ≤ 2 , 68

 Intervalul de încredere pentru β1:


b − tα / 2 ,n − 2 ⋅ s b ≤ β 1 ≤ b + tα / 2 ,n − 2 ⋅ s b

0 ,549 − 2 ,160 ⋅ 0 , 08 ≤ β 1 ≤ 0 ,549 + 2 ,160 ⋅ 0 , 08


0 , 374 ≤ β 1 ≤ 0 , 723

15
Coeficientul de corelaţie liniară

Coeficientul de corelaŃie liniară r reprezintă un estimator al


parametrului ρ, coeficientul de corelaŃie din colectivitatea generală.
N

COV ( X , Y ) σ xy ∑(x i − µ X )( y i − µ Y )
ρ = = = i =1
σ xσ y σ xσ y  N 2 
N
2 
 ∑
 i =1
( x i − µ X )  ∑
  i =1
( y i − µ Y ) 

Media estimatorului r este
E (r ) = ρ
Abaterea standard este

1− r2
sr =
n−2

16
Testarea semnificaţiei coeficientului de corelaţie

 Este un indicator sintetic care măsoară intensitatea legăturii liniare dintre


două variabile n n n
n ∑ xi yi − ∑ xi ⋅ ∑ yi
cov( x, y )
r= = i =1 i =1 i =1
∈ [− 1,1]
sx ⋅ s y  n 2  n   n 2  n  
2 2

n ∑ xi −  ∑ xi   n ∑ yi −  ∑ yi  
 i =1  i =1    i =1  i =1  

Testarea semnificaŃiei coeficientului liniar de corelaŃie

H0 : ρ = 0
(ρ nu este semnificativ statistic)
H1 : ρ ≠ 0
( ρ este semnificativ statistic)
r n−2
t calc = t critic = tα / 2,n − 2
1− r 2

t calc > t critic (tα / 2,n − 2 )


 Decizia: dacă , respingem Ho şi acceptăm H1, ρ este
semnificativ statistic.
Exemplu. Testarea semnificaţiei coeficientului de corelaţie

Validarea coeficientului de corelaţie determinat anterior (r=0.8836):


H0 : ρ = 0 ( ρ nu este semnificativ statistic)
( ρ este semnificativ statistic)
H1 : ρ ≠ 0
Se alege nivelul de încredere al testului statistic (1 − α ) = 95% ⇒ α = 0.05

Se calculează valoarea numerică a testului statistic (Student):


r n−2 0,8836 15 − 2 3,185
t calc = = = = 6,804
1− r2 1 − 0,8836 2 0,468

Se determină din tabelul cu valorile repartiţiei t (Student) în funcţie de α şi numărul gradelor de


libertate (n-2): tcritic = t0,025;13 = 2,160

Decizia: tcalc > tα / 2,n − 2 se resp.Ho, se acc.H1, coeficientul de corelatie ρ este semnificativ statistic.
18
Realizarea de previziuni utilizând modelul de regresie

• Tipuri de previziuni
– Previziuni punctuale
– Previziuni pe intervale de încredere

19
Realizarea de previziuni utilizând modelul de regresie

A. Previziunea mediei condiŃionate


Fiind dată valoarea x0 , dorim să previzionăm media condiŃionată E(Y | X = x0 ) .
Ştim că E(Y | X = x0 ) = β0 + β1 x0 .
Fie y)0 = a + bx0 estimatorul mediei condiŃionate a predicŃiei lui Y, E(Y | X = x0 ) .
Media estimatorului y)0 = a + bx0 este
)
E( y0 ) = E(a + b x0 ) = E(a) + E(b)x0 = β0 + β1 x0 .
Rezultă că y)0 = a + bx0 este un predictor nedeplasat al mediei condiŃionate
E(Y | X = x0 ) = β0 + β1 x0 .
Deşi teoria economică arată că, sub ipotezele modelului clasic de regresie, y)0 = a + bx0
este un estimator nedeplasat al valorii medii reale (adică un punct de pe dreapta de
regresie a populaŃiei), este puŃin probabil să avem egalitate. Există o eroare de
previziune, e0 .

20
Realizarea de previziuni utilizând modelul de regresie

Determinarea unui Interval de încredere pentru predicŃia valorii medii condiŃionate


)
Teoremă: Dacă x 0 este fixat şi eroarea aleatoare ε ~ N (0, σ 2 ) , atunci predictorul y 0 = a + bx0 are o
)
distribuŃie normală, cu media E ( y 0 ) = β 0 + β 1 x 0
 ( x0 − x ) 2    
 , adică: yˆ 0 ~ N  β 0 + β1 x0 , σ 2  1 + ( x0 − x )
2
) 2 1
şi varianŃa Var ( y 0 ) = σ +  .
n    n ∑ (x − x)2 
 ∑ ( xi − x ) 2    i 
VarianŃa σ 2 este necunoscută şi se aproximează prin estimatorul nedeplasat s e2 .
) ) 1 ( x0 − x ) 2
EstimaŃia erorii standard a estimatorului y 0 va fi se( y 0 ) = s e ⋅ + .
n ∑ ( xi − x ) 2
)
y 0 − (β 0 + β1 x0 )
Statistica t = are o distribuŃie Student cu (n − 2) grade de libertate.
se( yˆ 0 )
Putem folosi distribuŃia Student pentru a determina un interval de încredere 100 (1 − α )% pentru
E (Y | x0 ) = β 0 + β1 x0 , de forma:
) ) ) )
y 0 − tα / 2, n − 2 ⋅ se( y 0 ) ≤ E ( y 0 | x 0 ) = β 0 + β 1 x 0 ≤ y 0 + tα / 2, n − 2 ⋅ se( y 0 ) ,
unde tα / 2,n− 2 este valoarea critică din distribuŃia Student cu ( n − 2) grade de libertate.

21
Realizarea de previziuni utilizând modelul de regresie

B. Previziunea unei valori individuale


Presupunem că X ia valoarea x0 . Dorim să previzionăm o valoare a lui Y: y0 = (Y | X = x0 ) . Avem
y0 = β0 + β1 x0 + ε 0 .
)
y0 = a + bx0 este un predictor punctual pentru valoarea y0 = β0 + β1 x0 + ε 0 .
)
Dorim să obŃinem y0 = β0 + β1 x0 + ε 0 , dar prognozăm aceasta ca fiind y0 = a + bx0 .
y0 diferă de E( y0 ) prin ε0 . Apare o eroare de previziune.
)
Eroarea de previziune estimată este: e0 = y0 − y0 = (a − β0 ) + (b − β1 )x0 + ε 0 .
)
Media erorii de previziune etimate este: E(e0 ) = E( y0 − y0 ) = E(a − β0 ) + x0 E(b − β1 ) + E(ε 0 ) = 0 dacă
E(a − β0 ) = 0 , E(b − β1 ) = 0 şi E(ε0 ) = 0 .
)
VarianŃa erorii de previziune estimate este: Var( y0 − y0 ) = Var(a) + x02Var(b) + 2x0Cov(a, b) +Var(ε 0 ) =
2 1 x 2  2 x02 2 2x0 x 2 1 (x0 − x)2 
= σ  +  + σ −σ +σ = σ 1+ +
2 
2
 n Sxx  Sxx Sxx  n ∑(xi − x) 

22
Realizarea de previziuni utilizând modelul de regresie

Determinarea unui Interval de încredere pentru predicŃia individuală


Pentru a construi un Interval de Încredere pentru previzionare, este necesar să cunoaştem distribuŃia
estimatorului, precum şi media şi varianŃa acestuia.
Teoremă: Dacă x0 este fixat şi eroarea aleatoare ε are o distribuŃie normală cu media 0 şi varianŃa σ 2 ,
)
atunci eroarea de previziune e0 = y0 − y0 are o distribuŃie normală, cu media 0 şi varianŃa
) 2 1 (x0 − x)2  )  2  1 ( x0 − x) 2  
Var( y0 − y0 ) = σ 1 + +  , adică: y0 − y0 ~ N 0,σ 1 + +  .
2   2 
 n ∑ ( xi − x)    n ∑ ( xi − x)  
VarianŃa σ 2 este necunoscută şi se aproximează prin estimatorul nedeplasat se2
) 1 (x0 − x) 2
EstimaŃia erorii standard: se( y0 − y0 ) = se ⋅ 1 + + .
n ∑ ( xi − x) 2

)
y0 − y 0
Statistica t = ) are o distribuŃie Student cu (n − 2) grade de libertate.
se( y0 − y0 )
Un interval de încredere 100 (1 − α )% pentru y0 , este de forma:
) ) ) )
y0 − tα / 2, n−2 ⋅ se( y0 − y0 ) ≤ y0 ≤ y0 + tα / 2, n−2 ⋅ se( y0 − y0 )

23
Realizarea de previziuni utilizând modelul de regresie

A) Interval de încredere
pentru valoarea medie a Y
lui y , fiind dat x0
Yˆi

B) Intervalul de încredere
pentru predicŃia unei valori y0
fiind dat x0

24
Exemplu: Realizarea de previziuni

CerinŃă
 6. Să se construiască un interval de încredere pentru numărul de poliŃe
dacă valoarea anticipată a timpului mediu petrecut de un agent cu un
potenŃial client este de 35 minute, dacă rezultatele se garantează cu o
probabilitate de 95%.
Realizarea de previziuni utilizând modelul de regresie

26
Realizarea de previziuni utilizând modelul de regresie

EstimaŃie
punctuală
Dacă timpul mediu este x0 = 35 , atunci

yˆ 0 = −1.73 + 0.5492 x0 = −1.73 + 0.5492 * 35 = 17.492


Intervalul de încredere pentru numărul de poliŃe încheiate de un agent,
dacă timpul mediu a fost de 35 min:
  tα / 2;n − 2 = t0.025,13 = 2,53
1 ( x0 − x ) 2
y0 ∈  yˆ 0 ± t α ⋅ se ⋅ 1 + +  ∑ ( yi − yˆ i )
2
22.35
 , n−2 n ∑ ( xi − x ) 2
 se2 = = = 1,719
2 n−2 13
Dispersia erorii de prognoză este egală cu:

 
 1 2 
( x0 − x )   1 (35 − 25) 2 
2
se 1 + + n = 1.7191 + +  = 2.484

 n − 2   15 264 
 ∑ i ( x x )  Rezultatele se
 i =1 
garantează cu
y 0 ∈ [17 .492 ± 2,53 ⋅1.576 ] = [13,5;21,5]
probabilitatea 95%
27

S-ar putea să vă placă și