AT3.3 Model Regresie Simpla-Nr - Polite

Exemplu Model unifactorial
de regresie liniară
1
Exemplu. Număr-poliţe în funcţie de Timpul-mediu
Pentru 15 agenŃi de asigurări, angajaŃi ai unei companii de asigurări de
viaŃă, se cunosc datele privind timpul mediu (X) petrecut de un agent cu
un potenŃial client şi numărul de poliŃe (Y) încheiate de fiecare într-o
săptămână .
X: Timp mediu
25 23 30 25 20 33 18 21 22 30 26 26 27 29 20
(în minute)
Y: Nr. poliŃe 10 11 14 12 8 18 9 10 10 15 11 15 12 14 11
CerinŃe:
1. Să se testeze validitatea modelului de regresie pentru un nivel de
semnificaŃie α = 5% (valoare tabelară: 4,67);
2. Să se testeze semnificaŃia parametrilor modelului de regresie
( nivel de semnificaŃie α = 5%; valoare tabelară: 2,160);
3. Să se determine intervalele de încredere ale acestora;
4. Să se testeze semnificația raportului de corelație pentru un nivel de
semnificaŃie α = 5% (valoare tabelară: 2,160);
Exemplu. Estimarea modelului în Excel
SUMMARY OUTPUT
Regression Statistics
Multiple R 0.883621
R Square 0.780786
Adjusted R
0.763923
Square
Standard Error 1.311483
Observations 15.000000
ANOVA
df SS MS F Significance F
Regression 1.000000 79.640152 79.640152 46.302727 0.000013
Residual 13.000000 22.359848 1.719988
Total 14.000000 102.000000
Upper
Coefficients Standard Error t Stat P-value Lower 95%
95%
Intercept -1.731061 2.046120 -0.846021 0.412843 -6.151434 2.689313
Timpul mediu 0.549242 0.080716 6.804611 0.000013 0.374866 0.723619
Exemplu. Regression Statistics
Table 1.SUMMARY OUTPUT
Regression Statistics
SSR SSE
Multiple R
0.883621 R = = 1−
Raportul de corelatie (R) SST SST
R Square SSR SSE

Coeficientul (gradul ) de determinaŃie
0.780786 R2 = = 1−
SST SST
Adjusted R Square 2 SSE /(n − k − 1)

Valoarea ajustată a coeficientului de 0.763923 R = 1−
determinaŃie SST /(n − 1)
Standard Error SSE

Abaterea medie pătratică a erorilor în 1.311483 se =
eşantion
n − k −1
Observations
15
Numărul observaŃiilor (n)
Exemplu. Interpretare R-Square
• Interpretare rezultate din tabelul SUMMARY OUTPUT:
• R= 0,883621 arată că între numărul de poliţe încheiate şi timpul mediu

petrecut cu un potenţial client există o legătură puternică.
• R2 =0,780786 arată că 78,0786% din variaţia numărului de poliţe încheiate

este explicată de timpul mediu petrecut de un agent cu un potenţial client.
• Abaterea medie pătratică a erorilor se = 1,311483.

În cazul în care acest indicator este zero înseamnă că toate punctele
sunt pe dreapta de regresie.
Exemplu. Tabelul ANOVA
df
MS
SS (degree of
=SS / df F
Sursa variaŃiei (Sum of Squares) freedom) Significance F
(media pătratelor (testul F)
(suma pătratelor) (grade de
=dispersia corectată)
libertate)
( )
n
SSR = ∑ yî − y
2 SSR
MSR =
i =1 k=1 k
Regression (variaŃia
SSR=79,64 79,640152
datorată regresiei) Testul
n SSE
SSE = ∑( yi − yî ) MSR
2
MSE = 0,000013< 0,05
n-k-1=13 n − k −1 F=
i =1 MSE
Residual (resping H0 –
SSE= 22,36 1,719988 model valid)
(variaŃia reziduală)
( )
n F = 46,302727
SST = ∑ yi − y
2
i =1 n-1=14
Total (variaŃia SST= 102
totală) SST=SSR + SSE
Exemplu. Testarea validităţii modelului de regresie
– H0: MSR = MSE (modelul nu este valid);

(influenţa lui X nu este diferită de cea a factorilor aleatori)
– H1: MSR > MSE (modelul este valid);
(influenţele lui X şi ale factorilor aleatori diferă semnificativ)
MSR 79 , 64
F = = = 46 , 30
– Statistica testului: MSE 1 , 7199
– Regiunea critică: F c > Fα ; k ; n − k − 1
– Valoarea critică: Ftabelar = Fα ; k ; n − k −1 = Fα ;1;n − 2 = F0, 05;1;13 = 4,67
– Deoarece Fcalc (46,30) > F0,05; 1; 13 (4,67)

atunci Ho se respinge, se acc.H1⇒ modelul este valid
o Significance F (probabilitate critică) este 0,000013 < 0,05 (pragul de semnificaţie)
Modelul de regresie construit este valid şi poate fi utilizat pentru analiza dependenţei dintre
cele două variabile.
Testarea semnificaţiei lui R sau R2
H 0 : R 2 = 0 (raportul de corelaţie al eşantionului care-l estimează pe cel de la nivelul colectivităţii,

nu diferă semnificativ de zero, deci nu este semnificativ statistic, prin urmare modelul nu este valid);
• H1 : R > 0 (raportul de corelaţie al eşantionului care-l estimează pe cel de la nivelul colectivităţii,
2
diferă semnificativ de zero, deci este semnificativ statistic);

• Statistica testului:
R2 n − k −1 0,78 13
Fcalc = ⋅ = ⋅ = 46,09
1 − R2 k 1− 0,78 1
• Regiunea critică: Fcalc > Fα ; k ; n−k −1
• Valoarea critică: Fcritic = Fα;k;n−k−1 = Fα;k;n−2 = F0,05;1;13 = 4,67
• Decizia: deoarece Fcalc > F0,05;1;13 (46,9>4,67) ⇒
⇒ Se respinge H0 si se accepta H1, ceea ce înseamnă că raportul de corelaţie al eşantionului care-l

estimează pe cel de la nivelul colectivităţii, diferă semnificativ de zero, deci este semnificativ
statistic, la pragul de semnificatie de 5%.
Testarea semnificaţiei parametrilor modelului
I
9
I
β0 nu este semnificativ
diferit de zero
β1 este semnificativ diferit
de zero
R2=78.07%
Fcalc=46.30
modelul este valid
10
Testăm ipotezele
a) H0: β0= 0 a − 1.73
tcalc = = = −0.846
sa 2.046
H1: β0 ≠ 0
tcritic = t0,025;13 = 2,160
b) H0: β1 = 0 b 0.549
tcalc = = = 6.804
sb 0.08
H1: β1≠ 0
Deoarece n = 15 < 30 avem eşantion de volum redus şi pentru testare vom
utiliza testul t.
11
Decizia pentru β0:

– Deoarece tcalc < tα / 2;n − 2 ( − 0.846 < 2.160)
acceptăm Ho, ceea ce înseamnă că
β0 nu este semnificativ diferit de zero, deci β0 nu este semnificativ statistic.
Decizia pentru β1 :
–Deoarece tcalc > tα / 2;n − 2 ( 6.804 > 2.160)
respingem Ho şi acceptăm H1, adică

β1 este semnificativ diferit de zero, deci β1 este semnificativ statistic.
12
Testarea semnificaţiei parametrilor folosind P-value
Despre P-value
• Înaintea începerii unui test statistic clasic, se pune problema alegerii

unui nivel de semnificaŃie. Acesta exprimă riscul maximal de a greşi pe
care suntem dispuşi să-l acceptăm (de regulă 5%, 1% sau chiar mai mic)
atunci când luăm decizia de respingere a ipotezei nule.
• Pachetele software evaluează riscul de a lua decizia greşită, pe baza

datelor de care dispunem, rămânând la latitudinea fiecăruia dacă îşi asumă
sau nu acest risc. Acest risc evaluat pe baza datelor apare în tabele, la
fiecare test de semnificaŃie, şi se numeşte valoarea P (P-value).
• Pentru ca un coeficient să fie semnificativ diferit de zero, deci

variabila independentă asociată lui să influenŃeze variabila dependentă,
trebuie ca în coloana P-value să avem valori mai mici decât pragul de
semnificaŃie (5%).
13
Testarea semnificaţiei parametrilor folosind P-value
Pentru parametrul β0 :
Avem P-value = 0,412843 > α (0,05) pragul de semnificaŃie. Putem

afirma că, dacă respingem ipoteza nulă potrivit căreia interceptul este
egal cu zero, facem o eroare mare (41,28%). Prin urmare se acceptă
Ho, potrivit careia parametrul β0 nu este semnificativ diferit de zero.
Pentru parametrul β1 :
Avem P-value = 0,000013 < α (0,05) pragul de semnificaŃie. Putem

afirma că, dacă respingem ipoteza nulă că parametrul β1 este egal cu
zero, facem o eroare foarte mică, de 0,0013%. Prin urmare,
respingem Ho şi acceptăm ca adevărată ipoteza H1, că β1 este diferit
de zero.
14
Intervale de încredere pentru parametrii
modelului
Intervalul de încredere pentru β0:

a − tα / 2 , n − 2 ⋅ s a ≤ β 0 ≤ a + tα / 2 , n − 2 ⋅ s a
− 1,73 − 2,160 ⋅ 2,046 ≤ β 0 ≤ −1,73 + 2,160 ⋅ 2,046
− 6 ,15 ≤ β 0 ≤ 2 , 68
Intervalul de încredere pentru β1:

b − tα / 2 ,n − 2 ⋅ s b ≤ β 1 ≤ b + tα / 2 ,n − 2 ⋅ s b
0 ,549 − 2 ,160 ⋅ 0 , 08 ≤ β 1 ≤ 0 ,549 + 2 ,160 ⋅ 0 , 08

0 , 374 ≤ β 1 ≤ 0 , 723
15
Coeficientul de corelaţie liniară
Coeficientul de corelaŃie liniară r reprezintă un estimator al

parametrului ρ, coeficientul de corelaŃie din colectivitatea generală.
N
COV ( X , Y ) σ xy ∑(x i − µ X )( y i − µ Y )
ρ = = = i =1
σ xσ y σ xσ y  N 2 
N
2 
 ∑
 i =1
( x i − µ X )  ∑
  i =1
( y i − µ Y ) 

Media estimatorului r este
E (r ) = ρ
Abaterea standard este
1− r2
sr =
n−2
16
Testarea semnificaţiei coeficientului de corelaţie
Este un indicator sintetic care măsoară intensitatea legăturii liniare dintre

două variabile n n n
n ∑ xi yi − ∑ xi ⋅ ∑ yi
cov( x, y )
r= = i =1 i =1 i =1
∈ [− 1,1]
sx ⋅ s y  n 2  n   n 2  n  
2 2
n ∑ xi −  ∑ xi   n ∑ yi −  ∑ yi  
 i =1  i =1    i =1  i =1  
Testarea semnificaŃiei coeficientului liniar de corelaŃie
H0 : ρ = 0
(ρ nu este semnificativ statistic)
H1 : ρ ≠ 0
( ρ este semnificativ statistic)
r n−2
t calc = t critic = tα / 2,n − 2
1− r 2
t calc > t critic (tα / 2,n − 2 )

Decizia: dacă , respingem Ho şi acceptăm H1, ρ este
semnificativ statistic.
Exemplu. Testarea semnificaţiei coeficientului de corelaţie
Validarea coeficientului de corelaţie determinat anterior (r=0.8836):

H0 : ρ = 0 ( ρ nu este semnificativ statistic)
( ρ este semnificativ statistic)
H1 : ρ ≠ 0
Se alege nivelul de încredere al testului statistic (1 − α ) = 95% ⇒ α = 0.05
Se calculează valoarea numerică a testului statistic (Student):

r n−2 0,8836 15 − 2 3,185
t calc = = = = 6,804
1− r2 1 − 0,8836 2 0,468
Se determină din tabelul cu valorile repartiţiei t (Student) în funcţie de α şi numărul gradelor de

libertate (n-2): tcritic = t0,025;13 = 2,160
Decizia: tcalc > tα / 2,n − 2 se resp.Ho, se acc.H1, coeficientul de corelatie ρ este semnificativ statistic.
18
Realizarea de previziuni utilizând modelul de regresie
• Tipuri de previziuni
– Previziuni punctuale
– Previziuni pe intervale de încredere
19
A. Previziunea mediei condiŃionate

Fiind dată valoarea x0 , dorim să previzionăm media condiŃionată E(Y | X = x0 ) .
Ştim că E(Y | X = x0 ) = β0 + β1 x0 .
Fie y)0 = a + bx0 estimatorul mediei condiŃionate a predicŃiei lui Y, E(Y | X = x0 ) .
Media estimatorului y)0 = a + bx0 este
)
E( y0 ) = E(a + b x0 ) = E(a) + E(b)x0 = β0 + β1 x0 .
Rezultă că y)0 = a + bx0 este un predictor nedeplasat al mediei condiŃionate
E(Y | X = x0 ) = β0 + β1 x0 .
Deşi teoria economică arată că, sub ipotezele modelului clasic de regresie, y)0 = a + bx0
este un estimator nedeplasat al valorii medii reale (adică un punct de pe dreapta de
regresie a populaŃiei), este puŃin probabil să avem egalitate. Există o eroare de
previziune, e0 .
20
Determinarea unui Interval de încredere pentru predicŃia valorii medii condiŃionate

)
Teoremă: Dacă x 0 este fixat şi eroarea aleatoare ε ~ N (0, σ 2 ) , atunci predictorul y 0 = a + bx0 are o
)
distribuŃie normală, cu media E ( y 0 ) = β 0 + β 1 x 0
 ( x0 − x ) 2    
 , adică: yˆ 0 ~ N  β 0 + β1 x0 , σ 2  1 + ( x0 − x )
2
) 2 1
şi varianŃa Var ( y 0 ) = σ +  .
n    n ∑ (x − x)2 
 ∑ ( xi − x ) 2    i 
VarianŃa σ 2 este necunoscută şi se aproximează prin estimatorul nedeplasat s e2 .
) ) 1 ( x0 − x ) 2
EstimaŃia erorii standard a estimatorului y 0 va fi se( y 0 ) = s e ⋅ + .
n ∑ ( xi − x ) 2
)
y 0 − (β 0 + β1 x0 )
Statistica t = are o distribuŃie Student cu (n − 2) grade de libertate.
se( yˆ 0 )
Putem folosi distribuŃia Student pentru a determina un interval de încredere 100 (1 − α )% pentru
E (Y | x0 ) = β 0 + β1 x0 , de forma:
) ) ) )
y 0 − tα / 2, n − 2 ⋅ se( y 0 ) ≤ E ( y 0 | x 0 ) = β 0 + β 1 x 0 ≤ y 0 + tα / 2, n − 2 ⋅ se( y 0 ) ,
unde tα / 2,n− 2 este valoarea critică din distribuŃia Student cu ( n − 2) grade de libertate.
21
B. Previziunea unei valori individuale

Presupunem că X ia valoarea x0 . Dorim să previzionăm o valoare a lui Y: y0 = (Y | X = x0 ) . Avem
y0 = β0 + β1 x0 + ε 0 .
)
y0 = a + bx0 este un predictor punctual pentru valoarea y0 = β0 + β1 x0 + ε 0 .
)
Dorim să obŃinem y0 = β0 + β1 x0 + ε 0 , dar prognozăm aceasta ca fiind y0 = a + bx0 .
y0 diferă de E( y0 ) prin ε0 . Apare o eroare de previziune.
)
Eroarea de previziune estimată este: e0 = y0 − y0 = (a − β0 ) + (b − β1 )x0 + ε 0 .
)
Media erorii de previziune etimate este: E(e0 ) = E( y0 − y0 ) = E(a − β0 ) + x0 E(b − β1 ) + E(ε 0 ) = 0 dacă
E(a − β0 ) = 0 , E(b − β1 ) = 0 şi E(ε0 ) = 0 .
)
VarianŃa erorii de previziune estimate este: Var( y0 − y0 ) = Var(a) + x02Var(b) + 2x0Cov(a, b) +Var(ε 0 ) =
2 1 x 2  2 x02 2 2x0 x 2 1 (x0 − x)2 
= σ  +  + σ −σ +σ = σ 1+ +
2 
2
 n Sxx  Sxx Sxx  n ∑(xi − x) 
22
Determinarea unui Interval de încredere pentru predicŃia individuală

Pentru a construi un Interval de Încredere pentru previzionare, este necesar să cunoaştem distribuŃia
estimatorului, precum şi media şi varianŃa acestuia.
Teoremă: Dacă x0 este fixat şi eroarea aleatoare ε are o distribuŃie normală cu media 0 şi varianŃa σ 2 ,
)
atunci eroarea de previziune e0 = y0 − y0 are o distribuŃie normală, cu media 0 şi varianŃa
) 2 1 (x0 − x)2  )  2  1 ( x0 − x) 2  
Var( y0 − y0 ) = σ 1 + +  , adică: y0 − y0 ~ N 0,σ 1 + +  .
2   2 
 n ∑ ( xi − x)    n ∑ ( xi − x)  
VarianŃa σ 2 este necunoscută şi se aproximează prin estimatorul nedeplasat se2
) 1 (x0 − x) 2
EstimaŃia erorii standard: se( y0 − y0 ) = se ⋅ 1 + + .
n ∑ ( xi − x) 2
)
y0 − y 0
Statistica t = ) are o distribuŃie Student cu (n − 2) grade de libertate.
se( y0 − y0 )
Un interval de încredere 100 (1 − α )% pentru y0 , este de forma:
) ) ) )
y0 − tα / 2, n−2 ⋅ se( y0 − y0 ) ≤ y0 ≤ y0 + tα / 2, n−2 ⋅ se( y0 − y0 )
23
A) Interval de încredere
pentru valoarea medie a Y
lui y , fiind dat x0
Yî
B) Intervalul de încredere
pentru predicŃia unei valori y0
fiind dat x0
24
Exemplu: Realizarea de previziuni
CerinŃă
6. Să se construiască un interval de încredere pentru numărul de poliŃe
dacă valoarea anticipată a timpului mediu petrecut de un agent cu un
potenŃial client este de 35 minute, dacă rezultatele se garantează cu o
probabilitate de 95%.
26
EstimaŃie
punctuală
Dacă timpul mediu este x0 = 35 , atunci
yˆ 0 = −1.73 + 0.5492 x0 = −1.73 + 0.5492 * 35 = 17.492

Intervalul de încredere pentru numărul de poliŃe încheiate de un agent,
dacă timpul mediu a fost de 35 min:
  tα / 2;n − 2 = t0.025,13 = 2,53
1 ( x0 − x ) 2
y0 ∈  yˆ 0 ± t α ⋅ se ⋅ 1 + +  ∑ ( yi − yˆ i )
2
22.35
 , n−2 n ∑ ( xi − x ) 2
 se2 = = = 1,719
2 n−2 13
Dispersia erorii de prognoză este egală cu:
 
 1 2 
( x0 − x )   1 (35 − 25) 2 
2
se 1 + + n = 1.7191 + +  = 2.484

 n − 2   15 264 
 ∑ i ( x x )  Rezultatele se
 i =1 
garantează cu
y 0 ∈ [17 .492 ± 2,53 ⋅1.576 ] = [13,5;21,5]
probabilitatea 95%
27

AT3.3 Model Regresie Simpla-Nr - Polite

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

AT3.3 Model Regresie Simpla-Nr - Polite

Încărcat de

Drepturi de autor:

Formate disponibile

Exemplu Model unifactorial

R Square SSR SSE

Adjusted R Square 2 SSE /(n − k − 1)

Standard Error SSE

• Interpretare rezultate din tabelul SUMMARY OUTPUT:

• R= 0,883621 arată că între numărul de poliţe încheiate şi timpul mediu

• R2 =0,780786 arată că 78,0786% din variaţia numărului de poliţe încheiate

• Abaterea medie pătratică a erorilor se = 1,311483.

– H0: MSR = MSE (modelul nu este valid);

– Deoarece Fcalc (46,30) > F0,05; 1; 13 (4,67)

H 0 : R 2 = 0 (raportul de corelaţie al eşantionului care-l estimează pe cel de la nivelul colectivităţii,

diferă semnificativ de zero, deci este semnificativ statistic);

• Decizia: deoarece Fcalc > F0,05;1;13 (46,9>4,67) ⇒

⇒ Se respinge H0 si se accepta H1, ceea ce înseamnă că raportul de corelaţie al eşantionului care-l

modelul este valid

Decizia pentru β0:

acceptăm Ho, ceea ce înseamnă că

β0 nu este semnificativ diferit de zero, deci β0 nu este semnificativ statistic.

–Deoarece tcalc > tα / 2;n − 2 ( 6.804 > 2.160)

respingem Ho şi acceptăm H1, adică

• Înaintea începerii unui test statistic clasic, se pune problema alegerii

• Pachetele software evaluează riscul de a lua decizia greşită, pe baza

• Pentru ca un coeficient să fie semnificativ diferit de zero, deci

Avem P-value = 0,412843 > α (0,05) pragul de semnificaŃie. Putem

Avem P-value = 0,000013 < α (0,05) pragul de semnificaŃie. Putem

Intervalul de încredere pentru β0:

Intervalul de încredere pentru β1:

0 ,549 − 2 ,160 ⋅ 0 , 08 ≤ β 1 ≤ 0 ,549 + 2 ,160 ⋅ 0 , 08

Coeficientul de corelaŃie liniară r reprezintă un estimator al

Este un indicator sintetic care măsoară intensitatea legăturii liniare dintre

Testarea semnificaŃiei coeficientului liniar de corelaŃie

t calc > t critic (tα / 2,n − 2 )

Validarea coeficientului de corelaţie determinat anterior (r=0.8836):

Se calculează valoarea numerică a testului statistic (Student):

Se determină din tabelul cu valorile repartiţiei t (Student) în funcţie de α şi numărul gradelor de

A. Previziunea mediei condiŃionate

Determinarea unui Interval de încredere pentru predicŃia valorii medii condiŃionate

B. Previziunea unei valori individuale

Determinarea unui Interval de încredere pentru predicŃia individuală

yˆ 0 = −1.73 + 0.5492 x0 = −1.73 + 0.5492 * 35 = 17.492

S-ar putea să vă placă și