Urmează să se găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe
şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri.
Sunt înregistrate în tabel date de la cele mai recente 15 incendii referitoare la valoarea
prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri.
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
REZOLVARE
Corelograma
50.0
45.0
(valoarea prejudiciului, in mii Eur)
Valorile variabilei dependente Y
40.0
35.0
30.0
25.0
20.0
15.0
10.0
5.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
Corelograma sugerează că există o legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y =f ( X ) , o funcţie
liniară f ( x )=α +β⋅x .
Modelul liniar de regresie este Y =α+ βX + ε .
Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-
x , y , i=1 , n }
sau {( i i )
x , y , x , y ,. . ., ( x n , y n ) }
se astfel seria de date {( 1 1 ) ( 2 2 ) . Pe baza acestui eşantion se
determină estimatorii a şi b ai parametrilor α şi, respectiv, β ai modelului de regresie. Estimatorii
a şi b reprezintă soluţia sistemului ecuaţiilor normale:
n n
n
n ∑ xi
i=1
Δ=| n n
|
∑ xi ∑ x 2i
unde i=1 i=1
n n n
∑ yi ∑ xi n ∑ yi
Δ a =| ni=1 i=1
n
| Δ b =| n i=1
n
|
∑ x i y i ∑ x 2i ∑ xi ∑ xi yi
iar i =1 i=1 , i=1 i=1
n n n n
{ Δ
( )( ) ( )( )
∑ yi ⋅ ∑ x2i − ∑ xi ⋅ ∑ xi yi
Δa i=1 i=1 i=1
a= = n n 2
( )( )
n⋅ ∑ x2i − ∑ x i
i=1 i=1
i=1
¿ ¿¿¿
Calculele intermediare sunt prezentate în tabelul de mai jos:
a 10,27793
b ajustat 4,919331
α
și
β
3. De determinat estimatorii prin metoda centrării datelor.
β
= 1470,65 / 196,16 = 7,49
ˆ
ˆ Y X 26,413 7,49 3,28 1,846.
Tabelul ANOVA
Grade
de
Sursa Suma pătratelor Media pătratelor
variaţiei (
liberta Valoarea statisticii F Fcritic
te
2
Explicat[ MSR s y / x
de SSR=Δ 2y / x=841,76 k = 1 MSR=s 2y/ x=841, 76 F calc= = 2 =156 , 89F0 ,05; 1, 13=4,667
regresie MSE se
2 2
Reziduală
SSE=Δ e =69 ,751n1 –= k13– MSE=s e =5 ,365
Totală SST = Δ2y=911 ,52 n= –141
5. Să se calculeze coeficientul de detrminație.
2
2 SSR Δ y / x 841 , 76
R= = = =0 , 9235
SST Δ2y 911, 52
şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de incendii este explicată de
variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).
x̄ 2 x̄ 2
√(
1 1
unde
sa= s 2e⋅
n
+
2
n
∑ ( xi − x̄ )
i=1
2
)=se⋅ +
n
√ n
∑ ( xi − x̄ )2
i=1
este abaterea standard (eroarea standard) a
s e= √ s2e
se
este disperia reziduala sau a erorilor, iar este abaterea standard
estimatorului a,
reziduală (eroarea standard reziduală sau a erorilor).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică α=0, este
a−0 a a 10 ,2779
t calc= = t calc= = =7 , 237
sa sa sa 1 , 42
, deci , cu sa=1,42.
Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este
Rc =(−∞;t critic )∪( t critic ;∞ ) =
= −∞, t α '
( 2
; n−k−1 )∪(t α'
2
; n−k−1
;∞
)=(−∞;t )∪(t 0,05
2
; 13
0 , 05 ;∞
2
; 13 ) ,
t critic =t α '
; n−k−1
2
unde este valoarea critica a testului t bilateral pentru testarea semnificatiei parametrilor
α'
unui model liniar de regresie cu k variabile explicative si la un nivel de semnificatie .
t α' =t 0 , 05 =2 ,160=t critic
, atunci t calc=7 , 237 ∈ R c=(−∞ ;−2 ,160 )∪( 2 ,160 ;∞ ) ,
; n−k−1 ; 13
2 2
Cum
deci respingen H0 şi concluzionăm ca parametrul α este semnificativ statistic.
7. Să se explice verificarea estimatorului dispersiei riziduale (ipotezele nule ) pentru β .
Y =α+ β⋅X +ε
Testarea semnificaţiei parametrului β al modelului linear de regresie :
H0: β=0 (parametrul este nesemnificativ statistic)
H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)
b−β
t= ∈ Student ( n−k −1)
sb
Statistica testului este ,
1 se
unde
s b = s 2e⋅
√ i =1
n
∑ ( x i − x̄ )2
=
√∑ ( i=1
n
x i− x̄ )
2
a−tα' ⋅saunderbracealignl⏟
limita inferioara intervalului ¿ a parametrului α ¿ ≤α≤a+tα' ⋅saunderbracealignl⏟
limita superioara intervalului ¿ a parametrului α ¿ ¿
;n−k−1 ;n−k−1
2 de incredere (1-α')⋅10 %¿ 2 de incredere (1-α ')⋅10 %¿
,
unde sa este eroarea standard a estimatorului a.
t α' =t 0 , 05 =2 ,160
; n−k−1 ; 13
În cazul nostru, a=10,2779, sa=1,42, α’=0,05,
2 2 , deci intervalul [7,21;
13,34] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori
[7,21; 13,34] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar
lângă staţia de pompieri.
Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
b−tα' ⋅sbunderbracealignl⏟
limita inferioara intervalului ¿ a parametrului β ¿ ≤β≤b+t α' ⋅sbunderbracealignl⏟
limita superioara intervalului ¿ a parametrului β ¿ ¿
;n−k−1 ;n−k−1
2 de incredere (1-α')⋅10 %¿ 2 de incredere (1-α ')⋅10 %¿
,
unde sb este eroarea standard a estimatorului b.
t α' =t 0 , 05 =2 ,160
; n−k−1 ; 13
În cazul nostru, b=4,9193, sb=0,39, α’=0,05, , deci intervalul [4,07; 2 2
5,76] acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa
devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul
[4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Δ 2y / x 841 ,76
R=
SSR
SST
=
Δ2y √ =
911, 52 √
=0 ,96098 ∈ [ 0 ;1 ]
√
Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.
Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea