Sunteți pe pagina 1din 8

STUDIU DE CAZ

Urmează să se găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe
şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri.
Sunt înregistrate în tabel date de la cele mai recente 15 incendii referitoare la valoarea
prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri.

Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)

1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1

REZOLVARE

1. De specificat modelul econometric ce descrie lagătura dintre cele 2 variabile.


Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată
în zeci de km(variabila independentă )
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro (variabila dependentă )

Corelograma

50.0
45.0
(valoarea prejudiciului, in mii Eur)
Valorile variabilei dependente Y

40.0
35.0

30.0
25.0
20.0

15.0
10.0

5.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
Corelograma sugerează că există o legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y =f ( X ) , o funcţie
liniară f ( x )=α +β⋅x .
Modelul liniar de regresie este Y =α+ βX + ε .

2. De determinat estimatorii α și β prin metoda Kramer.

Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-
x , y , i=1 , n }
sau {( i i )
x , y , x , y ,. . ., ( x n , y n ) }
se astfel seria de date {( 1 1 ) ( 2 2 ) . Pe baza acestui eşantion se
determină estimatorii a şi b ai parametrilor α şi, respectiv, β ai modelului de regresie. Estimatorii
a şi b reprezintă soluţia sistemului ecuaţiilor normale:

n n

{na+b ∑ x i=∑ yi ¿ ¿¿¿


i=1 i=1
Δa Δb
a= b=
Δ si Δ ,

n
n ∑ xi
i=1
Δ=| n n
|
∑ xi ∑ x 2i
unde i=1 i=1

n n n
∑ yi ∑ xi n ∑ yi
Δ a =| ni=1 i=1
n
| Δ b =| n i=1
n
|
∑ x i y i ∑ x 2i ∑ xi ∑ xi yi
iar i =1 i=1 , i=1 i=1

n n n n

{ Δ
( )( ) ( )( )
∑ yi ⋅ ∑ x2i − ∑ xi ⋅ ∑ xi yi
Δa i=1 i=1 i=1
a= = n n 2

( )( )
n⋅ ∑ x2i − ∑ x i
i=1 i=1
i=1
¿ ¿¿¿
Calculele intermediare sunt prezentate în tabelul de mai jos:

x y x=X-Xmedy=Y-YmedXpatrat Ypartat Xmic*Ym XY Xpatrat Yajustat ei xe


3,4 26,2 0,12 -0,21333 0,0144 0,045511 -0,0256 89,08 11,56 27,00365 -0,80365 -2,73242
1,8 17,8 -1,48 -8,61333 2,1904 74,18951 12,74773 32,04 3,24 19,13272 -1,33272 -2,3989
4,6 31,3 1,32 4,886667 1,7424 23,87951 6,4504 143,98 21,16 32,90685 -1,60685 -7,39151
2,3 23,1 -0,98 -3,31333 0,9604 10,97818 3,247067 53,13 5,29 21,59239 1,507611 3,467505
3,1 27,5 -0,18 1,086667 0,0324 1,180844 -0,1956 85,25 9,61 25,52785 1,972146 6,113653
5,5 36 2,22 9,586667 4,9284 91,90418 21,2824 198 30,25 37,33425 -1,33425 -7,33836
0,7 14,1 -2,58 -12,3133 6,6564 151,6182 31,7684 9,87 0,49 13,72146 0,37854 0,264978
3 22,3 -0,28 -4,11333 0,0784 16,91951 1,151733 66,9 9 25,03592 -2,73592 -8,20776
2,6 19,6 -0,68 -6,81333 0,4624 46,42151 4,633067 50,96 6,76 23,06819 -3,46819 -9,01729
4,3 31,3 1,02 4,886667 1,0404 23,87951 4,9844 134,59 18,49 31,43105 -0,13105 -0,56352
2,1 24 -1,18 -2,41333 1,3924 5,824178 2,847733 50,4 4,41 20,60852 3,391477 7,122102
1,1 17,3 -2,18 -9,11333 4,7524 83,05284 19,86707 19,03 1,21 15,68919 1,610808 1,771888
6,1 43,2 2,82 16,78667 7,9524 281,7922 47,3384 263,52 37,21 40,28585 2,914154 17,77634
4,8 36,4 1,52 9,986667 2,3104 99,73351 15,17973 174,72 23,04 33,89072 2,509284 12,04456
3,8 26,1 0,52 -0,31333 0,2704 0,098178 -0,16293 99,18 14,44 28,97139 -2,87139 -10,9113
SUMA 49,2 396,2 0 0 34,784 911,5173 171,114 1470,65 196,16 396,2 0 0
MEDIA 3,28 26,41333 SST

a 10,27793
b ajustat 4,919331

ei xe ei2 ei-1 y patrat


-0,80365 -2,73242 0,645858 166,5043 686,44 0,3484
-1,33272 -2,3989 1,776153 25,32831 -1,8 0,076646 316,84 53,008
-1,60685 -7,39151 2,581967 353,6976 -1,33 9,657245 979,69 42,164
1,507611 3,467505 2,27289 56,1359 -1,6 0,222922 533,61 23,2421
1,972146 6,113653 3,889361 130,5958 1,5 10,91805 756,25 0,7842
-1,33425 -7,33836 1,780217 539,8303 1,97 2,919109 1296 119,2628
0,37854 0,264978 0,143292 0,143292 -1,33 9,646744 198,81 161,0841
-2,73592 -8,20776 7,485262 119,5944 0,37 0,544922 497,29 1,8975
-3,46819 -9,01729 12,02833 80,4284 -2,73 11,0819 384,16 11,1905
-0,13105 -0,56352 0,017174 300,3653 -3,46 12,4008 979,69 25,1762
3,391477 7,122102 11,50212 42,36087 -0,13 3,165525 576 33,6965
1,610808 1,771888 2,594701 2,525532 3,39 1,700818 299,29 115,0078
2,914154 17,77634 8,492294 685,6985 1,61 0,160573 1866,24 192,4415
2,509284 12,04456 6,296506 391,6724 2,91 28,85178 1324,96 55,9091
-2,87139 -10,9113 8,244854 221,1581 2,5 3,4969 681,21 6,5431
0 0 69,75098 3116,039 1,87 11376,48 841,76
SSE SPE DurbinW SSR
Δa 396 , 2⋅196 ,16−49 ,2⋅1470 , 65
a= = =10 , 2779
Se obţine: Δ 15⋅196 , 16−49 , 22
Δb 15⋅1470 ,65−49 , 2⋅396 , 16
b= = =4 , 9193
Δ 15⋅196 ,16−49 , 22 ,

prin urmare dreapta de regresie este de ecuaţie ^y =a+b⋅x=10 , 2779+4 , 9193⋅x ,


ecuaţia de regresie liniară în eşantion este
y i=a+b⋅x i +ei =10 , 2779+4, 9193⋅xi +ei , i=1, 15 ,
iar valorile ajustate ale observaţiilor
y i , i=1,15 prin regresie sunt
^y i=a+b⋅x i =10,2779+4,9193⋅xi , i=1,15 .
Astfel :
 b arată că valoarea prejudiciului creşte, în medie, cu 4,9193 mii euro dacă distanţa dintre incediu şi
staţia de pompieri creşte cu o unitate, adică 10 km (b arată cu cât se modifică, în medie, nivelul
variabilei dependente, daca nivelul variabilei independente crește cu o unitate);
 a arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă
staţia de pompieri (a arată nivelul mediu al variabilei dependente, dacă nivelul variabilei independente
ar fi egal cu 0; a nu are întotdeauna interpretare economica).

α
și
β
3. De determinat estimatorii prin metoda centrării datelor.

β
= 1470,65 / 196,16 = 7,49

ˆ
ˆ  Y    X  26,413 7,49  3,28  1,846.

Deci, estimaţiile parametrilor  şi  sunt  7,49 iar   1,846 .

4.Să se alcătuiască tabelul Anova.

Tabelul ANOVA
Grade
de
Sursa Suma pătratelor Media pătratelor
variaţiei (
liberta Valoarea statisticii F Fcritic
te

2
Explicat[ MSR s y / x
de SSR=Δ 2y / x=841,76 k = 1 MSR=s 2y/ x=841, 76 F calc= = 2 =156 , 89F0 ,05; 1, 13=4,667
regresie MSE se
2 2
Reziduală
SSE=Δ e =69 ,751n1 –= k13– MSE=s e =5 ,365
Totală SST = Δ2y=911 ,52 n= –141
5. Să se calculeze coeficientul de detrminație.
2
2 SSR Δ y / x 841 , 76
R= = = =0 , 9235
SST Δ2y 911, 52
şi arată că 92,35% (adică R2%) din variaţia totală a prejudiciului cauzat de incendii este explicată de
variaţia variabilei independente (distanţa între locul incendiului şi staţia de pompieri).

6. Să se explice verificarea estimatorului dispersiei riziduale (ipotezele nule ) pentru α


.

Testarea semnificatiei parametrului α al modelului linear de regresie Y =α+ β⋅X +ε


:
H0: α=0 (parametrul este nesemnificativ statistic)
H1: α≠0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)
a−α
t= ∈ Student ( n−k −1)
sa
Statistica testului este ,

x̄ 2 x̄ 2

√(
1 1

unde
sa= s 2e⋅
n
+

2
n
∑ ( xi − x̄ )
i=1
2
)=se⋅ +
n
√ n
∑ ( xi − x̄ )2
i=1
este abaterea standard (eroarea standard) a
s e= √ s2e
se
este disperia reziduala sau a erorilor, iar este abaterea standard
estimatorului a,
reziduală (eroarea standard reziduală sau a erorilor).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică α=0, este
a−0 a a 10 ,2779
t calc= = t calc= = =7 , 237
sa sa sa 1 , 42
, deci , cu sa=1,42.
Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este
Rc =(−∞;t critic )∪( t critic ;∞ ) =
= −∞, t α '
( 2
; n−k−1 )∪(t α'
2
; n−k−1
;∞
)=(−∞;t )∪(t 0,05
2
; 13
0 , 05 ;∞
2
; 13 ) ,
t critic =t α '
; n−k−1
2
unde este valoarea critica a testului t bilateral pentru testarea semnificatiei parametrilor
α'
unui model liniar de regresie cu k variabile explicative si la un nivel de semnificatie .
t α' =t 0 , 05 =2 ,160=t critic
, atunci t calc=7 , 237 ∈ R c=(−∞ ;−2 ,160 )∪( 2 ,160 ;∞ ) ,
; n−k−1 ; 13
2 2
Cum
deci respingen H0 şi concluzionăm ca parametrul α este semnificativ statistic.
7. Să se explice verificarea estimatorului dispersiei riziduale (ipotezele nule ) pentru β .

Y =α+ β⋅X +ε
Testarea semnificaţiei parametrului β al modelului linear de regresie :
H0: β=0 (parametrul este nesemnificativ statistic)
H1: β≠0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)
b−β
t= ∈ Student ( n−k −1)
sb
Statistica testului este ,
1 se

unde
s b = s 2e⋅

√ i =1
n
∑ ( x i − x̄ )2
=

√∑ ( i=1
n
x i− x̄ )
2

este abaterea standard (eroarea standard) a


estimatorului b,
2
se este disperia reziduală, iar
s e= √ s2e este abaterea standard reziduală (eroarea standard
reziduală).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică β=0, este
b−0 b b 4 , 9193
t calc= = t calc= = =12 ,56
sb sb s b 0 ,39
, deci , cu sb=0,39.
Dacă nivelul de semnificaţie este α’=0,05, atunci regiunea critică a testului este
Rc =(−∞;t critic )∪( t critic ;∞ ) =
= −∞, t α ' ∪ tα ' ;∞ = −∞;t 0,05 ∪ t 0 , 05 ;∞
( 2
; n−k−1 )( 2
; n−k−1 )( 2
; 13 )( 2
; 13 ) .
t α' =t 0 , 05 =2 ,160=t critic
, atunci t calc=12 , 56∈ Rc =(−∞ ;−2, 160 )∪( 2 , 160 ;∞ ) , deci
; n−k−1 ; 13
2 2
Cum
respingen H0 şi concluzionăm ca parametrul β este semnificativ statistic.

8. Să se calculeze intervalul de încredere α și β


.

Intervalul de încredere (1-α’)·100% = 95% pentru parametrul α al modelului linear de regresie


Y =α+ β⋅X +ε
, determinat pe baza eşantionului observat, este:

a−tα' ⋅saunderbracealignl⏟
limita inferioara intervalului ¿ a parametrului α ¿ ≤α≤a+tα' ⋅saunderbracealignl⏟
limita superioara intervalului ¿ a parametrului α ¿ ¿
;n−k−1 ;n−k−1
2 de incredere (1-α')⋅10 %¿ 2 de incredere (1-α ')⋅10 %¿
,
unde sa este eroarea standard a estimatorului a.
t α' =t 0 , 05 =2 ,160
; n−k−1 ; 13
În cazul nostru, a=10,2779, sa=1,42, α’=0,05,
2 2 , deci intervalul [7,21;
13,34] acoperă valoarea adevărată a parametrului α cu probabilitatea 0,95, adică intervalul de valori
[7,21; 13,34] mii Eur acoperă nivelul prejudiciului provocat de incendiu, dacă acesta se produce chiar
lângă staţia de pompieri.
Cum intervalul de încredere 95% determinat pentru parametrul α nu acoperă valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru α ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

Intervalul de încredere (1-α’)·100% = 95% pentru parametrul β al modelului linear de regresie


Y =α+ β⋅X +ε
, determinat pe baza eşantionului observat, este:

b−tα' ⋅sbunderbracealignl⏟
limita inferioara intervalului ¿ a parametrului β ¿ ≤β≤b+t α' ⋅sbunderbracealignl⏟
limita superioara intervalului ¿ a parametrului β ¿ ¿
;n−k−1 ;n−k−1
2 de incredere (1-α')⋅10 %¿ 2 de incredere (1-α ')⋅10 %¿
,
unde sb este eroarea standard a estimatorului b.
t α' =t 0 , 05 =2 ,160
; n−k−1 ; 13
În cazul nostru, b=4,9193, sb=0,39, α’=0,05, , deci intervalul [4,07; 2 2

5,76] acoperă valoarea adevărată a parametrului β cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa
devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte cu o valoare acoperită de intervalul
[4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul β nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru β ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).

9.Verificarea semnificației globale în model cu ajutorul testului Fisher.

Δ 2y / x 841 ,76
R=
SSR
SST
=
Δ2y √ =
911, 52 √
=0 ,96098 ∈ [ 0 ;1 ]

Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.
Testarea validităţii sau semnificaţiei raportului de corelaţie constă în testarea

H0: Raportul de corelaţie este nesemnificativ statistic


(variabila X nu are influenţă semnificativă asupra lui Y)
cu alternativa
H1: Raportul de corelaţie este semnificativ statistic
(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).
R2
k
F= ∈ Fisher( k ,n−k −1 )
1−R2
n−k −1
Statistica testului este .
2
0 , 96098
1
F calc= =156 , 89
1−0 , 960982
15−1−1
Valoarea calculată a statisticii testului este ,
acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.
Daca testarea se realizeaza la un prag de semnificaţie α’=0,05, atunci
F critic =F α ';k ,n−k−1=F 0 ,05; 1 ,13=4,67
.
Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul
de corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă
asupra variabilei Y (prejudiciul).

S-ar putea să vă placă și