Documente Academic
Documente Profesional
Documente Cultură
Problemă rezolvată
O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul unei locuinţe şi
distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta, realizează un studiu, într-
o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt înregistrate date referitoare la
valoarea prejudiciului (mii Euro) şi distanţa dintre incendiu şi cea mai apropiată staţie de pompieri (zeci km). In
urma prelucrarii datelor cu programul EXCEL, s-au obtinut urmatoarele rezultate:
Regression Statistics
Multiple R 0,9609
R Square …
Adjusted R Square …
Standard Error …
Observations …
ANOVA
df SS MS F Significance F
Regression … … … … 0,000000012
Residual … 69,7509 …
Total … …
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
Intercept … 1,4202 7,2365 0,000007 … …
Distanta
(zeci km) … 0,3927 … 0,000000012 … 5,7678
Rezolvare:
a) Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată în zeci
de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
n = 15
k = 1 (numărul de variabile independente)
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y f X , o funcţie liniară
f x 0 1 x . Modelul liniar de regresie la nivelul populatiei totale este y i 0 1 xi i .
0 , 1 reprezinta parametrii modelului (primul se numeste “interceptie” sau termenul liber si reprezinta
punctual de intersectie al dreptei de regresie cu axa OY.; al doilea este panta dreptei de regresie).
Modelul liniar de regresie la nivelul esantionului este y i b0 b1 xi ei .
b0 ,b1 sunt estimatorii parametrilor 0 , 1 .
Ecuaţia de regresie liniară este:
yˆ i b0 b1 xi
Trebuie identificate valorile celor doi estimatori.
Notăm indicatorii daţi în tabelele iniţiale:
Regression Statistics
Multiple R R = 0,9609 raportul de corelaţie
R Square R2 = ……... coeficientul de determinaţie
coeficientul de determinaţie
Adjusted R Square = ……... ajustat
Standard Error Se= MSE = … abaterea standard a erorilor
Observations n = 15 volumul eşantionului
ANOVA
df SS MS F Significance F
Regression k=1 SSR = ……..… MSR = …….. Fcalc = …….. 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = …..…
Total n-1 = 14 SST = ………..
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 =
Intercept b0 = ……… 1,4202 tcalc(β0) = 7,2365 0,000007 L(β0) = ……… U(β0) = ………
Distanta sb1 =
(zeci km) b1 = ……… 0,3927 tcalc(β1) = ……… 0,000000012 L(β1) = ……… U(β1) = 5,7678
În Tabelul 3:
b0 b0
t calc ; 7,2365 b0 7,23651,4202 10,2779
sb0 1,4202
Coefficients
Intercept b0 = 10,2779
Distanta (zeci km) b1 = 4,9193
ANOVA
df
(Numărul de MS F
grade de SS (Dispersie (Valoarea calculată a
libertate) (Varianţa) corectată) testului F) Significance F
Regression k=1 SSR = ……….. MSR = ………… Fcalc = ………….. 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = …………
Total n-1 = 14 SST = ………..
SSR 841,7664
MSR 841,7664 (dispersia corectata de regresie)
k 1
k reprezintă numărul de variabile independente (k = 1, deoarece există o singură variabilă independentă, şi
anume Distanţa până la staţia de pompieri).
SSE 69,7509
MSE 5,3654 (dispersia corectata reziduala sau a erorilor)
n k 1 13
MSR 841,7664
Fcalc 156,8861 (Valoarea calculată a testului F)
MSE 5,3654
Regula de decizie: dacă Fcalc Fcritic Fcrit , adică Fcalc se găseşte în regiunea critică, atunci respingem
H0 şi acceptăm H1, adică modelul de regresie este valid statistic. (unde Fcrit este valoarea critica a testului F)
ANOVA
df SS MS F Significance F
Regression k=1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173
Excel)
Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul 0 este semnificativ statistic (tcritic =2,16 este
dat in textul problemei).
In plus, cum Pvalue(a)<0.05 atunci respingem H0, acceptam H1 şi concluzionăm ca 0 este semnificativ
statistic.
Probabilitatea maxima pt. care putem sustine ca 0 este semnificativ statistic se determina cu relatia:
100-p-value(α )%=99,999….>95%.
Excel).
Cum tcalc>tcritic, se respinge H0, se accepta H1, parametrul 1 este semnificativ statistic (tcritic =2,16 este
dat in textul problemei).
In plus, cum Pvalue(b)<0.05, atunci respingem H0, acceptam H1 şi concluzionăm ca 1 este semnificativ
statistic.
Probabilitatea maxima pt. care putem sustine ca 1 este semnificativ statistic se determina cu relatia:
100-p-value(β )%=99,999….>95%.
d)
Intervalele de încredere ale parametrilor modelului:
În cazul nostru, b1=4,9193, sb1=0,3927, α=0,05, t crit 2,16 , deci intervalul [4,0708; 5,7678] acoperă
valoarea adevărată a parametrului 1 cu probabilitatea 0,95 (95%). Cu alte cuvinte, dacă distanţa creşte cu o
unitate (1 zeci km = 10 km), nivelul prejudiciului creşte în medie cu o valoare cuprinsă între 4,0708 şi 5,7678
mii Eur, cu o probabilitate de 0,95 (95%).
Cum ambele limite ale intervalului de încredere pentru parametrul 1 au acelaşi semn (sunt pozitive) ,
intervalul nu include valoarea 0, atunci putem spune că acesta este semnificativ diferit de 0 sau este semnificativ
statistic.
Dacă însă, intervalul de încredere pentru 1 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionam că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Tabelul 3 devine:
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 =
Intercept b0 = 10,2779 1,4202 tcalc(β0) = 7,2365 0,000007 L(β0) = 7,2096 U(β0) = 13,3462
Distanta sb1 =
(zeci km) b1 = 4,9193 0,3927 tcalc(β1) = 12,525 0,000000012 L(β1) = 4,0708 U(β1) = 5,7678
Se formulează ipotezele:
H0: R = 0 (R nu este semnificativ statistic)
H1: R > 0 (R este semnificativ statistic)
Unde R reprezintă raportul de corelaţie în populaţia totală, iar R este raportul de corelaţie în eşantion.
Se foloseşte testul F:
(vezi tabel ANOVA), cum Fcalc > Fcrit rezulta ca respingem H0, acceptam H1, indicatorul este semnificativ
statistic.
unde rxy reprezintă coeficientul de corelaţie liniară Pearson în eşantion. În cazul legăturii liniare, raportul de
corelatie este egal cu coeficientul de corelatie liniara Pearson (în expresie absolută), adică
R rxy
Cum R = 0,96 şi b1>0 rezultă că rxy = 0,96, indicând o legătură direct şi puternică între variabile.
Correlation Matrix
Distanţa (X) Valoarea prejudiciului (Y)
Distanţa (X) 1
Valoarea prejudiciului (Y) 0,96 1
Se formulează ipotezele:
(vezi tcalc(β1) = 12,525 din tabelul 3 Excel); cum tcalc > tcrit rezulta ca respingem H0, acceptam H1, indicatorul este
semnificativ statistic.
Tabelele completate:
Regression Statistics
Multiple R R = 0,9609 raportul de corelaţie
R Square R2 = 0,9234 coeficientul de determinaţie
Adjusted R Square 0,9175
Standard Error Se= MSE = 2,3163 abaterea standard a erorilor
Observations n = 15 volumul eşantionului
ANOVA
df SS MS F Significance F
Regression k=1 SSR = 841,7664 MSR = 841,7664 Fcalc = 156,8861 0,000000012
Residual n-k-1 = 13 SSE = 69,7509 MSE = 5,3654
Total n-1 = 14 SST = 911,5173
Standard
Coefficients Error t Stat P-value Lower 95% Upper 95%
s b0 =
Intercept b0 = 10,2779 1,4202 tcalc(β0) = 7,2365 0,000007 L(β0) = 7,2096 U(β0) = 13,3462
Distanta sb1 =
(zeci km) b1 = 4,9193 0,3927 tcalc(β1) = 12,525 0,000000012 L(β1) = 4,0708 U(β1) = 5,7678