Documente Academic
Documente Profesional
Documente Cultură
O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul
unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta,
realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt
înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie
de pompieri:
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerințele sunt:
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele două variabile stabilind care este variabila
explicativă şi care este variabila explicată;
2. Pe baza datelor din eşantion, determinaţi estimațiile coeficienţilor modelului de regresie adecvat
analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;
3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson
și testați semnificația acestuia;
5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificație de
5% şi interpretaţi rezultatul obţinut;
6. Calculați coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
7. Testați ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de
semnificaţie de 5%;
8. Determinaţi și interpretați intervalele de încredere 95% pentru parametrii modelului;
9. Rezolvaţi problema în Excel;
10. Estimaţi punctual nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi
de 6,5 zeci de kilometri.
REZOLVARE
1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată
în zeci de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
1
CSIE, anul I, 2020-2021, ASE
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
Corelograma
50.0
45.0
(valoarea prejudiciului, in mii Eur)
Valorile variabilei dependente Y
40.0
35.0
30.0
25.0
20.0
15.0
10.0
5.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
Corelograma sugerează că există legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y f X , o funcţie liniară
f x 0 1 x .
Modelul liniar de regresie este Y 0 1 X .
b0 b1
Rezolvarea sistemului de ecuații liniare folosind metoda lui Cramer: b0 si b1 ,
2
CSIE, anul I, 2020-2021, ASE
n
n x i
unde n
i 1
n este determinantul matricei sistemului de ecuaţii,
x x
i 1
i
i 1
2
i
n n n
yi xi n yi
i 1 i 1 i 1
iar b0 n n
, b1 n n
sunt minorii corespunzători celor două necunoscute.
xi y i xi2 xi xi y i
i 1 i 1 i 1 i 1
n n 2 n n
b0 i
y i xi xi xi y i
b0
1 i 1 i 1 i 1
n n
2
n xi2 xi
i 1 i 1
n n n
n xi y i xi y i
b1
i 1 i 1
i 1
b1
n
2
n
2
n xi xi
i 1 i 1
x
i 1
i 49,2 y
i 1
i 396,2 x
i 1
2
i 196,16 y
i 1
2
i 11376,48 x y
i 1
i i 1470,65
Grade de
Media pătratelor
libertate
Sursa Suma pătratelor (MS- Mean of Valoarea
(df - Fcritic
variaţiei (SS-Sum of Squares) Squares) statisticii F
degrees of
Dispersiile corectate
freedom)
MSR
Datorată n
F
regresiei SSR yˆ i y
2
k MSR
SSR
MSE
F ; k , n k 1
(Regression) i 1 k
n
SSE
Reziduală
SSE yi yˆ i
2
n–k–1 MSE s e2
(Residual) n k 1
i 1
SST SSR SSE
n
Totală n–1
yi y
2
i 1
SST 2y
De asemenea, se poate calcula si dispersia de selecție a lui Y, adică s 2y .
n 1 n 1
Regula de decizie este:
dacă Fcalc Fcritic F ;k ,nk 1 , adică Fcalc se găseşte în regiunea critică,
4
CSIE, anul I, 2020-2021, ASE
atunci respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.
5
CSIE, anul I, 2020-2021, ASE
Nr.
crt.
xi yi yˆ i 10,2779 4,9193 xi ei yi yˆ i yi y yi y 2 ei2 yi yˆ i 2 yˆ i y 2
1 3,4 26,2 27,0035 -0,8035 -0,2133 0,0455 0,6456 0,3484
2 1,8 17,8 19,1326 -1,3326 -8,6133 74,1889 1,7759 53,0080
3 4,6 31,3 32,9067 -1,6067 4,8867 23,8798 2,5814 42,1640
4 2,3 23,1 21,5923 1,5077 -3,3133 10,9780 2,2732 23,2421
5 3,1 27,5 25,5277 1,9723 1,0867 1,1809 3,8898 0,7842
6 5,5 36,0 37,3341 -1,3341 9,5867 91,9048 1,7797 119,2628
7 0,7 14,1 13,7214 0,3786 -12,3133 151,6174 0,1433 161,0841
8 3,0 22,3 25,0358 -2,7358 -4,1133 16,9192 7,4846 1,8975
9 2,6 19,6 23,0681 -3,4681 -6,8133 46,4211 12,0276 11,1905
10 4,3 31,3 31,4309 -0,1309 4,8867 23,8798 0,0171 25,1762
11 2,1 24,0 20,6084 3,3916 -2,4133 5,8240 11,5027 33,6965
12 1,1 17,3 15,6891 1,6109 -9,1133 83,0522 2,5949 115,0078
13 6,1 43,2 40,2856 2,9144 16,7867 281,7933 8,4936 192,4415
14 4,8 36,4 33,8905 2,5095 9,9867 99,7342 6,2974 55,9091
15 3,8 26,1 28,9712 -2,8712 -0,3133 0,0982 8,2440 6,5431
15 15 15 15
y
i 1
i 396,2 yˆi 396,2
i 1
ei 0
i 1
y
i 1
i y 0 SST 911,52 SSE 69,751 SSR 841,76
15
yi SST
i 1
unde y 26,4133 . Se poate calcula si dispersia de selecție a prejudiciului (variabila Y): s 2y 65,108
15 n 1
Tabelul ANOVA
Sursa Suma pătratelor Grade de libertate Media pătratelor
variaţiei (SS-Sum of Squares) (df - degrees of freedom) (MS - Mean of Squares)
Valoarea statisticii F Fcritic
Datorată regresiei MSR F0,05;1,13 4,667
(Regression)
SSR 841,76 k=1 MSR 841,76 Fcalc 156,89
MSE
Reziduală SSE 69,751 n – k – 1 = 13 MSE 5,365
(Residual)
Totală SST 911,52 n – 1 = 14
Cum Fcalc 156,89 4,667 Fcritic , respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
6
CSIE, anul I, 2020-2021, ASE
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson si
testați semnificația statistică a acestuia.
n n
xi x yi y xi y i n x y
i 1 i 1
rx , y
n n
n 2 2 n 2 2
xi x y i y
2 2
xi n x y i n y
i 1 i 1 i 1 i 1
n n n
n xi y i xi y i
i 1 i 1 i 1
n 2 n 2 n 2 n 2
n xi xi n y i y i
i 1 i 1 i 1 i 1
r r n 2 0,96098 13
tcalc 12,53 .
sr 1 r2 1 0,96098 2
Cum valoarea tabelară a testului t, pentru un prag de semnificaţie de 5% şi 13 grade de libertate este 2,160
rezultă că tcalc > t / 2;n2 , deci coeficientul de corelaţie este semnificativ statistic
7
CSIE, anul I, 2020-2021, ASE
0,96098 2
1
Valoarea calculată a statisticii testului este Fcalc 156,89 ,
1 0,96098 2
15 1 1
acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.
Daca testarea se realizeaza la un prag de semnificaţie 0,05 , atunci
Fcritic F ;k ,nk 1 F0,05;1,13 4,67 .
Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul de
corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă asupra
variabilei Y (prejudiciul).
Observație: Pentru modelul de regresie liniara simplă, între raportul de corelație R și coeficientul
de corelație liniara Pearson rx , y există următoarea relație
R, daca b1 0
rx, y .
R, daca b1 0
SSR 841,76
6. Coeficientul de determinaţie este R 2 0,9235
SST 911,52
sau R 0,96098 0,9235 şi arată că 92,35% (adică R %) din variaţia totală a prejudiciului cauzat de
2 2 2
incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de
pompieri) sau de modelul de regresie.
estimatorului b0 , s e este dispersia reziduală sau a erorilor, iar se se este abaterea standard reziduală
2 2
b1 1
Statistica testului este t sb1
Student ( nk 113) ,
1 se
unde sb1 se2 n
este abaterea standard (eroarea standard) a estimatorului
xi x
n
xi x
2 2
i 1 i 1
b1 , s e2 este dispersia reziduală, iar se se2 este abaterea standard reziduală (eroarea standard reziduală).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică 1 0 , este
b1 0 b1 b 4,9193
t calc , deci t calc 1 12,56 , cu sb1 0,39 .
sb1 sb1 sb1 0,39
Dacă nivelul de semnificaţie este 0,05 , atunci regiunea critică a testului este
Rc ; t critic t critic;
, t t ; ; t 0,05 t 0,05 ; .
;n k 1 ;nk 1 ;13 ;13
2 2 2 2
Cum t ;nk 1 t 0,05;13 2,160 t critic , atunci t calc 12,56 Rc ;2,160 2,160; ,deci respingem
2 2
H0 şi concluzionăm că parametrul 1 este semnificativ statistic.
9
CSIE, anul I, 2020-2021, ASE
Intervalul de încredere (1-α)·100% = 95% pentru parametrul 1 al modelului linear de regresie
Y 0 1 X , determinat pe baza eşantionului observat, este:
b1 t sb1 1 b1 t sb1
;nk 1 ;n k 1 ,
2 2
limita inferioara a intervalului limita superioara a intervalului
de incredere (1-α)100% de incredere (1- )100%
a parametrului 1 a parametrului 1
10
CSIE, anul I, 2020-2021, ASE
o să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi
care este şirul de valori corespunzătoare variabilei independente X (Input X Range),
o să specificaţi nivelul de încredere al testului, de obicei 95%,
o să precizați opțiunea de output. Opțiunea recomandată este New Worksheet Ply care va genera o
nouă foaie de calcul cu rezultatele regresiei. O altă metodă constă în precizarea celulei din foaia
de lucru începând cu care se vor afişa rezultatele, adică outputul (Output Range),
o să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,96098 = R = raportul de corelaţie
R Square 0,92348 = R2 = coeficientul de determinaţie
Adjusted R Square 0,91759
Standard Error 2,31635 = se = eroarea standard sau abaterea standard a erorilor
Observations 15 = n = numărul de perechi de observaţii din eşantion
ANOVA
df SS MS F Significance F
SSR
1=k SSR 841,766 MSR 841,766 Fcalc 156,88 1,25E-08
Regression k
SSE
13 = n-k-1 SSE 69,751 MSE s e2 5,365
Residual n k 1
Total 14 = n-1 SST 911,52
11
CSIE, anul I, 2020-2021, ASE
Significance F, adică nivelul de semnificație observat sau calculat, este cel mai mic nivel fixat de
semnificație al testului de verificare că modelul de regresie este valid sau semnificativ statistic, pentru care
ipoteza nulă “ H 0 : modelul de regresie nu este valid statistic” poate fi respinsă.
Daca este nivelul sau pragul de semnificație al testului, atunci regula de decizie este:
daca Significance F , atunci nu există suficiente motive sa
respingem ipoteza nulă H 0 , adică acceptăm H 0 , rezultatul nu este
semnificativ statistic, adică modelul de regresie nu este valid statistic;
daca Significance F , atunci se respinge ipoteza nulă H 0 și se acceptă ipoteza alternativă
H 1 , adică rezultatul este semnificativ statistic, ceea ce înseamnă că
modelul de regresie este valid statistic sau este corect specificat.
În cazul nostru, nivelul de semnificație al testului este ' 0,05 , iar Significance F = 1,25E-08 =
0,0000000125, deci Significance F ' , prin urmare respingem H0 și acceptăm H1 că modelul de regresie
este valid sau semnificativ statistic.
=12,525
= b1 = b1 t critic sb1
P value, adică nivelul de semnificație observat sau calculat, este cel mai mic nivel fixat de
semnificație al testului pentru care ipoteza nulă H 0 poate fi respinsă.
Daca este nivelul sau pragul de semnificație al testului, atunci regula de decizie este:
daca P value , atunci nu există suficiente motive sa respingem ipoteza
nulă H 0 , adică acceptăm H 0 , rezultatul nu este semnificativ statistic;
daca P value , atunci se respinge ipoteza nulă H 0 și, prin urmare, se acceptă ipoteza
alternativă H 1 , adică rezultatul este semnificativ statistic.
In cazul nostru, nivelul de semnificație este 0,05 .
Pentru parametrul 0 , P value 6,59E 06 6,59 10 6 0,00000659 , deci P value , prin urmare
respingem ipoteza nulă H 0 : 0 0 si acceptăm ipoteza alternativă H1 : 0 0 , adică parametrul 0 este
semnificativ statistic.
Pentru parametrul 1 , P value 1,25E 08 1,25 10 8 0,0000000125 , deci P value , prin urmare,
respingem ipoteza nulă H 0 : 1 0 si acceptăm ipoteza alternativă H 1 : 1 0 , adică parametrul panta 1
este semnificativ statistic.
RESIDUAL OUTPUT
Predicted Y Residuals
Observation
yˆ i 10,2779 4,9193 xi ei yi yˆ i
1 27,0037 -0,8037
2 19,1327 -1,3327
3 32,9068 -1,6068
4 21,5924 1,5076
5 25,5279 1,9721
12
CSIE, anul I, 2020-2021, ASE
6 37,3342 -1,3342
7 13,7215 0,3785
8 25,0359 -2,7359
9 23,0682 -3,4682
10 31,4311 -0,1311
11 20,6085 3,3915
12 15,6892 1,6108
13 40,2858 2,9142
14 33,8907 2,5093
15 28,9714 -2,8714
50
Valoarea prejudiciului, in mii Eur (variabila Y)
45 y = 4.9193x + 10.278
R2 = 0.9235
40
35
30
valorile observate yi
25 valorile estimate ale lui yi
Linear (valorile observate yi)
20
15
10
0
0 1 2 3 4 5 6 7
Distanta, in zeci km (variabila X)
Precizări suplimentare:
Atenție la setările regionale ale calculatorului pe care-l utilizați. Dacă aveți setările în engleză va
trebui să înlocuiți virgula care desparte zecimalele cu punct, folosind comanda Ctrl+H.
13
CSIE, anul I, 2020-2021, ASE
2) Selectați opțiunea Add-ins (denumită programe de completare în versiunea română), și selectați
Analysis ToolPak.
4) Activarea s-a realizat cu succes atunci când apare pictograma Data Analysis în partea dreaptă a
tabului Data
14