Sunteți pe pagina 1din 13

Problema rezolvata - regresia liniar simpl

O firm de asigurri vrea s gseasc o legtur ntre valoarea prejudiciului provocat de incediul
unei locuine i distana dintre locul incendiului i cea mai apropiat staie de pompieri. Pentru aceasta,
realizeaz un studiu, ntr-o anumit regiune, lund n considerare cele mai recente 15 incendii. Sunt
nregistrate date referitoare la valoarea prejudiciului i distana dintre incendiu i cea mai apropiat
staie de pompieri:
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerintele sunt:
1. Analizai grafic existena, sensul i forma legturii dintre cele doua variabile stabilind care este
variabila explicativ i care este variabila explicat;
2. Pe baza datelor din eantion, determinai estimatiile coeficienilor modelului de regresie adecvat
analizei dependenei dintre cele dou variabile i interpretai valorile obinute;
3. Testai validitatea modelului de regresie liniar la un prag de semnificaie de 5%;
4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie
Pearson;
5. Calculai raportul de corelaie, testai semnificaia (validitatea) acestuia la un nivel se semnificatie de
5% i interpretai rezultatul obinut;
6. Calculati coeficientul de determinaie i interpretai rezultatul obinut;
7. Testati ipotezele referitoare la semnificaia parametrilor modelului de regresie, la un nivel de
semnificaie de 5%;
8. Determinai si interpretati intervalele de ncredere 95% pentru parametrii modelului;
9. Rezolvai problema n Excel;
10. Estimai punctual i printr-un interval de ncredere 95% nivelul prejudiciului, dac distana ntre locul
incendiului i staia de pompieri ar fi de 6,5 zeci de kilometri (previziunea punctual i prin interval
de ncredere).
REZOLVARE
1. Variabilele sunt:
X variabila care arat distana dintre incendiu i cea mai apropiat staie de pompieri, exprimat
n zeci de km
(variabila independent sau variabila explicativ sau variabila exogen)
Y variabila care arat valoarea prejudiciului, exprimat n mii Euro
(variabila dependent sau variabila explicat sau variabila endogen)
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
1
Corelograma
0.0
5.0
10.0
15.0
20.0
25.0
30.0
35.0
40.0
45.0
50.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
V
a
l
o
r
i
l
e

v
a
r
i
a
b
i
l
e
i

d
e
p
e
n
d
e
n
t
e

Y
(
v
a
l
o
a
r
e
a

p
r
e
j
u
d
i
c
i
u
l
u
i
,

i
n

m
i
i

E
u
r
)
Corelograma sugereaz c exist legtur direct i liniar ntre cele dou variabile.
Exist o funcie f astfel nct variabila X explic variabila Y prin funcia f,
( ) X f Y
, o funcie
liniar
( ) x x f +
.
Modelul liniar de regresie este
+ + X Y
.
2. Coeficienii modelului de regresie linir simpl
Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor dou variabile, X i Y, obinndu-
se astfel seria de date
( ) ( ) ( ) { }
n n
y x y x y x , ,..., , , ,
2 2 1 1
sau ( ) { } n i y x
i i
, 1 , , . Pe baza acestui eantion vom
determina estimatorii a i b ai parametrilor

i, respectiv,

ai modelului de regresie. Estimatorii a i


b reprezint soluia sistemului ecuaiilor normale:

'

+
+




n
i
i i
n
i
i
n
i
i
n
i
i
n
i
i
y x x b x a
y x b na
1 1
2
1
1 1
Rezolvarea sistemului folosind metoda determinanilor:

a
a si

b
b ,
unde


n
i
i
n
i
i
n
i
i
x x
x n
1
2
1
1
este determinantul matricei sistemului de ecuaii,
2
iar





n
i
i
n
i
i i
n
i
i
n
i
i
a
x y x
x y
1
2
1
1 1
,


n
i
i i
n
i
i
n
i
i
b
y x x
y n
1 1
1
sunt minorii corespunztori celor dou necunoscute.

'

,
_


,
_

,
_


,
_


,
_

,
_


,
_

,
_


,
_


,
_


,
_









2
1 1
2
1 1 1
2
1 1
2
1 1 1
2
1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i i
b
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i
a
x x n
y x y x n
b
x x n
y x x x y
a
Calculele intermediare sunt prezentate n tabelul de mai jos:
Valorile xi ale
variabilei X
Valorile yi ale
variabilei Y
( )
2
i
x ( )
2
i
y
i i
y x
x1=3,4 y1=26,2 (x1)
2
=11,56 (y1)
2
=686,44 x1y1=89,08
x2=1,8 y2=17,8 (x2)
2
=3,24 (y2)
2
=316,84 x2y2=32,04
x3=4,6 y3=31,3 (x3)
2
=21,16 (y3)
2
=979,69 x3y3=143,98
2,3 23,1 5,29 533,61 53,13
3,1 27,5 9,61 756,25 85,25
5,5 36,0 30,25 1296,00 198
0,7 14,1 0,49 198,81 9,87
3,0 22,3 9,00 497,29 66,9
2,6 19,6 6,76 384,16 50,96
4,3 31,3 18,49 979,69 134,59
2,1 24,0 4,41 576,00 50,4
1,1 17,3 1,21 299,29 19,03
6,1 43,2 37,21 1866,24 263,52
4,8 36,4 23,04 1324,96 174,72
x15=3,8 y15=26,1 (x15)
2
=14,44 (y15)
2
=681,21 x15y15=99,18
2 , 49
15
1

i
i
x

15
1
2 , 396
i
i
y

15
1
2
16 , 196
i
i
x

15
1
2
48 , 11376
i
i
y 65 , 1470
15
1

i
i i
y x
Se obine:
2779 , 10
2 , 49 16 , 196 15
65 , 1470 2 , 49 16 , 196 2 , 396
2


a
a
9193 , 4
2 , 49 16 , 196 15
16 , 396 2 , 49 65 , 1470 15
2


b
b
,
prin urmare dreapta de regresie este de ecuaie
x x b a y + + 9193 , 4 2779 , 10
,
ecuaia de regresie liniar n eantion este
15 , 1 , 9193 , 4 2779 , 10 + + + + i e x e x b a y
i i i i i
,
iar valorile ajustate ale observaiilor
15 , 1 , i y
i
prin regresie sunt
15 , 1 , 9193 , 4 2779 , 10 + + i x x b a y
i i i
.
Interpretarea valorilor coeficienilor
3
b arat c valoarea prejudiciului crete, in medie, cu 4,9193 mii euro dac distana dintre incediu i
staia de pompieri crete cu o unitate, adic 10 km (b arata cu cat se modifica, in medie, nivelul
variabilei dependente, daca nivelul variabilei independente creste cu o unitate);
a arat c valoarea prejudiciului este, n medie, egal cu 10,2779 mii euro dac incendiul ar fi lng
staia de pompieri (a arata nivelul mediu al variabilei dependente, daca nivelul variabilei independente
ar fi egal cu 0; a nu are intotdeauna interpretare economica).
3. Validitatea modelului de regresie
Pentru testarea validitii modelului se formuleaz cele dou ipoteze:
H
0
: modelul de regresie nu este valid statistic,
cu alternativa
H
1
: modelul de regresie este valid statistic.
Statistica utilizat pentru a decide care dintre ipoteze se accept este:
( ) 1 ,
~
1



k n k
Fisher
k n
SSE
k
SSR
MSE
MSR
F
sau
( ) 1 ,
2
2
/
2
2
/
~
1


k n k
e
x y
e
x y
Fisher
k n
k
s
s
F ,
unde k este numrul de variabile explicative din modelul de regresie (n cazul nostru, k=1 deoarece avem
un model de regresie liniar unifactorial sau simpl, cu o singur variabil explicativ).
Fie nivelul sau pragul de semnificaie al testului, iar 1- este nivelul de ncredere al testului.
Dac nu se specific, vom considera n general c =0,05 (sau 100=5%),
iar 1-=0,95 (sau (1-)100=95%).
Pentru calculul statisticii
calc
F
folosim tabelul ANOVA:
Sursa
variaiei
Suma ptratelor
(SS-Sum of Squares)
Grade de
libertate
(df -
degrees of
freedom)
Media ptratelor
(MS- Mean of
Squares)
Dispersiile
corectate
Valoarea
statisticii F
F
critic
Datorat
regresiei
(Regression)
( )



n
i
i
x y
y y
SSR
1
2
2
/

k
k
SSR
MSR
sau
k
s
x y
x y
2
/ 2
/

MSE
MSR
F
sau
2
2
/
e
x y
calc
s
s
F
1 , ; ' k n k
F

Rezidual
(Residual)
( )



n
i
i i
e
y y
SSE
1
2
2

n k 1
1

k n
SSE
MSE
sau
1
2
2

k n
s
e
e
Total
( )



n
i
i
y
y y
SST
1
2
2
n 1
De asemenea, se poate calcula si dispersia de selectie a lui Y, adica
1 1
2
2

n n
SST
s
y
y
.
Regula de decizie este:
4
dac
1 , ; '
>
k n k critic calc
F F F

,
adic F
calc
se gsete n regiunea critic,
atunci respingem H
0
i acceptm H
1
, c modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate n tabelul urmtor:
5
Nr.
crt.
i
x
i
y
i i
x y + 9193 , 4 2779 , 10
i i i
y y e y y
i
( )
2
y y
i
( )
2 2

i i i
y y e ( )
2
y y
i

1 3,4 26,2 27,0035 -0,8035 -0,2133 0,0455 0,6456 0,3484
2 1,8 17,8 19,1326 -1,3326 -8,6133 74,1889 1,7759 53,0080
3 4,6 31,3 32,9067 -1,6067 4,8867 23,8798 2,5814 42,1640
4 2,3 23,1 21,5923 1,5077 -3,3133 10,9780 2,2732 23,2421
5 3,1 27,5 25,5277 1,9723 1,0867 1,1809 3,8898 0,7842
6 5,5 36,0 37,3341 -1,3341 9,5867 91,9048 1,7797 119,2628
7 0,7 14,1 13,7214 0,3786 -12,3133 151,6174 0,1433 161,0841
8 3,0 22,3 25,0358 -2,7358 -4,1133 16,9192 7,4846 1,8975
9 2,6 19,6 23,0681 -3,4681 -6,8133 46,4211 12,0276 11,1905
10 4,3 31,3 31,4309 -0,1309 4,8867 23,8798 0,0171 25,1762
11 2,1 24,0 20,6084 3,3916 -2,4133 5,8240 11,5027 33,6965
12 1,1 17,3 15,6891 1,6109 -9,1133 83,0522 2,5949 115,0078
13 6,1 43,2 40,2856 2,9144 16,7867 281,7933 8,4936 192,4415
14 4,8 36,4 33,8905 2,5095 9,9867 99,7342 6,2974 55,9091
15 3,8 26,1 28,9712 -2,8712 -0,3133 0,0982 8,2440 6,5431

15
1
2 , 396
i
i
y

15
1
2 , 396
i
i
y

15
1
0
i
i
e ( )


15
1
0
i
i
y y
52 , 911
2


y
SST
751 , 69
2


e
SSE
76 , 841
2
/


x y
SSR
unde
4133 , 26
15
15
1

i
i
y
y
. Se poate calcula si dispersia de selectie a prejudiciului (variabila Y): 108 , 65
1
2

n
SST
s
y
Tabelul ANOVA
Sursa
variaiei
Suma ptratelor
(SS-Sum of Squares)
Grade de libertate
(df - degrees of
freedom)
Media ptratelor
(MS - Mean of Squares)
Valoarea statisticii F Fcritic
Datorat
regresiei
(Regression)
76 , 841
2
/

x y
SSR k = 1 76 , 841
2
/

x y
s MSR 89 , 156
2
2
/

e
x y
calc
s
s
MSE
MSR
F
667 , 4
13 , 1 ; 05 , 0
F
Rezidual
(Residual)
751 , 69
2

e
SSE
n k 1 = 13
365 , 5
2

e
s MSE
Total 52 , 911
2

y
SST n 1 = 14
Cum
critic calc
F F > 667 , 4 89 , 156
, respingem ipoteza nul i concluzionm c modelul de regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
6
4. Msurai intensitatea legturii dintre cele dou variabile folosind coeficientul liniar de corelaie Pearson
( ) ( )
( ) ( )
1
1
]
1

,
_


1
1
]
1

,
_

,
_


,
_


,
_

,
_


,
_

n
i
n
i
i i
n
i
n
i
i i
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i i
n
i
i
n
i
i
n
i
i i
xy
y y n x x n
y x y x n
y n y x n x
y x n y x
y y x x
y y x x
r
1
2
1
2
1
2
1
2
1 1 1
2
1
2 2
1
2
1
1
2
1
2
1
[ ] 1 ; 1 96098 , 0
2 , 396 48 , 11376 15 2 , 49 16 , 196 15
2 , 396 2 , 49 65 , 1470 15
2 2


xy
r
Valoarea coeficientului de corelaie Pearson, pozitiv i foarte apropiat de +1, arat c ntre cele
dou variabile exist o legtura liniar direct i puternic.
5. Calculai raportul de corelaie, testai validitatea acestuia i interpretai rezultatul obinut.
[ ] 1 ; 0 96098 , 0
52 , 911
76 , 841
2
2
/


y
x y
SST
SSR
R
Valoarea apropiata de 1 a raportului de corelatie arata ca intre cele doua variabile exista o legatura
foarte stransa, legatura pusa in evidenta de modelul de regresie.
Testarea validitii sau semnificaiei raportului de corelaie const n testarea
H
0
: Raportul de corelaie este nesemnificativ statistic
(variabila X nu are influen semnificativ asupra lui Y)
cu alternativa
H
1
: Raportul de corelaie este semnificativ statistic
(semnificativ diferit de 0, adic variabila X are influen semnificativ asupra lui Y).
Statistica testului este ( ) 1 , 2
2
1
1

k n k
Fisher
k n
R
k
R
F
.
Valoarea calculat a statisticii testului este
89 , 156
1 1 15
96098 , 0 1
1
96098 , 0
2
2

calc
F
,
acceai valoare ca la testarea validitii modelului de regresie folosind ANOVA.
Daca testarea se realizeaza la un prag de semnificaie =0,05, atunci
67 , 4
13 , 1 ; 05 , 0 1 , ';


F F F
k n k critic
.
Comparm F
calc
=156,89 > 4,67=F
critic
, respingem ipoteza nul H
0
i concluzionm c raportul de
corelaie este semnificativ diferit de zero, adic variabila X (distana) are o influen semnificativ asupra
variabilei Y (prejudiciul).
Observatie: Pentru modelul de regresie liniara simpla, intre raportul de corelatie R si coeficientul de
corelatie liniara Pearson
xy
r
exista urmatoarea relatie
7

'

<
> +

0 ,
0 ,
b daca R
b daca R
r
xy
.
6. Coeficientul de determinaie este
9235 , 0
52 , 911
76 , 841
2
2
/
2


y
x y
SST
SSR
R
sau
9235 , 0 96098 , 0
2 2
R
i arat c 92,35% (adic R
2
%
) din variaia total a prejudiciului cauzat de
incendii este explicat de variaia variabilei independente (distana ntre locul incendiului i staia de
pompieri).
7. Testarea semnificatiei parametrului al modelului linear de regresie + + X Y
:
H
0
: =0 (parametrul este nesemnificativ statistic)
H
1
: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)
Statistica testului este
) 1 (

k n
a
Student
s
a
t

,
unde
( ) ( )

,
_

+
n
i
i
e
n
i
i
e a
x x
x
n
s
x x
x
n
s s
1
2
2
1
2
2
2
1 1
este abaterea standard (eroarea standard) a
estimatorului a,
2
e
s
este disperia reziduala sau a erorilor, iar
2
e e
s s
este abaterea standard rezidual
(eroarea standard rezidual sau a erorilor)
.
Valoarea calculat a statisticii testului, n ipoteza c H
0
este adevart, adic =0, este
a a
calc
s
a
s
a
t

0
, deci
237 , 7
42 , 1
2779 , 10

a
calc
s
a
t
, cu s
a
=1,42.
Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este
( ) ( )

,
_

,
_

,
_

,
_




; ; ; ,
; ;
13 ;
2
05 , 0
13 ;
2
05 , 0
1 ;
2
'
1 ;
2
'
t t t t
t t R
k n k n
critic critic c

,
unde
1 ;
2
'

k n
critic
t t

este valoarea critica a testului t bilateral pentru testarea semnificatiei parametrilor
unui model liniar de regresie cu k variabile explicative si la un nivel de semnificatie
'
.
Cum
critic
k n
t t t

160 , 2
13 ;
2
05 , 0
1 ;
2
'
, atunci ( ) ( ) ; 160 , 2 160 , 2 ; 237 , 7
c calc
R t ,
deci respingen H
0
i concluzionm ca parametrul este semnificativ statistic.
Testarea semnificaiei parametrului al modelului linear de regresie + + X Y
:
H
0
: =0 (parametrul este nesemnificativ statistic)
H
1
: 0 (parametrul este semnificativ statistic, adic semnificativ diferit de 0)
Statistica testului este
) 1 (

k n
b
Student
s
b
t

,
unde
( )
( )


n
i
i
e
n
i
i
e b
x x
s
x x
s s
1
2
1
2
2
1
este abaterea standard (eroarea standard) a estimatorului b,
2
e
s este disperia rezidual, iar
2
e e
s s este abaterea standard rezidual (eroarea standard rezidual)
.
8
Valoarea calculat a statisticii testului, n ipoteza c H
0
este adevart, adic =0, este
b b
calc
s
b
s
b
t

0
, deci
56 , 12
39 , 0
9193 , 4

b
calc
s
b
t
, cu s
b
=0,39.
Dac nivelul de semnificaie este =0,05, atunci regiunea critic a testului este
( ) ( )

,
_

,
_

,
_

,
_




; ; ; ,
; ;
13 ;
2
05 , 0
13 ;
2
05 , 0
1 ;
2
'
1 ;
2
'
t t t t
t t R
k n k n
critic critic c

.
Cum
critic
k n
t t t

160 , 2
13 ;
2
05 , 0
1 ;
2
'
, atunci ( ) ( ) ; 160 , 2 160 , 2 ; 56 , 12
c calc
R t , deci
respingen H
0
i concluzionm ca parametrul este semnificativ statistic.
8. Intervalul de ncredere (1-)100% = 95% pentru parametrul al modelului linear de
regresie + + X Y
, determinat pe baza eantionului observat, este:


ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a superioara limita
1 ;
2
'
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a inferioara limita
1 ;
2
'


+
a
k n
a
k n
s t a s t a
,
unde s
a
este eroarea standard a estimatorului a.
n cazul nostru, a=10,2779, s
a
=1,42, =0,05,
160 , 2
13 ;
2
05 , 0
1 ;
2
'


t t
k n

, deci intervalul [7,21;


13,34] acoper valoarea adevrat a parametrului cu probabilitatea 0,95, adic intervalul de valori [7,21;
13,34] mii Eur acoper nivelul prejudiciului provocat de incendiu, dac acesta se produce chiar lng
staia de pompieri.
Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea 0, atunci
putem spune ca acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci
concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
Intervalul de ncredere (1-)100% = 95% pentru parametrul al modelului linear de regresie
+ + X Y
, determinat pe baza eantionului observat, este:



ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a superioara limita
1 ;
2
'
ui parametrul a
100% ) ' - (1 incredere de
ui intervalul a inferioara limita
1 ;
2
'


+
b
k n
b
k n
s t b s t b
,
unde s
b
este eroarea standard a estimatorului b.
n cazul nostru, b=4,9193, s
b
=0,39, =0,05,
160 , 2
13 ;
2
05 , 0
1 ;
2
'


t t
k n

, deci intervalul [4,07;


5,76] acoper valoarea adevrat a parametrului cu probabilitatea 0,95. Cu alte cuvinte, dac distana
devine mai mare cu o unitate (10 km), nivelul prejudiciului crete cu o valoare acoperit de intervalul
[4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de ncredere 95% determinat pentru parametrul nu acoper valoarea 0, atunci
putem spune c acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dac ns, intervalul de ncredere pentru ar fi acoperit, adic ar fi coninut, i valoarea 0, atunci
concluzionam c parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
9
9. Rezolvarea in Excel:
n Excel, exist modulul Data Analysis, opiunea Regression care furnizeaz ntr-un output
specific toate aceste calcule prezentate pn acum.
Astfel, ntr-o foaie de lucru, se introduce setul de date { (x
1
,y
1
), (x
2
,y
2
),...., (x
n
,y
n
) }, n cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis i apoi Regression, dac se
lucreaz n Excel 2007. Dac avei la dispoziie Excel 2003, alegei din meniul principal Tools, apoi Data
Analysis i apoi Regression.
n fereastra care va apare, trebuie:
- s alegei care este irul de valori corespunztoare variabilei dependente Y (Input Y Range) i care este irul de
valori corespunztoare variabilei independente X (Input X Range),
- s specificai nivelul de ncredere al testului, de obicei 95%,
- s precizai celula din foaia de lucru ncepnd cu care se vor afia rezultatele, adic outputul (Output Range),
10
- s bifai opiunea Residuals i, opional, Line Fit Plots.
Output-ul este prezentat n tabelele urmtoare:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,96098 = R = raportul de corelaie
R Square 0,92348 = R
2
= coeficientul de determinaie
Adjusted R Square 0,91759
Standard Error 2,31635 = s
e
= eroarea standard sau abaterea standard a erorilor
Observations 15 = n = numrul de perechi de observaii din eantion
ANOVA
df SS MS F Significance F
Regression
1 = k
2
/ x y
SSR
841,766

2
/ x y
s
841,766

calc
F
156,88
6
1,25E-08
Residual
13 = n-k-1
2
e
SSE
69,751

2
e
s
5,365
Total
14 = n-1

2
y
SST
911,52
Significance F, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului de verificare ca modelul de regresie este valid sau semnificativ statistic, pentru
care ipoteza nula
0
H
: modelul de regresie nu este valid statistic poate fi respinsa.
Daca ' este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
daca
' > F ce Significan
, atunci nu exista suficiente motive sa respingen ipoteza nula
0
H
,
adica acceptam
0
H
, rezultatul nu este semnificativ statistic, adica
modelul de regresie nu este valid statistic;
11
daca
' < F ce Significan
, atunci se repinge ipoteza nula
0
H
si, prin urmare, se accepta
ipoteza alternativa
1
H
, adica rezultatul este semnificativ statistic,
ceea ce inseamna ca modelul de regresie este valid statistic sau este
corect specificat.
In cazul nostru, nivelul de semnificatie al testului este
05 , 0 '
, iar Significance F = 1,25E-08 =
0,0000000125, deci
' < F ce Significan
, prin urmare respingem H
0
si acceptam H
1
ca modelul de
regresie este valid sau semnificativ statistic.
Coefficients
Standard
Error
t Stat P-value
Lower 95%
(Limita inferioar
a intervalului
de ncredere 95%)
Upper 95%
(Limita superioar
a intervalului
de ncredere 95%)
Intercept 10,2779=a 1,42=
a
s 7,237=
a
calc
s
a
t
6,59E-06
7,21=
=
a critic
s t a
13,34=
=
a critic
s t a +
X Variable 1 4,9193=b 0,39=
b
s 12,525=
b
calc
s
b
t
1,25E-08
4,07=
=
b critic
s t b
5,76=
=
b critic
s t b +
P value, adica nivelul de semnificatie observat sau calculat, este cel mai mic nivel fixat de
semnificatie al testului pentru care ipoteza nula
0
H
poate fi respinsa.
Daca ' este nivelul sau pragul de semnificatie al testului, atunci regula de decizie este:
daca
' > value P
, atunci nu exista suficiente motive sa respingen ipoteza nula
0
H
, adica
acceptam
0
H
, rezultatul nu este semnificativ statistic;
daca
' < value P
, atunci se repinge ipoteza nula
0
H
si, prin urmare, se accepta ipoteza
alternativa
1
H
, adica rezultatul este semnificativ statistic.
In cazul nostru, nivelul de semnificatie este
05 , 0 '
.
Pentru parametrul , 00000659 , 0 10 59 , 6
6


06 6,59E value P , deci
' < value P
, prin
urmare respingen ipoteza nula
0 :
0
H
si acceptam ipoteza alternativa 0 :
1
H , adica parametrul este
semnificativ statistic.
Pentru parametrul

, 0000000125 , 0 10 25 , 1
8


08 1,25E value P , deci
' < value P
, prin
urmare, respingen ipoteza nula
0 :
0
H
si acceptam ipoteza alternativa 0 :
1
H , adica parametrul panta


este semnificativ statistic.
RESIDUAL OUTPUT
Observation
Predicted Y
i i
x y + 9193 , 4 2779 , 10
Residuals
i i i
y y e
1 27,0037 -0,8037
2 19,1327 -1,3327
3 32,9068 -1,6068
4 21,5924 1,5076
5 25,5279 1,9721
6 37,3342 -1,3342
7 13,7215 0,3785
8 25,0359 -2,7359
9 23,0682 -3,4682
10 31,4311 -0,1311
11 20,6085 3,3915
12 15,6892 1,6108
13 40,2858 2,9142
14 33,8907 2,5093
15 28,9714 -2,8714
12
y = 4.9193x + 10.278
R
2
= 0.9235
0
5
10
15
20
25
30
35
40
45
50
0 1 2 3 4 5 6 7
Distanta, in zeci km (variabila X)
V
a
l
o
a
r
e
a

p
r
e
j
u
d
i
c
i
u
l
u
i
,

i
n

m
i
i

E
u
r

(
v
a
r
i
a
b
i
l
a

Y
)
valorile observate yi
valorile estimate ale lui yi
Linear (valorile observate yi)
13