Problema Rezolvata Regresia Liniara Simpla

CSIE, anul I, 2020-2021, ASE
Problema rezolvată - regresia liniară simplă

(adaptata dupa Teorie si practica econometrie, V. Voineagu, E, Titan, R. Serban,
S. Ghita, D. Todose, C. Boboc, D. Pele, Ed. Meteor Press, 2007, Bucuresti)
O firmă de asigurări vrea să găsească o legătură între valoarea prejudiciului provocat de incediul
unei locuinţe şi distanţa dintre locul incendiului şi cea mai apropiată staţie de pompieri. Pentru aceasta,
realizează un studiu, într-o anumită regiune, luând în considerare cele mai recente 15 incendii. Sunt
înregistrate date referitoare la valoarea prejudiciului şi distanţa dintre incendiu şi cea mai apropiată staţie
de pompieri:
Nr. crt. Distanta fata de statia de pompieri (zeci km) Valoarea prejudiciului (mii Euro)
1 3,4 26,2
2 1,8 17,8
3 4,6 31,3
4 2,3 23,1
5 3,1 27,5
6 5,5 36,0
7 0,7 14,1
8 3,0 22,3
9 2,6 19,6
10 4,3 31,3
11 2,1 24,0
12 1,1 17,3
13 6,1 43,2
14 4,8 36,4
15 3,8 26,1
Cerințele sunt:
1. Analizaţi grafic existenţa, sensul şi forma legăturii dintre cele două variabile stabilind care este variabila
explicativă şi care este variabila explicată;
2. Pe baza datelor din eşantion, determinaţi estimațiile coeficienţilor modelului de regresie adecvat
analizei dependenţei dintre cele două variabile şi interpretaţi valorile obţinute;
3. Testaţi validitatea modelului de regresie liniară la un prag de semnificaţie de 5%;
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson
și testați semnificația acestuia;
5. Calculaţi raportul de corelaţie, testaţi semnificaţia (validitatea) acestuia la un nivel se semnificație de
5% şi interpretaţi rezultatul obţinut;
6. Calculați coeficientul de determinaţie şi interpretaţi rezultatul obţinut;
7. Testați ipotezele referitoare la semnificaţia parametrilor modelului de regresie, la un nivel de
semnificaţie de 5%;
8. Determinaţi și interpretați intervalele de încredere 95% pentru parametrii modelului;
9. Rezolvaţi problema în Excel;
10. Estimaţi punctual nivelul prejudiciului, dacă distanţa între locul incendiului şi staţia de pompieri ar fi
de 6,5 zeci de kilometri.
REZOLVARE
1. Variabilele sunt:
X – variabila care arată distanţa dintre incendiu şi cea mai apropiată staţie de pompieri, exprimată
în zeci de km
(variabila independentă sau variabila explicativă sau variabila exogenă)
Y – variabila care arată valoarea prejudiciului, exprimată în mii Euro
(variabila dependentă sau variabila explicată sau variabila endogenă)
1
Corelograma
Sintaxa Excel: Insert
Chart
XY(Scatter)
Corelograma
50.0
45.0
(valoarea prejudiciului, in mii Eur)
Valorile variabilei dependente Y
40.0
35.0
30.0
25.0
20.0
15.0
10.0
5.0
0.0
0.0 1.0 2.0 3.0 4.0 5.0 6.0 7.0
Valorile variabilei independente X
(distanta de la locul incendiului la statia de pompieri, in zeci km)
Corelograma sugerează că există legătură directă şi liniară între cele două variabile.
Există o funcţie f astfel încât variabila X explică variabila Y prin funcţia f, Y  f  X  , o funcţie liniară
f x    0  1  x .
Modelul liniar de regresie este Y   0  1 X   .
2. Coeficienţii modelului de regresie liniară simplă

Pentru fiecare dintre cele n=15 incendii s-au notat valorile celor două variabile, X şi Y, obţinîndu-se
 
astfel seria de date x1 , y1 , x2 , y2 ,...,xn , yn  sau xi , yi , i  1, n . Pe baza acestui eşantion vom
determina estimatorii b0 şi b1 ai parametrilor  0 şi respectiv  1 ai modelului de regresie. Estimatorii b0
şi b1 reprezintă soluţia sistemului ecuaţiilor normale:
 n n
 n  b0  b 1   x i   yi
i 1 i 1
 n n n
b   x  b   x 2   x y

0 i 1 i i i
i 1 i 1 i 1
 b0  b1
Rezolvarea sistemului de ecuații liniare folosind metoda lui Cramer: b0  si b1  ,
 
2
n
n x i
unde   n
i 1
n este determinantul matricei sistemului de ecuaţii,
x x
i 1
i
i 1
2
i
n n n
 yi  xi n  yi
i 1 i 1 i 1
iar  b0  n n
,  b1  n n
sunt minorii corespunzători celor două necunoscute.
 xi y i  xi2  xi  xi y i
i 1 i 1 i 1 i 1
  n   n 2  n   n 
 b0  i
  y i     xi     xi     xi y i 
b0  
1   i 1   i 1   i 1 
  n  n 
2
 n    xi2     xi 
  i 1   i 1 

 n  n  n 
n    xi y i     xi     y i 
  b1
    i 1   i 1 
i 1
b1 
   n
2 
n 
2
 n    xi     xi 
  i 1   i 1 
Calculele intermediare sunt prezentate în tabelul de mai jos:

Valorile xi ale Valorile yi ale
variabilei X variabilei Y
 x i 2  y i 2 xi  y i
x1=3,4 y1=26,2 (x1)2=11,56 (y1)2=686,44 x1·y1=89,08
x2=1,8 y2=17,8 (x2)2=3,24 (y2)2=316,84 x2·y2=32,04
x3=4,6 y3=31,3 (x3)2=21,16 (y3)2=979,69 x3·y3=143,98
2,3 23,1 5,29 533,61 53,13
3,1 27,5 9,61 756,25 85,25
5,5 36,0 30,25 1296,00 198
0,7 14,1 0,49 198,81 9,87
3,0 22,3 9,00 497,29 66,9
2,6 19,6 6,76 384,16 50,96
4,3 31,3 18,49 979,69 134,59
2,1 24,0 4,41 576,00 50,4
1,1 17,3 1,21 299,29 19,03
6,1 43,2 37,21 1866,24 263,52
4,8 36,4 23,04 1324,96 174,72
x15=3,8 y15=26,1 (x15)2=14,44 (y15)2=681,21 x15·y15=99,18
15 15 15 15 15
x
i 1
i  49,2 y
i 1
i  396,2 x
i 1
2
i  196,16 y
i 1
2
i  11376,48 x y
i 1
i i  1470,65
 b0 396,2  196,16  49,2  1470,65

Se obţine: b0    10,2779
 15  196,16  49,2 2
 b1 15  1470,65  49,2  396,16
b1    4,9193 ,
 15  196,16  49,2 2
prin urmare dreapta de regresie este yˆ  b0  b1  x  10,2779  4,9193 x ,

ecuaţia de regresie liniară în eşantion este yi  b0  b1  xi  ei  10,2779  4,9193  xi  ei , i  1,15 ,
iar valorile ajustate ale observaţiilor yi , i  1,15 prin regresie sunt
3
yˆ i  b0  b1  xi  10,2779  4,9193  xi , i  1,15 .
Interpretarea valorilor coeficienţilor

 b1 arată că valoarea prejudiciului creşte, în medie, cu 4,9193 mii euro dacă distanța dintre incendiu și
staţia de pompieri creşte cu o unitate, adică 10 km ( b1 - panta dreptei de regresie - arată cu câte unități
se modifică, în medie, nivelul variabilei dependente, dacă nivelul variabilei independente crește cu o
unitate);
 b0 arată că valoarea prejudiciului este, în medie, egală cu 10,2779 mii euro dacă incendiul ar fi lângă
staţia de pompieri ( b0 - intercept - arată nivelul mediu al variabilei dependente, dacă nivelul variabilei
independente ar fi egal cu 0 unități; b0 nu are întotdeauna interpretare economică).
3. Validitatea modelului de regresie

Pentru testarea validităţii modelului se formulează ipotezele:
H0: modelul de regresie nu este valid sau nu este semnificativ statistic,
cu alternativa
H1: modelul de regresie este valid sau semnificativ statistic statistic.
Statistica utilizată pentru a decide care dintre ipoteze se acceptă este:
SSR
MSR k
F  ~ Fisherk 1,nk 113
MSE SSE
n  k 1
unde k este numărul de variabile explicative din modelul de regresie (în cazul nostru, k=1 deoarece avem
un model de regresie liniară unifactorială sau simplă, cu o singură variabilă explicativă).
Fie  nivelul sau pragul de semnificaţie al testului, iar 1   este nivelul de încredere al testului.
Dacă nu se specifică, vom considera în general că   0,05 sau 100   %  5% , iar 1    0,95
sau 100  1   %  95% .
Pentru calculul statisticii Fcalc folosim tabelul ANOVA:
Grade de
Media pătratelor
libertate
Sursa Suma pătratelor (MS- Mean of Valoarea
(df - Fcritic
variaţiei (SS-Sum of Squares) Squares) statisticii F
degrees of
Dispersiile corectate
freedom)
MSR
 
Datorată n
F
regresiei SSR   yˆ i  y
2
k MSR 
SSR
MSE
F ; k , n k 1
(Regression) i 1 k
n
SSE
Reziduală
SSE    yi  yˆ i 
2
n–k–1 MSE   s e2
(Residual) n  k 1
i 1
SST  SSR  SSE
 
n
Totală n–1
  yi  y
2
i 1
SST 2y
De asemenea, se poate calcula si dispersia de selecție a lui Y, adică s 2y   .
n 1 n 1
Regula de decizie este:
dacă Fcalc  Fcritic  F ;k ,nk 1 , adică Fcalc se găseşte în regiunea critică,
4
atunci respingem H0 şi acceptăm H1, că modelul de regresie este valid statistic.
Calculele intermediare sunt prezentate în tabelul următor:
5
Nr.
crt.
xi yi yˆ i  10,2779  4,9193 xi ei  yi  yˆ i yi  y  yi  y 2 ei2   yi  yˆ i 2  yˆ i  y 2
1 3,4 26,2 27,0035 -0,8035 -0,2133 0,0455 0,6456 0,3484
2 1,8 17,8 19,1326 -1,3326 -8,6133 74,1889 1,7759 53,0080
3 4,6 31,3 32,9067 -1,6067 4,8867 23,8798 2,5814 42,1640
4 2,3 23,1 21,5923 1,5077 -3,3133 10,9780 2,2732 23,2421
5 3,1 27,5 25,5277 1,9723 1,0867 1,1809 3,8898 0,7842
6 5,5 36,0 37,3341 -1,3341 9,5867 91,9048 1,7797 119,2628
7 0,7 14,1 13,7214 0,3786 -12,3133 151,6174 0,1433 161,0841
8 3,0 22,3 25,0358 -2,7358 -4,1133 16,9192 7,4846 1,8975
9 2,6 19,6 23,0681 -3,4681 -6,8133 46,4211 12,0276 11,1905
10 4,3 31,3 31,4309 -0,1309 4,8867 23,8798 0,0171 25,1762
11 2,1 24,0 20,6084 3,3916 -2,4133 5,8240 11,5027 33,6965
12 1,1 17,3 15,6891 1,6109 -9,1133 83,0522 2,5949 115,0078
13 6,1 43,2 40,2856 2,9144 16,7867 281,7933 8,4936 192,4415
14 4,8 36,4 33,8905 2,5095 9,9867 99,7342 6,2974 55,9091
15 3,8 26,1 28,9712 -2,8712 -0,3133 0,0982 8,2440 6,5431
15 15 15 15
y
i 1
i  396,2  yˆi  396,2
i 1
 ei  0
i 1
 y
i 1
i  y  0 SST  911,52 SSE  69,751 SSR  841,76
15
 yi SST
i 1
unde y   26,4133 . Se poate calcula si dispersia de selecție a prejudiciului (variabila Y): s 2y   65,108
15 n 1
Tabelul ANOVA
Sursa Suma pătratelor Grade de libertate Media pătratelor
variaţiei (SS-Sum of Squares) (df - degrees of freedom) (MS - Mean of Squares)
Valoarea statisticii F Fcritic
Datorată regresiei MSR F0,05;1,13  4,667
(Regression)
SSR  841,76 k=1 MSR  841,76 Fcalc   156,89
MSE
Reziduală SSE  69,751 n – k – 1 = 13 MSE  5,365
(Residual)
Totală SST  911,52 n – 1 = 14
Cum Fcalc  156,89  4,667  Fcritic , respingem ipoteza nulă şi concluzionăm că modelul de regresie este valid statistic
(modelul este semnificativ statistic sau modelul este corect specificat).
6
4. Măsuraţi intensitatea legăturii dintre cele două variabile folosind coeficientul liniar de corelaţie Pearson si
testați semnificația statistică a acestuia.
n n
 xi  x  yi  y   xi y i  n  x  y
i 1 i 1
rx , y   
n n
n 2 2 n 2 2
  xi  x     y i  y 
2 2
  xi  n  x     y i  n  y 
i 1 i 1  i 1   i 1 
n  n  n 
n    xi y i     xi     y i 
  i 1   i 1   i 1 
 n 2  n 2   n 2  n 2 
 n  xi    xi     n  y i    y i  
 i 1  i 1    i 1  i 1  
15 1470,65  49,2  396,2

rx , y   0,96098   1;1
2 2
15 196,16  49,2  15 11376,48  396,2
În EXCEL se utilizează funcția CORREL pentru determinarea coeficientului de corelaţie Pearson.

rxy  CORREL(vector _ X , vector _ Y )  0,96098  1;1
Ipotezele testate sunt:

H0 :  = 0 (  nu este semnificativ statistic)
H1:   0 (  este semnificativ statistic).

Statistica t este:
r r n  2 0,96098  13
tcalc     12,53 .
sr 1 r2 1  0,96098 2
Cum valoarea tabelară a testului t, pentru un prag de semnificaţie de 5% şi 13 grade de libertate este 2,160
rezultă că tcalc > t / 2;n2 , deci coeficientul de corelaţie este semnificativ statistic
5. Calculaţi raportul de corelaţie, testaţi validitatea acestuia şi interpretaţi rezultatul obţinut.

SSR 841,76
R   0,96098  0;1
SST 911,52
Valoarea apropiata de 1 a raportului de corelatie arată că între cele două variabile există o legătură
foarte strânsă, legătură pusă în evidență de modelul de regresie.
Testarea validităţii sau semnificaţiei raportului de corelaţie constă în a testa
H0: Raportul de corelaţie este nesemnificativ statistic
(variabila X nu are influenţă semnificativă asupra lui Y)
cu alternativa
H1: Raportul de corelaţie este semnificativ statistic
(semnificativ diferit de 0, adică variabila X are influenţă semnificativă asupra lui Y).
R2
k
Statistica testului este F  1  R 2  Fisherk 1,n  k 113  .
n  k 1
7
0,96098 2
1
Valoarea calculată a statisticii testului este Fcalc   156,89 ,
1  0,96098 2
15  1  1
acceaşi valoare ca la testarea validităţii modelului de regresie folosind ANOVA.
Daca testarea se realizeaza la un prag de semnificaţie   0,05 , atunci
Fcritic  F ;k ,nk 1  F0,05;1,13  4,67 .
Comparăm Fcalc=156,89 > 4,67=Fcritic, respingem ipoteza nulă H0 şi concluzionăm că raportul de
corelaţie este semnificativ diferit de zero, adică variabila X (distanţa) are o influenţă semnificativă asupra
variabilei Y (prejudiciul).
Observație: Pentru modelul de regresie liniara simplă, între raportul de corelație R și coeficientul
de corelație liniara Pearson rx , y există următoarea relație
 R, daca b1  0
rx, y   .
 R, daca b1  0
SSR 841,76
6. Coeficientul de determinaţie este R 2    0,9235
SST 911,52
sau R  0,96098  0,9235 şi arată că 92,35% (adică R %) din variaţia totală a prejudiciului cauzat de
2 2 2
incendii este explicată de variaţia variabilei independente (distanţa între locul incendiului şi staţia de
pompieri) sau de modelul de regresie.
7. Testarea semnificației parametrului  0 al modelului linear de regresie Y   0  1  X  

H 0 :  0  0 (parametrul este nesemnificativ statistic)
H1 :  0  0 (parametrul α este semnificativ statistic, adică semnificativ diferit de 0)
b0   0
Statistica testului este t   Student ( nk 113) ,
sb0
 
 
2 1 x2 s  1 x2
unde sb0  se   n e este abaterea standard (eroarea standard) a
n  n n
  xi  x   
2 2
   x i  x
 i 1  i 1
estimatorului b0 , s e este dispersia reziduală sau a erorilor, iar se  se este abaterea standard reziduală
2 2
(eroarea standard reziduală sau a erorilor).

Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică  0  0 , este
b  0 b0 b 10,2779
t calc  0  , deci t calc  0   7,237 , cu sb0  1,42 .
sb0 sb0 sb0 1,42
Dacă nivelul de semnificație este   0,05 , atunci regiunea critică a testului este
Rc   ; t critic   t critic;   
       
   , t     t ;      ; t 0,05    t 0,05 ;   ,
 ;n  k 1   ;nk 1   ;13   ;13 
 2   2   2   2 
unde t critic  t  ;nk 1 este valoarea critică a testului t bilateral pentru testarea semnificației parametrilor unui
2
model liniar de regresie cu k variabile explicative și la un nivel de semnificație  .
8
Cum t   t 0,05  2,160  t critic , atunci t calc  7,237  Rc   ;2,160  2,160;  , deci
;n  k 1 ;13
2 2
respingem H0 şi concluzionăm că parametrul  0 este semnificativ statistic.
Testarea semnificaţiei parametrului  1 al modelului linear de regresie Y   0  1  X   :

H 0 : 1  0 (parametrul este nesemnificativ statistic)
H 1 : 1  0 (parametrul β este semnificativ statistic, adică semnificativ diferit de 0)
b1  1
Statistica testului este t  sb1
 Student ( nk 113) ,
1 se
unde sb1  se2  n
 este abaterea standard (eroarea standard) a estimatorului
  xi  x 
n
  xi  x 
2 2
i 1 i 1
b1 , s e2 este dispersia reziduală, iar se  se2 este abaterea standard reziduală (eroarea standard reziduală).
Valoarea calculată a statisticii testului, în ipoteza că H0 este adevarătă, adică 1  0 , este
b1  0 b1 b 4,9193
t calc   , deci t calc  1   12,56 , cu sb1  0,39 .
sb1 sb1 sb1 0,39
Dacă nivelul de semnificaţie este   0,05 , atunci regiunea critică a testului este
Rc   ; t critic   t critic;   
       
   , t     t ;      ; t 0,05    t 0,05 ;   .
 ;n  k 1   ;nk 1   ;13   ;13 
 2   2   2   2 
Cum t  ;nk 1  t 0,05;13  2,160  t critic , atunci t calc  12,56  Rc   ;2,160  2,160;  ,deci respingem
2 2
H0 şi concluzionăm că parametrul  1 este semnificativ statistic.
8. Intervalul de încredere (1-α)·100% = 95% pentru parametrul  0 al modelului de regresie

lineara Y   0  1  X   , determinat pe baza eşantionului observat, este:
b0  t   sb0  0  b0  t   sb0
;n k 1 ;n  k 1 ,
 2    2  
limita inferioara a intervalului limita superioara a intervalului
de incredere (1-α)100% de incredere (1- )100%
a parametrului  0 a parametrului  0
unde sb0 este eroarea standard a estimatorului  0 .

În cazul nostru, b0  10,2779, sb0  1,42 ,   0,05 , t  ;n  k 1
 t 0,05
;13
 2,160 , deci intervalul [7,21;
2 2
13,34] acoperă valoarea adevărată a parametrului  0 cu probabilitatea 0,95, adică intervalul de valori [7,21;
13,34] mii Eur acoperă nivelul mediu al prejudiciului provocat de incendiu, dacă acesta se produce chiar
lângă staţia de pompieri, cu probabilitatea de 95%.
Cum intervalul de încredere 95% determinat pentru parametrul  0 nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru  0 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionăm că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
9
Intervalul de încredere (1-α)·100% = 95% pentru parametrul  1 al modelului linear de regresie
Y   0  1  X   , determinat pe baza eşantionului observat, este:
b1  t   sb1  1  b1  t   sb1
;nk 1 ;n k 1 ,
 2    2  
limita inferioara a intervalului limita superioara a intervalului
de incredere (1-α)100% de incredere (1- )100%
a parametrului 1 a parametrului 1
unde sb1 este eroarea standard a estimatorului b1 .

În cazul nostru, b1  4,9193 , sb1  0,39 ,   0,05 , t  ;n  k 1
 t 0,05
;13
 2,160 , deci intervalul [4,07;
2 2
5,76] acoperă valoarea adevărată a parametrului  1 cu probabilitatea 0,95. Cu alte cuvinte, dacă distanţa
devine mai mare cu o unitate (10 km), nivelul prejudiciului creşte, în medie, cu o valoare acoperită de
intervalul [4,07; 5,76] mii Eur, cu o probabilitate de 0,95.
Cum intervalul de încredere 95% determinat pentru parametrul 1 nu acoperă valoarea 0, atunci
putem spune că acesta este semnificativ diferit de 0 sau este semnificativ statistic.
Dacă însă, intervalul de încredere pentru 1 ar fi acoperit, adică ar fi conţinut, şi valoarea 0, atunci
concluzionăm că parametrul este nesemnificativ statistic (nu este semnificativ diferit de 0).
9. Rezolvarea in Excel:
În Excel, există modulul Data Analysis, opţiunea Regression care furnizează într-un output specific
toate aceste calcule prezentate până acum.
Astfel, într-o foaie de lucru, se introduce setul de date { (x1,y1), (x2,y2),...., (xn,yn) }, în cazul nostru
n=15, iar apoi din meniul principal alegem Data, submeniul Data Analysis şi apoi Regression, dacă se
lucrează în Excel 2007. Dacă aveţi la dispoziţie Excel 2003, alegeţi din meniul principal Tools, apoi Data
Analysis şi apoi Regression.
In fereastra care va apare, trebuie:
10
o să alegeţi care este şirul de valori corespunzătoare variabilei dependente Y (Input Y Range) şi
care este şirul de valori corespunzătoare variabilei independente X (Input X Range),
o să specificaţi nivelul de încredere al testului, de obicei 95%,
o să precizați opțiunea de output. Opțiunea recomandată este New Worksheet Ply care va genera o
nouă foaie de calcul cu rezultatele regresiei. O altă metodă constă în precizarea celulei din foaia
de lucru începând cu care se vor afişa rezultatele, adică outputul (Output Range),
o să bifaţi opţiunea Residuals şi, opţional, Line Fit Plots.
Output-ul este prezentat în tabelele următoare:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,96098 = R = raportul de corelaţie
R Square 0,92348 = R2 = coeficientul de determinaţie
Adjusted R Square 0,91759
Standard Error 2,31635 = se = eroarea standard sau abaterea standard a erorilor
Observations 15 = n = numărul de perechi de observaţii din eşantion
ANOVA
df SS MS F Significance F
SSR
1=k SSR  841,766 MSR   841,766 Fcalc  156,88 1,25E-08
Regression k
SSE
13 = n-k-1 SSE  69,751 MSE  s e2   5,365
Residual n  k 1
Total 14 = n-1 SST  911,52
11
Significance F, adică nivelul de semnificație observat sau calculat, este cel mai mic nivel fixat de
semnificație al testului de verificare că modelul de regresie este valid sau semnificativ statistic, pentru care
ipoteza nulă “ H 0 : modelul de regresie nu este valid statistic” poate fi respinsă.
Daca  este nivelul sau pragul de semnificație al testului, atunci regula de decizie este:
 daca Significance F   , atunci nu există suficiente motive sa
respingem ipoteza nulă H 0 , adică acceptăm H 0 , rezultatul nu este
semnificativ statistic, adică modelul de regresie nu este valid statistic;
 daca Significance F   , atunci se respinge ipoteza nulă H 0 și se acceptă ipoteza alternativă
H 1 , adică rezultatul este semnificativ statistic, ceea ce înseamnă că
modelul de regresie este valid statistic sau este corect specificat.
În cazul nostru, nivelul de semnificație al testului este  '  0,05 , iar Significance F = 1,25E-08 =
0,0000000125, deci Significance F   ' , prin urmare respingem H0 și acceptăm H1 că modelul de regresie
este valid sau semnificativ statistic.
Lower 95% Upper 95%

Standard (Limita inferioară (Limita superioară
Coefficients t Stat P-value
Error a intervalului a intervalului
de încredere 95%) de încredere 95%)
b0  0
1,42= sb
t calc  7,21= 13,34=
Intercept 10,2779=b0 sb0 6,59E-06
0
= b0  t critic  sb0 = b0  t critic  sb0
=7,237
b1  0
t calc  4,07=
X Variable 1 4,9193=b1 0,39= s b sb1 1,25E-08 5,76=
 t critic  sb1
1
=12,525
= b1 = b1  t critic  sb1
P value, adică nivelul de semnificație observat sau calculat, este cel mai mic nivel fixat de
semnificație al testului pentru care ipoteza nulă H 0 poate fi respinsă.
Daca  este nivelul sau pragul de semnificație al testului, atunci regula de decizie este:
 daca P value   , atunci nu există suficiente motive sa respingem ipoteza
nulă H 0 , adică acceptăm H 0 , rezultatul nu este semnificativ statistic;
 daca P value   , atunci se respinge ipoteza nulă H 0 și, prin urmare, se acceptă ipoteza
alternativă H 1 , adică rezultatul este semnificativ statistic.
In cazul nostru, nivelul de semnificație este   0,05 .
Pentru parametrul  0 , P value  6,59E  06  6,59 10 6  0,00000659 , deci P value   , prin urmare
respingem ipoteza nulă H 0 :  0  0 si acceptăm ipoteza alternativă H1 :  0  0 , adică parametrul  0 este
semnificativ statistic.
Pentru parametrul  1 , P value  1,25E  08  1,25 10 8  0,0000000125 , deci P value   , prin urmare,
respingem ipoteza nulă H 0 : 1  0 si acceptăm ipoteza alternativă H 1 : 1  0 , adică parametrul panta  1
este semnificativ statistic.
RESIDUAL OUTPUT
Predicted Y Residuals
Observation
yˆ i  10,2779  4,9193 xi ei  yi  yˆ i
1 27,0037 -0,8037
2 19,1327 -1,3327
3 32,9068 -1,6068
4 21,5924 1,5076
5 25,5279 1,9721
12
6 37,3342 -1,3342
7 13,7215 0,3785
8 25,0359 -2,7359
9 23,0682 -3,4682
10 31,4311 -0,1311
11 20,6085 3,3915
12 15,6892 1,6108
13 40,2858 2,9142
14 33,8907 2,5093
15 28,9714 -2,8714
50
Valoarea prejudiciului, in mii Eur (variabila Y)
45 y = 4.9193x + 10.278
R2 = 0.9235
40
35
30
valorile observate yi
25 valorile estimate ale lui yi
Linear (valorile observate yi)
20
15
10
0
0 1 2 3 4 5 6 7
Distanta, in zeci km (variabila X)
10. Estimația punctuală este:

yˆ i  b0  b1  xi  10,2779  4,9193 6.5  42.25
Precizări suplimentare:
Atenție la setările regionale ale calculatorului pe care-l utilizați. Dacă aveți setările în engleză va
trebui să înlocuiți virgula care desparte zecimalele cu punct, folosind comanda Ctrl+H.
Activarea modulului Data Analysis, se face în felul următor:
1) Dați clic pe tabul File, apoi selectați Options
13
2) Selectați opțiunea Add-ins (denumită programe de completare în versiunea română), și selectați
Analysis ToolPak.
3) Dați clic pe butonul Go și bifați căsuța Analysis Tookpak
4) Activarea s-a realizat cu succes atunci când apare pictograma Data Analysis în partea dreaptă a
tabului Data
14

Problema Rezolvata Regresia Liniara Simpla

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Problema Rezolvata Regresia Liniara Simpla

Încărcat de

Drepturi de autor:

Formate disponibile

CSIE, anul I, 2020-2021, ASE

Problema rezolvată - regresia liniară simplă

2. Coeficienţii modelului de regresie liniară simplă

Calculele intermediare sunt prezentate în tabelul de mai jos:

 b0 396,2  196,16  49,2  1470,65

prin urmare dreapta de regresie este yˆ  b0  b1  x  10,2779  4,9193 x ,

Interpretarea valorilor coeficienţilor

3. Validitatea modelului de regresie

Calculele intermediare sunt prezentate în tabelul următor:

15 1470,65  49,2  396,2

În EXCEL se utilizează funcția CORREL pentru determinarea coeficientului de corelaţie Pearson.

Ipotezele testate sunt:

H1:   0 (  este semnificativ statistic).

5. Calculaţi raportul de corelaţie, testaţi validitatea acestuia şi interpretaţi rezultatul obţinut.

7. Testarea semnificației parametrului  0 al modelului linear de regresie Y   0  1  X  

(eroarea standard reziduală sau a erorilor).

Testarea semnificaţiei parametrului  1 al modelului linear de regresie Y   0  1  X   :

8. Intervalul de încredere (1-α)·100% = 95% pentru parametrul  0 al modelului de regresie

unde sb0 este eroarea standard a estimatorului  0 .

unde sb1 este eroarea standard a estimatorului b1 .

In fereastra care va apare, trebuie:

Output-ul este prezentat în tabelele următoare:

Lower 95% Upper 95%

10. Estimația punctuală este:

Activarea modulului Data Analysis, se face în felul următor:

1) Dați clic pe tabul File, apoi selectați Options

3) Dați clic pe butonul Go și bifați căsuța Analysis Tookpak

S-ar putea să vă placă și