Sunteți pe pagina 1din 13

MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ

(Legătură DIRECTĂ)

Aplicație
Pentru un magazin se cunosc vânzările de cămăşi bărbăteşti şi profitul obţinut pentru 8 zile consecutive:
Profit (unități monetare) 30 42 10 62 12 30 21 58
Număr de cămăși vândute ( zeci bucăți) 3 4 1 6 1 2 2 5
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea profitului dacă s-ar fi vândut 8 zeci
buc. de cămăşi.

Rezolvare

Volumul eșantionului: n = 8 zile


yi = variabila rezultativă/dependentă = Profitul (UM)
xi = variabila factorială / independentă = Nr. cămăși vândute (zeci buc.)
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. cămăși vândute)

yi  f  xi   alti factori
Profit = f ( Nr. cămăși vândute ) + alți factori( erori/reziduuri)
(UM) (zeci buc.)

Aplicarea funcției Regression din Excel

1
Rezultatele pentru etapele 1,2,3 (3.1, 3.2, 3.3) sunt:

2
Ca urmare a aplicării funcției Regression din Excel rezultatele sunt:
Tabel 1 - Regression Statistics
Multiple R 0,98
R Square 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations 8
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute
(zeci bucăți) 10,38 0,81 12,81 1,44E-05 8,38 12,37

a. Reprezentarea grafică

Interpretare grafic
TEORIE
Legătura dintre 2 variabile se reprezintă cu ajutorul diagramei norului de puncte (Scatter),
denumită şi corelogramă, care ne arată:
a.1 – direcția legăturii dintre cele două variabile;
Interpretarea se realizează după cum sunt repartizate punctele pe grafic:
 dacă punctele se plasează pe direcţia primei bisectoare, atunci legătura dintre cele două
variabile este directă
 plasarea punctelor pe direcţia celei de-a doua bisetoare, prezintă o legătură
indirectă/inversă
 cu cât punctele sunt mai concentrate în apropierea primei sau celei de-a doua bisectoare, cu
atât legătura este mai intensă
a.2 – forma legăturii
 dacă repartizarea punctelor se face pe direcţia unei drepte, atunci forma legăturii este
liniare, în caz contrar se vorbeşte despre o legătură neliniară (parabolică, exponenţială etc)

Interpretare grafic aplicație:


Între numărul cămășilor vândute și profit există o legătură directă (punctele sunt plasate pe direcția primei
bisectoare) cu tendință de liniaritate (punctele sunt pe direcția unei drepte).
3
b. Model de regresie
TEORIE Colectivitate Eșantion
Yi  0  1xi   i yi  b0  b1xi  ei
Model de regresie
Y  Yˆ  
i i yi  yˆ i  ei
Ecuația / Funcția de regresie Yˆi  0  1 xi yˆi  b0  b1xi
 0 și 1 b0 și b1
PARAMETRII ESTIMATORII
parametrilor  0 și 1
 0 = intercept/ termen liber b0 = intercept coefficient
1 = panta dreptei de regresie b1 = coeficient de regresie

Se pornește de la modelul teoretic de regresie: yi  b0  b1xi  ei


Se stabilește ecuația / funcția de regresie/ dreapta de regresie teoretică yˆi  b0  b1xi pornind de
la rezultatele tabelului 3
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept b0 2 2,82 0,71 0,504953 -4,90 8,90


Nr cămăși vândute
(zeci bucăți) b1 10,38 0,81 12,81 1,44E-05 8,38 12,37

Ecuația/funcția/dreapta de regresie este: yˆi  2  10,38xi pe baza căreia se obțin valorile ajustate
ale observațiilor având în vedere modelul de regresie: yi  2  10,38xi  ei
OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi  2  10,38xi se prezintă sub forma yi  10,38xi  2
Interpretarea valorilor coeficienților:
Teoria
b0 = Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau Valoarea medie a
variabilei yi în condițiile în care factorul ar fi zero (x =0)
b1 coeficient de regresie care arată:
 direcţia legăturii:
 b1  0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
 b1  0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
 b1  0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
 că, în condiţiile modificării cu o unitate a factorului x , în medie, y variază (crește/scade)
cu valoarea lui b1
Interpretare coeficienți aplicație:
b0 = 2 este Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau profitul
mediu de 2 UM în condițiile în care nu s-ar vinde cămăși (x=0)
b1 = +10,38 arată că între profit și Nr. cămășilor vândute există o legătură directă ( b1  0 ), astfel
încât creșterea numărului de cămăși vândute cu zece bucăți (o unitate) determină o creștere a
profitului cu 10,38 UM (cu valoarea lui b1 ).
4
c. Testarea semnificației parametrilor modelului de regresie (  0 și 1 )
Semnificaţia parametrilor modelului de regresie se stabilește pe baza tabelului 3:

TEORIA
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
b0 Lb0 U b0
Intercept b0 sb0 t b0  Pvb0
sb0 b0  tcrit.  sb0 b0  tcrit.  sb0
b1 Lb1 U b1
Factorul X b1 sb1 tb1  Pvb1
sb1 b1  tcrit.  sb1 b1  tcrit.  sb1
Ipoteze:
H0 :  j = 0  j nu este semnificativ statistic
(panta  j este zero, adică  j nu este semnificativ diferit de zero)
H1 :  j  0,  j este semnificativ statistic
(panta  j nu este diferită de zero, adică  j este semnificativ diferit de zero, deci)
Criteriul 1 – Test Student (BILATERAL)
 valoarea critică: vcrit.  tcrit.   t
; n  k 1
2
bj
 Statistica testului: tc  tcalc  tb j 
sb j
 Decizia:
 Dacă tb j   tcrit. sau tcrit.  tb j  H 0 se respinge, deci H 1 este adevărată  parametrul  j
ESTE semnificativ statistic
 Dacă  tcrit.  tb j  tcrit.  H 0 se acceptă, deci parametrul  j NU este semnificativ statistic.

Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 


 Dacă Pvb j   parametrul  j ESTE semnificativ statistic( H 0 se respinge, H 1 este adevărată)
 Dacă Pvb j    parametrul  j NU este semnificativ statistic ( H 0 se acceptă)
Criteriul 3 – Semnele limitelor intervalului de încredere Lb j   j  U b j
 Dacă Lb j ()   j  Ub j () sau Lb j ()   j  Ub j () (au același semn)  parametrul  j
ESTE semnificativ statistic ( H 0 se respinge, H 1 este adevărată)
 Dacă Lb j ()   j  Ub j () (au semne contrare)  parametrul  j NU este semnificativ
statistic ( H 0 se acceptă)
Unde: Lb j  b j  tcrit.  sb j iar U b j  b j  tcrit.  sb j
Probabilitatea maximă pentru care putem susține că parametrul este semnificativ statistic se
stabilește având în vedere relația:
100  Pvb j %  (1   ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere)

5
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute 10,38 0,81 12,81 1,44E-05 8,38 12,37

Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
2 2,82 0,71 -4,90 8,90
0,504953 Lb0 U b0
Intercept b0 b
sb0 t b0  0 Pvb0
sb0 b0  tcrit.  sb0 b0  tcrit.  sb0
10,38 12,81 1,44E-05 8,38 12,37
0,81 =
Nr Cămăși b1 Lb1 U b1
b1 tb1 
(zeci bucăți) sb1 sb1
0,0000144
b1  tcrit.  sb1 b1  tcrit.  sb1
Pvb1

Testarea semnificației
Parametrului  0 (Intercept) Parametrului 1 (panta dreptei se regresie)
Ipoteze: Ipoteze:
H0 :  0 = 0,  0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 :  0  0,  0 este semnificativ statistic H1 : 1  0, 1 este semnificativ statistic
Criteriul 1 – Test Student
 valoarea critică:  valoarea critică:
vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6 vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6
;nk 1 ;811 ;nk 1 ;811
2 2 2 2

vcrit.  tcrit.   2,447 vcrit.  tcrit.   t  2,447


; n k 1
 Statistica testului: 2

b0 2  Statistica testului:
tc  tcalc  tb0    0,71 b 10,38
sb0 2,82 tc  tcalc  tb1  1   12,81
sb1 0,81

Decizia:Deoarece  Decizia: Deoarece tcrit. (2,447)  tb1 (12,81)  H 0


 tcrit. (2,447)  tc (0,71)  tcrit. (2,447)
se respinge, deci H 1 este adevărată  parametrul 1
 H 0 se acceptă, deci parametrul  0 NU
ESTE semnificativ statistic  modelul este valid
este semnificativ statistic
Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 
Pvb0 (0,50)   (0,05)  parametrul  0 NU Pvb1 (0,0000144)   (0,05) parametrul 1 ESTE
este semnificativ statistic semnificativ statistic  modelul este valid
Criteriul 3 – Compararea semnelor limitelor intervalului de încredere Lb j   j  U b j
Deoarece Lb0 (4,9)  0  U b0 (8,9)  Deoarece Lb1 (8,38)  1  U b1 (12,37)  parametrul
parametrul  0 NU este semnificativ statistic 1 ESTE semnificativ statistic  modelul este valid
Probabilitatea maximă pentru care putem susține că
--------------------------------------- parametrul 1 este semnificativ statistic:
100  Pvb1 %  100  0,00144  99,9986%  95%

6
d. Validitatea/semnificaţia modelului de regresie yi  2  10,38xi  ei
Validitatea/semnificaţia modelului de regresie se stabilește prin aplicarea testului Fisher pe baza
tabelului 2 – ANOVA
TEORIA
df
Tabel 2 - (grade SS MS Sig.
ANOVA libertate) (varianță) (Dispersii corectate) F F*
Regression SSR
df R  k SSR MSR 
(R) df R
Residual SSE MSR ..........
df E  n  k  1 SSE MSE  Fc 
Erori ( E ) df E MSE
dfT  n  1 SST  SSR  SSE
Total
dfT  df R  df E
n = Volumul eșantionului; k = numărul factorilor = nr. variabile independente

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistic
 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
SSR
MSR 
MSR SS df R SST
Fc  MS  MST 
MSE df SSE dfT
MSE 
df E
 Decizia:
 dacă Fc  Fcrit.  H 0 se respinge, deci H 1 este adevărată  modelul este valid.

 dacă Fc < Fcrit.  H 0 se acceptă, deci modelul NU este valid.

OBSERVAȚIE!!!!
 Dacă Signifianc e F    H 0 se respinge, deci H 1 este adevărată  modelul ESTE valid.
 Dacă Signifianc e F    H 0 este adevărată  modelul NU este valid.
Probabilitatea maximă pentru care putem susține că modelul este valid/semnificativ statistic
se stabilește având în vedere relația:
100  Sig F %  (1   ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere )

7
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88

Tabelul ANOVA cu notațiile corespunzătoare:


Tabel 2 - ANOVA df SS MS F Sig. F*
2583,38
1 2583,38 SSR
Regression ( R ) df R  k SSR MSR 
df R 162,3
15,92
Residual - erori 6 95,50 1,44E-05
SSE MSR
(E) df E  n  k  1 SSE MSE  Fc  =
df E MSE 0,0000144
7 2678,88
dfT  n  1 SST  SSR  SSE
Total
dfT  df R  df E

* Sig. F = 1,44E-05 = 1,44 x 10-05 = 1,44 x 10-5 = 0,0000144


Volumul eșantionului: n = 8 zile
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. cămăși vândute)

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistic
 Valoarea critică:
vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 811  F0,05; 1; 6  5,99
 Valoare calculată (Statistica testului) adică F  Fcalculat  Fc are la bază relaţia:
SSR SSR 2583,38
MSR df R k 1 2583,38
Fc       162,31
MSE SSE SSE 95,50 15,92
df E n  k 1 6

 Decizia: Deoarece Fc (162,31)  Fcrit. (5,99)  H 0 se respinge, deci H 1 este adevărată 


modelul este valid.

TOTODATĂ, deoarece Signifianc e F (0,0000144)   (0,05)  H 0 se respinge, deci H 1 este


adevărată  modelul este valid.

Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100  Signifianc e F %  100  0,00144  99,9986%  95%

8
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor de bonitate ai tabelului 1.
TEORIA - Măsurarea intensității legăturii cu Raportul de corelație (Multiple R)
Tabel 1 - Regression Statistics
Multiple R (Raport de corelație) R
R Square (Coeficient de determinație) R2
Adjusted R Square (Coeficient de determinație ajustat) R2
Standard Error (Eroare Standard) se
Observations (Volum eșantion) n

Raportul de corelație ( R  0 ; 1 ) este indicatorul care măsoară intensitatea legăturii dintre


variabila rezultativă/dependentă yi și variabila factorilă/independentă xi.

Interpretarea intensității legăturii dintre variabilele yi și xi:


Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

TEORIA – Testarea semnificației Raportului de corelație cu testul Fisher (unilateral dreapta)


 Ipoteze H0: R*  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
H1: R*  0 Raportul de corelație este semnificativ statistic (modelul este valid)
 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
R2 n  k 1
Fc  
1  R2 k
 Decizia:
 dacă Fc  Fcrit.  H 0 se respinge, deci H 1 este adevărată  Raportul de corelație este
semnificativ statistic (modelul este valid)

 dacă Fc < Fcrit.  H 0 se acceptă, deci Raportul de corelație nu este semnificativ statistic
(modelul NU este valid).

9
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Luând în considerare că, intensitatea legăturii se măsoară cu ajutorul Multiple R=Raportului


de corelație (R), valoarea de 0,98 ( R  R 2  0,96  0,98 ) arată că, între profit și nr. cămășilor
vândute este o legătură foarte puternică (deoarece R  0,95; 1 )

Testarea semnificației Raportului de corelație

 Ipoteze
Ipoteza Nulă: H0: R*  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
Ipoteza Alternativă: H1: R*  0 Raportul de corelație este semnificativ statistic (modelul este valid)

 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 811  F0,05; 1; 6  5,99

 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
n  k  1 R2 6 0,982
Fc    .  144
k 1  R 2 1 1  0,982

 Decizia: deoarece Fc 144  Fcrit 5,99  H 0 se respinge, deci H 1 este adevărată 


Raportul de corelație este semnificativ statistic (modelul este valid)

10
f. Ponderea din variaţia totală a profitului explicată de influenţa vânzărilor de cămăşi
este stabilită prin Coeficientul de Determinație = R Square

TEORIE
Tabel 1 - Regression Statistics
Multiple R R
R Square R2
Adjusted R Square R2
Standard Error se
Observations n

R2 este coeficient de determinație care indică ponderea de influenţă a factorului în


variaţia rezultatului (cât la sută din rezultat este explicat de model)
(Observație!!!... Rezultatul este un coeficient dar, se interpretează sub forma
procentuală)

Factorul NU influenţează semnificativ rezultatul


R 2  50%
Coeficientul de determinaţie NU este semnificativ statistic
Factorul influenţează semnificativ rezultatul
R 2  50%
Coeficientul de determinaţie este semnificativ statistic

K2 este coeficient de nedeterminație -- restul până la 100% din variația totală a


rezultatului este explicat de alți factori (cât la sută din rezultat nu este explicat de model).

Tabel 1 - Regression Statistics


Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Coeficientul de Determinație R2 = (R)2 = (0,98)2 = 0,96 arată că, 96% din profit este
explicat de influenţa vânzărilor de cămăşi (este explicat de model) care fiind mai mare de 50%,
înseamnă că este o influență semnificativă. Restul până la 100% ( de 4%) arată cât la sută din
variația totală a profitului este explicată de alți factori (nu este explicată de model) – K2 =
coeficientul de nedeterminație.

11
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de
corelaţie, testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.

TEORIA – Interpretare coeficient de corelație

Observație: Dacă legătura între două variabile este liniară atunci r  R

Coeficientul de corelație arată:


 direcţia legăturii:
 r  0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
 r  0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
 r  0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
 intensitatea legăturii
Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

Teorie – Testarea semnificației coeficientului de corelație (Test STUDENT - bilateral)


 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic
H1:   0 Coeficietul de corelație  este semnificativ statistic
Unde  este coeficientul de corelație de la nivelul colectivității
 valoarea critică: vcrit.  tcrit.   t
; n  k 1
2
r
 Statistica testului: tc  tcalc   n  k 1
1 r2

 Decizia:
 Dacă tc   tcrit. sau tcrit.  tc  H 0 se respinge, deci H 1 este adevărată  Coeficietul de
corelație  este semnificativ statistic
 Dacă  tcrit.  tc  tcrit.  H 0 se acceptă, deci coeficientul de corelație  nu este semnificativ
statistic.
Matrice de corelație
x y
x 1
y rxy 1

12
Tabel 1 - Regression Statistics

Multiple R (Raport de Corelație)


R  0,98  r
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Măsurarea legăturii dintre profit și numărul cămășilor vândute cu ajutorul coeficientului de


corelație are la bază afirmația existenței unei legături liniare între variabile, care se transpune prin
relația: R  r . În acest context, având în vedere că legătura între variabile este directă liniară (vezi
grafic), atunci coeficientul de corelație este pozitiv ( r  0 ) deci, R   r   0,98 .
Valoarea coeficientului de corelație r   0,98 arată că legătura dintre profit și nr. cămăși
vândute este directă foarte puternică.

Testarea semnificației coeficientului de corelație (Test STUDENT- bilateral)

 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic


H1:   0 Coeficietul de corelație  este semnificativ statistic
 valoarea critică: vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6  2,447
;nk 1 ;811
2 2

r 0,98
 Statistica testului: tc  tcalc   n  k 1   8  1  1  12,01
1 r 2
1  0,982

se respinge se respinge

Se acceptă ipoteza H0

 Decizia:
Deoarece tc (12,01)  tcrit 2,447  H 0 se respinge, deci H 1 este adevărată  Coeficietul de
corelație  este semnificativ statistic

h. Previzionare profit dacă s-ar vinde 8 zeci buc. cămăşi ( xnv  8 zeci buc. )
Luând în considerare modelul de regresie: yi  2  10,38xi  ei , previzionarea profitului se
realizează astfel: se înlocuiește în funcția de regresie yˆ nv  2  10,38xnv valoarea lui xnv cu 8 zeci
buc.cămăși:
yˆ nv  2  10,38xnv  2  10,38  8  85,04 UM
Interpretare: dacă s-ar vinde 8 zeci buc. cămăşi atunci, profitul ar fi de 85,04 UM.

13

S-ar putea să vă placă și