Sunteți pe pagina 1din 62

CURS 12 - VERIFICAREA IPOTEZELOR MODELULUI DE REGRESIE

LINIARA
APLICAȚII REZOLVATE

1. Legătura dintre preţul de vânzare al unor autoturisme second-hand, distanţa parcursă şi consumul mediu la 100
de km este redată cu ajutorul unui model de regresie liniară. Pentru verificarea ipotezei de normalitate a erorilor, s-
au obţinut următoarele rezultate:

Pe baza rezultatelor obţinute, arătaţi dacă ipoteza


normalităţii valorilor este validată, la un nivel de
semnificaţie de 1%. (valoare critica: 0.352)

Soluție:

Procedeu grafic: histograma reziduurilor – comentarii: deoarece distributia erorilor are aproximativ o forma de
clopot, rezulta ca erorile sunt normal repartizate – este validata ipoteza normalitatii erorilor
Procedeu numeric: testul Kolmogorov Smirnov

H0: Erorile sunt normal distribuite.


H1: Erorile nu sunt normal distribuite.

Alfa=0.01
Sig.=0.2
Sig > alfa → accept H0, erorile sunt normal repartizate
KS_calc = 0.113
KS_crit = 0.352
KS_calc < KS_crit → accept H0, erorile sunt normal repartizate

2. În urma prelucrării valorilor variabilei reziduale obţinute într-un model de regresie liniară bifactorială, s-au obţinut
următoarele rezultate:

Residuals
Standard
Deviation 578,04
Sample Variance 334133,78
Kurtosis 0,84
Skewness 0,53
Count n=15

Testaţi, pentru un nivel de semnificaţie de 5%


ipoteza normalităţii erorilor, analizând rezultatele
alăturate (χ2crit =7.81)

Soluție:
Procedeu grafic: Diagrama P-P Plot – comentarii: deoarece punctele sunt foarte concentrate in jurul diagonalei,
rezulta ca erorile urmeaza o lege normala de repartitie.
Procedeu numeric: testul Jarque-Bera

H0: Erorile sunt normal distribuite.


H1: Erorile nu sunt normal distribuite.

𝑛 (𝐾𝑢𝑟𝑡)2 15 (0.84)2
𝐽𝐵 = [(𝑆𝑘𝑒𝑤)2 + ]= [(0.53)2 + ] = 1.14
6 4 6 4

χ2crit =7.81 = χ2α,k+1


JB < χ2crit → accept H0, erorile sunt normal repartizate

3. Legătura dintre venitul salarial (mii lei), experienţa în domeniu (ani) şi nivelul de expertiză a fost redată printr-
un model de regresie liniară. În vederea verificării – cu ajutorul testului White – a homoscedasticităţii erorilor
obţinute, a fost identificat un model auxiliar de regresie, pentru care sunt prezentate următoarele rezultate:

Regression Statistics Coefficients Standard Error t Stat


Multiple R 0,912 Intercept a0 = 0,230 0,199 1,153
R Square 0,833 Experienta X1 a1 = - 0,041 0,029 -1,415
Adjusted R Square 0,693 Nivel expertiza X2 a2 = - 0,010 0,022 -0,468
2
Standard Error 0,092 X1 a3 = 0,004 0,002 1,728
2
Observations 12 X2 a4 = 0,0004 0,0004 0,865
X1• X2 a5 = - 0,001 0,002 -0,483

Identificaţi modelul auxiliar de regresie şi arătaţi dacă poate fi validate – pentru un nivel de semnificaţie de 5% -
ipoteza homoscedasticităţii valorilor variabilei reziduale. (χ2crit = 11,07).

Soluție:

Procedee numerice – testul White pentru modelul de regresie liniara multipla

Modelul auxiliar de regresie in populatia totala:

𝜀 2 = 𝛼0 + 𝛼1 𝑋1 + 𝛼2 𝑋2 + 𝛼3 𝑋12 + +𝛼4 𝑋22 + 𝛼5 𝑋1 𝑋2 + 𝛾


5 „intrari” in model (variabile independente): 𝑋1 , 𝑋2 , 𝑋12 , 𝑋22 , 𝑋1 𝑋2
1 „iesire” din model (variabila dependenta): 𝜀 2

Modelul auxiliar de regresie in esantion:


𝑒 2 = 𝑎0 + 𝑎1 𝑥1 + 𝑎2 𝑥2 + 𝑎3 𝑥12 + +𝑎4 𝑥22 + 𝑎5 𝑥1 𝑥2 + 𝑢

Ipotezele testului:
H0: α 1=...= α 5=0  erori homoscedastice
H1:  α j  0  erori heteroscedastice
2
Se calculează raportul de determinaţie al modelului auxiliar 𝑅𝑎𝑢𝑥 = 0.833

Valoarea calculata a testului:


2
𝐿𝑀 = 𝑛 ∙ 𝑅𝑎𝑢𝑥 = 12 ∙ 0.833 = 9.996

χ2crit = 11,07
LM < χ2crit → accept H0, erorile sunt homoscedastice
Modelul auxiliar de regresie în eșantion este:
𝑒 2 = 0.23 − 0.041 ∙ 𝑥1 − 0.01 ∙ 𝑥2 + 0.004 ∙ 𝑥12 + 0.0004 ∙ 𝑥22 − 0.001 ∙ 𝑥1 𝑥2 + 𝑢

4. Legătura dintre două variabile este redată cu ajutorul unui model de regresie liniară simplă. Pentru verificarea
ipotezei de homoscedasticitate a erorilor corespunzătoare acestui model, a fost aplicat testul Goldfeld-Quandt. S-au
obţinut următoarele rezultate:

Pentru un nivel de semnificaţie de 5%, puteţi valida ipoteza homoscedasticităţii erorilor? (Fcrit = 3,43).

H0: erorile sunt homoscedastice.


H1: erorile sunt heteroscedastice

MSE(A)=0.2171
MSE(B)=13.876

Testul Goldfeld-Quandt

Fcalc= MSE(B) / MSE(A)= 13.876 / 0.2171 = 63.91

Fcrit = 3,43
Fcalc > Fcrit → resping H0, accept H1, erorile sunt heteroscedastice.

5. Pentru un model de regresie ce descrie legătura liniară dintre trei variabile, s-au obţinut: corelograma erorilor (ei,
ei-1) şi următorii indicatori statistici de regresie:

Decideţi, pe baza rezultatelor şi la un nivel de semnificaţie de 5%, dacă


între valorile variabilei reziduale există autocorelaţie de ordinul întâi.
(dL = 1,35; dU = 1,49).

Soluție:

Corelograma reziduurilor: nu exista legatura intre erori (erorile sunt non-autocorelate) – punctele sunt imprastiate

Testul Durbin-Watson:
H0: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) = 0 (erorile nu sunt autocorelate)
H1: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) ≠ 0 (erorile sunt autocorelate)

∑𝑛𝑖=2(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷𝑊 = ≈ 2(1 − 𝑟𝑒𝑖 ,𝑒𝑖−1 ) = 1.688
∑𝑛𝑖=1 𝑒𝑖 2
dL = 1,35
dU = 1,49
4- dL = 2.65
4- dU = 2.51
0 dL =1.35 dU =1.49 2 4- dU =2.51 4- dL =2.65 4

Accept H1 Accept H1
Indecizie Accept H0 Indecizie
Erori pozitiv Erori negativ
Erori non- autocorelate
autocorelate autocorelate

dU < DW < 4-dU  erori independente sau non-autocorelate (accept H0)


1.49 < DW < 2.51 Accept H0, erori non-autocorelate (independente)

6. Managerul unei agenţii imobiliare doreşte să analizeze modul în care mărimea caselor tranzacţionate (mp) şi
perioada în care ele s-au aflat pe piaţă până la efectuarea tranzacţiei (zile) influenţează variaţia preţului de cumpărare
a acestora (mii $). În urma prelucrării datelor înregistrate pentru 50 de tranzacţii imobiliare prin aplicare unui model
linair de regresie, s-au obţinut următoarele rezultate:

Residuals(i) vs. Residuals(i-1) Correlation matrix:


100 Residuals(i) Residuals(i-1)
Residuals(i) 1
50 Residuals(i-1) 𝑟𝑒𝑖 ,𝑒𝑖−1 =0,358 1

0 Decideţi, pe baza rezultatelor şi la un nivel de


-100 -50 0 50 100 semnificaţie de 5%, dacă între valorile variabilei
-50 reziduale există autocorelaţie de ordinul întâi.
(dL = 1,46; dU = 1,63).
-100

Soluție:
Corelograma reziduurilor: nu exista legatura intre erori (erorile sunt non-autocorelate) – punctele sunt imprastiate
Testul Dubin_Watson:
H0: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) = 0 (erorile nu sunt autocorelate)
H1: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) ≠ 0 (erorile sunt autocorelate)

∑𝑛𝑖=2(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷𝑊 = ≈ 2(1 − 𝑟𝑒𝑖 ,𝑒𝑖−1 ) = 2(1 − 0.358) = 1.284
∑𝑛𝑖=1 𝑒𝑖 2
dL = 1,46
dU = 1,63
4- dL = 2.54
4- dU = 2.37

0 dL =1.46 dU =1.63 2 4- dU =2.37 4- dL =2.54 4

Accept H1 Accept H1
Indecizie Accept H0 Indecizie
Erori pozitiv Erori negativ
Erori non- autocorelate
autocorelate autocorelate
0 < DW < dL  erori pozitiv autocorelate (resping H0, accept H1)
0 < DW < 1.46 Accept H1, erori pozitiv autocorelate

7. Un profesor de statistică se întreabă dacă şi în ce măsură punctajele studenţilor săi la testul de statistică sunt
dependente de timpul petrecut în cluburi în ultima lună (număr zile) şi cunoştinţele de matematică ale acestora
(nota la examen). În urma prelucrării datelor pentru 20 de studenţi, s-au obţinut rezultatele:

Nota matematică Punctaj statistic Regression Statistics


Matricea de corelatie Zile în club (X1)
(X2) (Y)
Zile în club (X1) Multiple R 0,728
1
R Square 0,529
Nota matematică (X2) Adjusted R Square 0,662
-0,442 1
Standard Error 6,582
Punctaj statistic (Y)
-0,387 0,859 1 Observations 20

Verificaţi dacă în cazul acestui model de regresie este validată ipoteza de non-multicoliniaritate a factorilor,
utilizând: criteriul Klein şi criteriul factorului de inflaţie al dispersiei (varianței).

Soluție:

Criteriul Klein

Coeficientul Pearson dintre X1, X2: r(X1,X2) = -0.442

Raportul de corelație multiplă: Ry/X1,X2=0.728

Raportul de determinatie R2y/X1,X2=R2 = 0.529

r2(X1,X2) = (-0.442)2=0.195

Cum r2(X1,X2) < R2 rezulta ca nu exista multicoliniaritate

Criteriul VIF (Factorul de Inflație a Varianței)


1 1
𝑉𝐼𝐹 = 2 = = 1.24 < 4 Nu exista multicoliniaritate
1−𝑟𝑥1,𝑥2 1−0.195
REZOLVARE MODEL BILET EXAMEN

1. În analiza dispersională ANOVA, utilizată în testarea validităţii unui model de regresie liniară
bifactorială, numărul gradelor de libertate asociat sumei pătratelor reziduurilor (SSE) este:
a) 2; b) n-2; c) n-3; d) n-1; e) 1 (unde n este volumul eşantionului)
Soluție: în modelul de regresie bifactorială k=2, iar numărul gradelor de libertate la care se împarte
SSE este dfE = n-k-1 = n-2-1 = n-3. Răspuns corect: c)
2. Care dintre următoarele nu reprezintă una din cele patru componente ale seriilor de timp: a)
modificarea medie absolută; b) componenta de trend; c) componenta ciclică; d) componenta
reziduală; e) componenta predictibilă.
Soluție: Cele 4 componente ale unei serii de timp sunt:
- componenta de trend,
- componenta sezonieră,
- componenta ciclică,
- componenta reziduală.
Răspuns corect: a) și e).
3. Evolutia vanzarilor de bilete ale unei companii aeriene low-cost, in perioada 2018-2020 a fost (mil.
lei):
Anul Trimestrul I Trimestrul II Trimestrul III Trimestrul IV
2018 32 36 52 38
2019 40 65 104 78
2020 52 70 120 84

Se cunosc valoriile mediilor mobile:


Medii mobile
40,5 45,125 55,25 66,75 73,25 75,375 …… ……

a) Valorile lipsa ale mediilor mobile sunt ..................................................; b) Devierile sezoniere brute
(necorectate) sunt ............................................................. c) Devierile sezoniere corectate au valorile
....................................................................; d) Devierea sezoniera corectata in trim. III arata ca
.....................................................................; e) Determinati termenii seriei desezonalizate.

Soluție: se dispun cele 12 valori inițiale pe vertical, într-un nou tabel:


Perioada yt MM
0 1 2

Tr.I 2018 32 -

Tr.II 2018 36 -

Tr.III 2018 52 40,5

Tr.IV 2018 38 45,125

Tr.I 2019 40 55,25

Tr.II 2019 65 66,75

Tr.III 2019 104 73,25

Tr.IV 2019 78 75,375

Tr.I 2020 52 … (78)

Tr.II 2020 70 …. (80,75)

Tr.III 2020 120 -

Tr.IV 2020 84 -

TOTAL

104 120
+ 78 + 52 + 70 +
𝑀𝑀7 = 2 2 = 78
4
78 84
+ 52 + 70 + 120 +
𝑀𝑀8 = 2 2 = 80,75
4
Răspuns: cele două medii mobile sunt: 78 și 80,75.

b) Pentru obținerea devierilor (abaterilor) sezoniere brute (necorectate) se calculeaza diferența


între col. 1 și col. 2 (vezi col. 3)

yt yt - MM DSCj 𝒚𝒅𝒆𝒔
𝒕 =yt – DSCj = yt
Perioada MM (ytT) – ytS
0 1 2 3 4 5

Tr.I 2018 32 - -

Tr.II 2018 36 - -
Tr.III 2018 52 40,5 11,5

Tr.IV 2018 38 45,125 -7,125

Tr.I 2019 40 55,25 -15,25

Tr.II 2019 65 66,75 -1,75

Tr.III 2019 104 73,25 30,75

Tr.IV 2019 78 75,375 2,625

Tr.I 2020 52 78 -26

Tr.II 2020 70 80.75 -10,75

Tr.III 2020 120 - -

Tr.IV 2020 84 - -

Apoi diferențele din col. 3 se așează într-un tabel matriceal, astfel:

Ani yt-MM in trimestrul Suma

I II III IV

2018 - - 11,5 -7,125

2019 -15,25 -1,75 30,75 2,625

2020 -26 -10,75 - -

Devieri sezoniere brute (DSBj) - 20.625 - 6.25 21.125 - 2.25 -8


Devieri sezoniere corectate
(DSCj)=componenta -19 -4 23 0 0
sezoniera (ytS)

Se calculeaza medii ale diferentelor de pe fiecare coloana, obtinandu-se devieri sau abateri sezoniere
brute (DSBj, cu j=1,2,3,4)
(−15,25)+(−26)
𝐷𝑆𝐵𝐼 = = −20,625 (in trim. I)
2
(−1,75)+(−10,75)
𝐷𝑆𝐵𝐼𝐼 = = −6,25 (in trim. II)
2
11,5+30,75
𝐷𝑆𝐵𝐼𝐼𝐼 = = 21,125 (in trim. III)
2
(−7,125)+2,625
𝐷𝑆𝐵𝐼𝑉 = = −2,25 (in trim. IV)
2
Răspuns: Cele patru devieri sezoniere brute sunt: -20,625; -6,25; 21,125; -2,25 (mil. lei).

c) Se calculeaza media celor patru devieri sezoniere brute:

∑4𝑗=1 𝐷𝑆𝐵𝑗 −8
𝐷𝑆𝐵 = = = −2
4 4

Se scade din fiecare deviere sezoniera bruta (DSBj) media DSB , obtinandu-se devieri sau abateri
sezoniere corectate (DSCj), a caror suma trebuie sa fie egala cu zero:

𝐷𝑆𝐶𝐼 = −20,625 − (−2) = −18,625 ≈ −19


𝐷𝑆𝐶𝐼𝐼 = −6,25 − (−2) = −4,25 ≈ −4
𝐷𝑆𝐶𝐼𝐼𝐼 = 21,125 − (−2) = 23,125 ≈ 23
𝐷𝑆𝐶𝐼𝑉 = −2,25 − (−2) = −0,25 ≈ 0
Cele patru valori s-au trecut pe ultima linia a tabelului de mai sus, si suma lor este 0 și reprezintă
COMPONENTA SEZONIERĂ ytS.

Interpretarea valorilor DSCj:

𝐷𝑆𝐶𝐼 = −19
Interpretare: In perioada 2018-2020, in trim. I factorul sezonier a determinat o scadere medie a
vânzărilor de bilete cu 19 mil. lei față de linia de trend.

DSCII = −4

Interpretare: In perioada 2018-2020, in trim. II factorul sezonier a determinat o scadere medie a


vânzărilor de bilete cu 4 mil. lei față de linia de trend.

𝐷𝑆𝐶𝐼𝐼𝐼 = 23
Interpretare: In perioada 2018-2020, in trim. III factorul sezonier a determinat o crestere medie a
vânzărilor de bilete cu 23 mil. lei față de linia de trend.

𝐷𝑆𝐶𝐼𝑉 = 0
Interpretare: In perioada 2018-2020, in trim. IV factorul sezonier nu a determinat modificarea
vânzărilor de bilete față de linia de trend.

DSCI, DSCII < 0 in trimestrele I si II factorul sezonier a avut o influenta negativa asupra vanzarilor.

DSCIII > 0 in trimestrul III factorul sezonier a avut o influenta pozitiva asupra vanzarilor.

DSCIV = 0 in trimestrul IV factorul sezonier nu a influentat vanzarile.

Răspuns: cele patru devieri (abateri) sezoniere corectate sunt: -19, -4, 23, 0 (mil. lei)
Suplimentar, se poate cere și calculul termenilor desezonalizați. Pentru aceasta se completează ultimele
două coloane din tabelul de mai jos (col. 4 si 5):

Perioada yt MM (ytT) yt - MM DSCj 𝒚𝒅𝒆𝒔


𝒕 =yt – DSCj = yt – ytS
0 1 2 3 4 5

Tr.I 2018 32 - - -19 32-(-19)=51

Tr.II 2018 36 - - -4 36-(-4)=40

Tr.III 2018 52 40,5 11,5 23 52-23=29

Tr.IV 2018 38 45,125 -7,125 0 38-0=38

Tr.I 2019 40 55,25 -15,25 -19 40-(-19)=59

Tr.II 2019 65 66,75 -1,75 -4 65-(-4)=69

Tr.III 2019 104 73,25 30,75 23 104-23=81

Tr.IV 2019 78 75,375 2,625 0 78-0=78

Tr.I 2020 52 78 -26 -19 52-(-19)=71

Tr.II 2020 70 80.75 -10,75 -4 70-(-4)=74

Tr.III 2020 120 - - 23 120-23=97

Tr.IV 2020 84 - - 0 84-0=84

4. Echipa de management a unui lant de magazine alimentare doreşte să studieze legătura dintre
cheltuielile efectuate pentru promovarea produselor (mii lei) şi încasările lunare realizate (sute mii
lei). Pentrbu aceasta au fost înregistrate valorile celor două variabile pentru 20 de mărfuri
alimentare, obţinându-se următoarele rezultate (în ipoteza unei legături liniare):
Multiple R …..
R Square ….. ANOVA df SS MS F Significance F
Adjusted R Regression …. …. 476,82 ….. 0,00002
Square …..
Residual …. …. ….
Standard Error 3,858
Total …. ….
Observations …..

Coefficients Standard Error t Stat P-value Lower 98% Upper 98%


Intercept …. 4,029 -0,163 0,87 ….. 9,617
Cheltuieli promovare (mii lei) 1,242 0,219 ….. 0,00002 …. …..

a. Testaţi semnificaţia statistică a parametrilor modelului (valoare critică: 2,55); b) Testaţi validitatea modelului de regresie
liniară pentru o probabilitate de 98%; care este probabilitatea maxima pentru care modelul este valid? (valoare critica: 6,51);
c) Analizaţi sensul şi intensitatea legăturii dintre variabile folosind un indicator adecvat şi testaţi semnificaţia acestuia.

Soluție:
Cele două variabile statistice sunt:

X = variabila independentă = cheltuielile de promovare

Y = variabila dependentă = încasările lunare

n=20

k=1 (o singură variabilă independentă).

Nivelul de incredere: 98%, alfa = 0.02 (2%)

Cei doi parametrii ai modelului sunt: termenul liber (Intercept) si panta (Slope).
În testarea semnificației statistice a parametrului Intercept al modelului de regresie, ipotezele H0
și H1 sunt:

H0: 𝛽0=0 (parametrul 𝛽0 nu este semnificativ statistic)

H1: 𝛽0≠0 (parametrul 𝛽0 este semnificativ statistic, adică este semnificativ diferit de 0)
Valoarea calculată a testului utilizat în verificarea semnificației statistice a parametrului de tip
Intercept este:

𝛽0
𝑏0
𝑡𝑐𝑎𝑙𝑐 = = −0,163
𝑠𝑏0
Valoarea critică a testului utilizat: tcrit = 2,55
Concluzia aplicării testului de mai sus este:

Metoda 1: comparăm |tcalc| (0,163) cu tcrit (2,55)


Cum |tcalc| < tcrit acceptam H0, parametrul Beta_0 NU este semnificativ statistic.

Metoda 2: comparăm Pvalue (Beta_0) (sau Sig.(Beta_0)) (0.87) cu alfa (0.02)


Cum Pvalue (Beta_0) > alfa acceptam H0, parametrul Beta_0 NU este semnificativ statistic.

În testarea semnificației statistice a parametrului Panta al modelului de regresie, ipotezele H0 și


H1 sunt:

H0: 𝛽1=0 (parametrul 𝛽1 nu este semnificativ statistic)

H1: 𝛽1≠0 (parametrul 𝛽0 este semnificativ statistic, adică este semnificativ diferit de 0)
Valoarea calculată a testului utilizat în verificarea semnificației statistice a parametrului de tip
pantă este:

𝛽1
𝑏1 1,242
𝑡𝑐𝑎𝑙𝑐 = = = 5,67
𝑠𝑏1 0,219
Valoarea critică a testului utilizat: tcrit = 2,55
Concluzia aplicării testului de mai sus este:

Metoda 1: comparăm |tcalc| (5,67) cu tcrit (2,55)


Cum |tcalc| > tcrit respingem H0, acceptam H1, parametrul Beta_1 este semnificativ statistic.

Metoda 2: comparăm Pvalue (Beta_1) (sau Sig.(Beta_1)) (0,00002) cu alfa (0.02)


Cum Pvalue (Beta_1) < alfa respingem H0, acceptam H1, parametrul Beta_1 este semnificativ
statistic.

b) Testarea validitatii modelului de regresie.

Ipotezele testate sunt:

H0: MSR(P) = MSE(P) (modelul de regresie nu este valid)


H1: MSR(P) > MSE(P) (modelul de regresie este valid)
Se aplica testul F.

Multiple R …..
R Square …..
ANOVA df SS MS F Significance F
Adjusted R Square …..
Regression k=1 … 476,82 ….. 0,00002
Standard Error 3,858
Residual n-k-1 = 18 … ….
Observations …..
Total n-1 = 19 …

Standard Error = √𝑀𝑆𝐸=3,858


MSE = (3,858)2 = 14,88
Fcalc = MSR / MSE = 476,82 / 14,88 = 32,04

Metoda 1: comparăm Fcalc (32,04) cu Fcrit (6,51)


Cum Fcalc > Fcrit respingem H0, acceptam H1, modelul este valid.

Metoda 2: comparăm Significance F (sau Sig.) (0.00002) cu alfa (0.02)


Cum Sig.F < alfa respingem H0, acceptam H1, modelul este valid.

Probabilitatea maximă cu care putem afirma ca modelul este valid este

Prob.max (model valid ) = 100 – Sig. F (%) = 100 – 0.002 = 99.998% > 98%

c) Sensul si intensitatea legaturii dintre cele doua variabile pot fi analizate cu ajutorul Coeficientului de
corelatie liniara Pearson.

Din egalitatea: R = |rxy| rezulta ca:

rxy = +R (daca b1>0)


rxy = -R (daca b1<0)
Din tabelul 3: b1 = 1,242 >0, rxy = +R

Aflam acum raportul de corelatie R.

𝑆𝑆𝑅
R = √𝑅 2 = √𝑆𝑆𝑇

Din tabelul ANOVA:

df SS MS F Significance F
k=1 SSR = MSR * 1 = 476,82 MSR = 476,82 Fcalc = 32,04 0,00002
n-k-1 = 18 SSE = MSE * 18 = 267,84 MSE = 14,88
n-1 = 19 SST = SSR+SSE = 744,66

𝑆𝑆𝑅 476,82
R = √𝑅 2 = √𝑆𝑆𝑇 = √744,66 = √0,64 = 0,8

rxy =0,8

b1>0 legatura directa

|rxy|≈ 1 legatura puternica


Testarea semnificatiei statistice a coeficientului de corelatie Pearson din populatia totala.
(𝑃)
Fie 𝑟𝑥𝑦 = coeficientului de corelatie Pearson din populatia totala
(𝑃) (𝑃)
H0: 𝑟𝑥𝑦 = 0 (𝑟𝑥𝑦 nu este semnificativ statistic)
(𝑃) (𝑃)
H1: 𝑟𝑥𝑦 ≠ 0 (𝑟𝑥𝑦 este este semnificativ statistic)
𝑟𝑥𝑦 0,8 𝛽1
𝑡𝑐𝑎𝑙𝑐 = ∙ √𝑛 − 𝑘 − 1 = ∙ √18 = 5,66 ≈ 𝑡𝑐𝑎𝑙𝑐 = 5,67
√1−(𝑟𝑥𝑦 )
2 √1−(0,8)2

(𝑃)
Cum |tcalc|=5,66 > tcrit =2,55, respingem H0, acceptam H1, 𝑟𝑥𝑦 este este semnificativ statistic.

5. Pentru un model de regresie ce descrie legătura liniară dintre trei variabile, s-au obţinut:
corelograma erorilor (ei, ei-1) şi matricea de corelatie a erorilor:
Matricea de corelatie a reziduurilor
Residuals(i) Residuals(i-1)
Residuals(i) 1
Residuals(i-1) 0,025 1

Decideţi, pe baza rezultatelor şi la un nivel de semnificaţie de 5%, dacă


valorile variabilei reziduale sunt autocorelate. (dL = 1,28; dU = 1,56).

Soluție:
Comentariu grafic: erorile nu sunt autocorelate deoarece punctele din corelograma intre e(i) si
e(i-1) sunt dispersate
Se aplica testul Durbin-Watson, pentru a testa ipoteza non-autocorelarii erorilor.
Ipotezele testate sunt:
H0: erorile nu sunt autocorelate
H1: erorile sunt autocorelate
∑𝑛𝑖=2(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷𝑊 = ≈ 2(1 − 𝑟𝑒𝑖 ,𝑒𝑖−1 )
∑𝑛𝑖=1 𝑒𝑖 2

𝑟𝑒𝑖 ,𝑒𝑖−1 = 0.025 (din matricea de corelatie data)

𝐷𝑊 = 2(1 − 𝑟𝑒𝑖 ,𝑒𝑖−1 ) = 2(1 − 0.025) = 1.95

Valori critice:

α = 0.05
k=2
n = 30
dL = 1.28
dU = 1.56
4 - dL = 4 – 1.28 = 2.72
4 – dU = 4 – 1.56 = 2.44

◼ 0 < DW < dL  autocorelare pozitivă a erorilor


◼ dL  DW  dU  indecizie, recomandată acceptarea autocorelării pozitive
◼ dU < DW < 4-dU  erori independente
◼ 4-dU  DW  4-dL  indecizie, recomandată acceptarea autocorelării negative
◼ 4-dL< DW <4  autocorelare negativă a erorilor

dU < DW < 4-dU  erori independente (accept H0)


1.56 < DW < 2.44 Accept H0, erori non-autocorelate (independente)

0 dL dU 2 4- dU 4- dL 4

Accept H1 Accept H0 Accept H1


Erori pozitiv Indecizie Indecizie
Erori non- autocorelate Erori negativ
autocorelate autocorelate
6. Managerul unui lant de magazine de produse electronice doreste sa analizeze valoarea vanzarilor realizate
de Black Friday la telefoanele mobile (unităţi monetare), in functie de numarul liniilor telefonice deschise
in perioada respectiva pentru efectuarea comenzilor si de numarul unitatilor de service pentru clienti. Pentru
20 de magazine selectate aleator, s-au inregistrat datele pentru cele trei variabile. În urma prelucrării datelor
prin aplicarea unui model de regresie liniară, s-au obţinut următoarele rezultate:

Coefficients Standard Error t Stat P-value Lower 99% Upper 99%


Intercept …… 10,93 -0,35 0,731 …. ….
Nr. de linii telefonice deschise 0,83 0,24 …. 0,003 ….. 1,35
Nr. unitatilor de service 0.825 0,34 ….. 0,119 -0,16 …..

a) Ecuația de regresie multiplă este .........................................................................


b) Completați afirmația: La o creștere a numărului de linii telefonice deschise cu 1, valoarea vânzărilor realizate de Black
Friday crește, în medie, cu ................ unități monetare (cu condiția ca numărul unităților de service să rămână constant).

Solutie:
X1 – variabila independenta: nr. linii telefonice deschise
X2 – variabila independenta: nr. unitati de service
Y – variabila dependenta: valoarea vanzarilor

n = 20 volum esantion
k = 2 (2 variabile independente) – numarul de randuri de sub Intercept

𝑌 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 + 𝜀 . Modelul de regresie liniara multipla in populatia totala


𝑌 = 𝑏0 + 𝑏1 𝑋1 + 𝑏2 𝑋2 + 𝑒 . Modelul de regresie liniara multipla in esantion

𝑌̂ = 𝑏0 + 𝑏1 ⋅ 𝑋1 + 𝑏2 ⋅ 𝑋2 Ecuatia de regresie liniara multipla


𝑏0
𝑡𝑐𝑎𝑙𝑐 (𝛽0 ) =
𝑠𝑏0
𝑏0 = 𝑡𝑐𝑎𝑙𝑐 (𝛽0 ) ∙ 𝑠𝑏0 = 10,93 ∙ (−0,35) = −3,82

𝑦̂𝑖 = −3,82 + 0,83 ⋅ 𝑥1 + 0.825 ⋅ 𝑥2 , 𝑖 = 1,20

b) Se cere interpretarea lui b1 = 0,83, prin urmare se completeaza afirmatia data cu valoarea
0,83:
“La o creștere a numărului de linii telefonice deschise cu 1, valoarea vânzărilor realizate de Black Friday
crește, în medie, cu 0,83 unități monetare (cu condiția ca numărul unităților de service să rămână
constant)”.
MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ
(Legătură INDIRECTĂ – activitate seminar)

Aplicație
Pentru o firmă se cunosc datele privind numărul absențelor şi salariul obţinut pentru 14 salariați:
Salariul (mii lei) 1 5 2 4 2 3 0 1 4 2 4 2 5 1
Număr absențe ( zile) 8 3 7 5 6 7 10 8 3 7 5 6 7 10
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea salariului dacă s-ar absenta 6 zile.

Rezolvare

Volumul eșantionului: n = 14 salariați


yi = variabila rezultativă/dependentă = Salariul (mii lei)
xi = variabila factorială / independentă = Nr. absențe (zile)
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. absențe)

yi  f  xi   alti factori
Salariul = f ( Nr. absențe ) + alți factori (erori/reziduuri)
(mii lei) (zile)

Ca urmare a aplicării funcției Regression din Excel rezultatele sunt:


Tabel 1 - Regression Statistics
Multiple R 0,80
R Square 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations 14
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 37,85 37,85 21,05 0,000624
Residual 12 21,58 1,80
Total 13 59,43
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 9,31 0,70 13,38 1,43E-08 7,79 10,82
Nr. Absențe -1,06 0,23 -4,59 0,000624 -1,57 -0,56

1
a. Reprezentarea grafică

Interpretare grafic aplicație:


Între numărul absențelor și salariu există o legătură indirectă (punctele sunt plasate pe direcția celei de a
doua bisectoare) cu tendință de liniaritate (punctele sunt pe direcția unei drepte).

b. Model de regresie
Modelul teoretic de regresie: yi  b0  b1xi  ei
Ecuația / funcția de regresie teoretică yˆi  b0  b1xi
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept b0 9,31 0,70 13,38 1,43E-08 7,79 10,82
Nr. Absențe b1 -1,06 0,23 -4,59 0,000624 -1,57 -0,56

Ecuația/funcția/dreapta de regresie este: yˆi  9,31  1,06 xi pe baza căreia se obțin valorile
ajustate ale observațiilor având în vedere modelul de regresie: yi  9,31  1,06 xi  ei

OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi  9,31  1,06 xi se prezintă sub forma yi  1,06 xi  9,31

Salariul = f ( Nr. absențe ) + alți factori (erori/reziduuri)


(mii lei) (zile)

Interpretare coeficienți model de regresie yi  9,31  1,06 xi  ei :


b0 = 9,31 este Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau salariul
mediu de 9,31 mii lei în condițiile în care nu s-ar înregistra absențe (x=0)
b1 = -1,06 arată că între salariu și nr. absențe există o legătură indirectă ( b1  0 ), astfel încât
creșterea numărului absențelor cu o zi determină o scădere a salariului cu 1,06 mii lei.

2
c. Testarea semnificației parametrilor modelului de regresie (  0 și 1 )
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
9,31 0,70 13,38 1,43E-08 7,79 10,82
Intercept b0 b0 0,0000000143 Lb0 U b0
sb0 t b0 
sb0 Pvb0 b0  tcrit.  sb0 b0  tcrit.  sb0
-1,06 0,23 -4,59 -1,57 -0,56
Nr absențe 0,00062
b1 b1 Lb1 U b1
(zile) sb1 t b1  Pvb1
s b1 b1  tcrit.  sb1 b1  tcrit.  sb1

Testarea semnificației
Parametrului  0 Parametrului 1
Ipoteze: Ipoteze:
H0 :  0 = 0, 0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 :  0  0,  0 este semnificativ statistic H1 : 1  0, 1 este semnificativ statistic
Criteriul 1 – Test Student
 valoarea critică:  valoarea critică:
vcrit.  tcrit.   t   2,179 vcrit.  tcrit.   t  2,179
;nk 1 ;nk 1
2 2
 Statistica testului:  Statistica testului:
b 9,31 b1  1,06
tc  tcalc  tb0  0   13,38 tc  tcalc  tb1    4,59
sb0 0,70 sb1 0,23

 Decizia: Deoarece
tc. (13,38)  tcritic (2,179)  H 0 se respinge,  Decizia: Deoarece tc. (4,59)  tcritic (2,179) 

H1 se acceptă, deci parametrul  0 ESTE H 0 se respinge, deci H 1 este adevărată  parametrul 1


semnificativ statistic ESTE semnificativ statistic modelul ESTE valid

Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 


Pvb0 (0,0000000143)   (0,05)  Pvb1 (0,00062)   (0,05) parametrul 1 ESTE
parametrul  0 ESTE semnificativ statistic semnificativ statistic  modelul ESTE valid
( H 0 se respinge, iar H1 este adevarata) ( H 0 se respinge, H 1 este adevărată)

Criteriul 3 – Compararea semnelor limitelor intervalului de încredere Lb j   j  U b j


Deoarece Lb0 (7,79)  0  U b0 (10,82)  Deoarece Lb1 (1,57)  1  U b1 (0,56)  parametrul
limitele intervalelor au același semn (+)  1 ESTE semnificativ statistic  modelul ESTE
parametrul  0 este semnificativ statistic valid ( H 0 se respinge, H 1 este adevărată)
Probabilitatea maximă pentru care parametrul Probabilitatea maximă pentru care putem susține că
 0 este semnificativ statistic: parametrul 1 este semnificativ statistic:
100  Pvb %  100  0,00000143  99,9999857%  95% 100  Pvb1 %  100  0,062  99,938%  95%
1

3
d. Validitatea/semnificaţia modelului de regresie yi  9,31  1,06 xi  ei
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 37,85 37,85 21,05 0,00062357
Residual 12 21,58 1,80
Total 13 59,43

Tabelul ANOVA cu notațiile corespunzătoare:


Tabel 2 - ANOVA df SS MS F Sig. F*
37,85
1 37,85 SSR
Regression ( R ) df R  k SSR MSR 
df R
1,80 21,05
Residual - erori 12 21,58 SSE 0,0006
(E) df E  n  k  1 SSE MSE  MSR
df E Fc 
MSE
13 59,43
Total dfT  n  1 SST  SSR  SSE
dfT  df R  df E

Volumul eșantionului: n = 14 salariați


k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. absențe)

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistict
 Valoarea critică:
vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 1411  F0,05; 1; 12  4,75
 Valoare calculată (Statistica testului) adică F  Fcalculat  Fc are la bază relaţia:
SSR SSR 37,85
MSR df R k 37,85
Fc     1   21,05
MSE SSE SSE 21,85 1,80
df E n  k 1 12

 Decizia: Deoarece Fc (21,05)  Fcrit. (4,75)  H 0 se respinge, deci H 1 este adevărată 


modelul este valid.

TOTODATĂ, deoarece Signifianc e F (0,0006)   (0,05)  H 0 se respinge, deci H 1 este


adevărată  modelul este valid.

Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100  Signifianc e F %  100  0,06  99,94%  95%

4
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor tabelului 1.
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14

Luând în considerare că, intensitatea legăturii se măsoară cu ajutorul Raportului de corelație


(R), valoarea de 0,80 ( R  R 2  0,64  0,80 ) arată că, între salariu și nr. absențe este o legătură
puternică (deoarece R  0,75; 0,95 )

Testarea semnificației Raportului de corelație


 Ipoteze H0: R  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
H1: R  0 Raportul de corelație este semnificativ statistic (modelul este valid)
 Valoarea critică:
vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 1411  F0,05; 1; 12  4,75
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
n  k 1 R2 12 0,80 2 12 0,64
Fc    .    21,3
k 1 R 2
1 1  0,80 2
1 1  0,64

 Decizia: deoarece Fc 21,3  Fcrit 4,75  H 0 se respinge, deci H 1 este adevărată 


Raportul de corelație este semnificativ statistic (modelul este valid).

f. Ponderea din variaţia totală a salariului explicată de influenţa absențelor este stabilită
prin Coeficientul de Determinație = R Square
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14

Coeficientul de Determinație R2 = (R)2 = (0,80)2 = 0,64 arată că, 64% din salariu este
explicat de influenţa absențelor (este explicat de model) care fiind mai mare de 50%, înseamnă că
este o influență semnificativă. Restul până la 100% ( de 36%) arată cât la sută din variația totală a
salariului este explicată de alți factori (nu este explicată de model).
5
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie,
testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.

Observație: Dacă legătura între două variabile este liniară (așa cum se precizează în enunț) atunci
R r

Măsurarea legăturii dintre salariu și numărul absențe cu ajutorul coeficientului de corelație are
la bază afirmația existenței unei legături liniare între variabile (vezi enunț), care se transpune prin
relația: R  r . În acest context, având în vedere că legătura între variabile este indirectă liniară,
atunci coeficientul de corelație este negativ ( r  0 ), după cum se observă și din matricea de
corelație deci, r  R  0,80 .
Valoarea coeficientului de corelație r   0,80 arată că legătura dintre salariu și nr. absențe
este indirectă ( r  0 ) puternică ( r  0,75; 0,95 ).

Matrice de corelație
Nr. Absențe (zile) x Salariu (mii lei) y
Nr. Absențe (zile) x 1
Salariu (mii lei) y -0,80 1

Testarea semnificației coeficientului de corelație (Test STUDENT- bilateral) - aplicație


 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic
H1:   0 Coeficietul de corelație  este semnificativ statistic

 valoarea critică: vcrit.  tcrit.   t   t 0,05  tbilateral0,05;12  2,179


;nk 1 ;1411
2 2

r  0,80
 Statistica testului: tc  tcalc   n  k 1   14  1  1  4,498
1 r2 1  (0,80) 2

 Decizia:
Deoarece tc (4,498)  tcrit (2.179)  H 0 se respinge, deci H 1 este adevărată  Coeficietul
de corelație  este semnificativ statistic

h. Previzionare salariu dacă s-ar înregistra 6 absențe:

Luând în considerare modelul de regresie: yi  9,31  1,06 xi  ei , previzionarea profitului se


realizează înlocuind în funcția de regresie yˆ nv  9,31  1,06 xnv valoarea lui xnv cu 6 absențe:
yˆ nv  9,31  1,06 xnv  9,31  1,06  6  2,59 mii lei
Interpretare: dacă s-ar înregistra 6 absențe atunci, salariul ar fi de 2,59 mii lei.

6
MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ
(Legătură DIRECTĂ)

Aplicație
Pentru un magazin se cunosc vânzările de cămăşi bărbăteşti şi profitul obţinut pentru 8 zile consecutive:
Profit (unități monetare) 30 42 10 62 12 30 21 58
Număr de cămăși vândute ( zeci bucăți) 3 4 1 6 1 2 2 5
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea profitului dacă s-ar fi vândut 8 zeci
buc. de cămăşi.

Rezolvare

Volumul eșantionului: n = 8 zile


yi = variabila rezultativă/dependentă = Profitul (UM)
xi = variabila factorială / independentă = Nr. cămăși vândute (zeci buc.)
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. cămăși vândute)

yi  f  xi   alti factori
Profit = f ( Nr. cămăși vândute ) + alți factori( erori/reziduuri)
(UM) (zeci buc.)

Aplicarea funcției Regression din Excel

1
Rezultatele pentru etapele 1,2,3 (3.1, 3.2, 3.3) sunt:

2
Ca urmare a aplicării funcției Regression din Excel rezultatele sunt:
Tabel 1 - Regression Statistics
Multiple R 0,98
R Square 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations 8
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute
(zeci bucăți) 10,38 0,81 12,81 1,44E-05 8,38 12,37

a. Reprezentarea grafică

Interpretare grafic
TEORIE
Legătura dintre 2 variabile se reprezintă cu ajutorul diagramei norului de puncte (Scatter),
denumită şi corelogramă, care ne arată:
a.1 – direcția legăturii dintre cele două variabile;
Interpretarea se realizează după cum sunt repartizate punctele pe grafic:
 dacă punctele se plasează pe direcţia primei bisectoare, atunci legătura dintre cele două
variabile este directă
 plasarea punctelor pe direcţia celei de-a doua bisetoare, prezintă o legătură
indirectă/inversă
 cu cât punctele sunt mai concentrate în apropierea primei sau celei de-a doua bisectoare, cu
atât legătura este mai intensă
a.2 – forma legăturii
 dacă repartizarea punctelor se face pe direcţia unei drepte, atunci forma legăturii este
liniare, în caz contrar se vorbeşte despre o legătură neliniară (parabolică, exponenţială etc)

Interpretare grafic aplicație:


Între numărul cămășilor vândute și profit există o legătură directă (punctele sunt plasate pe direcția primei
bisectoare) cu tendință de liniaritate (punctele sunt pe direcția unei drepte).
3
b. Model de regresie
TEORIE Colectivitate Eșantion
Yi  0  1xi   i yi  b0  b1xi  ei
Model de regresie
Y  Yˆ  
i i yi  yˆ i  ei
Ecuația / Funcția de regresie Yˆi  0  1 xi yˆi  b0  b1xi
 0 și 1 b0 și b1
PARAMETRII ESTIMATORII
parametrilor  0 și 1
 0 = intercept/ termen liber b0 = intercept coefficient
1 = panta dreptei de regresie b1 = coeficient de regresie

Se pornește de la modelul teoretic de regresie: yi  b0  b1xi  ei


Se stabilește ecuația / funcția de regresie/ dreapta de regresie teoretică yˆi  b0  b1xi pornind de
la rezultatele tabelului 3
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept b0 2 2,82 0,71 0,504953 -4,90 8,90


Nr cămăși vândute
(zeci bucăți) b1 10,38 0,81 12,81 1,44E-05 8,38 12,37

Ecuația/funcția/dreapta de regresie este: yˆi  2  10,38xi pe baza căreia se obțin valorile ajustate
ale observațiilor având în vedere modelul de regresie: yi  2  10,38xi  ei
OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi  2  10,38xi se prezintă sub forma yi  10,38xi  2
Interpretarea valorilor coeficienților:
Teoria
b0 = Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau Valoarea medie a
variabilei yi în condițiile în care factorul ar fi zero (x =0)
b1 coeficient de regresie care arată:
 direcţia legăturii:
 b1  0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
 b1  0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
 b1  0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
 că, în condiţiile modificării cu o unitate a factorului x , în medie, y variază (crește/scade)
cu valoarea lui b1
Interpretare coeficienți aplicație:
b0 = 2 este Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau profitul
mediu de 2 UM în condițiile în care nu s-ar vinde cămăși (x=0)
b1 = +10,38 arată că între profit și Nr. cămășilor vândute există o legătură directă ( b1  0 ), astfel
încât creșterea numărului de cămăși vândute cu zece bucăți (o unitate) determină o creștere a
profitului cu 10,38 UM (cu valoarea lui b1 ).
4
c. Testarea semnificației parametrilor modelului de regresie (  0 și 1 )
Semnificaţia parametrilor modelului de regresie se stabilește pe baza tabelului 3:

TEORIA
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
b0 Lb0 U b0
Intercept b0 sb0 t b0  Pvb0
sb0 b0  tcrit.  sb0 b0  tcrit.  sb0
b1 Lb1 U b1
Factorul X b1 sb1 tb1  Pvb1
sb1 b1  tcrit.  sb1 b1  tcrit.  sb1
Ipoteze:
H0 :  j = 0  j nu este semnificativ statistic
(panta  j este zero, adică  j nu este semnificativ diferit de zero)
H1 :  j  0,  j este semnificativ statistic
(panta  j nu este diferită de zero, adică  j este semnificativ diferit de zero, deci)
Criteriul 1 – Test Student (BILATERAL)
 valoarea critică: vcrit.  tcrit.   t
; n  k 1
2
bj
 Statistica testului: tc  tcalc  tb j 
sb j
 Decizia:
 Dacă tb j   tcrit. sau tcrit.  tb j  H 0 se respinge, deci H 1 este adevărată  parametrul  j
ESTE semnificativ statistic
 Dacă  tcrit.  tb j  tcrit.  H 0 se acceptă, deci parametrul  j NU este semnificativ statistic.

Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 


 Dacă Pvb j   parametrul  j ESTE semnificativ statistic( H 0 se respinge, H 1 este adevărată)
 Dacă Pvb j    parametrul  j NU este semnificativ statistic ( H 0 se acceptă)
Criteriul 3 – Semnele limitelor intervalului de încredere Lb j   j  U b j
 Dacă Lb j ()   j  Ub j () sau Lb j ()   j  Ub j () (au același semn)  parametrul  j
ESTE semnificativ statistic ( H 0 se respinge, H 1 este adevărată)
 Dacă Lb j ()   j  Ub j () (au semne contrare)  parametrul  j NU este semnificativ
statistic ( H 0 se acceptă)
Unde: Lb j  b j  tcrit.  sb j iar U b j  b j  tcrit.  sb j
Probabilitatea maximă pentru care putem susține că parametrul este semnificativ statistic se
stabilește având în vedere relația:
100  Pvb j %  (1   ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere)

5
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute 10,38 0,81 12,81 1,44E-05 8,38 12,37

Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
2 2,82 0,71 -4,90 8,90
0,504953 Lb0 U b0
Intercept b0 b
sb0 t b0  0 Pvb0
sb0 b0  tcrit.  sb0 b0  tcrit.  sb0
10,38 12,81 1,44E-05 8,38 12,37
0,81 =
Nr Cămăși b1 Lb1 U b1
b1 tb1 
(zeci bucăți) sb1 sb1
0,0000144
b1  tcrit.  sb1 b1  tcrit.  sb1
Pvb1

Testarea semnificației
Parametrului  0 (Intercept) Parametrului 1 (panta dreptei se regresie)
Ipoteze: Ipoteze:
H0 :  0 = 0,  0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 :  0  0,  0 este semnificativ statistic H1 : 1  0, 1 este semnificativ statistic
Criteriul 1 – Test Student
 valoarea critică:  valoarea critică:
vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6 vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6
;nk 1 ;811 ;nk 1 ;811
2 2 2 2

vcrit.  tcrit.   2,447 vcrit.  tcrit.   t  2,447


; n k 1
 Statistica testului: 2

b0 2  Statistica testului:
tc  tcalc  tb0    0,71 b 10,38
sb0 2,82 tc  tcalc  tb1  1   12,81
sb1 0,81

Decizia:Deoarece  Decizia: Deoarece tcrit. (2,447)  tb1 (12,81)  H 0


 tcrit. (2,447)  tc (0,71)  tcrit. (2,447)
se respinge, deci H 1 este adevărată  parametrul 1
 H 0 se acceptă, deci parametrul  0 NU
ESTE semnificativ statistic  modelul este valid
este semnificativ statistic
Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 
Pvb0 (0,50)   (0,05)  parametrul  0 NU Pvb1 (0,0000144)   (0,05) parametrul 1 ESTE
este semnificativ statistic semnificativ statistic  modelul este valid
Criteriul 3 – Compararea semnelor limitelor intervalului de încredere Lb j   j  U b j
Deoarece Lb0 (4,9)  0  U b0 (8,9)  Deoarece Lb1 (8,38)  1  U b1 (12,37)  parametrul
parametrul  0 NU este semnificativ statistic 1 ESTE semnificativ statistic  modelul este valid
Probabilitatea maximă pentru care putem susține că
--------------------------------------- parametrul 1 este semnificativ statistic:
100  Pvb1 %  100  0,00144  99,9986%  95%

6
d. Validitatea/semnificaţia modelului de regresie yi  2  10,38xi  ei
Validitatea/semnificaţia modelului de regresie se stabilește prin aplicarea testului Fisher pe baza
tabelului 2 – ANOVA
TEORIA
df
Tabel 2 - (grade SS MS Sig.
ANOVA libertate) (varianță) (Dispersii corectate) F F*
Regression SSR
df R  k SSR MSR 
(R) df R
Residual SSE MSR ..........
df E  n  k  1 SSE MSE  Fc 
Erori ( E ) df E MSE
dfT  n  1 SST  SSR  SSE
Total
dfT  df R  df E
n = Volumul eșantionului; k = numărul factorilor = nr. variabile independente

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistic
 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
SSR
MSR 
MSR SS df R SST
Fc  MS  MST 
MSE df SSE dfT
MSE 
df E
 Decizia:
 dacă Fc  Fcrit.  H 0 se respinge, deci H 1 este adevărată  modelul este valid.

 dacă Fc < Fcrit.  H 0 se acceptă, deci modelul NU este valid.

OBSERVAȚIE!!!!
 Dacă Signifianc e F    H 0 se respinge, deci H 1 este adevărată  modelul ESTE valid.
 Dacă Signifianc e F    H 0 este adevărată  modelul NU este valid.
Probabilitatea maximă pentru care putem susține că modelul este valid/semnificativ statistic
se stabilește având în vedere relația:
100  Sig F %  (1   ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere )

7
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88

Tabelul ANOVA cu notațiile corespunzătoare:


Tabel 2 - ANOVA df SS MS F Sig. F*
2583,38
1 2583,38 SSR
Regression ( R ) df R  k SSR MSR 
df R 162,3
15,92
Residual - erori 6 95,50 1,44E-05
SSE MSR
(E) df E  n  k  1 SSE MSE  Fc  =
df E MSE 0,0000144
7 2678,88
dfT  n  1 SST  SSR  SSE
Total
dfT  df R  df E

* Sig. F = 1,44E-05 = 1,44 x 10-05 = 1,44 x 10-5 = 0,0000144


Volumul eșantionului: n = 8 zile
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. cămăși vândute)

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistic
 Valoarea critică:
vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 811  F0,05; 1; 6  5,99
 Valoare calculată (Statistica testului) adică F  Fcalculat  Fc are la bază relaţia:
SSR SSR 2583,38
MSR df R k 1 2583,38
Fc       162,31
MSE SSE SSE 95,50 15,92
df E n  k 1 6

 Decizia: Deoarece Fc (162,31)  Fcrit. (5,99)  H 0 se respinge, deci H 1 este adevărată 


modelul este valid.

TOTODATĂ, deoarece Signifianc e F (0,0000144)   (0,05)  H 0 se respinge, deci H 1 este


adevărată  modelul este valid.

Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100  Signifianc e F %  100  0,00144  99,9986%  95%

8
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor de bonitate ai tabelului 1.
TEORIA - Măsurarea intensității legăturii cu Raportul de corelație (Multiple R)
Tabel 1 - Regression Statistics
Multiple R (Raport de corelație) R
R Square (Coeficient de determinație) R2
Adjusted R Square (Coeficient de determinație ajustat) R2
Standard Error (Eroare Standard) se
Observations (Volum eșantion) n

Raportul de corelație ( R  0 ; 1 ) este indicatorul care măsoară intensitatea legăturii dintre


variabila rezultativă/dependentă yi și variabila factorilă/independentă xi.

Interpretarea intensității legăturii dintre variabilele yi și xi:


Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

TEORIA – Testarea semnificației Raportului de corelație cu testul Fisher (unilateral dreapta)


 Ipoteze H0: R*  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
H1: R*  0 Raportul de corelație este semnificativ statistic (modelul este valid)
 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
R2 n  k 1
Fc  
1  R2 k
 Decizia:
 dacă Fc  Fcrit.  H 0 se respinge, deci H 1 este adevărată  Raportul de corelație este
semnificativ statistic (modelul este valid)

 dacă Fc < Fcrit.  H 0 se acceptă, deci Raportul de corelație nu este semnificativ statistic
(modelul NU este valid).

9
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Luând în considerare că, intensitatea legăturii se măsoară cu ajutorul Multiple R=Raportului


de corelație (R), valoarea de 0,98 ( R  R 2  0,96  0,98 ) arată că, între profit și nr. cămășilor
vândute este o legătură foarte puternică (deoarece R  0,95; 1 )

Testarea semnificației Raportului de corelație

 Ipoteze
Ipoteza Nulă: H0: R*  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
Ipoteza Alternativă: H1: R*  0 Raportul de corelație este semnificativ statistic (modelul este valid)

 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 811  F0,05; 1; 6  5,99

 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
n  k  1 R2 6 0,982
Fc    .  144
k 1  R 2 1 1  0,982

 Decizia: deoarece Fc 144  Fcrit 5,99  H 0 se respinge, deci H 1 este adevărată 


Raportul de corelație este semnificativ statistic (modelul este valid)

10
f. Ponderea din variaţia totală a profitului explicată de influenţa vânzărilor de cămăşi
este stabilită prin Coeficientul de Determinație = R Square

TEORIE
Tabel 1 - Regression Statistics
Multiple R R
R Square R2
Adjusted R Square R2
Standard Error se
Observations n

R2 este coeficient de determinație care indică ponderea de influenţă a factorului în


variaţia rezultatului (cât la sută din rezultat este explicat de model)
(Observație!!!... Rezultatul este un coeficient dar, se interpretează sub forma
procentuală)

Factorul NU influenţează semnificativ rezultatul


R 2  50%
Coeficientul de determinaţie NU este semnificativ statistic
Factorul influenţează semnificativ rezultatul
R 2  50%
Coeficientul de determinaţie este semnificativ statistic

K2 este coeficient de nedeterminație -- restul până la 100% din variația totală a


rezultatului este explicat de alți factori (cât la sută din rezultat nu este explicat de model).

Tabel 1 - Regression Statistics


Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Coeficientul de Determinație R2 = (R)2 = (0,98)2 = 0,96 arată că, 96% din profit este
explicat de influenţa vânzărilor de cămăşi (este explicat de model) care fiind mai mare de 50%,
înseamnă că este o influență semnificativă. Restul până la 100% ( de 4%) arată cât la sută din
variația totală a profitului este explicată de alți factori (nu este explicată de model) – K2 =
coeficientul de nedeterminație.

11
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de
corelaţie, testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.

TEORIA – Interpretare coeficient de corelație

Observație: Dacă legătura între două variabile este liniară atunci r  R

Coeficientul de corelație arată:


 direcţia legăturii:
 r  0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
 r  0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
 r  0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
 intensitatea legăturii
Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

Teorie – Testarea semnificației coeficientului de corelație (Test STUDENT - bilateral)


 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic
H1:   0 Coeficietul de corelație  este semnificativ statistic
Unde  este coeficientul de corelație de la nivelul colectivității
 valoarea critică: vcrit.  tcrit.   t
; n  k 1
2
r
 Statistica testului: tc  tcalc   n  k 1
1 r2

 Decizia:
 Dacă tc   tcrit. sau tcrit.  tc  H 0 se respinge, deci H 1 este adevărată  Coeficietul de
corelație  este semnificativ statistic
 Dacă  tcrit.  tc  tcrit.  H 0 se acceptă, deci coeficientul de corelație  nu este semnificativ
statistic.
Matrice de corelație
x y
x 1
y rxy 1

12
Tabel 1 - Regression Statistics

Multiple R (Raport de Corelație)


R  0,98  r
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Măsurarea legăturii dintre profit și numărul cămășilor vândute cu ajutorul coeficientului de


corelație are la bază afirmația existenței unei legături liniare între variabile, care se transpune prin
relația: R  r . În acest context, având în vedere că legătura între variabile este directă liniară (vezi
grafic), atunci coeficientul de corelație este pozitiv ( r  0 ) deci, R   r   0,98 .
Valoarea coeficientului de corelație r   0,98 arată că legătura dintre profit și nr. cămăși
vândute este directă foarte puternică.

Testarea semnificației coeficientului de corelație (Test STUDENT- bilateral)

 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic


H1:   0 Coeficietul de corelație  este semnificativ statistic
 valoarea critică: vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6  2,447
;nk 1 ;811
2 2

r 0,98
 Statistica testului: tc  tcalc   n  k 1   8  1  1  12,01
1 r 2
1  0,982

se respinge se respinge

Se acceptă ipoteza H0

 Decizia:
Deoarece tc (12,01)  tcrit 2,447  H 0 se respinge, deci H 1 este adevărată  Coeficietul de
corelație  este semnificativ statistic

h. Previzionare profit dacă s-ar vinde 8 zeci buc. cămăşi ( xnv  8 zeci buc. )
Luând în considerare modelul de regresie: yi  2  10,38xi  ei , previzionarea profitului se
realizează astfel: se înlocuiește în funcția de regresie yˆ nv  2  10,38xnv valoarea lui xnv cu 8 zeci
buc.cămăși:
yˆ nv  2  10,38xnv  2  10,38  8  85,04 UM
Interpretare: dacă s-ar vinde 8 zeci buc. cămăşi atunci, profitul ar fi de 85,04 UM.

13
Aplicație -- cerința b.

Descriptiv Statistics
EXCEL SPSS
Performanta_scolara (punctaj) Statistics
Mean 58.15 Performanța_scolară
Standard Error 2.30 Valid 34
N
Missing 0
Median 56
Mean 58.15
Mode 55
Std. Error of Mean 2.297
Standard Deviation 13.39 Median 56.00
Sample Variance 179.40 Mode 55
Kurtosis -0.11 Std. Deviation 13.394
Skewness 0.13 Variance 179.40
Range 57 Skewness .132
Minimum 33 Std. Error of Skewness .403
Maxim m 90 Kurtosis -.106
Std. Error of Kurtosis .788
Sum 1977
Range 57
Count 34 Minimum 33
Confidence Level (95.0%) 4.67 Maximum 90
Eroare limită  x  z  sx Sum 1977
25 48.50
Percentiles 50 56.00
75 66.25

Count (n=Excel) = N-Valid (SPSS): 34


Volumul eșantionului este de 34 elevi

Interpretare indicatori statistici descriptivi:


 Mean (media)= punctaj mediu:
Sum 1977 Sum 1977
x   58,15 puncte x   58,15 puncte
Count 34 N  Valid 34
Luând în considerare cei 34 elevi, s-a stabilit că, punctajul mediu este de aproximativ 58 puncte/elev.

 Standard Error (Excel) sau Std. Error of Mean (SPSS) = eroarea medie de
reprezentativitate : s x  0,19
s2 179 ,40
sx    0,19
n 34
 Median (mediana): M e  56 puncte
Jumătate din totalul elevilor (50%) au un punctaj, în medie, mai mic de 56 puncte/elev, în timp ce restul
elevilor au un punctaj mai mare decât cel stabilit.

 Mode (modul): M o  55 puncte


Cei mai mulți elevi au, în medie, un punctaj de 55 puncte/elev.

 Standard Deviation (Excel) sau Std. Deviation (SPSS) = abatere standard:


s  s.2  13,39 puncte
La nivelul eșantionului de 34 elevi, punctajul se abate, în medie, cu aproximativ 13 puncte față de
punctajul mediu.

 Sample Variance (Excel) sau Variance (SPSS) = dispersia: s 2  s 2  179,40


Dispersia arată gradul de împrăștiere a punctelor față de punctajul mediu, fapt confirmat prin
coeficientul de variație.

s 13,39
v  100   100  23,30 %
x 58,15

Teoria:
v<35% ; v=35% :
- seria este omogenă
- media este reprezentativă
- variația valorilor față de valoarea medie este mică (grad de împrăștiere redus)
v>35% :
- seria NU este omogenă
- media NU este reprezentativă
- variația valorilor față de valoarea medie este mare (grad de împrăștiere mare)

Interpretare: Ca urmare a calculării coeficientului de variație rezultă că, v = 23,03% < 35%, deci
valoarea dispersiei de 179,40 indică un grad de variație (împrăștiere) redus a punctajului individual față
de punctajul mediu.

 Kurtosis (Coeficient de aplatizare sau boltire):


K= - 0.11(Excel) sau K= -.11 (SPSS)
Teoria:
K<0 distribuție aplatizată (gradul de concentrare a valorilor în jurul mediei este mai mic față de
distribuția normală)
K=0 distribuție normală
K>0 distribuție boltită (gradul de concentrare a valorilor în jurul mediei este mai mare față de
distribuția normală)

Interpretare: Valoarea coeficientului fiind negativă indică faptul că distribuția punctajului este
aplatizată, deci gradul de concentare a punctajului individual în jurul punctajului mediu este mic față
de distribuția normală.
 Skewness (Coeficient de asimetrie): Sk = 0,13
SK= 0.13 (Excel) sau SK= .13 (SPSS)
Teoria:
Sk=0 simetrie
Sk<0 asimetrie negativă: predomină valorile mari în serie

S k  1 foarte pronunțată; S k   1 ;  0,5 pronunțată; S k   0,5 ; 0  redusă;

Sk>0 asimetrie pozitivă: predomină valorile mici în serie

S k  1 foarte pronunțată; S k  0,5 ; 1 pronunțată; S k  0 ; 0,5 redusă;

Interpretare: Valoarea coeficientului fiind pozitivă și mai mică de 0,5 indică faptul că, distribuția
punctajului are o asimetrie pozitivă redusă deci, predomină punctajul mic față de punctajul mediu

 Range (amplitudinea): Ax  57 puncte


Lungimea intervalului de variație a seriei privind punctajul înregistrat pentru cei 34 elevi este de 57
puncte.

Ax  xmax  xmin
Range = Maximum – Minimum

 Minimum (valoare minimă): xmin  33 puncte


Cel mai mic punctaj înregistrat pentru cei 34 elevi este de 33 puncte

 Maximum (valoare maximă): xmax  90 puncte


Cel mai mare punctaj înregistrat pentru cei 34 elevi este de 90 puncte

 Sum (Suma tuturor valorilor): 1977


Suma punctajelor celor 34 elevi este de 1977 puncte
SPSS
25 48.50
Percentiles 50 56.00
75 66.25
Interpretare Quartile:
Quartila_1= 48,50 : 25% din totalul elevilor au, în medie, un punctaj individual mai mic de
aproximativ 49 puncte, iar restul acestora (75%) au un punctaj mai mare decât cel stabilit
Quartila_2 = Mediana= 56 : 50% din totalul elevilor au, în medie, un punctaj individual mai mic
de 56 puncte, iar restul acestora (50%) au un punctaj mai mare decât cel stabilit
Quartila_3 = 66,25 : 75% din totalul elevilor au, în medie, un punctaj individual mai mic de
aproximativ 66 puncte, iar restul acestora (25%) au un punctaj mai mare decât cel stabilit
MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ
(Legătură DIRECTĂ)

Aplicație
Pentru un magazin se cunosc vânzările de cămăşi bărbăteşti şi profitul obţinut pentru 8 zile consecutive:
Profit (unități monetare) 30 42 10 62 12 30 21 58
Număr de cămăși vândute ( zeci bucăți) 3 4 1 6 1 2 2 5
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea profitului dacă s-ar fi vândut 8 zeci
buc. de cămăşi.

Rezolvare

Volumul eșantionului: n = 8 zile


yi = variabila rezultativă/dependentă = Profitul (UM)
xi = variabila factorială / independentă = Nr. cămăși vândute (zeci buc.)
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. cămăși vândute)

yi  f  xi   alti factori
Profit = f ( Nr. cămăși vândute ) + alți factori( erori/reziduuri)
(UM) (zeci buc.)

Aplicarea funcției Regression din Excel

1
Rezultatele pentru etapele 1,2,3 (3.1, 3.2, 3.3) sunt:

2
Ca urmare a aplicării funcției Regression din Excel rezultatele sunt:
Tabel 1 - Regression Statistics
Multiple R 0,98
R Square 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations 8
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute
(zeci bucăți) 10,38 0,81 12,81 1,44E-05 8,38 12,37

a. Reprezentarea grafică

Interpretare grafic
TEORIE
Legătura dintre 2 variabile se reprezintă cu ajutorul diagramei norului de puncte (Scatter),
denumită şi corelogramă, care ne arată:
a.1 – direcția legăturii dintre cele două variabile;
Interpretarea se realizează după cum sunt repartizate punctele pe grafic:
 dacă punctele se plasează pe direcţia primei bisectoare, atunci legătura dintre cele două
variabile este directă
 plasarea punctelor pe direcţia celei de-a doua bisetoare, prezintă o legătură
indirectă/inversă
 cu cât punctele sunt mai concentrate în apropierea primei sau celei de-a doua bisectoare, cu
atât legătura este mai intensă
a.2 – forma legăturii
 dacă repartizarea punctelor se face pe direcţia unei drepte, atunci forma legăturii este
liniare, în caz contrar se vorbeşte despre o legătură neliniară (parabolică, exponenţială etc)

Interpretare grafic aplicație:


Între numărul cămășilor vândute și profit există o legătură directă (punctele sunt plasate pe direcția primei
bisectoare) cu tendință de liniaritate (punctele sunt pe direcția unei drepte).
3
b. Model de regresie
TEORIE Colectivitate Eșantion
Yi  0  1xi   i yi  b0  b1xi  ei
Model de regresie
Y  Yˆ  
i i yi  yˆ i  ei
Ecuația / Funcția de regresie Yˆi  0  1 xi yˆi  b0  b1xi
 0 și 1 b0 și b1
PARAMETRII ESTIMATORII
parametrilor  0 și 1
 0 = intercept/ termen liber b0 = intercept coefficient
1 = panta dreptei de regresie b1 = coeficient de regresie

Se pornește de la modelul teoretic de regresie: yi  b0  b1xi  ei


Se stabilește ecuația / funcția de regresie/ dreapta de regresie teoretică yˆi  b0  b1xi pornind de
la rezultatele tabelului 3
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept b0 2 2,82 0,71 0,504953 -4,90 8,90


Nr cămăși vândute
(zeci bucăți) b1 10,38 0,81 12,81 1,44E-05 8,38 12,37

Ecuația/funcția/dreapta de regresie este: yˆi  2  10,38xi pe baza căreia se obțin valorile ajustate
ale observațiilor având în vedere modelul de regresie: yi  2  10,38xi  ei
OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi  2  10,38xi se prezintă sub forma yi  10,38xi  2
Interpretarea valorilor coeficienților:
Teoria
b0 = Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau Valoarea medie a
variabilei yi în condițiile în care factorul ar fi zero (x =0)
b1 coeficient de regresie care arată:
 direcţia legăturii:
 b1  0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
 b1  0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
 b1  0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
 că, în condiţiile modificării cu o unitate a factorului x , în medie, y variază (crește/scade)
cu valoarea lui b1
Interpretare coeficienți aplicație:
b0 = 2 este Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau profitul
mediu de 2 UM în condițiile în care nu s-ar vinde cămăși (x=0)
b1 = +10,38 arată că între profit și Nr. cămășilor vândute există o legătură directă ( b1  0 ), astfel
încât creșterea numărului de cămăși vândute cu zece bucăți (o unitate) determină o creștere a
profitului cu 10,38 UM (cu valoarea lui b1 ).
4
c. Testarea semnificației parametrilor modelului de regresie (  0 și 1 )
Semnificaţia parametrilor modelului de regresie se stabilește pe baza tabelului 3:

TEORIA
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
b0 Lb0 U b0
Intercept b0 sb0 t b0  Pvb0
sb0 b0  tcrit.  sb0 b0  tcrit.  sb0
b1 Lb1 U b1
Factorul X b1 sb1 tb1  Pvb1
sb1 b1  tcrit.  sb1 b1  tcrit.  sb1
Ipoteze:
H0 :  j = 0  j nu este semnificativ statistic
(panta  j este zero, adică  j nu este semnificativ diferit de zero)
H1 :  j  0,  j este semnificativ statistic
(panta  j nu este diferită de zero, adică  j este semnificativ diferit de zero, deci)
Criteriul 1 – Test Student (BILATERAL)
 valoarea critică: vcrit.  tcrit.   t
; n  k 1
2
bj
 Statistica testului: tc  tcalc  tb j 
sb j
 Decizia:
 Dacă tb j   tcrit. sau tcrit.  tb j  H 0 se respinge, deci H 1 este adevărată  parametrul  j
ESTE semnificativ statistic
 Dacă  tcrit.  tb j  tcrit.  H 0 se acceptă, deci parametrul  j NU este semnificativ statistic.

Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 


 Dacă Pvb j   parametrul  j ESTE semnificativ statistic( H 0 se respinge, H 1 este adevărată)
 Dacă Pvb j    parametrul  j NU este semnificativ statistic ( H 0 se acceptă)
Criteriul 3 – Semnele limitelor intervalului de încredere Lb j   j  U b j
 Dacă Lb j ()   j  Ub j () sau Lb j ()   j  Ub j () (au același semn)  parametrul  j
ESTE semnificativ statistic ( H 0 se respinge, H 1 este adevărată)
 Dacă Lb j ()   j  Ub j () (au semne contrare)  parametrul  j NU este semnificativ
statistic ( H 0 se acceptă)
Unde: Lb j  b j  tcrit.  sb j iar U b j  b j  tcrit.  sb j
Probabilitatea maximă pentru care putem susține că parametrul este semnificativ statistic se
stabilește având în vedere relația:
100  Pvb j %  (1   ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere)

5
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute 10,38 0,81 12,81 1,44E-05 8,38 12,37

Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
2 2,82 0,71 -4,90 8,90
0,504953 Lb0 U b0
Intercept b0 b
sb0 t b0  0 Pvb0
sb0 b0  tcrit.  sb0 b0  tcrit.  sb0
10,38 12,81 1,44E-05 8,38 12,37
0,81 =
Nr Cămăși b1 Lb1 U b1
b1 tb1 
(zeci bucăți) sb1 sb1
0,0000144
b1  tcrit.  sb1 b1  tcrit.  sb1
Pvb1

Testarea semnificației
Parametrului  0 (Intercept) Parametrului 1 (panta dreptei se regresie)
Ipoteze: Ipoteze:
H0 :  0 = 0,  0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 :  0  0,  0 este semnificativ statistic H1 : 1  0, 1 este semnificativ statistic
Criteriul 1 – Test Student
 valoarea critică:  valoarea critică:
vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6 vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6
;nk 1 ;811 ;nk 1 ;811
2 2 2 2

vcrit.  tcrit.   2,447 vcrit.  tcrit.   t  2,447


; n k 1
 Statistica testului: 2

b0 2  Statistica testului:
tc  tcalc  tb0    0,71 b 10,38
sb0 2,82 tc  tcalc  tb1  1   12,81
sb1 0,81

Decizia:Deoarece  Decizia: Deoarece tcrit. (2,447)  tb1 (12,81)  H 0


 tcrit. (2,447)  tc (0,71)  tcrit. (2,447)
se respinge, deci H 1 este adevărată  parametrul 1
 H 0 se acceptă, deci parametrul  0 NU
ESTE semnificativ statistic  modelul este valid
este semnificativ statistic
Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 
Pvb0 (0,50)   (0,05)  parametrul  0 NU Pvb1 (0,0000144)   (0,05) parametrul 1 ESTE
este semnificativ statistic semnificativ statistic  modelul este valid
Criteriul 3 – Compararea semnelor limitelor intervalului de încredere Lb j   j  U b j
Deoarece Lb0 (4,9)  0  U b0 (8,9)  Deoarece Lb1 (8,38)  1  U b1 (12,37)  parametrul
parametrul  0 NU este semnificativ statistic 1 ESTE semnificativ statistic  modelul este valid
Probabilitatea maximă pentru care putem susține că
--------------------------------------- parametrul 1 este semnificativ statistic:
100  Pvb1 %  100  0,00144  99,9986%  95%

6
d. Validitatea/semnificaţia modelului de regresie yi  2  10,38xi  ei
Validitatea/semnificaţia modelului de regresie se stabilește prin aplicarea testului Fisher pe baza
tabelului 2 – ANOVA
TEORIA
df
Tabel 2 - (grade SS MS Sig.
ANOVA libertate) (varianță) (Dispersii corectate) F F*
Regression SSR
df R  k SSR MSR 
(R) df R
Residual SSE MSR ..........
df E  n  k  1 SSE MSE  Fc 
Erori ( E ) df E MSE
dfT  n  1 SST  SSR  SSE
Total
dfT  df R  df E
n = Volumul eșantionului; k = numărul factorilor = nr. variabile independente

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistic
 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
SSR
MSR 
MSR SS df R SST
Fc  MS  MST 
MSE df SSE dfT
MSE 
df E
 Decizia:
 dacă Fc  Fcrit.  H 0 se respinge, deci H 1 este adevărată  modelul este valid.

 dacă Fc < Fcrit.  H 0 se acceptă, deci modelul NU este valid.

OBSERVAȚIE!!!!
 Dacă Signifianc e F    H 0 se respinge, deci H 1 este adevărată  modelul ESTE valid.
 Dacă Signifianc e F    H 0 este adevărată  modelul NU este valid.
Probabilitatea maximă pentru care putem susține că modelul este valid/semnificativ statistic
se stabilește având în vedere relația:
100  Sig F %  (1   ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere )

7
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88

Tabelul ANOVA cu notațiile corespunzătoare:


Tabel 2 - ANOVA df SS MS F Sig. F*
2583,38
1 2583,38 SSR
Regression ( R ) df R  k SSR MSR 
df R 162,3
15,92
Residual - erori 6 95,50 1,44E-05
SSE MSR
(E) df E  n  k  1 SSE MSE  Fc  =
df E MSE 0,0000144
7 2678,88
dfT  n  1 SST  SSR  SSE
Total
dfT  df R  df E

* Sig. F = 1,44E-05 = 1,44 x 10-05 = 1,44 x 10-5 = 0,0000144


Volumul eșantionului: n = 8 zile
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. cămăși vândute)

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistic
 Valoarea critică:
vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 811  F0,05; 1; 6  5,99
 Valoare calculată (Statistica testului) adică F  Fcalculat  Fc are la bază relaţia:
SSR SSR 2583,38
MSR df R k 1 2583,38
Fc       162,31
MSE SSE SSE 95,50 15,92
df E n  k 1 6

 Decizia: Deoarece Fc (162,31)  Fcrit. (5,99)  H 0 se respinge, deci H 1 este adevărată 


modelul este valid.

TOTODATĂ, deoarece Signifianc e F (0,0000144)   (0,05)  H 0 se respinge, deci H 1 este


adevărată  modelul este valid.

Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100  Signifianc e F %  100  0,00144  99,9986%  95%

8
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor de bonitate ai tabelului 1.
TEORIA - Măsurarea intensității legăturii cu Raportul de corelație (Multiple R)
Tabel 1 - Regression Statistics
Multiple R (Raport de corelație) R
R Square (Coeficient de determinație) R2
Adjusted R Square (Coeficient de determinație ajustat) R2
Standard Error (Eroare Standard) se
Observations (Volum eșantion) n

Raportul de corelație ( R  0 ; 1 ) este indicatorul care măsoară intensitatea legăturii dintre


variabila rezultativă/dependentă yi și variabila factorilă/independentă xi.

Interpretarea intensității legăturii dintre variabilele yi și xi:


Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

TEORIA – Testarea semnificației Raportului de corelație cu testul Fisher (unilateral dreapta)


 Ipoteze H0: R*  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
H1: R*  0 Raportul de corelație este semnificativ statistic (modelul este valid)
 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
R2 n  k 1
Fc  
1  R2 k
 Decizia:
 dacă Fc  Fcrit.  H 0 se respinge, deci H 1 este adevărată  Raportul de corelație este
semnificativ statistic (modelul este valid)

 dacă Fc < Fcrit.  H 0 se acceptă, deci Raportul de corelație nu este semnificativ statistic
(modelul NU este valid).

9
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Luând în considerare că, intensitatea legăturii se măsoară cu ajutorul Multiple R=Raportului


de corelație (R), valoarea de 0,98 ( R  R 2  0,96  0,98 ) arată că, între profit și nr. cămășilor
vândute este o legătură foarte puternică (deoarece R  0,95; 1 )

Testarea semnificației Raportului de corelație

 Ipoteze
Ipoteza Nulă: H0: R*  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
Ipoteza Alternativă: H1: R*  0 Raportul de corelație este semnificativ statistic (modelul este valid)

 Valoarea critică: vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 811  F0,05; 1; 6  5,99

 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
n  k  1 R2 6 0,982
Fc    .  144
k 1  R 2 1 1  0,982

 Decizia: deoarece Fc 144  Fcrit 5,99  H 0 se respinge, deci H 1 este adevărată 


Raportul de corelație este semnificativ statistic (modelul este valid)

10
f. Ponderea din variaţia totală a profitului explicată de influenţa vânzărilor de cămăşi
este stabilită prin Coeficientul de Determinație = R Square

TEORIE
Tabel 1 - Regression Statistics
Multiple R R
R Square R2
Adjusted R Square R2
Standard Error se
Observations n

R2 este coeficient de determinație care indică ponderea de influenţă a factorului în


variaţia rezultatului (cât la sută din rezultat este explicat de model)
(Observație!!!... Rezultatul este un coeficient dar, se interpretează sub forma
procentuală)

Factorul NU influenţează semnificativ rezultatul


R 2  50%
Coeficientul de determinaţie NU este semnificativ statistic
Factorul influenţează semnificativ rezultatul
R 2  50%
Coeficientul de determinaţie este semnificativ statistic

K2 este coeficient de nedeterminație -- restul până la 100% din variația totală a


rezultatului este explicat de alți factori (cât la sută din rezultat nu este explicat de model).

Tabel 1 - Regression Statistics


Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Coeficientul de Determinație R2 = (R)2 = (0,98)2 = 0,96 arată că, 96% din profit este
explicat de influenţa vânzărilor de cămăşi (este explicat de model) care fiind mai mare de 50%,
înseamnă că este o influență semnificativă. Restul până la 100% ( de 4%) arată cât la sută din
variația totală a profitului este explicată de alți factori (nu este explicată de model) – K2 =
coeficientul de nedeterminație.

11
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de
corelaţie, testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.

TEORIA – Interpretare coeficient de corelație

Observație: Dacă legătura între două variabile este liniară atunci r  R

Coeficientul de corelație arată:


 direcţia legăturii:
 r  0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
 r  0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
 r  0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
 intensitatea legăturii
Foarte Slabă de intensitate medie Foarte Puternică
0 0,2 0,5 0,75 0,95 1
Slabă Puternică

Teorie – Testarea semnificației coeficientului de corelație (Test STUDENT - bilateral)


 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic
H1:   0 Coeficietul de corelație  este semnificativ statistic
Unde  este coeficientul de corelație de la nivelul colectivității
 valoarea critică: vcrit.  tcrit.   t
; n  k 1
2
r
 Statistica testului: tc  tcalc   n  k 1
1 r2

 Decizia:
 Dacă tc   tcrit. sau tcrit.  tc  H 0 se respinge, deci H 1 este adevărată  Coeficietul de
corelație  este semnificativ statistic
 Dacă  tcrit.  tc  tcrit.  H 0 se acceptă, deci coeficientul de corelație  nu este semnificativ
statistic.
Matrice de corelație
x y
x 1
y rxy 1

12
Tabel 1 - Regression Statistics

Multiple R (Raport de Corelație)


R  0,98  r
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8

Măsurarea legăturii dintre profit și numărul cămășilor vândute cu ajutorul coeficientului de


corelație are la bază afirmația existenței unei legături liniare între variabile, care se transpune prin
relația: R  r . În acest context, având în vedere că legătura între variabile este directă liniară (vezi
grafic), atunci coeficientul de corelație este pozitiv ( r  0 ) deci, R   r   0,98 .
Valoarea coeficientului de corelație r   0,98 arată că legătura dintre profit și nr. cămăși
vândute este directă foarte puternică.

Testarea semnificației coeficientului de corelație (Test STUDENT- bilateral)

 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic


H1:   0 Coeficietul de corelație  este semnificativ statistic
 valoarea critică: vcrit.  tcrit.   t   t 0,05  tbilateral0,05;6  2,447
;nk 1 ;811
2 2

r 0,98
 Statistica testului: tc  tcalc   n  k 1   8  1  1  12,01
1 r 2
1  0,982

se respinge se respinge

Se acceptă ipoteza H0

 Decizia:
Deoarece tc (12,01)  tcrit 2,447  H 0 se respinge, deci H 1 este adevărată  Coeficietul de
corelație  este semnificativ statistic

h. Previzionare profit dacă s-ar vinde 8 zeci buc. cămăşi ( xnv  8 zeci buc. )
Luând în considerare modelul de regresie: yi  2  10,38xi  ei , previzionarea profitului se
realizează astfel: se înlocuiește în funcția de regresie yˆ nv  2  10,38xnv valoarea lui xnv cu 8 zeci
buc.cămăși:
yˆ nv  2  10,38xnv  2  10,38  8  85,04 UM
Interpretare: dacă s-ar vinde 8 zeci buc. cămăşi atunci, profitul ar fi de 85,04 UM.

13
MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ
(Legătură INDIRECTĂ – activitate seminar)

Aplicație
Pentru o firmă se cunosc datele privind numărul absențelor şi salariul obţinut pentru 14 salariați:
Salariul (mii lei) 1 5 2 4 2 3 0 1 4 2 4 2 5 1
Număr absențe ( zile) 8 3 7 5 6 7 10 8 3 7 5 6 7 10
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea salariului dacă s-ar absenta 6 zile.

Rezolvare

Volumul eșantionului: n = 14 salariați


yi = variabila rezultativă/dependentă = Salariul (mii lei)
xi = variabila factorială / independentă = Nr. absențe (zile)
k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. absențe)

yi  f  xi   alti factori
Salariul = f ( Nr. absențe ) + alți factori (erori/reziduuri)
(mii lei) (zile)

Ca urmare a aplicării funcției Regression din Excel rezultatele sunt:


Tabel 1 - Regression Statistics
Multiple R 0,80
R Square 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations 14
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 37,85 37,85 21,05 0,000624
Residual 12 21,58 1,80
Total 13 59,43
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 9,31 0,70 13,38 1,43E-08 7,79 10,82
Nr. Absențe -1,06 0,23 -4,59 0,000624 -1,57 -0,56

1
a. Reprezentarea grafică

Interpretare grafic aplicație:


Între numărul absențelor și salariu există o legătură indirectă (punctele sunt plasate pe direcția celei de a
doua bisectoare) cu tendință de liniaritate (punctele sunt pe direcția unei drepte).

b. Model de regresie
Modelul teoretic de regresie: yi  b0  b1xi  ei
Ecuația / funcția de regresie teoretică yˆi  b0  b1xi
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept b0 9,31 0,70 13,38 1,43E-08 7,79 10,82
Nr. Absențe b1 -1,06 0,23 -4,59 0,000624 -1,57 -0,56

Ecuația/funcția/dreapta de regresie este: yˆi  9,31  1,06 xi pe baza căreia se obțin valorile
ajustate ale observațiilor având în vedere modelul de regresie: yi  9,31  1,06 xi  ei

OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi  9,31  1,06 xi se prezintă sub forma yi  1,06 xi  9,31

Salariul = f ( Nr. absențe ) + alți factori (erori/reziduuri)


(mii lei) (zile)

Interpretare coeficienți model de regresie yi  9,31  1,06 xi  ei :


b0 = 9,31 este Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau salariul
mediu de 9,31 mii lei în condițiile în care nu s-ar înregistra absențe (x=0)
b1 = -1,06 arată că între salariu și nr. absențe există o legătură indirectă ( b1  0 ), astfel încât
creșterea numărului absențelor cu o zi determină o scădere a salariului cu 1,06 mii lei.

2
c. Testarea semnificației parametrilor modelului de regresie (  0 și 1 )
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
9,31 0,70 13,38 1,43E-08 7,79 10,82
Intercept b0 b0 0,0000000143 Lb0 U b0
sb0 t b0 
sb0 Pvb0 b0  tcrit.  sb0 b0  tcrit.  sb0
-1,06 0,23 -4,59 -1,57 -0,56
Nr absențe 0,00062
b1 b1 Lb1 U b1
(zile) sb1 t b1  Pvb1
s b1 b1  tcrit.  sb1 b1  tcrit.  sb1

Testarea semnificației
Parametrului  0 Parametrului 1
Ipoteze: Ipoteze:
H0 :  0 = 0, 0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 :  0  0,  0 este semnificativ statistic H1 : 1  0, 1 este semnificativ statistic
Criteriul 1 – Test Student
 valoarea critică:  valoarea critică:
vcrit.  tcrit.   t   2,179 vcrit.  tcrit.   t  2,179
;nk 1 ;nk 1
2 2
 Statistica testului:  Statistica testului:
b 9,31 b1  1,06
tc  tcalc  tb0  0   13,38 tc  tcalc  tb1    4,59
sb0 0,70 sb1 0,23

 Decizia: Deoarece
tc. (13,38)  tcritic (2,179)  H 0 se respinge,  Decizia: Deoarece tc. (4,59)  tcritic (2,179) 

H1 se acceptă, deci parametrul  0 ESTE H 0 se respinge, deci H 1 este adevărată  parametrul 1


semnificativ statistic ESTE semnificativ statistic modelul ESTE valid

Criteriul 2 – Compararea lui P-value ( Pvb j ) cu pragul de semnificație 


Pvb0 (0,0000000143)   (0,05)  Pvb1 (0,00062)   (0,05) parametrul 1 ESTE
parametrul  0 ESTE semnificativ statistic semnificativ statistic  modelul ESTE valid
( H 0 se respinge, iar H1 este adevarata) ( H 0 se respinge, H 1 este adevărată)

Criteriul 3 – Compararea semnelor limitelor intervalului de încredere Lb j   j  U b j


Deoarece Lb0 (7,79)  0  U b0 (10,82)  Deoarece Lb1 (1,57)  1  U b1 (0,56)  parametrul
limitele intervalelor au același semn (+)  1 ESTE semnificativ statistic  modelul ESTE
parametrul  0 este semnificativ statistic valid ( H 0 se respinge, H 1 este adevărată)
Probabilitatea maximă pentru care parametrul Probabilitatea maximă pentru care putem susține că
 0 este semnificativ statistic: parametrul 1 este semnificativ statistic:
100  Pvb %  100  0,00000143  99,9999857%  95% 100  Pvb1 %  100  0,062  99,938%  95%
1

3
d. Validitatea/semnificaţia modelului de regresie yi  9,31  1,06 xi  ei
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 37,85 37,85 21,05 0,00062357
Residual 12 21,58 1,80
Total 13 59,43

Tabelul ANOVA cu notațiile corespunzătoare:


Tabel 2 - ANOVA df SS MS F Sig. F*
37,85
1 37,85 SSR
Regression ( R ) df R  k SSR MSR 
df R
1,80 21,05
Residual - erori 12 21,58 SSE 0,0006
(E) df E  n  k  1 SSE MSE  MSR
df E Fc 
MSE
13 59,43
Total dfT  n  1 SST  SSR  SSE
dfT  df R  df E

Volumul eșantionului: n = 14 salariați


k = 1 (numărul factorilor = 1 factor = o variabilă independentă = Nr. absențe)

 Ipoteze
H0: MSR  MSE modelul nu este valid statistic
H1: MSR  MSE modelul este valid statistict
 Valoarea critică:
vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 1411  F0,05; 1; 12  4,75
 Valoare calculată (Statistica testului) adică F  Fcalculat  Fc are la bază relaţia:
SSR SSR 37,85
MSR df R k 37,85
Fc     1   21,05
MSE SSE SSE 21,85 1,80
df E n  k 1 12

 Decizia: Deoarece Fc (21,05)  Fcrit. (4,75)  H 0 se respinge, deci H 1 este adevărată 


modelul este valid.

TOTODATĂ, deoarece Signifianc e F (0,0006)   (0,05)  H 0 se respinge, deci H 1 este


adevărată  modelul este valid.

Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100  Signifianc e F %  100  0,06  99,94%  95%

4
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor tabelului 1.
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14

Luând în considerare că, intensitatea legăturii se măsoară cu ajutorul Raportului de corelație


(R), valoarea de 0,80 ( R  R 2  0,64  0,80 ) arată că, între salariu și nr. absențe este o legătură
puternică (deoarece R  0,75; 0,95 )

Testarea semnificației Raportului de corelație


 Ipoteze H0: R  0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
H1: R  0 Raportul de corelație este semnificativ statistic (modelul este valid)
 Valoarea critică:
vcrit.  Fcrit.  F ; dfR ; dfE  F ; k ; nk 1  F0,05; 1; 1411  F0,05; 1; 12  4,75
 Valoare calculată (Statistica testului) adică Fcalculat  Fcalc  Fc are la bază relaţia:
n  k 1 R2 12 0,80 2 12 0,64
Fc    .    21,3
k 1 R 2
1 1  0,80 2
1 1  0,64

 Decizia: deoarece Fc 21,3  Fcrit 4,75  H 0 se respinge, deci H 1 este adevărată 


Raportul de corelație este semnificativ statistic (modelul este valid).

f. Ponderea din variaţia totală a salariului explicată de influenţa absențelor este stabilită
prin Coeficientul de Determinație = R Square
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14

Coeficientul de Determinație R2 = (R)2 = (0,80)2 = 0,64 arată că, 64% din salariu este
explicat de influenţa absențelor (este explicat de model) care fiind mai mare de 50%, înseamnă că
este o influență semnificativă. Restul până la 100% ( de 36%) arată cât la sută din variația totală a
salariului este explicată de alți factori (nu este explicată de model).
5
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie,
testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.

Observație: Dacă legătura între două variabile este liniară (așa cum se precizează în enunț) atunci
R r

Măsurarea legăturii dintre salariu și numărul absențe cu ajutorul coeficientului de corelație are
la bază afirmația existenței unei legături liniare între variabile (vezi enunț), care se transpune prin
relația: R  r . În acest context, având în vedere că legătura între variabile este indirectă liniară,
atunci coeficientul de corelație este negativ ( r  0 ), după cum se observă și din matricea de
corelație deci, r  R  0,80 .
Valoarea coeficientului de corelație r   0,80 arată că legătura dintre salariu și nr. absențe
este indirectă ( r  0 ) puternică ( r  0,75; 0,95 ).

Matrice de corelație
Nr. Absențe (zile) x Salariu (mii lei) y
Nr. Absențe (zile) x 1
Salariu (mii lei) y -0,80 1

Testarea semnificației coeficientului de corelație (Test STUDENT- bilateral) - aplicație


 Ipoteze H0:   0 Coeficientul de corelație  nu este semnificativ statistic
H1:   0 Coeficietul de corelație  este semnificativ statistic

 valoarea critică: vcrit.  tcrit.   t   t 0,05  tbilateral0,05;12  2,179


;nk 1 ;1411
2 2

r  0,80
 Statistica testului: tc  tcalc   n  k 1   14  1  1  4,498
1 r2 1  (0,80) 2

 Decizia:
Deoarece tc (4,498)  tcrit (2.179)  H 0 se respinge, deci H 1 este adevărată  Coeficietul
de corelație  este semnificativ statistic

h. Previzionare salariu dacă s-ar înregistra 6 absențe:

Luând în considerare modelul de regresie: yi  9,31  1,06 xi  ei , previzionarea profitului se


realizează înlocuind în funcția de regresie yˆ nv  9,31  1,06 xnv valoarea lui xnv cu 6 absențe:
yˆ nv  9,31  1,06 xnv  9,31  1,06  6  2,59 mii lei
Interpretare: dacă s-ar înregistra 6 absențe atunci, salariul ar fi de 2,59 mii lei.

6
Aplicație
Legătura dintre două variabile este redată cu ajutorul unui model de regresie liniară
simplă. Pentru verificarea ipotezei de homoscedasticitate a erorilor corespunzătoare acestui
model, a fost aplicat testul White și a fost identificat un model auxiliar de regresie, pentru care
sunt prezentate următoarele rezultate:

Regression Statistics
Multiple R 0,54 Coefficients Standard Error t Stat
R Square …. Intercept -27,59 29,61 -0,93
Adjusted R
X1 17,47 15,52 1,13
Square 0,13
X1 ^ 2 -1,54 1,83 -0,84
Standard Error 15,05
Observations 12

1. Precizați tipul modelului de regresie lineară (unifactorială sau multifactorială);


2. Determinați coeficientul de determinație al modelului auxiliar de regresie;
3. Identificaţi modelul auxiliar de regresie;
4. Arătaţi dacă poate fi validată ipoteza homoscedasticităţii valorilor variabilei
reziduale, pentru un nivel de semnificaţie de 5% (χ2crit = 5,99).

Rezolvare:

1. Tipul modelului de regresie lineară = unifactorială

2. Coeficientul de determinație R2 = (R)2 = 0,542 = 0,29

3. Modelul de regresie auxiliar (al erorilor)


ei2 = be 0 + be1 x1i + be 2 x 21i + ui

ei2 = −27,59 + 17,47 x1i − 1,54 x 21i + ui

Ipoteze
H0: erorile sunt homoscedastice
H1: erorile sunt heteroscedastice

Valoare critică:
χ2crit =χ2α;k+1 =χ20,05;5+1 =χ20,05;6 = 5,99

Testul LM
LM = n  Raux
2

LM = n  Raux
2
= 12  0,29 = 3,48
5.
Decizie:
Pentru un nivel de semnificație de 5%, deoarece
LM (3,48)   critic
2
(5,99)
erorile sunt homoscedastice (H0 se acceptă)
Aplicație SCR __ subiect examen

Evoluția încasărilor trimestriale (mil. UM) pentru un muzeu și trendul stabilit cu metoda
mediilor mobile (MMM) se prezintă astfel:
Încasări trimestriale
Trend MMM (mil. UM)
Ani (mil. UM) Ani
I II III IV
I II III IV
2020 - - …. 7,375
2020 4 7 8 10
2021 ..... 8,25 8,625 .....
2021 4 8 10 12
2022 8 ….. - -
2022 5 6 8 9

1. Determinați valorile trendului completând spațiile punctate și precizați care este metoda de
ajustare aplicată;
2. Calculați și interpretați componenta sezonieră ;
3. Valorile seriei desezonalizate sunt :
....................................................................................................................................................................
....................................................................................................................................................................

REZOLVARE:

Ani Trim Încas. Trend MMM


(mil.UM) (mil. UM)
yt ŷ t MMM
I 4 -
II 7 -
2020
III 8 … 7,25
IV 10 7,375
I 4 … 7,75
II 8 8,25
2021
III 10 8,625
IV 12 … 8,50
I 5 8
II 6 … 7,375
2022
III 8 -
IV 9 -

1. Determinați valorile trendului completând spațiile punctate și precizați care este


metoda de ajustare aplicată;

y I 2020 y 4 4
+ y II 2020 + y III 2020 + y IV 2020 + I 2021 + 7 + 8 + 10 +
yˆ 3 MMM = 2 2 = 2 2 = 7,25
4 4

y III 2020 y 8 10
+ y IV 2020 + y I 2021 + y II 2021 + III 2021 + 10 + 4 + 8 +
yˆ 5 MMM = 2 2 = 2 2 = 7,75
4 4
y II 2021 y 8 6
+ y III 2021 + y IV 2021 + y I 2022 + II 2022 + 10 + 12 + 5 +
yˆ 8 MMM = 2 2 = 2 2 = 8,5
4 4

y IV 2021 y 12 9
+ y I 2022 + y II 2022 + y III 2022 + IV 2022 +5+6+8+
yˆ10 MMM = 2 2 = 2 2 = 7,375
4 4

Trendul se determină ca urmare a aplicării metodei medilor mobile (MMM).

2. Calculați și interpretați componenta sezonieră;

Ani Trim Încas. Trend Abateri sezoniere


(mil.UM) MMM Trimestriale
yt (mil. UM) (mil UM)
ŷ t MMM yt - ŷ t MMM
I 4 - -
II 7 - -
2020
III 8 7,25 8 - 7,25 = 0,75
IV 10 7,375 10 - 7,375 = 2,625
I 4 7,75 4 - 7,75 = - 3,75
II 8 8,25 8 – 8,25 = - 0,25
2021
III 10 8,625 10 – 8,625 = 1,375
IV 12 8,50 12 – 8,5 = 3,5
I 5 8 5-8=-3
II 6 7,375 6 – 7,375 = - 1,35
2022
III 8 - -
IV 9 - -

Abateri sezoniere (mil UM)


Ani
I II III IV
CORECTOR
2020 - - 0,75 2,625
(media DSB)
2021 -3,75 -0,25 1,375 3,5
2022 -3 -1,35 - -
IV

 DSB
j =I
j = −0,068  0

Devieri DSBI DSBII DSBIII DSBIV Corector


Sezoniere (− 3,75) + (− 3) (− 0,25) + (− 1,35) 0,75 + 1,375 2,625 + 3,5
Brute IV

 DSB
2 2 2 2
(DSBj) = -3,375 = -0,813 = 1,06 = 3,06 j
j=I
= −0,017
4
Devieri (-3,375)-(-0,017) (-0,813)-(-0,017) 1,06 - (-0,017) 3,06 - (-0,017)
Sezoniere -3,358 -0,796 1,077 3,077 COMPONENTA
Corectate SEZONIERĂ
(DSCj) DSC =- 3
I DSCII=-1 DSCIII=1 DSCIV=3
Interpretare devieri sezonie:
Ca urmare a aplicării modelului aditiv concluzia este că, factorul
sezonier influenţează încasările muzeului astfel:
➢ în perioada 2020-2022, în trim.I, factorul sezonier a determinat o
scădere a încasărilor în medie cu 3 mil UM sub linia trendului;
➢ în perioada 2020-2022, în trim.II, factorul sezonier a determinat o
scădere a încasărilor în medie cu 1 mil UM sub linia trendului;
➢ în perioada 2020-2022, în trim.III, factorul sezonier a determinat o
creștere a încasărilor în medie cu 1 mil UM peste linia trendului;
➢ în perioada 2020-2022, în trim.IV, factorul sezonier a determinat o
creștere a încasărilor în medie cu 3 mil UM peste linia trendului.

3. Desezonalizarea seriei se realizează eliminând componenta sezonieră din valorile


încasărilor

Trend Abateri sezoniere


Încas. MMM Trimestriale Desezonalizarea
Ani Trim (mil.UM) (mil. UM) (mil UM) DSCj
yt - DSCj
yt ŷ t MMM yt - ŷ t MMM
I 4 - - -3 4 – (-3) = 7
II 7 - - -1 7 – (-1) = 8
2020
III 8 7,25 8 - 7,25 = 0,75 1 8–1=7
IV 10 7,375 10 - 7,375 = 2,625 3 10 – 3 = 7
I 4 7,75 4 - 7,75 = - 3,75 -3 4 – (-3) = 7
II 8 8,25 8 – 8,25 = - 0,25 -1 8 – (-1) = 9
2021
III 10 8,625 10 – 8,625 = 1,375 1 10 – 1 = 9
IV 12 8,50 12 – 8,5 = 3,5 3 12 – 3 = 9
I 5 8 5-8=-3 -3 5 – (-3) = 8
II 6 7,375 6 – 7,375 = - 1,35 -1 6 – (-1) = 7
2022
III 8 - - 1 8–1=7
IV 9 - - 3 9–3=6

Valorile seriei desezonalizate sunt : 7, 8, 7, 7, 7, 9, 9, 9, 8, 7, 7, 6 mil UM

S-ar putea să vă placă și