Documente Academic
Documente Profesional
Documente Cultură
LINIARA
APLICAȚII REZOLVATE
1. Legătura dintre preţul de vânzare al unor autoturisme second-hand, distanţa parcursă şi consumul mediu la 100
de km este redată cu ajutorul unui model de regresie liniară. Pentru verificarea ipotezei de normalitate a erorilor, s-
au obţinut următoarele rezultate:
Soluție:
Procedeu grafic: histograma reziduurilor – comentarii: deoarece distributia erorilor are aproximativ o forma de
clopot, rezulta ca erorile sunt normal repartizate – este validata ipoteza normalitatii erorilor
Procedeu numeric: testul Kolmogorov Smirnov
Alfa=0.01
Sig.=0.2
Sig > alfa → accept H0, erorile sunt normal repartizate
KS_calc = 0.113
KS_crit = 0.352
KS_calc < KS_crit → accept H0, erorile sunt normal repartizate
2. În urma prelucrării valorilor variabilei reziduale obţinute într-un model de regresie liniară bifactorială, s-au obţinut
următoarele rezultate:
Residuals
Standard
Deviation 578,04
Sample Variance 334133,78
Kurtosis 0,84
Skewness 0,53
Count n=15
Soluție:
Procedeu grafic: Diagrama P-P Plot – comentarii: deoarece punctele sunt foarte concentrate in jurul diagonalei,
rezulta ca erorile urmeaza o lege normala de repartitie.
Procedeu numeric: testul Jarque-Bera
𝑛 (𝐾𝑢𝑟𝑡)2 15 (0.84)2
𝐽𝐵 = [(𝑆𝑘𝑒𝑤)2 + ]= [(0.53)2 + ] = 1.14
6 4 6 4
3. Legătura dintre venitul salarial (mii lei), experienţa în domeniu (ani) şi nivelul de expertiză a fost redată printr-
un model de regresie liniară. În vederea verificării – cu ajutorul testului White – a homoscedasticităţii erorilor
obţinute, a fost identificat un model auxiliar de regresie, pentru care sunt prezentate următoarele rezultate:
Identificaţi modelul auxiliar de regresie şi arătaţi dacă poate fi validate – pentru un nivel de semnificaţie de 5% -
ipoteza homoscedasticităţii valorilor variabilei reziduale. (χ2crit = 11,07).
Soluție:
Ipotezele testului:
H0: α 1=...= α 5=0 erori homoscedastice
H1: α j 0 erori heteroscedastice
2
Se calculează raportul de determinaţie al modelului auxiliar 𝑅𝑎𝑢𝑥 = 0.833
χ2crit = 11,07
LM < χ2crit → accept H0, erorile sunt homoscedastice
Modelul auxiliar de regresie în eșantion este:
𝑒 2 = 0.23 − 0.041 ∙ 𝑥1 − 0.01 ∙ 𝑥2 + 0.004 ∙ 𝑥12 + 0.0004 ∙ 𝑥22 − 0.001 ∙ 𝑥1 𝑥2 + 𝑢
4. Legătura dintre două variabile este redată cu ajutorul unui model de regresie liniară simplă. Pentru verificarea
ipotezei de homoscedasticitate a erorilor corespunzătoare acestui model, a fost aplicat testul Goldfeld-Quandt. S-au
obţinut următoarele rezultate:
Pentru un nivel de semnificaţie de 5%, puteţi valida ipoteza homoscedasticităţii erorilor? (Fcrit = 3,43).
MSE(A)=0.2171
MSE(B)=13.876
Testul Goldfeld-Quandt
Fcrit = 3,43
Fcalc > Fcrit → resping H0, accept H1, erorile sunt heteroscedastice.
5. Pentru un model de regresie ce descrie legătura liniară dintre trei variabile, s-au obţinut: corelograma erorilor (ei,
ei-1) şi următorii indicatori statistici de regresie:
Soluție:
Corelograma reziduurilor: nu exista legatura intre erori (erorile sunt non-autocorelate) – punctele sunt imprastiate
Testul Durbin-Watson:
H0: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) = 0 (erorile nu sunt autocorelate)
H1: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) ≠ 0 (erorile sunt autocorelate)
∑𝑛𝑖=2(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷𝑊 = ≈ 2(1 − 𝑟𝑒𝑖 ,𝑒𝑖−1 ) = 1.688
∑𝑛𝑖=1 𝑒𝑖 2
dL = 1,35
dU = 1,49
4- dL = 2.65
4- dU = 2.51
0 dL =1.35 dU =1.49 2 4- dU =2.51 4- dL =2.65 4
Accept H1 Accept H1
Indecizie Accept H0 Indecizie
Erori pozitiv Erori negativ
Erori non- autocorelate
autocorelate autocorelate
6. Managerul unei agenţii imobiliare doreşte să analizeze modul în care mărimea caselor tranzacţionate (mp) şi
perioada în care ele s-au aflat pe piaţă până la efectuarea tranzacţiei (zile) influenţează variaţia preţului de cumpărare
a acestora (mii $). În urma prelucrării datelor înregistrate pentru 50 de tranzacţii imobiliare prin aplicare unui model
linair de regresie, s-au obţinut următoarele rezultate:
Soluție:
Corelograma reziduurilor: nu exista legatura intre erori (erorile sunt non-autocorelate) – punctele sunt imprastiate
Testul Dubin_Watson:
H0: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) = 0 (erorile nu sunt autocorelate)
H1: 𝜌(𝜀𝑖 , 𝜀𝑖−1 ) ≠ 0 (erorile sunt autocorelate)
∑𝑛𝑖=2(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷𝑊 = ≈ 2(1 − 𝑟𝑒𝑖 ,𝑒𝑖−1 ) = 2(1 − 0.358) = 1.284
∑𝑛𝑖=1 𝑒𝑖 2
dL = 1,46
dU = 1,63
4- dL = 2.54
4- dU = 2.37
Accept H1 Accept H1
Indecizie Accept H0 Indecizie
Erori pozitiv Erori negativ
Erori non- autocorelate
autocorelate autocorelate
0 < DW < dL erori pozitiv autocorelate (resping H0, accept H1)
0 < DW < 1.46 Accept H1, erori pozitiv autocorelate
7. Un profesor de statistică se întreabă dacă şi în ce măsură punctajele studenţilor săi la testul de statistică sunt
dependente de timpul petrecut în cluburi în ultima lună (număr zile) şi cunoştinţele de matematică ale acestora
(nota la examen). În urma prelucrării datelor pentru 20 de studenţi, s-au obţinut rezultatele:
Verificaţi dacă în cazul acestui model de regresie este validată ipoteza de non-multicoliniaritate a factorilor,
utilizând: criteriul Klein şi criteriul factorului de inflaţie al dispersiei (varianței).
Soluție:
Criteriul Klein
r2(X1,X2) = (-0.442)2=0.195
1. În analiza dispersională ANOVA, utilizată în testarea validităţii unui model de regresie liniară
bifactorială, numărul gradelor de libertate asociat sumei pătratelor reziduurilor (SSE) este:
a) 2; b) n-2; c) n-3; d) n-1; e) 1 (unde n este volumul eşantionului)
Soluție: în modelul de regresie bifactorială k=2, iar numărul gradelor de libertate la care se împarte
SSE este dfE = n-k-1 = n-2-1 = n-3. Răspuns corect: c)
2. Care dintre următoarele nu reprezintă una din cele patru componente ale seriilor de timp: a)
modificarea medie absolută; b) componenta de trend; c) componenta ciclică; d) componenta
reziduală; e) componenta predictibilă.
Soluție: Cele 4 componente ale unei serii de timp sunt:
- componenta de trend,
- componenta sezonieră,
- componenta ciclică,
- componenta reziduală.
Răspuns corect: a) și e).
3. Evolutia vanzarilor de bilete ale unei companii aeriene low-cost, in perioada 2018-2020 a fost (mil.
lei):
Anul Trimestrul I Trimestrul II Trimestrul III Trimestrul IV
2018 32 36 52 38
2019 40 65 104 78
2020 52 70 120 84
a) Valorile lipsa ale mediilor mobile sunt ..................................................; b) Devierile sezoniere brute
(necorectate) sunt ............................................................. c) Devierile sezoniere corectate au valorile
....................................................................; d) Devierea sezoniera corectata in trim. III arata ca
.....................................................................; e) Determinati termenii seriei desezonalizate.
Tr.I 2018 32 -
Tr.II 2018 36 -
Tr.IV 2020 84 -
TOTAL
104 120
+ 78 + 52 + 70 +
𝑀𝑀7 = 2 2 = 78
4
78 84
+ 52 + 70 + 120 +
𝑀𝑀8 = 2 2 = 80,75
4
Răspuns: cele două medii mobile sunt: 78 și 80,75.
yt yt - MM DSCj 𝒚𝒅𝒆𝒔
𝒕 =yt – DSCj = yt
Perioada MM (ytT) – ytS
0 1 2 3 4 5
Tr.I 2018 32 - -
Tr.II 2018 36 - -
Tr.III 2018 52 40,5 11,5
Tr.IV 2020 84 - -
I II III IV
Se calculeaza medii ale diferentelor de pe fiecare coloana, obtinandu-se devieri sau abateri sezoniere
brute (DSBj, cu j=1,2,3,4)
(−15,25)+(−26)
𝐷𝑆𝐵𝐼 = = −20,625 (in trim. I)
2
(−1,75)+(−10,75)
𝐷𝑆𝐵𝐼𝐼 = = −6,25 (in trim. II)
2
11,5+30,75
𝐷𝑆𝐵𝐼𝐼𝐼 = = 21,125 (in trim. III)
2
(−7,125)+2,625
𝐷𝑆𝐵𝐼𝑉 = = −2,25 (in trim. IV)
2
Răspuns: Cele patru devieri sezoniere brute sunt: -20,625; -6,25; 21,125; -2,25 (mil. lei).
∑4𝑗=1 𝐷𝑆𝐵𝑗 −8
𝐷𝑆𝐵 = = = −2
4 4
Se scade din fiecare deviere sezoniera bruta (DSBj) media DSB , obtinandu-se devieri sau abateri
sezoniere corectate (DSCj), a caror suma trebuie sa fie egala cu zero:
𝐷𝑆𝐶𝐼 = −19
Interpretare: In perioada 2018-2020, in trim. I factorul sezonier a determinat o scadere medie a
vânzărilor de bilete cu 19 mil. lei față de linia de trend.
DSCII = −4
𝐷𝑆𝐶𝐼𝐼𝐼 = 23
Interpretare: In perioada 2018-2020, in trim. III factorul sezonier a determinat o crestere medie a
vânzărilor de bilete cu 23 mil. lei față de linia de trend.
𝐷𝑆𝐶𝐼𝑉 = 0
Interpretare: In perioada 2018-2020, in trim. IV factorul sezonier nu a determinat modificarea
vânzărilor de bilete față de linia de trend.
DSCI, DSCII < 0 in trimestrele I si II factorul sezonier a avut o influenta negativa asupra vanzarilor.
DSCIII > 0 in trimestrul III factorul sezonier a avut o influenta pozitiva asupra vanzarilor.
Răspuns: cele patru devieri (abateri) sezoniere corectate sunt: -19, -4, 23, 0 (mil. lei)
Suplimentar, se poate cere și calculul termenilor desezonalizați. Pentru aceasta se completează ultimele
două coloane din tabelul de mai jos (col. 4 si 5):
4. Echipa de management a unui lant de magazine alimentare doreşte să studieze legătura dintre
cheltuielile efectuate pentru promovarea produselor (mii lei) şi încasările lunare realizate (sute mii
lei). Pentrbu aceasta au fost înregistrate valorile celor două variabile pentru 20 de mărfuri
alimentare, obţinându-se următoarele rezultate (în ipoteza unei legături liniare):
Multiple R …..
R Square ….. ANOVA df SS MS F Significance F
Adjusted R Regression …. …. 476,82 ….. 0,00002
Square …..
Residual …. …. ….
Standard Error 3,858
Total …. ….
Observations …..
a. Testaţi semnificaţia statistică a parametrilor modelului (valoare critică: 2,55); b) Testaţi validitatea modelului de regresie
liniară pentru o probabilitate de 98%; care este probabilitatea maxima pentru care modelul este valid? (valoare critica: 6,51);
c) Analizaţi sensul şi intensitatea legăturii dintre variabile folosind un indicator adecvat şi testaţi semnificaţia acestuia.
Soluție:
Cele două variabile statistice sunt:
n=20
Cei doi parametrii ai modelului sunt: termenul liber (Intercept) si panta (Slope).
În testarea semnificației statistice a parametrului Intercept al modelului de regresie, ipotezele H0
și H1 sunt:
H1: 𝛽0≠0 (parametrul 𝛽0 este semnificativ statistic, adică este semnificativ diferit de 0)
Valoarea calculată a testului utilizat în verificarea semnificației statistice a parametrului de tip
Intercept este:
𝛽0
𝑏0
𝑡𝑐𝑎𝑙𝑐 = = −0,163
𝑠𝑏0
Valoarea critică a testului utilizat: tcrit = 2,55
Concluzia aplicării testului de mai sus este:
H1: 𝛽1≠0 (parametrul 𝛽0 este semnificativ statistic, adică este semnificativ diferit de 0)
Valoarea calculată a testului utilizat în verificarea semnificației statistice a parametrului de tip
pantă este:
𝛽1
𝑏1 1,242
𝑡𝑐𝑎𝑙𝑐 = = = 5,67
𝑠𝑏1 0,219
Valoarea critică a testului utilizat: tcrit = 2,55
Concluzia aplicării testului de mai sus este:
Multiple R …..
R Square …..
ANOVA df SS MS F Significance F
Adjusted R Square …..
Regression k=1 … 476,82 ….. 0,00002
Standard Error 3,858
Residual n-k-1 = 18 … ….
Observations …..
Total n-1 = 19 …
Prob.max (model valid ) = 100 – Sig. F (%) = 100 – 0.002 = 99.998% > 98%
c) Sensul si intensitatea legaturii dintre cele doua variabile pot fi analizate cu ajutorul Coeficientului de
corelatie liniara Pearson.
𝑆𝑆𝑅
R = √𝑅 2 = √𝑆𝑆𝑇
df SS MS F Significance F
k=1 SSR = MSR * 1 = 476,82 MSR = 476,82 Fcalc = 32,04 0,00002
n-k-1 = 18 SSE = MSE * 18 = 267,84 MSE = 14,88
n-1 = 19 SST = SSR+SSE = 744,66
𝑆𝑆𝑅 476,82
R = √𝑅 2 = √𝑆𝑆𝑇 = √744,66 = √0,64 = 0,8
rxy =0,8
(𝑃)
Cum |tcalc|=5,66 > tcrit =2,55, respingem H0, acceptam H1, 𝑟𝑥𝑦 este este semnificativ statistic.
5. Pentru un model de regresie ce descrie legătura liniară dintre trei variabile, s-au obţinut:
corelograma erorilor (ei, ei-1) şi matricea de corelatie a erorilor:
Matricea de corelatie a reziduurilor
Residuals(i) Residuals(i-1)
Residuals(i) 1
Residuals(i-1) 0,025 1
Soluție:
Comentariu grafic: erorile nu sunt autocorelate deoarece punctele din corelograma intre e(i) si
e(i-1) sunt dispersate
Se aplica testul Durbin-Watson, pentru a testa ipoteza non-autocorelarii erorilor.
Ipotezele testate sunt:
H0: erorile nu sunt autocorelate
H1: erorile sunt autocorelate
∑𝑛𝑖=2(𝑒𝑖 − 𝑒𝑖−1 )2
𝐷𝑊 = ≈ 2(1 − 𝑟𝑒𝑖 ,𝑒𝑖−1 )
∑𝑛𝑖=1 𝑒𝑖 2
Valori critice:
α = 0.05
k=2
n = 30
dL = 1.28
dU = 1.56
4 - dL = 4 – 1.28 = 2.72
4 – dU = 4 – 1.56 = 2.44
0 dL dU 2 4- dU 4- dL 4
Solutie:
X1 – variabila independenta: nr. linii telefonice deschise
X2 – variabila independenta: nr. unitati de service
Y – variabila dependenta: valoarea vanzarilor
n = 20 volum esantion
k = 2 (2 variabile independente) – numarul de randuri de sub Intercept
b) Se cere interpretarea lui b1 = 0,83, prin urmare se completeaza afirmatia data cu valoarea
0,83:
“La o creștere a numărului de linii telefonice deschise cu 1, valoarea vânzărilor realizate de Black Friday
crește, în medie, cu 0,83 unități monetare (cu condiția ca numărul unităților de service să rămână
constant)”.
MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ
(Legătură INDIRECTĂ – activitate seminar)
Aplicație
Pentru o firmă se cunosc datele privind numărul absențelor şi salariul obţinut pentru 14 salariați:
Salariul (mii lei) 1 5 2 4 2 3 0 1 4 2 4 2 5 1
Număr absențe ( zile) 8 3 7 5 6 7 10 8 3 7 5 6 7 10
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea salariului dacă s-ar absenta 6 zile.
Rezolvare
yi f xi alti factori
Salariul = f ( Nr. absențe ) + alți factori (erori/reziduuri)
(mii lei) (zile)
1
a. Reprezentarea grafică
b. Model de regresie
Modelul teoretic de regresie: yi b0 b1xi ei
Ecuația / funcția de regresie teoretică yˆi b0 b1xi
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept b0 9,31 0,70 13,38 1,43E-08 7,79 10,82
Nr. Absențe b1 -1,06 0,23 -4,59 0,000624 -1,57 -0,56
Ecuația/funcția/dreapta de regresie este: yˆi 9,31 1,06 xi pe baza căreia se obțin valorile
ajustate ale observațiilor având în vedere modelul de regresie: yi 9,31 1,06 xi ei
OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi 9,31 1,06 xi se prezintă sub forma yi 1,06 xi 9,31
2
c. Testarea semnificației parametrilor modelului de regresie ( 0 și 1 )
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
9,31 0,70 13,38 1,43E-08 7,79 10,82
Intercept b0 b0 0,0000000143 Lb0 U b0
sb0 t b0
sb0 Pvb0 b0 tcrit. sb0 b0 tcrit. sb0
-1,06 0,23 -4,59 -1,57 -0,56
Nr absențe 0,00062
b1 b1 Lb1 U b1
(zile) sb1 t b1 Pvb1
s b1 b1 tcrit. sb1 b1 tcrit. sb1
Testarea semnificației
Parametrului 0 Parametrului 1
Ipoteze: Ipoteze:
H0 : 0 = 0, 0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 : 0 0, 0 este semnificativ statistic H1 : 1 0, 1 este semnificativ statistic
Criteriul 1 – Test Student
valoarea critică: valoarea critică:
vcrit. tcrit. t 2,179 vcrit. tcrit. t 2,179
;nk 1 ;nk 1
2 2
Statistica testului: Statistica testului:
b 9,31 b1 1,06
tc tcalc tb0 0 13,38 tc tcalc tb1 4,59
sb0 0,70 sb1 0,23
Decizia: Deoarece
tc. (13,38) tcritic (2,179) H 0 se respinge, Decizia: Deoarece tc. (4,59) tcritic (2,179)
3
d. Validitatea/semnificaţia modelului de regresie yi 9,31 1,06 xi ei
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 37,85 37,85 21,05 0,00062357
Residual 12 21,58 1,80
Total 13 59,43
Ipoteze
H0: MSR MSE modelul nu este valid statistic
H1: MSR MSE modelul este valid statistict
Valoarea critică:
vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1 F0,05; 1; 1411 F0,05; 1; 12 4,75
Valoare calculată (Statistica testului) adică F Fcalculat Fc are la bază relaţia:
SSR SSR 37,85
MSR df R k 37,85
Fc 1 21,05
MSE SSE SSE 21,85 1,80
df E n k 1 12
Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100 Signifianc e F % 100 0,06 99,94% 95%
4
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor tabelului 1.
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14
f. Ponderea din variaţia totală a salariului explicată de influenţa absențelor este stabilită
prin Coeficientul de Determinație = R Square
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14
Coeficientul de Determinație R2 = (R)2 = (0,80)2 = 0,64 arată că, 64% din salariu este
explicat de influenţa absențelor (este explicat de model) care fiind mai mare de 50%, înseamnă că
este o influență semnificativă. Restul până la 100% ( de 36%) arată cât la sută din variația totală a
salariului este explicată de alți factori (nu este explicată de model).
5
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie,
testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
Observație: Dacă legătura între două variabile este liniară (așa cum se precizează în enunț) atunci
R r
Măsurarea legăturii dintre salariu și numărul absențe cu ajutorul coeficientului de corelație are
la bază afirmația existenței unei legături liniare între variabile (vezi enunț), care se transpune prin
relația: R r . În acest context, având în vedere că legătura între variabile este indirectă liniară,
atunci coeficientul de corelație este negativ ( r 0 ), după cum se observă și din matricea de
corelație deci, r R 0,80 .
Valoarea coeficientului de corelație r 0,80 arată că legătura dintre salariu și nr. absențe
este indirectă ( r 0 ) puternică ( r 0,75; 0,95 ).
Matrice de corelație
Nr. Absențe (zile) x Salariu (mii lei) y
Nr. Absențe (zile) x 1
Salariu (mii lei) y -0,80 1
r 0,80
Statistica testului: tc tcalc n k 1 14 1 1 4,498
1 r2 1 (0,80) 2
Decizia:
Deoarece tc (4,498) tcrit (2.179) H 0 se respinge, deci H 1 este adevărată Coeficietul
de corelație este semnificativ statistic
6
MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ
(Legătură DIRECTĂ)
Aplicație
Pentru un magazin se cunosc vânzările de cămăşi bărbăteşti şi profitul obţinut pentru 8 zile consecutive:
Profit (unități monetare) 30 42 10 62 12 30 21 58
Număr de cămăși vândute ( zeci bucăți) 3 4 1 6 1 2 2 5
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea profitului dacă s-ar fi vândut 8 zeci
buc. de cămăşi.
Rezolvare
yi f xi alti factori
Profit = f ( Nr. cămăși vândute ) + alți factori( erori/reziduuri)
(UM) (zeci buc.)
1
Rezultatele pentru etapele 1,2,3 (3.1, 3.2, 3.3) sunt:
2
Ca urmare a aplicării funcției Regression din Excel rezultatele sunt:
Tabel 1 - Regression Statistics
Multiple R 0,98
R Square 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations 8
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute
(zeci bucăți) 10,38 0,81 12,81 1,44E-05 8,38 12,37
a. Reprezentarea grafică
Interpretare grafic
TEORIE
Legătura dintre 2 variabile se reprezintă cu ajutorul diagramei norului de puncte (Scatter),
denumită şi corelogramă, care ne arată:
a.1 – direcția legăturii dintre cele două variabile;
Interpretarea se realizează după cum sunt repartizate punctele pe grafic:
dacă punctele se plasează pe direcţia primei bisectoare, atunci legătura dintre cele două
variabile este directă
plasarea punctelor pe direcţia celei de-a doua bisetoare, prezintă o legătură
indirectă/inversă
cu cât punctele sunt mai concentrate în apropierea primei sau celei de-a doua bisectoare, cu
atât legătura este mai intensă
a.2 – forma legăturii
dacă repartizarea punctelor se face pe direcţia unei drepte, atunci forma legăturii este
liniare, în caz contrar se vorbeşte despre o legătură neliniară (parabolică, exponenţială etc)
Ecuația/funcția/dreapta de regresie este: yˆi 2 10,38xi pe baza căreia se obțin valorile ajustate
ale observațiilor având în vedere modelul de regresie: yi 2 10,38xi ei
OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi 2 10,38xi se prezintă sub forma yi 10,38xi 2
Interpretarea valorilor coeficienților:
Teoria
b0 = Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau Valoarea medie a
variabilei yi în condițiile în care factorul ar fi zero (x =0)
b1 coeficient de regresie care arată:
direcţia legăturii:
b1 0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
b1 0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
b1 0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
că, în condiţiile modificării cu o unitate a factorului x , în medie, y variază (crește/scade)
cu valoarea lui b1
Interpretare coeficienți aplicație:
b0 = 2 este Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau profitul
mediu de 2 UM în condițiile în care nu s-ar vinde cămăși (x=0)
b1 = +10,38 arată că între profit și Nr. cămășilor vândute există o legătură directă ( b1 0 ), astfel
încât creșterea numărului de cămăși vândute cu zece bucăți (o unitate) determină o creștere a
profitului cu 10,38 UM (cu valoarea lui b1 ).
4
c. Testarea semnificației parametrilor modelului de regresie ( 0 și 1 )
Semnificaţia parametrilor modelului de regresie se stabilește pe baza tabelului 3:
TEORIA
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
b0 Lb0 U b0
Intercept b0 sb0 t b0 Pvb0
sb0 b0 tcrit. sb0 b0 tcrit. sb0
b1 Lb1 U b1
Factorul X b1 sb1 tb1 Pvb1
sb1 b1 tcrit. sb1 b1 tcrit. sb1
Ipoteze:
H0 : j = 0 j nu este semnificativ statistic
(panta j este zero, adică j nu este semnificativ diferit de zero)
H1 : j 0, j este semnificativ statistic
(panta j nu este diferită de zero, adică j este semnificativ diferit de zero, deci)
Criteriul 1 – Test Student (BILATERAL)
valoarea critică: vcrit. tcrit. t
; n k 1
2
bj
Statistica testului: tc tcalc tb j
sb j
Decizia:
Dacă tb j tcrit. sau tcrit. tb j H 0 se respinge, deci H 1 este adevărată parametrul j
ESTE semnificativ statistic
Dacă tcrit. tb j tcrit. H 0 se acceptă, deci parametrul j NU este semnificativ statistic.
5
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute 10,38 0,81 12,81 1,44E-05 8,38 12,37
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
2 2,82 0,71 -4,90 8,90
0,504953 Lb0 U b0
Intercept b0 b
sb0 t b0 0 Pvb0
sb0 b0 tcrit. sb0 b0 tcrit. sb0
10,38 12,81 1,44E-05 8,38 12,37
0,81 =
Nr Cămăși b1 Lb1 U b1
b1 tb1
(zeci bucăți) sb1 sb1
0,0000144
b1 tcrit. sb1 b1 tcrit. sb1
Pvb1
Testarea semnificației
Parametrului 0 (Intercept) Parametrului 1 (panta dreptei se regresie)
Ipoteze: Ipoteze:
H0 : 0 = 0, 0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 : 0 0, 0 este semnificativ statistic H1 : 1 0, 1 este semnificativ statistic
Criteriul 1 – Test Student
valoarea critică: valoarea critică:
vcrit. tcrit. t t 0,05 tbilateral0,05;6 vcrit. tcrit. t t 0,05 tbilateral0,05;6
;nk 1 ;811 ;nk 1 ;811
2 2 2 2
b0 2 Statistica testului:
tc tcalc tb0 0,71 b 10,38
sb0 2,82 tc tcalc tb1 1 12,81
sb1 0,81
6
d. Validitatea/semnificaţia modelului de regresie yi 2 10,38xi ei
Validitatea/semnificaţia modelului de regresie se stabilește prin aplicarea testului Fisher pe baza
tabelului 2 – ANOVA
TEORIA
df
Tabel 2 - (grade SS MS Sig.
ANOVA libertate) (varianță) (Dispersii corectate) F F*
Regression SSR
df R k SSR MSR
(R) df R
Residual SSE MSR ..........
df E n k 1 SSE MSE Fc
Erori ( E ) df E MSE
dfT n 1 SST SSR SSE
Total
dfT df R df E
n = Volumul eșantionului; k = numărul factorilor = nr. variabile independente
Ipoteze
H0: MSR MSE modelul nu este valid statistic
H1: MSR MSE modelul este valid statistic
Valoarea critică: vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1
Valoare calculată (Statistica testului) adică Fcalculat Fcalc Fc are la bază relaţia:
SSR
MSR
MSR SS df R SST
Fc MS MST
MSE df SSE dfT
MSE
df E
Decizia:
dacă Fc Fcrit. H 0 se respinge, deci H 1 este adevărată modelul este valid.
OBSERVAȚIE!!!!
Dacă Signifianc e F H 0 se respinge, deci H 1 este adevărată modelul ESTE valid.
Dacă Signifianc e F H 0 este adevărată modelul NU este valid.
Probabilitatea maximă pentru care putem susține că modelul este valid/semnificativ statistic
se stabilește având în vedere relația:
100 Sig F % (1 ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere )
7
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88
Ipoteze
H0: MSR MSE modelul nu este valid statistic
H1: MSR MSE modelul este valid statistic
Valoarea critică:
vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1 F0,05; 1; 811 F0,05; 1; 6 5,99
Valoare calculată (Statistica testului) adică F Fcalculat Fc are la bază relaţia:
SSR SSR 2583,38
MSR df R k 1 2583,38
Fc 162,31
MSE SSE SSE 95,50 15,92
df E n k 1 6
Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100 Signifianc e F % 100 0,00144 99,9986% 95%
8
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor de bonitate ai tabelului 1.
TEORIA - Măsurarea intensității legăturii cu Raportul de corelație (Multiple R)
Tabel 1 - Regression Statistics
Multiple R (Raport de corelație) R
R Square (Coeficient de determinație) R2
Adjusted R Square (Coeficient de determinație ajustat) R2
Standard Error (Eroare Standard) se
Observations (Volum eșantion) n
dacă Fc < Fcrit. H 0 se acceptă, deci Raportul de corelație nu este semnificativ statistic
(modelul NU este valid).
9
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8
Ipoteze
Ipoteza Nulă: H0: R* 0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
Ipoteza Alternativă: H1: R* 0 Raportul de corelație este semnificativ statistic (modelul este valid)
Valoarea critică: vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1 F0,05; 1; 811 F0,05; 1; 6 5,99
Valoare calculată (Statistica testului) adică Fcalculat Fcalc Fc are la bază relaţia:
n k 1 R2 6 0,982
Fc . 144
k 1 R 2 1 1 0,982
10
f. Ponderea din variaţia totală a profitului explicată de influenţa vânzărilor de cămăşi
este stabilită prin Coeficientul de Determinație = R Square
TEORIE
Tabel 1 - Regression Statistics
Multiple R R
R Square R2
Adjusted R Square R2
Standard Error se
Observations n
Coeficientul de Determinație R2 = (R)2 = (0,98)2 = 0,96 arată că, 96% din profit este
explicat de influenţa vânzărilor de cămăşi (este explicat de model) care fiind mai mare de 50%,
înseamnă că este o influență semnificativă. Restul până la 100% ( de 4%) arată cât la sută din
variația totală a profitului este explicată de alți factori (nu este explicată de model) – K2 =
coeficientul de nedeterminație.
11
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de
corelaţie, testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
Decizia:
Dacă tc tcrit. sau tcrit. tc H 0 se respinge, deci H 1 este adevărată Coeficietul de
corelație este semnificativ statistic
Dacă tcrit. tc tcrit. H 0 se acceptă, deci coeficientul de corelație nu este semnificativ
statistic.
Matrice de corelație
x y
x 1
y rxy 1
12
Tabel 1 - Regression Statistics
r 0,98
Statistica testului: tc tcalc n k 1 8 1 1 12,01
1 r 2
1 0,982
se respinge se respinge
Se acceptă ipoteza H0
Decizia:
Deoarece tc (12,01) tcrit 2,447 H 0 se respinge, deci H 1 este adevărată Coeficietul de
corelație este semnificativ statistic
h. Previzionare profit dacă s-ar vinde 8 zeci buc. cămăşi ( xnv 8 zeci buc. )
Luând în considerare modelul de regresie: yi 2 10,38xi ei , previzionarea profitului se
realizează astfel: se înlocuiește în funcția de regresie yˆ nv 2 10,38xnv valoarea lui xnv cu 8 zeci
buc.cămăși:
yˆ nv 2 10,38xnv 2 10,38 8 85,04 UM
Interpretare: dacă s-ar vinde 8 zeci buc. cămăşi atunci, profitul ar fi de 85,04 UM.
13
Aplicație -- cerința b.
Descriptiv Statistics
EXCEL SPSS
Performanta_scolara (punctaj) Statistics
Mean 58.15 Performanța_scolară
Standard Error 2.30 Valid 34
N
Missing 0
Median 56
Mean 58.15
Mode 55
Std. Error of Mean 2.297
Standard Deviation 13.39 Median 56.00
Sample Variance 179.40 Mode 55
Kurtosis -0.11 Std. Deviation 13.394
Skewness 0.13 Variance 179.40
Range 57 Skewness .132
Minimum 33 Std. Error of Skewness .403
Maxim m 90 Kurtosis -.106
Std. Error of Kurtosis .788
Sum 1977
Range 57
Count 34 Minimum 33
Confidence Level (95.0%) 4.67 Maximum 90
Eroare limită x z sx Sum 1977
25 48.50
Percentiles 50 56.00
75 66.25
Standard Error (Excel) sau Std. Error of Mean (SPSS) = eroarea medie de
reprezentativitate : s x 0,19
s2 179 ,40
sx 0,19
n 34
Median (mediana): M e 56 puncte
Jumătate din totalul elevilor (50%) au un punctaj, în medie, mai mic de 56 puncte/elev, în timp ce restul
elevilor au un punctaj mai mare decât cel stabilit.
s 13,39
v 100 100 23,30 %
x 58,15
Teoria:
v<35% ; v=35% :
- seria este omogenă
- media este reprezentativă
- variația valorilor față de valoarea medie este mică (grad de împrăștiere redus)
v>35% :
- seria NU este omogenă
- media NU este reprezentativă
- variația valorilor față de valoarea medie este mare (grad de împrăștiere mare)
Interpretare: Ca urmare a calculării coeficientului de variație rezultă că, v = 23,03% < 35%, deci
valoarea dispersiei de 179,40 indică un grad de variație (împrăștiere) redus a punctajului individual față
de punctajul mediu.
Interpretare: Valoarea coeficientului fiind negativă indică faptul că distribuția punctajului este
aplatizată, deci gradul de concentare a punctajului individual în jurul punctajului mediu este mic față
de distribuția normală.
Skewness (Coeficient de asimetrie): Sk = 0,13
SK= 0.13 (Excel) sau SK= .13 (SPSS)
Teoria:
Sk=0 simetrie
Sk<0 asimetrie negativă: predomină valorile mari în serie
Interpretare: Valoarea coeficientului fiind pozitivă și mai mică de 0,5 indică faptul că, distribuția
punctajului are o asimetrie pozitivă redusă deci, predomină punctajul mic față de punctajul mediu
Ax xmax xmin
Range = Maximum – Minimum
Aplicație
Pentru un magazin se cunosc vânzările de cămăşi bărbăteşti şi profitul obţinut pentru 8 zile consecutive:
Profit (unități monetare) 30 42 10 62 12 30 21 58
Număr de cămăși vândute ( zeci bucăți) 3 4 1 6 1 2 2 5
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea profitului dacă s-ar fi vândut 8 zeci
buc. de cămăşi.
Rezolvare
yi f xi alti factori
Profit = f ( Nr. cămăși vândute ) + alți factori( erori/reziduuri)
(UM) (zeci buc.)
1
Rezultatele pentru etapele 1,2,3 (3.1, 3.2, 3.3) sunt:
2
Ca urmare a aplicării funcției Regression din Excel rezultatele sunt:
Tabel 1 - Regression Statistics
Multiple R 0,98
R Square 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations 8
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute
(zeci bucăți) 10,38 0,81 12,81 1,44E-05 8,38 12,37
a. Reprezentarea grafică
Interpretare grafic
TEORIE
Legătura dintre 2 variabile se reprezintă cu ajutorul diagramei norului de puncte (Scatter),
denumită şi corelogramă, care ne arată:
a.1 – direcția legăturii dintre cele două variabile;
Interpretarea se realizează după cum sunt repartizate punctele pe grafic:
dacă punctele se plasează pe direcţia primei bisectoare, atunci legătura dintre cele două
variabile este directă
plasarea punctelor pe direcţia celei de-a doua bisetoare, prezintă o legătură
indirectă/inversă
cu cât punctele sunt mai concentrate în apropierea primei sau celei de-a doua bisectoare, cu
atât legătura este mai intensă
a.2 – forma legăturii
dacă repartizarea punctelor se face pe direcţia unei drepte, atunci forma legăturii este
liniare, în caz contrar se vorbeşte despre o legătură neliniară (parabolică, exponenţială etc)
Ecuația/funcția/dreapta de regresie este: yˆi 2 10,38xi pe baza căreia se obțin valorile ajustate
ale observațiilor având în vedere modelul de regresie: yi 2 10,38xi ei
OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi 2 10,38xi se prezintă sub forma yi 10,38xi 2
Interpretarea valorilor coeficienților:
Teoria
b0 = Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau Valoarea medie a
variabilei yi în condițiile în care factorul ar fi zero (x =0)
b1 coeficient de regresie care arată:
direcţia legăturii:
b1 0 , legătură directă (creşterea valorilor variabilei factoriale x determină o creştere a
valorilor ecuaţiilor de regresie şi invers).
b1 0 , legătură inversă sau indirectă (creşterea valorilor variabilei factoriale x determină o
scădere a valorilor ecuaţiilor de regeresie şi invers).
b1 0 , nu există legătură; variabilele sunt independente valoarea mediea a caracteristicii
factoriale x este egală cu cea a caracteristicii rezultative).
că, în condiţiile modificării cu o unitate a factorului x , în medie, y variază (crește/scade)
cu valoarea lui b1
Interpretare coeficienți aplicație:
b0 = 2 este Intercept = punct de intersecție dintre axa OY și dreapta de regresie ŷi sau profitul
mediu de 2 UM în condițiile în care nu s-ar vinde cămăși (x=0)
b1 = +10,38 arată că între profit și Nr. cămășilor vândute există o legătură directă ( b1 0 ), astfel
încât creșterea numărului de cămăși vândute cu zece bucăți (o unitate) determină o creștere a
profitului cu 10,38 UM (cu valoarea lui b1 ).
4
c. Testarea semnificației parametrilor modelului de regresie ( 0 și 1 )
Semnificaţia parametrilor modelului de regresie se stabilește pe baza tabelului 3:
TEORIA
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
b0 Lb0 U b0
Intercept b0 sb0 t b0 Pvb0
sb0 b0 tcrit. sb0 b0 tcrit. sb0
b1 Lb1 U b1
Factorul X b1 sb1 tb1 Pvb1
sb1 b1 tcrit. sb1 b1 tcrit. sb1
Ipoteze:
H0 : j = 0 j nu este semnificativ statistic
(panta j este zero, adică j nu este semnificativ diferit de zero)
H1 : j 0, j este semnificativ statistic
(panta j nu este diferită de zero, adică j este semnificativ diferit de zero, deci)
Criteriul 1 – Test Student (BILATERAL)
valoarea critică: vcrit. tcrit. t
; n k 1
2
bj
Statistica testului: tc tcalc tb j
sb j
Decizia:
Dacă tb j tcrit. sau tcrit. tb j H 0 se respinge, deci H 1 este adevărată parametrul j
ESTE semnificativ statistic
Dacă tcrit. tb j tcrit. H 0 se acceptă, deci parametrul j NU este semnificativ statistic.
5
Standard Lower Upper
Tabel 3 Coefficients Error t Stat P-value 95% 95%
Intercept 2 2,82 0,71 0,504953 -4,90 8,90
Nr cămăși vândute 10,38 0,81 12,81 1,44E-05 8,38 12,37
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
2 2,82 0,71 -4,90 8,90
0,504953 Lb0 U b0
Intercept b0 b
sb0 t b0 0 Pvb0
sb0 b0 tcrit. sb0 b0 tcrit. sb0
10,38 12,81 1,44E-05 8,38 12,37
0,81 =
Nr Cămăși b1 Lb1 U b1
b1 tb1
(zeci bucăți) sb1 sb1
0,0000144
b1 tcrit. sb1 b1 tcrit. sb1
Pvb1
Testarea semnificației
Parametrului 0 (Intercept) Parametrului 1 (panta dreptei se regresie)
Ipoteze: Ipoteze:
H0 : 0 = 0, 0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 : 0 0, 0 este semnificativ statistic H1 : 1 0, 1 este semnificativ statistic
Criteriul 1 – Test Student
valoarea critică: valoarea critică:
vcrit. tcrit. t t 0,05 tbilateral0,05;6 vcrit. tcrit. t t 0,05 tbilateral0,05;6
;nk 1 ;811 ;nk 1 ;811
2 2 2 2
b0 2 Statistica testului:
tc tcalc tb0 0,71 b 10,38
sb0 2,82 tc tcalc tb1 1 12,81
sb1 0,81
6
d. Validitatea/semnificaţia modelului de regresie yi 2 10,38xi ei
Validitatea/semnificaţia modelului de regresie se stabilește prin aplicarea testului Fisher pe baza
tabelului 2 – ANOVA
TEORIA
df
Tabel 2 - (grade SS MS Sig.
ANOVA libertate) (varianță) (Dispersii corectate) F F*
Regression SSR
df R k SSR MSR
(R) df R
Residual SSE MSR ..........
df E n k 1 SSE MSE Fc
Erori ( E ) df E MSE
dfT n 1 SST SSR SSE
Total
dfT df R df E
n = Volumul eșantionului; k = numărul factorilor = nr. variabile independente
Ipoteze
H0: MSR MSE modelul nu este valid statistic
H1: MSR MSE modelul este valid statistic
Valoarea critică: vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1
Valoare calculată (Statistica testului) adică Fcalculat Fcalc Fc are la bază relaţia:
SSR
MSR
MSR SS df R SST
Fc MS MST
MSE df SSE dfT
MSE
df E
Decizia:
dacă Fc Fcrit. H 0 se respinge, deci H 1 este adevărată modelul este valid.
OBSERVAȚIE!!!!
Dacă Signifianc e F H 0 se respinge, deci H 1 este adevărată modelul ESTE valid.
Dacă Signifianc e F H 0 este adevărată modelul NU este valid.
Probabilitatea maximă pentru care putem susține că modelul este valid/semnificativ statistic
se stabilește având în vedere relația:
100 Sig F % (1 ) 100 ( probabilit atea de garantare a rezultatel or / nivel de încredere )
7
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 2583,38 2583,38 162,3 1,43515E-05
Residual 6 95,50 15,92
Total 7 2678,88
Ipoteze
H0: MSR MSE modelul nu este valid statistic
H1: MSR MSE modelul este valid statistic
Valoarea critică:
vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1 F0,05; 1; 811 F0,05; 1; 6 5,99
Valoare calculată (Statistica testului) adică F Fcalculat Fc are la bază relaţia:
SSR SSR 2583,38
MSR df R k 1 2583,38
Fc 162,31
MSE SSE SSE 95,50 15,92
df E n k 1 6
Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100 Signifianc e F % 100 0,00144 99,9986% 95%
8
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor de bonitate ai tabelului 1.
TEORIA - Măsurarea intensității legăturii cu Raportul de corelație (Multiple R)
Tabel 1 - Regression Statistics
Multiple R (Raport de corelație) R
R Square (Coeficient de determinație) R2
Adjusted R Square (Coeficient de determinație ajustat) R2
Standard Error (Eroare Standard) se
Observations (Volum eșantion) n
dacă Fc < Fcrit. H 0 se acceptă, deci Raportul de corelație nu este semnificativ statistic
(modelul NU este valid).
9
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,98
R Square (Coeficient de determinație) R2 = 0,96
Adjusted R Square 0,96
Standard Error 3,99
Observations (volum eșantion) n=8
Ipoteze
Ipoteza Nulă: H0: R* 0 Raportul de corelație nu este semnificativ statistic (modelul nu e valid)
Ipoteza Alternativă: H1: R* 0 Raportul de corelație este semnificativ statistic (modelul este valid)
Valoarea critică: vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1 F0,05; 1; 811 F0,05; 1; 6 5,99
Valoare calculată (Statistica testului) adică Fcalculat Fcalc Fc are la bază relaţia:
n k 1 R2 6 0,982
Fc . 144
k 1 R 2 1 1 0,982
10
f. Ponderea din variaţia totală a profitului explicată de influenţa vânzărilor de cămăşi
este stabilită prin Coeficientul de Determinație = R Square
TEORIE
Tabel 1 - Regression Statistics
Multiple R R
R Square R2
Adjusted R Square R2
Standard Error se
Observations n
Coeficientul de Determinație R2 = (R)2 = (0,98)2 = 0,96 arată că, 96% din profit este
explicat de influenţa vânzărilor de cămăşi (este explicat de model) care fiind mai mare de 50%,
înseamnă că este o influență semnificativă. Restul până la 100% ( de 4%) arată cât la sută din
variația totală a profitului este explicată de alți factori (nu este explicată de model) – K2 =
coeficientul de nedeterminație.
11
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de
corelaţie, testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
Decizia:
Dacă tc tcrit. sau tcrit. tc H 0 se respinge, deci H 1 este adevărată Coeficietul de
corelație este semnificativ statistic
Dacă tcrit. tc tcrit. H 0 se acceptă, deci coeficientul de corelație nu este semnificativ
statistic.
Matrice de corelație
x y
x 1
y rxy 1
12
Tabel 1 - Regression Statistics
r 0,98
Statistica testului: tc tcalc n k 1 8 1 1 12,01
1 r 2
1 0,982
se respinge se respinge
Se acceptă ipoteza H0
Decizia:
Deoarece tc (12,01) tcrit 2,447 H 0 se respinge, deci H 1 este adevărată Coeficietul de
corelație este semnificativ statistic
h. Previzionare profit dacă s-ar vinde 8 zeci buc. cămăşi ( xnv 8 zeci buc. )
Luând în considerare modelul de regresie: yi 2 10,38xi ei , previzionarea profitului se
realizează astfel: se înlocuiește în funcția de regresie yˆ nv 2 10,38xnv valoarea lui xnv cu 8 zeci
buc.cămăși:
yˆ nv 2 10,38xnv 2 10,38 8 85,04 UM
Interpretare: dacă s-ar vinde 8 zeci buc. cămăşi atunci, profitul ar fi de 85,04 UM.
13
MODEL DE REGRESIE LINIARĂ UNIFACTORIALĂ
(Legătură INDIRECTĂ – activitate seminar)
Aplicație
Pentru o firmă se cunosc datele privind numărul absențelor şi salariul obţinut pentru 14 salariați:
Salariul (mii lei) 1 5 2 4 2 3 0 1 4 2 4 2 5 1
Număr absențe ( zile) 8 3 7 5 6 7 10 8 3 7 5 6 7 10
În ipoteza existenței unei legături liniare între cele două variabile, se cere:
a) Să se reprezinte grafic datele;
b) Să se determine modelul de regresie în eşantion;
c) Să se testeze semnificaţia parametrilor modelului de regresie, pentru un nivel de semnificaţie α=0,05
d) Să se verifice validitatea/semnificaţia modelului de regresie găsit la punctul b) folosind testul F, pentru un
nivel de semnificaţie α=0,05
e) Să se măsoare intensitatea legăturii dintre variabile folosind un indicator adecvat, testând semnificaţia
acestuia pentru un nivel de semnificaţie α=0,05.
f) Ce pondere din variaţia totală a profitului este explicată de influenţa vânzărilor de cămăşi?
g) Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie, testând
semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
h) Dacă modelul s-a dovedit semnificativ, să se previzioneze valoarea salariului dacă s-ar absenta 6 zile.
Rezolvare
yi f xi alti factori
Salariul = f ( Nr. absențe ) + alți factori (erori/reziduuri)
(mii lei) (zile)
1
a. Reprezentarea grafică
b. Model de regresie
Modelul teoretic de regresie: yi b0 b1xi ei
Ecuația / funcția de regresie teoretică yˆi b0 b1xi
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept b0 9,31 0,70 13,38 1,43E-08 7,79 10,82
Nr. Absențe b1 -1,06 0,23 -4,59 0,000624 -1,57 -0,56
Ecuația/funcția/dreapta de regresie este: yˆi 9,31 1,06 xi pe baza căreia se obțin valorile
ajustate ale observațiilor având în vedere modelul de regresie: yi 9,31 1,06 xi ei
OBSERVAȚIE!!!!
În grafic ecuația/funcția/dreapta de regresie yˆi 9,31 1,06 xi se prezintă sub forma yi 1,06 xi 9,31
2
c. Testarea semnificației parametrilor modelului de regresie ( 0 și 1 )
Tabel 3 Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
9,31 0,70 13,38 1,43E-08 7,79 10,82
Intercept b0 b0 0,0000000143 Lb0 U b0
sb0 t b0
sb0 Pvb0 b0 tcrit. sb0 b0 tcrit. sb0
-1,06 0,23 -4,59 -1,57 -0,56
Nr absențe 0,00062
b1 b1 Lb1 U b1
(zile) sb1 t b1 Pvb1
s b1 b1 tcrit. sb1 b1 tcrit. sb1
Testarea semnificației
Parametrului 0 Parametrului 1
Ipoteze: Ipoteze:
H0 : 0 = 0, 0 nu este semnificativ statistic H0 : 1 = 0, 1 nu este semnificativ statistic
H1 : 0 0, 0 este semnificativ statistic H1 : 1 0, 1 este semnificativ statistic
Criteriul 1 – Test Student
valoarea critică: valoarea critică:
vcrit. tcrit. t 2,179 vcrit. tcrit. t 2,179
;nk 1 ;nk 1
2 2
Statistica testului: Statistica testului:
b 9,31 b1 1,06
tc tcalc tb0 0 13,38 tc tcalc tb1 4,59
sb0 0,70 sb1 0,23
Decizia: Deoarece
tc. (13,38) tcritic (2,179) H 0 se respinge, Decizia: Deoarece tc. (4,59) tcritic (2,179)
3
d. Validitatea/semnificaţia modelului de regresie yi 9,31 1,06 xi ei
Tabel 2 - ANOVA df SS MS F Significance F
Regression 1 37,85 37,85 21,05 0,00062357
Residual 12 21,58 1,80
Total 13 59,43
Ipoteze
H0: MSR MSE modelul nu este valid statistic
H1: MSR MSE modelul este valid statistict
Valoarea critică:
vcrit. Fcrit. F ; dfR ; dfE F ; k ; nk 1 F0,05; 1; 1411 F0,05; 1; 12 4,75
Valoare calculată (Statistica testului) adică F Fcalculat Fc are la bază relaţia:
SSR SSR 37,85
MSR df R k 37,85
Fc 1 21,05
MSE SSE SSE 21,85 1,80
df E n k 1 12
Probabilitatea maximă pentru care putem susține că modelul este valid va fi:
100 Signifianc e F % 100 0,06 99,94% 95%
4
e. Măsurarea intensității legăturii folosind un indicator adecvat (Raportul de corelație =
Multiple R) și testarea semnificației acestuia (testul Fisher) se realizează pornind de la
rezultatele indicatorilor tabelului 1.
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14
f. Ponderea din variaţia totală a salariului explicată de influenţa absențelor este stabilită
prin Coeficientul de Determinație = R Square
Tabel 1 - Regression Statistics
Multiple R (Raport de Corelație) R = 0,80
R Square (Coeficient de determinație) R2 = 0,64
Adjusted R Square 0,61
Standard Error 1,34
Observations (volum eșantion) n = 14
Coeficientul de Determinație R2 = (R)2 = (0,80)2 = 0,64 arată că, 64% din salariu este
explicat de influenţa absențelor (este explicat de model) care fiind mai mare de 50%, înseamnă că
este o influență semnificativă. Restul până la 100% ( de 36%) arată cât la sută din variația totală a
salariului este explicată de alți factori (nu este explicată de model).
5
g. Să se măsoare intensitatea legăturii dintre variabile folosind coeficientul de corelaţie,
testând semnificaţia acestuia pentru un nivel de semnificaţie α=0,05.
Observație: Dacă legătura între două variabile este liniară (așa cum se precizează în enunț) atunci
R r
Măsurarea legăturii dintre salariu și numărul absențe cu ajutorul coeficientului de corelație are
la bază afirmația existenței unei legături liniare între variabile (vezi enunț), care se transpune prin
relația: R r . În acest context, având în vedere că legătura între variabile este indirectă liniară,
atunci coeficientul de corelație este negativ ( r 0 ), după cum se observă și din matricea de
corelație deci, r R 0,80 .
Valoarea coeficientului de corelație r 0,80 arată că legătura dintre salariu și nr. absențe
este indirectă ( r 0 ) puternică ( r 0,75; 0,95 ).
Matrice de corelație
Nr. Absențe (zile) x Salariu (mii lei) y
Nr. Absențe (zile) x 1
Salariu (mii lei) y -0,80 1
r 0,80
Statistica testului: tc tcalc n k 1 14 1 1 4,498
1 r2 1 (0,80) 2
Decizia:
Deoarece tc (4,498) tcrit (2.179) H 0 se respinge, deci H 1 este adevărată Coeficietul
de corelație este semnificativ statistic
6
Aplicație
Legătura dintre două variabile este redată cu ajutorul unui model de regresie liniară
simplă. Pentru verificarea ipotezei de homoscedasticitate a erorilor corespunzătoare acestui
model, a fost aplicat testul White și a fost identificat un model auxiliar de regresie, pentru care
sunt prezentate următoarele rezultate:
Regression Statistics
Multiple R 0,54 Coefficients Standard Error t Stat
R Square …. Intercept -27,59 29,61 -0,93
Adjusted R
X1 17,47 15,52 1,13
Square 0,13
X1 ^ 2 -1,54 1,83 -0,84
Standard Error 15,05
Observations 12
Rezolvare:
Ipoteze
H0: erorile sunt homoscedastice
H1: erorile sunt heteroscedastice
Valoare critică:
χ2crit =χ2α;k+1 =χ20,05;5+1 =χ20,05;6 = 5,99
Testul LM
LM = n Raux
2
LM = n Raux
2
= 12 0,29 = 3,48
5.
Decizie:
Pentru un nivel de semnificație de 5%, deoarece
LM (3,48) critic
2
(5,99)
erorile sunt homoscedastice (H0 se acceptă)
Aplicație SCR __ subiect examen
Evoluția încasărilor trimestriale (mil. UM) pentru un muzeu și trendul stabilit cu metoda
mediilor mobile (MMM) se prezintă astfel:
Încasări trimestriale
Trend MMM (mil. UM)
Ani (mil. UM) Ani
I II III IV
I II III IV
2020 - - …. 7,375
2020 4 7 8 10
2021 ..... 8,25 8,625 .....
2021 4 8 10 12
2022 8 ….. - -
2022 5 6 8 9
1. Determinați valorile trendului completând spațiile punctate și precizați care este metoda de
ajustare aplicată;
2. Calculați și interpretați componenta sezonieră ;
3. Valorile seriei desezonalizate sunt :
....................................................................................................................................................................
....................................................................................................................................................................
REZOLVARE:
y I 2020 y 4 4
+ y II 2020 + y III 2020 + y IV 2020 + I 2021 + 7 + 8 + 10 +
yˆ 3 MMM = 2 2 = 2 2 = 7,25
4 4
y III 2020 y 8 10
+ y IV 2020 + y I 2021 + y II 2021 + III 2021 + 10 + 4 + 8 +
yˆ 5 MMM = 2 2 = 2 2 = 7,75
4 4
y II 2021 y 8 6
+ y III 2021 + y IV 2021 + y I 2022 + II 2022 + 10 + 12 + 5 +
yˆ 8 MMM = 2 2 = 2 2 = 8,5
4 4
y IV 2021 y 12 9
+ y I 2022 + y II 2022 + y III 2022 + IV 2022 +5+6+8+
yˆ10 MMM = 2 2 = 2 2 = 7,375
4 4
DSB
j =I
j = −0,068 0
DSB
2 2 2 2
(DSBj) = -3,375 = -0,813 = 1,06 = 3,06 j
j=I
= −0,017
4
Devieri (-3,375)-(-0,017) (-0,813)-(-0,017) 1,06 - (-0,017) 3,06 - (-0,017)
Sezoniere -3,358 -0,796 1,077 3,077 COMPONENTA
Corectate SEZONIERĂ
(DSCj) DSC =- 3
I DSCII=-1 DSCIII=1 DSCIV=3
Interpretare devieri sezonie:
Ca urmare a aplicării modelului aditiv concluzia este că, factorul
sezonier influenţează încasările muzeului astfel:
➢ în perioada 2020-2022, în trim.I, factorul sezonier a determinat o
scădere a încasărilor în medie cu 3 mil UM sub linia trendului;
➢ în perioada 2020-2022, în trim.II, factorul sezonier a determinat o
scădere a încasărilor în medie cu 1 mil UM sub linia trendului;
➢ în perioada 2020-2022, în trim.III, factorul sezonier a determinat o
creștere a încasărilor în medie cu 1 mil UM peste linia trendului;
➢ în perioada 2020-2022, în trim.IV, factorul sezonier a determinat o
creștere a încasărilor în medie cu 3 mil UM peste linia trendului.