Documente Academic
Documente Profesional
Documente Cultură
București 2021
CERINȚELE PROIECTULUI
Se vor prelua datele a două variabile/caracteristici (eventual o variabilă a ofertei și una
a cererii) între care există o legătură, fiecare evidențiată printr-o serie de cel puțin 20 de
date cu frecvență pe: ani/semestre/trimestre/luni/zile, cât mai recente, precizând sursa
de date.
Se cere:
1. Să se motiveze alegerea temei prezentând aspecte privind variabilele alese
în studiu, să se precizeze variabila rezultativă (y) și cea factorială(x); y=f(x) , să se
reprezinte grafic cele doua serii de date.
2. Să se calculeze Indicatorii tendinței centrale, ai variabilității si formei
distribuției pentru fiecare serie simplă de date, cu interpretările teoretice și
economice.
3. Să se grupeze valorile înregistrate pentru fiecare variabilă/caracteristică
pe intervale egale, să se prezinte repartițiile unidimensionale obținute sub formă
de tabele și grafice statistice și să se calculeze indicatorii tendinței centrale,
explicând diferențele obținute față de punctul 2.
4. Să se analizeze fiecare caracteristică/variabilă folosind Descriptiv Statistics
cu interpretările teoretice și economice, să se specifice în funcție de care din cele
două caracteristici/variabile, colectivitatea este mai omogenă .
5. Dacă se presupune că seria de date a fiecărei variabile reprezintă un
eșantion de volum 10% din colectivitatea generală, extras prin selecție aleatoare
simplă repetată, se cere:
5.1. să se estimeze media generală și nivelul totalizator pentru o
probabilitate de 95% cu valoare critică 2,085;
5.2. să se stabilească volumul unui nou eșantion dacă eroarea medie
limită admisă se reduce la jumătate pentru o probabilitate de 99% pentru
care valoarea critică este 2,624.
6. Să se măsoare intensitatea legăturii dintre cele două variabile utilizând
metode grafice ( graficul Scatter), metode parametrice (funcția correlation din
Excel, Regresia etc.) și metode neparametrice ( Spearman);
7. Pentru fiecare variabilă in parte din seriile cronologice supuse studiului, să se
determine și să se interpreteze indicatorii absoluți, relativi și medii;
8. Concluzii
9. Bibliografie
Impactul COVID-19 asupra ramurii economiei HORECA a fost unul din cel mai
important. Analiza prezentă incearcă să stabilească, dacă există o legatură semnificativă intre
numărul de oasepeți/clienți ce frecventează acea societate comericială și numărul de cazuri
covid inregistrate în sectorul/zona în care e deschisă o unitate HORECA și
Datele au fost preluate din raportul Z al Tucano Coffee SRL și de pe www.graphs.ro,
Variabila rezultativă y este influenţată de una sau mai multe variabile cauzale/factoriale
x, considerate ca esenţiale, pe lângă acestea existând şi alte variabile neînregistrate sau
nespecificate.
În cazul nostru:
La fel de bine s-ar fi putut alege y = nr. cazuri covid si x = nr. oaspeti.
2500
Distribuția datelor inregistrate
Nr. oaspeti* Nr. de cazuri covid**
2000
1500
1000
500
0
20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
/ 20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20
/4 /5 /6 /7 /8 /9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
12 12 12 12 12 12 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/
2000
1500
1000
500
0
20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20 20
/ 20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20 /20
/4 /5 /6 /7 /8 /9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
12 12 12 12 12 12 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/ 12/
Interpretare: In medie, in perioada analizata, in unitatea Tucano, au intrat 193 persoane pe zi.
Mediana unei serii ordonate este valoarea care imparte șirul ordonat al valorilor variabilelor în
doua părți, fiecare parte conținând același număr de valori( 50%).
In cazul nostru n =21 zile, al 11 lea termen din seria ordonată, deci avem:
Modul(valoarea dominantă)– cea mai frecventă valoare din seria de date și este utilizată în
special pentru date discrete.
Dispersia reprezintă răspândirea valorilor din jurul tendinței centrale. Nu are unitate
de măsură.
1
D=
n
∑ ( x i−x )2
D = 1213,129
Abaterea medie patratică/Abaterea standard este rădăcina medie pătrată a mulțimii abaterilor
fiecărui element de la media mulțimii/radical din dispersie.
SD=
√ 1
n
∑ ( x i−x )
2
Cv1=34,83*100/193,14=18%
Cv2=473,05*100/1221,66=38,72%
Valoarea coeficinetului de variație este mai mare de 35% (stabilit prin convenție),
deci, colectivitatea (mulțimea datelor înregistrate pentru cazuri de covid) este
neomogenă, iar media aritmetică este nesimnificativă.
Indicatorii formei distribuției: Coeficientul de asimetrie
....de calculat
Histogram
12
10
8
Frequency
6
4
2
0
141 183 225 267 More
Bin
Histogram
10
8
Frequency
6
4
2
0
743 1145 1547 1949 More
4. Să se analizeze fiecare caracteristică/variabilă folosind Descriptiv Statistics cu
interpretările teoretice și economice, să se specifice în funcție de care din cele
două caracteristici/variabile, colectivitatea este mai omogenă .
Median(mediana) reprezintă valoarea care la care se găsește jumătate dintre observații, este o
valoare care se obține după ordonarea datelor. Este un indicator al tendintei centrale.
In cazul nostru n =21 zile, al 11 lea termen din seria ordonată, deci avem:
- mediana pentru numarul de oaspeti: 189; In 50% din numărul zilelor analizate
numărul zilnic al clienților a fost mai mic decât 189.
- mediana pentru numarul de cazuri covid: 1142. In 50% din numărul zilelor
analizate s-au inregistrat mai mult de 1142 cazuri de covid /zi.
Mode(valoarea dominantă)– cea mai frecventă valoare din seria de date și este utilizată în
special pentru date discrete. Este un indicator al tendintei centrale.
Pentru seria de date aferentă numărului de oaspeți, nu există nici un mod, deci seria este
amodală.
Pentru seria de date aferentă numărului de cazuri covid-19, modul este 1946. Cel mai frecvent
număr de cazuri inregistrat a fost 1946.
1
D=
n
∑ ( x i−x )
2
Standard deviation(abaterea medie patratică) a unei mulțimi de numere este rădăcina medie
pătrată a mulțimii abaterilor fiecărui element de la media mulțimii/radical din dispersie.
SD=
√ 1
n
∑ ( x i−x )
2
Coeficientul de asimetrie Skewnwss este mai mare decât 0 pentru numărul de cazuri covid-19,
deci avem asimetrie la dreapta, pentru numărul de clienți, unde coeficientul de asimetrie este
mai mic decat zero, iar la nr cazuri, coeficientul este foarte apropiat de 0, deci o distributie
aproape simetrică (vezi histograma).
Maximum reprezintă valoarea maximă din setul de date. În cazul nostru avem:
Sum(suma) reprezintă suma tuturor valorilor din setul de date. În cazul nostru avem:
Count este numărul de înregistrări din setul de date. În cazul nostru este 21, deoarece avem
date pentru 21 zile (21 linii în tabel).
Confidence Level (95.0%) sau eroarea limită/ maximă este intervalul de încredere pentru
medie. Arată probabilitatea ca intervalul de încredere al unui parametru, să conțină valoarea
adevarată a parametrului. Dacă se construiesc în mod repetat intervale de încredere plecând de
la eșantioane diferite, procentul intervalelor care conțin valoarea adevarată a parametrului va
tinde către siguranța statistică.
Cv1=34,83*100/193,14=18%
Cv2=473,05*100/1221,66=38,72%
Cv1<Cv2, deci colectivitatea numărului de oaspeți a unității comerciale este mai omogenă
decât colectivitatea numărului de cazuri de covid. Media cliențilorr este reprezentativă din
punct de vedere statistic, în perioada analizată.
Deoarece seria de date este formată din 21 seturi de date, atunci avem:
n=21
10
n=10 % ∙ N = ∙N
100
100
N=21∙ =¿210
10
Intervalul de incredere
193,14−15.85< µ<193,14+15,85
177< µ<209
Nivel totalizaor
N⋅( x− Δ x̄ ) < ∑ xi < ( x+ Δ x̄ )⋅N
37170<∑ x i <43890
Intervalul de incredere
1221,667−215,3307<µ< 1221,667+215,3307
1006< µ<1437
Nivel totalizaor
211260<∑ x i <301770
√
2
s
Eroare medie de selectie ( s x )= =7,6
n
¿ 15,8544
Eroare maxima admisibila ( ∆ x ) = =7,92
2
2 2
¿ t ⋅s
n= 2 2
2,624 ⋅7,6
Δ ¿x̄2 ¿2
= 7,92❑¯ =133 persoane
√
2
s
Eroare medie de selectie (s x )= =103,22838
n
¿ 215,33
Noua Eroare maximaadmisibila ( ∆ x )= =107,66
2
2 2
¿t ⋅s
n = ¿2 2,6242 ⋅ 223778
Δ x̄ ¿2
= 107,66❑¯ =134 persoane
2. Metode parametrice
1.Graficul Scatter
2000
Nr, cazuri covid
1500
1000
500
0
80 100 120 140 160 180 200 220 240 260 280
Nr.oaspeti
Graficul arată existența unei legaturi inverse foarte slabe. Anticipăm o scădere foarte mică a
numărului de oaspeți in funcție de numărul cazurilor de covid înregistrate.
2. Metode parametrice
Coeficientul de corelație = -0,02136 ( claculat in Excel- cu functia corell)
Acesta indică o corelație foarte slabă, inversă, intre cele doua variabile.
Raportul de corelatie R=0.02 (calculat din outputul Regresiei) Aceeași valoare
absolută ca și coeficientul de corelație.
Covarianta = -335,1428571( claculat in Excel- cu functia cov)
Indică existența unei legături inverse dintre variabile.
Metoda regresiei
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,021357825
R Square 0,000456157
Adjusted R Square -0,052151414
Standard Error 35,7266699
Observations 21
ANOVA
df SS MS F Significance F
Regression 1 11,06753 11,06753 0,00867093 0,9267848
Residual 19 24251,5 1276,395
Total 20 24262,57
Outputul Funcției de regresie indică, existența unei legături foarte slabe intre cele
două variabile:
Multiple R =0.02 -Raportul de corelație – o legatură foarte slabă
R Square = arată că nr Oaspetilor este influențat in proporție de 0,04% de
numărul cazurilor de covid.
Ecuația de regresie:
Yi= 1277,69 - 0,29 Xi
La creșterea nr de cazuri covid cu 1 unitate, nr oapetilor scade cu 0,029 !!!!
modelul este seminficativ statistic : F=0,008 <0,05
Concluzie: nr oaspeților este influentat într-un procent foarte mic de nr
cazurilor de covid înregistrate in zona în care este situată unitatea comercială
analizată.
3.Metode neparametrice
Folosind funcția RANK din Excel, se calculează rangurile celor doua variabile, in coloana diff
se notează iferența dintre Rx si Ry iar diff^2, ridicarea la puterea a doua a coloanei diff cu
rezultatele:
Nr. Nr. de
Rx Ry Diff diff^2
oaspeti cazuri
covid*
*
*
185 986 14 15 -1 1
194 1627 9 6 3 9
219 1588 6 7 -1 1
158 1828 20 4 16 256
189 1946 11 1 10 100
182 1946 15 2 13 169
173 1762 17 5 12 144
228 1867 4 3 1 1
236 1156 2 9 -7 49
267 1142 1 11 -10 100
167 556 18 20 -2 4
188 1143 12 10 2 4
163 1127 19 12 7 49
186 903 13 17 -4 16
203 1088 7 14 -7 49
220 1167 5 8 -3 9
232 600 3 19 -16 256
192 341 10 21 -11 121
200 819 8 18 -10 100
175 967 16 16 0 0
99 1096 21 13 8 64
2
6 di
CS 1
nn 2 1
= - 0,02
Concluzie: legatură inversă foarte slabă (același rezultat obținut prin toate metodele
utilizate)
Modificare absolută cu baza mobilă (in lanț) se calculează prin diferența intre
valoarea variabilei în momentul t și valoarea variabilei în momentul precedent t-1.
t / t 1 yt yt 1
Nr. Nr. de
oaspeti
t / t 1 yt yt 1 cazuri
t / t 1 yt yt 1
* covid**
185 - 986 -
194 9 1627 641
219 25 1588 -39
158 -61 1828 240
189 31 1946 118
182 -7 1946 0
173 -9 1762 -184
228 55 1867 105
236 8 1156 -711
267 31 1142 -14
167 -100 556 -586
188 21 1143 587
163 -25 1127 -16
186 23 903 -224
203 17 1088 185
220 17 1167 79
232 12 600 -567
192 -40 341 -259
200 8 819 478
175 -25 967 148
99 -76 1096 129
(sursa: raportul lunar Z al Tucano Coffee SRL și www.graphs.ro)
B. Indicatori relativi
Indici (de dinamică) cu bază fixă se calculează prin raportarea valoarii variabilei in
momentul t la valoarea variabilei corespunzătoare unui moment fixat, considerat bază
de comparaţie. De obicei baza de comparaţie este primul termen al seriei.
yt
I t /1
y1
Nr. de
Nr.
cazuri
oaspeti It/1 It/1
covid*
*
*
185 1 986 1
1,0486 1,65010
194 1627
5 1
1,1837 1,61054
219 1588
8 8
0,8540 1,85395
158 1828
5 5
1,0216 1,97363
189 1946
2 1
0,9837 1,97363
182 1946
8 1
173 0,9351 1762 1,78701
4 8
1,2324 1,89350
228 1867
3 9
1,2756 1,17241
236 1156
8 4
1,4432 1,15821
267 1142
4 5
0,56389
167 0,9027 556
5
1,0162 1,15922
188 1143
2 9
0,8810 1,14300
163 1127
8 2
1,0054 0,91582
186 903
1 2
1,10344
203 1,0973 1088
8
1,1891
220 1167 1,18357
9
1,2540 0,60851
232 600
5 9
1,0378 0,34584
192 341
4 2
1,0810 0,83062
200 819
8 9
0,9459
175 967 0,98073
5
0,5351 1,11156
99 1096
4 2
(sursa: raportul lunar Z al Tucano Coffee SRL și www.graphs.ro)
Indici (de dinamică) cu baza mobilă (in lant) se calculează prin raportarea valoarii
variabilei in momentul t la valoarea variabilei din momentul precedent t-1.
yt
I t / t 1
yt 1
Nr. de
Nr. cazuri
It/t-1 It/t-1 (sursa: raportul lunar Z al Tucano Coffee SRL și
oaspeti* covid*
* www.graphs.ro)
185 - 986 -
1,0486 1,65010 Recomandare: Interpretati cel putin o valoare a
194 1627
5 1 indicatorului pentru fiecare serie
1,1288
219 1588 0,97603
7 Ritmul (de dinamică) cu bază fixă(%)
0,7214 1,15113
158 1828
6 4 Δt / 1 y − y1
1,06455 Rt /1 = ⋅100= t 100=( I t/ 1 −1 )⋅100 ;
189 1,1962 1946 y1 y1
1
0,9629
182 1946 1
6
0,9505 0,90544
173 1762
5 7
1,3179 1,05959
228 1867
2 1
1,0350 0,61917
236 1156
9 5
1,1313 0,98788
267 1142
6 9
0,6254 0,48686
167 556
7 5
1,1257 2,05575
188 1143
5 5
0,8670 0,98600
163 1127
2 2
0,80124
186 1,1411 903
2
1,20487
203 1,0914 1088
3
1,0837
220 1167 1,07261
4
1,0545 0,51413
232 600
5 9
0,8275 0,56833
192 341
9 3
1,0416
200 819 2,40176
7
1,18070
175 0,875 967
8
0,5657 1,13340
99 1096
1 2
Nr. de
Nr. cazuri
Rt/1(%) Rt/1(%)
oaspeti* covid*
*
185 1 986 1
194 4,86 1627 65,01
219 18,37 1588 61,05
158 -14,59 1828 85,39
189 2,16 1946 97,36
182 -1,62 1946 97,36
173 -6,48 1762 78,70
228 23,24 1867 89,35
236 27,56 1156 17,24
267 44,32 1142 15,82
167 -9,72 556 -43,61
188 1,62 1143 15,92
163 -11,89 1127 14,30
186 0,54 903 -8,41
203 9,72 1088 10,34
220 18,91 1167 18,35
232 25,40 600 -39,14
192 3,78 341 -65,41
200 8,10 819 -16,93
175 -5,40 967 -1,92
99 -46,48 1096 11,15
Recomandare: Interpretati cel putin o valoare a indicatorului pentru fiecare serie
C. Indicatori medii
y
yt
n =193 oaspeti
=1222 cazuri covid
t / t 1 n /1 y y1
t 2 n
n 1 n 1 n 1
=-4,3 oaspeti
=5,5 nr cazuri
Ι= √∏ Ι t /t −1=n−1√ Ι n /1
n−1
=0.96
=1
=(0,96-1) *100 = - 4 %