Documente Academic
Documente Profesional
Documente Cultură
Analiza Statistică A Distribuţiilor de Frecvenţe. Indicatorii Variaţiei Şi Asimetriei
Analiza Statistică A Distribuţiilor de Frecvenţe. Indicatorii Variaţiei Şi Asimetriei
Exemplul 1
Fie urmtoarele seturi de date:
2
10
12
14
x 1 Me1
10
11
x 2 Me 2
compara n timp i spaiu variaia mai multor serii de repartiie pentru aceeai
caracteristic sau pentru caracteristici diferite care au fost nregistrate pentru aceeai
colectivitate;
indicatori simpli ai variaiei sunt acei indicatori care arat mprtierea valorilor
una fa de alta sau mprtierea valorilor fa de o anumit valoare;
indicatori sintetici ai variaiei care iau n considerare toi termenii seriei n calculul
lor, sintetiznd ntr-o singur valoare ntreaga mprtiere din serie.
Indicatorii simpli ai variaiei se exprim att n mrimi absolute (avnd aceleai uniti
de msur ca i caracteristica studiat), ct i n mrimi relative (obinute prin raportarea
mrimii absolute la medie).
Indicatorii simpli ai variaiei sunt:
Ax
x
100
di
i 1
xi x 0
i 1
Suma abaterilor maxime i minime luate n modul este egal cu amplitudinea absolut a
variaiei:
d max d min A x
Dac n cazul unei serii, abaterea maxim absolut difer mult de valoarea abaterii
minime absolute luat n modul, atunci pentru seria respectiv trebuie calculai pe lng
indicatorii variaiei i indicatorii de asimetrie.
ntr-o serie simetric:
d min d max
d max
d
100
max(%)
di
x
d i(%) 100
d
x
d min(%) min 100
x
Toi aceti indicatori simpli prezint dezavantajul c nu sintetizeaz, ntr-o singur
valoare, mprtierea tuturor termenilor din seria analizat.
Pentru a elimina acest dezavantaj calculm indicatorii sintetici ai variaiei.
2.2. Indicatorii sintetici ai variaiei
d ;
dispersia (variana);
coeficientul de variaie.
xi
i 1
xi x ni
d i 1
ni
i 1
n cazul n care seria de distribuie de frecvene este pe intervale, atunci xi este centrul
intervalului.
- pentru o serie de distribuie de frecvene relative:
k
x i x n *i
d i 1
- dac
n*
i
- dac
n*
i
100
d x i x n *i
i 1
nu ine seama de faptul c abaterile mai mari n valoare absolut influeneaz n mai
mare msur gradul de variaie al unei caracteristici comparativ cu abaterile mici.
Exemplul 2
Repartiia salariailor unei ntreprinderi dup prima obinut la sfritul anului este prezentat
n tabelul urmtor:
Prima (lei)
sub 100
100 200
200 300
300 400
peste 400
Total
Nr. salariai
ni
15
20
30
25
10
100
Centrul
xi
50
150
250
350
450
-
xini
750
3.000
7.500
8.750
7.500
24.500
xi x
+195
+95
5
105
205
-
xi x ni
2.925
1.900
150
2.625
2.050
9.650
x n
i
i 1
n
i 1
x
i 1
24.500
245 lei / salariat
100
x ni
n
i 1
9.650
96,5 lei / salariat
100
x i x
n
2 i 1
x i x
k
i 1
ni
ni
i 1
x i x
k
2 i1
n *i
100
sau
k
2 xi x
i 1
2 n *i
Dac datele provin din eantioane de volum redus i le folosim pentru extinderea rezultatelor
la nivelul colectivitii generale (le folosim pentru o inferen statistic), atunci n calculul
dispersiei la numitor se va folosi (n-1) i nu n fiind astfel dispersia eantionului un
estimator mai bun al dispersiei n colectivitatea general:
x i x
n
s 2 i 1
n 1
xi
DA
Frecvena
ni
m
NU
nm
Total
x i x
2
2w
i 1
ni
Frecvene relative
m
n
nm
1 w
n
1
1 w 2 m 0 w 2 (n m)
ni
i 1
m
nm
w2
1 w 2 w w 2 (1 w )
n
n
w 1 w 1 w w w 1 w
1 w 2
Dispersia caracteristicii alternative este egal cu produsul dintre cele dou frecvene
relative.
Exemplul 3
Prima (lei)
Nr. salariai (ni)
sub 300
65
35
300
Total
100
S se calculeze dispersia caracteristicii alternative salariai cu prima sub 300 RON.
w
m
65
0,65
n 100
Abaterea medie ptratic (abatere standard, abatere tip sau ecart tip) se calculeaz
ca o medie ptratic a abaterilor termenilor seriei de la media lor sau ca radical din dispersie.
Abaterea medie ptratic ne arat cu ct n medie se abat termenii unei serii de la
tendina central (de obicei media):
- pentru o serie simpl:
x i x
n
2 i 1
x i x
k
i 1
ni
ni
i 1
x i x
k
2 i1
n *i
100
Exemplul 4
Fie 2 serii:
S1:
S2:
101
102
103
104
105
106
Cele dou serii au aceeai amplitudine, aceeai abatere medie liniar i aceeai abatere medie
ptratic. Cu toate acestea, mprtierea din seria A este mai mare dect cea din seria B.
Este foarte dificil s comparm serii de date dup caracteristici exprimate prin aceeai
unitate de msur deoarece variabilitatea depinde de ordinul de mrime.
Abaterea medie ptratic are aceeai semnificaie ca i abaterea medie liniar, dar ea
obinndu-se prin ridicarea la ptrat a abaterilor individuale de la tendina central (medie)
nltur dezavantajul acordrii aceleiai importane att abaterilor mari ct i celor mici.
Abaterea medie ptratic are aceeai unitate de msur cu a caracteristicii studiate, de
aici provenind dezavantajul c nu pot fi comparate colectiviti dup caracteristici exprimate
prin uniti de msur diferite.
Deoarece
x xp
rezult c
n cazul unei serii de distribuie de frecvene simetric sau uor asimetric, adic pentru
o serie cu tendin de normalitate ntre abaterea medie liniar i abaterea medie ptratic
exist relaia:
d 0,8
Exemplu 5
Se utilizeaz datele din Exemplul 2.
d
96,5
Abaterea medie ptratic este un indicator care ne ofer informaii privind modul de
mprtiere a termenilor unei serii cu tendin de normalitate. Astfel, o regul empiric spune:
x , x ;
- 98,45% din termenii unei serii se situeaz n intervalul x 2, x 2 ;
- 99,73% din termenii unei serii se situeaz n intervalul x 3, x 3 ;
- 99,94% din termeni se gsesc n intervalul x 4, x 4
- 68,37% din termenii unei serii se situeaz n intervalul
analiza variaiei. Se calculeaz ca raport ntre abaterea medie ptratic sau liniar i medie.
v
100
sau
v'
d
x
100
v v
Coeficientul de variaie se exprim procentual, deci putem aprecia c el reprezint
exprimarea relativ a lui sau a lui
Dac v = 0 seria este perfect omogen, toi termenii seriei sunt egali ntre ei i sunt egali
cu media: n acest caz nu exist variaie.
Dac v 5%, seria este foarte omogen, variaia este foarte mic, media este foarte
reprezentativ, iar gruparea a fost foarte bine executat (n cazul seriilor de distribuie de
frecvene).
Dac v 35%, seria este omogen.
Dac v 70-75%, seria este eterogen, variaia este foarte mare, media nu este
reprezentativ, iar gruparea trebuie refcut.
Testul de autoevaluare 1
1.Un auditor bancar a selectat 10 conturi i a nregistrat sumele existente n fiecare dintre
aceste conturi. Sumele sunt date n Euro:
150 175 195 200 235 240 250 256 275 294
Se cere:
a) s se calculeze suma medie de bani existent ntr-un cont
b) s se caracterizeze gradul de omogenitatea al seriei.
Dei cel mai adesea coeficientul de variaie se calculeaz utiliznd media (deoarece
respect cele mai multe din condiiile impuse de Yule), acest indicator se poate calcula
utiliznd i ali indicatori ai tendinei centrale (mediana, mediala, modul).
Acest indicator nu se poate utiliza (adic este lipsit de semnificaie) n cazul n care
media aritmetic este apropiat de zero sau cnd valorile termenilor seriei sunt foarte
apropiate.
Exemplul 6
Se utilizeaz datele din Exemplul 2 i Exemplul 5.
v
v'
x
d
x
100
120,31
100 49,1% 35% seria nu este omogen
245
100
96,5
100 39,3%
245
3. Indicatorii de asimetrie
Asimetria unei serii de distribuie empirice poate fi determinat att prin metoda grafic
ct i prin calculul indicatorilor de asimetrie.
Reprezentarea grafic cea mai utilizat pentru aprecierea asimetriei este poligonul
frecvenelor, dar graficul ne ofer doar o imagine sugestiv asupra gradului de asimetrie, fr
a putea s-l msoare printr-o valoare exact.
ni
ni
x
x Me Mo
xi
ni
Mo
Me x
xi
Serie asimetric cu
asimetrie de stnga sau
pozitiv, predomin
valorile mici
x Me Mo
Me
Mo
xi
Serie asimetric cu
asimetrie de dreapta sau
negativ, predomin
valorile mari
x Me Mo
Mo x 3 Me x
ni
xi
xi
ni
xi
ni
xi
sau
As 3 x Me
Cas
x Mo
1, 1
3 x Me
3, 3
Acest indicator este recomandat numai pentru serii de repartiie uor asimetrice cnd
ntre cei trei indicatori ai tendinei centrale exist relaia:
Mo x 3 Me x
Cu ct Cas este mai apropiat de 0 cu att seria este mai simetric, iar cu ct se apropie
de extremitile intervalului, asimetria devine mai pronunat.
Aceti doi indicatori ai asimetriei sunt cei mai utilizai n practic, dar n afar de acetia
se mai utilizeaz i ali indicatori.
Exemplul 7
Se utilizeaz datele din Exemplul 2.
As x Mo 245 266,66 21,55 RON 0
Mo x 0 h
1
10
200 100
266,66
1 2
10 5
Mo 200, 300
Cas
x Mo
21,66
0,18 0
120,31
x Me Mo
Exersai n Excel
Un profesor dorete s vad care au fost rezultatele medii obinute de studenii si la examen. De
asemenea, ar vrea s observe care a fost variaia notelor. Calculai mrimile necesare. Notele obinute
de studeni la examen au fost urmtoarele:
8,1
9,4
9,5
8,4
5,3
7,2
9,2
9,3
7,0
4,8
6,9
8,3
3,0
7,3
8,1
8,1
6,6
8,7
7,9
7,8
9,1
9,6
9,4
7,4
9,0
8,6
7,5
9,1
8,0
9,4
6,9
5,7
8,2
9,6
5,5
9,0
9,6
9,8
8,3
8,3
8,4
8,4
3,9
9,3
6,5
4,1
6,6
9,5
9,4
8,3
3,4
10,0
3,4
9,0
8,8
9,9
8,9
2,5
9,8
7,3
6,5
4,2
4,3
4,8
7,2
9,9
7,3
9,9
8,5
7,1
1,1
8,5
8,4
5,1
7,5
8,9
3,8
7,1
8,3
8,4
6,4
6,1
8,5
3,7
9,5
9,0
6,4
7,7
7,7
1,6
3,8
8,8
9,3
7,6
9,6
9,7
5,9
8,6
1,8
5,0
7.398
0.215022
8.1
8.4
2.150216
4.62343
0.393661
-1.0731
8.9
1.1
10
739.8
100
Media notelor obinute la examen este 7,398 (Mean) cu mediana 8,1 (Median). Modulul este
8,4 (Mode). Acesta este posibil s nu fie singurul, deoarece EXCEL nu afieaz dect o singur
valoare.
Cea mai mic not obinut a fost 1,1 (Minimum) iar cea mai mare Maximum = 10.
Amplitudinea (diferena ntre valoarea minim i cea maxim) este 8,9 (Range).
Variaia msurat prin dispersie este 4,62 (Sample Variance) iar abaterea medie ptratic este
2,15 (Standard deviation). Eroarea standard (acest indicator va fi explicat la capitolul de sondaj
statistic) este 0,215 (Standard Error).
Deoarece Skewness este negativ i mult diferit de zero (-1,07) seria de date este puternic
asimetric negativ, curba fiind alungit spre stnga.
Kurtosis este 0,39, pozitiv, ceea ce nseamn c avem o curb ascuit (distribuie
leptocurtic).
Testul de autoevaluare 2
Pentru 200 de ageni economici se cunosc datele:
Grupe de ageni economici dup mrimea
profilului (mil. lei)
sub 6
6-12
12-18
18-24
24-30
30 i peste
10
22
25
23
17
3
Total
100
Se cere:
a) s se aprecieze dac media e reprezentativ;
b) caracterizai asimetria distribuiei;
c) s se calculeze media i dispersia caracteristicii profitul 18 mil lei.
Testul de autoevaluare 3
1.Distribuia salariailor unui magazin n funcie de numrul de zile de concediu de odihn
dintr-un an se prezint astfel:
Zile concediu
14
15
16
17
18
19
20
Nr. salariai
10
15
Se cere:
a) s se calculeze indicatorii sintetici ai variaiei;
b) s se caracterizeze gradul de asimetrie;
c) s se calculeze media i dispersia caracteristicii salariai care au avut un numr de zile de
concediu mai mare sau egal cu 17.
2.Un studiu efectuat asupra unui numr de 50 de cutii de brnz topit la cutie dintr-un
magazin a reliefat urmtoarele informaii cu privire la numrul de calorii coninute:
Calorii
Nr. cutii cu
brnz topit
75-85
85-95
95-105
105-115
115-125
10
15
14
Se cere:
a) s se aprecieze omogenitatea seriei;
b) s se caracterizeze gradul de asimetrie;
c) s se calculeze media i dispersia caracteristicii cutii de brnz care au sub 95 de
calorii
xi
150 175 195 200 235 240 250 256 275 294
x i 1
10
10
2270
227 Euro
10
v'
d
x
100
45,68
100 20,12%
227
100
37,6
100 16,56%
227
x
10
2086,889 45,68
2086,889
10
Deoarece v, v 35%, apreciem c seria este omogen, variaia este mic, media este
reprezentativ.
i 1
Testul de autoevaluare 2
1.
a) Pentru a aprecia dac media este reprezentativ, vom utiliza coeficientul de variaie.
Pentru a calcula coeficientul de variaie trebuie mai nti s calculm media i abaterea medie
ptratic.
6
x n
i 1
6
i i
i 1
ni
ni
100 , rezult:
ni
ni
n1
10
200 20 ageni economici;
100
n2
22
200 44
100
n3
25
200 50
100
n4
23
200 46
100
n5
17
200 34
100
n6
3
200 6
100
x n
i 1
*
i i
100
mil. lei
3 10 9 22 15 25 21 23 27 17 33 3
16,44
100
Profitul mediu al unui agent economic este egal cu 16,44 mil lei.
Centrele de interval xi se determin ca o medie aritmetic simpl a capetelor fiecrui
interval. Rezultatele sunt prezentate n tabelul urmtor
Mrimea profitului (mil lei)
0-6
6-12
12-18
18-24
2430-36
Total
Centre de interval xi
3
9
15
21
27
33
-
7,92
100
100 48,17%
16,44
x
x
6
x ni*
(3 16,44) 2 10 (9 16,44) 2 22
100
100
2
2
(15 16,44) 25 ( 21 16,44) 23 ( 27 16,44) 2 17 (33 16,44) 2 3
100
62.7264
i 1
as
0,84
0,106
7,92
Cas >0 deci avem serie uor asimetric cu asimetrie pozitiv sau de stnga, deci predomin
xi
1
0
-
m = 43
n m = 57
n = 100
m
43
0,43
n 100
Testul de autoevaluare 3
1.
xini
x i 1
ni
14 2 15 6 16 10 17 15 18 8 19 5 20 4
50
i 1
852
17,04 zile concediu
50
xi
i 1
x ni
ni
i 1
50
58,64
1,1728 zile
50
x i x
7
i 1
ni
14 17,04 2 2 15 17,04 2 6
50
ni
i 1
19 17,04
5 20 17,04 2 4 115,92
2,3184
50
50
x
d
x
100
1,5226
100 8,93%
17,04
100
1,1728
100 6,88%
17,04
Deoarece v, v 35% seria este omogen, variaia este mic, media este
reprezentativ.
b) Aprecierea asimetriei:
Cas
x Mo 17,04 17
0,026
1,5226
Deoarece Cas 0 avem asimetrie pozitiv sau de stnga, adic mediana i modul se
gsesc n stnga mediei pe grafic, deci n aceast serie predomin valorile mici ale
caracteristicii.
Cas [-0,3; 0,3] seria este uor asimetric (Cas este foarte apropiat de zero).
c) Avem o caracteristic alternativ:
Frecvenele absolute
ni
xi
DA (peste 17 zile)
NU (sub 17 zile)
Total
1
0
-
m = 32
n m = 18
n = 50
0,64
n 50
xi = numrul de calorii
ni = numrul de cutii de brnz topit
xini
x i 1
ni
101,2 calorii
50
50
i 1
100
11,6
100 11,46%
101,2
x i x
5
2 i 1
ni
ni
6728
134,56
50
i 1
Deoarece v 35% seria este omogen, variaia este mic, media este reprezentativ.
b) Gradul de asimetrie:
Cas
x Mo 101,2 103,33
0,18
11,6
Deoarece Cas 0 seria prezint o asimetrie negativ sau de dreapta, deci pe grafic
mediana i modul se gsesc n dreapta mediei, ceea ce nseamn c predomin cutiile de
xi
DA (sub 95 calorii)
NU (peste 95 calorii)
Total
1
0
-
Frecvenele absolute
ni
m = 15
n m = 35
n = 50
m 15
0,3
n 50
5. Teme de control
1. Presupunnd c la fiecare termen al unei serii se adaug aceeai constant a:
a)
b)
c)
d)
b)
c)
d)
12,75
17,75
11,00
18,50
16,50
20,00
19,30
15,00
20,00
14,45
16,50
17,85
13,90
15,00
17,50
17,50
18,00
13,50
Se cere:
a)
b)
Nr. salariai
2
6
10
8
4
30
Se cere:
a)
b)
c)
5.Un studiu privind durata de via n ore a unui produs electrocasnic efectuat pe 100 aparate
a condus la urmtoarele rezultate:
Durata de via (ore)
0 1000
1000 2000
2000 3000
3000 4000
4000 5000
5000 - 6000
Total
Se cere:
a)
b)
c)
0
286
1
380
2
416
3
258
4
112
5
62
6
47
7
12
8
7