Sunteți pe pagina 1din 8

Consideraii asupra modului de cuantificare a omogenitii unei populaii

Tudorel Andrei1, Daniel Traian Pele2


Catedra de Statistic i Previziune Economic, A.S.E., Bucureti
Abstract
The purpose of this article is to consider the advantages and disadvantages of the coefficient of
variation used in oreder to cuantified the homogenity of a population.
Using the idea of normalising the values of a random variable it will be defined an normalised
coefficient of homogenity wich is a better measure of analysing the homogenity.
In order to create this article it has used, among the authors ideas, other sources of information
offered by the specialised internet sites in statistics.
Cuvinte cheie:variabil aleatoare, omogenitate, coeficient de variaie, coeficientul T

1. Introducere
De multe ori, n cazuri practice, este necesar s se cuantifice omogenitatea unei
populaii statistice sau a unei variabile aleatoare( de exemplu n cazul sondajului statistic,
vezi Cochran sau M. Dumitrescu).
n general ,se consider c o msur a gradului de omogenitate o constituie din
punct de vedere statistic, coeficientul de variaie.La nivelul unei variabile aleatoare X, de
medie E ( X ) = i dispersie V ( X ) = 2 , coeficientul de variaie are exprimarea
urmtoare:
CV = (100) (dac se dorete o exprimare procentual).
Dac pentru caracterizarea dispersiei seriei s-a folosit abaterea medie liniar,
atunci formula de calcul a coeficientului de variaie este:
d
d
CV = sau CV % = 100
x
x
La nivelul unei serii numerice unidimensionale, problema se pune n felul
urmtor: ntruct, att media ct i abaterea standard sunt indicatori exprimai n unitile
de msur ale caracteristicii analizate, aceti indicatori nu pot fi folosii pentru a compara
dou serii de date ce sunt exprimate n uniti de msur diferite. Spre exemplu, nu putem
compara media i abaterea medie standard calculate pentru o serie ce se refer la
vnzarea unui produs, cu valori exprimate fizic, cu msurile similare ale altei serii
exprimate n uniti monetare. Aceasta, ntruct valorile parametrilor, n cele dou cazuri
sunt exprimate n uniti de msur diferite. Pentru a nltura acest inconvenient se
calculeaz un coeficient de variaie, care este un parametru adimensional.
1
2

andreitudorel@yahoo.com
danpele@yahoo.com

Coeficientul de variaie se calculeaz pentru o serie numeric unidimensional.


De regul, potrivit majoritii lucrrilor de statistic pentru evaluarea acestui indicator se
au n vedere n principal urmtoarele:
Verificarea reprezentativitii mediei ce se calculeaz pentru o serie univariat. n
general, dac valoarea coeficientului de variaie este mai mic de 30 %, atunci afirmm
c media este o msur reprezentativ pentru tendina central a seriei de distribuie.
Sunt comparate seriile de distribuie n raport cu criteriul de omogenitate. Astfel,
ierarhia coeficienilor de variaie ai seriilor de distribuie stabilete ordinea omogenitii
seriilor.
2. Comentarii asupra utilizrii coeficientului de variaie
Sunt de fcut cteva aprecieri critice cu privire la interpretarea valorii acestei
msuri statistice:
1. Generalitatea acestui cuantificator al omogenitii este mult redus de faptul c nu
este definit pentru variabile aleatoare de medie nul. ntr-adevr, ce criteriu
metodologic ne oprete s vorbim de omogenitate n cazul unei variabile de medie
nul?Mai mult, n practica statistic se lucreaz cu variabile standardizate (de
medie zero).
2. Utilizarea coeficientului de variaie n caracterizarea omogenitii se recomand
s se fac cu mult precauie, ntruct valoarea lui este determinat nu numai de
mrimea dispersiei msurat prin abaterea standard , dar i de unitatea
etalon ce este media seriei.
Se consider dou serii de distribuie ce au aceeai varian dar medii diferite. Fie
cazul n care x 2 este egal cu 2x1 .Din formula coeficientului de variaie se obine pentru
prima distribuie valoarea coeficientului CV1 = 1/ x1, iar pentru a doua distribuie
1
CV2 = 2 / x 2 = / 2 x1 = CV1 . Deci, la grade identice de dispersie, 1 = 2,
2
corespund valori diferite ale coeficienilor de variaie. Primul coeficient de variaie este
de dou ori mai mare dect al doilea, deoarece pentru a doua distribuie media este de
dou ori mai mare dect media primei serii.
Uneori n statistic se consider c prin valori mici ale coeficientului de variaie se
asigur validarea reprezentativitii mediei.
Pe baza observaiei de mai sus, se arat caracterul relativ al acestei aseriuni.
Pentru mai buna nelegere a acestei observaii, se consider exemplul urmtor:

( )

Exemplul 1
Fie notele obinute de 50 de studeni la un examen. Datele sunt prezentate n
coloanele 1 i 2 din tabelul1. Pe baza distribuiei iniiale se definete o nou serie prin
intermediul relaie: zi = xi 7.
Tabelul 1. Notele obinute
Nr.
xi ni
xini xi2ni
crt.

Zi=xi 7

Zini

Zi2ni

1
2
3
4
5
6
7
Total

4 3
5 5
6 8
7 12
8 11
9 7
10 6
50

12
40
25
125
48
288
70
490
88
704
63
567
60
600
366 2822

3
2
1
0
1
2
3

9
10
8
0
11
14
18
16

27
20
8
0
11
28
54
148

Se arat c, n urma transformrii se obine o serie de distribuie ce are acelai


grad de dispersare, dar valorile celor doi coeficieni de variaie difer semnificativ.
pentru variabila iniial
366
media caracteristicii : x =
= 7.32
50
2822
variana seriei de distribuie: x2 =
(7.32 )2 = 2.86
50
abaterea standard: x = 2.86 = 1.69
1.69
coeficientul de variaie: CV1 =
100 = 23.1%.
7.32
pentru variabila transformat
16
media: z =
= 0.32
50
148
variana: z2 =
(0.32 )2 = 2.86
50
abaterea standard: = 2.86 = 1,69
1.69
coeficientul de variaie: CV 2 =
100 = 528.1%.
0.32
Prin aceste rezultate se demonstreaz c aceast msur coeficientul de variaie
nu aduce nici o informaie asupra reprezentativitii mediei sau n procesul analizei
comparativa a omogenitii a dou sau mai multe serii de date.
3. Fie X o serie de distribuie format din numere ntregi, care reprezint valorile de
temperatur nregistrate pe scala Celsius i fie Y seria de distribuie format prin
transferarea valorilor iniiale de temperatur pe scala Fahrenheit(tabelul 2).
Tabelul 2. Valori de temperatur
X -18 0
10 30 100
Y 0
32 50 86 212
n urma calculelor obinem urmatoarele:
X =24.4 , X2 = 1669.4, CV X = 40.85/24.4=1.67

Y = 76, Y2 = 5396.8, CVY = 73.46/76=0.96


Conform testului uzitat n statistica vom decide c variabila Y este mai omogen dect
variabila X, ntruct are o valoarea mai mic a coeficientului de variaie.ns n cazul
nostru este vorba de fapt de acelai fenomen, dar exprimat pe scale de msurare diferite.

4. O alt problem care se poate pune este dac pot fi comparate din punctul de
vedere al omogenitii msurate prin intermediul coeficientului de variaie dou
variabile aleatoare avnd funcii de repartiie diferite. Fie spre exemplu X o
variabil aleatoare de medie E ( X ) = 0 i dispersie V ( X ) = 2 . Avem
urmtoarea proprietate:
Variabila U repartizat uniform pe intervalul ( + 3 , 3) are aceiai
2

parametrii ca i variabila X: E(U)= i V(U)= , prin urmare acelai coeficient de


variaie.
ntr-adevr, funcia densitate de repartiie pentru o variabil uniform pe
xa
a+b
, dac x ( a, b) i avem E (U ) =
i
intervalul (a, b) este f ( x) =
ba
2
(b a) 2
V (U ) =
.
12
n aceste condiii oare se poate decide c X i Y sunt la fel de omogene?
2
5. Fie X 1 , X 2 ,...., X n o selecie asupra variabilei aleatoare X ~ N (0, ) .
Dup cum se observ, nu se poate defini aici un coeficient de variaie pentru X.
Putem ns lucra cu coeficientul de variaie de selecie, definit prin:

CV =

sau CV % =

i =1

100 , unde

( X i x) 2

Xi

x=

2 = i =1

n acest caz particular se poate determina repartiia lui


n 1
~t(n-1).
CV
ntr-adevr, din definiia repartiiei Student avem:
X
~t(n), unde X~N(0,1) i Y~ 2 (n).
Y
n

.
n 1
, mai exact avem:
CV

nx
Mai departe putem scrie

n 1
=
CV

. Dar

( X i x)

nx

~N(0,1) i

i 1

2
n 1
n

( X i x) 2

i =1

~ 2 (n 1) de unde rezult concluzia.(Demonstraia complet a

cestor dou lucruri se poate gsi n V.Craiu).


Pentru a nltura neajunsul major al acestui indicator, ce const n variaia acestei
msuri la translaii liniare ale valorilor seriei de repartiie pe axa real, se propune n cele
ce urmeaz un nou indicator statistic.
3. Coeficientul de omogenitate normalizat
Se definete coeficientul de omogenitate normalizat prin:

CO =

x x min
unde x min este valoarea minim din cadrul seriei de distribuie.
Pentru a obine noua msur statistic pentru caracterizarea omogenitii seriei de
distribuie se parcurg urmtoarele etape:
Etapa 1. Seria de distribuie ( xi , ni ) i =1, p este translatat printr-o transformare
liniar ntr-o serie de distribuie cu valori n intervalul

[0,1] .

Se obine seria de distribuie

( x i* , ni* ) i =1, p , cu xi* [0,1] .


De regul, pentru a obine noua serie se folosete transformarea liniar:
1
xi* =
( xi xmin )
xmax xmin
unde xmin {x1, x2 ,..., xn }, iar xmax {x1, x2 ,..., xn }.
Seria obinut n urma acestei transformri se mai numete i serie normalizat.
Etapa 2. Se calculeaz coeficientul de variaie pentru seria de distribuie obinut
n urma transformrii.
Dac se iau n considerare proprietile mediei aritmetice i varianei, atunci se
obin urmtoarele rezultateurmtoare:
- Media aritmetic a variabilei transformate este
x x min
E ( x) x min
E(x* ) = E(
)=
x max x min
x max x min
- Variana variabilei transformate este

V (x* ) = V (

x x min

)=

V ( x)
( x max x min ) 2
Coeficientul de variaie al seriei normalizate este
1

x* x max x min x
x
*
=
=
= CO.
CV ( x ) =
x x min
x x min
x*
x max x min

x max x min
Coeficientul de omogenitate normalizat prezint urmtoarele proprieti:
Proprietatea 1. Fie seriile de distribuie ( xi , ni ) i =1, p i ( zi , ni )i =1, p , unde
xi = zi + k . Pentru cele dou serii sunt verificate egalitile:
CV ( z )
, iar CO ( x) = CO ( z ).
CV ( x) =
k
1+
z
n concluzie, n timp ce pentru dou serii de distribuie ce au aceeasi omogenitate
valorile coeficienilor de omogenitate sunt diferite, coeficientul CO rmne neschimbat.
Proprietatea 2. Dac seriile de distribuie ( xi , ni ) i =1, p i ( xi , ni )i =1, p verific
egalitatea xi = zi / m, m > 0, atunci CV ( x) = CV ( z ), iar CO ( x) CO ( z ).
Proprietatea 3. ntre coeficientul de omogenitate CV al seriei iniiale i
coeficientul CO al seriei normalizate se verific egalitatea CV ( x) = CO( x * ).
Demonstraia acestei proprieti este prezentat mai sus.
Nici n acest caz nu se dispune de o msur normalizat a gradului de
omogenitate a seriei de distribuie, dar n schimb, fa de coeficientul de variaie, aceasta
este o msur invariant la translatri liniare pe axa real.
Exemplul 2
Pentru a prezenta avantajul utilizrii acestei msuri statistice n caracterizarea
omogenitii unei serii de distribuie n raport cu coeficientul de omogenitate se prezint
urmtorul de exemplu. n tabelul urmtor sunt prezentate serii de distribuie echivalente
n raport cu gradul de omogenitate. Astfel, seria iniial, notat prin ( xi )i =1,n , este
prezentat n prima coloan, iar celalalte serii sunt definite prin intermediul relaiei
( xij )i =1,...n , j = 2,8, cu xij = xi + j 3. Seriile de date sunt normalizate, obinnd pentru fiecare caz
n parte aceleai rezultate. n tabelul de mai jos sunt prezentate seriile de date simulate,
precum i valorile mediilor, abaterilor medii patratice i celor dou msuri pentru
caracterizarea omogenitii.
Tabelul 3.Serii de distribuie echivalente n raport cu proprietatea de omogenitate
x1 xc1 x2
x3
x4
x5
x6
x7
x8
x9
1 4.00 0.00 7.00 10.00 13.00 16.00 19.00 22.00 25.00 28.00
2 5.00 0.08 8.00 11.00 14.00 17.00 20.00 23.00 26.00 29.00
3 6.00 0.15 9.00 12.00 15.00 18.00 21.00 24.00 27.00 30.00
4 8.00 0.31 11.00 14.00 17.00 20.00 23.00 26.00 29.00 32.00
6

5 9.00
6 12.00
7 15.00
8 17.00
Media 9.50
Abaterea 4.75
cv 0.50

0.38 12.00 15.00 18.00 21.00


0.62 15.00 18.00 21.00 24.00
0.85 18.00 21.00 24.00 27.00
1.00 20.00 23.00 26.00 29.00
0.42 12.50 15.50 18.50 21.50
0.37 4.75 4.75 4.75 4.75
0.86 0.38 0.31 0.26 0.22

24.00
27.00
30.00
32.00
24.50
4.75
0.19

27.00
30.00
33.00
35.00
27.50
4.75
0.17

30.00
33.00
36.00
38.00
30.50
4.75
0.16

33.00
36.00
39.00
41.00
33.50
4.75
0.14

Pentru seriile de date din tabelul de mai sus, precum i pentru seriile de date
normalizate se calculeaz cei doi coeficieni pentru caracterizarea omogenitii. Pentru
cele dou serii de coeficieni se ntocmesc graficele din figura 1.
1
0.8
0.6
0.4
0.2
0
1

Figura 1. Graficele coeficienilor CV i CO pentru eantioanele din tabelul 3


Urmrind cele dou grafice din figura de mai sus se obin urmtoarele dou
concluzii:
- Coeficientul de omogenitate pentru serii de distribuie ce au aceeai abatere medie
patratic se reduce o dat cu creterea ordinului de mrime al mediei seriei, deci o dat
cu creterea ordinului de mrime al valorilor seriei i nu cu creterea gradului de
dispersare;
- Coeficientul CO este acelai pentru serii echivalente n raport cu gradul de
omogenitate, chiar dac ordinul de mrime al valorilor seriei se modific.
Pentru calcularea coeficientului CO de omogenitate se recomand urmtoarele:
1. Pentru calcularea lui CO se vor lua n calcul numai valorile din intervalul de
normalitate. Folosind intervalul de normalitate utilizat pentru construirea diagramei
qq-plot se utilizeaz valorile seriei din intervalul
[linf , lsup ] = [ q1 2 (q3 q1 ), q3 + 2 ( q3 q1 )].
Acest interval poate fi generalizat sub forma
[linf , lsup ] = [ q1 k (q3 q1 ), q3 + k ( q3 q1 ), k 1 / 2.
2. Pentru caracterizarea tendinei centrale a seriei de distribuie se utilizeaz, n locul
mediei aritmetice, valoarea median care este o msur mult mai robust.
3. Abaterea medie patratic se calculeaz numai prin intermediul valorilor din interiorul
intervalului de normalitate.

4. Coeficientul de omogenitate CO nu poate fi definit n general pentru repartiii


teoretice, datorit faptului c majoritatea repatiiilor teoretice acoper ntreaga dreapt
real. Eventual CO poate fi definit numai pe un interval al acesteia, spre exemplu n
cazul repartiiei normale, pe intervalul( x 3 , x + 3 ).
Lund n considerare cele trei recomandri se definete coeficientul T de
omogenitate, definit prin intermediul cuartilelor unei serii de distribuie:

T =

.
(q 3 q1 )(5 q 2 + 2) q1
Noua msur statistic folosit pentru caracterizarea omogenitii seriei de
distribuie este mult mai robust la prezena valorilor aberante. Dac intervalul de
normalitate este definit printr-o alt relaie de calcul atunci formula coeficientului T,
evaluat prin intermediul cuartilelor, se schimb.

Bibliografie
1. Andrei, T., Stancu, S., Statistic-teorie i aplicaii(ediia a doua),Editura ALL,
Bucureti, 2001
2. Cochran, W., Sampling techniques, 3rd edition, Wilez, New York, 1977
3. Craiu, V., Statistic Matematic, partea I. Repartiii. Selecie. Estimarea
punctual, Editura Universitii Bucureti, 1997
4. Dumitrescu, Monica, Sondaje statistice i aplicaii, Editura Tehnic, 2000
5. Maniu, Al.-I., Mitru, C., Voineagu, C., Statistica pentru managementul
afacerilor, Editura Economic, 1999
6. *** http://guardian.curtin.edu.au/cga/teach-in/cv/responses.html
7. *** http://www.nsf.gov/sbe/srs/help/helpterm.html
8. *** http://math.la.asu.edu/~eugene/publications/html/nesb/nesb/node45.html
9. *** http://www.pitt.edu/~wpilib/statfaq/95cv.html

S-ar putea să vă placă și