Sunteți pe pagina 1din 8

Consideraţii asupra modului de cuantificare a omogenităţii unei populaţii

Tudorel Andrei 1 , Daniel Traian Pele 2

Catedra de Statistică şi Previziune Economică, A.S.E., Bucureşti

Abstract

The purpose of this article is to consider the advantages and disadvantages of the coefficient of variation used in oreder to cuantified the homogenity of a population.

Using the idea of normalising the values of a random variable it will be defined an normalised coefficient of homogenity wich is a better measure of analysing the homogenity.

In order to create this article it has used, among the authors ideas, other sources of information offered by the specialised internet sites in statistics.

Cuvinte cheie:variabilă aleatoare, omogenitate, coeficient de variaţie, coeficientul T

1. Introducere

De multe ori, în cazuri practice, este necesar să se cuantifice omogenitatea unei populaţii statistice sau a unei variabile aleatoare( de exemplu în cazul sondajului statistic, vezi Cochran sau M. Dumitrescu). În general ,se consideră că o măsură a gradului de omogenitate o constituie din punct de vedere statistic, coeficientul de variaţie.La nivelul unei variabile aleatoare X, de

medie

următoare:

2 , coeficientul de variaţie are exprimarea

E( X ) = µ

şi dispersie

V(X ) =σ

CV =

σ

µ

(100)

(dacă se doreşte o exprimare procentuală).

Dacă pentru caracterizarea dispersiei seriei s-a folosit abaterea medie liniară, atunci formula de calcul a coeficientului de variaţie este:

d d CV = sau CV % = 100 x x
d
d
CV =
sau
CV
%
=
100
x x

La nivelul unei serii numerice unidimensionale, problema se pune în felul următor: întrucît, atât media cât şi abaterea standard sunt indicatori exprimaţi în unităţile de măsură ale caracteristicii analizate, aceşti indicatori nu pot fi folosiţi pentru a compara

două serii de date ce sunt exprimate în unităţi de măsură diferite. Spre exemplu, nu putem compara media şi abaterea medie standard calculate pentru o serie ce se referă la vânzarea unui produs, cu valori exprimate fizic, cu măsurile similare ale altei serii exprimate în unităţi monetare. Aceasta, întrucât valorile parametrilor, în cele două cazuri sunt exprimate în unităţi de măsură diferite. Pentru a înlătura acest inconvenient se calculează un coeficient de variaţie, care este un parametru adimensional.

1 andreitudorel@yahoo.com

2 danpele@yahoo.com

1

Coeficientul de variaţie se calculează pentru o serie numerică unidimensională. De regulă, potrivit majorităţii lucrărilor de statistică pentru evaluarea acestui indicator se au în vedere în principal următoarele:

Verificarea reprezentativităţii mediei ce se calculează pentru o serie univariată. În

general, dacă valoarea coeficientului de variaţie este mai mică de 30 %, atunci afirmăm că media este o măsură reprezentativă pentru tendinţa centrală a seriei de distribuţie.

Sunt comparate seriile de distribuţie în raport cu criteriul de omogenitate. Astfel,

ierarhia coeficienţilor de variaţie ai seriilor de distribuţie stabileşte ordinea omogenităţii seriilor.

2. Comentarii asupra utilizării coeficientului de variaţie

Sunt de făcut cîteva aprecieri critice cu privire la interpretarea valorii acestei măsuri statistice:

1. Generalitatea acestui cuantificator al omogenităţii este mult redusă de faptul că nu este definit pentru variabile aleatoare de medie nulă. Într-adevăr, ce criteriu metodologic ne opreşte să vorbim de omogenitate în cazul unei variabile de medie nulă?Mai mult, în practica statistică se lucrează cu variabile standardizate (de medie zero).

2. Utilizarea coeficientului de variaţie în caracterizarea omogenităţii se recomandă să se facă cu multă precauţie, întrucât valoarea lui este determinată nu numai de mărimea dispersiei – măsurată prin abaterea standard –, dar şi de unitatea etalon ce este media seriei. Se consideră două serii de distribuţie ce au aceeaşi varianţă dar medii diferite. Fie

1 .Din formula coeficientului de variaţie se obţine pentru

prima distribuţie valoarea coeficientului

. Deci, la grade identice de dispersie, σ 1 = σ 2 ,

corespund valori diferite ale coeficienţilor de variaţie. Primul coeficient de variaţie este

de două ori mai mare decât al doilea, deoarece pentru a doua distribuţie media este de două ori mai mare decât media primei serii. Uneori în statistică se consideră că prin valori mici ale coeficientului de variaţie se asigură validarea reprezentativităţii mediei. Pe baza observaţiei de mai sus, se arată caracterul relativ al acestei aserţiuni. Pentru mai buna înţelegere a acestei observaţii, se consideră exemplul următor:

iar pentru a doua distribuţie

cazul în care

x

2

este egală cu

(

)

1

2x

CV

1

CV 1 = σ 1 /

x ,

1

CV

2

= σ

2

/ x = σ / 2x =

2

1

2

Exemplul 1 Fie notele obţinute de 50 de studenţi la un examen. Datele sunt prezentate în coloanele 1 şi 2 din tabelul1. Pe baza distribuţiei iniţiale se defineşte o nouă serie prin

intermediul relaţie:

z

i

=

x

i

7.

Tabelul 1. Notele obţinute

Nr.

x i

n i

x i n i

crt.

x i 2 n i

Z i =x i – 7

Z i n i

Z i 2 n i

2

1

4

3

12

40

– 3

– 9

27

2

5

5

25

125

– 2

– 10

20

3

6

8

48

288

– 1

– 8

8

4

7

12

70

490

0

0

0

5

8

11

88

704

1

11

11

6

9

7

63

567

2

14

28

7

10

6

60

600

3

18

54

Total

50

366

2822

16

148

Se arată că, în urma transformării se obţine o serie de distribuţie ce are acelaşi grad de dispersare, dar valorile celor doi coeficienţi de variaţie diferă semnificativ.

pentru variabila iniţială

media caracteristicii :

= 7.32 7.32

50

varianţa seriei de distribuţie:

σ

2 2822

=

x 50

abaterea standard:

σ

x

=

2.86 = 1.69 = 1.69

coeficientul de variaţie:

CV

1

=

1.69

7.32

100

=

2

(7.32) = 2.86

23.1%.

pentru variabila transformată

16 media: z = 50 2 varianţa: σ = z
16
media:
z =
50
2
varianţa:
σ
=
z

= 0.32

148

50

2

(0.32) = 2.86

abaterea standard: σ =

coeficientul de variaţie:

2.86 = 1,69 1.69 CV = 2 0.32
2.86 = 1,69
1.69
CV
=
2
0.32

100

=

528.1%.

Prin aceste rezultate se demonstrează că această măsură – coeficientul de variaţie – nu aduce nici o informaţie asupra reprezentativităţii mediei sau în procesul analizei

comparativa a omogenităţii a două sau mai multe serii de date.

3. Fie X o serie de distribuţie formată din numere întregi, care reprezintă valorile de temperatură înregistrate pe scala Celsius şi fie Y seria de distribuţie formată prin transferarea valorilor iniţiale de temperatură pe scala Fahrenheit(tabelul 2).

Tabelul 2. Valori de temperatură

X -18

0

10

30

100

Y 0

32

50

86

212

În urma calculelor obţinem urmatoarele:

X

=24.4 ,

σ

2

X

=

3

1669.4,

CV

X

=

40.85/24.4=1.67

Y = 76,

σ

2

Y

=

Conform testului uzitat în statistica vom decide că variabila Y este mai omogenă decît variabila X, întrucît are o valoarea mai mică a coeficientului de variaţie.Însă în cazul nostru este vorba de fapt de acelaşi fenomen, dar exprimat pe scale de măsurare diferite.

5396.8,

CV

Y

=

73.46/76=0.96

4. O altă problemă care se poate pune este dacă pot fi comparate din punctul de vedere al omogenităţii măsurate prin intermediul coeficientului de variaţie două variabile aleatoare avînd funcţii de repartiţie diferite. Fie spre exemplu X o

2 . Avem

variabilă aleatoare de medie următoarea proprietate:

E( X ) = µ 0 şi dispersie

V(X ) =σ

Variabila U repartizată uniform pe intervalul (µ+σ

Variabila U repartizat ă uniform pe intervalul ( µ + σ 3, µ − σ 3)

3, µσ 3) are aceiaşi

parametrii ca şi variabila X: E(U)= µ variaţie.

Într-adevăr,

intervalul

(a,

b)

funcţia

este

f

densitate

(

x

)

=

x

a

b

a

,

şi V(U)=

σ

2 , prin urmare acelaşi coeficient de

de

repartiţie

pentru

o

variabilă

uniformă

dacă x (a,b)

şi avem

E U

(

) =

a

+

b

2

pe

şi

V U

(

)

=

(

b

a

)

2

12

.

În aceste condiţii oare se poate decide că X şi Y sunt la fel de omogene?

5.

2 )

Fie

. După cum se observă, nu se poate defini aici un coeficient de variaţie pentru X. Putem însă lucra cu coeficientul de variaţie de selecţie, definit prin:

X

1

, X

2

,

,

X

n

o selecţie asupra variabilei aleatoare

X ~

(0,

N α

CV =

σ

CV

sau % =

σ

100

, unde

n

x

X

i

~ (0, N α CV = σ CV sau % = σ 100 , unde n

n

şi

σ

2

=

x

n

(

i = 1

X

i

x

)

2

.

n

În acest caz particular se poate determina repartiţia lui

n −1 ~t(n-1). CV
n
−1 ~t(n-1).
CV
n
n

1 , mai exact avem:

CV

Într-adevăr, din definiţia repartiţiei Student avem:

X

Y n
Y
n

~t(n), unde X~N(0,1) şi Y~

χ

2

(n).

4

Mai departe putem scrie

n

(

i = 1

X

i

x

)

2

α 2

~

χ

2

(

n

1)

n − 1 = CV 1 = CV

n x α n 2 ∑ ( X − x ) i i − 1
n x
α
n
2
∑ (
X
− x
)
i
i − 1
α 2
n − 1

. Dar

n 2 ∑ ( X − x ) i i − 1 α 2 n −

n x ~N(0,1) şi

α

de unde rezultă concluzia.(Demonstraţia completă a

cestor două lucruri se poate găsi în V.Craiu).

Pentru a înlătura neajunsul major al acestui indicator, ce constă în variaţia acestei măsuri la translaţii liniare ale valorilor seriei de repartiţie pe axa reală, se propune în cele ce urmează un nou indicator statistic.

3. Coeficientul de omogenitate normalizat

Se defineşte coeficientul de omogenitate normalizat prin:

CO =

σ

x

unde

Pentru a obţine noua măsură statistică pentru caracterizarea omogenităţii seriei de distribuţie se parcurg următoarele etape:

x

min

x min

este valoarea minimă din cadrul seriei de distribuţie.

Etapa 1. Seria de distribuţie

(

x

i

,

n

i

)

i

=

1,

p

este translatată printr-o transformare

liniară într-o serie de distribuţie cu valori în intervalul [0,1] . Se obţine seria de distribuţie

(

x

*

i

,

n

*

i

)

De regulă, pentru a obţine noua serie se foloseşte transformarea liniară:

x

*

i

i

= 1,

p

,

cu

[0,1] .

*

x i

=

1

x

max

x

min

(

x

i

x

min

)

unde

Seria obţinută în urma acestei transformări se mai numeşte şi serie normalizată. Etapa 2. Se calculează coeficientul de variaţie pentru seria de distribuţie obţinută în urma transformării. Dacă se iau în considerare proprietăţile mediei aritmetice şi varianţei, atunci se obţin următoarele rezultateurmătoare:

- Media aritmetică a variabilei transformate este

x

min

{ x

1

,

x

2

,

,

x

n

}, iar

x

max

{ x

1

,

x

2

,

,

x

n

}.

E

(

*

x

) =

E

 

x

x

min

 

E

(

x

)

x

min

(

) =

 

x

max

x

min

x

max

x

min

- Varianţa variabilei transformate este

5

V

(

x

*

) =

V

 

x

x

min

 

(

x

max

x

min

) =

(

x

max

x

min

)

2

1 V

(

x

)

- Coeficientul de variaţie al seriei normalizate este

(

CV x

*

) =

 

1

 

σ

x

*

x

max

x

min

σ

x

 

σ

x

 

=

=

*

x

x

x

min

 

x

x

min

 

x

max

x

min

 

=

CO

.

Coeficientul de omogenitate normalizat prezintă următoarele proprietăţi:

x

i

=

z

i

Proprietatea 1. Fie seriile de distribuţie

+

(

x

i

,

n

i

)

i

=

1,

p

k. Pentru cele două serii sunt verificate egalităţile:

şi

(

(

CV x

) =

CV ( z

)

1 +

k

z

,

iar CO(x) = CO(z).

z

i

,

n

i

)

i

= 1,

p

, unde

În concluzie, în timp ce pentru două serii de distribuţie ce au aceeasi omogenitate valorile coeficienţilor de omogenitate sunt diferite, coeficientul CO rămâne neschimbat.

Proprietatea 2. Dacă seriile de distribuţie (

x

i

,

n

i

)

i

=

1,

p

şi

(

x

i

,

n

i

)

i

= 1,

p

verifică

egalitatea x

i

=

z

i

/ m, m > 0, atunci

CV (x) = CV (z), iar CO(x) CO(z).

Proprietatea

3.

Între

coeficientul

de omogenitate CV al seriei iniţiale şi

coeficientul CO al seriei normalizate se verifică egalitatea

CV

(

x

)

(

= CO x

*

).

Demonstraţia acestei proprietăţi este prezentată mai sus.

Nici în acest caz nu se dispune de o măsură normalizată a gradului de omogenitate a seriei de distribuţie, dar în schimb, faţă de coeficientul de variaţie, aceasta este o măsură invariantă la translatări liniare pe axa reală.

Exemplul 2 Pentru a prezenta avantajul utilizării acestei măsuri statistice în caracterizarea omogenităţii unei serii de distribuţie în raport cu coeficientul de omogenitate se prezintă următorul de exemplu. În tabelul următor sunt prezentate serii de distribuţie echivalente în raport cu gradul de omogenitate. Astfel, seria iniţială, notată prin ( ) , este

x

i

i

=

1,n

prezentată în prima coloană, iar celalalte serii sunt definite prin intermediul relaţiei

(

x

j

i

)

i

= 1,

n

,

j =

2,8,

j

cu Seriile de date sunt normalizate, obţinând pentru fiecare caz

x

i

= x + j 3.

i

în parte aceleaşi rezultate. În tabelul de mai jos sunt prezentate seriile de date simulate, precum şi valorile mediilor, abaterilor medii patratice şi celor două măsuri pentru caracterizarea omogenităţii.

Tabelul 3.Serii de distribuţie echivalente în raport cu proprietatea de omogenitate

x1

xc1

x2

x3

x4

x5

x6

x7

x8

x9

1 7.00 10.00 13.00 16.00 19.00

4.00 0.00

22.00

25.00

28.00

2 8.00 11.00 14.00 17.00 20.00

5.00 0.08

23.00 26.00 29.00

3 9.00 12.00 15.00 18.00 21.00

6.00 0.15

24.00 27.00 30.00

4 8.00 0.31 11.00 14.00 17.00 20.00 23.00

26.00 29.00 32.00

6

5

9.00 0.38 12.00 15.00 18.00 21.00 24.00

27.00

30.00

33.00

6

12.00 0.62 15.00 18.00 21.00 24.00 27.00

30.00 33.00 36.00

7

15.00 0.85 18.00 21.00 24.00 27.00 30.00

33.00 36.00 39.00

8

17.00 1.00 20.00 23.00 26.00 29.00 32.00

35.00 38.00 41.00

Media

9.50 0.42 12.50 15.50 18.50 21.50 24.50

27.50 30.50 33.50

Abaterea

4.75 0.37 4.75 4.75

4.75

4.75

4.75

4.75

4.75 4.75

cv

0.50 0.86 0.38

0.31

0.26

0.22

0.19 0.17 0.16 0.14

Pentru seriile de date din tabelul de mai sus, precum şi pentru seriile de date normalizate se calculează cei doi coeficienţi pentru caracterizarea omogenităţii. Pentru cele două serii de coeficienţi se întocmesc graficele din figura 1.

1

0.8

0.6

0.4

0.2

0

135 7 9
135
7
9

Figura 1. Graficele coeficienţilor CV şi CO pentru eşantioanele din tabelul 3

Urmărind cele două grafice din figura de mai sus se obţin următoarele două concluzii:

- Coeficientul de omogenitate pentru serii de distribuţie ce au aceeaşi abatere medie patratică se reduce o dată cu creşterea ordinului de mărime al mediei seriei, deci o dată cu creşterea ordinului de mărime al valorilor seriei şi nu cu creşterea gradului de dispersare;

- Coeficientul CO este acelaşi pentru serii echivalente în raport cu gradul de omogenitate, chiar dacă ordinul de mărime al valorilor seriei se modifică.

Pentru calcularea coeficientului CO de omogenitate se recomandă următoarele:

1. Pentru calcularea lui CO se vor lua în calcul numai valorile din intervalul de normalitate. Folosind intervalul de normalitate utilizat pentru construirea diagramei qq-plot se utilizează valorile seriei din intervalul

q

Acest interval poate fi generalizat sub forma

[

l

inf

,

l

sup

]

[

= q

1

2

(

q

3

1

),

[

l

inf

,

l

sup

]

=

[

q

1

k

(

q

3

q

1

),

q

3

q

3

+

+ k

2

(

q

(

3

q

3

q

1

q

1

),

)].

k

1/ 2.

2. Pentru caracterizarea tendinţei centrale a seriei de distribuţie se utilizează, în locul mediei aritmetice, valoarea mediană care este o măsură mult mai robustă.

3. Abaterea medie patratică se calculează numai prin intermediul valorilor din interiorul intervalului de normalitate.

7

4. Coeficientul de omogenitate CO nu poate fi definit în general pentru repartiţii teoretice, datorită faptului că majoritatea repatiţiilor teoretice acoperă întreaga dreaptă reală. Eventual CO poate fi definit numai pe un interval al acesteia, spre exemplu în

cazul repartiţiei normale, pe intervalul( x 3σ , x + 3σ ).

Luând

în

considerare

cele

trei

recomandări

se

defineşte

coeficientul

T

de

omogenitate, definit prin intermediul cuartilelor unei serii de distribuţie:

T

=

σ

.

)(5

Noua măsură statistică folosită pentru caracterizarea omogenităţii seriei de distribuţie este mult mai robustă la prezenţa valorilor aberante. Dacă intervalul de normalitate este definit printr-o altă relaţie de calcul atunci formula coeficientului T, evaluat prin intermediul cuartilelor, se schimbă.

(

q

3

q

1

q

2

+

2)

q

1

Bibliografie

1. Andrei, T., Stancu, S., Statistică-teorie şi aplicaţii(ediţia a doua),Editura ALL,

Bucureşti, 2001

2. Cochran, W., Sampling techniques, 3 rd edition, Wilez, New York, 1977

3. Craiu, V., Statistică Matematică, partea I. Repartiţii. Selecţie. Estimarea punctuală, Editura Universităţii Bucureşti, 1997

4. Dumitrescu, Monica, Sondaje statistice şi aplicaţii, Editura Tehnică, 2000

5. Maniu, Al.-I., Mitruţ, C., Voineagu, C., Statistica pentru managementul afacerilor, Editura Economică, 1999

6. *** http://guardian.curtin.edu.au/cga/teach-in/cv/responses.html

7. *** http://www.nsf.gov/sbe/srs/help/helpterm.html

8. *** http://math.la.asu.edu/~eugene/publications/html/nesb/nesb/node45.html

9. *** http://www.pitt.edu/~wpilib/statfaq/95cv.html

8