Sunteți pe pagina 1din 43

Capitolul V

ANALIZA STATISTICĂ A VARIABILITĂŢII FAŢĂ


DE TENDINŢA CENTRALĂ

5.1. NECESITATEA MĂSURĂRII VARIABILITĂŢII


(ÎMPRĂŞTIERII) VALORILOR INDIVIDUALE.
CLASIFICAREA INDICATORILOR DE
ÎMPRĂŞTIERE
Formele individuale de manifestare ale fenomenelor de masă analizate
într-o colectivitate prezintă o variabilitate (împrăştiere) mai mare sau mai
mică în funcţie de numărul, natura, direcţia şi sensul acţiunii factorilor
esenţiali şi întâmplători. La nivelul colectivităţii, sau al ansamblului, legea
tendinţei comportamentului acestor fenomene este reflectată sintetic de
indicatorii tendinţei centrale: media, mediana, etc. Cu cât fenomenele au un
grad mai mare de complexitate (determinată de multitudinea de factori
de influenţă) cu atât variaţia (împrăştierea) valorilor individuale este mai
mare. Deci, utilizarea corectă a indicatorilor tendinţei centrale în
fundamentarea deciziilor necesită verificarea stabilităţii şi
reprezentativităţii valorilor înregistrate de aceştia. Astfel, valoarea
determinată a mediei este reprezentativă numai în măsura în care ea este
calculată din date omogene, apropiate între ele ca mărime sau din punctul de
vedere al altor criterii. Aceasta înseamnă că determinarea valorii mediei
trebuie să fie însoţită de verificarea omogenităţii valorilor individuale din
care ea s-a calculat. Verificarea omogenităţii valorilor individuale necesită
măsurarea şi analiza împrăştierii şi concentrării faţă de valorile tipice
calculate.
În statistică prin noţiunea generală de împrăştiere (variaţie sau
dispersare) se au în vedere abaterile măsurabile ale valorilor individuale faţă
de o valoare centrală (tipică). De exemplu, în două populaţii, aceeaşi
variabilă înregistrează valorile:
{xi}={2;2;2;10;18;18;18}
{xi}={9;9;9;9;10;11;11;11;11}.
Cele două serii au aceeaşi medie şi mediană dar împrăştierea
(dispersarea) este diferită. Acest fapt este evidenţiat de abaterile înregistrate
faţă de media (10) sau mediana (10). Seria a doua este mai omogenă
(înregistrează o mai mică împrăştiere sau dispersare a valorilor individuale),
128 Statistică generală
iar valorile sale tipice sunt mai reprezentative. Prin urmare, noţiunea de
dispersare, împrăştiere, completează informaţiile despre seriile
statistice investigate.
Calculul şi analiza indicatorilor variaţiei sau împrăştierii valorilor
individuale faţă de tendinţa centrală oferă posibilitatea rezolvării unor probleme
de cunoaştere statistică. Dintre acestea se disting:
1) analiza gradului de omogenitate a datelor din care s-au calculat
indicatorii tendinţei centrale şi verificarea reprezentativităţii acestora;
2) compararea în timp şi (sau) spaţiu a mai multor serii de repartiţie
după caracteristici independente sau (şi) interdependente;
3) selectarea obiectivă a factorilor semnificativi de influenţă după
care se structurează unităţile unei colectivităţi statistice;
4) separarea acţiunilor factorilor esenţiali de acţiunea factorilor
întâmplători, identificarea felului în care factorii esenţiali îşi modifică
acţiunea de la o grupă (clasă) la alta;
5) concentrarea valorilor individuale ale caracteristicilor şi
deplasarea acestora faţă de valorile tipice;
6) aplicarea diferitelor teste ale statisticii matematice.
Indicatorii împrăştierii (variaţiei) utilizaţi în analizele statistice sunt
clasificaţi după mai multe criterii:
ƒ după numărul variantelor luate în calcul (sau după gradul lor de
sinteză) există indicatori simpli şi indicatori sintetici;
ƒ după modul de sistematizare a datelor primare există indicatori
ai variaţiei calculaţi pentru serii de distribuţie unidimensionale
şi indicatori ai variaţiei calculaţi pentru serii multidimensionale;
ƒ după modul de calcul şi exprimare există indicatori ai variaţiei
calculaţi ca mărimi absolute şi ca mărimi relative.
Indiferent de natura lor, indicatorii de împrăştiere calculaţi oferă
informaţii necesare nu numai pentru cunoaşterea variabilităţii din seriile
statistice analizate, dar şi pentru aprecierea "calităţii" (sub aspectul
reprezentativităţii şi al încărcăturii informaţionale) valorilor tipice utilizate
în procesul decizional.

5.2. INDICATORII SIMPLI AI ÎMPRĂŞTIERII


Aceşti indicatori prezintă următoarele caracteristici generale:
ƒ se determină dintr-un număr redus de valori individuale;
ƒ se determină, de regulă, prin compararea sub formă de diferenţă şi,
în consecinţă, se exprimă în unitatea de măsură a variabilei
observate;
Capitolul V 129
ƒ informaţiile despre variabilitate oferite în urma determinării şi
analizării rezultatelor sunt extrem de reduse şi nu vizează
omogenitatea ansamblului de date înregistrate etc.
a) Amplitudinea împrăştierii sau variaţiei (A) se defineşte prin diferenţa
dintre cea mai mare şi cea mai mică valoare individuală înregistrată.
A=xmax-xmin (5.1.)
unde:
xmax = max{x1, x2,..., xn};
xmin={x1, x2,..., xn};
{xi}= valori individuale înregistrate (i = 1, n )
Observaţii asupra conţinutului şi metodologiei de calcul:
1) Amplitudinea se exprimă în unitatea de măsură a caracteristicii
urmărite, dacă se calculează după relaţia (5.1), sau în procente dacă se
calculează sub formă relativă după relaţia următoare:
X X m in
A% = m ax X−− % 100
(5.2)
2) Ca măsură a împrăştierii valorilor individuale amplitudinea
prezintă dezavantajul că nu ţine seama de toate observaţiile şi este sensibilă
la prezenţa valorilor aberante. De exemplu, următoarele trei serii
vizualizate au aceeaşi amplitudine dar prezintă variaţii (dispersări) diferite:

xmin xmax

xmin xmax

xmin xmax

xmin xmax
Amplitudinea este un indicator de împrăştiere "destul de rezonabil"
numai dacă valorile individuale ale seriei sunt repartizate în mod uniform,
omogen (fără să existe valori aberante).
130 Statistică generală
3) În cazul seriilor de distribuţie de frecvenţă pe intervale calculul
ampliutudinii este lipsit de sens;
4) Amplitudinea se utilizează frecvent în prelucrarea statistică la
alegerea numărului de intervale de grupare a datelor şi la stabilirea mărimii
intervalelor.
b) Abaterea intercuantilică se calculează, ca diferenţă între cuantila
superioară şi cuantila inferioară ambele având acelaşi ordin. Astfel, pentru
cuantilele definite în capitolul anterior observăm:
- pentru r = 4 Q3- Q1, conţine 50% din numărul observaţiilor;
- pentru r = 10 D9-D1, conţine 80% din numărul observaţiilor.
Într-o distibuţie normală abaterea intercuartilică se exemplifică în
figura 5.1.

Abaterea intercuantilică
( Q 3- Q )
1

25% 25% 25% 25%

Q1 Q2 Q3

Figura 5.1. Abaterea Q3-Q1 în distribuţia normală

Observaţii:
1) Acest indicator se exprimă în unitatea de măsură a caracteristicii;
2) Calculul abaterii intercuartilice, spre deosebire de cel al
amplitudinii, prezintă avantajul că evită valorile individuale extreme sau
aberante. Prin calculul acestui indicator se pierd, însă, informaţii dar are
câştig de cauză omogenitatea valorilor individuale.
3) Acest indicator oferă informaţii despre concentrarea valorilor
individuale în cadrul seriei, pentru analiza asimetriei distribuţiilor;
4) Ca şi amplitudinea împrăştierii, abaterea intercuartilică nu poate fi
utilizată în calcule algebrice etc.
c) Abaterile individuale ca măsuri ale împrăştierii într-o serie
exprimă cu câte unităţi de măsură sau de câte ori (sau cât la sută) valoarea
Capitolul V 131
caracteristicii urmărită, la fiecare unitate a colectivităţii, se abate de la
mărimea calculată a unui indicator al tendinţei centrale.
Prin urmare, tendinţa centrală se exprimă prin media aritmetică,
abaterile individuale în mărimi absolute

sau relative şi se calculează astfel:
− Xi − X
d i = Xi − X sau d i % = X− % 100 (pentru orice i = 1, n) (5.3)

Xi − X −
Observaţii: di% = −
di = X i − X
X
1) În relaţia (5.3) valorile individuale se compară cu valoarea lor
medie, dar la fel de bine poate fi utilizat pentru comparare oricare alt
indicator al tendinţei centrale (de exemplu: mediana).

2) Media abaterilor individuale { d i} (cu i = 1,n) calculate în raport
cu media variantelor caracteristicii este nulă, deoarece abaterile într-un sens
sau altul, în sinteză, se compensează reciproc.
3) În cursul seriilor de distribuţie de frecvenţe pe intervale, pentru
calculul abateriilor individuale se iau în considerare centrele de interval.
4) În analizele statistice se urmăreşte în mod deosebit abaterile
maxime pozitive (dmax+) şi negative (dmax-) calculate în cifre absolute şi
relative astfel:
d m ax +
dmax+=xmax-x sau dmax+%= X− % 100 (5.4)
d max −
d max − = x max − x sau d max − % = × 10 0 (5.5)
x
5) În cazul unui distribuţii simetrice d max + = d max − , iar în
interiorul seriei la abateri egale, (dar de semne contrare), le corespund
frecvenţe egale de apariţie. Aceasta conduce la compensarea pe total (la
nivelul întregului ansamblu) a abaterilor individuale.
6) În funcţie de scopul analizei statistice întreprinse se pot studia şi
seriile {dj}, {dj,nj}, {dj,fj}. Se determină în acest sens toţi indicatorii
prezentaţi în capitolul anterior, dar abaterile individuale se iau în modul (în
valoare absolută).
Analiza conţinutului şi metodologiei de calcul a indicatorilor simpli
ai împrăştierii, sub aspect informaţional, prezintă dezavantajul că unii nu ţin
seama decât de un număr redus de valori individuale, iar alţii - cu toate că au
în vedere relaţia dintre fiecare valoare individuală şi media lor
corespunzătoare - permit numai o caracterizare aproximativă a împrăştierii
în cadrul seriei.
132 Statistică generală

5.3. INDICATORII SINTETICI AI ÎMPRĂŞTIERII


Indicatorii sintetici ai împrăştierii (variaţiei), spre deosebire de
indicatorii simpli, sintetizează într-o singură expresie numerică variaţia
valorilor individuale faţă de tentinţa centrală a caracteristicilor urmărite,
într-o populaţie statistică. Principalii indicatori sintetici cu care se
caractrerizează împrăştierea (variaţia) termenilor seriei faţă de tendinţa lor
centrală sunt: abaterea medie adsolută; dispersia; abaterea medie
pătratică (sau abaterea standard) şi coeficientul de variaţie. La baza
determinării indicatorilor sintetici stau abaterile individuale, dar pentru a se
evita compensarea, ele vor fi luate în modul (valoare absolută) sau se va
opera cu pătratele acestora.

5.3.1. Abaterea medie absolută


Abaterea medie absolută (d) reprezintă media aritmetică simplă
sau ponderată a abaterilor "absolute" ale termenilor seriei de la tendinţa lor
centrală, caracterizată cu ajutorul mediei sau al medianei.
În cazul în care abaterea valorilor individuale sunt calculate şi analizate
faţă de medie atunci abaterea medie absolută (d x ) se determină astfel:
- cazul seriei simple:
n −
Σ xi − x
− i =1

dx = (5.6.)
n
- cazul seriei de distribuţie de frecvenţe:
k −


Σ xj −xnj k
j=1
sau d x = ∑ x j − x f j

dx = k
(5.7.)
j=1
Σ nj
j= k
unde:
k = numărul de variante distincte sau intervale de grupare;
nj (cu j=1, k) = frecvenţe absolute;
fj (cu j=1, k) = frecvenţe relative, exprimate sub formă de coeficienţi1.
Este posibil ca în unele analize statistice să prezinte interes abaterea
medie absolută a abaterilor valorilor individuale de mediană d Me . În
asemenea situaţii aceasta se determină după următoarele relaţii:

1
În cazul în care frecvenţele relative sunt în % atunci numitorii relaţiilor (5.7) şi
(5.9), unde intervin acestea, vor fi egali cu 100.
Capitolul V 133
- cazul seriei simple:
n
− Σ x i − Me
i =1
d Me = (5.8)
n
- cazul seriei de distribuţie de frecvenţe:
k
− Σ x j − Me n j k
j=1
d Me = k
sau d x = ∑ x j − Me f j (5.9)
j=1
Σ nj
j=1
Conţinutul şi metodologia de calcul a abaterii medii absolute conduc
la unele observaţii cum ar fi:
1) ea se exprimă în unitatea de măsură a caracteristicii urmărite;
2) în cazul seriilor de distribuţie pe intervale de grupare pentru
calculul ei se iau în considerare centrele acestora;
3) abaterea absolută medie calculată în funcţie de media valorilor
individuale este mai mică sau egală cu aceea calculată în funcţie de media
aritmetică:
− −

d Me ≤ d x (5.10)
4) ea se calculează şi se analizează nu numai pentru seriile de
distribuţie, dar şi pentru seriile cronologice sau teritoriale;
5) calculul şi analiza acestui indicator sintetic al împrăştierii este
justificat numai în măsura în care prezintă interes, pentru caracterizarea
variabilităţii, mărimea abaterilor şi nu şi semnul lor (pozitiv sau negativ).
Aplicaţia 5.1. Se consideră seria simplă {1, 2, 4, 5, 7, 8, 9, 10, 11, 13}pentru
care s-a calculat media x = 7 şi Me=7,5. Se construieşte tabelul următor care
conţine abaterile absolute faţă de medie şi mediană ( xi −X si xi −Me) precum
şi sumele corespunzătoare:

Tabelul 5.1.

xi 1 2 4 5 7 8 9 10 11 13 Total
xi − 7 6 5 3 2 0 1 2 3 4 6 32
xi − 7,5 6,5 5,5 3,5 2,5 0,5 0,5 1,5 2,5 3,5 5,5 32

Potrivit relaţiilor (5.6) şi (5.8) se constată că dx = dMe = 3, 2 .


Rezultatul obţinut evidenţiază faptul că în cadrul seriei analizate în
medie valorile individuale se abat de la media (7) sau de la media (7,5) lor
134 Statistică generală
în mod identic cu (3,2). Această egalitate este înşelătoare, deoarece ea
există pentru cazuri foarte rare. În general cei doi indicatori au valori
distincte. Calculul abaterii medii absolute pentru cazul seriilor de distribuţie
pe intervale de grupare este exemplificat în cadrul Aplicaţiei 5.2.
Abaterea medie abolută, ca indicator sintetic al împrăştierii valorilor
individuale faţă de tendinţa lor centrală, satisface destul de bine condiţiile
lui Yulle, dar prezintă dezavantajul că nu poate fi utilizată în calcule
algebrice. Din această cauză în analizele statistice în locul ei se preferă
abaterea pătratică (abaterea standard sau abaterea tip).

5.3.2. Dispersia
Valoarea absolută ale diferenţelor xi - x calculate în (5.6), (5.7) (sau
5.8) şi (5.9) elimină sensul (semnul) abaterilor faţă de tendinţa centrală.
Acelaşi obiectiv poate fi atins dacă diferenţele respective se ridică la pătrat.
Luându-se în considerare pătratele abaterilor valorilor individuale de la
tendinţa lor centrală se obţine o valoare tipică a împrăştierii, numită
dispersie (" x ).
2

Prin urmare, dispersia ca măsură sintetică a împrăştierii (variaţiei)


reprezintă media aritmetică (simplă sau ponderată) a pătratelor abaterilor
valorilor individuale de la tendinţa lor centrală. Aceasta înseamnă că în
calculul dispersiei poate fi luată în considerare media sau alt indicator al
tendinţei centrale (de exemplu, mediana). Deci, relaţiile de calcul ale
dispersiei faţă de media aritmetică, sunt următoarele:
- cazul seriei simple:
n −
Σ (x i − x) 2
i =1
σ 2− = (5.10)
x n
- cazul seriei de distribuţie de frecvenţe
k −
Σ (x j − x) 2 n j k −
j=1
σ 2− = k
sau σ 2− = Σ ( x j − x ) 2 f j (5.11)
x x j=1
Σ
j=1
Calculul dispersiei, pentru cazul seriei simple şi pentru cazul de
distribuţie de frecvenţe pe intervale de grupare, este exemplificat în aplicaţia
5.2.
Aplicaţia 5.2.
ƒ cazul seriei simple. Luând în considerare datele prezentate la
Aplicaţia 5.1 obţinem seria pătratelor abaterilor valorilor
individuale de la media lor (7):
136 Statistică generală
k
Σ x 2j n j − k −2
2 j=1
σ− = k
− x sau σ 2− = Σ x 2j f j − x
2 (5.13)
x x j=1
Σ nj
j=1
ƒ Dispersia unei caracteristici invariante (staţionare) sau a unei
constante este nulă.
ƒ Prin centrarea tuturor valorilor individuale ale unei variabile
numerice într-o constantă „a” dispersia valorilor centrate nu
diferă de dispersia valorilor iniţiale. Deoarece x i − a = x i − a ,
atunci avem:
∑ [( x i − a ) − ( x i − a )]2 ∑ [ x i − a − x + a ]2
σ 2x −a = i
= i
= σ 2x c.c.t.d.
i n n
ƒ Dacă fiecare valoare individuală a unei variabile numerice X se
multiplică de acelaşi număr de ori „h” atunci dispersia valorilor
transformate va fi mai mare decât dispersia valorilor iniţiale de
h2 ori. Deoarece hx i = h x i , atunci avem:
∑ [hx i − h x i ]2
σ 2hx = i
= h 2 σ 2x c.c.t.d.
i n
ƒ Combinând ultimele două proprietăţi rezultă că dispersia valorilor
individuale {hx i ± a}i =1,n comparativ cu dispersia valorilor iniţiale
{x i }i=1,n este: σ 2hx ±a = h 2 σ 2x .
i

ƒ Proprietăţile constatate anterior sugerează exprimarea dispersie


printr-o relaţie care simplifică operaţiile de calcul implicate în
obţinerea rezultatului final, fără să afecteze rezultatul obţinut prin
celelalte relaţii (5.10) – (5.14).
Relaţiile de calcul simplificat ale dispersiei sunt, deci, următoarele:
ƒ cazul seriein
simple:
x i −a 2
2h
" 2x = n % h2 − (x − a)
i=1
(5.14)
ƒ cazul seriein de distribuţie de frecvenţe pe intervale de grupare:
xj−a 2
h nj
2
" 2x = i=1
k % h2 − (x − a)

j=1
nj

sau
k xj −a 2 2
" 2x = h fj /h2 − (x − a)
j=1 (5.15)
Capitolul V 137
În relaţiile (5.14) şi (5.15), numite şi relaţii de calcul simplificat ale
dispersiei, valorile lui "a" şi "h" sunt valori convenabil stabilite. De exemplu,
în cazul distribuţiei pe intervale egale de grupare se iau, deseori, astfel:
a = centrul de interval care are cea mai mare frecvenţă;
h = mărimea intervalului de grupare sau cel mai mare divizor comun
al valorilor [xi-a].
Aplicaţia 5.3.
Exemplificăm determinarea dispersiei după relaţia (4.15) utilizând
datele din tabelul 5.3.
Tabelul 5.3.
Determinarea dispersiei prin relaţia de calcul simplificat

Centre de interval Număr de xj −5,5 xj −5,5 xj −5,5


(sute mii lei) intrări xj - 5,5 1 1 nj 1 nj
xj nj
3,5 26 -2 -2 -52 104
4,5 33 -1 -1 -33 33
5,5 64 0 0 0 0
6,5 7 1 1 7 7
7,5 10 2 2 20 40
TOTAL 140 - - -58 184
−58
Obţinem: x = 140 % 1 + 5, 5 = 5, 086 sute mii lei şi
184 2
=
" 2x % 1 − (5, 086 − 15, 5) = 1, 14 egală cu valoarea dispersiei
140
calculată pe baza datelor iniţiale (netransformate) din aplicaţia 5.2.
ƒ Dispersia se calculează nu numai pentru caracteristici numerice.
În cazul unei caracteristici alternative (distribuţia
corespunzătoare este prezentată în capitolul anterior) dispersia se
determină, în mod convenţional, astfel:
(1−p) 2N+(0−p) 2M N M
"2p = (N+M) = q2 N+M + p2 N+M = q2p + p2q = qp(p + q) =
= pq = p 1−p)
( (5.16)
unde: p+q=1;
N
q= N+M = 1 − q - reprezintă greutatea specifică a unităţilor care
posedă caracteristici în formă directă (de tip DA);
N
p= N+M = 1 − q - reprezintă greutatea specifică a unităţilor care
nu posedă caracteristica în formă directă (de tip NU).
ƒ Gruparea variabilelor continue presupune divizarea domeniului
de variaţie într-un anumit număr de intervale şi alegerea unei
valori reprezentative din cadrul fiecărui interval; de obicei, se
138 Statistică generală
aleg drept valori reprezentative mijloacele intervalelor în ipoteza
că în fiecare interval frecvenţele (absolute sau relative) sunt
normal repartizate. Această alegere – datorită faptului că ipoteza
considerată nu se verifică, de regulă, în practică – implică un
anumit grad de arbitrariu şi este susceptibilă de introducerea unor
erori sistematice. Mărimea acestor erori este apreciabilă mai ales
atunci când lungimea intervalelor este mare.
Efectul generat de presupusa concentrare (artificială) a
valorilor individuale în centrele intervalelor, atunci când analiza
se realizează prin intermediul grupării valorilor variabilelor
continue, poate fi corectat cu ajutorul formulelor lui W. F.
Sheppard. Utilizarea acestor formule este limitată, însă, la
cazurile în care:
a. distribuţia de frecvenţe este continuă,
unimodală şi relativ simetrică;
b. frecvenţele (absolute sau relative) tind către
zero la ambele extremităţi ale domeniului de
variaţie.
Relaţiile lui W. F. Sheppard pentru momentele centrate de
ordinele 2, 3 şi 4 sunt următoarele:
h2 h2
µ c2 = σ 2x corectat ≈ µ 2 − = σ 2x calculat −
12 12
c
µ3 = µ3 (5.17)
h2 7h 4
µ c4
≈ µ4 − µ2 +
2 240
unde: h = lungimea intervalelor de grupare
În cazul unui sondaj statistic efectuat într-o populaţie
normal distribuită, corecţia lui Sheppard se recomandă atunci
când volumul eşantionului („n”) satisafce inegalitatea
4
σ 
n < 3 0  (5.18)
 h 
ƒ O altă proprietate interesantă a dispersiei este următoarea: dacă o
colectivitate statistică cu efectiv "n" este structurată în două
subcolective "a" şi "b", cu efectivele "na" şi "nb", atunci dispersia
generală (a colectivităţii) este determinată în funcţie de media
dispersiilor corespunzătoare subcolectivităţilor (" xa si " xb ) şi de
2 2

dispersia mediilor (xa si xb) parţiale de la media generală x.


(acest caz particular va fi generalizat ulterior).
Capitolul V 139
Prin urmare:
ƒ se calculează mediile parţiale xa si xb, ale subcolectivităţilor şi
media generală:
xa *na +x *n
x = na+nbb b ;
2 2
ƒ se calculează dispersiile parţiale " xa si " xb ;
ƒ dispersia generală a colectivităţii investigate în funcţie de
dispersiile parţiale:
na " 2xa +nb " 2x na (xa −x) 2 +nb (xb −x) 2
" 2x = na +nb
b
+ na +nb (5.18)
unde:
" 2x - sintetizează împrăştierea tuturor valorilor individuale din
colectivitatea generală cauzată atât de influenţa factorilor aleatori, cât şi de
influenţa factorului sistematic în funcţie de care s-a structurat colectivitatea
generală.
na " 2xa +na " 2x
b 2
na +nb - reprezintă media dispersiilor parţiale (" x ) .
δ2 - sintetizează variaţia (împrăştierea) din interiorul
subcolectivităţilor. Aceasta se datorează factorilor specific, aleatori.
2 2
na xa −xb +nb xb −x b
na +nb - este dispersia mediilor parţiale de la
media generală. Ea sintetizează influenţa factorului sistematic, de structurare
a colectivităţii, asupra împrăştierii generale a valorilor individuale;
sintetizează variaţia dintre subcolectivităţile în care s-a structurat
colectivitatea generală.
Relaţia (5.18) permite nu numai determinarea dispersiei într-o
colectivitate structurată în mai multe părţi dar pune în evidenţă şi
următoarele aspecte:
ƒ cât la sută din dispersia generală (variaţia generală) este explicată
de factorul în funcţie de care s-a structurat colectivitatea
generală:
2
R2 = "x2 $ 100
x (5.19)
2
R - se numeşte grad de determinare. Gradul de determinare
exprimă măsura în care variaţia caracteristicii urmărite depinde de factorul
(cauza) sistematică după care s-a structurat colectivitatea.
ƒ cât la sută din dispersia generală este explicată (determinată) de
factorii aleatori, care acţionează în fiecare subcolectivitate a
colectivităţii generale:
140 Statistică generală
" 2x
K2 = " 2x
$ 100 = 1 − R 2
(5.20)
2
K - se numeşte grad de nedeterminare. Gradul de nedeterminare
exprimă, deci, măsura în care variaţia caracteristicii urmărite este
dependentă de variaţia factorilor (cauzelor) care acţionează în interiorul
subcolectiviţălor.
Utilizarea în analiza statistică a relaţiei (5.18), numită şi regula de
adunare a dispersiilor, este exemplificată în următoarea aplicaţie.
Aplicaţia 5.4.
Să presupunem că societatea comercială "ANDMIR" S.A. îşi
desfăşoară activitatea în cadrul a două filiale "AND" S.A. şi "NIR" S.A.
Datele referitoare la numărul de persoane şi salarii brute, pe categorii de
personal şi pe filiale, se prezintă în tabelul următor. Cum se explică
dispersia generală a salariilor la "ANDMIR" S.A.?

Tabelul 5.4

Societatea
Filiala "AND" S.A. Filiala " MIR" S.A.
"ANDMIR" S.A.
Salarii
Salarii medii Salarii medii
medii nete
Nr. de săptămânal Nr. de nete Nr. de nete
persoane persoane săptămânale persoane săptămânale
e
na nb (mii lei) na+nb (mii lei)
(mii lei)
xa xb xa +b
Muncitori 30 210 100 180 130 186,6
Personal
operativ cu
20 378 10 310 30 355,3
studii
superioare
Cadre de
10 600 5 510 15 570
conducere
TOTAL 60=na 331= x a 115=nb 205,7= xb 175 248,6= x a + b

2
Dispersia generală " X a+b a salariilor din societatea comercială
"ANDMIR" S.A. este:
1
"2Xa+b = 175 [30$ 2102 +20$ 3782 +10$ 6002 +100$ 1802 +10$ 3102 +5$ 5102]−
−248,62 =14096,211
Dispersia dintre grupă:
−2
n a( X a−X ) 2+n b( X b−X ) 2 n aX −2
a +n bX b
 2Xa+b = n a+n b + n a+n b − X2a+b
Capitolul V 141
1
 2Xa+b = 175 [60 $ 3312 + 115 $ 205, 72 ] − 248, 62 = 3567, 162
Media dispersiilor parţiale se calculează ca o medie aritmetică
2
ponderată a acestora " X a+b :
n a" 2X +n b" 2X
a 1
" 2X a,b = n a+n b
b
= 175 [60 $ 20117 + 115 $ 5526, 64] = 10529, 049
1
" 2X a = 60 [30 $ 210
2
+ 20 $ 378 + 10 $ 6002 ] − 3312 = 20117
2

Prin urmare:
" 2X a+b = " 2X a,,b +  2Xa,,b e 14096, 211 = 10529, 049 + 3567, 162
Rezultatele obţinute demonstrează că dispersia (variaţia) salariilor în
societatea comercială "ANDMIR" S.A. se explică 74,7% printr-o
împrăştiere a salariilor ca urmare a acţiunii factoriilor specifici care
acţionează în cadrul fiecărei fialiale "AND" S.A. şi "MIR" A.S., iar în mică
parte (25,3%) se explică prin împrăştierea salariilor medii ale filialelor faţă
de salariu din societatea "ANDMIR" S.A.
ƒ O altă observaţie care se impune este următoare: dispersia ca şi
media valorilor individuale este sensibilă la prezenţa valorilor
extreme, aberante. Această se constată, în mod evident, şi din
exemplul următor:

Tabelul 5.5.

Serii statistice X " 2X


{1, 1, 2, 2, 2, 4, 4, 4} 2,5 1,5
{1, 1, 2, 2, 2, 4, 4, 4, 70} 10 451,3

ƒ Pentru măsurarea variabilităţii termenilor seriei faţă de tendinţa


centrală, dispersia poate fi calculată nu numai în funcţie de
valoarea medie ci şi în funcţie de o altă valoare tipică, de
exemplu mediana;
ƒ Dispersia, ca indicator sintetic al împrăştierii valorilor
individuale în jurul tendinţei lor centrale nu are unitate de măsură
cu conţinut economic.
ƒ În cazul în care se utilizează eşantioane de volum redus dispersia
se determină prin relaţia următoare:
n
(X i −X )2
" 2x = i=1
n −1 (5.21)
Rezultatul obţinut prin această relaţie (5.21) este puţin diferit de cel
obţinut prin relaţia (5.10) atunci când colectivitatea investigată este suficient
142 Statistică generală
de mare. Relaţia (5.21) este justificată atunci când dispersia se calculează
dintr-un număr redus de valori individuale. Relaţia (5.21) diferă de relaţia
(5.10) prin faptul că numărul de unităţi este diminuat cu un grad de libertate.
Pentru eliminarea neajunsurilor rezultate din calculul şi analiza
dispersiei se utilizează, în analiza seriilor de repartiţie empirică (reală) sau
teoretică, abaterea medie pătratică.

5.3.3. Abaterea medie pătratică


Abaterea medie pătratică (numită şi abaterea standard sau
abaterea tip) se defineşte ca medie pătratică, simplă sau ponderată, a
abaterilor valorilor individuale de la tendinţa centrală sau ca rădăcină
pătratică a dispersiei. Potrivit acestei definiţii relaţia de calcul a abaterii
medii pătratice (" x ) este următoarea:
"x = " 2x (5.22)
Aplicaţia 5.5
Să presupunem că cinci experţi acordă succesiv note (<6) asupra
calităţii a două produse de acelaşi tip. Datele şi rezultatele sunt următoarele:

Tabelul 5.6.

Abaterea Abaterea
Seria notelor Nota medie Dispersia
medie absolută medie pătratică
acordate
Xy dy σ 2x σx
Produsul A:
4 0,4 0,25 0,5
{3, 5, 4, 4, 5, 3, 4, 5}
{2,5; 5,5; 3,5; 4,5; 4} 4 0,8 1,2499 1,118

ƒ Din tabelul 5.6 se constată: media acordată pentru calitatea celor


două produse este identică; abaterea medie pătratică specifică
produsului B este mai mare şi semnifică faptul că la acest produs
notele sunt mai mult dispersate (împrăştiate) în jurul mediei (4)
decât la produsul A; variabilitatea notelor acordate la produsul B
este mai mare decât cea specifică produsului A.
ƒ Comparând abaterea medie absolută cu abaterea medie pătratică,
calculate pentru aceeaşi serie, se constată că:
4
d x [ " x sau d x l 5 * "x (5.23)
Cu toate că între valorile celor doi indicatori ai împrăştierii
diferenţele sunt destul de mici în analizele statistice se preferă abaterea
medie pătratică deoarece ea este un parametru al legii normale (majoritatea
Capitolul V 143
metodelor de prelucrare statistică au la bază ipoteza normalităţii
repartiţiilor) şi se pretează mai bine la calcule algebrice.
ƒ Abaterea medie pătratică prezintă interes nu numai pentru
apreciere omogenităţii valorilor individuale ale unei serii (sau
pentru a verifica reprezentativitatea mediei lor) dar şi pentru
construirea unor intervale centrate în x care conţin un anumit
procent din masa totală a observaţiilor. Astfel, dacă distribuţia
unităţilor din colectivitatea investigată, după caracteristica
urmărită, este sub formă de "clopot" sau este uşor asimetrică,
atunci: intervalul x − " x ; x + " x conţine 68,26% din observaţii;
intervalul x − 2 " x ; x + 2 " x conţine 95,44% iar 99,74% din
observaţii sunt situate în intervalul x − 3 " x ; x + 3 " x .
ƒ În analizele financiar-bursiere abaterea medie pătratică (tip sau
standard) poate fi utilizată şi ca o măsură a "riscului". De
exemplu, riscul unui portofoliu de iniţiative de deplasare a
capitalului este cu atât mai mic cu cât abaterea medie pătratică
corespunzătoare portofoliului respectiv este mai mică şi invers.
De asemenea, acest indicator poate fi calculat şi analizat în:
studii de marketing şi ale calităţii produselor; pentru elaborarea
variantelor de prognoză etc.
ƒ Conţinutul abaterii medii pătratice ca şi metodologia sa de calcul
poate fi generalizat, pentru a măsura sintetic distanţele medii
dintre valorile individuale luate succesiv două câte două.
∏ ∏
Fie, X = (x i ) si Y = (y i ) , cu i = 1, n , vectorii observaţiilor
dintr-o colectivitate efectuate asupra a două caracteristici prevăzute în
program. Familia distanţelor dintre cei doi vectori se defineşte prin relaţia
lui Minkovski (5.24).
1

n pp
d (X, Y) = ∑ X j − Y j  , cu p > 1 (5.24)
 j=1 
Observăm că:
- dacă p=1 se obţine o distanţă absolută, numită "normă";
- dacă p=2 se obţine distanţa euclidiană;
- în cazul în care există frecvenţe absolute sau relative, ataşate
cuplurilor (xi,yi), atunci se calculează dispersia ponderată. Astfel, dacă
există frecvenţe relative atunci (5.24) devine:
1
n pp
d (X, Y) = ∑ f i X j − Y j  , cu p > 1 (5.25)
 j=1 
144 Statistică generală
ƒ Abaterea medie pătratică nu poate fi utilizată pentru compararea
variabilităţii mai multor caracteristici de natură diferită urmărite
în aceeaşi colectivitate statistică. Acest neajuns poate fi eliminat
prin utilizarea coeficientului de variaţie sau de omogenitate.
ƒ Deseori în analiza statistică se apelează la valorile individuale
standardizate. Valorile (datele) numerice standardizate sunt
valori iniţiale (înregistrate) transformate cu ajutorul medie şi
abaterii lor medii pătratice. Deci, prin operaţia de stndardizare
fiecare valoare xi ( i = 1, n ) se substituie prin x si ( i = 1, n ); unde:
xi − x
x si = ; ( i = 1, n ) (5.26)
σ
Avantajele principale ale utilizării valorilor standardizate
se rezumă la următoarele:
o Elimină unitatea de măsură a variabilei studiate;
o Media lor aritmetică este egală cu zero ( x si = 0 );
o Dispersia lor este constantă şi egală cu unu
( σ 2 s = 1 ).
xi

5.3.4. Coeficientul de omogenitate


Coeficientul de omogenitate (de variaţie) este o măsură a dispersiei
relative care descrie abaterea medie pătratică ca procent din media
aritmetică. Acest coeficient de variaţie permite compararea împrăştierii
valorilor care nu sunt exprimate în aceeaşi unitate (de exemplu, compararea
variabilităţii salariilor din două ţări şi în diferite monede, compararea
variabilităţii compartimentului unor produse pe diferite pieţe etc.).
Coeficientul de variaţie (CV) se defineşte ca raport între abaterea
medie pătratică şi media aritmetică a ansamblului de observaţii. Astfel,
"
CV x = Xx $ 100 (5.27)
Aplicaţia 5.6
Studiind distribuţia salariilor brute ale filialelor "AND" S.A. şi
"MIR" S.A. din Aplicaţia 5.4 constaăm că:
| la filiala "AND" S.A.: X a = 331 mii lei/persoană
" x a = 114, 83 mii lei/persoană
CV x a = 34, 69%
| la filiala "MIR" S.A.: X b = 205, 7 mii lei/persoană
" x b = 74, 34 mii lei/persoană
CV x b = 36, 14%
Capitolul V 145
Se observă că abaterea medie pătratică reprezintă 34,69% din salariu
mediu, de 331 mii lei/pers., la filiala "AND" S.A. şi 36,14% la filiala "MIR"
S.A. Distribuţia angajaţilor după salariile obţinute este mai puţin omogenă
la "MIR" S.A. decât la "AND" S.A., iar salariul mediu de 331 mii lei/pers.
este mai reprezentativ decât acela de 205,7 mii lei/pers.
Observaţii:
1) Coeficientul de variaţie este cel mai sintetic indicator al
împrăştierii, nu numai pentru că permite comparaţia variabilităţii, dar şi
pentru faptul că valorile sale sunt localizate în intervalul {0,100}. Cu cât
valorile sale sunt mai apropiate de zero, cu atât seria este mai omogenă
(media este mai reprezentativă); cu cât valorile sale sunt mai apropiate de
100 cu atât ansamblul valorilor individuale observate este mai eterogen
(împrăştierea este mai mare, iar media calculată este mai puţin
reprezentativă). Practica utilizării coeficientului de variaţie a stabilit pragul
de trecere de la starea de omogenitate la cea de eterogenitate: dacă
CV [ 30% − 35% colectivitatea este omogenă; dacă CV>35%
colectivitatea este eterogenă.
2) Pentru determinarea coeficientului de variaţie de multe ori se
utilizează abaterea medie absolută:
∏ d
CV x = Xx $ 100 (5.28)
Diferenţa dintre CV (5.27) şi CV' (5.28) poartă amprenta diferenţei
dintre abaterea medie pătratică şi abaterea medie absolută.
3) Coeficientul de variaţie, indiferent după ce relaţie se calculează, în
analizele financiar-bursiere este o măsură a riscului şi permite o interpretare
mai nuanţată a dispersiei.
Calculul şi analiza indicatorilor simpli şi sintetici ai împrăştierii
valorilor individuale ale caracteristicilor în jurul tendinţei lor centrale oferă,
după cum s-a constatat, informaţii utile pentru cunoaşterea manifestării
fenomenelor de masă şi pentru fundamentarea deciziilor. Pentru
profunzimea analizei întreprinse aceste informaţii trebuie completate cu
altele referitoare la concentrarea valorilor individuale, la deplasarea acestora
faţă de anumite valori tipice. Prin urmare, analiza împrăştierii (variaţia)
valorilor individuale trebuie să fie urmată de analiza formelor în care se
distribuie acestea.
5.3.5. Diferenţa medie C. Gini
Un alt indicator sintetic utilizat în analiza variaţiei valorilor
individuale înregistrată de o variabilă numerică în funcţie de scopul
cercetării este diferenţa medie C. Gini.
146 Statistică generală
Diferenţa medie C. Gini (DG) reprezintă o medie a diferenţelor
absolute a valorilor individuale luate prin asociere combinată două câte
două.
Pentru exemplificarea determinării DG luăm în considerare seria
simplă {210, 222, 226, 235, 244, 245, 250}. Comparând prin diferenţă
“fiecare cu fiecare” datele din seria prezentată obţinem rezultatele
prezentate în tabelul următor.

Tabelul 5.7

Suma
Valori
210 222 226 235 244 245 250 diferenţelor
individuale
pe linii
210 0 12 16 25 34 35 40 162
222 -12 0 4 13 22 23 28 90
226 -16 -4 0 9 18 19 24 70
235 -25 -13 -9 0 9 10 15 34
244 -34 -22 -18 -9 0 1 6 7
245 -35 -23 -19 -10 -1 0 5 5
250 -40 -28 -24 -15 -6 -5 0 0
368

Pe baza sumei sumei diferenţelor absolute considerate pe liniile


tabelului (deasupra diagonalei principale) determinăm indicatorul
DG=368/21 = 17,523.
Din tabelul prezentat constatăm următoarele:
n (n − 1)
ƒ Numărul total al diferenţelor pozitive este 1 + 2 + ... + (n-1) = .
2
În cazul nostru 21.
ƒ Dacă s-ar lua în considerare toate diferenţele din tabel, în ambele
sensuri, atunci valoarea aceluiaşi indicator ar fi fost
2 × 368
DG = = 15,02 .
72
ƒ Generalizând raţionamentul exemplificat anterior s-ar putea deduce cu
uşurinţă următoarea relaţie a diferenţei medii Gini:
n
∑ x i − Me × n [ x ] − n [ Me]
i
DG = 4 i =1 (5.29)
n2
Capitolul V 147
unde: xi = valori individuale înregistrate pentru variabila numerică
observată X;
Me = mediana valorilor înregistrate;
n [ x i ] = rangul fiecărui termen xi;
n [ Me] = rangul valorii mediane;
n = numărul de valori înregistrate.
Dacă, însă, dispunem de o serie de distribuţie de frecvenţe pe
intervale, raţionamentul prezentat conduce la următoarea relaţie
generală de calcul a diferenţei medii Gini:
o dacă frecvenţele sunt absolute:
r  r 
∑ Fai  Fai − ∑ n i 
DG = 2r
i =1  i =1  (5.30)
r
∑ ni
i =1
o dacă frecvenţele sunt relative:
(Ff )
r
∑ Ff i i
− 100
i =1
DG = 2r (5.31)
100
unde: Fai ( Ffi ) sunt frecvenţele absolute
(relative) cumulate crescător.
ƒ Caracteristica esenţială a indicatorului DG o reprezintă faptul că
rezultatul este dependent de fiecare valoare individuală şi nu de o
anumită valoare prestabilită cum ar fi cea care indică numeric
tendinţa centrală. Din această cauză, indicatorul DG sintetizează
variaţia fiecărei valori individuale faţă de fiecare altă valoare
individuală luată în considerare.

5.4. CARACTERIZAREA STATISTICĂ A FORMELOR


DE REPARTIZARE A FRECVENŢELOR
„Bateria” valorilor tipice ale tendinţei centrale şi împrăştierii faţă de
aceasta trebuie completată cu informaţii referitoare la forma în care se
repartizează unităţile colectivităţii după caracteristica urmărită. Analiza
statistică a formelor de repartizare a frecvenţelor presupune caracterizarea
asimetrică (deplasarea valorilor individuale faţă de anumite valori tipice ale
tendinţei centrale) şi a aplatizării curbei frecvenţelor.
148 Statistică generală

5.4.1. Asimetria distribuţiilor statistice


O distribuţie este simetrică dacă observaţiile înregistrate sunt egal
dispersate de o parte şi alta a valorii lor centrale. Într-o distribuţie simetrică
cele trei valori cu care se exprimă tendinţa centrală, valoarea modală (Mo),
mediană (Me) şi medie (X ), se confundă, ca în fig. 5.2.

nj

Me= Mo = x xj

Figura 5.2. Repartiţia simetrică a frecvenţelor

O repartiţie asimetrică (sau oblică) se caracterizează prin faptul că


frecvenţele valorilor caracteristicii urmărite sunt deplasate mai mult sau mai
puţin, într-o parte şi alta faţă de tendinţa centrală (exprimată prin: Me, Mo
sau x ). În fig. 5.3 şi 5.4 se prezintă distribuţii unimodale oblice la dreapta
sau la stânga valorilor tendinţei centrale:

nj nj

_ _
Mo Me x xj x Me Mo
_ _ xj

Mo<M e<x Mo > M e > x


(sau etalarea frecven\elor spre st@
nga) (sau etalarea frecven\elor spre dreapta)

Fig.5.3 Repartiţia oblică Fig.5.4 Repartiţie oblică


spre stânga spre dreapta

Amploarea asimetriei statistice unimodale se caracterizează sintetic


cu ajutorul unor coeficienţi adimensionali.
Capitolul V 149
1) Coeficientul lui Yule şi Kendall (Casyk)
Yule şi Kendall comparând modul de etalare a frecvenţelor la
dreapta şi la stânga medianei şi ţinând cont de poziţia cuantilelor în raport
cu mediana au recomandat pentru măsurarea asimetriei următorul coeficient:
(Q 3 −M e )−(M e−Q 1 )
C asy k = (Q 3 −M e )+(M e−Q 1 ) (5.33)
Observăm următoarele:
ƒ valoarea coeficientului lui Yule şi Kendall sunt în intervalul -1 şi
+1;
ƒ dacă Casyk = 0 g simetrie (sau cuartilele sunt echidistante);
ƒ dacă Casyk > 0 g asimetrie la stânga (sau etalarea frecvenţelor
spre dreapta);
ƒ dacă Casyk < 0 g asimetrie la dreapta (sau etalarea frecvenţelor
spre stânga)
ƒ dacă acest coeficient are valoarea sub ± 0,1 seria este considerată
moderat asimetrică; iar peste ± 0,3 seria este pronunţat
asimetrică;
ƒ coeficientul lui Yule şi Kendall nu poate fi utilizat în compararea
asimetriei mai multor repartiţii de frecvenţe.
2) Coeficienţii lui Karl Pearson
Pentru măsurarea asimetriei K. Pearson analizează poziţia a două
valori centrale (valoarea modală şi medie) relativizată prin dispersia seriei şi
propune un coeficient, care ia valori cuprinse între zero şi unu;
X−M o
C as = "x (5.34)
Cu cât valorile acestui coeficient sunt mai apropiate de zero, cu atât
seria este mai simetrică (simetria există când valoarea sa este zero); cu cât
valorile sale sunt mai apropiate de unu cu atât seria este mai asimetrică.
Într-o repartiţie de frecvenţe moderat asimetrică (cum ar fi de
exemplu distribuţia gama) între valorile centrale (Mo, Me, X ) se verifică, în
mod aproximativ, relaţia: M o − X l 3 (M e − X ). Substituind această
expresie în relaţia (5.34) se obţine următoarea formulă alternativă:
3(X−M e)
C as = "x (5.34)
Pentru a completa analiza simetriei în seriile de distibuţie
unidimensionale se poate apela şi la momentele centrate de diverse ordine.
Astfel, dacă se iau în considerare momentele centrate de ordinele 2 şi 3 (în
relaţia momentului centrat de ordin “K” (5.12) valorile lui K sunt 2 şi 3) se
obţine:
150 Statistică generală

3) Coeficientul de asimetrie β1 – introdus iniţial de Karl Pearson –


care are următoarea relaţie:
(µ 3 )2
β1 = (5.35)
(µ 2 )3
4) Coeficientul γ1 – o transformare ulterioară a coeficientului β1
realizată de R.A. Fisher – calculat după relaţia:
µ3
γ 1 = β1 =
(µ 2 )
3
2

Interpretarea coeficientului lui Fisher porneşte de la observaţia că


momentele centrate de ordin impar ale seriilor de distribuţie perfect
simetrice sunt egale cu zero. Deci, în particular µ3 = 0. Pentru seriile în care
predomină termenii cu abateri negative faţă de medie (xi – x <0) vom avea
µ3 < 0, iar în timp ce pentru cazurile în care predomină termenii cu abateri
pozitive faţă de medie (xi – x <0) vom avea µ3 > 0. Deci, µ2 fiind
întotdeauna pozitiv, coeficientul γ1 va fi <0 sau >0 după semnul lui µ3.
Asimetria distribuţiilor unităţilor într-o colectivitate după
caracteristica urmărită poate fi vizibilă pe reprezentările grafice (histograma,
poligonul frecvenţelor efective) empirice comparate cu alura clopotului lui
Gauss.

5.4.2. Aplatizarea/boltirea repartiţiilor de frecvenţe


Graficele seriilor de distribuţie de frecvenţă sunt mai mult sau mai
puţin aplatizate în comparaţie cu graficul legii normale (Gauss-Laplace). Prin
urmare, o distribuţie este aplatizată dacă o mare variaţie a caracteristicii
urmărite antrenează o uşoară variaţie a frecvenţelor şi invers. Acest
raţionament este vizualizat în fig.5.5.
Capitolul V 151

fi

Leptokurtică

Mezokurtică

Platikurtică

xi
Figura 5.5. Distribuţii cunimodale cu grade diferite de aplatizare

Rădăcinile etimologice ale ale denumirilor utilizate sunt greceşti:


kurtos=cocoşat, platys = larg (lat) şi leptos = îngust (subţire). Prezentăm în
continuare următorii indicatori (numiţi “de exces” sau kurtois):
1) Coeficientul β2 al lui Pearson, dat de relaţia:
µ
β 2 = 42 (5.36)
µ2
2) Coeficientul γ2 al lui Fisher, dat de relaţia:
µ
γ 2 = β 2 − 3 = 42 − 3 (5.37)
µ2
Analizând cei doi coeficienţi constatăm că etalonul pentru aprecierea
gradului de aplatizare al unei serii empirice îl reprezintă distribuţia normală.
În cazul său β2 = 3 (deci, γ2 = 0). Astfel, dacă:
- β2 > 3 (sau γ2 > 0) – distribuţia se numeşte leptokurtică, având un
“vârf” mai ascuţit şi „cozi” mai lungi decât la cea normală;
- β2 < 3 (sau γ2 < 0) – distribuţia se numeşte platikurtică, având un
“vârf” mai aplatizat (“turtit”) şi „cozi” mai scurte decât la cea normală;
- β2 ≈ 3 (sau γ2 ≈ 0) - distribuţia se numeşte mezokurtică şi este
echivalentă cu cea normală în privinţa gradului de aplatizare;
Calculul şi interpretarea coeficienţilor de aplatizare prezentaţi
trebuie completat cu analiza graficului distribuţiei empirice comparativ cu
cel al distribuţiei normale.
152 Statistică generală
Analiza asimetriei şi aplatizării are sens numai în cazul distribuţiilor
empirice unidimensionale care prezintă o singură valoare modală.

5.5. Analiza statistică a concentrării/diversificării


Probelematica concentrării-diversificării formulată pentru prima dată
de Corado Gini (1912) – o dată cu analiza distribuţiei veniturilor unei
populaţii – este deosebit de importantă şi prezintă interes în diverse
domenii. În acest sens este suficient să precizăm următoarele: caracterizarea
structurii pieţelor; analiza inegalităţilor dintre repartiţiile de structură;
analiza repartiţiilor regionale etc.
Prin concentrare se înţelege, în general, aglomerarea unităţilor unei
populaţii statistice sau a valorilor globale ale unei distribuţii în jurul unei
valori tipice a variabilei analizate X. În mod complementar se defineşte
noţiunea de diversificare.
Din definiţia prezentată se constată, în mod evident, următoarele:
ƒ Noţiunea de concentrare se referă atât la aglomerarea unităţilor
unei populaţii statistice pe variante (sau în intervale de variaţie),
cât şi la aglomerarea valorilor globale(de tipul xi ni cu i = 1, σ )
sau a valorilor unui indicator de nivel pe aceleaşi varianate(sau
intervale de variaţie). Studiul concentrării, presupune deci,
analiza comparată a structurii efectivului unei populaţii şi a
structurii valorilor globale pe aceleaşi variante (sau intervale de
variaţie) ale variabilei observate. În acest mod se pot evidenţia
atât inegalităţile dintre distribuţiile de structură comparate cât şi
compararea valorilor globale pe un număr limitat de unităţi ale
populaţiei; cu cât sunt mai mari diferenţele dintre cele două
distribuţii de structură cu atât mai mari sunt şi disparităţile dintre
grupele de unităţi, ceea ce înseamnă că există o concentrare care
tinde să crească, şi invers, cu cât diferenţele dintre distribuţiilede
structură sunt mai mici, cu atât concentrarea este mai slabă
(diversificarea este mai mare), tinzând spre o echipartiţie
(distribuţie egalitară).
ƒ Studiul concentrării solicită respectarea a două cerinţe esenţiale:
să fie posibilă şi să aibă sens aditivitatea valorilor individuale ale
variabilei observate; să fie posibilă şi să aibă sens divizarea
valorilor globale între unităţile populaţiei. Aceasta înseamnă că
analiza concentrării se poate efectua asupra variabilelor continue
cu valori pozitive şi doar în anumite cazuri variabilelor calitative
Capitolul V 153
(în mod deosebit, pentru stabilirea gradului de concentrare pe
tipologii calitative).
Caracterizarea statistică a concentrării/diversificării se poate
realiza prin mijloace grafice şi prin procedee numerice (de calcul).

5.5.1 Curba de concentrare

Curba de concentrare (elaborată de italianul C. Gini şi americanul


Lorentz)/numită şi curba Lotentz-Gini - permite aprecierea şi, totodată, stă
la baza determinării unei măsuri a concentrării (gradului de concentrare)
numită indicele de concentrare Gini.
Curba de concentrare se trasează pe baza punctelor de coordonate
( p i , q i ). Coordonatele acestor puncte sunt:
F
p i = ai , cu i = 1, r ; Fai = Fai−1 + n i (5.38)
∑ ni
i
Li
qi = (5.39)
∑ xini
i

unde: i = 1, r ; Fai = Fai−1 + n i - frecvenţa absolută cumulată până la nivelul


“i”; L i = L i −1 + x i n i - valorile globale ( xi ni ) cumulate până la nivelul “i” al
variabilei de grupare.
p i = reprezintă frecvenţele (efectivele) relative cumulate până la
nivelul “i”;
q i = sunt valorile globale relative cumulate până la acelaşi nivel “i”.
Exprimate în procente fiecare din coordonatele pi şi qi prezintă
valori în intervalul 0 şi 100%, iar curba de concentrare rezultă din unirea
punctelor ( p i , q i ) şi se încadrează într-un pătrat de latură 100% ca în figura
5.6.
154 Statistică generală

qi qi
qi
100% 100%
100%

50% 50%
50%

pi pi pi
50% 100% 50% 100% 50% 100%
(a) Concentrare (b) Lipsa concentrării (c) Concentrare
slabă (echirepartiţie) puternică
Figura 5.6 Curba de concentrare cu grade diferite de
concentrare/diversificare

Analiza curbelor de concentrare vizualizate în fig. 5.6 evidenţiază


următoarele:
ƒ Curba de concentrare se plasează sub prima bisectoare
(diagonala pătratului Gini) deoarece pi 〉 qi sau se suprapune cu
diagonala când pi = qi (în cazul echipartiţiei). Suprafaţa
cuprinsă între diagonală şi curba ce uneşte punctele ( pi , qi ) se
numeşte suprafaţă de concentrare.
ƒ Gradul de concentrare se interpretează în funcţie de mărimea
suprafeşei de concentrare. Astfel, cu cât curba de concentrare se
abate mai mult de la diagonala pătratului cu atât mai mare este
suprafaţa de concentrare, respectiv diferenţierile dintre grupe
sunt mai mari şi concentrarea este mai puternică (diversificarea
este mai slabă) şi invers. Concentrarea este maximă
(diversificarea este minimă) atunci când o singură unitate din
populaţie deţine întreaga valoare globală a variabilei analizate –
în acest caz curba de concentrare coincide cu două laturi ale
pătratului.
ƒ Curba de de concentrare poate fi utilizată pentru analiza
concentrării dar şi ca metodă de aproximare a valorilor centrale
ale distribuţiei (mediana şi mediala), a indicelui de concentrare
Gini; ca mijloc de comparare calitativă a gradului de concentrare
etc.
Capitolul V 155

5.5.2 Indicatori numerici a


concentrării/diversificării

1. Diferenţa absolută dintre valoarea medială ( M l ) şi valoarea


mediană ( M e )
Această diferenţă (notată) calculată după relaţia :
∆M = M l − M e (5.40)
presupune efectuarea unor operaţii premergătoare de determinare a medianei
( M e ) şi a medialei ( M l ) – mediana valorilor globale x i n i - după
metodologia prezentată în capitolul patru. De regulă, pentru aceeaşi
distribuţie mediala este mai mare decât mediana. Egalitatea acestor două
valori centrale există în cazul distribuţiilor egalitare.
Prin urmare, diferenţa dintre medială-mediană în studiul concentrării
poate fi interpretată astfel:
ƒ cu cât ∆M este mai mare cu atât concentrarea este mai
puternică, iar diversificarea este mai mică;
ƒ dacă ∆M =0 ( M l = M e ) nu există concentrare, distribuţia fiind
egalitară.
ƒ cu cât ∆M este mai mare, diversificarea este mai mare şi
concentrarea este mai mică.
Indicatorul prezentat are dezavantajul pentru interpretare şi anume
valorile sale
nu se încadrează într-un interval. Din această cauză se determină deseori
coeficientul de concentrare ∆M %.
Acest coeficient de concentrare se determină comparând prin
rapoarte diferenţa absolută medială-mediană cu amplitudinea absolută a
variaţiei variabilei analizate. Deci,
Ml − Me
∆M % = * 100 (5.41)
x max − x min
Observaţii:
ƒ coeficientul de concentrare prezintă valori în intervalul
[0;100%]. Cu c\t valorile sale sunt mai apropiate de 0 cu atât
concentrarea este mai slabă şi invers; cu cât valorile sunt mai
apropiate de 100% cu atât sunt mai mari disparităţile între
valorile globale pe intervale (pe clase) de variaţie.
ƒ ∆M % spre deosebire de diferenţa absolută medială-mediană
prezintă şi un alt avantaj şi anume oferă posibilitatea comparării
gradului de concentrare al diferitelor distribuţii statistice
156 Statistică generală
indiferent de unitatea de măsură utilizată pentru exprimarea
variabilelor observate;
ƒ prin relaţiile lor de calcul ∆M şi ∆M % pot fi uşor determinate
dar au dezavantajul că nu se calculează în funcţie de toţi termenii
ci doar în funcţie de cei care ocupă o poziţie centrală în serie.

2. Coeficientul abaterii medii Gini (CDG)

Coeficientul abaterii medii Gini (CDG) este un alt indicator cu


ajutorul căruia se apreciază numeric concentrarea/diversificarea. El se
determină ca raport între diferenţa medie Gini (vezi relaţia 5.30) şi dublul
mediei aritmetice a variabilei observate. Deci,
DG
CDG = (5.42)
2x
Acest coeficient prezintă valori în intervalul [0;1]; cu cât valorile
sunt mai apropiate de zero, cu atât concentrarea este mai slabă şi, invers, cu
cât valorile sunt mai aproape de 1 cu atât concentrarea este mai puternică.
Se observă că acest coeficient ca interpretare se apropie de cea a
indicatorului relativ al dispersiei (coeficientul de variaţie).

3. Indicele de concentrare Gini (IG)

Ca indicator sintetic al concentrării unei distribuţii, prezentul


indicele de concentrare a fost formulat de Corrado Gini (1912) cu ocazia
analizei distribuţiei slariilor şi veniturilor populaţiei.
Indicele de concentrare Gini (IG) se defineşte în funcţie de suprafaţa
de concentrare (dintre curba de concentrare şi diagonala pătratului – vezi şi
fig. 5.6) şi de aria pătratului (care este egală cu 1):

Suprafata de concentrare
IG = = 2 ⋅ Suprafata de concentrare (5.43)
Aria patratului
2
Observaţii:
ƒ valorile indicelui de concentrare Gini sunt cuprinse în intervalul
[0;1] sau[0;100%] – dacă se exprimă procentual.
ƒ IG este adimensional şi respectă condiţia de tranzitivitate în timp
şi spaţiu ceea ce permite utilizarea sa în efectuarea comparaţiilor.
Acestea sunt elemente care determină ca IG să fie cel mai
Capitolul V 157
frecvent în analiza concentrării, în paralel cu preocupările
multiple de determinare a unor noi relaţii de calcul.
ƒ În aria preocupărilor de determinare a IG un loc aparte îl ocupă
metoda grafică.
Aproximarea valorii IG pe cale grafică are ca punct de pornire curba
de concentrare trasată pe baza datelor înregistrate (vezi şi fig. 5.6). Pe baza
acestei curbe suprafaţa de concentrare se poate aproxima diminuând aria
triunghiului ABC cu suma ariilor trapezelor de tipul celor evidenţiate în fig.
5.7.

qi

1 D C

qi
qi-1
h B
0A pi-1 pi 1 pi
Figura 5.7 Determinarea suprafeţei de concentrare

Prin urmare, suprafaţa de concentrare este:


1 1 1 
− ∑ (q i −1 + q i )(p i − p i −1 ) = 1 − ∑ (q i −1 + q i )f i 
2 2 i 2 i 

iar indicele de concentrare Gini (IG) se va determina după relaţia


următoare:
IG = 1 − ∑ (q i −1 + q i )f i (5.44)
i

5.5.3. Indicatori ai concentrării în seriile calitative


atributive
Punctul de pornire în analiza concentrării în cazul seriilor calitattive
atibutive îl reprezinta calculul ponderilor (greutăţilor specifice), notate prin
”gi”.
1. Raportul de concentrare (RC), un indicator de concentrare
utilizat frecvent în cercetările de marketing, exprimă ponderea deţinută de
158 Statistică generală
primele n cele mai mari unităţi dintr-o populaţie statistică observată după o
variabilă (un criteriu) care defineşte mărimea (talia) lor. Numărul “n” este
ales în mod arbitrar, din numărul total (N) al unităţilor populaţiei.
Acest indicator (RC) se determină după relaţia următoare:
n
RC = ∑ g i ; (5.45)
i =1
qi
unde: g i = N
∑ qi
i =1
Raportul de concentrare calculat după (5.45) prezintă următoarele
caracteristici:
ƒ se determină simplu şi rapid
ƒ nu ţine seama în calculul său decât de datele referitoare la
ƒ primele n (n>N) cele mai mari unităţi; restul unităţilor (N-n) nu sunt
luate în considerare.
2. Energia informaţională Onicescu (EO)
Spre deosebire de indicatorul anterior, “Energia informaţională
Onicescu” prezintă avantajul că în determinarea sa se ia în considerare
întreaga populaţie statistică (N) privită ca sistem, dar şi părţile componente
(n_i) privite ca stări ale sistemului. Energia informaţională Onicescu (EO)
se calculează ca sumă a pătratelor ponderilor tuturor componentelor unei
populaţii ststistice, după relaţia următoare:
N N
EO = ∑ g i2 , cu ∑ gi = 1, (5.46)
i =1 i =1
Se observa urmatoarele:
- valorile energiei informaţionale Onicescu sunt cuprinse în
1 
intervalul  ,1 . Valoarea maximă este atinsă atunci când concentrarea
N 
este maximă (diversificarea este minimă) – monopol şi valoarea minimă este
atinsă atunci când există echirepartiţie (diversificare maximă)
1
- prezintă inconvenientul variabilităţii valorii minime   , în
 N
funcţie de numărul categoriilor (grupelor sau claselor). Pentru ca acest
indicator sa prezinte valori într-un interval invariant este transformat
conform relaţiei următoare(fără să fie afectat conţinutul şi interpretarea):
Capitolul V 159

1
EO −
EO | = N ∈ [0;1] (5.46.1)
1
1−
N
3. Entropia C. Shannon (H) este un alt indicator cu care se
apreciază concentrarea/diversificarea sau organizarea/dezorganizarea şi se
determină după următoarea relaţie:
N 1
H = ∑ g i ln (5.47)
i =1 gi
Mulţimea valorilor acestui indicator este intervalul [0; ln N], iar
interpretarea sa este similară cu cea a „energiei informaţionale Onicescu”.
4. Diferenţa Hirschman (DH)
În literatura de specialitate „energia informaţională Onicescu” mai
este cunoscută şi sub alte denumiri – indicele Hirschman – Herfindahl sau
pătratul lungimii vectorului frecvenţelor.
Diferenţa Hirschman (DH) se determină ca diferenţă între EO (sau
indicele Hirschman) şi valoarea aceluiaşi indicator pentru unităţile de talie
1
egală (EOE). În această situaţie reprezintă numărul unităţilor din
EOE
populaţia statistică, de volum N, care au talia egală.
DH = EO – EOE (5.48)
Diferenţa Hirschman într-o situaţie reală se datorează inegalităţilor
de talie a unităţilor populaţiei.
5. Coeficientul de concentrare Corrado Gini (CG)
Aceta se determină după relaţia următoare:
K
CG = ∑ g i2 (5.49)
i =1
Unde: K=numărul de categorii ale variabilei analizate
 1 
CG ∈  ,1 ceea ce înseamnă că prezintă ca şi EO dezavantajul
 K 
variabilităţii limitei minime.
Pentru a elimina neajunsul precizat în analiză (în comparaţii) se
utilizează forma corectată a coeficientului de concentrare Corrado Gini
cunoscută şi sub denumirea de coeficientul de concentrare Strück (CS).
Relaţia de calcul a acestuia este:
160 Statistică generală
K
K ∑ g i2 − 1
i =1
CS = (5.50)
K −1
În această formă CS corespunde cu EO| şi prezintă valori în
intervalul [0;1]. Valoarea minimă este independentă de numărul categoriilor
considerate.
Capitolul V 161

Întrebări de autoevaluare
• Care sunt principalele caracteristici ale indicatorului abatere medie
absolută ?
• Care este principalul dezavantaj al indicatorului amplitudinea
valorilor ?
• Ce probleme de cunoaştere rezolvă sistemul indicatorilor împrăştieri
valorilor ?
• Care sunt avantajele comparative ale diferitelor modalităţi de calcul
a dispersiei?
• Acre sunt proprietăţile dispersiei şi utilizarea lor practică ?
• În analizele financiar – bursiere abaterea medie pătratică se
utilizează ca măsură a riscului ?
• Abaterea medie pătratică se poate utiliza pentru compararea
variabilităţii mai multor caracteristici de natură diferită ?
1. Da
2. Nu
• Care sunt principalii indicatori ai simetriei şi relaţiile lor de calcul ?
• Coeficientul de variaţie arată:
a) de câte ori este mai mare abaterea standard (tip) faţă de media
aritmetică;
b) cu câte procente este depăşită limita de omogenitate admisă;
c) cu cât este mai mare abaterea standard faţă de media aritmetică;
d) de câte ori se cuprinde abaterea standard în medie;
e) câte procente din abaterea standard reprezintă media aritmetică.
• Dispersia este invers proporţională cu:
a) volumul eşantionului;
b) volumul caracteristicilor studiate;
c) abaterea standard;
d) coeficientul de asimetrie;
e) este o mărime asimetrie.
• Pătratul abaterii tip măsoară:
a) amplitudinea dispersiei unui set de date în jurul mediei lor;
b) omogenitatea unui set de date;
c) asimetria unei distribuţii;
d) tendinţa centrală a unui set de date;
e) gradul de concentrare a frecvenţelor.
• Coeficientul de asimetrie propus de Paarson se află în relaţie de
inversă proporţionalitate cu:
162 Statistică generală
a) abaterea standard;
b) abaterea standard şi valoarea modală;
c) dispersia şi valoarea modală;
d) media aritmetică;
e) valoarea modală.
• Dispersia, calculată prin metoda momentelor, este:
a) momentul iniţial de ordin doi;
b) momentul iniţial de ordin patru împărţit la momentul iniţial de
ordin doi la pătrat;
c) momentul centrat de ordin doi la pătrat;
d) momentul iniţial de ordin doi minus momentul iniţial de ordinul
întâi la pătrat;
e) momentul centrat de ordin doi minus momentul iniţial de ordin
unu la pătrat.
• Salariaţii unei întreprinderi au salariul mediu de 7.00 mil. lei, cu o
abatere medie pătratică a salariilor de 1.50 mil. lei. Patronul firmei
hotărăşte să mărească fiecare salariu individual de 1,3 ori. Dispersia
noilor salarii faţă de salariul mediu va fi:
a) 150;
b) 22.500;
c) 29.250;
d) 253,5;
e) 38.025.
• Care dintre următoarele afirmaţii referitoare la coeficientul de
variaţie nu este adevărată:
a) este un indicator sintetic al împrăştierii;
b) este expresia relativă a abaterii medii pătratice;
c) valori mici ale coeficientului de variaţie semnifică un grad mare
de reprezentativitate a mediei caracteristicii studiate;
d) valori mici ale coeficientului de variaţie reflectă o tendinţă
accentuată de simetrie a distribuţiei;
e) valori mici ale coeficientului de variaţie reflectă omogenitatea
colectivităţii din punctul de vedere al caracteristicii studiate.
• Într-o populaţie statistică s-au cules date despre două variabile
numerice distincte. Seriile formate în urma sistematizării sunt:
{xi}i = 1.7 = {2;2;2;10;18;18;18} şi {yi}i=1.7 = {9;9;9;10;11;11;11}.
Observând variantele celor două serii se constată că:
a) seria formată după Y este mai omogenă decât cea formată după X;
b) seria formată după X este mai omogenă decât cea formată după Y;
Capitolul V 163
c) cele două serii prezintă aceeaşi omogenitate, deoarece au aceeaşi
medie şi mediane egale cu 10;
d) nu are sens comparabilitatea omogenităţii din cele două serii,
deoarece sunt formate după variabile distincte;
e) seria formată după X este mai omogenă deoarece abaterile
individuale faţă de valoarea mediană sunt mai mari.
• Fie colectivitatea statistică sistematizată în r grupe după valorile
caracteristicii de grupare X şi în m grupe după valorile variabilei
analizate Y şi pentru care s-au calculat dispersiile:
σ 2 = dispersia totală, σ i2 = dispersiile de grupă

σ 2 = media dispersiilor de grupă.
Contribuţia factorului de grupă X la variaţia generală a variabilei Y
să măsoară cu indicatorul:
−2
σ
a) R2 = 2 ;
σ
δ2
b) R2 = 2 ;
σ
2 δ2
c) R = 1 − 2 ;
σ
r m −
Σ σ i2 n i Σ ( y j − y) 2 n j
j=1
d) R2 = 1 − i =1r : m
;
Σ ni Σ nj
i =1 j=1
r m − m −
Σ Σ (y j − yi ) 2 n i j Σ ( y j − y) 2 n j
i =1 j=1 j=1
e) R2 = 1 − r m
: m
;
Σ Σ ni j Σ nj
i =1 j=1 j=1
• Pentru 200 de salariaţi ai unei societăţi comerciale fondul de
salarizare a fost, într-o săptămână, de 150 milioane lei. Ştiind că cei
mai mulţi dintre salariaţi au avut un salariu de 820 mii lei, iar
coeficientul de asimetrie al repartiţiei după salariu a fost de -0,35,
coeficientul de variaţie a fost:
a) 24,5%;
b) 200%;
c) -25,52%;
d) 37,5%;
164 Statistică generală
e) 26,67%.
• Se cunosc următoarele date (convenţionale) asupra repartiţiei unei
caracteristici:
Grupe Frecvenţe
11,0-13,0 12
13,0-15,0 18
15,0-17,0 8
17,0-19,0 2
Total n=40
Date fiind valoarea modală Mo (xmo) = 13,75; valoarea medie = 14,0
coeficientul de asimetrie (Pearson) are valoarea:
a) 0,377;
b) 0,677;
c) 1,377;
d) 0,963;
e) 0,09.
• Pentru seria de date reprezentând distribuţia familiilor după nivelul de venit:
Foarte Foarte
Venit Scăzut Mediu Ridicat
scăzut ridicat
Nr. familii 10 20 40 20 10
Coeficientul de asimetrie propus de Pearson este:
a) zero;
b) unitar;
c) egal cu -1;
d) nu se poate calcula;
e) egal cu coeficientul de variaţie.
• Dacă pentru o serie de distribuţie de frecvenţe coeficientul de
variaţie indică un nivel ridicat de eterogenitate, atunci se recomandă
împărţirea colectivităţii în grupe după un factor de grupare
semnificativ, ceea ce duce la:
a) creşterea gradului de omogenitate în interiorul grupelor;
b) creşterea gradului de eterogenitate în interiorul grupelor;
c) scăderea gradului de omogenitate în interiorul grupelor;
d) creşterea nivelului coeficientului de variaţie în interiorul
grupelor;
e) nivelul de omogenitate în interiorul grupei va fi întotdeauna egal
cu cel calculat pentru distribuţia marginală.
• Să se precizeze care dintre seriile de repartiţie, caracterizate prin
următoarele seturi de valori, prezintă o asimetrie pozitivă:

a) x = 40 u.m.; Me = 40 u.m.; Mo = 40 u.m.;
Capitolul V 165

b) x = 2.500 u.m.; Me = 3.000 u.m.; Mo = 3.300;

c) x = 151,25 u.m.; Me = 138,75 u.m.; Mo = 112, 58 u.m.;

d) x = 180 u.m.; Me = 180 u.m.; Mo = 140 u.m. şi 220 u.m.

e) x = Me = Mo = 0.
• Dacă între cuartilele calculate pentru o serie de repartiţie există relaţie
Q2 = (Q1+Q3)/2 atunci repartiţie este:
a) asimetrică spre valorile mari;
b) asimetrică spre valorile mici;
c) normală;
d) hiperbolică;
e) bidimensională.
• O grupă de 25 de studenţi susţine la două discipline câte un test pentru
verificarea cunoştinţelor. Testele au punctaje diferite, iar pe baza lor
se cunoaşte:
25 25
- la testul A: Σ xi2 A = 9000 Σ xi A = 450
i =1 i =1
25 25
- la testul B: Σ xi2 B = 425 Σ xi B = 100
i =1 i =1

Grupa de studenţi este mai omogenă din punctul de vedere al


cunoştinţelor acumulare:
a) la disciplina A;
b) la disciplina B;
c) la ambele discipline există acelaşi grad de omogenitate;
d) nu sunt suficiente date pentru a studia omogenitatea;
e) nu se pot compara omogenităţile cunoştinţelor la cele două
discipline, deoarece punctajele testelor au fost diferite.
• Se cunosc date convenţionale referitoare la valorile unei caracteristici:
Grupe Frecvenţe
9,0-9,5 3
9,5-10,0 1
10,0-10,5 42
10,5-11,0 23
11,0-11,5 9
11,5-12,0 1
12,0-12,5 1
Total n=80

Cunoscând că media aritmetică a caracteristicii x este = 10,51
unităţi, coeficientul de omogenitate (variaţie) este de:
166 Statistică generală
a) 4,62%;
b) 13,32%;
c) 22,19%;
d) 23,32%;
e) 14,62%.
• Într-o colectivitate statistică, fenomenul de concentrare înseamnă:
a) o variaţie scăzută a valorilor caracteristicii în jurul mediei;
b) o distribuţie în formă de „J”;
c) o asimetrie scăzută a distribuţiei;
d) o distribuţie în formă de „U”;
e) cumularea valorilor caracteristicii în cadrul unei grupe /clase a
colectivităţii.
• Dacă între cuartilele pentru o serie de repartiţie există relaţia Q2 =
Q1 + Q3
atunci repartiţia este:
2
a) asimetrică la dreapta;
b) asimetrică la stânga;
c) normală;
d) hiperbolică;
e) bidimensională;
f) bimodală.
• Fie seria statistică {x1,x2..........xn} obţinută prin observarea unei

variabile numerice X şi pentru care s-au calculat media x şi dispersia
2
σ − . Controlându-se calitatea datelor culese, se constată că fiecare
x

dintre acestea a fost majorată la înregistrare cu 100 de unităţi. Seria


corectă ar fi fost:
 x1 x 2 x 
 , ,...... n  . Calculându-se din nou dispersia pentru valorile
100 100 100 
corecte, se constată că aceasta este:
a) egală cu dispersia iniţială;
2
b) mai mică decât σ − de 10.000 ori;
x
2 1
c) mai mică decât σ − cu ;
x 100
2 1
d) mai mare decât σ − cu ;
x 100
Capitolul V 167
2
e) mai mare decât σ − de 100 de ori.
x

• Amplitudinea relativă a variaţiei se calculează ca:


x max − x min
a) ;
100
x max − x min
b) × 100 ;
x min
x max − x min
c) × 100 ;
x max
d) x max − x min

× 100 ;
x

x max − x
e) × 100 ;

x
• O variabilă aleatoare X, distribuită normal şi cu oblicitate moderată
are 50% din valori situate în centrul distribuţiei, cuprinse între 35,2 şi
48,6; coeficientul de variaţie este 2,5%, iar valoarea modală, 38,2%.
Asimetria este:
a) moderat pozitivă;
b) moderat negativă;
c) egală cu zero;
d) nu se pot preciza felul şi mărimea asimetriei;
e) egală cu amplitudinea semiinterquartilică.
• Abaterea medie interquartilică se calculează ca:
a) Q3-Q1;
Q − Q1
b) 3 ;
2
Q − Q1
c) 2 ;
2
(Q 3 − Me) + (Q1 − Me)
d) ;
2
e) 2(Q2-Q1).
• Pentru două serii de distribuţie de frecvenţe, indicatorul „amplitudinea
împrăştierii” este comparabil dacă:
a) cele două serii se referă la aceeaşi caracteristică;
b) cele două serii se referă la aceeaşi colectivitate;
c) cele două serii se referă la caracteristici diferite, dar cu aceeaşi
unitate de măsură;
168 Statistică generală
d) cele două serii au acelaşi grad de asimetrie;
e) cele două serii se referă la colectivităţi de acelaşi volum.
• 120 de elevi din două oraşe participă la un concurs de cultură
generală. Cei 50 de elevi din primul oraş obţin un punctaj mediu de
16 puncte, cu un coeficient de variaţie de 10%, iar cei din al doilea
oraş obţin un punctaj mediu de 18 puncte cu o abatere medie pătratică
de 1,9 puncte. Factorul de grupare (oraşul) contribuie la variaţia
punctajelor obţinute de elevi în proporţie de:
a) 23,46%;
b) 10,28%;
c) 76,54%;
d) 48,44%;
e) 24,48%;
• Dispersia unei repartiţii binomiale cu p – probabilitatea succesului, q –
probabilitatea insuccesului şi n – numărul de observaţii, este:
a) np;
b) nq;
c) npq;
d) npq(q-p);
e) npq.
• Distribuţia unei variabile aleatoare X este perfect simetrică, de medie

x = 20. Dacă se adaugă două unităţi statistice cu valorile variabilei
studiate x1=18 şi x2=180, atunci noua distribuţie:
a) are simetrie pozitivă;
b) este perfect simetrică;
c) are simetrie negativă;
d) are fie simetrie pozitivă, fie simetrie negativă;
e) nu prezintă simetrie.
• Dispersia unei caracteristici de tip alternativ binar, este maximă când:
a) numărul de răspunsuri alternative este egal cu numărul de
răspunsuri negative;
b) toate unităţile colectivităţii înregistrează răspunsuri afirmative;
c) toate unităţile colectivităţii înregistrează răspunsuri negative;
d) toate unităţile colectivităţii înregistrează fie răspunsuri negative,
fie răspunsuri pozitive;
e) nu se poate preciza în ce caz dispersia unei caracteristici
alternative este maximă.
• Dispersia valorilor unei variabile aleatoare X, faţă de o constantă a,
este minimă când:
Capitolul V 169
a) a = 0;

b) a = x ;
c) pentru orice a;
d) a = Σxi ;
e) a = xmax;
• Calculul amplitudinii variaţiei valorilor individuale are sens pentru:
a) serii statistice numerice formate pe variante;
b) serii statistice formate după o variabilă alternativă;
c) serii statistice formate pe intervale egale de variaţie;
d) serii statistice formate pe intervale neegale de variaţie;
e) pe orice tip de serie.