Sunteți pe pagina 1din 64

Indicatori statistici

Introducere

Seriile statistice şi prezentarea sub formă de grafice oferă o


imagine generală asupra colectivităţii statistice care
trebuie analizată.
Caracterizarea mai concisă presupune însă folosirea unor
valori tipice cu o mare putere de sinteză şi de informare
numite generic indicatori statistici, care au rolul să
caracterizeze masa valorilor empirice printr-o singură
expresie numerică şi să permită compararea mai multor
repartiţii empirice.

Indicatorii statistici se pot determina sub formă:


 simplă, în cazul seriilor simple, deci când datele sunt
negrupate
 ponderată în cazul seriilor de frecvenţă, deci când datele
sunt grupate.
A. Indicatori ai tendinţei centrale / grupării
(indicatori medii / mărimi medii)
Variabilitatea deosebită a fenomenelor şi proceselor
impune găsirea unor indicatori sintetici care să
reunească valorile individuale, exprimând printr-o
măsură unică esenţa fenomenului şi procesului.
Indicatorii medii răspund acestui deziderat, sintetizând
ceea ce este comun, tipic în manifestarea fenomenului
considerat. Ei măsoară influenţa cauzelor esenţiale
(speciale), înlăturând variaţiile întâmplătoare.
Indicatorii medii sunt valori abstracte care tind să
caracterizeze întrega colectivitate sau, cel puţin, partea
covârşitoare a elementelor colectivităţii.
Există 2 categorii de mărimi medii:
 Medii calculate: media aritmetică, armonică, pătratică şi
geometrică
 Medii poziţionale: mediana, moda.
1. Media aritmetică (media)

 Indicatorul mediu de calcul este o valoarea tipică pentru


reprezentarea unei colectivităţi, dar este posibil să nu coincidă cu
nici una din valorile individuale înregistrate de caracteristică în
colectivitatea respectivă.
 Indicatorul mediu de calcul se calculează utilizând toate valorile
individuale înregistrate dintr-o colectivitate şi se exprimă în
unitatea de măsură a caracteristicii considerate.
 Media aritmetică este o mărime fundamentală de calcul şi este
media cea mai frecvent folosită în statistica social – economică.
 Media aritmetică se foloseşte, în general, când fenomenul studiat
înregistrează modificări aproximativ constante în progresie
aritmetică.
 Media aritmetică simplă (neponderată) se calculează ca suma
valorilor (xi) caracteristicii X raportată la numărul lor (n). n
 xi
X  i1
n
EXEMPLU: Vechimea în muncă a fost înregistrată pentru cinci salariaţi
ai unei firme şi anume: 7, 5, 6, 7 şi 8 ani. Vechimea medie este:
75678
X  6,6 ani
5
Observăm din figura 1 cum media aritmetică pune în balanţă valorile
individuale:

Figura 1: Balansarea valorilor individuale prin calculul mediei

Într-o colectivitate statistică se întâlnesc foarte rar cazuri în care


numărul variantelor să coincidă cu numărul unităţilor. De obicei,
fenomenele de masă sunt numeroase şi aceeaşi valoare a
caracteristicii apare de mai multe ori. În acest caz media aritmetică
se va calcula ca o medie ponderată.
Media aritmetică ponderată
 în cazul caracteristicii discrete (prezentată pe „r” variante de variaţie)
se calculează fie funcţie de frecvenţele absolute "ni" fie funcţie
frecvenţele relative exprimate normal ni* sau în procente ni*%
r r
 x i  ni  i i
r
 *%

X i 1  x i  ni*
X
x
i 1
n
i 1
r X 100
 ni 1
1 1

ni 
* ni ni* %  r
ni
100 
ni
100, %
n
n  ni
i 1

EXEMPLUL 1: Un exemplu de calcul al mediei aritmetice ponderate, în


cazul unei caracteristici discrete, utilizând atât frecvenţele absolute,
cât şi frecvenţele relative, este prezentat în tabelul 1.
EXEMPLUL 2: Un exemplu de calcul al mediei aritmetice ponderate, în
cazul unei caracteristici continue este prezentat în tabelul 2, unde s-
au sistematizat datele culese cu privire la timpul zilnic petrecut în
faţa televizorului, de către 200 de persoane
 în cazul caracteristicii continue, prezentată pe intervale de variaţie,
xi se înlocuieşte cu x‘i, care reprezintă centrul fiecărui interval de
variaţie (xi-1, xi) calculat ca medie aritmetică simplă a capetelor
fiecărui interval.
x i1  x i
r

x  '
i
 i  ni
x '

2 X i1
r
 ni
11

Atunci când în locul frecvenţelor absolute "ni" folosim frecvenţele


relative exprimate normal ni* (fi) sau în procente ni*%, formula de
calcul a mediei aritmetice ponderate devine:
r r
x '
i n *
i  x i'  ni*%
X i1
X i1
1 100
n
n  i
* ni* %  r
ni
100 
ni
100, %
n
 ni
i
n
i 1
Tabelul 1

479 1995,84
X   19,96  20 ani
r

24 100  x i'  ni 11490


X i1
r
  57,45 minute
200
Tabelul 2
 ni
11
Media aritmetică are următoarele avantaje:
• popularitate (curent folosită);
• este uşor de înţeles.
Însă, media aritmetică are şi un mare dezavantaj şi anume că este
sensibilă atât la variantele (valorile) mici cât şi la cele mari ale
variabilei. Dacă acestea nu se regăsesc şi unele şi altele în
colectivitatea generală pentru a se compensa, media aritmetică
este influenţată (atrasă) de acele variante care predomină (fig. 2).
Pe acest motiv media aritmetică riscă să fie nereprezentativă
pentru colectivitatea generală.
De EXEMPLU, dacă vom considera următoarele date privind
vechimea în muncă, vom observa cum media aritmetică este
afectată de valorile extreme. Astfel, dacă presupunem că datele
pentru vechimea în muncă a 10 salariaţi sunt: 5, 4, 5, 5, 6, 6, 4, 5,
6 şi 20, atunci vechimea medie este:

5  4  ...  4  20
X  6,6 ani
10

Figura 2
Mediile se calculează pe baza tuturor valorilor individuale ale seriei,
ceea ce le face sensibile la valorile extreme, mai puţin semnificative.

Uneori, valorile extreme ale seriei sunt excesiv de îndepărtate de


centrul seriei, ceea ce afectează în mare măsură reprezentativitatea
mediei.
Alteori, unităţile seriei au tendinţa de a se concentra la una din
extremităţile seriei, rezultând distribuţii asimetrice la dreapta sau la
stânga.

Din punctul de vedere al analizei statistice, pe lângă informaţiile cu


caracter sintetic privind valorile individuale, este important şi modul
în care sunt repartizate aceste valori.

Pentru aceasta se calculează indicatorii medii de poziţie (de structură):


mediana; cuartilele; decilele; modul (moda).
Mediile poziţionale se identifică, de regulă, în rândul variantelor reale
ale colectivităţii fără a face calcule deosebite.
Aceste mărimi ţin seama nu de nivelul variantei (valorilor individuale), ci
de poziţia lor în colectivitate.
2. Mediana (Me)

 Mediana este un indicator mediu de poziţie care reprezintă acea


variantă a caracteristicii care ocupă poziţia centrală într-o
colectivitate ordonată crescator sau descrescător: jumătate din
termeni sunt mai mici sau egali cu mediana, jumătate sunt mai mari
sau egali cu aceasta.
 Prin urmare, mediana este acea valoare a unei serii statistice
ordonate crescător sau descrescător, care împarte seria în două
părţi egale.

Indiferent de tipul seriei la determinarea medianei trebuie rezolvate


două probleme:
 aflarea locului medianei:

n 1
L(Me ) 
2
unde n este numărul termenilor seriei.
 calculul valorii medianei (se exprimă în unitatea de măsură a
caracteristicii respective).
 pentru seriile simple (negrupate), mediana este:
 termenul din mijloc dacă seria are număr impar de termeni
 media aritmetică simplă a celor două valori din centrul seriei, dacă
numărul termenilor este par.

EXEMPLUL 1: În cazul în care numărul termenilor este impar, pentru


exemplificare considerăm că pentru cei 9 angajaţi ai unei firme s-au
înregistrat, în luna septembrie 2006, următoarele salarii brute (în
um): 700; 900; 900; 800; 1000; 900; 800; 1000; 700.
Se parcurg următoarele etape:
a) se ordonează crescător termenii seriei:
700; 700; 800; 800; 900; 900; 900; 1000; 1000
b) se calculează locul medianei L(Me), conform relaţiei:
n 1 9 1
L(Me )   5
2 2
Rezultă că locul medianei este dat de termenul din centrul seriei, în
cazul nostru, al 5-lea termen
c) se determină valoarea medianei (Me):
Me  X5  900
EXEMPLUl 2: În cazul în care numărul termenilor este par, pentru
exemplificare considerăm că pentru cei 10 angajaţi ai unei firme s-
au înregistrat, în luna septembrie 2006, următoarele salarii brute (în
um):
700; 900; 900; 800; 1000; 900; 800; 1000; 700; 1000
Se parcurg următoarele etape:
a) se ordonează crescător termenii seriei:
700; 700; 800; 800; 900; 900; 900; 1000; 1000; 1100
b) se calculează locul medianei L(Me), conform relaţiei:
n  1 10  1
L(Me)    5,5
2 2
Rezultă că locul medianei se află între cei doi termeni centrali ai seriei,
respectiv al 5-lea şi al 6-lea.
c) se calculează valoarea medianei, ca medie aritmetică simplă a celor
doi termeni din centrul seriei:
X  X 6 900  900
Me  5   900
2 2
În concluzie, putem aprecia că, în ambele cazuri, 50% dintre angajaţi
au salarii sub 900 um, iar 50% peste 900 um.
 pentru seriile de distribuţie de frecvenţe (date grupate),
determinarea medianei necesită parcurgerea următoarelor etape:
a) Determinarea frecvenţelor cumulate crescător r
Fci   ni
i 1
b) Se identifică grupa (intervalul, r sau k) în care este inclusă mediana
numită intervalul median, respectiv varianta mediană – acea grupă a
cărei frecvenţă cumulată crescător este prima mai mare decât locul
medianei L(Me) r

 n 1i
n 1
IMe   LMe)   i1
sau
2 2
c) Se determină valoarea efectivă a medianei ţinând cont de
modalitatea de grupare a datelor.

 Dacă datele au fost sistematizate într-o serie de frecvenţe pe


variante - cazul caracteristicilor discrete, în dreptul frecvenţei
cumulate crescător - care ne arată varianta mediană - se află
valoarea medianei (mediana este una dintre valorile/variantele pe
care le ia caracteristica statistică).
EXEMPLUL 3: Pentru 80 de familii dintr-un bloc (n=80), s-au
sistematizat datele privind numărul membrilor de familie, rezultând
distribuţia de frecvenţe (Tabelul 3).

Frecvenţa cumulată mai mare decat L(Me) = (80+1)/2 = 40,5 este 65,
şi prin urmare varianta „3 membrii de familie“ reprezintă mediana,
situată în mijlocul distribuţiei.

Tabelul 3
 În cazul în care distribuţia de frecvenţe s-a obţinut prin gruparea pe
intervale, (cazul caracteristicilor continue) mediana se determină cu ajutorul
următoarei formule:  r  Me 1
1 
  ni  1   ni
2  i1 
 i1
Me  x 0  hMe 
unde Me: mediana nMe
x0 – limita inferioară a intervalului median;
hMe – mărimea intervalului median;
nMe - frecvenţa intervalului median;
Me 1
n
- suma frecvenţelor intervalelor anterioare celui median.
i
i1

EXEMPLUL 4 : Pentru o firmă cu 200 de angajaţi se cunosc următoarele


informaţii privind salariul brut realizat în luna septembrie 2006:
Tabelul 4
Tabelul 5

EXEMPLUL 5: Gruparea
agenţilor economici
dintr-o ramură dupa
cifra de afaceri
(miliarde Rol)
Mediana are o anumită capacitate de a spune ce este comun în seria
statistică.
Spre deosebire de medie, mediana nu este influenţată de valorile
extreme ale seriei; de aceea ea poate înlocui cu succes media
atunci când apar valori aberante. Mediana este mărimea medie care
corespunde cel mai bine imaginii de mijloc a seriei.

Mediana poate fi determinată şi prin metoda grafică:

 la axa Ox. Proiectipe baza poligonului frecventelor cumulate


crescator si descrescator (fig. 3). Proiecţia pe axa Ox a punctului de
intersecţie a curbelor frecvenţelor cumulate crescător şi
descrescător reprezintă mediana.

 o alta modalitate ar fi (fig. 4): se construieste poligonul frecventelor


cumulate crescator. Pe axa verticala, din punctul care indica locul
medianei, de exemplu 100,5 pentru datele din tabelul 8, se traseaza
o paralela a punctului de intersectie dintre acesta paralela si curba
frecventelor cumulate crescator pe axa Ox indica valoarea
medianei.
Figura 3: Calculul grafic al medianei

Figura 4: Calculul grafic al medianei


3. Modul (moda sau dominanta D, valoare modală) Mo

Moda reprezintă valoarea cel mai frecvent întâlnită în cadrul


colectivităţii statistice analizate. Moda se exprimă în unitatea de
măsură a caracteristicii analizate
Valoarea dominantă se determină astfel:
 Pentru o serie simplă este acea valoare care se înregistrează la
cele mai multe unităţi ale colectivităţii.
În cazul exemplului nostru:
700, 700, 800, 800, 900, 900, 900, 1000, 1000, 1100
Mo = 900 um fiind înregistrată la 3 angajaţi.
 Pentru o serie de distribuţie de frecvenţelor:
 În cazul grupării pe variante, (cazul caracteristicilor discrete),
valoarea modei este chiar varianta cu frecvenţa cea mai mare.
 În cazul grupării pe intervale, (cazul caracteristicilor continue)
valoarea dominantă se calculează în două etape:
a) se determină intervalul ce conţine valoarea dominantă I(Mo), adică
intervalul cu cea mai mare frecvenţă de apariţie (intervalul modal).
În cazul exemplului nostru (tabelul 6): I(Mo) = (800...900)
b) se calculează valoarea dominantă cu relaţia: 1
Mo  x 0  hMo 
1   2
x0 este limita inferioară a intervalului modal; 1  nMo  nMo 1
nMo - frecvenţa intervalului modal;
nMo-1 - frecvenţa intervalului anterior;  2  nMo  nMo 1
nMo+1 - frecvenţa intervalului următor;
hMo – mărimea intervalului modal;
1 – diferenţa dintre frecvenţa intervalului modal şi a celui precedent;
2 – diferenţa dintre frecvenţa intervalului modal şi a celui următor.
În exemplul nostru:

1  60  40  20
 2  60  40  20
20
D  800  100   800  100  0,5  850 um
20  20
Tabelul 6

 Determinarea modei se poate face şi pe cale grafică. Pentru


seriile de repartiţie de frecvenţe, modulul se localizează în
intervalul corespunzător coloanei cu frecvenţă maximă.
 Pentru seriile de repartiţie pe variante (in vazul variabilelor
discrete), modulul este proiecţia pe axa Ox a vârfului poligonului
frecvenţelor.
Determinarea grafică a modului presupune reprezentarea grafică a
seriei prin diagrama în coloane sau prin poligonul frecvenţelor şi
observarea valorii xi care corespunde frecvenţei maxime (figura 5)

ni ni

Xi Xi

Fig. 5. Determinarea grafică a modului, în cazul unei caracteristici discrete.


 Determinarea grafică a modului în cazul variabilelor continue se
realizează cu ajutorul histogramei (figura 6).
- din cele două vârfuri superioare ale dreptunghiul cu inaltimea cea mai
mare se treaseaza doua segmente de dreapta diagonale spre
punctele de intersecţie cu coloanele alăturate;
- se traseaza o perpendiculara din intersectia celor doua segmente de
dreapta pe abscisa. Intersectia acestei perpendiculare cu axa Ox
indica valoarea dominanta Mo=27,45

Figura 6. Determinarea grafică a modei în cazul variabilelor continue


Dacă seria prezintă o singură frecvenţă maximă, spunem că seria
este unimodală.
Dacă seria prezintă două sau mai multe frecvenţe maxime nealăturate
şi, posibil, neegale, spunem că seria este bimodală, respectiv
multimodală şi se calculează toate valorile modale (figura 7).
De exemplu, o fabrică de încălţăminte care doreşte să-şi fixeze
structura producţiei în funcţie de mărimile cele mai solicitate, face
un studiu al pieţei prin sondaj. Dacă datele observării sunt
înregistrate nediferenţiat în cadrul populaţiei, distribuţia de
frecvenţe va avea două valori modale: cea mai mică reprezintă
numărul la pantof preponderent la femei, iar cea mai mare indică
mărimea cu frecvenţă maximă la bărbaţi.

Figura 7: Distribuţie de frecvenţe: a) unimodală, b) bimodală, c) multimodală


Relaţia dintre mod, mediană şi medie

Media, mediana şi modul caracterizează tendinţa centrală şi forma de variaţie a


caracteristicii. Ele coincid în cazul unei distribuţii perfect simetrice (figura
8,a).
Pentru distribuţiile moderat asimetrice, între medie, mediană şi modul există
următoarea legătură:
Mo  X  3(Me  X)
Dacă distribuţia are mai multe valori extrem de mari (coada mai lungă a
distribuţiei spre valorile mari) şi mai puţine extrem de mici comparativ cu
distribuţia normală (figura 8, b), distribuţia este asimetrică la dreapta sau
pozitivă, şi atunci
x  Me  Mo
Dacă distribuţia are mai multe valori extrem de mici (coada mai lungă a
distribuţiei spre valorile mici) şi mai puţine extrem de mari comparativ cu
distribuţia normală (figura 8, c), distribuţia este asimetrică la stânga sau
negativă, şi atunci
x  Me  Mo
Gradul de precizie al medianei şi modului este mai redus decât al mediei,
întrucât nu includ în calcul toate valorile individuale. Cu toate acestea, în
anumite situaţii, ele pot înlocui media. Alegerea indicatorilor trebuie să
corespundă esenţei fenomenului şi particularităţilor distribuţiei
analizate.
Figura 8: Forma distribuţiei: a) simetrică, b) asimetrie pozitivă, c) asimetrie negativă
B. Indicatori ai variaţiei (împrăştierii)
Formele individuale de manifestare ale fenomenelor de masă analizate
într-o colectivitate prezintă o variabilitate (variaţie, împrăştiere,
dispersare) mai mare sau mai mică în funcţie de numărul, natura,
direcţia şi sensul acţiunii cauzelor speciale şi întâmplătoare.
La nivelul colectivităţii, legea tendinţei comportamentului acestor
fenomene este reflectată sintetic de indicatorii tendinţei centrale:
media, mediana, moda etc. prezentaţi anterior.
Cu cât fenomenele au un grad mai mare de complexitate (determinată
de multitudinea de cauze de influenţă) cu atât variaţia valorilor
individuale este mai mare. Deci, utilizarea corectă a indicatorilor
tendinţei centrale în fundamentarea deciziilor necesită verificarea
stabilităţii şi reprezentativităţii valorilor înregistrate de aceştia.
Astfel, valoarea determinată a mediei este reprezentativă numai în
măsura în care ea este calculată din date omogene, apropiate între
ele ca mărime sau din punctul de vedere al altor criterii.
Aceasta înseamnă că determinarea valorii mediei trebuie să fie însoţită
de verificarea omogenităţii valorilor individuale din care ea s-a
calculat. Verificarea omogenităţii valorilor individuale necesită
măsurarea şi analiza împrăştierii şi concentrării faţă de valorile tipice
calculate.
În statistică prin noţiunea generală de împrăştiere se au în vedere
abaterile măsurabile ale valorilor individuale faţă de o valoare
centrală (tipică).
De exemplu, în două populaţii, aceeaşi variabilă înregistrează valorile:
{xi}={2;2;2;10;18;18;18}
{xi}={9;9;9;9;10;11;11;11;11}.
Cele două serii au aceeaşi medie şi mediană dar împrăştierea este
diferită. Acest fapt este evidenţiat de abaterile înregistrate faţă de
media (10) sau mediana (10). Seria a doua este mai omogenă
(înregistrează o mai mică împrăştiere a valorilor individuale), iar
valorile sale tipice sunt mai reprezentative.
Prin urmare, noţiunea de împrăştiere, completează informaţiile despre
seriile statistice investigate.

Caracterizarea variabilităţii (variaţiei, împrăştierii, dispersiei) proceselor


se realizează prin intermediul unor indicatori statistici, care oferă
informaţii necesare nu numai pentru cunoaşterea variabilităţii din
seriile statistice analizate, dar şi pentru aprecierea "calităţii" (sub
aspectul reprezentativităţii şi al încărcăturii informaţionale) valorilor
tipice utilizate în procesul decizional.
Prin urmare, în analiza unei serii statistice de date cantitative ne
interesează, pe lângă indicatorii tendinţei centrale şi indicatorii
variabilităţii, ai împrăştierii valorilor. Astfel, două serii statistice
pot diferi prin tendinţa centrală (Fig. 9,a), prin împrăştierea
datelor (Fig. 9, b) sau prin amândouă (Fig. 9,c).

Figura 9: a) Distribuţii cu tendinţă centrală diferită; b) Distribuţii cu variabilitate diferită;


c) Distribuţii cu tendinţă centrală şi variabilitate diferite
1. Amplitudinea (variaţiei), R

Amplitudinea absolută a variaţiei (A sau R) reprezintă diferenţa dintre


valorile extreme ale caracteristicii înregistrate. Se determină cu
formula:
R = xmax – xmin
unde: xmax, xmin - valoarea cea mai mare, respectiv cea mai mică
înregistrată de caracteristica statistică în cadrul seriei respective.

Considerând seria statistică prezentată în tabelul 7, amplitudinea


variaţiei este:
R = 17,5 - 2,5 = 15%.

Unitatea de măsură este cea a caracteristicii pentru care se calculează.

În cazul în care variaţia caracteristicii este sistematizată pe intervale de


grupare, amplitudinea absolută a variaţiei se calculează ca diferenţă
între limita superioară a ultimului interval şi limita inferioară a
primului interval.
Tabelul 7

Figura 10
Amplitudinea se utilizează frecvent în prelucrarea statistică la alegerea
numărului de intervale de grupare a datelor şi la stabilirea mărimii
intervalelor.
Ca măsură a împrăştierii valorilor individuale, amplitudinea variaţiei prezintă
dezavantajul utilizării exclusive a valorilor extreme care pot fi depărtate de
masa variantelor caracteristicii; prin urmare, amplitudinea variaţiei nu ţine
seama de toate observaţiile şi este sensibilă la prezenţa valorilor aberante.
De exemplu, următoarele trei serii vizualizate în figura 10 au aceeaşi
amplitudine dar prezintă variaţii (dispersări) diferite:
Amplitudinea este un indicator de împrăştiere "destul de rezonabil" numai dacă
valorile individuale ale seriei sunt repartizate în mod uniform, omogen (fără
să existe valori aberante).
Amplitudinea variaţiei poate dezinforma atunci când valorile extreme se
situează la distanţă mare de masa valorilor empirice. Din acest motiv acest
indicator nu oferă informaţii concludente privitor la gradul de variaţie a două
repartiţii.
Amplitudinea variaţiei se aplică în toate cazurile când interesează tocmai
valorile extreme şi în controlul calităţii proceselor de fabricaţie
bunuri/prestare servicii.
(2) Dispersia (varianţa)

Dispersia (varianţa) ca indicator sintetic al variaţiei, se calculează ca


medie aritmetică, simplă sau ponderată, a pătratelor abaterilor
individuale ale valorilor faţă de tendinţa centrală - uzual media lor.
Se notează  sau s2 .
2

Se calculează cu următoarele formule: n

 x i  x
2

 pentru serii simple;


 x 
2  i1 r 2
n '
i  x  ni
i 1
2 
 pentru serii cu frecvenţe absolute r
 ni
i 1
 pentru serii cu frecvenţe relative exprimate prin coeficienţi

 
r 2
 2   x 'i  x  ni*
i 1
 pentru serii cu frecvenţe relative exprimate procentual
 x 
r 2
'
i  x  ni* %
i 1
2 
100
Utilizând datele referitoare la rata şomajului pe ţări (tabelul 7), din
tabel 8 coloana 7 şi 1, dispersia este:

Tabelul 8

 x i  x 
r 2
'
 ni
i 1 455,64
2  r
  18,985
24
 ni
i 1
Considerând exemplul referitor la timpul zilnic petrecut în faţa
televizorului, datele sistematizate pentru calculul dispersiei sunt
redate în tabelul 9, iar valoarea acesteia este:

 x 
r 2
'
i  x  ni
i 1 182299,50
2  r
  911,4975
200
 ni
i 1

Tabelul 9
(3) Abaterea medie pătratică (abaterea standard,
ecart tip, deviaţie standard)
În studiul variabilităţii se foloseşte rădăcina pătrată a dispersiei, indicator numit
abaterea medie pătratică. Se calculează ca o medie pătratică a abaterilor
valorilor individuale de la media lor şi se exprimă în unitatea de măsură a
caracteristicii, ceea ce o face improprie comparaţiilor.
Deoarece, în analiza variaţiilor individuale, mai importante sunt abaterile mari
în valoare absolută, abaterea media pătratică este cea mai indicată.
n

 x  x
 x 
2 r 2
'
 x  ni
i
 pentru serii simple;
  i1 i
i 1
n  r
 pentru serii cu frecvenţe absolute  ni
i 1

 pentru serii cu frecvenţe relative exprimate prin coeficienţi

 x 'i  x 
r 2
  ni*
i 1
 pentru serii cu frecvenţe relative exprimate procentual
 x 
r
2
'
i  x  n i*%
  i1

100
Considerând cele două exemple prezentate, abaterea medie pătratică este:
 În cazul şomajului
    18,985  4,36%
2

 la timpul zilnic petrecut în faţa televizorului

  2  911,4975  30,19 minute

Cu toate că între valorile celor doi indicatori ai împrăştierii, dispersia şi


abaterea standard, diferenţele sunt destul de mici în analizele statistice se
preferă abaterea medie pătratică deoarece ea este un parametru al legii
normale (majoritatea metodelor de prelucrare statistică au la bază ipoteza
normalităţii repartiţiilor) şi se pretează mai bine la calcule algebrice.

 Intervalul mediu de variaţie. Pe baza indicatorului abaterea medie


pătratică se poate calcula intervalul mediu de variaţie. Acesta este definit
de următoarele limite:
x  
x
x  
Abaterea medie pătratică prezintă interes nu numai pentru aprecierea
omogenităţii valorilor individuale ale unei serii (sau pentru a verifica
reprezentativitatea mediei lor) dar şi pentru construirea unor intervale
centrate în jurul mediei x , care conţin un anumit procent din masa totală
a observaţiilor.
Astfel, dacă distribuţia unităţilor din colectivitatea investigată, după
caracteristica urmărită, este sub formă de "clopot" (fig. 11), sau este uşor
asimetrică, atunci:
 intervalul x  ; x   conţine 68,26% din observaţii;
 Intervalul x  2; x  2 conţine 95,45% din observaţii;
 Intervalul x  3; x  3 conţine 99,73% din observaţii

2
(68,26%)

media
4  (95.45%)
6  (99.73%)
Figura 11. Relaţia dintre amplitudine şi abaterea medie pătratică
4) Coeficientul de variaţie (omogenitate)

Cât de însemnată este abaterea medie pătratică, numai


comparaţia cu media o poate arăta. Această comparaţie se
realizează prin intermediul coeficientului de variaţie (v sau
Cv).
Coeficientul de omogenitate (de variaţie) este o măsură a
dispersiei relative care descrie abaterea medie pătratică ca
procent din media aritmetică. Acest coeficient de variaţie
permite compararea împrăştierii valorilor care nu sunt
exprimate în aceeaşi unitate de măsură (de exemplu,
compararea variabilităţii salariilor din două ţări şi în diferite
monede, compararea variabilităţii compartimentului unor
produse pe diferite pieţe etc.) şi se exprimă în procente.
Coeficientul de variaţie (Cv) se defineşte ca raport între
abaterea medie pătratică şi media aritmetică a ansamblului
de observaţii:

Cv   100 %
x
Întrucât anumite serii statistice pot fi mai bine reprezentate de
mediană sau modă, în numitorul formulei de calcul al
coeficientului de variaţie media poate fi înlocuită prin
mediană sau modă.
Coeficientul de variaţie este cel mai sintetic indicator al
împrăştierii, nu numai pentru că permite comparaţia
variabilităţii, dar şi pentru faptul că valorile sale sunt
localizate în intervalul {0,100}, astfele:
 cu cât valorile sale sunt mai apropiate de zero, cu atât seria
este mai omogenă (media este mai reprezentativă);
 cu cât valorile sale sunt mai apropiate de 100 cu atât
ansamblul valorilor individuale observate este mai eterogen
(împrăştierea este mai mare, iar media calculată este mai
puţin reprezentativă).
În literatura de specialitate se avansează nivelul de 35% ca
limită maximă admisibilă pentru coeficientul de variaţie,
care a stabilit acest prag de trecere de la starea de
omogenitate la cea de eterogenitate. Intervalul de valori se
poate împarti astfel:
 0 < v < 35% , variatia este mica, media ca indicator al tendintei
centrale este semnificativa, abaterile variantelor xi, de la medie
sunt mici, valorile mici graviteaza în jurul mediei, colectivitatea
este omogena, adica e formata din unitati ce apartin aceluiasi tip
calitativ, gruparea ca metoda de sistematizare este bine facuta.
 35% < v < 50%, variatie relativ mare, ceea ce înseamna ca
aspectele prezentate mai sus devin discutabile.
 50% < v < 100%, variatie foarte mare, media nu este
semnificativa, deoarece mascheaza abateri mari ale termenilor,
care sunt pozitionati la distante mari unul fata de altul.Gruparea
nu este corect facuta, se recomanda împartirea colectivitatii în
grupe omogene si determinarea indicatorilor sintetici pentru
fiecare grupa.

Coeficientul de variatie poate fi folosit ca test de verificare a


reprezentativitatii mediei, distingându-se cazurile:
 0 < v < 17%, media este strict/foarte reprezentativa ;
 17% < v < 35%, media este moderat semnificativa;
 35% < v < 50%, media este relativ reprezentativa;
 v >50%, media nu este reprezentativa.
Pentru determinarea coeficientului de variaţie de multe ori se utilizează
abaterea medie absolută:
d
Cv'   100
x
Diferenţa dintre Cv şi Cv' poartă amprenta diferenţei dintre abaterea
medie pătratică şi abaterea medie absolută.
În exemplul cu rata şomajului pe ţări, coeficientul de variaţie este:

 4,36
Cv   100   100  45,4%
x 9,6
Aşadar, colectivitatea considerată în acest exemplu este eterogenă.
Ţările incluse în analiză sunt foarte diferite din punct de vedere al
nivelului de dezvoltare şi al sistemului economic specific, ceea ce
determină diferenţe mari în mărimea indicatorului considerat. Se
poate încerca o grupare în: ţări dezvoltate, ţări mai puţin dezvoltate
şi fostele ţări socialiste.
În cazul exemplului cu cifra de afaceri realizată de 200 agenţi
economici, coeficientul de variaţie este egal cu 20,6% ceea ce
indică faptul că media este reprezentativă.
Analiza indicatorilor tendinţei centrale şi a indicatorilor variaţiei trebuie să se facă
în mod combinat. Interpretarea lor izolată poate conduce la erori. De
exemplu, două serii statistice pot avea aceeaşi dispersie, dar medii diferite,
ca în figura 12. Uneori, seriile statistice au aceeaşi medie, dar dispersii
diferite ca în figura 13.

Figura 13

Figura 12
C. Indicatori ai formei distribuţiei
Calculul şi analiza indicatorilor simpli şi sintetici ai împrăştierii
valorilor individuale ale caracteristicilor în jurul tendinţei lor
centrale oferă informaţii utile pentru cunoaşterea manifestării
fenomenelor de masă şi pentru fundamentarea deciziilor.
Pentru profunzimea analizei întreprinse, aceste informaţii trebuie
completate cu altele referitoare la concentrarea valorilor
individuale şi la deplasarea acestora faţă de anumite valori
tipice. Prin urmare, analiza împrăştierii (variaţiei) valorilor
individuale trebuie să fie urmată de analiza formelor în care
se distribuie acestea.
Forma unei distribuţii de frecvenţe se analizează, comparativ cu
distribuţia ideală, normală, prin indicatorii:
 asimetriei (oblicităţii) – analizează deplasarea valorilor
individuale faţă de anumite valori tipice ale tendinţei centrale
 boltirii (excesului, aplatizării) curbei frecvenţelor.
Seriile empirice cu care lucrează statistica tind deseori către
modelul repartiţiei normale, care este o distribuţie perfect
simetrică.
 Distribuţia perfect simetrică se caracterizează prin
egalitatea dintre medie, mediană şi mod (modă).
Frecvenţele se distribuie simetric la dreapta şi la stânga
valorii centrale, care are frecvenţa maximă. Graficul are
formă “ de clopot ” (fig. 14). În acest caz, acţiunea factorilor
întâmplători are caracter regulat, astfel încât acţiunea lor
se repartizează uniform, în ambele sensuri, faţă de medie.

Figura 14. Distribuţia perfect simetrică


Comparaţia între medie şi ceilalţi indicatori ai tendinţei centrale
permite interpretarea gradului de asimetrie a unei distribuţii
de frecvenţe.
Graficul (histograma, poligonul frecvenţelor etc.) oferă o primă
imagine asupra gradului de asimetrie.
De exemplu (tabelul 10), considerând gruparea agenţilor
economici dintr-o ramură după cifra de afaceri (miliarde lei) :

Tabelul 10
Repartiţia agenţilor economici după cifra de afaceri tinde
către repartiţia normală, concluzie care rezultă din figura
15 şi 16 şi din faptul că frecvenţele descresc către
capetele seriei.

Figura 16

Figura 15
Tabelul 11

Dacă, de exemplu, interesează câţi din totalul agenţilor


economici au avut o cifră de afaceri de cel mult 32
miliarde lei se cumulează frecvenţele absolute
corespunzătoare primelor patru intervale, deci 136,
respectiv 68% din totalul agenţilor (tabelul 11).
O repartiţie asimetrică (sau oblică) se caracterizează prin
faptul că frecvenţele valorilor caracteristicii urmărite sunt
deplasate mai mult sau mai puţin, într-o parte şi alta faţă
de tendinţa centrală (exprimată prin: Me, Mo sau x ).
În figura 17 se prezintă distribuţii unimodale oblice la
dreapta sau la stânga valorilor tendinţei centrale.
 Distribuţie cu asimetrie pozitivă sau oblică spre
dreapta (figura 17,a) este distribuţia care are mai multe
valori extrem de mari şi mai puţine extrem de mici
comparativ cu distribuţia normală, care are aceeaşi
medie şi dispersie. Ea este cauzată de apariţia unor
valori extreme mari ale caracteristicii, de unde rezultă
următoarea relaţie de inegalitate:

Pentru acest tip de distribuţie de frecvenţe, media


reprezintă mai bine valorile mari ale seriei; dimpotrivă,
valorile mici sunt mult distanţate faţă de medie.
Figura 17, a

Figura 17, b
 Distribuţie cu asimetrie negativă sau oblică spre
stânga (figura 17,b) este distribuţia care are mai multe
valori extrem de mici şi mai puţine extrem de mari
comparativ cu distribuţia normală, care are aceeaşi
medie şi dispersie. Ea este cauzată de apariţia unor
valori extreme mici ale caracteristicii, de unde rezultă
următoarea relaţie de inegalitate:

În acest caz, media este semnificativă pentru valorile mici


ale caracteristicii; termenii cu valori mari ai seriei
statistice nu sunt bine reprezentaţi.
De exemplu, considerând gruparea agenţilor economici
dintr-o ramură după cifra de afaceri (miliarde lei) ,
valorile medianei, modei şi mediei aritmetice sunt:
Prima frecvenţă cumulată crescător > 100,5 este 136.
Deci, 28  Me  32

1  r  Me 1
  ni  1   ni
2  i 1 
 i 1
Me  x 0  hMe   28  4(100,5  90) / 46  28,91 miliarde lei
nMe

1 50  25
Mo  x 0  hMo   24  4  27,45 miliarde lei
1   2 50  25  50  46
r
 xi'  ni 5812
i 1
X r
  29,06 miliarde lei
200
 ni
11

Deoarece X  Me  Mo, distribuţia prezintă o asimetrie


pozitivă.
Distribuţiile de frecvenţe care sunt numai uşor asimetrice
verifică următoarea legătură între medie, mediană şi mod:
Mo  x  3x  Me
Amploarea asimetriei statistice unimodale se caracterizează
sintetic cu ajutorul unor coeficienţi adimensionali.
Măsurarea asimetriei se bazează pe indicatori care compară
media cu moda (sau mediana), în condiţiile unui anumit
grad de împrăştiere a unităţilor colectivităţii (măsurat prin
abaterea medie pătratică).

1) Asimetria, în valoare absolută, se măsoară prin:

As  x  Mo As'  3x  Me 
indicatori care au unitatea de măsură a variabilei studiate şi
care sunt pozitivi sau negativi, în funcţie de tipul de
asimetrie (coada mai lungă a distribuţiei spre valorile mari
sau spre valorile mici).
2) Coeficientul de asimetrie Pearson, Cas
Cel mai frecvent, în practică se utilizează coeficienţii de
asimetrie Pearson (pentru distribuţii uşor asimetrice mai
ales), ca raport între asimetria absolută şi abaterea
medie pătratică, în două variante:
x  Mo 3  x  Me 
Cas 
'
C as 
 

Cas   1, 1 C' as   3, 3

Ambii coeficienţi au valori:


 Pozitive, când distribuţia de frecvenţe are asimetrie
pozitivă (curbelor alungite spre dreapta)
 Negative, în cazul asimetriei negative (curbelor alungite
spre stânga).
 Pentru serii perfect simetrice valoarea lor este zero.
Cu cât valorile acestui coeficient sunt mai apropiate de
zero (Cas=0), cu atât seria este mai simetrică.
Cu cât valorile sale sunt mai apropiate de unu (Cas=1) cu
atât seria este mai asimetrică (indicatorii tendinţei
centrale tind să fie nereprezentativi).
Seriile de distribuţie moderat asimetrice au valoarea
coeficientului de asimetrie |Cas|< 0,3.
Distribuţia agenţilor economici după cifra de afaceri este
moderat asimetrică:
x  Mo 29,06  27,45
C as    0,27
 6
Pentru a completa analiza simetriei, respectiv aplatizării în
seriile de distribuţie unidimensionale se poate apela şi la
momentele centrate de diverse ordine, notate μ.
Mărimile μ2 (dispersia, σ2), μ3 şi μ4, sunt momente centrate
de ordinul 2, 3 şi 4 unde:
 x '
i 
2
 x  ni  x '
i 
3
 x  ni
4 
 x '
i 
4
 x  ni
2  3 
n i n i n i

Pe baza acestor indicatori, Pearson şi Fisher au propus şi


alţi indicatori de asimetrie şi respectiv de aplatizare,
indicaţi pentru seriile foarte mari, respectiv.

3) Coeficientul de asimetrie Pearson β1 :


 32
1  3
2
În cazul unei distribuţii simetrice, 1=0, iar în cazul unei
distribuţii asimetrice, 1 0.
Sensul asimetriei este dat de semnul lui μ3 şi anume μ3  0
în cazul distribuţiilor cu asimetrie la dreapta şi μ3 < 0 în
cazul distribuţiilor cu asimetrie la stânga.
4) Coeficientul de asimetrie al lui Fisher γ1, care este o
transformare ulterioară a coeficientului lui Pearson :
32 3 3
1  1   
32  2 3 2 3
Interpretarea coeficientului lui Fisher porneşte de la
observaţia că momentele centrate de ordin impar ale
seriilor de distribuţie perfect simetrice sunt egale cu zero.
Deci, în particular μ3=0.
Pentru seriile în care predomină termenii cu abateri
negative faţă de medie (x’i – x < 0) vom avea μ3<0, iar
în timp ce pentru cazurile în care predomină termenii cu
abateri pozitive faţă de medie (x’i – x > 0) vom avea
μ3>0. Deci, μ2 fiind întotdeauna pozitiv, coeficientul γ1
va fi < 0 sau > 0 după semnul lui μ3.
În concluzie, coeficientul γ1 va avea valoare mai mare
decât zero în cazul asimetriei pozitive, valoare mai
mică decât zero în cazul asimetriei negative şi va fi
egal cu zero în cazul seriei perfect simetrice.
5) Coeficientul de aplatizare al lui Pearson β2 : 4
2  2
2
Coeficienţii β1 şi β2 reflectă intensitatea concentrării
frecvenţelor în centrul distribuţiei.

6) Coeficientul de aplatizare al lui Fisher γ2


4
 2  2  3  2  3
2
Graficele seriilor de distribuţie de frecvenţă sunt mai mult
sau mai puţin aplatizate în comparaţie cu graficul legii
normale (Gauss-Laplace). Prin urmare, o distribuţie este
aplatizată dacă o mare variaţie a caracteristicii urmărite
antrenează o uşoară variaţie a frecvenţelor şi invers.
Acest raţionament este vizualizat în figura 18.
Figura 18

Analizând cei doi coeficienţi β2 şi γ2 , etalonul pentru aprecierea


gradului de aplatizare al unei serii empirice îl reprezintă
distribuţia normală, unde β2=3 (deci, γ2=0). Astfel, dacă:
 β2 > 3 (sau γ2 > 0) – distribuţia este mai boltită decât cea
normală şi se numeşte leptokurtică, având un “vârf” mai
ascuţit şi „cozi” mai lungi decât la cea normală;
 β2 < 3 (sau γ2 < 0) – distribuţia este mai puţin boltită decât
cea normală şi se numeşte platikurtică, având un “vârf” mai
aplatizat (“turtit”) şi „cozi” mai scurte decât la cea normală;
 β2  3 (sau γ2  0) - distribuţia se numeşte mezokurtică şi
este echivalentă cu cea normală în privinţa gradului de
aplatizare;
7) Coeficientul de asimetrie a lui Yule şi Kendall, care foloseşte
distanţele dintre cuartile ca măsură a asimetriei.
Q3  Me  Me  Q1  Q3  Q1  2Me
Cas YK   CasYK   1,  1
Q3  Me  Me  Q1  Q3  Q1

Observăm următoarele:
 CasYK = 0  simetrie (cuartilele sunt echidistante);
 CasYK > 0  asimetrie pozitivă (sau etalarea frecvenţelor spre
dreapta);
 CasYK < 0  asimetrie negativă (sau etalarea frecvenţelor spre
stânga)
 CasYK <  0,1 seria este considerată moderat asimetrică
 CasYK > 0,3 seria este pronunţat asimetrică;
Coeficientul lui Yule şi Kendall nu poate fi utilizat în compararea
asimetriei mai multor repartiţii de frecvenţe.
Calculul şi interpretarea coeficienţilor de aplatizare prezentaţi trebuie
completat cu analiza graficului distribuţiei empirice comparativ cu
cel al distribuţiei normale.
Analiza asimetriei şi aplatizării are sens numai în cazul distribuţiilor
empirice unidimensionale care prezintă o singură valoare modală.
Cuartilele sunt 3 valori care împart seria în patru părţi egale, ele
delimitând câte 25% din observaţii. Ele sunt în număr de trei: Q1, Q2,
Q3 (figura 19); Q1 se numeşte cuartila inferioară, Q2 este egală
întotdeauna cu mediana, Q3 se numeşte cuartila superioară.
Cuartilele, ca şi mediana, se determină pe baza valorilor ordonate ale
seriei statistice. Prima operaţie constă în localizarea celor trei cuartile.

Figura 19: Cuartilele într-o serie de repartiţie


Calculul cuartilelor se face prin interpolare în cadrul intervalului în
care a fost localizată fiecare cuartilă:

x0 - limita inferioară a intervalului în care se află Q1, respectiv Q3;


dQ1, dQ3 – mărimea intervalului în care se situează cuartila
inferioară, respectiv superioară;
nQ1, nQ3 – frecvenţa intervalului în care se află Q1, respectiv Q3;
q11 q3 1
 ni  ni - suma frecvenţelor intervalelor care preced
i1 i1
intervalul cuartilei inferioare, respectiv superioare.

S-ar putea să vă placă și