Sunteți pe pagina 1din 28

Capitolul 2 Descrierea numeric i grafic a datelor

Pe parcursul acestui curs voi face referire n mod repetat la un proiect de


statistic ce poate fi gsit n cadrul Bibliotecii Digitale de pe site-ul Academiei de
Studii Economice. Este vorba de unul dintre ultimele capitole ale crii Statistic, de
E. Lilea, M. Vatui, D. Boldeanu i Z. Goschin1. Cred c ar fi util s descrcai acest
proiect pentru c vom acoperi o parte semnificativ a lui.
2.1 Elemente introductive
Procesul prelucrrii seriilor de date ncepe cu analiza prestatistic a datelor,
urmat de sistematizarea datelor statistice.

Analiza prestatistic a datelor urmrete depistarea eventualelor valori


aberante i surprinderea unor caracteristici ale seriei, fapt pentru care n
aceast faz a analizei se utilizeaz, n principal, reprezentarea grafic a
seriei.

Sistematizarea datelor statistice presupune clasificri i grupri ale datelor


pentru formarea de clase sau grupe ct mai omogene de uniti statistice.

Clasificarea datelor (gruparea unitilor elementare ale unei populaii dup


anumite criterii) ocup un loc important n cadrul statisticii descriptive. n funcie de
modul de constituire al claselor, avem de-a face cu:

Clasificri artificiale, atunci cnd, pentru sistematizarea informaiilor


disponibile, clasele sunt definite pe baza unor criterii pragmatice. De cele mai
multe ori, criteriile alese nu sunt eseniale, putnd fi considerate chiar
arbitrare. Un exemplu de clasificare artificial este cel al prezentrii
locuitorilor cu drept de vot dintr-o localitate prin liste zonale (n ideea c
aceast grupare nu are nimic n comun cu inteniile de vot).

Clasificri naturale, care permit definirea claselor n funcie de criterii


eseniale. n acest caz se asigur att sistematizarea datelor statistice, ct i
surprinderea unor caracteristici eseniale ale populaiei statistice. Un
exemplu de clasificare natural l reprezint clasificarea firmelor din
economie (sau dintr-un eantion) pe ramuri de activitate. Astfel, orice
societate din Romnia trebuie s prevad n statutul su unul sau mai multe
obiecte de activitate, toate acestea fiind incluse n Clasificarea Activitilor
din Economia Naional (CAEN). Clasificarea pornete de la cel mai agregat
nivel, fiind implementate 21 de seciuni (de la A la U), ce reprezint sectoare

Link: http://www.biblioteca-digitala.ase.ro/biblioteca/carte2.asp?id=95&idb=6 Dac acest link nu


funcioneaz, accesai Biblioteca Digital de pe site-ul Academiei de Studii Economice (link:
http://www.biblioteca-digitala.ase.ro/biblioteca/model/index2.asp), intrai n seciunea Finane,
Asigurri, Bnci i Burse de Valori i cutai cartea n list (n februarie 2014 era la poziia 31).

13

vaste ale economiei, dup care niveul de detaliu crete, clasificarea coninnd
coduri CAEN cu 2, 3 i 4 cifre (cel mai ridicat nivel de detaliu). Exemplu:
Seciunea P nvmnt, 85 nvmnt, 854 nvmnt superior, 8542
nvmnt superior universitar2. O alt clasificare a firmelor este realizat
dup dimensiunea acestora, prin prisma numrului de angajai i a cifrei de
afaceri. Astfel, EUROSTAT, biroul de statistic al Uniunii Europene, clasific
firmele n microntreprinderi (1-9 angajai, cifr de afaceri anual sub 2
milioane de euro), ntreprinderi mici (10-49 angajai, cifr de afaceri anual
sub 10 milioane de euro), ntreprinderi mijlocii (50-249 angajai, cifr de
afaceri anual sub 50 de milioane de euro) i ntreprinderi mari (peste 250 de
angajai). n fine, o alt clasificare a firmelor se poate face dup forma de
proprietate a acestora.
n cazul unei clasificri, grupele trebuie s satisfac urmtoarele patru
principii de baz:

Principiul completitudinii, n virtutea cruia fiecare valoare din cadrul seriei


iniiale de valori se ncadreaz ntr-o anumit o grup.

Principiul unicitii, potrivit cruia o unitate din cadrul seriei de valori va fi


inclus doar ntr-o singur grup de valori.

Principiul omogenitii, care postuleaz faptul c grupele sunt astfel definite


nct unitile din fiecare grup s fie omogene (se mai spune c unitile ce
aparin unei anumite grupe sunt echivalente).

Principiul organizrii ierarhice a grupelor, ce recomand acea form de


organizare a datelor astfel nct s fie permise agregri succesive de clase
adiacente pentru creterea gradului de generalitate a gruprii.

O metod des ntlnit de grupare este cea pe intervale de variaie egale, n


acest sens trebuind parcuri urmtorii doi pai:
1. Definirea grupelor Se consider c fiecare grup este complet definit dac
sunt precizate limita inferioar (xinf) i limita superioar (xsup). Diferena dintre
valoarea minim i maxim a unei serii de date poart numele de amplitudine
a acelei serii (As), fapt pentru care, n mod similar, n cazul grupelor vorbim de
amplitudinea grupei (Ag). ntruct discutm acum cazul intervalelor de
variaie egale, amplitudinea tuturor grupelor va fi aceeai.
n teoria statistic s-au propus mai multe formule de calcul pentru
determinarea amplitudinii grupelor. Menionm aici doar cteva din aceste
propuneri:

Propunerea lui D. V. Huntsberger (unele surse atribuie aceast


propunere lui H. A. Sturges), potrivit creia Ag = As/p, unde
p=1+3,3logn iar n reprezint numrul de observaii al seriei.

Unul dintre site-urile care prezint clasificarea activitilor din economia naional (CAEN rev 2) este
http://coduricaen.info/

14

De exemplu, pentru n=40, log40=1,6, fapt pentru care p=6,28. Cum


numrul de grupe (p) nu poate fi dect un numr ntreg, alegem p=6.
Dac avem n vedere datele din proiectul de statistic menionat mai
sus, pentru variabila vechime, Ag=As/6=35/6=5,836.
Atenie! Dac este cazul, rotunjirea trebuie fcut prin adaos. Altfel,
riscm ca cele mai ridicate valori ale seriei de date s nu fie incluse n
ultimul interval definit, ceea ce ar contraveni primului dintre cele
patru principii enunate mai sus.
Exerciiu: Determinai amplitudinea grupelor pentru variabila producie din acelai
proiect de statistic.

Propunerea lui Brooks i Carruthers, potrivit creia Ag=As/p, unde p


trebuie s satisfac relaia p<5*logn. Pentru n=40, p<8. Astfel, dac
alegem p=7, atunci pentru variabila vechime n munc din proiectul de
statistic vom avea Ag=35/7=5.

Propunerea lui Croxton i Cowden, potrivit creia numrul de


intervale, p, se recomand a fi cuprins ntre ase i aisprezece.

2. Alocarea valorilor individuale grupelor definite anterior i calcularea


frecvenelor fiecrei grupe Ca n proiectul de statistic pe care l folosim n
acest curs, n urma acestui pas se obine un tabel ce conine frecvenele
absolute ale grupelor. Reprezentarea grafic uzual a acestui tip de tabel se
face prin intermediul histogramelor, dar mai pot fi folosite i alte
reprezentri, cum ar fi poligonul frecvenelor (vezi modelul de proiect pentru
exemple de astfel de reprezentri grafice). n plus, dup calcularea
frecvenelor absolute, se pot calcula frecvenele cumulate cresctor sau
descresctor, aceste date putnd fi apoi reprezentate prin intermediul
curbelor cumulative ale frecvenelor.
Exerciiu: Care este semnificaia frecvenelor cumulate cresctor pentru un anumit
interval? Dar descresctor?
Am vzut mai sus cum o serie de date poate fi grupat pe intervale egale,
existnd mai multe propuneri pentru determinarea numrului de grupe i, implicit, a
amplitudinii acestora. Pe lng aceasta metod uzual de prezentare a datelor
observate, se pot folosi i alte criterii pentru formarea grupelor, criterii care nu
decurg dintr-o aplicare mecanic a unor reguli de calcul, ci apar ca urmare a
anumitor moduri de organizare din economie.
Exemplu: Dac seria de observaii reprezint mrimea firmelor dintr-un anumit
sector de activitate, exprimat prin numrul de angajai, statisticianul poate grupa
aceste observaii n mai multe modaliti. Aa cum am vzut, acesta poate folosi
diverse propuneri pentru determinarea numrului de grupe egale, dar mrimea
acestor grupe va fi determinat n mod oarecum artificial. Pe de alt parte, se poate
15

folosi clasificarea deja enunat, care face distincia ntre microntreprinderi,


ntreprinderi mici, mijlocii i mari.
Prin urmare, putem folosi aceste grupe (inegale), care ns conduc la o grupare
uzual (chiar natural) a datelor. Prezentarea acestei grupri se realizeaz similar cu
cea a gruprilor n intervale egale: prin intermediul tabelelor de repartiie sau prin
grafice adecvate (diagrama prin bare sau prin coloane inegale, asemntoare
histogramei).
Serii statistice
Seriile statistice reprezint o modalitate frecvent de prezentare a datelor,
care rezult din sistematizarea i/sau gruparea datelor primare. Aceste serii definesc
corespondena dintre dou iruri de date statistice, n care primul reprezint variaia
caracteristicii urmrite, iar al doilea ir cuprinde frecvenele de apariie a variantelor
caracteristicii (frecvenele putnd fi absolute sau relative). Astfel, o serie statistic cu
o singur caracteristic are urmtoarea form:

x
X 1
n1

x2 K x p

n2 K n p

unde x1, x2, ..., xp sunt variantele nregistrate pentru caracteristica X, iar n1, n2, , np
sunt frecvenele de apariie ale variantelor caracteristicii X. Aa cum spuneam mai
sus, aceste frecvene pot fi absolute, reprezentnd numrul efectiv de observaii
pentru fiecare valoare xi, sau relative, reprezentnd ponderea observaiilor care au
valoarea xi n numrul total de observaii.
Seriile statistice sunt clasificate n:
-

serii de distribuie, pentru care caracteristica urmrit este numeric;

serii teritoriale, care prezint variaia n spaiu a caracteristicii analizate,


valorile caracteristicii referindu-se la unitile teritoriale din care fac parte;

serii enumerative, care se prezint sub forme de liste a unitilor dup o


anumit caracteristic.

Cel mai frecvent ntlnite n practic sunt seriile de distribuie, n particular


cele unidimensionale (cnd este urmrit o singur caracteristic). Cu toate acestea,
vom trece succint n revist cteva caracteristici ale seriilor de distribuie
bidimensionale.
n mod uzual, seriile de distribuie bidimensionale sunt prezentate prin
intermediul tabelelor de contingen precum cel de mai jos.
16

Y
X
x1
x2
...
xi
...
xk
Total

y1

y2

...

yj

...

yp

Total

n11
n21
...
ni1
...
nk1
n.1

n12
n22
...
ni2
...
nk2
n.2

...
...
...
...
...
...
...

n1j
n2j
...
nij
...
nkj
n.j

...
...
...
...
...
...
...

n1p
n2p
...
nip
...
nkp
n.p

n1.
n2.
...
ni.
...
nk.
n..

n acest tabel,
x1,x2,...,xi,...,xk reprezint variantele nregistrate dup caracteristica X,
y1,y2,...,yj,...,yp reprezint variantele nregistrate dup caracteristica Y,
nij reprezint frecvena absolut a observaiilor pentru care X=xi i Y=yj,
ni. reprezint numrul total de observaii pentru care X=xi, indiferent de valorile lui Y,
n.j reprezint numrul total de observaii pentru care Y=yj, indiferent de valorile lui X.
Tabelul de mai sus conine p+k+3 distribuii, dup cum urmeaz:
-

o distribuie bidimensional de frecvene absolute;

p+k distribuii condiionate, unidimensionale, de frecvene absolute. Acestea


sunt reprezentate de cele k linii i p coloane ale tabelului de mai sus
(n1j,n2j,...,nij,...,nkj reprezint distribuia valorilor lui X condiionat de yj,
j=1,2,...,p, iar ni1,ni2,...,nij,...,nip reprezint distribuia valorilor lui Y
condiionat de xi, i=1,2,...,k);

dou distribuii marginale, unidimensionale, de frecvene absolute. Acestea


sunt reprezentate de ultimul rnd i ultima coloan din tabelul de mai sus.
n1.,n2.,...,ni.,...,nk. reprezint distribuia marginal a valorilor lui X, iar
n.1,n.2,...,n.j,...,n.p reprezint distribuia marginal a valorilor lui Y.

Exerciiu: Pentru datele din proiectul de statistic, construii un tabel care s


evidenieze distribuia bidimensional a vechimii n munc i a produciei, folosind
gruparea pe 6 intervale egale realizat anterior. Reprezentai grafic distribuia
bidimensional astfel determinat prin graficul norului de puncte i tragei
eventualele concluzii.
Rezolvarea acestui exerciiu se gsete n proiectul de statistic.
Aa cum spuneam mai sus, seriile de distribuie unidimensionale sunt printre
cele mai frecvente n practic, fapt pentru care n continuare ne vom concentra
asupra caracterizrii acestora. Astfel, analiza primar (grafic i numeric) a datelor
cuprinde calcularea mai multor indicatori:
17

Indicatori pentru caracterizarea tendinei centrale a unei serii de distribuie:


o mrimi medii (media aritmetic, ptratic, geometric, armonic),
o indicatori medii de poziie (mediana, valoarea modal, cuartilele);

Indicatori pentru caracterizarea gradului de dispersare a unei serii de


distribuie fa de tendina central: abaterea medie absolut, dispersia,
abaterea medie ptratic, coeficientul de variaie;

Indicatori pentru caracterizarea asimetriei i aplatizrii unei serii de


distribuie.

2.2 Indicatori pentru caracterizarea tendinei centrale a seriilor de


distribuie
Indicatorii folosii pentru caracterizarea aspectelor eseniale ale tendinei
centrale a unei serii statistice univariate (unidimensionale) sunt clasificai, n raport
cu valorile utilizate pentru calculare, n dou clase:
-

Mrimi medii, calculate pe baza valorilor numerice ale seriei de distribuie;

Indicatori medii de poziie, calculai pe baza rangurilor sau a statisticilor de


ordine (aceti indicatori se pot calcula i pentru caracteristici calitative).

n 1945, statisticianul britanic George Udny Yule a definit ase proprieti pe


care ar trebui s le aib un indicator al tendinei centrale:
a) S fie o msur definit obiectiv, independent de dorina utilizatorului i, n
acelai timp, invariabil n timp i spaiu.
b) S in seama de toate valorile nregistrate.
c) S aib o semnificaie concret i uor de neles chiar i de nespecialiti.
d) S aib o formul de calcul simpl i rapid.
e) S fie o msur puin sensibil la fluctuaia eantionului (s nu prezinte valori
semnificativ diferite dac se calculeaz pe baza mai multor eantioane de
acelai volum, extrase prin acelai procedeu din aceeai colectivitate).
f) S se preteze la calcule algebrice, care s asigure comparabilitatea mai
multor serii statistice.
Din pcate, n statistica descriptiv nu exist o msur a tendinei centrale
care s satisfac simultan toate cele ase proprieti. De aceea, orice rezultat va fi
interpretat cu precauie, lund n considerare caracteristicile valorilor observate.

18

2.2.1 Mrimi medii


Pentru calcularea indicatorilor medii va trebui s avem n vedere urmtoarele
aspecte:
1. Calcularea mrimilor medii este fezabil i devine util atunci cnd seria de
distribuie include un numr suficient de mare de valori. Unii practicieni
consider 12 drept numrul minim de observaii i vd seturile de date de
peste 30 de observaii drept ideale.
Exemplu: S presupunem c dispunem de datele privind venitul lunar a dou
persoane: 500 RON i 10.000 RON. Indiferent de tipul ales al mediei, acest indicator
nu va fi reprezentativ pentru aceast serie de date ntruct avem de-a face cu doar
dou valori, i acelea puternic disparate.
2. Omogenitatea seriei de date este foarte important atunci cnd se
calculeaz media sa. De exemplu, dac n cadrul seriei sunt observate dou
sau mai multe grupe de valori ce au caracteristici diferite, atunci se
recomand calcularea indicatorilor medii la nivelul fiecrei grupe, aceti
indicatori fiind mai aproape de trstura seriei, dect o singur mrime, ce nu
caracterizeaz niciuna dintre grupele de valori.
Altfel spus, mediile se calculeaz numai atunci cnd exist o valoare central
n jurul creia graviteaz valorile individuale ale seriei. Dac n urma
reprezentrii grafice (de exemplu, prin histogram sau poligonul frecvenelor)
se observ mai multe centre n jurul crora se grupeaz valorile, se
recomand calcularea mediei pentru fiecare subgrup i, numai dac este
cazul, se calculeaz un indicator mediu pentru ntreaga serie.
Exemplu: Reeaua de distribuie carburani a unei companii petroliere conine unele
staii (benzinrii) mai bune i unele mai puin performante. Staiile mai bune sunt, n
mod evident, cele localizate n zone cu potenial economic ridicat, cu trafic intens
(att autoturisme, ct i utilitare i camioane), cu acces facil i beneficiind de o bun
vizibilitate din trafic. Alte staii nu ntrunesc ns toate aceste condiii, rezultatul
observndu-se n vnzrile de carburani. Presupunnd c o companie are o reea
polarizat, n care un grup de staii sunt performante, cu vnzri ridicate, n timp ce
un grup distinct sunt localizate mai prost sau mai greu accesibile, care au vnzri
reduse, atunci calcularea vnzrii medii zilnice pe staie nu are o mare semnificaie.
Aceasta pentru c valoarea medie obinut nu va reprezenta n mod real
performana medie a reelei, niciuna dintre staiile existente nefiind reprezentat de
media calculat. Calcularea a dou medii, una pentru grupul de staii performante i
una pentru grupul de staii cu vnzri reduse ar putea oferi informaii mai valoroase
managementului companiei, care ar putea adopta decizii adecvate pentru creterea
vnzrilor reelei prin impulsionarea vnzrilor unora dintre staiile mai puin
performante.

19

Clopotul lui Gauss este un tip special de grafic la care se face deseori
referire, chiar i de ctre nespecialiti. Chiar dac distribuia normal (GaussLaplace) va fi prezentat ntr-un capitol ulterior, referirea la aceast
distribuie special poate fi util n contextul prezentrii mrimilor medii.

n graficul de mai sus, pe axa OX sunt reprezentate valorile posibile pe care le


poate lua variabila statistic, n timp ce nlimea graficului indic numrul de
observaii al fiecrei valori individuale. Forma particular a acestui grafic
(forma de clopot) implic faptul c sunt observate foarte puine valori foarte
reduse ale variabilei i, n aceeai msur, foarte puine valori foarte ridicate
ale acesteia, majoritatea observaiilor fiind plasate n zona de mijloc a
valorilor posibile.
Atenie! Chiar dac clopotul lui Gauss este deseori menionat n cele mai variate
domenii, chiar de ctre persoane care n-au avut vreodat tangene cu statistica, s-a
artat c puine fenomene din zona economic genereaz astfel de distribuii,
exemplele de distribuii normale venind mai degrab din zona tiinelor naturale.
Graficul de mai jos arat distribuia greutii la natere a fetielor nscute la
termen. Acesta este un caz n care calcularea mediei are sens: distribuia
prezint o tendin central, iar media calculat (n acest exemplu,
media=3,39kg) este un indicator al acestei tendine centrale.

20

Exist ns i situaii n care fenomenele studiate nu prezint o unic tendin


central, aa cum este cazul, de exemplu, pentru distribuiile bimodale.

Graficul de mai sus arat existena a dou tendine n cadrul seriei de date,
ceea ce nseamn c media calculat nu va fi un bun indicator al unei
tendine centrale. Acest grafic este potrivit pentru discuia anterioar privind
o reea de distribuie de carburani polarizat, cu multe benzinrii cu vnzri
reduse i multe benzinrii cu vnzri ridicate.
O alt situaie aparte este prezentat n graficul de mai jos, care ilustreaz
distribuia femeilor i brbailor dup nlime. Dup cum se poate observa,
att distribuia femeilor(cea din stnga), ct i cea a brbailor (cea din
dreapta), au forme apropiate clopotului lui Gauss (chiar dac sunt uor
asimetrice spre stnga).

Aceasta nseamn c, cel mai probabil, media calculat va fi un bun indicator


al tendinei centrale avnd n vedere nlimea indivizilor. Dar probabil doar
n cazul n care media este calculat separat pentru femei i pentru brbai

21

n graficul ce urmeaz, linia punctat reprezint valorile cumulate pentru


ambele sexe. Chiar dac i aceste valori sunt oarecum distribuite sub forma
unui clopot, ele provin din cele dou distribuii distincte de mai sus.
Diferenele evidente existente ntre cele dou distribuii implic faptul c
analiza ar trebui fcut separat pe sexe, nu folosind datele cumulate.

3. Indicatorii medii sunt sensibili n ceea ce privete existena valorilor


extreme (acele valori care se ndeprteaz n mare msur de ansamblul
seriei de date). De aceea, nainte de calcularea acestor indicatori, valorile
aberante trebuie eliminate, dar aceast eliminare trebuie fcut cu mare
precauie i doar pentru acele valori pentru care exist certitudinea c sunt
ntr-adevr aberante. Continund exemplul de mai sus privind vnzrile de
carburani, unele condiii speciale i/sau temporare pot face ca una sau mai
multe staii s aib vnzri extraordinare pe o anumit perioad de timp. O
astfel de staie de distribuie, cu o valoare foarte mare a vnzrilor, nu ar
trebui totui lsat n afara calculului mediei celorlalte staii. Cu toate
acestea, decizia privind excluderea uneia sau mai multor staii din calculul
mediei trebuie s in cont de caracteristicile particulare ale acesteia i de
valorile nregistrate efectiv pn la urm, decizia de excludere este
subiectiv i trebuie bazat pe cunoaterea fenomenului studiat.
4. Nu este obligatoriu ca valoarea calculat a mediei s se regseasc printre
valorile seriei de distribuie (de fapt, acest lucru poate fi considerat chiar
ntmpltor). Cu toate acestea, n mod ideal, seria de distribuie ar trebui s
conin valori apropiate mediei, altfel ne-am putea gsi n situaia descris la
punctul 2.

22

Media aritmetic (momentul iniial de ordinul 1)


Media aritmetic este, de departe, mrimea medie calculat cel mai adesea,
ea prezentnd ceea ce este tipic, comun, n evoluia fenomenului cercetat.
Pentru o serie simpl de valori x1, x2, ..., xn, media aritmetic, notat x a , se
1 n
calculeaz prin intermediul relaiei x a = xi .
n i =1
Pentru o serie de distribuie (serie de distribuie dup variante), unde
x1,x2,...,xp reprezint variantele nregistrate pentru caracteristica X, iar n1,n2,...,np
reprezint frecvenele de apariie ale acestor variante, pentru calcularea mediei
1 p
aritmetice se aplic relaia x a = xi ni . Aceasta mai poart numele de medie
n i =1
aritmetic ponderat, ni reprezentnd ponderile (sau greutile) valorilor xi.
Exemplu: Se cunosc urmtoarele date reprezentnd notele unei grupe de studeni la
cursul de statistic. S se calculeze media aritmetic a acestei serii de distribuie.
Note (xi):
Frecvene (ni):

4
6

5
8

6
16

7
17

8
8

9
3

10
0

Observaie: Dac seria de valori a caracteristicii X este prezentat pe intervale (serie


de distribuie pe intervale), fr a exista posibilitatea analizei datelor primare, atunci,
prin convenie, pentru calcularea mediei aritmetice va fi folosit mijlocul fiecrui
interval. n acest caz, ns, valoarea calculat va fi doar apropiat de valoarea real a
mediei.
Media aritmetic a caracteristicilor alternative
n general, unitile unei populaii statistice pot fi mprite n dou grupe
complementare. Astfel, prezena sau absena unui anumit fenomen va fi
reprezentat prin intermediul unei variabile binare (numit i variabil alternativ,
dihotomic sau boolean).
Exemplu: Starea civil curent a persoanelor dintr-un eantion poate fi ncadrat n
categoria cstorit sau necstorit (fr a ine deci cont de diversele categorii n
care o persoan necstorit se poate afla).
Presupunem c avem urmtoarele date:
Stare civil (xi):
Cstorit (x1=1)
Necstorit (x2=0)
Frecvene (ni):
n1=50
n2=100
Media aritmetic a acestei caracteristici va fi calculat folosind formula prezentat
mai sus, fapt pentru care media este (1*50+0*100)/150=50/150=0,33.

23

n cazul general, se consider o populaie de mrime N, din care P uniti


posed o proprietate (caracteristica binar ia valoarea 1), iar Q=N-P uniti nu
posed acea proprietate (caracteristica binar ia valoarea 0). Media caracteristicii
binare este (1*P+0*Q)/(P+Q)=P/N, uneori notat p, reprezentnd ponderea unitilor
care posed proprietatea respectiv n totalul unitilor populaiei.
Media ptratic (momentul iniial de ordinul 2)
Pentru o serie simpl de valori, media ptratic se calculeaz pe baza relaiei

xp =

1 n 2
xi
n i=1

x
Pentru o serie de distribuie dup variante x 1
n1

calcul a mediei ptratice este x p =

x2 K x p
, formula de
n2 K n p

1 p 2
x i ni
n i =1

Media ptratic se folosete atunci cnd se dorete acordarea unei


importane sporite valorilor mari absolute din cadrul unei serii. n calcularea mediei
ptratice, valorile pozitive i cele negative din cadrul seriei nu se compenseaz (aa
cum se ntmpl n calculul mediei aritmetice). De fapt, ntruct ridicarea la ptrat a
valorilor caracteristicii elimin semnul acestora, calcularea mediei ptratice are sens
doar pentru serii de distribuie cu valori pozitive (altfel returneaz valori ce nu
prezint relevan n raport cu seria pentru care e calculat).
Exerciiu: Calculai media ptratic pentru datele din exemplul de pe pagina
anterioar (notele unei grupe de studeni la cursul de statistic).
Material opional: Media armonic
Pentru o serie simpl de valori, media armonic se determin astfel:
n
xh = n
1

i =1 xi
Pentru o serie de distribuie, media armonic se calculeaz astfel:
n
xh = p
1
ni

i =1 xi
Media armonic se aplic pentru cazuri speciale de serii de date, nlocuind
media aritmetic, n special n domeniul indicilor statistici. n plus, media armonic
este egal cu media aritmetic, calculat din valorile inverse ale termenilor seriei de
distribuie.
24

Datorit metodei de calcul, n determinarea mediei armonice valorile pozitive


le pot compensa pe cele negative.
Exerciiu: Calculai media armonic pentru aceleai date folosite mai sus.
Material opional: Media geometric
Formula de calcul a mediei geometrice pentru o serie simpl este:

xg = n

i =1

n cazul unei serii de distribuie, formula de calcul este x g = n

ni
i

i =1

Aceast msur statistic se utilizeaz mai rar pentru caracterizarea tendinei


centrale pentru o serie de distribuie, fiind recomandat doar atunci cnd seria
prezint variaii foarte mari ntre termeni sau se caracterizeaz printr-un pronunat
caracter de asimetrie.
Material opional: Inegalitatea mediilor
ntre mediile prezentate mai sus exist urmtoarea relaie de ordine:
xh x g xa x p .

Material opional: Media de ordinul k (momentul iniial de ordinul k)


Pentru o serie de distribuie, media de ordinul k se calculeaz conform
formulei:
1

1 p
k
x = xik ni
n i =1

n funcie de valorile parametrului k se obin o serie de cazuri particulare:


pentru k=1 se obine formula de calcul a mediei aritmetice;
pentru k=2 se obine formula mediei ptratice;
pentru k=-1 se obine relaia de calcul a mediei armonice;
pentru k0 se obine formula de calcul a mediei geometrice.

2.2.2 Indicatori medii de poziie


Avantajul indicatorilor medii de poziie este oferit de faptul c acetia in
seama nu numai de valorile seriei de date, dar i de forma de distribuie a acestora.
n plus, indicatorii medii de poziie se pot determina i pentru variabile nenumerice.

25

Valoarea modal (valoarea dominant)


Valoarea modal (notat n acest curs Mo) a unei serii de distribuie este acea
valoare a caracteristicii cu cea mai mare frecven de apariie, fapt pentru care se
mai numete valoarea dominant a seriei.
n cazul n care k variante nregistrate (k>1) au frecven de apariie egal,
atunci seria de distribuie are k valori modale. Cu toate acestea, considerm c
determinarea Mo nu are sens pentru seriile de distribuie pentru care toate
variantele nregistreaz aceeai frecven de apariie.
Pentru seriile de distribuie pe intervale, Mo se determin n doi pai:
-

n primul rnd, se determin intervalul modal ca fiind cel cu frecvena cea


mai ridicat. Notm acest interval prin IMo=[xiinf, xisup).

Apoi, Mo se calculeaz folosind diverse formule de interpolare, bazate pe


anumite presupuneri. Cele mai uzitate sunt:
i) Mo=(xiinf+xisup)/2, dac se consider c n cadrul tuturor intervalelor,deci i
al intervalului modal, frecvenele sunt distribuite uniform. Prin urmare, n
acest caz Mo coincide cu centrul intervalului modal;
ii) Mo=xiinf+li1/(1+2), unde li=xisup-xiinf reprezint mrimea intervalului
modal, 1=ni-ni-1 reprezint diferena dintre frecvena intervalului modal i
frecvena intervalului precedent, iar 2=ni-ni+1 reprezint diferena dintre
frecvena intervalului modal i cea a intervalului urmtor. Aceast formul de
interpolare se aplic atunci cnd se presupune c valorile din distribuia
iniial urmeaz o repartiie normal.
Observaie: Dac 1=2, atunci cele dou formule returneaz aceeai valoare.

Exemplu: S presupunem c distribuia notelor la un examen Grupe de note ni


se prezint conform datelor din tabelul alturat.
[2, 4)
10
Pentru determinarea Mo, primul pas const n determinarea
[4, 6)
30
intervalului modal. Acesta este intervalul [6, 8).
[6, 8)
45
Dac presupunem c notele sunt distribuite uniform n cadrul
[8, 10]
15
acestui interval, atunci Mo=(6+8)/2=7.Dac ns avem indicii
Total
100
potrivit crora valorile sunt distribuite normal n cadrul
intervalelor, atunci Mo va fi determinat pe baza formulei prezentate mai sus,
respectiv Mo=6+(8-6)*(45-30)/[(45-30)+(45-15)]=6,67.
Observaie: Dac nu avem indicii privind distribuia valorilor n cadrul intervalelor,
aplicarea uneia dintre metodele de interpolare de mai sus poate duce la rezultate
eronate. De exemplu, date fiind datele din tabel, este posibil ca valoarea 5 s apar
de 28 de ori n cadrul seriei iniiale de date, n timp ce valorile 6 i 7 s apar de 20,
26

respectiv 25 de ori. Calculele precedente indic Mo ca fiind 7 sau 6,67, nu 5. Aceast


eroare apare datorit faptului c nu beneficiem de observaiile originale, ci de datele
agregate. Lipsa de informaie este suplinit de ipoteze, care pot fi adevrate sau nu.
Valoarea median (cuantila de ordinul 2)
Mediana seriei de distribuie (notat n acest curs Me) este acea valoare care
mparte seria n dou grupuri egale din punct de vedere al numrului elementelor
existente de cele dou pri ale acestei valori. Altfel spus, numrul valorilor
individuale mai mari dect mediana va fi egal cu numrul valorilor individuale mai
mici dect mediana.
Me se determin pentru seriile de distribuie ale cror valori sunt ordonabile
cresctor sau descresctor, fapt pentru care acest indicator mediu de poziie nu se
calculeaz pentru caracteristici nominale (ale cror valori nu pot fi ordonate).
Pentru o serie simpl de valori, determinarea Me presupune, n primul rnd,
ordonarea cresctoare sau descresctoare a valorilor individuale ale caracteristicii.
Dup ordonare, mediana se identific astfel:
-

Dac seria ordonat are un numr impar de termeni, n, Me corespunde


valorii de rang (n+1)/2;

Exemplu: n seria (5, 6, 13, 20, 34, 40, 61), Me=20.


-

Dac seria ordonat cresctor este format dintr-un numr par de termeni
atunci, n mod convenional, Mese determin ca medie aritmetic ntre
valoarea individual de rang n/2 i cea de rang n/2+1.

Exemplu: n seria (13, 28, 34, 40, 58, 61), Me=(34+40)/2=37.


Observaie: n cazul seriei simple cu numr impar de valori, mediana determinat
respect pe deplin definiia de mai sus, n timp ce n cazul seriei cu numr par de
valori, mediana se determin n mod convenional i nu respect pe deplin definiia
dat.
n cazul unei serii de distribuie dup variante (valori individuale cu frecvene
de apariie), semnificaia Me este afectat de metoda de calcul. n aceast situaie,
Me este considerat a fi acea valoare individual a caracteristicii corespunztoare
primei frecvene cumulate care depete (n+1)/2.
Exemplu: Tabelul de mai jos cuprinde informaii cu privire la numrul de aparate
defecte (xi) dintr-o sut de loturi de aparate.
Din tabel se observ c prima frecven cumulat cresctor care depete
(100+1)/2=50,5 este 70, aceasta corespunznd numrului median de 2 aparate
defecte ntr-un lot. Me astfel determinat nu respect ntru totul definiia dat,
deoarece observm c valoarea 2 nu mparte seria n dou pri egale: numai 30%
27

din loturi au un numr de defecte mai mic dect 2 i nu 50%, cum cere definiia. Din
aceast cauz, n asemenea situaii, folosirea medianei ca indicator mediu de poziie
nu este cea mai bun practic.
Numr de
aparate
cu defecte
ntr-un lot (xi)
0
1
2
3
4
5
Total

Numr de
loturi de
aparate (ni)
10
20
40
15
10
5
100

Numr cumulat
cresctor de
loturi de
aparate
10
30
70
85
95
100

n cazul unei serii de distribuie pe intervale (cnd datele i pierd


individualitatea), Me se determin doar n mod aproximativ, printr-un procedeu de
interpolare liniar bazat pe ipoteza repartizrii uniforme a frecvenelor n intervalul
median. Procedeul de determinare a valorii mediane se desfoar n urmtoarele
etape:
-

Se identific intervalul median, cel care corespunde primei frecvene


cumulate cresctor care depete (n+1)/2. Notm acest interval prin
IMe=[xiinf, xisup).
n + 1 i 1
nj
2
j =1
inf
Me se determin cu ajutorul relaiei Me = xi + li
, unde li=xisupni
inf
xi reprezint mrimea intervalului median, ni este frecvena intervalului
median, iar

i 1

n
j =1

este suma frecvenelor precedente intervalului median.

Exemplu: Vom determina valoarea median pentru Grupe


datele din exemplul de la pagina 26 (date privind notele
de
note
obinute la un examen). Pentru aceasta, trebuie mai
[2-4)
nti s calculm frecvenele absolute cumulate
[4-6)
cresctor.
[6-8)
Intervalul median este [6, 8), ntruct frecvena
[8-10]
cumulat cresctor pentru acesta este prima care
Total
depete valoarea (100+1)/2=50,5. Apoi, folosind
relaia de mai sus, Me=6+(8-6)*(50,5-40)/45=6+2*10,5/45=6,47.

28

ni

10
30
45
15
100

Frecvene
Cumulate
cresctor
10
40
85
100

Cuartilele (cuantilele de ordinul 4)


Cuartilele sunt valori localizate ntr-o serie ordonat, care mpart aceast
serie n patru pri egale, astfel nct fiecare diviziune conine 25% din valorile
individuale nregistrate pentru acea variabil numeric. Procedeul de determinare a
celor 3 cuartile (Q1, Q2, Q3) este asemntor cu cel de determinare a valorii mediane.
Observaie: Q2=Me
Mult mai rar folosite sunt decilele (cuantilele de ordinul 10) i centilele
(cuantilele de ordinul 100). Cele 9 decile mpart seria de distribuie n 10 grupe,
fiecare dintre acestea cuprinznd 10% din numrul de observaii, iar cele 99 de
centile mpart seria n 100 de grupe, fiecare dintre acestea cuprinznd 1% din
numrul de observaii.
Observaii privind indicatorii tendinei centrale
Atunci cnd caracteristica pe baza creia s-a definit seria de valori este una
nominal, se poate determina doar Mo.
Pentru o serie de date a unei caracteristici ordinale se pot determina Me sau
Mo, calcularea mediei fiind imposibil. Dac seria este numeric, dintre aceti doi
indicatori va fi aleas Me, aceasta fiind o msur mai stabil fa de Mo.
Media aritmetic este cel mai frecvent folosit indicator al tendinei centrale,
dar aceast medie este sensibil la existena valorilor aberante i nu este potrivit
pentru o distribuie multimodal sau cu o asimetrie pronunat. Pentru astfel de serii
de distribuie se recomand folosirea Me sau Mo, care sunt mai robuste la prezena
valorilor extreme.
2.3 Indicatori pentru caracterizarea dispersrii seriilor de distribuie
Indicatorii tendinei centrale, n special valoarea calculat a mediei, sunt
reprezentativi numai n msura n care seria de date este omogen (seria are, ntradevr, o tendin central). Verificarea omogenitii valorilor individuale necesit
msurarea i analiza mprtierii/concentrrii fa de valorile tipice calculate.
Exemplu: S presupunem c, n dou populaii, aceeai variabil nregistreaz valorile
(2,2,2,10,18,18,18) i (9,9,9,9,10,11,11,11,11). Cele dou serii au aceeai medie
aritmetic i aceeai valoare median, ambele egale cu 10, dar mprtierea valorilor
individuale este diferit, a doua serie fiind evident mai omogen.
Indicatorii mprtierii utilizai n analizele statistice sunt de mai multe feluri.
Astfel, n funcie de numrul de variante luate n calcul (sau dup gradul lor de
sintez) exist indicatori simpli i indicatori sintetici.
29

Indicatorii simpli ai dispersrii sunt msuri statistice obinute dintr-un numr


redus de valori individuale, n general prin compararea sub form de diferen cu
indicatorul tendinei centrale, fapt pentru care se exprim n unitatea de msur a
variabilei observate. Un exemplu de indicator simplu al dispersrii este amplitudinea
seriei, calculat n valoare absolut (xmax-xmin) sau n procente, relativ la media seriei
de distribuie. Un alt exemplu l reprezint abaterea intercuantilic, calculat ca
diferen ntre cuantila superioar i cea inferioar, ambele avnd acelai ordin.
ntruct informaiile despre variabilitate oferite sunt relativ reduse, indicatorii simpli
ai mprtierii sunt folosii destul de rar.
Spre deosebire de indicatorii simpli, indicatorii sintetici ai mprtierii
exprim printr-o singur valoare numeric variaia tuturor valorilor individuale fa
de tendina central. La baza determinrii indicatorilor sintetici stau abaterile
individuale dar, pentru a se evita compensarea celor cu valori pozitive cu cele cu
valori negative, abaterile vor fi luate n modul sau se va opera cu ptratele acestora.
Principalii indicatori sintetici ai mprtierii fa de tendina central sunt abaterea
medie absolut, dispersia, abaterea medie ptratic i coeficientul de variaie.
Abaterea medie absolut (abaterea medie liniar)
Abaterea medie absolut reprezint media aritmetic (simpl sau ponderat)
a abaterilor absolute ale termenilor seriei de la tendina lor central, caracterizat cu
ajutorul mediei sau medianei. Dac notm prin c valoarea tipic a tendinei centrale
fa de care se analizeaz dispersia seriei (valoarea medie sau median), atunci se
folosesc urmtoarele relaii:
1 n
pentru o serie simpl d c = xi c
n i =1
pentru o serie de distribuie dup variante (cu frecvene) d c =

1 p
xi c ni
n i =1

n cazul seriilor de distribuie pe intervale, pentru calculul abaterii medii


liniare se iau n considerare centrele intervalelor. Prin urmare, calculul se face
folosind formula enunat mai sus, valabil i n cazul seriilor de distribuie pe dup
variante.
Abaterea medie absolut se exprim n aceeai unitate de msur cu cea a
caracteristicii, fapt pentru care acest indicator nu se poate utiliza pentru a compara
dispersarea seriilor de date pentru caracteristici diferite (exprimate n uniti de
msur diferite).
Exemplu: Se consider seria simpl (1,2,4,5,7,8,9,10,11,13). Media acestei serii este
7, iar mediana este 7,5. Tabelul de mai jos conine abaterile absolute fa de medie
i median, precum i sumele corespunztoare.
30

xi
1
2
4
5
7
8
9 10 11 13 Total
|xi-7|
6
5
3
2
0
1
2
3
4
6
32
|xi-7,5| 6,5 5,5 3,5 2,5 0,5 0,5 1,5 2,5 3,5 5,5 32
Potrivit formulelor de mai sus, d x = d Me = 3,2 . Aceast egalitate nu are loc
foarte frecvent, n general cei doi indicatori avnd valori distincte. De fapt, n general
d Me d x .

Dispersia (variana, momentul centrat de ordinul 2)


Variana unei serii de distribuie se calculeaz ca medie aritmetic a
ptratelor abaterilor valorilor individuale de la media aritmetic a acesteia.
Prin urmare, pentru o serie simpl de repartiie, formula de calcul a dispersiei este
p

=
2

( xi x ) 2
i =1

, iar pentru o serie de distribuie dup variante =


2

(x
i =1

x ) 2 ni
n

Date fiind aceste formule, se poate observa c, la fel ca n cazul mediei,


dispersia este sensibil la prezena valorilor aberante.
Variana este un indicator intermediar pentru aprecierea gradului de
dispersare al unei serii de distribuie. Acest indicator sintetic al mprtierii nu se
exprim ntr-o unitate concret de msur (de fapt, se poate exprima n ptratul
unitii de msur a seriei, dar unitatea de msur este cel mai frecvent ignorat, din
considerente practice). Mrimea varianei este influenat direct de ordinul de
mrime al valorilor seriei de distribuie (variana nu este o msur normalizat). De
exemplu, dac valorile individuale ale unei serii sunt multiplicate cu 10, valoarea
calculat a varianei va fi de 100 de ori mai mare dect cea obinut din datele
originale.
Pentru o serie simpl de valori sau de distribuie, cu ct valoarea varianei
este mai apropiat de zero, cu att dispersarea acestei serii n jurul mediei este mai
redus (variana unei serii de valori constante este egal cu zero).
Tem: Calculai valoarea varianei pentru datele din exemplul precedent.
Material opional: Regula de adunare a dispersiilor
Pentru o populaie mprit n p grupe, dac 2x reprezint variana total,
calculat pentru ansamblul seriei, 2xi, cu i=1,2,...,p reprezint varianele la nivelul
grupelor, ni reprezint numrul de valori din cadrul fiecrei grupe i, iar x i media
caracteristicilor la nivelul grupei i, atunci

31

x2 =

xi2 ni

(x

x) 2 ni

2
2
+ i=1
= int
+ ext
n
n
2int reprezint media varianelor grupelor. Aceasta cuantific dispersia din
interiorul grupelor, deci dispersia datorat aciunii factorilor locali, ce au impact la
nivelul acestor grupe. 2ext, variana mediilor de grup, este un indicator al dispersrii
acestor medii n jurul mediei seriei de date. 2ext cuantific dispersarea datorat
factorului de grupare, prin intermediul acestui factor msurndu-se disimilaritile
dintre grupe.
Pe baza egalitii de mai sus a fost enunat regula de adunare a dispersiilor,
care spune c dispersia total este egal cu suma dintre media dispersiilor i
dispersia mediilor.
i =1

Urmtorii indicatori relativi sunt calculai i interpretai n practica statistic:


o Coeficientul de determinare, k1=2ext/2x. Acest indicator msoar influena
factorului de grupare, n funcie de care s-a structurat colectivitatea general,
asupra varianei caracteristicii urmrite.
o Coeficientul de nedeterminare, k2=2int/2x=1-k1. Acest indicator exprim
msura n care variaia caracteristicii urmrite (dispersia total) este
influenat de variaia factorilor aleatori, care acioneaz n interiorul
subcolectivitilor.
Exemplu: Considerm valorile variabilei X (productivitatea muncii) pentru dou grupe
(dou secii ale unei ntreprinderi), sub forma seriilor urmtoare:
Grupa A
(20, 30, 27, 9, 6, 40, 50, 32, 39, 43, 26, 15, 18), n1=13
Grupa B
(10, 20, 31, 37, 39, 40, 20, 6, 8, 25, 31, 10, 10, 22, 21, 30, 5), n2=17
Aplicnd formulele de pn acum, obinem urmtoarele rezultate:
La nivelul grupei A, x1 = 355 / 13 = 27,31 iar x21 = 166,85 .
La nivelul grupei B, x 2 = 365 / 17 = 21,47 iar x22 = 132,39 .
La nivelul ntregii serii de distribuie, x = 720 / 30 = 24 iar x2 = 155,69 .
2
Variana la nivelul grupelor este int
=

166,85 13 + 132,39 17
= 147,32 .
30

( 27,31 24) 2 13 + ( 21,47 24) 2 17


= 8,37 .
30
Regula de adunare a dispersiilor enunat mai sus este verificat, ntruct
2
Variana dintre grupe este ext
=

2
int2 + ext
= 147,32 + 8,37 = 155,69 = x2 .

Nu n ultimul rnd, coeficienii pentru msurarea influenei celor dou


categorii de factori n cadrul dispersiei totale a seriei de distribuie sunt
k1=8,37/155,69=0,054, iar k2=147,32/155,69=0,946.

32

Aceste rezultate arat c cele dou grupe nu se deosebesc prea mult n ceea
ce privete dispersia valorilor n jurul mediilor din grup, ntruct dispersia
productivitii la nivelul ntregii ntreprinderi este explicat ntr-o msur
covritoare (94,6%) de variaia productivitii ca urmare a factorilor specifici i
aleatori care acioneaz n cadrul fiecrei secii A i B. Calculele de mai sus arat c
dispersia productivitii generale este explicat doar ntr-o mic msur (5,4%) de
mprtierea productivitilor medii ale seciilor fa de productivitatea medie a
ntreprinderii. Altfel spus, influena factorului de grupare asupra varianei
productivitii este foarte redus.
Dispersia caracteristicilor alternative
Dup cum am vzut deja, prezena sau absena unui anumit fenomen este
reprezentat prin intermediul unei variabile binare (numit i variabil alternativ,
dihotomic sau boolean). n cazul general, se consider o populaie de mrime N,
din care P uniti posed o proprietate, iar Q=N-P uniti nu posed acea
proprietate. Prin convenie, caracteristica binar va lua valoarea 1 pentru acele
uniti care posed proprietatea i valoarea 0 pentru cele care nu posed acea
proprietate. De aceea, media caracteristicii binare este (1*P+0*Q)/(P+Q)=P/N,
reprezentnd ponderea unitilor care posed proprietatea n totalul unitilor
populaiei.Variana caracteristicii binare este
(1 P / N ) 2 P + (0 P / N ) 2 Q (Q / N ) 2 P + ( P / N ) 2 Q PQ / N 2 (Q + P ) P Q
=
=
=
(P + Q)
( P + Q)
(P + Q)
N N

Dac notm p=P/N, atunci dispersia variabilei binare poate fi scris ca p(1-p),
reprezentnd produsul dintre ponderea n totalul unitilor populaiei a unitilor
care posed proprietatea i ponderea unitilor care nu posed acea proprietate.
Exerciiu: Considerm o populaie caracterizat printr-o variabil binar 0/1
reprezentnd, de exemplu, mediul de reziden urban/rural, sexul masculin/feminin,
mrimea firmei mic/mare etc. Care este media celei mai eterogene astfel de
populaii?
Pentru a rspunde acestei ntrebri, s ne gndim mai nti care ar putea fi
cea mai omogen populaie caracterizat de o variabil binar. Este acea populaie
n care toate unitile posed proprietatea urmrit sau, din contr, nicio unitate nu
posed acea proprietate. De exemplu, dac variabila binar reprezint mediul de
reziden urban/rural, cea mai omogen populaie este cea n care toi indivizii
provin din mediul urban sau toi provin din mediul rural. Prin comparaie, o
populaie n care 99% din indivizi provin din mediul urban, n timp ce 1% provin din
mediul rural este tot o populaie cu o omogenitate ridicat, dar totui uor inferioar
celei n care absolut toi indivizii aparin unui mediu de reziden. Continund n
33

acest sens, acea populaie n care 50% din indivizi provin din mediul urban i 50%
provin din mediul rural este cea mai eterogen populaie caracterizat prin aceast
variabil binar. Dac notm cu 1 apartenena la mediul urban i cu 0 pe cea la
mediul rural, media va fi p=P/N=0,5.
Care este dispersia celei mai eterogene astfel de populaii? Cu alte cuvinte,
care este valoarea maxim a dispersiei pentru o variabil alternativ? Dup cum
spuneam mai sus, media celei mai eterogene populaii este p=P/N=0,5, ceea ce
nseamn c dispersia este p(1-p)=0,5*0,5=0,25.
Abaterea medie ptratic (abaterea standard)
Abaterea standard se calculeaz ca rdcin ptrat din dispersie, = 2 .
Aceasta este o msur statistic utilizat frecvent pentru caracterizarea
gradului de dispersare a valorilor seriei n jurul mediei, indicatorul fiind recomandat,
n principal, datorit faptului c se calculeaz pe baza unei relaii simple.
Faptul c acest indicator se exprim ntr-o unitate concret de msur (n
unitatea seriei de date) poate fi vzut drept un avantaj, ntruct interpretarea
rezultatelor este facilitat de aceast trstur, dar i drept un dezavantaj, ntruct
acest indicator nu poate fi folosit pentru compararea dispersrii unor serii de date
diferite.
De regul, abaterea standard este folosit pentru caracterizarea distribuiilor
teoretice. ntruct detalii despre aceste aspecte vor fi prezentate ulterior,
menionm doar c dac distribuia unitilor din colectivitatea investigat, dup
caracteristica urmrit, este sub form de clopot (fie i uor asimetric), atunci

(x , x + ) conine aproximativ 68% din observaii, intervalul


(x 2 , x + 2 ) conine puin peste 95% din observaii iar aproape toate observaiile
(99,74% din acestea) sunt situate n intervalul (x 3 , x + 3 ) .
intervalul

Coeficientul de variaie (de omogenitate)


ntruct att media, ct i abaterea standard, sunt indicatori exprimai n
unitatea de msur a caracteristicii analizate, aceti indicatori nu pot fi folosii
pentru a compara dou serii de date ce sunt exprimate n uniti de msur diferite.
De exemplu, nu putem compara media i abaterea standard calculate pentru o serie
ce se refer la vnzarea unui produs, cu valori exprimate fizic, cu msurile similare
ale altei serii exprimate n uniti monetare.
Coeficientul de variaie nltur acest inconvenient, ntruct este o mrime
adimensional ce se calculeaz prin raportarea abaterii standard la nivelul mediu al
seriei de distribuie: CV = / x 100.
Datorit modului de calcul, o valoare mai mic a coeficientului de variaie va
indica o omogenitate mai ridicat a seriei supuse analizei. n practic se consider c
34

CV<35% reprezint o colectivitate omogen, n timp ce CV<17% reprezint o


populaie foarte omogen.
Coeficientul de variaie este i un indicator al reprezentativitii mediei (a
reprezentativitii indicatorilor tendiei centrale, n general). Astfel, dac valoarea CV
este sub pragul de 35% (n mod ideal sub 17%), colectivitatea este apreciat drept
omogen (respectiv foarte omogen), acest lucru indicnd existena unei singure
tendine n cadrul seriei. Prin urmare, media calculat, mediana i valoarea modal
au semnificaia dorit, media fiind o msur reprezentativ pentru aceast unic
tendin central a seriei de distribuie.
Exerciiu: Se cunosc datele privind depunerile
populaiei pe parcursul unei sptmni n conturile
de economii deschise la o sucursal a unei uniti
bancare. Tabelul alturat indic aceste date.
Calculai i interpretai indicatorii gradului de
dispersare a acestei serii de distribuie pe intervale.

Grupe de Numr
intrri n
de
xi
cont
intrri
(mii lei)
(ni)
(1)
(2)
(3)
[3, 4)
26
3,5
[4, 5)
33
4,5
[5, 6)
64
5,5
[6, 7)
7
6,5
[7, 8]
10
7,5
Total
140

xini

(4)
91
148,5
352
45,5
75
712

Abaterea medie absolut d c =

Grupe de intrri
n cont (mii lei)
[3, 4)
[4, 5)
[5, 6)
[6, 7)
[7, 8]
Total

Numr de
intrri (ni)
26
33
64
7
10
140

Frecvene
cumulate
cresctor

xi x

xi x ni

( xi x) 2

( xi x) 2 ni

(5)
26
59
123
130
140

(6)
-1,59
-0,59
0,41
1,41
2,41

(7)
41,34
19,47
26,24
9,87
24,1
121,02

(8)
2,528
0,349
0,168
1,988
5,808

(9)
65,728
11,517
10,752
13,916
58,08
159,993

1 p
xi c ni , unde d reprezint media aritmetic sau
n i =1

mediana seriei de distribuie, fapt pentru care trebuie s determinm aceti


indicatori ai tendinei centrale.
Din tabelul de mai sus reiese c x = 712 / 140 = 5,09 (mii lei).
Apoi, dat fiind c (n+1)/2=141/2=70,5 (intrri), prima frecven cumulat ce
depete acest prag corespunde intervalului [5, 6), acesta fiind deci intervalul
median.

35

Formula pentru determinarea medianei este Me = xiinf

n + 1 i 1
nj
2
j =1
+ li
, fapt pentru
ni

care Me=5+(70,5-59)/64=5+11,5/64=5,18 (mii lei).


Abaterea medie absolut fa de media aritmetic este 121,02/140=0,864 (mii lei).
(Nu am mai calculat abaterea medie absolut fa de median, dar aceasta se poate
determina n mod similar.)
Formula de calcul a dispersiei este 2 =

1 p
( xi x) 2 ni = 159,993 /140 = 1,143 .
n i =1

Abaterea medie ptratic se calculeaz ca radical din dispersie, deci =1,069 (mii lei).
Coeficientul de variaie se calculeaz conform formulei CV = / x 100, fapt pentru
care CV=1,069/5,09*100=21%.
ntruct coeficientul de variaie este inferior pragului de 35%, populaia care a
produs seria de distribuie de mai sus poate fi considerat drept omogen. Prin
urmare, media aritmetic determinat anterior (5,09 mii lei) este vzut drept un
bun indicator al tendinei centrale a seriei de distribuie.
2.4 Indicatori pentru caracterizarea formei seriilor de distribuie
Pentru caracterizarea asimetriei i/sau aplatizrii unei serii de distribuie se
poate recurge la reprezentarea grafic a acesteia sau la un ansamblu de indicatori
statistici. Metoda grafic, ce se recomand a fi aplicat ca punct de plecare, se poate
utiliza pentru orice fel de variabile (calitative i cantitative), seria de distribuie fiind
reprezentat prin intermediul histogramei sau a poligonului frecvenelor. Indicatorii
pe care i vom prezenta n continuare, utilizai pentru verificarea caracterului normal
al distribuiei seriei de valori, se pot calcula doar pentru caracteristici numerice.
2.4.1 Indicatori ai asimetriei seriilor de distribuie
O distribuie este asimetric dac valorile sale, reprezentate prin frecvene
(absolute sau relative), sunt inegal dispersate de o parte i de alta a valorii centrale.

Asimetrie spre dreapta

Asimetrie spre stnga

36

Compararea indicatorilor tendinei centrale


Simpla inspectare vizual a distribuiei valorilor seriei poate arta dac
aceasta este asimetric sau nu. n plus, compararea principalilor indicatori ai
tendinei centrale, respectiv valoarea medie ( x ), valoarea median (Me) i valoarea
modal (Mo) indic direcia asimetriei. Pentru o distribuie simetric, x = Me = Mo.
n cazul distribuiilor asimetrice spre dreapta, x < Me < Mo , n timp ce n cazul
distribuiilor asimetrice spre stnga, Mo < Me < x.
Exerciiu: Pentru cele dou grafice de mai sus, ncercai s estimai unde ar fi
poziionate valoarea medie, valoarea median i valoarea modal. Se confirm
relaiile de mai sus ntre cei trei indicatori?
Coeficientul de asimetrie Yulle-Kendall (coeficientul lui Bowley)
Definit pe baza celor trei cuartile ale seriei de date. Relaia de calcul este
C asYK =

(Q3 Me ) ( Me Q1 ) (Q3 Q2 ) (Q2 Q1 )


.
=
(Q3 Me) + ( Me Q1 ) (Q3 Q2 ) + (Q2 Q1 )

Valoarea CasYK este cuprins n intervalul [-1, 1]. Semnul coeficientului indic
direcia asimetriei. Astfel, CasYK>0 indic asimetrie spre stnga, respectiv etalarea
frecvenelor ridicate n partea dreapt a distribuiei (altfel spus coada din dreapta
a distribuiei este mai lung dect coada din stnga), n timp ce CasYK<0 indic
asimetrie spre dreapta, respectiv etalarea frecvenelor mai ridicate n partea stng
a distribuiei. CasYK=0 este caracteristic unei serii simetrice (pentru care cuartilele
sunt echidistante).
n afara semnului CasYK, mrimea acestui coeficient indic intensitatea
asimetriei. Astfel, |CasYK|<0,1 corespunde unei serii relativ simetrice, 0,1<|CasYK|<0,3
indic o serie moderat asimetric, n timp ce o valoare absolut a acestui coeficient
peste 0,3 corespunde unei serii cu un pronunat caracter asimetric.
Coeficientul de asimetrie al lui Pearson
Recomandat a fi calculat n cazul seriilor de distribuie slab asimetrice. Acest
indicator este calculat pe baza mediei, a valorii modale i a abaterii standard, relaia
de calcul fiind

CasP = ( x Mo) / .
Cu ct valorile acestui indicator sunt mai apropiate de zero, cu att seria este
mai simetric (simetria exist cnd CasP=0). CasP<0 indic faptul c seria prezint
asimetrie spre dreapta, iar CasP>0 este caracteristic unei serii asimetrice spre stnga.
37

ntruct n cazul unei serii de distribuie cu asimetrie redus se verific relaia

Mo x 3( Me x), pentru caracterizarea asimetriei unei astfel de serii se poate


folosi indicatorul calculat potrivit relaiei CasP = 3( x Me) / .
Fiind un indicator adimensional, coeficientul de asimetrie propus de Pearson
se utilizeaz i n analiza comparativ a asimetriei pentru mai multe serii de
distribuie.
Coeficientul de asimetrie al lui Fisher
Determinat pe baza relaiei dintre momentele centrate de ordinul 2 i 3.
Pentru o serie de distribuie dup variante (cu frecvene), momentul centrat
1 p
de ordinul k se calculeaz pe baza relaiei k = ( xi x ) k ni . Dup cum se poate
n i =1
observa, momentul centrat de ordinul 1 reprezint media abaterilor valorilor
individuale de la media seriei de distribuie, n timp ce momentul centrat de ordinul
2 este dispersia seriei de distribuie.
Momentul centrat de ordinul 3 (notat 3) este un indicator al asimetriei, fr
ca acesta s pun ns n eviden intensitatea asimetriei. Astfel, dac 3<0, atunci
distribuia prezint asimetrie spre dreapta, pentru 3=0 se apreciaz c seria este
simetric, iar pentru 3>0, distribuia este asimetric spre stnga.
Propunerea lui Fisher a fost de a calcula un indicator pe baza relaiei
CasF=3/3.
Informaiile oferite de acest indicator permit att caracterizarea sensului, ct
i a intensitii asimetriei. De remarcat c, ntruct >0, semnul CasF este dat de
semnul momentului centrat de ordinul 3, fapt pentru care interpretarea este similar
cu a celor de mai sus: CasF<0 indic asimetrie spre dreapta, CasF>0 indic asimetrie
spre stnga, iar CasF=0 indic faptul c seria de distribuie este simetric. Intensitatea
asimetriei seriei de distribuie este indicat de mrimea coeficientului CasF, cu ct
acesta este mai mare (n valoare absolut), cu att asimetria este mai pronunat.
2.4.2 Indicatori ai aplatizrii seriilor de distribuie
O serie de distribuie este aplatizat dac la variaii mari ale valorii
caracteristicii observm variaii limitate ale frecvenelor. Aprecierea gradului de
aplatizare (de boltire) a seriei se face, ntr-o prim etap, prin compararea curbei
frecvenelor acesteia cu cea a repartiiei normale (Gauss-Laplace) ce are aceeai
medie i abatere standard cu a seriei de date investigate. Acest raionament este
vizualizat n figura de mai jos, unde curba indicat prin linia roie continu este curba
normal (denumit i mezocurtic), cea indicat prin linia albastr punctat este o
curb leptocurtic, iar cea indicat de linia mov punctat fin este o curb platicurtic.

38

Rdcinile etimologice ale denumirilor utilizate sunt greceti: kurtos = cocoat, platys
= larg, lat, leptos = ngust, subire.

Analitic, pentru caracterizarea aplatizrii (boltirii) seriei de distribuie se


calculeaz coeficienii lui Pearson i lui Fisher pentru aplatizare.
Coeficientul lui Pearson pentru aplatizare
Determinat pe baza momentelor centrate de ordinul 2 i 4. Formula de calcul
este
CapP=4/22=4/4.
Pentru repartiia normal, valoarea acestui indicator este egal cu 3. Prin
urmare, pentru a aprecia boltirea unei serii, valoarea indicatorului calculat va fi
comparat cu 3 (pentru majoritatea seriilor economice, valoarea indicatorului se
situeaz ntre 2 i 6). Astfel, dac valoarea calculat a CapP3, atunci seria de
distribuie urmeaz o repartiie aproximativ normal (este mezocurtic). Dac
CapP>3, atunci curba frecvenelor este leptocurtic, distribuia fiind mai ascuit
dect cea normal. n fine, dac CapP<3, atunci curba prezint o aplatizare pronunat
(este platicurtic).
Coeficientul lui Fisher pentru aplatizare
Este o transformare a coeficientului lui Pearson. Astfel, CapF= 4/22-3=CapP-3,
interpretarea acestui indicator fiind evident.

39

Tem: Caracterizai asimetria i aplatizarea distribuiei punctelor obinute de 60 de


studeni (atenie, va trebui s calculai cuartilele, ntr-un mod similar calculului Me).
Punctajul
Nr. studeni (ni)

0-20 20-40 40-60 60-80 80-100 100-120 Total


4
8
11
19
12
6
60

40