Sunteți pe pagina 1din 8

ELEMENTE DE BIOSTATISTIC - Lucian V.

Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

INDICATORI STATISTICI
Extragerea de informaii dintr-un set de date se realizeaz n prima etap prin calculul
indicatorilor statistici, realiznd o form descriptiv a cunotinelor. Tot n aceast faz de lucru,
reprezentarea repartiiei de frecvene poate aduce informaii suplimentare asupra tipului de distribuie
urmat de datele de examinare.
n studiul distribuiei de frecvene a caracteristicii unei populaii se observ tendine ce prezint
dou aspecte: 1 de localizare (de poziie), 2 de mprtiere (de variaie).
Analiza cantitativ care s permit evaluri i comparaii din punct de vedere al localizrii sau al
mprtierii datelor se poate efectua numai cu ajutorul indicatorilor statistici. Acetia exprim numeric
pe baza valorilor de studiu, fie localizarea, fie variaia datelor.
Indicatori de localizare sau de poziie
Prin determinarea acestora, se indic valoarea spre care tind s se grupeze datele reale. Sunt mai
multe tipuri de indicatori de poziie, care difer ca mod de calcul i de asemenea, funcie de caz i n
valoare.
Media aritmetic (simpl)
Este indicatorul de baz al tendinei de localizare. Considerm irul de date x1, x2, ,xn. Media
aritmetic se noteaz cu X sau M(x).
n

Formula de calcul:

x=

x1 + x 2 + ... + x n
=
n

xi
i =1

Media aritmetic ponderat


Dac avem frecvenele absolute a1, a2, , am corespunztoare valorilor x1, x2, ., xm), atunci
media se poate calcula conform formulei:
m

x=

a1 x1 + a 2 x 2 + ..... + a m x m
=
a1 + a 2 + ... + a m

aj xj
j =1

sau, folosind frecvenele relative fj,


m

aj xj
x=

j =1

j =1

aj
n

xj =

f j xj.
j =1

Media aritmetic ponderat i media aritmetic simpl reprezint acelai indicator. Evident pentru
un ir de date valoarea mediei aritmetice este aceeai indiferent de metoda de calcul. Totui n practic
se poate grei dac se calculeaz media folosind numai valorile unice din cadrul irului. Trebuie
acordat o atenie deosebit n exprimarea frecvenei de apariie a valorilor unice.
Exemplu
Dac avem irul format din elementele {x1, x2, x3, x3, x4, x5} se poate grei dac media se
calculeaz cu formula: X =

x1 + x2 + x3 + x4 + x5
(deoarece x3 apare de dou ori).
5

Media armonic
Se utilizeaz n calculul valorii medii pentru mai multe mrimi relative (este mai potrivit dect
valoarea medie simpl).
Valoarea reciproc (invers) a mediei armonice este media reciprocelor valorilor din lot. Pentru
irul de valori x1, x2, x3, , xn se noteaz cu MH media armonic. Formula de calcul este :

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

1
1 n 1
1
n
, MH =
, cu condiia xi 0 .
=
= n
1 1
1
M H n i =1 xi
1
+
+ ... +
x1 x2
xn i
=1 xi
n

Considernd frecvenele absolute ai obinem urmtoarea formul de calcul a mediei armonice

= m
ponderate: M H = n
aj
1

i =1 xi

j =1 j

1
aj

Notnd cu fi frecvenele relative obinem: M H =


=
m a
j

j =1 j

j =1

n
xj

1
m

fj

j =1 j

Xi

i =1

O formul echivalent este: M H = n


1

'
i =1 xi

Xi

Xi reprezint valorile absolute, xi' sunt valorile relative, n volumul eantionului.


Exemplu
Mortalitatea n 5 localiti este de 8, 9, 9,5, 10, respectiv 7. Numrul de locuitori este
4000, 6000, 4300, 5000, respectiv 6340.

NH =

4000 + 6000 + ...


= 8,47 0 00 .
1
1
4000 + 6000 + ...
8
9

Este un indicator de localizare mai bun dect media aritmetic pentru acest caz.
Se folosete rar, fiind util n special n cadrul distribuiilor n form de J.
Media cronologic
Este utilizat pentru seriile care au variaii n timp (lunare, semestriale sau anuale).

X1
Formula de calcul: M C =

+ X 2 + ... + X n 1 +
n 1

Xn

2 .

Exemplu Numrul de gravide aflate n eviden la nceput de an a fost de 106. La sfritul celor 4
trimestre au fost 111, 125, 131 i 84. O aproximare mai bun a mediei pe trimestre este:

MC =

106 + 111 + 125 + 131 + 84


2
2 = 115 .
5 1

Media geometric
Se utilizeaz n calculul coeficienilor de cretere medie a valorilor unei serii cronologice
logaritmice, sau a seriilor cu cretere progresiv cu raie cresctoare. De exemplu, se folosete n
calculul ritmului mediu de cretere anual sau n dinamica sporului natural al populaiei.
Media geometric a unui ir de valori x1, x2, , xn se noteaz de obicei cu MG i se calculeaz cu
formula:
n

M G = n x1 x 2 x3 ... x n = n xi .
i =1

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Prin nmulirea numerelor se poate ajunge uor la valori foarte mari. Pentru a nu depi valoarea
maxim admis de computer, se poate folosi urmtorul artificiu matematic:

lg M G =
xi.

lg x1 + lg x 2 + ...... + lg x n 1 n
= lg xi = lg xi se calculeaz media logaritmului de
n
n i =1

Reamintim i formula de trecere dintr-o baz a logaritmului n alta:

log ba =

log bc
log ca

(ce este util n astfel de calcule).

Media ptratic
Fie irul de valori x1, x2, x3, , xn. Media ptratic se noteaz MP i se calculeaz cu formula:
n

xi 2

MP =

i =1

= x 2 , radicalul din media ptratelor valorilor.

Mediana
Notm valorile unui ir cu x1, x2, x3, , xn. Suplimentar, acest ir trebuie s fie ordonat. Valoarea
ce ocup locul central (independent de tipul de ordonare cresctoare sau descresctoare) se numete
median i se noteaz cu Me. Dac irul are un numr impar de valori, adic n = 2k+1, avem :
Me = x k +1 = x n+1 .
2

Dac irul are un numr par de valori, deci n=2k, calculm mediana cu formula:

Me =

xk + xk +1 xn / 2 + x(n + 2 ) / 2
.
=
2
2

Mediana (indicator robust) este mai puin influenat de valorile extreme dect media i este mai
stabil la fluctuaiile de selecie.
Se utilizeaz n serii de date de volum mare cu valori apropiate, deci colectiviti omogene.
Modul (modulul sau dominanta)
Fie irul format din elementele x1, x2, x3, , xn. Valoarea xi corespunztoare frecvenei celei mai
mari poart numele de mod. Repartiia poate avea mai multe maxime, dar de obicei doar unul este
global, celelalte fiind locale. Dac exist un singur maxim repartiia se numete unimodal, cu dou
maxime se va numi bimodal, iar cu mai multe maxime este numit polimodal sau multimodal.
Unimodal

Bimodal

Multimodal

Figura 2.5 1 Tipuri de repartiii (x-valoare variabil, y-densitatea de probabilitate).


Sunt situaii n care datele sunt grupate pe clase. n acest caz intervalul corespunztor frecvenei
maxime se numete interval modal sau clas modal. Modul se noteaz cu Mo.
Valoarea central
Reprezint media extremelor irului de date studiat.

Xc =

X max + X min
.
2

Dac valorile din irul de date sunt grupate pe clase, formula de calcul devine:

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Xc =

X clasa inf . + X clasa sup .


2

Este uor de observat c valoarea central este puternic dependent de extreme i nu de valorile
tuturor datelor.
Proprietile caracteristicilor de localizare
Putem enumera urmtoarele proprieti specifice caracteristicilor de localizare:

Mediile aritmetic i ptratic sunt influenate de valorile mari ale irului.

Mediile geometric i armonic sunt mai puternic influenate de valorile mici ale
irului.

Mediana nu este influenat de valorile extreme.

Valoarea central nu depinde de toate valorile irului de date, ci numai de cele
extreme.

Relaie existent ntre medii este: M H < M G < X < M P .

Cel mai des indicator de localizare folosit este media aritmetic.
Indicatori de variaie
Valorile medii descriu informaia ntr-o form integrat, exprimnd tendina de localizare a
datelor prin neprezentarea cunotinelor nglobate n lot despre variaia existent. Indicatorii de
localizare redau doar o singur trstur comun ntregii colectiviti. Se simte nevoia definirii unor
noi indicatori statistici care s evidenieze i alte aspecte ale populaiei studiate.
Categoria de indicatori de dispersie (variaie) reprezint o evaluare numeric a mprtierii
datelor. Variaia luat n considerare se poate raporta chiar la valoarea medie calculat.
Dispersia (variana)
Dispersia sau variana reprezint o mediere a ptratelor distanelor fa de valoarea medie a
irului de date. Se noteaz cu 2 sau D[x]. Are urmtoarea formul de calcul (pentru volumul n al
eantionului de valori mari, n>30):
n

2 =

(x1 x )

+ ( x 2 x ) + ..... + ( x n x )
=
n

( x i x )2
i =1

Dac avem valorile x1, x2, x3, , xn cu frecvenele absolute a1, a2, , am, atunci formula de calcul
devine:

a1 ( x1 x )2 + a2 ( x2 x )2 + ..... + am ( xm x )2
=
=
a1 + a2 + .... + am
2

ai (xi x )2

= i =1

ai (xi x )2

= i =1

ai

i =1

Considernd frecvenele relative fi, obinem:


m

ai (xi x )2

2 = i =1

m
ai
( xi x )2 = f i ( xi x )2 .
i =1 n
i =1

Sunt cazuri n care dispersia trebuie estimat dintr-un eantion de date. Dac volumul
eantionului este mai mic dect 30, atunci se aplic o corecie formulei de calcul. n acest caz ajustarea
este n sensul c nu se mparte la n ci la n-1 (numit i numrul gradelor de libertate).

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

(xi x )2 (xi x )2

2 estimat = i =1

n 1

= i =1

n
n
.
= 2
n 1
n 1

Abaterea ptratic medie (deviaia standard)


Prin extragerea rdcinii ptrate din dispersie se obine abaterea ptratic medie. Astfel, deviaia
standard i indicatorii de localizare se exprim cu aceleai uniti de msur.
n

(xi x )2
i =1

D[ x] = =

innd cont de frecvenele absolute i relative pe intervale avem:


m

ai (xi x )2

i =1

ni (xi x )2

i =1

f i (xi x )2 .

i =1

Amplitudinea
Este definit ca diferena valorilor extreme ale irului de date studiat i se noteaz cu W sau A (n
majoritatea cazurilor): W = A = Xmax - Xmin .
n cazul gruprii datelor pe clase se definete i noiunea de amplitudine a clasei, notat cu wi
(corespunztor clasei i). Aceast mrime este egal cu diferena dintre valorile extreme ale clasei
respective. Cu ct este mai mic valoarea sa cu att lotul este mai omogen.
Aspecte negative ale amplitudinii :
- depinde de eantion, avnd variaii pentru fiecare eantion n parte ,
- nu ine seama de tipul repartiie.
Intervalul intercuartilic
Cuartilele (sau cvartilele) mpart datele n 4 clase de frecvene egale cu 25%. Astfel, sunt
necesare 3 valori Q1, Q2, Q3 care reprezint cuartilele. Presupunem c avem o distribuie a frecvenelor
parametrului x (discret), conform graficului din figura 2.5 3.
Suma frecvenelor pn la limita determinat de Q1 este egal cu suma frecvenelor dintre Q1 i
Q2, de asemenea egal cu suma frecvenelor dintre Q2 i Q3 i n final, egal cu suma frecvenelor de
dup Q3. Dac repartiia ar fi fost de tip continuu, aceast sum ar fi integrala determinat de limitele
notate Qi.
Intervalul cuartilic se definete ca fiind diferena dintre Q3 i Q1 (ultima i prima cuartil). Q1 se
numete cuartil inferioar sau mic, Q3 se numete cuartila superioar sau mare. Prin urmare,
intervalul intercuartilic va fi:
Iq = Q3 Q1.
Observaie
Cuartila Q2 este tocmai mediana Me.
Se definete coeficientul de variaie intercuartilic ca fiind raportul :

q=

Q3 Q1 I q
=
.
Q2
Me

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Distributia de frecventa
12
10
8
6
4
2
0

Q1

Q2
Q3
parametrul x

Figura 2.5 3 - Cuartilele.


Coeficientul de variaie
Abaterea ptratic medie se interpreteaz prin compararea cu media valorilor studiate. Dac avem
o medie de 100 i o abatere ptratic standard = 5 , atunci avem mici variaii, dar dac avem aceeai
abatere la o medie de 10, atunci variaia este foarte mare. n concluzie, este necesar raportarea
abaterii ptratice la valoarea mediei, pentru a exprima corect mprtierea datelor. Se definete
coeficientul de variaie:

Cx =

Acest coeficient este o msur relativ a variaiei datelor fa de medie. Astfel, indiferent de
medie, seturile de date, chiar de natur diferit, pot fi comparate folosind coeficientul de variaie.
Asimetrie (skewness)
O distribuie este considerat simetric, dac de o parte i de alta a mediei, frecvenele au aceleai
valori.
Notm cu f(xi) frecvena; m media
Simetria
n
raport
cu
media
exist,
dac
pentru
oricare
R avem
relaia: f ( m ) = f (m + ) .
n continuare, putem caracteriza asimetria n funcie de poziionarea mediei fa de modul:
1 Avem asimetrie la dreapta, dac x > Mo (figura 2.5 4).
2 Avem asimetrie la stnga, dac x < Mo (figura 2.5 5).
Asimetrie la dreapta

Mo

M(x)

7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52

Figura 2.5 4.

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Pentru a obine o msur a asimetriei, statisticianul englez Karl Pearson a definit indicatorul
relativ de asimetrie (acest indicator este adimensional, fiind astfel util pentru a compara distribuiile
ntre ele):

Sk =

x Mo

.
2

xi x


i =1
O alt formul echivalent de calcul este: S k =
pentru n mare.
n
n

xi x

i =1
Dac n are valori mici se corecteaz formula astfel: S k =
.
n 1

Asimetrie la stnga

M(x)

Mo

10 13 16 19 22 25 28 31 34 37 40

Figura 2.5 5.
Cazuri posibile:
1 Dac Sk>0, avem asimetrie pozitiv sau asimetrie la dreapta.
2 Dac Sk<0, avem asimetrie negativ sau asimetrie la stnga.
3 Dac Sk=0, avem simetrie (distribuia normal are asimetria 0).
n general, o distribuie care are valoarea Sk diferit de 0 cu mai mult de 1, denot o diferen
semnificativ fa de distribuia normal.
n limba englez cuvntul consacrat este skewness, folosit n programele de statistic medical.
Boltirea (excesul, kurtosis)
Acest indicator compar distribuia dat cu cea normal sau gausian (descris n capitolul
Repartiii continue). Statisticianul englez Karl Pearson a definit de asemenea coeficientul de boltire:

2 =

m4

m4

(m2 )2 4

Pentru o distribuie normal 2normal = 3 .


Din punct de vedere al boltirii avem urmtoarea clasificare, reprezentat grafic mai jos:
Repartiie aplatizat sau platicurtic

2 < 3 .
1

11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 6.
7

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Repartiie medie sau mezocurtic

2 = 3 .
1

11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 7.

Repartiie ascuit sau leptocurtic

2 > 3 .

9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 8.
Pentru descrierea boltirii se poate folosi i coeficientul Fisher, ce msoar excesul fa de
distribuia normal. Acesta se calculeaz cu formula:
n

2 = 2 3 =

m4

(xi x )2

3 , echivalent cu: 2 = i =1

n 4

3 . Pentru valori mici ale volumului

eantionului se mparte la n-1 n loc de n.


Avem urmtoarele modaliti de caracterizare a distribuiilor:
Mezocurtic
 2 = 3 , 2 = 0.
Leptocurtic

 2 > 3 , 2 > 0 .

Platicurtic

 2 < 3 , 2 < 0 .

(Forma distribuiilor este sugerat de etimologia cuvintelor: ,,platus n limba greac semnific
,,lat, ,,leptos ,,subire, ,,mesos - ,,mijlociu, ,,kurtosis ,,cocoa).

S-ar putea să vă placă și