Sunteți pe pagina 1din 8

ELEMENTE DE BIOSTATISTIC - Lucian V.

Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

INDICATORI STATISTICI Extragerea de informaii dintr-un set de date se realizeaz n prima etap prin calculul indicatorilor statistici, realiznd o form descriptiv a cunotinelor. Tot n aceast faz de lucru, reprezentarea repartiiei de frecvene poate aduce informaii suplimentare asupra tipului de distribuie urmat de datele de examinare. n studiul distribuiei de frecvene a caracteristicii unei populaii se observ tendine ce prezint dou aspecte: 1 de localizare (de poziie), 2 de mprtiere (de variaie). Analiza cantitativ care s permit evaluri i comparaii din punct de vedere al localizrii sau al mprtierii datelor se poate efectua numai cu ajutorul indicatorilor statistici. Acetia exprim numeric pe baza valorilor de studiu, fie localizarea, fie variaia datelor. Indicatori de localizare sau de poziie Prin determinarea acestora, se indic valoarea spre care tind s se grupeze datele reale. Sunt mai multe tipuri de indicatori de poziie, care difer ca mod de calcul i de asemenea, funcie de caz i n valoare. Media aritmetic (simpl) Este indicatorul de baz al tendinei de localizare. Considerm irul de date x1, x2, ,xn. Media aritmetic se noteaz cu X sau M(x).

Formula de calcul:

x=

x1 + x 2 + ... + x n = n

xi
i =1

Media aritmetic ponderat Dac avem frecvenele absolute a1, a2, , am corespunztoare valorilor x1, x2, ., xm), atunci media se poate calcula conform formulei:

x=

a1 x1 + a 2 x 2 + ..... + a m x m = a1 + a 2 + ... + a m

aj xj
j =1

sau, folosind frecvenele relative fj,

aj xj
x=
j =1

j =1

aj n

xj =

f j xj.
j =1

Media aritmetic ponderat i media aritmetic simpl reprezint acelai indicator. Evident pentru un ir de date valoarea mediei aritmetice este aceeai indiferent de metoda de calcul. Totui n practic se poate grei dac se calculeaz media folosind numai valorile unice din cadrul irului. Trebuie acordat o atenie deosebit n exprimarea frecvenei de apariie a valorilor unice. Exemplu Dac avem irul format din elementele {x1, x2, x3, x3, x4, x5} se poate grei dac media se calculeaz cu formula: X =

x1 + x2 + x3 + x4 + x5 (deoarece x3 apare de dou ori). 5

Media armonic Se utilizeaz n calculul valorii medii pentru mai multe mrimi relative (este mai potrivit dect valoarea medie simpl). Valoarea reciproc (invers) a mediei armonice este media reciprocelor valorilor din lot. Pentru irul de valori x1, x2, x3, , xn se noteaz cu MH media armonic. Formula de calcul este :

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Considernd frecvenele absolute ai obinem urmtoarea formul de calcul a mediei armonice

1 1 n 1 1 n , MH = , cu condiia xi 0 . = = n 1 1 1 M H n i =1 xi 1 + + ... + x1 x2 xn i =1 xi n

= m ponderate: M H = n aj 1
i =1 xi

j =1 j

Notnd cu fi frecvenele relative obinem: M H = = m a j

1 aj

j =1 j

j =1

n xj

fj

j =1 j

O formul echivalent este: M H = n 1


' i =1 xi

i =1

Xi
.

Xi

Xi reprezint valorile absolute, xi' sunt valorile relative, n volumul eantionului. Exemplu Mortalitatea n 5 localiti este de 8, 9, 9,5, 10, respectiv 7. Numrul de locuitori este 4000, 6000, 4300, 5000, respectiv 6340.

NH =

4000 + 6000 + ... = 8,47 0 00 . 1 1 4000 + 6000 + ... 8 9

Este un indicator de localizare mai bun dect media aritmetic pentru acest caz. Se folosete rar, fiind util n special n cadrul distribuiilor n form de J. Media cronologic Este utilizat pentru seriile care au variaii n timp (lunare, semestriale sau anuale).

X1
Formula de calcul: M C =

+ X 2 + ... + X n 1 + n 1

Xn

2 .

Exemplu Numrul de gravide aflate n eviden la nceput de an a fost de 106. La sfritul celor 4 trimestre au fost 111, 125, 131 i 84. O aproximare mai bun a mediei pe trimestre este:

MC =

106 + 111 + 125 + 131 + 84 2 2 = 115 . 5 1

Media geometric Se utilizeaz n calculul coeficienilor de cretere medie a valorilor unei serii cronologice logaritmice, sau a seriilor cu cretere progresiv cu raie cresctoare. De exemplu, se folosete n calculul ritmului mediu de cretere anual sau n dinamica sporului natural al populaiei. Media geometric a unui ir de valori x1, x2, , xn se noteaz de obicei cu MG i se calculeaz cu formula:

M G = n x1 x 2 x3 ... x n = n xi .
i =1

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Prin nmulirea numerelor se poate ajunge uor la valori foarte mari. Pentru a nu depi valoarea maxim admis de computer, se poate folosi urmtorul artificiu matematic:

lg M G =
xi.

lg x1 + lg x 2 + ...... + lg x n 1 n = lg xi = lg xi se calculeaz media logaritmului de n n i =1


log b c
a log c

Reamintim i formula de trecere dintr-o baz a logaritmului n alta:

log b a =

(ce este util n astfel de calcule).

Media ptratic Fie irul de valori x1, x2, x3, , xn. Media ptratic se noteaz MP i se calculeaz cu formula:

MP =

i =1

xi 2
n

= x 2 , radicalul din media ptratelor valorilor.

Mediana Notm valorile unui ir cu x1, x2, x3, , xn. Suplimentar, acest ir trebuie s fie ordonat. Valoarea ce ocup locul central (independent de tipul de ordonare cresctoare sau descresctoare) se numete median i se noteaz cu Me. Dac irul are un numr impar de valori, adic n = 2k+1, avem : Me = x k +1 = x n+1 .
2

Dac irul are un numr par de valori, deci n=2k, calculm mediana cu formula:

Me =

Mediana (indicator robust) este mai puin influenat de valorile extreme dect media i este mai stabil la fluctuaiile de selecie. Se utilizeaz n serii de date de volum mare cu valori apropiate, deci colectiviti omogene. Modul (modulul sau dominanta) Fie irul format din elementele x1, x2, x3, , xn. Valoarea xi corespunztoare frecvenei celei mai mari poart numele de mod. Repartiia poate avea mai multe maxime, dar de obicei doar unul este global, celelalte fiind locale. Dac exist un singur maxim repartiia se numete unimodal, cu dou maxime se va numi bimodal, iar cu mai multe maxime este numit polimodal sau multimodal. Unimodal Bimodal Multimodal

xk + xk +1 xn / 2 + x(n + 2 ) / 2 . = 2 2

Figura 2.5 1 Tipuri de repartiii (x-valoare variabil, y-densitatea de probabilitate). Sunt situaii n care datele sunt grupate pe clase. n acest caz intervalul corespunztor frecvenei maxime se numete interval modal sau clas modal. Modul se noteaz cu Mo. Valoarea central Reprezint media extremelor irului de date studiat.

Xc =

X max + X min . 2

Dac valorile din irul de date sunt grupate pe clase, formula de calcul devine:

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Xc =

X clasa inf . + X clasa sup . 2

Este uor de observat c valoarea central este puternic dependent de extreme i nu de valorile tuturor datelor. Proprietile caracteristicilor de localizare Putem enumera urmtoarele proprieti specifice caracteristicilor de localizare: Mediile aritmetic i ptratic sunt influenate de valorile mari ale irului. Mediile geometric i armonic sunt mai puternic influenate de valorile mici ale irului. Mediana nu este influenat de valorile extreme. Valoarea central nu depinde de toate valorile irului de date, ci numai de cele extreme. Relaie existent ntre medii este: M H < M G < X < M P . Cel mai des indicator de localizare folosit este media aritmetic. Indicatori de variaie Valorile medii descriu informaia ntr-o form integrat, exprimnd tendina de localizare a datelor prin neprezentarea cunotinelor nglobate n lot despre variaia existent. Indicatorii de localizare redau doar o singur trstur comun ntregii colectiviti. Se simte nevoia definirii unor noi indicatori statistici care s evidenieze i alte aspecte ale populaiei studiate. Categoria de indicatori de dispersie (variaie) reprezint o evaluare numeric a mprtierii datelor. Variaia luat n considerare se poate raporta chiar la valoarea medie calculat. Dispersia (variana) Dispersia sau variana reprezint o mediere a ptratelor distanelor fa de valoarea medie a irului de date. Se noteaz cu 2 sau D[x]. Are urmtoarea formul de calcul (pentru volumul n al eantionului de valori mari, n>30):

2 =

(x1 x )

+ ( x 2 x ) + ..... + ( x n x ) = n

( x i x )2
i =1

Dac avem valorile x1, x2, x3, , xn cu frecvenele absolute a1, a2, , am, atunci formula de calcul devine:

a1 ( x1 x )2 + a2 ( x2 x )2 + ..... + am ( xm x )2 = = a1 + a2 + .... + am
2

= i =1

ai (xi x )2
i =1 m

ai

= i =1

ai (xi x )2
n
.

Considernd frecvenele relative fi, obinem:

2 = i =1

ai (xi x )2
n

m ai ( xi x )2 = f i ( xi x )2 . i =1 n i =1

Sunt cazuri n care dispersia trebuie estimat dintr-un eantion de date. Dac volumul eantionului este mai mic dect 30, atunci se aplic o corecie formulei de calcul. n acest caz ajustarea este n sensul c nu se mparte la n ci la n-1 (numit i numrul gradelor de libertate).

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

2 estimat = i =1

(xi x )2 (xi x )2
n 1 = i =1 n

n n . = 2 n 1 n 1

Abaterea ptratic medie (deviaia standard) Prin extragerea rdcinii ptrate din dispersie se obine abaterea ptratic medie. Astfel, deviaia standard i indicatorii de localizare se exprim cu aceleai uniti de msur.

(xi x )2
D[ x] = =
m i =1

innd cont de frecvenele absolute i relative pe intervale avem:

i =1

ai (xi x )2
n =

i =1

ni (xi x )2

i =1

f i (xi x )2 .

Amplitudinea Este definit ca diferena valorilor extreme ale irului de date studiat i se noteaz cu W sau A (n majoritatea cazurilor): W = A = Xmax - Xmin . n cazul gruprii datelor pe clase se definete i noiunea de amplitudine a clasei, notat cu wi (corespunztor clasei i). Aceast mrime este egal cu diferena dintre valorile extreme ale clasei respective. Cu ct este mai mic valoarea sa cu att lotul este mai omogen. Aspecte negative ale amplitudinii : - depinde de eantion, avnd variaii pentru fiecare eantion n parte , - nu ine seama de tipul repartiie. Intervalul intercuartilic Cuartilele (sau cvartilele) mpart datele n 4 clase de frecvene egale cu 25%. Astfel, sunt necesare 3 valori Q1, Q2, Q3 care reprezint cuartilele. Presupunem c avem o distribuie a frecvenelor parametrului x (discret), conform graficului din figura 2.5 3. Suma frecvenelor pn la limita determinat de Q1 este egal cu suma frecvenelor dintre Q1 i Q2, de asemenea egal cu suma frecvenelor dintre Q2 i Q3 i n final, egal cu suma frecvenelor de dup Q3. Dac repartiia ar fi fost de tip continuu, aceast sum ar fi integrala determinat de limitele notate Qi. Intervalul cuartilic se definete ca fiind diferena dintre Q3 i Q1 (ultima i prima cuartil). Q1 se numete cuartil inferioar sau mic, Q3 se numete cuartila superioar sau mare. Prin urmare, intervalul intercuartilic va fi: Iq = Q3 Q1. Observaie Cuartila Q2 este tocmai mediana Me. Se definete coeficientul de variaie intercuartilic ca fiind raportul :

q=

Q3 Q1 I q = . Q2 Me

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Distributia de frecventa 12 10 8 6 4 2 0 Q1 Q2 Q3 parametrul x

Figura 2.5 3 - Cuartilele. Coeficientul de variaie Abaterea ptratic medie se interpreteaz prin compararea cu media valorilor studiate. Dac avem o medie de 100 i o abatere ptratic standard = 5 , atunci avem mici variaii, dar dac avem aceeai abatere la o medie de 10, atunci variaia este foarte mare. n concluzie, este necesar raportarea abaterii ptratice la valoarea mediei, pentru a exprima corect mprtierea datelor. Se definete coeficientul de variaie:

Cx =

Acest coeficient este o msur relativ a variaiei datelor fa de medie. Astfel, indiferent de medie, seturile de date, chiar de natur diferit, pot fi comparate folosind coeficientul de variaie. Asimetrie (skewness) O distribuie este considerat simetric, dac de o parte i de alta a mediei, frecvenele au aceleai valori. Notm cu f(xi) frecvena; m media Simetria n raport cu media exist, dac pentru oricare R avem relaia: f ( m ) = f (m + ) . n continuare, putem caracteriza asimetria n funcie de poziionarea mediei fa de modul: 1 Avem asimetrie la dreapta, dac x > Mo (figura 2.5 4). 2 Avem asimetrie la stnga, dac x < Mo (figura 2.5 5).
Asimetrie la dreapta

Mo

M(x)

7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52

Figura 2.5 4.

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Pentru a obine o msur a asimetriei, statisticianul englez Karl Pearson a definit indicatorul relativ de asimetrie (acest indicator este adimensional, fiind astfel util pentru a compara distribuiile ntre ele):

Sk =

x Mo

.
n 2

xi x i =1 O alt formul echivalent de calcul este: S k = pentru n mare. n

xi x i =1 Dac n are valori mici se corecteaz formula astfel: S k = . n 1

Asimetrie la stnga

M(x)

Mo

10 13 16 19 22 25 28 31 34 37 40

Figura 2.5 5. Cazuri posibile: 1 Dac Sk>0, avem asimetrie pozitiv sau asimetrie la dreapta. 2 Dac Sk<0, avem asimetrie negativ sau asimetrie la stnga. 3 Dac Sk=0, avem simetrie (distribuia normal are asimetria 0). n general, o distribuie care are valoarea Sk diferit de 0 cu mai mult de 1, denot o diferen semnificativ fa de distribuia normal. n limba englez cuvntul consacrat este skewness, folosit n programele de statistic medical. Boltirea (excesul, kurtosis) Acest indicator compar distribuia dat cu cea normal sau gausian (descris n capitolul Repartiii continue). Statisticianul englez Karl Pearson a definit de asemenea coeficientul de boltire:

2 =

m4

(m2 )2 4

m4

normal Pentru o distribuie normal 2 = 3. Din punct de vedere al boltirii avem urmtoarea clasificare, reprezentat grafic mai jos:

Repartiie aplatizat sau platicurtic

2 < 3 .
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 6. 7

ELEMENTE DE BIOSTATISTIC - Lucian V. Boiculese, Gabriel Dimitriu, Mihaela Moscalu / Editura PIM 2007

Repartiie medie sau mezocurtic

2 = 3 .
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 7.

Repartiie ascuit sau leptocurtic

2 > 3 .

9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Figura 2.5 8. Pentru descrierea boltirii se poate folosi i coeficientul Fisher, ce msoar excesul fa de distribuia normal. Acesta se calculeaz cu formula:

2 = 2 3 =

m4

3 , echivalent cu: 2 = i =1

(xi x )2
n 4

3 . Pentru valori mici ale volumului

eantionului se mparte la n-1 n loc de n. Avem urmtoarele modaliti de caracterizare a distribuiilor: Mezocurtic 2 = 3 , 2 = 0. Leptocurtic Platicurtic

2 > 3 , 2 > 0 . 2 < 3 , 2 < 0 .

(Forma distribuiilor este sugerat de etimologia cuvintelor: ,,platus n limba greac semnific ,,lat, ,,leptos ,,subire, ,,mesos - ,,mijlociu, ,,kurtosis ,,cocoa).