Sunteți pe pagina 1din 13

Noiuni fundamentale de biostatistic

Capitolul III
III. Statistic descriptiv. Consideraii generale.
Indicatori statistici
[11-13, 15,16, 21, 24]
Principalii indicatori care caracterizeaz o serie de date (un set de
valori ale unui eantion statistic) sunt fie indicatori ai tendinei centrale, fie
indicatori ce caracterizeaz mprtierea datelor n jurul unei valori medii
(indicatori ai dispersiei).
Deoarece aceti indicatori descriu din punct de vedere statistic
distribuia datelor studiate, permind chiar unele comparaii ale acesteia cu
distibuia normal, modalitile de utilizare ale acestor indicatori statistici
fac obiectul unei ramuri a statisticii denumit statistic descriptiv.
O serie de date este alctuit dintr-un ir de valori pe care le notm :
x1, x2, , xn .


Indicatorii matematici mai importani ce caracterizeaz o serie de date sunt:

A. Indicatori ai tendinei centrale

x1  x 2  ...  xn
Media aritmetic - notat de regul cu x (III.1),
n
Mediana - este acea valoare din irul de date care mparte n dou
pri egale irul ordonat de valori (atenie, irul este ordonat cresctor),
situndu-se la mijlocul seriei statistice. Dac numrul de valori n este un
numr impar, atunci mediana este valoarea
 1.
n
Me= xk (III.2), , unde k
2

28
Statistic descriptiv

x x
Dac n este par, deci avem un numr par de valori, mediana este

definit ca fiind M k k 1 (III.3), unde k = n/2.


e 2
Modul - constituie valoarea care apare cel mai des, deci valoarea cu
numrul cel mai mare de apariii.

B. Indicatori ai dispersiei (mprtierii) datelor n


jurul valorii medii

Variana notat s2x este un indicator de mprtiere a datelor. Formula


xi  ( x )
2 2

n 1
2
de calcul este: S x (III.4),.

r sx2 (III.5),
Abaterea standard sau deviaia standard reprezint rdcina ptrat
din varian (dispersie) : sx
Coeficientul de variaie se calculeaz ca un raport procentual ntre
abaterea standard i valoarea medie a irului de valori.

100 (III.6),
sx
CV %
x
Asimetria (skewness) caracterizeaz gradul de asimetrie a unei
distribuii n jurul valorii medii, comparativ cu distribuia normal. Valori
pozitive ale asimetriei indic o distribuie de frecven ce prezint o coad
(n englez tail) asimetric n zona valorilor pozitive ale distribuiei
(valori mai mari dect media). Similar, valori negative ale asimetriei indic o
distribuie de frecven ce prezint o coad (n englez tail) asimetric n
zona valorilor negative ale distribuiei (valori mai mici dect media).

29
Noiuni fundamentale de biostatistic

_ 3
x x
i (III.7), , unde S = abaterea
S
n
(n  1) (n  2)
Skewness


standard.
Aplatizarea (kurtosis) caracterizeaz gradul de aplatizare a unei
distribuii, comparativ cu distribuia normal. Valorile pozitive ale acestui
indicator indic o distribuie cu un vrf mai nalt dect distribuia
normal. Similar, valori negative ale kurtosisului indic o curb relativ
aplatizat, comparativ cu distribuia normal.
_ 4

x x
n(n  1) 3(n  1) 2
Kurtosis 
   S (n  2)(n  3)
i


( n 1)( n 2)( n 3)


(III.8),, unde S = abaterea standard.
Amplitudinea - este diferena dintre valoarea maxim i cea minim
A = Amax Amin (III.9).
Amplitudinea relativ - notat A% este raportul dintre amplitudinea
absolut i media aritmetic a seriei de date.

Atunci cnd avem foarte multe date se recomand includerea lor n


clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice
ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani,
25-30 ani, etc n acest caz apare noiunea de frecven a clasei.

Indicatori statistici pentru serii de date cu apariii frecvente ale


aceleiai valori

Dac datele pe care le studiem conin valori care se repet des, se


obinuiete s se grupeze datele care au aceeai valoare . Numrul de

30
Statistic descriptiv

apariii ale unei valori anume se numete frecvena de apariie i se noteaz


cu fi.

Presupunem c n urma msurtorilor am obinut irul de valori:


x1 cu frecvena f1, x2 cu frecvena f2, xn cu frecvena fn
Indicatorii statistici se calculeaz conform noilor formule:

xi f i
Media aritmetic

x1 f1  x2 f 2  ...  xn f n
fi f1  f 2  ...  f n
i 1, n
x (III.10)

fi  1
i 1, n

i 1, n
Mediana este xk (III.11, )unde k

( xi  x ) 2 f i
2

fi  1
i 1, n
Dispersia (variana) : s x2 (III.12)

i 1, n

Dat fiind importana lor, n cele ce urmeaz vor fi descrii pe larg


unii dintre indicatorii statistici enumerai mai sus.

III.1. Medii

31
Noiuni fundamentale de biostatistic

Valoarea medie definete cel mai bine tendina central a unei


distribuii de frecven. Totui trebuie menionat c valoarea medie
niveleaz varianiile valorilor prin obinerea unei valori mijlocii, care d
impresia unei stabiliti a fenomenelor, care nu este real n biologie, de
aceea pentru un studiu complet al unei compatibiliti statistice, sunt
necesare metode statistice care stabilesc variaiile rezultatelor obinute i
care, pentru o bun interpretare, trebuie s nsoeasc valoarea medie.
Cea mai uzual n statistic este media aritmetic care corespunde
formulei de mai jos:

x i (III.13)
1 n
Ma xa
ni 1
Media aritmetic poate fi calculat n mai multe feluri:

Media aritmetic simpl

Calculat dup formula de mai sus. Pentru exemplul din capitolul II,
unde suma celor 33 de rezultate individuale era 5240, media aritmetic
simpl este:

5250
xa 159,09 mmHg
33
Media aritmetic ponderat

Dac, pentru exemplul din capitolul II, se iau n considerare


frecvenele cu care vin numerele, se observ c ele au nsemntate inegal,

32
Statistic descriptiv

numerele 110 i 210 revin numai o singur dat, n timp ce 140 sau 150
revin de patru ori n irul de date exeprimenatele studiat. n acest caz, se
spune c valorile nu au pondere egal, iar numrul (frecvena) care arat de
cte ori se repet fiecare valoare va fi ponderea valorii respective. Se poate
calcula media, innd seama de aceste ponderi, dup formula:

pi x i
n

i 1
xa (III.14)
pi
n

i 1

Se face, deci, suma produselor dintre fiecare valoare i ponderea sa


i se mparte la suma ponderilor.
Exist un procedeu matematic pentru a determina media care
uureaz calculul atunci cnd avem de-a face cu serii statistice alctuite din
numere mari. De exemplu, dac variabilele studiate sunt reprezentate de
masa corporal a oarecilor unei biobaze, iar frecvena lor fiind reprezentat
de familii de oareci, s calculm greutatea medie a oarecilor pe familie:
Procedeul se realizeaz prin alegerea unei medii arbitrare, notat cu
a (frecvena cea mai mare), n timp ce cu x notm abaterile fiecrei valori de
la originea arbitrar (-1, +1 etc). Frecvena o notm cu f.
Formula de calcul a mediei n acest caz este:
fx
ar
f
xa (III.15)

Se face astfel produsul dintre fiecare valoare x i fiecare frecven f


i, deoarece se obin numere pozitive i negative, se face suma lor algebric,
care se mparte la suma frecvenelor. n final, valoarea obinut se va scdea
din a.

33
Noiuni fundamentale de biostatistic

III. 2. Dispersia (variana). Abaterea standard


Aa cum am mai mentionat, dispersia (variana) notat s2x este un
indicator de mprtiere a datelor. Formula ei de calcul este:

xi  ( x )
2 2

n 1
S x2
(III.16)
Unitatea de abatere individual fa de medie a fost denumit
abaterea standard i a fost notat cu S ( se utilizeaz numai n cazul curbei
ideale). Ea reprezint o msur a preciziei determinrilor sau, cu alte
cuvinte, o msur a mprtierii rezultatelor individuale fa de medie.

x  x
Abaterea standard poate fi calculat dup urmtoarea formul:

(3.17) unde x i  x = abaterea valorilor individuale


i
S
n
Fa de valoare medie (indiferent de semn) se noteaz cu d
(diferena).
Deoarece cerecetarea biologic se bazeaz pe eantionaj, abaterea

x  x
standard se calculeaz n acest caz dup formula:

n 1
1
S (III.18)

Practic abaterea standard se calculeaz ca rdcina ptrat din


dispersie (varian) :

r S
x  x
2

n 1
2 1
Sx x (III.19)

34
Statistic descriptiv

Fcnd ptratul diferenei, se evit posibilitatea ca aceste diferene n


plus sau n minus s se anuleze, obinnd numere n valoare absolut.
Aceasta oblig, ns s se extrag rdcina ptrat pentru a obine rezultatul.
Se calculeaz, prin urmare, ptratul fiecrei diferene fa de medie i se
face suma acestor ptrate, care se mparte la numrul determinrilor minus
1. Rdcina ptrat a acestei valori este abaterea standard S.
Cunoscnd abaterea standard, adic rspndirea rspunsurilor
individuale fa de medie, se cunoate precizia determinrilor. Totodat,
deoarece pentru curba lui Gauss, dublul abaterii standard este reprezentat de
suprafaa nchis de perpendicularele care trec prin punctele BF i BE i
care acoper 95% din suprafaa total, va trebui s inem cont de aceasta,
lund 2S ca i interval de ncredere (vezi figura 2.3.). Aceasta ne va certifica
faptul c 95% din rezultatele noastre experimentale se vor ncadra n
limitele calculate i numai 5% din ele se vor gsi n afara acestor limite.

III.3. Eroarea standard

Este cunoscut faptul c determinrile biologice sunt supuse


influenei a dou tipuri de erori: cele care influeneaz precizia determinrii
i cele care influeneaz exactitatea determinrii. Pentru a afla exactitatea
cu care s-au fcut o serie de determinri, trebuie s se calculeze abaterea
medie a valorilor medii obinute sau, altfel spus, media erorilor ce se pot
comite ntr-o determinare.
Aceast abatere a fost denumit eroare standard, notat cu E.
Calcularea ei se face cu ajutorul formulei:

35
Noiuni fundamentale de biostatistic

x 1  x
n n  1
2
2
E (III.20)

tiind c, n cazul distribuiei normale gaussiene, mprtierea n


jurul mediei colectivitii a unei medii de antion este n ori mai mic
dect mprtierea rezultatelor individuale, eroarea standard este dat i de
formula:
S
E (III.21)
n
Ea reprezint formula clasic a erorii standard.
Rezultatele experimentrilor biologice trebuie s fie nsoite
ntotdeauna de eroarea standard sau de abaterea standard, utilizndu-se
formulri de tipul M S sau M E, pentru a permite o just interpretare a
lor.

III.4. Eroarea procent

Dup cum tim, majoritatea efectelor farmacodinamice se pot


ncadra n dou categorii: efecte gradate i, respectiv, efecte cuantale. De
multe ori acestea din urm sunt reprezentate sub form de procente. Atunci
cnd eantionul este mare, putem spune c procentele (pe) sunt distribuite
normal n jurul mediei cu o abatere standard egal cu

pq
S (III.22) unde p = procentajul de rspuns pozitiv
n
q = procentajul de aciune negativ
n = numrul cazurilor

36
Statistic descriptiv

evident, q = 100 p
Putem spune deci c abaterea standard a unui procent de aciune
calculat cu aceast formul reprezint limitele probabile, n plus sau n
minus, ale procentajului de aciune pentru o doz dat de substan activ.

III.5. Coeficientul de variaie


Coeficientul de variaie se calculeaz ca un raport procentual ntre
abaterea standard i valoarea medie a irului de valori.

100 (III.23)
sx
CV %
x

De remarcat c valoarea coeficientului de variaie nu are unitate de


msur, se exprim procentual. Acest fapt permite folosirea indicatorului la
compararea a dou sau mai multe serii de date, indiferent de ordinul de
mrime al variabilelor (variantelor) i de unitile de msur folosite. Se
poate considera c un coeficient de variaie sub 10% indic o dispersie mic
(o mprtiere) a datelor, adic seria este omogen. Un coeficient ntre 10%
i 30% indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac
dispersia este mare, media nu este un indicator reprezentativ.

III.6. Grade de libertate

Din cele discutate pn acum am vzut cum, plecnd de la un


eantion al unei colectiviti, am nlocuit abaterea standard teoretic () prin

37
Noiuni fundamentale de biostatistic

abaterea standard de eantionaj (S). De asemenea, ca factor de corecie s-a


folosit ptratul diferenelor individuale (d2) i s-a calculat S2. n aceeai
ordine de idei, pentru a putea apropia pe S de s (abaterea teoretic) am
diminuat numrul cazurilor din experiment cu o unitate, n locul efectivului
total n punnd n-1.
Practic formula de calcul a abaterii standard a devenit

d2
n1
S (III.24)

Spunem c n-1 este numrul gradelor de libertate.

Gradele de libertate reprezint, n cazul determinrilor biologice


numrul mrimilor (animale, determinri, observaii) folosite n
experimentarea respectiv, din care se scade o unitate.
Pornind de la aceast premiz, gradele de libertate reprezint practic
numrul mrimilor independente folosite n experimentarea respectiv.
innd seama de cele afirmate mai sus, n calculele de determinare a
erorii va interveni un factor de corecie t, care depinde de numrul
gradelor de libertate (tn-1). Cantitatea t se gsete n tabele (vezi Anexa
1), calculat pentru diferite probabiliti, n funcie de numrul de grade de
libertate folosit (n general vom lucra cu p= 0,05). Valoarea lui t scade cu
ct crete numrul observaiilor, deci cu ct este mai mare numrul gradelor
de libertate.
n cazul determinrilor comparative martor/prob sau a mai multor
doze (loturi) se scade din efectivul total cte o unitate pentru fiecare lot. (de

38
Statistic descriptiv

exemplu numrul gradelor de libertate pentru dou loturi, n cazul mai sus
menionat va fi (n1+n2-2).

III. 7. Limite fiduciale (interval de ncredere)

Am vzut pn acum c principalii parametrii care descriu o


populaie statistic sunt media i abaterea standard. n practic parametrii
unei populaii se estimeaz pe baza determinrilor efectuate pe eantioane
luate din respectiva populaie statistic. Evident parametrii probelor extrase
nu sunt perfect identici cu cei ai populaiei studiate; exist ns posibilitatea
de a calcula intervalul n care se pot ncadra aceti parametrii, acordnd
acestui interval o anumit ncredere (probabilitate), aleas n funcie de
exactitatea dorit (de obicei se alege un nivel de probabilitate de 95% sau
99%). Aceasta nseamn c, dac vom lua un numr mare de probe din
aceeai populaie, 95% respectiv 99% din probe vor avea parametrii care se
ncadreaz n intervalul calculat i va exista riscul ca 5% respectiv 1% din
proces s se gseasc n afara intervalului calculat.
Limitele fiduciale, denumite i limite de eroare sau de securitate,
reprezint intervalul n care se poate prevedea c se gsete valoarea unei
medii (att n cazul efectelor gradate ct i a celor cuantale). Intervalul
respectiv se mai numete i interval de ncredere.
Limitele de eroare sunt, n general, proporionale cu valoarea mediei
i pot fi convenional exprimate ca procente ale acestei medii. De regul, n
determinri biologice calculm limitele de eroare la o probabilitate p = 0,05.
n calculul limitelor de eroare se folosete factorul de corecie t,
despre care tim c depinde de numrul gradelor de libertate.

39
Noiuni fundamentale de biostatistic

Pentru o interpretare corect, rezultatele experimentrilor biologice


trebuie exprimate dup relaia de mai jos:
M tS (III.25) unde M media determinrilor
t factorul de corecie pentru probabilitatea
dorit
S abaterea standard
Dac abaterea standard (S) este exprimat n procente limitele de
eroare sunt 100tS la sut.
Dac folosim calculul logaritmic pentru calcularea abaterii standard
n anumite experimente farmacologice, limitele de eroare sunt date de
antilogaritmul lui 2 tS.
S presupunem c la testarea unui anumit analgezic, n urma
experimentrii prin testul plcii nclzite, timpul de laten al reaciei
nociceptive a fost de 10020 secunde, la o probabilitate p =0,05. Limitele
fiduciale sunt deci cuprinse ntre 80-120 secunde. Aceasta nseamn c n
95 de determinri din 100 rezultatul gsit va fi superior timpului de 80
secunde i inferior timpului de 120 secunde, oscilnd n jurul valorii celei
mai probabile (media M=100 secunde). Cu alte cuvinte, dac se repet
determinarea n aceleai condiii, rezultatul se va gsi n 95% din cazuri
ntre aceste limite i numai n 5% din cazuri valoarea experimental va fi n
afara acestor limite.

40