Sunteți pe pagina 1din 220

Noiuni fundamentale de biostatistic

- Note de curs -
2006
Marius Mruteri












Marius tefan Mruteri
NOIUNI FUNDAMENTALE DE BIOSTATISTIC
- NOTE DE CURS -






- 2006 -
MRUTERI, TEFAN MARIUS
Noiuni fundamentale de biostatistic : note de curs


Refereni:
Prof. Dr. chiopu Alexandru
Prof. Dr. Nicolaescu Ioan







Descrierea CIP a Bibliotecii Naionale a Romniei
CIP nr. 5537/ 12.04.2006

MRUTERI, TEFAN MARIUS
Noiuni fundamentale de biostatistic : note de curs / Marius Mruteri
- Trgu-Mure : University Press, 2006
Bibliogr.
ISBN (10) 973-7665-11-2 ; ISBN (13) 978-973-7665-11-9

519.22:57(075.8)



Editor:
University Press, Trgu Mure, 2006
Str. Gh. Marinescu, 38,
Trgu Mure, MS, 540139
Director de editur: Prof. Dr. chiopu Alexandru
Tel: +40-265-215551/126
Fax: +40-265-210407



Cuprins
3
CUPRINS

I. INTRODUCERE ............................................................................................................. 6
+ POPULAIA STATISTIC I PROBELE STATISTICE ...................................................... 7
+ VARIABILITATE BIOLOGIC ..................................................................................... 9
+ FACTORI DE EROARE.............................................................................................. 10
II. DISTRIBUII DE FRECVEN .............................................................................. 16
+ CURBA DE DISTRIBUIE NORMAL......................................................................... 21
+ DISTRIBUII ANORMALE (NON-GAUSSIENE) .......................................................... 25
III. STATISTIC DESCRIPTIV. CONSIDERAII GENERALE. INDICATORI
STATISTICI...................................................................................................................... 28
+ A. INDICATORI AI TENDINEI CENTRALE................................................................ 28
+ B. INDICATORI AI DISPERSIEI (MPRTIERII) DATELOR N JURUL VALORII MEDII ... 29
+ III.1. MEDII............................................................................................................ 31
+ III. 2. DISPERSIA (VARIANA). ABATEREA STANDARD........................................... 34
+ III.3. EROAREA STANDARD.................................................................................... 35
+ III.4. EROAREA PROCENT....................................................................................... 36
+ III.5. COEFICIENTUL DE VARIAIE.......................................................................... 37
+ III.6. GRADE DE LIBERTATE................................................................................... 37
+ III. 7. LIMITE FIDUCIALE (INTERVAL DE NCREDERE) ............................................. 39
IV. STATISTIC INFERENIAL. INTERPRETAREA STATISTIC A
REZULTATELOR UNUI EXPERIMENT..................................................................... 41
+ IV.1. TESTE DE VALABILITATE .............................................................................. 42
Noiuni introductive................................................................................................... 42
IV.1. 1. Testul Grubbs................................................................................................ 43
IV.1. 2. Criteriul de eliminare a lui Chauvenet ......................................................... 47
+ IV.2. TESTE DE CONCORDAN (GOODNESS-OF-FIT)............................................ 50
Noiuni introductive................................................................................................... 50
IV.2.1. Testul de concordan Kolmogorov-Smirnov................................................. 52
+ IV. 3. TESTE DE SEMNIFICAIE............................................................................... 55
Valoarea lui P............................................................................................................ 56
Ipoteza nul (H
0
)........................................................................................................ 56
Dependena/independena eantioanelor studiate ..................................................... 58
Statistic parametric/neparametric ....................................................................... 59
IV.3.1. Teste de semnificaie parametrice.................................................................. 60
IV.3.2. Teste de semnificaie neparametrice. Statistica ordinei................................. 72
Testul Wilcoxon ......................................................................................................... 72
Testul Mann-Whitney U............................................................................................. 76
V. ANALIZA DISPERSIONAL (ANALIZA DE VARIAN) - ANOVA............... 79
Noiuni fundamentale de biostatistic

4
+ A. BAZE TEORETICE............................................................................................... 79
+ B.CONSIDERAII PRACTICE.................................................................................... 81
+ V.1. ANALIZA DISPERSIONAL MONOFACTORIAL................................................ 83
+ V.2. ANALIZA DISPERSIONAL BIFACTORIAL ...................................................... 90
VI. CORELAIE I REGRESIE.................................................................................... 98
+ COEFICIENTUL DE CORELAIE................................................................................ 99
+ COEFICIENTUL DE DETERMINARE......................................................................... 106
+ ECUAIA DE REGRESIE......................................................................................... 107
VII. ALEGEREA UNUI ANUMIT TEST STATISTIC .............................................. 112
VIII. STUDII EPIDEMIOLOGICE I CLINICE ....................................................... 115
+ VIII.1. INDICATORI STATISTICI UTILIZAI N STUDIILE EPIDEMIOLOGICE ............. 115
Rate i proporii ....................................................................................................... 116
Indicatori ai frecvenei bolii .................................................................................... 117
Indicatori ai asocierii factori de risc (expunere)-boal .......................................... 119
+ VIII. 2. TIPURI DE STUDII EPIDEMIOLOGICE ......................................................... 134
STUDII DESCRIPTIVE........................................................................................... 134
C. Studiu descriptiv de tip ecologic ........................................................................ 137
STUDII ANALITICE................................................................................................ 138
A. Studii de tip Case-Control (Case-Control studies)............................................. 139
B. Studii de tip cohort (Cohort studies) ................................................................ 142
Selecia unui anumit tip de studiu (study design)..................................................... 146
Asociere versus cauzalitate...................................................................................... 147
Criterii pentru stabilirea unei relaii de tip cauz-efect .......................................... 148
ANEXE - EXERCIII RECAPITULATIVE............................................................... 150
ANEXA 1 - STATISTIC DESCRIPTIV, EXERCIII RECAPITULATIVE...... 151
+ SCURT RECAPITULARE....................................................................................... 151
+ INDICATORI STATISTICI ........................................................................................ 152
+ INDICATORI STATISTICI PENTRU SERII DE DATE CU APARIII FRECVENTE ALE
ACELEIAI VALORI......................................................................................................... 154
+ FOLOSIREA CALCULATORULUI N STATISTICA DESCRIPTIV. APLICAII I EXEMPLE.
155
+ STATISTIC DESCRIPTIV EXERCIII RECAPITULATIVE..................................... 160
ANEXA 2 - TESTE STATISTICE DE SEMNIFICAIE, EXERCIII
RECAPITULATIVE....................................................................................................... 163
+ TESTUL STUDENT............................................................................................. 163
+ ETAPELE APLICRII TESTULUI STUDENT........................................................... 163
+ UTILIZAREA FUNCIEI TTEST A UTILITARULUI EXCEL ....................................... 165
+ TESTUL STUDENT EXEMPLE I EXERCIII RECAPITULATIVE ........................... 167
+
TESTUL CHI
2
....................................................................................................... 174
ETAPELE APLICRII TESTULUI CHI................................................................................ 174
Cuprins
5
UTILIZAREA FUNCIEI CHITEST A PROGRAMULUI EXCEL ........................................... 176
+ TESTUL CHI
2
EXERCIII RECAPITULATIVE........................................................ 177
ANEXA 3 CORELAII I REGRESII, EXERCIII RECAPITULATIVE.......... 185
ANEXA 4 EXEMPLE DE STUDII EPIDEMIOLOGICE. STUDIU DE TIP CASE-
CONTROL....................................................................................................................... 198
+ STUDIUL INFLUENEI UNOR FACTORI DE RISC BIOLOGICI - INFECIA CU
HELICOBACTER PYLORI N APARIIA UNOR LIMFOAME MALIGNE (LIMFOAME
NONHODGKIN LNH) N CAZUL POPULAIEI JUDEULUI MURE [22]........................... 198
ANEXA 5 - VALORI CRITICE PENTRU TESTUL F CORESPUNZTOARE
PRAGULUI DE SEMNIFICAIE =0,05................................................................... 208
ANEXA 6 - VALORILE CRITICE PENTRU TESTUL T STUDENT
CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I
NUMRULUI "N " AL GRADELOR DE LIBERTATE........................................... 210
ANEXA 7 - VALORILE CRITICE PENTRU TESTUL CHI
2

CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I
NUMRULUI "N " AL GRADELOR DE LIBERTATE........................................... 212
ANEXA 8 SOLUIILE EXERCIIILOR PROPUSE N ANEXE......................... 214
BIBLIOGRAFIE SELECTIV..................................................................................... 216
Noiuni fundamentale de biostatistic

6
Capitolul I
I. Introducere
[ 12, 13]
Statistica matematic este tiina care urmrete explicarea
fenomenelor de mas printr-un numr relativ redus de observaii. Ea
folosete metode inductive de cercetare, plecnd de la particular la general.
Desigur, concluziile rezultate n urma prelucrrii statistice a datelor
experimentale nu sunt legiti absolut sigure, ns gradul de incertitudine
poate fi calculat. Cunoscnd gradul de incertitudine al concluziilor trase,
metoda statistic de cercetare poate fi considerat o metod matematic
exact.
Biostatistica este o ramur a statisticii, specializat n studiul
fenomenelor biologice, inclusiv al celor medicale. Se ocup de culegerea,
centralizarea i gruparea datelor, precum i de prelucrarea i determinarea
unor parametri sau indicatori statistici pentru descrierea fenomenelor
biomedicale studiate, pe baza evidenierii unor regulariti sau variabiliti
statistice. Totodat aplic i dezvolt tehnici statistico-probabilistice pentru
analiza datelor biomedicale.
nceputurile biostatisticii au fost determinate de nevoia obinerii
unor informaii cantitative dintre cele mai simple, formulate de regul sub
forma ci bolnavi ? , ci decedai ? , etc. Cu timpul s-a constatat ns
c asemenea metode sunt insuficiente pentru caracterizarea fenomenelor,
datorit existenei unor variaii n rspunsurile care se obin ntre diverse
msurtori sau, cu alte cuvinte, datorit faptului c fenomenele biologice
sunt caracterizate prin variabilitate. Chiar i n aceste condiii, prin
Introducere
7
observarea unor serii lungi de msurtori, s-a descoperit c se pot calcula
indicatori simpli cu mare putere de sintez, cum ar fi media (aritmetic,
geometric, etc), dispersia, etc.
ntr-o etap ulterioar, statistica a ctigat n puterea de analiz a
fenomenelor. Pe aceast cale s-au descoperit legile care guverneaz ceea ce
nainte prea ntmpltor. Aceast etap, n care statistica trece de la
descrierea fenomenelor la analiza lor, se caracterizeaz prin aplicarea n
general a unui aparat matematic din ce n ce mai complex i a calculului
probabilitilor n special.
Pentru a putea studia procesul biologic dorit, datele experimentale
trebuie sistematizate prin grafice i tabele, ntocmite prin luare n
considerare fie a numrului total de date, fie a unui eantion extras din
acestea.
Din acest punct de vedere, statistica matematic opereaz cu dou
noiuni de baz:
1. Populaia sau colectivitatea statistic;
2. Proba (eantionul) extras din populaia aflat n studiu.

+ Populaia statistic i probele statistice

O populaie statistic poate fi definit prin totalitatea fenomenelor
sau a obiectelor calitativ omogene avnd una sau mai multe caracteristici
comune. De exemplu 100 de cobai crora le-a fost injectat intraperitoneal o
anumit substan activ pentru a studia un anumit efect farmacologic al
acesteia reprezint un exemplu de populaie statistic.
Noiuni fundamentale de biostatistic

8
Trebuie fcut o deosebire ntre o populaie statistic finit, infinit
i ipotetic. Exemplul de mai sus reprezint o populaie statistic finit, n
timp ce urmrirea frecvenei de apariie a unui anumit efect secundar pentru
un medicament dat la nivelul unei clinici pe o durat nedefinit de timp (ce
poate continua luni sau ani) reprezint un exemplu de populaie statistic
infinit. Drept exemplu de populaie statistic ipotetic se pot meniona
parametrii farmacocinetici ai unui model farmacocinetic simulat pe
calculator care va urma s fie verificat i experimental.
Pentru cunoaterea proprietilor unei populaii statistice este necesar
s se cunoasc proprietile elementelor din care aceasta este compus.
Practic este ns imposibil s se determine compoziia iniial a populaiei
statistice studiate, deoarece ea fie ar fi distrus, fie ar fi necesare un numr
foarte mare de determinri, imposibil de efectuat. Din aceste motive se
apreciaz proprietile caracteristice ale populaiei statistice numai pe baza
unei pri finite din populaie numit eantion (prob), care trebuie s
ndeplineasc o condiie sine qua non: trebuie ca ea s fie luat din populaia
statistic n aa fel nct fiecare element din populaie s aib aceeai
probabilitate de a face parte din eantion. Eantioanele care satisfac acest
deziderat se numesc eantioane reprezentative.
nainte de a trece n revist diferii indicatori i teste statistice
trebuie menionat ns variabilitatea ce exist n cadrul populaiilor
statistice studiate i importana evalurii acesteia pentru obinerea unor
rezultate corecte n urma experimentelor efectuate.


Introducere
9
+ Variabilitate biologic

Aa cum am menionat, analiza statistic d cercettorului
posibilitatea de a preciza variabilitatea existent n snul unei colectiviti.
Msura acestei variabiliti d indicaii cu consecine practice, n special n
domeniul biologiei unde se spune c variabilitatea este singura realitate,
media fiind o ficiune. n faa proceselor biologice, att de complexe, cum
s-ar putea cunoate valorile normalului i limitele lui de variaie?
Fiind dat un anumit experiment, cu o mprtiere mare a rezultatelor,
cum se poate trage o concluzie just n aprecierea fenomenului cercetat?
Cum putem tii dac am efectuat un numr suficient de experiene pentru a
atrage o concluzie valabil ? Cnd putem spune, suficient de exact, c o
diferen ntre dou msurtori este semnificativ ?
Fr sprijinul statisticii matematice aceste ntrebri nu i-ar gsi
niciodat rspunsul. Mai mult, interpetarea simplist a rezultatelor este
neconcludent, empiric, putnd duce la erori grave de interpretare, ceea ce,
n cazul domeniului medical poate pune viei umane n pericol.
Cercetarea biologic se bazeaz pe rezultate obinute pe un numr
limitat de observaii din multiplele posibile, este deci o cercetare de
eantion. Se pune problema dac putem generaliza observaiile obinute pe
un numr limitat de cazuri, la ntreaga colectivitate studiat, obinnd astfel
legi cu aplicare general. Generalizarea este posibil doar dac inem cont
de variabilitatea cifrelor obinute, iar statistica matematic d posibilitatea
aprecierii acestei variabiliti.
Noiuni fundamentale de biostatistic

10
Astfel, dac eantionul este redus ca numr, rezultatele obinute n
cercetrile biologice pot fi diferite, uneori chiar contrarii adevrului, ceea ce
poart numele de fluctuaie de eantionaj. Dac eantionul este numeros,
rezultatul va fi evident mai apropiat de adevr, media rezultatelor putnd fi
generalizat la ntreaga populaie. Un alt aspect deosebit de important este
cel al mprtierii rezultatelor: cu ct mprtierea va fi mai mare, cu att
rezultatele se vor ndeprta mai mult de cele obinute cnd se examineaz
ntreaga populaie (deci de valoarea real).
n concluzie, generalizarea - n scopul ajungerii la concluzii valabile
- depinde, din punct de vedere statistic, de dou caracteristici ale datelor
analitice:
1. Numrul observaiilor efectuate (n);
2. mprtierea (dispersia) acestora ().
Statistica matematic d posibilitatea aprecierii acestor caracteristici
i de aici putem deduce c ea este cea care acord valoarea unei anumite
cercetri ce dorete desprinderea unor concluzii cu caracter generalizator.

+ Factori de eroare

Este cunoscut faptul c aceeai substan activ, experimentat prin
aceeai metod, poate da rezultate diferite, nu numai n laboratoare diferite,
ci chiar i n acelai laborator. De aceea cunoaterea de ctre cercettor a
factorilor care determin aceast variabilitate, precum i a tipurilor de erori
ce pot s apar este o necesitate.
Introducere
11
n general variabilitatea rezultatelor unui experiment biomedical sau
farmacologic este determinat de urmtorii factori:
I. Factori care in de animalul de experien:
A. Factori interni: greutate, sex, vrst, ras, origine, sntate.
B. Factori externi: condiii de ntreinere (alimentaie,
temperatur ambiant), condiii sezoniere.
C. Factori care in de individualitatea animalului,, proprii
fiecrui individ i care caracterizeaz reactivitatea acestuia
(amintim aici, de exemplu, mare variabilitate ntlnit la
metabolizarea alcoolului etilic n cazul indivizilor speciei
umane, n funcie de cantitatea de ADH disponibil n cazul
fiecrui individ).
II. Factori care in de mediul geografic i climateric. Se pot obine
rezultate diferite n diverse pri ale globului investignd acelai
medicament i urmnd chiar aceeai tehnic de lucru, organismul
uman sau animal fiind o entitate biologic a crui reactivitate
individual depinde de mediul nconjurtor, de factorii micro- i
macroclimatici nconjurtori.
III. Factori care in de tehnicile ntrebuinate. Fiecare tehnic de
lucru poate da un rezultat care poate fi chiar n discordan cu cel
obinut printr-o alt tehnic, de aceea cele dou rezultate nu pot
fi obiectul unei comparaii realizate tiinific.
Dat fiind multitudinea factorilor de eroare, cercetarea biologic ar fi
insuficient sau neconcludent dac nu s-ar ine seama de anumite norme
tiinifice n experimentare. Aceste norme se refer, n primul rnd la
Noiuni fundamentale de biostatistic

12
nlturarea factorilor care determin variabilitatea rspunsurilor biologice.
Cteva msuri importante vor fi menionate mai jos:
= selecia riguroas a animalelor;
= ntocmirea loturilor dintr-un numr suficient de indivizi,
siguri din punct de vedere biologic i/sau statistic (sntoi,
de vrst apropiat, etc.);
= asigurarea omogenitii unui lot precum i ntre loturile
luate ntr-o anumit experien; prin msurile mai sus
menionate se nltur factorii de eroare ce depind de
animalul de experien;
= determinrile comparative, prin folosirea standardelor sau a
unor substane de referin, contribuie hotrtor la
nlturarea factorilor de eroare care in de tehnicile
ntrebuinate.
Existena variabilitii biologice ne determin s admitem c ntre
valoarea rspunsului biologic obinut de noi n urma unui experiment i
valoarea real poate exista o anumit diferen. Cnd datele obinute de
ctre noi se abat de la valoarea real putem spune c au fost comise erori, ce
se datoreaz factorilor mai sus menionai sau altor factori necunoscui. Prin
termenul de eroare se nelege diferena numeric dintre valoarea gsit de
ctre experimentator i valoarea real (adevrat) a unui parametru
msurat.
E = M A (I.1)
Unde E eroarea absolut
M valoarea msurat
Introducere
13
A valoare adevrat
Aceast valoare A a unui sistem nu poate fi cunoscut exact. n
cursul experimentului se obin valori mai mult sau mai puin apropiate de
valoarea A; problema care se pune este ns care sunt valorile ce pot fi
acceptate. Pentru c valoarea A nu poate fi cu certitudine cunoscut se
urmrete ca o valoare acceptat s se gseasc ntr-un anumit domeniu de
valori, n sarcina statisticii matematice cznd stabilirea ntinderii acestui
domeniu i, deci, a validrii rezultatelor unui experiment.
Factorii de eroare care pot fi nlturai alctuiesc aa-numitele erori
sistematice i ele afecteaz exactitatea rezultatului. Factorii care in de
reactivitatea individual, de exemplu, nu pot fi nlturai, ei determinnd
ceea ce numim erori aleatoare (ntmpltoare), care afecteaz att
exactitatea ct i precizia rezultatelor experimentale.
Cu toate c aceti factori de eroare nu pot fi nlturai n totalitate,
variaiile pe care ei le provoac n cadrul unui experiment dat pot fi
apreciate i acestor variaii li se adreseaz calculele de eroare. Deoarece
aceste variaii aleatoare se supun legilor de distribuie normal a frecvenei
(despre care vom vorbi n detaliu ceva mai trziu), valoarea lor poate fi
calculat. Odat acest lucru fiind realizat, precizia cercetrilor biologice
poate fi confirmat tiinific.
Exactitatea reprezint apropierea valorii numerice determinate
experimental de valoarea adevrat. Aceasta reprezint de fapt eroarea
absolut. Raportul
( ) I.2. 100 %

=
M
A M
E
r

Noiuni fundamentale de biostatistic

14
reprezint eroarea relativ, exprimat uzual n procente.
Evident, cu ct rezultatul obinut se apropie mai mult de rezultatul
real, cu att determinarea este mai exact.
Precizia unei determinri este dat de concordana valorilor obinute
n urma determinrilor efectuate. Se spune despre o metod c este precis
cnd rezultatele determinrilor sunt reproductibile, adic sunt apropiate ca
valoare n contextul unor experimente repetate. Concordana ntre rezultate
nu trebuie judecat numai prin prisma diferenei reale dintre ele, ci innd
cont i de mrimea, n valoare absolut, a acestora. De exemplu, s
presupunem c, n cazul urmririi perioadei de laten a inducerii somnului,
pentru dou hipnotice S
1
i S
2
, la oareci, s-au obinut urmtoarele:

oarecele I oarecele II
Substana S
1
32 secunde 33 secunde
Substana S
2
6 secunde 5 secunde

Se observ c, n ambele cazuri, diferena ntre rezultate este de o
secund, ns concordana ntre rezultate este mult mai bun n primul caz.
Deoarece valoarea real nu poate fi cunoscut cu precizie se
folosete n locul acesteia, n special n cazul distribuie normale de
frecven, media aritmetic a tuturor rezultatelor individuale:
n
X
x
n
1 i
i

=
= ( I.3.), unde x media aritmetic a rezultatelor individuale
n = numrul determinrilor efectuate
Introducere
15
Pentru a putea aprecia mprtierea rezulatelor unui experiment a
fost definit abaterea (s):
x x s = (I.4.) unde x rezultatul individual
x = media aritmetic a rezultatelor
individuale
s este valoarea abaterii rezultatelor individuale de la valoarea medie, i arat
precizia determinrilor.
n concluzie, cnd mprtierea rezultatelor individuale fa de medie
este mic, iar media rezultatelor este apropiat de valoarea real, eroarea
determinrii va fi mic, deci vom avea att exactitate ct i precizie bun.
Erori mari survin atunci cnd rezultatele sunt mult dispersate fa de
valoarea medie (precizie slab), iar media rezultatelor se ndeprteaz mult
fa de valoarea real (exactitate sczut a metodei). Pot surveni i situaii
paradoxale, cnd, de exemplu, rezultatele individuale s fie mult dispersate
fa de medie (precizie redus), dar media lor s fie totui apropiat de
valoarea real (exactitatea metodei este bun).
Noiuni fundamentale de biostatistic

16
Capitolul II
II. Distribuii de frecven
[11-13]
Repartizarea datelor calitative i a celor cantitative (numerice) dintr-
o populaie statistic sau un eantion se poate efectua dup frecvena de
apariie a caracteristicilor lor, obinndu-se structura colectivitii. De
exemplu, o mulime de date experimentale poate fi repartizat dup
calitatea efectelor observate: cu efect, fr efect sau cu efect gradat n
funcie de doz.
Datele (msurate pe ntreaga populaie statistic sau pe un eantion)
sunt de obicei organizate n aa-numitele distribuii de frecven, pentru c o
atare prezentare, reprezint formatul cel mai convenabil de sintez i
prezentare a acestora.
n cazul distribuiilor de frecven se afectueaz o descriere calitativ
sau cantitativ a observaiilor (msurtorilor) mpreun cu numrul de
apariii ale unui anumit rezultat al msurtorii respective - frecvena
absolut.
Se mai poate utiliza i frecvena relativ obinut prin mprirea
frecvenei absolute la numrul total al observaiilor.
De asemenea, pentru variabilele cantitative (numerice) continue este
util s se construiasc aa-numitele intervale de variaie. Regulile generale
de construire a acestor intervale sunt:
- numrul de intervale este bine s fie mai mic de 15
- limitele fiecrei clase s se potriveasca cu gradul de acuratee
(precizie, exactitate) al msurtorilor
Distribuii de frecven
17
- sunt de preferat intervalele de lungime egal, deoarece sunt mai
convenabile, facilitnd prelucrrile ulterioare
- intervalele trebuie sa fie mutual exclusive (capetele lor nu
trebuie s se suprapun)
Se obine astfel o distribuie de frecven a colectivitii respective.
Se pot obine distribuii de frecven homograde (cum este cazul
diagramelor), cu o singur scar de comparaie n sistemul cartezian, sau
distribuii heterograde.
Pentru a fi mai explicii, s lum un exemplu:
Fie o serie de 33 de date numerice obinute experimental (de
exemplu valori ale tensiunii arteriale sistolice): 180, 120, 110, 200, 140,
210, 200, 190, 150, 170, 140, 130, 150, 170, 160, 120, 160, 140, 160, 170,
180, 160, 150, 130, 160, 180, 190, 160, 170, 170, 150, 150, 130.
Cu aceast serie se poate alctui o diagram, aeznd datele, n
ordinea frecvenei, pe o singur scar a graficului cartezian (fig. 2.1.):
Noiuni fundamentale de biostatistic

18
0
1
2
3
4
5
6
f
r
e
c
v
e
n

a

d
e

a
p
a
r
i

i
e
160 170 140 150 130 180 120 190 200 110 210
Valorile ale TA sistolice (mmHg)

Fig. 2.1. Reprezentarea grafic a datelor sub form de diagram
n felul acesta se obine structura acestei colectiviti i se poate
constata frecvena de apariie a unor rezultate (de exemplu cte valori ale
tensiunii arteriale 110 se gsesc n respectiva colectivitate statistic).
Cutnd i ale modaliti de caracterizare a colectivitii, se poate
stabili o distribuie de frecven heterograd, pe dou scri ale sistemului
cartezian, niruind pe abscis numerele, n ordine cresctoare sau
descresctoare i notnd, n acelai timp, intervalele de clas, iar pe
ordonat punnd frecvenele de apariie (relative sau absolute). Se obine
astfel o histogram. Prin unirea ordonatelor care trec prin mijlocul
intervalelor de clas se obine poligonul de frecven.
Practic, pentru a reprezenta grafic corect datele colectate n cadrul
unei histograme, trebuie parcuri urmtorii pai:
Distribuii de frecven
19
i. Pentru irul valorilor msurate se va determina numrul de
intervale de grupare (de clas) M (eventual lungimea intervalului de
grupare - d), conform formulei lui Sturges:
M = 1+3,22*logn (II.1),
unde n = numrul msurtorilor efectuate
Valoarea numrului de intervalule se va rotunji pentru a obine un numr
ntreg.
Pentru cazul nostru, numrul vom obine M=1+3,22*log33=5,889
adic vom avea 6 intervale.
Eventual, lungimea intervalului de grupare va fi calculat cu
formula:
n
X X
d
log 22 , 3 1
min max
+

= (II.2),
unde X
max
, X
min
reprezint valoarea maxim i minim msurat.
Pentru cazul nostru 97 , 16
33 log 22 , 3 1
110 210
=
+

= d . Dat fiind precizia
msurtorilor efectuate cu tensiometrele clasice, putem lua n considerare un
o lungime a intervalului de grupare de circa 20 mmHg.
ii. n baza numrului calculat de intervale (M), respectiv a valorii
lungimii intervalului de grupare (d), ntre valorile limit masurate (X
min

X
max
), se vor stabili intervalele de grupare. Datele obinute vor fi
centralizate ntr-un tabel.
iii. Se determin frecvena absolut (n
i
), care reprezint numrul de
apariii a datelor corespunztoare fiecrui interval de grupare n parte. i
aceste date se vor trece n tabelul sus-menionat.
Noiuni fundamentale de biostatistic

20
iv. Se poate determina i frecvena relativ (f
i
), care reprezint
raportul frecventei absolute (n
i
) la numarul total de msurtori (n)
v. Se construiete histograma, care reprezinta o diagrama n form
de dreptunghiuri avnd baza egala cu intervalul de grupare, iar nlimea
cu frecvena (absolut sau relativ)
vi. Se construiete poligonul de frecven, care se obine prin unirea
mijloacelor superioare ale histogramei prin segmente de dreapt.
Tabelul cu intervale i frecvena absolut, precum i histograma
rezultat n cazul celor 33 de valori ale tensiunii arteriale sistolice sunt
prezentate mai jos:
Interval de grupare Frecvena absolut
<110 1
111-130 5
131-150 8
151-170 11
171-190 5
>190 3


Fig. 2.2. Histograma
Distribuii de frecven
21
Distribuia de frecven permite determinarea i a celorlalte
caracteristici: tendina central (cu alte cuvinte, media), mediana, forma
distribuiei, variabilitatea din interiorul ei. n figura de mai sus se poate
constata c forma distribuiei se apropie destul de mult de distribuia
normal Laplace-Gauss (distribuia n form de clopot). n acest caz,
valoarea medie reprezint n cele mai bune condiii tendina central (pentru
cazul studiat, media = 158,7).


+ Curba de distribuie normal

Van Vijngaarden (1926) a artat pentru prima dat c variaia
rezultatelor biologice se datoreaz sensibilitii individuale a animalelor
(care genereaz, astfel, erorile ntmpltoare) i c ele se supun legii de
distribuie normal a frecvenei stabilit, n 1820, de Laplace i Gauss.
Curba de distribuie normal a frecvenei reprezint frecvena cu
care revine acelai rezultat n mai multe determinri succesive. Ea se poate
obine aeznd pe abscisa unui grafic diferenele, obinute n mai multe
determinri, ntre media rezultatelor i rezultatele individuale, iar pe
ordonat frecvenele de apariie a rspunsului pentru fiecare diferen.
Graficul are forma unui clopot (fig. 2.3.):
Noiuni fundamentale de biostatistic

22

Fig. 2.3. Graficul de distribuie normal a frecvenei

Media rezultatelor individuale, care se repet cel mai des (are cea
mai mare frecven de apariie), este punctul cel mai nalt al curbei.
Valoarea medie este notat pe abscis cu 0, deoarece diferena sa fa de
medie este, evident, zero. De o parte i de alta a punctului culminant, se
desfoar simetric frecvenele corespunztoare diferenelor dintre media
rezultatelor i rezultatele individuale, care se gsesc pe abscis; cele
negative (mai mici dect media) n partea stng, cele pozitive (deci mai
mari dect media) n partea dreapt a valorii medii.
Distana BD sau BC (0-1 sau 0+1) reprezint convenional o unitate
denumit abatere standard i notat cu (sigma). Perpendiculara pe
valoarea medie este axul de simetrie al suprafeei acoperit de curb.
Perpendicularele n punctele de pe abscis care corespund valorii medii plus
abaterea standard i valorii medii minus abaterea standard, nchid dou
treimi din suprafaa acoperit de curb (66%). Perpendicularele care
corespund valorii medii plus sau minus 2 nchid circa 95% din suprafaa
acoperit de curb. Suprafeele terminale ocup numai 5 % din suprafaa
total.
Distribuii de frecven
23
Pentru a demonstra c sensibilitatea animalelor de laborator fa de o
substan activ se supune legilor de distribuie normal a frecvenei, Van
Vijngaarden a determinat doza minim letal prin perfuzie lent, cu aceeai
soluie digital, lucrnd pe 573 de pisici. Efectund calculele necesare, a
obinut un grafic asemntor curbei n form de clopot a lui Gauss
(distribuia normal a frecvenei) i care se supune acelorai legi. S-a
demonstrat astfel c variaia sensibilitii animalelor de experien fa de
diferite substane medicamentoase studiate, se ncadreaz n teoria
distribuiei normale a frecvenei, stabilit de Gauss.
Cunoscnd aceast lege, putem efectua experiene i dozri biologice
suficient de precise, din care s fie eliminate erorile determinate de
reactivitatea individual a animalelor de experien.
Tot din aceast lege de distribuie normal a frecvenei reiese, ns,
c valoarea tiinific a unui singur rezultat obinut pe un animal sau a unor
experimentri ce folosesc puine animale este mic, rezultate precise fiind
cele obinute pe un numr mare de animale, prin stabilirea valorii medii a
determinrilor i efectuarea unor prelucrri statistice ulterioare. Numrul
mare de rezultate duce la obinerea unei curbe de frecvene mai nalt,
micornd, totodat, distana dintre capetele curbei.
Caracteristicile distribuiilor de frecven
Orice serie de date cantitative se poate descrie prin dou elemente
caracteristice:
1. indicatorii tendinei centrale
2. indicatori ai mprtierii sau dispersiei datelor
Noiuni fundamentale de biostatistic

24
Dac toate aceste elemente menionate sunt obinute n urma unui
studiu populaional, ele poart numele de parametri statistici, iar dac sunt
obinute n urma analizei unui eantion se numesc indicatori statistici.
Din punctul de vedere al tendinei centrale, distribuiile de frecven
se caracterizeaz prin medie, mod (dominant) i median.
Media reprezint tendina central a unei distribuii (vom studia
mai trziu modul ei de calcul).
Dominanta reprezint valoarea cea mai frecvent a unei distribuii,
care se confund, de fapt, cu vrful poligonului de frecven.
Mediana corespunde valorii care se gsete la punctul care mparte
seria statisticii n dou grupuri egale.
O alt caracteristic a distribuiilor, care uneori este foarte
folositoare, este forma curbei de frecven. Ea poate fi:
1. simetric
2. asimetric: - pozitiv, caz n care coada lung a distribuiei este
de partea valorilor pozitive.
- negativ, caz n care coada lung a distribuiei
este de partea valorilor negative.
Dou curbe cu aceeai medie, dominant i aceeai median se pot
deosebi dup baz i nlime: mai ngust i mai nalt sau mai larg i mai
joas. ntinderea bazei poate da o msur a variabilitii. Deschiderea este
cu att mai mare cu ct participarea factorilor ntmpltori este mai mare (n
figura 2.3) se pot observa diferenele ntre dou curbe cu aceeai medie).
Calculul precis la mprtierea rezultatelor se face cu ajutorul abaterii
standard.
Distribuii de frecven
25

Fig. 2.3. Dou curbe cu aceeai medie i dominant, dar cu
mprtieri diferite ale rezultatelor

n cazul distribuiilor simetrice i unimodale exist egalitate ntre
media aritmetic, mod i median (este vorba despre curba normal de
distribuie a frecvenei Laplace-Gauss).

+ Distribuii anormale (non-Gaussiene)

Se cunosc, n afara distribuiei normale unimodale, i distribuii
purimodale sau asimetrice (fig. 2.4):

Fig. 2.4. Distribuii anormale
Noiuni fundamentale de biostatistic

26

Pentru a ntelege mai bine importana tipului de distribuie n cazul
datelor provenite din cercetarea biomedicale trebuie spus c, de exemplu,
existena unor distribuii anormale pot arta o lips de omogenitate a
afectelor farmacodinamice ale unui medicament. Unele distribuii pot lua
forma literei U, unde important este valoarea minim (de exemplu, n cazul
aciunii hipoglicemiante a unor substane active).
Exist cazuri, ns, cnd fenomenele studiate se supun unei
distribuii de tip special. Cele mai des ntlnite distribuii de acest tip au fost
descrise de Bernouli (distribuia binomial) i de Poisson (distribuia
evenimentelor rare).
Distribuia binomial prezint interes mai ales n studiul
fenomenelor ereditii, iar distribuia Poisson n studiul unor efecte ale
compuilor radioactivi i n radiochimie. O tratare complet a tuturor
tipurilor de distribuie se gsete n tratatele de statistic teoretic indicate n
bibliografie.
Odat constatat existena unor distribuii non-Gaussiene n cazul
datelor provenite din cercetarea biomedical, testele statistice de
semnificaie trebuiesc adaptate acestei situaii, eventual recurgndu-se la
teste de semnificaie neparametrice (testul Wilcoxon, testul U - Man
Whitney etc), n cazul crora verificarea unei ipoteze, aa cum vom vedea,
nu este legat de parametrul unei anumite repartiii.
Anumite fenomene biologice rar ntlnite s-a constatat c se supun
unor distribuii de tip special, cum ar fi distribuia Pearson, Neuman,
Distribuii de frecven
27
Maxwell. Studiul acestor tipuri de distribuie depete cadrul acestei cri,
fcnd obiectul unor manuale de specialitate.
n funcie de particularitile distribuiilor gsite, se pot alege
procedeele matematice cele mai indicate pentru calculul statistic i
interpretarea rezultatelor.
n cazul experimentrii n domeniul farmacodinamic, rezultatele
unei cercetri, odat reprezentate grafic dau distribuii empirice sau
experimentale. Compararea acestor distribuii cu distribuiile teoretice poate
fi de un real folos pentru o interpretare just a fenomenelor observate.
Trebuie menionat c majoritatea distribuiilor obinute n urma
analizei datelor rezultate din cercetarea biomedical se supun legilor
normale de repartiie a frecvenei, de aceea calculele i tehnicile de lucru
prezentate n aceast carte se refer, n mod special, la aceast ipotez .

Noiuni fundamentale de biostatistic

28
Capitolul III
III. Statistic descriptiv. Consideraii generale.
Indicatori statistici
[11-13, 15,16, 21, 24]
Principalii indicatori care caracterizeaz o serie de date (un set de
valori ale unui eantion statistic) sunt fie indicatori ai tendinei centrale, fie
indicatori ce caracterizeaz mprtierea datelor n jurul unei valori medii
(indicatori ai dispersiei).
Deoarece aceti indicatori descriu din punct de vedere statistic
distribuia datelor studiate, permind chiar unele comparaii ale acesteia cu
distibuia normal, modalitile de utilizare ale acestor indicatori statistici
fac obiectul unei ramuri a statisticii denumit statistic descriptiv.
O serie de date este alctuit dintr-un ir de valori pe care le notm :
x
1
, x
2
, , x
n
.
Indicatorii matematici mai importani ce caracterizeaz o serie de date sunt:
+ A. Indicatori ai tendinei centrale

Media aritmetic - notat de regul cu
n
n
x x x
x
+ + +
=
...
2 1
(III.1),
Mediana - este acea valoare din irul de date care mparte n dou
pri egale irul ordonat de valori (atenie, irul este ordonat cresctor),
situndu-se la mijlocul seriei statistice. Dac numrul de valori n este un
numr impar, atunci mediana este valoarea
M
e
= x
k
(III.2),

, unde 1
2
+ =
n
k .
Statistic descriptiv
29
Dac n este par, deci avem un numr par de valori, mediana este
definit ca fiind
2
1 +
+
=
k
x
k
x
e
M (III.3), unde k = n/2.
Modul - constituie valoarea care apare cel mai des, deci valoarea cu
numrul cel mai mare de apariii.

+ B. Indicatori ai dispersiei (mprtierii) datelor n
jurul valorii medii

Variana notat s
2
x
este un indicator de mprtiere a datelor. Formula
de calcul este:
1
) (
2 2
2

=
n
x
i
x
S
x
(III.4),.
Abaterea standard sau deviaia standard reprezint rdcina ptrat
din varian (dispersie) : s s
x x
=
2
(III.5),
Coeficientul de variaie se calculeaz ca un raport procentual ntre
abaterea standard i valoarea medie a irului de valori.
100 % =
x
x
s
CV (III.6),
Asimetria (skewness) caracterizeaz gradul de asimetrie a unei
distribuii n jurul valorii medii, comparativ cu distribuia normal. Valori
pozitive ale asimetriei indic o distribuie de frecven ce prezint o coad
(n englez tail) asimetric n zona valorilor pozitive ale distribuiei
(valori mai mari dect media). Similar, valori negative ale asimetriei indic o
distribuie de frecven ce prezint o coad (n englez tail) asimetric n
zona valorilor negative ale distribuiei (valori mai mici dect media).

Noiuni fundamentale de biostatistic

30
3
_
) 2 ( ) 1 (


=
S
x
i
x
n n
n
Skewness (III.7), , unde S = abaterea
standard.
Aplatizarea (kurtosis) caracterizeaz gradul de aplatizare a unei
distribuii, comparativ cu distribuia normal. Valorile pozitive ale acestui
indicator indic o distribuie cu un vrf mai nalt dect distribuia
normal. Similar, valori negative ale kurtosisului indic o curb relativ
aplatizat, comparativ cu distribuia normal.
) 3 )( 2 (
) 1 ( 3
_
) 3 )( 2 )( 1 (
) 1 (
2
4

+
+
=
n n
n
S
x
i
x
n n n
n n
Kurtosis
(III.8),, unde S = abaterea standard.
Amplitudinea - este diferena dintre valoarea maxim i cea minim
A = A
max
A
min
(III.9).
Amplitudinea relativ - notat A% este raportul dintre amplitudinea
absolut i media aritmetic a seriei de date.

Atunci cnd avem foarte multe date se recomand includerea lor n
clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice
ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani,
25-30 ani, etc n acest caz apare noiunea de frecven a clasei.


Indicatori statistici pentru serii de date cu apariii frecvente ale
aceleiai valori

Dac datele pe care le studiem conin valori care se repet des, se
obinuiete s se grupeze datele care au aceeai valoare . Numrul de
Statistic descriptiv
31
apariii ale unei valori anume se numete frecvena de apariie i se noteaz
cu f
i
.
Presupunem c n urma msurtorilor am obinut irul de valori:
x
1
cu frecvena f
1
, x
2
cu frecvena f
2
, x
n
cu frecvena f
n
Indicatorii statistici se calculeaz conform noilor formule:

Media aritmetic
n
n n
n i
i
n i
i i
f f f
f x f x f x
f
f x
x
+ + +
+ + +
=

=
=
...
...
2 1
2 2 1 1
, 1
, 1
(III.10)
Mediana este x
k
(III.11, )unde
2
1
, 1
+
=

= n i
i
f
k
Dispersia (variana) :

=
=


=
n i
i
i
n i
i
x
f
f x x
s
, 1
2
, 1
2
1
) (
(III.12)

Dat fiind importana lor, n cele ce urmeaz vor fi descrii pe larg
unii dintre indicatorii statistici enumerai mai sus.

+ III.1. Medii

Noiuni fundamentale de biostatistic

32
Valoarea medie definete cel mai bine tendina central a unei
distribuii de frecven. Totui trebuie menionat c valoarea medie
niveleaz varianiile valorilor prin obinerea unei valori mijlocii, care d
impresia unei stabiliti a fenomenelor, care nu este real n biologie, de
aceea pentru un studiu complet al unei compatibiliti statistice, sunt
necesare metode statistice care stabilesc variaiile rezultatelor obinute i
care, pentru o bun interpretare, trebuie s nsoeasc valoarea medie.
Cea mai uzual n statistic este media aritmetic care corespunde
formulei de mai jos:

=
= =
n
1 i
i a a
x
n
1
x M (III.13)
Media aritmetic poate fi calculat n mai multe feluri:


Media aritmetic simpl

Calculat dup formula de mai sus. Pentru exemplul din capitolul II,
unde suma celor 33 de rezultate individuale era 5240, media aritmetic
simpl este:

09 , 159
33
5250
= =
a
x mmHg
Media aritmetic ponderat

Dac, pentru exemplul din capitolul II, se iau n considerare
frecvenele cu care vin numerele, se observ c ele au nsemntate inegal,
Statistic descriptiv
33
numerele 110 i 210 revin numai o singur dat, n timp ce 140 sau 150
revin de patru ori n irul de date exeprimenatele studiat. n acest caz, se
spune c valorile nu au pondere egal, iar numrul (frecvena) care arat de
cte ori se repet fiecare valoare va fi ponderea valorii respective. Se poate
calcula media, innd seama de aceste ponderi, dup formula:

=
=
=
n
1 i
i
n
1 i
i i
a
p
x p
x (III.14)
Se face, deci, suma produselor dintre fiecare valoare i ponderea sa
i se mparte la suma ponderilor.
Exist un procedeu matematic pentru a determina media care
uureaz calculul atunci cnd avem de-a face cu serii statistice alctuite din
numere mari. De exemplu, dac variabilele studiate sunt reprezentate de
masa corporal a oarecilor unei biobaze, iar frecvena lor fiind reprezentat
de familii de oareci, s calculm greutatea medie a oarecilor pe familie:
Procedeul se realizeaz prin alegerea unei medii arbitrare, notat cu
a (frecvena cea mai mare), n timp ce cu x notm abaterile fiecrei valori de
la originea arbitrar (-1, +1 etc). Frecvena o notm cu f.
Formula de calcul a mediei n acest caz este:


=
f
x f
a x
a
(III.15)
Se face astfel produsul dintre fiecare valoare x i fiecare frecven f
i, deoarece se obin numere pozitive i negative, se face suma lor algebric,
care se mparte la suma frecvenelor. n final, valoarea obinut se va scdea
din a.
Noiuni fundamentale de biostatistic

34

+ III. 2. Dispersia (variana). Abaterea standard
Aa cum am mai mentionat, dispersia (variana) notat s
2
x
este un
indicator de mprtiere a datelor. Formula ei de calcul este:
1
) (
2 2
2

=
n
x
i
x
S
x
(III.16)
Unitatea de abatere individual fa de medie a fost denumit
abaterea standard i a fost notat cu S ( se utilizeaz numai n cazul curbei
ideale). Ea reprezint o msur a preciziei determinrilor sau, cu alte
cuvinte, o msur a mprtierii rezultatelor individuale fa de medie.
Abaterea standard poate fi calculat dup urmtoarea formul:
( )
x
n
x x
S
i

=

i
x unde (3.17) = abaterea valorilor individuale
Fa de valoare medie (indiferent de semn) se noteaz cu d
(diferena).
Deoarece cerecetarea biologic se bazeaz pe eantionaj, abaterea
standard se calculeaz n acest caz dup formula:
( )
1
1

=

n
x x
S (III.18)
Practic abaterea standard se calculeaz ca rdcina ptrat din
dispersie (varian) :

( )
1
2
1
2

= =

n
x x
S S
x x
(III.19)

Statistic descriptiv
35
Fcnd ptratul diferenei, se evit posibilitatea ca aceste diferene n
plus sau n minus s se anuleze, obinnd numere n valoare absolut.
Aceasta oblig, ns s se extrag rdcina ptrat pentru a obine rezultatul.
Se calculeaz, prin urmare, ptratul fiecrei diferene fa de medie i se
face suma acestor ptrate, care se mparte la numrul determinrilor minus
1. Rdcina ptrat a acestei valori este abaterea standard S.
Cunoscnd abaterea standard, adic rspndirea rspunsurilor
individuale fa de medie, se cunoate precizia determinrilor. Totodat,
deoarece pentru curba lui Gauss, dublul abaterii standard este reprezentat de
suprafaa nchis de perpendicularele care trec prin punctele BF i BE i
care acoper 95% din suprafaa total, va trebui s inem cont de aceasta,
lund 2S ca i interval de ncredere (vezi figura 2.3.). Aceasta ne va certifica
faptul c 95% din rezultatele noastre experimentale se vor ncadra n
limitele calculate i numai 5% din ele se vor gsi n afara acestor limite.

+ III.3. Eroarea standard

Este cunoscut faptul c determinrile biologice sunt supuse
influenei a dou tipuri de erori: cele care influeneaz precizia determinrii
i cele care influeneaz exactitatea determinrii. Pentru a afla exactitatea
cu care s-au fcut o serie de determinri, trebuie s se calculeze abaterea
medie a valorilor medii obinute sau, altfel spus, media erorilor ce se pot
comite ntr-o determinare.
Aceast abatere a fost denumit eroare standard, notat cu E.
Calcularea ei se face cu ajutorul formulei:
Noiuni fundamentale de biostatistic

36
( )
( ) 1 n n
x x
E
2
1
2

=

(III.20)
tiind c, n cazul distribuiei normale gaussiene, mprtierea n
jurul mediei colectivitii a unei medii de antion este n ori mai mic
dect mprtierea rezultatelor individuale, eroarea standard este dat i de
formula:
n
S
E = (III.21)
Ea reprezint formula clasic a erorii standard.
Rezultatele experimentrilor biologice trebuie s fie nsoite
ntotdeauna de eroarea standard sau de abaterea standard, utilizndu-se
formulri de tipul M S sau M E, pentru a permite o just interpretare a
lor.

+ III.4. Eroarea procent

Dup cum tim, majoritatea efectelor farmacodinamice se pot
ncadra n dou categorii: efecte gradate i, respectiv, efecte cuantale. De
multe ori acestea din urm sunt reprezentate sub form de procente. Atunci
cnd eantionul este mare, putem spune c procentele (pe) sunt distribuite
normal n jurul mediei cu o abatere standard egal cu
n
q p
S

= (III.22) unde p = procentajul de rspuns pozitiv
q = procentajul de aciune negativ
n = numrul cazurilor
Statistic descriptiv
37
evident, q = 100 p
Putem spune deci c abaterea standard a unui procent de aciune
calculat cu aceast formul reprezint limitele probabile, n plus sau n
minus, ale procentajului de aciune pentru o doz dat de substan activ.
+ III.5. Coeficientul de variaie
Coeficientul de variaie se calculeaz ca un raport procentual ntre
abaterea standard i valoarea medie a irului de valori.

100 % =
x
x
s
CV (III.23)

De remarcat c valoarea coeficientului de variaie nu are unitate de
msur, se exprim procentual. Acest fapt permite folosirea indicatorului la
compararea a dou sau mai multe serii de date, indiferent de ordinul de
mrime al variabilelor (variantelor) i de unitile de msur folosite. Se
poate considera c un coeficient de variaie sub 10% indic o dispersie mic
(o mprtiere) a datelor, adic seria este omogen. Un coeficient ntre 10%
i 30% indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac
dispersia este mare, media nu este un indicator reprezentativ.



+ III.6. Grade de libertate

Din cele discutate pn acum am vzut cum, plecnd de la un
eantion al unei colectiviti, am nlocuit abaterea standard teoretic () prin
Noiuni fundamentale de biostatistic

38
abaterea standard de eantionaj (S). De asemenea, ca factor de corecie s-a
folosit ptratul diferenelor individuale (d
2
) i s-a calculat S
2
. n aceeai
ordine de idei, pentru a putea apropia pe S de s (abaterea teoretic) am
diminuat numrul cazurilor din experiment cu o unitate, n locul efectivului
total n punnd n-1.
Practic formula de calcul a abaterii standard a devenit
1 n
d
S
2

=

(III.24)
Spunem c n-1 este numrul gradelor de libertate.

Gradele de libertate reprezint, n cazul determinrilor biologice
numrul mrimilor (animale, determinri, observaii) folosite n
experimentarea respectiv, din care se scade o unitate.
Pornind de la aceast premiz, gradele de libertate reprezint practic
numrul mrimilor independente folosite n experimentarea respectiv.
innd seama de cele afirmate mai sus, n calculele de determinare a
erorii va interveni un factor de corecie t, care depinde de numrul
gradelor de libertate (tn-1). Cantitatea t se gsete n tabele (vezi Anexa
1), calculat pentru diferite probabiliti, n funcie de numrul de grade de
libertate folosit (n general vom lucra cu p= 0,05). Valoarea lui t scade cu
ct crete numrul observaiilor, deci cu ct este mai mare numrul gradelor
de libertate.
n cazul determinrilor comparative martor/prob sau a mai multor
doze (loturi) se scade din efectivul total cte o unitate pentru fiecare lot. (de
Statistic descriptiv
39
exemplu numrul gradelor de libertate pentru dou loturi, n cazul mai sus
menionat va fi (n
1
+n
2
-2).
+ III. 7. Limite fiduciale (interval de ncredere)

Am vzut pn acum c principalii parametrii care descriu o
populaie statistic sunt media i abaterea standard. n practic parametrii
unei populaii se estimeaz pe baza determinrilor efectuate pe eantioane
luate din respectiva populaie statistic. Evident parametrii probelor extrase
nu sunt perfect identici cu cei ai populaiei studiate; exist ns posibilitatea
de a calcula intervalul n care se pot ncadra aceti parametrii, acordnd
acestui interval o anumit ncredere (probabilitate), aleas n funcie de
exactitatea dorit (de obicei se alege un nivel de probabilitate de 95% sau
99%). Aceasta nseamn c, dac vom lua un numr mare de probe din
aceeai populaie, 95% respectiv 99% din probe vor avea parametrii care se
ncadreaz n intervalul calculat i va exista riscul ca 5% respectiv 1% din
proces s se gseasc n afara intervalului calculat.
Limitele fiduciale, denumite i limite de eroare sau de securitate,
reprezint intervalul n care se poate prevedea c se gsete valoarea unei
medii (att n cazul efectelor gradate ct i a celor cuantale). Intervalul
respectiv se mai numete i interval de ncredere.
Limitele de eroare sunt, n general, proporionale cu valoarea mediei
i pot fi convenional exprimate ca procente ale acestei medii. De regul, n
determinri biologice calculm limitele de eroare la o probabilitate p = 0,05.
n calculul limitelor de eroare se folosete factorul de corecie t,
despre care tim c depinde de numrul gradelor de libertate.
Noiuni fundamentale de biostatistic

40
Pentru o interpretare corect, rezultatele experimentrilor biologice
trebuie exprimate dup relaia de mai jos:
M tS (III.25) unde M media determinrilor
t factorul de corecie pentru probabilitatea
dorit
S abaterea standard
Dac abaterea standard (S) este exprimat n procente limitele de
eroare sunt 100tS la sut.
Dac folosim calculul logaritmic pentru calcularea abaterii standard
n anumite experimente farmacologice, limitele de eroare sunt date de
antilogaritmul lui 2 tS.
S presupunem c la testarea unui anumit analgezic, n urma
experimentrii prin testul plcii nclzite, timpul de laten al reaciei
nociceptive a fost de 10020 secunde, la o probabilitate p =0,05. Limitele
fiduciale sunt deci cuprinse ntre 80-120 secunde. Aceasta nseamn c n
95 de determinri din 100 rezultatul gsit va fi superior timpului de 80
secunde i inferior timpului de 120 secunde, oscilnd n jurul valorii celei
mai probabile (media M=100 secunde). Cu alte cuvinte, dac se repet
determinarea n aceleai condiii, rezultatul se va gsi n 95% din cazuri
ntre aceste limite i numai n 5% din cazuri valoarea experimental va fi n
afara acestor limite.
Statistic inferenial
41
Capitolul IV
IV. Statistic inferenial. Interpretarea statistic
a rezultatelor unui experiment
[ 1, 3, 5, 6, 10, 11-13, 15, 20, 23,24]
Odat obinute rezultatele experimentale, ele trebuie prelucrate,
prezentate, i, mai ales sintetizate i interpretate, pentru a putea desprinde
legalitatea urmrit. Trebuie acordat o importan deosebit interpretrii
rezultatelor experimentale obinute, deoarece o interpretare prea simplist
sau, dimpotriv, prea pretenioas poate duce la o scdere a valorii cercetrii
efectuate.
Sprijinul hotrtor n interpretarea corect a rezultatelor i n
afirmarea concluziilor l aduce statistica matematic. Concluziile unui
anumit experiment trebuie verificate, datele experimentale trebuie s fie
reproductibile, concluziile trase trebuie s fie tiinific ntemeiate, acest
lucru nefiind posibil fr o prelucrare statistic adecvat a datelor.
Totalitatea testelor statistice folosite cu scopul de a demonstra
existena sau inexistena unor legturi sau diferene statistic semnificative,
respectiv tiinific corecte ntre variabilele unui anumit studiu sau
experiment, fac obiectul unei ramuri a statisticii numite statistic
inferenial.
Se evideniaz n principal patru categorii de teste/analize statistice
folosite cu succes n descrierea/interpretarea rezultatelor unui experiment
tiinific:
1. Teste de valabilitate
2. Teste de concordan (goodness of fit)
Noiuni fundamentale de biostatistic

42
3. Teste de semnificaie
4. Corelaii i regresii
+ IV.1. Teste de valabilitate

Noiuni introductive
Definiie: Prin teste de valabilitate se neleg testele care permit
aflarea valorii unei experimentri n funcie de probabilitile apariiei
variaiei n natur.
Cu alte cuvinte, prin aceste teste putem preciza dac un anumit
rezultat experimental poate fi considerat ca fiind datorat variabilitii
biologice normale i care nu va ndeprta semnificativ rezultatul final al
experimentului de valoarea adevrat sau este un rezultat aberant care se
datorete unor factori accidental aprui n timpul experimentului (animale
bolnave, tarate etc).
Rezultate aberante (outliers)
De foarte multe ori ntr-un lot de rezultate experimentale apar cazuri
foarte ndeprtate fa de celelalte. Problema care se pune este dac aceste
rezultate pot sau nu pot fi luate n considerare, avnd n vedere faptul c
influeneaz semnificativ valoarea final a mediei. Exist tendina de a
elimina din start aceste rezultate, care par ntmpltoare, deoarece se
consider c ele deviaz media ntr-un sens care poate fi foarte departe de
valoarea real. Acest mod simplist de a raiona este total greit.
Statistic inferenial
43
Biostatistica pune la dispoziie o serie de criterii de apreciere a
acestei situaii i de eliminare a valorilor care se abat foarte mult de la medie
(aa numitele rezultate aberante - outliers n englez).
Metodele cele mai utilizate n practic sunt testul Grubbs, respectiv
criteriul de eliminare a lui Chauvenet, ce folosesc modaliti de calcul
oarecum similare.
IV.1. 1. Testul Grubbs

De-a lungul timpului statisticienii au gsit mai multe ci de a detecta
i elimina rezultatele aberante. Testul Grubbs este doar una dintre aceste
metode, avnd ns avantajul c este uor de aplicat.
Primul pas n aplicarea acestui test const n cuantificarea
ndeprtrii rezultatlui considerat aberant de celelalte rezultate.
Practic, vom calcula raportul Z, constnd n mprirea diferenei
dintre valoarea mediei i valoarea rezultatului aberant la valoarea abaterii
standard (notat cu S sau SD standard deviation). Trebuie subliniat aici
faptul c abaterea standard este calculat incluznd i valoarea rezultatului
considerat aberant !
SD
X X
Z
i

=
_
(IV.1), unde
_
X - media valorilor
X
i
valoare rezultatului considerat
aberant
SD - abaterea standard

Noiuni fundamentale de biostatistic

44
Dac valoarea astfel calculat lui Z este mare, rezultatul respectiv
este destul de ndeprtat de celelalte rezultate.
Este tiut faptul c atunci cnd analizm date experimentale, nu
cunoatem aprioric abaterea standard a populaiei statistice studiate.
Dimpotriv, abaterea standard este calculat chiar din datele obinute n
urma experimentului. Din aceast cauz, prezena unui rezultat aberant va
crete valoarea abaterii standard calculate.
Deoarece prezena unei valori aberante va crete att numrtorul
(valoare absolut a diferenei dintre medie i valoarea aberant), ct i
numitorul (abaterea standard a tuturor valorilor) n cazul formulei de mai
sus, valoarea lui Z nu poate fi mai mare dect
( )
n
n 1
, unde n numrul
de valori experimentale. De exemplu, dac n=5, Z nu poate fi mai mare
dect 1,789, pentru orice set de date experimentale.
Ca i n cazul altor teste statistice i pentru testul Grubbs au fost
calculate un set de valori critice pentru Z. Evident, valoarea critic va
crete cu mrimea eantionului (n), aa cum se poate vedea din tabelul
urmtor:
Tabel IV.1. Valoarile critice ale lui Z
n Valoarea critic a lui Z n Valoarea critic a lui Z
3 1.15 27 2.86
4 1.48 28 2.88
5 1.71 29 2.89
6 1.89 30 2.91
7 2.02 31 2.92
8 2.13 32 2.94
Statistic inferenial
45
9 2.21 33 2.95
10 2.29 34 2.97
11 2.34 35 2.98
12 2.41 36 2.99
13 2.46 37 3
14 2.51 38 3.01
15 2.55 39 3.03
16 2.59 40 3.04
17 2.62 50 3.13
18 2.65 60 3.2
19 2.68 70 3.26
20 2.71 80 3.31
21 2.73 90 3.35
22 2.76 100 3.38
23 2.78 110 3.42
24 2.8 120 3.44
25 2.82 130 3.47
26 2.84 140 3.49
Dac valoarea particular calculat pentru Z n cazul rezultatului
considerat aberant este mai mare dect valoarea critic din tabelul de mai
sus, atunci P este mai mic dect 0,05. Aceasta nseamn c exist mai puin
de 5% anse ca, datorit ntmplrii, s ntlnii o valoare aberant mai
ndeprtat de celelalte valori (n orice direcie), ct vreme datele provin
dintr-un eantion extras dintr-o populaie gaussian. n acest caz, dac
P<0,05, rezultatul poate fi considerat aberant i poate fi eliminat.
De remarcat faptul c testul Grubbs poate fi aplicat cu succes numai
la valorile extreme (n ambele sensuri) ntlnite n cazul eantionului studiat.
Exemplu:
A fost msurat greutatea a 15 indivizi aduli. Rezultatele
msurtorilor sunt cele din tabelul urmtor:

Noiuni fundamentale de biostatistic

46
Tabel IV.2. Rezultatele msurtorilor
Nr. crt. Greutatea (kg)
1 58
2 60
3 80
4 77
5 83
6 75
7 82
8 79
9 50
10 35
11 70
12 160
13 80
14 65
15 55
Media =73,93 kg
Abaterea standard = 27,59
n = 15

Aplicnd formula de calcul a lui Z pentru valoarea n
12
=160 kg
obinem 12 , 3
59 , 27
07 , 86
59 , 27
160 93 , 73
= =

= Z , o valoare mai mare dect


valoarea critic pentru n=15, care este 2,55, deci P<0,05. n concluzie,
pentru eantionul studiat o valoarea greutii corporale de 160 kg poate fi
considerat rezultat aberant, putnd fi luat n calcul eliminarea acestuia.




Statistic inferenial
47
IV.1. 2. Criteriul de eliminare a lui Chauvenet

Se bazeaz pe considerentul c orice valoare a crei probabilitate de
apariie este mai mic dect o valoare limit care depinde de numrul n
de rezultate, trebuie eliminat. (Farmacopeea Romn ediia a X-a).
Pentru aplicarea acestui criteriu la eliminarea unor rezultate aberante
trebuie urmai paii de mai jos:
- se calculeaz abaterea standard (S sau SD) a irului de valori,
conform formulei menionate n capitolele anterioare;
- din tabelul de mai jos, se obine valoarea raportului x/s, n funcie de
numrul n de rezultate;
- se nmulete valoarea acestui raport cu valoarea abaterii standard
(S), obinndu-se astfel valoarea x, care reprezint valoarea absolut
maxim pe care o poate avea di (unde d
i
abaterea fa de medie,
x x d
i i
= ), pentru ca valoarea experimental respectiv s nu fie
eliminat. Orice valoare creia i corespunde o abatere fa de medie, n
mrime absolut, mai mare dect x (di > x), trebuie eliminat.
Dac printre valorile rmase dup aplicarea de eliminare se
consider, c mai exist o valoare ce ar trebui eliminat, se aplic criteriul
nc o dat. n general, se repet aplicarea criteriului de eliminare de cte ori
este necesar.
Tabelul IV.3. Valoarea raportului x/s folosit pentru criteriul de
eliminare
n x/s n x/s n x/s
5 1,68 14 2,10 30 2,39
Noiuni fundamentale de biostatistic

48
6 1,73 16 2,16 40 2,50
7 1,79 18 2,20 50 2,58
8 1,86 20 2,24 100 2,80
9 1,92 22 2,28 200 3,02
10 1,96 24 2,31 500 3,29
12 2,03 26 2,35

Vom exemplifica aplicarea criteriului de eliminare n cazul unor
valori (x
i
) ale timpului de laten a instalrii efectului hipnotic n cazul
amobarbitalului:

Tabelul IV.4. Prima aplicare a criteriului de eliminare
Nr.
crt.
x
i

(secunde)
d
i

2
i
d

1 16,1 3,6 12,96
86 , 4
9
56 , 212
s = =
2 15,5 3,0 9,00
3 13,4 0,9 0,81 x/s = 1,96
4 22,8 10,3 106,09
5 12,1 -0,4 0,16 x = 1,96 x 4,86 = 9,53
6 11,3 -1,2 1,44
7 11,6 -0,9 0,81
8 6,3 -6,2 38,44
9 8,8 -3,7 13,69
10 7,1 -5,4 29,16

= 00 , 125 x
i

= 56 , 212 d
2
i


or) rezultatel a aritmetica (media 5 , 12 x =
Dup cum rezult din tabel, diferena d
i
= 10,3, corespondena
valorii de 22,8 secunde depete valoarea maxim admis (x =9,53); prin
urmare, valoarea respectiv va trebui s fie eliminat din datele supuse
prelucrrii.
Statistic inferenial
49
Tabelul IV.5. A doua aplicare a criteriului de eliminare
Nr.
crt.
x
i

(secunde)
d
i

2
i
d

1 16,1 4,7 22,09
4 , 3
8
7 . 94
s = =
2 15,5 4,1 16,81
3 13,4 2,0 4,00 x/s = 1,92
4 12,1 0,7 0,49
5 11,3 -0,1 0,01 x = 1,92 x 3,4 =6,5
6 11,6 0,2 0,04
7 6,3 -5,1 26,01
8 8,8 -2,6 6,76
9 7,1 -4,3 18,49

= 2 , 102 x
i

= 70 , 94 d
2
i


or) rezultatel a aritmetica (media 4 , 11 x =

Aplicarea criteriului de eliminare a doua oar conduce la o valoare
maxim admis (x = 6,5) superioar oricrui d
i
, deci nu va mai fi necesar
eliminarea nici unei valori.
Efectuarea unei analize, folosind un eantion adecvat, nu poate
conduce ns, de cele mai multe ori, la determinarea mediei adevrate a
populaiei statistice din care face parte acel eantion. n schimb se pot gsi,
cu o anumit probabilitate, limitele ntre care se afl valoarea medie
adevrat. n acest scop se calculeaz mai nti abaterea standard a medie
eantionului (S
x
), conform formulei de mai jos:
n
s
x S = (IV.2)
n continuare, intervalul de ncredere al mediei (J) se stabilete
pentru o probabilitate de eroare dorit, de obicei 5% (altfel spus p= 0,05)
Noiuni fundamentale de biostatistic

50
folosind valoarea t Student, a crei valori corespunztoare gradelor de
libertate ale determinrii, pentru p = 0,05, sunt date n tabelul din Anexa 1:
Se aplic formula:
x S t x J = (IV.3)
Gradele de libertate sunt reprezentate de numrul mrimilor
independente ale determinrii. n cazul de fa, gradele de libertate se
calculeaz scznd din numrul total de valori (x
i
) cifra 1 (numrul de
loturi).

+ IV.2. Teste de concordan (Goodness-Of-Fit)

Noiuni introductive
n spe, mai ales n domeniul biostatisticii, suntem n primul rnd
interesai dac distribuia de frecven a populaiei din care sunt prelevate
eantioanele analizate de noi urmeaz sau nu modelul ideal al unei
distribuii normale (distribuie Gaussian).
Ce nelegem prin distribuie Gaussian ?
Aa cum am artat i n capitolele anterioare, chiar dac o
multitudine de factori aleatori acioneaz n mod convergent, crend
variabilitate, de cele mai multe ori distribuia de frecven a datelor
investigate urmeaz mai mult sau mai puin o aa-numit distribuie n
form de clopot, numit distribuie normal sau distribuie Gaussian.
Statistic inferenial
51
Acest tip de distribuie are o serie de proprieti matematice
speciale ce stau la baza marii majoriti a celor mai utilizate teste statistice
(aa-numitele teste statistice parametrice testul t, testul F, testul CHI
2
etc).
Chiar dac - n general datele colectate de noi n urma investigrii
unui eantion extras din populaia statistic studiat nu urmeaz acest model
matematic ideal, de cele mai multe ori aceste date urmeaz o distribuie ce
este aproximativ Gaussian.
Distribuia Gaussian (normal) joac un rol central n analiza
statistic datorit unei legiti matematice cunoscute ca Teorema Limitei
Centrale (Central Limit Theorem).
La modul intuitiv, putem afirma c aceast teorem statueaz c
dac o serie de variabile msurate au o varian finit, atunci distribuia de
frecven a acestor variabile poate fi aproximat ca fiind o distribuie
normal (Gaussian).
Cu alte cuvinte, conform acestei teoreme, putem afirma c dac
eantioanele studiate sunt suficient de mari, distribuia de frecven n jurul
mediilor acestor eantioane va urma modelul unei distribuii gaussiene,
chiar dac n sine populaia statistic din care au fost prelevate aceste
eantioane nu este Gaussian.
De vreme ce mai multe teste statistice (de exemplu testul t sau
analiza de varian - ANOVA) sunt teste ce cuantific existena unor
diferene ntre medii, Teorema Limitei Centrale permite acestor teste s
furnizeze rezultate pertinente, chiar dac populaiile statistice din care
provin eantioanele studiate nu sunt Gaussiene.
Noiuni fundamentale de biostatistic

52
Condiia necesar i suficient este ca eantioanele respective s fie
suficient de mari ! Ct de mari anume ? Din nefericire, acest lucru depinde,
n spe, de ct de diferit este distribuia populaiei studiate de distribuia
Gaussian.
La modul general, testele de concordan sunt teste ce se permit
luarea unei decizii asupra faptului c un eantion provine sau nu dintr-o
populaie statistic ce se supune unui anumit tip de distribuie de frecven.
n cazul biostatisticii, principala utilizare a unor astfel de teste const
n verificarea faptului c eantioanele studiate sunt prelevate dintr-o
populaie statistic ce se supune sau nu legilor unei distribuii normale
(Gaussiene).
Exist mai multe astfel de teste de concordan:
Testul de concordan Kolmogorov-Smirnov
Testul de concordan Anderson-Darling
Testul de concordan Chi-Square
Testul de normalitate Shapiro-Wilk etc
Deoarece multe dintre programele de analiz statistic utilizeaz
numai unul sau dou dintre aceste teste (n general testul Kolmogorov-
Smirnov) ne vom referi n continuare la acesta.
IV.2.1. Testul de concordan Kolmogorov-Smirnov

Testul Kolmogorov-Smirnov (Chakravart, Laha and Roy, 1967) este
folosit pentru a decide dac un anumit eantion provine dintr-o populaie
statistic ce se supune unui anumit tip de distribuie de frecven.
Statistic inferenial
53
Testul Kolmogorov-Smirnov (K-S) se bazeaz pe aa-numita funcie
cumulativ de distribuie empiric (ECDF - The Empirical Cumulative
Distribution Function).
Fiind dat un numr N de puncte Y
1
, Y
2
, ..., Y
N
, ECDF poate fi
definit ca
( ) N i n E
N
= (IV.4)
unde n(i) este numrul de puncte mai mici dect Y
i
, puncteleY
1i
fiind
ordonate n ordine cresctoare, de la cea mai mic la cea mai mare valoare.
Graficul de mai jos reprezint funcia de distribuie empiric pentru
o distribuie normal cumulativ n cazul a 100 de numere generate aleator.
Testul Kolmogorov-Smirnov (K-S) se bazeaz pe estimarea maximului
distanelor dintre cele dou curbe.

Figura IV.1. Funcia de distribuie empiric pentru o distribuie normal
cumulativ n cazul a 100 de numere generate aleator


Noiuni fundamentale de biostatistic

54
Aplicarea testului Kolmogorov-Smirnov, presupune urmtorii pai:
Ipoteza nul, H
0
Datele studiate urmeaz distribuia specificat (n
cazul nostru distribuia Gaussian)
Ipoteza
alternativ, H
1

Datele studiate NU urmeaz distribuia specificat
(n cazul nostru distribuia Gaussian)
Statistica
testului
( ) ( )

=

Y Y i i
N i
F
N
i
N
i
F D ,
1
max
1
, unde F este
funcia cumulativ de distribuie teoretic a distribuiei
testate ( este necesar s fie o distribuie continu, testul
neputndu-se aplica n cazul distribuiilor discrete
cum este distribuia binomial sau distribuia Poisson),
tipul distribuiei testate trebuind s fie clar specificat.
Pragul de
semnificaie

Valori critice Ipoteza H
0
este respins dac D
calculat
are o valoare
mai mare dect o valoare critic obinut din
tabele.
Deoarece exist o serie de variaii ale tabelelor cu
valori critice pentru acest test n datele din literatur,
am preferat s nu furnizm un astfel de tabel n
anexele crii, cu att mai mult cu ct programele de
analiz statistic ce efectueaz acest test (cum este
GraphPad Instat) furnizeaz valorile critice relevante
la un anumit prag de semnificaie.

Statistic inferenial
55

Figura IV.2. Testul Kolmogorov-Smirnov, aplicat n programul GraphPad
Instat

+ IV. 3. Teste de semnificaie

n general, dup calcularea rezultatelor unor determinri biologice
este necesar s se decid dac diferenele obinute de pild ntre mediile sau
medianele eantioanelor analizate sunt datorate numai ntmplrii (de
exemplu variabilitii biologice) sau sunt diferene reale (cu alte cuvinte
dac cele dou eantioane fac parte din aceeai populaie statistic sau
aparin unor populaii statistice diferite).
Pentru a putea face aceasta este necesar nelegerea corect a unor
noiuni fundamentale din domeniul statisticii, cum ar fi valoarea lui P,
Noiuni fundamentale de biostatistic

56
formularea ipotezei nule (H
0
) sau existena unor dependene ntre
eantioane (date pereche/nepereche).
Valoarea lui P.

n cazul unui experiment efectuat asupra a dou eantioane, o
ntrebare pertitent pe care am putea s o punem este urmtoarea:
Dac cele dou populaii statistice studiate chiar au aceeai
medie (sau media nu difer semnificativ), care este probabilitatea de a
observa o aceeai diferen sau chiar una mai mare ntre mediile unor
eantioane de aceeai mrime ntr-un viitor experiment ?
Parametrul statistic ce rspunde la aceast ntrebare este valoarea lui
P.
P este de fapt o msur a probabilitii menionate mai sus, putnd
lua valori ntre 0 i 1.
Dac valoarea P este mic (de exemplu P<0,05) putem concluziona
c este improbabil ca diferena observat ntre mediile celor dou eantioane
s se datoreze ansei (eantionrii aleatorii). Cu alte cuvinte, putem trage
concluzia c cele dou populaii studiate au ntr-adevr medii diferite.
Ipoteza nul (H
0
).

Cnd specialitii n statistic fac referire la valoarea lui P n cazul
aplicrii unor teste statistice, folosesc totodat i termenul de ipotez nul
(notat cu H
0
).
Ipoteza nul statueaz pur i simplu, aprioric, faptul c nu exist nici
o diferen ntre grupurile (eantioanele) studiate.
Statistic inferenial
57
Simultan se formuleaz i o ipotez alternativ (notat cu H
a
sau
H
1
), ce statueaz exact contrariul: c exist o diferen ntre grupurile
(eantioanele) studiate.
Pornind de la acest fapt, putem defini valoarea lui P ca fiind
probabilitatea de a observa (ntr-un viitor experiment) o aceeai diferen
sau chiar una mai mare ntre dou eantioane aleatorii prelevate din cele
dou populaii statistice studiate, dect am observat n acest moment, n
cazul n care ipoteza nul s-ar fi dovedit adevrat.
Este relativ uor s interpretm greit valoarea lui P n contextul
aceeptrii sau respingerii ipotezei nule. [instat].
S lum un exemplu: n urma aplicrii unui test statistic pentru
compararea mediilor a dou eantioane prelevate aleator din dou populaii
statistice am obinut o valoare P=0,03.
n acest moment am fi tentai s tragem concluzia facil c exist
97% anse ca diferena observat s reflecte o diferen real ntre
populaiile studiate, respectiv 3% anse ca diferen s se datoreze
ntmplrii. O astfel de interpretarea este ns greit !
Ceea ce putem afirma cu adevrat este faptul c n cazul unor
experimente viitoare, n urma prelevrii unor eantioane aleatoare din
populaiile respective vom obine o diferen mai mic dect cea constatat
acum ntre populaiile studiate n 97 % din cazuri, respectiv o diferen mai
mare n cel mult 3% din experimente.
n general n cazul testelor statistice, o valoare a lui P>0,05 duce
la acceptarea ipotezei nule H
0
, respectiv o valoare a lui P<0,05
Noiuni fundamentale de biostatistic

58
determin respingerea ipotezei nule i acceptarea ipotezei alternative
H
a
.

Dependena/independena eantioanelor studiate (date
pereche/nepereche paired/unpaired data)

Anumite teste statistice despre care vom discuta n paginile
urmtoare, in cont de modul n care eantioanele studiate sunt dependente
sau nu unul de cellalt, existnd fie versiuni speciale ale testului pentu date
pereche/nepereche (cum este cazul testului t), fie testul este recomandat
pentru date nepereche testul Mann-Whitney, respectiv date pereche
testul Wilcoxon.
Una dintre principalele problem rezid din modul n care datele
sunt grupate: avem de-a face cu un experiment cu date pereche sau
nepereche (paired unpaired n englez) ?
Putem vorbi despre date pereche, atunci cnd experimentul are
urmtorul design:
Este msurat o variabil nainte i dup o intervenie asupra
aceluiai subiect
Se efectueaz un experiment de laborator de mai multe ori, de
fiecare dat efectund n paralel determinri asupra
preparatului studiat, respectiv asupra controlului
Subiecii experimentului au fost recrutai ca perechi pe baza
unor criterii cum ar fi vrsta, rasa sau gravitatea bolii
Statistic inferenial
59
Sunt msurai anumii parametrii n cazul gemenilor sau a
unor perechi de genul printe/copil etc
La modul general, putem considera datele ca fiind pereche
(eantioane dependente), dac ne ateptm ca o fiecare valoare dintr-un
eantion s fie corelat cu o valoare particular din cellalt eantion. Evident
potrivirea NU trebuie s aib loc pe baza variabilei studiate. De exemplu
dac vom compara tensiunea arterial ntre dou grupuri, vom ordona
eantioanele, potrivindu-le pe baza vrstei pacienilor, de exemplu, i nu
pe baza valorilor tensiunii arteriale !

Statistic parametric/neparametric

n practic ntlnim dou situaii, pe care le vom aborda diferit:
1. Dac rezultatele se ncadreaz ntr-o distribuie normal i dac cele
dou eantioane nu exist alt diferen semnificativ (diferene de vrst,
sex, mas corporal etc.) n afar de tratamentul aplicat se consider c
abaterile standard ale celor dou loturi nu difer semnificativ. n acest caz se
poate testa semnificaia statistic a diferenei mediilor cu ajutorul mai
multor teste, dintre care cel mai folosit este testul t Student.
2. Dac rezultatele nu se ncadreaz ntr-o distribuie normal sau nu
poate fi testat normalitatea distribuiei datelor experimentale, datorit
numrului mic de date colecate (existena unor eantioane mici) este indicat
s se aplice un test neparametric, cele mai des utilizate fiind testul Wilcoxon,
respectiv testul U Mann-Whitney.

Noiuni fundamentale de biostatistic

60
IV.3.1. Teste de semnificaie parametrice

Este cunoscut faptul c majoritatea efectelor farmacodinamice
obinute prin administrarea substanelor active se pot ncadra n urmtoarele
dou categorii:
i. Efecte gradate, care variaz n funcie de doz sau, altfel spus, unde
relaia dintre doz i efect este gradat. Aceste efecte nu se mai numesc
cantitative.
ii. Efecte unice (cuantale) exprimate printr-un cuantum (proces) sau
efecte cu rspuns unic, de tipul tot sau nimic. Se mai numesc i efecte
calitative.
Testele de semnificaie se mpart datorit acestui fapt n:
A. Teste de semnificaie pentru efecte gradate (de exemplu testul
t, testul F, testul U).
B. Teste de semnificaie pentru efecte cuantale (de exemplu testul
X
2
).

A.Teste de semnificaie pentru efecte gradate

Testele de semnificaie aplicate ntre dou medii, stabilesc valoare
mediilor n funcie de posibilitile de eroare.
Mai precis ele stabilesc care este probabilitatea ca diferena dintre
dou efecte (dou medii) s fie real sau, eventual, s se datoreze unei
fluctuaii de eantionaj.
Statistic inferenial
61
n fapt, se testeaz ipoteza nul ce statueaz faptul c nu exist nici o
diferen ntre cele dou medii. Dac aceast afirmaie nu se verific,
nseamn c diferena ntre cele dou medii este semnificativ statistic,
putndu-se deci susine existena unui rezultat diferit de cel datorat
ntmplrii (cu alte cuvinte existena unui efect biologic al substanei
cercetate).
Calculele se efectueaz, de obicei, la un prag de semnificaie p=0,05,
ce acoper deci 95% din cazuri, dup legile distribuiei normale. Dac se
consider necesar, se poate lucra i cu un prag mai mic de semnificaie (de
exemplu p =0,01, adic 99%), fapt care permite o siguran mai bun din
punct de vedere statistic.

A.1.1. Testul F Fischer - Snedecor

Testul propus de Snedecor, ia n considerare varianele de
eantionaj.
Pentru a transforma varianele n mrimi apte de a fi comparate, de
exemplu n cazul efectului farmacologic a dou forme farmaceutice
coninnd aceeai substan activ, un instrument statistic eficient este testul
F.
Formulele practice de calcul, obinute prin transformri algebrice,
sunt urmtoarele:
( )
1 n
n
x
x
S
1
1
2
1 2
1
2
1

=


(IV.5)
( )
1 n
1 n
x
x
S
2
2
2
2 2
2
2
2

=


(IV.6)
Noiuni fundamentale de biostatistic

62
2
2
2
1
S
S
F = (IV.7), unde
2
2
2
1
S S >
Exemplu: Vom ncerca s aflm, folosind testul F, dac exist o
diferen semnificativ ntre variana n jurul a dou medii
1
x i
2
x ,
provenite dintr-o determinare comparativ a dou produse farmaceutice A i
B. Rezultatele obinute sunt trecute n tabelul de mai jos:
Tabel IV.5. Rezultate obinute pentru dou produse farmaceutice A i B
Efect A
2
1
x
Efecte B
2
2
x
6 36 15 225
4 16 4 16
3 9 10 100
7 49 10 100
6 36 5 25
4 16 11 121
9 81
n
1
=6 n
2
=7

30 x
1
= = 64 x
2

0 , 5 x
1
= 1 , 9 x
2
=
=162 x
2
1
= 668 x
2
2

4 , 2
5
150 162
1 6
6 / ) 30 ( 162
S
2
2
1
=


8 . 13
6
585 668
1 7
7 / ) 64 ( 668
S
2
2
2
=

= deci 75 , 5
4 , 2
8 , 13
S
S
F
2
2
1
= = =
Statistic inferenial
63
Comparm valoare obinut de noi cu cea din tabelul Anexei 5,
innd cont de gradele de libertate. Pentru p = 0,05 gsim valoare 4,95.
Deoarece valoarea gsit de noi este mai mare dect cea teoretic, nseamn
c exist o diferen statistic semnificativ ntre variana n jurul celor dou
medii obinute experimental.

A.1.2. Testul t Student

A fost propus de Gosset n cazul n care eantioanele sunt mici. El
ine cont, n calculul diferenei semnificative dintre medii, de msura
variabilitii i de ponderea observaiilor n funcie de numrul acestora
(grade de libertate).
Exist 3 variante ale testului testul t implementate n diferite
versiuni ale unor programe de analiz statistic:
i. Testul t pentru date pereche (eantioane dependente)
ii. Testul t pentru date nepereche (eantioane independente) ce au
varian egal (homoscedatic)
iii. Testul t pentru date nepereche (eantioane independente) ce au
varian inegal (heteroscedatic)

Pentru eantioane mici exist diferene ntre testul t i celelalte
teste de semnificaie parametrice, dar ncepnd de la n > 15 cifrele testului
t se apropie de 2, ceea ce arat o coinciden cu distribuia normal.
Formulele de calcul a diferenei semnificative, n cazul testului t
sunt urmtoarele:
Noiuni fundamentale de biostatistic

64
2 1
2 1
d
2 1
n n
n n
S
x x
t
+

= (IV.8), unde
2 1
x , x = media rezultatelor
eantionului 1, respectiv 2
n
1
, n
2
= numrul de animale din eantionul 1, respectiv 2.
s
d
= eroarea standard a diferenei, care se calculeaz conform
formulei:
2 n n
d d
s
2 1
2
2
2
1
d
+
+
=

(IV.9)
unde:
( )

=
2
1
2
2
2
1
x x d , d n eantioanele 1, respectiv 2.
x
i
- valorile individuale n eantioanele
1 i 2.
Dac nlocuim n formula (IV.8) valoarea erorii standard conform
formulei (IV.9), obinem:
2 1
2 1
2 1
2
2
2
1
2 1
n n
n n
2 n n
d d
x x
t
+

+
+

=

(IV.10)
Se consider o diferen semnificativ, cu o probabilitate de eroare
de 5% (p=0,05) dac t calculat este superior celui din tabelul A, pentru
gradele de libertate corespunztoare.
n cazul n care cele dou eantioane sunt egale numeric (n
1
=n
2
),
putem reprezenta acest numr egal de cazuri prin n (n=n
1
=n
2
) i formula
(IV.10) devine:
Statistic inferenial
65
( ) 1 n n
d d
x x
t
2
2
2
1
2 1

=

(IV.11)
Acelai test se poate folosi i n cazul n care condiiile
experimentale permit administrarea concomitent a ambelor tratamente la
acelai animal. n aceast situaie putem admite c rspunsurile obinute la
acelai animal sunt rezultatul exclusiv al diferenelor ntre aciunea
substanelor testate, restul condiiilor fiind identice. Aceasta ne permite s
scdem unul din altul cele dou rezultate, obinute la acelai animal i s
testm semnificaia diferenelor (d
i
) astfel calculate (metoda poart numele
de metoda cuplurilor); aplic formula:
( )
( ) 1 n n
d d
d
t
2 1

= (IV.12)
unde: d
i
= valorile individuale ale diferenelor fiecrui cuplu
n
d
d
n
i
i
= (IV.13)
Pentru o mai bun nelegere vom lua un exemplu. S presupunem
c n tabelul de mai jos se gsesc rezultatele obinute la acelai animal dup
administrarea standardului (s) i a probei (p), precum i diferena dintre
aceste rezultate (d
i
= p-s):



Noiuni fundamentale de biostatistic

66
Tabelul IV.6. Rezultate experimentale

Nr.crt. s p di
d d
1

( )
2
1
d d
1. 24 35 11 2 4
2. 20 10 -10 -19 361
3. 18 36 18 9 81
4. 45 50 5 -4 16
5. 60 74 14 5 25
6. 72 65 -7 -16 256
7. 65 70 5 -4 16
8. 54 90 36 27 729
72 d
1
=


( )

= 1488 d d
2
1

9 d
1
=

74 . 1
8 7
1488
9
t =

=

Aplicnd formula (4.2.5.) se obine un t = 1,74, mai mic dect
valoarea t =2,37 care este dat n tabele pentru 7 grade de libertate i o
probabilitate de eroare de 5% (p = 0,05). Aceasta arat c efectul probei
aflate n studiu nu difer semnificativ fa de standard.



Statistic inferenial
67
B.Teste de semnificaie pentru efecte cuantale
B.1.1. Testul
2

(Chi
2
)

n cazul determinrilor cuantale comparative, pentru a calcula
diferena semnificativ ntre dou activiti (probe) exprimate n procente,
sau pentru a stabili dac exist o anumit concordan sau discordan ntre
frecvenele ateptate (teoretice) i cele observate (experimentale, empirice)
sau, alte cuvinte legtura existent sau inexitent nttre o repartiie teoretic
i o repartiie experimental se folosete indicele
2
, propus pentru prima
dat de Helmert i Pearson.
Testul
2
, spre deosebire de alte teste aplicate n cazul rspunsurilor
biologice cuantale, ia n considerare i ali factori dect abaterea standard a
procentelor, i anume numrul cazurilor, gradele de libertate, frecvenele
teoretice i frecvenele experimentale.
Legtura funcional este definit de concordana sau neconcordana
dintre ipoteza de lucru (efecte teoretice) i rezultatele experimentale
(empirice), gradul de legtur putndu-se msura prin stabilirea frecvenei
asociaiei n comparaie cu numrul cazurilor examinate, lucru care se poate
exprima matematic prin raportul asociaiei Muster:
Nr. cazurilor de asociere
Nr. indivizilor examinai
R
m
=
(IV.14)
Legtura funcional dintre rezultatele teoretice (ateptate) i
rezultatele experimentale ar putea fi aflat din nsumarea diferenelor ntre
Noiuni fundamentale de biostatistic

68
frecvenele teoretice i cele experimentale. Relaia care exprim matematic
acest lucru este urmtoarea:
( ) =
. exp . teor i
f f d (IV.15)
Frecvena teoretic total poate fi egal cu frecvena empiric total,
iar diferenele pozitive se pot compensa cu cele negative, de aceea n calcul
vom folosi ptratele acestor diferene, ceea ce duce la relaia:
( )
.
2
. exp .
2
teor
teor
f
f f
= (IV.16)
n cazul concordanei perfecte ntre teorie i observaie
2
= 0.
Practic formula de calcul a lui
2
este cea de mai jos:
t
t e 2
e
e e
= (IV.17) unde e
e
= efectul observat experimental
e
t
= efectul teoretic (ateptat)
Testul
2
se aplic:
- frecvenelor absolute (numere, efecte de diverse categorii)
- frecvenelor relative (procentaje)
Trebuie menionat ns faptul c nu putem folosi acest test dect
dac efectele studiate au frecvene de apariie mai mari de 10.
n determinrile biologice testul
2
poate fi folosit ca test de
semnificaie n cazul rspunsurilor unice, cu ajutorul lui putndu-se aprecia
dac exist o diferen semnificativ ntre dou distribuii (una teoretic i
alta experimental).
Statistic inferenial
69
Pentru a compara o repartiie observat fa de o repartiie teoretic a
unui caracter calitativ cu N clase, aplicm formula de mai sus i cutm
probabilitatea corespunztoare la N-1.
Testul este cu att mai semnificativ cu ct valoarea P gsit este mai
mic i
2
calculat mai mare.
S lum un exemplu:
Administrnd o doz egal cu DL
50
la 40 de oareci, se obine un
efect de 30 de animale moarte i 10 animale supravieuitoare. Am obinut
deci un procent de mortalitate de 75% fa de 50% ct era de ateptat.
Dorim s aflm dac acest rezultat experimental difer semnificativ de cel
teoretic (50% mortalitate) sau se datorete doar unei fluctuaii de eantionaj.
Vom aplica formula de mai sus. n cazul nostru e
t
= 20. n urma
experimentului au murit 30 de aoreci, deci e
e
= 30. Rezultatele
experimentului se trec, de obicei ntr-un tabel de forma:
Tabel IV.6. Rezultatele experimentului
Mori Supravieuitori Total %
Teoretic (e
t
) 20 20 40 50
Experimental
(e
e
)
30 10 40 75
e
e
-e
t
10 -10 - -

Introducnd datele n formula de calcul obinem:
( ) ( ) ( )
0 , 10 5 5
20
10
20
10
20
20 10
20
20 30
2 2 2 2
2
= + =

+ =

=
Noiuni fundamentale de biostatistic

70
n cadrul experimentului exist dou posibiliti de evoluie, animale
moarte sau supravieuitoare, deci N=2, iar N-1=1. deci numrul de grade de
libertate pentru care vom cuta n tabelul din Anexa 7 va fi egal cu 1. Vom
constata c valoarea lui
2
obinut de noi corespunde, pentru N=1, unei
valori p=0,001, deci rezultatul obinut n urma experimentului difer
semnificativ de cel estimat teoretic.
n cazul nostru putem interpreta rezultatul obinut ca fiind datorat
unei toxiciti crescute a produsului fa de cea ateptat teoretic (am putea
presupune, de exemplu, o descompunere a substanei active cu formarea
unor produi cu toxicitate crescut: urmeaz s stabilim prin cercetri
ulterioare care este adevrata cauz a creterii toxicitii compusului,
cretere stabilit tiinific cu ajutorul testului
2
).
n cazul comparaiei a dou procentaje, formula de calcul se bazeaz
pe coeficientul de asociaie Q a lui Yule. S o aplicm n cazul a dou
produse A i B, cu cte dou variabile a, respectiv b. Cifrele romane arat
frecvenele absolute ale acestor variabile:
IV II III I
IV II III I
Q
+

= (IV.18)
Datele pot fi grupate ntr-un tabel sinoptic ca cel de mai jos:
Tabel IV.7. Tabel sinoptic
a b
A I II
B IV III

Statistic inferenial
71
Dac lum un numr M de cazuri (de exemplu un experiment ce
folosete M animale), formula de mai sus poate fi scris:
( ) [ ]
( )( )( )( ) III II IV I IV III II I
M 2 / M IV II III I
2
2
+ + + +

= (IV.19)
S ncercm determinarea cu ajutorul testului
2
, a activitii unui
produs n comparaie cu un produs martor, urmrindu-se supravieuirea
animalelor. S presupunem c, n urma experimentrii, am obinut
rezultatele de mai jos:
Tabel IV.8. Tabel sintetic cu rezultatele experimentului
Supravieuitori Mori Total
%
supravieuitori
Compus de
cercetat
I=25 II = 14 I + II = 39 64%
Compus
martor
IV = 21 III = 22
IV + III =
43
49%
Total I + IV = 46 II + III = 36 M = 82 -

Practic va trebui s determinm dac procentul de supravieuitori de
64%, gsit n cazul compusului cercetat, difer semnificativ statistic de
procentul de supravieuitori gsit n cazul compusului martor (49%), practic
dac compusul studiat este mai puin toxic dect martorul. Introducem
datele din tabel n formula lui Yule.
( ) [ ]
36 46 43 39
82 2 / 82 21 14 22 25
2
2


=
Noiuni fundamentale de biostatistic

72
Deoarece avem din nou numai dou posibiliti, animale moarte sau
supravieuitoare, vom avea N=2, respectiv N-1=1 grad de libertate. Din
tabelul Anexei 7 putem constata c statisticul lui CHI
2
corespunde unei
valori p=0,20, statistic nesemnificativ. Putem afirma deci c produsul
studiat nu este mai puin toxic dect martorul, diferena dintre procentajele
obinute datorndu-se fluctuaiilor de eantionaj.

IV.3.2. Teste de semnificaie neparametrice. Statistica
ordinei.

Dac rezultatele experimentelor nu se ncadreaz ntr-o distribuie
normal sau volumul eantioanelor extrase din populaia statistic este mic,
este indicat recurgerea la un test de semnificaie neparametric. Astfel de
teste fac obiectul unei ramuri a statisticii numit i statistica ordinei, la care
studiaz sistemele de valori observate ale variabilelor aleatoare, din punctul
de vedere al relaiilor de ordine. Un mare avantaj al acestor metode l
constituie, cum am mai spus, faptul c rezultatele ce se obin nu depind de
natura repartiiei variabilei aleatoare studiate. Ele se numesc neparametrice,
deoarece verificarea unei ipoteze nu este legat de parametrul unei anumite
repartiii.
Testul Wilcoxon
Este unul dintre cele mai utilizat teste de semnificaie neparametrice,
extrem de util mai ales n cazul eantioanelor dependente (date pereche -
paired data).
Statistic inferenial
73
Aplicarea lui la studiul a dou eantioane, pentru a verifica dac
acestea difer semnificativ sau nu (i, n ultim instan dac provin sau nu
din aceeai populaie statistic), presupune parcurgerea urmtorilor pai:
1. Se aeaz valorile n (n = n
1
+ n
2
) n ordine cresctoare, fcnd
abstracie de eantioanele din care provin. Se atribuie apoi fiecrei
valori un rang de ordine cresctoare ncepnd cu 1. Dac exist
valori egale, acestora li se atribuie ranguri egale cu media
aritmetic a rangurilor pe care le-ar fi avut dac aceste valori ar fi
fost distincte.
2. Se formeaz un tabel n care se specific, n ordine cresctoare,
valorile obinute la fiecare eantion i se reine, notnd cu S, una
din cele dou sume.
3. Folosind tabelul (testul Wilcoxon, p =0,95) de mai jos, se
procedeaz astfel:
Dac S este situat n afara intervalului din tabel, care se gsete la
intersecia coloanei (n
1
) i a liniei (n
2
) se poate afirma c, la pragul de
semnificaie =0,05 (sau altfel spus p = 0,05), cele dou eantioane difer.
n caz contrar este justificat s se afirme c cele dou eantioane nu difer
semnificativ statistic.

Tabel IV.9. Valori critice, testul l Wilcoxon ( = 0,05)
n
1

4 5 6 7 8 9 10


4
5
11-26
12-28
17-33
19-36
24-42
26-46
32-52
34-57
41-63
44-68
51-75
54-81
62-88
66-94
Noiuni fundamentale de biostatistic

74



n
2

6
7
8
9
10
11
12
13
14
13-31
14-34
15-37
16-40
17-43
18-46
19-49
20-52
21-55
20-40
21-44
23-47
24-51
26-54
27-58
28-62
30-65
31-69
28-50
29-55
31-59
33-63
35-67
37-71
38-76
40-80
42-84
36-62
39-66
41-71
43-76
45-81
47-86
49-91
52-95
54-
100
46-74
49-79
51-85
54-90
56-96
59-
101
62-
106
64-
112
67-
117
57-87
60-93
63-99
66-
105
69-
111
72-
117
75-
123
78-
129
81-
135
69-
101
72-
108
75-
115
79-
121
82-
128
86-
134
89-
141
92-
148
96-
154

Exemplu. Se ia un lot martor format din n
1
=10 oareci i un lot
tratat, format din n
2
=9 oareci. Ca analgezic se folosete metamizol sodic
(5mg/kg.corp), iar ca stimul chimic se folosete acid acetic 0,6% (1 ml / 10
g mas corporal). Se nregistreaz numrul de contorsiuni, rezultatele fiind
trecute n tabelul de mai jos:

Statistic inferenial
75
Tabelul IV.10. Rezultatele experimentale. Testul Wilcoxon

Lot martor Lot tratat Ranguri lot
tratat
Ranguri lot
martor
-
-
22
27
-
-*
31
34
-
36
36
37
-
51
54
55
20
21
-
27
29
29
31
34
35
-
-
-
47
-
-
-
1
2
-
4,5
6,5
6,5
8,5
10,5
12
-
-
-
16
-
-
-
-
-
3
4,5
-
-
8,5
10,5
-
13,5
13,5
15
-
17
18
19
S1 = 67,5 S2 = 122,5

n tabelul de mai sus, pentru
n1
=10 i n
2
=9, corespunde intervalul 79-
121. Deoarece S
2
=122,5 este situat n afara acestui interval, se poate afirma
c p<0,05, deci cele dou eantioane studiate difer semnificativ statistic.
Noiuni fundamentale de biostatistic

76
n concluzie, aciunea analgezic a metamizolului s-a manifestat la
doza de 5 mg/kg.corp.
Ca o observaie trebuie menionat c valorile fracionare aprute n
coloanele rangurilor (de exemplu 4,5; 6,5; 8,5; 10,5; 13,5), rezult din media
rangurilor pe care le-ar fi avut valorile n primele dou coloane, dac ele ar
fi fost distincte (de exemplu 4,5 = (4+5)/2).
Aplicarea testului Wilcoxon este util n special n cazul existenei a
dou eantioane dependente (date pereche), n contextul n care s-a
demonstrat faptul c distribuia de frecven nu este Gaussian.
Testul Mann-Whitney U

Testul Mann-Whitney U (MWU) este cel mai utilizat test de
semnificaie neparametric pentru compararea (medianelor) a dou
eantioane independente ce conin msurtori ale unor date experimentale,
ranguri sau scoruri. De pild, n cazul existenei unor ranguri sau scoruri,
testul MWU verific dac scorurile respective sunt aleator distribuite ntre
cele dou eantioane.
Modul de calcul n cazul testului Mann-Whitney U.
S considerm dou eantioane independente A i B, fiecare avnd
mrimea eantionului n1, n2=8, pentru care studiul acord o serie de scoruri
(ranguri) de la 1 la 14 (variabile ordinale).
Tabel IV.11. Rezultatele experimentale
Nr.crt. Scor pentru A Scor pentru B
1 1 1
2 3 2
3 5 4
Statistic inferenial
77
4 5 7
5 6 9
6 8 11
7 9 12
8 10 14

n tabelul de mai jos avem deja listai subiecii din ambele
eantioane mpreun, n ordinea scorului acordat:
Tabel IV.12. Rezultate experimentale, subiecii din ambele eantioane, n
ordinea scorului acordat
Scorul acordat 1 1 2 3 4 5 5 6 7 8 9 9 10 11 12 14
Eantionul A B B A B A A A B A A B A B B B

Vom calcula urmtoarele mrimi:
U
a
= numrul de A (membrii ai eantionului A) ce preced n
tabelul cu scoruri primul B (membru al eantionului B ) + numrul de A
de la nceputul tabelului ce preced n tabelul cu scoruri cel de-al doilea B +
+ numrul de A de la nceputul tabelului ce preced n tabelul cu scoruri
ultimul B
Pentru datele din tabelul de mai sus,
U
a
= 1 + 1 + 2 + 5 + 7 + 8 + 8 + 8 = 40
Similar putem calcula U
b
. Pentru cazul luat n calcul
U
b
= 0 + 2 + 3 + 3 + 3 + 4 + 4 + 5 = 24
De remarcat faptul c U
b
putea fi calculat i cu formula U
b
= (n1* n2)
- U
a
.
U
b
=(8*8)-40=24
Vom considera statisticul testului U ca fiind cea mai mic dintre
valorile lui U
a
sau U
b
. n cazul nostru deci, U=24. n tabelul cu probabiliti
Noiuni fundamentale de biostatistic

78
pentru testul Mann-Whitney U vom gsi pentru n1 = 8, n2 = 8, respectiv
U=24 un P de 0,494, considerat nesemnficativ statistic.
Evident, majoritatea programelor de analiz statistic ne vor furniza
direct valoarea lui U, respectiv valoarea lui P.
Analiza ANOVA
79
Capitolul V
V. Analiza dispersional (analiza de varian) -
ANOVA
[12, 13]
+ A. Baze teoretice

Dup cum se tie procesele biologice se pot afla, la un moment dat,
sub influena mai multor factori, cu aciune concomitent. Pentru a pune n
eviden n ce msur unul sau mai muli factori (sdau chiar o combinaie a
acestora) influeneaz n mod esenial asupra unei caracteristici rezultative
se utilizeaz analiza dispersional.
Analiza dispersional, cunoscut i sub denumirea de analiz de
varian (Anova), a fost introdus de statisticianul R.A. Fisher. Prin aceast
metod se verific msura n care valorile reale ale unei caracteristici se abat
de la valorile teoretice, calculate, de regul, sub forma unor mrimi medii
sau ecuaii de regresie, precum i msura n care aceste variaii sunt
dependente sau nu de factorul de grupare.
Pe baza interpretrii logice a variaiei celor dou sau mai multe
variabile luate n studiu se pot stabili relaii de tipul cauz efect. Uneori
prin analiza dispersional trebuie s fie verificat dependena variabilei
rezultative (z) de factorul (factorii) de grupare, ea putnd fi considerat, n
acest caz, ca o metod auxiliar, utilizat nainte i dup aplicarea metodelor
corelaiei i regresiei statistice. Dac, ns, trebuie verificat independena
variabilei rezultative de o variabil de sistematizare a datelor, atunci analiza
Noiuni fundamentale de biostatistic

80
dispersional poate fi considerat ca o metod independent, ce duce la
concluzii de sine stttoare.
Analiza dispersional are la baz metoda gruprii. Prin aceasta se
separ influena asupra caracteristicii rezultative a factorilor nregistrai ca
eseniali (determinani) de influena factorilor ntmpltori (accidentali).
n funcie de numrul factorilor (unu, doi sau mai muli) care
influeneaz asupra variaiei caracteristicii rezultative, avem modele de
analiz dispersional unifactorila, bifactorial sau multifactoril.
Modelul de analiz dispersional are la baz ipoteza c mediile
condiionate de factorul de grupare
i
y , reprezint valorile tipice care se
formeaz la nivelul fiecrei grupe, n timp de media general y este
valoarea tipic pentru ntreaga colectivitate statistic. Msura n care
valorile individuale se abat de la aceste valori tipice reprezint rezultatul
modului de asociere a factorilor care determin variaia caracteristicii y.
Se tie c dispersia teoretic (general )
2
0
se poate estima cu ajutorul
funciei de selecie:
( ) =

2 2
ij
S y y
1 n
1
(V.1.)
s
2
fiind, n acest caz, un estimator nedeplasat al dispersiei teoretice
Ideea de baz a analizei dispersionale const n mprirea acestei
sume de ptrate ntr-un anumit numr de componente, fiecare component
corespunznd unei surse reale sau ipotetice de variaie a mediilor.
Ipoteza nul (ipoteza de zero), pe care urmeaz s o testm n cadrul
analizei dispersionale, este legat de egalitatea mediilor:
H
0
: m
1
= m
2
... = m
i
... = m
r

Analiza ANOVA
81
Cu alternativa: H
1
: cel puin dou medii difer ntre ele.
Mediile teoretice m
i
se estimeaz cu ajutorul mediilor de grup
empirice sau de selecie simbolizate
i
y , adic:
r i 2 1 0
y ... y ... y y : H = = = = =
Not. Testul sau criteriul egalitii celor r medii sau selecii are la
baz presupunerea c dispersiile de selecie
2
r
2
2
2
1
s ,...., s , s , sunt omogene,
adic sunt estimaii ale uneia i aceleai dispersii generale. De aceea, ori de
cte ori exist vreun dubiu n legtur cu omogenitatea celor r dispersii, se
trece la verificarea egalitii lor folosind de pild testul
2
.

+ B.Consideraii practice

Dac pn acum abordarea teoretic a analizei dispersionale poate
prea dificil de neles, n cele ce urmeaz vom ncerca abordarea acesteia
de pe baze practice. Cu alte cuvinte vom vedea unde i cnd aplicm analiza
dispersional monofactorial sau bifactorial.
Dup cum se cunoate, rspunsul biologic obinut n urma unui
experiment poate fi influenat de mai muli parametri care acioneaz
simultan (doza administrat, administrarea simultan a substanaei active i
a unor antagoniti, modificarea concentraiei substanei simulante n cazul
testului stimulului chimic etc), fiecare din aceti parametrii avnd, ns, o
influen specific asupra rezultatului urmrit. Scopul analizei dispersionale
este separararea i testarea efectelor cauzate de variaia parametrilor
Noiuni fundamentale de biostatistic

82
respectivi i eliminarea din cmpul de observaii a parametrilor a cror
variaie nu este semnificativ pentru rezultatul urmrit.
Principiul matematic al analizei dispersionale se bazeaz pe
gruparea datelor observate dup unul sau mai multe criterii i scoaterea n
eviden a efectelor obinute n funcie de influena particular a criteriilor
dup care au fost grupate observaiile.
Efectele odat identificate, testarea are loc prin compararea
dispersiilor cauzate de factorii variabili, cu dispersia cauzat de factorii
ntmpltori care acioneaz asupra procesului studiat.
Numrul de criterii dup care se grupeaz datele depinde de numrul
parametrilor cuprini n analiz. Pentru a fi mai explicii s lum urmtorul
exemplu:
S presupunem c avem n studiu ase substane cu efect analgezic
crora trebuie s le demonstrm acest efect folosind testul plcii nclzite.
Practic vom determina timpul de reacie medicamentos TRM (timpul de
laten al reaciei nociceptive la animalul tratat lingerea labei).
Considernd cele ase substane medicamentoase drept variabile
independente i timpul de laten a reaciei nociceptive drept variabil
dependent, analiza dispersional ne permite testarea influenei fiecrei
substane active studiate asupra timpului de laten a reaciei nociceptive.
Metoda de analiz dispersional cun un singur parametru variabil se
numete analiz dispersional monofactorial.
Exist ns posibilitatea de a dori s studiem influena celor ase
substane cu efect analgezic asupra timpului de laten a reaciei nociceptive
n condiiile administrrii concomitente i a unor substane medicamentoase
Analiza ANOVA
83
ce poteneaz aciunea analgezicelor respective. n acest caz, analiza
dispersional urmrete testarea influenei simultane a dou variabile
independente. Metoda cu ajutorul creia putem testa influena a doi
parametri variabili se numete analiz dispersional bifactorial. n mod
asemntor exist analiz dispersional cu trei factori, cu patru factori etc.
(analiz dispersional multifactorial).
n cele urmeaz vom aborda analiza dispersional monofactorial i
bifactorial, aceste dou metode fiind suficiente pentru nelegerea
raionamentului care ne permite eliminarea din cmpul experimental a
parametrilor a cror variaie nu influeneaz semnificativ rezultatele
urmrite printr-o lucrare de cercetare. (De exemplu, aceste metode ne permit
s demonstrm faptul c o anumit substan poteneaz sau nu aciunea
unor analgezice, demosntrndu-i astfel valoarea extarordinar n cercetarea
farmacologic).

+ V.1. Analiza dispersional monofactorial

Cu ajutorul analizei dispersionale monofactoriale (cu un singur
parametru variabil) se testeaz egalitatea valorilor medii care variaz sub
influena unei singure variabile independente. S presupunem c trebuie
testat egalitatea valorilor medii calculate dintr-un numr de n experiene cu
m (M
1
, M
2
, .... M
m
) substane avnd efect analgezic, criteriul de etstare
fiind timpul de laten a apariiei reaciei nociceptive timpul scurs pn n
momentul n care animalul i linge laba.
Noiuni fundamentale de biostatistic

84
Vom aranja mai nti datele obinute sub forma unui tabel (tabelul
V.I.), n care xij (i =1, 2, ...m i j = 1, 2, ...., n) reprezint timpul de laten a
apariiei reaciei nociceptive. De exemplu x
32
nseamn timpul nregistrat (n
secunde) n urma experienei nr. 2 cu substana activ nr. M
3
.

Tabelul V.1. Gruparea rezultatelor pentru analiza dispersional
monofactorial

Nr.
Exp.
Subst.
activ
M
1
M
2
M
3
M
m

Experimentul 1 x
11
x
21
x
31
x
m1

Experimentul 2 x
12
x
22
x
32
x
m2

Experimentul 3 x
13
x
23
x
33
x
m3

. . ...
Experimentul n x
1n
x
2n
x
3n
x
mn

Total x
1
x
2
x
3
x
m


n tabelul V.I. diferenele observate ntre datele numerice nscrise n
coloane se datoreaz faptului c s-au folosit diferite substane cu efect
analgezic (diferena ntre coloane), iar diferenele ntre rnduri sunt cauzate
de reproductibilitatea condiiilor experimentale. Dup cum tim, dispersia
valorilor individuale fa de media aritmetic a lor este dat de formula:
1 n
x
n
1
x
S
ij
2
ij
ij
2
ij
2

=

(V.2)
Analiza ANOVA
85
Dup cum se observ din tabel, n cazul de fa dispersia este
cauzat de un singur parametru, i anume folosirea unei anumite substane
active, la care se adaug, evident, i reproductibilitatea condiiilor
experimentale. Datorit proprietii sale aditive, dispersia total se compune
din dispersia cauzat de diferena ntre coloane plus dispersia total n
componentele sale. Pentru simplificare, vom introduce urmtoarele notaii
pentru sumele auxiliare:
1. Suma ptratelor tuturor observaiilor individuale:
=
ij
2
ij 1
x S (V.3)
2. Suma ptratelor sumei coloanelor mprit la numrul de
observaii pe coloane:
n
x
S
m
1 i
2
i
2

=
= (V.4)
3. Ptratul sumei tutror observaiilor mprit la numrul total de
observaii:
mn
x
S
2
y
y
3

=

(V.5)

Pentru analiza dispersiilor i testarea egalitii ntre valorile medii
observate, calculele vor trebui centralizate ntr-un tabel de forma celui de
mai jos:


Noiuni fundamentale de biostatistic

86
Tabelul V.2. Analiza dispersional monofactorial
Tipul
variaiei
Suma
ptratelor
Numrul
gradelor de
libertate
Estimaia
dispersiei
F
ntre
coloane
(ntre
grupe)
S
2
-S
3
m-1
1 m
S S
S
3 2 2
1

=
2
2
2
1
S
S

ntre
rnduri
(n
interiorul
grupelor)
S
1
-S
2
m(n-1)
) 1 n ( m
S S
S
2 1 2
2

=

Total (S
2
-S
3
)+(S
1
-
S
2
) = S
1
-S
3

mn-1 - -

Testul de semnificaie (verificarea ipotezei) trebuie s se refere la
raportul dintre variaia ntre grupe (sistematic) i variaia n interiorul
grupei (rezidual). Pentru a verifica dac factorul de grupare este
semnificativ, se folosete testul F, dat de relaia:
2
2
2
1
S
S
F = (V.6) unde
1 m
S S
S
3 2 2
1

= (V.7) dispersia corectat ntre


grupe (sistematic).

Analiza ANOVA
87
) 1 n ( m
S S
S
2 1 2
2

= (V.8) - dispersia corectat din interiorul grupelor


(rmas sau rezidual)
Valoarea F rezultat din calcul se compar cu valoarea F gsit n Anexa
5 pentru pragul de semnificaie ales. ntlnim urmtoarele situaii:
1. Dac F calculat este mai mic dect F gsit n tabel, la gradele de
libertate folosite pentru calcularea dispersiilor S
2
1
i
2
2
S , se accept ipoteza
de zero adic ipoteza conform creia parametrul variabil nu influeneaz
asupra variabilei dependente, diferenele observate datorndu-se erorilor
experimentale.
2. Dac F calculat este mai mare dect F gsit n tabel, ipoteza de
zero se respinge i se trage concluzia c parametrul variabil are influen
asupra rezultatului urmrit, diferenele observate ntre medii fiind reale.
Exemplu. Fiind date 6 substane (M
1
, M
2
,. M
6
), presupuse ca
avnd efect analgezic, s-au efectuat un numr de 8 experiene injectndu-se
intraperitoneal cte unui oarece substana de cercetat, dup care se
efectueaz testul plcii nclzite, conform metodologiei descrise n
bibliografie [ ].
Intensitatea efectului se exprim prin prelungirea timpului de reacie,
adic diferena ntre TRM-TRI, exprimat n secunde (pentru semnificaia
acestor timpi, vezi testul plcii nclzite).




Noiuni fundamentale de biostatistic

88
Tabelul V.3. Rezultate experimentale
Nr.
Exp.
Subst.
activ
M
1
M
2
M
3
M
4
M
5
M
6

Experimentul 1 25,1 22,8 25,5 24,5 25,5 24,7
Experimentul 2 27,0 23,8 27,9 25,2 28,7 27,1
Experimentul 3 29,6 27,1 28,8 27,7 26,2 26,0
Experimentul 4 26,6 22,7 26,9 26,9 25,7 26,2
Experimentul 5 25,2 22,8 25,4 27,1 27,2 25,7
Experimentul 6 28,3 27,4 30,0 30,6 27,9 29,2
Experimentul 7 24,7 22,2 29,6 26,4 25,6 28,0
Experimentul 8 25,1 25,1 23,5 26,6 28,5 24,0
Total 211,6 193,9 217,
6
215,
0
215,3 211,3
Media 26,5 24,1 27,2 26,9 26,9 26,4

Pentru a ne putea orienta n vederea alegerii substanei cu cel mai
puternic efect analgezic va trebui s verificm dac ntre rezultatele obinute
exist o diferen semnificativ sau diferenele sunt cauzate de erori
experimentale. Vom calcula deci sumele auxiliare:
S
1
= 25,1
2
+ 27,0
2
+ ... + 29,2
2
+ 28,0
2
+ 24,4
2
= 33511,11
53 , 33368
8
3 , 211 3 , 215 6 , 217 9 , 193 6 , 211
S
2 2 2 2 2
2
=
+ + + +
=
( )
20 , 33322
48
7 , 1264
48
3 , 211 3 , 215 0 , 215 6 , 217 9 , 193 6 , 211
S
2 2
3
= =
+ + + + +
=
S
2
-S
3
= 46,33 S
1
-S
2
= 142,58 S
1
-S
3
= 188,91
Analiza ANOVA
89
m-1=5 m(n-1)=42 mn-1=47
27 , 9
5
33 , 46
S
2
1
= = 16 , 3
42
58 , 142
S
2
2
= = 93 , 2
16 , 3
27 , 9
F = =

Cu aceste date vom completa tabelul V.4. pentru analiza
dispersional, n conformitate cu modelul artat n tabelul V.2.
Tabelul V.4. Analiza dispersional a rezultatelor experimentale
Sursa dispersiei
Suma
ptratelor
Gradele
de
libertate
Dispersia F F
0,05

Substanele
cercetate (variaie
ntre grupe)
46,33 5 9,27 2,93 2,44
Erorile
experimentale
(variaie n
interiorul grupei)
142,58 42 3,16 - -
Total 188,91 47 - - -

Concluzii. Deoarece F > F
0,05
(2,93 > 2,44), unde F
0,05
se gsete
din tabel, la pragul de semnificaie =0,05, = 5 i =42 grade de
libertate (n tabel se caut pe orizontal numrul de grade de
libertate al dispersiei de la numrul, iar pe vertical numrul de
grade de libertate al dispersiei de la numitor), ipoteza nul se
respinge i putem trage concluzia c cele ase substane difer
Noiuni fundamentale de biostatistic

90
semnificativ din punct de vedere al efectului analgezic. Firete
cercetarea nu se oprete aici, urmnd s aib loc noi determinri
experimentale, menite s stabileasc acele substane care pot fi
utilizate n terapia, datorit efectului suficient de puternic.
+ V.2. Analiza dispersional bifactorial

n cazul n care se urmrete influena simulat a doi parametrii
asupra unui rezultat, diferenele observate ntre rnduri (vezi tabelul V.1) se
vor considera ca fiind cauzate de variaia unuia dintre parametri, iar
diferena dintre coloane de variaia celui de-al doilea parametru luat n
considerare. Fiecare cifr din tabel reprezint o observaie care corespunde
uneia dintre combinaiile posibile ale variabilelor independente.
Avnd doi parametrii variabili trebuie testate dou ipoteze de zero,
dintre care una se refer la diferena valorilor medii ntre rnduri, iar a doua
la diferena valorilor medii ntre coloane. Pentru testarea pimei ipoteze
trebuie calculat diferena sumei ptratelor ntre rnduri, iar pentru testarea
celei de-a doua ipoteze trebuie calculat diferena sumei ptratelor ntre
coloane.
Valorile obinute experimental vor trebui grupate, i n acest caz, sub
forma unui tabel, de felul celui de mai jos.
S presupunem c, n cazul exemplului folosit la analiza
dispersional monofactorial, dorim, de data aceasta, s observm efectul
analgezic al diferitelor substane studiate, n prezena unor substane active
ce le poteneaz efectul. Primal parametru variabil va fi, n acest caz, natura
substanei active, cel de-al doilea parametru variabil fiind natura substanei
Analiza ANOVA
91
cu efect de potenare a analgeziei (P
1
, P
2
, P
n
). Deci, n acest caz dispersia
total se compune din dispersia datorat diferenelor ntre coloane, plus
dispersia datorat diferenelor ntre rnduri, rmnnd i o dispersie residual,
datorat erorilor experimentale. Scopul nostru este s cunoatem separat
fiecare dintre aceste abateri medii ptratice.

Tabelul V.5. Gruparea observaiilor pe criteriul factorilor de influen
pentru analiza dispresional bifactorial
Coloana
Rndul
M
1
M
2
M
3
M
m

Total
x
1
x
11
x
21
x
31
x
m1
x
i1

x
2
x
12
x
22
x
32
x
m2
x
i2

x
3
x
13
x
23
x
33
x
m3
x
i3

... . ... ...
x
n
x
1n
x
2n
x
3n
x
mn
x
in

Total x
11
x
12
x
13
x
im
x
ij


Pentru simplificarea calculelor vom introduce notaii similare celor
folosite la analiza dispersional monofactorial:
Suma ptratelor tuturor observaiilor individuale:
=
ij
2
ij 1
x S (V.9)
Suma ptratelor coloanelor, mprit la numrul observaiilor
nscrise n coloan:
Noiuni fundamentale de biostatistic

92
n
x
S
m
1 i
2
i
2

=
= (V.10)
Suma ptratelor sumei rndurilor mprit la numrul observaiilor
nscrise pe rnduri:
m
x
S
n
1 j
2
i
3

=
= (V.11)
Ptratul sumei tutror obsrevaiilor mprit la numrul total de
observaii:
mn
x
S
2
y
y
3

=

(V.12)
Suma ptratelor reziduale:
S
r
= S
1
+ S
4
S
2
S
3
(V.13)
Pentru calcularea dispersiilor cauzate de parametrii considerai mai
trebuie s cunoatem numrul de grade de libertate pentru fiecare abatere
medie ptratic parial. Deoarece S
2
s-a obinut din suma coloanelor, va
avea m-1 grade de libertate, iar S
3
, obinut din suma rndurilor, va avea n-1
grade de libertate. n sfrit S
r
, n a crei formul de calcul au intervenit att
diferenele ntre rnduri, dispersia cauzat de factorii aleatori (ntmpltori)
va avea (m-1) (n-1) grade de libertate. Procedeul de calcul al dispersiilor,
precum i testarea diferenelor ntre valorile medii ale coloanelor i,
respectiv, rndurilor, sunt prezentate n tabelul V.2.2 :


Analiza ANOVA
93
Tabelul V.6. Analiza dispersional bifactorial

Tipul variaiei
(sursa dispersiei)
Suma
ptratelor
Numrul
gradelor de
libertate
Estimaia
dispersiei
F
ntre coloane
(primul
parametru
variabil)
S
2
-S
4
m-1
1 m
4 S S
S
2 2
1

=
2
r
2
1
S
S

ntre rnduri
(al doilea
parametru
variabil)
S
3
-S
4
m(n-1)
) 1 n ( m
S 3 S
S
4 2
2

=
2
r
2
2
S
S

Rezidual S
r

S
1
+ S
4

S
2
S
3

(m-1) (n-1)
1 n )( 1 m (
S
S
r 2
r

=

Total
(S
2
-
S
4
)+(S
3
-S
4
)
= S
1
-S
4

mn-1 - -

Cu ajutorul dispersiilor calculate conform schemei de mai sus, se
face testul F, care va arta dac diferenele observate ntre coloane, respectiv
ntre rnduri, sunt reale sau sunt cauzate de factori ntmpltori.
Pentru aceasta vom calcula rapoartele
2
r
2
1
S
S
F = , respectiv
2
r
2
2
S
S
F = .
Dac valorile rezultate din calcul sunt mai mici dect cele gsite n tabelul
Noiuni fundamentale de biostatistic

94
distribuiei F, la aceleai grade de libertate pentru care s-au calculat
dispersiile
2
1
S ,
2
2
S i respectiv
2
r
S , vom accepta ipoteza de zero i vo
concluziona c parametrul considerat nu influeneaz semnificativ valorile
medii, diferenele fiind cauzate de factori ntmpltori. n caz contrar, ns,
vom respinge ipoteza de zero i vom trage concluzia c variaia parametrilor
studiai are o influen semnificativ asupra variabilei dependente.
Exemplu. S lum experimentul de la analiza dispersional
monofactorial, considernd c am lucrat cu patru substane cu efect
analgezic (M
1
, ....., M
4
), n prezena unei substane P, ce poteneaz efectul
analgezic al acestora, substan administrat n trei doze diferite (D
1
, D
2
,
D3
).
Rezultatele experimentului (n secunde) se regsesc n tabelul de mai jos:

Tabelul V.7. Analiza dispersional bifactorial. Rezultate experimentale
Substana de cercetat
Total

j
x
Medi
a
j
x
Doza
administrat
pentru efect de
potenare
M
1
M
2
M
3
M
4

D
1

D
2

D
3

25
27
30
28
29
32
22
23
26
24
23
29
99
102
117
24,7
25,5
29,2
82 x
i
=
89 71 76
Total
3 , 27 x
i
=
29,7 23,7 25,3
= 318 x
ij


Analiza ANOVA
95
Din tabel se observ c valorile medii ale coloanelor sunt influenate
de natura substanei analgezice, n timp ce variaia valorilor rndurilor este
cauzat de variaia dozei substanei cu efect de potenare a analgeziei.
Pentru calcularea dispersiilor valorilor individuale n jurul acestor medii,
vom calcula, mai nti, sumele auxiliare:
S
1
= 25
2
+ 27
2
+ ... + 23
2
+ 29
2
=8538
3 , 8487
3
76 71 89 82
S
2 2 2 2
2
=
+ + +
=
5 , 8473
4
117 102 99
S
2 2 2
3
=
+ +
=
0 , 8427
12
318
S
2
4
= =
S
r
= 8583 +8427 8487,3 8473,5 = 4,2
Folosind schema de calcul din tabelul V.6, vom gsi dispersia
cauzat de fiecare parametru variabil n parte, inclusiv dispersia rezidual,
cauzat de factori ntmpltori. Toi aceti parametri statistici vor servi
pentru testarea egalitii valorilor medii, pentru care vom calcula n prealabil
diferenele:
S
2
S
4
= 60,3 cu m-1 = 3 grade de libertate
S
3
S
4
= 46,53 cu m-1 = 2 grade de libertate
S
r
= 4,2 cu (m-1)(n-1) = 6 grade de libertate
De aici se obin dispersiile:
7 , 0
6
6 , 4
S ; 3 , 23
2
5 , 46
S ; 1 , 20
3
3 , 60
S
2
r
2
2
2
1
= = = = = =
i testul F:
Noiuni fundamentale de biostatistic

96
3 , 33
7 , 0
3 , 23
S
S
F ;
7 , 0
1 , 20
S
S
F
2
r
2
2
rnd
2
r
2
1
col
= = = =

n Anexa 5 gsim pentru coloane F
0,05
= 4,76, iar pentru rnduri
F
0,05
=5,14.
Odat calculate toate aceste elemente, putem completa tabelul pentru
analiza dispersional bifactorial:
Tabel V.8. Rezultatele analizei Anova, bifactorial
Felul variaiei
(sursa dispersiei)
Suma
ptratelor
Numrul
gradelor
de
libertate
Estimaia
dispersiei
F F
0,05

ntre analgezice 60,3 3 20,1 28,7 4,76
ntre dozele de
s.a. cu efect de
potenare
46,5 2 23,3 33,3 5,14
Rezidual 4,2 6 0,7 - -
Total 111,0 11 - - -

Concluzii. Deoarece F
col
> F
0,05
gsit n Anexa 5 pentru gradele de
libertate ale dispersiilor respective, vom respinge ipoteza conform creia
valorile medii ale coloanelor sunt egale i vom trage concluzia c
substanele active studiate difer semnificativ din punct de vedere al
efectului analgezic, la pragul de semnificaie ales ( = 0,05).
Analiza ANOVA
97
Similar, deoarece F
ln
> F
0,05
vom respinge ipoteza conform creia
mediile liniilor sunt egale i vom trage concluzia c doze diferite de
substan P, influeneaz semnificativ efectul analgezic al compuilor
studiai.
Odat fcute aceste constatri, vor trebui continuate experienele,
pentru a vedea care dintre substane are cel mai puternic efect analgezic i,
respectiv, care este doza optim de substan P, pentru potenarea efectului
analgezic.
Mai trebuie studiai faptul c dispersia mic datorat factorilor
ntmpltori indic faptul c experienele s-au desfurat n condiii
satisfctoare, reproductibile.
Pn acum, la analiza dispersiilor cu doi parametri valabili am
presupus c efectul acestora este aditiv. Dac aceast condiie nu este
satisfcut, analiza dispersional se complic, deoarece eventuala
interaciune ntre parametrii variabili se manifest prin creterea dispersiei
reziduale, deoarece aceasta va cuprinde n ea i dispersia cauzat de efectul
de interaciune a parametrilor luai n calcul.
Noiuni fundamentale de biostatistic

98
Capitolul VI
VI. Corelaie i regresie
[11-13, 15, 17]

Termenul corelaie este folosit pentru a sublinia existena unei
anumite forme de asociere ntre dou variabile studiate. De exemplu, n
domeniul medical putem spune c am observat o corelaie ntre zilele cu
cea i declanarea crizelor de astm.
Pe de alt parte n domeniul biostatisticii, termenul de corelaie este
folosit pentru a reliefa existena unei asocieri ntre dou variabile cantitative.
n mod obinuit, suntem tentai s presupunem c aceast asociere este
linear, n sensul c una dintre variabile (s o notm cu y) crete sau
descrete ntr-o anumit msur, proporional cu creterea sau
descreterea celeilalte variabile studiate (notat cu x).
Variabila y va fi considerat variabila dependent, ce prezint
un anumit grad de asociere fa de variabila x, variabila
independent.
n astfel de circumstane este adesea folosit termenul de regresie
(liniar), termen ce implic estimarea celei mai potrivite linii drepte care s
reliefeze asocierea, aa cum vei vedea n urmtoarele pagini.




Corelaie i regresie
99
+ Coeficientul de corelaie

Gradul de asociere al variabilelor menionate anterior este msurat
cu ajutorul coeficientului de corelaie, propus de Pearson i Bravais i care
este o msur a asocierii liniare a celor dou variabile. Dac ns de
asocierea dintre variabile nu este liniar ci poate fi exprimat doar cu
ajutorul unor curbe, aceasta nseamn c sunt necesare alte msurtori ale
corelaiei, folosind metode mai complexe, ce depesc scopul acestei cri.
Coeficientul de corelaie este o msur a asocierii ntre dou
variabile (variabila independent i cea dependent) ce poate lua valori
cuprinse ntre -1.0.+1.
Coeficientul de corelaie r este un numr calculat direct din
datele observate i poate varia ntre 1 i +1. Formulele de calcul ale
coeficientului de corelaie r difer uor, n funcie de notaiile folosite de
diveri autori.
Dac x
i
sunt valorile msurate ale variabilei X (variabila
independent) i y
i
sunt valorile msurate ale variabilei Y (variabila
dependent), atunci coeficientul de corelaie se calculeaz astfel:
(VI.1)
Ce se mai poate scrie i
(VI.2)
Noiuni fundamentale de biostatistic

100
unde n= numrul perechilor de date, iar SD(x), SD(y) abaterile standard
n cazul celor dou variabile.
Putem ntlni urmtoarele situaii:
Dac coeficientul de corelaie este r = 0 , atunci nseamn c nu
avem nici o corelaie ntre cele dou variabile. De exemplu, nu exist nici o
legtur ntre presiunea sanguin i numrul de fire de pr din cap.
Dac coeficientul de corelaie este r = +1 nseamn c avem o
corelaie pozitiv perfect, adic exist o dependen direct ntre cele dou
variabile. O persoan care are o valoare mare la prima variabil va avea o
valoare mare i la cea de a doua. De asemenea, valoarea unei variabile poate
fi prevzut exact pe baza valorii celei de a doua variabile. Un exemplu de
acest tip este corelaia dintre vrsta unui copac i numrul su de inele.
Dac coeficientul de corelaie este r = -1 atunci avem o dependen
invers perfect. O valoare mare a unei variabile nseamn o valoare mic a
celeilalte variabile.
Dac coeficientul de corelaie este ntre 0 i +1 sau ntre 1 i 0 ,
atunci valoarea lui r ne d tria dependenei celor dou variabile.
Aceste situaii sunt prezentate n figura de mai jos:
Corelaie i regresie
101

Figura VI.1. Valoarea coeficientului de corelaie i semnificaia lui
Dac dorim s realizm neaprat o clasificare a intensitii asocierii
(corelaiei) ntre variabila independent i cea dependent, putem considera,
n valori absolute, urmtoarele intervale
|0 < r < 0,19| - asociere foarte slab
|0,20 < r < 0,39| - asociere slab
|0,40 < r < 0,59| - asociere moderat
|0,60 < r < 0,79| - asociere puternic
|0,80 < r < 1| - asociere foarte puternic
Trebuie inut ns seama de faptul c aceste limite de mai sus sunt
oarecum arbitrare, astfel c trebuie s inem seama i de contextul n care
am desfurat experimentele, respectiv n care am fcut msurtorile.

Reprezentarea grafic a datelor n cazul analizei corelaiei i regresiei

Noiuni fundamentale de biostatistic

102
n momentul n are un cercettor a colectat dou serii de observaii
(msurtori) i dorete s vad dac exist o asociere ntre ele, primul lucru
care trebuie fcut este reprezentarea lor grafic, sub forma unei aa-numite
diagrame de mprtiere (scatter diagram - diagram de mprtiere a
rezultatelor, ntr-o traducere aproximativ a termenului).
Majoritatea programelor de calcul tabelar (cum este MS Excel) ofer
posibilitatea realizrii unei astfel de diagrame, similar celei din figura de
mai jos:
Diagrama de "mptiere a datelor" - Scatter Plot
0
10
20
30
40
50
60
0 5 10 15 20 25
x
y

Figura VI.2. Reprezentarea datelor sub form de diagram (scatter plot)
Acest tip de diagram folosete cele dou axe de coordonate pentru a
reprezentata cele dou seturi de msurtori: pe axa X se afl msurtorile
legate de variabila independent, iar pe axa Y msurtorile efectuate n
cazul variabilei dependente.
Corelaie i regresie
103
De exemplu, dac un set de observaii sunt rezultatul unor
msurtori experimentale, iar cealalt variabil ar fi timpul la care s-a fcut
msurarea, n acest contt timpul ar fi variabila independent (reprezentat pe
axa X), iar rezultatele msurtorilo ar fi variabila dependent (reprezentat
pe axa Y).
Not: alegerea variabilelor dependente i independente trebuie fcut cu
precauie, deoarece putem s greim uor datorit unor factori de confuzie
(de exemplu o a treia variabil care le poate influena pe amndou).
Astfel, este potrivit s presupunem c nlimea unui lot de copii (variabila
dependent) este corelat pozitiv (r>0) cu vrsta acestora (variabila
independent). Pe de alt parte, am putea constata existena unei corelaii
negative (r<0) ntre numrul de cazuri de infarct miocardic (variabila
dependent) i consumul de ngheat (variabila independent), cnd,
de fapt, ambele variabile sunt influenate de o a treia, temperatura mediului
nconjurtor, fr a avea o legtur direct una cu cealalt. Numrul de
cazuri de infarct miocardic este corelat negativ, iar consumul de ngheat
corelat pozitiv cu creterea temperaturii mediului nconjurtor.
Exemplu de calcul:
S presupunem c am msurat n cazul a 15 copii nlime acestora
(n cm variabila independent), respectiv spaiul pulmonar anatomic mort
(n ml variabila dependent). Spaiul pulmonar anatomic mort -
pulmonary anatomical dead space, poate fi definit ca fiind volumul
traiectului respirator (nas, gur, trahee etc) pn la nivelul alveolelor
pulmonare, repezentnd acea fraciune de aer inspirat ce nu este disponibil
schimbului de gaze la nivelul capilareor din plmn.
Noiuni fundamentale de biostatistic

104
Rezultatele msurtorilor se gsesc n tabelul urmtor:
Tabelul VI.1. Rezultatele msurtorilor
Nr.crt. subiect nlimea (cm)
variabila
independent
Spaiul pulmonar
mort anatomic
variabila dependent
1 110 44
2 116 31
3 124 43
4 129 45
5 131 56
6 138 79
7 142 57
8 150 56
9 153 58
10 155 92
11 156 78
12 159 64
13 164 88
14 168 112
15 174 101
Statistic
descriptiv
(n=15)
60 , 144
_
= x
37 , 19 =
x
SD
93 , 66
_
= y
65 , 23 =
y
SD

Corelaie i regresie
105
Reprezentarea grafic a datelor ntr-o diagram de tip scatter plot
este prezentat n figura de mai jos:
0
20
40
60
80
100
120
0 50 100 150 200
X (inlimea - cm)
Y (spaiul mort
anatomic - ml)

Figura VI.3. Reprezentarea grafic a datelor experimentului
Urmtorul pas este analiza graficului pentru a decide dac
mprtierea datelor sugereaz existena unei corelaii.
Calculm apoi coeficientul de corelaie, conform celei de-a doua
formule (VI.2).
Obinem astfel

846 , 0
06 , 6412
6 , 5426
65 , 23 37 , 19 14
) 93 , 66 60 , 144 15 ( 150605
= =


= r

Noiuni fundamentale de biostatistic

106
Este evident faptul c n acest moment dispunem de o multitudine de
software ce calculeaz automat acest coeficient de corelaie, precum i
intervalul de ncredere (95%) asociat acestui coeficient.
Pentru cazul nostru acest, utilizarea programului GraphPad Instat a returnat
urmtoarele valori:
Number of points: 15
Correlation coefficient (r) =0,8463
Confidence interval (95%): 0,5896 to 0,9477

Coeficientul de corelaie pare s indice o corelaie pozitiv puternic
ntre mrimea spaiului mort anatomic i nlimea copiilor.
Dar n interpretarea corelaiei este important s ne amintim c
existena unei corelaii ntre dou variabile nu implic n mod necesar
cauzalitatea, aceasta se poate datora unor cauze comune. Prin urmare trebuie
avut grij la interpretarea acestor coeficieni de corelaie.

+ Coeficientul de determinare

O parte a variaiilor valorilor msurate n cazul variabile dependente
(exprimate cu ajutorul varianei, mrime calculat n cadrul analizei
statistice descriptive) se pot datora ntr-adevr existenei unei (co)relaii cu
variabila independent, pe cnd o alt parte se datoreaz unor cauze
nedeterminate (adesea aleatorii).
Corelaie i regresie
107
De aceea avem nevoie de o mrime care s cuantifice ct din
aceast varian a variabilei dependente se datoreaz influenei variabilei
independente.
Aceast mrime se numete coeficient de determinare i este egal
cu r
2
.
Pentru exemplul studiat anterior, r
2
= 0,716, astfel c putem afirma
faptul c aproximativ 72% din variaia existent ntre volumul spaiului
mort anatomic la lotul de copii studiat se datoreaz variaiilor nlimii
acestora.
Practic coeficientul de determinare r
2

este extrem de util deoarece
este o msur a procentului variaiei ce poate fi explicat din totalul
variaiei observate
Coeficientul de determinare poate avea valori cuprinse ntre 0 i
1 (0<r
2
<1).

+ Ecuaia de regresie

Aa cum am vzut, coeficientul de corelaie descrie intensitatea
(tria) asocierii ntre dou variabile. Astfel, dac dou variabile sunt
corelate, aceasta nseamn c o modificare de o anumit mrime a valorii
variabile independente va determina o modificare i n valoarea nregistrat
la msurarea celeilalte variabile.
Pentru exemplul de mai sus, putem spune c o valoare mai mare a
nlimii copiilor este asociat cu o cretere, de o anumit factur, a spaiului
mort anatomic.
Noiuni fundamentale de biostatistic

108
Dac notm cu Y variabila dependent i cu X variabila
independent, putem afirma n consecin c relaia poate fi descris ca o
regresie a lui Y n funcie de X.
Aceast relaie poate fi reprezentat de o ecuaie numit ecuaie de
regresie.
n acest context termenul de regresie semnific faptul c o anumit
valoare a variabilei Y este o funcie de X, cu alte cuvinte se modific
odat cu modificarea valorii lui X, conform unei anumite ecuaii mai mult
sau mai puin complexe.
Cea mai simpl astfel de ecuaie este ecuaia dreptei ( + = x y ),
iar regresia care folosete aceast ecuaie poart numele de regresie liniar.
Ecuaia de regresie ne arat ct de mult se schimb valoarea
variabilei Y n raport cu o anumit schimbare a variabile X i poate fi
folosit pentru a trasa o aa-numit linie de regresie, n interiorul unei
diagrame scatter-plot, iar cel mai simplu caz este cazul n care aceast linie
este o linie dreapt, caz n care se folosete termenul de regresie liniar.
Direcia de nclinare a acestei linii de regresie depinde de faptul c
avem de-a face cu o corelaie pozitiv sau negativ. Astfel dac cele dou
seturi de observaii (x i y) cresc mpreun (corelaie pozitiv), linia de
regresie va fi ascendent de la stnga spre dreapta. Dac valorile variabilei
X cresc, iar valorile corespunztoare ale variabilei Y descresc, nclinarea
liniei de regresie va fi descendent de la stnga spre dreapta.
Din nefericire, n cazul regresiei liniare, de vreme ce avem de-a face
cu o dreapt de regresie, este foarte probabil ca ea s treac prin relativ
puine puncte reprezentate de noi n diagram.
Corelaie i regresie
109
Fie ecuaia dreptei de forma:
+ = x y (VI.3)
n momentul n care cunoatem ecuaia de regresie, pentru a putea
trasa corect dreapta de regresie trebuie s inem cont de cei doi coeficieni ai
ecuaiei dreptei pentru a o putea trasa corect.
y = 1.0333x - 82.485
R
2
= 0.7162
0
20
40
60
80
100
120
0 50 100 150 200
X (inlimea - cm)
Y (spaiul mort
anatomic - ml)

Figura VI.4. Dreapta de regresie, ecuaia ei i coeficientul de determinare
Primul este interceptul, adic punctul n care dreapta de regresie va
intersecta axa 0Y i este dat de valoarea lui . Pentru exemplul de mai sus,
dreapta de regresie ar intercepta axa 0Y n dreptul valorii Y=-82,485.
Cel de-al doilea coeficient este , i poart numele de pant a
dreptei de regresie. Acest ultim parametru mai poart numele i de
coeficient de regresie i poate fi asimilat ca fiind mrimea modificrii
nregistrate n cazul valorii variabilei Y n urma modificrii cu o unitatea a
valorii variabilei X ).
Noiuni fundamentale de biostatistic

110
Semnul pantei ecuaiei de regresie liniar ne arat clar dac avem de-
a face cu o corelaie pozitiv sau negativ ntre cele dou variabile, X i Y.
n prezent programele de analiz statistic traseaz automat dreapta
de regresie, furniznd totodat i ecuaia dreptei de regresie, respectiv
coeficientul de determinare.
n trecut, trasarea corect adreptei de regresie se fcea cu ajutorul
metodei celor mai mici ptrate - least squares estimate (dreapta se trasa
astfel nct suma ptratelor distanelor de la punctele reprezentate n
diagram la dreapta de regresie s fie minim).
innd cont de cele afirmate mai sus, coeficientul de determinare r
2

este extrem de util deoarece:
- este o msur a procentului variaiei ce poate fi explicat din
totalul variaiei observate
- este o msur a procentului n care variana (fluctuaia) unei
variabile (dependente) poate fi estimat (prezis) din evoluia unei
alte variabile (variabila independent)
- este o msur ce ne permite s determinm ct de siguri putem fi n
momentul n care facem predicii pentru un anumit model sau
pentru date reprezentate ntr-o diagram de tip scatter-plot
- coeficientul de determinare, ce poate lua valori cuprinse ntre 0 i 1
(0<r
2
<1) ne d, n cazul regresiei liniare, o msur a asocierii liniare
dintre variabilele X i Y.
- coeficientul de determinare reprezint procentul de date care este cel
mai apropiat de dreapta de regresie. De exemlu dac avem un
coeficient de corelaie r =0,922 din care rezult un coeficient de
Corelaie i regresie
111
detrminare r
2
= 0,850, aceasta nseamn c 85% din totalul variaiei
lui Y poate fi explicat printr-o relaie liniar ntre X i Y, relaie
descris de ecuaia de regresie. Restul de 15% din variaie va rmne
neexplicat.
- Coeficientul de determinare este, de asemenea, o msur a gradului
de exactitate (fidelitate) cu care o anumit linie de regresie reprezint
datele studiate. Astfel, dac linia de regresie trece prin absolut toate
punctele reprezentate n diagrama scatter, coeficientul de
determinare va fi 1 i va putea explica ntreaga variaie. Cu ct linia
de regresie este mai ndeprtat de puncte, cu att coeficientul de
va fi mai mic i un procent mai mare al variaiei nu va putea fi
explicat.
n finalul acestui capitol, trebuie menionat faptul c existena unei
corelaii ntre dou fenomene nu arat neaprat o legtur de la cauz la
efect ntre ele.
Existena unei corelaii este numai informativ, rmnnd ca
cercettorul s stabileasc legtura cauzal n funcie de cunotinele sale n
domeniul respectiv.
Noiuni fundamentale de biostatistic

112
Capitolul VII
VII. Alegerea unui anumit test statistic
[16, 23]

De-a lungul capitolelor anterioare am discutat despre diverse teste
statistice, respectiv despre modul lor de aplicare.
Poate unul dintre cele mai dificile lucruri este alegerea celui mai
potrivit test pentru analiza datelor rezultate n urma unui anumit experiment
sau studiu.
Pentru a alege cel mai potrivit test statistic pentru datele noastre,
trebuie s ne punem dou ntrebri:
i. Ce fel de date am colectat? Msurtori (variabile numerice,
ranguri, scoruri sau date binomiale bolnav/sntos,
expus/neexpus la un factor de risc ?
ii. Care este scopul analizei statistice pe care urmeaz s o
efectum? Trebuie s comparm dou eantioane (dependente
sau independente) ntre ele sau mai multe eantioane. Exist de
asemenea posibilitatea de a compara un singur eantion cu o
serie de valori ipotetice
n tabelul de mai jos vei gsi cteva recomandri legate de alegerea
unui anumit test n funcie de aceste considerente [Intuitive].
Not. Cu caractere normale sunt menionate testele statistice ce au fost
descrise n aceast carte, n timp ce cu bold sunt testele statistice care nu au
fost prezentate:

Alegerea unui test statistic
113

Tabel VII.1. Alegerea unui anumit test statistic
Date
binomiale
Scopul analizei
statistice
Msurtori
(eantioane
prelevate dintr-o
populaie statistic
Gaussian)
Ranguri, scoruri
sau msurtori
(eantioane
prelevate dintr-o
populaie statistic
non-Gaussian)
(Dou valori
posibile)
Descrierea unui singur
grup
Media, Abatere
standard
Median Proporii
Compararea unui
singur eantion cu o
serie de valori
ipotetice
Test t pentru un
singur eantion
Test Wilcoxon Testul Chi
2

Testul Chi
2
, n
special dac
eantioanele
sunt mari

Compararea a dou
eantioane
independente
(date nepereche)
Test t pentru
eantioane
independente
Testul Mann-
Whitney U
Testul Fisher
pentru tabele
de
contingen
Compararea a dou
eantioane dependente
(date pereche)
Test t pentru
eantioane
independente
Testul Wilcoxon Testul
McNemar
Compararea a trei sau
mai multe eantioane
(grupuri) independente
(unmatched groups)
Analiz ANOVA
monofactorial
Testul Kruskal-
Wallis
Testul Chi
2

Compararea a trei sau
mai multe eantioane
(grupuri) dependente
(matched groups)
Analiz ANOVA
multifactorial
Testul Friedman Testul
Cochrane Q
Cuantificarea asocierii
ntre dou variabile
Coeficientul de
corelaie Pearson
(r)
Coeficient de
corelaie Spearman
RR (Riscul
relativ)
OR (rata de
ans Odds
Ratio)
Regresie liniar
sau
Predicia unei valori
prin intermediul altei
variabile msurate
Regresie neliniar
Regresie
neparametric

Regresie
logistic
simpl
Noiuni fundamentale de biostatistic

114
Regresie liniar
multipl
sau
Predicia unei valori
prin intermediul mai
multor variabile
msurate sau a mai
multor variabile
binomiale
Regresie
neliniar
multipl
-
Regresie
logistic
multipl

Studii epidemiologice i clinice
115
Capitolul VIII
VIII. Studii epidemiologice i clinice
[4, 12, 14, 15]
+ VIII.1. Indicatori statistici utilizai n studiile
epidemiologice

Consider c este deosebit de important prezentarea schematic a
clasificrii tipurilor de indicatori statistici utilizai n epidemiologia clinic,
precum i a tipurilor de studii utilizate n acst context, deoarece cunoaterea
acestor indicatori i tipuri de studii pemite justificarea protocolului statistic
utilizat ntr-un anumit context.
n studiile epidemiologice sunt folosii, n general, 4 tipuri de indicatori:
I. Diverse tipuri de raporturi, proporii i rate
1. Raporturi
2. Proporii
3. Rate
II. Indicatori ai frecvenei bolii utilizai pentru a da o msur a
frecvenei bolii sau a numrului de cazuri dintr-o populaie
1. Prevalena
i. Prevalena la un moment dat
ii. Prevalena de-a lungul unei perioade de timp
iii. Prevalena de-a lungul vieii
2. Incidena
i. Incidena cumulativ
ii. Rata incidenei (sau densitatea incidenei)
Noiuni fundamentale de biostatistic

116
III. Indicatori ai asocierii factori de risc (expunere)-boal
1. Riscul relativ (RR)
2. Rata de ans (OR Odds ratio)
3. Rata standardizat a mortalitii
4. Rata proporional a mortalitii
IV. Indicatori ai diferenei:
1. Riscul atribuit/populaie
Rate i proporii

1. Raportul - este folosit pentru a compara dou cantiti (de exemplu
numrul de femei/ numrul de brbai dintr-o localitate = 900/802 =
1,122)
2. Proporia un tip special de raport, n care numrtorul este inclus i n
numitor, rezultnd de fapt un procentaj ( pentru exemplul anterior procentul
femei n localitatea respectiv este numrul de femei/numrul total de
locuitori (femei + brbai) din localitatea respectiv = 900/1702 = 52,88 %)
3. Rata un tip special de proporie ce include anumite specificaii legate
de timp; este unul dintre cei mai utilizai indicatori n epidemiologie
deoarece poate exprima clar probabilitatea sau riscul unei boli sau a altor
evenimente n cadrul populaiei studiate pentru a anumit perioad de timp.

Formula de calcul:
k
specificat perioada in risc la expus populaia
timp de specificat perioada n evenimente de numrul
(VIII.1)
unde k folosit pentru uniti de populaie (cum ar fi 1 000 sau 100 000)
Studii epidemiologice i clinice
117
Exemplu: dac ntr-un ora de 120 000 de locuitori ntr-un an au fost
diagnosticate 11 cazuri de leucemie acut (LA) vom avea o rat a
mbolnvirilor de LA egal cu
166 , 9 100000
11
=
120000
la 100000 locuitori
Indicatori ai frecvenei bolii

1. Prevalena proporia de indivizi dintr-o anumit populaie ce sunt
bolnavi de o anumit boal la un anumit moment n timp (nu conteaz
faptul c sunt bolnavi diagnosticai recent sau n trecut)
- permite estimarea probabilitii sau riscului ca cineva din populaia
respectiv s devin bolnav la un anumit moment dat.
- d o imagine a severitii problemei respective
- este un indicator folositor pentru planificarea serviciilor de sntate
(personal, aparatur etc)
Formula de calcul:

timp n moment anumit un la
risc la expuse populaiei Totalul
boal anumit o - dintr existente cazuri de numrul

(VIII.2)

-poate fi i ea exprimat sub forma: la 1000 sau 100000 locuitori etc
Exemplu: dac ntr-un ora de 120 000 de locuitori la un moment dat exist
70 de cazuri de leucemie acut (LA) vom avea o prevalen de
0005833 , 0
70
=
120000
sau 58,33 de cazuri la 100000 locuitori
Noiuni fundamentale de biostatistic

118
Tipuri de prevalen:
- Prevalena la un moment dat numrul de cazuri ce exist ntr-o populaie la
un moment dat
- Prevalena de-a lungul unei perioade de timp - numrul de cazuri ce exist
ntr-o populaie de-a lungul unei perioade specificate de timp
- Prevalena de-a lungul vieii procentul dintr-o populaie existent ce a
prezentat un istoric al unei anumite boli ntr-un moment al vieii
2. Incidena reprezint un indicator (o msur) a cazurilor noi dintr-o
anumit boal ce au aprut n populaia studiat de-a lungul unei
perioade de timp
- este un indicator al probabilitii care exist ca o persoan neafectat s dezvolte
respectiva boal
Practic este folosit incidena cumulativ proporia de indivizi ce s-au
mbolnvit ntr-o perioad specificat de timp.
Perioada de timp poate fi un an calendaristic, 6 luni, 3 ani, 5 ani etc.
Formula de calcul:

risc la expuse populatiei Totalul
timp de perioade unei lungul a de boal anumit o dintr cazuri de numarul noi
= IC
(VIII.3)

-poate fi i ea exprimat sub forma: la 1000 sau 100000 locuitori etc
Exemplu: dac ntr-un ora de 120 000 de locuitori la un moment dat exist
30 de cazuri noi de leucemie acut (LA) n timp de un an, vom avea o
inciden de
Studii epidemiologice i clinice
119
00025 , 0
120000
LA de cazuri de 30
= =
noi
IC
sau 25 de cazuri la
100000 locuitori
3. Rata de inciden (densitatea incidenei) un indicator mai puin
folosit, datorit costurilor relativ mari legate de urmrirea cazurilor de-a
lungul unei perioade de timp.
- este o msur a incidenei capabil s dea informaii chiar dac
respectivele cazuri sunt urmrite pe perioade de timp inegale (datorit
decesului sau migraiei unor persoane)
- n formula de calcul a indicatorului, similar celei a incidenei, numitorul
este o sum a aa numitului persoana-timp la risc
Indicatori ai asocierii factori de risc (expunere)-boal

- sunt calcule a cror rezultate sunt menite s dea o msur a frecvenei bolii
n funcie de existena altor factori care ar putea influena ntr-un anumit fel
incidena bolii n snul populaiei studiate
Extrem de importante n calculul acestor indicatori sunt aa numitele
tabele de contingen 2x2 (sau simplu tabele 2x2).
Acestea sunt folosite pentru:
- a ilustra frecvena bolii, respectiv a expunerii
- calculul asocierii dintre expunerea la factorul (de risc) studiat i
boal
Pentru a putea fi folosite n deteminarea unor indicatori
epidemiologici tabelele de contingen de tip 2x2 trebuie s grupeze corect
indivizii din populaia studiat, innd cont de expunere (liniile tabelului),
Noiuni fundamentale de biostatistic

120
respectiv de starea de boal (coloanele tabelului), cum se poate vedea n
exemplul ce urmeaz.

Tabel VIII.1. Tabel de contingen de tip 2x2
Boal
Da Nu

Total
Da
a b a + b
E
x
p
u
n
e
r
e

Nu
c d c + d
Total a + c b + d a + b + c + d

unde:
a = numrul indivizilor din cadrul populaiei studiate expui (care au suferit
o expunere la factorul de risc studiat) i n acelai timp bolnavi (evident, cei
suferinzi din cauza bolii studiate)
b = numrul indivizilor din cadrul populaiei studiate expui dar sntoi
c = numrul indivizilor neexpui (care nu au suferit o expunere la facturl de
risc studiat) i n acelai timp bolnavi
d = numrul indivizilor neexpui i sntoi
****************************************************
a + b = numrul total al indivizilor (bolnavi + sntoi) din cadrul
populaiei studiate expui la factorul de risc
Studii epidemiologice i clinice
121
c + d = numrul total indivizilor (bolnavi + sntoi) din cadrul populaiei
studiate neexpui la factorul de risc
a + c = numrul total al indivizilor bolnavi din cadrul populaiei studiate
b + d = numrul total al indivizilor sntoi din cadrul populaiei studiate
a + b + c + d = Mrimea total a populaiei studiate (eantionului), practic
suma tuturor celor patru celule ale tabelului
Exist 2 indicatori epidemiologici foarte importani pentru
msurarea unei asocieri expunere (factor de risc)-boal:
- Riscul relativ (Relative Risk - RR)
- Rata de ans (Odds Ratio OR)
Ambii indicatori sunt calculai folosind gruparea datelor n tabele de
contingen de tip 2x2.
Riscul relativ (Relative Risk - RR)
- servete la msurarea magnitudinii asocierii ntre incidena bolii studiate
i factorul de risc cercetat
- reprezint n fapt un raport dintre rata incidenei persoanelor expuse i rata
incidenei n rndul celor neexpui la factorul de risc
- folositor n cercetrile legate de etiologia unor boli
- sinonime: Rata de risc (Risk ratio)
Formula de calcul:
risc de factorul la neexpui r subiecilo rndul n bolii Incidena
risc de factorul la expui r subiecilo rndul n bolii Incidena
= RR
(VIII.4)


Noiuni fundamentale de biostatistic

122
sau innd cont de modul de grupare a datelor ntr-un tabel de contingen
de tip 2x2:
d) (c c
b) (a a
+
+
= RR
(VIII.5)
Interpretarea valorilor riscului relativ:
- Riscul relativ poate avea, teoretic vorbind, valori ntre 0 i infinit
- RR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc)
i boal; practic incidena(rata incidenei) este identic ntre cele dou
grupuri (expui, respectiv neexpui la factorul de ric)
RR> 1 = Exist o asociere pozitiv ntre expunere (factorul de risc) i boal
RR< 1 = Exist o asociere negativ ntre expunere (factorul de risc) i boal
sau, n unele cazuri putem spune c expunerea la factorul respectiv are chiar
un efect protector fa de boal
Rata de ans (Odds Ratio OR)
- Singura modalitate de msurarea a asocierii expunere (factor de risc)-
boal disponibil n cazul studiilor de tip Case-Control
D o msur a riscului relativ (are valori apropiate de acesta) cnd:
valoarea incidenei este mic (< 5 % din populaia total) i
grupul de control (martor) este representativ pentru ntreaga populaie
(inclusiv din punctul de vedere al expunerii la factorul de risc)
Trebuie definit n doi pai:
- ans (ODDS) Raportul dintre probabilitatea ca un eveniment s se
ntmple i probabilitatea ca respectivul eveniment sa nu aib loc
- Rata de ans (Odds Ratio OR) Raportul dintre rata (ansa) expunerii
n rndul celor bolnavi i rata (ansa) expunerii n rndul celor sntoi
Studii epidemiologice i clinice
123
Formula de calcul:
- innd cont de modul de grupare a datelor ntr-un tabel de contingen de
tip 2x2, formula de calcul este:
c b
d a c
OR
*
*
d b
a
= =
(VIII.6)
Interpretarea valorilor ratei de ans (OR):
- Rata de ans (OR) poate avea, teoretic vorbind, valori ntre 0 i infinit
OR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i
boal;
OR> 1 : Expunerea reprezint un factor de risc n cazul bolii respective
(crete riscul apariiei bolii)
OR< 1 : Expunerea reprezint un factor protector n cazul bolii respective
(scade riscul apariiei bolii)

Interpretarea rezultatelor analizei statistice. Interpretarea valorii lui
RR (OR) i P n cazul studiilor ce utilizeaz tabele de contingen de tip
2x2

Interpretarea existenei unei asocieri ntre factorul de risc i apariia
bolii, n cazul unui studiu retrospectiv de tip cohort, necesit o analiz
atent, innd cont de urmtorii indicatori (13, 145) :
1. valoarea lui P (cel mai important parametru)
2. valoarea minim i maxim a intervalului de ncredere,
calculat pentru o probabilitate de 95 % (CI 95 %)
3. valoarea ratei de ans (Odds ratio-OR)
Noiuni fundamentale de biostatistic

124
ntr-un astfel de studiu ne intereseaz att valoarea lui P (cel mai
important parametru ct i intervalul de ncredere pentru un anumit rat de
ans (OR) sau risc relativ (RR).
Valoarea lui P ne rspunde la urmtoarea ntrebare: Dac, de
exemplu, nu exist nici o asociere ntre variabilele care definesc coloanele i
variabilele care definesc liniile unui tabel de contingen (practic n cazul
studiului nostru ntre expunere i boal), care este ansa (probabilitatea) ca
lund la ntmplare indivizi (aa numita eantionare aleatorie - random
sampling) dintr-o populaie s descoperim o asociere (mai) semnificativ
dect cea din studiul n cauz (145)? Cu alte cuvinte, dac ntr-adevr nu
exist deloc nici o asociaie ntre linii i coloane care este probabilitatea ca o
eantionare aleatorie s duc la obinerea unei valori a OR (foarte) diferit
de 1,0 precum i diferit de cea obinut n studiul n cauz ?
Pentru a explicita mai bine cele afirmate mai sus, s lum un
exemplu:
S presupunem c pentru un studiu al influenei radiaiilor ionizante
asupra incidenei leucemiilor acute (LA) am obinut o valoare a RR = 0,923
i o valoare a lui P = 0,991. Conform celor afirmate mai sus, aceasta valoare
a lui P ne spune c printr-o eantionare aleatorie, la modul teoretic, avem
99,1 % anse de a obine un RR diferit att de valoarea obinut (0,923) de
noi ct i de 1,0. De aceea putem afirma c ceea ce am obinut noi n studiu
este statistic nesemnificativ dac P= 0,991. Invers, dac din analiza statistic
ar rezulta o valoare a RR = 4,204 i o valoare a lui P < 0,0001, aceasta ar
nsemna c avem mai puin de 0,0001 % anse de a obine, prin eantionare
aleatorie (alegnd deci la ntmplare subieci) un OR mult diferit att de
Studii epidemiologice i clinice
125
valoarea obinut (4,204) de noi ct i de 1,0. De aceea putem afirma ca
ceea ce am obinut noi n studiu este statistic semnificativ dac P < 0,0001.
Din nefericire, termenul "semnificativ statistic" nu este de multe ori
acelai lucru cu "important din punct de vedere tiinific".
nainte de a interpreta din punct de vedere tiinific o anumit
valoare a lui P sau un anumit interval de ncredere trebuie s ne gndim
atent la ordinul de mrime a ratei de risc (RR) sau ratei de ans (OR). Ct
de mare trebuie s fie aceast valoare a lui OR pentru a o considera
important din punct de vedere tiinific (chiar dac am obinut un rezultat
considerat statistic semnficativ)? Ct de mic trebuie s fie acea valoare
pentru a o putea considera normal i a putea trage concluzia c
expunerea studiat nu poate fi considerat factor de risc n boala respectiv ?
Modul n care interpretm rezultatele unui studiu depinde foarte mult
de valoarea lui P: mic (P < 0,05) sau mare (P > 0,05).
A. Dac valoarea lui P este mic (P < 0,05) = rezultat
semnificativ statistic:
n acest caz este improbabil c asocierea expunere-boal observat
s fie ntmpltoare. Putem deci respinge ideea c asocierea este o
coinciden datorat eantionrii i putem concluziona c populaia studiat
are un RR sau OR diferit de 1,0. Asocierea este deci statistic semnificativ
(dac P < 0,05). Dar este acest rezultat important i din punct de vedere
tiinific?
Intervalul de ncredere (CI 95 %) este cel care ne poate da un
rspuns.
Noiuni fundamentale de biostatistic

126
Orice analiz statistic include ntotdeauna, n proporie mai mic
sau mai mare, o serie de erori datorate eantionrii (aa numitele effects of
random sampling), astfel c valoarea RR sau OR calculat din datele
studiului probabil nu este identic cu valoarea adevrat a RR sau OR.
Dar, din nefericire, nu exist posibilitatea determinrii exacte a acestei
valori adevrate. n schimb analiza statistic ne d o msur a acestei
valori prin intemediului intervalului de ncredere la 95 %. Practic putem fi
95 % siguri c acest interval conine valoarea adevrat a RR sau OR.
Pentru a putea intepreta rezultatele analizei statistice ntr-un context
tiinific pertinent, trebuie s privim la ambele capete ale intervalului de
ncredere i s ne ntrebm dac acestea reprezint valori ce au importan
din punct de vedere tiinific sau sunt valori obinuite, comune, fr
importan tiinific.
Tabelul VIII.2 sistematizeaz variantele posibile:
Tabel VIII. 2. Interpretarea rezultatelor analizei statistice
Valoarea
minim a CI
95 %
Valoarea
maxim CI
95 %
Interpretare
Comun
(relativ
apropiat de 1)
Comun
(relativ
apropiat de
1)
Chiar dac RR sau OR nu este 1,0 ,
asocierea expunere-boal este mic i
relativ lipsit de interes tiinific, chiar
dac este statistic semnificativ
Comun
(relativ
apropiat de 1)
Important
(mult mai
mare dect 1)
Deoarece CI 95 % variaz ntre o
valoare a OR comun din punct de
vedere biologic (tiinific) i o valoare
semnificativ, nu putem trage o
concluzie cert cu privire la importana
tiinific a rezultatului. La modul ideal,
o nou serie de date ar trebui analizate
pentru a putea avea o concluzie cert,
Studii epidemiologice i clinice
127
att din punct de vedere statistic ct i
tiinific.
Important
(mult mai mic
dect 1)
Comun
(relativ
apropiat de
1)
Deoarece CI 95 % variaz ntre o
valoare semnificativ i o valoare a OR
comun din punct de vedere biologic
(tiinific), nu putem trage o concluzie
cert cu privire la importana tiinific
a rezultatului. Apare o problem legat
ns de designul studiului nostru,
expunerea pare s influeneze n sens
negativ incidena bolii, putnd fi
considerat chiar ca un factor de
protecie (13).
O nou serie de date ar trebui analizate
pentru a putea avea o concluzie cert,
att din punct de vedere statistic ct i
tiinific, iar dac rezultatele sunt
similare trebuie verificat modul n care
am conceput designul studiului i
gruparea datelor n tabelele de
contingen.
Important Important De vreme ce pn i valoarea minim a
CI 95% reprezint o asociere expunere-
boal suficient de mare pentru a fi
considerat biologic important, se
poate trage concluzia indubitabil c
exist o asociere expunere-boal
semnificativ att din punct de vedere
statistic, ct i tiinific.

B. Dac valoare lui P este mare (P > 0,05) = rezultat
nesemnificativ statistic:
Dac valoarea lui P este mare, nu avem nici un motiv plauzibil s
concluzionm c RR sau OR difer de 1,0. Aceasta nu nseamn ns c
Noiuni fundamentale de biostatistic

128
putem spune c RR sau OR sunt egale cu 1,0. Pur i simplu nu avem
dovezi consistente c valorile RR sau OR difer de 1,0.
Care este oare valoarea adevrat a riscului relativ sau a ratei de
ans ?
Cum datele noastre includ o serie de erori datorate eantionrii
(effects of random sampling) valoarea RR sau OR calculat din datele
studiului probabil nu este identic cu valoarea adevrat a RR sau OR.
Neexistnd posibilitatea determinrii exacte a acestei valori adevrate,
analiza statistic ne d o msur a acestei valori prin intemediului
intervalului de ncredere la 95 %. Practic putem fi 95 % siguri c acest
interval conine valoarea adevrat a RR sau OR.
Cnd ns P > 0,05, intervalul de ncredere este mult lrgit: el
include aa numita ipotez nul (null hypothesis OR sau RR = 1,0) i se
ntinde pe o gam de valori care ar putea sugera de la existena unei
asocieri negative expunere-boal (valoarea minim a CI 95 % este RR <1,0
sau OR <1,0) pn la existena unei asocieri pozitive expunere-boal
(valoarea maxim a CI 95 % este RR >1,0 sau OR >1,0)
Pentru a putea intepreta rezultatele analizei statistice ntr-un context
tiinific pertinent, trebuie s privim la ambele capete ale intervalului de
ncredere, situaiile ce pot fi ntlnite fiind prezentate schematic n tabelul
IX:
Tabel VIII.3. Interpretarea rezultatelor analizei statistice

Valoarea
minim a CI
95 %
Valoarea
maxim CI
95 %
Interpretare
Comun Comun Nu exist o asociere semnificativ
Studii epidemiologice i clinice
129
(relativ
apropiat de
1)
(relativ
apropiat de
1)
statistic ntre expunere-boal. Cu
alte cuvinte nu exist o nici asociere
ntre liniile i coloanele tabelului de
contingen sau dac exist ea este cu
certitudine foarte mic i lipsit de
interes. Un rezultat ce poate fi
considerat semnficativ i din punct de
vedere tiinific.
Comun
(relativ
apropiat de
1)
Diferit de 1
(mai mare
dect 1)
Nu se poate trage o concluzie foarte
clar.
Dei analiza statistic demonstreaz
inexistena unei asocieri statistic
semnificative, expunerea la factorul
de risc duce la apariia unui interval
de ncredere ce se ntinde de la o
valoare minim specific unei slabe
asocieri negative expunere-boal,
pn la o valoare maxim specific
unei asocieri pozitive puternice
expunere-boal;
Ct de apropiat de 0,05 este
valoarea lui P ?
Pentru a putea trage concluzii clare
este necesar repetarea
experimentului folosind mai muli
subieci.
Diferit de
1 (mai mic
dect 1)
Comun
(relativ
apropiat de 1)
Nu se poate trage o concluzie foarte
clar.
Dei analiza statistic demonstreaz
inexistena unei asocieri statistic
semnificative, expunerea la factorul
de risc duce la apariia unui interval
de ncredere ce se ntinde de la o
valoare minim specific unei
puternice asocieri negative expunere-
boal, pn la o valoare maxim
specific unei slabe asocieri pozitive
Noiuni fundamentale de biostatistic

130
expunere-boal;
Ct de apropiat de 0,05 este
valoarea lui P?
Dac P are o valoare relativ
apropiat de 0,05 atenie la
designul studiului !
Pentru a putea trage concluzii clare
este necesar repetarea
experimentului folosind mai muli
subieci.

Modul n care trebuie interpretate rezultatele analizei statistice n
cazul studiilor ce utilizeaz tabele de contingen de tip 2x2 este cel de mai
sus, clar prezentat ntr-un numr mare de surse bibliografice:
valoarea lui P ca prim parametru, din care rezult semnificaia
statistic a analizei
valorile CI 95 % pentru explicitarea sensului i magnitudinii
asocierii, din care rezult semnificaia tiinific a analizei
Cu toate acestea, o serie de articole aprute n ultimii ani n
prestigioase reviste internaionale (7, 93, 153) pe teme similare prezentului
studiu, prezint valorile OR sau RR fr a preciza valoarea lui P, ci numai
intervalul de ncredere la 95 % (CI 95 %).
Este recomandabil s lum n considerare din punct de vedere al
concluziilor certe doar valorile cu P < 0,05, dar se poate face o i o
cuantificare a situaiilor n care valoarea lui P este apropiat de 0,05.
Aceasta deoarece pot fi ntlnite patru situaii distincte:
I. n cazul existenei unei asocieri semnificative statistic (P < 0,05):

Studii epidemiologice i clinice
131
Cazul 1:
- valoarea OR (RR) > 1
- valoarea minim a CI 95 % > 1; valoarea maxim a
CI 95 % > 1 (de obicei mult mai mare dect 1)
- evident, P < 0,05
Interpretare: n acest caz putem spune c exist o asociere POZITIV,
SEMNIFICATIV STATISTIC, ntre factorul de risc i boala studiat.
Cazul 2:
- valoarea OR (RR) < 1
- valoarea minim a CI 95 % < 1(de obicei mult mai
mic dect 1); valoarea maxim a CI 95 % < 1
- P < 0,05
Interpretare: n acest caz putem spune c exist o asociere NEGATIV,
SEMNIFICATIV STATISTIC, ntre factorul de risc i boala studiat. Cu
alte cuvinte, n funcie de expunerea studiat, unele surse bibliografice susin
c, n acest caz, putem afirma c expunerea nu numai c nu influeneaz
apariia bolii, ci are chiar o aciune protectoare. (13)
II. n cazul inexistenei unei asocieri semnificative statistic (P >
0,05):
Cazul 3:
- P > 0,05, dar valoarea lui P este mic (n aceasta lucrare
am considerat acest caz pentru P < 0,1)
- valoarea OR (RR) > 1
- valoarea minim a CI 95 % < 1; valoarea maxim a
CI 95 % > 1
Noiuni fundamentale de biostatistic

132
Interpretare: n acest caz putem spune c poate fi observat o asociere
POZITIV, NESEMNIFICATIV STATISTIC, ntre factorul de risc i
boala studiat.
Cazul 4:
- P > 0,05, dar valoarea lui P este mic (n aceasta lucrare
am considerat acest caz pentru P < 0,1)
- valoarea OR (RR) < 1
- valoarea minim a CI 95 % < 1; valoarea maxim a
CI 95 % > 1 (de obicei apropiat de 1)
Interpretare: n acest caz putem spune c poate fi observat o asociere
NEGATIV, NESEMNIFICATIV STATISTIC, ntre factorul de risc i
boala studiat.
Exist i o a cincea situaie, cea n care OR (RR) 1, ceea ce
nseamn ntre factorul de risc (expunere) i boal nu poate fi fcut nici
un fel de asociere, factorul de risc (expunerea) nu are nici un fel de
influen n cazul studiat (n acest lucrare am considerat ca valid o astfel
de situaie pentru 0,95 <OR <1,05).
Practic, dup cum se poate vedea, valoarea OR, respectiv CI 95 %,
ne furnizeaz informaii despre sensul influenei factorului de risc
(expunerii) asupra bolii (n mod evident o valoare a OR egal cu 1,
nsemnnd faptul c factorul respectiv nu influeneaz n nici un fel boala),
n timp ce valoarea lui P ne d informaii despre semnificaia statistic a
acestei influene (P < 0,05 asocierea descoperit este semnificativ
statistic).
Cele prezentate mai sus sunt sistematizate n tabelul VIII.4:
Studii epidemiologice i clinice
133
Tabel VIII.4. Interpretarea rezultatelor statistice privind asocierea factor
de risc-boal
ASOCIERE factor de risc - boal STATISTIC SEMNIFICATIV
Interpretare OR
(RR)
Val.
minim
CI 95 %
Val.
maxim
CI 95 %
P
> 1 > 1 >> 1 < 0,05
Asociere pozitiv Statistic
semnificativ
Exist o asociere
POZITIV,
SEMNIFICATIV
STATISTIC
ntre factorul de risc i
boala studiat
Interpretare OR
(RR)
Val.
minim
CI 95 %
Val.
maxim
CI 95 %
P
< 1 <<1 < 1 < 0,05
Asociere negativ Statistic
semnificativ
Exist o asociere
NEGATIV,
SEMNIFICATIV
STATISTIC
ntre factorul de risc i
boala studiat
ASOCIERE factor de risc - boal STATISTIC NESEMNIFICATIV
Interpretare OR
(RR)
Val.
minim
CI 95 %
Val.
maxim
CI 95 %
P
> 1 < 1 > 1 > 0,05
Asociere pozitiv

Statistic
nesemnificativ
Poate fi observat o
asociere POZITIV,
NESEMNIFICATIV
STATISTIC
ntre factorul de risc i
boala studiat
Interpretare OR
(RR)
Val.
minim
CI 95 %
Val.
maxim
CI 95 %
P
< 1 < 1 > 1 > 0,05
Asociere negativ Statistic
nesemnificativ
Poate fi observat o
asociere NEGATIV,
NESEMNIFICATIV
STATISTIC, ntre
factorul de risc i
boala studiat
OR (RR) 1 : ntre factorul de risc (expunere) i boal nu poate fi fcut
nici un fel de asociere(n cazul studiului nostru am considerat aceast
situaie pentru
0,950 <OR (RR) < 1,050)
Noiuni fundamentale de biostatistic

134
Riscul atribuit (RA)
- numrul de cazuri din populaia expus ce ar putea fi eliminate dac
expunerea (la factorul de risc) ar putea fi ndeprtat. (239)
Formula de calcul
RA = Incidena n rndul populaiei expuse - Incidena n rndul
populaiei neexpuse
(la factorul de risc)
+ VIII. 2. Tipuri de studii epidemiologice

Este cunoscut faptul c deosebim 2 tipuri mari de studii epidemiologice
(239)
I. Descriptive (persoane, locuri i timp)
Servesc la generarea de ipoteze de lucru
II. Analitice (cauzale)
Servesc la testarea ipotezelor de lucru
STUDII DESCRIPTIVE
CARACTERISTICI GENERALE:
Sunt, n general, studii de tip corelaional
Examineaz caracteristici ale ntregii populaii
Exemple: Studierea unor relaii ntre vanzrile de
igri pe teritoriul unei ri i mortalitatea datorat
BPOC n acea ar
Reprezint primul pas n studierea unei relaii de tip factor
de risc-boal
Studii epidemiologice i clinice
135
Avantaje
Metod rapid i ieftin, poate fi utilizat ca un prim
pas n efectuarea unui studiu mai complex
Limitri
Nu poate furniza informaii certe cu privire la
existena sau nonexistena unor relaii de tip
cauz-efect
Nu poate oferi cercettorului o modalitate de
control detaliat al potenialelor surse de eroare

SUBTIPURI ALE STUDIILOR DESCRIPTIVE:

A. Descriere de caz sau serii de cazuri (Case Reports
and Case Series)
Descriu patologia unui singur bolnav sau a unui grup de
bolnavi
Cea mai utilizat form de studiu publicat n revistele
medicale
Avantaje
Poate duce la formularea de noi ipoteze de lucru
Constituie un element major de legtur ntre
medicina clinic i epidemiologie
Limitri
Nu poate fi folosit pentru verificarea unor ipoteze
de lucru
Noiuni fundamentale de biostatistic

136

B. Studiu descriptiv de tip urmrire a prevalenei (Cross-
Sectional or prevalence Survey)
Expunerea la factorii de risc i starea de boal sunt simultan
cuantificate n cadrul unei populaii
Furnizeaz informaii legate de frecvena i caracteristicile
unei anumite boli
Avantaje
Foarte folositor n domeniul sntii publice
Poate furniza informaii utile legate de prevalena
(incidena) unei boli n anumite grupuri de populaie
(expuse la anumii factori de risc specifici profesiei
de exemplu)
Limitri
De cele mai multe ori nu poate s dea informaii
legate de faptul dac expunerea la factorii de risc a
precedat boala sau a aprut n timpul ei
Datorit folosirii prevalenei ca indicator, nu se face
o deosebire ntre cazurile noi i cele deja existente la
momentul nceperii studiului
Nu poate fi utilizat pentru studierea factorilor
etiologici

Studii epidemiologice i clinice
137
C. Studiu descriptiv de tip ecologic
Studii care n care unitile de analiza sunt mai degrab
populaii ntregi sau grupe de populaii dect subieci
individuali (cazuri)
Avantaje
Este extrem de util n generarea de ipoteze de lucru
Limitri
Fiecare individ aparinnd unei populaii este
caracterizat de media calculat pentru ntreaga
populaie studiat
Pot aprea erori datorate faptului c o asociere
observat la nivelul ntregii populaii studiate nu
reprezint n mod obligatoriu asocierea existent
la nivel individual
Aceste dou limitri pot detemina apariia unor
erori ce constituie aa numitul Ecologic Fallacy

ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL
EMITERII DE IPOTEZE I A STABILIRII UNUI ANUMIT DESIGN
PENTRU STUDIU:
Ce boal va fi studiat i cum?
Bine fundamentat teoretic: boal, respectiv studiu bine
fundamentat teoretic, pe baz unor surse bibliografice
numeroase
Studiat empiric, pe baza criteriilor de diagnostic
Noiuni fundamentale de biostatistic

138
Ce tip de expunere va fi studiat ?
Bine fundamentat teoretic: exist numeroase surse
bibliografice i studii similare
Studiat empiric, pe baza criteriilor i metodelor de
examinare alese de ctre cercettor
Care este timpul de inducie ? (Cu alte cuvinte care este intervalul
mediu de timp dintre expunerea la factorul de risc i efect apariia
bolii ?)
Ce ali factori pot influena acest asociere ?
Factori bine studiai (fundamentai teoretic)
Empiric, pe baza criteriilor i metodelor de examinare alese
de ctre cercettor
STUDII ANALITICE

CARACTERISTICI GENERALE:
Permit efectuarea unei comparaii explicite ntre expunere
(la factorii de risc) i boal
Utilizeaz gruparea populaiei studiate n tabele de
contingen realizate n aa fel nct s se poat observa clar
(i determina statistic mai apoi) dac riscul este diferit ntre
populaia expus i cea neexpus
Sunt singurele studii ce pot fi utilizate pentru TESTAREA
DE IPOTEZE


Studii epidemiologice i clinice
139
SUBTIPURI ALE STUDIILOR ANALITICE:
Studiilor analitice sunt grupate n dou subtipuri mari:
Studii analitice de tip observaional urmeaz cursul
natural al evenimentelor
Studii analitice de tip intervenional cercettorul
determin expunerea (de exemplu un anumit
tratament) i urmrete subiecii (de exemplu aa
numitele studii clinice - clinical trials)
n ceea ce urmeaz m voi referi numai la prima categorie, studii
analitice de tip observaional, acesta fiind tipul de studii folosit de mine n
cadrul acestei lucrri.

STUDII ANALITICE OBSERVAIONALE SUBTIPURI:
A. Studii de tip Case-Control (Case-Control studies)
Gruparea n tabele de contingen se face n funcie de prezena sau
absena bolii:
Persoane care prezint boala
Grup de comparaie
Practic un astfel de studiu compar expunerea n rndul persoanelor
bolnave (grup - cazuri) cu expunerea n rndul persoanelor sntoase
(grup - control)
Este studiul epidemiologic cel mai des utilizat, n ciuda potenialelor
erori, ce pot aprea relativ frecvent fr o grupare atent n tabele de
contingen potrivite scopului propus
Avantaje:
Noiuni fundamentale de biostatistic

140
Tipul de studiu cel mai potrivit n cercetri legate de boli cu
perioada lung de incubare
Eficient din punct de vedere al timpului necesar i al costurilor
aferente
Potrivit pentru studiul unor boli rare
Poate fi utilizat pentru studierea simultan a mai multor factori de risc,
n cadrul aceleai boli
Dezavantaje:
Lipsit de eficien n cazul studierii unor expuneri la factori de
risc rar ntlnii (cum ar fi studierea efectelor unor accidente
industriale)
Nu permite calculul direct al ratei de inciden a bolii
Uneori poate fi extrem de grea stabilirea unor relaii temporale
ntre expunere i apariia bolii


Studii epidemiologice i clinice
141

Figura VIII.1. Diagrama schematic a unui studiu de tip Case-Control

Exemplu: - Studiul asocierii dintre apariia limfoamelor nonhodgkin i
infecia cu virusul Epstein-Bar sau cu Helicobacter pylori (factori
biologici de risc)







Noiuni fundamentale de biostatistic

142
ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL
UNUI STUDIU DE TIP CASE-CONTROL:

- definirea i selecia cazurilor
- selecia cazurilor pe baza incidenei sau a prevalenei (cu alte cuvinte
cazurile studiate erau diagnosticate nainte de nceperea studiului sau sunt
cazuri noi diagnosticate recent sau chiar la momentul studiului)
- validitatea studiu versus generalizarea studiului (Poate fi studiul
considerat valid? probleme legate de designul studiului; Pot fi concluziile
lui extinse la totalul populaiei ? exist alte studii similare ce au ajuns la
concluzii asemntoare?)
- sursa loturilor control: clinici, eantioane din populaie n general, serii
speciale de loturi martor etc.
- raportul cazuri/control (martor)
- felul cum se face constatarea strii de boal, respectiv a expunerii la
factorul de risc
B. Studii de tip cohort (Cohort studies)
Subiecii studiului sunt clasificai pe baza expunerii la un anumit
factor de risc
Populaia este urmrit pentru a determina prezena (apariia) bolii n
cadrul acesteia ;
n funcie de modul de urmrire a prezenei bolii n cadrul populaiei
deosebim:
Studii de tip cohort prospective, respectiv retrospective
Studii epidemiologice i clinice
143
Studiul de tip prospectiv are ca punct de pornire timpul
prezent, cercettorul investignd populaia (eantionul)
prospectiv (n viitor); avantajul major al unui astfel de
studiu const n faptul c cercettorul poate colecta orice
informaie crede el de cuviin c are fi util.
n cazul studiului retrospectiv, cercettorul identific
eantionul (populaia studiat cohorta) i studiaz acea
populaie de-a lungul unui anumit interval de timp precedent
momentului n care a decis s nceap studiul; dezavantajul
unei astfel de abordri const n faptul c cercettorul are la
dispoziie doar informaii colectate n trecut, fr a mai putea
avea acces la eventuale informaii utile, dac acestea nu au
fost deja colectate i arhivate n vreun fel.

Noiuni fundamentale de biostatistic

144

Figura VIII.2. Diagrama schematic a unui studiu de tip Cohort

Avantaje:
Astfel de studii pot msura incidena bolii i deci i cuantifica
riscul
Expunerea precede apariia bolii
Poate servi la studiul unei mari categorii de boli
Este foarte eficient n cazul unor expuneri la factori de risc rar
ntlnii, cum este cazul expunerilor datorate unor accidente
industriale, aceasta deoarece investigatorul poate s aleag
eantionul avnd ca principal criteriu expunerea la factorul de
risc
Studii epidemiologice i clinice
145
Dezavantaje:
Necesit un numr mare mare de subieci
Relativ lipsit de eficien n cazul unor boli rare
Perioad lung de urmrire a subiecilor studiului
Subiecii pot suferi schimbri n starea de sntate de-a lungul
perioadei de studiu, fr ca investigatorul s aib cunotin de
acest lucru
Necesit, n general, costuri mari pentru realizare
Exemplu: Expuneri neobinuite (accidente industriale), cum este i cazul
accidentului nuclear de la Cernobl (1986), care ne-a permis efectuarea,
unui studiu retrospectiv de tip cohort n scopul studierii rolului
radiaiilor ionizante ca factor de risc n apariia unor leucemii i limfoame


ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL
UNUI STUDIU DE TIP COHORT:

- modul de selecie (grupare) a populaiei expuse
- modul de selecie (grupare) a populaiei neexpuse (grup de comparaie
sau martor)
- datele legate de sursa de expunere la factorul de risc
- datele legate de variabilele de ieire (apariia bolii, indicatorii folosii,
eventualele surse de eroare)

Noiuni fundamentale de biostatistic

146
Selecia unui anumit tip de studiu (study design)

Trebuie s in cont de urmtorii factori i criterii:

+ Criteriul gradului de cunoatere tiinific a fenomenului studiat
(bolii)
Studiu ce aduce informaii noi sau studiaz o boal nou (vezi
Severe Acute Respiratory Syndrome SARS)
Studiu ce adaug informaii relevante despre o boal
Studiu ce confirm informaii deja existente despre o boal
+ Criteriul ipotezei de lucru
Studiu ce servete la generarea de ipoteze
Studiu ce servete la testarea unor ipoteze de lucru
+ Criteriul epidemiologic / statistic
Studiu ce servete la verificarea unor ipoteze privitoare la boal (boala
subiect principal de studiu)
Studiu ce servete la verificarea unor ipoteze privitoare la expunere
(expunerea la factorul de risc- subiect principal de studiu)
Mrimea eantionului i reprezentativitatea lui
+ Criteriul resurselor disponibile (de obicei factorul limitant)
Costuri
Timp

Studii epidemiologice i clinice
147
Asociere versus cauzalitate

"The presence of an association ... in no way implies that the observed
relationship is one of cause and effect." (Hennekens and Buring)

Principala idee care trebuie s rzbat n urma unei analize statistice
efectuate n cadrul unui studiu epidemiologic, este faptul c asocierea
expunere (factor de risc)-boal se refer strict la existena unei dependene
statistice ntre dou variabile.
Pentru a putea considera, eventual, aceast asociere ca o relaie
cauz-efect, exist o serie de criterii de interpretare a unui studiu
epidemiologic a cror parcurgere este o condiie sine qua non.
Aceste criterii minimale sunt prezentate n cele ce urmeaz:
- Exist o asociere expunere (factor de risc)-boal, valid din punct de
vedere statistic?
DAC DA ...
- Se poate datora aceast asociere ansei sau nu?
- Se poate datora aceast asociere unor erori ale studiului, legate de
bias?
- Se poate datora aceast asociere unor erori ale studiului, legate de
anumite confuzii?



Noiuni fundamentale de biostatistic

148
Criterii pentru stabilirea unei relaii de tip cauz-efect

Pentru a rspunde la ntrebarea: Poate fi judecat o asociere
statistic ca o relaie de tip cauz-efect ? trebuie luate n considerare
urmtoarele criterii:

1. Magnitudinea asocierii:
i. Dac a fost relevat existena unei asocieri statistic
semnificative, ct de mare este magnitudinea acesteia
?
2. Credibilitatea biologic a ipotezei de lucru:
i. Exist un mecanism deja cunoscut care s explice
tiinific asocierea ?
3. Consistena rezultatelor studiului vis--vis de alte studii
similare:
i. Exist alte studii care s confirme concluziile
noastre?
4. Secvena de timp:
i. Pentru cazurile studiate, precede expunerea apariia
bolii cu o perioad de timp consistent (a se vedea
timpul de inducie al bolii) pentru un mecanism
biologic credibil?
5. Relaia doz- rspuns:
i. Putem vorbi de un gradient al riscului ce poate fi
relaionat cu nivelul expunerii?
Studii epidemiologice i clinice
149
6. Poate fi considerat asocierea ca fiind specific?
i. Ci factori cauzeaz boala?
ii. Cte boli pot fi cauzate de factorul respectiv?


Noiuni fundamentale de biostatistic

150






Anexe - Exerciii recapitulative
Statistic descriptiv exerciii recapitulative
151
Anexa 1 - Statistic descriptiv, exerciii
recapitulative

+ Scurt recapitulare
Biostatistica este o ramur a statisticii, specializat n studiul
fenomenelor biologice, deci i al celor medicale. Se ocup de culegerea,
centralizarea i gruparea datelor, precum i de prelucrarea i determinarea
unor indicatori pentru descrierea fenomenelor biomedicale studiate, pe baza
evidenierii unor regulariti sau variabiliti statistice. Totodat aplic i
dezvolt tehnici statistico-probabilistice pentru analiza datelor biomedicale.
nceputurile biostatisticii au fost determinate de nevoia obinerii unor
informaii cantitative dintre cele mai simple, formulate de regul sub forma
ci bolnavi ? , ci decedai ? , etc. Cu timpul s-a constatat ns c
asemenea metode sunt insuficiente pentru caracterizrile fenomenelor, c
exist o variaie n rspunsurile care se obin ntre diverse msurtori sau, cu
alte cuvinte, c fenomenele biologice sunt caracterizate prin variabilitate.
Dar i n aceste condiii, observndu-se serii lungi de msurtori, s-a
descoperit c se pot calcula indicatori simpli cu mare putere de sintez, cum
ar fi media (aritmetic, geometric, etc), dispersia, etc.
ntr-o etap ulterioar, statistica a ctigat n puterea de analiz a
fenomenelor. Pe aceast cale s-au descoperit legile care guverneaz ceea ce
nainte prea ntmpltor. Aceast etap, n care statistica trece de la
descrierea fenomenelor la analiza lor, se caracterizeaz prin aplicarea n
Anexa 1

152
general a unui aparat matematic din ce n ce mai complicat i a calculului
probabilitilor n special.

+ Indicatori statistici
Principalii indicatori care caracterizeaz un ir de date sunt fie
indicatori de tendin central, fie indicatori ce caracterizeaz mprtierea
datelor n jurul unei valori medii.
O serie de date este alctuit dintr-un ir de valori pe care le notm :
x
1
, x
2
, , x
n
.
Indicatorii matematici mai importani ce caracterizeaz o serie de date
sunt:
Media aritmetic - notat de regul cu
n
x x x
x
n
+ + +
=
...
2 1

Mediana - este acea valoare din irul de date care mparte n dou pri
egale irul ordonat de valori (atenie, irul este ordonat cresctor), situndu-
se la mijlocul seriei statistice. Dac numrul de valori n este un numr
impar, atunci mediana este valoarea M
e
= x
k
, unde k
n
= +
2
1. Dac n
este par, deci avem un numr par de valori, mediana este definit ca fiind
M
e
=
x x
k k
+
+1
2
unde
k = n/2.
Statistic descriptiv exerciii recapitulative
153
Modul - constituie valoarea care apare cel mai des, deci valoarea cu
numrul cel mai mare de apariii.
Amplitudinea - este diferena dintre valoarea maxim i cea minim
A = A
max
- A
min
.
Amplitudinea relativ - notat A% este raportul dintre amplitudinea
absolut i media aritmetic a seriei de date.
Dispersia (variana) notat s
2
x
este un indicator de mprtiere a
datelor. Formula de calcul este:
1
) (
2 2
2

=

n
x x
s
i
x
.
Abaterea standard sau deviaia standard reprezint rdcina ptrat din
varian (dispersie) : s s
x x
=
2

Coeficientul de variaie se calculeaz ca un raport procentual ntre
abaterea standard i valoarea medie a irului de valori.
C.V.% =
s
x
x
100
De remarcat c valoarea coeficientului de variaie nu are unitate de
msur, se exprim procentual. Acest fapt permite folosirea indicatorului la
compararea a dou sau mai multe serii de date, indiferent de ordinul de
mrime al variabilelor (variantelor) i de unitile de msur folosite. Se
poate considera c un coeficient de variaie sub 10% indic o dispersie mic
(o mprtiere), adic seria este omogen. Un coeficient ntre 10% i 30%
Anexa 1

154
indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac
dispersia este mare, media nu este un indicator reprezentativ.
Atunci cnd avem foarte multe date se recomand includerea lor n
clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice
ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani,
25-30 ani, etc n acest caz apare noiunea de frecven a clasei.
+ Indicatori statistici pentru serii de date cu apariii
frecvente ale aceleiai valori
Dac datele pe care le studiem conin valori care se repet des, se
obinuiete s se grupeze datele care au aceeai valoare . Numrul de
apariii ale unei valori anume se numete frecvena de apariie i se noteaz
cu f
i
.
Presupunem c n urma msurtorilor am obinut irul de valori:
x
1
cu frecvena f
1
, x
2
cu frecvena f
2
, x
n
cu frecvena f
n
Indicatorii statistici se calculeaz conform noilor formule:

Media aritmetic
n
n n
n i
i
n i
i i
f f f
f x f x f x
f
f x
x
+ + +
+ + +
=

=
=
...
...
2 1
2 2 1 1
, 1
, 1

Mediana este x
k
unde
2
1
, 1
+
=

= n i
i
f
k
Statistic descriptiv exerciii recapitulative
155
Dispersia (variana) :

=
=


=
n i
i
i
n i
i
x
f
f x x
s
, 1
2
, 1
2
1
) (

+ Folosirea calculatorului n statistica descriptiv.
Aplicaii i exemple.

Apariia calculatoarelor a nsemnat un moment crucial n evoluia
analizei statistice. Puterea de calcul considerabil a acestora a permis nu
numai efectuarea unor analize statistice din ce n ce mai complexe, ci i
punerea la punct a unor noi teste, respectiv modaliti de analiz statistic.
n mod obinuit, exist dou modaliti de utilizare a calculatorului
n analiza statistic a datelor, modaliti ce difer prin tipul de software
folosit:
- folosirea unor programe obinuite de calcul tabelar (fie comerciale -
MS Excel, fie gratuite, n regim Open Source - Gnumeric etc) ce au
ncorporate ns i module pentru analiz statistic. Astfel de programe
ofer acces ns doar la un numr limitat de indicatori i/sau teste statistice,
ncepnd cu calcularea unor indicatori din domeniul statisticii descriptive
(medii, dispersii, intervale de ncredere) i terminnd cu o serie de teste
statistice devenite clasice (testul t, testul CHI
2
, testul F etc). Principalul
lor atu l constituie simplitatea n utilizare, n special pentru utilizatorul deja
familiarizat cu programele de calcul tabelar.
- folosirea unor programe dedicate pentru analiza statistic, software
ce ofer de obicei posibilitatea efecturii nor analize statistice complexe,
Anexa 1

156
folosind un numr nsemnat de teste i diferite tipuri de abordri n mersul
analizei. Principalul dezavantaj al acestui tip de software rezid tocmai n
complexitatea lui, utilizatorul trebuind s aib un bagaj complet de
cunotine teoretice i practice legate de analiza statistic ce urmeaz s o
efectueze. Exist un numr mare de astfel de programe, de la soluii
comerciale, uneori costisitoare (SPSS, SAS, Statistica for Windows,
GraphPad Instat, GraphPad Prism etc) pn la soluii gratuite (EpiInfo,
OpenEpi, SalStat etc ).

Statistic descriptiv folosind MS Excel sau alte programe de calcul
tabelar

Exist dou modaliti de a face o serie de analize statistice folosind
Excel:
Prima modalitate, mai laborioas, presupune folosirea unor funcii
speciale (utilitare) pentru analiza statistic existente n program alturi de
alte tipuri de funcii Excel (funcii pentru calcule matematice, financiare
etc). Aceste funcii sunt disponibile prin intermediul opiunii Function din
meniul Insert.
Statistic descriptiv exerciii recapitulative
157

Figura A1.1. Utilizarea funciilor statistice n MS Excel
Principalele funcii (utilitare) Excel necesare calculrii indicatorilor
utilizai n statistica descriptiv sunt cele de mai jos:
A. Indicatori ai tendinei centrale

Media aritmetic funcia AVERAGE( )
Mediana funcia MEDIAN( )
Modul funcia MODE( )



Anexa 1

158
B. Indicatori ai dispersiei (mprtierii) datelor n jurul valorii
medii
Dispersia (variana) funcia VAR( ) (cu variantele VAR, VAR A,
VARP, VARPA)
Abaterea standard - funcia STDEV( ) (cu variantele STDEV,
STDEVA, STDEVP, STDEVPA)
Asimetria (skewness) - funcia SKEW( )
Kurtosis (aplatizarea - excesul) - funcia KURT ( )
Valoare cea mai mic dintr-un set de valori funcia MIN( )
Valoare cea mai mare dintr-un set de valori funcia MAX( )
Lucrul cu funciile programului Excel presupune parcurgerea
urmtorilor pai:
- alegerea unei celule unde va fi afiat rezultatul
- apelarea funciilor Excel prin opiunea Function din meniul Insert
- selectarea tipului de funcie dorit (Math, Financial, Statistical etc)
- selectarea celulelor unde se afl seria dorit de date
- dac este cazul, setarea anumitor parametrii utilizai de respectiva
funcie pentru efectuarea corect a calcului (de pild nivelul dorit de
semnificaie sau tipul de test, dac sunt disponibile mai multe
variante ale aceluiai test)
- n final, n celula dorit va fi afiat rezultatul calculului, n timp ce n
bara cu formule va fi afiat funcia utilizat i setul de date folosit
Exemplu.
Fie o serie de 33 de date numerice obinute experimental (de
exemplu valori ale tensiunii arteriale sistolice in mmHg): 180, 120, 110,
Statistic descriptiv exerciii recapitulative
159
200, 140, 210, 200, 190, 150, 170, 140, 130, 150, 170, 160, 120, 160, 140,
160, 170, 180, 160, 150, 130, 160, 180, 190, 160, 170, 170, 150, 150, 130.
S se calculeze, folosind funciile din programul Excel media, mediana,
modul, varianta, abaterea standard, valoarea maxim i minim, pentru acest
set de date.
Rezolvare.
- Se introduc datele n program

Figura A1.2. Introducerea datelor m fereastra de dialog n cayul
funciilor statistice din MS Excel

Cea de-a doua modalitate, mult mai elegant i cu o organizare mult
mai elaborat a modului de prezentare a rezultatelor analizei, presupune
instalarea folosirea unui modul special al programului Excel, modul ce,
Anexa 1

160
odat instalat, poate fi apelat prin alegerea opiunii Data Analysis din
meniul Tools al programului Microsoft Excel.

Figura A1.3. Data Analysis ToolPak din MS Excel

+ Statistic descriptiv Exerciii recapitulative

1. Pentru stabilirea cantitii de adenin dintr-o soluie dat, s-au fcut
msurtori spectrofotometrice i s-au obinut urmtoarele date:
Numr
msurtoare
Valoarea
msurat
1 64
2 71
Statistic descriptiv exerciii recapitulative
161
3 73
4 82
5 87
6 95
7 100
8 101
9 102
10 105

S se calculeze, cu ajutorul programului Excel, valoarea medie,
dispersia, amplitudinea, abaterea standard, amplitudinea relativ,
coeficientul de variaie.
2. S se calculeze greutatea medie a 100 de copii nscui la termen a
cror greutate la natere a fost urmtoarea:
Greutatea
(n grame)
Frecvena
2800 10
2900 20
3000 40
3100 20
3200 10
De asemenea s se calculeze, cu ajutorul utilitarului Excel, mediana,
modul, amplitudinea, amplitudinea relativ, dispersia i coeficientul de
variaie.
Anexa 1

162
3. S se calculeze valoarea medie, amplitudinea, amplitudinea relativ,
dispersia, abaterea standard i coeficientul de variaie al duratei de
spitalizare n cazul unui grup de 200 de bolnavi internai cu hepatit viral.
Datele sunt prezentate n tabelul urmtor:

Durata de spitalizare (zile) Frecvena
20 2
22 6
24 10
26 18
28 30
30 80
32 26
34 10
36 8
38 6
40 4
Statistic inferenial exerciii recapitulative
163
Anexa 2 - Teste statistice de semnificaie,
exerciii recapitulative
Pentru a stabili dac exist o legtur ntre dou serii de date (deci
ntre dou variabile cantitative) sau ntre dou variabile calitative se
folosesc testele statistice.
Cele mai cunoscute sunt :
- testul Student - pentru compararea mediilor unei caracteristici la
dou populaii.
- testul Chi - pentru a verifica dac exist o asociere sau o legtur
semnificativ din punct de vedere statistic ntre dou variabile calitative.
+ Testul STUDENT
Testul Student este utilizat n analiza statistic pentru compararea
mediei unei caracteristici la dou populaii. Caracteristica studiat trebuie s
fie o caracteristic cantitativ, msurabil.
+ Etapele aplicrii testului STUDENT
Pentru aplicarea testului Student se parcurg urmtoarele etape:
Se stabilesc dou eantioane de lucru: un grup de test extras din
prima populaie i un grup martor, extras din a doua populaie. Se culeg i se
nregistreaz datele studiului. Se fac urmtoarele notaii:
X
i
reprezint valorile nregistrate n grupul de test
Anexa 2

164
Y
i
reprezint valorile nregistrate n grupul martor
X reprezint media caracteristicii n grupul de test
Y reprezint media caracteristicii n grupul martor
n
1
reprezint numrul de subieci din grupul de test
n
2
reprezint numrul de subieci din grupul martor
s
1
reprezint deviaia standard n grupul de test
s
2
reprezint deviaia standard n grupul martor
Se formuleaz dou ipoteze:
1. Ipoteza nul (H
0
) afirm: media
1
a caracteristicii n populaia
din care face parte grupul de test este egal cu media
2
a
caracteristicii n populaia din care face parte grupul martor (
1
=

2
)
2. Ipoteza alternativ (H
1
) afirm: media
1
a caracteristicii n
populaia din care face parte grupul de test este diferit de media
2
a
caracteristicii n populaia din care face parte grupul martor (
1

2
)
Se calculeaz valoarea statistic a testului Student dup formula:
2
2
1
2
n
s
n
s
Y X
t
p p
+

=
unde s
p
este:
Statistic inferenial exerciii recapitulative
165
( ) ( )
2
1 1
2 1
2
2 2
2
1 1 2
+
+
=
n n
s n s n
s
p

Se calculeaz numrul de grade de libertate a testului Student:
gl= n
1
+ n
2
2.
Se calculeaz valoarea probabilitii p. Probabilitatea p este
probabilitatea s obinem ntmpltor o valoare statistic egal sau mai mare
dect valoarea t

calculat, n condiiile n care ipoteza nul H
0
este adevrat.
n cazul n care probabilitatea p calculat este 0,05 se respinge ipoteza H
0
.
Stabilirea concluziei testului Student.
Dac probabilitatea p are o valoarea mai mic sau egal cu
0,5, atunci se repinge ipoteza nul H
0
i se accept ipoteza
alternativ H
1
, prin urmare exist o diferen semnificativ ntre
mediile caracteristicii n cele dou populaii.
Dac probabilitatea p are o valoarea mai mare dect 0,5 ,
atunci se accept ipoteza nul H
0
, prin urmare nu exist o
diferen semnificativ ntre mediile caracteristicii n cele dou
populaii.

+ Utilizarea funciei TTEST a utilitarului Excel
Testul STUDENT este mult mai uor de aplicat cu ajutorul utilitarului
EXCEL dect testul CHI. Pentru a obine probabilitatea final p introducem
Anexa 2

166
valorile celor dou serii pe o foaie de calcul. Funcia TTEST se introduce
ntr-o celul oarecare specificnd n ordine:
-zonele care conin datele celor dou serii de valori
-valoarea: 1 sau 2 pentru a indica dac testul este cu un capt sau cu
dou capete. Dac testul este cu dou capete, atunci n cazul respingerii
ipotezei H
0
se consider c exist diferene ntre mediile celor dou
caracteristici fr a se specifica care dintre cele dou medii este mai mare.
Dac testul este cu un capt, atunci n cazul n respingerii iptotezei H
0
este
clar care dintre mediile celor dou populaii este mai mare. Cel mai des se
utilizeaz testul cu 2 capete.
-tipul testului: 1, 2 sau 3
O 1 - dac grupurile de date sunt dependente
O 2 - dac grupurile de date sunt independente i se presupune c
populaiile au aceeai dispersie.
O 3 - dac grupurile de date sunt independente i se presupune c
populaiile au dispersii diferite.
Spre exemplu, dac seriile de valori sunt coninute n zonele B7:B25
i E8:E35 i grupurile de date sunt independente, atunci coninutul funciei
TTEST este:
= TTEST(B7:B25; E8:E35; 2; 2 ).

Statistic inferenial exerciii recapitulative
167
+ Testul STUDENT exemple i exerciii
recapitulative

1. ntr-un studiu al efectului bumetamidei n secreia de calciu n
urin, 9 persoane alese aleator au primit fiecare cte o doz de 0,5 mg de
medicament. S-a colectat n fiecare or, timp de 6 ore, urina de la cele 9
persoane. La fel s-a procedat cu alte 10 persoane care nu au primit
medicamentul. Pentru fiecare persoan s-a calculat o medie (prin calculul
mediei celor 6 valori citite).
Datele obinute au fost urmtoarele:

Grupul
de test
Grupul de
control
2 3
4 4,5
5 5
3,5 6
7 6,5
10,5 6,5
16 7,5
18 8
1,5 8,5
9,5

Anexa 2

168
S se determine dac secreia de calciu n urin difer la cele dou
grupuri, deci dac administrarea medicamentului are efect n creterea
secreiei de calciu. Pentru a realiza acest lucru, mai nti introducei datele
de mai sus ntr-o foaie de calcul tabelar i apoi aplicai testul Student cu un
capt (1 tails), de tipul 2 (two-sample equal variance) i ipoteza 0. Dac
probabilitatea P obinut este mai mic dect 0,05 atunci medicamentul are
efect.
Ipoteze:
H
0
: medicamentul nu are efect n creterea secreiei de calciu.
H
1
: medicamentul are efect n creterea secreiei de calciu.
p > 0,05 acceptm iptoteza H
0

Rezultate
p=0,31317 acceptm iptoteza H
0
, deci medicamentul nu are efect
n creterea secreiei de calciu.
2. Se efectueaz un studiu al nivelului de digoxin ser, dup efectuarea
rapid a unei injecii intravenoase cu acest medicament. S se stabileasc
dac nivelul de digoxin ser la 4 ore dup injectare difer semnificativ de
nivelul de la 8 ore dup injectare. Datele obinute n urma studiului pe 10
subieci sunt urmtoarele:
Nr.
subiect
Dup
4 ore
Dup
8 ore
1 1 1
2 1,3 1,3
3 0,9 0,7
Statistic inferenial exerciii recapitulative
169
4 1 1
5 1 0,9
6 0,9 0,8
7 1,3 1,2
8 1,1 1
9 1 1
10 1,3 1,2

Pentru a obine rezultatul studiului, aplicai testul Student cu dou
capete i de tipul 1 (grupuri dependente). Dac probabilitatea p obinut este
mai mic dect 0,05 atunci exist diferene semnificative.
3. Concentraia hemoglobinei n g/100 ml snge, la un numr de 12
persoane cu anemie feripriv, a crescut dup tratament astfel:

Hemoglobina
(g./100 ml snge)
Persoana nainte de
tratament
Dup
tratament
1 3,4 4,9
2 3,0 2,3
3 3,0 3,1
4 3,4 2,1
5 3,7 2,6
6 4,0 3,8
Anexa 2

170
7 2,9 5,8
8 2,9 7,9
9 3,1 3,6
10 2,8 4,1
11 2,8 3,8
12 2,4 3,3

Se poate afirma c tratamentul este eficace ? Pentru a putea rspunde
la aceast ntrebare utilizai testul STUDENT cu dou capete i pentru
grupuri dependente (tipul 1) .
4. S-a msurat glicemia la un lot de 5 persoane sntoase, alese
aleator. Apoi s-a msurat glicemia la un lot de 8 persoane alese de asemenea
aleator, dar bolnave de diabet zaharat. Rezultatele obinute sunt prezentate
n tabelul urmtor.
Persoane Sn-
toase
Bolnave de
diabet
1 100 171
2 101 172
3 103 175
4 106 176
5 110 177
6 178
7 182
8 185

Statistic inferenial exerciii recapitulative
171
S se stabileasc dac mediile celor dou loturi difer semnificativ, cu
un risc de 0,05. Se va utiliza testul Student cu dou capete, de tipul 2
(independente).
5. S-a msurat uremia la dou loturi de cte 10 bolnavi de gut, dintre
care unii au fost tratai cu un anumit medicament, n timp ce ceilorlali li s-a
administrat un produs placebo; s-au obinut urmtoarele rezultate:

Nr.
Subiect
Valoarea
uremiei n
lotul tratat
(mg/l)
Valoarea
uremiei n
lotul
netratat
1 42 48
2 45 54
3 48 60
4 52 66
5 55 72
6 58 78
7 60 84
8 63 90
9 67 96
10 70 102

S se aprecieze cu un risc de 0,05 dac medicamentul a avut efect. Se
va aplica testul STUDENT cu dou capete, de tipul 2 (grupuri
independente).
Anexa 2

172
6. La un lot de bolnavi cu hepatit cronic s-a efectuat proba Tymol i
apoi li s-a aplicat o raie alimentar hipercaloric, dup care s-a repetat
proba Tymol.
Rezultatele obinute n urma analizrii probelor sunt sintetizate n
tabelul urmtor.

Proba Tymol
Bolnavul nainte Dup
raie
1 10 8
2 8 8
3 16 10
4 5 5
5 6 4
6 12 7
7 9 8
8 10 14
9 14 10
10 10 6

S se stabileasc dac mediile celor dou serii de date difer
semnificativ. Se va utiliza testul Student cu dou capete, de tipul 1 (pentru
grupuri dependente).
7. S-a msurat valoarea tensiunii arteriale sistolice la grup de pacieni
dignosticai cu stenoz i la un grup de pacieni asimptomatici. S se
Statistic inferenial exerciii recapitulative
173
determine dac media celor dou serii de date difer seminificativ. Se va
utiliza testul STUDENT cu dou capete i de tipul 2 (pentru grupuri
independente).
Rezultatele msurtorilor sunt sintetizate n tabelul urmtor.

Valoarea sistolic
Pacientul Simptomatici Asimpto-
matici
1 160 150
2 155 160
3 170 155
4 170 150
5 170 150
6 185 155
7 190 165
8 195 165
9 205 165
10 210 170
11 210 175
12 220 175
13 220 180



Anexa 2

174
+
Testul CHI
2

Testul CHI
2
este utilizat n analiza statistic n urmtoarele cazuri:
C n studiile epidemiologice pentru identificarea unei asocieri ntre
un factor de risc i o boal. De exemplu, se poate aplica testul CHI pentru
stabilirea unei eventuale legturi ntre fumat i moartea prematur ca urmare
a unei boli cardiovasculare, sau a unei legturi ntre expunerea la o anumit
substan chimic i apariia malformaiilor congenitale la inim.
C pentru a verifica o asociere semnificativ din punct de vedere
statistic ntre dou caracteristici calitative, cu alte cuvinte pentru stabilirea
unei diferene ntre proporii. De exemplu, se poate aplica testul CHI pentru
a stabili dac incidena cancerului la sn variaz n concordan cu cantitatea
de grsime din alimentaie.
Etapele aplicrii testului CHI

Pentru aplicarea testului CHI se parcurg urmtoarele etape:
C Se culeg i se nregistreaz datele studiului. Subiecii sunt
clasificai ca bolnavi sau nu, expui la un anumit factor de risc sau nu, etc.
Se stabilete numrul de subieci care fac parte din fiecare clas. Numrul
de subieci care fac parte din clasa i relativ la prima caracteristic i din
clasa j relativ la a doua caracteristic se noteaz cu O
ij
i se numete
frecvena observat a clasei ij .
C Se formuleaz dou ipoteze:
Statistic inferenial exerciii recapitulative
175
(a) Ipoteza nul (H
0
) afirm: ntre cele dou caracteristici
studiate nu exist o asociere (o legtur)
(b) Ipoteza alternativ (H
1
) afirm: exist o asociere (o
legtur) ntre cele dou caracteristici studiate
C Se calculeaz frecvena relativ a fiecrei clase. Frecvenele
relative se noteaz cu E
ij
i se calculeaz dup formula:
C


=
=
= =

=
m j
n i
ij
m j
ij
n i
ij
ij
O
O O
E
, 1
, 1
, 1 , 1

C Se calculeaz valoarea statistic a testului CHI dup formula:
C
( )

=
=

=
m j
n i
j
ij
j
C
i
i
E
E O
, 1
, 1
2
2

C Se calculeaz numrul de grade de libertate a testului CHI:
gl=(nr rnduri-1)*(nr coloane-1)
C Se calculeaz valoarea probabilitii p. Probabilitatea p este
probabilitatea s obinem ntmpltor o valoare statistic egal sau mai mare
dect valoarea
C
2
calculat, n condiiile n care ipoteza nul H
0
este
adevrat. n cazul n care probabilitatea p calculat este 0,5 se respinge
ipoteza H
0
.
C Stabilirea concluziei testului CHI.
Anexa 2

176
C Dac probabilitatea p rezultat din calcul are o valoarea
mai mic sau egal cu 0,5 , atunci se respinge ipoteza nul H
0
i se
accept ipoteza alternativ H
1
, prin urmare exist o asociere ntre
cele dou caracteristici studiate.
C Dac probabilitatea p rezultat din calcul are o valoarea
mai mare dect 0,5 , atunci se accept ipoteza nul H
0
, prin urmare
nu exist o asociere ntre cele dou caracteristici studiate.
Utilizarea funciei CHITEST a programului Excel

Utilitarul Excel ofer funcia CHITEST pentru calculul probabilitii
p. Argumentele acestei funcii sunt : zona care conine valorile de test i
zona care conine valorile estimate.
Pentru a putea utiliza aceast funcie trebuie s introducem datele
aferente studiului nostru i s calculm valorile estimate E
ij
.
A B E F
1

2

3 ...

4


Figura A2.1 . Gruparea datelor n MS Excel pentru testul CHI
2

Spre exemplu, s presupunem c datele noastre sunt grupate n zona
A-E, iar n csuele notate cu sunt calculate totalurile pe linii, respectiv
coloane (figura A2.1)
Statistic inferenial exerciii recapitulative
177
Valoarea unei celule din matricea valorilor estimate este egal cu
produsul dintre suma valorilor de pe linia i suma valorilor de pe coloana
matricei datelor de test, totul mprit la suma tuturor datelor de test.
Matricea valorilor estimate se contruiete ca n figura urmtoare (figura
11.2)

A B E F
10 (F1*A4)/F4 (F1*B4)/
F4
(F1*E4)/F4
11 (F2*A4)/F4 (F2*B4)/
F4
(F2*E4)/F4
12 (F3*A4)/F4 (F3*B4)/
F4
... (F3*E4)/F4
13
Figura 11.2

Dup calculul matricei valorilor estimate se poate aplica funcia
CHITEST i anume: =CHITEST(A1:E3;A10:E12). Rezultatul ntors de
funcia CHITEST este valoarea p.
+ Testul CHI
2
Exerciii recapitulative.
1. O echip de cardiologi au efectuat un studiu pentru a investiga o
eventual asociere ntre utilizarea medicamentelor contraceptive orale i
hipertensiune. Datele obinute au fost urmtoarele:


Anexa 2

178

Hipertensiune Tesiune normal Total
Cu contraceptive
orale
8 32 40
Cu alte
contraceptive
15 45 60
23 77 100

S se stabileasc dac proporia de femei hipertensive dintre cele care
utilizeaz contraceptive orale difer de proporia de femei hipertensive
dintre cele care folosesc alte medicamente anticoncepionale.
Pentru a obine rezultatul studiului, mai nti introducei datele de mai
sus ntr-o foaie de calcul tabelar. Apoi calculai frecvenele estimate astfel:
E
ij
=(Suma valorilor de pe linia i)*(suma valorilor de pe coloana
j)/(suma tuturor valorilor).
Dup aceea aplicai testul CHI. Dac probabilitatea P obinut este mai
mic dect 0,05 , atunci exist diferen, deci exist o legtur.
Ipoteze:
H
0
: nu exist nici o legtur ntre utilizarea medicamentelor
contraceptive orale i hipertensiune.
H
1
: exist o legtur ntre utilizarea medicamentelor contraceptive
orale i hipertensiune.
Dac probabilitatea P obinut este mai mic dect 0,05 , atunci exist
o legtur, se respinge ipoteza H
0
i se accept iptoteza H
1
.
Statistic inferenial exerciii recapitulative
179
Dac probabilitatea P obinut este mai mare dect 0,05 , atunci nu
exist nici o legtur, deci se accept ipoteza H
0
.
Rezultate
Valorile estimate sunt:
9,2 30,8
13,8 46,2
p=0,560528 acceptm ipoteza H
0

ipoteza H
0
: nu exist nici o legtur ntre utilizarea medicamentelor
contraceptive orale i hipertensiune.
2. Se efectueaz un studiu pentru a stabili dac exist o asociere
(legtur) ntre severitatea cancerului ovarian i nivelul de stres. Datele
obinute sunt:
Nivelul de stres
Severitatea
bolii
1 2 3 4 TOTAL
Uoar 362 60 141 317 880
Moderat 29 5 15 21 70
Sever 20 5 5 20 50
TOTAL 411 70 161 358 1000
Stabilii exist o asociere (legtur) ntre severitatea cancerului ovarian
i nivelul de stres.
3. Se studiaz asocierea amigdalectomiei cu diferitele forme clinice de
poliomielit, pe un lot de 461 de cazuri. Se pune ntrebarea: diferenele sunt
ntmpltoare? Prezena sau absena amigdalelor contribuie la determinarea
Anexa 2

180
formei de localizare a leziunilor de poliomielit ? Datele studiate sunt
prezentate n tabelul urmtor:

Amigdale
Tip boal prezente absente
bulbar 16 99
dorsal sever 77 58
dorsal uoar 76 85
neparalitic 24 26
4. Se studiaz reaciile locale produse de dou tipuri de vaccin B.C.G.
n acest scop s-au supus observaiei 348 de copii, dintre care la 177 s-a
administrat vaccin de tip A, iar la 171 vaccin de tip B. Se dorete s se afle
dac diferenele dintre reaciile locale produse de aceste vaccinuri sunt
semnificative din punct de vedere statistic sau dac este vorba numai de o
fluctuaie de eantion.
Datele rezultate din observarea reaciilor locale sunt prezentate n
tabelul urmtor:

Tip vaccin
Reacie local A B
normal 12 29
intens 156 135
ulceraie 8 6
abces 1 1
Statistic inferenial exerciii recapitulative
181
5. S se testeze dac exist diferene semnificative statistic ntre femei
negravide, femei cu sarcini normale n luna a 9-a i femei cu disgravidii
tardive, privind valorile medii, n g/zi ale aldosteronului, cortizonului i
cortizolului.
Datele studiate sunt prezentate n tabelul urmtor:

tip gravid
Tip boal
negravide
sarcini
normale
disgravidii
tardive
aldosteron 4 79 24
cortizon 15 96 37
cortizol 25 55 33
7. n tabelul urmtor sunt trecute rezultatele unor observaii asupra unui
grup de 736 de persoane, n scopul stabilirii unei legturi ntre
persoanele supuse unui tratament mpotriva holerei i cele care
sufer de aceast boal:
Holer
Tratament + -
+
5 431
-
9 291
S se stabileasc dac tratamentul afecteaz numrul de persoane ce
sufer de holer, adic dac exist o asociere statistic semnificativ ntre
numrul de persoane ce sufer de holer i numrul de persoane supuse
tratamentului.
7. n urma aplicrii unui vaccin, s-a nregistrat numrul de persoane
care s-au mbolnvit i care nu s-au mbolnvit. De asemenea, s-a nregistrat
Anexa 2

182
i numrul persoanelor care s-au mbolnvit din rndul persoanelor
nevaccinate. Se pune problema: diferenele ntre bolnavii vaccinai i cei
nevaccinai sunt semnificative sau nu ?
Datele studiate sunt prezentate n tabelul urmtor:

bolnavi sntoi
vaccinai 20 74
nevaccinai 47 59

8. Se efectueaz un studiu pentru a vedea dac expunerea la un
pesticid din agricultur are efect n avortul femeilor.
Datele studiate sunt prezentate n tabelul urmtor:
Femei gravide
Tip boal Cu avorturi
spontane
Fr
avorturi
spontane
expuse la pesticid
30 10
neexpuse
70 90
S se stabileasc existena unei eventuale legturi ntre expunerea la
pesticid i avortul femeilor.
9. Se studiaz efectul obinut asupra numrului de carii prin efectuarea
unui instructaj privind igiena oral unui numr de copii alei aleator. La 50
de copii li s-a fcut un instructaj privind igiena oral iar la 50 de copii alei
la ntmplare nu li s-a fcut acest instructaj. Peste 6 luni s-au numrat cariile
Statistic inferenial exerciii recapitulative
183
noi aprute. Se pune problema dac aplicarea instructajului privind igiena
oral are un efect asupra numrului de carii noi aprute.
Datele studiate sunt prezentate n tabelul urmtor:

numr de carii noi
Instructaj 0-1 2-3 4-5
+
30 15 5
-
20 15 15

10. S-a studiat asocierea dintre prezena anemiei la un lot de subieci
i grupa sanguin. Se pune problema: prezena anemiei este influenat de
grupa sanguin?
Datele studiate sunt prezentate n tabelul urmtor:
anemie
grupa sanguin prezent absent
O 10 30
A 12 18
B 15 15
AB 13 12

11. Se efectueaz un studiu pentru a stabili dac exist o legtur ntre
nivelul de severitate al cancerului de plmni i starea de fumtor sau
Anexa 2

184
nefumtor. Stabilii pe baza datelor urmtoare existena sau nu a unei
legturi:

Nivelul de severitate al
cancerului
Fumtori Nefumtori
Stadiul 1 60 40
Stadiul 2 75 25
Stadiul 3 80 20

Corelaii i regresii exerciii recapitulative
185
Anexa 3 Corelaii i regresii, exerciii recapitulative

Interaciunea dintre dou variabile independente se refer la
diferenele aprute n valorile msurate ale unei variabile n funcie de
nivelul celei de a doua variabile. De exemplu, este posibil ca un medicament
s produc efecte mai bune dac este utilizat n combinaie cu un regim
alimentar de reducere a greutii, dect dac ar fi combinat cu un regim
alimentar nesrat. n schimb, s-ar putea s nu obinem efecte semnificative
ale medicamentului dac se studiaz toate grupurile alimentare la un loc.
Studiul efectelor medicamentului separat pe diferite regimuri alimentare ne
conduce la concluzia c exist ointeraciune ntre doi factori: regimul
alimentar i medicamentul.

Asociere i cauzalitate coeficientul de corelaie
n acumularea i evidena datelor tiinifice apar o serie de probleme
specifice, cum ar fi problema asocierii (dependenei) ntre dou variabile. Se
pune problema: exist o dependen ntre srcie i consumul de droguri ?
Este stresul asociat cu boli cardiovasculare ?
Pentru a determina dac exist sau nu o astfel de dependen, trebuie mai
nti s cuantificm, s msurm ambele variabile. De exemplu, stresul
poate fi cuantificat prin utilizarea unor teste psihologice sau prin definirea
clar, evaluarea i scalarea factorului de stres n situaiile din viaa de zi cu
zi. n ceea ce privete hipertensiunea, aceasta poate fi direct cuantificat prin
msurarea presiunii sanguine.
Anexa 3

186
Dup ce variabilele au fost cuantificate, este necesar calcularea unei
msuri a dependenei dintre ele, adic a triei dependenei. De obicei se
calculeaz coeficientul de corelaie r. Coeficientul de corelaie r este
un numr calculat direct din datele observate i poate varia ntre 1 i +1.
Dac x
i
sunt valorile msurate ale variabilei X i y
i
sunt valorile msurate
ale variabilei Y, atunci coeficientul de corelaie se calculeaz astfel:

unde n= numrul perechilor de date.
Putem ntlni urmtoarele situaii:
Dac coeficientul de corelaie este r = 0 , atunci nseamn c nu
avem nici o corelaie ntre cele dou variabile. De exemplu, nu exist nici o
legtur ntre presiunea sanguin i numrul de fire de pe cap.
Dac coeficientul de corelaie este r = +1 nseamn c avem o
corelaie pozitiv perfect, adic exist o dependen direct ntre cele dou
variabile. O persoan care are o valoare mare la prima variabil va avea o
valoare mare i la cea de a doua. De asemenea, valoarea unei variabile poate
fi prevzut exact pe baza valorii celei de a doua variabile. Un exemplu de
acest tip este corelaia dintre vrsta unui copac i numrul su de inele.
Dac coeficientul de corelaie este r = -1 atunci avem o dependen
invers perfect. O valoare mare a unei variabile nseamn o valoare mic a
celeilalte variabile.
Dac coeficientul de corelaie este ntre 0 i +1 sau ntre 1 i 0 ,
atunci valoarea lui r ne d tria dependenei celor dou variabile.
Corelaii i regresii exerciii recapitulative
187
Aceste considerente se aplic n cazul n care dependena dintre cele
dou variabile este liniar. Dac efectum, de exemplu, msurtori ale
nlimii i greutii pentru un grup de persoane i calculm coeficientul de
corelaie, vom obine o valoare pozitiv, dar o valoare mai mic dect 1.
Corelaie i cauzalitate.
Problema determinrii triei corelaiei dintre variabilele aleatoare
este o problem relativ dificil, ce depinde de domeniul aplicaiilor, precum
i de muli ali factori. Variabilele psihologice sunt mai dificil de msurat cu
exactitate i sunt afectate n general de multe alte variabile, fiind astfel
dificil de stabilit corelaiile dintre ele. Corelaiile dintre variabilele biologice
sunt n general mai tari, acestea avnd dealtfel i avantajul c pot fi
msurate cu mai mare precizie.
Ca un exemplu, corelaiile dintre aptitudinile verbale i cele non-
verbale la copiii colari, msurate cu ajutorul unor teste standard, variaz
ntre 0,44 i 0,77 depinznd mediul de provenien al acestora i de clasa
social.
Pentru a stabili corelaii ct mai semnificative, trebuie identificate
situaiile care sunt responsabile, care cauzeaz aceste corelaii.
ATENIE ! Existena unei corelaii ntre dou variabile nu
implic n mod necesar cauzalitatea, aceasta se poate datora unor cauze
comune. Prin urmare trebuie avut grij la interpretarea acestor
coeficieni de corelaie.



Anexa 3

188
Reprezentarea grafic
Datele corespunztoare celor dou variabile studiate se pot
reprezenta grafic sub forma unui sistem de coordonate bidimensionale.
Microsoft Excel pune la dispoziie un astfel de grafic (diagram), numit XY
Scatter.
ntre cele dou variabile exist o corelaie puternic dac punctele
reprezentate grafic sunt grupate de-a lungul unei drepte (figura). Cu ct
punctele sunt mai alineate, cu att corelaia este mai puternic.
Valoarea critic a coeficientului de corelaie
n studiul statistic al corelaiei a dou variabile se pune urmtoarea
ntrebare: sunt cele dou variabile corelate semnificativ de tare din puncte
de vedere statistic?
Pentru a rspunde la aceast ntrebare trebuie calculat un prag critic.
Corelaia dintre dou variabile se va estima cu o marj de eroare numit
nivel de semnificaie, notat cu p . Cu ct p este mai mic, cu att riscul
(probabilitatea) de a grei este mai mic, deci estimarea este mai sigur. S
ne reamintim cteva noiuni importante:
evenimentul sigur - acel eveniment care va aprea
ntotdeauna, indiferent de situaie.
1 - reprezint probabilitatea ca s apar evenimentul sigur.
0 reprezint probabilitatea ca s nu apar evenimentul sigur.
probabilitatea de apariie a oricrui alt eveniment, diferit de
evenimentul sigur sau de evenimentul imposibil, variaz ca
valoare ntre 0 i 1.
Corelaii i regresii exerciii recapitulative
189
Numrul gradelor de libertate reprezint numrul de perechi de
date care se studiaz, minus dou.
Pragul critic reprezint valoarea coeficientului de corelaie peste care
se consider corelaia ca fiind semnificativ. Dac coeficientul de corelaie
depete acest prag critic, variabilele studiate se consider corelate.
Pragul critic depinde de numrul gradelor de libertate i de nivelul
de semnificaie.
Anexa 1 prezint tabelul cu pragurile critice pentru nivelele de
semnificaie 0,10 ; 0,05 ; 0,02 i 0,01.

Metoda practic de stabilire a corelaiei dintre dou variabile
Pentru a afla dac dou variabile studiate sunt corelate sau nu,
formulm urmtoarele ipoteze statistice:
H0: cele dou variabile studiate nu sunt corelate.
H1: cele dou variabile studiate sunt corelate.
n continuare se efectueaz paii urmtori:
1. Calculm coeficientul de corelaie r asociat datelor xi i yi ,cu ajutorul
formulei prezentate mai sus sau cu ajutorul programului Microsoft Excel i
anume utiliznd funcia CORREL(zona1; zona2).
2. Calculm numrul gradelor de libertate: numrul perechilor de date -2.
3. Analizm datele din tabelul din anexa 1. n acest tabel, pentru numrul
de grade de libertate calculat exist mai multe praguri de semnificaie: cte
unul pentru fiecare nivel de semnificaie i anume: pentru 0.10 , 0.05 , 0.02 ,
0.01. De exemplu, dac r calculat este mai mare dect una dintre valorile din
tabel, atunci cele dou variabile sunt corelate cu nivelul de semnificaie
Anexa 3

190
respectiv. Dac r este mai mare dect pragul critic pentru 0,05 atunci cele
dou variabile sunt considerate corelate cu un nivel de semnificaie de 0,05.
n general se urmrete s se obin o corelaie cu un nivel de semnificaie
ct mai mic. Cu ct nivelul de semnificaie este mai mic, cu att corelaia
este mai sigur i sunt mai puine anse s greim deoarece marja de eroare
este mai mic.
4. n toate aceste cazuri se respinge ipoteza H
0
i se accept ipoteza H
1

cu nivelul de semnificaie respectiv.
Dac r obinut este mai mic dect toate valorile din tabel, atunci
cele dou variabile sunt considerate necorelate. n acest caz se accept
ipoteza H
0
. Cel mai des se utilizeaz nivelul se semnificaie 0,05 sau 0,01,
care sunt considerate suficiente.
S lum un exemplu ipotetic: studierea corelaiei dintre nivelul de
amfetamin din plasm i intensitatea psihozei.
Datele rezultate n urma msurtorilor sun cele din tabelul urmtor:
Nr.
subiect
Intensitatea psihozei Concentraia amfetaminei n plasm (mg/ml)
1 10 150
2 30 300
3 20 250
4 15 150
5 45 450
6 35 400
7 50 425
8 15 200
9 40 350
10 55 475
Corelaii i regresii exerciii recapitulative
191
Reprezentarea datelor cu ajutorul unei diagrame scatter-plot este cea
din figur:
0
10
20
30
40
50
60
0 100 200 300 400 500
Concentraia amfetaminei n plasm (mg/ml)
I
n
t
e
n
s
i
t
a
t
e
a

p
s
i
h
o
z
e
i

Figura A3.1. Reprezentarea grafic a datelor ntr-o diagram scatter-plot
Coeficientul r rezultat din calcul este 0,96738 . Numrul gradelor de
libertate este 10-2=8. n anexa 1, pragul critic pentru 8 grade de libertate i
nivelul de semnificaie 0,05 este 0,6319, iar pentru nivelul de semnificaie
0,01 este 0,7646.
REZULTAT
r > 0,7646 - se respinge ipoteza H
0
i se accept ipoteza H
1
cu un
nivel de semnificaie de 0,01.
CONCLUZIE
Intensitatea psihozei este corelat cu nivelul de Amfetamin din plasm.
Anexa 3

192
EXERCIII
1. Studiindu-se relaia dintre doza unui medicament (exprimat n
multipli ai unei doze minime) i durata bolii (exprimat prin numrul
de zile de boal), s-a obinut urmtoarea relaie:

Nr.
subiect
doz durat
1 1 23,5
2 2 20,0
3 3 14,9
4 4 8,1
5 5 7,5
S se reprezinte grafic datele din tabel i s se verifice dac exist o
legtur ntre doza medicamentului i durata bolii.
2. S se aprecieze existena i gradul legturii dintre consumul de alcool
(vin n litri) pe cap de locuitor, pe lun, i vrsta medie de debut a
cirozei hepatice.
Datele colectate n urma studiului sunt prezentate n tabelul urmtor:
Nr.
subiect
litri de
vin
pe lun
Vrsta de
debut
a cirozei
1 7 56
2 8 55
3 8 58
4 10 55
5 12 52
6 13 51
7 15 50
8 15 48
9 15 45
10 16 40
Corelaii i regresii exerciii recapitulative
193
11 16 47
12 16 44
13 17 40
14 17 40
15 18 38
16 18 38
17 19 40
18 20 38
19 20 35
20 20 35
S se reprezinte grafic datele din tabel, sub form de diagram scatter.
3. S se aprecieze gradul i sensul legturii dintre temperatur i puls la
un lot de 20 de bonavi. Datele studiului sunt prezentate n tabelul
urmtor.
Nr.
subiect
temperatur puls
1 36,5 68
2 36,6 72
3 36,7 70
4 36,7 74
5 36,8 72
6 36,8 75
7 36,8 70
8 37,0 78
9 37,0 78
10 37,4 80
11 37,8 82
12 38,0 82
13 38,3 84
14 38,4 85
15 38,8 86
16 38,9 86
17 39,0 100
18 39,2 94
19 39,4 110
Anexa 3

194
20 39,6 120
S se reprezinte grafic datele din tabel, sub form de diagram scatter.
4. Urmtorul tabel conine informaii despre un lot de paciente
diagnosticate cu cancer de col uterin. Se cere s se precizeze dac exist
o legtur ntre vrsta la care a fost depistat cancerul de col uterin i
menarha (vrsta de nceput a menstruaiei) i s se reprezinte grafic
datele din tabel.
Nr.
subiect
vrsta menarha
1 57 14
2 56 14
3 32 13
4 39 15
5 46 13
6 73 14
7 38 11
8 69 15
9 67 13
10 61 15
11 65 13
12 45 14
13 47 14
14 50 15
15 65 15
16 49 14
17 63 14
18 47 12
19 43 15
20 40 12
21 58 13
22 41 14
23 49 14
24 54 14
25 32 19
Corelaii i regresii exerciii recapitulative
195
Nr.
subiect
vrsta menarha
26 50 12
27 50 14
28 49 14
6. ntr-un studiu cuprinznd cazuri de stenoz, s-au msurat valorile
IMT maxim i valoarea sistolic la diveri pacieni. Se pune problema
exist o legtur ntre valoarea sistolic i valoarea IMT maxim ?
Datele colectate n urma efecturii studiului sunt prezentate n tabelul
urmtor.

Nr.
subiect

IMT
maxim
Valoarea
sistolic
a tensiunii
arteriale
1 1,6 150
2 1,7 175
3 1,5 160
4 1,5 175
5 1,5 145
6 2,1 155
7 1,9 180
8 2,1 145
9 1,6 145
10 1,6 170
11 1,9 155
12 2,3 165
13 1,8 160
S se reprezinte grafic datele din tabel.
7. O companie farmaceutic a ncercat s evalueze relaia dintre doza
ingerat a unui nou medicament hipnotic i durata somnului. Datele
culese n urma studiului sunt prezentate n tabelul de mai jos. Exist o
legtur linear ntre aceste dou variabile?
Anexa 3

196
Nr.
subiect
durata
somnului
(ore)
doza
(mM/kg)
1 4 3
2 6 3
3 5 3
4 9 10
5 8 10
6 7 10
7 13 15
8 11 15
9 9 15
S se reprezinte grafic datele din tabel.
8. ntr-un eantion format din 10 persoane s-a msurat nlimea i
greutatea, pe baza crora s-a atribuit fiecrei persoane un rang
(poziie), n funcie de nlime i de greutate. Spre exemplu, a 8-a
persoan ca nlime este a 7-a ca i greutate. Se pune problema exist o
legtur ntre nlime i greutate ?
Datele colectate sunt prezentate n tabelul urmtor.
Nr.
subiect
nlime greutate
1 3 1
2 1 2
3 2 3
4 8 7
5 5 6
6 9 8
7 10 10
8 6 5
9 7 9
10 4 4
S se reprezinte grafic datele din tabel.
Corelaii i regresii exerciii recapitulative
197
9. ntr-un studiu cuprinznd multe cazuri, s-a descris relaia dintre
durata sarcinii exprimat n sptmni i greutatea la natere (g).
Prezentm cteva dintre datele experimentale, care se refer la
perioada ntre sptmna a 26-a i sptmna a 37-a. Se cere s se
studieze statistic relaia dintre cele dou variabile. Datele colectate sunt
cele din tabelul urmtor. S se reprezinte grafic datele din tabel.
sptmna greutatea
1 26 700
2 27 1050
3 28 1200
4 28 1230
5 29 1300
6 29 1325
7 30 1500
8 31 1600
9 31 1645
10 31 1640
11 32 1900
12 32 1920
13 32 1915
14 33 2100
15 33 2160
16 34 2300
17 34 2350
18 35 2500
19 35 2550
20 36 2700
21 37 2800
Anexa 4

198
Anexa 4 Exemple de studii epidemiologice.
Studiu de tip Case-Control

+ Studiul influenei unor factori de risc biologici -
infecia cu Helicobacter pylori n apariia unor limfoame
maligne (limfoame nonHodgkin LNH) n cazul populaiei
judeului Mure [22]

Ipoteza de lucru
Conform datelor din literatura de specialitate, H.pylori a fost
clasificat ca fiind un agent cancerigen cu rol n etiopatogenia cancerului
gastric, dar constatri mai recente au adus n atenie aceast bacterie ca
factor de risc n sfera etiopatogeniei limfoamelor.
Scopul studiului
Studiul prezenei infeciei cronice cu Helicobacter pylori la pacieni
cu limfoame nonHodgkin comparativ cu un lot martor.
Material i metod:
Studiul efectuat este de tip Case-control prospectiv i prezint
urmtoarele caracteristici :
- este un studiu ce ncearc verificarea unor informaii cunoscute cu
privire la influena infeciei cu Helicobacter pylori, ca factor de risc n
apariia limfoamelor nonHodgkin
- studiul a avut ca principal criteriu de grupare boala (limfoamele
nonHodgkin) i abia apoi expunerea (infecia)
- a fost precedat de o analiz descriptiv a cazurilor
Exemple de studii epidemiologice
199
- n ceea ce privete mrimea eantionului, n cazul acestui tip de
studiu am investigat un lot de 81 de bolnavi cu limfoame nonHodgkin,
respectiv un lot martor (81 de subieci)
- n paralel am urmrit vrsta, sexul i mediul de provenien
(urban/rural) al subiecilor aflai n studiu, n ncercarea de a constata dac
aceti factori influeneaz n vreun fel apariia infeciei cronice cu H.pylori
- analiza statistic preconizat a constat n calcularea Odds Ratio
(OR), respectiv a intervalului de ncredere pentru acesta (CI); OR i CI au
fost calculate folosind testul CHI
2
cu corecie Yates.
n acest studiu, pentru depistarea infeciei cu H.pylori s-au efectuat
determinri serologice de anticorpi de tipul IgG prin metoda ELISA,
utiliznd kituri imunoenzimatice Diesse-Enzywell Helicobacter pylori, IgG.
Infecia acut cu H.pylori induce apariia anticorpilor de tip IgA, n timp ce
infecia cronic determin apariia anticorpilor de tip IgG.
Pentu acest studiu am ales infecia cronic cu H.pylori, care ar
putea avea relevan n etiopatogenia limfoamelor.
Pentru stabilirea infeciei cu Helicobacter pylori s-au folosit metode
serologice de tipul tehnicii ELISA pentru detectarea IgG anti-Helicobacter
pylori.
Studiul s-a efectuat pe cazuistica Clinicii Medicale I Tg.Mure pe
perioada 2001-2002. Lotul martor provine din cazuistica Clinicii de Boli
Infecioase II Tg.Mure unde s-au efectuat investigaiile pentru aceast
categorie de pacieni cu alte diagnostice decat cele hematologice.
Anexa 4

200
Diagnosticul de limfom nonHodgkin confirmat clinic i
anatomopatologic, a fost completat de investigaii serologice privind infecia
cu H.pylori.
Rezultate i discuii.
Lotul cu LNH cuprinde 81 de pacieni, 44 (54,32 %) brbai i 37
(45,68 %) femei. Vrsta acestora este cuprins ntre 20 i 78 de ani.

Tabel A4.1. Caracteristicile lotului cu LNH n funcie de sex


Lot cu LNH Brbai Femei

81 44 37

100 % 54,32 % 45,68 %
54,32%
45,68%
Brbai Femei

Figura A4.1. Repartiia procentual pe sexe a lotului cu LNH
Un numr de 35 (43,20 %) de pacieni provin din mediul urban, iar
restul 46 (56,80 %) din mediul rural.

Exemple de studii epidemiologice
201
Tabel A4.2 Caracteristicile lotului cu LNH dup reziden


Lot cu LNH Urban Rural

81 35 46

100 % 43,20 % 56,80 %
43,20%
56,80%
Urban Rural

Figura A4.2. Repartiia procentual a lotului cu LNH n funcie de
reziden
La pacienii cu LNH infecia cronic cu Helicobacter pylori este
prezent ntr-un procent ridicat, respectiv n 70,37 % din cazuri, n care
rezultatele serologice au fost pozitive pentru IgG. Din totalul de 57 de
bolnavi seropozitivi 34 sunt brbai i 23 femei; 35 de bolnavi provin din
mediul rural i 22 din mediul urban.



Anexa 4

202
Tabel A4.3. Caracteristicile bolnavilor seropozitivi din lotul cu LNH

Infecia cu H.pylori+

Nr.cazuri LNH

Procente
Masculin

34 59,65 %
Feminin

23 40,35 %
Urban

22 38,60 %
Rural

35 61,40 %

La lotul martor, infecia bacterian cronic este prezent ntr-un
procent ridicat, dar valoarea acestuia este totui mai mic, de 60,49 % n
comparaie cu cea a lotului cu LNH respectiv 70,37 %. Dintre pacienii
serpozitivi ai lotului de control, 29 au fost de sex masculin, iar 20 de sex
feminin; 13 proveneau din mediul rural i 36 din urban.

Tabel A4.4. Caracteristicile cazurilor seropozitive din lotul martor


Infecia cu H.pylori+
Nr.cazuri martor
Procente

Masculin 29 59,18 %

Feminin 20 40,82 %
Urban

36 73,47 %
Rural

13 26,53 %

Exemple de studii epidemiologice
203
ANALIZA STATISTIC: Infecia cu Helicobacter pylori la pacieni cu
LNH



Figura A4.3. Diagrama schematic a studiului infeciei cu H.pylori la
pacieni cu LNH

Tabel A4.5. Analiza statistic : Lot cu LNH (Total) Lot martor (Total)

Lot cu LNH (Total) Lot martor (Total)
Boal (LNH)
Da Nu
E
x
p
u
n
e
r
e

(
I
n
f
e
c

i
a

c
u

Da 57 49
Anexa 4

204
Nu 24 32
Rezultatele analizei statistice
Odds Ratio - OR
(CI 95 %)
P
1,551
(0,808;2,979)
0,247


Se poate observa o cretere nesemnificativ statistic a ratei de ans
(Odds Ratio) OR =1,551 pe totalul cazurilor (comparaie lot cu LNH -lot
martor), tendin ce confim rezultatele altor studii.
Tabel A4.6. Analiza statistic : Lot cu LNH (Masculin) Lot martor
(Masculin)

Lot cu LNH (Masculin) Lot martor (Masculin)
Boal (LNH)
Da Nu
Da 34 29
E
x
p
u
n
e
r
e

(
I
n
f
e
c

i
a

c
u

H
E
L
I
C
O
B
A
C
T
E
R

P
Y
L
O
R
I
)

Nu 10 15
Rezultatele analizei statistice
Odds Ratio - OR
(CI 95 %)
P
1,759
(0,686;4,508)
0,344

Exemple de studii epidemiologice
205
Tabel A4.7. Analiza statistic: Lot cu LNH (Feminin) Lot martor
(Feminin)

Lot cu LNH (Feminin) Lot martor (Feminin)
Boal (LNH)
Da Nu
Da 23 20
E
x
p
u
n
e
r
e

(
I
n
f
e
c

i
a

c
u

H
E
L
I
C
O
B
A
C
T
E
R

P
Y
L
O
R
I
)

Nu 14 17
Rezultatele analizei statistice
Odds Ratio - OR
(CI 95 %)
P
1,396
(0,553;3,530)
0,638


n cazul analizei statistice efectuate pe loturi grupate dup criterii
demografice se constat o cretere nesemnificativ statistic, dar de
magnitudine mare a OR, n cazul populaiei masculine (OR =1,759,
comparativ cu OR =1,396, n cazul populaiei feminine).

Tabel A4.8. Analiza statistic: Lot cu LNH (Urban) Lot martor (Urban)

Lot cu LNH (Urban) Lot martor (Urban)
Boal (LNH)
Da Nu
E
x
p
u
n
e
r
e

(
I
n
f
e
c

i
a

c
u

Da 22 36
Anexa 4

206
Nu 13 20
Rezultatele analizei statistice
Odds Ratio - OR
(CI 95 %)
P
0,940
(0,391;2,260)
0,999


Se constat o asociere negativ, nesemnificativ statistic factor de
risc-boal, n cazul populaiei urbane (OR = 0,940).

Tabel A4.9. Analiza statistic: Lot cu LNH (Rural) Lot martor (Rural)

Lot cu LNH (Rural) Lot martor (Rural)
Boal (LNH)
Da Nu
Da 35 13
E
x
p
u
n
e
r
e

(
I
n
f
e
c

i
a

c
u

H
E
L
I
C
O
B
A
C
T
E
R

P
Y
L
O
R
I
)

Nu 11 12
Rezultatele analizei statistice
Odds Ratio - OR
(CI 95 %)
P
2,937
(1,041;8,284)
0,062

Se constat o cretere nesemnificativ statistic, dar de magnitudine
mare a OR, n cazul populaiei rurale (OR =2,937).
Exemple de studii epidemiologice
207
Concluzii
n cazul studiului privind influena infeciei cronice cu Helicobacter
pylori asupra apariiei limfoamelor nonHodgkin, se poate observa o cretere
nesemnificativ ns statistic a ratei de ans - OR pe totalul cazurilor
(OR=1,551), rezultate ce confirm datele altor studii. O magnitudine mare a
OR, nesemnificativ ns statistic, poate fi observat i n cazul populaiei
masculine (OR=1,759), respectiv n cazul populaiei provenite din mediul
rural ((OR=2, 937 o posibil explicaie fiind o igien mai precar n
mediul rural). Trebuie remarcat n acest context i asocierea negativ
nesemnificativ statistic ntre factorul de risc i boal, la populaia din
mediul urban.
Anexa 5

208
Anexa 5 - Valori critice pentru testul F corespunztoare
pragului de semnificaie =0,05
1 2 3 4 5 6 8 12 24 00
1. 161,
4
199,
5
215,
7
224,
6
230,
2
234,
0
238,
9
213,
9
249,
0
254,
3
2. 18.5 19,0 19,1 19,2 19,3 19,3 19,3 19,4 19,4 19,5
3. 10,1 9,55 9,28 9,12 9,01 8,94 8,84 8,71 8,64 8,53
4. 7,71 6,94 6,50 6,39 6,26 6,16 6,04 5,91 5,77 5,83
5. 6,61 5,79 6,41 5,19 5,05 4,95 4,82 4,68 4,53 4,36
6. 5,99 5,14 4,76 4,53 4,39 4,28 4,15 4,00 8,84 3,67
7. 5,58 4,74 4,35 4,12 3,97 3,87 3,73 3,57 3,41 3,23
8. 5,32 4,16 4,07 3,84 3,69 3,14 3,28 3,28 3,12 2,93
9. 5,12 4,26 3,86 3,63 3,48 3,37 3,23 3,07 2,90 2,71
10. 4,96 4,10 3,71 3,48 3,33 3,22 3,07 2,91 2,74 2,54
11. 4,84 3,98 3,59 2,38 3,20 3,09 2,95 2,79 2,61 2,40
12. 4,75 3,88 3,49 3,26 3,11 3,00 2,85 2,69 2,50 2,30
13. 4,67 3,80 3,41 3,18 3,02 2,92 2,77 2,60 2,42 2,21
14. 4.60 3,74 3,34 3,11 2,96 2,85 2,70 2,53 2,35 2,13
15. 4,51 3,68 3,29 3,06 2,90 2,79 2,74 2,48 2,29 2,07
16. 4,49 3,63 3,24 3,61 2,85 2,74 2,59 2,42 2,24 2,01
17. 4,45 3,59 3,20 2,96 2,81 2,70 2,55 2,38 2,19 1,96
18. 4,41 2,55 3,16 2,93 2,77 2,66 2,51 2,34 2,15 1,92
19. 4,38 3,52 3,13 2,90 2,74 2,63 2,48 2,31 2,11 1,88
20. 4,35 3,49 3,10 2,87 2,71 2,60 2,45 2,28 2,08 1,84
21. 4,32 3,47 3,07 2,84 2,68 2,57 2,42 2,25 2,05 1,81
22. 4,30 3,44 ; 2,92 2,66 2,55 2,40 2,23 2,03 1,78
23. 4,28 3,42 3,03 2,80 2,64 2,53 2,38 2,20 2,00 1,76.
24. 4,26 3,40 3,01 2,78 2,62 2,51 2,36 2,18 1,98 1,73
25. 4,24 3,38 2,09 2,76 2,80 2,49 2,34 2,16 1,96 1,71
26. 4,22 3,37 2,98 2,74 2,59 2,47 2,32 2,15 1,95 1,69
27. 4,21 3.35 2,96 2,73 2,57 2,46 2,30 2,13 1,93 1,67
28. 4,20 3,34 2,95 2,71 2,56 2,41 2,29 2,12 1,91 1,65
Anexa 5
209
29. 4,18 3,33 2,93 2,70 2,54 2,43 2,28 2,10 1,90 1,64
30. 4,17 332 2,92 2,69 2,53 2,42 2,27 2,09 1,89 1,62
40 4,08 3,23 2,84 2,61 2,45 2,34 2,18 2,00 1,79 1,51
60 4,00 3,15 2,70 2,52 2,37 2,25 2,10 1,92 1,70 1,39
120 3,92 3,07 2,68 2,45 2,29 2,17 2,02 1,83 1,61 1,25
3,81 2,99 2,60 2,37 2,21 2,09 1,94 1,75 1,52 1,00

Anexa 6

210
Anexa 6 - Valorile critice pentru testul t Student
corespunztoare diferitelor praguri de semnificaie i
numrului "n " al gradelor de libertate
Nivel de semnificaie pentru testul bilateral
n a 0,50 0,20 0,10 0,05 0,02 0,01 0,002 0,001 0,0001
1 1,000 3,078 6,314 12,70
6
31,821 63,657 318,309 636,618 6366,198
2 0,816 1,886 2,290 4,303 6,965 9,925 22,327 31,598 99,992
3 0,765 1,638 2,353 3,182 4,541 5,841 10,214 12,924 28,000
4 0,741 1,533 2,132 2,77 3,747 4,604 7,173 8,610 15,544
5 0,727 1,476 2,015 2,571 3,365 4,032 5,893 6,869 11,178
6 0,718 1,440 1,943 2,44 3,143 3,707 5,208 5,959 9,082
7 0,711 1,415 1,895 2,365 2,998 3,499 4,785 5,408 7,885
8 0.706 1,397 1,860 2,30 2,896 3,355 4,501 5,041 7,120
9 0,703 1,383 1,833 2,262 2,821 3,250 4,297 4,781 6,594
10 0,700 1,372 1,812 2,228 2,764 3,169 4,144 4,587 6,211
11 0,697 1,363 1,796 2,201 2,718 3,106 3,025 4,437 5,921
12 0,695 1,356 1,782 2,17 2,681 3,102 3,930 4,318 5,694
13 0,694 1,350 1,771 2,16 2,650 3,055 3,852 4,221 5,513
14 0,692 1,345 1,761 2,145 2,624 2,977 3,787 4,140 5,363
15 0,691 1,341 1,753 2,131 2,602 2,947 3,733 4,073 5,239
16 0,690 1,337 1,746 2,12 2,583 2,921 3,686 4,015 5,134
17 0,689 1,333 1,740 2,11 2,567 2,898 3,646 3,965 5,014
18 0,688 1,330 1,734 2,101 2,552 2,878 3,610 3,922 4,966
19 0,688 1,328 1,729 2,093 2,539 2,861 3,579 3,883 4,897
20 0,687 1,325 1,725 2,086 2,528 2,845 3,552 3,850 4,837
21 0,686 1,323 1,721 2,080 2,518 2,831 3,527 3,819 4,784
22 0,686 1,321 1,717 2,07 2,508 2,819 3,505 3,792 4,736
23 0,685 1,319 1,714 2,069 2,500 2,807 3,485 3,767 4,693
24 0,685 1,318 1,711 2,06 2,492 2,797 3,467 3,745 4,654
25 0,684 1,316 1,708 2,060 2,485 2,787 3,450 3,725 4,619
26 0,684 1,315 1,706 2,05 2,479 2,779 3,435 3,707 4,587
27 0,684 1,314 1,703 2,052 2,472 2,771 3,421 3,690 4,558
28 0,683 1,313 1,701 2,04 2,467 2,763 3,408 3,674 4,530
29 0,683 1,311 1,699 2,045 2,462 2,756 3,396 3,659 4,506
30 0,683 1,310 1,697 2,042 2,457 2,750 3,385 3,646 4,482
35 0,682 1,306 1,690 2,030 2,438 2,724 3,340 3,491 4,389
40 0,681 1,303 1,684 2,021 2,423 2,704 3,307 3,551 4,321
45 0,680 1,301 1,679 2,01
4
2,412 2,690 3,281 3,520 4,269
50 0,679 1,299 1,676 2,009 2,403 2,678 3,261 3,496 4,228
Anexa 6
211
60 0,679 1,296 1,671 2,00 2,390 2,660 3,232 3,460 4,169
70 0,678 1,294 1,667 1,994 2,381 2,648 3,211 3,435 4,127
80 0,678 1,292 1,664 1,990 2,374 2,639 3,195 3,416 4,096
90 0,677 1,291 1,662 1,987 2,368 2,632 3,183 3,402 4,072
100 0,677 1,290 1,660 1,984 2,364 2,626 3,174 3,390 4,053
120 0,677 1,289 1,658 1,980 2,358 2,617 3,160 3,373 4,025
200 0,676 1,286 1,653 1,972 2,345 2,601 3,131 3,310 3,970
500 0,675 1,283 1,648 1,965 2,334 2,586 3,107 3,310 3,922
1000 0,675 1,282 1,646 1,962 2,330 2,581 3,098 3,300 3,906
oo 0,675 1,282 1,645 1,960 2,326 2,576 3,090 3,290 3,891
n a
i
0,25 0,10 0,05 0,025 0,01 0,005 0,001 0,0005 0,00005
Nivel de semnificaie pentru testul unilateral

Anexa 7

212
Anexa 7 - Valorile critice pentru testul CHI
2
corespunztoare
diferitelor praguri de semnificaie i numrului "n " al
gradelor de libertate
n a
0,990 0,975 0,950 0,900 0,100 0,050 9,025 0,010 0,001
l 0,0002 0,0010 0,0039 0,0198 2,71 3,84 5,02 6,63 10,83
2 0,02 0,05 0,10 0,21 4,61 5.99 7,38 9,21 13,82
3 0,12 0,22 0,35 0,58 6,25 7,81 9,35 11,34 16,27
4 0,30 0,48 0,71 1,06 7,78 9,49 11,14 13,28 18,47
5 0,55 0,83 1,15 1,61 9,21 11,07 12,83 15,09 20,62
8 0,87 1,24 1,64 2,20 10,64 12,59 14,45 16,81 22,46
7 1,24 1,69 2,17 2,83 12,02 14,07 16,01 18,47 24,32
8 1,65 2,18 2,73 3,49 13,36 15,51 17,53 20,09 26,13
9 2,09 2,70 2,33 4,47 14,68 16,92 19,02 21,67 27,88
10 2,56 3,25 3.94 4,87 15,99 18,31 20,48 23,21 29,59
11 3,05 3,82 4,57 5,58 17,27 19,67 21,92 24,72 31,26
J
2 3,57 4,40 5,23 6,30 18,55 21,03 23,34 26,22 23,91
13 4,11 5,01 5,89 7,04 19,81 22,36 24,71 27,89 34,53
14 4,66 5,63 6,57 7,79 21,06 23,6? 26,12 29,14 36,12
15 5,23 6,26 7,26 8,55 22,31 25,00 7,49 30,58 37,70
16 5,81 6,91 7,96 9,31 23,54 26,30 8,84 32,00 39,25
17 6,41 7,56 8,67 10,08 24,77 27,59 30,19 33,41 40.79
18 7,01 8,23 9,39 10,86 25,99 28,87 31,53 34,80 42,31
19 7,63 8,91 10,12 11,65 27,20 30,14 32,85 36,19 43,82
20 8,26 9,59 10,85 12,44 28,41 31,41 34,17 37,57 45,32
21 8,90 10,28 11,59 13,24 29,61 32,67 35,48 38,93 46,80
22 9,54 10,98 12,34 14,04 30,81 33,92 36,78 40,29 48,27
23 10,20 11,69 13,09 14,85 32,01 35,17 38,08 41,64 49,73
24 10,86 12,40 13,85 15,66 33,20 36,41 39,37 42,98 51,18
25 11,52 13,12 14,61 16,47 34,38 37,65 40,65 44,31 52,62
Anexa 7
213
26 12,20 13,84 15,38 17,29 .35,56 38,88 41,92 45,64 54,05
27 12,88 14,57 16,15 18,11 38,74 40,11 43,19 46,96 55,48
28 13,57 15,31 16,93 18,91 37,92 41,34 44,46 48,28 56,89
29 14,26 10,65 17/71 19,77 39,09 42,56 43,72 49,59 58,30
30 14,95 16,79 18,19 20,60 40,26 43,77 46,98 50,89 59,70

Anexa 8

214
Anexa 8 Soluiile exerciiilor propuse n anexe

Soluii: Anexa 1 - Statistic
descriptiv, exerciii recapitulative

1. Media : 88
Amplitudinea : 41
Amplitudinea relativ: 46,59 %
Dispersia: 219,3333
Deviaia standard: 14,809
Coeficientul de variaie:16,82%
2. Media : 3000
Amplitudinea : 400
Amplitudinea relativ: 13,33%
Dispersia: 12121,2121
Deviaia standard: 110,096
Coeficientul de variaie: 3,67%
3. Media : 29,84
Amplitudinea : 20
Amplitudinea relativ: 67,024 %
Dispersia: 13,48180905
Deviaia standard: 3,671
Coeficientul de variaie: 12,305%

Soluii: Anexa 2 - Teste statistice
de semnificaie, exerciii
recapitulative

Testul Student
1. p = 0,313- nu difer semnificativ
2. p = 0,0095- difer semnificativ
3. p = 0,135 - nu difer
4. p = 0,000000000011 - difer
semnificativ
5. p = 0,0087 - difer semnificativ
6. p =0,060 - nu difer
7. p = 0, 0008 - difer semnificativ
Testul CHI
2

1. p =0,560 - nu exist o legtur
2. p = 0,674 - nu exist o legtur
3. p = 0, 252 x10
-10
- exist o legtur
4. p = 0,032 - exist o legtur
5. p = 0,000124 - exist o legtur
6. p = 0,0705 - nu exist o legtur
7. p = 0,00056 - exist o legtur
8. p = 0,0000077 - exist o legtur
9. p = 0,0301 - exist o legtur
10. p = 0,0896- nu exist o legtur
11. p = 0,0048 - exist o legtur

Soluii: Anexa 3 - Corelaie i
regresie, exerciii recapitulative

1. p = - 0,979 - corelate
2. p= - 0,949 - corelate
3. p = 0,901 - corelate
4. p = - 0,092 - necorelate
Anexa 8
215
5. p = 0,985 - corelate
6. p = - 0,0128 - necorelate
7. p = 0,900 - corelate
8. p = 0,915 - corelate
9. p = 0,994 - corelate
Bibliografie selectiv

216
Bibliografie selectiv

1. *** - NIST/SEMATECH e-Handbook of Statistical Methods, 2005,
National Institute of Standards and Technology,
http://www.itl.nist.gov/div898/handbook/
2. *** - Farmacopeea Romn, ediia a-X-a, Editura Medical Bucureti
1993
3. *** - How Grubbs' test works, articol disponibil online pe website-ul
firmei GraphPad Software,
http://www.graphpad.com/library/BiostatsSpecial/article_39.htm
4. *** - Introduction to Epi principles, Innovations in Health Education
USA website, copyright Henry Ford Health System, 2004, carte
disponibil online pe website-ul IIHE,
http://www.iihe.org/education/lectures/epidemiology/default.htm
5. *** - Normality tests use with caution, articol disponibil online pe
website-ul firmei GraphPad Software,
http://www.graphpad.com/library/BiostatsSpecial/article_197.htm
6. Baker R. J. - Basic principles of statistical analysis, carte disponibil
online pe website-ul University of Saskatchewan, Canada,
http://homepage.usask.ca/~rjb609/stats.html
7. Baron T. et al. Statistic teoretic i economic, Editura Didactic i
Pedagogic, Bucureti, 1996
8. Dallal G.E. - The Little Handbook of Statistical Practice, 2001, carte
disponibil online pe website-ul Tufts University, USA
http://www.tufts.edu/~gdallal/LHSP.HTM
Bibliografie selectiv
217
9. Douglas G. A. - Practical Statistics for Medical Research, CRC Press,
1990
10. Hopkins W. G. - A New View of Statistics, 2004, carte disponibil
online pe website-ul http://www.sportsci.org/resource/stats/index.html
11. Mruteri M. Biostatistic - aplicaii practice i exerciii
recapitulative pentru studenii colii Doctorale, curs online disponibil
pe situl UMF Trgu Mure,
http://www.umftgm.ro/statdoct/biostatistica_lp.pdf
12. Mruteri M. Biostatistic - note de curs pentru studenii colii
Doctorale - curs online disponibil pe situl UMF Trgu Mure,
http://www.umftgm.ro/statdoct/biostatistica_curs.pdf
13. Mruteri M. Noiuni de biostatistic, n Maria T. Dogaru (sub
redacia) Farmacologie experimental, Litografia UMF Trgu Mure,
1998
14. McCurdy St., Patrick R. - Clinical Epidemiology and Study Design,
2006, carte disponibil online pe website-ul UCDavis School of
Medicine, USA, http://som.ucdavis.edu/students/k30/folder.2004-06-
21.4913658468/
15. Motulsky H. - InStat guide to choosing and interpreting statistical tests,
GraphPad Software, 2004, carte disponibil online pe website-ul firmei
GraphPad Software http://www.graphpad.com/Downloads/InStat3.pdf
16. Motulsky H. Intuitive Biostatistics, Oxford University Press, 1995
17. Motulsky H., Christopoulos A. - Fitting Models to Biological Data
Using Linear and Nonlinear Regression, Oxford University Press, 2004,
Bibliografie selectiv

218
carte disponibil online pe website-ul firmei GraphPad Software
http://www.graphpad.com/manuals/prism4/RegressionBook.pdf
18. Saporta G., tefnescu Viorica Analiza datelor & informatic, Editura
Economic, Bucureti, 1996
19. Simionovici M., Crstea Al., Vldescu C. Cercetarea farmacologic i
prospctarea medicamentelor, Editura Medical, Bucureti, 1983
20. Stockburger D. W. - Introductory Statistics: Concepts, Models, And
Applications, 1996, carte disponibil online pe website-ul Missouri State
University USA, http://www.psychstat.missouristate.edu/sbk00.htm
21. Swinscow T.D.V. - Statistics at Square One, BMJ Publishing Group,
1997, carte disponibil online pe website-ul
http://bmj.bmjjournals.com/collections/statsbk/index.shtml
22. Tilinc Mariana, Mruteri M., Brnzaniuc Klara Studiu privind
efectul radiaiilor ionizante accidentale asupra populaiei judeului
Mure, Revista de Medicina si Farmacie Targu Mures, vol. 52/2006, pp.
117-122, ISSN 1221-2229
23. Varkevisser C. M., Pathmanathan Indra, Brownlee Ann - Choosing A
Significance Test, n Designing And Conducting Health Systems
Research Projects: Volume 2, 2003, carte disponibil online pe website-
ul International Development Center, Canada, http://www.idrc.ca/en/ev-
33013-201-1-DO_TOPIC.html
24. Zar J. H. - Biostatistical Analysis (4th Edition), Prentice Hall, 1998


ISBN (10) 973-7665-11-2
ISBN (13) 978-973-7665-11-9

S-ar putea să vă placă și