Sunteți pe pagina 1din 220

Marius Mruteri

Noiuni fundamentale de biostatistic

- Note de curs -

2006

Marius tefan Mruteri


NOIUNI FUNDAMENTALE DE BIOSTATISTIC
- NOTE DE CURS -

- 2006 -

MRUTERI, TEFAN MARIUS


Noiuni fundamentale de biostatistic : note de curs
Refereni:
Prof. Dr. chiopu Alexandru
Prof. Dr. Nicolaescu Ioan

Descrierea CIP a Bibliotecii Naionale a Romniei


CIP nr. 5537/ 12.04.2006
MRUTERI, TEFAN MARIUS
Noiuni fundamentale de biostatistic : note de curs / Marius Mruteri
- Trgu-Mure : University Press, 2006
Bibliogr.
ISBN (10) 973-7665-11-2 ; ISBN (13) 978-973-7665-11-9
519.22:57(075.8)

Editor:
University Press, Trgu Mure, 2006
Str. Gh. Marinescu, 38,
Trgu Mure, MS, 540139
Director de editur: Prof. Dr. chiopu Alexandru
Tel: +40-265-215551/126
Fax: +40-265-210407

Cuprins

CUPRINS
I. INTRODUCERE ............................................................................................................. 6

POPULAIA STATISTIC I PROBELE STATISTICE ...................................................... 7


VARIABILITATE BIOLOGIC ..................................................................................... 9
FACTORI DE EROARE .............................................................................................. 10

II. DISTRIBUII DE FRECVEN .............................................................................. 16

CURBA DE DISTRIBUIE NORMAL ......................................................................... 21


DISTRIBUII ANORMALE (NON-GAUSSIENE) .......................................................... 25

III. STATISTIC DESCRIPTIV. CONSIDERAII GENERALE. INDICATORI


STATISTICI...................................................................................................................... 28

A. INDICATORI AI TENDINEI CENTRALE ................................................................ 28


B. INDICATORI AI DISPERSIEI (MPRTIERII) DATELOR N JURUL VALORII MEDII ... 29
III.1. MEDII ............................................................................................................ 31
III. 2. DISPERSIA (VARIANA). ABATEREA STANDARD ........................................... 34
III.3. EROAREA STANDARD .................................................................................... 35
III.4. EROAREA PROCENT ....................................................................................... 36
III.5. COEFICIENTUL DE VARIAIE.......................................................................... 37
III.6. GRADE DE LIBERTATE ................................................................................... 37
III. 7. LIMITE FIDUCIALE (INTERVAL DE NCREDERE) ............................................. 39

IV. STATISTIC INFERENIAL. INTERPRETAREA STATISTIC A


REZULTATELOR UNUI EXPERIMENT..................................................................... 41

IV.1. TESTE DE VALABILITATE .............................................................................. 42


Noiuni introductive ................................................................................................... 42
IV.1. 1. Testul Grubbs................................................................................................ 43
IV.1. 2. Criteriul de eliminare a lui Chauvenet ......................................................... 47

IV.2. TESTE DE CONCORDAN (GOODNESS-OF-FIT)............................................ 50


Noiuni introductive ................................................................................................... 50
IV.2.1. Testul de concordan Kolmogorov-Smirnov................................................. 52

IV. 3. TESTE DE SEMNIFICAIE ............................................................................... 55


Valoarea lui P............................................................................................................ 56
Ipoteza nul (H0)........................................................................................................ 56
Dependena/independena eantioanelor studiate ..................................................... 58
Statistic parametric/neparametric ....................................................................... 59
IV.3.1. Teste de semnificaie parametrice.................................................................. 60
IV.3.2. Teste de semnificaie neparametrice. Statistica ordinei................................. 72
Testul Wilcoxon ......................................................................................................... 72
Testul Mann-Whitney U ............................................................................................. 76
V. ANALIZA DISPERSIONAL (ANALIZA DE VARIAN) - ANOVA ............... 79

Noiuni fundamentale de biostatistic

A. BAZE TEORETICE ............................................................................................... 79


B.CONSIDERAII PRACTICE .................................................................................... 81
V.1. ANALIZA DISPERSIONAL MONOFACTORIAL ................................................ 83
V.2. ANALIZA DISPERSIONAL BIFACTORIAL ...................................................... 90

VI. CORELAIE I REGRESIE .................................................................................... 98

COEFICIENTUL DE CORELAIE................................................................................ 99
COEFICIENTUL DE DETERMINARE......................................................................... 106
ECUAIA DE REGRESIE ......................................................................................... 107

VII. ALEGEREA UNUI ANUMIT TEST STATISTIC .............................................. 112


VIII. STUDII EPIDEMIOLOGICE I CLINICE ....................................................... 115

VIII.1. INDICATORI STATISTICI UTILIZAI N STUDIILE EPIDEMIOLOGICE ............. 115


Rate i proporii....................................................................................................... 116
Indicatori ai frecvenei bolii .................................................................................... 117
Indicatori ai asocierii factori de risc (expunere)-boal .......................................... 119

VIII. 2. TIPURI DE STUDII EPIDEMIOLOGICE ......................................................... 134


STUDII DESCRIPTIVE ........................................................................................... 134
C. Studiu descriptiv de tip ecologic ........................................................................ 137
STUDII ANALITICE................................................................................................ 138
A. Studii de tip Case-Control (Case-Control studies)............................................. 139
B. Studii de tip cohort (Cohort studies) ................................................................ 142
Selecia unui anumit tip de studiu (study design)..................................................... 146
Asociere versus cauzalitate...................................................................................... 147
Criterii pentru stabilirea unei relaii de tip cauz-efect .......................................... 148
ANEXE - EXERCIII RECAPITULATIVE ............................................................... 150
ANEXA 1 - STATISTIC DESCRIPTIV, EXERCIII RECAPITULATIVE...... 151

SCURT RECAPITULARE ....................................................................................... 151


INDICATORI STATISTICI ........................................................................................ 152
INDICATORI STATISTICI PENTRU SERII DE DATE CU APARIII FRECVENTE ALE
ACELEIAI VALORI ......................................................................................................... 154

FOLOSIREA CALCULATORULUI N STATISTICA DESCRIPTIV. APLICAII I EXEMPLE.


155

STATISTIC DESCRIPTIV EXERCIII RECAPITULATIVE ..................................... 160


ANEXA 2 - TESTE STATISTICE DE SEMNIFICAIE, EXERCIII
RECAPITULATIVE....................................................................................................... 163

TESTUL STUDENT ............................................................................................. 163


ETAPELE APLICRII TESTULUI STUDENT........................................................... 163
UTILIZAREA FUNCIEI TTEST A UTILITARULUI EXCEL ....................................... 165
TESTUL STUDENT EXEMPLE I EXERCIII RECAPITULATIVE ........................... 167

TESTUL CHI2 ....................................................................................................... 174


ETAPELE APLICRII TESTULUI CHI................................................................................ 174

Cuprins
UTILIZAREA FUNCIEI CHITEST A PROGRAMULUI EXCEL ........................................... 176

TESTUL CHI2 EXERCIII RECAPITULATIVE........................................................ 177


ANEXA 3 CORELAII I REGRESII, EXERCIII RECAPITULATIVE.......... 185
ANEXA 4 EXEMPLE DE STUDII EPIDEMIOLOGICE. STUDIU DE TIP CASECONTROL....................................................................................................................... 198

STUDIUL INFLUENEI UNOR FACTORI DE RISC BIOLOGICI - INFECIA CU


HELICOBACTER PYLORI N APARIIA UNOR LIMFOAME MALIGNE (LIMFOAME
NONHODGKIN LNH) N CAZUL POPULAIEI JUDEULUI MURE [22]........................... 198
ANEXA 5 - VALORI CRITICE PENTRU TESTUL F CORESPUNZTOARE
PRAGULUI DE SEMNIFICAIE =0,05................................................................... 208
ANEXA 6 - VALORILE CRITICE PENTRU TESTUL T STUDENT
CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I
NUMRULUI "N " AL GRADELOR DE LIBERTATE ........................................... 210
ANEXA 7 - VALORILE CRITICE PENTRU TESTUL CHI 2
CORESPUNZTOARE DIFERITELOR PRAGURI DE SEMNIFICAIE I
NUMRULUI "N " AL GRADELOR DE LIBERTATE ........................................... 212
ANEXA 8 SOLUIILE EXERCIIILOR PROPUSE N ANEXE ......................... 214
BIBLIOGRAFIE SELECTIV ..................................................................................... 216

Noiuni fundamentale de biostatistic

Capitolul I
I. Introducere
[ 12, 13]
Statistica matematic este tiina care urmrete explicarea
fenomenelor de mas printr-un numr relativ redus

de observaii. Ea

folosete metode inductive de cercetare, plecnd de la particular la general.


Desigur, concluziile rezultate n urma prelucrrii statistice a datelor
experimentale nu sunt legiti absolut sigure, ns gradul de incertitudine
poate fi calculat. Cunoscnd gradul de incertitudine al concluziilor trase,
metoda statistic de cercetare poate fi considerat o metod matematic
exact.
Biostatistica este o ramur a statisticii, specializat n studiul
fenomenelor biologice, inclusiv al celor medicale. Se ocup de culegerea,
centralizarea i gruparea datelor, precum i de prelucrarea i determinarea
unor parametri sau indicatori statistici pentru descrierea fenomenelor
biomedicale studiate, pe baza evidenierii unor regulariti sau variabiliti
statistice. Totodat aplic i dezvolt tehnici statistico-probabilistice pentru
analiza datelor biomedicale.
nceputurile biostatisticii au fost determinate de nevoia obinerii
unor informaii cantitative dintre cele mai simple, formulate de regul sub
forma ci bolnavi ? , ci decedai ? , etc. Cu timpul s-a constatat ns
c asemenea metode sunt insuficiente pentru caracterizarea fenomenelor,
datorit existenei unor variaii n rspunsurile care se obin ntre diverse
msurtori sau, cu alte cuvinte, datorit faptului c fenomenele biologice
sunt caracterizate prin variabilitate. Chiar i n aceste condiii, prin

Introducere

observarea unor serii lungi de msurtori, s-a descoperit c se pot calcula


indicatori simpli cu mare putere de sintez, cum ar fi media (aritmetic,
geometric, etc), dispersia, etc.
ntr-o etap ulterioar, statistica a ctigat n puterea de analiz a
fenomenelor. Pe aceast cale s-au descoperit legile care guverneaz ceea ce
nainte prea ntmpltor. Aceast etap, n care statistica trece de la
descrierea fenomenelor la analiza lor, se caracterizeaz prin aplicarea n
general a unui aparat matematic din ce n ce mai complex i a calculului
probabilitilor n special.
Pentru a putea studia procesul biologic dorit, datele experimentale
trebuie sistematizate prin grafice i tabele, ntocmite prin luare n
considerare fie a numrului total de date, fie a unui eantion extras din
acestea.
Din acest punct de vedere, statistica matematic opereaz cu dou
noiuni de baz:
1. Populaia sau colectivitatea statistic;
2. Proba (eantionul) extras din populaia aflat n studiu.

Populaia statistic i probele statistice

O populaie statistic poate fi definit prin totalitatea fenomenelor


sau a obiectelor calitativ omogene avnd una sau mai multe caracteristici
comune. De exemplu 100 de cobai crora le-a fost injectat intraperitoneal o
anumit substan activ pentru a studia un anumit efect farmacologic al
acesteia reprezint un exemplu de populaie statistic.
7

Noiuni fundamentale de biostatistic

Trebuie fcut o deosebire ntre o populaie statistic finit, infinit


i ipotetic. Exemplul de mai sus reprezint o populaie statistic finit, n
timp ce urmrirea frecvenei de apariie a unui anumit efect secundar pentru
un medicament dat la nivelul unei clinici pe o durat nedefinit de timp (ce
poate continua luni sau ani) reprezint un exemplu de populaie statistic
infinit. Drept exemplu de populaie statistic ipotetic se pot meniona
parametrii farmacocinetici ai unui model farmacocinetic simulat pe
calculator care va urma s fie verificat i experimental.
Pentru cunoaterea proprietilor unei populaii statistice este necesar
s se cunoasc proprietile elementelor din care aceasta este compus.
Practic este ns imposibil s se determine compoziia iniial a populaiei
statistice studiate, deoarece ea fie ar fi distrus, fie ar fi necesare un numr
foarte mare de determinri, imposibil de efectuat. Din aceste motive se
apreciaz proprietile caracteristice ale populaiei statistice numai pe baza
unei pri finite din populaie numit eantion (prob), care trebuie s
ndeplineasc o condiie sine qua non: trebuie ca ea s fie luat din populaia
statistic n aa fel nct fiecare element din populaie s aib aceeai
probabilitate de a face parte din eantion. Eantioanele care satisfac acest
deziderat se numesc eantioane reprezentative.
nainte de a trece n revist diferii indicatori i teste statistice
trebuie menionat ns variabilitatea ce exist n cadrul populaiilor
statistice studiate i importana evalurii acesteia pentru obinerea unor
rezultate corecte n urma experimentelor efectuate.

Introducere

Variabilitate biologic

Aa cum am menionat, analiza statistic d cercettorului


posibilitatea de a preciza variabilitatea existent n snul unei colectiviti.
Msura acestei variabiliti d indicaii cu consecine practice, n special n
domeniul biologiei unde se spune c variabilitatea este singura realitate,
media fiind o ficiune. n faa proceselor biologice, att de complexe, cum
s-ar putea cunoate valorile normalului i limitele lui de variaie?
Fiind dat un anumit experiment, cu o mprtiere mare a rezultatelor,
cum se poate trage o concluzie just n aprecierea fenomenului cercetat?
Cum putem tii dac am efectuat un numr suficient de experiene pentru a
atrage o concluzie valabil ? Cnd putem spune, suficient de exact, c o
diferen ntre dou msurtori este semnificativ ?
Fr sprijinul statisticii matematice aceste ntrebri nu i-ar gsi
niciodat rspunsul. Mai mult, interpetarea simplist a rezultatelor este
neconcludent, empiric, putnd duce la erori grave de interpretare, ceea ce,
n cazul domeniului medical poate pune viei umane n pericol.
Cercetarea biologic se bazeaz pe rezultate obinute pe un numr
limitat de observaii din multiplele posibile, este deci o cercetare de
eantion. Se pune problema dac putem generaliza observaiile obinute pe
un numr limitat de cazuri, la ntreaga colectivitate studiat, obinnd astfel
legi cu aplicare general. Generalizarea este posibil doar dac inem cont
de variabilitatea cifrelor obinute, iar statistica matematic d posibilitatea
aprecierii acestei variabiliti.

Noiuni fundamentale de biostatistic

Astfel, dac eantionul este redus ca numr, rezultatele obinute n


cercetrile biologice pot fi diferite, uneori chiar contrarii adevrului, ceea ce
poart numele de fluctuaie de eantionaj. Dac eantionul este numeros,
rezultatul va fi evident mai apropiat de adevr, media rezultatelor putnd fi
generalizat la ntreaga populaie. Un alt aspect deosebit de important este
cel al mprtierii rezultatelor: cu ct mprtierea va fi mai mare, cu att
rezultatele se vor ndeprta mai mult de cele obinute cnd se examineaz
ntreaga populaie (deci de valoarea real).
n concluzie, generalizarea - n scopul ajungerii la concluzii valabile
- depinde, din punct de vedere statistic, de dou caracteristici ale datelor
analitice:
1. Numrul observaiilor efectuate (n);
2. mprtierea (dispersia) acestora ().
Statistica matematic d posibilitatea aprecierii acestor caracteristici
i de aici putem deduce c ea este cea care acord valoarea unei anumite
cercetri ce dorete desprinderea unor concluzii cu caracter generalizator.

Factori de eroare

Este cunoscut faptul c aceeai substan activ, experimentat prin


aceeai metod, poate da rezultate diferite, nu numai n laboratoare diferite,
ci chiar i n acelai laborator. De aceea cunoaterea de ctre cercettor a
factorilor care determin aceast variabilitate, precum i a tipurilor de erori
ce pot s apar este o necesitate.

10

Introducere

n general variabilitatea rezultatelor unui experiment biomedical sau


farmacologic este determinat de urmtorii factori:
I. Factori care in de animalul de experien:
A. Factori interni: greutate, sex, vrst, ras, origine, sntate.
B. Factori

externi:

condiii

de

ntreinere

(alimentaie,

temperatur ambiant), condiii sezoniere.


C. Factori care in de individualitatea animalului,, proprii
fiecrui individ i care caracterizeaz reactivitatea acestuia
(amintim aici, de exemplu, mare variabilitate ntlnit la
metabolizarea alcoolului etilic n cazul indivizilor speciei
umane, n funcie de cantitatea de ADH disponibil n cazul
fiecrui individ).
II. Factori care in de mediul geografic i climateric. Se pot obine
rezultate diferite n diverse pri ale globului investignd acelai
medicament i urmnd chiar aceeai tehnic de lucru, organismul
uman sau animal fiind o entitate biologic a crui reactivitate
individual depinde de mediul nconjurtor, de factorii micro- i
macroclimatici nconjurtori.
III. Factori care in de tehnicile ntrebuinate. Fiecare tehnic de
lucru poate da un rezultat care poate fi chiar n discordan cu cel
obinut printr-o alt tehnic, de aceea cele dou rezultate nu pot
fi obiectul unei comparaii realizate tiinific.
Dat fiind multitudinea factorilor de eroare, cercetarea biologic ar fi
insuficient sau neconcludent dac nu s-ar ine seama de anumite norme
tiinifice n experimentare. Aceste norme se refer, n primul rnd la

11

Noiuni fundamentale de biostatistic

nlturarea factorilor care determin variabilitatea rspunsurilor biologice.


Cteva msuri importante vor fi menionate mai jos:
selecia riguroas a animalelor;
ntocmirea loturilor dintr-un numr suficient de indivizi,
siguri din punct de vedere biologic i/sau statistic (sntoi,
de vrst apropiat, etc.);
asigurarea omogenitii unui lot precum i ntre loturile
luate ntr-o anumit experien; prin msurile mai sus
menionate se nltur factorii de eroare ce depind de
animalul de experien;
determinrile comparative, prin folosirea standardelor sau a
unor substane de referin, contribuie hotrtor la
nlturarea factorilor de eroare care in de tehnicile
ntrebuinate.
Existena variabilitii biologice ne determin s admitem c ntre
valoarea rspunsului biologic obinut de noi n urma unui experiment i
valoarea real poate exista o anumit diferen. Cnd datele obinute de
ctre noi se abat de la valoarea real putem spune c au fost comise erori, ce
se datoreaz factorilor mai sus menionai sau altor factori necunoscui. Prin
termenul de eroare se nelege diferena numeric dintre valoarea gsit de
ctre experimentator i valoarea real (adevrat) a unui parametru
msurat.
E = M A (I.1)
Unde E eroarea absolut
M valoarea msurat

12

Introducere

A valoare adevrat
Aceast valoare A a unui sistem nu poate fi cunoscut exact. n
cursul experimentului se obin valori mai mult sau mai puin apropiate de
valoarea A; problema care se pune este ns care sunt valorile ce pot fi
acceptate. Pentru c valoarea A nu poate fi cu certitudine cunoscut se
urmrete ca o valoare acceptat s se gseasc ntr-un anumit domeniu de
valori, n sarcina statisticii matematice cznd stabilirea ntinderii acestui
domeniu i, deci, a validrii rezultatelor unui experiment.
Factorii de eroare care pot fi nlturai alctuiesc aa-numitele erori
sistematice i ele afecteaz exactitatea rezultatului. Factorii care in de
reactivitatea individual, de exemplu, nu pot fi nlturai, ei determinnd
ceea ce numim erori aleatoare (ntmpltoare), care afecteaz

att

exactitatea ct i precizia rezultatelor experimentale.


Cu toate c aceti factori de eroare nu pot fi nlturai n totalitate,
variaiile pe care ei le provoac n cadrul unui experiment dat pot fi
apreciate i acestor variaii li se adreseaz calculele de eroare. Deoarece
aceste variaii aleatoare se supun legilor de distribuie normal a frecvenei
(despre care vom vorbi n detaliu ceva mai trziu), valoarea lor poate fi
calculat. Odat acest lucru fiind realizat, precizia cercetrilor biologice
poate fi confirmat tiinific.
Exactitatea reprezint apropierea valorii numerice determinate
experimental de valoarea adevrat. Aceasta reprezint de fapt eroarea
absolut. Raportul

Er % =

MA
100 (I.2.)
M

13

Noiuni fundamentale de biostatistic

reprezint eroarea relativ, exprimat uzual n procente.


Evident, cu ct rezultatul obinut se apropie mai mult de rezultatul
real, cu att determinarea este mai exact.
Precizia unei determinri este dat de concordana valorilor obinute

n urma determinrilor efectuate. Se spune despre o metod c este precis


cnd rezultatele determinrilor sunt reproductibile, adic sunt apropiate ca
valoare n contextul unor experimente repetate. Concordana ntre rezultate
nu trebuie judecat numai prin prisma diferenei reale dintre ele, ci innd
cont i de mrimea, n valoare absolut, a acestora. De exemplu, s
presupunem c, n cazul urmririi perioadei de laten a inducerii somnului,
pentru dou hipnotice S1 i S2, la oareci, s-au obinut urmtoarele:
oarecele I

oarecele II

Substana S1

32 secunde

33 secunde

Substana S2

6 secunde

5 secunde

Se observ c, n ambele cazuri, diferena ntre rezultate este de o


secund, ns concordana ntre rezultate este mult mai bun n primul caz.
Deoarece valoarea real nu poate fi cunoscut cu precizie se
folosete n locul acesteia, n special n cazul distribuie normale de
frecven, media aritmetic a tuturor rezultatelor individuale:
n

x=

Xi

i =1

( I.3.), unde

x media aritmetic a rezultatelor individuale


n = numrul determinrilor efectuate

14

Introducere

Pentru a putea aprecia mprtierea rezulatelor unui experiment a


fost definit abaterea (s):

s = x x (I.4.) unde x rezultatul individual


x

media

aritmetic

rezultatelor

individuale
s este valoarea abaterii rezultatelor individuale de la valoarea medie, i arat
precizia determinrilor.
n concluzie, cnd mprtierea rezultatelor individuale fa de medie
este mic, iar media rezultatelor este apropiat de valoarea real, eroarea
determinrii va fi mic, deci vom avea att exactitate ct i precizie bun.
Erori mari survin atunci cnd rezultatele sunt mult dispersate fa de
valoarea medie (precizie slab), iar media rezultatelor se ndeprteaz mult
fa de valoarea real (exactitate sczut a metodei). Pot surveni i situaii
paradoxale, cnd, de exemplu, rezultatele individuale s fie mult dispersate
fa de medie (precizie redus), dar media lor s fie totui apropiat de
valoarea real (exactitatea metodei este bun).

15

Noiuni fundamentale de biostatistic

Capitolul II
II. Distribuii de frecven
[11-13]

Repartizarea datelor calitative i a celor cantitative (numerice) dintro populaie statistic sau un eantion se poate efectua dup frecvena de
apariie a caracteristicilor lor, obinndu-se structura colectivitii. De
exemplu, o mulime de date experimentale poate fi repartizat dup
calitatea efectelor observate: cu efect, fr efect sau cu efect gradat n
funcie de doz.
Datele (msurate pe ntreaga populaie statistic sau pe un eantion)
sunt de obicei organizate n aa-numitele distribuii de frecven, pentru c o
atare prezentare, reprezint formatul cel mai convenabil de sintez i
prezentare a acestora.
n cazul distribuiilor de frecven se afectueaz o descriere calitativ
sau cantitativ a observaiilor (msurtorilor) mpreun cu numrul de
apariii ale unui anumit rezultat al msurtorii respective - frecvena
absolut.
Se mai poate utiliza i frecvena relativ obinut prin mprirea
frecvenei absolute la numrul total al observaiilor.
De asemenea, pentru variabilele cantitative (numerice) continue este
util s se construiasc aa-numitele intervale de variaie. Regulile generale
de construire a acestor intervale sunt:
-

numrul de intervale este bine s fie mai mic de 15

limitele fiecrei clase s se potriveasca cu gradul de acuratee


(precizie, exactitate) al msurtorilor
16

Distribuii de frecven

sunt de preferat intervalele de lungime egal, deoarece sunt mai


convenabile, facilitnd prelucrrile ulterioare

intervalele trebuie sa fie mutual exclusive (capetele lor

nu

trebuie s se suprapun)
Se obine astfel o distribuie de frecven a colectivitii respective.
Se pot obine distribuii de frecven homograde (cum este cazul
diagramelor), cu o singur scar de comparaie n sistemul cartezian, sau
distribuii heterograde.
Pentru a fi mai explicii, s lum un exemplu:
Fie o serie de 33 de date numerice obinute experimental (de
exemplu valori ale tensiunii arteriale sistolice): 180, 120, 110, 200, 140,
210, 200, 190, 150, 170, 140, 130, 150, 170, 160, 120, 160, 140, 160, 170,
180, 160, 150, 130, 160, 180, 190, 160, 170, 170, 150, 150, 130.
Cu aceast serie se poate alctui o diagram, aeznd datele, n
ordinea frecvenei, pe o singur scar a graficului cartezian (fig. 2.1.):

17

Noiuni fundamentale de biostatistic

frecvena de apariie

6
5
4
3
2
1
0

160 170 140 150 130 180 120 190 200 110 210
Valorile ale TA sistolice (mmHg)

Fig. 2.1. Reprezentarea grafic a datelor sub form de diagram


n felul acesta se obine structura acestei colectiviti i se poate
constata frecvena de apariie a unor rezultate (de exemplu cte valori ale
tensiunii arteriale 110 se gsesc n respectiva colectivitate statistic).
Cutnd i ale modaliti de caracterizare a colectivitii, se poate
stabili o distribuie de frecven heterograd, pe dou scri ale sistemului
cartezian, niruind pe abscis numerele, n ordine cresctoare sau
descresctoare i notnd, n acelai timp, intervalele de clas, iar pe
ordonat punnd frecvenele de apariie (relative sau absolute). Se obine
astfel o histogram. Prin unirea ordonatelor care trec prin mijlocul
intervalelor de clas se obine poligonul de frecven.
Practic, pentru a reprezenta grafic corect datele colectate n cadrul
unei histograme, trebuie parcuri urmtorii pai:

18

Distribuii de frecven

i. Pentru irul valorilor msurate se va determina numrul de


intervale de grupare (de clas) M (eventual lungimea intervalului de
grupare - d), conform formulei lui Sturges:
M = 1+3,22*logn

(II.1),

unde n = numrul msurtorilor efectuate


Valoarea numrului de intervalule se va rotunji pentru a obine un numr
ntreg.
Pentru cazul nostru, numrul vom obine M=1+3,22*log33=5,889
adic vom avea 6 intervale.
Eventual, lungimea intervalului de grupare va fi calculat cu
formula:
d=

X max X min
(II.2),
1 + 3,22 log n

unde Xmax, Xmin reprezint valoarea maxim i minim msurat.


Pentru cazul nostru d =

210 110
= 16,97 . Dat fiind precizia
1 + 3,22 log 33

msurtorilor efectuate cu tensiometrele clasice, putem lua n considerare un


o lungime a intervalului de grupare de circa 20 mmHg.
ii. n baza numrului calculat de intervale (M), respectiv a valorii
lungimii intervalului de grupare (d), ntre valorile limit masurate (Xmin
Xmax), se vor stabili intervalele de grupare. Datele obinute vor fi
centralizate ntr-un tabel.
iii. Se determin frecvena absolut (ni), care reprezint numrul de
apariii a datelor corespunztoare fiecrui interval de grupare n parte. i
aceste date se vor trece n tabelul sus-menionat.

19

Noiuni fundamentale de biostatistic

iv. Se poate determina i frecvena relativ (fi), care reprezint


raportul frecventei absolute (ni) la numarul total de msurtori (n)
v. Se construiete histograma, care reprezinta o diagrama n form
de dreptunghiuri avnd baza egala cu intervalul de grupare, iar nlimea
cu frecvena (absolut sau relativ)
vi. Se construiete poligonul de frecven, care se obine prin unirea
mijloacelor superioare ale histogramei prin segmente de dreapt.
Tabelul cu intervale i frecvena absolut, precum i histograma
rezultat n cazul celor 33 de valori ale tensiunii arteriale sistolice sunt
prezentate mai jos:
Interval de grupare
<110
111-130
131-150
151-170
171-190
>190

Frecvena absolut
1
5
8
11
5
3

Fig. 2.2. Histograma


20

Distribuii de frecven

Distribuia de frecven permite determinarea i a celorlalte


caracteristici: tendina central (cu alte cuvinte, media), mediana, forma
distribuiei, variabilitatea din interiorul ei. n figura de mai sus se poate
constata c forma distribuiei se apropie destul de mult de distribuia
normal Laplace-Gauss (distribuia n form de clopot). n acest caz,
valoarea medie reprezint n cele mai bune condiii tendina central (pentru
cazul studiat, media = 158,7).

Curba de distribuie normal

Van Vijngaarden (1926) a artat pentru prima dat c variaia


rezultatelor biologice se datoreaz sensibilitii individuale a animalelor
(care genereaz, astfel, erorile ntmpltoare) i c ele se supun legii de
distribuie normal a frecvenei stabilit, n 1820, de Laplace i Gauss.
Curba de distribuie normal a frecvenei reprezint frecvena cu
care revine acelai rezultat n mai multe determinri succesive. Ea se poate
obine aeznd pe abscisa unui grafic diferenele, obinute n mai multe
determinri, ntre media rezultatelor i rezultatele individuale, iar pe
ordonat frecvenele de apariie a rspunsului pentru fiecare diferen.
Graficul are forma unui clopot (fig. 2.3.):

21

Noiuni fundamentale de biostatistic

Fig. 2.3. Graficul de distribuie normal a frecvenei


Media rezultatelor individuale, care se repet cel mai des (are cea
mai mare frecven de apariie), este punctul cel mai nalt al curbei.
Valoarea medie este notat pe abscis cu 0, deoarece diferena sa fa de
medie este, evident, zero. De o parte i de alta a punctului culminant, se
desfoar simetric frecvenele corespunztoare diferenelor dintre media
rezultatelor i rezultatele individuale, care se gsesc pe abscis; cele
negative (mai mici dect media) n partea stng, cele pozitive (deci mai
mari dect media) n partea dreapt a valorii medii.
Distana BD sau BC (0-1 sau 0+1) reprezint convenional o unitate
denumit abatere standard i notat cu (sigma). Perpendiculara pe
valoarea medie este axul de simetrie al suprafeei acoperit de curb.
Perpendicularele n punctele de pe abscis care corespund valorii medii plus
abaterea standard i valorii medii minus abaterea standard, nchid dou
treimi din suprafaa acoperit de curb (66%). Perpendicularele care
corespund valorii medii plus sau minus 2 nchid circa 95% din suprafaa
acoperit de curb. Suprafeele terminale ocup numai 5 % din suprafaa
total.
22

Distribuii de frecven

Pentru a demonstra c sensibilitatea animalelor de laborator fa de o


substan activ se supune legilor de distribuie normal a frecvenei, Van
Vijngaarden a determinat doza minim letal prin perfuzie lent, cu aceeai
soluie digital, lucrnd pe 573 de pisici. Efectund calculele necesare, a
obinut un grafic asemntor curbei n form de clopot a lui Gauss
(distribuia normal a frecvenei) i care se supune acelorai legi. S-a
demonstrat astfel c variaia sensibilitii animalelor de experien fa de
diferite substane medicamentoase studiate, se ncadreaz n teoria
distribuiei normale a frecvenei, stabilit de Gauss.
Cunoscnd aceast lege, putem efectua experiene i dozri biologice
suficient de precise, din care s fie eliminate erorile determinate de
reactivitatea individual a animalelor de experien.
Tot din aceast lege de distribuie normal a frecvenei reiese, ns,
c valoarea tiinific a unui singur rezultat obinut pe un animal sau a unor
experimentri ce folosesc puine animale este mic, rezultate precise fiind
cele obinute pe un numr mare de animale, prin stabilirea valorii medii a
determinrilor i efectuarea unor prelucrri statistice ulterioare. Numrul
mare de rezultate duce la obinerea unei curbe de frecvene mai nalt,
micornd, totodat, distana dintre capetele curbei.
Caracteristicile distribuiilor de frecven
Orice serie de date cantitative se poate descrie prin dou elemente
caracteristice:
1. indicatorii tendinei centrale
2. indicatori ai mprtierii sau dispersiei datelor

23

Noiuni fundamentale de biostatistic

Dac toate aceste elemente menionate sunt obinute n urma unui


studiu populaional, ele poart numele de parametri statistici, iar dac sunt
obinute n urma analizei unui eantion se numesc indicatori statistici.
Din punctul de vedere al tendinei centrale, distribuiile de frecven
se caracterizeaz prin medie, mod (dominant) i median.
Media reprezint tendina central a unei distribuii (vom studia
mai trziu modul ei de calcul).
Dominanta reprezint valoarea cea mai frecvent a unei distribuii,
care se confund, de fapt, cu vrful poligonului de frecven.
Mediana corespunde valorii care se gsete la punctul care mparte
seria statisticii n dou grupuri egale.
O alt caracteristic a distribuiilor, care uneori este foarte
folositoare, este forma curbei de frecven. Ea poate fi:
1. simetric
2. asimetric:

- pozitiv, caz n care coada lung a distribuiei este

de partea valorilor pozitive.


- negativ, caz n care coada lung a distribuiei
este de partea valorilor negative.
Dou curbe cu aceeai medie, dominant i aceeai median se pot
deosebi dup baz i nlime: mai ngust i mai nalt sau mai larg i mai
joas. ntinderea bazei poate da o msur a variabilitii. Deschiderea este
cu att mai mare cu ct participarea factorilor ntmpltori este mai mare (n
figura 2.3) se pot observa diferenele ntre dou curbe cu aceeai medie).
Calculul precis la mprtierea rezultatelor se face cu ajutorul abaterii
standard.

24

Distribuii de frecven

Fig. 2.3. Dou curbe cu aceeai medie i dominant, dar cu


mprtieri diferite ale rezultatelor
n cazul distribuiilor simetrice i unimodale exist egalitate ntre
media aritmetic, mod i median (este vorba despre curba normal de
distribuie a frecvenei Laplace-Gauss).

Distribuii anormale (non-Gaussiene)

Se cunosc, n afara distribuiei normale unimodale, i distribuii


purimodale sau asimetrice (fig. 2.4):

Fig. 2.4. Distribuii anormale

25

Noiuni fundamentale de biostatistic

Pentru a ntelege mai bine importana tipului de distribuie n cazul


datelor provenite din cercetarea biomedicale trebuie spus c, de exemplu,
existena unor distribuii anormale pot arta o lips de omogenitate a
afectelor farmacodinamice ale unui medicament. Unele distribuii pot lua
forma literei U, unde important este valoarea minim (de exemplu, n cazul
aciunii hipoglicemiante a unor substane active).
Exist cazuri, ns, cnd fenomenele studiate se supun unei
distribuii de tip special. Cele mai des ntlnite distribuii de acest tip au fost
descrise de Bernouli (distribuia binomial) i de Poisson (distribuia
evenimentelor rare).
Distribuia binomial prezint interes mai ales n studiul
fenomenelor ereditii, iar distribuia Poisson n studiul unor efecte ale
compuilor radioactivi i n radiochimie. O tratare complet a tuturor
tipurilor de distribuie se gsete n tratatele de statistic teoretic indicate n
bibliografie.
Odat constatat existena unor distribuii non-Gaussiene n cazul
datelor provenite din cercetarea biomedical, testele statistice de
semnificaie trebuiesc adaptate acestei situaii, eventual recurgndu-se la
teste de semnificaie neparametrice (testul Wilcoxon, testul

- Man

Whitney etc), n cazul crora verificarea unei ipoteze, aa cum vom vedea,
nu este legat de parametrul unei anumite repartiii.
Anumite fenomene biologice rar ntlnite s-a constatat c se supun
unor distribuii de tip special, cum ar fi distribuia Pearson, Neuman,

26

Distribuii de frecven

Maxwell. Studiul acestor tipuri de distribuie depete cadrul acestei cri,


fcnd obiectul unor manuale de specialitate.
n funcie de particularitile distribuiilor gsite, se pot alege
procedeele matematice cele mai indicate pentru calculul statistic i
interpretarea rezultatelor.
n cazul experimentrii n domeniul farmacodinamic, rezultatele
unei cercetri, odat reprezentate grafic dau distribuii empirice sau
experimentale. Compararea acestor distribuii cu distribuiile teoretice poate
fi de un real folos pentru o interpretare just a fenomenelor observate.
Trebuie menionat c majoritatea distribuiilor obinute n urma
analizei datelor rezultate din cercetarea biomedical se supun legilor
normale de repartiie a frecvenei, de aceea calculele i tehnicile de lucru
prezentate n aceast carte se refer, n mod special, la aceast ipotez .

27

Noiuni fundamentale de biostatistic

Capitolul III
III. Statistic descriptiv. Consideraii generale.
Indicatori statistici
[11-13, 15,16, 21, 24]

Principalii indicatori care caracterizeaz o serie de date (un set de


valori ale unui eantion statistic) sunt fie indicatori ai tendinei centrale, fie
indicatori ce caracterizeaz mprtierea datelor n jurul unei valori medii
(indicatori ai dispersiei).
Deoarece aceti indicatori descriu din punct de vedere statistic
distribuia datelor studiate, permind chiar unele comparaii ale acesteia cu
distibuia normal, modalitile de utilizare ale acestor indicatori statistici
fac obiectul unei ramuri a statisticii denumit statistic descriptiv.
O serie de date este alctuit dintr-un ir de valori pe care le notm :
x1, x2, , xn .
Indicatorii matematici mai importani ce caracterizeaz o serie de date sunt:

A. Indicatori ai tendinei centrale

x + x 2 + ... + x n
(III.1),
Media aritmetic - notat de regul cu x = 1
n
Mediana - este acea valoare din irul de date care mparte n dou
pri egale irul ordonat de valori (atenie, irul este ordonat cresctor),
situndu-se la mijlocul seriei statistice. Dac numrul de valori n este un
numr impar, atunci mediana este valoarea
n
Me= xk (III.2), , unde k = + 1 .
2

28

Statistic descriptiv

Dac n este par, deci avem un numr par de valori, mediana este
x +x
k +1 (III.3), unde k = n/2.
definit ca fiind M = k
e
2
Modul - constituie valoarea care apare cel mai des, deci valoarea cu
numrul cel mai mare de apariii.

B. Indicatori ai dispersiei (mprtierii) datelor n


jurul valorii medii
Variana notat s2x este un indicator de mprtiere a datelor. Formula
2
2
xi ( x )
2
de calcul este: S x =
(III.4),.
n 1
Abaterea standard sau deviaia standard reprezint rdcina ptrat

din varian (dispersie) :

sx = sx2 (III.5),

Coeficientul de variaie se calculeaz ca un raport procentual ntre


abaterea standard i valoarea medie a irului de valori.
s
CV % = x 100 (III.6),
x
Asimetria (skewness) caracterizeaz gradul de asimetrie a unei
distribuii n jurul valorii medii, comparativ cu distribuia normal. Valori
pozitive ale asimetriei indic o distribuie de frecven ce prezint o coad
(n englez tail) asimetric n zona valorilor pozitive ale distribuiei
(valori mai mari dect media). Similar, valori negative ale asimetriei indic o
distribuie de frecven ce prezint o coad (n englez tail) asimetric n
zona valorilor negative ale distribuiei (valori mai mici dect media).

29

Noiuni fundamentale de biostatistic

_ 3

x x
n
(III.7), , unde S = abaterea
Skewness =
i
(n 1) (n 2) S

standard.
Aplatizarea (kurtosis) caracterizeaz gradul de aplatizare a unei
distribuii, comparativ cu distribuia normal. Valorile pozitive ale acestui
indicator indic o distribuie cu un vrf mai nalt dect distribuia
normal. Similar, valori negative ale kurtosisului indic o curb relativ
aplatizat, comparativ cu distribuia normal.

_ 4

x x
n(n + 1)
3(n 1) 2

i
Kurtosis =


(n 1)(n 2)(n + 3) S (n 2)(n 3)

(III.8),, unde S = abaterea standard.


Amplitudinea - este diferena dintre valoarea maxim i cea minim
A = Amax Amin (III.9).
Amplitudinea relativ - notat A% este raportul dintre amplitudinea
absolut i media aritmetic a seriei de date.

Atunci cnd avem foarte multe date se recomand includerea lor n


clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice
ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani,
25-30 ani, etc n acest caz apare noiunea de frecven a clasei.

Indicatori statistici pentru serii de date cu apariii frecvente ale


aceleiai valori

Dac datele pe care le studiem conin valori care se repet des, se


obinuiete s se grupeze datele care au aceeai valoare . Numrul de
30

Statistic descriptiv

apariii ale unei valori anume se numete frecvena de apariie i se noteaz


cu fi.
Presupunem c n urma msurtorilor am obinut irul de valori:
x1 cu frecvena f1, x2 cu frecvena f2, xn cu frecvena fn
Indicatorii statistici se calculeaz conform noilor formule:
Media aritmetic

xi f i

x=

i =1, n

fi

i =1, n

x1 f1 + x2 f 2 + ... + xn f n
f1 + f 2 + ... + f n

(III.10)

fi + 1

Mediana este xk (III.11, )unde

Dispersia (variana) :

s x2 =

k = i =1, n
2

( xi x ) 2 f i

i =1, n

fi 1

(III.12)

i =1, n

Dat fiind importana lor, n cele ce urmeaz vor fi descrii pe larg


unii dintre indicatorii statistici enumerai mai sus.

III.1. Medii

31

Noiuni fundamentale de biostatistic

Valoarea medie definete cel mai bine tendina central a unei


distribuii de frecven. Totui trebuie menionat c valoarea medie
niveleaz varianiile valorilor prin obinerea unei valori mijlocii, care d
impresia unei stabiliti a fenomenelor, care nu este real n biologie, de
aceea pentru un studiu complet al unei compatibiliti statistice, sunt
necesare metode statistice care stabilesc variaiile rezultatelor obinute i
care, pentru o bun interpretare, trebuie s nsoeasc valoarea medie.
Cea mai uzual n statistic este media aritmetic care corespunde
formulei de mai jos:
Ma = xa =

1 n
x i (III.13)
n i=1

Media aritmetic poate fi calculat n mai multe feluri:

Media aritmetic simpl

Calculat dup formula de mai sus. Pentru exemplul din capitolul II,
unde suma celor 33 de rezultate individuale era 5240, media aritmetic
simpl este:

xa =

5250
= 159,09 mmHg
33

Media aritmetic ponderat

Dac, pentru exemplul din capitolul II, se iau n considerare


frecvenele cu care vin numerele, se observ c ele au nsemntate inegal,
32

Statistic descriptiv

numerele 110 i 210 revin numai o singur dat, n timp ce 140 sau 150
revin de patru ori n irul de date exeprimenatele studiat. n acest caz, se
spune c valorile nu au pondere egal, iar numrul (frecvena) care arat de
cte ori se repet fiecare valoare va fi ponderea valorii respective. Se poate
calcula media, innd seama de aceste ponderi, dup formula:
n

xa =

pi x i

i =1
n

(III.14)

pi

i =1

Se face, deci, suma produselor dintre fiecare valoare i ponderea sa


i se mparte la suma ponderilor.
Exist un procedeu matematic pentru a determina media care
uureaz calculul atunci cnd avem de-a face cu serii statistice alctuite din
numere mari. De exemplu, dac variabilele studiate sunt reprezentate de
masa corporal a oarecilor unei biobaze, iar frecvena lor fiind reprezentat
de familii de oareci, s calculm greutatea medie a oarecilor pe familie:
Procedeul se realizeaz prin alegerea unei medii arbitrare, notat cu
a (frecvena cea mai mare), n timp ce cu x notm abaterile fiecrei valori de
la originea arbitrar (-1, +1 etc). Frecvena o notm cu f.
Formula de calcul a mediei n acest caz este:
xa = a

f x
f

(III.15)

Se face astfel produsul dintre fiecare valoare x i fiecare frecven f


i, deoarece se obin numere pozitive i negative, se face suma lor algebric,
care se mparte la suma frecvenelor. n final, valoarea obinut se va scdea
din a.

33

Noiuni fundamentale de biostatistic

III. 2. Dispersia (variana). Abaterea standard

Aa cum am mai mentionat, dispersia (variana) notat s2x este un


indicator de mprtiere a datelor. Formula ei de calcul este:
S x2

2
2
xi ( x )

(III.16)
n 1
Unitatea de abatere individual fa de medie a fost denumit
abaterea standard i a fost notat cu S ( se utilizeaz numai n cazul curbei
ideale). Ea reprezint o msur a preciziei determinrilor sau, cu alte
cuvinte, o msur a mprtierii rezultatelor individuale fa de medie.
Abaterea standard poate fi calculat dup urmtoarea formul:

S=

(x

x)

(3.17) unde x i x = abaterea valorilor individuale

Fa de valoare medie (indiferent de semn) se noteaz cu d


(diferena).
Deoarece cerecetarea biologic se bazeaz pe eantionaj, abaterea
standard se calculeaz n acest caz dup formula:

S=

(x

x)

n 1

(III.18)

Practic abaterea standard se calculeaz ca rdcina ptrat din


dispersie (varian) :

Sx = S =
2
x

(x

x)

n 1

34

(III.19)

Statistic descriptiv

Fcnd ptratul diferenei, se evit posibilitatea ca aceste diferene n


plus sau n minus s se anuleze, obinnd numere n valoare absolut.
Aceasta oblig, ns s se extrag rdcina ptrat pentru a obine rezultatul.
Se calculeaz, prin urmare, ptratul fiecrei diferene fa de medie i se
face suma acestor ptrate, care se mparte la numrul determinrilor minus
1. Rdcina ptrat a acestei valori este abaterea standard S.
Cunoscnd abaterea standard, adic rspndirea rspunsurilor
individuale fa de medie, se cunoate precizia determinrilor. Totodat,
deoarece pentru curba lui Gauss, dublul abaterii standard este reprezentat de
suprafaa nchis de perpendicularele care trec prin punctele BF i BE i
care acoper 95% din suprafaa total, va trebui s inem cont de aceasta,
lund 2S ca i interval de ncredere (vezi figura 2.3.). Aceasta ne va certifica
faptul c 95% din rezultatele noastre experimentale se vor ncadra n
limitele calculate i numai 5% din ele se vor gsi n afara acestor limite.

III.3. Eroarea standard

Este cunoscut faptul c determinrile biologice sunt supuse


influenei a dou tipuri de erori: cele care influeneaz precizia determinrii
i cele care influeneaz exactitatea determinrii. Pentru a afla exactitatea
cu care s-au fcut o serie de determinri, trebuie s se calculeze abaterea

medie a valorilor medii obinute sau, altfel spus, media erorilor ce se pot
comite ntr-o determinare.
Aceast abatere a fost denumit eroare standard, notat cu E.
Calcularea ei se face cu ajutorul formulei:
35

Noiuni fundamentale de biostatistic

E =

(x 1 x )

n (n 1)

(III.20)

tiind c, n cazul distribuiei normale gaussiene, mprtierea n


jurul mediei colectivitii a unei medii de antion este

n ori mai mic

dect mprtierea rezultatelor individuale, eroarea standard este dat i de


formula:
E=

S
n

(III.21)

Ea reprezint formula clasic a erorii standard.


Rezultatele experimentrilor biologice trebuie s fie nsoite
ntotdeauna de eroarea standard sau de abaterea standard, utilizndu-se
formulri de tipul M S sau M E, pentru a permite o just interpretare a
lor.

III.4. Eroarea procent

Dup cum tim, majoritatea efectelor farmacodinamice se pot


ncadra n dou categorii: efecte gradate i, respectiv, efecte cuantale. De
multe ori acestea din urm sunt reprezentate sub form de procente. Atunci
cnd eantionul este mare, putem spune c procentele (pe) sunt distribuite
normal n jurul mediei cu o abatere standard egal cu
S=

pq
(III.22)
n

unde p = procentajul de rspuns pozitiv


q = procentajul de aciune negativ
n = numrul cazurilor
36

Statistic descriptiv

evident, q = 100 p
Putem spune deci c abaterea standard a unui procent de aciune
calculat cu aceast formul reprezint limitele probabile, n plus sau n
minus, ale procentajului de aciune pentru o doz dat de substan activ.

III.5. Coeficientul de variaie

Coeficientul de variaie se calculeaz ca un raport procentual ntre


abaterea standard i valoarea medie a irului de valori.
s
CV % = x 100 (III.23)
x

De remarcat c valoarea coeficientului de variaie nu are unitate de


msur, se exprim procentual. Acest fapt permite folosirea indicatorului la
compararea a dou sau mai multe serii de date, indiferent de ordinul de
mrime al variabilelor (variantelor) i de unitile de msur folosite. Se
poate considera c un coeficient de variaie sub 10% indic o dispersie mic
(o mprtiere) a datelor, adic seria este omogen. Un coeficient ntre 10%
i 30% indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac

dispersia este mare, media nu este un indicator reprezentativ.

III.6. Grade de libertate

Din cele discutate pn acum am vzut cum, plecnd de la un


eantion al unei colectiviti, am nlocuit abaterea standard teoretic () prin
37

Noiuni fundamentale de biostatistic

abaterea standard de eantionaj (S). De asemenea, ca factor de corecie s-a


folosit ptratul diferenelor individuale (d2) i s-a calculat S2. n aceeai
ordine de idei, pentru a putea apropia pe S de s (abaterea teoretic) am
diminuat numrul cazurilor din experiment cu o unitate, n locul efectivului
total n punnd n-1.
Practic formula de calcul a abaterii standard a devenit
S=

d2
n1

(III.24)

Spunem c n-1 este numrul gradelor de libertate.


Gradele de libertate reprezint, n cazul determinrilor biologice

numrul

mrimilor

(animale,

determinri,

observaii)

folosite

experimentarea respectiv, din care se scade o unitate.


Pornind de la aceast premiz, gradele de libertate reprezint practic
numrul mrimilor independente folosite n experimentarea respectiv.

innd seama de cele afirmate mai sus, n calculele de determinare a


erorii va interveni un factor de corecie t, care depinde de numrul
gradelor de libertate (tn-1). Cantitatea t se gsete n tabele (vezi Anexa
1), calculat pentru diferite probabiliti, n funcie de numrul de grade de
libertate folosit (n general vom lucra cu p= 0,05). Valoarea lui t scade cu
ct crete numrul observaiilor, deci cu ct este mai mare numrul gradelor
de libertate.
n cazul determinrilor comparative martor/prob sau a mai multor
doze (loturi) se scade din efectivul total cte o unitate pentru fiecare lot. (de

38

Statistic descriptiv

exemplu numrul gradelor de libertate pentru dou loturi, n cazul mai sus
menionat va fi (n1+n2-2).

III. 7. Limite fiduciale (interval de ncredere)

Am vzut pn acum c principalii parametrii care descriu o


populaie statistic sunt media i abaterea standard. n practic parametrii
unei populaii se estimeaz pe baza determinrilor efectuate pe eantioane
luate din respectiva populaie statistic. Evident parametrii probelor extrase
nu sunt perfect identici cu cei ai populaiei studiate; exist ns posibilitatea
de a calcula intervalul n care se pot ncadra aceti parametrii, acordnd
acestui interval o anumit ncredere (probabilitate), aleas n funcie de
exactitatea dorit (de obicei se alege un nivel de probabilitate de 95% sau
99%). Aceasta nseamn c, dac vom lua un numr mare de probe din
aceeai populaie, 95% respectiv 99% din probe vor avea parametrii care se
ncadreaz n intervalul calculat i va exista riscul ca 5% respectiv 1% din
proces s se gseasc n afara intervalului calculat.
Limitele fiduciale, denumite i limite de eroare sau de securitate,

reprezint intervalul n care se poate prevedea c se gsete valoarea unei


medii (att n cazul efectelor gradate ct i a celor cuantale). Intervalul
respectiv se mai numete i interval de ncredere.
Limitele de eroare sunt, n general, proporionale cu valoarea mediei
i pot fi convenional exprimate ca procente ale acestei medii. De regul, n
determinri biologice calculm limitele de eroare la o probabilitate p = 0,05.
n calculul limitelor de eroare se folosete factorul de corecie t,
despre care tim c depinde de numrul gradelor de libertate.
39

Noiuni fundamentale de biostatistic

Pentru o interpretare corect, rezultatele experimentrilor biologice


trebuie exprimate dup relaia de mai jos:
M tS (III.25) unde M media determinrilor
t factorul de corecie pentru probabilitatea
dorit
S abaterea standard
Dac abaterea standard (S) este exprimat n procente limitele de
eroare sunt 100tS la sut.
Dac folosim calculul logaritmic pentru calcularea abaterii standard
n anumite experimente farmacologice, limitele de eroare sunt date de
antilogaritmul lui 2 tS.

S presupunem c la testarea unui anumit analgezic, n urma


experimentrii prin testul plcii nclzite, timpul de laten al reaciei
nociceptive a fost de 10020 secunde, la o probabilitate p =0,05. Limitele
fiduciale sunt deci cuprinse ntre 80-120 secunde. Aceasta nseamn c n
95 de determinri din 100 rezultatul gsit va fi superior timpului de 80
secunde i inferior timpului de 120 secunde, oscilnd n jurul valorii celei
mai probabile (media M=100 secunde). Cu alte cuvinte, dac se repet
determinarea n aceleai condiii, rezultatul se va gsi n 95% din cazuri
ntre aceste limite i numai n 5% din cazuri valoarea experimental va fi n
afara acestor limite.

40

Statistic inferenial

Capitolul IV
IV. Statistic inferenial. Interpretarea statistic
a rezultatelor unui experiment
[ 1, 3, 5, 6, 10, 11-13, 15, 20, 23,24]

Odat obinute rezultatele experimentale, ele trebuie prelucrate,


prezentate, i, mai ales sintetizate i interpretate, pentru a putea desprinde
legalitatea urmrit. Trebuie acordat o importan deosebit interpretrii
rezultatelor experimentale obinute, deoarece o interpretare prea simplist
sau, dimpotriv, prea pretenioas poate duce la o scdere a valorii cercetrii
efectuate.
Sprijinul hotrtor n interpretarea corect a rezultatelor i n
afirmarea concluziilor l aduce statistica matematic. Concluziile unui
anumit experiment trebuie verificate, datele experimentale trebuie s fie
reproductibile, concluziile trase trebuie s fie tiinific ntemeiate, acest
lucru nefiind posibil fr o prelucrare statistic adecvat a datelor.
Totalitatea testelor statistice folosite cu scopul de a demonstra
existena sau inexistena unor legturi sau diferene statistic semnificative,
respectiv tiinific corecte ntre variabilele

unui anumit studiu sau

experiment, fac obiectul unei ramuri a statisticii numite statistic


inferenial.

Se evideniaz n principal patru categorii de teste/analize statistice


folosite cu succes n descrierea/interpretarea rezultatelor unui experiment
tiinific:
1. Teste de valabilitate
2. Teste de concordan (goodness of fit)
41

Noiuni fundamentale de biostatistic

3. Teste de semnificaie
4. Corelaii i regresii

IV.1. Teste de valabilitate

Noiuni introductive
Definiie: Prin teste de valabilitate se neleg testele care permit

aflarea valorii unei experimentri n funcie de probabilitile apariiei


variaiei n natur.
Cu alte cuvinte, prin aceste teste putem preciza dac un anumit
rezultat experimental poate fi considerat ca fiind datorat variabilitii
biologice normale i care nu va ndeprta semnificativ rezultatul final al
experimentului de valoarea adevrat sau este un rezultat aberant care se
datorete unor factori accidental aprui n timpul experimentului (animale
bolnave, tarate etc).
Rezultate aberante (outliers)

De foarte multe ori ntr-un lot de rezultate experimentale apar cazuri


foarte ndeprtate fa de celelalte. Problema care se pune este dac aceste
rezultate pot sau nu pot fi luate n considerare, avnd n vedere faptul c
influeneaz semnificativ valoarea final a mediei. Exist tendina de a
elimina din start aceste rezultate, care par ntmpltoare, deoarece se
consider c ele deviaz media ntr-un sens care poate fi foarte departe de
valoarea real. Acest mod simplist de a raiona este total greit.

42

Statistic inferenial

Biostatistica pune la dispoziie o serie de criterii de apreciere a


acestei situaii i de eliminare a valorilor care se abat foarte mult de la medie
(aa numitele rezultate aberante - outliers n englez).
Metodele cele mai utilizate n practic sunt testul Grubbs, respectiv
criteriul de eliminare a lui Chauvenet, ce folosesc modaliti de calcul

oarecum similare.

IV.1. 1. Testul Grubbs


De-a lungul timpului statisticienii au gsit mai multe ci de a detecta
i elimina rezultatele aberante. Testul Grubbs este doar una dintre aceste
metode, avnd ns avantajul c este uor de aplicat.
Primul pas n aplicarea acestui test const n cuantificarea
ndeprtrii rezultatlui considerat aberant de celelalte rezultate.
Practic, vom calcula raportul Z, constnd n mprirea diferenei
dintre valoarea mediei i valoarea rezultatului aberant la valoarea abaterii
standard (notat cu S sau SD standard deviation). Trebuie subliniat aici
faptul c abaterea standard este calculat incluznd i valoarea rezultatului
considerat aberant !
_

Z=

X Xi
SD

(IV.1), unde X - media valorilor

Xi valoare rezultatului considerat


aberant
SD - abaterea standard

43

Noiuni fundamentale de biostatistic

Dac valoarea astfel calculat lui Z este mare, rezultatul respectiv


este destul de ndeprtat de celelalte rezultate.
Este tiut faptul c atunci cnd analizm date experimentale, nu
cunoatem aprioric abaterea standard a populaiei statistice studiate.
Dimpotriv, abaterea standard este calculat chiar din datele obinute n
urma experimentului. Din aceast cauz, prezena unui rezultat aberant va
crete valoarea abaterii standard calculate.
Deoarece prezena unei valori aberante va crete att numrtorul
(valoare absolut a diferenei dintre medie i valoarea aberant), ct i
numitorul (abaterea standard a tuturor valorilor) n cazul formulei de mai
sus, valoarea lui Z nu poate fi mai mare dect (n 1)

, unde n numrul

de valori experimentale. De exemplu, dac n=5, Z nu poate fi mai mare


dect 1,789, pentru orice set de date experimentale.
Ca i n cazul altor teste statistice i pentru testul Grubbs au fost
calculate un set de valori critice pentru Z. Evident, valoarea critic va
crete cu mrimea eantionului (n), aa cum se poate vedea din tabelul
urmtor:
Tabel IV.1. Valoarile critice ale lui Z
n

Valoarea critic a lui Z

3
4
5
6
7
8

1.15
1.48
1.71
1.89
2.02
2.13

44

27
28
29
30
31
32

Valoarea critic a lui Z

2.86
2.88
2.89
2.91
2.92
2.94

Statistic inferenial
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26

2.21
2.29
2.34
2.41
2.46
2.51
2.55
2.59
2.62
2.65
2.68
2.71
2.73
2.76
2.78
2.8
2.82
2.84

33
34
35
36
37
38
39
40
50
60
70
80
90
100
110
120
130
140

2.95
2.97
2.98
2.99
3
3.01
3.03
3.04
3.13
3.2
3.26
3.31
3.35
3.38
3.42
3.44
3.47
3.49

Dac valoarea particular calculat pentru Z n cazul rezultatului


considerat aberant este mai mare dect valoarea critic din tabelul de mai
sus, atunci P este mai mic dect 0,05. Aceasta nseamn c exist mai puin
de 5% anse ca, datorit ntmplrii, s ntlnii o valoare aberant mai
ndeprtat de celelalte valori (n orice direcie), ct vreme datele provin
dintr-un eantion extras dintr-o populaie gaussian. n acest caz, dac
P<0,05, rezultatul poate fi considerat aberant i poate fi eliminat.
De remarcat faptul c testul Grubbs poate fi aplicat cu succes numai
la valorile extreme (n ambele sensuri) ntlnite n cazul eantionului studiat.
Exemplu:
A fost msurat greutatea a 15 indivizi aduli. Rezultatele
msurtorilor sunt cele din tabelul urmtor:

45

Noiuni fundamentale de biostatistic

Tabel IV.2. Rezultatele msurtorilor


Nr. crt.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

Greutatea (kg)
58
60
80
77
83
75
82
79
50
35
70
160
80
65
55

Media =73,93 kg
Abaterea standard = 27,59
n = 15

Aplicnd formula de calcul a lui Z pentru valoarea n12=160 kg


obinem Z =

73,93 160
27,59

86,07
= 3,12 , o valoare mai mare dect
27,59

valoarea critic pentru n=15, care este 2,55, deci P<0,05. n concluzie,
pentru eantionul studiat o valoarea greutii corporale de 160 kg poate fi
considerat rezultat aberant, putnd fi luat n calcul eliminarea acestuia.

46

Statistic inferenial

IV.1. 2. Criteriul de eliminare a lui Chauvenet


Se bazeaz pe considerentul c orice valoare a crei probabilitate de
apariie este mai mic dect o valoare limit care depinde de numrul n
de rezultate, trebuie eliminat. (Farmacopeea Romn ediia a X-a).
Pentru aplicarea acestui criteriu la eliminarea unor rezultate aberante
trebuie urmai paii de mai jos:
-

se calculeaz abaterea standard (S sau SD) a irului de valori,

conform formulei menionate n capitolele anterioare;


-

din tabelul de mai jos, se obine valoarea raportului x/s, n funcie de

numrul n de rezultate;
-

se nmulete valoarea acestui raport cu valoarea abaterii standard

(S), obinndu-se astfel valoarea x, care reprezint valoarea absolut


maxim pe care o poate avea di (unde di abaterea fa de medie,
d i = xi x ), pentru ca valoarea experimental respectiv s nu fie

eliminat. Orice valoare creia i corespunde o abatere fa de medie, n


mrime absolut, mai mare dect x (di > x), trebuie eliminat.
Dac printre valorile rmase dup aplicarea de eliminare se
consider, c mai exist o valoare ce ar trebui eliminat, se aplic criteriul
nc o dat. n general, se repet aplicarea criteriului de eliminare de cte ori
este necesar.
Tabelul IV.3. Valoarea raportului x/s folosit pentru criteriul de

eliminare

n
5

x/s
1,68

n
14

x/s
2,10

47

n
30

x/s
2,39

Noiuni fundamentale de biostatistic

1,73
1,79
1,86
1,92
1,96
2,03

6
7
8
9
10
12

16
18
20
22
24
26

2,16
2,20
2,24
2,28
2,31
2,35

2,50
2,58
2,80
3,02
3,29

40
50
100
200
500

Vom exemplifica aplicarea criteriului de eliminare n cazul unor


valori (xi) ale timpului de laten a instalrii efectului hipnotic n cazul
amobarbitalului:
Tabelul IV.4. Prima aplicare a criteriului de eliminare
Nr.
crt.
1

xi
(secunde)
16,1

15,5
13,4
22,8
12,1
11,3
11,6
6,3
8,8
7,1
xi = 125 ,00

2
3
4
5
6
7
8
9
10

di

d i2

3,6

12,96

3,0
0,9
10,3
-0,4
-1,2
-0,9
-6,2
-3,7
-5,4

9,00
0,81
106,09
0,16
1,44
0,81
38,44
13,69
29,16
2
d i = 212,56

s=

212 ,56
= 4 ,86
9

x/s = 1,96
x = 1,96 x 4,86 = 9,53

x = 12 ,5 (media aritmetica a rezultatelor)


Dup cum rezult din tabel, diferena di = 10,3, corespondena

valorii de 22,8 secunde depete valoarea maxim admis (x =9,53); prin


urmare, valoarea respectiv va trebui s fie eliminat din datele supuse
prelucrrii.

48

Statistic inferenial

Tabelul IV.5. A doua aplicare a criteriului de eliminare


Nr.
crt.
1

xi
(secunde)
16,1

d i2

4,7

22,09

16,81
4,00
0,49
0,01
0,04
26,01
6,76
18,49
d i2 = 94 ,70
x = 11,4 (media aritmetica a rezultatelor)

2
3
4
5
6
7
8
9

15,5
13,4
12,1
11,3
11,6
6,3
8,8
7,1
xi = 102 ,2

di

4,1
2,0
0,7
-0,1
0,2
-5,1
-2,6
-4,3

s=

94.7
= 3 ,4
8

x/s = 1,92
x = 1,92 x 3,4 =6,5

Aplicarea criteriului de eliminare a doua oar conduce la o valoare


maxim admis (x = 6,5) superioar oricrui di, deci nu va mai fi necesar
eliminarea nici unei valori.
Efectuarea unei analize, folosind un eantion adecvat, nu poate
conduce ns, de cele mai multe ori, la determinarea mediei adevrate a
populaiei statistice din care face parte acel eantion. n schimb se pot gsi,
cu o anumit probabilitate, limitele ntre care se afl valoarea medie
adevrat. n acest scop se calculeaz mai nti abaterea standard a medie
eantionului (Sx), conform formulei de mai jos:

Sx =

s
n

(IV.2)

n continuare, intervalul de ncredere al mediei (J) se stabilete


pentru o probabilitate de eroare dorit, de obicei 5% (altfel spus p= 0,05)

49

Noiuni fundamentale de biostatistic

folosind valoarea t Student, a crei valori corespunztoare gradelor de


libertate ale determinrii, pentru p = 0,05, sunt date n tabelul din Anexa 1:
Se aplic formula:
J = x t S x (IV.3)

Gradele de libertate

sunt reprezentate de numrul mrimilor

independente ale determinrii. n cazul de fa, gradele de libertate se


calculeaz scznd din numrul total de valori (xi) cifra 1 (numrul de
loturi).

IV.2. Teste de concordan (Goodness-Of-Fit)

Noiuni introductive
n spe, mai ales n domeniul biostatisticii, suntem n primul rnd
interesai dac distribuia de frecven a populaiei din care sunt prelevate
eantioanele analizate de noi urmeaz sau nu modelul ideal al unei
distribuii normale (distribuie Gaussian).
Ce nelegem prin distribuie Gaussian ?

Aa cum am artat i n capitolele anterioare, chiar dac o


multitudine de factori aleatori acioneaz n mod convergent, crend
variabilitate, de cele mai multe ori distribuia de frecven a datelor
investigate urmeaz mai mult sau mai puin o aa-numit distribuie n
form de clopot, numit distribuie normal sau distribuie Gaussian.

50

Statistic inferenial

Acest tip de distribuie are o serie de proprieti matematice


speciale ce stau la baza marii majoriti a celor mai utilizate teste statistice
(aa-numitele teste statistice parametrice testul t, testul F, testul CHI2 etc).
Chiar dac - n general datele colectate de noi n urma investigrii
unui eantion extras din populaia statistic studiat nu urmeaz acest model
matematic ideal, de cele mai multe ori aceste date urmeaz o distribuie ce
este aproximativ Gaussian.
Distribuia Gaussian (normal) joac un rol central n analiza
statistic datorit unei legiti matematice cunoscute ca Teorema Limitei
Centrale (Central Limit Theorem).
La modul intuitiv, putem afirma c aceast teorem statueaz c
dac o serie de variabile msurate au o varian finit, atunci distribuia de
frecven a acestor variabile poate fi aproximat ca fiind o distribuie
normal (Gaussian).
Cu alte cuvinte, conform acestei teoreme, putem afirma c dac
eantioanele studiate sunt suficient de mari, distribuia de frecven n jurul
mediilor acestor eantioane va urma modelul unei distribuii gaussiene,
chiar dac n sine populaia statistic din care au fost prelevate aceste
eantioane nu este Gaussian.
De vreme ce mai multe teste statistice (de exemplu testul t sau
analiza de varian - ANOVA) sunt teste ce cuantific existena unor
diferene ntre medii, Teorema Limitei Centrale permite acestor teste s
furnizeze rezultate pertinente, chiar dac populaiile statistice din care
provin eantioanele studiate nu sunt Gaussiene.

51

Noiuni fundamentale de biostatistic

Condiia necesar i suficient este ca eantioanele respective s fie


suficient de mari ! Ct de mari anume ? Din nefericire, acest lucru depinde,
n spe, de ct de diferit este distribuia populaiei studiate de distribuia
Gaussian.
La modul general, testele de concordan sunt teste ce se permit
luarea unei decizii asupra faptului c un eantion provine sau nu dintr-o
populaie statistic ce se supune unui anumit tip de distribuie de frecven.
n cazul biostatisticii, principala utilizare a unor astfel de teste const
n verificarea faptului c eantioanele studiate sunt prelevate dintr-o
populaie statistic ce se supune sau nu legilor unei distribuii normale
(Gaussiene).
Exist mai multe astfel de teste de concordan:

Testul de concordan Kolmogorov-Smirnov

Testul de concordan Anderson-Darling

Testul de concordan Chi-Square

Testul de normalitate Shapiro-Wilk etc

Deoarece multe dintre programele de analiz statistic utilizeaz


numai unul sau dou dintre aceste teste (n general testul KolmogorovSmirnov) ne vom referi n continuare la acesta.

IV.2.1. Testul de concordan Kolmogorov-Smirnov


Testul Kolmogorov-Smirnov (Chakravart, Laha and Roy, 1967) este
folosit pentru a decide dac un anumit eantion provine dintr-o populaie
statistic ce se supune unui anumit tip de distribuie de frecven.

52

Statistic inferenial

Testul Kolmogorov-Smirnov (K-S) se bazeaz pe aa-numita funcie


cumulativ de distribuie empiric (ECDF - The Empirical Cumulative
Distribution Function).
Fiind dat un numr N de puncte Y1, Y2, ..., YN, ECDF poate fi
definit ca

E N = n(i ) N (IV.4)
unde n(i) este numrul de puncte mai mici dect Yi, puncteleY1i fiind
ordonate n ordine cresctoare, de la cea mai mic la cea mai mare valoare.
Graficul de mai jos reprezint funcia de distribuie empiric pentru
o distribuie normal cumulativ n cazul a 100 de numere generate aleator.
Testul Kolmogorov-Smirnov (K-S) se bazeaz pe estimarea maximului
distanelor dintre cele dou curbe.

Figura IV.1. Funcia de distribuie empiric pentru o distribuie normal


cumulativ n cazul a 100 de numere generate aleator

53

Noiuni fundamentale de biostatistic

Aplicarea testului Kolmogorov-Smirnov, presupune urmtorii pai:


Datele studiate urmeaz distribuia specificat (n
cazul nostru distribuia Gaussian)
Datele studiate NU urmeaz distribuia specificat
Ipoteza
(n cazul nostru distribuia Gaussian)
alternativ, H1
Statistica
i 1 i

D = max F (Y i )
, F (Y i ) , unde F este
testului
1i N
N N

funcia cumulativ de distribuie teoretic a distribuiei


testate ( este necesar s fie o distribuie continu, testul
neputndu-se aplica n cazul distribuiilor discrete
cum este distribuia binomial sau distribuia Poisson),
tipul distribuiei testate trebuind s fie clar specificat.
Pragul
de
semnificaie
Valori critice
Ipoteza H0 este respins dac Dcalculat are o valoare
mai mare dect o valoare critic obinut din
tabele.
Deoarece exist o serie de variaii ale tabelelor cu
valori critice pentru acest test n datele din literatur,
am preferat s nu furnizm un astfel de tabel n
anexele crii, cu att mai mult cu ct programele de
analiz statistic ce efectueaz acest test (cum este
GraphPad Instat) furnizeaz valorile critice relevante
la un anumit prag de semnificaie.
Ipoteza nul, H0

54

Statistic inferenial

Figura IV.2. Testul Kolmogorov-Smirnov, aplicat n programul GraphPad


Instat

IV. 3. Teste de semnificaie

n general, dup calcularea rezultatelor unor determinri biologice


este necesar s se decid dac diferenele obinute de pild ntre mediile sau
medianele eantioanelor analizate sunt datorate numai ntmplrii (de
exemplu variabilitii biologice) sau sunt diferene reale (cu alte cuvinte
dac cele dou eantioane fac parte din aceeai populaie statistic sau
aparin unor populaii statistice diferite).
Pentru a putea face aceasta este necesar nelegerea corect a unor
noiuni fundamentale din domeniul statisticii, cum ar fi valoarea lui P,

55

Noiuni fundamentale de biostatistic

formularea ipotezei nule (H0) sau existena unor dependene ntre


eantioane (date pereche/nepereche).

Valoarea lui P.
n cazul unui experiment efectuat asupra a dou eantioane, o
ntrebare pertitent pe care am putea s o punem este urmtoarea:
Dac cele dou populaii statistice studiate chiar au aceeai
medie (sau media nu difer semnificativ), care este probabilitatea de a
observa o aceeai diferen sau chiar una mai mare ntre mediile unor
eantioane de aceeai mrime ntr-un viitor experiment ?

Parametrul statistic ce rspunde la aceast ntrebare este valoarea lui


P.
P este de fapt o msur a probabilitii menionate mai sus, putnd

lua valori ntre 0 i 1.


Dac valoarea P este mic (de exemplu P<0,05) putem concluziona
c este improbabil ca diferena observat ntre mediile celor dou eantioane
s se datoreze ansei (eantionrii aleatorii). Cu alte cuvinte, putem trage
concluzia c cele dou populaii studiate au ntr-adevr medii diferite.

Ipoteza nul (H0).


Cnd specialitii n statistic fac referire la valoarea lui P n cazul
aplicrii unor teste statistice, folosesc totodat i termenul de ipotez nul
(notat cu H0).

Ipoteza nul statueaz pur i simplu, aprioric, faptul c nu exist nici


o diferen ntre grupurile (eantioanele) studiate.
56

Statistic inferenial

Simultan se formuleaz i o ipotez alternativ (notat cu Ha sau


H1), ce statueaz exact contrariul: c exist o diferen ntre grupurile

(eantioanele) studiate.

Pornind de la acest fapt, putem defini valoarea lui P ca fiind


probabilitatea de a observa (ntr-un viitor experiment) o aceeai diferen
sau chiar una mai mare ntre dou eantioane aleatorii prelevate din cele

dou populaii statistice studiate, dect am observat n acest moment, n


cazul n care ipoteza nul s-ar fi dovedit adevrat.
Este relativ uor s interpretm greit valoarea lui P n contextul
aceeptrii sau respingerii ipotezei nule. [instat].

S lum un exemplu: n urma aplicrii unui test statistic pentru


compararea mediilor a dou eantioane prelevate aleator din dou populaii
statistice am obinut o valoare P=0,03.
n acest moment am fi tentai s tragem concluzia facil c exist
97% anse ca diferena observat s reflecte o diferen real ntre
populaiile studiate, respectiv 3% anse ca diferen s se datoreze
ntmplrii. O astfel de interpretarea este ns greit !

Ceea ce putem afirma cu adevrat este faptul c n cazul unor


experimente viitoare, n urma prelevrii unor eantioane aleatoare din
populaiile respective vom obine o diferen mai mic dect cea constatat
acum ntre populaiile studiate n 97 % din cazuri, respectiv o diferen mai
mare n cel mult 3% din experimente.
n general n cazul testelor statistice, o valoare a lui P>0,05 duce
la acceptarea ipotezei nule H0, respectiv o valoare a lui P<0,05

57

Noiuni fundamentale de biostatistic

determin respingerea ipotezei nule i acceptarea ipotezei alternative


Ha.

Dependena/independena eantioanelor studiate (date


pereche/nepereche paired/unpaired data)
Anumite teste statistice despre care vom discuta n paginile
urmtoare, in cont de modul n care eantioanele studiate sunt dependente
sau nu unul de cellalt, existnd fie versiuni speciale ale testului pentu date
pereche/nepereche (cum este cazul testului t), fie testul este recomandat
pentru date nepereche testul Mann-Whitney, respectiv date pereche
testul Wilcoxon.
Una dintre principalele problem rezid din modul n care datele
sunt grupate: avem de-a face cu un experiment cu date pereche sau
nepereche (paired unpaired n englez) ?
Putem vorbi despre date pereche, atunci cnd experimentul are
urmtorul design:

Este msurat o variabil nainte i dup o intervenie asupra


aceluiai subiect

Se efectueaz un experiment de laborator de mai multe ori, de


fiecare

dat

efectund

paralel

determinri

asupra

preparatului studiat, respectiv asupra controlului

Subiecii experimentului au fost recrutai ca perechi pe baza


unor criterii cum ar fi vrsta, rasa sau gravitatea bolii

58

Statistic inferenial

Sunt msurai anumii parametrii n cazul gemenilor sau a


unor perechi de genul printe/copil etc

La modul general, putem considera datele ca fiind pereche


(eantioane dependente), dac ne ateptm ca o fiecare valoare dintr-un
eantion s fie corelat cu o valoare particular din cellalt eantion. Evident
potrivirea NU trebuie s aib loc pe baza variabilei studiate. De exemplu
dac vom compara tensiunea arterial ntre dou grupuri, vom ordona
eantioanele, potrivindu-le pe baza vrstei pacienilor, de exemplu, i nu
pe baza valorilor tensiunii arteriale !

Statistic parametric/neparametric
n practic ntlnim dou situaii, pe care le vom aborda diferit:

1. Dac rezultatele se ncadreaz ntr-o distribuie normal i dac cele


dou eantioane nu exist alt diferen semnificativ (diferene de vrst,
sex, mas corporal etc.) n afar de tratamentul aplicat se consider c
abaterile standard ale celor dou loturi nu difer semnificativ. n acest caz se
poate testa semnificaia statistic a diferenei mediilor cu ajutorul mai
multor teste, dintre care cel mai folosit este testul t Student.
2. Dac rezultatele nu se ncadreaz ntr-o distribuie normal sau nu
poate fi testat normalitatea distribuiei datelor experimentale, datorit
numrului mic de date colecate (existena unor eantioane mici) este indicat
s se aplice un test neparametric, cele mai des utilizate fiind testul Wilcoxon,
respectiv testul U Mann-Whitney.

59

Noiuni fundamentale de biostatistic

IV.3.1. Teste de semnificaie parametrice


Este cunoscut faptul c majoritatea efectelor farmacodinamice
obinute prin administrarea substanelor active se pot ncadra n urmtoarele
dou categorii:
i. Efecte gradate, care variaz n funcie de doz sau, altfel spus, unde
relaia dintre doz i efect este gradat. Aceste efecte nu se mai numesc

cantitative.
ii. Efecte unice (cuantale) exprimate printr-un cuantum (proces) sau
efecte cu rspuns unic, de tipul tot sau nimic. Se mai numesc i efecte
calitative.
Testele de semnificaie se mpart datorit acestui fapt n:
A. Teste de semnificaie pentru efecte gradate (de exemplu testul

t, testul F, testul U).


B. Teste de semnificaie pentru efecte cuantale (de exemplu testul

X2).
A.Teste de semnificaie pentru efecte gradate

Testele de semnificaie aplicate ntre dou medii, stabilesc valoare


mediilor n funcie de posibilitile de eroare.
Mai precis ele stabilesc care este probabilitatea ca diferena dintre
dou efecte (dou medii) s fie real sau, eventual, s se datoreze unei
fluctuaii de eantionaj.

60

Statistic inferenial

n fapt, se testeaz ipoteza nul ce statueaz faptul c nu exist nici o


diferen ntre cele dou medii. Dac aceast afirmaie nu se verific,
nseamn c diferena ntre cele dou medii este semnificativ statistic,
putndu-se deci susine existena unui rezultat diferit de cel datorat
ntmplrii (cu alte cuvinte existena unui efect biologic al substanei
cercetate).
Calculele se efectueaz, de obicei, la un prag de semnificaie p=0,05,
ce acoper deci 95% din cazuri, dup legile distribuiei normale. Dac se
consider necesar, se poate lucra i cu un prag mai mic de semnificaie (de
exemplu p =0,01, adic 99%), fapt care permite o siguran mai bun din
punct de vedere statistic.
A.1.1. Testul F Fischer - Snedecor

Testul propus de Snedecor, ia n considerare varianele de


eantionaj.
Pentru a transforma varianele n mrimi apte de a fi comparate, de
exemplu n cazul efectului farmacologic a dou forme farmaceutice
coninnd aceeai substan activ, un instrument statistic eficient este testul
F.
Formulele practice de calcul, obinute prin transformri algebrice,
sunt urmtoarele:
2

S12 =

x1

( x1 )2

n1
n1 1

x2

(IV.5)

S 22 =

61

( x 2 )2

n2 1
(IV.6)
n2 1

Noiuni fundamentale de biostatistic

F=

S12
S 22

(IV.7), unde S12 > S 22

Exemplu: Vom ncerca s aflm, folosind testul F, dac exist o


diferen semnificativ ntre variana n jurul a dou medii x1 i x 2 ,
provenite dintr-o determinare comparativ a dou produse farmaceutice A i
B. Rezultatele obinute sunt trecute n tabelul de mai jos:
Tabel IV.5. Rezultate obinute pentru dou produse farmaceutice A i B

Efect A

x12

Efecte B

x 22

36

15

225

16

16

10

100

49

10

100

36

25

16

11

121

81

n1=6

n2=7

x 1 = 30

x 2 = 64

x 1 = 5,0

x 2 = 9,1

x 1 = 162

S12

x 2 = 668

162 (30) 2 / 6 162 150


=
= 2,4
6 1
5

S 22 =

S 2 13,8
668 (64) 2 / 7 668 585
=
= 13.8 deci F = 12 =
= 5,75
2,4
7 1
6
S
62

Statistic inferenial

Comparm valoare obinut de noi cu cea din tabelul Anexei 5,


innd cont de gradele de libertate. Pentru p = 0,05 gsim valoare 4,95.
Deoarece valoarea gsit de noi este mai mare dect cea teoretic, nseamn
c exist o diferen statistic semnificativ ntre variana n jurul celor dou
medii obinute experimental.
A.1.2. Testul t Student

A fost propus de Gosset n cazul n care eantioanele sunt mici. El


ine cont, n calculul diferenei semnificative dintre medii, de msura
variabilitii i de ponderea observaiilor n funcie de numrul acestora
(grade de libertate).
Exist 3 variante ale testului testul t implementate n diferite
versiuni ale unor programe de analiz statistic:
i. Testul t pentru date pereche (eantioane dependente)
ii. Testul t pentru date nepereche (eantioane independente) ce au

varian egal (homoscedatic)


iii. Testul t pentru date nepereche (eantioane independente) ce au

varian inegal (heteroscedatic)


Pentru eantioane mici exist diferene ntre testul t i celelalte
teste de semnificaie parametrice, dar ncepnd de la n > 15 cifrele testului
t se apropie de 2, ceea ce arat o coinciden cu distribuia normal.
Formulele de calcul a diferenei semnificative, n cazul testului t
sunt urmtoarele:

63

Noiuni fundamentale de biostatistic

t=

x1 x 2
n1 n2

Sd
n1 + n2

(IV.8), unde

x1 , x 2

= media rezultatelor

eantionului 1, respectiv 2
n1, n2 = numrul de animale din eantionul 1, respectiv 2.
sd = eroarea standard a diferenei, care se calculeaz conform
formulei:
sd =

d 12 + d 22
n1 + n2 2

(IV.9)

unde:

d 12 , d 22 = (x1 x )2

n eantioanele 1, respectiv 2.
xi - valorile individuale n eantioanele

1 i 2.
Dac nlocuim n formula (IV.8) valoarea erorii standard conform
formulei (IV.9), obinem:
t=

x1 x 2

d 12 + d 22

n1 n2
(IV.10)
n1 + n2

n1 + n2 2

Se consider o diferen semnificativ, cu o probabilitate de eroare


de 5% (p=0,05) dac t calculat este superior celui din tabelul A, pentru
gradele de libertate corespunztoare.
n cazul n care cele dou eantioane sunt egale numeric (n1=n2),
putem reprezenta acest numr egal de cazuri prin n (n=n1=n2) i formula
(IV.10) devine:

64

Statistic inferenial

t=

x1 x 2

d 12

n(n 1)

d 22

(IV.11)

Acelai test se poate folosi i n cazul n care condiiile


experimentale permit administrarea concomitent a ambelor tratamente la
acelai animal. n aceast situaie putem admite c rspunsurile obinute la
acelai animal sunt rezultatul exclusiv al diferenelor ntre aciunea
substanelor testate, restul condiiilor fiind identice. Aceasta ne permite s
scdem unul din altul cele dou rezultate, obinute la acelai animal i s
testm semnificaia diferenelor (di) astfel calculate (metoda poart numele
de metoda cuplurilor); aplic formula:

t=

(d 1 d 2 )

(IV.12)

n(n 1)

unde: di = valorile individuale ale diferenelor fiecrui cuplu


n

d =

di
i

(IV.13)

Pentru o mai bun nelegere vom lua un exemplu. S presupunem


c n tabelul de mai jos se gsesc rezultatele obinute la acelai animal dup
administrarea standardului (s) i a probei (p), precum i diferena dintre
aceste rezultate (di = p-s):

65

Noiuni fundamentale de biostatistic

Tabelul IV.6. Rezultate experimentale

Nr.crt.

di

d1 d

(d 1 d )2

1.

24

35

11

2.

20

10

-10

-19

361

3.

18

36

18

81

4.

45

50

-4

16

5.

60

74

14

25

6.

72

65

-7

-16

256

7.

65

70

-4

16

8.

54

90

36

27

729

= 1488

d1 = 9

d 1 = 72

(d 1 d )

t=

9
1488
7 8

= 1.74

Aplicnd formula (4.2.5.) se obine un t = 1,74, mai mic dect


valoarea t =2,37 care este dat n tabele pentru 7 grade de libertate i o
probabilitate de eroare de 5% (p = 0,05). Aceasta arat c efectul probei
aflate n studiu nu difer semnificativ fa de standard.

66

Statistic inferenial

B.Teste de semnificaie pentru efecte cuantale


2
2
B.1.1. Testul (Chi )

n cazul determinrilor cuantale comparative, pentru a calcula


diferena semnificativ ntre dou activiti (probe) exprimate n procente,
sau pentru a stabili dac exist o anumit concordan sau discordan ntre
frecvenele ateptate (teoretice) i cele observate (experimentale, empirice)
sau, alte cuvinte legtura existent sau inexitent nttre o repartiie teoretic
i o repartiie experimental se folosete indicele 2 , propus pentru prima
dat de Helmert i Pearson.
Testul 2 , spre deosebire de alte teste aplicate n cazul rspunsurilor
biologice cuantale, ia n considerare i ali factori dect abaterea standard a
procentelor, i anume numrul cazurilor, gradele de libertate, frecvenele
teoretice i frecvenele experimentale.
Legtura funcional este definit de concordana sau neconcordana
dintre ipoteza de lucru (efecte teoretice) i rezultatele experimentale
(empirice), gradul de legtur putndu-se msura prin stabilirea frecvenei
asociaiei n comparaie cu numrul cazurilor examinate, lucru care se poate
exprima matematic prin raportul asociaiei Muster:
Rm=

Nr. cazurilor de asociere


Nr. indivizilor examinai

(IV.14)

Legtura funcional dintre rezultatele teoretice (ateptate) i


rezultatele experimentale ar putea fi aflat din nsumarea diferenelor ntre

67

Noiuni fundamentale de biostatistic

frecvenele teoretice i cele experimentale. Relaia care exprim matematic


acest lucru este urmtoarea:
di

= f teor. f exp . (IV.15)

Frecvena teoretic total poate fi egal cu frecvena empiric total,


iar diferenele pozitive se pot compensa cu cele negative, de aceea n calcul
vom folosi ptratele acestor diferene, ceea ce duce la relaia:

=
2

(f

f exp . )

teor .

f teor .

(IV.16)

n cazul concordanei perfecte ntre teorie i observaie 2 = 0.


Practic formula de calcul a lui 2 este cea de mai jos:
2 =

ee e t
(IV.17) unde
et

ee = efectul observat experimental


et = efectul teoretic (ateptat)

Testul 2 se aplic:
-

frecvenelor absolute (numere, efecte de diverse categorii)

frecvenelor relative (procentaje)

Trebuie menionat ns faptul c nu putem folosi acest test dect


dac efectele studiate au frecvene de apariie mai mari de 10.
n determinrile biologice testul 2 poate fi folosit ca test de
semnificaie n cazul rspunsurilor unice, cu ajutorul lui putndu-se aprecia
dac exist o diferen semnificativ ntre dou distribuii (una teoretic i
alta experimental).

68

Statistic inferenial

Pentru a compara o repartiie observat fa de o repartiie teoretic a


unui caracter calitativ cu N clase, aplicm formula de mai sus i cutm
probabilitatea corespunztoare la N-1.
Testul este cu att mai semnificativ cu ct valoarea P gsit este mai
mic i 2 calculat mai mare.
S lum un exemplu:
Administrnd o doz egal cu DL50 la 40 de oareci, se obine un
efect de 30 de animale moarte i 10 animale supravieuitoare. Am obinut
deci un procent de mortalitate de 75% fa de 50% ct era de ateptat.
Dorim s aflm dac acest rezultat experimental difer semnificativ de cel
teoretic (50% mortalitate) sau se datorete doar unei fluctuaii de eantionaj.
Vom aplica formula de mai sus. n cazul nostru et = 20. n urma
experimentului au murit 30 de aoreci, deci ee = 30. Rezultatele
experimentului se trec, de obicei ntr-un tabel de forma:
Tabel IV.6. Rezultatele experimentului
Mori

Supravieuitori

Total

Teoretic (et)

20

20

40

50

Experimental

30

10

40

75

10

-10

(ee)
ee-et

Introducnd datele n formula de calcul obinem:

(
30 20)2 (10 20)2
=
+
20

20

10 2 ( 10 )2
=
+
= 5 + 5 = 10,0
20
20

69

Noiuni fundamentale de biostatistic

n cadrul experimentului exist dou posibiliti de evoluie, animale


moarte sau supravieuitoare, deci N=2, iar N-1=1. deci numrul de grade de
libertate pentru care vom cuta n tabelul din Anexa 7 va fi egal cu 1. Vom
constata c valoarea lui 2 obinut de noi corespunde, pentru N=1, unei
valori p=0,001, deci rezultatul obinut n urma experimentului difer
semnificativ de cel estimat teoretic.
n cazul nostru putem interpreta rezultatul obinut ca fiind datorat
unei toxiciti crescute a produsului fa de cea ateptat teoretic (am putea
presupune, de exemplu, o descompunere a substanei active cu formarea
unor produi cu toxicitate crescut: urmeaz s stabilim prin cercetri
ulterioare care este adevrata cauz a creterii toxicitii compusului,
cretere stabilit tiinific cu ajutorul testului 2 ).
n cazul comparaiei a dou procentaje, formula de calcul se bazeaz
pe coeficientul de asociaie Q a lui Yule. S o aplicm n cazul a dou
produse A i B, cu cte dou variabile a, respectiv b. Cifrele romane arat
frecvenele absolute ale acestor variabile:
Q=

I III II IV
(IV.18)
I III + II IV

Datele pot fi grupate ntr-un tabel sinoptic ca cel de mai jos:


Tabel IV.7. Tabel sinoptic
a

II

IV

III

70

Statistic inferenial

Dac lum un numr M de cazuri (de exemplu un experiment ce


folosete M animale), formula de mai sus poate fi scris:
2 =

[(I III II IV) M / 2]2 M


(I + II)(III + IV)(I + IV)(II + III)

(IV.19)

S ncercm determinarea cu ajutorul testului 2 , a activitii unui


produs n comparaie cu un produs martor, urmrindu-se supravieuirea
animalelor. S presupunem c, n urma experimentrii, am obinut
rezultatele de mai jos:
Tabel IV.8. Tabel sintetic cu rezultatele experimentului

Compus de
cercetat
Compus
martor
Total

Supravieuitori

Mori

Total

I=25

II = 14

I + II = 39

IV = 21

III = 22

I + IV = 46

II + III = 36

IV + III =
43
M = 82

%
supravieuitori

64%
49%
-

Practic va trebui s determinm dac procentul de supravieuitori de


64%, gsit n cazul compusului cercetat, difer semnificativ statistic de
procentul de supravieuitori gsit n cazul compusului martor (49%), practic
dac compusul studiat este mai puin toxic dect martorul. Introducem
datele din tabel n formula lui Yule.

[
(
25 22 14 21) 82 / 2]2 82
=
39 43 46 36

71

Noiuni fundamentale de biostatistic

Deoarece avem din nou numai dou posibiliti, animale moarte sau
supravieuitoare, vom avea N=2, respectiv N-1=1 grad de libertate. Din
tabelul Anexei 7 putem constata c statisticul lui CHI2 corespunde unei
valori p=0,20, statistic nesemnificativ. Putem afirma deci c produsul
studiat nu este mai puin toxic dect martorul, diferena dintre procentajele
obinute datorndu-se fluctuaiilor de eantionaj.

IV.3.2. Teste de semnificaie neparametrice. Statistica


ordinei.
Dac rezultatele experimentelor nu se ncadreaz ntr-o distribuie
normal sau volumul eantioanelor extrase din populaia statistic este mic,
este indicat recurgerea la un test de semnificaie neparametric. Astfel de
teste fac obiectul unei ramuri a statisticii numit i statistica ordinei, la care
studiaz sistemele de valori observate ale variabilelor aleatoare, din punctul
de vedere al relaiilor de ordine. Un mare avantaj al acestor metode l
constituie, cum am mai spus, faptul c rezultatele ce se obin nu depind de
natura repartiiei variabilei aleatoare studiate. Ele se numesc neparametrice,
deoarece verificarea unei ipoteze nu este legat de parametrul unei anumite
repartiii.

Testul Wilcoxon
Este unul dintre cele mai utilizat teste de semnificaie neparametrice,
extrem de util mai ales n cazul eantioanelor dependente (date pereche paired data).

72

Statistic inferenial

Aplicarea lui la studiul a dou eantioane, pentru a verifica dac


acestea difer semnificativ sau nu (i, n ultim instan dac provin sau nu
din aceeai populaie statistic), presupune parcurgerea urmtorilor pai:
1. Se aeaz valorile n (n = n1 + n2) n ordine cresctoare, fcnd
abstracie de eantioanele din care provin. Se atribuie apoi fiecrei

valori un rang de ordine cresctoare ncepnd cu 1. Dac exist


valori egale, acestora li se atribuie ranguri egale cu media
aritmetic a rangurilor pe care le-ar fi avut dac aceste valori ar fi
fost distincte.
2. Se formeaz un tabel n care se specific, n ordine cresctoare,
valorile obinute la fiecare eantion i se reine, notnd cu S, una
din cele dou sume.
3. Folosind tabelul (testul Wilcoxon, p =0,95) de mai jos, se
procedeaz astfel:
Dac S este situat n afara intervalului din tabel, care se gsete la
intersecia coloanei (n1) i a liniei (n2) se poate afirma c, la pragul de
semnificaie =0,05 (sau altfel spus p = 0,05), cele dou eantioane difer.
n caz contrar este justificat s se afirme c cele dou eantioane nu difer
semnificativ statistic.
Tabel IV.9. Valori critice, testul l Wilcoxon ( = 0,05)
n1

10

11-26

17-33

24-42

32-52

41-63

51-75

62-88

12-28

19-36

26-46

34-57

44-68

54-81

66-94

73

Noiuni fundamentale de biostatistic

n2

13-31

20-40

28-50

36-62

46-74

57-87

69-

14-34

21-44

29-55

39-66

49-79

60-93

101

15-37

23-47

31-59

41-71

51-85

63-99

72-

16-40

24-51

33-63

43-76

54-90

66-

108

10

17-43

26-54

35-67

45-81

56-96

105

75-

11

18-46

27-58

37-71

47-86

59-

69-

115

12

19-49

28-62

38-76

49-91

101

111

79-

13

20-52

30-65

40-80

52-95

62-

72-

121

14

21-55

31-69

42-84

54-

106

117

82-

100

64-

75-

128

112

123

86-

67-

78-

134

117

129

89-

81-

141

135

92148
96154

Exemplu. Se ia un lot martor format din n1=10 oareci i un lot

tratat, format din n2=9 oareci. Ca analgezic se folosete metamizol sodic


(5mg/kg.corp), iar ca stimul chimic se folosete acid acetic 0,6% (1 ml / 10
g mas corporal). Se nregistreaz numrul de contorsiuni, rezultatele fiind
trecute n tabelul de mai jos:

74

Statistic inferenial

Tabelul IV.10. Rezultatele experimentale. Testul Wilcoxon


Lot martor

Lot tratat

Ranguri

lot Ranguri

tratat

martor

20

21

22

27

27

4,5

4,5

29

6,5

-*

29

6,5

31

31

8,5

8,5

34

34

10,5

10,5

35

12

36

13,5

36

13,5

37

15

47

16

51

17

54

18

55

19

S1 = 67,5

S2 = 122,5

lot

n tabelul de mai sus, pentru n1=10 i n2=9, corespunde intervalul 79121. Deoarece S2=122,5 este situat n afara acestui interval, se poate afirma
c p<0,05, deci cele dou eantioane studiate difer semnificativ statistic.

75

Noiuni fundamentale de biostatistic

n concluzie, aciunea analgezic a metamizolului s-a manifestat la


doza de 5 mg/kg.corp.
Ca o observaie trebuie menionat c valorile fracionare aprute n
coloanele rangurilor (de exemplu 4,5; 6,5; 8,5; 10,5; 13,5), rezult din media
rangurilor pe care le-ar fi avut valorile n primele dou coloane, dac ele ar
fi fost distincte (de exemplu 4,5 = (4+5)/2).
Aplicarea testului Wilcoxon este util n special n cazul existenei a
dou eantioane dependente (date pereche), n contextul n care s-a
demonstrat faptul c distribuia de frecven nu este Gaussian.

Testul Mann-Whitney U
Testul Mann-Whitney U (MWU) este cel mai utilizat test de
semnificaie neparametric pentru compararea (medianelor) a dou
eantioane independente ce conin msurtori ale unor date experimentale,

ranguri sau scoruri. De pild, n cazul existenei unor ranguri sau scoruri,
testul MWU verific dac scorurile respective sunt aleator distribuite ntre
cele dou eantioane.
Modul de calcul n cazul testului Mann-Whitney U.
S considerm dou eantioane independente A i B, fiecare avnd
mrimea eantionului n1, n2=8, pentru care studiul acord o serie de scoruri
(ranguri) de la 1 la 14 (variabile ordinale).
Tabel IV.11. Rezultatele experimentale
Nr.crt.
1
2
3

Scor pentru A
1
3
5
76

Scor pentru B
1
2
4

Statistic inferenial

4
5
6
7
8

5
6
8
9
10

7
9
11
12
14

n tabelul de mai jos avem deja listai subiecii din ambele


eantioane mpreun, n ordinea scorului acordat:
Tabel IV.12. Rezultate experimentale, subiecii din ambele eantioane, n

ordinea scorului acordat


Scorul acordat
Eantionul

1 1
A B

2
B

3
A

4
B

5
A

5
A

6
A

7
B

8
A

9
A

9
B

10
A

11
B

12
B

14
B

Vom calcula urmtoarele mrimi:


Ua = numrul de A (membrii ai eantionului A) ce preced n

tabelul cu scoruri primul B (membru al eantionului B ) + numrul de A


de la nceputul tabelului ce preced n tabelul cu scoruri cel de-al doilea B +
+ numrul de A de la nceputul tabelului ce preced n tabelul cu scoruri
ultimul B
Pentru datele din tabelul de mai sus,
Ua= 1 + 1 + 2 + 5 + 7 + 8 + 8 + 8 = 40

Similar putem calcula Ub. Pentru cazul luat n calcul


Ub= 0 + 2 + 3 + 3 + 3 + 4 + 4 + 5 = 24

De remarcat faptul c Ub putea fi calculat i cu formula Ub= (n1* n2)


- Ua.
Ub=(8*8)-40=24

Vom considera statisticul testului U ca fiind cea mai mic dintre


valorile lui Ua sau Ub. n cazul nostru deci, U=24. n tabelul cu probabiliti
77

Noiuni fundamentale de biostatistic

pentru testul Mann-Whitney U vom gsi pentru n1 = 8, n2 = 8, respectiv


U=24 un P de 0,494, considerat nesemnficativ statistic.
Evident, majoritatea programelor de analiz statistic ne vor furniza
direct valoarea lui U, respectiv valoarea lui P.

78

Analiza ANOVA

Capitolul V
V. Analiza dispersional (analiza de varian) ANOVA
[12, 13]

A. Baze teoretice

Dup cum se tie procesele biologice se pot afla, la un moment dat,


sub influena mai multor factori, cu aciune concomitent. Pentru a pune n
eviden n ce msur unul sau mai muli factori (sdau chiar o combinaie a
acestora) influeneaz n mod esenial asupra unei caracteristici rezultative
se utilizeaz analiza dispersional.
Analiza dispersional, cunoscut i sub denumirea de analiz de
varian (Anova), a fost introdus de statisticianul R.A. Fisher. Prin aceast

metod se verific msura n care valorile reale ale unei caracteristici se abat
de la valorile teoretice, calculate, de regul, sub forma unor mrimi medii
sau ecuaii de regresie, precum i msura n care aceste variaii sunt
dependente sau nu de factorul de grupare.
Pe baza interpretrii logice a variaiei celor dou sau mai multe
variabile luate n studiu se pot stabili relaii de tipul cauz efect. Uneori
prin analiza dispersional trebuie s fie verificat dependena variabilei
rezultative (z) de factorul (factorii) de grupare, ea putnd fi considerat, n
acest caz, ca o metod auxiliar, utilizat nainte i dup aplicarea metodelor
corelaiei i regresiei statistice. Dac, ns, trebuie verificat independena
variabilei rezultative de o variabil de sistematizare a datelor, atunci analiza

79

Noiuni fundamentale de biostatistic

dispersional poate fi considerat ca o metod independent, ce duce la


concluzii de sine stttoare.
Analiza dispersional are la baz metoda gruprii. Prin aceasta se
separ influena asupra caracteristicii rezultative a factorilor nregistrai ca
eseniali (determinani) de influena factorilor ntmpltori (accidentali).

n funcie de numrul factorilor (unu, doi sau mai muli) care


influeneaz asupra variaiei caracteristicii rezultative, avem modele de
analiz dispersional unifactorila, bifactorial sau multifactoril.

Modelul de analiz dispersional are la baz ipoteza c mediile


condiionate de factorul de grupare y i , reprezint valorile tipice care se
formeaz la nivelul fiecrei grupe, n timp de media general y
valoarea tipic

este

pentru ntreaga colectivitate statistic. Msura n care

valorile individuale se abat de la aceste valori tipice reprezint rezultatul


modului de asociere a factorilor care determin variaia caracteristicii y.
Se tie c dispersia teoretic (general ) 02 se poate estima cu ajutorul
funciei de selecie:

1
y ij y
n 1

)2 = S2

(V.1.)

s2 fiind, n acest caz, un estimator nedeplasat al dispersiei teoretice


Ideea de baz a analizei dispersionale const n mprirea acestei
sume de ptrate ntr-un anumit numr de componente, fiecare component
corespunznd unei surse reale sau ipotetice de variaie a mediilor.
Ipoteza nul (ipoteza de zero), pe care urmeaz s o testm n cadrul
analizei dispersionale, este legat de egalitatea mediilor:
H0: m1 = m2 ... = mi ... = mr
80

Analiza ANOVA

Cu alternativa: H1: cel puin dou medii difer ntre ele.


Mediile teoretice mi se estimeaz cu ajutorul mediilor de grup
empirice sau de selecie simbolizate y i , adic:
H 0 : y1 = y 2 = ... = y i = ... = y r
Not. Testul sau criteriul egalitii celor r medii sau selecii are la

baz presupunerea c dispersiile de selecie s12 , s 22 ,...., s 2r , sunt omogene,


adic sunt estimaii ale uneia i aceleai dispersii generale. De aceea, ori de
cte ori exist vreun dubiu n legtur cu omogenitatea celor r dispersii, se
trece la verificarea egalitii lor folosind de pild testul 2 .

B.Consideraii practice

Dac pn acum abordarea teoretic a analizei dispersionale poate


prea dificil de neles, n cele ce urmeaz vom ncerca abordarea acesteia
de pe baze practice. Cu alte cuvinte vom vedea unde i cnd aplicm analiza
dispersional monofactorial sau bifactorial.
Dup cum se cunoate, rspunsul biologic obinut n urma unui
experiment poate fi influenat de mai muli parametri care acioneaz
simultan (doza administrat, administrarea simultan a substanaei active i
a unor antagoniti, modificarea concentraiei substanei simulante n cazul
testului stimulului chimic etc), fiecare din aceti parametrii avnd, ns, o
influen specific asupra rezultatului urmrit. Scopul analizei dispersionale
este separararea i testarea efectelor cauzate de variaia parametrilor

81

Noiuni fundamentale de biostatistic

respectivi i eliminarea din cmpul de observaii a parametrilor a cror


variaie nu este semnificativ pentru rezultatul urmrit.
Principiul matematic al analizei dispersionale se bazeaz pe
gruparea datelor observate dup unul sau mai multe criterii i scoaterea n
eviden a efectelor obinute n funcie de influena particular a criteriilor

dup care au fost grupate observaiile.


Efectele odat identificate, testarea are loc prin compararea
dispersiilor cauzate de factorii variabili, cu dispersia cauzat de factorii
ntmpltori care acioneaz asupra procesului studiat.

Numrul de criterii dup care se grupeaz datele depinde de numrul


parametrilor cuprini n analiz. Pentru a fi mai explicii s lum urmtorul
exemplu:
S presupunem c avem n studiu ase substane cu efect analgezic
crora trebuie s le demonstrm acest efect folosind testul plcii nclzite.
Practic vom determina timpul de reacie medicamentos TRM (timpul de
laten al reaciei nociceptive la animalul tratat lingerea labei).
Considernd

cele

ase

substane

medicamentoase

drept

variabile

independente i timpul de laten a reaciei nociceptive drept variabil


dependent, analiza dispersional ne permite testarea influenei fiecrei
substane active studiate asupra timpului de laten a reaciei nociceptive.
Metoda de analiz dispersional cun un singur parametru variabil se
numete analiz dispersional monofactorial.
Exist ns posibilitatea de a dori s studiem influena celor ase
substane cu efect analgezic asupra timpului de laten a reaciei nociceptive
n condiiile administrrii concomitente i a unor substane medicamentoase

82

Analiza ANOVA

ce poteneaz aciunea analgezicelor respective. n acest caz, analiza


dispersional urmrete testarea influenei simultane a dou variabile
independente. Metoda cu ajutorul creia putem testa influena a doi
parametri variabili se numete analiz dispersional bifactorial. n mod
asemntor exist analiz dispersional cu trei factori, cu patru factori etc.
(analiz dispersional multifactorial).
n cele urmeaz vom aborda analiza dispersional monofactorial i
bifactorial, aceste dou metode fiind suficiente pentru nelegerea
raionamentului care ne permite eliminarea din cmpul experimental a
parametrilor a cror variaie nu influeneaz semnificativ rezultatele
urmrite printr-o lucrare de cercetare. (De exemplu, aceste metode ne permit
s demonstrm faptul c o anumit substan poteneaz sau nu aciunea
unor analgezice, demosntrndu-i astfel valoarea extarordinar n cercetarea
farmacologic).

V.1. Analiza dispersional monofactorial

Cu ajutorul analizei dispersionale monofactoriale (cu un singur


parametru variabil) se testeaz egalitatea valorilor medii care variaz sub
influena unei singure variabile independente. S presupunem c trebuie
testat egalitatea valorilor medii calculate dintr-un numr de n experiene cu
m (M1, M2, .... Mm) substane avnd efect analgezic, criteriul de etstare

fiind timpul de laten a apariiei reaciei nociceptive timpul scurs pn n


momentul n care animalul i linge laba.

83

Noiuni fundamentale de biostatistic

Vom aranja mai nti datele obinute sub forma unui tabel (tabelul
V.I.), n care xij (i =1, 2, ...m i j = 1, 2, ...., n) reprezint timpul de laten a
apariiei reaciei nociceptive. De exemplu x32 nseamn timpul nregistrat (n
secunde) n urma experienei nr. 2 cu substana activ nr. M3.
Tabelul V.1. Gruparea rezultatelor pentru analiza dispersional

monofactorial
Nr.

Subst.

Exp.

activ

M1

M2

M3

Mm

Experimentul 1

x11

x21

x31

xm1

Experimentul 2

x12

x22

x32

xm2

Experimentul 3

x13

x23

x33

xm3

...

Experimentul n

x1n

x2n

x3n

xmn

Total

x1

x2

x3

xm

n tabelul V.I. diferenele observate ntre datele numerice nscrise n


coloane se datoreaz faptului c s-au folosit diferite substane cu efect
analgezic (diferena ntre coloane), iar diferenele ntre rnduri sunt cauzate

de reproductibilitatea condiiilor experimentale. Dup cum tim, dispersia


valorilor individuale fa de media aritmetic a lor este dat de formula:

S2 =

2
x ij
ij

x ij
n ij
n 1

84

(V.2)

Analiza ANOVA

Dup cum se observ din tabel, n cazul de fa dispersia este


cauzat de un singur parametru, i anume folosirea unei anumite substane
active, la care se adaug, evident, i reproductibilitatea condiiilor
experimentale. Datorit proprietii sale aditive, dispersia total se compune
din dispersia cauzat de diferena ntre coloane plus dispersia total n
componentele sale. Pentru simplificare, vom introduce urmtoarele notaii
pentru sumele auxiliare:
1. Suma ptratelor tuturor observaiilor individuale:
S1 = x ij2 (V.3)
ij

2. Suma ptratelor sumei coloanelor

mprit la numrul de

observaii pe coloane:
m

S2 =

xi

i =1

(V.4)

3. Ptratul sumei tutror observaiilor mprit la numrul total de


observaii:

xy
y

S3 =
mn

(V.5)

Pentru analiza dispersiilor i testarea egalitii ntre valorile medii


observate, calculele vor trebui centralizate ntr-un tabel de forma celui de
mai jos:

85

Noiuni fundamentale de biostatistic

Tabelul V.2. Analiza dispersional monofactorial


Tipul

Suma

variaiei

ptratelor

Numrul

dispersiei

libertate

S2-S3

ntre

Estimaia

gradelor de

m-1

S 12 =

coloane

S2 S3
m 1

S 12
S 22

(ntre
grupe)
S1-S2

ntre

m(n-1)

S 22 =

rnduri

S1 S 2
m( n 1 )

(n
interiorul
grupelor)
(S2-S3)+(S1-

Total

mn-1

S2) = S1-S3

Testul de semnificaie (verificarea ipotezei) trebuie s se refere la


raportul dintre variaia ntre grupe (sistematic) i variaia n interiorul
grupei (rezidual). Pentru a verifica dac factorul de grupare este
semnificativ, se folosete testul F, dat de relaia:
F=

S12
S 22

(V.6) unde S12 =

S 2 S3
(V.7) dispersia corectat ntre
m 1

grupe (sistematic).

86

Analiza ANOVA

S 22 =

S1 S 2
(V.8) - dispersia corectat din interiorul grupelor
m(n 1)

(rmas sau rezidual)


Valoarea F rezultat din calcul se compar cu valoarea F gsit n Anexa
5 pentru pragul de semnificaie ales. ntlnim urmtoarele situaii:
1. Dac F calculat este mai mic dect F gsit n tabel, la gradele de
libertate folosite pentru calcularea dispersiilor S12 i S22 , se accept ipoteza
de zero adic ipoteza conform creia parametrul variabil nu influeneaz

asupra variabilei dependente, diferenele observate datorndu-se erorilor


experimentale.
2. Dac F calculat este mai mare dect F gsit n tabel, ipoteza de
zero se respinge i se trage concluzia c parametrul variabil are influen

asupra rezultatului urmrit, diferenele observate ntre medii fiind reale.


Exemplu. Fiind date 6 substane (M1, M2,. M6), presupuse ca

avnd efect analgezic, s-au efectuat un numr de 8 experiene injectndu-se


intraperitoneal cte unui oarece substana de cercetat, dup care se
efectueaz testul plcii nclzite, conform metodologiei descrise n
bibliografie [ ].
Intensitatea efectului se exprim prin prelungirea timpului de reacie,
adic diferena ntre TRM-TRI, exprimat n secunde (pentru semnificaia
acestor timpi, vezi testul plcii nclzite).

87

Noiuni fundamentale de biostatistic

Tabelul V.3. Rezultate experimentale

Nr.

Subst.

Exp.

activ

M1

M2

M3

M4

M5

M6

Experimentul 1

25,1

22,8

25,5

24,5

25,5

24,7

Experimentul 2

27,0

23,8

27,9

25,2

28,7

27,1

Experimentul 3

29,6

27,1

28,8

27,7

26,2

26,0

Experimentul 4

26,6

22,7

26,9

26,9

25,7

26,2

Experimentul 5

25,2

22,8

25,4

27,1

27,2

25,7

Experimentul 6

28,3

27,4

30,0

30,6

27,9

29,2

Experimentul 7

24,7

22,2

29,6

26,4

25,6

28,0

Experimentul 8

25,1

25,1

23,5

26,6

28,5

24,0

211,6

193,9

217,

215,

215,3

211,3

27,2

26,9

26,9

26,4

Total
Media

26,5

24,1

Pentru a ne putea orienta n vederea alegerii substanei cu cel mai


puternic efect analgezic va trebui s verificm dac ntre rezultatele obinute
exist o diferen semnificativ sau diferenele sunt cauzate de erori
experimentale. Vom calcula deci sumele auxiliare:
S1= 25,12 + 27,02 + ... + 29,22 + 28,02 + 24,42 = 33511,11
S2 =
S3 =

211,6 2 + 193,9 2 + 217,6 2 + 215,3 2 + 211,3 2


= 33368,53
8

(211,6 + 193,9 + 217,6 + 215,0 + 215,3 + 211,3)2

S2-S3 = 46,33

48
S1-S2 = 142,58
88

1264,7 2
= 33322,20
48

S1-S3 = 188,91

Analiza ANOVA

m-1=5
S12 =

m(n-1)=42

46,33
= 9,27
5

S 22 =

mn-1=47

142,58
= 3,16
42

F=

9,27
= 2,93
3,16

Cu aceste date vom completa tabelul V.4. pentru analiza


dispersional, n conformitate cu modelul artat n tabelul V.2.
Tabelul V.4. Analiza dispersional a rezultatelor experimentale
Sursa dispersiei

Suma
ptratelor

Gradele
de

Dispersia

F0,05

libertate

Substanele
cercetate (variaie

46,33

9,27

2,93

2,44

142,58

42

3,16

188,91

47

ntre grupe)

Erorile
experimentale
(variaie

interiorul grupei)
Total

Concluzii. Deoarece F > F0,05 (2,93 > 2,44), unde F0,05 se gsete

din tabel, la pragul de semnificaie =0,05, = 5 i =42 grade de


libertate (n tabel se caut pe orizontal numrul de grade de

libertate al dispersiei de la numrul, iar pe vertical numrul de


grade de libertate al dispersiei de la numitor), ipoteza nul se
respinge i putem trage concluzia c cele ase substane difer

89

Noiuni fundamentale de biostatistic

semnificativ din punct de vedere al efectului analgezic. Firete


cercetarea nu se oprete aici, urmnd s aib loc noi determinri
experimentale, menite s stabileasc acele substane

care pot fi

utilizate n terapia, datorit efectului suficient de puternic.

V.2. Analiza dispersional bifactorial

n cazul n care se urmrete influena simulat a doi parametrii


asupra unui rezultat, diferenele observate ntre rnduri (vezi tabelul V.1) se
vor considera ca fiind cauzate de variaia unuia dintre parametri, iar
diferena dintre coloane de variaia celui de-al doilea parametru luat n
considerare. Fiecare cifr din tabel reprezint o observaie care corespunde
uneia dintre combinaiile posibile ale variabilelor independente.
Avnd doi parametrii variabili trebuie testate dou ipoteze de zero,
dintre care una se refer la diferena valorilor medii ntre rnduri, iar a doua
la diferena valorilor medii ntre coloane. Pentru testarea pimei ipoteze
trebuie calculat diferena sumei ptratelor ntre rnduri, iar pentru testarea
celei de-a doua ipoteze trebuie calculat diferena sumei ptratelor ntre
coloane.
Valorile obinute experimental vor trebui grupate, i n acest caz, sub
forma unui tabel, de felul celui de mai jos.
S presupunem c, n cazul exemplului folosit la analiza
dispersional monofactorial, dorim, de data aceasta, s observm efectul
analgezic al diferitelor substane studiate, n prezena unor substane active
ce le poteneaz efectul. Primal parametru variabil va fi, n acest caz, natura
substanei active, cel de-al doilea parametru variabil fiind natura substanei
90

Analiza ANOVA

cu efect de potenare a analgeziei (P1, P2, Pn). Deci, n acest caz dispersia
total se compune din dispersia datorat diferenelor ntre coloane, plus
dispersia datorat diferenelor ntre rnduri, rmnnd i o dispersie residual,
datorat erorilor experimentale. Scopul nostru este s cunoatem separat
fiecare dintre aceste abateri medii ptratice.
Tabelul V.5. Gruparea observaiilor pe criteriul factorilor de influen

pentru analiza dispresional bifactorial


Rndul

Coloana

Total

M1

M2

M3

Mm

x1

x11

x21

x31

xm1

xi1

x2

x12

x22

x32

xm2

xi2

x3

x13

x23

x33

xm3

xi3

...

...

...

xn

x1n

x2n

x3n

xmn

xin

Total

x11

x12

x13

xim

xij

Pentru simplificarea calculelor vom introduce notaii similare celor


folosite la analiza dispersional monofactorial:
Suma ptratelor tuturor observaiilor individuale:
S1 = x ij2 (V.9)
ij

Suma ptratelor coloanelor, mprit la numrul observaiilor


nscrise n coloan:

91

Noiuni fundamentale de biostatistic

S2 =

xi

i =1

(V.10)

Suma ptratelor sumei rndurilor mprit la numrul observaiilor


nscrise pe rnduri:
n

S3 =

xi

j=1

(V.11)

Ptratul sumei tutror obsrevaiilor mprit la numrul total de


observaii:

xy
y

S3 =
mn

(V.12)

Suma ptratelor reziduale:


Sr = S1 + S4 S2 S3 (V.13)
Pentru calcularea dispersiilor cauzate de parametrii considerai mai
trebuie s cunoatem numrul de grade de libertate pentru fiecare abatere
medie ptratic parial. Deoarece S2 s-a obinut din suma coloanelor, va
avea m-1 grade de libertate, iar S3, obinut din suma rndurilor, va avea n-1
grade de libertate. n sfrit Sr, n a crei formul de calcul au intervenit att
diferenele ntre rnduri, dispersia cauzat de factorii aleatori (ntmpltori)
va avea (m-1) (n-1) grade de libertate. Procedeul de calcul al dispersiilor,
precum i testarea diferenelor ntre valorile medii ale coloanelor i,
respectiv, rndurilor, sunt prezentate n tabelul V.2.2 :

92

Analiza ANOVA

Tabelul V.6. Analiza dispersional bifactorial

Tipul variaiei

Suma

(sursa dispersiei)

ptratelor

ntre coloane

S2-S4

Numrul

Estimaia

gradelor de

dispersiei

libertate

m-1

(primul

S 12 =

S2 S4
m 1

S 12
S r2

parametru
variabil)
ntre rnduri

S3-S4

m(n-1)

(al doilea

S 22 =

S3 S4
m( n 1 )

S 22
S r2

parametru
variabil)
Rezidual Sr

S1 + S4
S2 S3
(S2-

Total

(m-1) (n-1)

S r2 =

Sr
( m 1 )( n 1

mn-1

S4)+(S3-S4)
= S1-S4
Cu ajutorul dispersiilor calculate conform schemei de mai sus, se

face testul F, care va arta dac diferenele observate ntre coloane, respectiv
ntre rnduri, sunt reale sau sunt cauzate de factori ntmpltori.
Pentru aceasta vom calcula rapoartele F =

S12
S 2r

, respectiv F =

S 22
S 2r

Dac valorile rezultate din calcul sunt mai mici dect cele gsite n tabelul
93

Noiuni fundamentale de biostatistic

distribuiei F, la aceleai grade de libertate pentru care s-au calculat


dispersiile S12 , S22

i respectiv S2r , vom accepta ipoteza de zero i vo

concluziona c parametrul considerat nu influeneaz semnificativ valorile


medii, diferenele fiind cauzate de factori ntmpltori. n caz contrar, ns,
vom respinge ipoteza de zero i vom trage concluzia c variaia parametrilor
studiai are o influen semnificativ asupra variabilei dependente.
Exemplu. S lum experimentul de la analiza dispersional

monofactorial, considernd c am lucrat cu patru substane cu efect


analgezic (M1, ....., M4), n prezena unei substane P, ce poteneaz efectul
analgezic al acestora, substan administrat n trei doze diferite (D1, D2, D3).
Rezultatele experimentului (n secunde) se regsesc n tabelul de mai jos:
Tabelul V.7. Analiza dispersional bifactorial. Rezultate experimentale
Doza
administrat

Total

Substana de cercetat

xj

pentru efect de
potenare

Medi
a

xj

M1

M2

M3

M4

D1

25

28

22

24

99

24,7

D2

27

29

23

23

102

25,5

D3

30

32

26

29

117

29,2

89

71

76

29,7

23,7

25,3

Total

xi

= 82

xi = 27 ,3

94

xij

= 318

Analiza ANOVA

Din tabel se observ c valorile medii ale coloanelor sunt influenate


de natura substanei analgezice, n timp ce variaia valorilor rndurilor este
cauzat de variaia dozei substanei cu efect de potenare a analgeziei.
Pentru calcularea dispersiilor valorilor individuale n jurul acestor medii,
vom calcula, mai nti, sumele auxiliare:
S1 = 252 + 272 + ... + 232 + 292 =8538
S2 =

82 2 + 89 2 + 712 + 76 2
= 8487,3
3

S3 =

99 2 + 102 2 + 117 2
= 8473,5
4

S4 =

318 2
= 8427,0
12

Sr = 8583 +8427 8487,3 8473,5 = 4,2


Folosind schema de calcul din tabelul V.6, vom gsi dispersia
cauzat de fiecare parametru variabil n parte, inclusiv dispersia rezidual,
cauzat de factori ntmpltori. Toi aceti parametri statistici vor servi
pentru testarea egalitii valorilor medii, pentru care vom calcula n prealabil
diferenele:

S2 S4 = 60,3 cu m-1 = 3 grade de libertate


S3 S4 = 46,53 cu m-1 = 2 grade de libertate
Sr = 4,2 cu (m-1)(n-1) = 6 grade de libertate
De aici se obin dispersiile:
S12 =

4,6
46,5
60,3
= 20,1; S 22 =
= 23,3; S 2r =
= 0,7
6
2
3

i testul F:

95

Noiuni fundamentale de biostatistic

S12 20,1
S 22 23,3
Fcol 2 =
; Frnd = 2 =
= 33,3
0,7
0,7
Sr
Sr

n Anexa 5 gsim pentru coloane F0,05 = 4,76, iar pentru rnduri

F0,05 =5,14.
Odat calculate toate aceste elemente, putem completa tabelul pentru
analiza dispersional bifactorial:
Tabel V.8. Rezultatele analizei Anova, bifactorial
Numrul
Felul variaiei

Suma

gradelor

Estimaia

(sursa dispersiei)

ptratelor

de

dispersiei

F0,05

libertate

ntre analgezice

60,3

20,1

28,7

4,76

46,5

23,3

33,3

5,14

4,2

0,7

111,0

11

ntre dozele de
s.a. cu efect de
potenare
Rezidual
Total

Concluzii. Deoarece Fcol > F0,05 gsit n Anexa 5 pentru gradele de

libertate ale dispersiilor respective, vom respinge ipoteza conform creia


valorile medii ale coloanelor sunt egale i vom trage concluzia c
substanele active studiate difer semnificativ din punct de vedere al
efectului analgezic, la pragul de semnificaie ales ( = 0,05).

96

Analiza ANOVA

Similar, deoarece Fln > F0,05 vom respinge ipoteza conform creia
mediile liniilor sunt egale i vom trage concluzia c doze diferite de
substan P, influeneaz semnificativ efectul analgezic al compuilor
studiai.
Odat fcute aceste constatri, vor trebui continuate experienele,
pentru a vedea care dintre substane are cel mai puternic efect analgezic i,
respectiv, care este doza optim de substan P, pentru potenarea efectului
analgezic.
Mai trebuie studiai faptul c dispersia mic datorat factorilor
ntmpltori indic faptul c experienele s-au desfurat n condiii
satisfctoare, reproductibile.
Pn acum, la analiza dispersiilor cu doi parametri valabili am
presupus c efectul acestora este aditiv. Dac aceast condiie nu este
satisfcut, analiza dispersional

se

complic, deoarece eventuala

interaciune ntre parametrii variabili se manifest prin creterea dispersiei


reziduale, deoarece aceasta va cuprinde n ea i dispersia cauzat de efectul
de interaciune a parametrilor luai n calcul.

97

Noiuni fundamentale de biostatistic

Capitolul VI
VI. Corelaie i regresie
[11-13, 15, 17]
Termenul corelaie este folosit pentru a sublinia existena unei
anumite forme de asociere ntre dou variabile studiate. De exemplu, n
domeniul medical putem spune c am observat o corelaie ntre zilele cu
cea i declanarea crizelor de astm.
Pe de alt parte n domeniul biostatisticii, termenul de corelaie este
folosit pentru a reliefa existena unei asocieri ntre dou variabile cantitative.
n mod obinuit, suntem tentai s presupunem c aceast asociere este
linear, n sensul c una dintre variabile (s o notm cu y) crete sau
descrete ntr-o anumit msur, proporional cu creterea sau
descreterea celeilalte variabile studiate (notat cu x).
Variabila y va fi considerat variabila dependent, ce prezint
un

anumit

grad

de

asociere

fa

de

variabila

x,

variabila

independent.

n astfel de circumstane este adesea folosit termenul de regresie


(liniar), termen ce implic estimarea celei mai potrivite linii drepte care s
reliefeze asocierea, aa cum vei vedea n urmtoarele pagini.

98

Corelaie i regresie

Coeficientul de corelaie

Gradul de asociere al variabilelor menionate anterior este msurat


cu ajutorul coeficientului de corelaie, propus de Pearson i Bravais i care
este o msur a asocierii liniare a celor dou variabile. Dac ns de
asocierea dintre variabile nu este liniar ci poate fi exprimat doar cu
ajutorul unor curbe, aceasta nseamn c sunt necesare alte msurtori ale
corelaiei, folosind metode mai complexe, ce depesc scopul acestei cri.
Coeficientul de corelaie este o msur a asocierii ntre dou
variabile (variabila independent i cea dependent) ce poate lua valori
cuprinse ntre -1.0.+1.
Coeficientul de corelaie r este un numr calculat direct din

datele observate i poate varia ntre 1 i +1. Formulele de calcul ale


coeficientului de corelaie r difer uor, n funcie de notaiile folosite de
diveri autori.
Dac xi sunt valorile msurate ale variabilei X (variabila
independent) i yi sunt valorile msurate ale variabilei Y (variabila
dependent), atunci coeficientul de corelaie se calculeaz astfel:

(VI.1)
Ce se mai poate scrie i
(VI.2)

99

Noiuni fundamentale de biostatistic

unde n= numrul perechilor de date, iar SD(x), SD(y) abaterile standard


n cazul celor dou variabile.
Putem ntlni urmtoarele situaii:
Dac coeficientul de corelaie este r = 0 , atunci nseamn c nu
avem nici o corelaie ntre cele dou variabile. De exemplu, nu exist nici o
legtur ntre presiunea sanguin i numrul de fire de pr din cap.
Dac coeficientul de corelaie este r = +1 nseamn c avem o
corelaie pozitiv perfect, adic exist o dependen direct ntre cele dou
variabile. O persoan care are o valoare mare la prima variabil va avea o
valoare mare i la cea de a doua. De asemenea, valoarea unei variabile poate
fi prevzut exact pe baza valorii celei de a doua variabile. Un exemplu de
acest tip este corelaia dintre vrsta unui copac i numrul su de inele.
Dac coeficientul de corelaie este r = -1 atunci avem o dependen
invers perfect. O valoare mare a unei variabile nseamn o valoare mic a
celeilalte variabile.
Dac coeficientul de corelaie este ntre 0 i +1 sau ntre 1 i 0 ,
atunci valoarea lui r ne d tria dependenei celor dou variabile.
Aceste situaii sunt prezentate n figura de mai jos:

100

Corelaie i regresie

Figura VI.1. Valoarea coeficientului de corelaie i semnificaia lui

Dac dorim s realizm neaprat o clasificare a intensitii asocierii


(corelaiei) ntre variabila independent i cea dependent, putem considera,
n valori absolute, urmtoarele intervale
|0 < r < 0,19| - asociere foarte slab
|0,20 < r < 0,39| - asociere slab
|0,40 < r < 0,59| - asociere moderat
|0,60 < r < 0,79| - asociere puternic
|0,80 < r < 1| - asociere foarte puternic
Trebuie inut ns seama de faptul c aceste limite de mai sus sunt
oarecum arbitrare, astfel c trebuie s inem seama i de contextul n care
am desfurat experimentele, respectiv n care am fcut msurtorile.
Reprezentarea grafic a datelor n cazul analizei corelaiei i regresiei

101

Noiuni fundamentale de biostatistic

n momentul n are un cercettor a colectat dou serii de observaii


(msurtori) i dorete s vad dac exist o asociere ntre ele, primul lucru
care trebuie fcut este reprezentarea lor grafic, sub forma unei aa-numite
diagrame de mprtiere (scatter diagram - diagram de mprtiere a
rezultatelor, ntr-o traducere aproximativ a termenului).
Majoritatea programelor de calcul tabelar (cum este MS Excel) ofer
posibilitatea realizrii unei astfel de diagrame, similar celei din figura de
mai jos:
60

Diagrama de "mptiere a datelor" - Scatter Plot

50
40
30
20
10
0
0

10

15

20

x
25

Figura VI.2. Reprezentarea datelor sub form de diagram (scatter plot)

Acest tip de diagram folosete cele dou axe de coordonate pentru a


reprezentata cele dou seturi de msurtori: pe axa X se afl msurtorile
legate de variabila independent, iar pe axa Y msurtorile efectuate n

cazul variabilei dependente.

102

Corelaie i regresie

De exemplu, dac un set de observaii sunt rezultatul unor


msurtori experimentale, iar cealalt variabil ar fi timpul la care s-a fcut
msurarea, n acest contt timpul ar fi variabila independent (reprezentat pe
axa X), iar rezultatele msurtorilo ar fi variabila dependent (reprezentat
pe axa Y).
Not: alegerea variabilelor dependente i independente trebuie fcut cu

precauie, deoarece putem s greim uor datorit unor factori de confuzie


(de exemplu o a treia variabil care le poate influena pe amndou).
Astfel, este potrivit s presupunem c nlimea unui lot de copii (variabila
dependent) este corelat pozitiv (r>0)

cu vrsta acestora (variabila

independent). Pe de alt parte, am putea constata existena unei corelaii


negative (r<0)

ntre numrul de cazuri de infarct miocardic (variabila

dependent) i consumul de ngheat (variabila independent), cnd,


de fapt, ambele variabile sunt influenate de o a treia, temperatura mediului
nconjurtor, fr a avea o legtur direct una cu cealalt. Numrul de
cazuri de infarct miocardic este corelat negativ, iar consumul de ngheat
corelat pozitiv cu creterea temperaturii mediului nconjurtor.
Exemplu de calcul:
S presupunem c am msurat n cazul a 15 copii nlime acestora
(n cm variabila independent), respectiv spaiul pulmonar anatomic mort
(n ml variabila dependent). Spaiul pulmonar anatomic mort pulmonary anatomical dead space, poate fi definit ca fiind volumul
traiectului respirator (nas, gur, trahee etc) pn la nivelul alveolelor
pulmonare, repezentnd acea fraciune de aer inspirat ce nu este disponibil
schimbului de gaze la nivelul capilareor din plmn.

103

Noiuni fundamentale de biostatistic

Rezultatele msurtorilor se gsesc n tabelul urmtor:


Tabelul VI.1. Rezultatele msurtorilor
Nr.crt. subiect

nlimea (cm)

Spaiul pulmonar

variabila

mort anatomic

independent

variabila dependent

110

44

116

31

124

43

129

45

131

56

138

79

142

57

150

56

153

58

10

155

92

11

156

78

12

159

64

13

164

88

14

168

112

15

174

101

x = 144,60

y = 66,93

SD x = 19,37

SD y = 23,65

Statistic
descriptiv
(n=15)

104

Corelaie i regresie

Reprezentarea grafic a datelor ntr-o diagram de tip scatter plot


este prezentat n figura de mai jos:

120

Y (spaiul m ort
anatom ic - m l)

100
80
60
40
20
0

X (inlim ea - cm )

50

100

150

200

Figura VI.3. Reprezentarea grafic a datelor experimentului

Urmtorul pas este analiza graficului pentru a decide dac


mprtierea datelor sugereaz existena unei corelaii.
Calculm apoi coeficientul de corelaie, conform celei de-a doua
formule (VI.2).
Obinem astfel

r=

150605 (15 144,60 66,93) 5426,6


=
= 0,846
14 19,37 23,65
6412,06

105

Noiuni fundamentale de biostatistic

Este evident faptul c n acest moment dispunem de o multitudine de


software ce calculeaz automat acest coeficient de corelaie, precum i
intervalul de ncredere (95%) asociat acestui coeficient.
Pentru cazul nostru acest, utilizarea programului GraphPad Instat a returnat
urmtoarele valori:

Number of points: 15
Correlation coefficient (r) =0,8463
Confidence interval (95%): 0,5896 to 0,9477
Coeficientul de corelaie pare s indice o corelaie pozitiv puternic
ntre mrimea spaiului mort anatomic i nlimea copiilor.
Dar n interpretarea corelaiei este important s ne amintim c
existena unei corelaii ntre dou variabile nu implic n mod necesar
cauzalitatea, aceasta se poate datora unor cauze comune. Prin urmare trebuie
avut grij la interpretarea acestor coeficieni de corelaie.

Coeficientul de determinare

O parte a variaiilor valorilor msurate n cazul variabile dependente


(exprimate cu ajutorul varianei, mrime calculat n cadrul analizei
statistice descriptive) se pot datora ntr-adevr existenei unei (co)relaii cu

variabila independent, pe cnd o alt parte se datoreaz unor cauze


nedeterminate (adesea aleatorii).

106

Corelaie i regresie

De aceea avem nevoie de o mrime care s cuantifice

ct din

aceast varian a variabilei dependente se datoreaz influenei variabilei


independente.
Aceast mrime se numete coeficient de determinare i este egal
2

cu r .
Pentru exemplul studiat anterior, r2 = 0,716, astfel c putem afirma
faptul c aproximativ 72% din variaia existent ntre volumul spaiului
mort anatomic la lotul de copii studiat se datoreaz variaiilor nlimii
acestora.
Practic coeficientul de determinare r2 este extrem de util deoarece
este o msur a procentului variaiei ce poate fi explicat din totalul
variaiei observate
Coeficientul de determinare poate avea valori cuprinse ntre 0 i
1 (0<r2<1).

Ecuaia de regresie

Aa cum am vzut, coeficientul de corelaie descrie intensitatea


(tria) asocierii ntre dou variabile. Astfel, dac dou variabile sunt
corelate, aceasta nseamn c o modificare de o anumit mrime a valorii
variabile independente va determina o modificare i n valoarea nregistrat
la msurarea celeilalte variabile.
Pentru exemplul de mai sus, putem spune c o valoare mai mare a
nlimii copiilor este asociat cu o cretere, de o anumit factur, a spaiului
mort anatomic.
107

Noiuni fundamentale de biostatistic

Dac notm cu Y variabila dependent i cu X variabila


independent, putem afirma n consecin c relaia poate fi descris ca o
regresie a lui Y n funcie de X.

Aceast relaie poate fi reprezentat de o ecuaie numit ecuaie de


regresie.

n acest context termenul de regresie semnific faptul c o anumit


valoare a variabilei Y este o funcie de X, cu alte cuvinte se modific
odat cu modificarea valorii lui X, conform unei anumite ecuaii mai mult
sau mai puin complexe.
Cea mai simpl astfel de ecuaie este ecuaia dreptei ( y = x + ),
iar regresia care folosete aceast ecuaie poart numele de regresie liniar.
Ecuaia de regresie ne arat ct de mult se schimb valoarea

variabilei Y n raport cu o anumit schimbare a variabile X i poate fi


folosit pentru a trasa o aa-numit linie de regresie, n interiorul unei

diagrame scatter-plot, iar cel mai simplu caz este cazul n care aceast linie
este o linie dreapt, caz n care se folosete termenul de regresie liniar.
Direcia de nclinare a acestei linii de regresie depinde de faptul c
avem de-a face cu o corelaie pozitiv sau negativ. Astfel dac cele dou
seturi de observaii (x i y) cresc mpreun (corelaie pozitiv), linia de
regresie va fi ascendent de la stnga spre dreapta. Dac valorile variabilei
X cresc, iar valorile corespunztoare ale variabilei Y descresc, nclinarea
liniei de regresie va fi descendent de la stnga spre dreapta.
Din nefericire, n cazul regresiei liniare, de vreme ce avem de-a face
cu o dreapt de regresie, este foarte probabil ca ea s treac prin relativ
puine puncte reprezentate de noi n diagram.

108

Corelaie i regresie

Fie ecuaia dreptei de forma:

y = x + (VI.3)
n momentul n care cunoatem ecuaia de regresie, pentru a putea
trasa corect dreapta de regresie trebuie s inem cont de cei doi coeficieni ai
ecuaiei dreptei pentru a o putea trasa corect.

120

Y (spaiul m ort
anatom ic - m l)

y = 1.0333x - 82.485
R2 = 0.7162

100
80
60
40
20
0
0

50

100

150

X (inlim ea - cm )

200

Figura VI.4. Dreapta de regresie, ecuaia ei i coeficientul de determinare

Primul este interceptul, adic punctul n care dreapta de regresie va


intersecta axa 0Y i este dat de valoarea lui . Pentru exemplul de mai sus,
dreapta de regresie ar intercepta axa 0Y n dreptul valorii Y=-82,485.
Cel de-al doilea coeficient este , i poart numele de pant a
dreptei de regresie. Acest ultim parametru mai poart numele i de
coeficient de regresie i poate fi asimilat ca fiind mrimea modificrii
nregistrate n cazul valorii variabilei Y n urma modificrii cu o unitatea a
valorii variabilei X ).

109

Noiuni fundamentale de biostatistic

Semnul pantei ecuaiei de regresie liniar ne arat clar dac avem dea face cu o corelaie pozitiv sau negativ ntre cele dou variabile, X i Y.
n prezent programele de analiz statistic traseaz automat dreapta
de regresie, furniznd totodat i ecuaia dreptei de regresie, respectiv
coeficientul de determinare.
n trecut, trasarea corect adreptei de regresie se fcea cu ajutorul
metodei celor mai mici ptrate - least squares estimate (dreapta se trasa
astfel nct suma ptratelor distanelor de la punctele reprezentate n
diagram la dreapta de regresie s fie minim).
innd cont de cele afirmate mai sus, coeficientul de determinare r2
este extrem de util deoarece:
-

este o msur a procentului variaiei ce poate fi explicat din


totalul variaiei observate

este o msur a procentului n care variana

(fluctuaia) unei

variabile (dependente) poate fi estimat (prezis) din evoluia unei


alte variabile (variabila independent)
-

este o msur ce ne permite s determinm ct de siguri putem fi n


momentul n care facem predicii pentru un anumit model sau
pentru date reprezentate ntr-o diagram de tip scatter-plot

coeficientul de determinare, ce poate lua valori cuprinse ntre 0 i 1


(0<r2<1) ne d, n cazul regresiei liniare, o msur a asocierii liniare
dintre variabilele X i Y.

coeficientul de determinare reprezint procentul de date care este cel


mai apropiat de dreapta de regresie. De exemlu dac avem un
coeficient de corelaie r =0,922 din care rezult un coeficient de

110

Corelaie i regresie

detrminare r2 = 0,850, aceasta nseamn c 85% din totalul variaiei


lui Y poate fi explicat printr-o relaie liniar ntre X i Y, relaie
descris de ecuaia de regresie. Restul de 15% din variaie va rmne
neexplicat.
-

Coeficientul de determinare este, de asemenea, o msur a gradului


de exactitate (fidelitate) cu care o anumit linie de regresie reprezint
datele studiate. Astfel, dac linia de regresie trece prin absolut toate
punctele

reprezentate

diagrama

scatter,

coeficientul

de

determinare va fi 1 i va putea explica ntreaga variaie. Cu ct linia


de regresie este mai ndeprtat de puncte, cu att coeficientul de
va fi mai mic i un procent mai mare al variaiei nu va putea fi
explicat.
n finalul acestui capitol, trebuie menionat faptul c existena unei
corelaii ntre dou fenomene nu arat neaprat o legtur de la cauz la
efect ntre ele.
Existena unei corelaii este numai informativ, rmnnd ca
cercettorul s stabileasc legtura cauzal n funcie de cunotinele sale n
domeniul respectiv.

111

Noiuni fundamentale de biostatistic

Capitolul VII
VII. Alegerea unui anumit test statistic
[16, 23]

De-a lungul capitolelor anterioare am discutat despre diverse teste


statistice, respectiv despre modul lor de aplicare.
Poate unul dintre cele mai dificile lucruri este alegerea celui mai
potrivit test pentru analiza datelor rezultate n urma unui anumit experiment
sau studiu.
Pentru a alege cel mai potrivit test statistic pentru datele noastre,
trebuie s ne punem dou ntrebri:
i.

Ce fel de date am colectat? Msurtori (variabile numerice,


ranguri,

scoruri

sau

date

binomiale

bolnav/sntos,

expus/neexpus la un factor de risc ?


ii.

Care este scopul analizei statistice pe care urmeaz s o


efectum? Trebuie s comparm dou eantioane (dependente
sau independente) ntre ele sau mai multe eantioane. Exist de
asemenea posibilitatea de a compara un singur eantion cu o
serie de valori ipotetice

n tabelul de mai jos vei gsi cteva recomandri legate de alegerea


unui anumit test n funcie de aceste considerente [Intuitive].

Not. Cu caractere normale sunt menionate testele statistice ce au fost


descrise n aceast carte, n timp ce cu bold sunt testele statistice care nu au
fost prezentate:

112

Alegerea unui test statistic

Tabel VII.1. Alegerea unui anumit test statistic


Scopul analizei
statistice

Msurtori
(eantioane
prelevate dintr-o
populaie statistic
Gaussian)

Date
binomiale

Ranguri, scoruri
sau msurtori
(eantioane
prelevate dintr-o
populaie statistic
non-Gaussian)
Median

(Dou valori
posibile)

Descrierea unui singur


grup

Media, Abatere
standard

Compararea unui
singur eantion cu o
serie de valori
ipotetice
Compararea a dou
eantioane
independente
(date nepereche)

Test t pentru un
singur eantion

Test Wilcoxon

Testul Chi2

Test t pentru
eantioane
independente

Testul MannWhitney U

Testul Chi2, n
special dac
eantioanele
sunt mari

Compararea a dou
eantioane dependente
(date pereche)
Compararea a trei sau
mai multe eantioane
(grupuri) independente
(unmatched groups)
Compararea a trei sau
mai multe eantioane
(grupuri) dependente
(matched groups)
Cuantificarea asocierii
ntre dou variabile

Predicia unei valori


prin intermediul altei
variabile msurate

Proporii

Testul Fisher
pentru tabele
de
contingen
Testul
McNemar

Test t pentru
eantioane
independente
Analiz ANOVA
monofactorial

Testul Wilcoxon
Testul KruskalWallis

Testul Chi2

Analiz ANOVA
multifactorial

Testul Friedman

Testul
Cochrane Q

Coeficientul de
corelaie Pearson
(r)

Coeficient de
corelaie Spearman

Regresie liniar
sau
Regresie neliniar

Regresie
neparametric

RR (Riscul
relativ)
OR (rata de
ans Odds
Ratio)
Regresie
logistic
simpl

113

Noiuni fundamentale de biostatistic

Predicia unei valori


prin intermediul mai
multor variabile
msurate sau a mai
multor variabile
binomiale

Regresie liniar
multipl

sau
Regresie
neliniar
multipl

114

Regresie
logistic
multipl

Studii epidemiologice i clinice

Capitolul VIII
VIII. Studii epidemiologice i clinice
[4, 12, 14, 15]

VIII.1. Indicatori statistici utilizai n studiile


epidemiologice
Consider c este deosebit de important prezentarea schematic a
clasificrii tipurilor de indicatori statistici utilizai n epidemiologia clinic,
precum i a tipurilor de studii utilizate n acst context, deoarece cunoaterea
acestor indicatori i tipuri de studii pemite justificarea protocolului statistic
utilizat ntr-un anumit context.
n studiile epidemiologice sunt folosii, n general, 4 tipuri de indicatori:

I.

Diverse tipuri de raporturi, proporii i rate


1. Raporturi
2. Proporii
3. Rate

II.

Indicatori ai frecvenei bolii utilizai pentru a da o msur a

frecvenei bolii sau a numrului de cazuri dintr-o populaie


1. Prevalena
i. Prevalena la un moment dat
ii. Prevalena de-a lungul unei perioade de timp
iii. Prevalena de-a lungul vieii
2. Incidena

i. Incidena cumulativ
ii. Rata incidenei (sau densitatea incidenei)

115

Noiuni fundamentale de biostatistic

III.

Indicatori ai asocierii factori de risc (expunere)-boal

1. Riscul relativ (RR)


2. Rata de ans (OR Odds ratio)
3. Rata standardizat a mortalitii
4. Rata proporional a mortalitii
IV.

Indicatori ai diferenei:

1. Riscul atribuit/populaie

Rate i proporii
1. Raportul - este folosit pentru a compara dou cantiti (de exemplu
numrul de femei/ numrul de brbai dintr-o localitate = 900/802 =

1,122)
2. Proporia un tip special de raport, n care numrtorul este inclus i n

numitor, rezultnd de fapt un procentaj ( pentru exemplul anterior procentul


femei n localitatea respectiv este numrul de femei/numrul total de
locuitori (femei + brbai) din localitatea respectiv = 900/1702 = 52,88 %)
3. Rata un tip special de proporie ce include anumite specificaii legate

de timp; este unul dintre cei mai utilizai indicatori n epidemiologie


deoarece poate exprima clar probabilitatea sau riscul unei boli sau a altor
evenimente n cadrul populaiei studiate pentru a anumit perioad de timp.
Formula de calcul:
numrul de evenimente n perioada specificat de timp
k (VIII.1)
populaia expus la risc in perioada specificat

unde k folosit pentru uniti de populaie (cum ar fi 1 000 sau 100 000)

116

Studii epidemiologice i clinice

Exemplu: dac ntr-un ora de 120 000 de locuitori ntr-un an au fost

diagnosticate 11 cazuri de leucemie acut (LA) vom avea o rat a


mbolnvirilor de LA egal cu
11
100000 = 9,166 la 100000 locuitori
120000

Indicatori ai frecvenei bolii


1. Prevalena proporia de indivizi dintr-o anumit populaie ce sunt
bolnavi de o anumit boal la un anumit moment n timp (nu conteaz

faptul c sunt bolnavi diagnosticai recent sau n trecut)


- permite estimarea probabilitii sau riscului ca cineva din populaia
respectiv s devin bolnav la un anumit moment dat.
- d o imagine a severitii problemei respective
- este un indicator folositor pentru planificarea serviciilor de sntate
(personal, aparatur etc)
Formula de calcul:
numrul de cazuri existente dintr - o anumit boal
la un anumit moment n timp
Totalul populaiei expuse la risc

(VIII.2)
-poate fi i ea exprimat sub forma: la 1000 sau 100000 locuitori etc
Exemplu: dac ntr-un ora de 120 000 de locuitori la un moment dat exist

70 de cazuri de leucemie acut (LA) vom avea o prevalen de


70
= 0,0005833 sau 58,33 de cazuri la 100000 locuitori
120000

117

Noiuni fundamentale de biostatistic

Tipuri de prevalen:

- Prevalena la un moment dat numrul de cazuri ce exist ntr-o populaie la


un moment dat
- Prevalena de-a lungul unei perioade de timp - numrul de cazuri ce exist
ntr-o populaie de-a lungul unei perioade specificate de timp

- Prevalena de-a lungul vieii procentul dintr-o populaie existent ce a


prezentat un istoric al unei anumite boli ntr-un moment al vieii
2. Incidena reprezint un indicator (o msur) a cazurilor noi dintr-o
anumit boal ce au aprut n populaia studiat de-a lungul unei
perioade de timp

- este un indicator al probabilitii care exist ca o persoan neafectat s dezvolte


respectiva boal
Practic este folosit incidena cumulativ proporia de indivizi ce s-au
mbolnvit ntr-o perioad specificat de timp.
Perioada de timp poate fi un an calendaristic, 6 luni, 3 ani, 5 ani etc.
Formula de calcul:

IC

numarul de cazuri noi dintr o anumit boal de a lungul unei perioade de timp
Totalul populatiei expuse la risc

(VIII.3)
-poate fi i ea exprimat sub forma: la 1000 sau 100000 locuitori etc
Exemplu: dac ntr-un ora de 120 000 de locuitori la un moment dat exist

30 de cazuri noi de leucemie acut (LA) n timp de un an, vom avea o


inciden de

118

Studii epidemiologice i clinice

IC =

30 de cazuri noi de LA
= 0,00025
120000

sau 25 de cazuri la

100000 locuitori
3. Rata de inciden (densitatea incidenei) un indicator mai puin

folosit, datorit costurilor relativ mari legate de urmrirea cazurilor de-a


lungul unei perioade de timp.
- este o msur a incidenei capabil s dea informaii chiar dac

respectivele cazuri sunt urmrite pe perioade de timp inegale (datorit


decesului sau migraiei unor persoane)
- n formula de calcul a indicatorului, similar celei a incidenei, numitorul
este o sum a aa numitului persoana-timp la risc

Indicatori ai asocierii factori de risc (expunere)-boal


- sunt calcule a cror rezultate sunt menite s dea o msur a frecvenei bolii
n funcie de existena altor factori care ar putea influena ntr-un anumit fel
incidena bolii n snul populaiei studiate
Extrem de importante n calculul acestor indicatori sunt aa numitele
tabele de contingen 2x2 (sau simplu tabele 2x2).

Acestea sunt folosite pentru:


-

a ilustra frecvena bolii, respectiv a expunerii

calculul asocierii dintre expunerea la factorul (de risc) studiat i


boal

Pentru a putea fi folosite n deteminarea unor indicatori


epidemiologici tabelele de contingen de tip 2x2 trebuie s grupeze corect
indivizii din populaia studiat, innd cont de expunere (liniile tabelului),

119

Noiuni fundamentale de biostatistic

respectiv de starea de boal (coloanele tabelului), cum se poate vedea n


exemplul ce urmeaz.
Tabel VIII.1. Tabel de contingen de tip 2x2

Expunere

Boal

Total

Da

Nu

Total

a+b

c+d

a+c

b+d

a+b+c+d

Da
Nu

unde:
a = numrul indivizilor din cadrul populaiei studiate expui (care au suferit

o expunere la factorul de risc studiat) i n acelai timp bolnavi (evident, cei


suferinzi din cauza bolii studiate)
b = numrul indivizilor din cadrul populaiei studiate expui dar sntoi
c = numrul indivizilor neexpui (care nu au suferit o expunere la facturl de

risc studiat) i n acelai timp bolnavi


d = numrul indivizilor neexpui i sntoi

****************************************************
a + b = numrul total al indivizilor (bolnavi + sntoi) din cadrul

populaiei studiate expui la factorul de risc

120

Studii epidemiologice i clinice

c + d = numrul total indivizilor (bolnavi + sntoi) din cadrul populaiei

studiate neexpui la factorul de risc


a + c = numrul total al indivizilor bolnavi din cadrul populaiei studiate
b + d = numrul total al indivizilor sntoi din cadrul populaiei studiate
a + b + c + d = Mrimea total a populaiei studiate (eantionului), practic

suma tuturor celor patru celule ale tabelului


Exist 2 indicatori epidemiologici foarte importani pentru
msurarea unei asocieri expunere (factor de risc)-boal:
-

Riscul relativ (Relative Risk - RR)

Rata de ans (Odds Ratio OR)

Ambii indicatori sunt calculai folosind gruparea datelor n tabele de

contingen de tip 2x2.


Riscul relativ (Relative Risk - RR)

- servete la msurarea magnitudinii asocierii ntre incidena bolii studiate


i factorul de risc cercetat
- reprezint n fapt un raport dintre rata incidenei persoanelor expuse i rata
incidenei n rndul celor neexpui la factorul de risc
- folositor n cercetrile legate de etiologia unor boli
- sinonime: Rata de risc (Risk ratio)
Formula de calcul:
RR =

Incidena bolii n rndul subiecilo r expui la factorul de risc


(VIII.4)
Incidena bolii n rndul subiecilor neexpui la factorul de risc

121

Noiuni fundamentale de biostatistic

sau innd cont de modul de grupare a datelor ntr-un tabel de contingen


de tip 2x2:
RR =

a (a + b)
(VIII.5)
c (c + d)

Interpretarea valorilor riscului relativ:

- Riscul relativ poate avea, teoretic vorbind, valori ntre 0 i infinit


- RR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc)
i boal; practic incidena(rata incidenei) este identic ntre cele dou
grupuri (expui, respectiv neexpui la factorul de ric)
RR> 1 = Exist o asociere pozitiv ntre expunere (factorul de risc) i boal
RR< 1 = Exist o asociere negativ ntre expunere (factorul de risc) i boal
sau, n unele cazuri putem spune c expunerea la factorul respectiv are chiar
un efect protector fa de boal
Rata de ans (Odds Ratio OR)

- Singura modalitate de msurarea a asocierii expunere (factor de risc)boal disponibil n cazul studiilor de tip Case-Control

D o msur a riscului relativ (are valori apropiate de acesta) cnd:


valoarea incidenei este mic (< 5 % din populaia total) i
grupul de control (martor) este representativ pentru ntreaga populaie
(inclusiv din punctul de vedere al expunerii la factorul de risc)
Trebuie definit n doi pai:
- ans (ODDS) Raportul dintre probabilitatea ca un eveniment s se
ntmple i probabilitatea ca respectivul eveniment sa nu aib loc
- Rata de ans (Odds Ratio OR) Raportul dintre rata (ansa) expunerii
n rndul celor bolnavi i rata (ansa) expunerii n rndul celor sntoi

122

Studii epidemiologice i clinice

Formula de calcul:

- innd cont de modul de grupare a datelor ntr-un tabel de contingen de


tip 2x2, formula de calcul este:
OR =

a c a*d
(VIII.6)
=
b d b*c

Interpretarea valorilor ratei de ans (OR):

- Rata de ans (OR) poate avea, teoretic vorbind, valori ntre 0 i infinit
OR = 1 : Nu exist nici un fel de asociere ntre expunere (factorul de risc) i

boal;
OR> 1 : Expunerea reprezint un factor de risc n cazul bolii respective

(crete riscul apariiei bolii)


OR< 1 : Expunerea reprezint un factor protector n cazul bolii respective

(scade riscul apariiei bolii)


Interpretarea rezultatelor analizei statistice. Interpretarea valorii lui
RR (OR) i P n cazul studiilor ce utilizeaz tabele de contingen de tip
2x2

Interpretarea existenei unei asocieri ntre factorul de risc i apariia


bolii, n cazul unui studiu retrospectiv de tip cohort, necesit o analiz
atent, innd cont de urmtorii indicatori (13, 145) :
1. valoarea lui P (cel mai important parametru)

2. valoarea minim i maxim a intervalului de ncredere,


calculat pentru o probabilitate de 95 % (CI 95 %)
3. valoarea ratei de ans (Odds ratio-OR)

123

Noiuni fundamentale de biostatistic

ntr-un astfel de studiu ne intereseaz att valoarea lui P (cel mai


important parametru ct i intervalul de ncredere pentru un anumit rat de
ans (OR) sau risc relativ (RR).
Valoarea lui P ne rspunde la urmtoarea ntrebare: Dac, de

exemplu, nu exist nici o asociere ntre variabilele care definesc coloanele i


variabilele care definesc liniile unui tabel de contingen (practic n cazul
studiului nostru ntre expunere i boal), care este ansa (probabilitatea) ca
lund la ntmplare indivizi (aa numita eantionare aleatorie - random

sampling) dintr-o populaie s descoperim o asociere (mai) semnificativ


dect cea din studiul n cauz (145)? Cu alte cuvinte, dac ntr-adevr nu
exist deloc nici o asociaie ntre linii i coloane care este probabilitatea ca o
eantionare aleatorie s duc la obinerea unei valori a OR (foarte) diferit
de 1,0 precum i diferit de cea obinut n studiul n cauz ?
Pentru a explicita mai bine cele afirmate mai sus, s lum un
exemplu:
S presupunem c pentru un studiu al influenei radiaiilor ionizante
asupra incidenei leucemiilor acute (LA) am obinut o valoare a RR = 0,923
i o valoare a lui P = 0,991. Conform celor afirmate mai sus, aceasta valoare
a lui P ne spune c printr-o eantionare aleatorie, la modul teoretic, avem
99,1 % anse de a obine un RR diferit att de valoarea obinut (0,923) de

noi ct i de 1,0. De aceea putem afirma c ceea ce am obinut noi n studiu


este statistic nesemnificativ dac P= 0,991. Invers, dac din analiza statistic
ar rezulta o valoare a RR = 4,204 i o valoare a lui P < 0,0001, aceasta ar
nsemna c avem mai puin de 0,0001 % anse de a obine, prin eantionare
aleatorie (alegnd deci la ntmplare subieci) un OR mult diferit att de

124

Studii epidemiologice i clinice

valoarea obinut (4,204) de noi ct i de 1,0. De aceea putem afirma ca


ceea ce am obinut noi n studiu este statistic semnificativ dac P < 0,0001.
Din nefericire, termenul "semnificativ statistic" nu este de multe ori
acelai lucru cu "important din punct de vedere tiinific".
nainte de a interpreta din punct de vedere tiinific o anumit
valoare a lui P sau un anumit interval de ncredere trebuie s ne gndim
atent la ordinul de mrime a ratei de risc (RR) sau ratei de ans (OR). Ct
de mare trebuie s fie aceast valoare a lui OR pentru a o considera
important din punct de vedere tiinific (chiar dac am obinut un rezultat
considerat statistic semnficativ)? Ct de mic trebuie s fie acea valoare
pentru a o putea considera normal i a putea trage concluzia c
expunerea studiat nu poate fi considerat factor de risc n boala respectiv ?
Modul n care interpretm rezultatele unui studiu depinde foarte mult
de valoarea lui P: mic (P < 0,05) sau mare (P > 0,05).
A. Dac valoarea lui P este mic (P < 0,05) = rezultat
semnificativ statistic:

n acest caz este improbabil c asocierea expunere-boal observat


s fie ntmpltoare. Putem deci respinge ideea c asocierea este o
coinciden datorat eantionrii i putem concluziona c populaia studiat
are un RR sau OR diferit de 1,0. Asocierea este deci statistic semnificativ
(dac P < 0,05). Dar este acest rezultat important i din punct de vedere
tiinific?
Intervalul de ncredere (CI 95 %) este cel care ne poate da un

rspuns.

125

Noiuni fundamentale de biostatistic

Orice analiz statistic include ntotdeauna, n proporie mai mic


sau mai mare, o serie de erori datorate eantionrii (aa numitele effects of
random sampling), astfel c valoarea RR sau OR calculat din datele

studiului probabil nu este identic cu valoarea adevrat a RR sau OR.


Dar, din nefericire, nu exist posibilitatea determinrii exacte a acestei
valori adevrate. n schimb analiza statistic ne d o msur a acestei
valori prin intemediului intervalului de ncredere la 95 %. Practic putem fi

95 % siguri c acest interval conine valoarea adevrat a RR sau OR.


Pentru a putea intepreta rezultatele analizei statistice ntr-un context
tiinific pertinent, trebuie s privim la ambele capete ale intervalului de
ncredere i s ne ntrebm dac acestea reprezint valori ce au importan
din punct de vedere tiinific sau sunt valori obinuite, comune, fr
importan tiinific.
Tabelul VIII.2 sistematizeaz variantele posibile:
Tabel VIII. 2. Interpretarea rezultatelor analizei statistice
Valoarea
Valoarea
Interpretare
minim a CI
maxim CI
95 %
95 %
Chiar dac RR sau OR nu este 1,0 ,
Comun
Comun
asocierea expunere-boal este mic i
(relativ
(relativ
apropiat de 1) apropiat de relativ lipsit de interes tiinific, chiar
1)
dac este statistic semnificativ
Deoarece CI 95 % variaz ntre o
Important
Comun
(mult
mai valoare a OR comun din punct de
(relativ
vedere biologic (tiinific) i o valoare
apropiat de 1) mare dect 1)
semnificativ, nu putem trage o
concluzie cert cu privire la importana
tiinific a rezultatului. La modul ideal,
o nou serie de date ar trebui analizate
pentru a putea avea o concluzie cert,

126

Studii epidemiologice i clinice

att din punct de vedere statistic ct i


tiinific.
Important
Comun
Deoarece CI 95 % variaz ntre o
(mult mai mic (relativ
valoare semnificativ i o valoare a OR
dect 1)
apropiat de comun din punct de vedere biologic
1)
(tiinific), nu putem trage o concluzie
cert cu privire la importana tiinific
a rezultatului. Apare o problem legat
ns de designul studiului nostru,
expunerea pare s influeneze n sens
negativ incidena bolii, putnd fi
considerat chiar ca un factor de
protecie (13).
O nou serie de date ar trebui analizate
pentru a putea avea o concluzie cert,
att din punct de vedere statistic ct i
tiinific, iar dac rezultatele sunt
similare trebuie verificat modul n care
am conceput designul studiului i
gruparea datelor n tabelele de
contingen.
Important
Important
De vreme ce pn i valoarea minim a
CI 95% reprezint o asociere expunereboal suficient de mare pentru a fi
considerat biologic important, se
poate trage concluzia indubitabil c
exist o asociere expunere-boal
semnificativ att din punct de vedere
statistic, ct i tiinific.
B. Dac valoare lui P este mare (P > 0,05) = rezultat
nesemnificativ statistic:

Dac valoarea lui P este mare, nu avem nici un motiv plauzibil s


concluzionm c RR sau OR difer de 1,0. Aceasta nu nseamn ns c

127

Noiuni fundamentale de biostatistic

putem spune c RR sau OR sunt egale cu 1,0. Pur i simplu nu avem


dovezi consistente c valorile RR sau OR difer de 1,0.

Care este oare valoarea adevrat a riscului relativ sau a ratei de


ans ?
Cum datele noastre includ o serie de erori datorate eantionrii
(effects of random sampling) valoarea RR sau OR calculat din datele
studiului probabil nu este identic cu valoarea adevrat a RR sau OR.
Neexistnd posibilitatea determinrii exacte a acestei valori adevrate,
analiza statistic ne d o msur a acestei valori prin intemediului
intervalului de ncredere la 95 %. Practic putem fi 95 % siguri c acest
interval conine valoarea adevrat a RR sau OR.
Cnd ns P > 0,05, intervalul de ncredere este mult lrgit: el
include aa numita ipotez nul (null hypothesis OR sau RR = 1,0) i se
ntinde pe o gam de valori care ar putea sugera de la existena unei
asocieri negative expunere-boal (valoarea minim a CI 95 % este RR <1,0

sau OR <1,0) pn la existena unei asocieri pozitive expunere-boal


(valoarea maxim a CI 95 % este RR >1,0 sau OR >1,0)
Pentru a putea intepreta rezultatele analizei statistice ntr-un context
tiinific pertinent, trebuie s privim la ambele capete ale intervalului de
ncredere, situaiile ce pot fi ntlnite fiind prezentate schematic n tabelul
IX:
Tabel VIII.3. Interpretarea rezultatelor analizei statistice
Valoarea
minim a CI
95 %
Comun

Valoarea
maxim CI
95 %
Comun

Interpretare
Nu exist o asociere semnificativ
128

Studii epidemiologice i clinice

(relativ
apropiat
1)

(relativ
de apropiat
1)

statistic ntre expunere-boal. Cu


de alte cuvinte nu exist o nici asociere
ntre liniile i coloanele tabelului de
contingen sau dac exist ea este cu
certitudine foarte mic i lipsit de
interes. Un rezultat ce poate fi
considerat semnficativ i din punct de
vedere tiinific.
Comun
Diferit de 1 Nu se poate trage o concluzie foarte
(relativ
(mai
mare clar.
Dei analiza statistic demonstreaz
apropiat de dect 1)
1)
inexistena unei asocieri statistic
semnificative, expunerea la factorul
de risc duce la apariia unui interval
de ncredere ce se ntinde de la o
valoare minim specific unei slabe
asocieri negative expunere-boal,
pn la o valoare maxim specific
unei asocieri pozitive puternice
expunere-boal;
Ct de apropiat de 0,05 este
valoarea lui P ?
Pentru a putea trage concluzii clare
este
necesar
repetarea
experimentului folosind mai muli
subieci.
Diferit de
Comun
Nu se poate trage o concluzie foarte
(relativ
1 (mai mic
clar.
apropiat de 1) Dei analiza statistic demonstreaz
dect 1)
inexistena unei asocieri statistic
semnificative, expunerea la factorul
de risc duce la apariia unui interval
de ncredere ce se ntinde de la o
valoare minim specific unei
puternice asocieri negative expunereboal, pn la o valoare maxim
specific unei slabe asocieri pozitive

129

Noiuni fundamentale de biostatistic

expunere-boal;
Ct de apropiat de 0,05 este
valoarea lui P?
Dac P are o valoare relativ
apropiat de 0,05 atenie la
designul studiului !
Pentru a putea trage concluzii clare
este
necesar
repetarea
experimentului folosind mai muli
subieci.
Modul n care trebuie interpretate rezultatele analizei statistice n
cazul studiilor ce utilizeaz tabele de contingen de tip 2x2 este cel de mai
sus, clar prezentat ntr-un numr mare de surse bibliografice:
valoarea lui P ca prim parametru, din care rezult semnificaia
statistic a analizei

valorile CI 95 % pentru explicitarea sensului i magnitudinii


asocierii, din care rezult semnificaia tiinific a analizei

Cu toate acestea, o serie de articole aprute n ultimii ani n


prestigioase reviste internaionale (7, 93, 153) pe teme similare prezentului
studiu, prezint valorile OR sau RR fr a preciza valoarea lui P, ci numai
intervalul de ncredere la 95 % (CI 95 %).
Este recomandabil s lum n considerare din punct de vedere al
concluziilor certe doar valorile cu P < 0,05, dar se poate face o i o
cuantificare a situaiilor n care valoarea lui P este apropiat de 0,05.
Aceasta deoarece pot fi ntlnite patru situaii distincte:
I.

n cazul existenei unei asocieri semnificative statistic (P < 0,05):

130

Studii epidemiologice i clinice

Cazul 1:

valoarea OR (RR) > 1

valoarea minim a CI 95 % > 1; valoarea maxim a


CI 95 % > 1 (de obicei mult mai mare dect 1)

evident, P < 0,05

Interpretare: n acest caz putem spune c exist o asociere POZITIV,


SEMNIFICATIV STATISTIC, ntre factorul de risc i boala studiat.
Cazul 2:

valoarea OR (RR) < 1

valoarea minim a CI 95 % < 1(de obicei mult mai


mic dect 1); valoarea maxim a CI 95 % < 1

P < 0,05

Interpretare: n acest caz putem spune c exist o asociere NEGATIV,


SEMNIFICATIV STATISTIC, ntre factorul de risc i boala studiat. Cu

alte cuvinte, n funcie de expunerea studiat, unele surse bibliografice susin


c, n acest caz, putem afirma c expunerea nu numai c nu influeneaz
apariia bolii, ci are chiar o aciune protectoare. (13)
II.

cazul inexistenei unei asocieri semnificative statistic (P >

0,05):
Cazul 3:

P > 0,05, dar valoarea lui P este mic (n aceasta lucrare

am considerat acest caz pentru P < 0,1)


-

valoarea OR (RR) > 1

valoarea minim a CI 95 % < 1; valoarea maxim a


CI 95 % > 1

131

Noiuni fundamentale de biostatistic

Interpretare: n acest caz putem spune c poate fi observat o asociere


POZITIV, NESEMNIFICATIV STATISTIC, ntre factorul de risc i

boala studiat.
Cazul 4:

P > 0,05, dar valoarea lui P este mic (n aceasta lucrare

am considerat acest caz pentru P < 0,1)


-

valoarea OR (RR) < 1

valoarea minim a CI 95 % < 1; valoarea maxim a


CI 95 % > 1 (de obicei apropiat de 1)

Interpretare: n acest caz putem spune c poate fi observat o asociere


NEGATIV, NESEMNIFICATIV STATISTIC, ntre factorul de risc i

boala studiat.
Exist i o a cincea situaie, cea n care OR (RR) 1, ceea ce
nseamn ntre factorul de risc (expunere) i boal nu poate fi fcut nici
un fel de asociere, factorul de risc (expunerea) nu are nici un fel de

influen n cazul studiat (n acest lucrare am considerat ca valid o astfel


de situaie pentru 0,95 <OR <1,05).
Practic, dup cum se poate vedea, valoarea OR, respectiv CI 95 %,
ne furnizeaz informaii despre sensul influenei factorului de risc
(expunerii) asupra bolii (n mod evident o valoare a OR egal cu 1,

nsemnnd faptul c factorul respectiv nu influeneaz n nici un fel boala),


n timp ce valoarea lui P ne d informaii despre semnificaia statistic a
acestei influene (P < 0,05 asocierea descoperit este semnificativ
statistic).

Cele prezentate mai sus sunt sistematizate n tabelul VIII.4:

132

Studii epidemiologice i clinice

Tabel VIII.4. Interpretarea rezultatelor statistice privind asocierea factor

de risc-boal
ASOCIERE factor de risc - boal STATISTIC SEMNIFICATIV
OR
Val.
Val.
P
Interpretare
(RR)
minim
maxim
Exist o asociere
CI 95 % CI 95 %
POZITIV,
SEMNIFICATIV
>1
>1
>> 1
< 0,05
STATISTIC
Asociere pozitiv
Statistic
ntre factorul de risc i
semnificativ
boala studiat
OR
Val.
Val.
P
Interpretare
(RR)
minim
maxim
Exist o asociere
CI 95 % CI 95 %
NEGATIV,
SEMNIFICATIV
<1
<<1
<1
< 0,05
STATISTIC
Asociere negativ
Statistic
semnificativ ntre factorul de risc i
boala studiat
ASOCIERE factor de risc - boal STATISTIC NESEMNIFICATIV
OR
Val.
Val.
P
Interpretare
(RR)
minim
maxim
Poate fi observat o
CI 95 % CI 95 %
asociere POZITIV,
NESEMNIFICATIV
>1
<1
>1
> 0,05
STATISTIC
Asociere pozitiv
Statistic
nesemnificativ ntre factorul de risc i
boala studiat
OR
Val.
Val.
P
Interpretare
(RR)
minim
maxim
Poate fi observat o
CI 95 % CI 95 %
asociere NEGATIV,
NESEMNIFICATIV
<1
<1
>1
> 0,05
STATISTIC,
ntre
Asociere negativ
Statistic
factorul
de
risc
i
nesemnificativ
boala studiat
OR (RR) 1 : ntre factorul de risc (expunere) i boal nu poate fi fcut
nici un fel de asociere(n cazul studiului nostru am considerat aceast
situaie pentru
0,950 <OR (RR) < 1,050)
133

Noiuni fundamentale de biostatistic

Riscul atribuit (RA)


- numrul de cazuri din populaia expus ce ar putea fi eliminate dac

expunerea (la factorul de risc) ar putea fi ndeprtat. (239)


Formula de calcul
RA = Incidena n rndul populaiei expuse - Incidena n rndul
populaiei neexpuse

(la factorul de risc)

VIII. 2. Tipuri de studii epidemiologice

Este cunoscut faptul c deosebim 2 tipuri mari de studii epidemiologice


(239)
I. Descriptive (persoane, locuri i timp)
Servesc la generarea de ipoteze de lucru
II. Analitice (cauzale)

Servesc la testarea ipotezelor de lucru

STUDII DESCRIPTIVE
CARACTERISTICI GENERALE:

Sunt, n general, studii de tip corelaional

Examineaz caracteristici ale ntregii populaii


Exemple:

Studierea unor relaii ntre vanzrile de

igri pe teritoriul unei ri i mortalitatea datorat


BPOC n acea ar
Reprezint primul pas n studierea unei relaii de tip factor

de risc-boal

134

Studii epidemiologice i clinice

Avantaje
Metod rapid i ieftin, poate fi utilizat ca un prim
pas n efectuarea unui studiu mai complex
Limitri

Nu poate furniza informaii certe cu privire la


existena sau nonexistena unor relaii de tip
cauz-efect

Nu poate oferi

cercettorului o modalitate de

control detaliat al potenialelor surse de eroare


SUBTIPURI ALE STUDIILOR DESCRIPTIVE:
A. Descriere de caz sau serii de cazuri (Case Reports

and Case Series)


Descriu patologia unui singur bolnav sau a unui grup de
bolnavi
Cea mai utilizat form de studiu publicat n revistele
medicale
Avantaje
Poate duce la formularea de noi ipoteze de lucru
Constituie un element major de legtur ntre
medicina clinic i epidemiologie
Limitri
Nu poate fi folosit pentru verificarea unor ipoteze
de lucru

135

Noiuni fundamentale de biostatistic

B. Studiu descriptiv de tip urmrire a prevalenei (Cross-

Sectional or prevalence Survey)


Expunerea la factorii de risc i starea de boal sunt simultan
cuantificate n cadrul unei populaii
Furnizeaz informaii legate de frecvena i caracteristicile
unei anumite boli
Avantaje
Foarte folositor n domeniul sntii publice
Poate furniza informaii utile legate de prevalena
(incidena) unei boli n anumite grupuri de populaie
(expuse la anumii factori de risc specifici profesiei
de exemplu)
Limitri
De cele mai multe ori nu poate s dea informaii
legate de faptul dac expunerea la factorii de risc a
precedat boala sau a aprut n timpul ei

Datorit folosirii prevalenei ca indicator, nu se face


o deosebire ntre cazurile noi i cele deja existente la
momentul nceperii studiului

Nu poate fi utilizat pentru studierea factorilor


etiologici

136

Studii epidemiologice i clinice

C. Studiu descriptiv de tip ecologic


Studii care n care unitile de analiza sunt mai degrab
populaii ntregi sau grupe de populaii dect subieci
individuali (cazuri)
Avantaje
Este extrem de util n generarea de ipoteze de lucru
Limitri
Fiecare individ aparinnd unei populaii este
caracterizat de media calculat pentru ntreaga
populaie studiat

Pot aprea erori datorate faptului c o asociere


observat la nivelul ntregii populaii studiate nu
reprezint n mod obligatoriu asocierea existent
la nivel individual

Aceste dou limitri pot detemina apariia unor


erori ce constituie aa numitul Ecologic Fallacy

ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL


EMITERII DE IPOTEZE I A STABILIRII UNUI ANUMIT DESIGN

PENTRU STUDIU:
z Ce boal va fi studiat i cum?

Bine fundamentat teoretic: boal, respectiv studiu bine


fundamentat teoretic, pe baz unor surse bibliografice
numeroase

Studiat empiric, pe baza criteriilor de diagnostic

137

Noiuni fundamentale de biostatistic

z Ce tip de expunere va fi studiat ?

Bine fundamentat teoretic: exist numeroase surse


bibliografice i studii similare
Studiat empiric, pe baza criteriilor i metodelor de
examinare alese de ctre cercettor
z Care este timpul de inducie ? (Cu alte cuvinte care este intervalul

mediu de timp dintre expunerea la factorul de risc i efect apariia


bolii ?)
z Ce ali factori pot influena acest asociere ?

Factori bine studiai (fundamentai teoretic)


Empiric, pe baza criteriilor i metodelor de examinare alese
de ctre cercettor

STUDII ANALITICE
CARACTERISTICI GENERALE:

Permit efectuarea unei comparaii explicite ntre expunere


(la factorii de risc) i boal

Utilizeaz

gruparea populaiei studiate n tabele de

contingen realizate n aa fel nct s se poat observa clar


(i determina statistic mai apoi) dac riscul este diferit ntre
populaia expus i cea neexpus

Sunt singurele studii ce pot fi utilizate pentru TESTAREA


DE IPOTEZE

138

Studii epidemiologice i clinice

SUBTIPURI ALE STUDIILOR ANALITICE:


Studiilor analitice sunt grupate n dou subtipuri mari:

Studii analitice de tip observaional urmeaz cursul


natural al evenimentelor
Studii analitice de tip intervenional cercettorul
determin

expunerea

(de

exemplu

un

anumit

tratament) i urmrete subiecii (de exemplu aa


numitele studii clinice - clinical trials)
n ceea ce urmeaz m voi referi numai la prima categorie, studii
analitice de tip observaional, acesta fiind tipul de studii folosit de mine n

cadrul acestei lucrri.


STUDII ANALITICE OBSERVAIONALE SUBTIPURI:

A. Studii de tip Case-Control (Case-Control studies)


z Gruparea n tabele de contingen se face n funcie de prezena sau

absena bolii:
Persoane care prezint boala

Grup de comparaie

z Practic un astfel de studiu compar expunerea n rndul persoanelor

bolnave (grup - cazuri) cu expunerea n rndul persoanelor sntoase


(grup - control)
Este studiul epidemiologic cel mai des utilizat, n ciuda potenialelor
erori, ce pot aprea relativ frecvent fr o grupare atent n tabele de
contingen potrivite scopului propus
Avantaje:
139

Noiuni fundamentale de biostatistic

Tipul de studiu cel mai potrivit n cercetri legate de boli cu


perioada lung de incubare
Eficient din punct de vedere al timpului necesar i al costurilor
aferente
Potrivit pentru studiul unor boli rare
Poate fi utilizat pentru studierea simultan a mai multor factori de risc,
n cadrul aceleai boli
Dezavantaje:

Lipsit de eficien n cazul studierii unor expuneri la factori de


risc rar ntlnii (cum ar fi studierea efectelor unor accidente
industriale)
Nu permite calculul direct al ratei de inciden a bolii
Uneori poate fi extrem de grea stabilirea unor relaii temporale
ntre expunere i apariia bolii

140

Studii epidemiologice i clinice

Figura VIII.1. Diagrama schematic a unui studiu de tip Case-Control


Exemplu: - Studiul asocierii dintre apariia limfoamelor nonhodgkin i
infecia cu virusul Epstein-Bar sau cu Helicobacter pylori (factori
biologici de risc)

141

Noiuni fundamentale de biostatistic

ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL


UNUI STUDIU DE TIP CASE-CONTROL:

- definirea i selecia cazurilor


- selecia cazurilor pe baza incidenei sau a prevalenei (cu alte cuvinte
cazurile studiate erau diagnosticate nainte de nceperea studiului sau sunt
cazuri noi diagnosticate recent sau chiar la momentul studiului)
- validitatea studiu versus generalizarea studiului (Poate fi studiul
considerat valid? probleme legate de designul studiului; Pot fi concluziile
lui extinse la totalul populaiei ? exist alte studii similare ce au ajuns la

concluzii asemntoare?)
- sursa loturilor control: clinici, eantioane din populaie n general, serii

speciale de loturi martor etc.


- raportul cazuri/control (martor)
- felul cum se face constatarea strii de boal, respectiv a expunerii la
factorul de risc

B. Studii de tip cohort (Cohort studies)


z Subiecii studiului sunt clasificai pe baza expunerii la un anumit

factor de risc
z Populaia este urmrit pentru a determina prezena (apariia) bolii n

cadrul acesteia ;
z n funcie de modul de urmrire a prezenei bolii n cadrul populaiei

deosebim:
Studii de tip cohort prospective, respectiv retrospective

142

Studii epidemiologice i clinice

Studiul de tip prospectiv are ca punct de pornire timpul


prezent, cercettorul investignd populaia (eantionul)
prospectiv (n viitor); avantajul major al unui astfel de
studiu const n faptul c cercettorul poate colecta orice
informaie crede el de cuviin c are fi util.
n cazul studiului retrospectiv, cercettorul identific
eantionul (populaia studiat cohorta) i studiaz acea
populaie de-a lungul unui anumit interval de timp precedent
momentului n care a decis s nceap studiul; dezavantajul
unei astfel de abordri const n faptul c cercettorul are la
dispoziie doar informaii colectate n trecut, fr a mai putea
avea acces la eventuale informaii utile, dac acestea nu au
fost deja colectate i arhivate n vreun fel.

143

Noiuni fundamentale de biostatistic

Figura VIII.2. Diagrama schematic a unui studiu de tip Cohort


Avantaje:

Astfel de studii pot msura incidena bolii i deci i cuantifica


riscul
Expunerea precede apariia bolii
Poate servi la studiul unei mari categorii de boli
Este foarte eficient n cazul unor expuneri la factori de risc rar
ntlnii, cum este cazul expunerilor datorate unor accidente
industriale, aceasta deoarece investigatorul poate s aleag

eantionul avnd ca principal criteriu expunerea la factorul de


risc
144

Studii epidemiologice i clinice

Dezavantaje:

Necesit un numr mare mare de subieci


Relativ lipsit de eficien n cazul unor boli rare
Perioad lung de urmrire a subiecilor studiului
Subiecii pot suferi schimbri n starea de sntate de-a lungul
perioadei de studiu, fr ca investigatorul s aib cunotin de
acest lucru
Necesit, n general, costuri mari pentru realizare
Exemplu: Expuneri neobinuite (accidente industriale), cum este i cazul

accidentului nuclear de la Cernobl (1986), care ne-a permis efectuarea,


unui studiu retrospectiv de tip cohort n scopul studierii rolului

radiaiilor ionizante ca factor de risc n apariia unor leucemii i limfoame

ASPECTE CE TREBUIE LUATE N CONSIDERARE N CAZUL


UNUI STUDIU DE TIP COHORT:
- modul de selecie (grupare) a populaiei expuse
- modul de selecie (grupare) a populaiei neexpuse (grup de comparaie

sau martor)
- datele legate de sursa de expunere la factorul de risc
- datele legate de variabilele de ieire (apariia bolii, indicatorii folosii,

eventualele surse de eroare)

145

Noiuni fundamentale de biostatistic

Selecia unui anumit tip de studiu (study design)


Trebuie s in cont de urmtorii factori i criterii:
Criteriul gradului de cunoatere tiinific a fenomenului studiat
(bolii)

Studiu ce aduce informaii noi sau studiaz o boal nou (vezi


Severe Acute Respiratory Syndrome SARS)

Studiu ce adaug informaii relevante despre o boal


Studiu ce confirm informaii deja existente despre o boal
Criteriul ipotezei de lucru

Studiu ce servete la generarea de ipoteze


Studiu ce servete la testarea unor ipoteze de lucru
Criteriul epidemiologic / statistic

Studiu ce servete la verificarea unor ipoteze privitoare la boal (boala


subiect principal de studiu)

Studiu ce servete la verificarea unor ipoteze privitoare la expunere


(expunerea la factorul de risc- subiect principal de studiu)

Mrimea eantionului i reprezentativitatea lui


Criteriul resurselor disponibile (de obicei factorul limitant)

Costuri
Timp
146

Studii epidemiologice i clinice

Asociere versus cauzalitate


"The presence of an association ... in no way implies that the observed
relationship is one of cause and effect." (Hennekens and Buring)

Principala idee care trebuie s rzbat n urma unei analize statistice


efectuate n cadrul unui studiu epidemiologic, este faptul c asocierea

expunere (factor de risc)-boal se refer strict la existena unei dependene


statistice ntre dou variabile.

Pentru a putea considera, eventual, aceast asociere ca o relaie


cauz-efect, exist o serie de criterii de interpretare a unui studiu

epidemiologic a cror parcurgere este o condiie sine qua non.


Aceste criterii minimale sunt prezentate n cele ce urmeaz:
- Exist o asociere expunere (factor de risc)-boal, valid din punct de
vedere statistic?
DAC DA ...

- Se poate datora aceast asociere ansei sau nu?

- Se poate datora aceast asociere unor erori ale studiului, legate de


bias?
- Se poate datora aceast asociere unor erori ale studiului, legate de
anumite confuzii?

147

Noiuni fundamentale de biostatistic

Criterii pentru stabilirea unei relaii de tip cauz-efect


Pentru a rspunde la ntrebarea:

Poate fi judecat o asociere

statistic ca o relaie de tip cauz-efect ? trebuie luate n considerare


urmtoarele criterii:
1. Magnitudinea asocierii:

i. Dac a fost relevat existena unei asocieri statistic


semnificative, ct de mare este magnitudinea acesteia
?
2. Credibilitatea biologic a ipotezei de lucru:

i. Exist un mecanism deja cunoscut care s explice


tiinific asocierea ?
3. Consistena rezultatelor studiului vis--vis de alte studii
similare:

i. Exist alte studii care s confirme concluziile


noastre?
4. Secvena de timp:

i. Pentru cazurile studiate, precede expunerea apariia


bolii cu o perioad de timp consistent (a se vedea
timpul de inducie al bolii) pentru un mecanism
biologic credibil?
5. Relaia doz- rspuns:

i. Putem vorbi de un gradient al riscului ce poate fi


relaionat cu nivelul expunerii?

148

Studii epidemiologice i clinice

6. Poate fi considerat asocierea ca fiind specific?

i. Ci factori cauzeaz boala?


ii. Cte boli pot fi cauzate de factorul respectiv?

149

Noiuni fundamentale de biostatistic

Anexe - Exerciii recapitulative

150

Statistic descriptiv exerciii recapitulative

Anexa 1 - Statistic descriptiv, exerciii


recapitulative

Scurt recapitulare

Biostatistica este o ramur a statisticii, specializat n studiul


fenomenelor biologice, deci i al celor medicale. Se ocup de culegerea,
centralizarea i gruparea datelor, precum i de prelucrarea i determinarea
unor indicatori pentru descrierea fenomenelor biomedicale studiate, pe baza
evidenierii unor regulariti sau variabiliti statistice. Totodat aplic i
dezvolt tehnici statistico-probabilistice pentru analiza datelor biomedicale.
nceputurile biostatisticii au fost determinate de nevoia obinerii unor
informaii cantitative dintre cele mai simple, formulate de regul sub forma
ci bolnavi ? , ci decedai ? , etc. Cu timpul s-a constatat ns c
asemenea metode sunt insuficiente pentru caracterizrile fenomenelor, c
exist o variaie n rspunsurile care se obin ntre diverse msurtori sau, cu
alte cuvinte, c fenomenele biologice sunt caracterizate prin variabilitate.
Dar i n aceste condiii, observndu-se serii lungi de msurtori, s-a
descoperit c se pot calcula indicatori simpli cu mare putere de sintez, cum
ar fi media (aritmetic, geometric, etc), dispersia, etc.
ntr-o etap ulterioar, statistica a ctigat n puterea de analiz a
fenomenelor. Pe aceast cale s-au descoperit legile care guverneaz ceea ce
nainte prea ntmpltor. Aceast etap, n care statistica trece de la
descrierea fenomenelor la analiza lor, se caracterizeaz prin aplicarea n

151

Anexa 1

general a unui aparat matematic din ce n ce mai complicat i a calculului


probabilitilor n special.

Indicatori statistici

Principalii indicatori care caracterizeaz un ir de date sunt fie


indicatori de tendin central, fie indicatori ce caracterizeaz mprtierea
datelor n jurul unei valori medii.
O serie de date este alctuit dintr-un ir de valori pe care le notm :

x1 , x2 , , xn .
Indicatorii matematici mai importani ce caracterizeaz o serie de date
sunt:
Media aritmetic - notat de regul cu

x=

x1 + x2 + ... + xn
n

Mediana - este acea valoare din irul de date care mparte n dou pri
egale irul ordonat de valori (atenie, irul este ordonat cresctor), situnduse la mijlocul seriei statistice. Dac numrul de valori n este un numr
impar, atunci mediana este valoarea Me= xk , unde

k=

n
+ 1. Dac n
2

este par, deci avem un numr par de valori, mediana este definit ca fiind

Me =

xk + xk +1
2

unde

k = n/2.

152

Statistic descriptiv exerciii recapitulative

Modul - constituie valoarea care apare cel mai des, deci valoarea cu
numrul cel mai mare de apariii.
Amplitudinea - este diferena dintre valoarea maxim i cea minim

A = Amax - Amin .
Amplitudinea relativ - notat A% este raportul dintre amplitudinea
absolut i media aritmetic a seriei de date.
Dispersia (variana) notat s2x este un indicator de mprtiere a
datelor. Formula de calcul este:

s x2

xi2 ( x ) 2

.
=
n 1

Abaterea standard sau deviaia standard reprezint rdcina ptrat din


varian (dispersie) :

sx = sx2

Coeficientul de variaie se calculeaz ca un raport procentual ntre


abaterea standard i valoarea medie a irului de valori.

C.V.% =

sx
100
x

De remarcat c valoarea coeficientului de variaie nu are unitate de


msur, se exprim procentual. Acest fapt permite folosirea indicatorului la
compararea a dou sau mai multe serii de date, indiferent de ordinul de
mrime al variabilelor (variantelor) i de unitile de msur folosite. Se
poate considera c un coeficient de variaie sub 10% indic o dispersie mic
(o mprtiere), adic seria este omogen. Un coeficient ntre 10% i 30%

153

Anexa 1

indic dispersie mijlocie, iar peste 30% indic dispersie mare. Dac
dispersia este mare, media nu este un indicator reprezentativ.
Atunci cnd avem foarte multe date se recomand includerea lor n
clase egale ca mrime, ceea ce uureaz mult prelucrrile statistice
ulterioare. Spre exemplu sortm pacienii pe grupe de vrst: 21-24 de ani,
25-30 ani, etc n acest caz apare noiunea de frecven a clasei.

Indicatori statistici pentru serii de date cu apariii

frecvente ale aceleiai valori

Dac datele pe care le studiem conin valori care se repet des, se


obinuiete s se grupeze datele care au aceeai valoare . Numrul de
apariii ale unei valori anume se numete frecvena de apariie i se noteaz
cu fi.
Presupunem c n urma msurtorilor am obinut irul de valori:

x1 cu frecvena f1, x2 cu frecvena f2, xn cu frecvena fn


Indicatorii statistici se calculeaz conform noilor formule:
Media aritmetic

xi f i

x=

i =1, n

fi

i =1, n

x1 f1 + x2 f 2 + ... + xn f n
f1 + f 2 + ... + f n

fi + 1

Mediana este xk unde

k = i =1, n
2
154

Statistic descriptiv exerciii recapitulative

Dispersia (variana) :

s x2 =

( xi x ) 2 f i

i =1, n

fi 1

i =1, n

Folosirea calculatorului n statistica descriptiv.


Aplicaii i exemple.
Apariia calculatoarelor a nsemnat un moment crucial n evoluia
analizei statistice. Puterea de calcul considerabil a acestora a permis nu
numai efectuarea unor analize statistice din ce n ce mai complexe, ci i
punerea la punct a unor noi teste, respectiv modaliti de analiz statistic.
n mod obinuit, exist dou modaliti de utilizare a calculatorului
n analiza statistic a datelor, modaliti ce difer prin tipul de software
folosit:
-

folosirea unor programe obinuite de calcul tabelar (fie comerciale -

MS Excel, fie gratuite, n regim

Open Source - Gnumeric etc) ce au

ncorporate ns i module pentru analiz statistic. Astfel de programe


ofer acces ns doar la un numr limitat de indicatori i/sau teste statistice,
ncepnd cu calcularea unor indicatori din domeniul statisticii descriptive
(medii, dispersii, intervale de ncredere) i terminnd cu o serie de teste
statistice devenite clasice (testul t, testul CHI2, testul F etc). Principalul
lor atu l constituie simplitatea n utilizare, n special pentru utilizatorul deja
familiarizat cu programele de calcul tabelar.
-

folosirea unor programe dedicate pentru analiza statistic, software

ce ofer de obicei posibilitatea efecturii nor analize statistice complexe,

155

Anexa 1

folosind un numr nsemnat de teste i diferite tipuri de abordri n mersul


analizei. Principalul dezavantaj al acestui tip de software rezid tocmai n
complexitatea lui, utilizatorul trebuind s aib un bagaj complet de
cunotine teoretice i practice legate de analiza statistic ce urmeaz s o
efectueze. Exist un numr mare de astfel de programe, de la soluii
comerciale, uneori costisitoare (SPSS, SAS, Statistica for Windows,
GraphPad Instat, GraphPad Prism etc) pn la soluii gratuite (EpiInfo,
OpenEpi, SalStat etc ).
Statistic descriptiv folosind MS Excel sau alte programe de calcul
tabelar

Exist dou modaliti de a face o serie de analize statistice folosind


Excel:
Prima modalitate, mai laborioas, presupune folosirea unor funcii
speciale (utilitare) pentru analiza statistic existente n program alturi de
alte tipuri de funcii Excel (funcii pentru calcule matematice, financiare
etc). Aceste funcii sunt disponibile prin intermediul opiunii Function din
meniul Insert.

156

Statistic descriptiv exerciii recapitulative

Figura A1.1. Utilizarea funciilor statistice n MS Excel

Principalele funcii (utilitare) Excel necesare calculrii indicatorilor


utilizai n statistica descriptiv sunt cele de mai jos:
A. Indicatori ai tendinei centrale
Media aritmetic funcia AVERAGE( )
Mediana funcia MEDIAN( )
Modul funcia MODE( )

157

Anexa 1

B. Indicatori ai dispersiei (mprtierii) datelor n jurul valorii


medii
Dispersia (variana) funcia VAR( ) (cu variantele VAR, VAR A,

VARP, VARPA)
Abaterea standard - funcia STDEV( ) (cu variantele STDEV,

STDEVA, STDEVP, STDEVPA)


Asimetria (skewness) - funcia SKEW( )
Kurtosis (aplatizarea - excesul) - funcia KURT ( )
Valoare cea mai mic dintr-un set de valori funcia MIN( )
Valoare cea mai mare dintr-un set de valori funcia MAX( )

Lucrul cu funciile programului Excel presupune parcurgerea


urmtorilor pai:
-

alegerea unei celule unde va fi afiat rezultatul

apelarea funciilor Excel prin opiunea Function din meniul Insert

selectarea tipului de funcie dorit (Math, Financial, Statistical etc)

selectarea celulelor unde se afl seria dorit de date

dac este cazul, setarea anumitor parametrii utilizai de respectiva


funcie pentru efectuarea corect a calcului (de pild nivelul dorit de
semnificaie sau tipul de test, dac sunt disponibile mai multe
variante ale aceluiai test)

n final, n celula dorit va fi afiat rezultatul calculului, n timp ce n


bara cu formule va fi afiat funcia utilizat i setul de date folosit

Exemplu.
Fie o serie de 33 de date numerice obinute experimental (de
exemplu valori ale tensiunii arteriale sistolice in mmHg): 180, 120, 110,

158

Statistic descriptiv exerciii recapitulative

200, 140, 210, 200, 190, 150, 170, 140, 130, 150, 170, 160, 120, 160, 140,
160, 170, 180, 160, 150, 130, 160, 180, 190, 160, 170, 170, 150, 150, 130.
S se calculeze, folosind funciile din programul Excel media, mediana,
modul, varianta, abaterea standard, valoarea maxim i minim, pentru acest
set de date.
Rezolvare.
- Se introduc datele n program

Figura A1.2. Introducerea datelor m fereastra de dialog n cayul


funciilor statistice din MS Excel

Cea de-a doua modalitate, mult mai elegant i cu o organizare mult


mai elaborat a modului de prezentare a rezultatelor analizei, presupune
instalarea folosirea unui modul special al programului Excel, modul ce,

159

Anexa 1

odat instalat, poate fi apelat prin alegerea opiunii Data Analysis din
meniul Tools al programului Microsoft Excel.

Figura A1.3. Data Analysis ToolPak din MS Excel

Statistic descriptiv Exerciii recapitulative

1. Pentru stabilirea cantitii de adenin dintr-o soluie dat, s-au fcut

msurtori spectrofotometrice i s-au obinut urmtoarele date:


Numr

Valoarea

msurtoare

msurat

64

71

160

Statistic descriptiv exerciii recapitulative

73

82

87

95

100

101

102

10

105

S se calculeze, cu ajutorul programului Excel, valoarea medie,


dispersia, amplitudinea, abaterea standard, amplitudinea relativ,
coeficientul de variaie.
2. S se calculeze greutatea medie a 100 de copii nscui la termen a

cror greutate la natere a fost urmtoarea:


Greutatea

Frecvena

(n grame)

2800

10

2900

20

3000

40

3100

20

3200

10

De asemenea s se calculeze, cu ajutorul utilitarului Excel, mediana,


modul, amplitudinea, amplitudinea relativ, dispersia i coeficientul de
variaie.

161

Anexa 1

3. S se calculeze valoarea medie, amplitudinea, amplitudinea relativ,

dispersia, abaterea standard i coeficientul de variaie al duratei de


spitalizare n cazul unui grup de 200 de bolnavi internai cu hepatit viral.
Datele sunt prezentate n tabelul urmtor:

Durata de spitalizare (zile)

Frecvena

20

22

24

10

26

18

28

30

30

80

32

26

34

10

36

38

40

162

Statistic inferenial exerciii recapitulative

Anexa 2 - Teste statistice de semnificaie,


exerciii recapitulative
Pentru a stabili dac exist o legtur ntre dou serii de date (deci
ntre dou variabile cantitative)

sau ntre dou variabile calitative se

folosesc testele statistice.


Cele mai cunoscute sunt :

testul Student - pentru compararea mediilor unei caracteristici la

dou populaii.

testul Chi - pentru a verifica dac exist o asociere sau o legtur

semnificativ din punct de vedere statistic ntre dou variabile calitative.

Testul STUDENT

Testul Student este utilizat n analiza statistic pentru compararea


mediei unei caracteristici la dou populaii. Caracteristica studiat trebuie s
fie o caracteristic cantitativ, msurabil.

Etapele aplicrii testului STUDENT

Pentru aplicarea testului Student se parcurg urmtoarele etape:


Se stabilesc dou eantioane de lucru: un grup de test extras din

prima populaie i un grup martor, extras din a doua populaie. Se culeg i se


nregistreaz datele studiului. Se fac urmtoarele notaii:

Xi reprezint valorile nregistrate n grupul de test

163

Anexa 2

Yi reprezint valorile nregistrate n grupul martor


X reprezint media caracteristicii n grupul de test
Y reprezint media caracteristicii n grupul martor
n1 reprezint numrul de subieci din grupul de test
n2 reprezint numrul de subieci din grupul martor
s1 reprezint deviaia standard n grupul de test
s2 reprezint deviaia standard n grupul martor
Se formuleaz dou ipoteze:

1. Ipoteza nul (H0) afirm: media 1 a caracteristicii n populaia

din care face parte grupul de test este egal cu media 2

caracteristicii n populaia din care face parte grupul martor (1=

2)
2. Ipoteza alternativ (H1) afirm: media 1 a caracteristicii n

populaia din care face parte grupul de test este diferit de media 2 a
caracteristicii n populaia din care face parte grupul martor (12 )
Se calculeaz valoarea statistic a testului Student dup formula:

t=

X Y
s 2p
n1

s 2p
n2

unde sp este:

164

Statistic inferenial exerciii recapitulative

s 2p

(n1 1) s12 + (n 2 1) s 22
n1 + n 2 2

Se calculeaz numrul de grade de libertate a testului Student:

gl= n1+ n2 2.
Se calculeaz valoarea probabilitii p. Probabilitatea p este

probabilitatea s obinem ntmpltor o valoare statistic egal sau mai mare


dect valoarea t calculat, n condiiile n care ipoteza nul H0 este adevrat.
n cazul n care probabilitatea p calculat este 0,05 se respinge ipoteza H0.
Stabilirea concluziei testului Student.

Dac probabilitatea p are o valoarea mai mic sau egal cu

0,5, atunci se repinge ipoteza nul H0 i se accept ipoteza


alternativ H1, prin urmare exist o diferen semnificativ ntre
mediile caracteristicii n cele dou populaii.

Dac probabilitatea p are o valoarea mai mare dect 0,5 ,

atunci se accept ipoteza nul H0, prin urmare nu exist o


diferen semnificativ ntre mediile caracteristicii n cele dou
populaii.

Utilizarea funciei TTEST a utilitarului Excel

Testul STUDENT este mult mai uor de aplicat cu ajutorul utilitarului

EXCEL dect testul CHI. Pentru a obine probabilitatea final p introducem

165

Anexa 2

valorile celor dou serii pe o foaie de calcul. Funcia TTEST se introduce


ntr-o celul oarecare specificnd n ordine:
-zonele care conin datele celor dou serii de valori
-valoarea: 1 sau 2 pentru a indica dac testul este cu un capt sau cu
dou capete. Dac testul este cu dou capete, atunci n cazul respingerii
ipotezei H0 se consider c exist diferene ntre mediile celor dou
caracteristici fr a se specifica care dintre cele dou medii este mai mare.
Dac testul este cu un capt, atunci n cazul n respingerii iptotezei H0 este
clar care dintre mediile celor dou populaii este mai mare. Cel mai des se
utilizeaz testul cu 2 capete.
-tipul testului: 1, 2 sau 3

1 - dac grupurile de date sunt dependente


2 - dac grupurile de date sunt independente i se presupune c
populaiile au aceeai dispersie.

3 - dac grupurile de date sunt independente i se presupune c


populaiile au dispersii diferite.
Spre exemplu, dac seriile de valori sunt coninute n zonele B7:B25
i E8:E35 i grupurile de date sunt independente, atunci coninutul funciei
TTEST este:
= TTEST(B7:B25; E8:E35; 2; 2 ).

166

Statistic inferenial exerciii recapitulative

Testul
recapitulative

STUDENT

exemple

exerciii

1. ntr-un studiu al efectului bumetamidei n secreia de calciu n

urin, 9 persoane alese aleator au primit fiecare cte o doz de 0,5 mg de


medicament. S-a colectat n fiecare or, timp de 6 ore, urina de la cele 9
persoane. La fel s-a procedat cu alte 10 persoane care nu au primit
medicamentul. Pentru fiecare persoan s-a calculat o medie (prin calculul
mediei celor 6 valori citite).
Datele obinute au fost urmtoarele:

Grupul

Grupul de

de test

control

4,5

3,5

6,5

10,5

6,5

16

7,5

18

1,5

8,5
9,5

167

Anexa 2

S se determine dac secreia de calciu n urin difer la cele dou


grupuri, deci dac administrarea medicamentului are efect n creterea
secreiei de calciu. Pentru a realiza acest lucru, mai nti introducei datele
de mai sus ntr-o foaie de calcul tabelar i apoi aplicai testul Student cu un
capt (1 tails), de tipul 2 (two-sample equal variance) i ipoteza 0. Dac
probabilitatea P obinut este mai mic dect 0,05 atunci medicamentul are
efect.
Ipoteze:
H0: medicamentul nu are efect n creterea secreiei de calciu.
H1: medicamentul are efect n creterea secreiei de calciu.
p > 0,05 acceptm iptoteza H0
Rezultate

p=0,31317 acceptm iptoteza H0 , deci medicamentul nu are efect


n creterea secreiei de calciu.
2. Se efectueaz un studiu al nivelului de digoxin ser, dup efectuarea

rapid a unei injecii intravenoase cu acest medicament. S se stabileasc


dac nivelul de digoxin ser la 4 ore dup injectare difer semnificativ de
nivelul de la 8 ore dup injectare. Datele obinute n urma studiului pe 10
subieci sunt urmtoarele:
Nr.

Dup

Dup

subiect

4 ore

8 ore

1,3

1,3

0,9

0,7

168

Statistic inferenial exerciii recapitulative

0,9

0,9

0,8

1,3

1,2

1,1

10

1,3

1,2

Pentru a obine rezultatul studiului, aplicai testul Student cu dou


capete i de tipul 1 (grupuri dependente). Dac probabilitatea p obinut este
mai mic dect 0,05 atunci exist diferene semnificative.
3. Concentraia hemoglobinei n g/100 ml snge, la un numr de 12

persoane cu anemie feripriv, a crescut dup tratament astfel:

Hemoglobina
(g./100 ml snge)
Persoana

nainte de

Dup

tratament

tratament

3,4

4,9

3,0

2,3

3,0

3,1

3,4

2,1

3,7

2,6

4,0

3,8

169

Anexa 2

2,9

5,8

2,9

7,9

3,1

3,6

10

2,8

4,1

11

2,8

3,8

12

2,4

3,3

Se poate afirma c tratamentul este eficace ? Pentru a putea rspunde


la aceast ntrebare utilizai testul STUDENT cu dou capete i pentru
grupuri dependente (tipul 1) .
4. S-a msurat glicemia la un lot de 5 persoane sntoase, alese

aleator. Apoi s-a msurat glicemia la un lot de 8 persoane alese de asemenea


aleator, dar bolnave de diabet zaharat. Rezultatele obinute sunt prezentate
n tabelul urmtor.
Persoane

Sn-

Bolnave de

toase

diabet

100

171

101

172

103

175

106

176

110

177

178

182

185

170

Statistic inferenial exerciii recapitulative

S se stabileasc dac mediile celor dou loturi difer semnificativ, cu


un risc de 0,05. Se va utiliza testul Student cu dou capete, de tipul 2
(independente).
5. S-a msurat uremia la dou loturi de cte 10 bolnavi de gut, dintre

care unii au fost tratai cu un anumit medicament, n timp ce ceilorlali li s-a


administrat un produs placebo; s-au obinut urmtoarele rezultate:

Nr.

Valoarea

Valoarea

Subiect

uremiei n

uremiei n

lotul tratat

lotul

(mg/l)

netratat

42

48

45

54

48

60

52

66

55

72

58

78

60

84

63

90

67

96

10

70

102

S se aprecieze cu un risc de 0,05 dac medicamentul a avut efect. Se


va aplica testul STUDENT cu dou capete, de tipul 2 (grupuri
independente).
171

Anexa 2

6. La un lot de bolnavi cu hepatit cronic s-a efectuat proba Tymol i

apoi li s-a aplicat o raie alimentar hipercaloric, dup care s-a repetat
proba Tymol.
Rezultatele obinute n urma analizrii probelor sunt sintetizate n
tabelul urmtor.

Proba Tymol
Bolnavul

nainte

Dup
raie

10

16

10

12

10

14

14

10

10

10

se stabileasc dac mediile celor dou serii de date difer

semnificativ. Se va utiliza testul Student cu dou capete, de tipul 1 (pentru


grupuri dependente).
7. S-a msurat valoarea tensiunii arteriale sistolice la grup de pacieni

dignosticai cu stenoz i la un grup de pacieni asimptomatici. S se


172

Statistic inferenial exerciii recapitulative

determine dac media celor dou serii de date difer seminificativ. Se va


utiliza testul STUDENT cu dou capete i de tipul 2 (pentru grupuri
independente).
Rezultatele msurtorilor sunt sintetizate n tabelul urmtor.

Valoarea sistolic
Pacientul

Simptomatici

Asimptomatici

160

150

155

160

170

155

170

150

170

150

185

155

190

165

195

165

205

165

10

210

170

11

210

175

12

220

175

13

220

180

173

Anexa 2

Testul CHI2

Testul CHI2 este utilizat n analiza statistic n urmtoarele cazuri:

n studiile epidemiologice pentru identificarea unei asocieri ntre


un factor de risc i o boal. De exemplu, se poate aplica testul CHI pentru
stabilirea unei eventuale legturi ntre fumat i moartea prematur ca urmare
a unei boli cardiovasculare, sau a unei legturi ntre expunerea la o anumit
substan chimic i apariia malformaiilor congenitale la inim.

pentru a verifica o asociere semnificativ din punct de vedere


statistic ntre dou caracteristici calitative, cu alte cuvinte pentru stabilirea
unei diferene ntre proporii. De exemplu, se poate aplica testul CHI pentru
a stabili dac incidena cancerului la sn variaz n concordan cu cantitatea
de grsime din alimentaie.
Etapele aplicrii testului CHI

Pentru aplicarea testului CHI se parcurg urmtoarele etape:

Se culeg i se nregistreaz datele studiului. Subiecii sunt


clasificai ca bolnavi sau nu, expui la un anumit factor de risc sau nu, etc.
Se stabilete numrul de subieci care fac parte din fiecare clas. Numrul
de subieci care fac parte din clasa i relativ la prima caracteristic i din
clasa j relativ la a doua caracteristic se noteaz cu Oij i se numete
frecvena observat a clasei ij .

Se formuleaz dou ipoteze:

174

Statistic inferenial exerciii recapitulative

(a) Ipoteza nul (H0) afirm: ntre cele dou caracteristici

studiate nu exist o asociere (o legtur)


(b)

Ipoteza alternativ (H1) afirm: exist o asociere (o

legtur) ntre cele dou caracteristici studiate

Se calculeaz frecvena relativ a fiecrei clase. Frecvenele


relative se noteaz cu Eij i se calculeaz dup formula:

Eij =

Oij Oij

i =1,n j =1,m

Oij

i =1,n
j =1,m

Se calculeaz valoarea statistic a testului CHI dup formula:


=
2
C

i =1,n
j =1,m

(Oi E )
ij

Eij

Se calculeaz numrul de grade de libertate a testului CHI:


gl=(nr rnduri-1)*(nr coloane-1)

Se calculeaz valoarea probabilitii p. Probabilitatea p este


probabilitatea s obinem ntmpltor o valoare statistic egal sau mai mare
dect valoarea C2 calculat, n condiiile n care ipoteza nul H0 este
adevrat. n cazul n care probabilitatea p calculat este 0,5 se respinge
ipoteza H0.

Stabilirea concluziei testului CHI.

175

Anexa 2

Dac probabilitatea p rezultat din calcul are o valoarea


mai mic sau egal cu 0,5 , atunci se respinge ipoteza nul H0 i se
accept ipoteza alternativ H1, prin urmare exist o asociere ntre
cele dou caracteristici studiate.

Dac probabilitatea p rezultat din calcul are o valoarea


mai mare dect 0,5 , atunci se accept ipoteza nul H0 , prin urmare
nu exist o asociere ntre cele dou caracteristici studiate.
Utilizarea funciei CHITEST a programului Excel

Utilitarul Excel ofer funcia CHITEST pentru calculul probabilitii

p. Argumentele acestei funcii sunt : zona care conine valorile de test i


zona care conine valorile estimate.
Pentru a putea utiliza aceast funcie trebuie s introducem datele
aferente studiului nostru i s calculm valorile estimate Eij.
A

1
2
3
4

...

Figura A2.1 . Gruparea datelor n MS Excel pentru testul CHI2

Spre exemplu, s presupunem c datele noastre sunt grupate n zona


A-E, iar n csuele notate cu sunt calculate totalurile pe linii, respectiv
coloane (figura A2.1)

176

Statistic inferenial exerciii recapitulative

Valoarea unei celule din matricea valorilor estimate este egal cu


produsul dintre suma valorilor de pe linia i suma valorilor de pe coloana
matricei datelor de test, totul mprit la suma tuturor datelor de test.
Matricea valorilor estimate se contruiete ca n figura urmtoare (figura

11.2)
A

10

(F1*A4)/F4

(F1*B4)/
F4

(F1*E4)/F4

11

(F2*A4)/F4

(F2*B4)/
F4

(F2*E4)/F4

12

(F3*A4)/F4

(F3*B4)/
F4

...

(F3*E4)/F4

13

Figura 11.2
Dup calculul matricei valorilor estimate se poate aplica funcia
CHITEST i anume: =CHITEST(A1:E3;A10:E12). Rezultatul ntors de
funcia CHITEST este valoarea p.

Testul CHI2 Exerciii recapitulative.

1. O echip de cardiologi au efectuat un studiu pentru a investiga o

eventual asociere ntre utilizarea medicamentelor contraceptive orale i


hipertensiune. Datele obinute au fost urmtoarele:

177

Anexa 2

Cu contraceptive

Hipertensiune

Tesiune normal

Total

32

40

15

45

60

23

77

100

orale
Cu alte
contraceptive

S se stabileasc dac proporia de femei hipertensive dintre cele care


utilizeaz contraceptive orale difer de proporia de femei hipertensive
dintre cele care folosesc alte medicamente anticoncepionale.
Pentru a obine rezultatul studiului, mai nti introducei datele de mai
sus ntr-o foaie de calcul tabelar. Apoi calculai frecvenele estimate astfel:
Eij=(Suma valorilor de pe linia i)*(suma valorilor de pe coloana
j)/(suma tuturor valorilor).

Dup aceea aplicai testul CHI. Dac probabilitatea P obinut este mai
mic dect 0,05 , atunci exist diferen, deci exist o legtur.
Ipoteze:
H0: nu exist nici o legtur ntre utilizarea medicamentelor
contraceptive orale i hipertensiune.
H1: exist o legtur ntre utilizarea medicamentelor contraceptive
orale i hipertensiune.
Dac probabilitatea P obinut este mai mic dect 0,05 , atunci exist
o legtur, se respinge ipoteza H0 i se accept iptoteza H1.

178

Statistic inferenial exerciii recapitulative

Dac probabilitatea P obinut este mai mare dect 0,05 , atunci nu


exist nici o legtur, deci se accept ipoteza H0.
Rezultate

Valorile estimate sunt:


9,2

30,8

13,8

46,2

p=0,560528 acceptm ipoteza H0


ipoteza H0: nu exist nici o legtur ntre utilizarea medicamentelor
contraceptive orale i hipertensiune.
2. Se efectueaz un studiu pentru a stabili dac exist o asociere

(legtur) ntre severitatea cancerului ovarian i nivelul de stres. Datele


obinute sunt:
Nivelul de stres
Severitatea
bolii
Uoar

362

60

141

317

880

Moderat

29

15

21

70

Sever

20

20

50

TOTAL

411

70

161

358

1000

TOTAL

Stabilii exist o asociere (legtur) ntre severitatea cancerului ovarian


i nivelul de stres.
3. Se studiaz asocierea amigdalectomiei cu diferitele forme clinice de

poliomielit, pe un lot de 461 de cazuri. Se pune ntrebarea: diferenele sunt


ntmpltoare? Prezena sau absena amigdalelor contribuie la determinarea

179

Anexa 2

formei de localizare a leziunilor de poliomielit ? Datele studiate sunt


prezentate n tabelul urmtor:
Amigdale
Tip boal

prezente

absente

bulbar

16

99

dorsal sever

77

58

dorsal uoar

76

85

neparalitic

24

26

4. Se studiaz reaciile locale produse de dou tipuri de vaccin B.C.G.

n acest scop s-au supus observaiei 348 de copii, dintre care la 177 s-a
administrat vaccin de tip A, iar la 171 vaccin de tip B. Se dorete s se afle
dac diferenele dintre reaciile locale produse de aceste vaccinuri sunt
semnificative din punct de vedere statistic sau dac este vorba numai de o
fluctuaie de eantion.
Datele rezultate din observarea reaciilor locale sunt prezentate n
tabelul urmtor:
Tip vaccin
Reacie local

normal

12

29

intens

156

135

ulceraie

abces

180

Statistic inferenial exerciii recapitulative

5. S se testeze dac exist diferene semnificative statistic ntre femei

negravide, femei cu sarcini normale n luna a 9-a i femei cu disgravidii


tardive, privind valorile medii, n g/zi ale aldosteronului, cortizonului i
cortizolului.
Datele studiate sunt prezentate n tabelul urmtor:

Tip boal

tip gravid
sarcini
normale
79
96
55

negravide
4
15
25

aldosteron
cortizon
cortizol

disgravidii
tardive
24
37
33

7. n tabelul urmtor sunt trecute rezultatele unor observaii asupra unui


grup de 736 de persoane, n scopul stabilirii unei legturi ntre
persoanele supuse unui tratament mpotriva holerei i cele care
sufer de aceast boal:
Holer
Tratament
+
-

431

291

S se stabileasc dac tratamentul afecteaz numrul de persoane ce


sufer de holer, adic dac exist o asociere statistic semnificativ ntre
numrul de persoane ce sufer de holer i numrul de persoane supuse
tratamentului.
7. n urma aplicrii unui vaccin, s-a nregistrat numrul de persoane

care s-au mbolnvit i care nu s-au mbolnvit. De asemenea, s-a nregistrat

181

Anexa 2

i numrul persoanelor care s-au mbolnvit din rndul persoanelor


nevaccinate. Se pune problema: diferenele ntre bolnavii vaccinai i cei
nevaccinai sunt semnificative sau nu ?
Datele studiate sunt prezentate n tabelul urmtor:

8.

bolnavi

sntoi

vaccinai

20

74

nevaccinai

47

59

Se efectueaz un studiu pentru a vedea dac expunerea la un

pesticid din agricultur are efect n avortul femeilor.


Datele studiate sunt prezentate n tabelul urmtor:
Tip boal

Femei gravide
Cu avorturi
Fr
spontane
avorturi
spontane

expuse la pesticid

30
70

neexpuse

10
90

S se stabileasc existena unei eventuale legturi ntre expunerea la


pesticid i avortul femeilor.
9. Se studiaz efectul obinut asupra numrului de carii prin efectuarea

unui instructaj privind igiena oral unui numr de copii alei aleator. La 50
de copii li s-a fcut un instructaj privind igiena oral iar la 50 de copii alei
la ntmplare nu li s-a fcut acest instructaj. Peste 6 luni s-au numrat cariile

182

Statistic inferenial exerciii recapitulative

noi aprute. Se pune problema dac aplicarea instructajului privind igiena


oral are un efect asupra numrului de carii noi aprute.
Datele studiate sunt prezentate n tabelul urmtor:

numr de carii noi


Instructaj

0-1

2-3

4-5

30

15

20

15

15

10. S-a studiat asocierea dintre prezena anemiei la un lot de subieci

i grupa sanguin. Se pune problema: prezena anemiei este influenat de


grupa sanguin?
Datele studiate sunt prezentate n tabelul urmtor:
anemie
grupa sanguin

prezent

absent

10

30

12

18

15

15

AB

13

12

11. Se efectueaz un studiu pentru a stabili dac exist o legtur ntre

nivelul de severitate al cancerului de plmni i starea de fumtor sau

183

Anexa 2

nefumtor. Stabilii pe baza datelor urmtoare existena sau nu a unei


legturi:
Fumtori

Nefumtori

Stadiul 1

60

40

Stadiul 2

75

25

Stadiul 3

80

20

Nivelul de severitate al
cancerului

184

Corelaii i regresii exerciii recapitulative

Anexa 3 Corelaii i regresii, exerciii recapitulative


Interaciunea dintre dou variabile independente se refer la
diferenele aprute n valorile msurate ale unei variabile n funcie de
nivelul celei de a doua variabile. De exemplu, este posibil ca un medicament
s produc efecte mai bune dac este utilizat n combinaie cu un regim
alimentar de reducere a greutii, dect dac ar fi combinat cu un regim
alimentar nesrat. n schimb, s-ar putea s nu obinem efecte semnificative
ale medicamentului dac se studiaz toate grupurile alimentare la un loc.
Studiul efectelor medicamentului separat pe diferite regimuri alimentare ne
conduce la concluzia c exist ointeraciune ntre doi factori: regimul
alimentar i medicamentul.
Asociere i cauzalitate coeficientul de corelaie

n acumularea i evidena datelor tiinifice apar o serie de probleme


specifice, cum ar fi problema asocierii (dependenei) ntre dou variabile. Se
pune problema: exist o dependen ntre srcie i consumul de droguri ?
Este stresul asociat cu boli cardiovasculare ?
Pentru a determina dac exist sau nu o astfel de dependen, trebuie mai
nti s cuantificm, s msurm ambele variabile. De exemplu, stresul
poate fi cuantificat prin utilizarea unor teste psihologice sau prin definirea
clar, evaluarea i scalarea factorului de stres n situaiile din viaa de zi cu
zi. n ceea ce privete hipertensiunea, aceasta poate fi direct cuantificat prin
msurarea presiunii sanguine.

185

Anexa 3

Dup ce variabilele au fost cuantificate, este necesar calcularea unei


msuri a dependenei dintre ele, adic a triei dependenei. De obicei se
calculeaz coeficientul de corelaie r. Coeficientul de corelaie r este
un numr calculat direct din datele observate i poate varia ntre 1 i +1.
Dac xi sunt valorile msurate ale variabilei X i yi sunt valorile msurate
ale variabilei Y, atunci coeficientul de corelaie se calculeaz astfel:

unde n= numrul perechilor de date.


Putem ntlni urmtoarele situaii:
Dac coeficientul de corelaie este r = 0 , atunci nseamn c nu

avem nici o corelaie ntre cele dou variabile. De exemplu, nu exist nici o
legtur ntre presiunea sanguin i numrul de fire de pe cap.
Dac coeficientul de corelaie este r = +1 nseamn c avem o

corelaie pozitiv perfect, adic exist o dependen direct ntre cele dou
variabile. O persoan care are o valoare mare la prima variabil va avea o
valoare mare i la cea de a doua. De asemenea, valoarea unei variabile poate
fi prevzut exact pe baza valorii celei de a doua variabile. Un exemplu de
acest tip este corelaia dintre vrsta unui copac i numrul su de inele.
Dac coeficientul de corelaie este r = -1 atunci avem o dependen

invers perfect. O valoare mare a unei variabile nseamn o valoare mic a


celeilalte variabile.
Dac coeficientul de corelaie este ntre 0 i +1 sau ntre 1 i 0 ,

atunci valoarea lui r ne d tria dependenei celor dou variabile.

186

Corelaii i regresii exerciii recapitulative

Aceste considerente se aplic n cazul n care dependena dintre cele


dou variabile este liniar. Dac efectum, de exemplu, msurtori ale
nlimii i greutii pentru un grup de persoane i calculm coeficientul de
corelaie, vom obine o valoare pozitiv, dar o valoare mai mic dect 1.
Corelaie i cauzalitate.

Problema determinrii triei corelaiei dintre variabilele aleatoare


este o problem relativ dificil, ce depinde de domeniul aplicaiilor, precum
i de muli ali factori. Variabilele psihologice sunt mai dificil de msurat cu
exactitate i sunt afectate n general de multe alte variabile, fiind astfel
dificil de stabilit corelaiile dintre ele. Corelaiile dintre variabilele biologice
sunt n general mai tari, acestea avnd dealtfel i avantajul c pot fi
msurate cu mai mare precizie.
Ca un exemplu, corelaiile dintre aptitudinile verbale i cele nonverbale la copiii colari, msurate cu ajutorul unor teste standard, variaz
ntre 0,44 i 0,77 depinznd mediul de provenien al acestora i de clasa
social.
Pentru a stabili corelaii ct mai semnificative, trebuie identificate
situaiile care sunt responsabile, care cauzeaz aceste corelaii.
ATENIE ! Existena unei corelaii ntre dou variabile nu
implic n mod necesar cauzalitatea, aceasta se poate datora unor cauze
comune. Prin urmare trebuie avut grij la interpretarea acestor
coeficieni de corelaie.

187

Anexa 3

Reprezentarea grafic

Datele corespunztoare celor dou variabile studiate se pot


reprezenta grafic sub forma unui sistem de coordonate bidimensionale.
Microsoft Excel pune la dispoziie un astfel de grafic (diagram), numit XY
Scatter.
ntre cele dou variabile exist o corelaie puternic dac punctele
reprezentate grafic sunt grupate de-a lungul unei drepte (figura). Cu ct
punctele sunt mai alineate, cu att corelaia este mai puternic.
Valoarea critic a coeficientului de corelaie

n studiul statistic al corelaiei a dou variabile se pune urmtoarea


ntrebare: sunt cele dou variabile corelate semnificativ de tare din puncte
de vedere statistic?
Pentru a rspunde la aceast ntrebare trebuie calculat un prag critic.
Corelaia dintre dou variabile se va estima cu o marj de eroare numit
nivel de semnificaie, notat cu p . Cu ct p este mai mic, cu att riscul
(probabilitatea) de a grei este mai mic, deci estimarea este mai sigur. S
ne reamintim cteva noiuni importante:

evenimentul sigur - acel eveniment care va aprea

ntotdeauna, indiferent de situaie.

1 - reprezint probabilitatea ca s apar evenimentul sigur.

0 reprezint probabilitatea ca s nu apar evenimentul sigur.

probabilitatea de apariie a oricrui alt eveniment, diferit de


evenimentul sigur sau de evenimentul imposibil, variaz ca
valoare ntre 0 i 1.

188

Corelaii i regresii exerciii recapitulative

Numrul gradelor de libertate reprezint numrul de perechi de

date care se studiaz, minus dou.


Pragul critic reprezint valoarea coeficientului de corelaie peste care
se consider corelaia ca fiind semnificativ. Dac coeficientul de corelaie
depete acest prag critic, variabilele studiate se consider corelate.
Pragul critic depinde de numrul gradelor de libertate i de nivelul
de semnificaie.
Anexa 1 prezint tabelul cu pragurile critice pentru nivelele de
semnificaie 0,10 ; 0,05 ; 0,02 i 0,01.
Metoda practic de stabilire a corelaiei dintre dou variabile

Pentru a afla dac dou variabile studiate sunt corelate sau nu,
formulm urmtoarele ipoteze statistice:
H0: cele dou variabile studiate nu sunt corelate.
H1: cele dou variabile studiate sunt corelate.

n continuare se efectueaz paii urmtori:


1. Calculm coeficientul de corelaie r asociat datelor xi i yi ,cu ajutorul
formulei prezentate mai sus sau cu ajutorul programului Microsoft Excel i
anume utiliznd funcia CORREL(zona1; zona2).
2. Calculm numrul gradelor de libertate: numrul perechilor de date -2.
3. Analizm datele din tabelul din anexa 1. n acest tabel, pentru numrul
de grade de libertate calculat exist mai multe praguri de semnificaie: cte
unul pentru fiecare nivel de semnificaie i anume: pentru 0.10 , 0.05 , 0.02 ,
0.01. De exemplu, dac r calculat este mai mare dect una dintre valorile din
tabel, atunci cele dou variabile sunt corelate cu nivelul de semnificaie

189

Anexa 3

respectiv. Dac r este mai mare dect pragul critic pentru 0,05 atunci cele
dou variabile sunt considerate corelate cu un nivel de semnificaie de 0,05.
n general se urmrete s se obin o corelaie cu un nivel de semnificaie
ct mai mic. Cu ct nivelul de semnificaie este mai mic, cu att corelaia
este mai sigur i sunt mai puine anse s greim deoarece marja de eroare
este mai mic.
4. n toate aceste cazuri se respinge ipoteza H0 i se accept ipoteza H1

cu nivelul de semnificaie respectiv.


Dac r obinut este mai mic dect toate valorile din tabel, atunci

cele dou variabile sunt considerate necorelate. n acest caz se accept


ipoteza H0 . Cel mai des se utilizeaz nivelul se semnificaie 0,05 sau 0,01,

care sunt considerate suficiente.


S lum un exemplu ipotetic: studierea corelaiei dintre nivelul de
amfetamin din plasm i intensitatea psihozei.
Datele rezultate n urma msurtorilor sun cele din tabelul urmtor:
Nr.
subiect
1

Intensitatea psihozei

Concentraia amfetaminei n plasm (mg/ml)

10

150

30

300

20

250

15

150

45

450

35

400

50

425

15

200

40

350

10

55

475

190

Corelaii i regresii exerciii recapitulative

Reprezentarea datelor cu ajutorul unei diagrame scatter-plot este cea


din figur:

Intensitatea psihozei

60
50
40
30
20
10
0
0

100

200

300

400

500

Concentraia amfetaminei n plasm (mg/ml)

Figura A3.1. Reprezentarea grafic a datelor ntr-o diagram scatter-plot

Coeficientul r rezultat din calcul este 0,96738 . Numrul gradelor de


libertate este 10-2=8. n anexa 1, pragul critic pentru 8 grade de libertate i
nivelul de semnificaie 0,05 este 0,6319, iar pentru nivelul de semnificaie
0,01 este 0,7646.
REZULTAT

r > 0,7646 - se respinge ipoteza H0 i se accept ipoteza H1 cu un


nivel de semnificaie de 0,01.
CONCLUZIE

Intensitatea psihozei este corelat cu nivelul de Amfetamin din plasm.

191

Anexa 3

EXERCIII
1. Studiindu-se relaia dintre doza unui medicament (exprimat n
multipli ai unei doze minime) i durata bolii (exprimat prin numrul
de zile de boal), s-a obinut urmtoarea relaie:

Nr.
doz
durat
subiect
1
1
23,5
2
2
20,0
3
3
14,9
4
4
8,1
5
5
7,5
S se reprezinte grafic datele din tabel i s se verifice dac exist o

legtur ntre doza medicamentului i durata bolii.


2. S se aprecieze existena i gradul legturii dintre consumul de alcool
(vin n litri) pe cap de locuitor, pe lun, i vrsta medie de debut a
cirozei hepatice.

Datele colectate n urma studiului sunt prezentate n tabelul urmtor:


Nr.
subiect

1
2
3
4
5
6
7
8
9
10

litri de
vin
pe lun
7
8
8
10
12
13
15
15
15
16

192

Vrsta de
debut
a cirozei
56
55
58
55
52
51
50
48
45
40

Corelaii i regresii exerciii recapitulative

11
16
47
12
16
44
13
17
40
14
17
40
15
18
38
16
18
38
17
19
40
18
20
38
19
20
35
20
20
35
S se reprezinte grafic datele din tabel, sub form de diagram scatter.
3. S se aprecieze gradul i sensul legturii dintre temperatur i puls la
un lot de 20 de bonavi. Datele studiului sunt prezentate n tabelul
urmtor.
Nr.
subiect
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19

temperatur

puls

36,5
36,6
36,7
36,7
36,8
36,8
36,8
37,0
37,0
37,4
37,8
38,0
38,3
38,4
38,8
38,9
39,0
39,2
39,4

68
72
70
74
72
75
70
78
78
80
82
82
84
85
86
86
100
94
110

193

Anexa 3

20
39,6
120
S se reprezinte grafic datele din tabel, sub form de diagram scatter.
4. Urmtorul tabel conine informaii despre un lot de paciente
diagnosticate cu cancer de col uterin. Se cere s se precizeze dac exist
o legtur ntre vrsta la care a fost depistat cancerul de col uterin i
menarha (vrsta de nceput a menstruaiei) i s se reprezinte grafic
datele din tabel.
Nr.
subiect
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

vrsta

menarha

57
56
32
39
46
73
38
69
67
61
65
45
47
50
65
49
63
47
43
40
58
41
49
54
32

14
14
13
15
13
14
11
15
13
15
13
14
14
15
15
14
14
12
15
12
13
14
14
14
19

194

Corelaii i regresii exerciii recapitulative

Nr.
vrsta
menarha
subiect
26
50
12
27
50
14
28
49
14
6. ntr-un studiu cuprinznd cazuri de stenoz, s-au msurat valorile
IMT maxim i valoarea sistolic la diveri pacieni. Se pune problema
exist o legtur ntre valoarea sistolic i valoarea IMT maxim ?
Datele colectate n urma efecturii studiului sunt prezentate n tabelul
urmtor.
Valoarea
Nr.
IMT
sistolic
subiect
maxim
a tensiunii
arteriale
1
1,6
150
2
1,7
175
3
1,5
160
4
1,5
175
5
1,5
145
6
2,1
155
7
1,9
180
8
2,1
145
9
1,6
145
10
1,6
170
11
1,9
155
12
2,3
165
13
1,8
160
S se reprezinte grafic datele din tabel.
7. O companie farmaceutic a ncercat s evalueze relaia dintre doza
ingerat a unui nou medicament hipnotic i durata somnului. Datele
culese n urma studiului sunt prezentate n tabelul de mai jos. Exist o
legtur linear ntre aceste dou variabile?

195

Anexa 3

Nr.
subiect

durata
somnului
(ore)
1
4
2
6
3
5
4
9
5
8
6
7
7
13
8
11
9
9
S se reprezinte grafic datele din tabel.

doza
(mM/kg)

3
3
3
10
10
10
15
15
15

8. ntr-un eantion format din 10 persoane s-a msurat nlimea i


greutatea, pe baza crora s-a atribuit fiecrei persoane un rang
(poziie), n funcie de nlime i de greutate. Spre exemplu, a 8-a
persoan ca nlime este a 7-a ca i greutate. Se pune problema exist o
legtur ntre nlime i greutate ?
Datele colectate sunt prezentate n tabelul urmtor.
Nr.
nlime
subiect
1
3
2
1
3
2
4
8
5
5
6
9
7
10
8
6
9
7
10
4
S se reprezinte grafic datele din tabel.

196

greutate

1
2
3
7
6
8
10
5
9
4

Corelaii i regresii exerciii recapitulative

9. ntr-un studiu cuprinznd multe cazuri, s-a descris relaia dintre


durata sarcinii exprimat n sptmni i greutatea la natere (g).
Prezentm cteva dintre datele experimentale, care se refer la
perioada ntre sptmna a 26-a i sptmna a 37-a. Se cere s se
studieze statistic relaia dintre cele dou variabile. Datele colectate sunt

cele din tabelul urmtor. S se reprezinte grafic datele din tabel.


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

sptmna
26
27
28
28
29
29
30
31
31
31
32
32
32
33
33
34
34
35
35
36
37

197

greutatea
700
1050
1200
1230
1300
1325
1500
1600
1645
1640
1900
1920
1915
2100
2160
2300
2350
2500
2550
2700
2800

Anexa 4

Anexa 4 Exemple de studii epidemiologice.


Studiu de tip Case-Control

Studiul influenei unor factori de risc biologici infecia cu Helicobacter pylori n apariia unor limfoame
maligne (limfoame nonHodgkin LNH) n cazul populaiei
judeului Mure [22]
Ipoteza de lucru

Conform datelor din literatura de specialitate, H.pylori a fost


clasificat ca fiind un agent cancerigen cu rol n etiopatogenia cancerului
gastric, dar constatri mai recente au adus n atenie aceast bacterie ca
factor de risc n sfera etiopatogeniei limfoamelor.
Scopul studiului

Studiul prezenei infeciei cronice cu Helicobacter pylori la pacieni


cu limfoame nonHodgkin comparativ cu un lot martor.
Material i metod:

Studiul efectuat este de tip Case-control prospectiv i prezint


urmtoarele caracteristici :
-

este un studiu ce ncearc verificarea unor informaii cunoscute cu

privire la influena infeciei cu Helicobacter pylori, ca factor de risc n


apariia limfoamelor nonHodgkin
-

studiul a avut ca principal criteriu de grupare boala (limfoamele

nonHodgkin) i abia apoi expunerea (infecia)


-

a fost precedat de o analiz descriptiv a cazurilor

198

Exemple de studii epidemiologice

n ceea ce privete mrimea eantionului, n cazul acestui tip de

studiu am investigat un lot de 81 de bolnavi cu limfoame nonHodgkin,


respectiv un lot martor (81 de subieci)
-

n paralel am urmrit vrsta, sexul i mediul de provenien

(urban/rural) al subiecilor aflai n studiu, n ncercarea de a constata dac


aceti factori influeneaz n vreun fel apariia infeciei cronice cu H.pylori
-

analiza statistic preconizat a constat n calcularea Odds Ratio

(OR), respectiv a intervalului de ncredere pentru acesta (CI); OR i CI au


fost calculate folosind testul CHI2 cu corecie Yates.
n acest studiu, pentru depistarea infeciei cu H.pylori s-au efectuat
determinri serologice de anticorpi de tipul IgG prin metoda ELISA,
utiliznd kituri imunoenzimatice Diesse-Enzywell Helicobacter pylori, IgG.
Infecia acut cu H.pylori induce apariia anticorpilor de tip IgA, n timp ce
infecia cronic determin apariia anticorpilor de tip IgG.

Pentu acest studiu am ales infecia cronic cu H.pylori, care ar


putea avea relevan n etiopatogenia limfoamelor.
Pentru stabilirea infeciei cu Helicobacter pylori s-au folosit metode
serologice de tipul tehnicii ELISA pentru detectarea IgG anti-Helicobacter
pylori.
Studiul s-a efectuat pe cazuistica Clinicii Medicale I Tg.Mure pe
perioada 2001-2002. Lotul martor provine din cazuistica Clinicii de Boli
Infecioase II Tg.Mure unde s-au efectuat investigaiile pentru aceast
categorie de pacieni cu alte diagnostice decat cele hematologice.

199

Anexa 4

Diagnosticul

de

limfom

nonHodgkin

confirmat

clinic

anatomopatologic, a fost completat de investigaii serologice privind infecia


cu H.pylori.
Rezultate i discuii.

Lotul cu LNH cuprinde 81 de pacieni, 44 (54,32 %) brbai i 37


(45,68 %) femei. Vrsta acestora este cuprins ntre 20 i 78 de ani.
Tabel A4.1. Caracteristicile lotului cu LNH n funcie de sex

Lot cu LNH

Brbai

Femei

81

44

37

100 %

54,32 %

45,68 %

45,68%
54,32%

Brbai

Femei

Figura A4.1. Repartiia procentual pe sexe a lotului cu LNH

Un numr de 35 (43,20 %) de pacieni provin din mediul urban, iar


restul 46 (56,80 %) din mediul rural.

200

Exemple de studii epidemiologice

Tabel A4.2 Caracteristicile lotului cu LNH dup reziden

Lot cu LNH

Urban

Rural

81

35

46

100 %

43,20 %

56,80 %

56,80%
43,20%

Urban

Rural

Figura A4.2. Repartiia procentual a lotului cu LNH n funcie de

reziden
La pacienii cu LNH infecia cronic cu Helicobacter pylori este

prezent ntr-un procent ridicat, respectiv n 70,37 % din cazuri, n care


rezultatele serologice au fost pozitive pentru IgG. Din totalul de 57 de
bolnavi seropozitivi 34 sunt brbai i 23 femei; 35 de bolnavi provin din
mediul rural i 22 din mediul urban.

201

Anexa 4

Tabel A4.3. Caracteristicile bolnavilor seropozitivi din lotul cu LNH

Infecia cu H.pylori+

Nr.cazuri LNH

Procente

Masculin

34

59,65 %

Feminin

23

40,35 %

Urban

22

38,60 %

Rural

35

61,40 %

La lotul martor, infecia bacterian cronic este prezent ntr-un

procent ridicat, dar valoarea acestuia este totui mai mic, de 60,49 % n
comparaie cu cea a lotului cu LNH respectiv 70,37 %. Dintre pacienii
serpozitivi ai lotului de control, 29 au fost de sex masculin, iar 20 de sex
feminin; 13 proveneau din mediul rural i 36 din urban.
Tabel A4.4. Caracteristicile cazurilor seropozitive din lotul martor

Infecia cu H.pylori+

Nr.cazuri martor

Procente

Masculin

29

59,18 %

Feminin

20

40,82 %

Urban

36

73,47 %

Rural

13

26,53 %

202

Exemple de studii epidemiologice

ANALIZA STATISTIC: Infecia cu Helicobacter pylori la pacieni cu


LNH

Figura A4.3. Diagrama schematic a studiului infeciei cu H.pylori la


pacieni cu LNH
Tabel A4.5. Analiza statistic : Lot cu LNH (Total) Lot martor (Total)

Expune
re
(Infecia
cu

Lot cu LNH (Total) Lot martor (Total)


Boal (LNH)
Nu
Da
Da

57

203

49

Anexa 4

Nu

24

32

Rezultatele analizei statistice


Odds Ratio - OR
P
(CI 95 %)
1,551
0,247
(0,808;2,979)
Se poate observa o cretere nesemnificativ statistic a ratei de ans
(Odds Ratio) OR =1,551 pe totalul cazurilor (comparaie lot cu LNH -lot
martor), tendin ce confim rezultatele altor studii.
Tabel A4.6. Analiza statistic : Lot cu LNH (Masculin) Lot martor
(Masculin)

HELICOBACTER
PYLORI)

Expunere
(Infecia cu

Lot cu LNH (Masculin) Lot martor (Masculin)


Boal (LNH)
Nu
Da
Da

34

29

Nu

10

15

Rezultatele analizei statistice


Odds Ratio - OR
P
(CI 95 %)
1,759
0,344
(0,686;4,508)

204

Exemple de studii epidemiologice

Tabel A4.7. Analiza statistic: Lot cu LNH (Feminin) Lot martor


(Feminin)

HELICOBACTER
PYLORI)

Expunere
(Infecia cu

Lot cu LNH (Feminin) Lot martor (Feminin)


Boal (LNH)
Nu
Da
Da

23

20

Nu

14

17

Rezultatele analizei statistice


Odds Ratio - OR
P
(CI 95 %)
1,396
0,638
(0,553;3,530)
n cazul analizei statistice efectuate pe loturi grupate dup criterii
demografice se constat o cretere nesemnificativ statistic, dar de
magnitudine mare a OR, n cazul populaiei masculine (OR =1,759,
comparativ cu OR =1,396, n cazul populaiei feminine).
Tabel A4.8. Analiza statistic: Lot cu LNH (Urban) Lot martor (Urban)

Expune
re
(Infecia
cu

Lot cu LNH (Urban) Lot martor (Urban)


Boal (LNH)
Nu
Da
Da

22

205

36

Anexa 4

Nu

13

20

Rezultatele analizei statistice


Odds Ratio - OR
P
(CI 95 %)
0,940
0,999
(0,391;2,260)
Se constat o asociere negativ, nesemnificativ statistic factor de
risc-boal, n cazul populaiei urbane (OR = 0,940).
Tabel A4.9. Analiza statistic: Lot cu LNH (Rural) Lot martor (Rural)

HELICOBACTER
PYLORI)

Expunere
(Infecia cu

Lot cu LNH (Rural) Lot martor (Rural)


Boal (LNH)
Nu
Da
Da

35

13

Nu

11

12

Rezultatele analizei statistice


Odds Ratio - OR
P
(CI 95 %)
2,937
0,062
(1,041;8,284)
Se constat o cretere nesemnificativ statistic, dar de magnitudine
mare a OR, n cazul populaiei rurale (OR =2,937).
206

Exemple de studii epidemiologice

Concluzii

n cazul studiului privind influena infeciei cronice cu Helicobacter


pylori asupra apariiei limfoamelor nonHodgkin, se poate observa o cretere
nesemnificativ ns statistic a ratei de ans - OR pe totalul cazurilor
(OR=1,551), rezultate ce confirm datele altor studii. O magnitudine mare a
OR, nesemnificativ ns statistic, poate fi observat i n cazul populaiei

masculine (OR=1,759), respectiv n cazul populaiei provenite din mediul


rural ((OR=2, 937 o posibil explicaie fiind o igien mai precar n
mediul rural). Trebuie remarcat n acest context i asocierea negativ
nesemnificativ statistic ntre factorul de risc i boal, la populaia din
mediul urban.

207

Anexa 5

Anexa 5 - Valori critice pentru testul


pragului de semnificaie =0,05

1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
28.

161,
4
18.5
10,1
7,71
6,61
5,99
5,58
5,32
5,12
4,96
4,84
4,75
4,67
4.60
4,51
4,49
4,45
4,41
4,38
4,35
4,32
4,30
4,28
4,26
4,24
4,22
4,21
4,20

199,
5
19,0
9,55
6,94
5,79
5,14
4,74
4,16
4,26
4,10
3,98
3,88
3,80
3,74
3,68
3,63
3,59
2,55
3,52
3,49
3,47
3,44
3,42
3,40
3,38
3,37
3.35
3,34

215,
7
19,1
9,28
6,50
6,41
4,76
4,35
4,07
3,86
3,71
3,59
3,49
3,41
3,34
3,29
3,24
3,20
3,16
3,13
3,10
3,07
;
3,03
3,01
2,09
2,98
2,96
2,95

224,
6
19,2
9,12
6,39
5,19
4,53
4,12
3,84
3,63
3,48
2,38
3,26
3,18
3,11
3,06
3,61
2,96
2,93
2,90
2,87
2,84
2,92
2,80
2,78
2,76
2,74
2,73
2,71

230,
2
19,3
9,01
6,26
5,05
4,39
3,97
3,69
3,48
3,33
3,20
3,11
3,02
2,96
2,90
2,85
2,81
2,77
2,74
2,71
2,68
2,66
2,64
2,62
2,80
2,59
2,57
2,56

234,
0
19,3
8,94
6,16
4,95
4,28
3,87
3,14
3,37
3,22
3,09
3,00
2,92
2,85
2,79
2,74
2,70
2,66
2,63
2,60
2,57
2,55
2,53
2,51
2,49
2,47
2,46
2,41

208

F corespunztoare

8
238,
9
19,3
8,84
6,04
4,82
4,15
3,73
3,28
3,23
3,07
2,95
2,85
2,77
2,70
2,74
2,59
2,55
2,51
2,48
2,45
2,42
2,40
2,38
2,36
2,34
2,32
2,30
2,29

12

24

00

213,
9
19,4
8,71
5,91
4,68
4,00
3,57
3,28
3,07
2,91
2,79
2,69
2,60
2,53
2,48
2,42
2,38
2,34
2,31
2,28
2,25
2,23
2,20
2,18
2,16
2,15
2,13
2,12

249,
0
19,4
8,64
5,77
4,53
8,84
3,41
3,12
2,90
2,74
2,61
2,50
2,42
2,35
2,29
2,24
2,19
2,15
2,11
2,08
2,05
2,03
2,00
1,98
1,96
1,95
1,93
1,91

254,
3
19,5
8,53
5,83
4,36
3,67
3,23
2,93
2,71
2,54
2,40
2,30
2,21
2,13
2,07
2,01
1,96
1,92
1,88
1,84
1,81
1,78
1,76.
1,73
1,71
1,69
1,67
1,65

Anexa 5

29.
30.
40
60
120

4,18
4,17
4,08
4,00
3,92
3,81

3,33
332
3,23
3,15
3,07
2,99

2,93
2,92
2,84
2,70
2,68
2,60

2,70
2,69
2,61
2,52
2,45
2,37

2,54
2,53
2,45
2,37
2,29
2,21

209

2,43
2,42
2,34
2,25
2,17
2,09

2,28
2,27
2,18
2,10
2,02
1,94

2,10
2,09
2,00
1,92
1,83
1,75

1,90 1,64
1,89 1,62
1,79 1,51
1,70 1,39
1,61 1,25
1,52 1,00

Anexa 6

Anexa 6 - Valorile critice pentru testul


t Student
corespunztoare diferitelor praguri
de semnificaie i
numrului "n " al gradelor de libertate

Nivel de semnificaie pentru testul bilateral


n

a
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
35
40
45
50

0,50

0,20

0,10

0,05

0,02

0,01

0,002

0,001

0,0001

1,000
0,816
0,765
0,741
0,727
0,718
0,711
0.706
0,703
0,700
0,697
0,695
0,694
0,692
0,691
0,690
0,689
0,688
0,688
0,687
0,686
0,686
0,685
0,685
0,684
0,684
0,684
0,683
0,683
0,683
0,682
0,681
0,680
0,679

3,078
1,886
1,638
1,533
1,476
1,440
1,415
1,397
1,383
1,372
1,363
1,356
1,350
1,345
1,341
1,337
1,333
1,330
1,328
1,325
1,323
1,321
1,319
1,318
1,316
1,315
1,314
1,313
1,311
1,310
1,306
1,303
1,301
1,299

6,314
2,290
2,353
2,132
2,015
1,943
1,895
1,860
1,833
1,812
1,796
1,782
1,771
1,761
1,753
1,746
1,740
1,734
1,729
1,725
1,721
1,717
1,714
1,711
1,708
1,706
1,703
1,701
1,699
1,697
1,690
1,684
1,679
1,676

12,70
6
4,303
3,182
2,77
2,571
2,44
2,365
2,30
2,262
2,228
2,201
2,17
2,16
2,145
2,131
2,12
2,11
2,101
2,093
2,086
2,080
2,07
2,069
2,06
2,060
2,05
2,052
2,04
2,045
2,042
2,030
2,021
2,01
4
2,009

31,821
6,965
4,541
3,747
3,365
3,143
2,998
2,896
2,821
2,764
2,718
2,681
2,650
2,624
2,602
2,583
2,567
2,552
2,539
2,528
2,518
2,508
2,500
2,492
2,485
2,479
2,472
2,467
2,462
2,457
2,438
2,423
2,412
2,403

63,657
9,925
5,841
4,604
4,032
3,707
3,499
3,355
3,250
3,169
3,106
3,102
3,055
2,977
2,947
2,921
2,898
2,878
2,861
2,845
2,831
2,819
2,807
2,797
2,787
2,779
2,771
2,763
2,756
2,750
2,724
2,704
2,690
2,678

318,309
22,327
10,214
7,173
5,893
5,208
4,785
4,501
4,297
4,144
3,025
3,930
3,852
3,787
3,733
3,686
3,646
3,610
3,579
3,552
3,527
3,505
3,485
3,467
3,450
3,435
3,421
3,408
3,396
3,385
3,340
3,307
3,281
3,261

636,618
31,598
12,924
8,610
6,869
5,959
5,408
5,041
4,781
4,587
4,437
4,318
4,221
4,140
4,073
4,015
3,965
3,922
3,883
3,850
3,819
3,792
3,767
3,745
3,725
3,707
3,690
3,674
3,659
3,646
3,491
3,551
3,520
3,496

6366,198
99,992
28,000
15,544
11,178
9,082
7,885
7,120
6,594
6,211
5,921
5,694
5,513
5,363
5,239
5,134
5,014
4,966
4,897
4,837
4,784
4,736
4,693
4,654
4,619
4,587
4,558
4,530
4,506
4,482
4,389
4,321
4,269
4,228

210

Anexa 6
60
70
80
90
100
120
200
500
1000
oo
n

a
i

0,679
0,678
0,678
0,677
0,677
0,677
0,676
0,675
0,675
0,675
0,25

1,296
1,294
1,292
1,291
1,290
1,289
1,286
1,283
1,282
1,282
0,10

1,671
1,667
1,664
1,662
1,660
1,658
1,653
1,648
1,646
1,645
0,05

2,00
1,994
1,990
1,987
1,984
1,980
1,972
1,965
1,962
1,960
0,025

2,390
2,381
2,374
2,368
2,364
2,358
2,345
2,334
2,330
2,326
0,01

2,660
2,648
2,639
2,632
2,626
2,617
2,601
2,586
2,581
2,576
0,005

3,232
3,211
3,195
3,183
3,174
3,160
3,131
3,107
3,098
3,090
0,001

Nivel de semnificaie pentru testul unilateral

211

3,460
3,435
3,416
3,402
3,390
3,373
3,310
3,310
3,300
3,290
0,0005

4,169
4,127
4,096
4,072
4,053
4,025
3,970
3,922
3,906
3,891
0,00005

Anexa 7

Anexa 7 - Valorile critice pentru testul CHI 2 corespunztoare


diferitelor praguri de semnificaie i numrului "n " al
gradelor de libertate

a
l

0,990

0,975

0,950

0,900

0,100

0,050

9,025

0,010

0,001

0,0002 0,0010 0,0039 0,0198

2,71

3,84

5,02

6,63

10,83

2
3

0,02
0,12

0,05
0,22

0,10
0,35

0,21
0,58

4,61
6,25

5.99
7,81

7,38
9,35

9,21
11,34

13,82
16,27

0,30

0,48

0,71

1,06

7,78

9,49

11,14

13,28

18,47

5
8

0,55
0,87

0,83
1,24

1,15
1,64

1,61
2,20

9,21
10,64

11,07
12,59

12,83
14,45

15,09
16,81

20,62
22,46

1,24

1,69

2,17

2,83

12,02

14,07

16,01

18,47

24,32

1,65

2,18

2,73

3,49

13,36

15,51

17,53

20,09

26,13

9
10

2,09
2,56

2,70
3,25

2,33
3.94

4,47
4,87

14,68
15,99

16,92
18,31

19,02
20,48

21,67
23,21

27,88
29,59

11

3,05

3,82

4,57

5,58

17,27

19,67

21,92

24,72

31,26

3,57

4,40

5,23

6,30

18,55

21,03

23,34

26,22

23,91

13

4,11

5,01

5,89

7,04

19,81

22,36

24,71

27,89

34,53

14
15
16

4,66
5,23
5,81

5,63
6,26
6,91

6,57
7,26
7,96

7,79
8,55
9,31

21,06
22,31
23,54

23,6?
25,00
26,30

26,12
7,49
8,84

29,14
30,58
32,00

36,12
37,70
39,25

17
18

6,41
7,01

7,56
8,23

8,67
9,39

10,08
10,86

24,77
25,99

27,59
28,87

30,19
31,53

33,41
34,80

40.79
42,31

19
20

7,63
8,26

8,91
9,59

10,12
10,85

11,65
12,44

27,20
28,41

30,14
31,41

32,85
34,17

36,19
37,57

43,82
45,32

21

8,90

10,28

11,59

13,24

29,61

32,67

35,48

38,93

46,80

22

9,54

10,98

12,34

14,04

30,81

33,92

36,78

40,29

48,27

23

10,20

11,69

13,09

14,85

32,01

35,17

38,08

41,64

49,73

24

10,86

12,40

13,85

15,66

33,20

36,41

39,37

42,98

51,18

25

11,52

13,12

14,61

16,47

34,38

37,65

40,65

44,31

52,62

212

Anexa 7
26

12,20

13,84

15,38

17,29

.35,56

38,88

41,92

45,64

54,05

27

12,88

14,57

16,15

18,11

38,74

40,11

43,19

46,96

55,48

28

13,57

15,31

16,93

18,91

37,92

41,34

44,46

48,28

56,89

29

14,26

10,65

17/71

19,77

39,09

42,56

43,72

49,59

58,30

14,95

16,79

18,19

20,60

40,26

43,77

46,98

50,89

59,70

30

213

Anexa 8

Anexa 8 Soluiile exerciiilor propuse n anexe


Soluii: Anexa 1 - Statistic
4. p = 0,000000000011 - difer
descriptiv, exerciii recapitulative semnificativ
1. Media : 88
Amplitudinea : 41
Amplitudinea relativ: 46,59 %
Dispersia: 219,3333
Deviaia standard: 14,809
Coeficientul de variaie:16,82%
2. Media : 3000
Amplitudinea : 400
Amplitudinea relativ: 13,33%
Dispersia: 12121,2121
Deviaia standard: 110,096
Coeficientul de variaie: 3,67%
3. Media : 29,84
Amplitudinea : 20
Amplitudinea relativ: 67,024 %
Dispersia: 13,48180905
Deviaia standard: 3,671
Coeficientul de variaie: 12,305%

5. p = 0,0087 - difer semnificativ


6. p =0,060 - nu difer
7. p = 0, 0008 - difer semnificativ
Testul CHI2
1. p =0,560 - nu exist o legtur
2. p = 0,674 - nu exist o legtur
3. p = 0, 252 x10-10- exist o legtur
4. p = 0,032 - exist o legtur
5. p = 0,000124 - exist o legtur
6. p = 0,0705 - nu exist o legtur
7. p = 0,00056 - exist o legtur
8. p = 0,0000077 - exist o legtur
9. p = 0,0301 - exist o legtur
10. p = 0,0896- nu exist o legtur

Soluii: Anexa 2 - Teste statistice 11. p = 0,0048 - exist o legtur


de
semnificaie,
exerciii
recapitulative
Soluii: Anexa 3 - Corelaie i
regresie, exerciii recapitulative
Testul Student
1. p = 0,313- nu difer semnificativ

1. p = - 0,979 - corelate

2. p = 0,0095- difer semnificativ

2. p= - 0,949 - corelate

3. p = 0,135 - nu difer

3. p = 0,901 - corelate
4. p = - 0,092 - necorelate
214

Anexa 8

5. p = 0,985 - corelate
6. p = - 0,0128 - necorelate
7. p = 0,900 - corelate
8. p = 0,915 - corelate
9. p = 0,994 - corelate

215

Bibliografie selectiv

Bibliografie selectiv
1. *** - NIST/SEMATECH e-Handbook of Statistical Methods, 2005,
National Institute of Standards and Technology,
http://www.itl.nist.gov/div898/handbook/
2. *** - Farmacopeea Romn, ediia a-X-a, Editura Medical Bucureti
1993
3. *** - How Grubbs' test works, articol disponibil online pe website-ul
firmei GraphPad Software,
http://www.graphpad.com/library/BiostatsSpecial/article_39.htm
4. *** - Introduction to Epi principles, Innovations in Health Education
USA website, copyright Henry Ford Health System, 2004, carte
disponibil online pe website-ul IIHE,
http://www.iihe.org/education/lectures/epidemiology/default.htm
5. *** - Normality tests use with caution, articol disponibil online pe
website-ul firmei GraphPad Software,
http://www.graphpad.com/library/BiostatsSpecial/article_197.htm
6. Baker R. J. - Basic principles of statistical analysis, carte disponibil
online pe website-ul University of Saskatchewan, Canada,
http://homepage.usask.ca/~rjb609/stats.html
7. Baron T. et al. Statistic teoretic i economic, Editura Didactic i
Pedagogic, Bucureti, 1996
8. Dallal G.E. - The Little Handbook of Statistical Practice, 2001, carte
disponibil online pe website-ul Tufts University, USA
http://www.tufts.edu/~gdallal/LHSP.HTM
216

Bibliografie selectiv

9. Douglas G. A. - Practical Statistics for Medical Research, CRC Press,


1990
10. Hopkins W. G. - A New View of Statistics, 2004, carte disponibil
online pe website-ul http://www.sportsci.org/resource/stats/index.html
11. Mruteri M. Biostatistic - aplicaii practice i exerciii

recapitulative pentru studenii colii Doctorale, curs online disponibil


pe situl UMF Trgu Mure,
http://www.umftgm.ro/statdoct/biostatistica_lp.pdf
12. Mruteri M. Biostatistic - note de curs pentru studenii colii

Doctorale - curs online disponibil pe situl UMF Trgu Mure,


http://www.umftgm.ro/statdoct/biostatistica_curs.pdf
13. Mruteri M. Noiuni de biostatistic, n Maria T. Dogaru (sub
redacia) Farmacologie experimental, Litografia UMF Trgu Mure,
1998
14. McCurdy St., Patrick R. - Clinical Epidemiology and Study Design,
2006, carte disponibil online pe website-ul UCDavis School of
Medicine, USA, http://som.ucdavis.edu/students/k30/folder.2004-0621.4913658468/
15. Motulsky H. - InStat guide to choosing and interpreting statistical tests,
GraphPad Software, 2004, carte disponibil online pe website-ul firmei
GraphPad Software http://www.graphpad.com/Downloads/InStat3.pdf
16. Motulsky H. Intuitive Biostatistics, Oxford University Press, 1995
17. Motulsky H., Christopoulos A. - Fitting Models to Biological Data

Using Linear and Nonlinear Regression, Oxford University Press, 2004,

217

Bibliografie selectiv

carte disponibil online pe website-ul firmei GraphPad Software


http://www.graphpad.com/manuals/prism4/RegressionBook.pdf
18. Saporta G., tefnescu Viorica Analiza datelor & informatic, Editura
Economic, Bucureti, 1996
19. Simionovici M., Crstea Al., Vldescu C. Cercetarea farmacologic i

prospctarea medicamentelor, Editura Medical, Bucureti, 1983


20. Stockburger D. W. - Introductory Statistics: Concepts, Models, And

Applications, 1996, carte disponibil online pe website-ul Missouri State


University USA, http://www.psychstat.missouristate.edu/sbk00.htm
21. Swinscow T.D.V. - Statistics at Square One, BMJ Publishing Group,
1997, carte disponibil online pe website-ul
http://bmj.bmjjournals.com/collections/statsbk/index.shtml
22. Tilinc Mariana, Mruteri M., Brnzaniuc Klara Studiu privind

efectul radiaiilor ionizante accidentale asupra populaiei judeului


Mure, Revista de Medicina si Farmacie Targu Mures, vol. 52/2006, pp.
117-122, ISSN 1221-2229
23. Varkevisser C. M., Pathmanathan Indra, Brownlee Ann - Choosing A

Significance Test, n Designing And Conducting Health Systems


Research Projects: Volume 2, 2003, carte disponibil online pe websiteul International Development Center, Canada, http://www.idrc.ca/en/ev33013-201-1-DO_TOPIC.html
24. Zar J. H. - Biostatistical Analysis (4th Edition), Prentice Hall, 1998

218

ISBN (10) 973-7665-11-2


ISBN (13) 978-973-7665-11-9

S-ar putea să vă placă și