Sunteți pe pagina 1din 23

5.

Biostatistica
5.1. Concepts de baza in biostatistica>
Biostatistica: este disciplina care ii propune studiul caracteristicilor unci populatii.
Individ: element al unei multimi.
Populatie (colectivitate statistica): reprezinta ansamblul tuturor indivizilor la care se refera
studiul care au eel putin o proprietate comuna.
Eantion: grup, lot, submultime din populatie.
E$antion reprezentativ: eantionul care contine proportional indivizi reprezentand toate
caracteristicile populatiei.
Distributia eantionului: reprezentare grafica bidimensionala a valorilor studiate dintr-un
eantion. O distribute foarte des intalnita (ex. Inaltimea oamenilor dintr-o populatie) este reprezentata
printr-o curba simetrica fata de valoarea medie, nurnita clopotul lui Gauss" sau distributia normala".
Inferenta statistica
o operatia de generalizare a caracteristicilor unui eantion reprezentativ la
nivelul intregii populatii; o operatia fundamentala a statisticii duce la concluzii eronate
daca eantionul nu este eantion reprezentativ.

5.1.1. Metode de studiu ale biostatisticii


Recensamant
o metoda de determinare exacta a caracteristicilor populatiei; o operatie laborioasa i
foarte costisitoare, utilizata rar, pentru culegerea unor date exacte strict necesare;

Screening
depistarea in cadrul unei populatii a indivizilor avand o abatere deosebita a
unui parametru; depistarea precoce a unei
afectiuni grave;
e o o

75

eficienta create prin alegerea unei selectii din populatie conform unor factori de rise;

Selectie

pentru studiu se alege din populatie o submultime numita eantion (lot, grup), iar
masuratorile sunt facute doar pe indivizii lotului studiat.

5.1.2. Variabile statistice. Clasiflcare


Definitie: marimile asupra carora este orientat un studiu i se culeg date poarta nurnele de
variabile sau caracteristici.
'x
Variabilele nuinerice (cantitative) sau cardinale: inaltimea, greutatea, frecventa cardiaca,
tensiunea arteriala. Ele pot fi: scara proportionate (aceeai origine, indiferent de unitatea de inasura)
sau scara de intervale (C i F).
Variabilele cantitative mai pot fi clasificate In variabile continue (glicemie, colesterol) i
variabile discrete (frecventa cardiaca, tensiunea arteriala).
Variabile ordinate (rang): numere conform unei scari conventionale - nota (unui student),
ierarhia (in scara Luscher, de preferinta a culorilor).
Variabile calitative (noniinale): nume, grupa sanguina, sex.

5.1.3. Etape de cercetare a unui studiu statistic

Culegerea datelor

Observarea statistics

Sistcmatizarea datelcr
CaiculuJ indicaiorilor

Prelucrarea statistics

f
Analiza 51

interpretarea statistics

Prezentarea datelar prin


tabele, serii, grafice
Compararea da! el or teste
statistice analiza
corelajici analiza
riscului

Form area concluziilcr


intregii cercet&ri

asupra

e e

76

5.2. Parametrii statistici


5.2.1. Indicatorii tendintei centrale
a) Media aritmetica simpla
Definitie: media aritmetica simpla este valoarea medie care se obtine din suma valorilor
individuale dintr-o colectivitate omogena, divizata la numarul total al cazurilor studiate.

T] Xn
M =---------N

Formula de calcul:

(5.1)

In aceasta formula a mediei aritmetice simple, notata prin simbolul M n, valorile corespund lui X,
iar suma lor se noteaza ciiE (sigma), frecventa sau numarul de cazuri de la numitor fiind notate cu N.
b) Media aritmetica ponderata
Definitie: media aritmetica ponderata este valoarea medie care se obtine din suma produsului
valorilor dintr-o colectivitate omogena, cu frecventele corespunzatoare, divizata la numarul total al
cazurilor studiate.
M
Mp =-----------

Formula de calcul:

(5.2)

Fi = frecventa valorii Xi
c) Median a
Definitie: mediana este o valoare medie, care se utilizeaza in serii mari de valori, cu nivele
apropriate, deci colectivitati omogene. Mediana imparte seria de valori ordonata in doua jumatati
egale.

N+l
Me =--------

Formula de calcul:

(5.3)

in formula medianei, simbolul N corespunde numarului de intervale ale seriei de valori. In cazul
seriei de valori cu termeni impari, mediana va corespunde exact valorii de la mijlocul seriei. in serii de
valori cu termeni perechi, mediana va corespunde mediei aritmetice simple a celor doua valori de la
mijlocul seriei.
d) Moda
Definitie: moda este o valoare medie corespunzatoare frecventei maxime a unei serii de
distribute. Calculul se efectueaza simplu, luand valoarea cu frecventa maxima, drept valoare medie.

Formula

de

calcul:

Mo

(5.4)
Mo = modulul, Xp = media ponderata, Me = mediana.

e) Quantilele


77

Xp

3(Xp

Me)

Definitie: quantilele separa seria statistics in n" parti (cuante), cuprinzand acelai efectiv, egal
cu 1/n din efectivul total.

Q\,Q2,Q3-

a)

Quartilele

n=4, Q2=Me

b)

Decilele D1...D9 - n=10, D5=Me

c)

Centilele C1...C99 - n=100, C50=Me

d)

Promile P1...P999 - n=l 000, P500=Me.

Foarte rar este posibil a Intalni i aid indicatori ai tendintei centrale: media armonica, media
cronologica i media geometric!

5.2.2. Indicatorii de dispersie


Aprecierea tendintei pe care o au valorile frecventelor de a se situa in jural unei valori ce
caracterizeaza fenomenul cercetat este permisa de valorile medii. Numai cunoaterea valorilor medii
nu este suficienta pentru a caracteriza fenomenele biologice, ce cunosc o mare variabilitate.
De aceea, este necesar, sa cunoatem i tendinta pe care o au valorile unor frecvente de a se
Indeparta de ceea ce este caracteristic (dispersia valorilor), deci aria sau intervalul valoric, in jural
mediei, in care se distribuie valorile frecventelor. Acest interval valoric se apreciaza cu ajutorul
constantelor de dispersie. Se cunoate in general ca, cu cat intervalul valoric In care se distribuie
frecventele unui fenomen este mai mic, cu atat eantionul este mai omogen, iar valorile medii sunt
mai reprezentative.
Cele mai frecvente constante de dispersie sunt: rangul sau amplitudinea, deviatia standard,
eroarea standard a mediei, coeficientul de variatie.

a) Rangul sau amplitudinea


Definitie: Rangul este constanta ce masoara intervalul in interioral caruia se distribuie valorile
frecventelor in jural mediei. Amplitudinea este definita ca fiind diferenta dintre valoarea minima i
maxima a frecventelor fenomenului cercetat.
Rangul este o constanta orientativa de dispersie, ce are avantajul ca se obtine rapid, dar este
insuficient de precisS, caci depinde de valorile extreme, care adeseori sunt intamplatoare. In
eantioanele normal distribuite, cu cat amplitudinea sau rangul are valori mai mici, cu atat
eantioanele sunt mai omogene, i invers, cu cat amplitudinea are valori mai mari, eantioanele sunt
mai neomogene, cu o dispersie mai mare.

b) Deviatia standard
Definitie: deviatia standard, notata S, reprezinta gradul de variatie a valorilor individuale in
jural mediei e?antionului.

ooo
78

Deviatia standard se obtine extragand radacina patrata din suma abaterilor de la media aritmetica
a valorilor frecventelor, ridicate la patrat, raportata la numarul frecventelor.

Formula de calcul: S =

(5.5)

(5.6)

(5.7)

= deviatia standard
X, - X = abaterea de la medie a unei valori individuale
= numarul frecventelor

c) Eroarea standard a mediei


Definitie: eroarea standard a mediei, notata S^, reprezinta gradul de variatie al mediilor

eantioanelor in jurul mediei populatiei.

Formula de calcul pentru e$antioane mari: S- = j=


Formula de calcul pentru e$anlioane mici:
79

Vn

-1

unde S = deviatia standard, n = nr. de indivizi din eantion, N = volumul populatiei.

d) Coeficientul de variatie
Datorita faptului ca deviatia standard este exprimata in unitap de masura diferite, specifice
fenomenelor pe care le cercetam, ea nu poate fi utilizata in aprecierea comparative a doua sau mai multe
eantioane, sub aspectul omogenitatii.
Astfel, in aceasta situatie se recurge la coeficientul de variatie, care nu este altceva decat deviatia
standard exprimata procentual.
Definitie: coeficientul de variatie (CV) este raportul dintre valoarea deviatiei standard i media
(aritmetica sau ponderata), exprimat procentual.

Formula de calcul:

CV = iL-100 X

CV = coeficientul de variatie S =
deviatia standard

(5.8)

-1

X = media (aritmetica sau ponderata)


Cu cat valoarea procentualS a coeficientului de variatie este mai mica, cu atat e?antionul pe
care s-a lucrat e mai omogen.

Evaluarea C.V. se considers ca un coeficient de variatie cu valori sub 10% indica o


dispersie mica. Un coeficient de variatie cu valori cuprinse intre 10% i 20% indica o dispersie medie.
Valorile peste 20% ale coeficientului de variatie, indica o dispersie mare, o lipsS aproape totala de
omogenitate.

5.3. Teste statistice

5.3.1. Generalitati
Pentru a stabili daca douS sau mai multe rezultate obtinute pe eantion sunt asemanatoare sau din
contra, diferS semnificativ intre ele, ne folosim de comparatia statistica, prin intemediul testelor
statistice.
Diferentele observate in cursul unor studii pot fi clasificate in doua categorii:
a.

diferente ce pot fi atribuite intamplarii (variability de eantioane), acestea sunt


numite diferente nesemnificative.

b.

diferente ce pot avea alte cauze numite diferente semnificative.

5.3.2 Ipoze statistice


Plecand de la realitatea InconjurStoare, formulSm diferite ipoteze pe baza informatiilor primite,
ipoteze care mai apoi trebuie verificate sau testate. Abia dupa verificarea lor, care reprezinta un proces
complex, ipoteza respective capStS atributul de ipotezS adevSratS. Din punct de vedere statistic,
consideram notiunea de ipoteza tot In acelai mod, numai ca acum ea vizeaza contextul statistic, deci
face referire la fenomene i relatii ce privesc populatiile statistice. Concret, este vorba de ipoteze privind
repartitii de probabilitate, valoarea unor parametri statistici sau legaturile dintre acetia, plecand de la
observatiile facute pe un eantion din populatie. In acest caz, verificarea sau testarea ipotezei se face pe
baza informatiilor de sondaj.
In principiu, o testare statistics (adica verificarea statistics a unei ipoteze) se bazeaza pe
confruntarea a doua ipoteze opuse.
Definitie: ipoteza statistics este o propozitie continand o afirmatie sau o negatie, privind un
parametru al unei populafii sau o lege de distribute.
a) ipoteza nula H 0
Cand comparam doua valori medii ( X,,X 2 ), ipoteza de zero se poate scrie: H 0 : X, =
X 2 ; diferentele sunt nesemnificative.

oo
80

Afirma ca nu exista nici o diferenta semnificativa intre datele comparate, diferenta obtinuta
datorandu-se doar intamplarii, cu alte cuvinte aceasta ipoteza se refera la faptul ca, in contextul
respectiv, avem o situatie normala. De exemplu, atunci cand comparam media de sondaj cu media
cunoscuta a populatiei, ipoteza nula afirma ca nu exista o diferenta semnificativa intre cele doua valori,
deci eantionul este reprezentativ pentru populatia originara; in cazul a doua eantioane, in contextul
compararii anumitor parametri, ipoteza nula afirma ca ainbele eantioane apartin aceleai populatii, deci
diferenta intre parametrii respectivi este nula.
b) ipoteza alternative H a
Afirma contrariul ipotezei nule, adica efectul comparatiei este nenul, deci exista diferente
semnificative, nedatorate hazardului, privind datele considerate.
Ipotezele alternative se pot exemplifica, mai simplu, in cazul compararii a doua valori medii (X t, X2
). Avem situatiile:
a.

X , ^ X 2 : valoarea medie X , este diferita de valoarea medie X 2

b.

X [ > X , : valoarea medie X, este mai mare decat valoarea medie X 2

c.

X | < X 2 : valoarea medie X , este mai mica decat valoarea medie X 2

5.3.3. Prag de semnificatie, coeficientul p


Pentru a stabili daca diferentele sunt semnificative sau nu, trebuie sa ne alegem un prag al
probabilitatii, numit prag de semnificatiefi, cu ajutorul caruia stabilim latimea intervalului in care
consideram ca avem fluctuatiile datorale intamplarilor; daca valoarea de comparat va fi inclusa in acest
interval, spunem ca diferentele sunt nesemnificative i acceptam ipoteza de zero.
In majoritatea studiilor in medicina i biologie, conventional este satisfacatoare valoarea a = 0.05.
Dupa stabilirea ipotezei de zero, care presupune, in principiu, ca nu exista nici o diferenta
semnificativa intre variabilele comparate, se trece la interpretarea rezultatului obtinut dupa procesarea
datelor. In acest context ne intereseaza calculul coeficientului p care reprezinta probabilitatea ca ipoteza
de zero sa fie adevarata sau diferentele sa fie nesemnificative.

5.3.4. Decizia unui test statistic


Formularea deciziei unui test statistic in functie de valoarea lui p:
a.

p>= a acceptam H 0 , deci diferentele sunt nesemnificative

b.

p< a respingem H0, deci diferentele sunt semnificative

Pentru a=0.05, atunci cand respingem ipoteza de zero se incearca o gradare a diferentelor
semnificative.
o

SI

p > 0.05 Diferente nesemnificative

Echivalent cu probabilitate >5%

Acceptam
(diferenje
nesemnificative
variabilele comparate)

p < 0.05 Diferente semnificative


TABELUL
5.1.cu
Decizia
unui test statistic.
Echivalent
probabilitate
<5%

intre

Respingem
(diferen{e semnificative intre variabilele
comparate)

p < 0.01 Diferente foarte semnificative

Echivalent cu probabilitate <1%


p < 0.001 Diferente extrem de semnificative

Echivalent cu probabilitate <0.1%

5.3.5. Erori statistice. Caracteristicele testelor statistice

a. Erori de tip /, a caror probabilitate se noteaza cu a


Este probabilitatea ca sa respingem ipoteza nula, atunci cand ea este adevarata; valoarea lui ct
este aleaslnainte de a Incepe analiza i uzual este considerata 5%; decizia este greita in acest caz rezultat fals pozitiv".

b. Erori de tip I I, a caror probabilitate se noteaza cu p


Se refera la probabilitatea de a accepta ipoteza nula, atunci cand ea este falsa; valoarea lui P
depinde alt de marimea efectului analizei (i.e. a diferentei obtinute in analiza) cat i de volumul
eantionului; decizia este greita In acest caz - rezultat fals negativ".

Definitii ale caracteristieelor


Nivel de tncredere
Definitie: Valoarea 1 - a se numete nivel de incredere sau nivelul de confidents al testului; a
reprezinta pragul de semnificatie sau probabilitatea erorii de tip I reprezinta capacitatea de a accepta o
ipoteza cand aceasta este adevarata.
Puterea testului
Definitie: Valoarea I - p se nui^fee puterea testului, unde p repreaint probabilitatea erorii de
tip II i reprezinta capacitatea de a respinge o ipoteza cand aceasta este falsa.

5.3.6. Clasificarea testelor statistice


Testeie statistice se clasifica in functie de distributia valorilor comparate, in:
Teste parametrice - prin care se compara valori cu distribute cunoscuta (de obicei
distributia normala).
Teste neparametrice - prin care se compara valori cu distribute necunoscuta.
Testeie statistice se clasifica in functie de valorile comparate, in:

Teste de semnificatie - prin care se verifica egalitatea unui parametru estimat cu o


valoare data.
Teste de omogenitate - prin care se compara doi parametri.

Teste de concordanta - prin care se compara o distribute experimental^ (valori


obtinute prin sondaj) cu una teoretica (valori corespunzatoare unei functii matematice
de distribute), sau se compara doua distributii experimentale.

Teste de independents - prin care se verifica independenta unor serii de valori


experimentale.

Teste pentru corelatii - prin care se evalueaza semnificatia parametrilor estimati in


analiza corelatiei.

5.3.7. Testeie uzuale folosite in medicina ( pornind de la valorile comparate)


>

Cand se compara o valoare medie cu o valoare data:


Ipoteza de zero:

X=X

Test utilizat: testul Z cand n > 30, testul t (student) cand n < 30.

>

Cand se compara doua valori medii din doua serii diferite:


Ipoteza de zero: H 0 : X, = X 2
Conditii: S, = S 2 ; se poate N,

N2

Grade de libertate: v = N, + N

-2

Test utilizat: parametric - testul t nepereche, neparametric - testul Mann - Whitney. Testul
Mann - Whitney este echivalentul neparametric al testului t nepereche. Pentru loturi mai mari
rezultatul obtinut este acelai ca in cazul testului t.

O0

83
> Cand se compara doua valori medii, din doua serii obtinute pe aceia$i indivizi in
doua conditii diferite:
Ipoteza de zero: H0 : X, = X2
Conditii: valori perechi Xn,Xp reprezinta valorile obtinute pe individul i in conditiile 1,
respectiv 2.
intotdeauna N, = N 2 = N
Grade de libertate: v = N - 1 Testul utilizat: testul t pereche.

> Cand se compara doua mediane sau doua serii ordinale Ipoteza de zero: H0 : Mel = Mc2
Testul utilizat: testul Wilcoxon - aplicat astfel: pentru serii independente: testul suma rangurilor"
(rank sum) pentru serii perechi: testul seinnul rangurilor" (signed ranks test).
1

82

> Cand se compara n valori medii


Ipoteza de zero: H0 : X, = X2... = Xn
Test utilizat: ANOVA (ANalysis Of VAriance - analiza variantei")
ANOVA se aplica pentru testarea egalitatii a n valori medii in doua moduri: analiza unifactoriala
one-\vay analysis" - pentru n serii independente obtinute pe Ioturi diferite, analiza bifactoriala
two-way analysis" - pentru n serii dependente obtinute pe acelai lot in n conditii.
a. Analiza unifactoriala
Variante
i) parametrica: testul t nepereche generalizat pentru n serii
ii) neparametrica: testul Kruskal - Wallis.
b. Analiza bifactoriala
Variante
i) parametrica: testul t pereche generalizat
ii) neparametrica: testul Friedman.

> Cand se compara doi sau n indicatori de dispersie


Testele de semnificatie pentru valori medii presupun o egalitate statistics a dispersiilor seriilor care
trebuie testate inainte de aplicarea testului pentru medii.
Testeie cele mai utilizate pentru compararea indicatorilor de dispersie sunt: doua deviapi standard; n
deviatii standard obtinute pe serii diferite; n deviatii standard obtinute pe acelai lot.
a.

Cand se compara doua deviatii standard:

Ipoteza de zero: H0 : S, = S-,


Test utilizat: testul F-Fischer-Snedecor
b.

Cand se compara n deviatii standard obtinute pe serii diferite:

Ipoteza de zero: H0 : S, = S2 = ... = Sn Testul


utilizat: testul lui Bartlett
c.

Cand se compara n deviatii standard obtinute pe aceea$i indivizi:

Ipoteza de zero: H0 : S t = S t =... = Sn Testul


utilizat: testul lui Cochran.

> Cand se compara proportii


In cazul variabilelor nominale calitative, indivizii din intregul eantion sunt grupati in diferite
clase, fiecare clasa avand caracteristica o proportie (procent). Daca impartirea se face nuniai in doua
clase, distributia se numete binominala, daca se imparte in mai multe clase se numete multinominala.
Cel mai utilizat test cand se compara doua i n proportii este testul %2: Ipoteza
de zero: P' ~~
Testul utilizat: testul y2-

5.4. Cor el ati a regresia liniara 5.4.1.


Introducere. Istoric
Definitie: Corela(ia statistica, in termeni generali, este utilizata pentru a defini dependenta sau
Iegatura intre variabile observate in populatii statistice. Este o metoda de descriere i analiza a legaturilor
de tip statistic intre doua sau mai multe variabile. Termenul corelatie ,> acopera ca semnificatie orice
Iegatura statistica, fie intre variabile cantitative, fie intre variabile calitative.

Prima individualizare a ideii de dependenta intre variabile observate in colectivita^i statistice este
atribuita lui Francis Galton. Intr-o lucrare asupra ereditapi, comunicata in anul 1877, arata, prin studierea
plantei Lathyrus odoratus (sangele voinicului) ca talia medie a descendentilor este Iegata liniar de talia
ascendentilor. in studii ulterioare asupra ereditatii umane, el utilizeaza notiunea de variatie legata i
imagineaza, eel
o
85

dintai, o metodS statistics practicS de exprimare a legSturii, cunoscuta sub denumirea de functia lui
Galton. Acelai autor introduce i termenul de regresie, Tn anul 1886, cand, studiind rela|ia dintre talia
copiilor nSscuti i talia pSrintiilor, a stabilit ca din pSrinti a caror taiie este mai mica decat media
colectivitStii provin copii cu talie superioara lor i invers. Autorul constats cS inSltimea copiilor nascuti
din parinti inalti tinde sS regreseze" spre inSlpmea medie a populatiei. In acest context, a utilizat
termenul de regresie pentru a denumi procesul general de predictie a unei variabile (inSltimea copiilor)
dintr-o alts variabilS (inSltimea parintilor).
Inspirat de lucrSrile lui Galton, K. Pearson cerceteazS repartitiile bidimensionale, mai ales in
domeniul biologiei, descriind ecuatia liniei drepte adecvata notiunii de regresie a lui Galton $i introduce
celebrui sSu coeficient de corelatie.

5.4.2. Diagrama de dispersie


Cea mai simplS modalitate de abordare a problemei corelatiei este reprezentarea graficS, pe un
sistem de axe rectangulare Ox i Oy pe care vom marca valorile celor douS mSrimi investigate, de
exemplu greutatea i inSltimea. P"iecare individ va fi reprezentat printr-o pereche de valori, pe abscisa
i pe ordonatS, iar in cadranul graficului printr-un punct. Ansamblul populatiei va fi reprezentat printr-un
nor de puncte, care vizualizeaza dispersia populatiei studiate (fig. 5.1).

100
95 "
90 G

85 -

RE

80 _

UT

75

AT

70

EA

6S

(KG)

60

Ii

55

50
165

I
x

160
170

180

175
tNALTIMEA (cm)

Figura 5.1. Diagrama de dispersie.

5.4.3 Corelatia Iiniara. Coeficient de corelatie


In cazul in care consideram cS punctele dintr-o diagrams de imprStiere se situeazS pe o
dreaptS, corelatia se numete corelatie liniarS.

ooa
86

Legatura dintre variabilele numerice studiate poate fi apreciata printr-un indicator numit coeficient
de corelatie Pearson.
Coeficientul de corelatie se calculeaza:
s

r=r=
xy

xy

S(X, -X)(Y i - Y)

STJif V k x , - x ) 2

(5.9)

cu
S ;siS 2 v .
' , numite vananta lui x, respectiv y:
g2

Z(X,-X)2 ,,

Z(Yj - Y) 2
v

(5.10)

. S xv . . . .
1 1 , numita covarianta intre x i y:
Z(X: -X)(Y: -Y)
y

-----------------L
N

(5.11)

Coeficientul de corelatie Pearson arata numai in ce masura datele experimentale se potrivesc unei
reprezentari descrise de o dreapta; deci o valoare scazuta a lui r nu inseamna neaparat corelatie slaba ci
corelatie liniara slaba.

5.4.4. Proprietatile coeficientului de corelatie


o ia valori cuprinse intre-1 i 1: re [-1,1] o utilizat pentru aprecierea
intensitatii" corelatiei liniare.
Diagrama de dispersie permite o prima evaluare a corelatiei, ea sugerand, prin forma alungita a
norului de puncte, ca inaltimilor mai mari le corespund greutati mai mari. 0 astfel de corelatie, este
numita directa sau pozitiva, iar norul de puncte e orientat in sus i spre dreapta. Daca, din contra,
studiem o corelatie intre doua marimi, in cadrul carora celor mai mari valori ale uneia le corespund cele
mai mici valori ale celeilalte, norul de puncte va fi orientat in jos i spre dreapta. In acest caz, corelatia
este numita negativa sau inversa. In absenta corelatiei, norul de puncte va fi aproximativ paralel cu
abscisa sau ordonata, exprimand independenta dintre marimile studiate. Deci putem spune ca orientarea
norului de puncte exprima sensul corelatiei, din punct de vedere calitativ (fig. 5.2).

10
87

Figura 5.2. Estimarea scnsului corela|ici, in funcfic de dispunerea norului de puncte pc diagrama de dispersie. a) corelajic pozitivii
(directa); b) eorela|ie ncgativa (inversS); c) absenja corela(iei.

Corelatia pozitivS (directa) corespunde valorilor pozitive ale coeficientului de corelatie


Pearson, corelatia negativS (inversa) corespunde valorilor negative ale acestuia, iar absenta corelatiei
este indicata prin r = 0.
Interpretarea corelatiei in functie de valoarea coeficientului de corelatie Pearson ofera $i o apreciere
cantitativa. Colton (1974) a propus urmatoarea clasificare: r de la 0 la 0.25 (sau de la 0 la -0.25)
corespunde unei corelatii absente sau foarte slabe, r de la 0.25 la 0.5 (sau de la -0.25 la -0.5) corespunde
unui grad rezonabil de corelatie, r de la 0.5 la 0.75 (sau de la -0.5 la -0.75) corespunde unei corelatii
moderat-puternice, iar r mai mare de 0.75 (sau mai mic de -0.75) corespunde unei corelatii foarte
puternice. Cand r = I sau r -1, corelatia este perfects.

5.4.5. Dreapta de regresie


Definitie: In cazul unei corelatii liniare, dreapta care trece cel mai bine" printre punctele
experimentale se numete dreapta de regresie.
Ecuatia dreptei are forma: y = a + bx
x - variabila independents
y - variabila dependents
in care a se numete ordonata la origine (engl. intercept") iar b se numete panta dreptei de
regresie (engl. slope").

88

Figurst 5.3. Dreapta de regresie.

Analiza de regresie poate fi:

dupa numarul variabilelor:


o simpla (x, y)
o multipla (mai multe variabile)

dupa tipul corelatiei:


o liniara o neliniara.

5.5. Analiza rise til ui


Epidemiologia este tiinta care studiaza factorii cu influenta asupra starii de sanatate a persoanei
sau a populatiei, avand domenii de interes comune cu biostatistica. U n u i din aceste domenii este
reprezentat de analiza riscului. Riscul este reprezentat de raportul dintre numarul de persoane la care sa manifestat un eveniment (favorabil sau nefavorabil - sarcina, boala), i numarul de persoane expuse
actiunii unui factor (presupus cauzal), denumit factor de rise.

5.5.1. Factori de rise


Termenul factor de rise" a fost utilizat prima data de cardiologul Thomas R. Dawber, intr-o lucrare
tiintifica din 1961.
Definitie: factorul de rise este reprezentat de o cauza probabila, care determina o probabilitate
crescutS ca un individ sa dezvolte o anumita stare fiziologica sau patologica.
ooo
89

Clasificare

Factori endogeni, care tin de organism: factori genetici, factori psihici

Factori exogeni: factori de mediu fizici (expunerea la radiatii, sunete, vibratii, etc.),
chimici (poluanti, toxine, alcool, droguri), biologici (bacterii, virui).

5.5.2. Prezentarea datelor studiului


Datele din analiza riscului se prezinta sub forma unui tabel de.contingenta, eel mai frecvent 2x2
(linii x coloane):
TABELUL 5.2. Prezentarea datelor unui studiu epidemiologic.

Boala

B+

B-

Total

E+

a+b

E-

c+d

Total

a+c

b+d

N=a+b+c+d

Expunere

a+b= totalul persoanelor cxpuse c+d= tolalulpersoanelor neexpuse


a+c= totalul persoanelor bolnave b+d= totalul persoanelor saniltoase

a= persoane cxpuse care fac boala b= persoane


cxpuse care nu fac boala c= persoane neexpuse
care fac boala d= persoane neexpuse care nu fac
boala N= a+b+c+d= totalul populatiei studiate

5.5.3. Metode de studiu in epidemiologic


> Studiile experimentale
Sunt cele mai complexe studii epidemiologice, reprezentand singura metoda capabila sa
demonstreze relatia cauzala sau eficacitatea unei decizii terapeutice. In epidemiologia experimental!!,
factorul de rise este controlat de investigator. Acesta lucreaza cu doua loturi de persoane, asemanatoare
din punct de vedere al varstei, raportului barbati/femei, patologiei prezente etc., denumite lot martor i lot
test. Factorul de rise este modificat in mod activ sau manipulat in cadrul lotului test, i lasat nemodificat
(sau se utilizeaza terapie standard) in cazul lotului martor.

oee
90

> Studiile observationale


Studiile observationale folosesc fenomene existente deja Tntr-o populatie, in incercarea de a
observa starea de sanatate sau boala. In acest caz investigatorul nu controleaza nici populatia, nici
factorii la care aceasta este expusa.
Dintre tipurile de studii observationale, cele mai importante sunt:
a) studiul transversal (cross-sectionaI"): evalueaza simultan expunerea i efectele la
nivelul unei populatii. Masoara i prevalenta bolii (este denumit adesea studiu de prevalenta). Poate
avea un caracter descriptiv atunci cand studiaza doar prevalenta, fara a analiza i asocierea bolii cu
anumiti factori de rise. Intrebarea principals este daca expunerea precede sau urmeaza efectul (deoarece
iK
studiul evalueaza simultan expunerea i boala, la un moment dat).
b) studiul de cohorta evalueaza efectul expunerii la un factor de rise asupra unei populatii, in timp
(pornind de la loturi de persoane sanatoase, prin expunerea la un factor de rise, persoanele vor dezvolta
boala sau nu).

Studiul cohort retrospectiv


Expunerea lotului de persoane la actiunea factorului de rise a avut loc in trecut, iar in momentul
prezent se observa efectele. Lotul test este reprezentat de persoane expuse la actiunea factorului de rise,
lotul martor cuprinde persoane neexpuse la factorul de rise.

Figurn 5.4. Studiul cohort retrospectiv.

Studiul cohort prospectiv


Expunerea lotului de persoane la actiunea factorului de rise are loc In prezent, iar in viitor se vor
observa efectele. Lotul test este reprezentat de persoane expuse la actiunea factorului de rise, lotul
martor cuprinde persoane neexpuse la factorul de rise.

Figura 5.5. Studiul cohort prospcctiv.

c) studiul retrospectiv clasic (case-control") include In lotul test persoane care prezinta o
boala (sau o stare fiziologica) de interes, i un lot martor (control) format din persoane care nu sunt

afectate de boala respective (sau de starea fiziologica). Se urmarete in sens invers temporal expunerea
la anumiti factori de rise pentru lotul test, apoi expunerea la aceiai factori de rise pentru lotul martor
(control). Prin aceasta modalitate se investigheaza bolile cu perioada lunga de latenta (ex. neoplasme), cu
incubatie de durata, sau rare (intrucat daca am utiliza studiu prospectiv, probabilitatea de aparitie a bolii
in loturile expus/neexpus selectate ar fi foarte mica pe o durata rezonabila de timp).
_______________titvtp_________________^

Figura 5.6. Studiul


rctrospcctiv clasic.

Grailarea metodelor de studiu dupa importanta statistica a rczultatelor obtinute: Studiu


experimental
Studiu cohort-prospectiv
Studiu cohort retrospectiv
Studiu case-control
Studiu cross-sectional
0 01
92

5.5.3 Parametrii in analiza riscului


Cu ajutorul tabelului de contingenta (descris In prezentarea datelor) calculam parametrii speeifici
pentru analiza riscului.

Indicele odd" (raportid succes/eec):


ODD (E+)=a/b
ODD (E-)=c/d

Raportul odds " (Odds Ratio sau OR, reprezinta raportul dintre doua anse):
ODD(E+) a / b a - d
UK =-------------------=---------=-------ODD(E-) c / d b - c

Riscul relativ (RR, arata de cate ori este mai mare riscul bolii la expui fata de neexpui):

c/(c + d)

Riscul atribuibil (RA sau diferenta de riscuri, arata cu cat este mai mare riscul la cei expui fata
de cei neexpui)
ac

RA =------------------a+bc+d

1o
91

(5.14)

TABELUL 5.3. Interpretarea parametrii or.

Odds Ratio*

Rise Relativ*

Rise Atribuibil

Concluzie

OR>l

RR>1

RA>0

Factor de rise

OR=l

RR=1

RA=0

Factor indiferent

OR<l

RR<1

RAO

Factor de protectie

*Estimarea OR $i RR se rcalizeaza cu intervalul de incrcdcrc cu probabilitatea de 95% (pentru a acoperi probabilitatea ca


ipoteza de zero sS fie adevarata), iar limitele intervalului de incredere (min, max), trebuic sa respccte accea^i condipe
impusa lui OR, respectiv RR.

Problema
Un studiu efectuat la o clinica de fizioterapie a investigat faptul ca munca la birou neasociata cu
desfaurarea unei activitati sportive este una din principalele cauze ale durerilor lombare i a
migrenelor. Astfel, au fost studiate fiele a 1000 de pacienti care prezentau aceste dureri lombare i
migrene, i fiele a 2000 de pacienti care nu le prezentau. S-a constatat ca din cei 1000 de pacienti care
prezentau dureri lombare i
o

93

migrene, 800 munceau la birou i nu desfaurau nici un fel de activitate fizica, iar din grupul
pacientilor fara probleme, doar 300 Iucrau in domeniul administrativ i nu aveau activitati care sa
necesite efort fizic.

a)

a)

Ce studiu epidemiologic se utilizeaza?

b)

Realizati tabeiul de contingent^.

c)

Care este OR de a avea dureri lombare?

d)

Interpretati rezultatul obtinut. Rezolvnre

Studiu! este de tip case-control

b)
Dureri lombare

E+
Activitate fizica
ETotal

c)

B+

B-

Total

200

1700

1900

800

300

1100

1000

2000

3000

OR= (200x300)/(800x 1700)=0,044

d) Interpretare:
OR=0.044, OR < 1 Factorul activitate fizica" este factor de protecfie impotriva durerilor
lombare.

o
94

O0
84

S-ar putea să vă placă și