Documente Academic
Documente Profesional
Documente Cultură
SKMBT C45015010908490 (1) Timic13
SKMBT C45015010908490 (1) Timic13
Biostatistica
5.1. Concepts de baza in biostatistica>
Biostatistica: este disciplina care ii propune studiul caracteristicilor unci populatii.
Individ: element al unei multimi.
Populatie (colectivitate statistica): reprezinta ansamblul tuturor indivizilor la care se refera
studiul care au eel putin o proprietate comuna.
Eantion: grup, lot, submultime din populatie.
E$antion reprezentativ: eantionul care contine proportional indivizi reprezentand toate
caracteristicile populatiei.
Distributia eantionului: reprezentare grafica bidimensionala a valorilor studiate dintr-un
eantion. O distribute foarte des intalnita (ex. Inaltimea oamenilor dintr-o populatie) este reprezentata
printr-o curba simetrica fata de valoarea medie, nurnita clopotul lui Gauss" sau distributia normala".
Inferenta statistica
o operatia de generalizare a caracteristicilor unui eantion reprezentativ la
nivelul intregii populatii; o operatia fundamentala a statisticii duce la concluzii eronate
daca eantionul nu este eantion reprezentativ.
Screening
depistarea in cadrul unei populatii a indivizilor avand o abatere deosebita a
unui parametru; depistarea precoce a unei
afectiuni grave;
e o o
75
eficienta create prin alegerea unei selectii din populatie conform unor factori de rise;
Selectie
pentru studiu se alege din populatie o submultime numita eantion (lot, grup), iar
masuratorile sunt facute doar pe indivizii lotului studiat.
Culegerea datelor
Observarea statistics
Sistcmatizarea datelcr
CaiculuJ indicaiorilor
Prelucrarea statistics
f
Analiza 51
interpretarea statistics
asupra
e e
76
T] Xn
M =---------N
Formula de calcul:
(5.1)
In aceasta formula a mediei aritmetice simple, notata prin simbolul M n, valorile corespund lui X,
iar suma lor se noteaza ciiE (sigma), frecventa sau numarul de cazuri de la numitor fiind notate cu N.
b) Media aritmetica ponderata
Definitie: media aritmetica ponderata este valoarea medie care se obtine din suma produsului
valorilor dintr-o colectivitate omogena, cu frecventele corespunzatoare, divizata la numarul total al
cazurilor studiate.
M
Mp =-----------
Formula de calcul:
(5.2)
Fi = frecventa valorii Xi
c) Median a
Definitie: mediana este o valoare medie, care se utilizeaza in serii mari de valori, cu nivele
apropriate, deci colectivitati omogene. Mediana imparte seria de valori ordonata in doua jumatati
egale.
N+l
Me =--------
Formula de calcul:
(5.3)
in formula medianei, simbolul N corespunde numarului de intervale ale seriei de valori. In cazul
seriei de valori cu termeni impari, mediana va corespunde exact valorii de la mijlocul seriei. in serii de
valori cu termeni perechi, mediana va corespunde mediei aritmetice simple a celor doua valori de la
mijlocul seriei.
d) Moda
Definitie: moda este o valoare medie corespunzatoare frecventei maxime a unei serii de
distribute. Calculul se efectueaza simplu, luand valoarea cu frecventa maxima, drept valoare medie.
Formula
de
calcul:
Mo
(5.4)
Mo = modulul, Xp = media ponderata, Me = mediana.
e) Quantilele
77
Xp
3(Xp
Me)
Definitie: quantilele separa seria statistics in n" parti (cuante), cuprinzand acelai efectiv, egal
cu 1/n din efectivul total.
Q\,Q2,Q3-
a)
Quartilele
n=4, Q2=Me
b)
c)
d)
Foarte rar este posibil a Intalni i aid indicatori ai tendintei centrale: media armonica, media
cronologica i media geometric!
b) Deviatia standard
Definitie: deviatia standard, notata S, reprezinta gradul de variatie a valorilor individuale in
jural mediei e?antionului.
ooo
78
Deviatia standard se obtine extragand radacina patrata din suma abaterilor de la media aritmetica
a valorilor frecventelor, ridicate la patrat, raportata la numarul frecventelor.
Formula de calcul: S =
(5.5)
(5.6)
(5.7)
= deviatia standard
X, - X = abaterea de la medie a unei valori individuale
= numarul frecventelor
Vn
-1
d) Coeficientul de variatie
Datorita faptului ca deviatia standard este exprimata in unitap de masura diferite, specifice
fenomenelor pe care le cercetam, ea nu poate fi utilizata in aprecierea comparative a doua sau mai multe
eantioane, sub aspectul omogenitatii.
Astfel, in aceasta situatie se recurge la coeficientul de variatie, care nu este altceva decat deviatia
standard exprimata procentual.
Definitie: coeficientul de variatie (CV) este raportul dintre valoarea deviatiei standard i media
(aritmetica sau ponderata), exprimat procentual.
Formula de calcul:
CV = iL-100 X
CV = coeficientul de variatie S =
deviatia standard
(5.8)
-1
5.3.1. Generalitati
Pentru a stabili daca douS sau mai multe rezultate obtinute pe eantion sunt asemanatoare sau din
contra, diferS semnificativ intre ele, ne folosim de comparatia statistica, prin intemediul testelor
statistice.
Diferentele observate in cursul unor studii pot fi clasificate in doua categorii:
a.
b.
oo
80
Afirma ca nu exista nici o diferenta semnificativa intre datele comparate, diferenta obtinuta
datorandu-se doar intamplarii, cu alte cuvinte aceasta ipoteza se refera la faptul ca, in contextul
respectiv, avem o situatie normala. De exemplu, atunci cand comparam media de sondaj cu media
cunoscuta a populatiei, ipoteza nula afirma ca nu exista o diferenta semnificativa intre cele doua valori,
deci eantionul este reprezentativ pentru populatia originara; in cazul a doua eantioane, in contextul
compararii anumitor parametri, ipoteza nula afirma ca ainbele eantioane apartin aceleai populatii, deci
diferenta intre parametrii respectivi este nula.
b) ipoteza alternative H a
Afirma contrariul ipotezei nule, adica efectul comparatiei este nenul, deci exista diferente
semnificative, nedatorate hazardului, privind datele considerate.
Ipotezele alternative se pot exemplifica, mai simplu, in cazul compararii a doua valori medii (X t, X2
). Avem situatiile:
a.
b.
c.
b.
Pentru a=0.05, atunci cand respingem ipoteza de zero se incearca o gradare a diferentelor
semnificative.
o
SI
Acceptam
(diferenje
nesemnificative
variabilele comparate)
intre
Respingem
(diferen{e semnificative intre variabilele
comparate)
X=X
Test utilizat: testul Z cand n > 30, testul t (student) cand n < 30.
>
N2
Grade de libertate: v = N, + N
-2
Test utilizat: parametric - testul t nepereche, neparametric - testul Mann - Whitney. Testul
Mann - Whitney este echivalentul neparametric al testului t nepereche. Pentru loturi mai mari
rezultatul obtinut este acelai ca in cazul testului t.
O0
83
> Cand se compara doua valori medii, din doua serii obtinute pe aceia$i indivizi in
doua conditii diferite:
Ipoteza de zero: H0 : X, = X2
Conditii: valori perechi Xn,Xp reprezinta valorile obtinute pe individul i in conditiile 1,
respectiv 2.
intotdeauna N, = N 2 = N
Grade de libertate: v = N - 1 Testul utilizat: testul t pereche.
> Cand se compara doua mediane sau doua serii ordinale Ipoteza de zero: H0 : Mel = Mc2
Testul utilizat: testul Wilcoxon - aplicat astfel: pentru serii independente: testul suma rangurilor"
(rank sum) pentru serii perechi: testul seinnul rangurilor" (signed ranks test).
1
82
Prima individualizare a ideii de dependenta intre variabile observate in colectivita^i statistice este
atribuita lui Francis Galton. Intr-o lucrare asupra ereditapi, comunicata in anul 1877, arata, prin studierea
plantei Lathyrus odoratus (sangele voinicului) ca talia medie a descendentilor este Iegata liniar de talia
ascendentilor. in studii ulterioare asupra ereditatii umane, el utilizeaza notiunea de variatie legata i
imagineaza, eel
o
85
dintai, o metodS statistics practicS de exprimare a legSturii, cunoscuta sub denumirea de functia lui
Galton. Acelai autor introduce i termenul de regresie, Tn anul 1886, cand, studiind rela|ia dintre talia
copiilor nSscuti i talia pSrintiilor, a stabilit ca din pSrinti a caror taiie este mai mica decat media
colectivitStii provin copii cu talie superioara lor i invers. Autorul constats cS inSltimea copiilor nascuti
din parinti inalti tinde sS regreseze" spre inSlpmea medie a populatiei. In acest context, a utilizat
termenul de regresie pentru a denumi procesul general de predictie a unei variabile (inSltimea copiilor)
dintr-o alts variabilS (inSltimea parintilor).
Inspirat de lucrSrile lui Galton, K. Pearson cerceteazS repartitiile bidimensionale, mai ales in
domeniul biologiei, descriind ecuatia liniei drepte adecvata notiunii de regresie a lui Galton $i introduce
celebrui sSu coeficient de corelatie.
100
95 "
90 G
85 -
RE
80 _
UT
75
AT
70
EA
6S
(KG)
60
Ii
55
50
165
I
x
160
170
180
175
tNALTIMEA (cm)
ooa
86
Legatura dintre variabilele numerice studiate poate fi apreciata printr-un indicator numit coeficient
de corelatie Pearson.
Coeficientul de corelatie se calculeaza:
s
r=r=
xy
xy
S(X, -X)(Y i - Y)
STJif V k x , - x ) 2
(5.9)
cu
S ;siS 2 v .
' , numite vananta lui x, respectiv y:
g2
Z(X,-X)2 ,,
Z(Yj - Y) 2
v
(5.10)
. S xv . . . .
1 1 , numita covarianta intre x i y:
Z(X: -X)(Y: -Y)
y
-----------------L
N
(5.11)
Coeficientul de corelatie Pearson arata numai in ce masura datele experimentale se potrivesc unei
reprezentari descrise de o dreapta; deci o valoare scazuta a lui r nu inseamna neaparat corelatie slaba ci
corelatie liniara slaba.
10
87
Figura 5.2. Estimarea scnsului corela|ici, in funcfic de dispunerea norului de puncte pc diagrama de dispersie. a) corelajic pozitivii
(directa); b) eorela|ie ncgativa (inversS); c) absenja corela(iei.
88
Clasificare
Factori exogeni: factori de mediu fizici (expunerea la radiatii, sunete, vibratii, etc.),
chimici (poluanti, toxine, alcool, droguri), biologici (bacterii, virui).
Boala
B+
B-
Total
E+
a+b
E-
c+d
Total
a+c
b+d
N=a+b+c+d
Expunere
oee
90
c) studiul retrospectiv clasic (case-control") include In lotul test persoane care prezinta o
boala (sau o stare fiziologica) de interes, i un lot martor (control) format din persoane care nu sunt
afectate de boala respective (sau de starea fiziologica). Se urmarete in sens invers temporal expunerea
la anumiti factori de rise pentru lotul test, apoi expunerea la aceiai factori de rise pentru lotul martor
(control). Prin aceasta modalitate se investigheaza bolile cu perioada lunga de latenta (ex. neoplasme), cu
incubatie de durata, sau rare (intrucat daca am utiliza studiu prospectiv, probabilitatea de aparitie a bolii
in loturile expus/neexpus selectate ar fi foarte mica pe o durata rezonabila de timp).
_______________titvtp_________________^
Raportul odds " (Odds Ratio sau OR, reprezinta raportul dintre doua anse):
ODD(E+) a / b a - d
UK =-------------------=---------=-------ODD(E-) c / d b - c
Riscul relativ (RR, arata de cate ori este mai mare riscul bolii la expui fata de neexpui):
c/(c + d)
Riscul atribuibil (RA sau diferenta de riscuri, arata cu cat este mai mare riscul la cei expui fata
de cei neexpui)
ac
RA =------------------a+bc+d
1o
91
(5.14)
Odds Ratio*
Rise Relativ*
Rise Atribuibil
Concluzie
OR>l
RR>1
RA>0
Factor de rise
OR=l
RR=1
RA=0
Factor indiferent
OR<l
RR<1
RAO
Factor de protectie
Problema
Un studiu efectuat la o clinica de fizioterapie a investigat faptul ca munca la birou neasociata cu
desfaurarea unei activitati sportive este una din principalele cauze ale durerilor lombare i a
migrenelor. Astfel, au fost studiate fiele a 1000 de pacienti care prezentau aceste dureri lombare i
migrene, i fiele a 2000 de pacienti care nu le prezentau. S-a constatat ca din cei 1000 de pacienti care
prezentau dureri lombare i
o
93
migrene, 800 munceau la birou i nu desfaurau nici un fel de activitate fizica, iar din grupul
pacientilor fara probleme, doar 300 Iucrau in domeniul administrativ i nu aveau activitati care sa
necesite efort fizic.
a)
a)
b)
c)
d)
b)
Dureri lombare
E+
Activitate fizica
ETotal
c)
B+
B-
Total
200
1700
1900
800
300
1100
1000
2000
3000
d) Interpretare:
OR=0.044, OR < 1 Factorul activitate fizica" este factor de protecfie impotriva durerilor
lombare.
o
94
O0
84