Sunteți pe pagina 1din 40

INTRODUCERE ÎN

BIOSTATISTICĂ

Dr. Liliana Iliescu


2010
Definiţii

• Statistica este disciplina care se


ocupă cu culegerea, înregistrarea,
gruparea, analiza şi interpretarea
datelor referitoare la un anumit
fenomen, precum şi cu formularea
unor previziuni privind comportarea
viitoare a acestui fenomen.
Definiţie
 Biostatistica este o ramură a
statisticii, specializată în studiul
fenomenelor biologice, deci şi al
celor medicale
 Se ocupă de culegerea,
centralizarea şi gruparea datelor,
de prelucrarea şi determinarea
unor indicatori pentru descrierea
fenomenelor biomedicale studiate,
pe baza evidenţierii unor
regularităţi sau variabilităţi
statistice
 Aplică şi dezvoltă tehnici
statistico-probabilistice pentru
analiza datelor biomedicale
Definirea termenilor
• Mulţimea pe care se realizează un studiu
statistic se numeşte populaţie statistică.
• Elementele componente ale unei populaţii se
numesc unităţi statistice sau indivizi.
• Numărul total de unităţi statistice se numeşte
efectivul total al populaţiei statistice.
• O parte a populaţiei statistice aleasă special
pentru a fi studiată se numeşte eşantion.
• Proprietatea sau indicatorul în funcţie de care
se cercetează o populaţie statistică se
numeşte caracteristică sau variabilă
statistică.
Definirea termenilor
 Caracteristica statistică reprezintă acea
proprietate care este comună tuturor
unităţilor unei colectivităţi statistice.
 Deoarece variază de la o unitate la alta, mai
poartă numele de variabilă statistică
(ex: pentru ceramica neolitică o caracteristică
o reprezintă tehnica de lucru cu mâna, ce
poate însă varia de la un meşter la altul).
 Nivelul variabilei la fiecare unitate sau grup
de unităţi, se numeşte variantă.
Definiţii
• Numărul de apariţii (înregistrări) ale
unei variante într-o colectivitate
statistică reprezintă frecvenţa
caracteristicii (ex: numărul de
fragmente ceramice, numărul de
arme, numărul de obiecte din os,
numărul de morminte, numărul
siturilor arheologice aparţinând
unei anume culturi neolitice, etc.)
Caracteristicile statistice se
diferenţiază după mai multe criterii

DUPĂ CONŢINUT:
• caracteristici de timp
• caracteristici de spaţiu
• caracteristici atributive
Caracteristicile statistice se
diferenţiază după mai multe criterii

DUPĂ MODUL DE
EXPRIMARE:
 caracteristici
calitative
 caracteristici
cantitative
Caracteristici cantitative
O caracteristică se
numeşte cantitativă
dacă se poate
exprima cifric sau
numeric.
Ex: media generală,
salariul, înălţimea,
greutatea.
Caracteristici cantitative

 O caracteristică cantitativă se numeşte discontinuă


sau discretă dacă nu poate lua decât valori numerice
întregi (Ex: nr. copii, nr. decese, nr. căsătorii).
 O caracteristică cantitativă care poate lua orice
valoare dintr-un interval de lungime finită sau
infinită se numeşte caracteristică cantitativă
continuă (Ex: înălţimea, greutatea, TA).
 Intervalele în care o caracteristica ia valori se
numesc grupe sau clase de valori (Ex: grupele de
vârstă).
Caracteristici calitative
Exprimă o însuşire sau o calitate a unităţii
statistice
Ex: masculin/feminin; urban/rural;
bolnav/sănătos
forma = alungită, rotundă, ovală - în
descrierea unor obiecte
caracterul =flegmatic, melancolic,
sangvinic, coleric - în descrierea unor
persoane.
Se observă că setul valorilor posibile pentru
caracteristicile calitative este finit.
Tipuri de mărimi utilizate

 Mărimi absolute: obţinute prin


măsurătoare sau numărare
directă: 1 copil, 2 părinţi, 2
soacre, 4 bunici
 Mărimi relative
 Mărimi medii
Tipuri de mărimi utilizate – mărimi
relative

 Mărimi absolute
 Mărimi relative: raportul dintre
două mărimi absolute; raport
subunitar, care se înmulţeşte
cu un multiplu de 10
 Mărimi medii
Mărimi relative: exemple

 Prevalenţa % (procente)
 Mortalitatea infantilă %o (promile)
 Indicele de asigurare cu medici %oo
(prodecimile)
 Incidenţa specifică prin HVA %ooo
(procentimile)
 Indicele de centenari %oooo (părţi per
milion)
Tipuri de mărimi utilizate – mărimi
medii

 Mărimi absolute
 Mărimi relative
 Mărimi medii: se obţin tot prin
raportarea a două mărimi absolute,
dar raportul, fiind supraunitar, nu se
mai înmulţeşte cu un multiplu de 10
(Ex. durata medie de spitalizare
= zile spitalizare/ nr. pacienţi
Tipuri de indicatori- indicatori de
structură

 Ex: structura populaţiei pe sexe, pe etnii;


structura pacienţilor după starea la externare
 Arată cât reprezintă o parte dintr-un întreg
 (n/N) x 100; Suma părţilor componente este
întotdeauna 100%
Tipuri de indicatori – indicatori de
frecvenţă

 Arată intensitatea
unui fenomen într-o
populaţie
 Ex: natalitatea
(crude birth rate)
Prelucrarea datelor statistice

 Principalii indicatori
care caracterizează un
şir de date sunt fie
indicatori de tendinţă
centrală, fie indicatori ce
caracterizează
împrăştierea datelor în
jurul unei valori medii
(indicatori de
variabilitate
statistică).
Indicatori de tendinţă centrală
 Media
 Mediana - este acea valoare din şirul de date
care împarte în două părţi egale şirul
ordonat de valori (şirul este ordonat crescător),
situându-se la mijlocul seriei statistice
 Modul - - constituie valoarea care apare cel
mai des, deci valoarea cu numărul cel mai
mare de apariţii (varianta cu frecvenţa cea mai
mare)
Indicatori de tendinţă centrală
 Mediana - este acea valoare din şirul de date
care împarte în două părţi egale şirul
ordonat de valori (şirul este ordonat crescător),
situându-se la mijlocul seriei statistice
5, 5, 10, 10, 10, 15, 15, 15, 20, 25
I have found that listing the data out in order is
the easiest way to find the median. The
numbers 10 and 15 both fall in the middle. I
have to average these two numbers to get the
median. 10 + 15 = 12.5
2
Indicatori de tendinţă centrală

• Se calculează pentru seria simplă, dar şi


pentru seria grupată
• Dacă datele pe care le studiem conţin
valori care se repetă des, se obişnuieşte
să se grupeze datele care au aceeaşi
valoare .
Numărul de apariţii ale unei valori anume se
numeşte frecvenţa de apariţie
INDICATORI DE TENDINŢĂ CENTRALĂ - PENTRU
CARACTERISTICILE CANTITATIVE

SERIA SIMPLĂ SERIA GRUPATĂ

x – coloana variantelor x – coloana variantelor


(caracteristica cantitativă f – coloana frecvenţelor sau
studiată) pondere (gr. specifică)
Media aritmetică simplă Medie ponderată

Mediana Mediana – se calculează în


funcţie de frecvenţa cumulată

Modul – nu este !! (frecvenţa de


apariţie a oricărei variante este 1) Modulul -Varianta cu frecvenţa
cea mai mare
Vârsta modală la deces

30
Nr.deces

MODULUL
25

20

15

10

0
1 an 5 ani 10 ani 15 ani 20 ani 30 ani 40 ani 50 ani
Varsta
Utilitatea medianei

 Utilitatea practică a medianei: în caz


de variante cu valori prea mari,
mediana arată mai bine tipicul seriei
I 2500 g 3000 g 3500 g
II 2500 g 3000 g 5000 g
 Doza letală 50 sau DL50 = doza care omoară
jumătate din animalele de experienţă
Poziţia Medianei pentru seria grupată

X (kg) f (nr. persoane) fcumulată


53 1 1
54 3 4
55 5 9
56 4 13
57 2 15
15

 Mediana: valoarea de la mijlocul seriei;


 Poziţia Medianei = (n+1):2= (15+1):2=8
 Dar frecvenţa cumulată 9 îl conţine pe 8, deci mediana
are valoarea 55 Kg
INDICATORI DE VARIABILITATE STATISTICĂ
PENTRU CARACTERISTICILE CANTITATIVE

• 1. Mărimi absolute : 2. Mărimi relative :


– rangul (amplitudinea variaţiei) – coeficientul de
– deviaţia medie variaţie.
– deviaţia standard (sigma) – coeficientul de
– Pătratul deviaţiei standard se precizie
numeşte VARIANŢĂ

σ =2 ∑ xf
d 2

n
Deviaţia Standard (D.S.)
 Este o măsură a impreciziei unui set de date, exprimă cât
sunt de depărtate datele de media lor.
 Deviaţia Standard (DS) şi multiplii ei au o importanţă
practică deosebită.
 Conform teoriei, 95% dintre valori cad în intervalul -2DS
+2DS, iar între -3DS şi 3DS cad restul până la 99%.
 Între -4DS şi +4DS cade întregul set de valori. DS se
exprimă în unităţile de măsură ale datelor. Împărţind
procentual DS la medie obţinem coeficientul de variaţie
(CV) exprimat în procente. (De fapt cifra 2 şi 3 sunt
aproximări ale valorilor de 1.96 şi 2.58 care sunt
adevăratele limite- valori pentru t tabelar!!)
 În practică însă se obişnuieşte să se noteze 2DS şi 3DS
din comoditate
Coeficientul de variaţie (CV) reprezintă raportul
procentual dintre deviaţia standard şi media aritmetică a
seriei de observaţii respective:

σ
CV = x 100
x
CV. < 10% dispersie mică colectivitate omogenă
CV. 10 - 30% dispersie
medie
CV. > 30% dispersie mare colectivitate eterogenă

µ
C.P. = x 100 COEFICIENTUL DE PRECIZIE (CP.)
x
Rangul: R = X n - Xi sau Xmax -Xmin

 Serie grupată
 Serie simplă

σ
µ=
n
x f d d2 d2⋅f
7 2 - 2,8 7,84 15,68
8 4 - 1,8 3,24 12,96
9 7 - 0,8 0,64 4,48
10 11 + 0,2 0,04 0,44
11 8 + 1,2 1,44 11,52
12 3 + 2,2 4,84 14,52
35 59,60

x = 9,8 zile; Deviaţia standard în cazul seriei grupate:

∑d 2 x
xf 59,60
σ =± =± = ± 1,75 = 1,3 zile
n −1 34
Rezultatul final (reducerea datelor statistice) este: x = 9,8 zile
σ = 1,3 zile
n =35
Perioada de incubaţie a tusei convulsive, la lotul de 35 bolnavi studiat,
este de: 9,8 ±1,3 zile.
Prelucrarea caracteristicilor calitative
 Definiţia probabilităţii;
 PA = Nr. cazuri favorabile/nr.cazuri posibile sau
existente
 Probabilitatea matematică
se stabileşte a priori; probabilitatea empirică
(experimentală)
 Probabilitatea fundamentală
se stabileşte a posteriori; probabilitatea empirică
(experimentală)
nr. nascuti vii de sex M 51,5 %
=
nr. nascuti vii de sex F 48,5 %
Masculin: p = 0,515 Feminin: q = 0,485
n P = 51,5 % Q = 48,5 %
P = x 100 p+q=1
N
P + Q = 100
Probabilităţi
 P reprezintă probabilitatea unui
eveniment de a se produce
 Q reprezintă contraprobabilitatea
 P = 51% - probabilitatea de a se
naşte băieţel
 Q = 49% - probabilitatea de a se
naşte fetiţă sau de a NU se naşte
băieţel
 In biostatistică, în studiul fenomenelor de masă
(medico-biologice) acţionează probabilitatea
fundamentală, care este o probabilitate medie.
Probabilitatea producerii unui eveniment merge de
la imposibilitatea producerii lui şi până la
certitudine, şi variază între 0 – 1 sau 0 – 100, fără
a atinge cele două extreme.
Cu cât probabilitatea se apropie de 1 sau 100 cu
atât probabilitatea producerii evenimentului este mai
mare.
Dacă p sau P este egal cu ½ sau 50%, atunci sunt
şanse egale ca evenimentul să se producă sau să nu
se producă.
Prelucrarea datelor statistice calitative
 Probabilitatea nu se aplică pe caz în parte, ci pe
colectivitate
 Prelucrarea datelor statistice în cazul caracteristicilor
calitative, se realizează prin calculul frecvenţei acestora
 Frecvenţa relativă a apariţiei unui eveniment este
considerată probabilitatea acelui eveniment. De aceea,
frecvenţa se notează cu P
 Calculul variaţiei (dispersiei) unei frecvenţe (deviaţia
standard)

σ= PxQ
 Calculul erorii standard pentru
caracteristici calitative
σ PxQ
μ= μ=
n n
 Generalizarea datelor
 Intervalul de încredere sau de
siguranţă statistică
IC = x ± t ⋅ μ IC = P ± t ⋅ μ
IC = Limită Inf. Limită Sup.
Definiţia Intervalului de Confidenţă (de
încredere sau siguranţă statistică)

 Este intervalul în care pornind de la media pe


eşantion, dacă studiem caracteristici
cantitative sau de la frecvenţa pe eşantion, în
cazul caracteristicilor calitative, putem
estima, media sau frecvenţa pentru
colectivitatea generală (N)
 IC stabileşte media sau frecvenţa pentru
colectivitatea generală (N).
 Media sau frecvenţa pentru N este estimată
cu un grad ridicat de probabilitate, şi nu
stabilită cu certitudine
Testul T student
 Utilizat pentru testarea semnificaţiei
diferenţei dintre două medii sau două
frecvenţe, luate două câte două
 Dacă t calculat > t tabelar, atunci diferenţa
dintre cele două medii sau frecvenţe este
semnificativă statistic, deci are la bază factori
obiectivi, care pot fi evidenţiaţi prin
continuarea cercetării
Formula pentru t calculat: varianţa (var)
reprezintă pătratul deviaţiei standard
Testul chi pătrat
 Pentru testarea semnificaţiei
diferenţei dintre două sau mai multe
frecvenţe; dintre două sau mai multe
distribuţii
 NU se utilizează pentru medii !!!
Testul chi pătrat: O= frecv. obs; E
= frecv. Aşteptate sau teoretice

S-ar putea să vă placă și