Sunteți pe pagina 1din 13

Biostatistica

curs I
Statistica este stiinta care se ocup cu descrierea si analizarea numeric a fenomenelor de
mas. Ea studiaz latura cantitativ a fenomenelor, legile statistice manifestndu-se sub form de
tendinte.
Biostatistica intereseaz aplicarea statisticii fenomenelor biologice, incluznd biologia
uman, medicina si sntatea public. Statistica este o ramur a matematicii aplicate dezvoltat din
teoria probabilittilor si este fundamentat pe toate stiintele experimentale: fizica, biologia,
sociologia, cimia, etc.
!relucrarea datelor statistice cu a"utorul unor formule matematice ne a"uta s #ntelegem
fenomenele mai putin evidente.
$bservatiile sunt transformate #n #nregistrri numerice iar statistica este instrumentul
matematic ideal pentru analiza lor.
Variabile aleatoare. Distribuii
$ variabil aleatoare este o cantitate care ia valori diferite sau mul%imi de valori cu
probabilit%i variabile.
&n tabel, grafic sau expresie matematic dnd probabilit%i cu care o variabil aleatoare ia
diferite valori sau mul%imi de valori se nume'te distribu%ia variabilei aleatoare.
$ distribu%ie indic pentru o popula%ie de observa%ii frecven%ele relative cu care diferite
valori sau mul%imi de valori aleatoare apar. (nd vorbim despre medie, varian%, devia%ie standard,
mod sau orice alt statistic descriptiv a distribu%iei, ne referim la #ntreaga popula%ie de observa%ii.
Media populaiei
Variana populaiei 2
Deviaia
standard a populaiei

Media eantionului
Variana eantionului S2
Deviaia standard a eantionului S
Mrimea eantionului n
Statistic descriptiv
Descrierea unei serii statistice
$ serie statistic este constituit dintr-o multime de valori numerice care
reprezinta rezultatul unei observatii. $ serie statistic poate fi: #nltimea,
greutatea sau glicemia la un grup de bolnavi. !rima etap a activittii #n analiza
statistic a datelor o constituie ordonarea rezultatelor obtinute, care ne ofera o
descriere ct mai corecta a fenomenului studiat.
Ordonarea datelor. Distributia de frecvent
(onsidernd un grup de valori numerice experimentale ale tipului pe care #l
analizam, rezultatele sunt obtinute #ntr-o ordine oarecare. Etapa de ordonare
cresctoare sau descresctoare a datelor este cunoscuta ca ) ordonarea
datelor*. Se #nscrie pentru fiecare valoare observat x, numrul F de aparitii,
care se va numi frecventa (efectivul) valorii.
+ultimea valorilor efective ale frecventelor respective constituie distributia
frecventei, care se poate prezenta printr-un tabel.
Gruparea datelor n clase
(nd valorile studiate variaz continuu, cum este cazul greuttii si #nltimii, al procentului
de substant umoral etc., atunci cnd variabila poate lua toate valorile posibile #ntr-un interval dat,
valorile observate pot fi foarte numeroase si distributia de frecvent este foarte dispersat.
In acest caz este necesar reducerea numrului de valori posibile si pentru aceasta, se
#mparte domeniul de variatii posibile #ntr-un numr de intervale sau clase #n interiorul crora se
grupeaz toate valorile care cad #n intervalul corespunztor.
ntervalul de clas
$ important deosebita o are precizarea domeniului claselor alese, numit )interval de
clas*, care trebuie s fie acelasi pentru toate clasele iar intervalele de clas trebuie s fie alturate
si fr suprapuneri. Intervalele de clas se pot preciza #n trei moduri:
Indicnd, msurile limit ale fiecrei clase, adic cea mai mic si cea mai mare msur
#naintea apartenentei la clas, tinnd cont de precizia msurtorii.
Indicnd ceea ce se numeste )limitele reale* ale fiecrei clase, adic cea mai mic
si cea mai mare dintre valorile teoretice ale variabilei #n aceast clas, de altfel, limita superioar a
unei clase si limita inferioar a clasei urmtoare coincid, ca de exemplu valoarea -../ pentru
clasele 0../ .. -../1 si 0-../ .. 2../1.
Indicnd valoarea care se gseste exact #n centrul clasei, numit )punct median* al clasei, si
care este dat de semisuma limitelor unei clase.3rupnd datele #n clase, se remarc
asimilarea tuturor valorilor unei clase la o valoare unic, aceea a punctului median 0#n acest
mod, se face reducerea la cazul unei
variabile discontinue1.
$bservatie: Experienta arat c #n practic numrul intervalelor de clas este bine s
fie cuprins #ntre -. si 2..
!recvente relativa
Efectivul F al unei valori 0sau al unei clase1 reprezint frecventa absolut, adic numrul
de aparitii ale acestei valori 0sau efectivul clasei1 #n ansamblul distribuit.
4ac dorim s comparm serii statistice comportnd un numr diferit de cazuri, se va
raporta frecventa absolut la numrul n de cazuri, numit efectivul total, care reprezinta seria
studiat. Se defineste frecventa relativ, sau frecventa propriu-zis a valorilor considerate, ca fiind
fr 5 6 7 n
8umrul total n de cazuri se defineste ca fiind suma efectivelor fiecrei valori 6i.
Suma frecventelor relative va fi egal cu -.
Dia"rama frecventelor
4atele care reprezinta o distributie de frecvente pot fi reprezentate grafic, oferind o imagine
mai usor de interpretat ea scotand in evidenta alura general a caracteristicilor esentiale. Ea
reprezinta diagrama frecventelor. +odul de reprezentare grafica cel mai des utilizat este
istograma: fiecare valoare0clas1 este figurat printr-un dreptungi a crui baz corespunde
valorii0sauintervalului de clas1 reprezentat pe axa absciselor si a crui #nltime este proportional
cu efectivul 0numrul,1 acestei valori 0clase1, fiind reprezentat pe ordonat.
Se obtine astfel o multime de dreptungiuri cu aceeasi ltime si a cror #nltime si suprafat
sunt respectiv proportionale cu efectivele fiecrei valori 0sau clase1.
Numr de biei X Numr de familii F Frecvena
f=F/n
Procentajul
100f
# 22 #.#$ $
$ $$2 #.#% %
2 2&' #.$' $'
( )*# #.2' 2'
) '$( #.2* 2*
' (2# #.$* $*
% $(2 #.#* *
* 2( #.#$ $
+otal $&** $ $##
112
285
470
513
320
132
23
22
1,00%
6,00%
15,00%
25,00%
27,00%
17,00%
7,00%
1,00%
0
100
200
300
400
500
600
0 1 2 3 4 5 6 7
Numr de biei
F
r
e
c
v
e
n


a
b
s
o
l
u
t

0
0,05
0,1
0,15
0,2
0,25
0,3
F
r
e
c
v
e
n


p
r
o
c
e
n
t
u
a
l

Msuri
limit
Limitele
reale
Puncte mediane Efective
9.-99 :;./ < 99./ 92 /
9/-9; 99./ < 9;./ 9= -2
/.-/9 9;./ < /9./ /2 :-
//-/; /9./ < /;./ /= :-
>.->9 /;./ < >9./ >2 ->
>/->; >9./ < >;./ >= :
=.-=9 >;./ < =9./ =2 2
-..
5
12
31 31
16
3
2
5.00%
12.00%
31.00%31.00%
16.00%
3.00%
2.00%
0
5
10
15
20
25
30
35
40-44 45-49 50-54 55-59 60-64 65-69 70-74
Clase de greutate
F
r
e
c
v
e
n
t
a

a
b
s
o
l
u
t
a
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
F
r
e
c
v
e
n
t
a

p
r
o
c
e
n
t
u
a
l
a
,rincipalele tipuri de dia"ram de frecvente
4iagramele de frecvente folosite pentru observatiile din biologie si medicin pot acoperi o
paleta variata de tipuri de distributii. !rin transformari acceptate matematic 0logaritmarea valorilor,
etc1 se pot reduce adesea la tipuri bine-definite, evocnd distributiile teoretice cunoscute.
Dia"rame simetrice- frecventele diferitelor clase se grupeaz simetric descresctor
de o parte si de alta a unei frecvente centrale maximale.
?cest tip de distributie apare ca o distributie teoretic a calculului probabilittilor, numit
distributie normal 0gaussian1 si care "oac un rol fundamental #n statistic. Ea se
#ntlneste adesea #n biologie, cnd esantionul studiat apartine unei populatii normal
distribuite.
Dia"rame asimetrice- corespund cazului unei frecvente maximale #n "urul creia se
grupeaza frecventele diferitelor clase. 6recventele descresc mai rapid fat de cea
maxim #ntr-o parte a diagramei, comparativ cu cealalt parte.
Dia"rame .iperbolice- sunt un caz particular al distributiei asimetrice, unde
frecventa maximal se situeaz la una dintre extremittile distributiei.
Distribu@ia bimodal- prezint dou frecvente maximale corespunztoare diferitelor
valori ale variabilei. ?cest aspect sugereaz existenta in esantionul studiat a dou populatii
distincte.
,oli"oane de frecvent
!rin unirea mi"loacelor marginilor superioare ale fiecrui dreptungi al
istogramei reprezentative a unei serii de frecvente se obtine o linie frnt, numit
!oli"onul frecventelor seriei corespunztoare, care indic variatia frecventei de-a
lungul multimii valorilor seriei. 4up construirea poligonului frecventelor, fiecare dintre colturile
amputate sunt compensate cu triungiuri adiacente, astfel #nct suprafata #nglobat #n poligonul
frecventelor rmne aceeasi 0fiind ecivalent cu suprafata istogramei adica reprezinta efectivul
seriei1.
$bs.: !oligonul de frecvent are aceeasi semnificatie cu marginea superioar a
istogramei.
!recvente cumulate
!lecnd de la valoarea cea mai mic 0prima din ordinea tabelului 1 se adun
succesiv frecventele fiecrei valori 0sau clase1, prin urmare, pentru fiecare valoare se
consider nu numai frecventa sa proprie, ci suma acestei frecvente cu a tuturor
valorilor inferioare. An acest mod se obtine o distributie de frecvente numita
distributia frecventelor cumulate.
/lasificarea datelor
4atele folosite #n calculele statistice sunt de dou tipuri:
calitative 0categoriale1
cantitative 0numerice1.
-. 4ate calitative: pot fi clasificate dup categorii si nu dup numr 0valori1.
Exemple: Brbati 7 6emei, 6umtori 7 8efumtori, 3rupa sanguin ? 7B 7?B 7., etc.
&neori utilizm numere pentru a reprezenta diferite categorii. ?ceste tipuri de date
calitative se numesc variabile nominale cnd variabila poate lua doar dou valori, ea se va numi
variabil binar 0ex. 4iabetic 7 8ediabetic1.
?desea exist o ordine natural #n organizarea variatiilor unui sistem 0organizare #n clase1.
?ceste tipuri de date se numesc variabile ordinale.
Exemplu
B (onsum de tigarete: nefumtori 7 fumator,
sub / tigri pe zi,
/ < -. tigri pe zi,
-. < 2. tigri pe zi,
peste 2. tigri pe zi
B (lase sociale: "os 7 mi"loc 7 sus
2. 4ate cantitative: sunt caracterizate de valori numerice. !ot fi, la rndul lor:
B continue: pot lua orice valoare #ntr-un interval dat,
B discrete: pot lua numai anumite valori numerice.
Exemplu:
B date de tip continuu: greutatea #ntr-un grup de pacienti, #nltimea #ntr-un lot de
copii,
B date de tip discret: numrul de copii #ntr-o familie, numrul de internri #ntr-un
spital.
Ceprezentarea datelor
4atele calitative se reprezint folosindu-se urmtoarele metode:
Dabele de frecvent,
Bar cart 0un tip de reprezentare grafic asemntoare istogramei1,
!ie cart.
4atele numerice se reprezint folosindu-se urmtoarele metode:
Eistograma,
3raficul linie
4iagrama datelor 0se figureaz norul de puncte1.
&.'. Msurile valorilor centrale
!arametrii urmri%i #n analiza unei serii statistice sunt:
Media aritmetic-
Se aplic datelor care au valori numerice, se ob%ine fcnd raportul dintre suma tuturor
valorilor 'i numrul acestora.
Exemplu: Fom calcula media aritmetic a urmtoarei serii de valori:
:;, 92, =:, >=, 29 , //.
?ceasta va fi:
.
An cazul general: avem observa%iile x1 , x2 , , xn , suma absolut a acestora va fi , #n
acest caz, media aritmetic se va calcula cu formula:
.
Mediana-
(nd observa%iile sunt a'ezate #n ordine 0descendent sau ascendent1, mediana va fi
valoarea care #mparte grupul de valori #n dou pr%i egale.
Exemplul 1: ?vem seria de valori:
(, E, B, 4, ?, ?, B, 6, (, (, 4.
Ge vom aran"a #n ordine ascendent:

?, ?, B, B, (, /, (, 4, 4, E, 6.
+ediana va fi elementul #ncercuit.
Exemplul 2: ?vem seria de valori:
>- , 9; , /: , >- , =9 , H2.
?ran"m elementele #n ordine ascendent:
:/ , 9; , /: , >- , =9 , H2.
+ediana se calculeaz fcnd media aritmetic a celor dou valori din mi"locul 'irului:
.
c0 Modulul-
Este valoarea care are frecven%a cea mai mare din setul de observa%ii.
Exemplu: ?vem mul%imea de valori:
?, $, $, B, B, ?B, ?B, ?, ?, $, $, $, ?B, B, $, B, ?, $, ?B, $, $, B, $, ?.
Faloarea ? are / apari%ii.
Faloarea B are / apari%ii.
Faloarea ?B are 9 apari%ii.
Faloarea $ are -. apari%ii. ?ceasta va fi modulul seriei de valori.
&.%. Msuri ale mprtierii sau variabilitii
+surile valorii centrale nu ne dau nici o indica%ie privind #mpr'tierea sau variabilitatea
#ntr-un set de observa%ii.
Exemplu: S considerm c avem dou comunit%i ? 'i B, media valorii luata in studiu in
cele doua comunit%i este aceea'i, #ns distribu%iile valorilor 0#mpr'tierea acestora1 este
diferit 0conform tabelului H./1.
Comunitatea AComunitatea
9...H...>...H...H...;...-....-....-2...--...-9...-2...->...-2...!a"elul
#$%: Locuitorii din doua comunit&i A 'i
!entru a se putea caracteriza gradul de #mpr'tiere ale valorilor unei serii de valori, se
define'te o mrime special, numit devia%ie standard.
$ alt msur util de caracterizare a #mpr'tierii este rangul, definit ca diferen%a #ntre
cea mai mic 'i cea mai mare valoare a seriei.
Farian%a 0dispersia1 'i devia%ia standard:
Farian%a este media ptratelor devia%iilor 0abaterilor1 de la medie. (nd calculm varian%a
unei serii statistice, suma ptratelor devia%iilor de la medie se #mparte la 0n < -1, deoarece
aceasta d o mai bun estimare a varian%ei popula%iei totale. 8umitorul 0n < -1 este numit
numrul gradelor de libertate a varian%ei.
6ormula de calcul a varian%ei pentru o serie de valori x1 , x2 , , xn va fi:
Exemplu: Falorile varia%iei #ntr-un set de rezultate sunt prezentate #n tabelul H.>.
Frsta 0rezultate14evia%ia absolut de la medie!tratul
devia&iei->H-:.H-;..992>/-..H-->.>9:/;9.H2:..99/;9.H2:..9//=2.H=.H9>/22.29.H9=9;/.
22=..9H9H>.2:H.99;9H>.2:H.99-.9H>.2:H.99--9=--.2-2/.99Dotal/;>=9.2>::.>9!a"elul
#$(: )arian&a *ntr+un set de re,ultate
8umrul de grade de libertate: ----5-..
+ediana: /2.
+odulul: 9H.
4efini%ie:
Cdcina ptrat a varian%ei se nume'te devia%ie standard.
Eroarea standard 0e.s.1 este dat de formula:
Mediana-
(nd observa%iile sunt a'ezate #n ordine 0descendent sau ascendent1, mediana va fi
valoarea care #mparte grupul de valori #n dou pr%i egale.
Exemplul 1: ?vem seria de valori:
(, E, B, 4, ?, ?, B, 6, (, (, 4.
Ge vom aran"a #n ordine ascendent:
?, ?, B, B, (, /, (, 4, 4, E, 6.
+ediana va fi elementul #ncercuit.
Exemplul 2: ?vem seria de valori:
>- , 9; , /: , >- , =9 , H2.
?ran"m elementele #n ordine ascendent:
:/ , 9; , /: , >- , =9 , H2.
+ediana se calculeaz fcnd media aritmetic a celor dou valori din mi"locul 'irului:
c0 Modulul-
Este valoarea care are frecven%a cea mai mare din setul de observa%ii.
Exemplu: ?vem mul%imea de valori:
?, $, $, B, B, ?B, ?B, ?, ?, $, $, $, ?B, B, $, B, ?, $, ?B, $, $, B, $, ?.
Faloarea ? are / apari%ii.
Faloarea B are / apari%ii.
Faloarea ?B are 9 apari%ii.
Faloarea $ are -. apari%ii. ?ceasta va fi modulul seriei de valori.
Msuri ale mprtierii sau variabilitii
+surile valorii centrale nu ne dau nici o indica%ie privind #mpr'tierea sau variabilitatea
#ntr-un set de observa%ii. Exemplu: S considerm c avem dou comunit%i ? 'i B, media valorii
luata in studiu in cele doua comunit%i este aceea'i, #ns distribu%iile valorilor 0#mpr'tierea
acestora1 este diferit
!entru a se putea caracteriza gradul de #mpr'tiere ale valorilor unei serii de valori, se
define'te o mrime special, numit devia%ie standard.
$ alt msur util de caracterizare a #mpr'tierii este rangul, definit ca diferen%a #ntre cea
mai mic 'i cea mai mare valoare a seriei.
Farian%a 0dispersia1 'i devia%ia standard:
Farian%a este media ptratelor devia%iilor 0abaterilor1 de la medie.
(nd calculm varian%a unei serii statistice, suma ptratelor devia%iilor de la medie se
#mparte la 0n < -1, deoarece aceasta d o mai bun estimare a varian%ei popula%iei totale. 8umitorul
0n < -1 este numit numrul gradelor de libertate a varian%ei.