Sunteți pe pagina 1din 8

COMPENDIU DE BIOSTATISTICA.

Cap. 02 - Statistica descriptiva


 
CERCETAREA-BIOSTATISTICA

Biostatistica este o ramura a statisticii specializata pentru studiul fenomenelor


biologice si medicale. Se ocupa de culegerea, centralizarea si gruparea datelor, de
prelucrarea lor si permite determinarea unor indicatori pentru descrierea fenomenelor
biomedicale studiate, pe baza evidentierii unor regularitati sau variabilitati statistice.
Totodata, dezvolta tehnici statistico-probabilistice de analiza complexa a datelor bio-
medicale, de previziune si acceptare a rezultatelor, in scopul verificarii ipotezei propuse
studiului.
 

STATISTICA DESCRIPTIVA
 
Reprezinta prima etapa a demersului statistic, pornind de la observarea empirica a
unei mase de fenomene singulare, concretizata prin strangerea datelor de baza. Dupa ce
sunt grupate in formele acceptabile ale unor repartitii empirice si sunt reprezentate in
tabele si grafice, prin calcularea unor parametri, se deduc principalele directii de
variabilitate ale diferitelor lor caractere. In acest stadiu se calculeaza valorile relative,
precum si valorile medii, dispersia, abaterile si alte valori tipice, urmand ca in stadiul
urmator sa se aprofundeze legaturile dintre fenomene, prin asociere, regresie si corelatii
simple sau multiple, ca si prin serii cronologice [3].
Statistica descriptiva se bazeaza pe statistica matematica, cu care are multe
corespondente: populatie - spatiu de evenimente elementare; frecventa - probabilitate;
repartitii empirice - repartitii teoretice; variabila statistica - variabila aleatoare; medie
statistica - medie a unei variabile aleatoare. Insa legatura dintre ele se bazeaza pe
conceptul de probabilitate. Ca prima etapa a demersului statistic, statistica descriptiva are
ca notiune de baza repartitia (empirica) de frecvente, la care se evidentiaza indicatori ce
caracterizeaza forma repartitiei de frecvente, tendinta centrala, imprastierea, precum si
regresia si corelatia. Precizam ca orice studiu, bazat pe date empirice, trebuie sa se
delimiteze in timp si spatiu, astfel incat caracteristicile studiate sa fie bine precizate, iar
populatia sau colectivitatea statistica analizata sa fie bine delimitata. De exemplu:
populatia unui judet, hemoglobina si hematocritul, multimea bolnavilor internati
etc.Colectivitatea statistica este reprezentata de totalitatea elementelor care au
caracteristici comune si care formeaza obiectul analizei statistice. Unitatea statistica (de
observare) este reprezentata de fiecare element component al colectivitatii statistice,
supus observarii cu caracteristicile sale. Unitati statistice pot fi: persoana, familia,
nascutul viu, gravida, casatoria, dispensarul etc. Caracteristica sau variabila este una din
insusirile prin care se manifesta unitatea de observare, fiind comuna unitatilor unei
populatii, retinuta in investigatii. Odata delimitata colectivitatea statistica si unitatea de
observare cu caracteristicile sale, se trece la culegerea datelor. De observat ca si etapa
culegerii datelor face parte din ansamblul coerent de activitati avand ca scop
demonstrarea ipotezei de lucru. Avand in vedere caracteristicile retinute in studiu si pe
baza carora s-au cules datele statistice, acestea se ordoneaza in raport cu una sau mai
multe caracteristici, dupa un anumit principiu, formand o serie statistica sau repartitie
statistica. Daca sirul de valori arata schimbarea frecventelor unei caracteristici in raport
cu variatia unei alte caracteristici, se obtine o repartitie de frecvente. Se stabilesc reguli
generale, aplicabile oricarui tip de repartitie sau specifice fiecarui tip de repartitie in
parte, potrivit scopului practic sau teoretic propus. Astfel, se stabilesc repartitii in raport
cu una sau mai multe caracteristici, dupa o gradatie naturala sau conventionala in clase
diferite, clase care trebuie sa fie exhaustive - adica sa acopere toate situatiile particulare si
sa fie incompatibile, adica sa se excluda reciproc si, mai ales, clasele sa fie omogene.
Seriile statistice de repartitie trebuie sa fie constituite pe baza unor reguli prestabilite si cu
minim de pierdere de informatie. Numarul de observatii corespunzator fiecarei clase din
repartitia statistica se numeste frecventa. Daca frecventa se raporteaza proportional, in
raport cu totalul, frecventa este relativa; frecventele relative se pot cumula. Repartitia de
frecvente organizeaza unitatile populatiei in raport cu o variabila cantitativa sau
calitativa, dupa clase egale si omogene, de obicei in ordinea descrescatoare a
frecventelor.
Variabilele cantitative sunt acele insusiri ale unitatilor de observare care pot fi exprimate
printr-o unitate de masura (g, ore, cm). Variabilele calitative sunt insusirile care nu se
exprima prin unitati de masura, ci prin atribute (gravitate, culoare etc). Frecventa sta la
baza judecatilor statistice in cazul variabilelor calitative. In cazul variabilelor cantitative
cu un numar restrans de valori, repartitia grupeaza unitatile statistice pentru fiecare
valoare observata in clase discrete (numere intregi), iar repartitia se scrie astfel:
X X2  Xn
X 1
f1 f2  fn
Pentru o gama larga de valori (numere reale) ale variabilei, repartitia pe clase de valori
(intervale) imparte domeniul de variatie in clase consecutive (continue) si egale, de tip
interval, iar repartitia se poate scrie astfel:
x 0  x  x 1 x 1 x  x 2  x n -1 x  x n
X
f1 f2  fn
Intr-o repartitie de frecventa, frecventele se pot utiliza ca ponderi, iar frecventele relative
care se mai numesc coeficienti de ponderare sunt:
f f
f i'  i  i
 fi n
 
PREZENTAREA DATELOR STATISTICE
 
Tinand cont de cele de mai sus, se face prin tabele, care pot fi de mai multe feluri:
1. 1.      simple - prezentand repartitia unitatilor statistice dupa o singura
caracteristica;
2. 2.      cu dubla intrare - prezentand repartitii combinate dupa doua
caracteristici
- -         pe doua nivele (de tip "2 x 2")
- -         pe mai multe nivele sau variante (de tip "r x k") ;
2. 3.      tabele de asociatie - dupa mai multe caracteristici.
Reprezentarea grafica a seriilor de repartitie se impune de la sine, reprezentarea se face,
de regula, in sistemul de axe ortogonale, pe o scara aritmetica (naturala) sau (semi)
logaritmica.
Situatiile comparative se prezinta prin diagrame "in benzi" sau "coloane", proportionale
cu frecventele. Diagramele dc structura (dreptunghice sau circulare) prezinta suprafete
proportionale cu frecventele relative care structureaza populatia dupa o anumita
caracteristica. Repartitia frecventelor pe clase de valori se prezinta de regula printr-un
grafic numit "histograma", format dintr-o succesiune de dreptunghiuri verticale alaturate,
avand suprafetele proportionale cu frecventele pe clase. Suprafata inchisa de linia in scara
ce margineste "histograma" si de axa abciselor este proportionala cu suma frecventelor
care este intreaga colectivitate statistica. Odata construita histograma, linia franta care
uneste perpendicularele, proportionale cu frecventele, ridicate din centrele intervalelor de
clasa de pe axa abciselor, constituie "poligonul de frecvente", marginind o suprafata
echivalenta cu cea a histogramei. Exemplul cel mai cunoscut de histograma (inversata)
este "piramida varstelor", utilizata in demografie.
Se mai utilizeaza si alte tipuri de grafice, ori diagrame (cumulative), precum si
histograme (diagrame temporale). De observat, in aceasta etapa, ca atunci cand intervalul
de clasa este suficient de mic (de fapt se micsoreaza continuu), iar numarul de observatii
(unitati de observatie) este foarte mare, histograma sau poligonul de frecvente tind catre o
curba continua, astfel ca se inlocuieste conturul histogramei (poligonului) cu o curba lina,
care delimiteaza o arie totala egala cu cea a histogramei (poligonului). "Netezirea" curbei
presupune caracterul continuu al variabilei reprezentate. Curba frecventelor unei populatii
infinit de mare este limita catre ar tinde histograma (poligonul de frecvente), obtinuta pe
populatii cu volum restrans si reprezinta repartitia ideala sau teoretica si deci supusa
intamplarii, nealterate de jocul intamplarii, totodata legea (functia) de frecventa. De
observat, ca prin "curba de frecventa" se pune in evidenta "forma" repartitiei, data de
functia respectiva. Statistica matematica studiaza aceste functii teoretice. Deocamdata, in
etapa discriptiva, putem calcula diversi indicatori ai repartitiilor de frecventa care sa
evidentieze, pe baza caracteristicii studiate, gradul de grupare sau imprastiere a unitatilor
de observare.
 
INDICATORI DE TENDINTA CENTRALA

Astfel, media aritmetica simpla:

x
x i

x1  x 2    x n
n n     (1. 1)
dar mai ales media aritmetica ponderata (cu frecvente) :
x
x fi i

x 1f 1  x 2 f 2    x n f n f f f
 x 1 1  x 2 2    x n n  x 1f 1'  x 2 f 2'    x n f n'
f i n n n n
  (1. 2)
caracterizeaza global colectivitatea (restransa) studiata.Media poate fi definta si ca
valoarea fata de care suma abaterilor variantelor caracteristicii din seria de variatie este
nula. Ea se exprima printr-o valoare calculata, nu observata, si are aceeasi unitate de
masura cu cea a variabilei studiate (g, cm, zile etc.).Pentru caracterizarea seriilor de
variatie, media aritmetica ponderata este un indicator sintetic important, la a carui
calculare contribuie toate valorile seriei statistice, fiind influentata de valorile "aberante".
Proprietatile sale permit generalizarea rezultatelor la nivelul populatiei (colectivitatii)
generale, cum vom vedea.Exista si alte tipuri de medie: media geometrica, media
cronologica, media armonica s. a.Un alt indicator de tendinta centrala este si mediana
care imparte seria de variatie in doua jumatati egale si care este o valoare observata -
cand seria are un numar impar de variante sau calculata - cand seria are un numar par de
variante:
x  x i 1
Me  i
2
Mediana nu este influentata de valorile "aberante" ale seriei, astfel ca, daca se
inregistreaza valori aberante mari, "tipicul" seriei de variatie este mai bine evidentiat prin
mediana decat prin medie.Aceasta proprietate a medianei este folosita la stabilirea
dozelor letale, cand in timpul experimentelor de laborator, unele animale mor la doze
mici, iar altele sunt foarte rezistente. Prezenta unui singur animal "atipic" poate influenta
puternic media, dar nu si mediana, care se foloseste ca "doza letala 50" (DL50), adica
doza care omoara 50% din animalele de experienta. Mediana se poate calcula si grafic,
aflandu-se la intersectia curbelor frecventelor cumulate ascendent si descendent.
Alti indicatori de pozitie pot fi: cuartilele (care impart seria in patru parti egale), decilele
si centilele.Un alt indicator de tendinta centrala este modul definit ca valoarea (variantei)
cu numarul cel mai mare de aparitii, deci cu frecventa maxima. Modul poate oferi
indicatii asupra omogenitatii seriei de variatie (unimodale, bimodale, plurimodale).
Fenomenele biologicc se caracterizeaza mai ales prin "variabilitate", prin diferentieri,
astfel incat nu exista doi indivizi riguros asemanatori din toate punctele de vedere. De
aceea, cand se determina marimea unei caracteristici pentru o multime de indivizi, se
obtine un sir de valori diferite si care nu pot fi anticipate cu exactitate. Valorile
inregistrate difera mai mult sau mai putin de medie, astfel ca nu se poate anticipa cu
exactitate greutatea unui copil la nastere sau nivelul glicemiei la o persoana bolnava, de
exemplu.
Variabilitatea este cea care determina "imprastierea" sau "dispersia" valorilor in jurul
marimilor considerate tipice pentru seria statistica, cum sunt indicatori de tendinta
centrala sau de grupare: media, mediana, modul.
 
INDICATORI DE DISPERSIE

Aprecierea imprastierii sau dispersiei este tot atat de importanta ca si stabilirea


indicatorilor de tendinta centrala, bazandu-se pe notiunea de "abatere". In conditiile unei
dispersii mari, indicatorii de tendinta centrala nu sunt suficienti pentru a caracteriza seria
de variatie.Varianta (2) este un indicator de imprastiere care tine cont de frecventa de
aparitie a valorilor din serie. Se calculeaza prin media aritmetica ponderata a patratului
abaterilor dintre valorile observate si media lor:
  x i  x  2 f i  x 1  x  2 f1   x 2  x  2 f 2     x n  x  2 f n
x 
2

 fi f1  f 2    f n
  (2)

unde: i = 1, 2,..., n,  x - varianta variabilei x;


2

xi - valorile variabilei x;
x - media aritmetica (ponderata) ;
fi – frecventele;
Operatiunea de ridicare la patrat este necesara pentru evitarea reducerii abaterilor (in plus
sau in minus) fata de medie, iar prin operatiunea inversa, extragandu-se radicalul, se
obtine un nou indicator de dispersie: abaterea standard (abaterea medie patratica).
Abaterea standard sau deviatia tip reprezinta radacina patrata din varianta (dispersie) :
    2    (3)
Acest indicator are avantajul de a permite exprimarea dispersiei prin aceeasi unitate de
masura cu a caracteristicii (cm, g, etc.). Pentru facilitarea compararilor este calculat
coeficientul de variatie (CV%), exprimat in procente, ca fiind raportul dintre abaterea
standard si valoarea medie a seriei.

CV %   x  100
x    (4)
Coeficientul de variatie nu are unitate de masura, care a disparut prin raportarea abaterii
la medie. Acest fapt permite folosirea indicatorului la compararea a doua sau mai multe
serii de variatie, indiferent de ordinul de marime al variabilelor si de unitatile lor de
masura. Se considera ca un coeficient de variatie sub 10% indica o dispersie mica, adica
faptul ca seria este omogena, iar un coeficient intre 10% si 20%, ori de peste 30%, indica
dispersii mijlocii, ori mari. Se accepta faptul ca media este cu atat mai putin
reprezentativa pentru serie, cu cat acesta are o dispersie mai mare. In cazul
caracteristicilor calitative. nu pot fi efectuate masuratori, dar se pot acorda scoruri, pentru
diferitele variante, uneori se poate inregistra numai prezenta sau absenta caracterului
cercetat. De exemplu, pentru o serie de 10 noi-nascuti, caracteristica sex se inregistreaza
prin cele doua variante posibile, impartind suma variantelor respective la numarul
cazurilor, astfel ca se respecta conditiile de calcul ale mediei. Daca din 10 nou nascuti, 6
sunt de sex masculin, "media" prezentei sexului masculin va fi x = 0,6, iar "media"
prezentei sexului feminin va fi x = 0,4. Acesti indicatori, descrisi ca "medii" se numesc
proportii, notandu-se cu p sau q. Proportia este definita ca raportul dintre numarul
cazurilor in care o varianta a caracteristicii a fost constatata si numarul total de
evenimente observate. Atunci:
m
p
n ,
unde: p = proportia caracteristicii;
m = nr. de cazuri in care s-a constatat caracteristica;
n = nr. de evenimente observate.
In cazul caracteristicilor alternative (de exemplu, sexul) avem p + q = 1, deoarece:
(m/n) + (n-m)/n = n/n = 1 Pentru caracteristici cu mai multe alternative suma proportiilor
va fi de asemenea egala cu 1.
Prin analogie cu caracteristicile cantitative, se poate calcula un indicator de varianta, cu
formula: 2 = p•(1 - p) = p•q, unde p = 1 – q. Cand o varianta este mai des intalnita,
exista un plus de omogenitate, iar dispersia scade. La extrem, daca una din proportii este
egala cu zero, varianta devine si ea egala cu zero, indicand prezenta unei singure stari,
adica omogenitatea fenomenului: daca p = 0, 1 - p = 1 si 2 = 0 • 1 = 0. De mentionat ca o
caracteristica calitativa alternativa are dispersia maxima cand cele doua proportii sunt
egale p = q, deci 2 = p • p = p2. Pentru caracteristici calitative nealternative se pot calcula
tot atatia indicatori de dispersie cate stari sunt posibile, astfel:
12  p1  1  p1 
 22  p 2  1  p 2 

 2n  p n  1  p n 

Abaterea standard, ca si la caracteristicile cantitative, se calculeaza prin extragerea


radicalului:
 p   p 1  p 
De exemplu, daca intr-o formula leucocitara se constata ca pentru 100 de elemente sunt:
4 monocite, 15 limfocite, 3 eozinofile, 6 bazofile, 72 neutrofile, atunci:
Pmonocite = 4/100 = 0,04; Plimfocite = 0,15;
Peozinofile = 0,03; Pbazofile = 0,06; Pneutrofile = 0,72;
iar:
2monocite = 0,04 • 0,96 = 0,0384; 2limfocite = 0,15 • 0,85 = 0,1275;
2eozinofile = 0,03 • 0,97 = 0,0291; 2bazofile = 0,06 • 0,94 = 0,0564;
2neutrofile = 0,72 • 0,28 = 0,2016; etc. [3].
 
 
PROBABILITATI
 

Statistica descriptiva se bazeaza pe concepte si legitati ale statisticii matematice, in


primul rand pe conceptul de probabilitate.
Teoria probabilitatilor, arbitrand intre necesitate si intamplare, pune in evidenta unele
legitati specifice ansamblurilor fenomenelor intamplatoare din natura si societate prin legi
de probabilitate, cu caracter obiectiv si general. In cazul fenomenelor intamplatoare,
pentru indeplinirea unui anumit ansamblu de conditii, nu rezulta cu necesitate un
eveniment A, dar la reluarea experimentului, rezulta cu necesitate o stabilizare a
fenomenului intamplator situat in jurul unui numar, ca element stabil. Acest numar da
masura probabilitatii de aparitie a fenomenului intamplator studiat.Teoria probabilitatilor
se bazeaza pe trei concepte: experimentul, proba si evenimentul. Experimentul pune in
practica un ansamblu de conditii, pentru un criteriu dat de studiere a unor populatii
statistice, iar alegerea la intamplare a unei unitati statistice pentru a i se identifica
cantitativ sau calitativ criteriul de apartenenta la populatia considerata se numeste proba.
Rezultatul unei probe se generalizeaza, teoretic, prin conceptul de eveniment. Se numeste
eveniment intamplator (aleator) acel eveniment care se poate produce sau nu, la
efectuarea unei probe. De exemplu, aparitia unei anumite fete a unui zar constituie un
eveniment aleator. Exista evenimente dependente sau independente precum si evenimente
compatibile (care au loc simultan) sau incompatibile (Se pot realiza operatii algebrice cu
evenimente). Se numeste probabilitatea unui eveniment si se noteaza cu P (A) raportul
dintre numarul m al rezultatelor favorabile producerii lui A si numarul total n de rezultate
posibile ale experimentului, daca toate rezultatele sunt egal posibile:
P (A) = m/n, cu m  n. De exemplu, probabilitatea de aparitie, la o singura aruncare, a
uneia din fatetele unui zar, este 1/6. Probabilitatea satisface inegalitatea dubla: 0  P (A)
 1; daca P (A) = 0 evenimentul este imposibil, iar daca P (A) = 1 evenimentul este cert.
Un alt concept al teoriei probabilitatilor este cel de frecventa relativa a evenimentului A,
prin care se intelege raportul dintre numarul probelor m in care evenimentul A s-a produs
experimental si numarul total n de probe efectuate.
0 observatie indelungata a fenomenelor statistice evidentiaza ca, la repetarea unui
experiment, in aceleasi conditii, de un numar suficient de mare de ori, frecventa relativa
se stabilizeaza, osciland in jurul probabilitatii, obiectivand aprecierea probabilitatii, cu
toate legile care decurg. Atunci, probabilitatea este o masura a posibilitatii obiective de
realizare a unui eveniment intamplator. Interesanta pentru caracterizarea dependentei a
doua evenimente este probabilitatea conditionata, adica probabilitatea evenimentului A,
calculata conditionat de realizarea evenimentului B, notandu-se P (A/B). Se considera ca
un eveniment este practic imposibil, intr-o singura proba, daca probabilitatea ca el sa se
produca este mai mica decat un anumit numar (de ex. 0, 05), numit nivel de semnificatie
sau prag, propus de cercetator si variind dupa importanta fenomenului studiat.
Legate de anumite experimente, sunt acele marimi care iau valori la intamplare,
exprimate numeric, in functie de rezultatul experimentului, numite variabile aleatoare.
Ele pot lua orice valoare, fara a se preciza dinainte care anume. Variabilele aleatoare,
numite discrete, pot lua un numar infinit de valori (de ex. numarul de copii din diferite
familii luate la intamplare), iar variabilele aleatoare, numite continue, pot lua o infinitate
de valori, intr-un interval (a, b) dat (de ex. greutatea sau inaltimea unor persoane).
Exista si alte variabile aleatoare care, desi nu sunt continue, pot lua o infinitate de valori,
cum ar fi variabilele de tip Poisson, avand valori intregi (0, 1, 2, 3, ...).
Dat fiind ca suma tuturor valorilor posibile ale unei variabile aleatoare este egala cu 1, in
mod necesar, aceasta suma se repartizeaza intre aceste valori. Din punct de vedere
probabilistic, o variabila aleatoare este complet caracterizata daca, printr-o anumita lege
de repartitie. se indica cu precizie probabilitatea fiecarei valori posibile.
Pentru variabilele aleatoare discrete, legea de repartitie constituie un instrument de
caracterizare completa. Avand un numar infinit de valori, unui anumit domeniu de
variatie a valorilor posibile ale variabilei aleatoare continue, ii corespunde totusi, o
probabilitate finita, existand o anumita lege de repartitie a probabilitatilor, depinzand
(functie de x) de x.
Reprezentarea grafica a functiei de repartitie a unei variabile aleatoare discrete apare ca o
functie in trepte, in cazul variabilelor aleatoare de tip continuu, graficul are forma
curbilinie, iar probabilitatea ca variabila continua x sa ia o valoare in intervalul (a, b) este
egala cu aria domeniului marginit de axa OX, de curba de repartitie f (x) si de dreptele x
= a si x = b.
Repartitia normala (legea lui Gauss-Laplace) fundamentala in teoria probabilitatilor, este
o repartitie de tip continuu, descriind fenomene din natura sau socio-economice.
Caracteristica sa consta in faptul ca este o lege limita, catre care tind numeroase legi de
repartitie, in anumite conditii tipice. Functia sa de repartitie este perfect determinata de
media () si dispersia sau varianta ()2 variabilei aleatoare x, avand o forma de clopot.
 1 
 , 
Toate curbele normale admit un punct de maxim, de coordonate   2   , fiind
simetrice fata de paralela la OY dusa prin acest punct, iar in punctele  -  si  +  isi
schimba convexitatea; totodata, abaterea in valoare absoluta a variabilei aleatoare x fata
de medie nu depaseste intreitul valorii sale medii patratice (regula celor "3 s").
 

S-ar putea să vă placă și