Sunteți pe pagina 1din 23

Biostatistica

curs 1
Statistica este stiinta care se ocupă cu descrierea si analizarea
numerică a fenomenelor de masă. Ea studiază latura cantitativă a
fenomenelor, legile statistice manifestându-se sub formă de tendinte.
Biostatistica interesează aplicarea statisticii fenomenelor biologice,
incluzând biologia umană, medicina si sănătatea publică. Statistica este o
ramură a matematicii aplicate dezvoltată din teoria probabilitătilor si este
fundamentată pe toate stiintele experimentale: fizica, biologia, sociologia,
chimia, etc.
Prelucrarea datelor statistice cu ajutorul unor formule matematice
ne ajuta să întelegem fenomenele mai putin evidente.
Observatiile sunt transformate în înregistrări numerice iar statistica
este instrumentul matematic ideal pentru analiza lor.
Variabile aleatoare. Distribuţii

O variabilă aleatoare este o cantitate care ia valori diferite sau mulţimi de valori cu
probabilităţi variabile.
Un tabel, grafic sau expresie matematică dând probabilităţi cu care o
variabilă aleatoare ia diferite valori sau mulţimi de valori se numeşte distribuţia
variabilei aleatoare.
O distribuţie indică pentru o populaţie de observaţii frecvenţele relative cu
care diferite valori sau mulţimi de valori aleatoare apar. Când vorbim despre medie,
varianţă, deviaţie standard, mod sau orice altă statistică descriptivă a distribuţiei, ne
referim la întreaga populaţie de observaţii.
Media populaţiei 
Varianţa populaţiei 2
Deviaţia 
standard a populaţiei
Media eşantionului

Varianţa eşantionului S2
Deviaţia standard a S
eşantionului
Mărimea eşantionului n
Statistică descriptivă

Descrierea unei serii statistice

O serie statistică este constituită dintr-o multime de valori numerice care


reprezinta rezultatul unei observatii. O serie statistică poate fi: înăltimea,
greutatea sau glicemia la un grup de bolnavi. Prima etapă a activitătii în analiza
statistică a datelor o constituie ordonarea rezultatelor obtinute, care ne ofera o
descriere cât mai corecta a fenomenului studiat.

Ordonarea datelor. Distributia de frecventă

Considerând un grup de valori numerice experimentale ale tipului pe care îl


analizam, rezultatele sunt obtinute într-o ordine oarecare. Etapa de ordonare
crescătoare sau descrescătoare a datelor este cunoscuta ca “ ordonarea
datelor”. Se înscrie pentru fiecare valoare observată x, numărul F de aparitii,
care se va numi frecventa (efectivul) valorii.
Multimea valorilor efective ale frecventelor respective constituie distributia
frecventei, care se poate prezenta printr-un tabel.
Gruparea datelor în clase

Când valorile studiate variază continuu, cum este cazul


greutătii si înăltimii, al procentului de substantă umorală etc., atunci
când variabila poate lua toate valorile posibile într-un interval dat,
valorile observate pot fi foarte numeroase si distributia de frecventă
este foarte dispersată.
In acest caz este necesară reducerea numărului de valori
posibile si pentru aceasta, se împarte domeniul de variatii posibile
într-un număr de intervale sau clase în interiorul cărora se grupează
toate valorile care cad în intervalul corespunzător.
Intervalul de clasă

O importantă deosebita o are precizarea domeniului claselor alese, numit


“interval de clasă”, care trebuie să fie acelasi pentru toate clasele iar intervalele de clasă
trebuie să fie alăturate si fără suprapuneri. Intervalele de clasă se pot preciza în trei
moduri:

Indicând, măsurile limită ale fiecărei clase, adică cea mai mică si cea mai mare măsură
înaintea apartenentei la clasă, tinând cont de precizia măsurătorii.

Indicând ceea ce se numeste “limitele reale” ale fiecărei clase, adică cea mai mică
si cea mai mare dintre valorile teoretice ale variabilei în această clasă; de altfel, limita
superioară a unei clase si limita inferioară a clasei următoare coincid, ca de exemplu
valoarea 10.5 pentru clasele (0.5 .. 10.5) si (10.5 .. 20.5).

Indicând valoarea care se găseste exact în centrul clasei, numită “punct median” al
clasei, si care este dată de semisuma limitelor unei clase.
Grupând datele în clase, se remarcă asimilarea tuturor valorilor unei clase la o valoare
unică, aceea a punctului median (în acest mod, se face reducerea la cazul unei
variabile discontinue).

Observatie: Experienta arată că în practică numărul intervalelor de clasă este bine să


fie cuprins între 10 si 20.
Frecvente relativa

Efectivul F al unei valori (sau al unei clase) reprezintă frecventa absolută, adică
numărul de aparitii ale acestei valori (sau efectivul clasei) în ansamblul distribuit.
Dacă dorim să comparăm serii statistice comportând un număr diferit de cazuri, se va
raporta frecventa absolută la numărul n de cazuri, numit efectivul total, care
reprezinta seria studiată. Se defineste frecventa relativă, sau frecventa propriu-zisă a
valorilor considerate, ca fiind
fr = F / n
Numărul total n de cazuri se defineste ca fiind suma efectivelor fiecărei valori Fi.
Suma frecventelor relative va fi egală cu 1.

Diagrama frecventelor

Datele care reprezinta o distributie de frecvente pot fi reprezentate grafic,


oferind o imagine mai usor de interpretat ea scotand in evidenta alura generală a
caracteristicilor esentiale. Ea reprezinta diagrama frecventelor.
Modul de reprezentare grafica cel mai des utilizat este histograma: fiecare
valoare(clasă) este figurată printr-un dreptunghi a cărui bază corespunde valorii(sau
intervalului de clasă) reprezentat pe axa absciselor si a cărui înăltime este proportională
cu efectivul (numărul,) acestei valori (clase), fiind reprezentată pe ordonată.
Se obtine astfel o multime de dreptunghiuri cu aceeasi lătime si a căror
înăltime si suprafată sunt respectiv proportionale cu efectivele fiecărei valori (sau clase).
Număr de băieţi Număr de familii F Frecvenţa Procentajul
X f=F/n 100*f

0 22 0.01 1

1 112 0.06 6

2 285 0.15 15

3 470 0.25 25

4 513 0.27 27

5 320 0.17 17

6 132 0.07 7

7 23 0.01 1

Total 1877 1 100


27,00%
600 25,00%513 0,3
470
500 0,25
Frecvenţă absolută

15,00% 17,00%
400 0,2

procentuală
320

Frecvenţă
285
300 7,00%
0,15
6,00%
200 132 0,1
1,00% 112 1,00%
100 22 23 0,05
0 0
0 1 2 3 4 5 6 7
Număr de băieţi
Măsuri Limitele Puncte Efective
limită reale mediane
40-44 39.5 – 44.5 42 5
45-49 44.5 – 49.5 47 12
50-54 49.5 – 54.5 52 31
55-59 54.5 – 59.5 57 31
60-64 59.5 – 64.5 62 16
65-69 64.5 – 69.5 67 3
70-74 69.5 – 74.5 72 2
100
31.00% 31.00%
35 31 31 0.35

30 0.3

Frecventa procentuala
25 0.25
Frecventa absoluta

16.00%
20 12.00% 16 0.2
15 12 0.15
5.00%
10 3.00% 2.00% 0.1
5
5 3 2 0.05
0 0
40-44 45-49 50-54 55-59 60-64 65-69 70-74
Clase de greutate
Principalele tipuri de diagramă de frecvente

Diagramele de frecvente folosite pentru observatiile din biologie si medicină pot


acoperi o paleta variata de tipuri de distributii. Prin transformari acceptate matematic
(logaritmarea valorilor, etc) se pot reduce adesea la tipuri bine-definite, evocând
distributiile teoretice cunoscute.
Diagrame simetrice: frecventele diferitelor clase se grupează simetric descrescător
de o parte si de alta a unei frecvente centrale maximale.
Acest tip de distributie apare ca o distributie teoretică a calculului probabilitătilor, numită
distributie normală (gaussiană) si care joacă un rol fundamental în statistică. Ea se
întâlneste adesea în biologie, când esantionul studiat apartine unei populatii normal
distribuite.
Diagrame asimetrice: corespund cazului unei frecvente maximale în jurul căreia se
grupeaza frecventele diferitelor clase. Frecventele descresc mai rapid fată de cea
maximă într-o parte a diagramei, comparativ cu cealaltă parte.
Diagrame hiperbolice: sunt un caz particular al distributiei asimetrice, unde
frecventa maximală se situează la una dintre extremitătile distributiei.
DistribuŃia bimodală: prezintă două frecvente maximale corespunzătoare diferitelor
valori ale variabilei. Acest aspect sugerează existenta in esantionul studiat a două
populatii distincte.
Poligoane de frecventă

Prin unirea mijloacelor marginilor superioare ale fiecărui dreptunghi al


histogramei reprezentative a unei serii de frecvente se obtine o linie frântă, numită
poligonul frecventelor seriei corespunzătoare, care indică variatia frecventei de-a
lungul multimii valorilor seriei. După construirea poligonului frecventelor, fiecare dintre
colturile amputate sunt compensate cu triunghiuri adiacente, astfel încât suprafata
înglobată în poligonul frecventelor rămâne aceeasi (fiind echivalentă cu suprafata
histogramei adica reprezinta efectivul seriei).
Obs.: Poligonul de frecventă are aceeasi semnificatie cu marginea superioară a
histogramei.
Frecvente cumulate

Plecând de la valoarea cea mai mică (prima din ordinea tabelului ) se adună
succesiv frecventele fiecărei valori (sau clase); prin urmare, pentru fiecare valoare se
consideră nu numai frecventa sa proprie, ci suma acestei frecvente cu a tuturor
valorilor inferioare. În acest mod se obtine o distributie de frecvente numita
distributia frecventelor cumulate
Clasificarea datelor

Datele folosite în calculele statistice sunt de două tipuri:


calitative (categoriale)
cantitative (numerice).

1. Date calitative: pot fi clasificate după categorii si nu după număr (valori).


Exemple: Bărbati / Femei, Fumători / Nefumători, Grupa sanguină A /B /AB /0, etc.
Uneori utilizăm numere pentru a reprezenta diferite categorii. Aceste tipuri de
date calitative se numesc variabile nominale când variabila poate lua doar două valori,
ea se va numi variabilă binară (ex. Diabetic / Nediabetic).
Adesea există o ordine naturală în organizarea variatiilor unui sistem
(organizare în clase). Aceste tipuri de date se numesc variabile ordinale.
Exemplu
· Consum de tigarete: nefumători / fumator,
sub 5 tigări pe zi,
5 – 10 tigări pe zi,
10 – 20 tigări pe zi,
peste 20 tigări pe zi
· Clase sociale: jos / mijloc / sus
2. Date cantitative: sunt caracterizate de valori numerice. Pot fi, la rândul lor:
· continue: pot lua orice valoare într-un interval dat;
· discrete: pot lua numai anumite valori numerice.
Exemplu:
· date de tip continuu: greutatea într-un grup de pacienti, înăltimea într-un lot de
copii;
· date de tip discret: numărul de copii într-o familie, numărul de internări într-un
spital.

Reprezentarea datelor

• Datele calitative se reprezintă folosindu-se următoarele metode:


Tabele de frecventă;
Bar chart (un tip de reprezentare grafică asemănătoare histogramei);
Pie chart.

• Datele numerice se reprezintă folosindu-se următoarele metode:


Histograma;
Graficul linie
Diagrama datelor (se figurează norul de puncte).
Reprezentarea datelor

Datele calitative se reprezintă folosindu-se următoarele metode:


· Tabele de frecventă;
· Bar chart (un tip de reprezentare grafică asemănătoare histogramei);
· Pie chart.
Datele numerice se reprezintă folosindu-se următoarele metode:
· Histograma;
· Graficul linie
· Diagrama datelor (se figurează norul de puncte).
• 8.5. Măsurile valorilor centrale
• Parametrii urmăriţi în analiza unei serii statistice sunt:
• Media aritmetică:
• Se aplică datelor care au valori numerice; se obţine făcând raportul dintre suma tuturor valorilor şi numărul acestora.
• Exemplu: Vom calcula media aritmetică a următoarei serii de valori:
• 39, 42, 73, 67, 24 , 55.
• Aceasta va fi:
• .
• În cazul general: avem observaţiile x1 , x2 , … , xn ; suma absolută a acestora va fi ; în acest caz, media aritmetică se va calcula cu formula:
• .
• Mediana:
• Când observaţiile sunt aşezate în ordine (descendentă sau ascendentă), mediana va fi valoarea care împarte grupul de valori în două părţi egale.
• Exemplul 1: Avem seria de valori:
• C, E, B, D, A, A, B, F, C, C, D.
• Le vom aranja în ordine ascendentă:

A, A, B, B, C, C, C, D, D, E, F.
• Mediana va fi elementul încercuit.
• Exemplul 2: Avem seria de valori:
• 61 , 49 , 53 , 61 , 74 , 82.
• Aranjăm elementele în ordine ascendentă:
• 35 , 49 , 53 , 61 , 74 , 82.
• Mediana se calculează făcând media aritmetică a celor două valori din mijlocul şirului:
• .
• c) Modulul:
• Este valoarea care are frecvenţa cea mai mare din setul de observaţii.
• Exemplu: Avem mulţimea de valori:
• A, O, O, B, B, AB, AB, A, A, O, O, O, AB, B, O, B, A, O, AB, O, O, B, O, A.
• Valoarea A are 5 apariţii.
• Valoarea B are 5 apariţii.
• Valoarea AB are 4 apariţii.
• Valoarea O are 10 apariţii. Aceasta va fi modulul seriei de valori.
• 8.6. Măsuri ale împrăştierii sau variabilităţii
• Măsurile valorii centrale nu ne dau nici o indicaţie privind împrăştierea sau variabilitatea într-un set de observaţii.
• Exemplu: Să considerăm că avem două comunităţi A şi B; media valorii luata in studiu in cele doua comunităţi este aceeaşi, însă distribuţiile valorilor (împrăştierea acestora) este diferită (conform tabelului 8.5).
• Comunitatea AComunitatea B4000800060008000800090001000010000120001100014000120001600012000 Tabelul 8.5: Locuitorii din doua comunităţi A şi B
• Pentru a se putea caracteriza gradul de împrăştiere ale valorilor unei serii de valori, se defineşte o mărime specială, numită deviaţie standard.
• O altă măsură utilă de caracterizare a împrăştierii este rangul, definit ca diferenţa între cea mai mică şi cea mai mare valoare a seriei.
• Varianţa (dispersia) şi deviaţia standard:
• Varianţa este media pătratelor deviaţiilor (abaterilor) de la medie. Când calculăm varianţa unei serii statistice, suma pătratelor deviaţiilor de la medie se împarte la (n – 1), deoarece aceasta dă o mai bună estimare a varianţei populaţiei totale. Numitorul (n – 1) este numit numărul gradelor
de libertate a varianţei.
• Formula de calcul a varianţei pentru o serie de valori x1 , x2 , … , xn va fi:
• Exemplu: Valorile variaţiei într-un set de rezultate sunt prezentate în tabelul 8.6.
• Vârsta (rezultate)Deviaţia absolută de la mediePătratul deviaţiei 16813.8190.4426510.8116.643594.823.044594.823.045572.87.846522.24.847495.227.048486.238.449486.238.4410486.238.44114711.2125.44Total59674.2633.64 Tabelul 8.6: Varianţa într-un set de rezultate
• .
• Numărul de grade de libertate: 11-1=10.
• Mediana: 52.
• Modulul: 48.
• .
• Definiţie:
• Rădăcina pătrată a varianţei se numeşte deviaţie standard.
• .
• Eroarea standard (e.s.) este dată de formula:
• .
• Pentru exemplul nostru (tabelul 8.6):
Mediana:
Când observaţiile sunt aşezate în ordine (descendentă sau ascendentă),
mediana va fi valoarea care împarte grupul de valori în două părţi egale.

Exemplul 1: Avem seria de valori:


C, E, B, D, A, A, B, F, C, C, D.
Le vom aranja în ordine ascendentă:

A, A, B, B, C, C, C, D, D, E, F.
Mediana va fi elementul încercuit.
Exemplul 2: Avem seria de valori:
61 , 49 , 53 , 61 , 74 , 82.
Aranjăm elementele în ordine ascendentă:
35 , 49 , 53 , 61 , 74 , 82.
Mediana se calculează făcând media aritmetică a celor două valori din
mijlocul şirului:
c) Modulul:
Este valoarea care are frecvenţa cea mai mare din setul de
observaţii.
Exemplu: Avem mulţimea de valori:
A, O, O, B, B, AB, AB, A, A, O, O, O, AB, B, O, B, A, O, AB, O, O, B,
O, A.
Valoarea A are 5 apariţii.
Valoarea B are 5 apariţii.
Valoarea AB are 4 apariţii.
Valoarea O are 10 apariţii. Aceasta va fi modulul seriei de valori.
Măsuri ale împrăştierii sau variabilităţii
Măsurile valorii centrale nu ne dau nici o indicaţie privind împrăştierea sau
variabilitatea într-un set de observaţii.
Exemplu: Să considerăm că avem două comunităţi A şi B; media valorii luata in studiu
in cele doua comunităţi este aceeaşi, însă distribuţiile valorilor (împrăştierea acestora)
este diferită

Pentru a se putea caracteriza gradul de împrăştiere ale valorilor unei serii de valori, se
defineşte o mărime specială, numită deviaţie standard.

O altă măsură utilă de caracterizare a împrăştierii este rangul, definit ca diferenţa


între cea mai mică şi cea mai mare valoare a seriei.

Varianţa (dispersia) şi deviaţia standard:

Varianţa este media pătratelor deviaţiilor (abaterilor) de la medie.


Când calculăm varianţa unei serii statistice, suma pătratelor deviaţiilor de la medie se
împarte la (n – 1), deoarece aceasta dă o mai bună estimare a varianţei populaţiei
totale. Numitorul (n – 1) este numit numărul gradelor de libertate a varianţei.

S-ar putea să vă placă și