Sunteți pe pagina 1din 46

Statistica = Arta deciziei bazată pe cunoştinţe

parţiale.

BIOSTATISTICĂ.
Noţiuni de bază. Definiţii
CURS 6
Concepte specifice:

STATISTICA: Ştiinţa care se ocupă cu descrierea şi analizarea


numerică a fenomenelor de masă. Studiază
latura cantitativă a fenomenelor, legile
statistice manifestându-se sub formă de
tendinţe.

BIOSTATISTICA: Aplicarea statisticii fenomenelor


biologice, incluzând biologia umană,
medicina şi sănătatea publică.

OBIECTIVE: 1. Colectarea datelor


2. Prezentarea datelor colectate
3. Analiza şi interpretarea
rezultatelor
4. Realizarea de decizii bazate pe
analiza datelor
Statistica este știința care se ocupă de colectarea, clasificarea și
tabelarea faptelor numerice pentru a explica, descrie și compara
fenomene.
(Lovitt)

Originile și dezvoltarea STATISTICII în


cercetarea medicală:
În 1929, un articol amplu despre aplicațiile statisticii în
medicină a fost publicat de Dunn în Journal of
Physiology.
În 1937, 15 articole despre metode statistice au fost
publicate sub formă de carte de către Austin Bradford
Hill.
Frecvența statisticilor în medicină s-a multiplicat de 8 ori
în perioada 1952 - 1982.
Douglas Altman Ronald Fisher Karl Pearson

C.R. Rao Carl Friedrich


Gauss
Motive pentru care biostatistica este
importantă :
Medicina devine din ce în ce mai mult o știință
cantitativă.
Planificarea, derularea și interpretarea studiilor de
cercetare medicală sunt din ce în ce mai dependente de
metodologia statistică.
Statisticile sunt tot mai prezente în literatura medicală

Provocare:
Conceptele statistice pot părea intimidante și dificile.

Consecință: • Rezultatele statistice sunt deseori omise când se citește


literatură științifică
• Datele sunt adesea interpretate greșit.
Exemplu: Evaluarea eficienței penicilinei (tratament A) față de
penicilină și cloramfenicol (tratamentul B) în tratarea
pneumoniei bacteriene la copii cu vârsta sub 2 ani.

 Care este dimensiunea eșantionului necesar pentru a obține


rezultate semnificative statistic?
 Este tratamentul A mai bun decât tratamentul B sau invers?
 Dacă da, cu cât este mai bun?
 Care este variația normală a măsurătorilor clinice? (ușoară,
moderată și severă)?
 Cât de fiabile și de valide sunt măsurătorile? (clinice și
radiologice)?
 Care este mărimea și efectul erorilor tehnice și de laborator?
 Cum se interpretează valorile anormale?
MEDICINA CLINICĂ
Documentarea istoricului bolilor.
Planificarea și desfășurarea studiilor clinice.
Evaluarea avantajelor diferitelor proceduri.
Furnizarea de metode pentru caracterizarea stării de
"normal" și de „patologic".
MEDICINA PREVENTIVĂ
Evaluarea gravității oricărei
probleme de sănătate în
populație.
Identificarea factorilor de bază
care definesc starea de boală.
Evaluarea programelor de
sănătate introduse în populație
(succes / eșec).
Introducerea și promovarea
legislației sanitare.
LA CE ESTE NECESARĂ BIOSTATISTICA?
Proiectarea studiului
Stabilirea dimensiunii
eșantioanelor
Selectarea eșantioanelor (activ
și martor)
Proiectarea chestionarelor
Gestiunea datelor
Realizarea statisticilor și
graficelor descriptive
Aplicarea tehnicilor de analiză
univariată și multivariată
DOMENII ASISTATE DE STATISTICĂ

Planificare Design

Colectarea Procesarea Analiza


EXECUȚIE datelor datelor datelor

Prezentare Interpretare Publicare


DOMENII ASISTATE DE STATISTICĂ?
PREZENTAREA DATELOR
Tabele
Diagrame
Grafice
EXECUȚIE STATISTICI DESCRIPTIVE
Măsurile valorii centrale
Măsurile dispersiei
Măsurile asimetriei și boltirii

STATISTICI INFERENȚIALE
Estimări
Estimări punctuale
Estimări de interval

TESTAREA IPOTEZELOR
Analiză univariată
Analiză multivariată
Concepte specifice:
•STUDIUL •PARAMETRUL
•REZUMATUL •VARIABILA
•EXPERIMENTUL •POPULAŢIA DE OBSERVAŢII
•UNITATEA •EŞANTIONUL DE OBSERVAŢII
•POPULAŢIA •STATISTICA
•EŞANTIONUL DE UNITĂŢI

JOHN GROWNT - sec. XVII


ACHENWALD, 1772
PEARSON - “Biometrika”; 1900 - testul 2
Elemente de statistică descriptivă.
Descrierea unei serii statistice
SERIE STATISTICĂ:
Un ansamblu de valori numerice –
rezultat al unei observaţii.
PRIMA ETAPĂ A ACTIVITĂŢII STATISTICE:
Clasificarea rezultatelor obţinute şi prezentarea
lor sub o formă facilă, accesibilă, care dă o
descriere a fenomenului pe cât de fidelă posibil.

1. ORDONAREA DATELOR – crescător sau descrescător

2. DETERMINAREA FRECVENŢELOR ABSOLUTE:

Pentru fiecare valoare distinctă observată x, se calculează


numărul F de apariţii, numit frecvenţa absolută (efectivul)
valorii.
Mulţimea valorilor efective ale frecvenţelor respective
constituie distribuţia frecvenţei, care se poate prezenta printr-
un tabel.
Numărul total n de cazuri = suma efectivelor fiecărei valori:
p

 Fi  n
i 1
3. EXPRIMAREA FRECVENŢELOR ŞI SUB ALTE FORME:

FRECVENŢA RELATIVĂ: Permite să comparăm serii statistice


comportând un număr diferit de cazuri.
Se raportează frecvenţa absolută calculată la numărul n de cazuri, numit
efectivul total al seriei studiate.
F p
fr 
n
f
i 1
ri 1

FRECVENŢA PROCENTUALĂ: Permite să caracterizăm mai


expresiv frecvenţa relativă.
p
fp = fr  100 f
i 1
pi  100

FRECVENŢA CUMULATĂ:
Se defineşte ca fiind suma frecvenţei proprii a unei valori
observate cu frecvenţele tuturor valorilor inferioare.
4. REALIZAREA TABELULUI DISTRIBUŢIEI DE FRECVENŢE:
Exemplu: Se consideră un lot format din 370 pacienţi care s-au prezentat la
tratament în Policlinica Stomatologică, prezentând următoarele diagnostice de
urgenţă:
1 – hiperemie pulpară;
2 – pulpită acută seroasă; 5 – fractură odonto-parodontală;
3 – pulpită acută purulentă; 6 – luxaţie ATM;
4 – parodontită apicală acută; 7 – insuficienţă funcţională fizionomică.
DG.URG. F f fp Fc fc fpc
0 10 0,03 3% 10 0,03 3%
1 76 0,21 21% 86 0,24 24%
2 41 0,11 11% 127 0,35 35%
3 53 0,14 14% 180 0,49 49%
4 54 0,15 15% 234 0,64 64%
5 57 0,15 15% 291 0,79 79%
6 45 0,12 12% 336 0,91 91%
7 34 0,09 9% 370 1,00 100%
TOTAL 370 1,00 100%
Elemente recomandate într-un tabel

Numărul de ordine al tabelului pentru


NUMĂR identificarea sa în raportul statistic

Descrierea conținutului tabelului (ce,


TITLU cum, unde și când se clasifică)

ANTET DE Descrierea conținutului fiecărei


coloane (ex. Numele variabilei,
COLOANE Nr.crt., Procentaj)
Informații suplimentare despre linii,
NOTE DE coloane sau celule particulare, despre
SUBSOL sursa datelor, etc.
Tabelul 1. Distribuția a 120 spitale în funcție de rata anuală de
decese înregistrată în perioada 1975 - 1976
Death rate (/1000 per annum) No. of divisions
7.0-7.9 4 (3.3)
8.0 - 8.9 13 (10.8)
9.0 - 9.9 20 (16.7)
10.0 - 10.9 27 (22.5)
11.0 - 11.9 18 (15.0)
12.0 - 12.9 11 (0.2)
13.0 - 13.9 11 (9.2)
14.0 - 14.9 6 (5.0)
15.0 - 15.9 2 (1.7)
16.0 - 16.9 4 (3.3)
17.0 - 18.9 3 (2.5)
19.0 + 1 (0.8)
Total 120 (100.0)
Valorile în paranteze indică procentaje
6. REPREZENTARE GRAFICĂ: DIAGRAMA FRECVENŢELOR

HISTOGRAMA

Distribuţia de frecvenţe – DIAGNOSTIC LEGENDĂ:


DE URGENŢĂ 1 – hiperemie
pulpară;
80
76 2 – pulpită acută
seroasă;
70 3 – pulpită acută
54 57
60 53 purulentă;
4 – parodontită
50 45
41 apicală acută;
40 34 5 – fractură
odonto-
30 parodontală;
6 – luxaţie ATM;
20
10 7 – insuficienţă
10 funcţională
fizionomică.
0
0 1 2 3 4 5 6 7
DIAGRAMA CU LINII
HISTOGRAMA FRECVENŢELOR CUMULATE:

Distribuţia de frecvenţe – DIAGNOSTIC LEGENDĂ:


DE URGENŢĂ 1 – hiperemie
pulpară;
400 370 2 – pulpită acută
336 seroasă;
350 3 – pulpită acută
291 purulentă;
300
250
234 4 – parodontită
apicală acută;
200
180 5 – fractură
odonto-
150 127 parodontală;
86 6 – luxaţie ATM;
100 7 – insuficienţă
funcţională
50 10 fizionomică.
0
0 1 2 3 4 5 6 7
PRINCIPALELE TIPURI
DE DIAGRAMĂ DE 30
Diagramă simetrică
27

FRECVENŢE: 25 23 22

Frecvenţe absolute
20
1. DIAGRAME SIMETRICE: 14
15 13
10 11
10 7 7

5 2 3 2
0
0
0 1 2 3 4 5 6 7 8 9 10 11 12

Diagrama asimetrică

2. DIAGRAME ASIMETRICE: 40 34
35
Frecvenţa absolută

30 26
25 22
20
15 11
10 4 6 5 3 1
5
0
19 20 21 22 23 24 25 26 27
Valorile diametrului
Diagramă hiperbolică

350 330 302


286

Frecvenţa absolută
300
3. DIAGRAME HIPERBOLICE: 250
195
200
150
100
40 39 42
50 23 22 24 23 21 20 35 36 34 37 32

0
5 10 15 20 25 30 35 40 45 50 55 60 65 70 65 70 75 80
Vârstă

Diagrama bimodala

4. DIAGRAME BIMODALE: 30
Frecventa absoluta

25
20
15
10
5
0
10 20 30 40 50 60 70 80
Varsta
5. GRUPAREA DATELOR ÎN CLASE:
Când valorile studiate variază continuu, cum este cazul greutăţii şi al înălţimii
etc., distribuţia de frecvenţe este foarte dispersată şi nu oferă o interpretare
semnificativă a mulţimii de valori. De aceea, se recurge la reducerea numărului de
valori posibile, grupând valorile vecine. Mai precis, se împarte domeniul de variaţii
posibile într-un număr de intervale sau clase în interiorul cărora se grupează
toate valorile care cad în intervalul corespunzător.
Intervalele de clasă trebuie să fie CONTIGUE şi FĂRĂ SUPRAPUNERI.

Limite reale 39.5 44.5 49.5 54.5 59.5

40 44 45 49 50 54 55 59
Măsuri
limită

Puncte mediane: 42 47 52 57
+ lungimea intervalului
Formule de calcul pentru numărul intervalelor de
clasă pentru un eşantion dat:

k = 1 + 3.322 *
Relaţia lui H.A. Sturgers: ln(n)

[ ]
1
Relaţia H.B. Mann şi A. Wald 1 5
(pentru n >100): 𝑘=4 ∙ ∙(𝑛 −1)
4

• Dacă dimensiunea eşantionului este mai mică


decât 25, atunci nu se aplică împărţirea pe clase.

• În practică numărul intervalelor de clasă este bine


să fie cuprins între 10 şi 20.
Exemplu: Pe acelaşi lot format din 370 pacienţi care s-au prezentat la tratament în
Policlinica Stomatologică determinăm distribuţia de frecvenţe a variabilei VÂRSTĂ
(cuprinsă între 1 şi 99 ani).

VÂRSTA F f fp Fc fc fpc
1 – 10 ani 29 0,08 8% 29 0,08 8%
11 – 20 ani 124 0,33 33% 153 0,41 41%
21 – 30 ani 111 0,30 30% 264 0,71 71%
31 – 40 ani 43 0,11 11% 307 0,82 82%
41 – 50 ani 30 0,08 8% 337 0,90 90%
51 – 60 ani 18 0,05 5% 355 0,95 95%
61 – 70 ani 3 0,01 1% 358 0,96 96%
71 – 80 ani 1 0,01 1% 359 0,97 97%
81 – 90 ani 7 0,02 2% 366 0,99 99%
91 – 100 ani 4 0,01 1% 370 1,00 100%
TOTAL 370 1,00 100%
POLIGONUL DE FRECVENŢĂ:

Distribuţia de frecvenţe – DIAGNOSTIC


DE URGENŢĂ
80 76
70
54 57
60 53
50 45
41
40 34
30
20
10
10
0
0 1 2 3 4 5 6 7
DIAGRAME DE STRUCTURĂ:
arată proporţia valorilor unei variabile în cadrul eşantionului

DREPTUNGHI DE PIE CHART


STRUCTURĂ
100%
90% superioare; 80 fara
5.4%
80%
superioare
70% postliceale; 60 21.6% gimnaziale
16.2%
60%
50%
40% liceale; 150
postliceale
30% 16.2%

20%
gimnaziale; 60
10% liceale
40.5%
fara; 20
0%
Series1
DIAGRAMA TUKEY – Stem and Leaf:
permite reconstituirea datelor şi evaluarea densităţii datelor în fiecare clasă

Clasa Valori Frecvenţa Diagrama TUKEY


1 10; 10; 10,6 3 10. 006
2 11; 11.3; 11.3; 11.5 4 11. 0335
3 12; 12.2; 12.3; 12.3; 12.8; 12,8 6 12. 023388
4 13.3; 13.7 2 13. 37
5 14.5 1 14.5

Clasa Valori Frecvenţa Diagrama TUKEY


1 50; 50; 53; 54; 55; 55; 56 7 5|0034556
2 61; 63; 63; 64; 67; 68 6 6|133478
3 74; 75; 75; 76; 77; 78; 79; 79 8 7|45567899

Se foloseşte în general pentru a reprezenta variabile care


au drept valori numere reale, grupate în intervale de clasă.
DIAGN URGENTA * domiciliu Crosstabulation
  domiciliu TOTAL
R U
TABELUL DE CONTINGENŢĂ:
N 17 37 54
fractura odonto- % linie 31.5% 68.5% 100.0%
parodontala % coloană 20.0% 21.3% 20.8%
% total 6.6% 14.3% 20.8%
N 14 44 58
% linie 24.1% 75.9% 100.0%
hiperemie pulpara
% coloană 16.5% 25.3% 22.4%
% total 5.4% 17.0% 22.4%
N 19 28 47
% linie 40.4% 59.6% 100.0%
luxatie ATM
% coloană 22.4% 16.1% 18.1%
% total 7.3% 10.8% 18.1%
DIAGN URGENTA
N 10 19 29
parodontita apicala % linie 34.5% 65.5% 100.0%
acuta % coloană 11.8% 10.9% 11.2%
% total 3.9% 7.3% 11.2%
N 7 29 36
pulpita acuta % linie 19.4% 80.6% 100.0%
purulenta % coloană 8.2% 16.7% 13.9%
% total 2.7% 11.2% 13.9%
N 18 17 35
% linie 51.4% 48.6% 100.0%
pulpita acuta seroasa
% coloană 21.2% 9.8% 13.5%
% total 6.9% 6.6% 13.5%
N 85 174 259
% linie 32.8% 67.2% 100.0%
TOTAL
% coloană 100.0% 100.0% 100.0%
% total 32.8% 67.2% 100.0%

+ VARIABILE DE STRATIFICARE
DIAGRAMA DE TIP PIRAMIDĂ:
Parametri uzuali de statistică descriptivă.
CLASIFICAREA DATELOR
DATE
DATE
CANTITATIV
CALITATIVE
E

Date
Date
nominal Scala de tip
continue INTERVAL
e

Date Date Scala de tip


RAPORT
binare discrete

Date
ordinale
REPREZENTAREA DATELOR
Distribuţia de frecvenţe: STUDII
DATE
64
CALITATIVE 70
61
53
60
50
40
30 15
9
Tabelele 20
10

distribuţiei 0
c at
ud
ii
tar
e
ed
ii
ar
e
ifi st io
de frecvenţe n esp
ec


ie
le
m
en
st
u d ii
m

ii
s u per

u di u d
st st

Histograma Distribuţia de frecvenţe: Sex

47%
53%

Pie chart feminin


masculin
REPREZENTAREA DATELOR
DATE
CANTITATIVE

Tabele cu
măsurile valorii
centrale şi
împrăştierii

Histograma
– Poligon de
frecvenţă

Box &
Whisker
Plot
MĂSURILE VALORII CENTRALE
MEDIA ARITMETICĂ:
Se aplică datelor care au valori numerice; fiind date observaţiile x1 , x2 , … , xn
n
media aritmetică se va calcula cu formula:
x
i 1
i
x
MEDIA ARITMETICĂ PONDERATĂ: n
Fiind date observaţiile x1 , x2 , … , xn pentru care se cunosc frecvenţele
absolute F1, F2, … Fn, media aritmetică ponderată se va calcula cu formula:
n

F  x  F2  x2  ...  Fn  xn F x i i
x 1 1  i 1

n n
MEDIA CRONOLOGICĂ, MC:
Se foloseşte în cazul seriilor care au variaţii în timp (lunare, semestriale sau
anuale):
x1 / 2  x2  ...  xn 1  xn / 2
MC 
n 1
MEDIANA, ME:
Se calculează pentru datele care au valori numerice; se ordonează valorile
crescător sau descrescător.
 În cazul în care şirul are un număr IMPAR de valori: mediana va fi valoarea
care împarte şirul de valori în două părţi egale.
 În cazul în care şirul are un număr PAR de valori: mediana se calculează
făcând media aritmetică a celor două valori din mijlocul şirului.

MODULUL (dominanta), MO:


Este valoarea care are frecvenţa cea mai mare dintr-un şir de observaţii.

VALOAREA CENTRALĂ, Xc:


Reprezintă media aritmetică a valorilor extreme din şirul de date studiat.
xmin  xmax
XC 
2
RELAŢIA ÎNTRE MEDIE, MEDIANĂ şi MODUL:

În cazul distribuţiilor simetrice cei trei parametri sunt egali:

x  M E  MO
În cazul distribuţiilor asimetrice:
MĂSURILE ÎMPRĂŞTIERII
VARIANŢA (DISPERSIA):
Este media pătratelor deviaţiilor (abaterilor) de la medie. Fiind dată o serie de
valori x1 , x2 , … , xn , n >30, se calculează cu formula: n

 ( xi  x) 2
( S 2 )  2  i 1
n
Dacă n < 30, se aplică 0 corecţie a formulei de
calcul: n

 ( xi  x ) 2

Numitorul (n – 1) = numărul gradelor de 2


(S )   2 i 1

libertate ale varianţei. n 1

DEVIAŢIA STANDARD: n 2
Se defineşte ca fiind rădăcina pătrată a varianţei:  ( xi  x)
  i 1

n
AMPLITUDINEA:
Se defineşte ca diferenţa între cea mai mică şi cea mai mare valoare dintr-un şir
de valori.
𝑊 = 𝐴=𝑥 𝑚𝑎𝑥 − 𝑥 𝑚𝑖𝑛
CUARTILELE:
Sunt 3 valori, notate Q1, Q2 şi Q3, care împart şirul de date în 4 părţi de
dimensiune egală.
Diferenţa dintre Q3 şi Q1 se numeşte interval cuartilic, Iq = Q3 – Q1.
Q1 se numeşte cuartila inferioară sau mică, Q3 se numeşte cuartila superioară
sau mare, iar Q2 este aceeaşi cu mediana şirului.

COEFICIENTUL DE VARIAŢIE, CX:


Este raportul între deviaţia standard şi media aritmetică a valorilor seriei,
utilizat pentru a exprima mai sugestiv gradul de împrăştiere a acestora.
𝜎
𝐶 𝑥 =
EROAREA STANDARD:   2
𝑥
e.s.  
Se defineşte ca fiind : n n
ASIMETRIA (SKEWNESS):
O distribuţie este considerată simetrică, dacă de o parte şi de alta a mediei,
frecvenţele au aceleaşi valori.
𝑥 − 𝑀𝑜
Indicatorul relativ de asimetrie, Sk: 𝑆 𝑘= Karl Pearson
𝜎

( )
2
𝑛
𝑥𝑖 − 𝑥
pentru n suficient de mare: ∑ 𝜎
𝑖=1
𝑆 𝑘=
𝑛

( )
2
𝑛
𝑥𝑖 − 𝑥
∑ 𝜎
pentru n < 30: 𝑆 𝑘=
𝑖=1

𝑛 −1

Interpretare: Dacă Sk = 0 sau , distribuţie simetrică.


Dacă Sk > 0 sau , asimetrie pozitivă (la dreapta).
Dacă Sk < 0 sau , asimetrie negativă (la stânga).
În cazul unei distribuţii simetrice, media aritmetică, mediana şi
modulul sunt egale.

𝑥=𝑀 𝑂= 𝑀 𝐸
distribuţie simetrică
𝑀𝑂 𝑀𝐸 𝑥
asimetrie la dreapta

𝑥 𝑀𝐸 𝑀𝑂
asimetrie la stânga
BOLTIREA (KURTOSIS):
Compară distribuţia dată cu cea normală, sau gaussiană, d.p.d.v. al înălţimii
curbelor.
𝑥4
Coeficientul de boltire: 𝛽 2= 4 Karl Pearson
𝜎
𝑛

∑ ( 𝑥 𝑖 − 𝑥 )2
Coeficientul Fisher: 𝛾 2 = 𝑖 =1 −3
𝑛 − 𝜎4

Interpretare: Dacă 2 = 3 sau 2 = 0, repartiţie mezocurtică (normală).


Dacă 2 > 3 sau 2 > 0, repartiţie leptocurtică (ascuţită).
Dacă 2 < 3 sau 2 < 0, repartiţie platicurtică (aplatizată).
2 < 3 sau 2 < 0,
repartiţie platicurtică

2 > 3 sau 2 > 0,


repartiţie leptocurtică

S-ar putea să vă placă și