Sunteți pe pagina 1din 16

Capitolul 2.

Elemente de biostatistică

CAPITOLUL 2.

ELEMENTE DE BIOSTATISTICĂ

2.1. ANALIZA DATELOR

2.1.1. Tipuri de date

Variabilele cu care se lucrează în domeniul statisticii sunt variabile aleatoare (va), iar datele
înregistrate în mod uzual sunt măsurătorile acestor variabile din eşantioane.
Există două tipuri principale de variabile aleatoare: calitative şi cantitative care determină
două tipuri de date. O variabilă aleatoare calitativă generează răspunsuri de tip categorial
(dihotomice sau cu mai multe alternative), iar o variabilă aleatoare cantitativă generează răspunsuri
numerice (discrete sau continue).
Exemple:
 Variabilele aleatorii calitative: cele dihotomice pot avea două alternative de tip
Da/Nu sau decedat/în viaţă. Variabilele aleatorii calitative cu mai multe alternative pot
descrie de exemplu distribuţia bolnavilor după grupa de sânge (A, B, AB, O) sau pot lua
următoarele valori pentru întrebarea “Cât de bine ştiţi limba engleză?”: “deloc”, “puţin”,
“suficient”, “fluent”
 Variabilele aleatorii cantitative discrete: apar în mod normal atunci când
măsurătorile sunt numere întregi. Exemple de variabile aleatorii cantitative discrete pot
fi: numărul de accidente suferite de o persoană în decurs de 2 ani (un număr cuprins
probabil între 0 şi 8), sau numărul de îngheţate consumate de o persoană într-o
săptămână (cuprins probabil între 0 şi 10).
 Variabilele aleatorii cantitative continue: fiecare măsurătoare se încadrează într-o
scală de numere continue (reale). Exemple de variabile aleatorii cantitative continue
sunt: tensiunea arterială, înălţime, greutate, cantitatea în grame a îngheţatei consumate
de o persoană într-o săptămână.

2.1.2 Reprezentarea datelor: Distribuţii de frecvenţă

Datele (măsurate pe populaţia generală sau pe eşantion) sunt de obicei organizate în


distribuţii de frecvenţă, pentru că reprezintă formatul cel mai convenabil de sinteză şi prezentare. În
distribuţiile de frecvenţă se prezintă descrierea calitativă sau cantitativă a observaţiilor
(măsurătorilor) împreună cu numărul de apariţii ale măsurătorii respective (frecvenţă absolută). Se
utilizează de obicei şi frecvenţa relativă obţinută prin împărţirea frecvenţei absolute la numărul total
al observaţiilor. Aşadar, suma tuturor frecvenţelor relative este 1. Dacă se înmulţeşte frecvenţa
relativă cu 100, se obţine frecvenţa procentuală.
Reguli generale de urmat în construirea intervalelor pentru variabilele aleatorii cantitative:
 numărul de clase este bine să fie mai mic de 15;
 limitele fiecărei clase trebuie să se potrivească cu gradul de acurateţe al datelor
măsurate;
 intervalele de lungime egală sunt mai convenabile şi facilitează procesările ulterioare;
 clasele trebuie să fie mutual exclusive, adică să nu se suprapună;

9
Capitolul 2. Elemente de biostatistică

 este bine să se calculeze mijlocul fiecărei clase.

Exemple de distribuţii de frecvenţă:

1. Un student a obţinut următoarele note la 10 teste:

6 7 6 8 5
7 6 9 10 6

Distribuţia de frecvenţă pentru aceste date este:

Nota Frecvenţa absolută Frecvenţa relativă


5 1 0.1
6 4 0.4
7 2 0.2
8 1 0.1
9 1 0.1
10 1 0.1
Total 10 1.0
Tabelul 1.

2. 20 de cutii cu fructe au următoarele greutăţi nete în hectograme per cutie:


19.7 19.9 20.2 19.9 20.0
20.6 19.3 20.4 19.9 20.3
20.1 19.5 20.9 20.3 20.8
19.9 20.0 20.6 19.9 19.8

Greutate Valoare centrală Frecvenţa absolută Frecvenţa relativă Frecvenţa cumulată


19.2-19.4 19.3 1 0.05 1
19.5-19.7 19.6 2 0.10 3
19.8-20.0 19.9 8 0.40 11
20.1-20.3 20.2 4 0.20 15
20.4-20.6 20.5 3 0.15 18
20.7-20.9 20.8 2 0.10 20
Total 20 1.00
Tabelul 2.

2.1.3. Date cantitative: valori caracteristice

Orice serie de date cantitative se poate descrie prin două elemente caracteristice:
1. indicatorii tendinţei centrale
2. indicatorii de dispersie sau împrăştiere
Dacă aceste elemente sunt obţinute dintr-un studiu populaţional, ele se numesc parametri,
dacă sunt obţinute dintr-un eşantion, se numesc indicatori statistici.

1. Indicatorii tendinţei centrale

10
Capitolul 2. Elemente de biostatistică

Aceşti indicatori pun în evidenţă faptul că toate datele măsurate tind să se grupeze în jurul
unei valori centrale. Valoarea centrală caracterizează întregul domeniu al datelor (valoarea minimă-
valoarea maximă). Dacă privim ambele exemple anterioare, se poate observa că valorile tind să se
grupeze în jurul unei valori care are cea mai mare frecvenţă de apariţie.
Cele mai utilizate măsurători ale tendinţei centrale sunt:
 media aritmetică
 mediana
 modul
 cuantilele

Media aritmetică

Definiţie: pentru o distribuţie de frecvenţă a unor date cantitative, media aritmetică este
valoarea care, dacă s-ar substitui fiecărei valori a distribuţiei, nu ar schimba suma totală.
Dacă media aritmetică se calculează pentru o populaţie (este un parametru), se notează cu
caracterul grecesc μ; dacă se calculează pentru un eşantion (indicator statistic) se notează cu
simbolul X .
Media aritmetică se calculează în două moduri:
- media aritmetică simplă, pentru distribuţiile de frecvenţă cu frecvenţe unitare.
1 N 1 n
formula de calcul: μ= 
N i 1
X i sau X =  Xi
n i 1
unde: N = numărul de observaţii populaţionale
n = numărul de observaţii din eşantion
X = valoarea variabilei aleatoare măsurate
- media aritmetică ponderată, pentru distribuţiile de frecvenţă cu frecvenţe neunitare.
N n

 Xifi
i 1
 Xifi
i 1
formula de calcul: μ= N sau X = n

 fi  N
i 1
 fi  n
i 1
unde: N = numărul de observaţii populaţionale
n = numărul de observaţii din eşantion
Xi = valoarea variabilei aleatoare măsurate, cu frecvenţa fi

Exemple:
a) Fie Xi o variabilă aleatorie într-o populaţie, cu următoarele valori:
2 5 1 4 3

Media aritmetică va fi:


μ = 1/5(2+5+1+4+3) = 15/5 = 3

Dacă înlocuim valoarea fiecărei variabile Xi cu valoarea mediei aritmetice, obţinem:


3+3+3+3+3=15, ceea ce corespunde definiţiei mediei.

b) Dacă ne referim la distribuţia de frecvenţă din exemplul 1, se poate calcula media ponderată:
μ = 1/10[(5 x 1)+( 6 x 4)+.…….+(10 x 1)] = 70/10 = 7

c) Pentru a calcula media ponderată pentru distribuţia de frecvenţă din exemplul 2, se va lua în
considerare valoarea centrală a fiecărei clase, care reprezintă fiecare clasă.

11
Capitolul 2. Elemente de biostatistică

X = 1/20[(19.3 x 1)+.…….+(20.8 x 2)] = 401.6/20 = 20.08

Observând diferenţele (deviaţiile) între fiecare valoare observată şi medie, cu cât |Xi - X | se
apropie de 0, cu atât media se apropie mai mult de valorile observate, deci caracterizează bine
întreaga populaţie sau întregul eşantion.

Dacă luăm în considerare următoarele exemple:

Exemplul 1A:
Variabila Observaţia Media aritmetică Deviaţia
X1 2.0 2.5 -0.5
X2 2.5 2.5 0
X3 1.5 2.5 -1.0
X4 3.5 2.5 1.0
X5 4.5 2.5 2.0
X6 1.0 2.5 -1.5
Σ 16.0 16.0 0.0
Tabelul 3.

Exemplul 1B:
Variabila Observaţia Media aritmetică Deviaţia
X1 2.0 1000.0 -998.0
X2 3.0 1000.0 -997.0
X3 2995.0 1000.0 1995.0
Σ 3000.0 3000.0 0.0
Tabelul 4.
În exemplul 1A, media este foarte apropiată de valorile observate; în următorul exemplu
valoarea mediei este mult afectată de a treia valoare observată şi nu mai caracterizează bine întregul
eşantion.

Dar, din ambele exemple se poate observa că:


 ( Xi  X )  0
i

Aceasta reprezintă o caracteristică importantă a mediei.


O altă caracteristică importantă a mediei este că:
 ( Xi  X ) 2
0
i

Modul

Definiţie: pentru o distribuţie de frecvenţă dată, modul reprezintă valoarea observată care
apare de cele mai multe ori (frecvenţa de apariţie maximă).
Pentru variabilele aleatorii discrete, modul poate fi obţinut direct din distribuţia de frecvenţă.
Pentru variabilele aleatorii continue şi reprezentate prin clase, modul poate fi calculat din
formula:
d1
mod = L c
d1  d 2

12
Capitolul 2. Elemente de biostatistică

unde L = valoarea minimă a clasei modale


d1 = diferenţa dintre frecvenţa clasei modale şi frecvenţa clasei precedente
d2 = diferenţa dintre frecvenţa clasei modale şi frecvenţa clasei următoare
c = lungimea claselor

Exemple:
1) pentru datele din exemplul 1:
mod = 6
2) pentru datele din exemplul 2:
6
mod = 19.8 0.3 = 19.98
6 4
Modul este mai puţin utilizat în prelucrările statistice decât media. Un dezavantaj al modului
este acela că pentru un număr mic de observaţii s-ar putea să nu existe mod. Există distribuţii bi sau
multi-modale.

Mediana

Definiţie: pentru o distribuţie de frecvenţă ordonată (de la cea mai mică valoare la cea mai
mare), mediana reprezintă valoarea de la mijlocul distribuţiei.
Pentru va discrete, media este valoarea de pe locul (N + 1)/2.
Pentru datele grupate:
N /2F
mediana = L+ fm
c
unde L = cea mai mică valoare din clasa medianei
N = număr de observaţii
F = suma frecvenţelor până la clasa medianei (exclusiv)
fm = frecvenţa clasei mediane

Exemple:
1) pentru datele din exemplul 1, după ordonarea datelor:
mediana = (6+7)/2 = 6.5, pentru că (10+1)/2 = 5.5
2) pentru datele din exemplul 2:
20 / 2  3
mediana = 19.8+ 0.3=20.06
8
Principalul avantaj al medianei este acela că nu este afectată de valorile extreme.
Deşi în ultima vreme este din ce în ce mai folosită în prelucrările statistice, totuşi este mai
puţin utilizată decât media.

Cuantilele

Plecând de la mediană, se poate defini valoarea care este mediana valorilor de la stânga
medianei; această valoare reprezintă 25% (1/4) din distribuţie şi se numeşte cuartilă. În orice
distribuţie există 3 cuartile: prima relativă la 25% din valori, a doua care este de fapt mediana şi
reprezintă 50% din valori, a treia care corespunde la 75% din valori.
În acelaşi mod se pot defini decilele ca valoarea sub care sunt situate 10% din observaţii.

13
Capitolul 2. Elemente de biostatistică

2. Indicatorii de dispersie sau împrăştiere

Când datele sunt foarte diferite, media nu caracterizează bine distribuţia, pentru că două
seturi de date pot produce aceeaşi medie, dar pot fi foarte diferite în ceea ce priveşte variabilitatea.
Trebuie construite nişte măsurători care să arate cât de mult diferă observaţiile de o valoare de
referinţă (de obicei media sau mediana).

Dispersia faţă de medie


Luând în considerare deviaţiile faţă de medie, deviaţiile individuale arată dacă observaţiile
sunt similare sau nu. Se utilizează ca măsură a variaţiei, media deviaţiilor la pătrat; această măsură
se numeşte varianţă şi se notează cu σ2 pentru populaţie (N observaţii) şi cu s2 pentru eşantioane (n
observaţii).
1 N 1 n
2
σ = 
N 1
( Xi   ) sau
2
s =  ( Xi  X ) 2
2
n 1
În practică, varianţa se calculează prin împărţirea la (n -1) în loc de n.
Dacă variabila aleatoare este reprezentată într-o distribuţie de frecvenţă, cele 2 formule de
mai sus devin:
1 N 1 n
2
σ =
N 1
 fi ( Xi   ) sau s =  fi ( Xi  X ) 2
2 2
n 1
Rădăcina pătrată a varianţei se numeşte deviaţie standard, şi are formula:

1 N 1 n
σ= 
N 1
fi ( Xi   ) sau
2
s= 
n 1
fi ( Xi  X ) 2

O altă măsură a variaţiei este coeficientul de variaţie, obţinută prin împărţirea deviaţiei
standard la medie:
 s
V=  (pentru populaţie) sau v= (pentru eşantion)
X
Calculându-se media şi varianţa, se poate şti dacă media este sau nu relevantă.

Exemple:
1) Utilizând datele din exemplul 1:
6 7 6 8 5
7 6 9 10 6

μ = 7, deviaţiile şi pătratul deviaţiilor sunt:

-1 0 -1 1 -2
0 -1 2 3 -1

şi
1 0 1 1 4
0 1 4 9 1

cu un total de 22, deci:


σ2 = 22/10 = 2.2 σ= 2.2 = 1.48

V = 1.48/7 = 0.21 21% faţă de medie

14
Capitolul 2. Elemente de biostatistică

2) Utilizând datele grupate din exemplul 2:

Deviaţia Frecv. x
Valoarea Frecvenţa Pătratul
Clasa Media faţă de pătratul
centrală absolută deviaţiei
medie deviaţiei
19.2-19.4 19.3 1 20.08 -0.78 0.6084 0.6084
19.5-19.7 19.6 2 20.08 -0.48 0.2304 0.4608
19.8-20.0 19.9 8 20.08 -0.18 0.0324 0.2592
20.1-20.3 20.2 4 20.08 0.12 0.0144 0.0576
20.4-20.6 20.5 3 20.08 0.42 0.1764 0.5292
20.7-20.9 20.8 2 20.08 0.72 0.5184 1.0368
Σ 20 2.9520
Tabelul 5.
deci:
s2 = 2.9520/19 = 0.1554
s = 0.1554 = 0.3924
v = 0.3924/20.08 = 0.0196 sau ≈ 2%

2.2. DISTRIBUŢII PRINCIPALE

S-a dovedit ştiinţific că teoria probabilităţilor stă la baza metodelor statistice de inferenţă.
Inferenţa statistică este procesul prin care se pot trage concluzii referitoare la o populaţie din
valorile măsurate într-un eşantion (cu alte cuvinte generalizarea rezultatelor obţinute pe eşantion la
întreaga populaţie).

2.2.1. Distribuţia normală - gaussiană

Este distribuţia cea mai importantă şi mai utilizată în statistică. Este foarte importantă
deoarece multe distribuţii ale măsurătorilor practice în populaţii aproximează curba normală
(clopotul lui Gauss). Mai important poate, în tehnicile de obţinere a inferenţei statistice, distribuţia
normală ocupă un loc central. Chiar dacă distribuţia valorilor dintr-un eşantion nu are chiar forma
curbei normale, în anumite condiţii generale distribuţia normală stă la baza inferenţei statistice.
Distribuţia normală este o distribuţie teoretică de probabilităţi şi are ecuaţia generală:
1 x 
2
1 [ 2
]
f (X) = N(x;µx;σ x) = e2 
x 2
unde: µx şi σx sunt valorile aşteptate ale mediei şi abaterii standard pentru variabila X.
X este o variabilă continuă cu valori între -   X 
Reprezentarea grafică a acestei distribuţii este exemplificată mai jos în fig.4:

Figura 4. Reprezentarea grafică a distribuţiei Gauss

15
Capitolul 2. Elemente de biostatistică

Caracteristicile principale ale acestei distribuţii sunt:


a) Distribuţia normală este unimodală, cu o formă de clopot, şi simetrică după µx.
b) Principalii parametri ai distribuţiei normale sunt: media (µx) şi abaterea standard (σx). Schimbând
valoarea lui µx , se deplasează întreaga distribuţie de-a lungul axei Ox. Modificând valoarea lui σx,
se modifică gradul de împrăştiere al distribuţiei. Cu cât σx este mai mic, cu atât curba se strânge mai
mult în jurul mediei. σx furnizează mai multe informaţii decât µx.
c) Curba este definită între -  şi + .
d) Curba are două puncte de inflexiune, corespunzând valorilor:
x = µ  2σ
e) Dacă o variabilă aleatoare are o distribuţie normală, probabilitatea ca x să aibă o valoare în
intervalul (a,b) este:
b

prob (a  X = x b ) =  f ( x ) dx
a
=

unde f(x) este funcţia definită pentru distribuţia normală.


Din fericire, se poate calcula această probabilitate destul de simplu. Pentru acest scop, se
defineşte distribuţia normală standard, care are media 0 şi abaterea standard 1:
1 2
1 z
f(Z) = e = N (Z;0;1)
2
2
Se poate obţine în orice situaţie distribuţia normală standard, utilizând următoarea
transformare:
( X  )
Z=

Pentru distribuţia normală standard există tabele de calcul al integralei de mai sus. Dacă se
obţine valoarea lui Z, se poate calcula apoi valoarea lui X.

Exemplu:
Presupunând că media şi abaterea standard pentru o distribuţie normală sunt µ şi σ, să se
calculeze valorile astfel încât prob (x1  X  x2) = 0.95. Deci, trebuie să găsim valorile lui x1 şi x2
cunoscând probabilitatea. Deoarece distribuţia normală standard este simetrică faţă de 0, se vor lua
în considerare doar valorile pozitive; se va împărţi ,deci, probabilitatea la 2 (0.95/2 = 0.475). Din
tabele se va găsi valoarea cea mai apropiată sau egală cu 0.475. Această valoare este 1.96 şi va
constitui valoarea din dreapta a intervalului:
0  Z  1.96
Prin simetrie, celălalt capăt al intervalului va avea valoarea -1.96.

Deci: prob (-1.96  Z  1.96) = 0.95


Se poate obţine uşor valoarea lui X:
x1 = µ-1.96σ
x2 = µ+1.96σ

2.2.2. Distribuţia χ2

Presupunem că X1,X2,......,Xn sunt n variabile aleatoare normale şi independente, cu aceeaşi


medie µ şi aceeaşi varianţă σ2. Valorile standard corespunzătoare sunt U1, U2,......,Un. Se poate
defini acum o nouă variabilă:
Yn = ΣYi = ΣUi2 i = 1,2,.....,n

16
Capitolul 2. Elemente de biostatistică

Această variabilă se numeşte χ2 şi are n grade de libertate, unde n este numărul de variabile
independente din formula de mai sus. Cu cât n este mai mare, distribuţia χ2 tinde să se apropie de
distribuţia normală.

2.2.3. Distribuţia t - Student

Este o altă distribuţie importantă care derivă din distribuţia normală şi se defineşte ca
raportul între o variabilă standard normală şi rădăcina pătrată a unei valori independente χ2
împărţită la numărul de grade de libertate.
Fiind dată o variabilă normală X cu gradele de libertate N(μ,σ) şi variabila χ2n, independente
între ele, se poate defini variabila t-Student astfel:
( X  ) / 
t =
2 / n
şi cu funcţia de densitate asociată.
Variabila t ia valori între -  şi + .
Distribuţia t este simetrică faţă de 0 şi este mai împrăştiată decât distribuţia N(0,1).
Totuşi, cu cât numărul de grade de libertate este mai mare cu atât distribuţia t tinde către
distribuţia N(0,1). Deci pentru n cât mai mare, se pot utiliza tabelele pentru distribuţia normală
standard.

2.3. TESTELE DE COMPARAŢIE

Demersul necesar construirii unui criteriu de semnificaţie porneşte de la stabilirea ipotezei


nule, H0, care postulează faptul că nu există nici o diferenţă semnificativă între indicatorii obţinuţi
din eşantion şi cei ai populaţiei. Aceşti indicatori sunt de regulă media (sau proporţia), abaterea
standard şi efectivul.
Pentru verificarea ipotezei statistice se utilizează diferite teste de semnificaţie statistică,
constând din calcularea unei statistici (tα, uα, z, etc). şi din stabilirea de reguli precise de acceptare
sau de respingere a ipotezei nule, H0, cu o anumită probabilitate.
Pentru un anumit test statistic, valoarea probabilităţii sub care se respinge ipoteza nulă se
numeşte prag de semnificaţie şi este ales de cercetător. La testarea semnificaţiei se pot comite două
tipuri de erori:
 eroarea de speţa I-a sau α, adică decizia de a respinge ipoteza nulă când aceasta este
adevărată
 eroarea de speţa a II-a sau β, adică decizia de a accepta în mod eronat ipoteza nulă când
aceasta este falsă
S-a demonstrat că probabilitatea de a comite o eroare de speţa II-a descreşte odată cu
creşterea mărimii eşantionului.
Acceptarea ipotezei nule presupune că diferenţa testată este nesemnificativă, iar respingerea
ei că diferenţa este semnificativă.

2.3.1. Testul t - Student

Se utilizează pentru compararea mediilor a două eşantioane independente. Cu alte cuvinte,


se doreşte să se aprecieze dacă diferenţa între mediile obţinute din două eşantioane este
semnificativă statistic sau se datorează întâmplării.

17
Capitolul 2. Elemente de biostatistică

Pentru folosirea testului Student se impune o restricţie privind varianţa celor două
eşantioane, cerându-se ca diferenţa dintre ele să nu depăşească un anumit raport. În acest scop se
aplică testul F, prin care raportul dintre valoarea cea mai mare şi cea mai mică de la cele două
varianţe se compară cu o valoare F, dependentă de mărimea riscului asumat şi de gradele de
libertate din fiecare eşantion. În cazul eşantioanelor cu cel puţin 50 de observaţii, compararea
valorilor calculate se face cu un parametru tabelar u.
Condiţii: mediile cunoscute, dispersiile cunoscute. Ipoteza nulă: x1 = x 2 . Pentru luarea
deciziei trebuie testată inegalitatea:
| x1  x 2 |
 u
s12 s2 2

n1  1 n 2  1
unde: x1 şi x 2 - mediile în primul şi respectiv al doilea eşantion
s1 şi s22 - varianţele în primul şi respectiv al doilea eşantion
2

n1 şi n2 - mărimea celor două eşantioane (număr de observaţii)


uα - valoarea tabelară, pentru distribuţia normală, corespunzătoare unui risc α
Dacă inegalitatea este adevărată, diferenţa între medii este semnificativă.

2.3.2. Testul Χ2

Acest test se utilizează pentru compararea caracteristicilor calitative. Se poate astfel


determina dacă două caracteristici sunt realmente asociate într-o populaţie sau dacă relaţia observată
este doar rolul hazardului.
Acest test se aplică în două situaţii diferite: pentru tabele de contingenţă de tip 2 x 2 şi
pentru tabele de contingenţă cu mai mult de două rânduri sau două coloane.

1. Compararea unor repartiţii observate şi încadrate în tabele 2 x 2

Forma generală a unui tabel de contingenţă 2 x 2 este:


Atribut 2
Atribut I Varianta I I1 Varianta I I2 Total
Varianta I1 A b a+b
Varianta I2 C d c+d
Total a+c b+d n
Tabelul 6.
În acest caz, valoarea lui Χ2 poate fi calculată cu formula:

n ( ad  bc) 2
Χ2 =
( a  b )( c  d )( a  c)(b  d )

Dacă valoarea calculată a lui Χ2 > Χ2α,ν (tabelată, unde α de obicei este 0.05, iar ν reprezintă
numărul de grade de libertate şi în acest caz ν = 1), atunci diferenţa este semnificativă, respingându-
se ipoteza nulă. Ipoteza nulă compară varianta I1 cu varianta I2 în ceea ce priveşte rezultatele
obţinute, măsurate prin atributul 2.

2. Compararea unor repartiţii observate şi încadrate în tabele r x c

Forma generală a unui tabel de contingenţă r x c este:

18
Capitolul 2. Elemente de biostatistică

Atribut 2
Atribut I Varianta I I1 Varianta I I2 Varianta I I3 Total
Varianta I1 a1 a2 a3 a1+a2+a3
Varianta I2 b1 b2 b3 b1+b2+b3
Varianta I3 c1 c2 c3 c1+c2+c3
Varianta I4 d1 d2 d3 d1+d2+d3
Total a1+b1+c1+d1 a2+b2+c2+d2 a3+b3+c3+d3 n
Tabelul 8.

Principiul de testare constă în compararea frecvenţelor observate de apariţie (oi) cu


frecvenţele calculate (ci), în conformitate cu aplicarea ipotezei nule, adică a lipsei oricărei deosebiri.
Formula de calcul în acest caz este:

( o i  ci ) 2
Χ2c =  ci   2 , 

unde: oi - frecvenţa observată de apariţie


ci - frecvenţa calculată
Χ2α,ν - valoarea teoretică, tabelată, pentru un risc α şi ν grade de libertate, calculate
după formula: ν = (nr.rânduri -1) x (nr.coloane-1)

Dacă inegalitatea este adevărată, diferenţa este semnificativă.


Aplicarea testului Χ2 cere îndeplinirea următoarelor condiţii:
a) Eşantionul să fie construit aleator.
b) Observaţiile să fie independente.
c) Eşantionul să fie mai mare de 50 de observaţii şi să cuprindă mai mult de 5 observaţii în fiecare
clasă a tabelului de contingenţă.
d) Valoarea calculată se obţine utilizându-se valori absolute, nu procente.
Măsurarea gradului de asociere dintre variabilele cantitative continui, se realizează prin
corelaţie şi regresie.

Corelaţia
Corelaţia poate fi considerată ca gradul în care două variabile se schimbă împreună.
Corelaţia se măsoară prin coeficientul de corelaţie. În studiile epidemiologice se folosesc adesea
mai mulţi coeficienţi de corelaţie. Toţi aceşti coeficienţi au o gamă de valori între +1 şi -1, valoarea
0 indicând lipsa de corelaţie, iar valorile +1 respectiv –1 indicând o corelare perfect pozitivă sau
una perfect negativă. Produsul Pearson al coeficientului de corelaţie momentan „r” măsoară gradul
de relaţie liniară între două variabile. Dacă există o corelaţie liniară perfectă între două variabile
aceasta înseamnă că toate valorile, observate se situează pe o dreaptă, iar r = 1,0 sau – 1,0.
Formula pentru produsul Pearson pentru variabilele x şi y este
r
 ( x  x )( y  y )
i i

 ( x  x )  ( y  y)
2 2
i i

Produsul Pearson măsoară numai gradul de relaţie liniară şi că două variabile pot să se
găsească într-o relaţie foarte strânsă într-un mod non-liniar, dar să aibă în acelaşi timp un coeficient
de corelaţie foarte strâns.
Astfel gradul de asociere în funcţie de valorile coeficientului sunt:
Coeficientul de corelare Gradul de asociere

19
Capitolul 2. Elemente de biostatistică

+/-1 perfect
+/-0,7 şi +/-1.0 puternic
+/-0,4 şi +/-0,7 moderat
+/-0,2 şi +/-0,4 slab
+/-0,1 şi +/-0,2 neglijabil
0.0 absenţa asociaţiei

După Siegel şi Casterllan mai există doi coeficienţi de corelaţie şi anume:


 coeficientul Spearman de corelaţie rang-ordin ( rs )
 coeficientul Kendall de corelaţie rang-ordin ( )
Ambii coeficienţi se aplică datelor ordonate conform rangului.

Regresia
Regresia reprezintă o analiză care găseşte cel mai bun model matematic pentru a deosebi o
variabilă de altă variabilă. O variabilă este dependentă, valoarea acesteia fiind în funcţie de una sau
mai multe variabile independente. Forma cea mai obişnuită de regresie este regresia liniară, în care
modelul matematic este o linie dreaptă, ecuaţia de regresie este ecuaţia liniei drepte care se
potriveşte cel mai bine la datele situaţiei analizate.
Linia de regresie din fig.5 are la bază datele de prevalenţă ale copiilor subponderali şi
importul energetic pe cap de locuitor. Se poate vedea că există o relaţie liniară negativă între aceste
două variabile.

80
Prevalenta (%) a copiilor

70
60
subponderali

50
40
30
20
10
0
1900 2100 2300 2500 2700
Aportul energetic zilnic/copil (kcal)

Figura 5. Regresia prevalenţei copiilor subponderali pe baza aportului energetic


Sursa: R. Beglehole, Bazele Epidemiologiei 1994

Linia de regresie este: y = 162,5 – 0,05x


x = aportul energetic în Kcal/zi
y = prevalenţa copiilor subponderali %
De cele mai multe ori regresiile implică mai multe variabile independente şi se numesc
regresii multiple.
Există modele de regresii care iau în considerare relaţia non-liniară dintre variabile, în
această categorie intrând regresia logistică, regresia polinomială şi hazardurile proporţionale.

Trecere în revistă a testelor neparametriale

20
Capitolul 2. Elemente de biostatistică

Alegerea testului potrivit este dificilă, deoarece trebuie facută între două familii de teste:
parametrice şi neparametrice. Multe teste statistice sunt bazate pe presupunerea că datele sunt
extrase dintr-o distribuţie gausiană. Aceste teste sunt numite teste parametrice. Cele mai folosite
teste parametrice sunt enumerate în prima coloană a tabelului şi includ testul t şi analiza varianţei.
Testele care nu sunt bazate pe o anumită distribuţie a datelor se numesc teste neparametrice.
Toate testele neparametrice usuale folosesc gradarea de la inferior la superior şi analizează aceste
grade. Aceste teste sunt enumerate în coloana a doua din tabel şi includ testul Wilcoxon, testul
Mann-Withney şi testul Kruscal-Wallis. Aceste teste mai sunt numite şi teste de distribuţie atipică.

21
Capitolul 2. Elemente de biostatistică

Cum alegem un test statistic ?

Tip de date
Grad, scor sau măsurătoare
Măsurari (dintr-o Binomială (două Timp de
Scop (dintr-o populaţie
populaţie gausiană) ieşiri posibile) supravieţuire
negausiană)
Curba de
Descrierea unui grup Medie, deviaţie standard Mediană, grad interquatrilar Proporţie supravieţuire Kaplan
Meier
Compararea unui grup cu o Test X2 sau test
Test t Test Wilcoxon
valoare ipotetică binomial
Test Fischer (X2
Compararea a două grupuri
Test t Testul medianei U pentru eşantioane Test Mantel-Haenszel
independente
mari)
Compararea a două grupuri Regresia
Test t pe perechi Test Wilcoxon Test McNemar
dependente proporţională Cox
Compararea a trei sau mai multe Testul Kruskal-Wallis sau Regresia
Test Anova Test X2
grupuri independente testul medianei U proporţională
Cuantificarea asociaţiilor între Coeficienţi de
Corelaţia Pearson Corelaţia Spearman
două variabile contingenţă
Valoarea predictivă a altei Regresie simplă liniară Regresie simplă Regresia
Regresie neparametrică
variabile măsurate sau regresie neliniară logistică proporţională Cox
Valoarea predictivă pentru mai Regresie lineară multuiplă
Regresie multilpă Regresia
multe măsurări sau a variabilelor sau regresie nelineară
logistică proporţională Cox
binomiale multiplă
Tabelul 9.
Sursa: Rose G, Barker DJP. Epidemiology for the uninitiated. 3rd ed. London: BMJ Publishing Group, 1994

22
Capitolul 2. Elemente de biostatistică

Alegerea între teste parametrice şi neparametrice în cazurilre uşoare

Alegerea între teste parametrice şi neparametrice este uneori uşoară. Ar trebui ales
un test parametric dacă sunteţi sigur că datele din eşantion fac parte dintr-o populaţie care
urmează o distribuţie gausiană (cel puţin aproximativ). Un test neparametric ar trebui ales
în trei situaţii:
1. Dacă variabila este un grad sau un scor şi populaţia este clar nedistribuită
gausian. Exemplele includ clasificarea studenţilor dintr-o clasă, scorul Apgar pentru
sănătatea nou-născuţilor (măsurat pe o scală de la 0 la 10 şi toate scorurile sunt
întregi), scorul analog visual pentru durere (măsurat pe o scală continuă unde 0 este
nu există durere, şi 10 este definită ca durere insuportabilă), şi scala * folosită
usual de criticii de film şi restaurante (* = OK, ***** = fantastic).
2. Unele valori sunt în afara scalei: prea mici sau prea mari pentru a fi
măsurate. Chiar dacă populaţia este gausiană, astfel de date sunt imposibil de
analizat cu un test parametric deoarece nu cunoşti toate valorile. Folosirea unui test
neparametric la aceste variabile este uşoară. Se repartizează valorilor prea mici
pentru a fi măsurate o valoare arbitrară mică şi celor prea mari o valoare arbitrară
mare. După aceea efectuaţi testul neparametric. Din moment ce testele
neparametrice iau în considerare doar ordinea relativă a valorilor, nu contează că nu
cunoaştem exact toate valorile.
3. Dacă datele sunt măsurători, şi sunteţi sigur că populaţia nu este distribuită
gausian. Dacă datele nu sunt distribuite gausian, consideraţi dacă pot fi
transformate într-o distribuţie gausiană. De exemplu, logaritma sau folosirea
reciprocelor acestora. Fecvent sunt motive de tip biologic sau chimic (ca şi
statistice) pentru a efectua o transformare particulară.

Alegerea între teste parametice şi neparametrice în cazurile grele

Nu este întotdeauna uşor de decis dacă datele din eşantion provin dintr-o
distribuiţie gausiană sau nu. De aceea ar trebui luate în considerare următoarele puncte:
 Dacă eşantionul este mare (mai mult de 100), ne putem uita la distribuţia datelor
şi va fi clar dacă distribuţia este aproximativ bine definită. Un test statistic formal
(testul Kolmogorov-Smirnoff) poate fi folosit pentru a testa dacă distribuţia
datelor diferă semnificativ de distribuţia gausiană. În cazul în care datele sunt
puţine este greu să-ţi dai seama doar prin inspecţie şi testul formal nu este
suficient de specific pentru a discrimina între distribuţia gausiană şi cea
negausiană.
 Ar trebui să priviţi şi la celelalte date de asemenea. Ţineţi minte ceea ce este
important este distribuţia populaţiei din care provin datele şi nu distribuţia
eşantionului. La luarea deciziei dacă populaţia este sau nu gausiană luaţi în
considerare toate datele, nu doar datele din experimentul curent.
 Luaţi în considerare sursa scatter-ului. Dacă graficul provine dintr-o sumă de mai
multe surse (nici una dintre ele nefiind predominantă), ne aşteptăm să găsim o
distribuţie gausiană.

23
Capitolul 2. Elemente de biostatistică

Când sunt dubii, unii aleg un test parametric (pentru că nu sunt siguri că
presupunerea gausiană este încălcată), iar alţii aleg un test neparamentric (deoarece nu
sunt siguri că presupunerea gausiană este întrunită).

Alegerea între teste parametrice şi neparametrice chiar contează?

Contează dacă alegi un test paramentric sau neparamentric? Răspunsul depinde de


mărimea eşantionului. Sunt patru cazuri care trebuie luate în considerare:
Eşantioane mari: ce se întâmplă dacă foloseşti un test parametric pentru un
eşantion dintr-o populaţie negausiană? Teorema limitei centrale asigură ca testele
paramentrice să funcţioneze bine cu eşantioane mari chiar dacă populaţia nu este
gausiană. Cu alte cuvinte, testele parametrice sunt rezistente la deviaţiile de la distribuţia
gausiană, atâta timp cât eşantioanele sunt mari. Problema este că este imposibil de spus
cât de mari trebuie să fie eşantioanele, aceasta depinde de natura distribuţiei particulare
negausiene. În cazul în care populaţia nu este chiar ciudată, probabil este sigură folosirea
unui test parametric dacă eşantionul are cel puţin 24 de valori în fiecare grup.
Eşantioane mari: ce se întâmplă dacă foloseşti un test neparametric cu date dintr-
o populaţie gausiană? Testele neparametrice lucrează bine cu eşantioane mari dintr-o
populaţie gausiană. Valorile p tind să fie un pic prea mari, dar discrepanţa este mică. Cu
alte cuvinte, testele neparamentrice sunt doar nesemnificativ mai puţin puternice decât
testele paramentrice cu eşantioane mari.
Eşantioane mici: ce se întâmplă dacă foloseşti un test parametric pentru un
eşantion dintr-o populaţie negausiană? Nu te poţi baza pe teorema limitei centrale, deci
valoarea p poate fi inexactă.
Eşantioane mici: în cazul folosirii unui test neparametric cu date dintr-o populaţie
gausiană, valoarea p tinde să fie prea mare. Testelor neparametrice le lipseşte puterea în
cazul eşantioanelor mici.
Deci, eşantioanele mari nu prezintă probleme. De obicei este uşor să vezi dacă
datele vin dintr-o populaţie gausiană, dar de fapt nu prea contează deoarece testele
neparametrice sunt la fel de puternice pe acest tip de date şi testele parametrice sunt
flexibile. Eşantioanele mici reprezintă problema. Este dificil de stabilit dacă datele provin
dintr-o populaţie gausiană, dar contează foarte mult. Testele neparametrice nu sunt
puternice şi testele parametrice nu sunt fiabile.

Valoarea P unică sau dublă?

În cadrul multor teste, cercetătorul trebuie să decidă dacă doreşte să calculeze o


valoare p unică sau dublă (aceeaşi cu o valoare p cu una sau 2 cozi). Diferenţa în
contextul unui test t: valoarea p este calculată pentru ipoteza nulă, mediile celor două
populaţii sunt egale şi orice diferenţă între cele două eşantioane înseamnă că apare
datorită întâmplării. Dacă această ipoteza nulă este adevărată, valoarea p unică este
probabilitatea ca cele două eşantioane diferă atât de mult pe cât a fost observat (sau mai
mult) în direcţia specificată de ipoteză doar datorită întâmplării, chair dacă mediile
populaţiilor în general sunt egale. Valoarea p dublă include şi probabilitatea ca mediile
eşantioanelor diferă atât de mult în direcţii opuse (celălalt eşantion are media mai mare).

24