Sunteți pe pagina 1din 64

Biostatistica

curs 2 _ 3 _ 4 / anul II

Prof. Gabriela Georgescu


curs 2 / anul II
Măsurile valorilor centrale

Parametrii urmăriţi în analiza unei serii statistice sunt:

Media aritmetică_1:

Se aplică datelor care au valori numerice; se obţine făcând raportul


dintre suma tuturor valorilor şi numărul acestora.
Ex: Vom calcula media aritmetică a următoarei serii de valori:
39, 42, 73, 67, 24 , 55.
Aceasta va fi: (39 + 42 +73 +67 + 24 + 55) / 6

În cazul general: avand observaţiile x1 , x2 , … , xn , media aritmetică


se va calcula cu formula: n
x1 x2 ... xn xi
i 1

unde n=nr observatiilor seriei


Media aritmetică_2:

În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica o alta
formula:
M ( X ) =( ∑ fi * xi ) / ∑ fi Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului.
Iata si un exemplu cu date grupate:

intervalul (i) Centrul i (x) Frecventa (fi) x * f


fi = 47 xi * fi = 797
30-32 31 1 31

27-29 28 2 56
Astfel M = 797 / 47 = 16,96
24-26 25 4 100

21-23 22 6 132
Caracteristicile mediei:
18-20 19 10 190
• tine seama de toate cazurile si
15-17 16 9 144 este afectata de valorile lor;
12-14 13 5 65 • poate fi calculata fara ordonarea
9-11 10 5 50 prealabila a datelor.
6-8 7 3 21

3-5 4 2 8
Mediana _ 1:
Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei de date.

Ea reprezinta punctul central al seriei, deoarece la stânga si la dreapta ei se situeaza


câte 50% din totalitatea datelor. Mediana coincide cu media în cazul unei distributii
teoretice normale si se îndeparteaza mult de aceasta daca distributia este asimetrica.

Pentru a calcula mediana în cazul distributiei simple a datelor exista doua situatii:
• când n este impar locul medianei se stabileste astfel: loc mediana = (n+1) / 2
• când n este par sunt adunate valorile din centrul seriei si se împart la doi.

Fie sirul de date utilizat si pentru calcularea mediei: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)

Este necesar mai întâi aranjarea datelor sirului într-o ordine fie crescatoare, fie descrescatoare:
• Astfel, X devine (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În acest caz
vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6.
Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana
adunam cele doua valori gasite si împartim rezultatul la doi.
• Astfel, Md = (8+9) / 2 = 8,5
Mediana _ 2:

Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua
numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit dupa
formula data (n+1) / 2, în acest caz cinci. Mediana este valoarea care se gaseste pe
pozitia din mijlocul sirului ordonat de date (pozitia 5 în cazul de fata).
Consultând sirul de date observam ca mediana ar fi 8.

În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica
formula:

Unde: l este limita inferioara a intervalului de clasa care contine mediana;


fc este frecventa cumulata precedând clasa care contine mediana;
fi este frecventa clasei intervalului care contine mediana;
N este numarul total al cazurilor;
j este marimea intervalului (i) care cuprinde mediana.
Mediana _ 3:
Vom calcula mediana pentru aceleasi date pe care le-am utilizat în calculul mediei pentru distributii
grupate.
Pentru a aplica formula de calcul a medianei mai trebuie efectuati
Intervalul Centrul i Frecventa Frecventa câtiva pasi:
(fi) cumulata
• Stabilirea punctului deasupra si dedesubtul caruia se situeaza
30-32 31 1 47 câte 50% din cazuri (n+1)/2. În problema de fata vom avea
(47+1)/2=24;
27-29 28 2 46 • Stabilirea intervalului care contine mediana. Se cauta în coloana
24-26 25 4 44 frecventelor cumulate intervalul care corespunde locului
medianei (24 pentru problema data). Astfel se observa ca
21-23 22 6 40 pozitia 24 din sirul de date este ocupata de o valoare cuprinsa
în intervalul 15-17;
18-20 19 10 34 • Se stabileste limita inferioara a intervalului care cuprinde
mediana (14,5) cât si frecventa datelor sale (9);
15-17 16 9 24
• Se stabileste valoarea lui N/2 (23,5)
12-14 13 5 15 • Se calculeaza frecventele cumulate, care preced clasa care
contine mediana si se obtine 15;
9-11 10 5 10
• Se calculeaza marimea intervalului (j=3) pentru ca putem
6-8 7 3 5 întâlni valorile 15,16 si 17 si pentru ca diferenta dintre limita
mixima si cea minima a intervalului ce contine mediana este 3
3-5 4 2 2 (17,5 -14,5).
Avem acum toate datele necesare calcularii medianei:
N = 47

Caracteristicile medianei:
• tine seama de toate cazurile, dar nu este afectata de cazurile
(valorile) extreme;
• necesita ordonarea sirului de date.
Modulul:

Este valoarea care are frecvenţa cea mai mare din setul de observaţii.
Astfel, pentru sirurile de date simple modul se afla cautând valoarea cel mai des întâlnita. Pentru
sirul dat drept exemplu: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7).
Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea
mai întâlnita este 9 (apare de trei ori).
Ca urmare modul pentru acest sir este: Mo = 9
Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. În cazul nostru, acest
interval este 18-20 în interiorul caruia se afla 10 valori.
Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo =
19.
Intervalul Frecventa Intervalul (i) Frecventa
(i) (f) (f)
30-32 (31) 1 15-17 (16) 9
27-29 (28) 2 12-14 (13) 5
24-26 (25) 4 9-11 (10) 5
21-23 (22) 6 6-8 (9) 3
18-20 (19) 10 3-5 (4) 2

Caracteristicile modului:

• nu tine seama decât de masurile cele mai reprezentative;


• necesita ordonarea datelor
• corespunde unuia sau mai multor elemente ale seriei (în caz de frecvente egale).
Măsuri ale împrăştierii sau variabilităţii
Măsurile valorii centrale nu ne dau nici o indicaţie privind împrăştierea sau
variabilitatea într-un set de observaţii.
Ex: considerand două comunităţi A şi B; media valorii luata in studiu in cele doua
comunităţi este aceeaşi, însă distribuţiile valorilor (împrăştierea acestora) este diferită

CA CB

4000 8000
6000 8000
8000 9000
10000 10000
12000 11000
14000 12000
16000 12000

XA 10000 XB 10000
O măsură utilă de caracterizare a împrăştierii este range-ul(amplitudinea), definit
ca diferenţa între cea mai mică şi cea mai mare valoare a seriei.

Varianţa (dispersia) şi deviaţia standard:

Varianţa este media pătratelor deviaţiilor (abaterilor) de la medie.


Când calculăm varianţa unei serii statistice, suma pătratelor deviaţiilor de la medie
se împarte la (n – 1), deoarece aceasta dă o mai bună estimare a varianţei
populaţiei totale.
Numitorul (n – 1) este numit numărul gradelor de libertate a varianţei.
Formula de calcul a varianţei pentru o serie de valori x1 , x2 , … , xn va fi:
n
( xi x) 2 n – nr. de obs din serie
(S 2 ) 2 i 1
n 1
Pentru a se putea caracteriza gradul de împrăştiere ale valorilor unei
serii, se defineşte o mărime specială, numită deviaţie standard.

Rădăcina pătrată a varianţei se numeşte deviaţie standard

n 2

( xi x)
i 1

n 1

Eroarea standard (e.s.) este dată de formula:

2
e.s.
n n
Ex: Valorile variaţiei într-un set de observatii sunt prezentate în tabelul:

Vârsta Deviaţia absolută de Pătratul


(rezultate) la medie deviaţiei
1 68 13.8 190.44
2 65 10.8 116.64
3 59 4.8 23.04
4 59 4.8 23.04
5 57 2.8 7.84
6 52 2.2 4.84
7 49 5.2 27.04
8 48 6.2 38.44
9 48 6.2 38.44
10 48 6.2 38.44
11 47 7.2 51.44
Total 600 74.2 558.72
600
X 54.54 nr. grad. de de libertate: 11-1=10.
11 mediana: 52.
modulul: 48.
Rangul: 68 – 47 = 21
2 633.64
63.36
10
n 2

( xi x)
i 1

n 1

2
e.s.
n n

7.96 7.96
e.s. 2 . 510
10 3.316

Intervalul de cofidenta a mediei: [ X 2 , X +2 ] pt p=0.05


Coeficientul de variabilitate

Este utilizat în scopul stabilirii gradului de omogenitate a unui


esantion si se obtine prin raportarea abaterii standard la media
esantionului.
V=s/m
Rezultatul obtinut se raporteaza apoi în procente.
V =s / m * 100
Unde: s este abaterea standard a esantionului studiat;
m este media grupului.
Coeficientul de variabilitate
Interpretarea coeficientului de variabilitate se face în
functie de valorile obtinute:
a. daca coeficientul este cuprins între 0 si 15%, înseamna
ca împrastierea datelor este foarte mica, iar media este
reprezentativa, deoarece esantionul masurat este
omogen;
b. daca valoarea lui este între 15 si 30%, împrastierea
datelor este medie, media fiind înca suficient de
reprezentativa;
c. daca coeficientul depaseste 30%, media aritmetica nu
este reprezentativa pentru esantionul în cauza, fiind
recomandata utilizarea medianei din cauza lipsei de
omogenitate a grupului.
Obs. Coef. de variabilitate poate fi aplicat doar variabilelor de tip
numeric
Indicii de asimetrie si boltire

Indicele de asimetrie (de oblicitate) ne arata în ce masura media


se îndeparteaza de mediana, si în ce masura curba de distributie
normala a datelor se departeaza de mijloc, deplasându-se spre
stânga sau spre dreapta.
• Sunt considerate distributii relativ normale cazurile în care acesti
indicatori nu depasesc: ± 1.96.
• Vorbim despre o asimetrie pozitiva în situatia în care media este mai
mare decât mediana, caz în care indicele de asimetrie ia valori
pozitive si apare o distributie a datelor spre stânga.
• O formula simpla de calcul a oblicitatii este:
• Asimetria = 3(Media – Mediana) / Abaterea standard
• O alta formula de calcul este:
oblicitatea = (x-m)3 / ns3

Unde: m este media; n este numarul de subiecti; iar s este abaterea


standard a esantionului.
• În figura de mai jos este prezentat cazul unei asimetrii pozitive
situatia în care valoarea mediei este mai mare decât cea a medianei.

• De asemenea exista si o asimetrie negativa în situatia în care


valoarea mediei este mai mica decât cea a medianei. Indicele de
asimetrie ia o valoare negativa în acest caz.
Boltirea (kurtosis – "cocoasa") se refera la înaltimea
curbei, comparativ cu cea normala.

Putem avea distributii:


- leptocurtice (cu cocoasa înalta)
- platicurtice (mai aplatizate).
Valorile pozitive indica distributii "înalte", leptocurtice, iar
cele negative distributii "plate", platicurtice.
Pentru a fi considerata normala, valoarea boltirii distributiei
trebuie sa nu depaseasca ±1,96.
Indicatorul se obtine cu ajutorul formulei:

Boltirea = (x-m)4 / ns4 – 3

Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.
Nr Varsta(rezultate) Deviatia absoluta de la medie Patratul deviatiei Column1 (x-m)^4
1 68 13,45454545 181,0247934 32769,97582
2 65 10,45454545 109,2975207 11945,94802
3 59 4,454545455 19,84297521 393,7436651
4 59 4,454545455 19,84297521 393,7436651
5 57 2,454545455 6,024793388 36,29813537
6 52 -2,545454545 6,479338843 41,98183184
7 49 -5,545454545 30,75206612 945,6895704
8 48 -6,545454545 42,84297521 1835,520525
9 48 -6,545454545 42,84297521 1835,520525
10 48 -6,545454545 42,84297521 1835,520525
11 47 -7,545454545 56,9338843 3241,467181
Total 600 558,7272727 55275,40947

Media Varstei 54,54545455


Deviatia Standard 7,47480617
Eroarea Standard 2,253738859
coeficient de
variabilitate 13,70381131 <15 , omogen
Asimetria 1,021613599 <1.96 simetric
Mediana 52
Amplitudine (Range) max(xi)-min(xi)=68-47=21
nr. grad de libertate=n-1=10
Intervalul de confidenta al mediei=(med-2 ,med+2 ) pentre 5% eroare

Boltirea 1,609820616
curs 3 / anul II
Rezultatul unei experiente aleatoare se numeste proba.

Evenimentul care poate fi realizat de o proba si numai de una se


numeste eveniment elementar. Celelalte evenimente se numesc
compuse.

Eveniment sigur. Eveniment imposibil


Fiecarei experiente i se ataseaza doua evenimente cu caracter special:
evenimentul sigur si
evenimentul imposibil.

Evenimentul sigur este un eveniment care se realizeaza cu


certitudine la fiecare efectuare a experientei.

Evenimentul imposibil nu se realizeaza la nici-o efectuare a


experientei.
Probabilitate

1. Frecventa
Daca repetam o experienta de n ori in conditii identice si obtinem de a
ori evenimentul A, atunci numarul
fn = a/n
poarta numele de frecventa. Numarul a poate varia de la 0 la n inclusiv.
Evenimente egal posibile. Fie A si B doua evenimente referitoare la
aceeasi experienta. Daca din motive de perfecta simetrie, putem afirma
ca ambele evenimente au aceeasi sansa de a fi realizate, spunem ca
evenimentele sunt egal posibile.

2. Probabilitate
Definitie. Pobabilitatea unui eveniment este egala cu raportul dintre
numarul cazurilor egal posibile care realizeaza evenimentul si numarul
cazurilor egal posibile.
Asadar, vom spune ca probabilitatea evenimentului A este egala cu
raportul dintre numarul m al cazurilor favorabile realizarii evenimentului A
si numarul n al cazurilor egal posibile. Vom scrie
Exemplu.

Avem o urna care contine 20 de bile numerotate cu 1, 2, 3,


... , 19, 20. Care este probabilitatea ca printr-o extractie sa
obtinem o bila numerotata cu un nr. mai mic decât 6?
Notam cu A evenimentul caruia dorim sa-i calculam
probabilitatea.
numarul cazurilor egal posibile este 20.
numarul cazurilor favorabile realizarii evenimentului A este
5.
Aceste cazuri sunt: extragerea bilei 1, 2, 3, 4 sau 5. Atunci
avem :
Proprietati ale probabilitatilor

Probabilitatea unui eveniment A, pe care o notam prin P(A),


are urmatoarele proprietati:
Şanse şi raţii

• Şansele sunt probabilităţi exprimate procentual


• Şansa ia valori între 0% şi 100%
• Exemplu: o probabilitate de 0,75 este egală cu o şansă de 75%
• Raţia unui eveniment este probabilitatea ca un eveniment
să se întâmple împărţit la probabilitatea ca acel
eveniment să nu se întâmple
• Poate lua orice valoare pozitivă
• Fie A evenimentul de interes.
Raţia de probabilitate = Pr(A)/[1-Pr(A)] (unde 1-Pr(A) = Pr(nonA))

• Exemplu: dacă Pr(A) = 0,75 atunci raţia de probabilitate este de 3 la 1


(0,75/(1-0,75)=0,75/0,25=3/1)
Spaţiul unui eveniment

• Mulţimea tuturor rezultatelor posibile ale unui process


aleatoriu
• La aruncarea cu zarul spaţiul de evenimente este format din
{1, 2, 3, 4, 5, 6}
• La aruncarea unei monede spaţiul de evenimente este {cap,
pajură}.
• un eveniment este un membru al spaţiului evenimentului
• “cap” este un eveniment posibil la aruncarea unei monede
• “un număr mai mic sau egal cu 3” este un eveniment posibil
la aruncarea unui zar
• Evenimentele au asociate probabilităţi de producere!
Probabilităţi: proprietăţi

• Iau valori între 0 şi 1: 0 ≤ Pr(A) ≤ 1


• Pr(spaţiul unui eveniment) = 1
• Probabilitatea de a se întâmpla un eveniment este 1 minus probabilitatea de
a nu se întâmpla acel eveniment Pr(A) = 1 - Pr(nonA)

Concepte de bază
• Evenimente compatibile: evenimente care se pot realiza simultan:
• A = {TAS < 140 mmHg}
• B = {TAD < 90 mmHg}
• Evenimente incompatibile: evenimente care nu se pot realiza simultan:
• A = {TAS < 140 mmHg}
• B = {140 ≤ TAS < 200 mmHg}
• Evenimentul A implică evenimentul B dacă evenimentul B se produce ori de
câte ori se produce evenimentul A:
• Simbol A inclus in B
• A = {TBC}
• B = {testul la tuberculină pozitiv}
Probabilităţi condiţionate

• Probabilităţi condiţionate:
• Fie A şi B două evenimente
• Prin probabilitatea condiţionată a lui A de către B (simbol: Pr(A|B))
se înţelege probabilitatea de a se realiza evenimentul A dacă în prealabil
s-a realizat evenimentul B

• Exemplu: Pr(Test pozitiv tuberculină|TBC) este probabilitatea de a


obţine un test pozitiv la tuberculină la un pacient care are TBC.
• P(B|A) nu este acelaşi lucru cu P(A|B)
Probabilităţi condiţionate
Tbc+ Tbc-

Test + 15 12
Test - 25 18

Fie:
 A={tbc+}
 B={test+}

• Pr(nonB|nonA) = probabilitatea de a obţine un test negativ ştiind că testul se


aplică unui pacient indemn de TBC = 18/(18+12) = 0,60 =SPECIFICITATE (Sp)

• Pr(A|B) = probabilitatea ca o persoană cu TBC să prezinte un test pozitiv =


15/(15+12) = 0,56 = VALOAREA PREDICTIVĂ POZITIVĂ (VPP)

• Pr(nonA|nonB) = probabilitatea ca o persoană indemnă TBC să prezinte un test


negativ = 18/(18+25) = 0,42 = VALOAREA PREDICTIVĂ NEGATIVĂ (VPN)

• Rata falşilor pozitivi: RFP = Pr(B|nonA)


• Rata falşilor negativi: RFN = Pr(nonA|B)
Evenimente independente: probabilităţi condiţionate

• Două evenimente A şi B se numesc independente dacă şi numai dacă


Pr(A∩B) = Pr(A) ⋅ Pr(B).

• În acest caz:

• Pr(B|A) = Pr(B|nonA) = Pr(B)


• Pr(A|B) = Pr(A|nonB) = Pr(A)

Operaţii cu evenimente
• REUNIUNEA (SAU):
• A reunit cu B - se produce cel puţin unul dintre evenimentele A sau B
• INTERSECŢIA (ŞI):
• A∩B - evenimentele A şi B se produc simultan
• NEGAREA:
• nonA
Reguli de probabilitate

• Probabilitatea de apariţie a evenimentului A sau B: ADUNARE


Pr(A sau B) = Pr(A) + Pr(B)
• evenimentele A şi B sunt mutual exclusive
• Probabilitate de A şi B: ÎNMULŢIRE P(A şi B) = P(A) · P(B)
• evenimentele A şi B sunt independente

Reguli de adunare a probabilităţilor


• Fie A şi B două evenimente: Pr(A reunit cu B) = Pr(A) + Pr(B) – Pr(A∩B)
• Evenimente mutual exclusive: Pr(A∩B) = 0

Ex.1
A = {TAS mamă > 140 mmHg}, Pr(A) = 0,25
B = {TAS tată > 140 mmHg}, Pr(B) = 0,15
Care este probabilitatea ca într-o familie să avem un părinte hipertensiv?
Pr(A reunit cu B) = 0,25 + 0,15 – 0 = 0,40

Ex. 2
Într-o cafenea există 20 de persoane; la 10 le place ceaiul, la alţi 10 cafeaua şi la
2 le place şi ceaiul şi cafeaua.
Care este probabilitatea de a extrage la întâmplare din populaţie o persoană
căreia să-i placă ceaiul sau cafeaua?
Pr(ceai reunit cu cafea) = Pr(ceai) + Pr(cafea) - Pr(ceai∩cafea) = 0,50 + 0,50 –
0,10 = 0,90
Reguli de înmulţire a probabilităţilor

• Fie A şi B două evenimente: Pr(A∩B) = Pr(A)·Pr(B|A)


• Evenimente independente Pr(B|A) = Pr(B)

Ex. 3
• A = {TAS mamă > 140 mmHg}, Pr(A) = 0,10
• B = {TAS tată > 140 mmHg}, Pr(B) = 0,20
• Pr(A∩B) = 0,05
• Evenimentele A Şi B sunt dependente sau independente?
Pr(A∩B) = Pr(A)·Pr(B) – evenimente independente
0,05 ≠ 0,10·0,20 → evenimente dependente
Probabilităţi în tabelul de contingenţă
Disease total
Disease+

Test+ AP FP =AP+FP
Test- FN AN =FN+AN
total =AP+FN =FP+AN =n

Denumire parametru Formula

Rata falşilor pozitivi =FP/(FP+AN)


Rata falşilor negativi =FN/(FN+AP)
Sensibilitatea =AP/(AP+FN)
Specificitatea =AN/(AN+FP)

Acurateţea =(AP+AN)/n
Valoarea predictivă pozitivă =AP/(AP+FP)
Valoarea predictivă pozitivă =AN/(AN+FN)

Riscul relativ =AP(FP+AN)/FN(AP+FP)


Rata şansei =(AP·AN)/(FN·FP)
Riscul atribuabil =AP/(AP+FP)-FN/(FN+AN)
Valoarea lui χ2 se calculeaza prin formula: χ2 = ∑ (Oi – Ei)2 / Ei

unde O - frecventa observata, E - frecventa teoretica

Ipotezele testate sunt:


H0 (ipoteza nula) – cei doi factori sunt independenti;
Ha (ipoteza alternativa) – exista o asociere (dependenta) intre cei doi factori.

Se foloseste următoarea interpretare a valorilor lui p, furnizate direct de programul


cu care se realizează prelucrarea statistica a datelor, prin aplicarea testului de mai
sus:
• p < 0.05, rezultat semnificativ (S, încredere 95% că exista o asociere intre
factori);
• p < 0.01, rezultat semnificativ (S, încredere 99% că exista o asociere intre
factori);
• p < 0.001, rezultat înalt semnificativ (HS, încredere 99,9% că exista o asociere
intre factori);
• p > 0.05, rezultat nesemnificativ (NS, încrederea de a considera ca exista o
dependenta intre factorii studiati este mai mica de 95%, deci eroarea de a respinge
ipoteza ca factorii sunt independenti este mai mare de 5%, prag considerat prea
mare).
•testul χ2 este valid daca cel putin 80% dintre frecventele probabile
depasesc 5 si
•toate frecventele probabile depășesc valoarea 1.
•condiția de validitate limitează semnificativ utilizarea testului χ2.
•In cazul in care o frecventa probabila este sub valoarea 1, sau daca mai
mult de 20% din frecventele probabile sunt sub valoarea 5, se recomanda
utilizarea testului Fisher, atunci când este permisa aplicarea acestuia - loturi
mici, tabele de incidenta 2x2, 3x2, 3x3 sau 4x2.

In situațiile menționate, s-a apelat la testul exact al lui Fisher, pentru a avea
o precizie mai mare a rezultatelor statistice.

Atenție: frecventele probabile sunt calculate in cadrul testului si nu trebuie


confundate cu frecventele observate (datele din tabel).

Testul exact al lui Fisher reprezintă deci o alternativa a testului χ2 in


examinarea asociațiilor in cadrul unui tabel de contingenta 2 x 2 etc., atunci
când frecventele probabile sunt mici.
Condiția de aplicare a acestui test este ca totalurile pe rânduri si pe coloane
sa fie fixe, cunoscute dinainte.
Testul exact al lui Fisher se regăsește in majoritatea pachetelor statistice
existente si returnează, ca si alte teste, o valoare a lui p.
3. Tabele de incidenţă 2x2

Cazul cel mai simplu de tabel de incidenţă este tabelul 2x2. Un astfel de tabel
centralizează date referitoare la două caracteristici care au câte două posibilităţi. De
exemplu, dacă din 260 de pacienţi diabetici se constată că 86 au făcut retinopatie,
dintre care 29 au şi nefropatie, iar din restul fără retinopatie, 2 au nefropatie, atunci
aceste date pot fi sintetizate astfel:

Tabelul 4. Clasificarea a 260 de pacienţi cu diabet juvenil, după prezenţa sau


absenţa retinopatiei diabetice şi a nefropatiei
nefropatie

+ - total

retinopatie + 29 57 86

- 2 172 174

TOTAL 31 229 260


Un astfel de tabel oferă posibilitatea de a aprecia dacă există sau nu o
dependenţă între prezenţa retinopatiei şi a nefropatiei, adică dacă cei doi
factori au sau nu tendinţa de a apărea în tandem. Din inspecţia datelor din
tabel se poate observa mai greu dacă avem o astfel de tendinţă de apariţie
împreună a celor doi factori. Pentru a înţelege mai bine cum se pune
problema acestei dependenţe între factori să mai considerăm şi
următoarele situaţii:

Tabelul 5. Clasificarea a 74 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul
consumului de piure de cartofi (Cazul Oswego, tabelul TOP)

Consum piure cartofi


da nu total
bolnavi da 23 23 46
nu 14 14 28
total 37 37 74

masa la o cantină, dintr-un număr de 74 de indivizi, foarte mulţi s-au prezentat la


medic cu simptomele clare ale unei intoxicaţii acute. Indivizii consumaseră
alimentele dintr-un meniu multiplu, ceea ce făcuse ca fiecare aliment să fie
consumat doar de o parte a lor, din cei 74 îmbolnăvindu-se 46.
Era natural să se încerce să se centralizeze ce alimente a consumat fiecare individ
(bolnav sau nu) şi să se încerce să se stabilească o dependenţă între consumul
unui anumit aliment şi îmbolnăviri.
În tabelul 5, este redată situaţia referitoare la consumul de piuré de cartofi, iar în
tabelul 6, situaţia referitoare la consumul de îngheţată de vanilie, un alt fel de servit
în acea seară.

Aceste tabele sunt foarte utile în medicină deoarece, în ciuda informaţiei sărace pe
care o conţin, (doar patru numere, în esenţă, cele patru numere din căsuţele
evidenţiate cu text îngroşat în fiecare dintre tabele), posibilităţile de a aprecia o
dependenţă între clasificările pe orizontală şi verticală sunt destul de bine studiate în
acest moment.

În cele două tabele de mai sus, factorii de clasificare sunt Retinopatie, Nefropatie
şi respectiv, Bolnavi şi Cartofi. Retinopatie, este aici criteriu de clasificare în sensul
că pacienţii sunt împărţiţi după acest criteriu în tabel cu “+” şi “-“. Îl numim criteriu
orizontal spre deosebire de Nefropatie care este numit criteriu vertical, pentru
uşurinţa expunerii. La fel, în al doilea tabel, Bolnavi şi Cartofi, simbolizează faptul
că indivizii cuprinşi în tabel sunt sau nu sunt bolnavi şi respectiv au consumat sau nu
au consumat piuré de cartofi.

Să încercăm acum să verificăm în ce măsură factorii de clasificare de pe orizontală şi


de pe verticală depind unul de altul.
La tabelul TOP, (factorii de pe orizontală şi verticală sunt îmbolnăvirile şi consumul de
cartofi) întâmplarea a făcut ca exact jumătate din cei înregistraţi au consumat
mâncare de cartofi iar între cei bolnavi şi sănătoşi tot jumătate au consumat acest fel
de mâncare. La o examinare sumară a tabelului se poate deduce imediat că nu acest
fel de mâncare este vinovat de infestarea indivizilor bolnavi, fiind evident că jumătate
din cei bolnavi nu au consumat acest fel şi deci este clar că s-au îmbolnăvit de la
altceva. Pe de altă parte, se vede că şi 14 indivizi care au mâncat din acest fel de
mâncare nu s-au îmbolnăvit.
Concluzie: consumul de cartofi şi îmbolnavirile nu sunt dependente.
Tabelul 6. Clasificarea a 75 de subiecţi după criteriul prezenţei sau absenţei bolii
şi după criteriul consumului de îngheţată de vanilie (Cazul Oswego, tabelul TOV)
Consum inghetata
da nu total
bolnavi da 43 3 46
nu 11 18 29
total 54 21 75

În, tabelul TOV, se prezintă o situaţie diferită, căci se observă că din cei 46 de bolnavi
43 au consumat îngheţată de vanilie iar marea majoritate a celor care sunt sănătoşi nu
au consumat. Mai putem privi situaţia şi astfel: din 54 indivizi care au consumat
îngheţată, 43 s-au îmbolnăvit, iar din cei 21 care nu au consumat, 18 nu s-au
îmbolnăvit. Altfel spus,
• 43/54=0,796=79,6% este procentul îmbolnăvirilor la cei care au consumat şi
• 3/21=0,142=14,2%, procentul îmbolnăvirilor la cei care nu au consumat acest
aliment.
Este destul de clar că între consumul de îngheţată de vanilie şi îmbolnăviri este o
dependenţă.

Din analiza exemplelor de mai sus se vede că în fond se poate judeca fiecare situaţie
care apare într-un mod asemănător, judecând de la caz la caz dacă există sau nu o
dependenţă între criteriile de clasificare pe orizontală şi pe verticală.
Dacă am judeca mereu ca mai sus am fi puşi des în situaţia de a nu putea lua o decizie
suficient de obiectivă.

Dacă de exemplu, la cei care au consumat alimentul proporţia îmbolnăvirilor este


79,6% (vezi tabelul 6), iar la ceilalţi este doar de 14,2%, oricine va spune că
îmbolnăvirile sunt într-o relaţie de dependenţă cu alimentul consumat, iar dacă
procentele ar fi, 79,6% şi respectiv 77,4%, oricine ar spune că mica diferenţă se
datorează întâmplării şi nu este nici o dependenţă între îmbolnăviri şi consumul
alimentului.

Dar dacă cele două procente sunt 79,6% şi 62,4% ce concluzie tragem? Căci dacă am
spune că avem o dependenţă din cauza diferenţei dintre procente, oricine poate replica
că această diferenţă este întâmplătoare, mai ales dacă numărul de pacienţi pe care l-
am luat în calcul a fost relativ mic. De aceea este nevoie de criterii mai obiective de
apreciere a situaţiilor cu care ne putem confrunta în astfel de studii.
Trebuie reţinut din cele discutate:

• Uneori se constată prin simplă inspecţie sau din calcule foarte simple o tendinţă de
dependenţă între factorul de clasificare pe orizontală şi cel de clasificare pe verticală.
• Decizia dacă există sau nu o dependenţă este de natură subiectivă, deoarece,
pentru moment, nu avem un criteriu clar prin care să putem decide aceasta.
În cele ce urmează, să încercăm să generalizăm situaţiile de mai sus, presupunând
că, de obicei avem de a face cu:
1). Un factor activ (consumul unui aliment, al unui medicament, aplicarea unui
anumit tip de tratament, etc) şi putem clasifica indivizii în două categorii din punctul
de vedere al acestui factor (de obicei ele fiind simbolizate prin Da/Nu, +/-, Yes/No)
2). Un factor pasiv (rezultat al celui activ) care clasifică indivizii tot în două categorii
(Bolnav/Sănătos, Da/Nu, +/-).
Să notăm cu
• Poz+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este
pozitiv
• Neg+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este
negativ
• Poz- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este
pozitiv
• Neg- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este
negativ
curs 4 / anul II
Această situaţie se poate centraliza într-un tabel ca tabelul 7, care este foarte
asemănător cu cele care au fost date ca exemplu mai sus:
Tabelul 7. Tabel general de incidenţă 2x2 (TG)

Factor Activ (Cauza)

Pozitiv Negativ Total


Factor Pozitiv Poz+ (a) Poz-(b) Poz
Pasiv
Negativ Neg+ (c) Neg- (d) Neg
(Efect)
Total + - N

Să încercăm să sistematizăm observaţii mai generale care să ne ofere, pe cât posibil


criterii mai obiective:
Dacă factorul pasiv are tendinţa de a apare în tandem cu cel activ, atunci ne putem
aştepta, ca tendinţă generală, ca cei mai mulţi indivizi să apară înscrişi în celulele
Poz+ şi Neg-, iar celulele Poz- şi Neg+ să rămână mai nepopulate. Este de uz
comun etichetarea celulelor cu a, b, c, d, ca în tabelul TG şi deci vom spune că în
acest caz, majoritatea indivizilor sunt în celulele a, d, iar în celulele b, c avem mai
puţini indivizi (este cazul tabelului TOV). Ţinând cont de această observaţie, vom
introduce câteva criterii de dependenţă care ne permit o apreciere mai obiectivă a
unei eventuale dependenţe.
4. Criterii de dependenţă

O modalitate de a aprecia tendinţa celor doi factori de a apare în tandem adică


tendinţa lor de dependenţă, este de a urmări care este raportul dintre numărul
pacienţilor la care avem potrivire, adică ambii factori sunt prezenţi sau ambii sunt
absenţi, şi numărul pacienţilor la care nu avem potrivire, adică un factor este
prezent iar celălalt absent.
Se observă uşor că acest raport, pe care îl vom numi Criteriul Diagonal, este:
CD = (a + d) / (b + c)
În tabelul TOV, avem CD = (43+18)/(3+11) = 61/14 = 4,35, adică sunt de 4,35 ori
mai mulţi pacienţi la care cei doi factori apar în tandem decât cei la care un factor
este prezent şi celălalt absent. Tendinţa de dependenţă este clară între consumul
îngheţatei de vanilie şi îmbolnăviri.
Un alt criteriu este de a calcula raportul dintre numărul pacienţilor la care cei doi
factori apar în tandem şi numărul total de pacienţi (Criteriul Procentual). Este un
criteriu mai natural căci calculează de fapt procentul de pacienţi la care apar aceste
potriviri. Deci:
CP = (a + d) / (a + b + c + d)
În tabelul TOV, avem, CP = (43+18) / 75 = 61/75 = 0,813, adică sunt 81,3%
potriviri, ceea ce este o majoritate care arată o tendinţă clară de dependenţă între
consumul îngheţatei de vanilie şi îmbolnăviri.
5. Riscul relativ

Este o măsură a legăturii între o boală şi prezenţa unui factor de risc, presupus a
influenţa apariţia bolii. Deoarece se măsoară în funcţie de riscul la cei expuşi şi
riscul la cei neexpuşi, trebuie ştiut ce înseamnă aceste două riscuri.

Riscul la cei expuşi este probabilitatea ca un individ expus, sa facă boala


(indiferent din ce motiv). Se calculează pe un lot cum este cel din exemplul din tabel,
ca raportul dintre numărul celor care au făcut boala fiind expuşi (48), şi numărul
tuturor celor expuşi (200). Deci, în tabelul de mai jos, riscul la cei expuşi este de
48/200, adică de 0,24 sau 24%.

Riscul la cei neexpuşi este probabilitatea ca un individ neexpus, sa facă boala


(indiferent din ce motiv). Se calculează pe un lot cum este cel din exemplul din tabel,
ca raportul dintre numărul celor care au făcut boala fiind neexpuşi (36), şi numărul
tuturor celor neexpuşi (2000). Deci, în tabelul de mai jos, riscul la cei neexpuşi
este de 36/2000, adică de 0,018 sau 1,8%.

Riscul Relativ, este raportul dintre riscul la cei expuşi, şi riscul la cei neexpuşi.
În tabelul de mai jos, riscul relativ este 24/1,8=13,3
Boala
"+" prezentă "-"absentă Total
Factor de Expuşi"+" 50 150 200 Tabelul 10
risc
Neexpuşi"-" 40 1960 2000
Total 90 2110 2200

În tabelul de mai sus, cotele de îmbolnăviri sunt: la cei expuşi 50/150, adică de 1 la
3, iar la neexpuşi de 40/1960, adică de 1 la 49.
Raportul celor două cote, adică Odds Ratio, este raportul dintre 1/3 şi 1/49, adică
49/3=16.3

Boala
"+" prezentă "-"absentă Total
Factor de Expuşi"+" a b a+b
Tabelul 11
risc
Neexpuşi"-" c d c+d
Total a+c b+d N=a+b+c+
d

Formulele sunt:
• Cota de îmbolnăviri la expuşi a / b
• Cota de îmbolnăviri la neexpuşi c / d
• Odds Ratio OR = (a * d) / (b * c)
Interpretare:

valori apropiate de 1, arată cote asemănătoare, cea ce înseamnă că


expunerea nu influenţrază prezenţa bolii.

valori mult peste 1, arată o tendinţă de corelaţie între prezenţa


expunerii şi a bolii la pacienţi, corelaţie care este considerată de obicei
ca fiind CAUZALĂ, deşi nu totdeauna este cazul.

Valori mult sub 1 arată tot o corelaţie, dar în acest caz, expunerea este
considerată un factor de PROTECŢIE.
7. Teste clinice şi aprecierea calităţii lor

Alte cazuri în care este utilă folosirea tabelelor 2x2, sunt cele în care se evaluează
calitatea unui test clinic la care pacienţii sunt supuşi. Un test clinic, este o
metodă de a decide dacă un pacient este pozitiv sau negativ în ce priveşte
existenţa unui simptom, a unei afecţiuni, a unui risc, etc.
Deci, un astfel de test trebuie să ofere posibilitatea de a alege pacienţii care
prezintă sau nu un simptom, o afecţiune, un semn sau altă caracteristică
necesară în procesul diagnosticării.

• Vom numi pozitivi, pacienţii care în urma testului au un rezultat pozitiv, adică
testul indică prezenţa afecţiunii, indiferent dacă în realitate afecţiunea este sau
nu prezentă la pacientul respectiv
• Vom numi negativi, pacienţii care în urma testului au un rezultat negativ,
indiferent dacă în realitate au sau nu prezentă afecţiunea respectivă.

Un test care se aplică pacienţilor este o metodă care trebuie să aibă mai multe
calităţi, între care, vom enumera două:
• Un procent cât mai mare dintre pacienţii care sunt în realitate pozitivi, ar trebui
să apară în urma testului ca fiind pozitivi
• Un procent cât mai mare dintre pacienţii care sunt în realitate negativi, ar trebui
să apară în urma testului ca fiind negativi
Ideal ar fi ca toţi pacienţii să fie diagnosticaţi de test corect, dar acesta este un
ideal care este foarte greu de atins chiar cu aparatură perfecţionată. Totdeauna
există cazuri care sunt extrem de greu de încadrat sigur într-o categorie sau alta.
In urma aplicării unui test la mai mulţi pacienţi, se vor întâlni cazuri de pacienţi
care, fie în realitate sunt pozitivi, iar în urma efectuării testului apar ca negativi, fie
invers.

Pacienţii diagnosticaţi cu un test clinic se împart după două criterii:

• După criteriul bolii (sau al caracteristicii diagnosticate), sunt două categorii :

Bolnavi (engl: diseased) şi


Sănătoşi (engl: diseased free).

Faptul că un pacient este în una dintre cele două categorii se stabileşte cu ajutorul
aşa-numitului test sigur sau test de aur (engl: golden test). Acest test este un
test care a fost deja verificat ca fiind extrem de precis şi dă o rată de erori minimă.
• După criteriul testului clinic studiat sunt tot două categorii: Pozitivi şi
Negativi.

Deci, fiecare din pacienţi, va aparţine uneia din următoarele patru clase, care
rezultă în urma combinării în toate modurile posibile a celor patru categorii de
mai sus:

• Real Pozitivi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt
Pozitivi.
• Fals Negativi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt
Negativi. Constituie erori pentru test.
• Fals Pozitivi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt
Pozitivi. Constituie celălalt tip de eroare a unui test.
• Real Negativi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt
Negativi.
După ce se stabileşte la fiecare pacient cărei clase aparţine, din cele patru
enumerate mai sus, se realizează un tabel 2x2 ca în tabelul 12

Tabelul 12. Clasificarea unor subiecţi după faptul că sunt sau că nu sunt bolnavi (testul sigur) şi după rezultatul pe care îl obţin
la un test de diagnosticare pe care dorim să îl evaluăm calitativ. (Tabelul TGT)

Testul sigur (Golden test)


Bolnavi Sănătoşi Total
Testul propus Pozitivi Real Pozitivi (RP sau B+) Fals Pozitivi (FP sau S+) P
(Testul clinic)
Negativi Fals Negativi (FN sau B-) Real Negativi (RN sau S-) N
Total B S B+S=P+N
Aprecierea calităţii unui test propus trebuie evident să ţină seama de procentul de
reuşite ale acestuia. Dar ce înseamnă reuşite pentru un test clinic? Câteva
propuneri ar fi:

• Ce procent din pacienţii bolnavi sunt diagnosticaţi de test ca pozitivi?


• Ce procent din pacienţii sănătoşi sunt diagnosticaţi de test ca negativi?
• Ce procent din pacienţii diagnosticaţi de test ca pozitivi sunt bolnavi?
• Ce procent din pacienţii diagnosticaţi de test ca negativi sunt sănătoşi?

Vom defini aceste rapoarte procentuale şi vom studia modul cum le folosim în
aprecierea calităţii testului. Aceste procente arată calitatea unui test clinic în sensul
că testul este cu atât mai valoros cu cât ele au valori mai mari, mai apropiate de
100%. În plus, vor fi definite mai jos şi două rapoarte procentuale care exprimă
erorile unui test. Este clar că procentele care exprimă erorile trebuie să fie cât mai
mici pentru ca testul să fie valoros.
• Sensibilitatea (Sn) unui test este raportul dintre numărul pacienţilor bolnavi,
diagnosticaţi ca pozitivi şi numărul total de bolnavi. Sn = B+ / B

• Specificitatea (Sp) unui test este raportul dintre numărul pacienţilor sănătoşi,
diagnosticaţi ca negativi şi numărul total de sănătoşi. Sn = S- / S

• Valoarea predictivă pozitivă (VPP), este raportul dintre numărul pacienţilor


disgnosticaţi corect ca pozitivi şi numărul total al celor diagnosticaţi de test ca
pozitivi. VPP = B+ / P

• Valoarea predictivă negativă (VPN), este raportul dintre numărul pacienţilor


disgnosticaţi corect ca negativi şi numărul total al celor diagnosticaţi de test ca
negativi. VPN = S- / N

• Rata fals pozitivă (RFP), este raportul dintre numărul pacienţilor sănătoşi
diagnosticaţi greşit ca pozitivi şi numărul pacienţilor sănătoşi. RFP = S+ / S

∙ Rata fals negativă (RFN), este raportul dintre numărul pacienţilor bolnavi
diagnosticaţi greşit ca negativi şi numărul pacienţilor bolnavi. RFN = B- / B
Ca exemplu, să urmărim situaţia din tabelul 13
Tabelul 13 Clasificarea a 109 femei după tipul de naştere (prematură sau normală) şi după lungimea colului uterin ca test
de decizie a riscului de naştere prematură. Se observă că din 41 de naşteri premature, 33 au colul sub 26mm iar din 68 de
naşteri normale, 53 au colul peste 26, deci limita de 26mm a lungimii colului uterin este un criteriu de decizie al riscului de
naştere prematură

Naştere
Prematură Normală Total
Lungime <26 mm 33 15 48
col
>26mm 8 53 61
Total 41 68 109

valorile indicatorilor de mai sus sunt:


• Sn=33/41=0,804=80,4%, Sp=53/68=0,779=77,9%
• VPP=33/48=0,687=68,7%, VPN=53/61=0,868=86,8%
• RFP=15/68=0,221=22,1%, RFN=8/41=0,196=19,6%
După cum s-a precizat mai sus, un test este cu atât mai valoros cu cât primii patru
din cei şase indicatori sunt mai mari, iar ultimii doi mai mici. Ideal ar fi ca primii
patru să fie apropiaţi de 100%, iar ultimii doi, apropiaţi de 0%. În practică, se
constată că este foarte greu să se atingă valori foarte mari pentru toţi cei patru şi
valori foarte mici pentru ultimii doi. De exemplu, testul studiat prin tabelul 13 este
un test destul de valoros.
Doar primii doi indicatori sunt consideraţi fundamentali, ei fiind cei care dau de fapt
calitatea testului clinic propus, în comparaţie cu testul considerat sigur (testul de
aur), în cazul de mai sus testul sigur fiind naşterea propriu-zisă.
Curba ROC

• când construim un model studiem legătura dintre predicție și răspuns.


Pornind de la aceste concepte, putem avea patru posibilități când
realizăm un model (inițialele codurilor provin din engleză TP – true
positive, TN – true negative, FP – false positive, FN – false negative):
• TP – Predicție pozitivă, răspuns pozitiv
• TN – Predicție negativă, răspuns negativ
• FP – Predicție pozitivă, răspuns negativ
• FN – predicție negativă, răspuns pozitiv
• vom defini:
• Sensibilitatea = TP/(TP+FN) (cazurile de predictii pozitive supra cazurile
cu răspunsuri pozitive)
• Specificitatea = TN /(TN+FP) (cazurile de predictii negative supra
cazurile cu răspunsuri negative)
Curba ROC

• Curba ROC (Receiver Operating Characteristics) este o curba bidimensională în care


pe axa Y avem sensibilitatea și pe axa X avem specificitatea. Această curba ne ajută
să măsurăm eficiența unui model. Cu cât aria de sub curbă este mai mare (maximul
este 1) cu atât modelul este mai bun.
• Aria > 0,9 – excelent
• 0,9 > Aria > 0,8 – foarte bun
• 0,8 > Aria > 0,7 – bun
• 0,7 > Aria > 0,6 – corect (fair)
• Aria < 0,6 – modelul se respinge
• Curba ROC se folosește în medicină și de aceea exemplul va fi din acest domeniu:
• Fie un test (prin test se poate înțelege o serie de analize, rezultatul unui scor sau
chiar prezența sau absența unor simptome) aplicat la 30 de pacienți. Fiecărei valori îi
asociem o valoare binară 0 sau 1 corespunzătoare faptului că nu este prezentă boala,
respectiv este prezentă. (Datele de mai jos sunt fictive și au rolul de a ajuta la
înțelegerea folosirii acestui instrument).
Curba ROC
Curba ROC
Pentru realiza curba ROC vom da un clic pe Analyze – ROC Curve și se va deschide :
Curba ROC

In fereastra Test Variable vom pune variabila scor iar la State


Variable vom pune prez_boala. In fereastra Value of State Variable vom
pune valoarea ce indică prezența bolii – în cazul nostru valoarea 1. Vom da un
clic pe OK și vom obține fereastra Output:
Primul tabel conține o statistică descriptivă: număr de cazuri pozitive și
număr de cazuri negative
Ultimul tabel conține informații despre semnificatia curbei.

Aria este 0,950 deci modelul este excelent, lucru pe care-l putem observa și din
analiza valoarii p = 0,000 (Asymptotic Sig). Ultimele 2 rubrici ale tablelului ne dau
marginile intervalului de încredere.

S-ar putea să vă placă și