Sunteți pe pagina 1din 64
Biostatistica curs 2 _ 3 _ 4 / anul III Prof. Gabriela Georgescu
Biostatistica
curs 2 _ 3 _ 4 / anul III
Prof. Gabriela Georgescu
curs 2 / anul III
curs 2 / anul III
Măsurile valorilor centrale Parametrii urmăriţi în analiza unei serii statistice sunt: Media aritmetică_1: Se
Măsurile valorilor centrale
Parametrii urmăriţi în analiza unei serii statistice sunt:
Media aritmetică_1:
Se aplică datelor care au valori numerice; se obţine făcând raportul
dintre suma tuturor valorilor şi numărul acestora.
Ex: Vom calcula media aritmetică a următoarei serii de valori:
39, 42, 73, 67, 24 , 55.
Aceasta va fi: (39 + 42 +73 +67 + 24 + 55) / 6
În cazul general: avand observaţiile x1 , x2 , … , xn , media aritmetică
se va calcula cu formula:

x

1

x
x

2

x
x

n

n x i i 1
n
x
i
i
1

unde n=nr observatiilor seriei

Media aritmetică _2: În cazul în care sirul de date este prezentat într -un tabel

Media aritmetică_2:

În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica o alta formula:

M ( X ) =( ∑ f i * x i ) / ∑ f i Unde: fi reprezinta frecventa grupata, iar xi centrul intervalului. Iata si un exemplu cu date grupate:

intervalul (i)

Centrul i (x)

Frecventa (fi)

x * f

30-32

31

1

31

27-29

28

2

56

24-26

25

4

100

21-23

22

6

132

18-20

19

10

190

15-17

16

9

144

12-14

13

5

65

9-11

10

5

50

6-8

7

3

21

3-5

4

2

8

10 5 50 6-8 7 3 21 3-5 4 2 8 fi = 47 xi *

fi = 47

50 6-8 7 3 21 3-5 4 2 8 fi = 47 xi * fi =

xi * fi = 797

Astfel

M = 797 / 47 = 16,96

Caracteristicile mediei:

tine seama de toate cazurile si este afectata de valorile lor;

poate fi calculata fara ordonarea prealabila a datelor.

seama de toate cazurile si este afectata de valorile lor; • poate fi calculata fara ordonarea
Mediana _ 1: Mediana este acel parametru care prin pozitia sa, se afla în mijlocul

Mediana _ 1:

Mediana este acel parametru care prin pozitia sa, se afla în mijlocul seriei de date.

Ea reprezinta punctul central al seriei, deoarece la stânga si la dreapta ei se situeaza câte 50% din totalitatea datelor. Mediana coincide cu media în cazul unei distributii teoretice normale si se îndeparteaza mult de aceasta daca distributia este asimetrica.

mult de aceasta daca distributia este asimetrica. Pentru a calcula mediana în cazul distributiei simple a

Pentru a calcula mediana în cazul distributiei simple a datelor exista doua situatii:

când n este impar locul medianei se stabileste astfel: loc mediana = (n+1) / 2

când n este par sunt adunate valorile din centrul seriei si se împart la doi.

Fie sirul de date utilizat si pentru calcularea mediei: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7)

Este necesar mai întâi aranjarea datelor sirului într-o ordine fie crescatoare, fie descrescatoare:

Astfel, X devine (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Observam ca n este par (n=10). În acest caz

vom lua valorile care se gasesc pe locurile din mijlocul seriei, este vorba de locurile 5 si 6.

Cele doua valori care se gasesc pe aceste locuri sunt 8 si 9. Pentru a calcula mediana adunam cele doua valori gasite si împartim rezultatul la doi.

Astfel, Md = (8+9) / 2 = 8,5

Mediana _ 2:

Daca am fi renuntat la un numar din sir, sa spunem 12, am fi obtinut un sir de noua

numere (4, 6, 7, 7, 8, 9, 9, 9, 11). În acest caz, locul medianei este stabilit dupa formula data (n+1) / 2, în acest caz cinci. Mediana este valoarea care se gaseste pe

pozitia din mijlocul sirului ordonat de date (pozitia 5 în cazul de fata).

Consultând sirul de date observam ca mediana ar fi 8.

În cazul în care sirul de date este prezentat într-un tabel de frecvente vom aplica formula:

prezentat î ntr-un tabel de frecvente vom aplica formula: Unde: l este limita inferioara a intervalului

Unde: l este limita inferioara a intervalului de clasa care contine mediana; fc este frecventa cumulata precedând clasa care contine mediana;

fi este frecventa clasei intervalului care contine mediana;

N este numarul total al cazurilor; j este marimea intervalului (i) care cuprinde mediana.

Mediana _ 3:

Vom calcula mediana pentru aceleasi date pe care le-am utilizat în calculul mediei pentru distributii

care le-am utilizat în calculul mediei pentru distributii grupate. Intervalul Centrul i Frecventa Frecventa

grupate.

Intervalul

Centrul i

Frecventa

Frecventa

 

(fi)

cumulata

30-32

31

1

47

27-29

28

2

46

24-26

25

4

44

21-23

22

6

40

18-20

19

10

34

15-17

16

9

24

12-14

13

5

15

9-11

10

5

10

6-8

7

3

5

3-5

4

2

2

Pentru a aplica formula de calcul a medianei mai trebuie efectuati câtiva pasi:

Stabilirea punctului deasupra si dedesubtul caruia se situeaza câte 50% din cazuri (n+1)/2. În problema de fata vom avea

(47+1)/2=24;

Stabilirea intervalului care contine mediana. Se cauta în coloana frecventelor cumulate intervalul care corespunde locului medianei (24 pentru problema data). Astfel se observa ca pozitia 24 din sirul de date este ocupata de o valoare cuprinsa în intervalul 15-17;

Se stabileste limita inferioara a intervalului care cuprinde mediana (14,5) cât si frecventa datelor sale (9);

Se stabileste valoarea lui N/2 (23,5)

Se calculeaza frecventele cumulate, care preced clasa care contine mediana si se obtine 15;

Se calculeaza marimea intervalului (j=3) pentru ca putem întâlni valorile 15,16 si 17 si pentru ca diferenta dintre limita mixima si cea minima a intervalului ce contine mediana este 3 (17,5 -14,5). Avem acum toate datele necesare calcularii medianei:

N = 47

Avem acum toate datele necesare calcularii medianei: N = 47 Caracteristicile medianei: • tine seama de

Caracteristicile medianei:

tine seama de toate cazurile, dar nu este afectata de cazurile (valorile) extreme;

necesita ordonarea sirului de date.

Modulul:

Modulul: Este valoarea care are frecvenţa cea mai mare din setul de observaţii. Astfel, pentru sirurile

Este valoarea care are frecvenţa cea mai mare din setul de observaţii. Astfel, pentru sirurile de date simple modul se afla cautând valoarea cel mai des întâlnita. Pentru sirul dat drept exemplu: X = (4, 8, 6, 7, 9, 11, 9, 9, 12, 7). Dupa ordonarea datelor obtinem X = (4, 6, 7, 7, 8, 9, 9, 9, 11, 12). Se observa ca valoarea cea mai întâlnita este 9 (apare de trei ori). Ca urmare modul pentru acest sir este: Mo = 9 Pentru date grupate, se cauta intervalul care are cea mai mare frecventa. În cazul nostru, acest interval este 18-20 în interiorul caruia se afla 10 valori. Valoarea modala este egala cu valoarea gasita în centrul acestui interval, în cazul de fata Mo =

în centrul acestui interval, în cazul de fata Mo = 19. Intervalul Frecventa Intervalul (i) Frecventa

19.

Intervalul

Frecventa

Intervalul (i)

Frecventa

(i)

(f)

(f)

30-32 (31)

1

15-17 (16)

9

27-29 (28)

2

12-14 (13)

5

24-26 (25)

4

9-11 (10)

5

21-23 (22)

6

6-8 (9)

3

18-20 (19)

10

3-5 (4)

2

Caracteristicile modului:

nu tine seama decât de masurile cele mai reprezentative;

necesita ordonarea datelor

corespunde unuia sau mai multor elemente ale seriei (în caz de frecvente egale).

Măsuri ale împrăştierii sau variabilităţii Măsurile valorii centrale nu ne dau nici o indicaţie privind
Măsuri ale împrăştierii sau variabilităţii
Măsurile valorii centrale nu ne dau nici o indicaţie privind împrăştierea sau
variabilitatea într-un set de observaţii.
Ex: considerand două comunităţi A şi B; media valorii luata in studiu in cele doua
comunităţi este aceeaşi, însă distribuţiile valorilor (împrăştierea acestora) este diferită
C A
C B
4000
8000
6000
8000
8000
9000
10000
10000
12000
11000
14000
12000
16000
12000
X 10000
X 10000
A
B
O măsură utilă de caracterizare a împrăştierii este range-ul(amplitudinea), definit ca diferenţa între cea mai
O măsură utilă de caracterizare a împrăştierii este range-ul(amplitudinea), definit
ca diferenţa între cea mai mică şi cea mai mare valoare a seriei.
Varianţa (dispersia) şi deviaţia standard:
a seriei. Varianţa (dispersia) şi deviaţia standard: Varianţa este media pătratelor deviaţiilor (abaterilor)

Varianţa este media pătratelor deviaţiilor (abaterilor) de la medie. Când calculăm varianţa unei serii statistice, suma pătratelor deviaţiilor de la medie se împarte la (n – 1), deoarece aceasta dă o mai bună estimare a varianţei populaţiei totale. Numitorul (n 1) este numit numărul gradelor de libertate a varianţei. Formula de calcul a varianţei pentru o serie de valori x1 , x2 , … , xn va fi:

2 2 ( S )
2
2
(
S
)
n 2 ( x x ) i i 1 n 1
n
2
(
x
x
)
i
i
1
n
1

n nr. de obs din serie

Pentru a se putea caracteriza gradul de împrăştiere ale valorilor unei serii, se defineşte o
Pentru a se putea caracteriza gradul de împrăştiere ale valorilor unei
serii, se defineşte o mărime specială, numită deviaţie standard.

Rădăcina pătrată a varianţei se numeşte deviaţie standard

2 n ( x i x ) i 1 n 1
2
n
(
x i
x
)
i
1
n
1

Eroarea standard (e.s.) este dată de formula:

e . s .

2 n n
2
n
n

Ex: Valorile variaţiei într-un set de observatii sunt prezentate în tabelul:

 

Vârsta

Deviaţia absolută de la medie

Pătratul

(rezultate)

deviaţiei

1

68

13.8

190.44

2

65

10.8

116.64

3

59

4.8

23.04

4

59

4.8

23.04

5

57

2.8

7.84

6

52

2.2

4.84

7

49

5.2

27.04

8

48

6.2

38.44

9

48

6.2

38.44

10

48

6.2

38.44

11

47

7.2

51.44

 

Total

600

74.2

558.72

X

600

X 600 11 54 . 54 2 633 . 64 10 63 . 36 2 n

11

X 600 11 54 . 54 2 633 . 64 10 63 . 36 2 n

54

. 54

2
2

633

. 64

X 600 11 54 . 54 2 633 . 64 10 63 . 36 2 n

10

X 600 11 54 . 54 2 633 . 64 10 63 . 36 2 n

63

. 36

2 n ( xi x ) i 1 n 1
2
n
(
xi
x
)
i
1
n
1

e . s .

2 n n
2
n
n

e.s.

7.96 10
7.96
10

7.96

x ) i 1 n 1 e . s . 2 n n e . s

3.316

2
2

.

510

nr. grad. de de libertate: 11-1=10.

mediana: 52. modulul: 48. Rangul: 68 47 = 21

Intervalul de cofidenta a mediei: [

X

2 ,
2
,

X

11-1=10. mediana: 52. modulul: 48. Rangul: 68 – 47 = 21 Intervalul de cofidenta a mediei:

+2 ] pt p=0.05

Coeficientul de variabilitate Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion si

Coeficientul de variabilitate

Coeficientul de variabilitate Este utilizat în scopul stabilirii gradului de omogenitate a unui esantion si se

Este utilizat în scopul stabilirii gradului de omogenitate a unui

esantion si se obtine prin raportarea abaterii standard la media

V = s / m
V = s / m

esantionului.

abaterii standard la media V = s / m esantionului. Rezultatul obtinut se raporteaza apoi în

Rezultatul obtinut se raporteaza apoi în procente.

Rezultatul obtinut se raporteaza apoi în procente. V =s / m * 100 Unde: s este

V =s / m * 100 Unde: s este abaterea standard a esantionului studiat;

m este media grupului.
m este media grupului.
raporteaza apoi în procente. V =s / m * 100 Unde: s este abaterea standard a

Coeficientul de variabilitate

Interpretarea coeficientului de variabilitate se face în functie de valorile obtinute: a. daca coeficientul este
Interpretarea coeficientului de variabilitate se face în
functie de valorile obtinute:
a. daca coeficientul este cuprins între 0 si 15%, înseamna
ca împrastierea datelor este foarte mica, iar media este
reprezentativa, deoarece esantionul masurat este
omogen;
b. daca valoarea lui este între 15 si 30%, împrastierea
datelor este medie, media fiind înca suficient de
reprezentativa;
c. daca coeficientul depaseste 30%, media aritmetica nu
este reprezentativa pentru esantionul în cauza, fiind
recomandata utilizarea medianei din cauza lipsei de
omogenitate a grupului.
Obs. Coef. de variabilitate poate fi aplicat doar variabilelor de tip
numeric

Indicii de asimetrie si boltire

Indicele de asimetrie (de oblicitate) ne arata în ce masura media se îndeparteaza de mediana,
Indicele de asimetrie (de oblicitate) ne arata în ce masura media
se îndeparteaza de mediana, si în ce masura curba de distributie
normala a datelor se departeaza de mijloc, deplasându-se spre
stânga sau spre dreapta.
• Sunt considerate distributii relativ normale cazurile în care acesti
indicatori nu depasesc: ± 1.96.
• Vorbim despre o asimetrie pozitiva în situatia în care media este mai
mare decât mediana, caz în care indicele de asimetrie ia valori
pozitive si apare o distributie a datelor spre stânga.
• O formula simpla de calcul a oblicitatii este:
• Asimetria = 3(Media – Mediana) / Abaterea standard
• O alta formula de calcul este:
oblicitatea =
(x-m) 3 / ns 3
Unde: m este media; n este numarul de subiecti; iar s este abaterea
standard a esantionului.

În figura de mai jos este prezentat cazul unei asimetrii pozitive

situatia în care valoarea mediei este mai mare decât cea a medianei.

care valoarea mediei este mai mare decât cea a medianei . • De asemenea exista si

De asemenea exista si o asimetrie negativa în situatia în care valoarea mediei este mai mica decât cea a medianei. Indicele de asimetrie ia o valoare negativa în acest caz.

care valoarea mediei este mai mica decât cea a medianei . Indicele de asimetrie ia o
Boltirea (kurtosis – "cocoasa") se refera la înaltimea curbei, comparativ cu cea normala.
Boltirea (kurtosis – "cocoasa") se refera la înaltimea
curbei, comparativ cu cea normala.
Putem avea distributii: - leptocurtice (cu cocoasa înalta)
Putem avea distributii:
- leptocurtice (cu cocoasa înalta)

- platicurtice (mai aplatizate). Valorile pozitive indica distributii "înalte", leptocurtice, iar

indica distributii "înalte", leptocurtice, iar cele negative distributii "plate", platicurtice.
indica distributii "înalte", leptocurtice, iar cele negative distributii "plate", platicurtice.

cele negative distributii "plate", platicurtice. Pentru a fi considerata normala, valoarea boltirii distributiei trebuie sa nu depaseasca ±1,96. Indicatorul se obtine cu ajutorul formulei:

± 1,96. Indicatorul se obtine cu ajutorul formulei: Boltirea = (x-m) 4 / ns 4 –
Boltirea = (x-m) 4 / ns 4 – 3
Boltirea =
(x-m) 4 / ns 4 – 3
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.
Unde: m este media; n este numarul de subiecti; iar S este abaterea standard.

Nr

Varsta(rezultate)

Deviatia absoluta de la medie

Patratul deviatiei

Column1

(x-m)^4

1

68

 

13,45454545

181,0247934

 

32769,97582

2

65

 

10,45454545

109,2975207

 

11945,94802

3

59

 

4,454545455

19,84297521

 

393,7436651

4

59

 

4,454545455

19,84297521

 

393,7436651

5

57

 

2,454545455

6,024793388

 

36,29813537

6

52

 

-2,545454545

6,479338843

 

41,98183184

7

49

 

-5,545454545

30,75206612

 

945,6895704

8

48

 

-6,545454545

42,84297521

 

1835,520525

9

48

 

-6,545454545

42,84297521

 

1835,520525

10

48

 

-6,545454545

42,84297521

 

1835,520525

11

47

 

-7,545454545

56,9338843

 

3241,467181

Total

600

 

558,7272727

 

55275,40947

Media Varstei

54,54545455

       

Deviatia Standard

7,47480617

       

Eroarea Standard

2,253738859

       

coeficient de

         

variabilitate

13,70381131

<15 , omogen

Asimetria

1,021613599

 

<1.96 simetric

   

Mediana

52

       

Amplitudine (Range)

max(xi)-min(xi)=68-47=21

       

nr. grad de libertate=n-1=10

       
Intervalul de confidenta al mediei=(med-2 ,med+2 )
Intervalul de confidenta al mediei=(med-2 ,med+2 )

Intervalul de confidenta al mediei=(med-2 ,med+2 )

pentre 5% eroare

     

Boltirea

1,609820616

       
curs 3 / anul III
curs 3 / anul III

Rezultatul unei experiente aleatoare se numeste proba.

Evenimentul care poate fi realizat de o proba si numai de una se numeste eveniment elementar. Celelalte evenimente se numesc

compuse.

Eveniment sigur. Eveniment imposibil Fiecarei experiente i se ataseaza doua evenimente cu caracter special:

evenimentul sigur si evenimentul imposibil.

Evenimentul sigur este un eveniment care se realizeaza cu certitudine la fiecare efectuare a experientei.

Evenimentul imposibil nu se realizeaza la nici-o efectuare a experientei.

Probabilitate

1. Frecventa

Daca repetam o experienta de n ori in conditii identice si obtinem de a ori evenimentul A, atunci numarul f n = a/n poarta numele de frecventa. Numarul a poate varia de la 0 la n inclusiv. Evenimente egal posibile. Fie A si B doua evenimente referitoare la aceeasi experienta. Daca din motive de perfecta simetrie, putem afirma ca ambele evenimente au aceeasi sansa de a fi realizate, spunem ca

evenimentele sunt egal posibile.

2. Probabilitate

Definitie. Pobabilitatea unui eveniment este egala cu raportul dintre

numarul cazurilor egal posibile care realizeaza evenimentul si numarul

cazurilor egal posibile. Asadar, vom spune ca probabilitatea evenimentului A este egala cu raportul dintre numarul m al cazurilor favorabile realizarii evenimentului A si numarul n al cazurilor egal posibile. Vom scrie

dintre numarul m al cazurilor favorabile realizarii evenimentului A si numarul n al cazurilor egal posibile

Exemplu.

Avem o urna care contine 20 de bile numerotate cu 1, 2, 3, , 19, 20. Care este probabilitatea ca printr-o extractie sa obtinem o bila numerotata cu un nr. mai mic decât 6? Notam cu A evenimentul caruia dorim sa-i calculam

probabilitatea. numarul cazurilor egal posibile este 20. numarul cazurilor favorabile realizarii evenimentului A este

numarul cazurilor favorabile realizarii evenimentului A este 5. Aceste cazuri sunt: extragerea bilei 1, 2, 3,

5.

Aceste cazuri sunt: extragerea bilei 1, 2, 3, 4 sau 5. Atunci

avem :

favorabile realizarii evenimentului A este 5. Aceste cazuri sunt: extragerea bilei 1, 2, 3, 4 sau

Proprietati ale probabilitatilor

Probabilitatea unui eveniment A, pe care o notam prin P(A), are urmatoarele proprietati:

Proprietati ale probabilitatilor Probabilitatea unui eveniment A, pe care o notam prin P(A), are urmatoarele proprietati:

Şanse şi raţii

• Şansele sunt probabilităţi exprimate procentual

• Şansa ia valori între 0% şi 100%

• Exemplu: o probabilitate de 0,75 este egală cu o şansă de 75%

• Raţia unui eveniment este probabilitatea ca un eveniment

să se întâmple împărţit la probabilitatea ca acel eveniment să nu se întâmple

• Poate lua orice valoare pozitivă

• Fie A evenimentul de interes. Raţia de probabilitate = Pr(A)/[1-Pr(A)] (unde 1-Pr(A) = Pr(nonA))

• Exemplu: dacă Pr(A) = 0,75 atunci raţia de probabilitate este de 3 la 1

(0,75/(1-0,75)=0,75/0,25=3/1)

Spaţiul unui eveniment

• Mulţimea tuturor rezultatelor posibile ale unui process

aleatoriu

• La aruncarea cu zarul spaţiul de evenimente este format din

{1, 2, 3, 4, 5, 6}

• La aruncarea unei monede spaţiul de evenimente este {cap, pajură}.

• un eveniment este un membru al spaţiului evenimentului

• “cap” este un eveniment posibil la aruncarea unei monede

• “un număr mai mic sau egal cu 3” este un eveniment posibil la aruncarea unui zar

Evenimentele au asociate probabilităţi de producere!

Probabilităţi: proprietăţi

• Iau valori între 0 şi 1: 0 ≤ Pr(A) ≤ 1

• Pr(spaţiul unui eveniment) = 1

• Probabilitatea de a se întâmpla un eveniment este 1 minus probabilitatea de a nu se întâmpla acel eveniment Pr(A) = 1 - Pr(nonA)

Concepte de bază

• Evenimente compatibile: evenimente care se pot realiza simultan:

• A = {TAS < 140 mmHg}

• B = {TAD < 90 mmHg}

• Evenimente incompatibile: evenimente care nu se pot realiza simultan:

• A = {TAS < 140 mmHg}

• B = {140 ≤ TAS < 200 mmHg}

• Evenimentul A implică evenimentul B dacă evenimentul B se produce ori de câte ori se produce evenimentul A:

• Simbol A inclus in

• A = {TBC}

• B = {testul la tuberculină pozitiv}

B

Probabilităţi condiţionate

• Probabilităţi condiţionate:

• Fie A şi B două evenimente

• Prin probabilitatea condiţionată a lui A de către B (simbol: Pr(A|B))

se înţelege probabilitatea de a se realiza evenimentul A dacă în prealabil s-a realizat evenimentul B

Exemplu: Pr(Test pozitiv tuberculină|TBC) este probabilitatea de a obţine un test pozitiv la tuberculină la un pacient care are TBC.

• P(B|A) nu este acelaşi lucru cu P(A|B)

Probabilităţi condiţionate

 

Tbc+

Tbc-

Test +

15

12

Test -

25

18

Tbc+ Tbc- Test + 15 12 Test - 25 18 Fie:  A={tbc+}  B={test+} •

Fie:

A={tbc+}

B={test+}

Pr(nonB|nonA) = probabilitatea de a obţine un test negativ ştiind că testul se

aplică unui pacient indemn de TBC = 18/(18+12) = 0,60 =SPECIFICITATE (Sp)

Pr(A|B) = probabilitatea ca o persoană cu TBC să prezinte un test pozitiv = 15/(15+12) = 0,56 = VALOAREA PREDICTIVĂ POZITIVĂ (VPP)

Pr(nonA|nonB) = probabilitatea ca o persoană indemnă TBC să prezinte un test negativ = 18/(18+25) = 0,42 = VALOAREA PREDICTIVĂ NEGATIVĂ (VPN)

Rata falşilor pozitivi: RFP = Pr(B|nonA)

Rata falşilor negativi: RFN = Pr(nonA|B)

Evenimente independente: probabilităţi condiţionate

• Două evenimente A şi B se numesc independente dacă şi numai dacă Pr(AB) = Pr(A) Pr(B).

• În acest caz:

• Pr(B|A) = Pr(B|nonA) = Pr(B)

• Pr(A|B) = Pr(A|nonB) = Pr(A)

Operaţii cu evenimente

REUNIUNEA (SAU):

• A reunit cu B - se produce cel puţin unul dintre evenimentele A sau B

INTERSECŢIA (ŞI):

• AB - evenimentele A şi B se produc simultan

NEGAREA:

• nonA

Reguli de probabilitate

• Probabilitatea de apariţie a evenimentului A sau B: ADUNARE Pr(A sau B) = Pr(A) + Pr(B)

• evenimentele A şi B sunt mutual exclusive

• Probabilitate de A şi B: ÎNMULŢIRE P(A şi B) = P(A) · P(B)

• evenimentele A şi B sunt independente

Reguli de adunare a probabilităţilor

• Fie A şi B două evenimente: Pr(A reunit cu B) = Pr(A) + Pr(B) Pr(AB)

• Evenimente mutual exclusive: Pr(AB) = 0

Ex.1

A = {TAS mamă > 140 mmHg}, Pr(A) = 0,25 B = {TAS tată > 140 mmHg}, Pr(B) = 0,15 Care este probabilitatea ca într-o familie să avem un părinte hipertensiv? Pr(A reunit cu B) = 0,25 + 0,15 0 = 0,40

Ex. 2 Într-o cafenea există 20 de persoane; la 10 le place ceaiul, la alţi 10 cafeaua şi la 2 le place şi ceaiul şi cafeaua. Care este probabilitatea de a extrage la întâmplare din populaţie o persoană căreia să-i placă ceaiul sau cafeaua? Pr(ceai reunit cu cafea) = Pr(ceai) + Pr(cafea) - Pr(ceaicafea) = 0,50 + 0,50 0,10 = 0,90

Reguli de înmulţire a probabilităţilor

• Fie A şi B două evenimente: Pr(AB) = Pr(A)·Pr(B|A)

• Evenimente independente Pr(B|A) = Pr(B)

Ex. 3

• A = {TAS mamă > 140 mmHg}, Pr(A) = 0,10

• B = {TAS tată > 140 mmHg}, Pr(B) = 0,20

• Pr(AB) = 0,05

• Evenimentele A Şi B sunt dependente sau independente?

Pr(AB) = Pr(A)·Pr(B) – evenimente independente

0,05 ≠ 0,10·0,20 evenimente dependente

Probabilităţi în tabelul de contingenţă

 

Disease+

Disease

total

Test+

AP

FP

=AP+FP

Test-

FN

AN

=FN+AN

total

=AP+FN

=FP+AN

= n

Denumire parametru

Formula

Rata falşilor pozitivi Rata falşilor negativi

Sensibilitatea =AP/(AP+FN)

=FN/(FN+AP)

=FP/(FP+AN)

Specificitatea =AN/(AN+FP)

Acurateţea Valoarea predictivă pozitivă Valoarea predictivă pozitivă

Riscul relativ Rata şansei Riscul atribuabil

=(AP+AN)/n

=AP/(AP+FP)

=AN/(AN+FN)

=AP(FP+AN)/FN(AP+FP)

=(AP·AN)/(FN·FP)

=AP/(AP+FP)-FN/(FN+AN)

Valoarea lui χ2 se calculeaza prin formula: χ2 = ∑ (Oi – Ei)2 / Ei

unde O - frecventa observata, E - frecventa teoretica

Ipotezele testate sunt:

H0 (ipoteza nula) cei doi factori sunt independenti; Ha (ipoteza alternativa) exista o asociere (dependenta) intre cei doi factori.

Se foloseste următoarea interpretare a valorilor lui p, furnizate direct de programul cu care se realizează prelucrarea statistica a datelor, prin aplicarea testului de mai sus:

• p < 0.05, rezultat semnificativ (S, încredere 95% că exista o asociere intre

factori);

• p < 0.01, rezultat semnificativ (S, încredere 99% că exista o asociere intre

factori);

• p < 0.001, rezultat înalt semnificativ (HS, încredere 99,9% că exista o asociere

intre factori);

• p > 0.05, rezultat nesemnificativ (NS, încrederea de a considera ca exista o

dependenta intre factorii studiati este mai mica de 95%, deci eroarea de a respinge

ipoteza ca factorii sunt independenti este mai mare de 5%, prag considerat prea mare).

testul χ2 este valid daca cel putin 80% dintre frecventele probabile depasesc 5 si toate frecventele probabile depășesc valoarea 1.

condiția de validitate limitează semnificativ utilizarea testului χ2.

In cazul in care o frecventa probabila este sub valoarea 1, sau daca mai mult de 20% din frecventele probabile sunt sub valoarea 5, se recomanda utilizarea testului Fisher, atunci când este permisa aplicarea acestuia - loturi mici, tabele de incidenta 2x2, 3x2, 3x3 sau 4x2.

In situațiile menționate, s-a apelat la testul exact al lui Fisher, pentru a avea o precizie mai mare a rezultatelor statistice.

Atenție: frecventele probabile sunt calculate in cadrul testului si nu trebuie

confundate cu frecventele observate (datele din tabel).

Testul exact al lui Fisher reprezintă deci o alternativa a testului χ2 in examinarea asociațiilor in cadrul unui tabel de contingenta 2 x 2 etc., atunci

când frecventele probabile sunt mici. Condiția de aplicare a acestui test este ca totalurile pe rânduri si pe coloane sa fie fixe, cunoscute dinainte. Testul exact al lui Fisher se regăsește in majoritatea pachetelor statistice

existente si returnează, ca si alte teste, o valoare a lui p.

3. Tabele de incidenţă 2x2

Cazul cel mai simplu de tabel de incidenţă este tabelul 2x2. Un astfel de tabel centralizează date referitoare la două caracteristici care au câte două posibilităţi. De exemplu, dacă din 260 de pacienţi diabetici se constată că 86 au făcut retinopatie, dintre care 29 au şi nefropatie, iar din restul fără retinopatie, 2 au nefropatie, atunci aceste date pot fi sintetizate astfel:

Tabelul 4. Clasificarea a 260 de pacienţi cu diabet juvenil, după prezenţa sau

absenţa retinopatiei diabetice şi a nefropatiei

 

nefropatie

 

+

-

total

retinopatie

+

29

57

86

-

2

172

174

 

TOTAL

31

229

260

Un astfel de tabel oferă posibilitatea de a aprecia dacă există sau nu o dependenţă între prezenţa retinopatiei şi a nefropatiei, adică dacă cei doi factori au sau nu tendinţa de a apărea în tandem. Din inspecţia datelor din tabel se poate observa mai greu dacă avem o astfel de tendinţă de apariţie împreună a celor doi factori. Pentru a înţelege mai bine cum se pune

problema acestei dependenţe între factori să mai considerăm şi

următoarele situaţii:

Tabelul 5. Clasificarea a 74 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul consumului de piure de cartofi (Cazul Oswego, tabelul TOP)

 

Consum piure cartofi

 

da

nu

total

bolnavi

da

23

23

46

nu

14

14

28

total

37

37

74

masa la o cantină, dintr-un număr de 74 de indivizi, foarte mulţi s-au prezentat la

medic cu simptomele clare ale unei intoxicaţii acute. Indivizii consumaseră alimentele dintr-un meniu multiplu, ceea ce făcuse ca fiecare aliment să fie consumat doar de o parte a lor, din cei 74 îmbolnăvindu-se 46. Era natural să se încerce să se centralizeze ce alimente a consumat fiecare individ

(bolnav sau nu) şi să se încerce să se stabilească o dependenţă între consumul

unui anumit aliment şi îmbolnăviri.

În tabelul 5, este redată situaţia referitoare la consumul de piuré de cartofi, iar în tabelul 6, situaţia referitoare la consumul de îngheţată de vanilie, un alt fel de servit în acea seară.

Aceste tabele sunt foarte utile în medicină deoarece, în ciuda informaţiei sărace pe care o conţin, (doar patru numere, în esenţă, cele patru numere din căsuţele

evidenţiate cu text îngroşat în fiecare dintre tabele), posibilităţile de a aprecia o

dependenţă între clasificările pe orizontală şi verticală sunt destul de bine studiate în acest moment.

În cele două tabele de mai sus, factorii de clasificare sunt Retinopatie, Nefropatie

şi respectiv, Bolnavi şi Cartofi. Retinopatie, este aici criteriu de clasificare în sensul că pacienţii sunt împărţiţi după acest criteriu în tabel cu “+” şi “-“. Îl numim criteriu orizontal spre deosebire de Nefropatie care este numit criteriu vertical, pentru uşurinţa expunerii. La fel, în al doilea tabel, Bolnavi şi Cartofi, simbolizează faptul

că indivizii cuprinşi în tabel sunt sau nu sunt bolnavi şi respectiv au consumat sau nu

au consumat piuré de cartofi.

Să încercăm acum să verificăm în ce măsură factorii de clasificare de pe orizontală şi de pe verticală depind unul de altul.

La tabelul TOP, (factorii de pe orizontală şi verticală sunt îmbolnăvirile şi consumul de cartofi) întâmplarea a făcut ca exact jumătate din cei înregistraţi au consumat mâncare de cartofi iar între cei bolnavi şi sănătoşi tot jumătate au consumat acest fel de mâncare. La o examinare sumară a tabelului se poate deduce imediat că nu acest fel de mâncare este vinovat de infestarea indivizilor bolnavi, fiind evident că jumătate din cei bolnavi nu au consumat acest fel şi deci este clar că s-au îmbolnăvit de la altceva. Pe de altă parte, se vede că şi 14 indivizi care au mâncat din acest fel de

mâncare nu s-au îmbolnăvit.

Concluzie: consumul de cartofi şi îmbolnavirile nu sunt dependente.

Tabelul 6. Clasificarea a 75 de subiecţi după criteriul prezenţei sau absenţei bolii şi după criteriul consumului de îngheţată de vanilie (Cazul Oswego, tabelul TOV)

 

Consum inghetata

da

nu

total

bolnavi

da

43

3

46

nu

11

18

29

total

54

21

75

În, tabelul TOV, se prezintă o situaţie diferită, căci se observă că din cei 46 de bolnavi 43 au consumat îngheţată de vanilie iar marea majoritate a celor care sunt sănătoşi nu au consumat. Mai putem privi situaţia şi astfel: din 54 indivizi care au consumat îngheţată, 43 s-au îmbolnăvit, iar din cei 21 care nu au consumat, 18 nu s-au îmbolnăvit. Altfel spus,

• 43/54=0,796=79,6% este procentul îmbolnăvirilor la cei care au consumat şi

• 3/21=0,142=14,2%, procentul îmbolnăvirilor la cei care nu au consumat acest

aliment.

Este destul de clar că între consumul de îngheţată de vanilie şi îmbolnăviri este o dependenţă.

Din analiza exemplelor de mai sus se vede că în fond se poate judeca fiecare situaţie

care apare într-un mod asemănător, judecând de la caz la caz dacă există sau nu o dependenţă între criteriile de clasificare pe orizontală şi pe verticală. Dacă am judeca mereu ca mai sus am fi puşi des în situaţia de a nu putea lua o decizie suficient de obiectivă.

Dacă de exemplu, la cei care au consumat alimentul proporţia îmbolnăvirilor este 79,6% (vezi tabelul 6), iar la ceilalţi este doar de 14,2%, oricine va spune că îmbolnăvirile sunt într-o relaţie de dependenţă cu alimentul consumat, iar dacă

procentele ar fi, 79,6% şi respectiv 77,4%, oricine ar spune că mica diferenţă se

datorează întâmplării şi nu este nici o dependenţă între îmbolnăviri şi consumul alimentului.

Dar dacă cele două procente sunt 79,6% şi 62,4% ce concluzie tragem? Căci dacă am spune că avem o dependenţă din cauza diferenţei dintre procente, oricine poate replica că această diferenţă este întâmplătoare, mai ales dacă numărul de pacienţi pe care l- am luat în calcul a fost relativ mic. De aceea este nevoie de criterii mai obiective de apreciere a situaţiilor cu care ne putem confrunta în astfel de studii.

Trebuie reţinut din cele discutate:

• Uneori se constată prin simplă inspecţie sau din calcule foarte simple o tendinţă de

dependenţă între factorul de clasificare pe orizontală şi cel de clasificare pe verticală.

• Decizia dacă există sau nu o dependenţă este de natură subiectivă, deoarece,

pentru moment, nu avem un criteriu clar prin care să putem decide aceasta. În cele ce urmează, să încercăm să generalizăm situaţiile de mai sus, presupunând că, de obicei avem de a face cu:

1). Un factor activ (consumul unui aliment, al unui medicament, aplicarea unui

anumit tip de tratament, etc) şi putem clasifica indivizii în două categorii din punctul de vedere al acestui factor (de obicei ele fiind simbolizate prin Da/Nu, +/-, Yes/No) 2). Un factor pasiv (rezultat al celui activ) care clasifică indivizii tot în două categorii

(Bolnav/Sănătos, Da/Nu, +/-).

Să notăm cu

• Poz+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este pozitiv

• Neg+ numărul indivizilor asupra cărora acţionează factorul activ şi rezultatul este

negativ

• Poz- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este pozitiv

• Neg- numărul indivizilor asupra cărora nu acţionează factorul activ şi rezultatul este negativ

curs 4 / anul III
curs 4 / anul III

Această situaţie se poate centraliza într-un tabel ca tabelul 7, care este foarte asemănător cu cele care au fost date ca exemplu mai sus:

Tabelul 7. Tabel general de incidenţă 2x2 (TG)

 

Factor Activ (Cauza)

 

Pozitiv

Negativ

Total

Factor

Pozitiv

Poz+ (a)

Poz-(b)

Poz

Pasiv

       

(Efect)

Negativ

Neg+ (c)

Neg- (d)

Neg

Total

+

-

N

Să încercăm să sistematizăm observaţii mai generale care să ne ofere, pe cât posibil

criterii mai obiective:

Dacă factorul pasiv are tendinţa de a apare în tandem cu cel activ, atunci ne putem aştepta, ca tendinţă generală, ca cei mai mulţi indivizi să apară înscrişi în celulele Poz+ şi Neg-, iar celulele Poz- şi Neg+ să rămână mai nepopulate. Este de uz comun etichetarea celulelor cu a, b, c, d, ca în tabelul TG şi deci vom spune că în acest caz, majoritatea indivizilor sunt în celulele a, d, iar în celulele b, c avem mai puţini indivizi (este cazul tabelului TOV). Ţinând cont de această observaţie, vom introduce câteva criterii de dependenţă care ne permit o apreciere mai obiectivă a

unei eventuale dependenţe.

4. Criterii de dependenţă

O modalitate de a aprecia tendinţa celor doi factori de a apare în tandem adică tendinţa lor de dependenţă, este de a urmări care este raportul dintre numărul

pacienţilor la care avem potrivire, adică ambii factori sunt prezenţi sau ambii sunt absenţi, şi numărul pacienţilor la care nu avem potrivire, adică un factor este prezent iar celălalt absent. Se observă uşor că acest raport, pe care îl vom numi Criteriul Diagonal, este:

CD = (a + d) / (b + c)

În tabelul TOV, avem CD = (43+18)/(3+11) = 61/14 = 4,35, adică sunt de 4,35 ori mai mulţi pacienţi la care cei doi factori apar în tandem decât cei la care un factor este prezent şi celălalt absent. Tendinţa de dependenţă este clară între consumul îngheţatei de vanilie şi îmbolnăviri.

Un alt criteriu este de a calcula raportul dintre numărul pacienţilor la care cei doi

factori apar în tandem şi numărul total de pacienţi (Criteriul Procentual). Este un criteriu mai natural căci calculează de fapt procentul de pacienţi la care apar aceste potriviri. Deci:

CP = (a + d) / (a + b + c + d)

În tabelul TOV, avem, CP = (43+18) / 75 = 61/75 = 0,813, adică sunt 81,3% potriviri, ceea ce este o majoritate care arată o tendinţă clară de dependenţă între consumul îngheţatei de vanilie şi îmbolnăviri.

5. Riscul relativ

Este o măsură a legăturii între o boală şi prezenţa unui factor de risc, presupus a influenţa apariţia bolii. Deoarece se măsoară în funcţie de riscul la cei expuşi şi riscul la cei neexpuşi, trebuie ştiut ce înseamnă aceste două riscuri.

Riscul la cei expuşi este probabilitatea ca un individ expus, sa facă boala

(indiferent din ce motiv). Se calculează pe un lot cum este cel din exemplul din tabel,

ca raportul dintre numărul celor care au făcut boala fiind expuşi (48), şi numărul tuturor celor expuşi (200). Deci, în tabelul de mai jos, riscul la cei expuşi este de 48/200, adică de 0,24 sau 24%.

Riscul la cei neexpuşi este probabilitatea ca un individ neexpus, sa facă boala (indiferent din ce motiv). Se calculează pe un lot cum este cel din exemplul din tabel, ca raportul dintre numărul celor care au făcut boala fiind neexpuşi (36), şi numărul tuturor celor neexpuşi (2000). Deci, în tabelul de mai jos, riscul la cei neexpuşi este de 36/2000, adică de 0,018 sau 1,8%.

Riscul Relativ, este raportul dintre riscul la cei expuşi, şi riscul la cei neexpuşi.

În tabelul de mai jos, riscul relativ este 24/1,8=13,3

 

Boala

"+" prezentă

"-"absentă

Total

Factor de

Expuşi"+"

50

150

200

risc

Neexpuşi"-"

40

1960

2000

Total

90

2110

2200

Tabelul 10

În tabelul de mai sus, cotele de îmbolnăviri sunt: la cei expuşi 50/150, adică de 1 la 3, iar la neexpuşi de 40/1960, adică de 1 la 49. Raportul celor două cote, adică Odds Ratio, este raportul dintre 1/3 şi 1/49, adică

49/3=16.3

 

Boala

"+" prezentă

"-"absentă

Total

Factor de

Expuşi"+"

a

b

a+b

risc

Neexpuşi"-"

c

d

c+d

Total

a+c

b+d

N=a+b+c+

d

Tabelul 11

Formulele sunt:

• Cota de îmbolnăviri la expuşi a / b

• Cota de îmbolnăviri la neexpuşi c / d

Interpretare:

valori apropiate de 1, arată cote asemănătoare, cea ce înseamnă că expunerea nu influenţrază prezenţa bolii.

valori mult peste 1, arată o tendinţă de corelaţie între prezenţa expunerii şi a bolii la pacienţi, corelaţie care este considerată de obicei ca fiind CAUZALĂ, deşi nu totdeauna este cazul.

Valori mult sub 1 arată tot o corelaţie, dar în acest caz, expunerea este

considerată un factor de PROTECŢIE.

7. Teste clinice şi aprecierea calităţii lor

Alte cazuri în care este utilă folosirea tabelelor 2x2, sunt cele în care se evaluează

calitatea unui test clinic la care pacienţii sunt supuşi. Un test clinic, este o

metodă de a decide dacă un pacient este pozitiv sau negativ în ce priveşte existenţa unui simptom, a unei afecţiuni, a unui risc, etc. Deci, un astfel de test trebuie să ofere posibilitatea de a alege pacienţii care prezintă sau nu un simptom, o afecţiune, un semn sau altă caracteristică

necesară în procesul diagnosticării.

• Vom numi pozitivi, pacienţii care în urma testului au un rezultat pozitiv, adică

testul indică prezenţa afecţiunii, indiferent dacă în realitate afecţiunea este sau

nu prezentă la pacientul respectiv

• Vom numi negativi, pacienţii care în urma testului au un rezultat negativ, indiferent dacă în realitate au sau nu prezentă afecţiunea respectivă.

Un test care se aplică pacienţilor este o metodă care trebuie să aibă mai multe calităţi, între care, vom enumera două:

• Un procent cât mai mare dintre pacienţii care sunt în realitate pozitivi, ar trebui să apară în urma testului ca fiind pozitivi • Un procent cât mai mare dintre pacienţii care sunt în realitate negativi, ar trebui

să apară în urma testului ca fiind negativi

Ideal ar fi ca toţi pacienţii să fie diagnosticaţi de test corect, dar acesta este un ideal care este foarte greu de atins chiar cu aparatură perfecţionată. Totdeauna există cazuri care sunt extrem de greu de încadrat sigur într-o categorie sau alta. In urma aplicării unui test la mai mulţi pacienţi, se vor întâlni cazuri de pacienţi care, fie în realitate sunt pozitivi, iar în urma efectuării testului apar ca negativi, fie invers.

Pacienţii diagnosticaţi cu un test clinic se împart după două criterii:

• După criteriul bolii (sau al caracteristicii diagnosticate), sunt două categorii :

Bolnavi (engl: diseased) şi Sănătoşi (engl: diseased free).

Faptul că un pacient este în una dintre cele două categorii se stabileşte cu ajutorul aşa-numitului test sigur sau test de aur (engl: golden test). Acest test este un test care a fost deja verificat ca fiind extrem de precis şi dă o rată de erori minimă.

• După criteriul testului clinic studiat sunt tot două categorii: Pozitivi şi Negativi.

Deci, fiecare din pacienţi, va aparţine uneia din următoarele patru clase, care rezultă în urma combinării în toate modurile posibile a celor patru categorii de mai sus:

Real Pozitivi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt Pozitivi.

Fals Negativi, pacienţii care în realitate sunt Bolnavi iar în urma testului sunt Negativi. Constituie erori pentru test.

Fals Pozitivi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt

Pozitivi. Constituie celălalt tip de eroare a unui test.

Real Negativi, pacienţii care în realitate sunt Sănătoşi iar în urma testului sunt Negativi.

După ce se stabileşte la fiecare pacient cărei clase aparţine, din cele patru enumerate mai sus, se realizează un tabel 2x2 ca în tabelul 12

Tabelul 12. Clasificarea unor subiecţi după faptul că sunt sau că nu sunt bolnavi (testul sigur) şi după rezultatul pe care îl obţin

la un test de diagnosticare pe care dorim să îl evaluăm calitativ. (Tabelul TGT)

 

Testul sigur (Golden test)

 

Bolnavi

Sănătoşi

Total

Testul propus

Pozitivi

Real Pozitivi (RP sau B+)

Fals Pozitivi (FP sau S+)

P

(Testul clinic)

Negativi

Fals Negativi (FN sau B-)

Real Negativi (RN sau S-)

N

 

Total

B

S

B+S=P+N

Aprecierea calităţii unui test propus trebuie evident să ţină seama de procentul de reuşite ale acestuia. Dar ce înseamnă reuşite pentru un test clinic? Câteva propuneri ar fi:

• Ce procent din pacienţii bolnavi sunt diagnosticaţi de test ca pozitivi?

• Ce procent din pacienţii sănătoşi sunt diagnosticaţi de test ca negativi?

• Ce procent din pacienţii diagnosticaţi de test ca pozitivi sunt bolnavi?

• Ce procent din pacienţii diagnosticaţi de test ca negativi sunt sănătoşi?

Vom defini aceste rapoarte procentuale şi vom studia modul cum le folosim în aprecierea calităţii testului. Aceste procente arată calitatea unui test clinic în sensul că testul este cu atât mai valoros cu cât ele au valori mai mari, mai apropiate de 100%. În plus, vor fi definite mai jos şi două rapoarte procentuale care exprimă erorile unui test. Este clar că procentele care exprimă erorile trebuie să fie cât mai mici pentru ca testul să fie valoros.

Sensibilitatea (Sn) unui test este raportul dintre numărul pacienţilor bolnavi, diagnosticaţi ca pozitivi şi numărul total de bolnavi. Sn = B+ / B

Specificitatea (Sp) unui test este raportul dintre numărul pacienţilor sănătoşi, diagnosticaţi ca negativi şi numărul total de sănătoşi. Sn = S- / S

Valoarea predictivă pozitivă (VPP), este raportul dintre numărul pacienţilor

disgnosticaţi corect ca pozitivi şi numărul total al celor diagnosticaţi de test ca

pozitivi. VPP = B+ / P

Valoarea predictivă negativă (VPN), este raportul dintre numărul pacienţilor

disgnosticaţi corect ca negativi şi numărul total al celor diagnosticaţi de test ca negativi. VPN = S- / N

Rata fals pozitivă (RFP), este raportul dintre numărul pacienţilor sănătoşi diagnosticaţi greşit ca pozitivi şi numărul pacienţilor sănătoşi. RFP = S+ / S

∙ Rata fals negativă (RFN), este raportul dintre numărul pacienţilor bolnavi diagnosticaţi greşit ca negativi şi numărul pacienţilor bolnavi. RFN = B- / B Ca exemplu, să urmărim situaţia din tabelul 13

Tabelul 13 Clasificarea a 109 femei după tipul de naştere (prematură sau normală) şi după lungimea colului uterin ca test de decizie a riscului de naştere prematură. Se observă că din 41 de naşteri premature, 33 au colul sub 26mm iar din 68 de naşteri normale, 53 au colul peste 26, deci limita de 26mm a lungimii colului uterin este un criteriu de decizie al riscului de

naştere prematură

 

Naştere

 

Prematură

Normală

Total

Lungime

<26 mm

33

15

48

col

>26mm

8

53

61

 

Total

41

68

109

valorile indicatorilor de mai sus sunt:

• Sn=33/41=0,804=80,4%, Sp=53/68=0,779=77,9%

• VPP=33/48=0,687=68,7%, VPN=53/61=0,868=86,8%

• RFP=15/68=0,221=22,1%, RFN=8/41=0,196=19,6%

După cum s-a precizat mai sus, un test este cu atât mai valoros cu cât primii patru din cei şase indicatori sunt mai mari, iar ultimii doi mai mici. Ideal ar fi ca primii patru să fie apropiaţi de 100%, iar ultimii doi, apropiaţi de 0%. În practică, se constată că este foarte greu să se atingă valori foarte mari pentru toţi cei patru şi

valori foarte mici pentru ultimii doi. De exemplu, testul studiat prin tabelul 13 este

un test destul de valoros. Doar primii doi indicatori sunt consideraţi fundamentali, ei fiind cei care dau de fapt calitatea testului clinic propus, în comparaţie cu testul considerat sigur (testul de

aur), în cazul de mai sus testul sigur fiind naşterea propriu-zisă.

Curba ROC
Curba ROC
când construim un model studiem legătura dintre predicție și răspuns. Pornind de la aceste concepte,
când construim un model studiem legătura dintre predicție și răspuns.
Pornind de la aceste concepte, putem avea patru posibilități când
realizăm un model (inițialele codurilor provin din engleză TP – true
positive, TN – true negative, FP – false positive, FN – false negative):
TP – Predicție pozitivă, răspuns pozitiv
TN – Predicție negativă, răspuns negativ
FP – Predicție pozitivă, răspuns negativ
FN – predicție negativă, răspuns pozitiv
vom defini:
Sensibilitatea = TP/(TP+FN) (cazurile de predictii pozitive supra cazurile
cu răspunsuri pozitive)
Specificitatea = TN /(TN+FP) (cazurile de predictii negative supra
cazurile cu răspunsuri negative)
Curba ROC
Curba ROC
•
Curba ROC • Curba ROC ( R eceiver O perating C haracteristics) este o curba bidimensională

Curba ROC (Receiver Operating Characteristics) este o curba bidimensională în care pe axa Y avem sensibilitatea și pe axa X avem specificitatea. Această curba ne ajută să măsurăm eficiența unui model. Cu cât aria de sub curbă este mai mare (maximul este 1) cu atât modelul este mai bun.

mai mare (maximul este 1) cu atât modelul este mai bun. • Aria > 0,9 –
• Aria > 0,9 – excelent • 0,9 > Aria > 0,8 – foarte bun
• Aria > 0,9 – excelent
• 0,9 > Aria > 0,8 – foarte bun
• 0,8 > Aria > 0,7 – bun
• 0,7 > Aria > 0,6 – corect (fair)
• Aria < 0,6 – modelul se respinge
• Curba ROC se folosește în medicină și de aceea exemplul va fi din acest domeniu:
• Fie un test (prin test se poate înțelege o serie de analize, rezultatul unui scor sau
chiar prezența sau absența unor simptome) aplicat la 30 de pacienți. Fiecărei valori îi
asociem o valoare binară 0 sau 1 corespunzătoare faptului că nu este prezentă boala,
respectiv este prezentă. (Datele de mai jos sunt fictive și au rolul de a ajuta la
înțelegerea folosirii acestui instrument).
Curba ROC
Curba ROC
Curba ROC
Curba ROC
Curba ROC

Pentru realiza curba ROC vom da un clic pe Analyze ROC Curve și se va deschide :

Curba ROC Pentru realiza curba ROC vom da un clic pe Analyze – ROC Curve și
Curba ROC
Curba ROC

In fereastra Test Variable vom pune variabila scor iar la State Variable vom pune prez_boala. In fereastra Value of State Variable vom pune valoarea ce indică prezența bolii – în cazul nostru valoarea 1. Vom da un clic pe OK și vom obține fereastra Output:

Primul tabel conține o statistică descriptivă: număr de cazuri pozitive și număr de cazuri negative

Primul tabel conține o statistică descriptivă: număr de cazuri pozitive și număr de cazuri negative

Ultimul tabel conține informații despre semnificatia curbei.

tabel conține informații despre semnificatia curbei. Aria este 0,950 deci modelul este excelent, lucru pe care-

Aria este 0,950 deci modelul este excelent, lucru pe care-l putem observa și din

analiza valoarii p = 0,000 (Asymptotic Sig). Ultimele 2 rubrici ale tablelului ne dau marginile intervalului de încredere.