Sunteți pe pagina 1din 17

TABELE DE CONTINGENȚĂ

Estimarea efectului:
RR – Risc Relativ sau Raportul Riscurilor(Risk Ratio)
OR – Raportul Cotelor (Odd Ratio)
Compararea frecvențelor:
Testul Chi pătrat (Chi Square test)
Testul Fisher (Fisher test)

Conf. Dr. Vasile Lucian Boiculese


Exemple de probleme medicale în care cerințele de rezolvare implică folosirea
frecvențelor de apariție a evenimentelor studiate:

- În cadrul afecțiunilor pulmonare se pune problema detectării factorilor de risc:


fumat, consum alcool, mediu toxic de muncă, etc.

- În cadrul apariției alergiilor la copii, se pune problema posibilei cauze datorate


părinților alergici asupra afecțiunii copiilor, sau influența posibilă a părinților ce
fumează sau chiar combinația ambelor cauze.

- În cadrul pacienților (gastroenterologie) tratați cu inhibitori ai pompei protonice se


pune problema influenței asupra infecției cu Clostridium Difficile (larg studiată și
dovedită în literatura de specialitate).

La modul general – Observăm că există un factor de influență (fumatul, consumul de


alcool, alergia părinților, tratamentul cu un anumit tip de antibiotic, etc.) și prezența
sau absența afecțiunii de studiu.
Putem crea un tabel cu frecvențele de apariție a evenimentelor pentru cele 4 cazuri
posibile definite de prezența/absența factorului respectiv prezența/absența afecțiunii.
Tabelul de contingență - cuprinde frecvențele absolute ale evenimentelor

Notație:
Frecvențe AFECȚIUNE
Prezența este codificată cu + sau 1,
Absența este codificată cu – sau 0. absolute + - Total

Conform tabelului avem un număr a de + a b a+b

FACTOR
persoane ce prezintă atât afecțiunea cât
și factorul studiat. - c d c+d

Factorul poate avea efect pozitiv, Total a+c b+d a+b+c+d=n


negativ sau poate să nu aibă efect.
Factor de risc – acesta crește probabilitatea de apariție a afecțiunii.
Factor preventiv sau protector – acesta scade probabilitatea de apariție a afecțiunii.

• Cum măsurăm influența factorului asupra efectului definit de prezența/absența


afecțiunii ?
• Un posibil răspuns ar fi definirea unei măsuri gen un risc datorat factorului …
• Realizăm că aceste evenimente definesc probabilități în prezenta conturare a unui
spațiu de lucru … !
• BIOSTATISTICA – ne ajută !
Risc
Riscul se defineşte ca fiind numărul de cazuri raportate la numărul total de elemente
studiate. Dacă avem un eşantion de 250 de pacienţi, din care 64 s-au îmbolnăvit pe
perioada studiată, putem determina riscul ca fiind 64/250=25,6%. Este o probabilitate
aproximată prin frecvența evenimentului studiat.
Frecvențe AFECȚIUNE
absolute Total
+ -
Putem crea două populaţii, în sensul
grupării după criteriul factor prezent, respectiv + a b a+b

FACTOR
absent. Avem astfel posibilitatea de a determina
- c d c+d
riscurile în cele două eșantioane definite de
citirea pe rânduri a datelor din tabel. a+c b+d a+b+c+d=n
Total

Din grupul Factor prezent (+) avem riscul de a avea afecțiunea: RF   a


( a  b)
Din grupul Factor absent (-) avem riscul de a avea afecțiunea: RF   c
(c  d )
a
R ( a  b)
Astfel Raportul Riscurilor (Risc Ratio) sau Riscul Relativ este: RR  F  
c
Observație: RR este un raport de probabilități, este sigur RF 
c  d 
pozitiv deci mai mare sau egal cu 0. Poate tinde la infinit în situația
în care riscul în grupul factor absent este 0 și riscul în grupul factor
prezent este mai mare ca 0 (operația 0/0 nu are sens).
Factor de risc:
Dacă prezența factorul implică o creștere a probabilității de apariție a afecțiunii => factorul
se numește de risc.

Atunci RF   RF  deci RR > 1.

Factor preventiv sau benefic:


Dacă prezența factorul implică o scădere a probabilității de apariție a afecțiunii => factorul
se numește preventiv sau benefic.

Atunci RF   RF  deci RR < 1.

Daca valorile riscurilor sunt aproape egale RF   RF  implica ca RR ≈ 1 atunci factorul


nu are influență asupra afecțiunii !

- Cum validăm existența unei influențe (efect) cauzată de prezența factorului studiat?
- Cât de aproape de 1 trebuie să fie valoarea RR astfel încât să putem considera nulă
influența factorului studiat ?
- Dacă răspundem la cele 2 întrebări verificarea sensului în efect al factorul (este de risc
sau preventiv) devine ușor de realizat ?
Răspunsul este evident prin analiza statistică –

Vom calcula intervalul de confidență al RR pentru factorului de studiu (standard 95%).


Statistica prin datele sale prezintă o anumită precizie de lucru – ca urmare intervalul de
confidență exprimă exact acest lucru. Cu cât volumul eșantionului est mai mare, cu atât
avem mai multe date ce implică mai multă informație deci o precizie mai bună.

Observație 1– la volume mari ale eșantionului precizia poate deveni atât de bună încât
putem avea erori f. mici în estimarea valorii RR de exemplu. Astfel o valoare RR=1.001
poate avea semnificație statistică față de 1 adică risc confirmat. Utilitatea medicală a
rezultatului nu poate fi acceptată decât prin decizia unui specialist în domeniu !

Observație 2 – pentru calculul intervalului de confidență se folosește distribuția standard


Gauss Laplace – aceasta este o distribuție simetrică.
Problema constă în faptul că distribuția RR nu respectă o curbă Gauss-Laplace. Pentru a
respecta o astfel de distribuție valorile RR trebuie logaritmate – cu alte cuvinte se
lucrează în spațiul logaritmic unde se calculează intervalul de confidență (ce este
simetric) apoi se aplică funcția inversă deci se exponențiază și se ajunge în spațiul normal
RR.

Concluzie – intervalul de confidență al RR este simetric în forma logaritmică dar în forma


normală este asimetric – caracteristică importantă !
Intervalul de confidență pentru Riscul Relativ (Raportul Riscurilor RR)

 b d 

exp LN ( RR )  z1 / 2    
RR(limita inf.) este: a  ( a  b ) c  ( c  d ) 
 
 b d 

exp LN ( RR)  z1 / 2    
RR(limita sup.) este:
a  ( a  b ) c  ( c  d ) 
 
Încrederea în estimare este standard 95% sau 0.95. Astfel α = 0.05 sau 5%.
Z(1-α/2) este absciza corespunzătoare densității de probabilitate Gauss-Laplace
pentru o încredere simetrică de 1-α. Pentru 95% încredere Z(1-α/2)=1.96.
b d
Valoarea : z1 / 2    se numește precizie.
a  ( a  b ) c  (c  d )
Se notează: LL OR (0.95%) – Lower Limit ; UL OR (0.95%) – Upper Limit

Exemple calcul RR și interval de confidență folosind EpiInfo și Excel.


INTRODUCETI VALORILE : a,b,c,d: alpha= 0.05
AFECȚIUNE Z(1-alpha/2)= 1.95996398
+ - total Precizie= 0.62000326
+ 32 123 155 RR= 2.13333333
FACTOR
- 12 112 124 LL RR (0.95% prob) = 1.14761106
total 44 235 279 UL RR (0.95% prob) = 3.96572609
În cadrul studiilor de tip cohortă RR este corect calculat conform cu formulele
prezentate deja.
Problema apare în situația studiilor tip caz-martor. Aici proporțiile reale între cazuri și
martori nu sunt de obicei respectate. Pentru aceasta ar trebui create eșantioane ce să țină
cont de prevalența afecțiunii în populația studiată – prevalență ce în studiul de cohortă este
prezentă în proporțiile participanților selectați aleator.
Pentru a măsura corect efectul riscului în studii de tip caz-martor se definește o
măsură echivalentă riscului numită COTĂ – aceasta compensează lipsa de prevalență
Cota este raportul dintre probabilitatea ca un eveniment să se realizeze și
P( A) P( A)
probabilitatea ca acel eveniment să nu se realizeze:Odd A  
P( A ) 1  P( A)
Cota este un număr pozitiv mai mare sau egal cu 0 (ca și riscul).
Facem apel la tabelul de contingență și calculăm cotele și raportul acestora.
Cota pentru grupul celor expuși factorului:
a /(a  b) a Frecvențe AFECȚIUNE
Odd F    absolute Total
b /(a  b) b + -
Cota pentru grupul celor neexpuși factorului: + a b a+b

FACTOR
c /(c  d ) c
Odd AF    - c d c+d
d /(c  d ) d
Total a+c b+d a+b+c+d=n
ad
Astfel Raportul Cotelor (Odd Ratio): OR 
bc
Intervalul de confidență al raportului cotelor (CI95% OR)

Ca și în cazul riscului și a raportului riscurilor , putem calcula intervalul de confidență


al OR. Este de asemenea nesimetric deoarece se logaritmează valorile punctuale pentru a
respecta o distribuție simetrică de tip Gauss-Laplace.
Prezentăm mai jos formulele de calcul :
 1 1 1 1 
OR(limita inf.) este: LL(OR)  exp LN (OR)  z1 / 2      

 a b c d 
 1 1 1 1 
OR(limita sup.) este: UL (OR )  exp LN (OR )  z     
 1 / 2 
a b c d 
 

Exemple de calcul folosind aplicația EpiInfo și Excel:

AFECȚIUNE alpha= 0.05


+ - total Z(1-alpha/2)= 1.95996398
+ 32 123 155 Precizie= 0.73034245
FACTOR
- 12 112 124 OR= 2.4282
total 44 235 279 LL OR (0.95% prob) = 1.1924
UL OR (0.95% prob) = 4.9445
DE REȚINUT:

Intervalul de confidență atât pentru RR cât și pentru OR este simetric în forma


logaritmică !
În forma normală acest interval nu este simetric.

Punctul critic pentru un raport este 1. Această valoare arată că numitorul și


numărătorul sunt egali. În cazul analizei de risc valoarea RR=1 sau OR=1, arată lipsa
influenței factorului studiat asupra afecțiunii. Valori exact 1 sunt foarte greu de obținut !

Dacă intervalul de confidență (standard 95% încredere) pentru RR sau OR cuprinde


valoarea 1 înseamnă că nu există asociere între cele două variabile (afecțiune și factor),
deci nu vom avea semnificație.

Dacă limita inferioară a RR sau OR pentru interval de confidență (cu 0.95 încredere)
este mai mare ca 1 atunci efectul expunerii este negativ ducând la o creștere a
probabilității de îmbolnăvire (avem factor de risc), deci avem și semnificație statistică.

Dacă limita superioară a RR sau OR pentru interval de confidență (cu 0.95 încredere)
este mai mică ca 1 atunci efectul expunerii este pozitiv (benefic) ducând la o scădere a
probabilității de îmbolnăvire (avem factor de prevenție), deci vom avea și semnificație.
Testul Chi pătrat , aproximarea Fisher în tabele de contingență 2X2

În cadrul tabelelor de contingență o altă metodă de rezolvare a problemei constă în


compararea frecvențelor de apariție a afecțiunii grupând datele după prezența / absența
factorului de risc.
Practic comparăm frecvențele de pe rânduri sau de pe coloane.
Pentru eșantioane bogate aceste frecvențe măsoară probabilitatea de apariție a
evenimentului studiat.
Acest tip de comparație se realizează cu teste de tip Chi pătrat (χ2).
V2
Total
1 0
1 (1,1) = a (1,0) = b a+b
V1
0 (0,1) = c (0,0) = d c+d
Total a+c b+d a+b+c+d=n
Ce cunoaștem - sunt frecvențele absolute a,b,c,d numite valori observate notate O11=a,
O10=b , etc.
Întrebarea la care răspundem prin acest test se poate enunța astfel:
Este proporția de date cu V2=1 din eșantionul definit de V1=1 egală cu proporția
de date cu V2=1 din eșantionul V1=0 ?
Cu alte cuvinte proporțiile definite de V2 în cele două seturi definite de V1 sunt egale ?
Este exact ceea ce ne interesează – dacă V1 reprezintă factorul iar V2 afecțiunea întrebarea
devine: Este proporția de bolnavi diferită în grupele definite de prezența / absența factorului
studiat ? Are factorul de risc influență asupra frecvenței de apariție a afecțiunii ?
Este un test statistic de comparație deci lucrăm cu ipoteze de tip H0 respectiv H1.
Ipoteza nulă (H0) : Frecvențele în cele două seturi sunt egale deci nu diferă semnificativ.
Ipoteza alternativă (H1): Frecvențele în cele două seturi sunt diferite și avem astfel
semnificație.
Metoda de calcul – testul Chi pătrat (χ2)
Pentru a pune în formă matematică informația prezentă în tabelul de contingență facem
apel la statistica de tip Chi pătrat.
Conform teoriei dacă avem n variabile independente distribuite normal N(0,1), atunci suma
pătratelor acestor n variabile urmează o distribuție de tip Chi pătrat cu n-1 grade de
libertate.
Cum gândim în cazul tabelelor de contingență ?
Presupunem că nu există influență între V1 și V2 și ca urmare calculăm frecvențele ce le
numim așteptate din acest tabel. Pentru aceasta presupunem că știm doar valorile totale de
pe linii respectiv coloane. Valorile așteptate se notează cu E (expected).
V2 Trebuie să determinăm valorile
Total
1 0 așteptate E.
1 E11 E10 a+b Dacă grupul V1=1 este independent de
V1
0 E01 E00 c+d V1=0 și au aceeași frecvență pentru
Total a+c b+d a+b+c+d=n starea V2 atunci E11=(a+c)*(a+b)/n.
Este relativ ușor de înțeles – pur și simplu calculăm valoarea așteptată definită de proporții:
Proporția de V1=1 din total este (a+b)/n și totalul de V2=1 este a+c. Astfel valoarea absolută
așteptată pentru V1=V2=1 este a+c ponderată de proporția V1=1 din total – deci produsul.
nr . de ev.
Oi  Ei 2
În final se calculează statistica Chi pătrat după formula:  calculat
2
 i 1 Ei
O – valorile observate ale frecvenţelor absolute (observed).
E – valorile determinate teoretic, dacă nu ar exista legătură între variabile (expected –
aşteptate).
Numărul de evenimente pentru tabele 2X2 este 4 (2 rânduri, 2 coloane).

Metodă de lucru

• Se calculează statistica Chi pătrat din tabelul de date;


• Se calculează corespunzător statisticii Chi și a gradelor de libertate
(k=nr. evenimente─1) semnificația notată p. Aceasta este particulară tabelului de date
– caracterizează datele noastre.
• Dacă valoarea semnificației p ≤ 0.05 (atenție – în unele cărți se prezintă valoarea prag
a semnificației pentru acest tip de test p ≤ 0.10; noi vom utiliza standardul de 0.05)
atunci avem semnificație deci există o influență a factorului asupra afecțiunii. În
continuare pentru a avea o măsură a efectului se va calcula RR sau OR funcție de tipul
de studiu folosit.
• Dacă valoarea p > 0.05 nu avem semnificație deci factorul nu are influență asupra
afecțiunii.
Observație
Consistența datelor (cantitatea de informație) este definită de volumul eșantioanelor de
lucru. Este de așteptat ca odată cu creșterea volumului eșantionului deci a informației culese
să avem încredere mai mare în rezultatele obținute. Devine evidentă întrebarea : care este
minimul de date sub care nu mai avem încredere în test ?
Astfel consistența unui test de tip Chi pătrat este definită de procentul de frecvențe
așteptate ce se află sub pragul de 5.
Dacă procentul de frecvențe așteptate de valoare sub 5 este mai mare ca 20% atunci nu
putem accepta rezultatul testului Chi pătrat – cu alte cuvinte avem erori prea mari prin
acest calcul.

Exemple de calcul folosind EpiInfo și Excel


Pentru cazul particular al tabelului 2X2 dacă o celulă conține o valoare sub 5 atunci
avem 25% valori subdimensionate – deci dacă măcar o valoare așteptată este mai mică ca
5 testul Chi pătrat devine inconsistent.
Pentru situația critică în care avem mai mult de 20% din valorile așteptate mai mici ca
5 se poate aplica metoda Fisher de calcul a semnificației.

Testul exact Fisher


Pentru cazul în care volumul eșantionului este mic și condiția de 20% nu este
îndeplinită pentru a aplica testul Chi pătrat, există metoda Fisher care face apel la
distribuția hipergeometrică de calcul a semnificației statistice (de aceea se numește
metodă exactă - se calculează prin tehnici combinatorice).
Și aici există o condiție de consistență (în sensul dimensiunii eșantionului) – valorile
așteptate să nu fie mai mici ca 1.

Exemple practice EpiInfo și Excel


Valori Afectiune Valori Cancer plămân
Observate Prezent Absent Total Așteptate Prezent Absent Total
Factor Da 8 123 131 Da 11.4 119.6 131
Fumător
risc Nu 7 35 42 Nu 3.6 38.4 42
Total 15 158 173 Total 15 158 173

Iată în cadrul valorilor așteptate avem valoarea 3.6 mai mică ca 5; practic 25% din
date sunt mai mici ca 5 – avem inconsistență în aplicarea testului Chi pătrat. Ca urmare
testul exact Fisher trebuie aplicat.
Rezultate obținute

Valoare
semnificativă !

Valoare
nesemnificativă !

Observații
- Testele gen Chi pătrat și Fisher verifică existența asocierii dintre date – ne spun dacă
frecvențele diferă sau nu, dar nu cuantifică diferența.
- Magnitudinea efectului este măsurată prin RR sau OR – avem o imagine mai clară:
RR=2 înseamnă că este de două ori mai riscant în prezența factorului de risc să ne
îmbolnăvim.
- Dacă obținem semnificație prin Chi pătrat ne așteptăm ca în intervalul de confidență
(95% încredere) pentru RR sau OR să nu avem valoarea 1.
Întrebări / Discuții pe aceste teme / Exemple practice

Spor la învățat !

S-ar putea să vă placă și