Sunteți pe pagina 1din 23

BIOSTATISTICA

TABELE DE CONTINGENȚĂ
Estimarea efectului:
RR – Risc Relativ sau Raportul Riscurilor(Risk Ratio)
OR – Raportul Cotelor (Odd Ratio)
Diferența riscurilor în forma absolută / relativă
NNT / NNH – număr persoane necesare pentru a observa un eveniment
Compararea frecvențelor:
Testul Chi pătrat (Chi Square test)
Testul Fisher (Fisher test)

Conf. Dr. Vasile Lucian Boiculese


Exemple de probleme medicale în care cerințele de rezolvare implică folosirea frecvențelor de apariție a
evenimentelor studiate:

- În cadrul afecțiunilor pulmonare se pune problema detectării factorilor de risc: fumat, consum alcool,
mediu toxic de muncă, etc.

- În cadrul apariției alergiilor la copii, se pune problema posibilei cauze datorate părinților alergici, sau
influența posibilă a părinților care fumează sau chiar combinația ambelor cauze.

- În cadrul pacienților (gastroenterologie) tratați cu inhibitori ai pompei protonice se pune problema


influenței asupra infecției cu Clostridium Difficile (larg studiată și dovedită în literatura de specialitate).

La modul general – Observăm că există un factor de influență (fumatul, consumul de alcool, alergia
părinților, tratamentul cu un anumit tip de antibiotic, etc.) și prezența sau absența afecțiunii de studiu.
Putem crea un tabel cu frecvențele de apariție ale evenimentelor pentru cele 4 cazuri posibile definite de
prezența/absența factorului respectiv prezența/absența afecțiunii.
Tabelul de contingență - cuprinde frecvențele absolute ale evenimentelor

Notație: Frecvențe AFECȚIUNE


Prezența este codificată cu + sau 1, absolute Total
Absența este codificată cu – sau 0. + -

Conform tabelului avem un număr a de persoane ce + a b a+b

FACTOR
prezintă atât afecțiunea cât și factorul studiat.
- c d c+d
Factorul poate avea efect pozitiv, negativ sau poate să nu
aibă efect. Total a+c b+d a+b+c+d=n

Factor de risc – acesta crește probabilitatea de apariție a afecțiunii.


Factor preventiv sau protector – acesta scade probabilitatea de apariție a afecțiunii.

• Cum măsurăm influența factorului asupra efectului definit de prezența/absența afecțiunii ?


• Un posibil răspuns ar fi definirea unei măsuri gen un risc datorat factorului …
• Realizăm că aceste evenimente definesc probabilități în prezenta conturare a unui spațiu de lucru … !
• BIOSTATISTICA – ne ajută !
Risc
Riscul se defineşte ca fiind numărul de cazuri raportate la numărul total de indivizi din studiu. Dacă avem
un eşantion de 250 de persoane, din care 64 suferă de afecțiunea studiată, putem determina riscul ca fiind
64/250=25,6%. Este o probabilitate aproximată prin frecvența evenimentului studiat.
Frecvențe AFECȚIUNE Putem crea două populaţii, în sensul grupării după criteriul
absolute Total
+ - factor prezent, respectiv absent. Avem astfel posibilitatea de a
determina riscurile în cele două eșantioane definite de citirea pe
FACTOR

+ a b a+b
rânduri a datelor din tabel.
- c d c+d Din grupul Factor prezent (+) calculăm riscul de a avea
afecțiunea: R = a
Total
a+c b+d a+b+c+d=n F+ ( a + b)

RF − = c
Din grupul Factor absent (-) calculăm riscul de a avea afecțiunea: (c + d )
a
Astfel Raportul Riscurilor (Risc Ratio) sau Riscul Relativ este: RR =
RF + ( a + b)
=
RF − c
(c + d )
Observație: RR este un raport de probabilități, este sigur pozitiv
deci mai mare sau egal cu 0. Poate tinde la infinit în situația în
care riscul în grupul factor absent este 0 și riscul în grupul factor
prezent este mai mare ca 0 (operația 0/0 nu are sens).
Factor de risc:
Dacă prezența factorul implică o creștere a probabilității de apariție a afecțiunii => factorul se numește de risc.

Atunci RF +  RF − deci RR > 1.

Factor preventiv (protector, benefic):


Dacă prezența factorul implică o scădere a probabilității de apariție a afecțiunii => factorul se numește preventiv.

Atunci RF −  RF + deci RR < 1.

Daca valorile riscurilor sunt aproape egale RF −  RF + implica RR ≈ 1 atunci factorul nu are influență
asupra afecțiunii !

- Cum validăm existența unei influențe (efect) cauzată de prezența factorului studiat?
- Cât de aproape de 1 trebuie să fie valoarea RR astfel încât să putem considera nulă influența factorului studiat
?
- Dacă răspundem la cele 2 întrebări, verificarea sensului în efect al factorul (este de risc sau preventiv) devine
ușor de realizat ?
Răspunsul este evident prin analiza statistică –

Vom calcula intervalul de confidență al RR pentru factorului de studiu (standard 95%).


Statistica prin datele sale prezintă o anumită precizie de lucru – ca urmare intervalul de confidență exprimă
exact acest lucru. Cu cât volumul eșantionului est mai mare, cu atât avem mai multe date ce implică mai multă
informație deci o precizie mai bună.

Observație 1– la volume mari ale eșantionului precizia poate deveni atât de bună încât putem avea erori f.
mici în estimarea valorii RR de exemplu. Astfel o valoare RR=1.001 poate avea semnificație statistică față de
1 adică risc confirmat. Utilitatea medicală a rezultatului nu poate fi acceptată decât prin decizia unui specialist
în domeniu !
Observație 2 – pentru calculul intervalului de confidență se folosește distribuția standard Gauss Laplace –
aceasta este o distribuție simetrică.
Problema constă în faptul că distribuția RR nu respectă o curbă Gauss-Laplace. Pentru a respecta o astfel de
distribuție valorile RR trebuie logaritmate – cu alte cuvinte se lucrează în spațiul logaritmic unde se calculează
intervalul de confidență (ce este simetric) apoi se aplică funcția inversă deci se exponențiază și se ajunge în
spațiul normal RR.

Concluzie – intervalul de confidență al RR este simetric în forma logaritmică dar în forma normală este
asimetric – caracteristică importantă !
Intervalul de confidență pentru Riscul Relativ (Raportul Riscurilor RR)

 b d 
 
RR(limita inf.) este: exp LN ( RR) − z(1− / 2 )  a  (a + b) + c  (c + d ) 
 
 b d 

RR(limita sup.) este: exp LN ( RR ) + z(1− / 2 )  + 
 a  (a + b) c  (c + d ) 
Încrederea în estimare este standard 95% sau 0.95. Astfel α = 0.05 sau 5%.
Z(1-α/2) este abscisa corespunzătoare densității de probabilitate Gauss-Laplace pentru o încredere simetrică
de 1-α. Pentru 95% încredere Z(1-α/2)=1.96.
b d
Valoarea : z (1− / 2 )  + se numește precizie.
a  ( a + b ) c  (c + d )
Se notează: LL OR (0.95%) – Lower Limit ; UL OR (0.95%) – Upper Limit

Exemple calcul RR și interval de confidență folosind EpiInfo și Excel.


INTRODUCETI VALORILE : a,b,c,d: alpha= 0.05
AFECȚIUNE Z(1-alpha/2)= 1.95996398
+ - total Precizie= 0.62000326
+ 32 123 155 RR= 2.13333333
FACTOR
- 12 112 124 LL RR (0.95% prob) = 1.14761106
total 44 235 279 UL RR (0.95% prob) = 3.96572609
În cadrul studiilor de tip cohortă RR este corect calculat conform cu formulele prezentate deja.
Problema apare în situația studiilor tip caz-martor. Aici proporțiile reale între cazuri și martori nu sunt de obicei
respectate. Pentru aceasta ar trebui create eșantioane ce să țină cont de prevalența afecțiunii în populația studiată –
prevalență ce în studiul de cohortă este prezentă în proporțiile participanților selectați aleator.
Pentru a măsura corect efectul riscului în studii de tip caz-martor se definește o măsură echivalentă riscului numită
COTĂ – aceasta compensează lipsa de prevalență
Cota este raportul dintre probabilitatea ca un eveniment să se realizeze și
P ( A) P ( A)
probabilitatea ca acel eveniment să nu se realizeze: Odd A = =
P ( A ) 1 − P ( A)
Cota este un număr pozitiv mai mare sau egal cu 0 (ca și riscul).
Facem apel la tabelul de contingență și calculăm cotele și raportul acestora.
a /(a + b) a
Cota pentru grupul celor expuși factorului: Odd F + = =
b /(a + b) b
c /(c + d ) c
Cota pentru grupul celor neexpuși factorului: Odd AF − = = Frecvențe AFECȚIUNE
d /(c + d ) d absolute Total
+ -
ad
Astfel Raportul Cotelor (Odd Ratio): OR = + a b a+b

FACTOR
bc
- c d c+d

Total a+c b+d a+b+c+d=n


Intervalul de confidență al raportului cotelor (CI95% OR)

Ca și în cazul riscului și a raportului riscurilor , putem calcula intervalul de confidență al OR. Este de
asemenea nesimetric deoarece se logaritmează valorile punctuale pentru a respecta o distribuție simetrică de tip
Gauss-Laplace.
Prezentăm mai jos formulele de calcul :
 1 1 1 1 
OR(limita inf.) este: LL(OR ) = exp LN (OR ) − z(1− / 2 )  + + + 

 a b c d 
 1 1 1 1 
OR(limita sup.) este: UL(OR ) = exp LN (OR ) + z(1− / 2 )  + + + 

 a b c d 

Exemple de calcul folosind aplicația EpiInfo și Excel:


AFECȚIUNE alpha= 0.05
+ - total Z(1-alpha/2)= 1.95996398
+ 32 123 155 Precizie= 0.73034245
FACTOR
- 12 112 124 OR= 2.4282
total 44 235 279 LL OR (0.95% prob) = 1.1924
UL OR (0.95% prob) = 4.9445
DE REȚINUT:

Intervalul de confidență atât pentru RR cât și pentru OR este simetric în forma logaritmică !
În forma normală acest interval nu este simetric.

Punctul critic pentru un raport este 1. Această valoare arată că numitorul și numărătorul sunt egali. În cazul
analizei de risc valoarea RR=1 sau OR=1, arată lipsa influenței factorului studiat asupra afecțiunii. Valori exact 1
sunt foarte greu de obținut !

Dacă intervalul de confidență (standard 95% încredere) pentru RR sau OR cuprinde valoarea 1 înseamnă că
nu există asociere între cele două variabile (afecțiune și factor), deci nu vom avea semnificație.

Dacă limita inferioară a RR sau OR pentru interval de confidență (cu 0.95 încredere) este mai mare ca 1
atunci efectul expunerii este negativ ducând la o creștere a probabilității de îmbolnăvire (avem factor de risc),
deci avem și semnificație statistică.

Dacă limita superioară a RR sau OR pentru interval de confidență (cu 0.95 încredere) este mai mică ca 1
atunci efectul expunerii este pozitiv (benefic) ducând la o scădere a probabilității de îmbolnăvire (avem factor de
prevenție), deci vom avea și semnificație.
În cadrul studiului riscului se mai definesc următorii indicatori
statistici:

Diferența absolută a riscurilor (ARD-absolute risk difference)


Prezintă două formule de calcul deoarece valoarea acesteia
trebuie să fie pozitivă.
Dacă factorul este de risc și crește probabilitatea de apariția a
afecțiunii atunci avem creșterea absolută a riscului sau risc Frecvențe AFECȚIUNE
atribuibil (ARI-absolute risk increase): absolute Total
a c + -
ARI = RF + − RF − = −
a+b c+d

FACTOR
+ a b a+b

Dacă avem un factor protectiv atunci diferența se numește - c d c+d


reducerea absolută a riscului (ARR-absolute risk reduction): a+c b+d a+b+c+d=n
Total
c a
ARR = RF − − RF + = −
c+d a+b

Se poate exprima procentual (este o diferență între probabilități).


ARI respectiv ARR prezintă valori între 0 și 1 inclusiv extremele.
Diferența relativă a riscurilor (RRD-relative risk difference)

Prezintă două formule de calcul analog riscului absolut.


Dacă factorul este de risc și crește probabilitatea de apariția a
afecțiunii atunci avem creșterea relativă a riscului (RRI-relative
risk increase):
a c
− Frecvențe AFECȚIUNE
R − RF − a + b c + d
RRI = F + = absolute Total
RF − c + -
c+d

FACTOR
+ a b a+b

Dacă avem un factor protectiv atunci diferența se numește - c d c+d


reducerea relativă a riscului (RRR-relative risk reduction): a+c b+d a+b+c+d=n
c a Total

RF − − RF + c + d a + b
RRR = =
RF − c
c+d
Se poate exprima și procentual.
Ca domeniu de variație RRI ≥ 0 (poate fi mai mare ca 1) dar 0 ≤ RRR ≤ 1
Număr necesar de persoane expuse pentru a obține un eveniment nou.

Se pune problema să aflăm câte persoane expuse sunt necesare pentru a obține un nou eveniment (ex.
îmbolnăvire sau însănătoșire) cauzat de expunere (comparativ cu controlul).
Prezintă două formule de calcul funcție de tipul factorului.
Dacă factorul este de risc, atunci prin expunere crește probabilitatea de apariție a afecțiunii. Numărul
necesar de persoane expuse pentru a obține un eveniment gen afecțiune (NNH – number needed to
harm):
NNH = 1/ARI
Cu cât NNH este mai mare cu atât factorul de expunere prezintă un risc mai mic de îmbolnăvire.
Pentru NNH=10 rezultă că la 10 peroane expuse ne așteptăm să avem o nouă apariție a afecțiunii
comparativ cu persoanele neexpuse (deoarece la numitor este o diferența).
Corespunzător unui factor preventiv, avem număr necesar de
persoane tratate pentru a obține un eveniment gen însănătoșire Frecvențe AFECȚIUNE
(NNT-number needed to treat): absolute Total
NNT = 1/ARR + -
Cu cât NNT este mai mic cu atât tratamentul este mai eficace.

FACTOR
+ a b a+b
Dacă NNT=1 rezultă o persoană tratată implică o persoană
însănătoșită – ideal. - c d c+d

a+c b+d a+b+c+d=n


Total
Exemplu:

Condition (disease) Condition (disease)


Observed Present Absent Total Expected Present Absent Total
Present 126 145 271 Yes 115.7 155.3 271
Factor Factor
Absent 46 86 132 No 56.3 75.7 132
Total 172 231 403 Total 172 231 403

RR= 1.334188994 Risk(FP)= 126 / 271 = 0.464945


Confidence
level 0.95
Risk(FA)= 46 / 132 = 0.348485

STDEV(lnRR)= 0.13568288 Absolute risk increase (ARI)


LB(RR)= 1.022642593 0.11646 or 11.65%
UB(RR)= 1.740647499
OR= 1.624587706 Relative risk increase (RRI)
Confidence 0.334189 or 33.42%
level= 0.95
Number needed to harm (NNH)
STDEV(lnRR)= 0.219545205
LB(RR)= 1.056491349
8.586654 meaning 9 participants
UB(RR)= 2.498160745
Testul Chi pătrat , aproximarea Fisher în tabele de contingență 2 x 2

În cadrul tabelelor de contingență o altă metodă de rezolvare a problemei constă în compararea


frecvențelor de apariție a afecțiunii grupând datele după prezența / absența factorului de risc.
Practic comparăm frecvențele de pe rânduri sau de pe coloane.
Pentru eșantioane bogate aceste frecvențe măsoară probabilitatea de apariție a evenimentului studiat.
Acest tip de comparație se realizează cu teste de tip Chi pătrat (χ2).
V2
Total
Ce cunoaștem - sunt frecvențele absolute a,b,c,d numite 1 0
valori observate notate O11=a, O10=b , etc. 1 (1,1) = a (1,0) = b a+b
V1 0 (0,1) = c (0,0) = d c+d
Total a+c b+d a+b+c+d=n
Întrebarea la care răspundem prin acest test se poate enunța astfel:
Este proporția de date cu V2=1 din eșantionul definit de V1=1 egală cu proporția de date cu V2=1 din
eșantionul V1=0 ?
Cu alte cuvinte proporțiile definite de V2 în cele două seturi definite de V1 sunt egale ?
Este exact ceea ce ne interesează – dacă V1 reprezintă factorul iar V2 afecțiunea întrebarea devine:
Este proporția de bolnavi diferită în grupele definite de prezența / absența factorului studiat ? Are factorul
studiat influență asupra frecvenței de apariție a afecțiunii ?
Este un test statistic de comparație deci lucrăm cu ipoteze de tip H0 respectiv H1.
Ipoteza nulă (H0) : Frecvențele în cele două seturi sunt egale deci nu diferă semnificativ.
Ipoteza alternativă (H1): Frecvențele în cele două seturi sunt diferite și avem astfel semnificație.
Metoda de calcul – testul Chi pătrat (χ2)
Pentru a pune în formă matematică informația prezentă în tabelul de contingență facem apel la statistica
de tip Chi pătrat.
Conform teoriei dacă avem n variabile independente distribuite normal N(0,1), atunci suma pătratelor
acestor n variabile urmează o distribuție de tip Chi pătrat cu n-1 grade de libertate.
Cum gândim în cazul tabelelor de contingență ?
Presupunem că nu există influență între V1 și V2 și ca urmare calculăm frecvențele ce le numim
așteptate din acest tabel. Pentru aceasta presupunem că știm doar valorile totale de pe linii respectiv coloane.
Valorile așteptate se notează cu E (expected).
V2 Trebuie să determinăm valorile așteptate E.
Total
1 0 Dacă grupul V1=1 este independent de V1=0 și au
1 E11 E10 a+b aceeași frecvență pentru starea V2 atunci E11=(a+c)*(a+b)/n.
V1
0 E01 E00 c+d
Total a+c b+d a+b+c+d=n
Este relativ ușor de înțeles – pur și simplu calculăm valoarea așteptată definită de proporții: Proporția
de V1=1 din total este (a+b)/n și totalul de V2=1 este a+c. Astfel valoarea absolută așteptată pentru V1=V2=1
este a+c ponderată de proporția V1=1 din total – deci produsul.
nr . de ev.
(Oi − Ei )2
În final se calculează statistica Chi pătrat după formula:  calculat
2
= i =1 Ei
O – valorile observate ale frecvenţelor absolute (observed).
E – valorile determinate teoretic, dacă nu ar exista legătură între variabile (expected = aşteptate).
Numărul de evenimente pentru tabele 2X2 este 4 (2 rânduri, 2 coloane).
Testul Chi pătrat este un test neparametric – nu se fac presupuneri asupra formei de distribuție a datelor.

Metodă de lucru

• Se calculează statistica Chi pătrat conform formulei (folosind ambele tabelul de date);
• Se calculează corespunzător statisticii Chi și a gradelor de libertate (k=(nr. rânduri-1)*(nr. col-1)))
semnificația notată p. Aceasta este particulară tabelului de date – caracterizează datele noastre.
• Dacă valoarea semnificației p ≤ 0.05 (atenție – în unele cărți se prezintă valoarea prag a semnificației pentru
acest tip de test p ≤ 0.10; noi vom utiliza standardul de 0.05) atunci avem semnificație deci există o influență
a factorului asupra afecțiunii. În continuare pentru a avea o măsură a efectului se va calcula RR sau OR
funcție de tipul de studiu folosit.
• Dacă valoarea p > 0.05 nu avem semnificație deci factorul nu are influență asupra afecțiunii.
Observație
Consistența datelor (cantitatea de informație) este definită de volumul eșantioanelor de lucru. Este de așteptat
ca odată cu creșterea volumului eșantionului deci a informației culese să avem încredere mai mare în rezultatele
obținute. Devine evidentă întrebarea : care este minimul de date sub care nu mai avem încredere în test ?
Astfel consistența (valididatea) unui test de tip Chi pătrat este definită de procentul de frecvențe așteptate ce
se află sub pragul de 5.
Dacă procentul de frecvențe așteptate de valoare sub 5 este mai mare ca 20% atunci nu putem
accepta rezultatul testului Chi pătrat – cu alte cuvinte avem erori prea mari prin acest calcul.

Exemple de calcul folosind EpiInfo și Excel


Pentru cazul particular al tabelului 2X2 dacă o celulă conține o valoare sub 5 atunci avem 25% din valori
subdimensionate – deci dacă măcar o valoare așteptată este mai mică ca 5 testul Chi pătrat devine inconsistent.
Pentru situația critică în care avem mai mult de 20% din valorile așteptate mai mici ca 5 se poate aplica
metoda Fisher de calcul a semnificației.

Testul exact Fisher


Pentru cazul în care volumul eșantionului este mic și condiția de 20% nu este îndeplinită pentru a aplica
testul Chi pătrat, există metoda Fisher care face apel la distribuția hipergeometrică de calcul a semnificației
statistice (de aceea se numește metodă exactă - se calculează prin tehnici combinatorice).
Și aici există o condiție de consistență (în sensul dimensiunii eșantionului) – valorile așteptate să nu fie mai
mici ca 1.
Exemple practice EpiInfo și Excel
Valori Afectiune Valori Cancer plămân
Observate Prezent Absent Total Așteptate PrezentAbsent Total
Factor Da 8 123 131 Da 11.4 119.6 131
Fumător
risc Nu 7 35 42 Nu 3.6 38.4 42
Total 15 158 173 Total 15 158 173

Iată în cadrul valorilor așteptate avem valoarea 3.6 mai mică ca 5; practic 25% din date sunt mai mici ca 5 –
avem inconsistență în aplicarea testului Chi pătrat. Ca urmare testul exact Fisher trebuie aplicat.
Rezultate obținute

Valoare Valoare
semnificativă ! nesemnificativă !

Observații
- Testele gen Chi pătrat și Fisher verifică existența asocierii dintre date – ne spun dacă frecvențele diferă sau
nu, dar nu cuantifică diferența.
- Magnitudinea efectului este măsurată prin RR sau OR – avem o imagine mai clară: RR=2 înseamnă că este
de două ori mai riscant în prezența factorului să ne îmbolnăvim comparativ cu lipsa expunerii.
- Dacă obținem semnificație prin Chi pătrat ne așteptăm ca în intervalul de confidență (95% încredere) pentru
RR sau OR să nu avem valoarea 1.
Sumar al ideilor principale

- În cadrul tabelelor de contingență compararea frecvențelor se face folosind testul Chi pătrat sau Fisher;
- Condiția de consistență pentru testul Chi pătrat: Mai puțin de 20% din frecvențele așteptate să fie mai mici ca 5;
- Formula de calcul a statisticii Chi pătrat (tabel de contingență): nr . de ev .
(Oi − Ei )2
Notație: O=valori observate, E=valori așteptate. 
 calculat =
2

i =1 Ei
- Testul Chi pătrat este neparametric;
- Dacă valorile așteptate mai mici ca 5 sunt în procent mai mare de 20% atunci testul Chi pătrat este înlocuit de testul
Fisher;
- Formula de calcul a RR este (conform tabelelor 2x2 prezentate): RR=(a/(a+b))/(c/(c+d));
- Formula de calcul a OR este (conform tabelelor 2x2 prezentate): : OR=(a*d)/(b*c);
- Calculul cotei pentru un eveniment A este (P reprezintă probabilitatea): P( A) P( A )

- Calculul riscului pentru un eveniment A este (P reprezintă probabilitatea): P(A)


- Pentru calculul intervalului de confidență al RR dar și al OR se aplică o transformare logaritmică pentru a avea
distribuții normale;
- Pentru a avea semnificație statistică, punctul critic care nu trebuie să fie cuprins în intervalul de confidență al RR
dar și al OR este 1;
- Intervalul de confidență al RR dar și al OR este asimetric față de valoarea punctuală calculată.
Întrebări / Discuții pe aceste teme / Exemple practice

Spor la învățat !
VĂ MULȚUMESC !

S-ar putea să vă placă și