Text MDCS Cap 5 Biostatistica

Modulul – Biostatistica MDCS
2
TABELE DE CONTINGENŢĂ – TESTUL CHI PĂTRAT ( χ ), RISC, COTĂ
Noţiuni
Compararea frecvenţelor de apariţie a anumitor evenimente se poate realiza fie determinând intervalul
de confidenţă, fie aplicând testul Chi pătrat. Este una dintre metodele cele mai des întâlnite in practica
medicală şi prezente în lucrările ştiinţifice din domeniu.
Evenimentele studiate fac parte din grupa variabilelor de tip calitativ şi suntem interesaţi de frecvenţa de
apariţie a acestora. Pentru un număr mare de experimente, aceste frecvenţe tind către valorile probabilităţilor.
2
Acestea pot fi comparate prin cunoştinţele extrase din eşantioane folosind testul Chi pătrat ( χ ). Datele
culese experimental se adună în tabele numite de contingenţă şi cuprind toate combinaţiile variantelor
categoriale ale variabilelor de studiu.
2
Cea mai simplă formă de aplicare a statisticii de tip χ este compararea frecvenţei experimentale de
apariţie a unui eveniment cu cea teoretică.
nr . de ev .
( O−E )2
χ 2calculat = ∑ E
Formula de calcul generală este: i=1 (1)
2
χ calculat - este valoarea statisticii Chi pătrat calculată din datele experimentale.
O – valorile observate ale frecvenţelor absolute (observed).
E – valorile determinate teoretic, dacă nu ar exista legătură între variabile (expected – aşteptate).
Valorile observate sunt tocmai frecvenţele absolute, deci numărul de cazuri din eşantion ce respectă o
anumită condiţie. Acestea sunt obţinute în urma studiului realizat.
Valorile aşteptate sau teoretice se cunosc fie din literatura de specialitate, fie din studii pilot, sau se
determină din cele experimentale presupunând lipsa dependenţei între variabile, sau sunt pure valori teoretice
pentru comparaţie.
Prezentăm un exemplu de verificare a egalităţii frecvenţei de apariţie a unui eveniment raportat la o
regiune geografică specifică, comparativ cu procentul cunoscut pe întreaga zonă de studiu.
Din cele 120 de cazuri din regiunea R1, avem 40 de evenimente realizate. Vom compara procentul
rezultat cu valoarea cunoscută de 50% a evenimentelor pe întreaga populaţie. Putem crea tabelul:
Tabelul 1.
R1 Rtotal R1 – regiunea 1 geografică (prezintă un specific).
Eveniment 40 50 Rtotal – regiunea totală studiată.
Non eveniment 80 50
Total 120 100
Valorile determinate pentru zona R1 reprezintă în fapt

valorile experimentale, deci sunt cele observate.
Procentul de 50% cunoscut pe zona geografică totală studiată reprezintă valoarea aşteptată.
Tabelul poate fi refăcut şi completat astfel:

2
Tabelul 2. Etapele de calcul pentru determinarea valorii χ .
Observat Aşteptat
(O-E) (O-E)2 (O-E)2/E
(O) (E)
Ev. 40 50 -10 100 2
Non ev. 80 50 30 900 18
Total 120 100 20 1000 2
χ =20 calculat
Deoarece se cunoaşte din start valoarea de 50% a frecvenţei de comparaţie, acest test se numeşte cu
„ipoteză teoretică apriorică”.
1
Valoarea statisticii calculate se compară cu cea tabelată corespunzătoare nivelului de semnificaţie
stabilit şi de asemenea, corespunzătoare gradelor de libertate (df - degree of freedom) specifice distribuţiei
Chi pătrat determinate.
Gradele de libertate reprezintă un parametru specific aşa cum media respectiv dispersia reprezintă
parametrii distribuţiei de tip Gauss-Laplace. Acestea sunt egale cu numărul de elemente necesare a fi
cunoscute pentru ca problema sa prezinte un caz determinat. De exemplu, în situaţia în care experimentul
constă în aruncarea unei monede, avem două evenimente posibile de realizat: marca sau banul. Dacă ştim
frecvenţa de apariţie a mărcii, putem determina frecvenţa de apariţie a banului. Astfel, avem un singur grad
de libertate în cadrul acestei experienţe.
Şi în situaţia noastră avem două evenimente posibile (eveniment, non eveniment) deci deducem gradele
de libertate df=1.
2
Căutând în tabelele statistice valorile distribuţiei χ pentru df=1, respectiv p=0,05, găsim valoarea
2
( 1 ; 0 , 05)
χ =3 , 84 .
2
Valoarea Chi pătrat calculată (
χ calculat =20 , conform formulei 1 detaliat calculată în tabelul 2) este
mai mare ca valoarea tabelată, de unde deducem că ipoteza nulă „proporţiile sunt egale”, nu este acceptabilă
şi conchidem că există diferenţă semnificativă statistic între proporţii.
Acesta este un mod de aplicare a statisticii Chi pătrat. Există şi alte metode de comparare a frecvenţelor,
folosind chiar toate variantele posibile de a combina funcţie de categorii, variabilele de interes.
Testarea dependenţei dintre două variabile categoriale
În această situaţie nu se cunoaşte a priori frecvenţa de apariţie a categoriilor variabilelor de comparat.

O formă simplă este exprimată de tipul dicotomic având doar variantele Yes/No, True/False sau forma
binară 1 / 0.
Cele două variabile de studiat pot fi aranjate într-un tabel de contingenţă, ce prezintă toate frecvenţele
absolute ale combinaţiilor posibile de tipul (V1,V2), variabilă 1, respectiv variabilă 2.
Presupunem că aplicăm codificarea (0,1) pentru ambele variabile. Astfel, combinaţiile posibile (V1,V2)
pot avea următoarele variante: (1,1); (1,0); (0,1); (0,0).
Iată mai jos tabelul de contingenţă realizat:
Tabelul 3.
V2
1 0 Total
1 (1,1) = a (1,0) = b a+b
V1
0 (0,1) = c (0,0) = d c+d
Total a+c b+d a+b+c+d=n
Pentru a nu rămâne în partea aridă, teoretică, putem considera V1 ca reprezentând sexul persoanei, iar V2
să reprezinte prin codificarea 1 fumătorii, iar prin 0 nefumătorii.
Pentru a verifica existenţa dependenţei între V1 şi V2, trebuie să ţinem cont de toate frecvenţele
variantelor posibile (V1,V2). Nu este corect să gândim compararea doar a frecvenţelor a/(a+b), respectiv
c/(c+d) – asemănător comparării cu o frecvenţă cunoscută.
Amintim că valorile a, b, c, d sunt determinate experimental, deci sunt cele observate.
Trebuie să găsim o metodă de a calcula valorile frecvenţelor teoretice sau aşteptate (expected). În
situaţia în care cele două variabile ar fi independente, putem determina frecvenţele aşteptate folosindu-ne de
suma pe linii, respectiv pe coloane a frecvenţelor observate.
De exemplu, frecvenţa absolută teoretică (sau aşteptată) pentru varianta (1,1) poate fi calculată cu
formula (a+b)(a+c)/n. Aceasta se justifică astfel: Avem a+c cazuri cu V2=1 din totalul de n. Frecvenţa
relativă este (a+c)/n, indiferent din ce grup categorial definit de V1 provin, deci gândim pe ansamblu. Din
totalul de n cazuri, avem (a+b) cu V1=1. Putem deduce frecvenţa absolută teoretică, în sensul variabile
2
independente pentru situaţia V1=1 şi V2=1 cu formula (a+b)(a+c)/n. Observăm că este produsul dintre total
linie, total coloană raportat la numărul total de date.
Avem astfel formulele de calcul ale frecvenţelor aşteptate pentru toate celulele tabelului de contingenţă:
E(1,1) = (a+b)(a+c)/n ; E(1,0) = (a+b)(b+d)/n ;
E(0,1) = (c+d)(a+c)/n ; E(0,0) = (c+d)(b+d)/n .
Forma generală: Frecvenţa aşteptată = total_coloană• total_linie / total_general.
( O−E )2
χ 2calculat =∑ ⇔
Astfel, valoarea statisticii Chi pătrat devine: E
2 2 2 2
( a−E(1,1 )) ( b−E (1,0) ) ( c−E(0,1 )) ( d−E (0,0))
⇔ χ 2calculat = + + +
E(1,1) E (1,0 ) E(0,1 ) E(0,0 ) .
Numărul de grade de libertate se calculează cu formula:

df = (nr. coloane – 1)• (nr. rânduri – 1).
2
Din tabelele distribuţiilor statistice se citeşte valoarea
χ (df ; p)
(df – gradele de libertate; p – nivelul de
semnificaţie ce este 0,05 standard).
Algoritmul de decizie este acelaşi în forma generală exprimat astfel:
2 2
Dacă valoarea
χ
calculat >χ
(df ; p) , echivalent cu pcalculat < 0,05, deducem că frecvenţele comparate
diferă semnificativ, deci există asociere între variabila V1, respectiv V2, în sensul că pentru grupa V1=1
frecvenţele pentru V2=1, respectiv V2=0 diferă de aceleaşi frecvenţe pentru grupul V1=0. Cu alte cuvinte,
proporţiile formate de categoriile variabilei V2 diferă semnificativ pentru populaţiile formate de categoriile
variabilei V1.
Dacă V1 reprezintă sexul, interpretarea constă în existenţa proporţiilor diferite între fumători şi
nefumători la populaţia de bărbaţi faţă de femei.
În situaţia particulară a tabelelor de contingenţă 2x2, o metodă de calcul ce conduce la o aproximare mai
bună a valorii statisticii este materializată prin formula Yates. Aceasta aplică o corecţie concretizată prin
scăderea valorii ½ sub forma:
2
(|O−E|−1 2 )
χ calculat =∑
2
. E
Ţinând cont de prelucrările matematice, forma finală devine:
2
2 (|a⋅d−b⋅c|−N 2 ) ⋅N
χ calculat =
( a+ b )⋅( c +d )⋅( a+c )⋅( b+ d ) .
Această corecţie duce la o estimare mai apropiată faţă de valoarea corectă a statisticii calculate pentru
cazul particular al tabelului cu două rânduri şi două coloane.
2
( 1 ; 0 , 05)
Menţionăm că pentru df=1 şi semnificaţie standard p=0,05 avem χ =3 , 84 (standard pentru
tabele 2x2).
În situaţia în care numărul de date este mic, altfel spus volumul eşantionul este mic, putem avea valori
sub 5 a frecvenţelor aşteptate. Acesta este un prag care arată că eroarea introdusă în calcul creşte simţitor. În
astfel de situaţii se poate aplica testul exact Fisher pentru a obţine un rezultat util. Acesta aplică o formulă
recurentă care determină şi valoarea semnificaţiei corespunzătoare, deci pcalculat. În final, comparaţia se face
tot cu 0,05, acceptând sau nu ipoteza testată.
Se pune evident problema dimensiunii eşantionului de studiu. Aceasta se poate deduce conform
metodelor prezentate în capitolul dedicat calculului volumului necesar. Totuşi în anumite situaţii, pe care noi
nu le putem anticipa, se întâmplă ca şi valorile aşteptate (expected) să se apropie de 0. Studii laborioase au
arătat că atât timp cât valorile frecvenţelor aşteptate sunt mai mari ca 1, testele exacte dau rezultate corecte
3
(Larntz K, Small-sample comparisons of exact levels for chi-squared goodness-of-fit statistics. Journal of the
American Statistical Association 73, 253-263, 1978.)
2
Formula generală de calcul pentru statistica χ
Este uşor de determinat această formulă de calcul deoarece generalizarea este intuitivă, plecând deja de
la formulele prezente.
Calculul frecvenţelor aşteptate cât şi a statisticii Chi pătrat au deja o formă generală ce se poate aplica şi
pentru cazul tabelelor cu p rânduri şi q coloane.
Trebuie menţionat că eşantionul trebuie să fie aleator ales din cadrul populaţiei de studiu, să fie
consistent deci dimensiunea lui să determine prezenţa în limita acceptată a informaţiei necesare. Categoriile
ce definesc variabilele de comparat trebuie să se excludă reciproc – de exemplu, să nu existe elemente
comune care să poată avea valoarea V1=1 şi V1=0 în acelaşi timp.
( O−E )2
χ 2calculat =∑ .
Formula generală de calcul pentru statistica Chi pătrat: E
Creăm tabelul de contingenţă pentru două variabile cu mai mult de două categorii.
Tabelul 4 - Tabelul de contingenţă pentru cazul general.
V2
categorii 1 2 … q Total
q
1 O(1,1) O(1,2) ∑ O(1, j)
j=1
2
V1
… O(i,1) O(i,j)
q
P O(p,q) ∑ O( p, j)
j=1
p p p
Total ∑ O(i ,1) ∑ O(i , j) ∑ O(i ,q) n
i=1 i=1 i=1
Valoarea aşteptată (teoretică) pentru elementul de pe rândul i şi coloana j este:

p q
∑ O(i , j)⋅∑ O(i , j)
E(i , j)= i=1 j=1
n . Reprezintă produsul dintre total rând şi total coloană raportat la totalul
general.
Numărul gradelor de libertate este : df = (p-1) (q-1).
Semnificaţia standard este p=0,05 (5%).
Evident, calculul este anevoios, dar există un mare număr de programe informatice (SPSS, Statistica ,
EpiInfo, SAS) care au implementate aceste formule de determinare. Sunt prezentate chiar în diferite
aproximări ale statisticii şi de asemenea, valoarea semnificaţiei calculate pcalculat este determinată. Aceasta
este corespunzătoare valorii Chi deduse şi matematic este o integrală din densitatea de probabilitate.
Paradoxul Simpson – în tabele 2x2
Vom prezenta un exemplu de verificare a independenţei variabilelor de studiu, care prin forma sa, va
determina o eroare de calcul, evident cu efecte nedorite.
Pentru a compara două tratamente se poate crea tabelul de contingenţă, în care pe linii avem tratamentul
iar pe coloane supravieţuirea, respectiv decesul.
Dacă avem mai multe stadii ale maladiei, o metodă globală este să adunăm datele din tabelele
componente şi să creăm un tabel global final.
4
Vrem prin exemplul generic imaginat, să arătăm că există situaţii în care această metodă de compunere
a tabelelor într-un tabel global nu este întotdeauna benefică. Caracteristicile tabelului compus pot intra în
contradicţie cu tabelele componente ca trăsătură a datelor analizate.
Inspiraţi din exemplul prezentat de Lloyd, C.J.(1999) Statistical Analysis of Categorical Data, Willey
New York, pag 153-154, am generat tabelul:
Tabelul 5.
Supravieţuire Deces Total
T1 175 110 285
Tratament
T2 210 65 275
Total 385 175 560
2 2
χ
Valorile calculate: calculat
=14 , 58 χ
, corectat are valoarea Yates
=13 , 89
cu nivelul de semnificaţie
corespunzător p=0,0001.
Conchidem astfel că cele două tratamente diferă semnificativ statistic din punct de vedere al procentului
de supravieţuire.
Avem pentru tratamentul T1 proporţia de supravieţuire P1=175/285 = 61,4% ; respectiv pentru T2, P2 =
210/275 = 76,3%. Deducem că tratamentul 2 este mai bun faţă de 1, prin faptul că proporţia de supravieţuire
este superioară.
Totuşi să încercăm să privim problema mai în profunzime şi să descompunem datele în două noi tabele
corespunzătoare stadiului de evoluţie al bolii.
Tot în mod generic creăm tabelele următoare:
Tabelul 6. Tabelul 7.
Stadiul 2 S D Total Stadiul 1 S D Total
T1 20 105 125 T1 155 5 160
T2 3 40 43 T2 207 25 232
Total 23 145 168 Total 362 40 392
Niv. de semnificaţie p=0,21 Niv. de semnificaţie p=0,01
P1 = 16% ; P2 = 7,5% P1 = 96,8% ; P2 = 89,2%
În ambele tabele procentul de supravieţuire este mai bun pentru tratamentul T1, comparativ cu T2. Mai
mult chiar, în stadiul 1 testul este şi semnificativ.
Se observă totuşi că proporţiile de supravieţuire diferă puternic între cele două stadii. În stadiul 1
proporţia de supravieţuire este peste 50%, iar în stadiul 2 mult sub 50%.
S-a obţinut astfel un rezultat contrar celui obţinut prin compunerea tabelelor. Situaţia prezintă un caz
extrem, rar întâlnit în practică.
Concluzia este clară: Tabelele pot fi sumate într-o formă globală dacă caracteristicile individuale sunt
aceleaşi şi în proporţii asemănătoare.
Trebuie să reţinem că sumarea datelor din tabele individuale pentru o analiză globală poate anula sau
chiar modifica caracteristicile prezente ale populaţiilor.
Riscul, Cota şi Valorile relative
În cadrul studiilor epidemiologice este nevoie să se determine influenţa factorilor de risc în cadrul
anumitor maladii. Testul Chi pătrat prezintă rezultatul verificării prezenţei dependenţei sau independenţei
între două variabile. Acesta nu ne dă informaţie asupra puterii legăturii, într-o măsură numerică.
Riscul se defineşte ca fiind numărul de cazuri raportate la numărul total de elemente studiate. Dacă
avem un eşantion de 250 de pacienţi, din care 64 s-au îmbolnăvit pe perioada studiată, putem determina
riscul ca fiind 64/250=25,6% (este o noţiune similară incidenţei dacă sunt implicate cazuri noi).
Putem crea două populaţii, în sensul grupării după criteriul factor de risc prezent, respectiv factor de risc
absent. Avem astfel posibilitatea de a determina frecvenţele absolute prezentate în tabelul următor.
Tabelul 8.
Maladie
Prezentă Absentă Total
Prezent a b a+b
Factor
Absent c d c+d
Total a+c b+d n
5
Riscul relativ este utilizat în studii de cohortă, în care persoanele care sunt expuse sau nu unui factor de
risc sunt urmărite în timp (studiu prospectiv) pentru a vedea care este legătura cu maladia studiată. Acest
indicator reprezintă o măsură a asocierii dintre factorul de risc şi afecţiunea analizată.
Riscul relativ, notat de obicei cu RR, este raportul între frecvenţa de apariţie a cazurilor în cadrul
populaţiei supusă factorului şi frecvenţa de apariţie a maladiei în populaţia în care factorul de risc nu este
prezent.
a
( a+b )
RR =
c
( c+ d ) . După formula de calcul, observăm că domeniul de variaţie este cuprins între 0 şi
valori pozitive foarte mari (acceptăm că valorile a,b,c,d sunt diferite de 0).
În situaţia în care riscul relativ este 1, putem afirma că factorul luat în considerare nu are efect asupra
frecvenţei de apariţie a maladiei. Deci nu există legătură între variabilele studiate.
Valori mai mari ca 1 indică o creştere a frecvenţei pentru cazurile cu factor prezent, ceea ce generează
un efect negativ. Factorul implicat conduce la creşterea frecvenţei de îmbolnăvire.
Valori mai mici decât 1 arată că factorul are efect pozitiv, benefic, ducând la scăderea frecvenţei de
apariţie a maladiei.
Fiind determinat din eşantioane de analiză, riscul relativ prezintă o incertitudine în măsurarea punctuală.
Pentru a avea o anumită încredere în studiu, este nevoie să se lucreze cu o anumită probabilitate. În forma
standard de 95% încredere (deci semnificaţie de 5%), se poate determina intervalul de variaţie al riscului.
Semnificaţia legăturii posibile între factor şi maladie este legată de prezenţa în intervalul calculat a valorii 1,
valoare ce arată că factorul nu are efect asupra frecvenţei de apariţie a maladiei.
În concluzie, factorul are influenţă asupra prezenţei maladiei doar dacă intervalul de confidenţă a
riscului relativ nu cuprinde valoarea 1. Astfel, testul este considerat semnificativ statistic. Menţionăm că
valoarea riscului relativ poate fi sau nu mai mare ca 1. Valoarea 1 este considerată de referinţă, deoarece
funcţie de aceasta se deduce semnificaţia statistică a legăturii posibile între variabile.
Iată avem un exemplu generic de determinare a riscului relativ, în situaţia îmbolnăvirilor de cancer de
plămân, raportat la factorul de risc, cunoscut ca fiind fumatul.
Tabelul 9.
Cancer plămân
Prezent Absent Total
Da 121 243 364
Fumător
Nu 41 727 768
Total 162 970 1132
121
( 121+243 )
RR =
41
Conform formulei de calcul avem: ( 41+727 ) , RR=6,23.
Calculând şi intervalul de confidenţă obţinem: 4,47 <RR< 8,67.
Valoarea 1 nu este cuprinsă în domeniul de variaţie. Astfel, există diferenţă statistică semnificativă şi
decidem că riscul de a te îmbolnăvi de cancer la plămâni este de aproximativ 6 ori mai mare pentru fumători
comparativ cu nefumătorii.
În situaţia studiilor de tip caz-martor (case-control), pentru a exprima legătura existentă, se foloseşte
indicatorul raportul cotelor (odd ratio), sau raportul şanselor. Studiul de acest tip este retrospectiv, având ca
scop compararea între persoanele care prezintă maladia (cazuri), respectiv cele ce nu sunt bolnave (martori
sau control) grupate după prezenţa sau nu a factorului de risc.
Cota se defineşte ca raportul dintre probabilitatea de apariţie a evenimentului studiat şi probabilitatea
evenimentului complementar.
P(e) P(e)
Cota = =
P ( ē) 1−P( e ) .
6
Cota - pentru diferite valori ale probabilităţii
20
15
10
0
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1
Probabilitatea P(e)
Figura 1.
Putem reprezenta grafic cota şi observăm o variaţie de la 0 până la valori foarte mari, funcţie de
probabilitatea P(e).
Pentru tabelul iniţial avem formulele de calcul:
Cota 1 (factor prezent) = a/b ; Cota 2 (factor absent) = c/d (folosind tabelul 8).
a⋅d
OR =
Raportul cotelor (odd ratio) b⋅c . Ca şi riscul relativ, acest raport poate varia între 0 şi valori
foarte mari.
Asemănător cazului precedent, intervalul de confidenţă pentru raportul cotelor este caracterizat de
prezenţa sau nu a valorii 1. Există semnificaţie statistică şi prin urmare, legătură între proporţiile determinate
de factorul de risc, dacă acest interval de confidenţă nu conţine valoarea 1. În caz contrar, înseamnă că
proporţiile sunt egale şi factorul studiat nu are efect asupra proporţiilor îmbolnăvirilor.
Dacă tabelul precedent cu valori numerice ar reprezenta date culese dintr-un studiu caz -martor, atunci
raportul cotelor ar fi util de determinat.
a⋅d 121 ⋅ 727
OR = = = 8,82
b⋅c 243 ⋅ 41 .
Interpretarea este formulată astfel: şansele de a se îmbolnăvi de cancer la plămâni sunt de 8,82 ori mai
mari la fumători faţă de nefumători.
Ca observaţie generală, atât riscul relativ cât şi raportul cotelor exprimă în esenţă aceeaşi caracteristică a
datelor. Dacă riscul relativ prezintă semnificaţie statistică este de aşteptat ca şi raportul cotelor să respecte
aceeaşi regulă. Dacă riscul relativ este supraunitar (sau subunitar), la fel va fi si raportul cotelor. Practic sunt
două forme ce prin calcul aduc în atenţia noastră valori numerice ce arată proporţional intensitatea asocierii
existente.
Exemplu de calcul folosind programul SPSS
Presupunem că dorim să realizăm un studiu de verificare a existenţei diferenţei semnificative între două
tratamente (T1, T2) din punct de vedere a frecvenţei de deces.
Creăm două variabile numite Tratament, respectiv Deces. Codificăm cu 1, respectiv cu 2 cele două
tratamente, apoi cu 1 decesul iar cu 2 supravieţuirea. Codificarea este la liberă alegere, totuşi datele în tabelul
de contingenţă sunt ordonate după valoarea numerică utilizată. Astfel, este bine să codificăm evenimentele în
ordinea în care dorim să fie afişate.
După introducerea datelor, alegem pentru analiză Analyze + Descriptive Statistics + Crosstabs….
7
Figura 2 – SPSS tabele de contingenţă
Pe rânduri vom trece tratamentele, iar pe coloane decesul sau supravieţuirea.

Avem mai multe opţiuni care pot fi setate astfel încât informaţia să satisfacă cerinţele analizei.
Pentru a realiza calculul semnificaţiei prin metoda Fisher vom bifa opţiunea Exact + Monte Carlo.
Aceasta este utilă în situaţia în care o valoare aşteptată calculată este mai mică decât 5. Metoda Fisher
calculează exact valoarea nivelului de semnificaţie.
Putem impune atât afişarea valorilor aşteptate cât şi a procentelor pe linii sau coloane.
SPSS este un program de statistică performant, permiţând setarea din grupul Statistics… a diferite teste
suplimentare care evaluează şi puterea legăturii dintre cele două variabile.
Obţinem astfel tabelul de contingenţă prezentat mai jos, cât şi tabelul cu valorile statisticilor calculate.
Tabelul 10 – Tratament * Deces Crosstabulation

Deces Total
Deces Supravietuire
Tratament Trat. 1 Count 105 20 125
Expected Count 107.9 17.1 125.0
Trat. 2 Count 40 3 43
Total Count 145 23 168
Tabelul 11 – Chi-Square Tests(d)

Asymp. Sig. (2- Exact Sig. (2- Exact Sig. (1-
Value df sided) sided) sided)
Pearson Chi-Square 2.205 1 .138 .198 .106
Continuity Correction 1.507 1 .220
Fisher's Exact Test .198 .106
N of Valid Cases 168
Valoarea Pearson este determinată cu formula standard generală fără corecţii, aceasta fiind 2,205.
În rândul al doilea al tabelului precedent este prezentată valoarea Yates, prin corecţia de continuitate.
Aceasta este specifică tabelelor de tip 2x2.
Valoarea Fisher este valoarea exactă a nivelului de semnificaţie, p=0,198.
8
În cazul nostru, toate valorile de semnificaţie sunt mai mari ca 0,05, de unde deducem că ipoteza nulă
este adevărată, deci nu există legătură sau relaţie între frecvenţele de deces şi tratamente. Putem spune că
tratamentele nu diferă semnificativ din punct de vedere al decesului.
În situaţia în care am studia riscul sau cota, în cadrul programului SPSS s-ar fi calculat atât riscul
relativ, cota relativă, cât şi intervalele de confidenţă pentru corecta interpretare şi comparare faţă de valoarea
1.
Exemplu de calcul folosind programul EpiInfo

Vom utiliza aceeaşi bază de date cu cele două coloane: Tratament, Deces. Deschidem fişierul folosind
comanda Read(Import). Intrăm în grupul de analiză (Analyze Data) şi alegem Statistics + Tables.
Figura 3 – EpiInfo tabele de contingenţă
Completăm conform figurii alăturate variabilele din tabelul de contingenţă.

Rezultatele obţinute sunt prezentate în următoarele două tabele.
Tabelul 12 – Chi-Square Tests(d)

Tratament 1 2 TOTAL
1 105 20 125
Row % 84.0 16.0 100.0
Col % 72.4 87.0 74.4
2 40 3 43
Row % 93.0 7.0 100.0
Col % 27.6 13.0 25.6
TOTAL 145 23 168
Row % 86.3 13.7 100.0
Col % 100.0 100.0 100.0
Tabelul 12 este asemănător tabelului 10 realizat în SPSS şi reprezintă frecvenţele observate cât şi
procentele pe rânduri, respectiv coloane.
Analiza datelor este prezentată în tabelul 13. EpiInfo calculează raportul cotelor (Odds Ratio) cât şi
limitele de confidenţă (cu 95% încredere), riscul relativ (Risk Ratio) şi limitele de confidenţă ale acestuia iar
în final, valoarea statisticii Chi pătrat prin diferite metode şi corespunzător nivelul de semnificaţie.
Tabelul 13– Single Table Analysis

Point 95% Confidence Interval
Estimate Lower Upper
PARAMETERS: Odds-based
Odds Ratio (cross product) 0.3938 0.1109 1.3979 (T)
Odds Ratio (MLE) 0.3956 0.0893 1.2983 (M)
0.0714 1.4437 (F)
PARAMETERS: Risk-based
9
Risk Ratio (RR) 0.9030 0.8073 1.0101 (T)
Risk Difference (RD%) -9.0233 -18.9875 0.9410 (T)
(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)
STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p
Chi square - uncorrected 2.2045 0.1376057317
Chi square - Mantel-Haenszel 2.1914 0.1387823163
Chi square - corrected (Yates) 1.5070 0.2195927872
Mid-p exact 0.0695927534
Fisher exact 0.1059606825
Limitele intervalului de confidenţă ale raportului cotelor cât şi ale riscului relativ cuprind valoarea 1
(acestea sunt calculate prin diferite metode cum ar fi seriile Taylor sau metoda Fisher). Putem astfel decide
că nu există asociere între tratament şi numărul de decese. Tratamentele pot fi considerate asemănătoare.
Acelaşi rezultat îl obţinem prin calculul statisticii Chi pătrat şi al nivelului de semnificaţie. Acesta are
valoarea p=0,13 sau 0,219 prin metoda Yates. Valoarea este mult mai mare decât 0,05 ceea ce ne permite să
afirmăm că tratamentele nu diferă semnificativ.
Era şi de aşteptat, atât prin analiza riscului relativ a raportului cotelor cât şi prin utilizarea statisticii Chi
pătrat se obţine acelaşi rezultat.
10

Text MDCS Cap 5 Biostatistica

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Text MDCS Cap 5 Biostatistica

Încărcat de

Drepturi de autor:

Formate disponibile

Modulul – Biostatistica MDCS

Valorile determinate pentru zona R1 reprezintă în fapt

Tabelul poate fi refăcut şi completat astfel:

Testarea dependenţei dintre două variabile categoriale

În această situaţie nu se cunoaşte a priori frecvenţa de apariţie a categoriilor variabilelor de comparat.

Forma generală: Frecvenţa aşteptată = total_coloană• total_linie / total_general.

Numărul de grade de libertate se calculează cu formula:

Tabelul 4 - Tabelul de contingenţă pentru cazul general.

Valoarea aşteptată (teoretică) pentru elementul de pe rândul i şi coloana j este:

Pe rânduri vom trece tratamentele, iar pe coloane decesul sau supravieţuirea.

Tabelul 10 – Tratament * Deces Crosstabulation

Tabelul 11 – Chi-Square Tests(d)

Valoarea Fisher este valoarea exactă a nivelului de semnificaţie, p=0,198.

Exemplu de calcul folosind programul EpiInfo

Figura 3 – EpiInfo tabele de contingenţă

Completăm conform figurii alăturate variabilele din tabelul de contingenţă.

Tabelul 12 – Chi-Square Tests(d)

Tabelul 13– Single Table Analysis

S-ar putea să vă placă și