Sunteți pe pagina 1din 46

CURSUL 6

ANALIZA DATELOR CALITATIVE


DATE CALITATIVE
 Datele calitative (nominale sau categoriale) și apar atunci când subiecţii
se pot clasifica în două sau mai multe categorii
 bolnav/sănătos
 starea unui pacient ca fiind "precară", "echilibrată", "bună" sau
"excelentă„
 M/F
 Datele calitative pot fi înregistrate și sub formă de coduri numerice 1, 2, 3,
sau 4 însă numărul nu are o semnificaţie numerică (nu reprezintă o
cantitate). Am putea codifica "da" ca fiind 1 şi "nu" ca fiind 2, sau "da", ca
fiind 2 şi "nu" ca fiind 1 şi nu s-ar face nici o diferență în analiza lor.
 Variabile categorice cu doar două categorii, de exemplu "viu" sau
"mort", sau "feminin" sau "masculin" sunt numite atribute, date dicotomice
sau binare
 datele cantitative - numere pentru care magnitudinea (valoarea)
reprezintă ceva (sunt rezultatul unei măsurători) - tensiunea arterială
Metode statistice pentru analiza datelor calitative

testul hi-pătrat de asociere


 testul Fisher exact
 testul hi-pătrat pentru trend-uri
raportul riscurilor, riscul relativ sau raportul
șanselor (RR)
riscul relativ estimat sau raportul cotelor (OR)
numărul necesar de pacienți care trebuie tratați.
TABELE DE CONTINGENȚĂ
 Un tabel de contingenţă este un tabel construit pentru două variabile categoriale (tabel
cu două intrări)

Acceptarea testului HIV în funcție de grupele stării civile (Meadows et al., 1994)

• Totalurile rândurilor şi coloanelor sunt numite totaluri marginale, iar numărul total de observaţii
din tabel se numeşte total general
• Ne vom referi adesea la un tabel folosind dimensiunea tabelului.
• Tabel de tip ”4x2” deoarece are patru rânduri şi două coloane. Uneori se folosește termenul
general de tabel de tip ”rxc” unde r indică numărul de rânduri şi c numărul de coloane
TESTUL HI-PĂTRAT
 Testarea ipotezei nule - nu există nici o relaţie între două variabile.
Vom folosi termenul de "asociere" pentru o relaţie între două
variabile categorice.
 Dacă eșantionul este mare putem să folosim testul hi-pătrat.
 Dacă eșantionul este mic, vom folosi testul Fisher exact
 Ipoteza nulă stabilește că nu există nici o asociere între cele două
variabile (pentru care este construit tabelul de contingenţă).
 Ipoteza alternativă se referă la faptul că există o asociere de un
anumit tip.
 Testul hi-pătrat se bazează pe calculul frecvenţelor pe care ne-am
aştepta să le obținem în celule, în cazul în care nu există absolut
nici o asociere (frecvențe estimate sau frecvenţe aşteptate).
• Proporţia de femei care au acceptat testul HIV este de 134/788. Deci, din 486 de femei căsătorite ne
aşteptăm ca 486 × 134/788 = 82.6 să accepte testul HIV, dacă ipoteza nulă (referitoare la asociere) este
adevărată.
• În mod similar, proporţia de femei care au refuzat testul este = 654/788. Deci din 486 de femei căsătorite,
ne aşteptăm ca 486 × 654/788 = 403.4 să refuze testul, dacă ipoteza nulă este adevărată.
• Se observă că 82.6 + 403.4 = 486. Deci suma frecvenţelor estimate (aşteptate) este aceeași ca şi suma
frecvenţelor observate.
• În acelaşi mod, pentru 222 femei necasătorite care au un partener ne aşteptăm ca 222 × 134/788 = 37.8
să accepte testul HIV, dacă ipoteza nulă este adevărată, și 222 × 654/788 = 184.2 să refuze testul. Din nou
se observă că 37.8 + 184.2 = 222, numărul total din al doilea rând.
• În mod similar se obțin frecvenţele estimate sau aşteptate pentru toate celulele din tabel. Se observă că
82.6 + 37.8 + 8.5 + 5.1 = 134.0 şi 403.4 + 184.2 + 41.5 + 24.9 = 654.0. Frecvenţele observate şi cele estimate
au aceleași totaluri pe rânduri şi pe coloane. Se poate vedea, de asemenea, că pentru fiecare celulă
din Tabelul 1, am calculat o frecvenţă la care ne așteptăm (frecvență estimată) în Tabelul 2, cu ajutorul
formulei
• În mod similar se obțin frecvenţele estimate sau aşteptate pentru toate celulele din tabel. Se observă că
82.6 + 37.8 + 8.5 + 5.1 = 134.0 şi 403.4 + 184.2 + 41.5 + 24.9 = 654.0.
• Frecvenţele observate şi cele estimate au aceleași totaluri pe rânduri şi pe coloane. Pentru fiecare celulă
din frecvențelor observate, am calculat o frecvenţă la care ne așteptăm (frecvență estimată) în cel de-
al doilea tabel, cu ajutorul formulei
TESTUL HI-PĂTRAT
 Testul hi-pătrat pentru tabele de contingenţă foloseşte diferenţele dintre
frecvenţele observate şi cele aşteptate (estimate). Cu cât sunt mai mari aceste
diferenţe cu atât aceasta reprezintă o dovadă mai puternică a faptului că cele
două variabile sunt asociate. Nu se poate face doar o însumare a acestor
diferenţe pentru că suma lor este întotdeauna zero.
 Vom proceda în acelaşi fel ca atunci când am calculat abaterea standard și
anume, le vom ridica la pătrat.
 Cu cât sunt mai mari frecvenţele, cu atât este mai mare și valoarea posibilă a
diferenţei dintre frecvenţele observate şi cele estimate.
 Eșantioanele mari produc diferenţe mai mari decât eșantioanele de mici
dimensiuni.
 Această problemă se poate corecta prin împărţirea pătratului diferenţei dintre
frecvenţa observată și cea aşteptată la valorile estimate (aşteptate) - motivele
exacte pentru această alegere sunt mai degrabă abstracte şi matematice
 Vom calcula acest raport (observat - aşteptat)2/aşteptat pentru fiecare celulă
din tabel şi apoi vom însuma toate rapoartele
TESTUL HI-PĂTRAT
 În exemplul nostru această sumă este de 9.15
 Suma rapoartelor (observat - aşteptat)2/aşteptat este numită statistica hi-
pătrat și uneori este scrisă ca X2.
 Aceasta reprezintă statistica testului. Din formularea clasică a unui test de
semnificaţie, această statistică ar trebui să urmeze o anumită distribuţie,
în cazul în care ipoteza nulă este adevărată. Pentru acest test, distribuția
este distribuţia hi-pătrat.
 "Hi-pătrat", de cele mai multe ori apare scris ca fiind 2, unde  este litera
grecească "chi", pronunţat "ki".
 Distribuţia hi-pătrat este asemănătoare cu distribuția t, de care este strâns
legată.
 Există o întreagă familie de distribuţii, iar un membru special al acestei
familii este definit printr-un singur parametru numit grade de libertate
TESTUL HI-PĂTRAT

 Atunci când numărul gradelor de libertate este mic


distribuția este asimetrică spre dreapta, iar când
numărul gradelor de libertate crește ea devine mult mai
simetrică, putând eventual să arate ca și distribuţia
normală. Ne aşteptăm ca acest lucru să se întâmple,
deoarece această distribuție este obţinută prin
însumarea unor entități şi, acestea tind să genereze
distribuţia normală, când numărul de entități însumate
creşte.

La fel ca și la distribuţia t, la distribuţia normală nu există o formulă


simplă pentru calculul ariei de sub curbă şi, prin urmare, pentru a
calcula probabilitatea de a depăşi o anumită valoare dată.
Se poate folosi un tabel de probabilităţi laborios calculate printr-o
metodă matematică de aproximare
TESTUL HI-PĂTRAT

 Pentru un tabel de contingenţă gradele de libertate sunt date de


formula:
(nr de rânduri – 1) x (nr de coloane – 1)
(4 - 1) × (2 - 1) = 3 grade de libertate

Statistica testului chi-pătrat pentru datele noastre este 9.15, valoare care se află între cele
două puncte, astfel încât probabilitatea testului este între 5% şi 1%. Vom scrie acest lucru ca p
<5% sau p <0.05. Dacă folosim un program de analiză statistică, am obţine valoarea mai
exactă de p = 0.027 pe care o puteam rotunji la o cifră semnificativă şi astfel p = 0.03
Condiții care trebuiesc îndeplinite referitor la datele
observate pentru ca testul hi-pătrat să fie valid:

 eşantionul trebuie să fie suficient de mare


 observaţiile trebuie să fie independente între ele

 Testul hi-pătrat este valid în cazul în care cel puţin 80%


din frecvenţele estimate (aşteptate) depăşesc valoarea
5 şi toate frecvenţele estimate depăşesc valoarea 1.
Acest criteriu este îndeplinit pentru eșantioane mari.
 Cu cât valorile estimate tind să devină mai mici, cu atât
va fi testul mai instabil.
 Pentru tabelul nostru, toate valorile estimate depăşesc 5.0
 Deoarece avem 8 frecvenţe estimate am putea accepta ca 8 x
0.2 = 1.6 din frecvenţelor estimate să fie mai mici ca valoarea 5.
 Vom rotunji această valoare în jos la 1.0 şi vom spune că o
frecvenţă estimată cu valoare între 1 şi 5 nu ar fi o problemă.
 Pentru un tabel de tip 2 x 2, 20% din celule reprezintă 4 x 0.20 = 0.80,
care este mai puţin de 1, deci nici o celulă nu ar trebui să aibă
frecvenţa estimată mai mică decât 5
 Testul hi-pătrat pentru asociere într-un tabel de contingenţă este,
de asemenea, cunoscut și sub numele de testul hi-pătrat Pearson
 Statistica hi-pătrat nu este un indice care indică puterea de
asociere.
 Dacă vom dubla frecvenţele, se va dubla și valoarea statisticii hi-
pătrat însă puterea de asociere rămâne neschimbată.
TESTUL FISHER EXACT
(testul exact Fisher-Irwin)
 În cazul în care testul hi-pătrat nu este valid, deoarece frecvenţele
estimate sunt prea mici
 se poate aplica pentru orice tip de eşantion, deşi este folosit în
general numai pentru eșantioane mici în tabele de tip 2 x 2, din
cauza problemelor de calcul
 Se calculează probabilitățile tuturor tabelelor posibile, care au
date totalurile pe rînduri și coloane.
 Se însumează apoi probabilităţile pentru toate tabelele pentru
care am obținut probabilități mai mici decât cea observată
 Pentru ex testul Fisher exact dă p = 0.029. Vom compara această
valoare cu cea obținută pentru testul hi-pătrat, adică cu p = 0.027.
Sunt foarte asemănătoare. Acest lucru nu este întotdeauna
adevărat
testul Fisher exact: p = 0.029 testul hi-pătrat p =
0.027.
CORECȚIA YATES
 corecţia de continuitate a testului hi-pătrat
 Pentru tabele cu frecvenţele estimate mici, testul hi-pătrat dă
probabilităţi mai mici decât testul Fisher exact.
 Yates a introdus o modificare a testului hi-pătrat pentru tabele de
tip 2 x 2 ale cărui valori aproximează foarte bine probabilitățile
obținute în testul Fisher exact.
 Testul modifică diferenţa dintre frecvenţa observată şi cea
aşteaptă făcând-o mai apropiată de zero cu 0.5 înainte de
ridicarea la pătrat
 este aplicată la tabele 2×2 atunci când există celule cu mai puţin
de 5 elemente (anumiţi autori o recomandă la toate tabelele 2×2).
 Prin corecţia Yates se obţine o mai bună aproximare a distribuţiei
binomiale, rezultatul este conservator în sensul că se obţine mai
greu semnificaţia decât la aplicarea directă a testului χ2 .
YATES
Riscul relativ - definiţii
Este o măsură a legăturii între o boală şi prezenţa unui factor de
risc, presupus a influenţa apariţia bolii
Riscul Relativ, este raportul dintre riscul la cei expuşi, şi riscul la cei
neexpuşi.
Riscul relativ

 Ne arată de câte ori este mai mare riscul la expuși față


de neexpuși și este o măsură a forței asocierii dintre
factorul de risc (expunere) și efect (boală)
 Cu cât este mai mare RR, cu atât argumentul că
expunerea și efectul sunt asociate este mai puternic
 Riscul atribuibil ne arată câți indivizi vom salva de la
efectul urmărit dacă eradicăm expunerea. Cu cât riscul
atribuibil este mai mare, cu atât efectul evitării expunerii
este mai mare
I. Recenzii sistematice,
metaanaliza
Studiile caz-
control II. Studii clinice randomizate

Studii în care se urmărește realizarea


III. Studii de cohortă
asocierii expunerii la un factor de risc a unei
serii de cazuri ce prezintă boala respectivă
(caz), în comparație cu un grup neafectat IV. Studii caz-
de boală (control, martor) control
V. Studii transversale

VI. Studii de caz şi serii de


cazuri

Nivelul dovezii (evidence-based medicine).


Piramida studiilor
Studiile caz-control
Sunt cele mai frecvente studii epidemiologice analitice,
observaționale

Sunt studii longitudinale (se referă la un interval de timp)

Retrospective (cercetătorul privește înapoi, de la boală spre


o cauză posibilă a acesteia)

Unitatea de observaţie: individul (nu grupul, populaţia)

Se studiază în special bolile cu:

• o perioadă lungă de latență (ex. cancerul)


• cu o incubație de durată
• boli care sunt rare
Factorul de risc (FR), în studiul caz-control este reprezentat de un
eveniment care a survenit în trecutul subiecţilor, înaintea declanşării bolii

Exemple de FR:
• Fumatul
• Medicamente administrate
• Caracteristici individuale (grupa
sanguină), etc.

•Sursa informațiilor: anamneza,


istoricul afecțiunii din fișa medicală,
etc.

Un indicator al asocierii între factorul de risc şi boală este depistarea unei


expuneri mai mari la factorul de risc al cazurilor, comparativ cu cel al
grupului de control, asocierea având importanţă etiologică
Studiul caz- martor se utilizează când
prevalența bolii în populație este mică

Permite studiul asociației mai multor


factori de risc cu aceeași boală
maladiile cronice unde sunt
incriminați mai mulți factori de risc

Studiile caz – martor sunt criticate deoarece


nu sunt realizate într-o manieră experimentală,
direcția studiului fiind de la boală spre factorul
de risc
Este necesară eşantionarea

cazurile luate în studiu trebuie să fie reprezentative


pentru toate cazurile din maladia luată în studiu

întrebare: selectăm cazuri prevalente (care au


boala de un timp), sau incidente (nou diagn.)

mai uşor să luăm prevalente, mai ales în cazul bolilor rare, unde
pentru a găsi incidente trebuie să aşteptăm destul de mult

Din punctul de vedere al validităţii - indicat să luăm cazuri


incidente (reducem suprareprezentarea cazurilor cu evoluţie
de lungă durată şi erorile sistematice de memorie)
Exemplu: în cazurile vechi de boală, frecvenţa FR < în urma comportamentului modificat al
bolnavului; va fi o diferenţă sistematică între cazurile diagnosticate de mai mult timp, deoarece
pacienţii pot fi informaţi despre cauzele bolii, iar martorii nu sunt informaţi

În cazul maladiilor rare luăm în studiu şi cazuri noi şi cazuri vechi


B. Lotul martor

Un eşantion dintr-o anumită populaţie, pentru grupul


1. de cazuri ce fac parte din acea populaţie
Lotul martor
poate fi Un grup de pacienţi internaţi sau luaţi în evidenţă la
constituit din: 2. aceeaşi instituţie de unde sunt selectate cazurile, dar
cu alt diagnostic

Un grup de persoane din aceeaşi populaţie ca şi


3. cazurile, asemănătoare cu acestea din punct de
vedere al altor factori de risc

4. Grupuri de vecinătate - grup de rude sau vecini ale


cazurilor
Măsurarea asociaţiei FR - efect

Datele obţinute într-un studiu caz – martor se introduc într-un tabel de contingenţă „2x2”

SAU

a – persoanele ce fac boala dintre cei expuşi ; b - persoanele ce nu fac boala dintre cei expuşi.
c - persoanele ce fac boala dintre cei nonexpuşi ; d - persoanele ce nu fac boala dintre cei nonexpuşi.
a+b – totalul expuşilor. c+d – totalul nonexpuşilor. a+c – totalul bolnavilor. b+d - totalul nonbolnavilor
Pentru măsurarea forţei asociaţiei epidemiologice în anchetele de tip caz –
control se utilizează odds ratio (raportul cotelor, OR)

Cota (odds, O) unui eveniment este definită ca raportul dintre probabilitatea


realizării acelui eveniment raportată la probabilitatea nerealizării lui
Diferența între probabilitate și cotă
(ODDS)
 Termenii cotă și probabilitate (risc) sunt folosiți
frecvent, în situații diverse, de multe ori făcând
confuzie între ei. În statistică lucrurile sunt diferite.
 Ambii termeni arată cât de probabil este ceva,
dar se calculează diferit, fiind folosiți în situații
diferite.
numărul cazurilor egal posibile care realizează evenimentul
Probabilitatea =
numărul cazurilor egal posibile

numărul de apariții ale evenimentului


Cota =
numărul de neapariții ale sale

Riscul este probabilitatea de a suferi efectul


Prob=1/6 Cota (odds) este raportul dintre probabilitatea de a suferi
efectul şi probabilitatea de a nu-l suferi

𝑃𝑟𝑜𝑏
Odds=1/5 Odds=
1−𝑃𝑟𝑜𝑏
În cazul unei anchete
epidemiologice raportul
cotelor (OR) se defineşte:

cota bolii la expuşi


OR =
cota bolii la nonexpuşi

În cazul bolilor rare (ex: bolile cronice cu prevalență <10%), impactul acţiunii factorului de risc în
populaţie se măsoară cu riscul atribuit (RA) în populaţie:

P0 – prevalenţa expunerii la martori


P – prevalenţa expunerii în populaţia generală
cota este întotdeauna
mai mare decât riscul,
iar raportul cotelor
(odds ratio) este
întotdeauna mai mare
decât riscul relativ.

Riscul bolii la expuşi Cota bolii la expuşi OREXP= a/c

Riscul bolii la nonexpuşi Cota bolii la ne-expuşi ORNEEXP= b/d

Riscul relativ Raportul cotelor

Cota bolii la expuşi e de OR mai mare decât la


Riscul relativ - demonstrează de câte ori este mai neexpuşi sau șansa expunerii la factorul de risc (F)
mare riscul bolii la expuşi faţă de cei nonexpuşi. este de (OR) mai mare în cazul celor care suferă de
Deci, grupul expuşilor are un risc de RR ori mai boala B față de șansa de a fi fost expus la factorul F
mare de apariţie a bolii decât grupul nonexpuşi în cazul persoanelor sănătoase
Exemplul 1:

• este diabetul factor de risc pentru infarctul acut de miocard?

Identificăm

cazurile (indivizi cu infarct miocardic acut)

martorii (indivizi fără infarct miocardic acut)

Îi comparăm pe unii cu ceilalţi în privinţa existenţei diabetului:

Dacă diabetul este mai frecvent la cazuri decât la martori, este posibil
ca acesta să fie factor de risc.
Care sunt cotele (odds) diabetului zaharat (în acest caz factor de risc) la cazuri,
respectiv la martori (aşadar, cotele factorului de risc la bolnavi şi la sănătoşi?

Dacă avem mai mulți martori pentru 1 caz, puterea studiului va crește. Numărul cazurilor este de
obicei limitat (boala este rară de cele mai multe ori), dar martorii ar putea fi oricâți. Creșterea
puterii statistice a studiului nu mai e la fel de spectaculoasă atunci când se depășește un nr. de 4
martori/1caz
cota diabetului la cei cu infarct miocardic este

ORIMA/DZ=20/80=0,25 ; ORMARTORI=40/360=0,111

raportul cotelor OR= 0,250/0,111=2,25


Cum OR estimează riscul relativ (RR), pe care în studiile caz-martor nu avem cum să-l calculăm,
putem spune că pacienţii cu infarct miocardic au un risc de 2,25 de ori mai mare să aibă
diabet decât pacienţii fără infarct miocardic, iar transpus în relaţia cauză-efect pe care o
studiam noi, că pacienţii cu diabet au un risc de 2,25 ori mai mare să facă infarct decât
pacienţii fără diabet
Calculul valorilor “aşteptate”
Date inițiale
Valori “aşteptate”

Dacă in urma analizei statistice se obține p<0,05


înseamnă că avem un rezultat semnificativ statistic
Prezentarea și prelucrarea datelor în EpiInfo

Pentru OR sunt calculate și


intervalele de încredere
[a, b]. Interpretarea lor este
imediată:
· Dacă a≤1≤b, atunci
variabila de expunere este
un factor indiferent
· Dacă 1 < a, atunci
variabila de expunere este
un factor de risc
· Dacă b < 1, atunci
variabila de expunere este
un factor de protecție
Testul statistic adecvat este testul Chi²

Dacă in urma analizei statistice se obține p<0,05 înseamnă că avem un rezultat


semnificativ statistic

Intervalul de încredere (IC) – sa nu conțină valoarea 1 (limita inferioara a


intervalului sa fie mai mare de 1)

Interpretare OR in functie de IC:

Pentru OR cu valoare mai mare de 1 si IC cu valori apropiate de OR calculat care nu


include valoarea 1 putem decide ca exista asociere pozitiva intre factorul de risc si boala

Pentru valori OR mai mari decat 1 si IC include valoarea 1 se poate concluziona ca factorul
de risc studiat este indiferent (oricat de mare ar fi valoarea lui calculata)

Atenţie nu e importantă dacă valoarea indicatorului este sau nu în interval, ea


întotdeauna se află în intervalul de încredere! Contează dacă absența efectului
sau a diferenței se află sau nu în interval
Pentru evaluarea existenței unei legături între boală și factorul de risc

-testul Hi pătrat (Chi square) (testul bidirecțional – two tails)

ales întrucât sunt date de tip calitativ


în formatul: p=valoare (cu maxim 3 zecimale)-numele testului folosit
Ex: p=0.005 – test student pentru eșantioane perechi

interpretare:
 dacă p<0,05 se respinge ipoteza nulă (nonexistenţa legăturii) şi se
consideră ca fiind adevărată ipoteza alternativă (existenţa legăturii)
 dacă p>0,05 nu se poate respinge ipoteza nulă
 p este probabilitatea de a obţine un rezultat ca cel găsit din cauza
întâmplării în situaţia în care în realitate nu există legătură între parametrii
urmăriţi
NUMĂRUL NECESAR DE PACIENȚI CARE TREBUIESC TRATAȚI

 NNT (number needed to treat)


 conceput ca o modalitate utilă de a prezenta rezultatele unui studiu clinic, astfel ca medicii să poată
aprecia cu uşurinţă eficacitatea unui tratament
 reprezintă numărul de pacienţi care ar trebui să urmeze, mai degrabă un anumit tratament decât altul,
pentru a se obține beneficii suplimentare pentru un singur pacient
EXEMPLU:
 Cât de mulţi oameni trebuie să se trateze cu bandaj elastic în loc de inelastic pentru a obține o singură
vindecare suplimentară?
 Dacă diferenţa este de 25.4%, aceasta înseamnă că pentru fiecare 100 de persoane pe care le tratăm
cu bandaj elastic în loc de inelastic, 25.4 se vor vindeca suplimentar. Prin urmare, pentru a vindeca o
persoană în plus, trebuie să se trateze 100/25.4 = 3.9 pacienţi. Pentru fiecare 3.9 persoane tratate cu
bandaj elastic în loc de inelastic, se estimează că o persoană în plus va fi vindecată
 În mod clar un NNT mic este bun, deoarece este necesar să tratăm doar câţiva pacienţi pentru ca unul în
plus să se vindece
 NNT poate fi negativ? Un NNT negativ apare când proporţia de vindecați pentru tratamentul testat
(bandaj elastic) este mai mică decât proporţia de vindecați pentru tratamentul de control (bandaj
inelastic). Tratamentul face mai mult rău decât bine. În acest caz, avem numărul de pacienți necesar a fi
tratați pentru a determina apariția unui efect negativ, notat cu NNTH (number needed to treat to harm)