Sunteți pe pagina 1din 8

C Bicu. Medicina bazat pe dovezi.

Cum Ed
nelegem studiile. Medical,
2007
IV. Tipurile de variabile i testele statistice
Alegerea metodei de analiz statistic pentru o anumit problem depinde de
comparaia pe care vrem s o facem i de tipurile de variabile utilizate. Aadar, pentru a
alege testul potrivit trebuie s ne punem dou ntrebri: Ce fel de date am colectat? Care
este scopul nostru? Aceeai analiz o facem i citind un articol, pentru a vedea dac
testele utilizate de autorii acestuia sunt cele corecte.
Variabilele nominale sunt variabile sub form de nume sau alte simboluri reprezentnd
categorii ce nu pot fi ordonate una n raport cu cealalt, de exemplu numele, grupa
sanguin, sexul, rasa, culoarea ochilor, diagnosticul etc. Atunci cnd o variabil
nominal nu poate lua dect dou valori, ea este o variabil dihotomic (binar,
bimodal), cum ar fi sex masculin/feminin,
mort/viu,
fumtor/nefumtor,
prezent/absent, normal/anormal, care a suferit efectul(end-point)/care nu l-a suferit etc.
variabile de tip DA/NU.
Variabilele ordinale sunt variabilele ce sunt clasificate n mai mult de dou categorii i
la care exist o ordine natural ntre categorii (de la valoarea cea mai mic la cea mai
mare) - de exemplu evoluia bolii (agravat, staionar, ameliorat), stadializri
(insuficiena cardiac, TNM n cancer), scoruri etc. Chiar dac unele variabile iau valori
numerice, ele sunt considerate ordinale pentru c nu ndeplinesc condiiile celor
cantitative msurabile (lund exemplul unui scor de calitate a vieii, sau al unei scale
analogice vizuale pentru durere, putem spune c un individ cu scorul 10 are o durere
mai mare sau o calitate a vieii mai bun dect un individ cu scorul 8, dar nu nseamn
c diferena dintre ei este aceeai cu aceea dintre un individ cu scorul 4 i unul cu scorul
2; la fel, nu putem spune c un individ cu scorul 8 are o durere de dou ori mai
puternic sau o calitate a vieii de dou ori mai bun dect un individ avnd scorul 4; din
acelai motiv, calcularea mediei nu are nici un sens).
Variabilele cantitative (msurabile) pot fi continue (variabile cu un numr potenial
infinit de valori de-a lungul unui continuum: nlimea, greutatea, TA, vrsta etc.) sau
discontinue (discrete)(variabile descrise numai prin uniti ntregi ce nu pot fi msurate
n intervale mai mici dect unitatea: frevena cardiac, numrul de copii etc.).
n privina variabilelor cantitative, este important de vzut dac acestea au o distribuie
normal (simetric, sub forma clopotului lui Gauss); n cazul acestei distribuii, media
este egal cu mediana i cu modul, iar 95% dintre valorile pe care le poate lua variabila
se afl n intervalul media dou deviaii standard. Pentru a vedea dac o variabil are
distribuie normal, putem folosi orice program statistic i verificm cifric dac media,
mediana i modul sunt foarte apropiate (ideal identice, dar n viaa real nu exist ideal),
iar media minus dublul deviaiei standard nu trebuie s ia valori negative; sau
reprezentm variabila sub forma unei histograme i vizual verificm forma simetric, de
clopot.
Este important s tim dac distribuia variabilei noastre este normal pentru c numai
variabilelor cantitative, cu distribuie normal li se pot aplica testele statistice
parametrice! De asemenea, pentru a putea aplica teste statistice parametrice trebuie ca
nici dispersia (deviaia standard) celor dou grupuri s nu difere foarte mult. Testele
parametrice sunt testele care compar mediile i deviaiile standard ale grupurilor despre
care vrem s dovedim c sunt identice sau dimpotriv, diferite, ori media i deviaia
standard nu au nici un sens dac nu avem o distribuie normal.

C Bicu. Medicina bazat pe dovezi. Cum Ed


nelegem studiile. Medical,
2007
S presupunem c vrem s vedem dac TA este diferit la brbaii fa de femeile din
Bucureti; pentru aceasta, ideal ar fi s extragem la ntmplare dou eantioane, unul de
femei, altul de brbai din Bucureti i s le msurm TA. Cum valorile TA vor avea,
probabil, o distribuie normal n cele dou grupuri, atunci pentru a le compara putem
folosi un test parametric, care este testul t (Student). Dac vrem s comparm mai multe
grupuri deodat (de exemplu vrem s vedem dac TA a moldovenilor, ardelenilor sau
regenilor difer ntre ele), folosim analiza varianei n sens unic (one way ANOVA),
aplicnd testul F, care ne va arta dac TA este diferit sau nu n cele trei regiuni
istorice, fr a ne spune ns care este grupul care difer de celelalte.
Testele nonparametrice se aplic pentru variabilele cantitative fr distribuie normal
(Figura IV.1) i pentru variabilele ordinale. S lum un exemplu din revista Medicina
Intern 2004, 1:57-59 (Dumitracu DL et. al), n care se compar stresul la pacienii cu
dispepsie funcional i la martori, pe baza unui chestionar. Pentru comparaia scorurilor
de stres s-a folosit testul t. n primul rnd, n cazul scorurilor nu trebuie folosite teste
parametrice, scorurile nefiind variabile cantitative (vezi explicaia de la prezentarea
variabilelor ordinale). S ne imaginm, totui, c scorurile de stres sunt variabile
cantitative ca s putem aplica testul t ar trebui ca distribuia lor s fie normal, ori n
tabelul 2 putem vedea scoruri (media i deviaia standard) de genul 0,89 i 0,93; 7,5 i
5,28; 1,25 i 0,93; 0,54 i 0,60; 0,94 i 1,39 (i nc altele), din care se observ clar c
distribuia nu este normal (dac scdem din medie 2 deviaii standard avem scoruri
negative, care nu exist n realitate), aadar pentru comparaie ar fi trebuit folosit un test
nonparametric (testul Mann-Whitney U).
Aadar, pentru variabilele cantitative care nu au o distribuie normal i pentru cele
ordinale se folosesc testele nonparametrice. De exemplu, dac vrem s demonstrm c
pacienii cu insuficien cardiac internai n spitalul X sunt mai gravi dect cei internai
n spitalul Z, comparnd clasa NYHA de insuficien cardiac ntre cele dou grupuri.
Atunci cnd pacienii sunt mperecheai, folosim testele statistice mperecheate (paired),
parametrice sau nonparametrice. Singura mperechere perfect se realizeaz atunci cnd
mperechem pacientul cu el nsui, n comparaiile nainte-dup. De exemplu,
comparm TA, sau colesterolul unor participani la un studiu nainte de a ncepe
tratamentul i dup o lun de tratament. Variabila (TA, colesterolul) fiind continu i cu
o distribuie probabil normal, vom folosi un test parametric, i anume testul t
mperecheat. Dac variabila de comparat nu are o distribuie normal (de exemplu
valoarea creatininei la pacienii cu insuficien renal) sau este o variabil ordinal
(stadializarea tumorii, sau clasa NYHA a insuficienei cardiace, sau scorul durerii pe o
scal analogic vizual, nainte i dup un tratament), vom folosi un test nonparametric
mperecheat, care este testul Wilcoxon.
Echivalentul nonparametric al ANOVA (testul F) este testul Kruskal-Wallis.
Testele nonparametrice nu in cont de valoarea efectiv a variabilei, ci de ordinea lor
(rank tests) care este valoarea cea mai mic, care este urmtoarea i aa mai departe...
n cazul variabilelor dihotomice (pentru compararea proporiilor) se folosete testul X2
sau variantele sale Yates i mai ales testul exact al lui Fisher (atunci cnd n tabelul de
contingen 2x2 avem ntr-una din csue o valoare ateptat mai mic de 5). De
exemplu atunci cnd vrem s comparm proporia de pacieni care a fcut infarct n
grupul tratat cu statin cu proporia de pacieni care a fcut infarct n grupul tratat cu
placebo. De remarcat c n studiile terapeutice, atunci cnd avem de-a face cu efecte
surogat studiem variabile cantitative (TA, transaminaze, clasa NYHA, fracia de ejecie,

C Bicu. Medicina bazat pe dovezi. Cum Ed


nelegem studiile. Medical,
2007
densitatea osoasa etc.), pe cnd n cazul efectelor serioase avem de-a face cu variabile
dihotomice (pacientul a suferit sau nu infarctul de miocard, fracura, decesul etc.).
Cnd vrem s vedem cum (i dac) variaz o variabil cantitativ n funcie de o alt
variabil cantitativ, aadar vrem s vedem n ce msur dou variabile cantitative se
coreleaz, calculm coeficientul de corelaie al lui Pearson ( r). De exemplu, putem
vedea dac vrsta se coreleaz cu VSH (adic VSH crete odat cu vrsta).
Dac variabilele cantitative nu au o distribuie normal, sau sunt ordinale (de exemplu,
corelaia dintre fracia de ejecie i clasa NYHA a insuficienei cardiace stngi, sau
dintre valoarea transaminazelor i cea a scorului necroinflamator gsit la biopsia
hepatic) utilizm echivalentul nonparametric al coeficientului Pearson, care este
coeficientul de corelaie Spearman.
Dac, n cazul a dou variabile care se coreleaz, putem spune care variabil o
determin pe cealalt i/sau vrem s calculm valoarea unei variabile tiind-o pe
cealalt, utilizm regresia linear (de exemplu, tiind valoarea ALAT, putem prezice
scorul necro-inflamator de la biopsie, sau tiind nlimea prezicem valoarea VEMS, sau
tiind doza de captopril pe care o administrm prezicem cu ct va scdea TA).
Variabilele cantitative pot fi transformate oricnd n variabile ordinale sau dihotomice
(de exemplu valorile colesterolului n quartile, sau n colesterol normal/crescut). n baza
noastr de date este indicat s trecem (i pentru aceasta s culegem) variabilele noastre
ca atare, pentru c apoi putem s le transformm oricnd n ordinale sau dihotomice, pe
cnd invers nu vom putea niciodat (de exemplu introducem n baza de date anemie
DA/NU i apoi descoperim c ar fi fost mai bine s avem chiar valorile hemoglobinei!).
Partea cea mai dificil este alegerea ntre testele parametrice i cele neparametrice.
Alegem clar un test nonparametric n trei situaii: 1.efectul este o variabil ordinal i
populaia este clar non-Gaussian (de exemplu notele studenilor, scorul Apgar, scala
vizual analogic pentru durere etc.); 2.efectul este o variabil cantitativ i suntem
siguri c nu are o distribuie gaussian n populaie (n acest caz o putem aduce la o
distribuie normal prin transformare: logaritmul, reciproca, rdcina ptrat din punct
de vedere matematic este corect, mai puin din punct de vedere biologic); i 3.efectul
este o variabil cantitativ cu distribuie gaussian, dar dispersia (deviaia standard) este
mult diferit ntre grupurile de comparat.
Deseori alegerea este dificil. Cnd avem cazuri puine, este greu de spus dac
distribuia este Gaussian, iar testele speciale pentru verificarea normalitii
(Kolmogorov-Smirnov) au putere mic. De fapt, ceea ce conteaz este distribuia la
nivelul populaiei, i nu la nivelul eantionului nostru, iar informaii despre distribuia
valorilor unei variabile n populaie trebuie cutate n literatur! (Este bine de reinut c
n natur, distribuiile non-gaussiene sunt frecvente, iar acest fapt este valabil ndeosebi
n cazul valorilor biologice).
Cnd nu tim dac distribuia este normal, alegerea tipului de test depinde de mrimea
eantionului: dac eantionul este mare (cel puin 24/30 de date n fiecare grup), este
mai uor de spus dac eantionul provine dintr-o populaie Gaussian, dar nu are mare
importan, putem folosi orice tip de test, rezultatul va fi acelai. Problema apare dac
eantionul este mic, cnd este greu de spus dac populaia este gaussian, dar tocmai
atunci este foarte important: testele nonparametrice nu sunt puternice, iar cele
parametrice nu sunt robuste.

C Bicu. Medicina bazat pe dovezi. Cum Ed


nelegem studiile. Medical,
2007
Analiza multivariabil (sau multivariat) este o unealt statistic prin care se
determin contribuia fiecruia dintre mai muli factori la apariia unui efect. De
exemplu, exist o mulime de factori asociai cu apariia bolii coronariene (fumatul,
obezitatea, sedetarismul, diabetul, hipercolesterolemia, hipertensiunea) numii factori
de risc, variabile independente, sau variabile explicative. Analiza multivariabil ne
permite s determinm contribuia independent a ficruia dintre aceti factori de risc la
apariia bolii coronariene (numit efect sau variabil dependent).
n studiile observaionale, fiind mai muli factori de risc, nu tim care dintre ei este
adevrat sau n ce msur asocierea aparent dintre un factor de risc i efect nu este
datorat de fapt altora. S presupunem c n baza noastr de date avem toate
informaiile i variabilele privind pacienii, i vom testa dac exist o asociere ntre
variabilele fumat i boala coronarian, fr a ine cont de vreo alt variabil. Neexistnd
randomizare (nu putem pune pacienii, prin tragere la sori, s fumeze sau nu), chiar
dac n analiza univariat (bivariat, dup alii) gsim o asociere ntre fumat i apariia
coronaropatiei, aceasta reprezint o dovad prea slab pentru a o considera cauzal.
Poate c fumtorii fac mai degrab coronaropatie pentru c sunt mai frecvent brbai
i/sau sunt sraci i/sau au mai degrab un stil de via nesntos n alte privine, care
sunt adevraii factori de risc. Cu alte cuvinte, relaia dintre fumat i coronaropatie poate
fi confundat de aceste alte variabile.
Confuzia apare atunci cnd o asociere aparent dintre un factor de risc i un efect este
afectat de relaia unei a treia variabile cu factorul de risc i cu efectul. Pentru ca o
variabil s fie un factor de confuzie, aceasta trebuie s se asocieze att cu factorul de
risc, ct i cu efectul.
Sexul masculin i sedentarismul pot fi factori de confuzie, deoarece sunt asociate att cu
fumatul, ct i cu boala coronarian. Prin analiza multivariabil, putem demonstra c i
dup ajustarea pentru sexul masculin i sedentarism, fumatul are o relaie independent
cu boala coronarian. (De altfel acest cuvnt, ajustat care apare ntr-un articol ne
spune de fiecare dat c la rezultatul prezentat s-a ajuns printr-o analiz multivariabil.)
S presupunem c n analiza univariat, boala coronarian este asociat cu consumul de
cafea (riscul relativ=5, cu semnificaie statistic). Bnuim, ns, c exist un factor de
confuzie, i anume fumatul, care este asociat cu consumul de cafea (cei care beau cafea,
n general fumeaz) i cu efectul (am descoperit asocierea fumat-coronaropatie). Pentru
a verifica aceast ipotez, facem o analiz multivariat simpl, n care introducem ca
variabile independente att cafeaua, ct i fumatul, i vom vedea efectul fiecreia dintre
ele asupra apariiei coronaropatiei. Dac riscul de a face boal coronarian se menine
semnificativ statistic la cei care consum cafea, nseamn c aceasta reprezint un factor
de risc independent pentru boala coronarian. Dac ns, n analiza multivariat, riscul
dispare, nseamn c ntr-adevr, relaia cafea-coronaropatie a fost confundat de relaia
adevrat, fumat-coronaropatie. Bineneles c n analiza multivariat vom gsi o relaie
semnificativ statistic fumat-coronaropatie.
Dei teoretic se poate face distincia ntre asocierea independent i confuzie, o variabil
poate avea n acelai timp un efect independent i s fie un factor de confuzie: de
exemplu srcia este un factor de confuzie ntre fumat i coronaropatie (cei sraci
fumeaz mai mult i fac mai des boala coronarian), dar srcia are de asemenea i un
efect independent asupra apariiei bolii coronariene (dup ajustarea pentru fumat,
colesterolemie i ali factori de risc, aceasta rmne totui asociat semnificativ cu
apariia bolii).

C Bicu. Medicina bazat pe dovezi. Cum Ed


nelegem studiile. Medical,
2007
nafara analizei multivariabile, pentru eliminarea confuziei mai poate fi utilizat analiza
stratificat, prin care se cerceteaz rolul unui factor de risc n apariia unui efect, n timp
ce se ine cealalt variabil constant. Astfel, n exemplul n care cafeaua era asociat n
analiza univariat coronaropatiei, putem reface aceast analiz separat, la fumtori i
nefumtori, i dac asocierea rmne n picioare n cele dou grupuri, nseamn c
efectul cafelei n apariia coronaropatiei este independent de fumat; dimpotriv, dac
asocierea cafea-boal dispare, nseamn c fumatul a fost un factor de confuzie care a
determinat apariia unei false relaii ntre cafea i boala coronarian.
Ne putem folosi de stratificare atunci cnd exist dou sau trei variabile poteniale
factori de confuzie; atunci ns cnd acestea sunt mai multe, stratificarea ar crea zeci de
grupuri n care investigatorul ar trebui s determine relaia dintre variabile, iar numrul
de pacieni din fiecare grup ar fi din ce n ce mai mic, pe msur ce progresm cu
stratificarea i s-ar pierde puterea statistic.
Indiferent dac folosim stratificarea sau analiza multivariat, nu trebuie s uitm c
putem stratifica sau ajusta doar pentru variabilele pe care le cunoatem, ori exist muli
factori de confuzie necunoscui i deci nemsurai, care ne pndesc la toate colurile!
Tipurile de analiz multivariabil sunt trei, n funcie de variabila dependent
(efectul): atunci cnd variabila dependent este continu se utilizeaz regresia linear
multipl, dac aceasta este dihotomic se utilizeaz regresia logistic, iar cnd este
reprezentat prin durata de timp pn la apariia unui eveniment (supravieuirea), se
folosete analiza hazardului proporional (modelul lui Cox).

Figura IV.1. Exemplu de distribuie non-normal: distribuia VSH ntr-un studiu (histograma) n
comparaie cu distribuia normal (curba lui Gauss). Se observ asimetria distribuiei VSH datorit
existenei unor pacieni cu VSH foarte mare, care trag media spre dreapta, n timp ce mediana nu este
influenat.

C Bicu. Medicina bazat pe dovezi. Cum Ed


nelegem studiile. Medical,
2007
140

120

100

80

60

40

20
0
0

20
10

40
30

60
50

80
70

VSH (mediana=26, media=35mm/h)

100
90

120
110

140
130

150

C Bicu. Medicina bazat pe dovezi. Cum Ed


nelegem studiile. Medical,
2007
Figura IV.2. Algoritmul utilizrii testelor statistice n funcie de variabile (exemple n text).
( ------ = analiz multivariabil)

Comparaia a
2 grupuri
distribuie
normal

teste
parametrice

Variabil
cantitativ
distribuie
nonnormal
Variabil
ordinal

Variabil
dihotomic

teste
nonparametrice

Student (t)

Comparaia a
3 grupuri

Test F (ANOVA)

Corelaia a 2
variabile n
acelai grup

Corelaie
(coeficient Pearson)/
regresie

Corelaia a 2
variabile n
acelai grup

Corelaie
(coef. Spearman)

Comparaa a
2 grupuri

Mann-Whitney U,
Wilcoxon

Comparaia a
3 grupuri

Kruskall-Wallis

X2

Regresie
linear
multipl

Regresie
logistic

Fisher exact
Interval de
timp

Log rank

Modelul
lui Cox

C Bicu. Medicina bazat pe dovezi. Cum Ed


nelegem studiile. Medical,
2007