Sunteți pe pagina 1din 126

1

Prefaţă

Incursiunea mea în domeniu a început în 1994 prin participarea la un curs ţinut de doi
colegi din Lyon – dintre care, profesorul Pierre Duhaut mi-a rămas mentor şi bun
prieten – făcând parte din Reţeaua Internaţională de Epidemiologie Clinică Francofonă.
Au urmat o Diplomă Universitară de Epidemiologie clinică de un an la Universitatea
Claude Bernard din Lyon (1995-1996), şi cursurile de vară (din nou, epidemiologie
clinică) la Universitatea Erasmus din Rotterdam. După care nu a mai fost decât studiu
individual dintr-un raft întreg de cărţi de epidemiologie clinică, statistică şi medicină
bazată pe dovezi, la care se adaugă articole de specialitate sau pur şi simplu articole
medicale şi, de ce nu, întâlnirile de fiecare zi cu reprezentanţii firmelor farmaceutice.
Cartea de faţă se bazează pe articolele lunare pe care le-am scris timp de trei ani în
revista Stetoscop (le mulţumesc tuturor celor de acolo, dacă n-ar fi existat ei, nu ştiu
când aş fi scris-o!), la care se adaugă câteva articole scrise pentru Revista de
Cardiologie. În acelaşi timp, ea este sinteza cunoştinţelor de medicină bazată pe dovezi
acumulate de-a lungul cursurilor predate (epidemiologie clinică iniţial în colaborare cu
RECIF, apoi curs postuniversitar de o săptămână în fiecare noiembrie; epidemiologie
clinică pentru doctoranzi – modulul de metodologia cercetării din cadrul şcolii
doctorale; de doar câteva săptămâni: cursul de metodologia cercetării pentru studenţii de
anul IV; la care se adaugă cursul postuniversitar anual de o săptămână – fiecare martie -
de medicină bazată pe dovezi şi cursurile de medicină bazată pe dovezi din cadrul celor
două conferinţe organizate sub egida Societăţii de Medicină Internă). Să nu uităm
Dicţionarul de Epidemiologie clinică şi Medicină bazată pe dovezi apărut la Editura
Medicală în 2002 şi care este, cred, prima carte românească din domeniu.
În cartea de faţă sunt lucruri pe care ar trebui să le cunoască fiecare medic practician şi
care ar trebui predate fiecărui student la medicină.
Voi primi cu recunoştinţă orice comentariu sau sugestie la adresa cbaicus@gmail.com

18 martie 2007
Cristian Băicuş

2
Cuprins
I. Medicina bazată pe dovezi – introducere
II. Informaţia medicală
III. Tipurile de studii în cercetarea epidemiologică
IV. Tipurile de variabile şi testele statistice
V. Semnificaţie statistică; p şi intervale de încredere; semnificaţie clinică
VI. Ierarhia dovezii: nivelul dovezii şi gradele de recomandare
VII. Studiile terapeutice fără grup martor
VIII. Studiile clinice randomizate
IX. Exprimarea riscului
X. Din nou despre măsura efectului, semnificaţie clinică şi semnificaţie statistică
XI. Erorile de tip I şi II, puterea şi mărimea eşantionului
XII. Cât de precisă este estimarea efectului tratamentului?
XIII. Studiile N-of-1 (studiile pe un singur caz)
XIV. Studiile care sintetizează studii: analiza sistematică şi metaanaliza
XV. Care sunt cele mai bune dovezi pentru terapie şi cum interpretăm marile studii
terapeutice?
XVI. Comunicarea riscului
XVII. Evaluarea testelor diagnostice: criterii de validitate
XVIII. Parametrii unui test diagnostic (I): sensibilitatea şi specificitatea.
XIX. Valorile predictive ale testelor şi teorema lui Bayes
XX. Parametrii unui test diagnostic (II): raportul de probabilitate.
XXI. Studiile diagnostice – ierarhia dovezii
XXII. Studiile prognostice
XXIII. Un punct de vedere economic

3
I. Medicina bazată pe dovezi - introducere

Trisha Greenhalgh a definit Medicina Bazată pe Dovezi (MBD) ca fiind “ştiinţa


descoperirii, evaluării şi aplicării rezultatelor cercetării medicale”1.
MBD este folosirea raţională şi judicioasă a celor mai bune dovezi actuale din
cercetarea clinică în îngrijirea fiecărui pacient. Termenii cheie sunt aici “raţională”, care
înseamnă că aceste cunoştinţe vor fi aplicate acelor pacienţi pentru care ele sunt
relevante, şi “judicioasă”, care implică utilizarea priceperii clinice a fiecaruia dintre noi,
pricepere care cântăreşte riscurile şi beneficiile fiecărui test diagnostic sau tratament
alternativ, luând în considerare particularităţile pacientului (alţi factori de risc şi condiţii
morbide concomitente, ori pur şi simplu preferinţe). În sfârşit, “cele mai bune dovezi”
din cercetarea clinică vrea să spună că, din multitudinea de studii ale căror rezultate
uneori se contrazic, practicianul poate să aleagă, prin evaluarea critică, pe acelea de o
calitate metodologică bună.
Există o legătură importantă între cercetarea clinică şi cea fundamentală;
cercetarea de laborator a pus fundamentul cunoştinţelor noastre despre patologie şi pe ea
se bazează cele mai multe proceduri diagnostice şi intervenţii terapeutice. Şi totuşi,
pentru a vedea dacă acestea produc în final mai mult bine decât rău, este nevoie de
studii clinice ale aplicării lor la pacienţi. MBD se concentrează asupra studiilor clinice
deoarece numai acestea ne pot spune, în final, dacă ipotezele născute pe baze
fizio(pato)logice se confirmă la pacientul în sine, dacă interacţiunile de la nivel
molecular duc într-adevar la prelungirea vieţii sau măcar la îmbunătăţirea calităţii
acesteia.
Deciziile clinice rezultă din intersecţia celor trei componente: priceperea clinică,
dovezile ştiinţifice şi preferinţele pacientului.
De notat că uneori experienţa clinică şi preferinţele pacientului pot prevala
asupra dovezilor rezultate din cercetarea clinică (de exemplu, medicul decide pe baza
experienţei că pacientul este prea slăbit pentru a suporta o operaţie care, conform
studiilor, i-ar prelungi viaţa comparativ cu tratamentul medicamentos, sau pacientul pur
şi simplu nu vrea să accepte un tratament, chiar dacă acesta este mai eficient decât cel
alternativ).
Necesitatea MBD vine din conştientizarea mai multor elemente2:
1. avem nevoie zilnic de informaţie privind diagnosticul, prognosticul,
tratamentul şi prevenţia (unii au constatat că au nevoie să caute informaţie de
până la cinci ori pentru fiecare pacient internat şi două ori pentru fiecare trei
pacienţi văzuţi în ambulator).
2. sursele tradiţionale pentru această informaţie nu sunt adecvate: unele
sunt depăşite (tratatele), altele greşesc frecvent (experţii), altele sunt ineficiente
(educaţia medicală continuă), iar altele ne copleşesc prin volum şi sunt prea
inegale în ce priveşte calitatea pentru a le putea folosi în practica clinică
(revistele medicale).
3. neconcordanţa dintre aptitudinile noastre diagnostice şi judecata clinică -
ele cresc odată cu experienţa - şi cunoştinţele “la zi” şi randamentul clinic –
acestea sunt în declin continuu.
4. criza permanentă de timp, care nu ne lasă să dedicăm decât puţin timp
studiului.
Iată şi paşii pe care trebuie să-i facem de fiecare dată când căutăm răspunsul la o
intrebare2:
1. convertirea nevoii de informaţie în întrebări (formularea problemei)

4
2. căutarea, cu maximă eficienţă, a celor mai bune dovezi care să răspundă
întrebării
3. evaluarea critică a dovezilor
4. aplicarea rezultatelor în practica clinică.
Dacă ne căutăm informaţiile direct în baze de date ce conţin articole a căror validitate a
fost deja evaluată (Cochrane Review, Best Evidence, InfoRetriever etc.), nu mai este
nevoie de evaluarea noastră şi sărim punctul 3.

Figura I.1. Pentru a face o cercetare corectă, ai nevoie de cunoştinţe de metodologia cercetării clinice
(epidemiologie clinică) şi biostatistică. De aceleaşi cunoştinţe ai nevoie şi pentru a evalua rezultatele
cercetării altora, numai că atunci poartă numele de “medicina bazată pe dovezi”.

= EPIDEMIOLOGIE CLINICĂ
metodologia cercetării
(validitate)

Cercetare clinică
cercetător

ŞI BIOSTATISTICĂ

articol, prezentare
practician,
manager

evaluare critică

MEDICINA
M EDICINA BABAZATĂ
ZAT Ă PE PE
DOVEZI
DOVEZI
MBD a fost teoretizată de un grup de clinicieni care erau şi specialişti în
Epidemiologie Clinică (metodologia cercetării clinice) de la Universitatea McMaster
din Hamilton, Canada. Dacă pentru a face cercetare clinică de calitate trebuie să cunoşti
metodologia necesară (cu aceasta se ocupă epidemiologia clinică), s-a născut ideea că şi
consumatorii de cercetare medicală (adică practicienii care citesc studiile din revistele
medicale şi responsabilii cu politicile de sănătate publică, programele naţionale, listele
de medicamente compensate şi achiziţiile de aparatură medicală pentru terapie sau
diagnostic) trebuie să cunoască această metodologie, tocmai pentru a discerne, din
noianul de articole, care sunt cele valide, ale caror rezultate merită a fi luate in seama (în
primul rând, care sunt articolele care merită citite).
Iată de ce aproape toţi corifeii MBD provin epidemiologia clinică şi am să dau
doar exemplul autorilor cărţii “Clinical epidemiology. A basic science for clinical
medicine” (Little, Brown, 1991), carte pe care o recomand tuturor, pentru că schimbă
viziunea despre medicina clinică: David Sackett, Brian Haynes, Gordon Guyatt si Peter
Tugwell, profesori de Epidemiologie Clinică şi Biostatistică, primii doi internişti, al
treilea ortoped, iar ultimul reumatolog.

Bibliografie
1. Greenhalgh T. How to read a paper. BMJ Publishing Group London, 1997, p.XV.
2. Sackett DL, Richardson S, Rosenberg W, Haynes B. Evidence-based medicine. How
to practice and teach EBM. Churchill Livingstone Edinburgh, 1997, p.5.

5
II. Informaţia medicală

Informarea medicală are două componente: pe de o parte menţinerea cunoştinţelor


noastre la zi, fiind la curent cu noutăţile mai importante din domeniul nostru de
activitate pe măsură ce acestea apar, iar pe de altă parte căutarea ţintită a acestora,
atunci când ne aflăm în faţa unui pacient cu o anumită problemă clinică.
II.1.Supravegherea literaturii medicale pentru a ne menţine “la zi”
Cele mai importante noutăţi clinice apar în revistele medicale clinice. În funcţie de
specialitatea voastră, vă recomand să vă abonaţi la cuprinsul fiecărei reviste de interes –
abonarea se face prin Internet, şi este gratuită. Pentru multe reviste, şi abstractul este
gratuit (dacă nu este, îl găsiţi pe MEDLINE).
Există reviste gratuite în întregime – cele mai importante sunt BMJ şi NEJM, care sunt
gratuite pentru ţările subdezvoltate, deci şi pentru noi. O altă revistă gratuită pentru noi
este Evidence-based Medicine (www.evidence-basedmedicine.com), care apare la
două luni – voi mai vorbi despre ea. Doar că articolele sunt recenzate aici la mai multe
luni după ce apar.
Eu, ca internist, mai scanez cuprinsul revistelor Lancet, Annals of Internal Medicine,
JAMA şi Archieves of Internal Medicine.
Gratuite în întregime sunt şi alte reviste din grupul BMJ, ca Thorax, Heart şi Gut.
Merită şi Journal Watch – o revistă de informaţie secundară (avînd aceiaşi editori ca şi
NEJM), ai cărei autori scanează peste 50 de reviste medicale importante şi care este
foarte promptă în informaţie; pe vremea cînd am fost abonat la ea, costa 120 USD pe an,
preţ pentru care se primea la fiecare două săptămâni o broşură de circa 8 pagini cu
scurte rezumate ale noutăţilor importante, fiecare şi cu un comentariu – la început am
fost decepţionat de mărimea revistei, dar apoi mi-am dat seama că într-adevăr, numai
atât de puţină informaţie importantă apărea în două săptămâni (din care pe mine mă
interesa şi mai puţin). Am renunţat pentru că informaţia nu era “evidence based”; în
schimb merită abonamentul gratuit la cuprins (la fiecare 5 titluri ai un rezumat complet,
plus că îţi poţi da seama din titlu dacă informaţia este importantă pentru tine, ca să cauţi
mai departe).
Regulile care trebuie aplicate pentru a nu pierde timp preţios1:
1. restrânge-ţi cititul regulat numai la acele reviste peer-reviewed (care au
recenzori externi independenţi) care furnizează articolele de bază necesare
specialităţii tale.
2. citeşte numai acele articole originale şi sinteze sistematice (systematic
reviews) care au relevanţă directă pentru domeniul tău curent de activitate.
3. înainte de a le citi în detaliu, scanează întâi metodele şi rezultatele
acestor studii, pentru a vedea dacă par de bună calitate metodologică; dacă
nu sunt de calitate, nu mai pierde timpul cu ele.
În privinţa altor surse de informaţie:
- dacă ai de învăţat pentru un examen, învaţă după un tratat!
- reprezentanţii medicali ai firmelor farmaceutice ne pot aduce uneori informaţii
noi, interesante cu privire la studii terapeutice; căutaţi întotdeauna semnificaţia
clinică (nu numai statistică) a informaţiilor din broşurile lor şi cereţi-le articolele în
întregime – uneori vi le furnizează.
- la prezentările de firmă te poţi duce din când în când, ca să poţi intra în
restaurante în care pe banii tăi oricum n-o să reuşeşti niciodată. Raportul
cost/eficienţă cel mai bun este reprezentat de combinaţia: 1 expunere (maxim ½ oră)
/ 1 prânz la care ai locul tău şi eşti servit. Orice iese din acest cadru, nu merită.

6
- participarea la congrese merită doar pentru a-i cunoaşte pe colegii noştri din alte
părţi şi a le vedea interesele şi cercetările (ca să ne dăm seama unde ne situăm noi);
pentru informaţiile medicale nu merită să batem atâta drum - le putem avea din
fotoliu, de pe internet; în plus, expunerile de la congrese sunt mult mai influenţate
de industria farmaceutică decât cele din reviste. (Pentru a vedea puţinele cazuri în
care merită să te duci la un congres, vezi şi 2).
II.2 Căutarea ţintită a informaţiei medicale
Surse nefiltrate de informaţie medicală
MEDLINE este gratuit prin National Library of Medicine. Pentru căutare, folosim
operatorii logici AND, OR şi NOT (ex: “thrombosis AND ultrasound” ne va da acele
articole în care se găsesc, concomitent, şi tromboza, şi ecografia - mai mult ca sigur că
studii diagnostice; “thrombosis AND pulmonary embolism” la fel, articolele care se
referă la amândouă, pe când “thrombosis OR pulmonary embolism” va găsi atât
articolele despre amândouă, cât şi pe cele care tratează pe fiecare în parte – aşadar toate
articolele în care se găseşte termenul “thrombosis”, indiferent de localizarea trombozei,
plus toate articolele în care se găseşte embolia pulmonară; în sfârşit, “thrombosis NOT
pulmonary embolism” ne va găsi toate articolele privind trombozele, cu excepţia celor
referitoare la embolia pulmonară).
Dacă nu ştim exact ce termen să introducem pentru căutare (fie nu ştim exact ortografia
în engleză, fie nu ştim dacă să introducem, de exemplu, “renal” sau “kidney”), căutăm
în MeSH (Medical Subject Headings), care este un tezaur de “cuvinte cheie” (link-ul se
află pe banda albastră din stânga) şi alegem termenul cheie de care avem nevoie. Putem
efectua căutări şi cu termeni care nu sunt în MeSH (dacă în MeSH este “renal”, putem
căuta şi cu “kidney” şi vom găsi cu siguranţă articole în plus).

Figura II.1. Ecranul Clinical Queries de pe MEDLINE (Pub Med)

7
Problema cu MEDLINE este că vom găsi sute, chiar mii de titluri, dintre care
majoritatea nu au nici o relevanţă (sunt bune de aruncat la coş) din punctul de vedere al
MBD. De aceea vă recomand să intraţi, tot de pe banda albastră din stânga, în Clinical
Queries, care este un sistem de căutare dezvoltat de Brian Haynes. Încercaţi-l şi o să
vedeţi diferenţa (şi dacă vă veţi uita pe banda de sus a ecranului cu rezultatele, veţi
înţelege şi strategia de căutare).
Altă problemă pe care o avem cu MEDLINE este că nu putem vedea decât abstractele şi
nu putem evalua calitatea metodologică a studiului. Prin Clinical Queries, probabil că
studiile terapeutice sunt studii clinice randomizate, pentru că aceasta este condiţia din
strategia de căutare, dar nu putem şti mai mult.
De reţinut este faptul că în revistele cu recenzori externi se întâlnesc de obicei articole
de o bună calitate metodologică, pe când în cele obscure nu vom întâlni niciodată aşa
ceva.
De asemenea, trebuie să mai ştim că studiile terapeutice sponsorizate de industria
farmaceutică sunt mai degrabă pozitive decât cele independente (fapt care este, din
păcate valabil şi pentru sintezele sistematice şi metaanalize – de aici şi îndelungata
discuţie din cadrul Colaborării Cochrane dacă să înceapă sau nu să accepte
sponsorizări). Mai mult, este indicat să ne uităm şi la afilierea autorilor şi conflictele de
interese; că autorii acestor studii primesc granturi de la sau ţin conferinţe plătite pentru
firma care sponsorizează şi studiul este deja un loc comun; uneori, însă, vedem că mai
mulţi dintre autori chiar lucrează la firma farmaceutică respectivă, iar autorul principal
are acţiuni la ea3 - un studiu pozitiv le poate creşte valoarea cu câteva procente, în timp
ce unul negativ le poate scădea cu tot atâta4.
Surse filtrate de informaţie medicală
Evidence-based Medicine, editată de grupul BMJ, este gratuită pentru noi; din păcate,
pe Internet nu avem decât numerele din 2000 până în prezent, deci nu putem accesa
nimic mai vechi. ACP Journal Club, editată de American College of Physicians şi
BMJ Group (aceiaşi editori: Brian Haynes şi Paul Glasziou) nu are acest neajuns,
conţinînd toate informaţiile din Evidence-based Medicine şi recenzând şi articole în plus
– dar este pe bani, 80 USD pe an. Recomand ca orice căutare să înceapă cu Evidence-
based medicine (sau ACP Journal Club, dacă aţi subscris) şi InfoRetriever, şi numai
dacă nu găsiţi ceea ce căutaţi să continuaţi cu MEDLINE (ceea ce se va întâmpla destul
de des, pentru că sursele filtrate de informaţie nu recenzează decât articole de o înaltă
calitate metodologică şi multe domenii nu beneficiază de astfel de studii).
Altă posibilitate deloc de neglijat este căutarea sintezelor editate de Colaborarea
Cochrane; gratuit avem acces numai la abstracte, dar măcar ştim că sunt de calitate
(pentru accesul total, preţul este circa 500 USD pe an).
Ovid Technologies este o firmă care furnizează software de căutare şi acces la multe
baze de date (inclusiv Cochrane Systematic Reviews şi articole full text din numeroase
jurnale); este foarte scump, dar măcar Biblioteca Universităţii sau Centrul de
Documentare Medicală ar trebui să beneficieze de serviciile acesteia.
Accesul la InfoPOEMS (POEMS = Patient Oriented Evidence that Matters) /
InfoRetriever costă 249 USD pe an (www.infopoems.com); acest program conţine o
bază de date care poate fi adusă la zi lunar, poate folosi la căutarea pe MEDLINE,
conţine de asemenea ghidurile clinice ale diferitelor societăţi de specialitate şi, mai
deosebit, “reguli de decizie clinică”, prin care se calculează probabilitatea unui anumit
diagnostic clinic în funcţie de diversele semne şi simptome (regulile sunt bazate pe
studii diagnostice sau prognostice de bună calitate). De când a fost cumpărata de
Wiley&Sons există şi abstractele Cochrane. Este furnizată şi varianta pentru PDA,
foarte utilă5.

8
BMJ Updates (www.bmjupdates.com) este mai recentă; articolele sunt evaluate întâi
din punct de vedere metodologic, după care sunt notate de medici de diverse specialităţi
în privinţa relevanţei şi a noutăţii.
Clinical Evidence (www.clinicalevidence.com ), editat tot de BMJ Group (ca şi
Evidence Based-Medicine şi BMJ Updates), este gratuit pentru ţările subdezvoltate –
deci şi pentru noi. Nu are decât informaţie privind terapia, dar foarte bine sistematizată.
Există şi varianta pentru PDA (care trebuie platită).
UpToDate, pornită ca o bază de date de medicină bazată pe dovezi pentru nefrologie,
este cea mai exhaustivă resursă şi aici se găsesc multe informaţii pe care cu greu le
putem găsi altundeva. Pentru a reuşi însă această performanţă, sunt adunate informaţii
provenite din tot felul de studii, nu toate de bună calitate metodologică. Ramâne ca noi
să alegem şi să evaluăm calitatea surselor, care este detailată. Avantajul este că orice
căutăm, vom găsi, spre deosebire de resursele clasice de MBD, unde pentru majoritatea
subiectelor nu vom găsi nimic, pentru că nu există studii de bună calitate. Este cea mai
scumpă resursă – 430 USD pe an (furnizată şi varianta pentu PDA).

Figura II.2. Informaţie de calitate la patul bolnavului (InfoRetriever şi UpToDate pe PDA)

II.3 “5S” al lui Bryan Haynes


Pentru aplicarea unei îngrijiri medicale bazate pe dovezi, Bryan Haynes a propus acum
câţiva ani modelul “4S” (Studii – Sinteze – Sinopsisuri – Sisteme)6, la care de curând
a mai adăugat un S (Summary= rezumat, între sinopsis şi sisteme)7 (dacă ne uităm în
dicţionar vedem că sinopsisul este tot un rezumat foarte concentrat).
Piramida lui Haynes (Fgura II.2 ) are la bază studiile (pe care le găsim pe
MEDLINE, căutate eventual prin Clinical Queries); deasupra se găsesc sintezele
sistematice (de exemplu sintezele Cochrane); la etajul următor sinopsisurile, rezumate
foarte scurte ale sintezelor sistematice, aşa cum le găsim în revistele de medicină bazată
pe dovezi; mai sus, rezumatele studiilor, sintezelor şi sinopsisurilor disponibile ce
privesc mai multe aspecte ale unei afecţiuni (cele de mai jos priveau, fiecare, câte un
singur aspect = tratament); în sfârşit, în vârf au rămas sistemele, care ar trebui să
conţină dosarele electronice ale pacienţilor, cu legături directe între caracteristicile

9
pacietului şi dovezile din nivelele inferioare ale piramidei privind caracteristicile
respective, astfel încât sistemul să îşi caute singur cele mai bune dovezi pe baza cărora
să ia cele mai bune decizii (deocamdată, de domeniul viitorului).

Figura II.2. Nivelurile “5S” ale dovezilor rezultate din cercetarea medicală

Exemple:

Suport decizional computerizat


Sisteme

Cărţi de MBD
Sumare

Reviste de MBD (abstracte)


Sinopsisuri

Sinteze sistematice
Sinteze

Studii Articole originale din reviste

Utilizatorii dovezilor de la orice nivel al piramidei trebuie să ştie care sunt


metodele care au stat la baza asamblării acestora şi să se asigure că ele sunt corecte. La
fiecare nivel, standardele pentru generarea, căutarea, selecţia şi analiza dovezilor trebuie
să fie explicită şi la cel mai înalt standard posibil.
De câte ori avem nevoie de un răspuns, căutarea trebuie începută de la cel mai înalt
nivel posibil alpiramidei 5S. Dacă nu lucrăm într-un mediu cu dosare medicale
electronice legate la baze de date de MBD, atunci trecem la rezumate şi căutăm, de
exemplu, în Clinical Evidence, PIER (pier.acponline.org), InfoRetriever sau UpToDate.
Dacă subiectul nu este acoperit (ceea ce nu se va întâmpla cu UpToDate, numai că acolo
trebuie să evaluăm noi calitatea studiilor), mai coborâm o treaptă la sinopsisuri şi ne
uităm în Evidence-based Medicine sau ACP Journal Club. Dacă nici aici nu avem
succes, căutăm o sinteză sistematică în BMJUpdates+, Librăria Cochrane sau PubMed
Clinical Queries. În caz de eşec, trecem la studiile originale, întâi via BMJUpdates+,
apoi prin Clinical Queries dacă este nevoie. În caz că nu vă pricepeţi să utilizaţi
resursele de MBD (fapt pe care trebuie să-l remediaţi rapid), puteţi căuta direct pe
MEDLINE, numai că vă va lua mult mai mult timp şi va trebui să evaluaţi singuri
calitatea studiilor găsite.
II.4 Un viitor care este deja prezent
În practică am văzut că avem nevoie de accesul la informaţie în timp real, fie la patul
bolnavului, fie la raportul de gardă sau la discuţiile cu colegii/rezidenţii/studenţii care au
loc cu alte ocazii. Mai mult, studiile au arătat că dacă nu avem acces la informaţie
imediat, de cele mai multe ori nu ne mai obosim să căutăm după8, 9. Pentru aceasta,
avem nevoie de PDA10, 11, 12, 13-uri sau telefoane inteligente care fie sunt dotate cu
programe/baze de date medicale (Clinical Evidence, InfoRetriever5, UpToDate etc.), fie
le folosim ca să accesăm o reţea internet wireless la nivelul spitalului14.

10
Bibliografie
1. Surveying the medical literature to keep up to date. In: Sackett DL, Haynes B, Guyatt
G, Tugwell P. Clinical epidemiology. A basic science for clinical medicine. 2nd
Edition. Little, Brown & Co, Boston/Toronto/London 1991, p.359.
2. Sackett DL. Becoming a successful clinical investigator. În Haynes B, Sackett DL,
Guyatt G, Tugwell P. Clinical epidemiology. How to do clinical practice research. 3rd
Edition, Lippincott Williams & Wilkins, Philadelphia 2006, p.427.
3. P S Burge, P M A Calverley, P W Jones, S Spencer, J A Anderson, T K Maslen on
behalf of the ISOLDE study investigators. Randomised, double blind, placebo
controlled study of fluticasone propionate in patients with moderate to severe chronic
obstructive pulmonary disease: the ISOLDE trial. BMJ 2000; 320:1297-303.
4. Groza C. Actiunile Pfizer, in cadere liberă după suspendarea dezvoltării unui
medicament. Ziarul Financiar, 5 dec. 2006, p.6
5. Leung GM, Johnston JM, Tin KY et al. Randomised controlled trial of clinical
decision support tools to improve learning of evidence based medicine in medical
students. BMJ. 2003. 8;327(7423):1090-6.
6. Haynes RB. Of studies, summaries, synopses, and systems: the ‘‘4S’’ evolution of
services for finding current best evidence. [editorial]. ACP Journal Club 2001;134:
A11–13, Evidence-Based Medicine 2001;6:36–8.
7. Haynes RB. Of studies, summaries, synopses, and systems: the ‘‘5S’’ evolution of
information services for evidence-based healthcare decisions. [editorial]. Evidence-
Based Medicine 2006;11:162-4.
8. Sackett DL, Straus SE: Finding and applying evidence during clinical rounds: the
"evidence cart" . JAMA 1998, 280(15):1336-1338.
9. Ramos K, Linscheid R, Schafer S: Real-time information-seeking behaviour of
residency physicians. Fam Med 2003, 35(4):257-260.
10 Garritty Ch, El Emam K: Who' s using PDAs? Estimates of PDA use by health care
providers: a systematic review of sur veys. J Med Internet Res 2006, 8(2):e7.
11 Kho A, Henderson LE, MS, Dressler DD, Kripalani S: Use of handheld computers in
medical education. A systematic review. J Gen Intern Med 2006, 21(5):531-7.
12 McAlearney AS, Schweikhart SB, Medow MA: Doctors' experience with handheld
computer s in clinical practice: qualitative study. BMJ 2004, 328:1162-4.
13 Price M: Can hand-held computers improve adherence to guidelines? A (Palm) Pilot
study of family doctors in British Columbia. Can Fam Physician 2005, 51:1506-1507.
14. Leon SA, Fontelo P, Green L, Ackerman M, Liu F. Evidence-based medicine
among internal medicine residents in a community hospital program using smart
phones. BMC Med Inform Decis Mak. 2007; 7:5.

11
III. Tipurile de studii în cercetarea epidemiologică

Studiile descriptive au drept scop descrierea fenomenelor, pentru a şti ce există. Fără
aceste cunoştinţe fundamentale, este imposibil să ne punem întrebări despre etiologii
sau efecte ale tratamentelor sau să propunem teorii care să le explice pe acestea. Sunt
trei tipuri principale de studii descriptive: studiile ecologice, seriile de cazuri şi studiile
transversale.
Studiile ecologice (de corelaţie) sunt populaţionale, neexistând date la nivelul
indivizilor. De exemplu, din statistici putem vedea că în ţările unde se fumează mai
mult, există şi cancer pulmonar cu o frecvenţă mai mare. Această constatare poate
genera o ipoteză – oare fumatul este un factor de risc pentru cancerul pulmonar?
Lipsindu-ne datele individuale, următoarea întrebare la care ar trebui şi nu putem
răspunde este dacă tocmai acei indivizi care fumează fac şi cancerul pulmonar.
În studiile ecologice există noţiunea de comparaţie: comparăm ţările între ele atât în ce
priveşte frecvenţa fumatului, cât şi a cancerului pulmonar.
Cazurile raportate descriu o observaţie neobişnuită şi pot constitui prima etapă de
recunoaştere a unei noi boli sau a unui nou factor de risc. Studiile asupra
estroprogestativelor ca factori trombofili a pornit de la rapotarea unui trombembolism
pulmonar la o pacientă sub acest tratament. Dacă raportăm mai multe cazuri similare,
constituim o serie de cazuri, care a fost de multe ori punctul de plecare pentru definirea
unei noi entităţi nosologice (boala Hodgkin, SIDA etc.). Ele pot genera ipoteze
etiologice pentru testarea cărora sunt necesare alte tipuri de studii, care evaluează dacă
riscul de boală este diferit printre indivizii expuşi faţă de cei neexpuşi la un factor de
risc.
În studiile transversale (de prevalenţă), este evaluat individul în privinţa prezenţei sau
absenţei atât a factorului de risc, cât şi a bolii, în acelaşi timp. Păstrând exemplul cu
fumatul şi cancerul pulmonar, trecem de la studiul populaţiilor (studiul ecologic) la cel
al indivizilor. Astfel, putem lua toţi locuitorii peste 40 de ani ai unui sector din
Bucureşti şi îl întrebăm pe fiecare dacă fumează şi dacă are cancer pulmonar. În cazul în
care fumatul este factor de risc pentru cancerul pulmonar, va trebui să descoperim că
frecvenţa celor cu cancer pulmonar (prevalenţa) este mai mare printre fumători decât
printre nefumători. Evaluând în acelaşi timp atât prezenţa bolii, cât şi a presupusului
factor de risc, nu putem şti exact dacă expunerea a precedat sau nu boala. Studiile
transversale sunt, aşadar, şi ele utile pentru generarea de ipoteze (sau întărirea ipotezelor
generate de tipurile de studii de până acum). O altă utilitate a studiilor transversale este
că prin ele măsurăm frecvenţa cu care este prezentă o boală într-o populaţie
(prevalenţa), fapt care este preludiul oricărei analize sau interpretări ulterioare, iar pe de
altă parte permite demararea unor programe de sănătate publică adresate bolii mai
frecvente şi/sau populaţiei mai afectate.
Studiile analitice au ca scop determinarea rolului posibil al unuia sau mai multor factori
în etiologia sau tratamentul unei boli. În acestea există o comparaţie explicită a
frecvenţei bolii înre cei expuşi la factorul respectiv şi cei neexpuşi. Ele sunt de două
feluri, observaţionale şi experimentale. În studiile observaţionale, investigatorul nu
intervine cu nimic în mersul lucrurilor, ci doar observă ce se întâmplă. De exemplu,
observă femeile care iau estroprogestative şi pe cele care nu iau, şi măsoară frecvenţa
apariţiei trombozelor la unele şi la celelalte. În studiile experimentale, investigatorul
determină cine va fi expus şi cine nu la factorul de risc (cine ia estroprogestative şi cine
nu, caricatural: cine fumează şi cine nu), iar dacă alocarea factorului este întâmplătoare,
se numeşte studiu clinic randomizat.

12
Studiile observaţionale sunt de două feluri la rândul lor, studii de cohortă şi studii caz-
martor.
În studiile de cohortă se porneşte de la expunerea la factorul studiat - indivizi expuşi şi
indivizi neexpuşi, fumători şi nefumători, urmărindu-i un anumit interval de timp, la
sfârşitul căruia se constată câţi dintre indivizii expuşi au făcut boala în acest interval de
timp (incidenţa) şi câţi dintre cei neexpuşi au făcut-o; dacă fumatul este într-adevăr un
factor de risc pentru cancerul pulmonar, proporţia celor care au făcut cancer trebuie să
fie mai mare printre fumători decât printre nefumători.
În studiile caz-martor se porneşte invers, de la efect (boală) la factorul de risc. Astfel,
se iau pacienţi cu cancer pulmonar şi martori fără cancer, stabilindu-se apoi care este
frecvenţa factorului de risc (fumatul în acest caz) în cele două grupuri. Dacă fumatul
este factor de risc pentru cancer, trebuie să găsim o proporţie mai mare de fumători
printre cei cu cancer pulmonar decât printre cei fără cancer. Prin natura lui, studiul caz-
martor este retrospectiv (avem boala în prezent, cercetăm un factor de risc în trecut).
Studiile experimentale (cel mai frecvent, studii terapeutice) sunt studii de cohortă.
Este important de reţinut că o anumită ipoteză de cercetare poate fi abordată prin diverse
tipuri de studii, depinzînd de anumite caracteristici ale expunerii şi efectului,
consideraţii logistice de timp şi resurse, ca şi de existenţa studiilor anterioare şi golurile
de cunoaştere care mai sunt de umplut.

13
IV. Tipurile de variabile şi testele statistice

Alegerea metodei de analiză statistică pentru o anumită problemă depinde de


comparaţia pe care vrem să o facem şi de tipurile de variabile utilizate. Aşadar, pentru a
alege testul potrivit trebuie să ne punem două întrebări: Ce fel de date am colectat? Care
este scopul nostru? Aceeaşi analiză o facem şi citind un articol, pentru a vedea dacă
testele utilizate de autorii acestuia sunt cele corecte.
Variabilele nominale sunt variabile sub formă de nume sau alte simboluri reprezentând
categorii ce nu pot fi ordonate una în raport cu cealaltă, de exemplu numele, grupa
sanguină, sexul, rasa, culoarea ochilor, diagnosticul etc. Atunci când o variabilă
nominală nu poate lua decât două valori, ea este o variabilă dihotomică (binară,
bimodală), cum ar fi sex masculin/feminin, mort/viu, fumător/nefumător,
prezent/absent, normal/anormal, care a suferit efectul(end-point)/care nu l-a suferit etc.
– variabile de tip DA/NU.
Variabilele ordinale sunt variabilele ce sunt clasificate în mai mult de două categorii şi
la care există o ordine naturală între categorii (de la valoarea cea mai mică la cea mai
mare) - de exemplu evoluţia bolii (agravat, staţionar, ameliorat), stadializări
(insuficienţa cardiacă, TNM în cancer), scoruri etc. Chiar dacă unele variabile iau valori
numerice, ele sunt considerate ordinale pentru că nu îndeplinesc condiţiile celor
cantitative măsurabile (luând exemplul unui scor de calitate a vieţii, sau al unei scale
analogice vizuale pentru durere, putem spune că un individ cu scorul 10 are o durere
mai mare sau o calitate a vieţii mai bună decât un individ cu scorul 8, dar nu înseamnă
că diferenţa dintre ei este aceeaşi cu aceea dintre un individ cu scorul 4 şi unul cu scorul
2; la fel, nu putem spune că un individ cu scorul 8 are o durere de două ori mai
puternică sau o calitate a vieţii de două ori mai bună decât un individ avînd scorul 4; din
acelaşi motiv, calcularea mediei nu are nici un sens).
Variabilele cantitative (măsurabile) pot fi continue (variabile cu un număr potenţial
infinit de valori de-a lungul unui continuum: înălţimea, greutatea, TA, vârsta etc.) sau
discontinue (discrete)(variabile descrise numai prin unităţi întregi ce nu pot fi măsurate
în intervale mai mici decât unitatea: frevenţa cardiacă, numărul de copii etc.).
În privinţa variabilelor cantitative, este important de văzut dacă acestea au o distribuţie
normală (simetrică, sub forma clopotului lui Gauss); în cazul acestei distribuţii, media
este egală cu mediana şi cu modul, iar 95% dintre valorile pe care le poate lua variabila
se află în intervalul media  două deviaţii standard. Pentru a vedea dacă o variabilă are
distribuţie normală, putem folosi orice program statistic şi verificăm cifric dacă media,
mediana şi modul sunt foarte apropiate (ideal identice, dar în viaţa reală nu există ideal),
iar media minus dublul deviaţiei standard nu trebuie să ia valori negative; sau
reprezentăm variabila sub forma unei histograme şi vizual verificăm forma simetrică, de
clopot.
Este important să ştim dacă distribuţia variabilei noastre este normală pentru că numai
variabilelor cantitative, cu distribuţie normală li se pot aplica testele statistice
parametrice! De asemenea, pentru a putea aplica teste statistice parametrice trebuie ca
nici dispersia (deviaţia standard) celor două grupuri să nu difere foarte mult. Testele
parametrice sunt testele care compară mediile şi deviaţiile standard ale grupurilor despre
care vrem să dovedim că sunt identice sau dimpotrivă, diferite, ori media şi deviaţia
standard nu au nici un sens dacă nu avem o distribuţie normală.
Să presupunem că vrem să vedem dacă TA este diferită la bărbaţii faţă de femeile din
Bucureşti; pentru aceasta, ideal ar fi să extragem la întâmplare două eşantioane, unul de
femei, altul de bărbaţi din Bucureşti şi să le măsurăm TA. Cum valorile TA vor avea,
probabil, o distribuţie normală în cele două grupuri, atunci pentru a le compara putem

14
folosi un test parametric, care este testul t (Student). Dacă vrem să comparăm mai multe
grupuri deodată (de exemplu vrem să vedem dacă TA a moldovenilor, ardelenilor sau
regăţenilor diferă între ele), folosim analiza varianţei în sens unic (one way ANOVA),
aplicând testul F, care ne va arăta dacă TA este diferită sau nu în cele trei regiuni
istorice, fără a ne spune însă care este grupul care diferă de celelalte.
Testele nonparametrice se aplică pentru variabilele cantitative fără distribuţie normală
(Figura IV.1) şi pentru variabilele ordinale. Să luăm un exemplu din revista Medicina
Internă 2004, 1:57-59 (Dumitraşcu DL et. al), în care se compară stresul la pacienţii cu
dispepsie funcţională şi la martori, pe baza unui chestionar. Pentru comparaţia scorurilor
de stres s-a folosit testul t. În primul rând, în cazul scorurilor nu trebuie folosite teste
parametrice, scorurile nefiind variabile cantitative (vezi explicaţia de la prezentarea
variabilelor ordinale). Să ne imaginăm, totuşi, că scorurile de stres sunt variabile
cantitative – ca să putem aplica testul t ar trebui ca distribuţia lor să fie normală, ori în
tabelul 2 putem vedea scoruri (media şi deviaţia standard) de genul 0,89 şi 0,93; 7,5 şi
5,28; 1,25 şi 0,93; 0,54 şi 0,60; 0,94 şi 1,39 (şi încă altele), din care se observă clar că
distribuţia nu este normală (dacă scădem din medie 2 deviaţii standard avem scoruri
negative, care nu există în realitate), aşadar pentru comparaţie ar fi trebuit folosit un test
nonparametric (testul Mann-Whitney U).
Aşadar, pentru variabilele cantitative care nu au o distribuţie normală şi pentru cele
ordinale se folosesc testele nonparametrice. De exemplu, dacă vrem să demonstrăm că
pacienţii cu insuficienţă cardiacă internaţi în spitalul X sunt mai gravi decât cei internaţi
în spitalul Z, comparînd clasa NYHA de insuficienţă cardiacă între cele două grupuri.
Atunci când pacienţii sunt împerecheaţi, folosim testele statistice împerecheate (paired),
parametrice sau nonparametrice. Singura împerechere perfectă se realizează atunci când
împerechem pacientul cu el însuşi, în comparaţiile înainte-după. De exemplu,
comparăm TA, sau colesterolul unor participanţi la un studiu înainte de a începe
tratamentul şi după o lună de tratament. Variabila (TA, colesterolul) fiind continuă şi cu
o distribuţie probabil normală, vom folosi un test parametric, şi anume testul t
împerecheat. Dacă variabila de comparat nu are o distribuţie normală (de exemplu
valoarea creatininei la pacienţii cu insuficienţă renală) sau este o variabilă ordinală
(stadializarea tumorii, sau clasa NYHA a insuficienţei cardiace, sau scorul durerii pe o
scală analogică vizuală, înainte şi după un tratament), vom folosi un test nonparametric
împerecheat, care este testul Wilcoxon.
Echivalentul nonparametric al ANOVA (testul F) este testul Kruskal-Wallis.
Testele nonparametrice nu ţin cont de valoarea efectivă a variabilei, ci de ordinea lor
(rank tests) – care este valoarea cea mai mică, care este următoarea şi aşa mai departe...
În cazul variabilelor dihotomice (pentru compararea proporţiilor) se foloseşte testul X2
sau variantele sale Yates şi mai ales testul exact al lui Fisher (atunci când în tabelul de
contingenţă 2x2 avem într-una din căsuţe o valoare aşteptată mai mică de 5). De
exemplu atunci când vrem să comparăm proporţia de pacienţi care a făcut infarct în
grupul tratat cu statină cu proporţia de pacienţi care a făcut infarct în grupul tratat cu
placebo. De remarcat că în studiile terapeutice, atunci când avem de-a face cu efecte
surogat studiem variabile cantitative (TA, transaminaze, clasa NYHA, fracţia de ejecţie,
densitatea osoasa etc.), pe când în cazul efectelor serioase avem de-a face cu variabile
dihotomice (pacientul a suferit sau nu infarctul de miocard, fracura, decesul etc.).
Când vrem să vedem cum (şi dacă) variază o variabilă cantitativă în funcţie de o altă
variabilă cantitativă, aşadar vrem să vedem în ce măsură două variabile cantitative se
corelează, calculăm coeficientul de corelaţie al lui Pearson ( r). De exemplu, putem
vedea dacă vârsta se corelează cu VSH (adică VSH creşte odată cu vârsta).

15
Dacă variabilele cantitative nu au o distribuţie normală, sau sunt ordinale (de exemplu,
corelaţia dintre fracţia de ejecţie şi clasa NYHA a insuficienţei cardiace stângi, sau
dintre valoarea transaminazelor şi cea a scorului necroinflamator găsit la biopsia
hepatică) utilizăm echivalentul nonparametric al coeficientului Pearson, care este
coeficientul de corelaţie Spearman.
Dacă, în cazul a două variabile care se corelează, putem spune care variabilă o
determină pe cealaltă şi/sau vrem să calculăm valoarea unei variabile ştiind-o pe
cealaltă, utilizăm regresia lineară (de exemplu, ştiind valoarea ALAT, putem prezice
scorul necro-inflamator de la biopsie, sau ştiind înălţimea prezicem valoarea VEMS, sau
ştiind doza de captopril pe care o administrăm prezicem cu cât va scădea TA).
Variabilele cantitative pot fi transformate oricând în variabile ordinale sau dihotomice
(de exemplu valorile colesterolului în quartile, sau în colesterol normal/crescut). În baza
noastră de date este indicat să trecem (şi pentru aceasta să culegem) variabilele noastre
ca atare, pentru că apoi putem să le transformăm oricând în ordinale sau dihotomice, pe
când invers nu vom putea niciodată (de exemplu introducem în baza de date anemie
DA/NU şi apoi descoperim că ar fi fost mai bine să avem chiar valorile hemoglobinei!).
Partea cea mai dificilă este alegerea între testele parametrice şi cele neparametrice.
Alegem clar un test nonparametric în trei situaţii: 1.efectul este o variabilă ordinală şi
populaţia este clar non-Gaussiană (de exemplu notele studenţilor, scorul Apgar, scala
vizuală analogică pentru durere etc.); 2.efectul este o variabilă cantitativă şi suntem
siguri că nu are o distribuţie gaussiană în populaţie (în acest caz o putem aduce la o
distribuţie normală prin transformare: logaritmul, reciproca, rădăcina pătrată – din punct
de vedere matematic este corect, mai puţin din punct de vedere biologic); şi 3.efectul
este o variabilă cantitativă cu distribuţie gaussiană, dar dispersia (deviaţia standard) este
mult diferită între grupurile de comparat.
Deseori alegerea este dificilă. Când avem cazuri puţine, este greu de spus dacă
distribuţia este Gaussiană, iar testele speciale pentru verificarea normalităţii
(Kolmogorov-Smirnov) au putere mică. De fapt, ceea ce contează este distribuţia la
nivelul populaţiei, şi nu la nivelul eşantionului nostru, iar informaţii despre distribuţia
valorilor unei variabile în populaţie trebuie căutate în literatură! (Este bine de reţinut că
în natură, distribuţiile non-gaussiene sunt frecvente, iar acest fapt este valabil îndeosebi
în cazul valorilor biologice).
Când nu ştim dacă distribuţia este normală, alegerea tipului de test depinde de mărimea
eşantionului: dacă eşantionul este mare (cel puţin 24/30 de date în fiecare grup), este
mai uşor de spus dacă eşantionul provine dintr-o populaţie Gaussiană, dar nu are mare
importanţă, putem folosi orice tip de test, rezultatul va fi acelaşi. Problema apare dacă
eşantionul este mic, când este greu de spus dacă populaţia este gaussiană, dar tocmai
atunci este foarte important: testele nonparametrice nu sunt puternice, iar cele
parametrice nu sunt robuste.
Analiza multivariabilă (sau multivariată) este o unealtă statistică prin care se
determină contribuţia fiecăruia dintre mai mulţi factori la apariţia unui efect. De
exemplu, există o mulţime de factori asociaţi cu apariţia bolii coronariene (fumatul,
obezitatea, sedetarismul, diabetul, hipercolesterolemia, hipertensiunea) – numiţi factori
de risc, variabile independente, sau variabile explicative. Analiza multivariabilă ne
permite să determinăm contribuţia independentă a ficăruia dintre aceşti factori de risc la
apariţia bolii coronariene (numită efect sau variabilă dependentă).
În studiile observaţionale, fiind mai mulţi factori de risc, nu ştim care dintre ei este
adevărat sau în ce măsură asocierea aparentă dintre un factor de risc şi efect nu este
datorată de fapt altora. Să presupunem că în baza noastră de date avem toate
informaţiile şi variabilele privind pacienţii, şi vom testa dacă există o asociere între

16
variabilele fumat şi boala coronariană, fără a ţine cont de vreo altă variabilă. Neexistând
randomizare (nu putem pune pacienţii, prin tragere la sorţi, să fumeze sau nu), chiar
dacă în analiza univariată (bivariată, după alţii) găsim o asociere între fumat şi apariţia
coronaropatiei, aceasta reprezintă o dovadă prea slabă pentru a o considera cauzală.
Poate că fumătorii fac mai degrabă coronaropatie pentru că sunt mai frecvent bărbaţi
şi/sau sunt săraci şi/sau au mai degrabă un stil de viaţă nesănătos în alte privinţe, care
sunt adevăraţii factori de risc. Cu alte cuvinte, relaţia dintre fumat şi coronaropatie poate
fi confundată de aceste alte variabile.
Confuzia apare atunci când o asociere aparentă dintre un factor de risc şi un efect este
afectată de relaţia unei a treia variabile cu factorul de risc şi cu efectul. Pentru ca o
variabilă să fie un factor de confuzie, aceasta trebuie să se asocieze atât cu factorul de
risc, cât şi cu efectul.
Sexul masculin şi sedentarismul pot fi factori de confuzie, deoarece sunt asociate atât cu
fumatul, cât şi cu boala coronariană. Prin analiza multivariabilă, putem demonstra că şi
după ajustarea pentru sexul masculin şi sedentarism, fumatul are o relaţie independentă
cu boala coronariană. (De altfel acest cuvânt, “ajustat” care apare într-un articol ne
spune de fiecare dată că la rezultatul prezentat s-a ajuns printr-o analiză multivariabilă.)
Să presupunem că în analiza univariată, boala coronariană este asociată cu consumul de
cafea (riscul relativ=5, cu semnificaţie statistică). Bănuim, însă, că există un factor de
confuzie, şi anume fumatul, care este asociat cu consumul de cafea (cei care beau cafea,
în general fumează) şi cu efectul (am descoperit asocierea fumat-coronaropatie). Pentru
a verifica această ipoteză, facem o analiză multivariată simplă, în care introducem ca
variabile independente atât cafeaua, cât şi fumatul, şi vom vedea efectul fiecăreia dintre
ele asupra apariţiei coronaropatiei. Dacă riscul de a face boală coronariană se menţine
semnificativ statistic la cei care consumă cafea, înseamnă că aceasta reprezintă un factor
de risc independent pentru boala coronariană. Dacă însă, în analiza multivariată, riscul
dispare, înseamnă că într-adevăr, relaţia cafea-coronaropatie a fost confundată de relaţia
adevărată, fumat-coronaropatie. Bineînţeles că în analiza multivariată vom găsi o relaţie
semnificativă statistic fumat-coronaropatie.
Deşi teoretic se poate face distincţia între asocierea independentă şi confuzie, o variabilă
poate avea în acelaşi timp un efect independent şi să fie un factor de confuzie: de
exemplu sărăcia este un factor de confuzie între fumat şi coronaropatie (cei săraci
fumează mai mult şi fac mai des boala coronariană), dar sărăcia are de asemenea şi un
efect independent asupra apariţiei bolii coronariene (după ajustarea pentru fumat,
colesterolemie şi alţi factori de risc, aceasta rămâne totuşi asociată semnificativ cu
apariţia bolii).
Înafara analizei multivariabile, pentru eliminarea confuziei mai poate fi utilizată analiza
stratificată, prin care se cercetează rolul unui factor de risc în apariţia unui efect, în timp
ce se ţine cealaltă variabilă constantă. Astfel, în exemplul în care cafeaua era asociată în
analiza univariată coronaropatiei, putem reface această analiză separat, la fumători şi
nefumători, şi dacă asocierea rămâne în picioare în cele două grupuri, înseamnă că
efectul cafelei în apariţia coronaropatiei este independent de fumat; dimpotrivă, dacă
asocierea cafea-boală dispare, înseamnă că fumatul a fost un factor de confuzie care a
determinat apariţia unei false relaţii între cafea şi boala coronariană.
Ne putem folosi de stratificare atunci când există două sau trei variabile potenţiale
factori de confuzie; atunci însă când acestea sunt mai multe, stratificarea ar crea zeci de
grupuri în care investigatorul ar trebui să determine relaţia dintre variabile, iar numărul
de pacienţi din fiecare grup ar fi din ce în ce mai mic, pe măsură ce progresăm cu
stratificarea şi s-ar pierde puterea statistică.

17
Indiferent dacă folosim stratificarea sau analiza multivariată, nu trebuie să uităm că
putem stratifica sau ajusta doar pentru variabilele pe care le cunoaştem, ori există mulţi
factori de confuzie necunoscuţi şi deci nemăsuraţi, care ne pândesc la toate colţurile!
Tipurile de analiză multivariabilă sunt trei, în funcţie de variabila dependentă
(efectul): atunci când variabila dependentă este continuă se utilizează regresia lineară
multiplă, dacă aceasta este dihotomică se utilizează regresia logistică, iar când este
reprezentată prin durata de timp până la apariţia unui eveniment (“supravieţuirea”), se
foloseşte analiza hazardului proporţional (modelul lui Cox).

Figura IV.1. Exemplu de distribuţie non-normală: distribuţia VSH într-un studiu (histograma) în
comparaţie cu distribuţia normală (curba lui Gauss). Se observă asimetria distribuţiei VSH datorită
existenţei unor pacienţi cu VSH foarte mare, care trag media spre dreapta, în timp ce mediana nu este
influenţată.

140

120

100

80

60

40

20

0
0 20 40 60 80 100 120 140
10 30 50 70 90 110 130 150

VSH (mediana=26, media=35mm/h)

18
Figura IV.2. Algoritmul utilizării testelor statistice în funcţie de variabile (exemple în text).
( ------ = analiză multivariabilă)

Regresie
Comparaţia a
Student (t) lineară
2 grupuri
multiplă
distribuţie teste Comparaţia a Test F (ANOVA)
normală parametrice 3 grupuri

Corelaţia a 2 Corelaţie
Variabilă variabile în (coeficient Pearson)/
cantitativă acelaşi grup regresie

distribuţie Corelaţia a 2 Corelaţie


nonnormală variabile în (coef. Spearman)
acelaşi grup
Variabilă teste
ordinală non- Comparaţa a Mann-Whitney U,
parametrice 2 grupuri Wilcoxon

Comparaţia a Kruskall-Wallis
3 grupuri

Variabilă Regresie
dihotomică X2 logistică
Fisher exact
Interval de Modelul
Log rank
timp lui Cox

19
V. Semnificaţie statistică; p şi intervale de încredere; semnificaţie clinică

P şi intervalul de încredere sunt rezultatele invariabile ale testelor statistice, şi drept


urmare le găsim în toate articolele ce descriu o cercetare originală (încă din abstract).
Aşadar, în finalul unei cercetări, se efectuează analiza datelor, iar rezultatele acesteia
sunt p şi intervalul de încredere (CI), care ne arată binecunoscuta “semnificaţie
statistică”.
De ce avem nevoie de statistică? Pentru că vrem sa tragem concluzii cât mai valide din
cantităţi limitate de date şi diferenţe importante sunt deseori mascate de variabilitatea
biologică şi/sau imprecizia experimentală. Pe de altă parte, mintea umană excelează în
găsirea de tipare şi relaţii şi tinde să generalizeze în exces.
Se presupune că populaţia este infinită, iar noi ne facem întotdeauna cercetările pe un
eşantion finit, fie că este vorba de câteva zeci de subiecţi, fie că sunt câteva zeci de mii
(ca în marile studii cardiologice, de ex. ALLHAT1). Statistica (în particular p şi CI) ne
foloseşte tocmai pentru a vedea, la sfârşit, dacă rezultatele obţinute pe eşantionul nostru
sunt valabile în general, pe întreaga populaţie şi pot fi extrapolate la aceasta, sau sunt
rezultatul întâmplării survenite în eşantionul nostru.
Să presupunem că vrem să vedem dacă fumatul este factor de risc pentru infarctul de
miocard. Pentru aceasta, alegem un eşantion de n pacienţi (numărul se calculează în
funcţie de 1)semnificaţia clinică a fumatului = riscul relativ şi/sau riscul atribuibil care
consider că merită osteneala a fi evidenţiate, şi de 2)semnificaţia statistică pe care vreau
să o obţin). Îi urmărim şi numărăm câţi fac infarct dintre fumători şi câţi dintre
nefumători, şi calculăm riscul relativ (RR)=2; în urma aplicării unui test statistic (în
acest caz tip X2), obţin un p=0,01, iar calculând intervalul de încredere al RR, obţin
CI[1.3 , 4].
În privinţa p-ului, acest lucru nu înseamnă altceva decât că, dacă în realitate (la nivelul
populaţiei) riscul de a face infarct al fumătorilor ar fi egal cu riscul de a face infarct al
nefumătorilor, probabilitatea ca noi să fi obţinut un RR2 pe un eşantion de n subiecţi
este de 1%. Cu cât p este mai mic, această probabilitate (ca rezultatul obţinut de noi în
eşantionul nostru să nu fie cel real) este mai mică.
Intervalul de încredere (de obicei se calculează cel 95%) ne dă mai multe informaţii: în
exemplul nostru, ne spune că în realitate (adică la nivelul populaţiei), suntem 95% siguri
că riscul relativ este între 1,3 şi 4, adică în realitate, dacă fumezi ai un risc de a face
infarct miocardic de la de 1,3 până la de 4 ori mai mare decât dacă nu ai fuma. (Aceasta
este interpretarea intervalului de încredere. De fapt, intervalul de încredere 95%
înseamnă că dacă noi am repeta acest studiu pe n pacienţi de 100 de ori, în 95 dintre
cazuri am găsi RR între 1,3 şi 4).
A nu se confunda semnificaţia statistică cu cea clinică! Nu înseamnă că dacă p ar fi fost
0,0001 în exemplul de mai sus, fumatul ar fi fost un factor de risc mai mare! Ar fi
însemnat doar că sunt mult mai sigur că RR=2 obţinut în studiul meu e real, iar
intervalul de încredere corespondent ar fi fost mult mai îngust!
Dacă, de exemplu, vrem să demonstrăm că medicamentul m prelungeşte viaţa în
insuficienţa cardiacă, iar rezultatul este că cei trataţi cu placebo au trăit în medie 10 ani,
iar cei trataţi cu m au trăit în medie 10 ani şi o zi, p=0,000001 arată doar că sunt foarte,
foarte sigur că acea zi în plus se datorează medicamentului m, şi nu este rezultatul
întâmplării. Cu cât p este mai mic, intervalul de încredere este mai îngust, iar gradul de
certitudine mai mare.
Un anumit nivel al lui p care indică faptul că o asociere (cum au fost asocierile dintre
fumat şi infarctul miocardic, sau între medicamentul m şi supravieţuirea mai lungă, în

20
exemplele noastre) este semnificativă statistic este determinat arbitrar; în cercetarea
medicală, acest nivel este stabilit, prin convenţie, la 0,05.
Aplicând intervalele de încredere, asocierea (sau diferenţa) nu este semnificativă
statistic atunci când intervalul de încredere îl cuprine pe 1, în cazul rapoartelor (de ex.
risc relativ, odds ratio), sau pe 0, în cazul diferenţelor (de ex. risc atribuibil, reducerea
relativă a riscului, reducerea absolută a riscului etc.) (sau ∞ în cazul NNT).
Drept dovadă că p şi intervalele de încredere ne indică acelaşi lucru (sunt în acelaşi timp
semnificative sau nu statistic), atunci când p=0,05, una dintre extremele intervalului de
încredere 95% este 1, în cazul rapoartelor şi 0, în cazul diferenţelor.
Intervalul de încredere ne dă – spre deosebire de p – şi informaţii asupra puterii
statistice a studiului, atunci când acesta este negativ (vezi şi capitolele XI, XII, XV). De
exemplu, într-un studiu2 care compara două dispozitive pentru cicatrizarea ulcerelor
piciorului diabetic, unul clasic şi scump cu unul nou şi mult mai ieftin, autorii ajung la
concluzia că cel nou, mai ieftin, este la fel de bun ca şi primul, deoarece nu s-a
evidenţiat o diferenţă statistică între ele (p=0,21). Cum avem în fiecare grup numai câte
douăzeci de pacienţi, ne punem pe bună dreptate întrebarea dacă într-adevăr nu există
nici o diferenţă, sau puterea statistică a fost prea mică pentru a evidenţia una. Dacă
revista în care a fost publicat studiul ar fi cerut de la autori şi intervalele de încredere,
sau recenzorii le-ar fi calculat ei înşişi, ar fi văzut că de studiul nu a avut suficientă
putere statistică: vindecarea este cu 10% mai mică în grupul cu dispozitivul mai ieftin
(reducerea absolută a riscului = RAR), intervalul de încredere 95% fiind [-8,3%, 28,3%]
- într-adevăr, nesemnificativ statistic (conţine valoarea 0), dar vedem că în realitate
dispozitivul mai ieftin poate duce de la creşterea cu 8% a vindecării, la scăderea cu
28,3% a vindecării, ultima cifră fiind mai mult decât semnificativă clinic în favoarea
dispozitivului mai scump! În concluzie, studiul nu are nici o valoare şi nu reuşeşte să
arate nici pe departe ce îşi propune (concluzia abstractului a fost: “Dispozitivul Optima
Diab este la fel de sigur şi eficient ca şi dispozitivul TCC în tratamentul ulcerului
piciorului diabetic, dar costul său mai scăzut îl fac să fie preferat în centrele care se
ocupă de piciorul diabetic…”)!

Bibliografie
1. ALLHAT Officers and Coordinators for the ALLHAT Collaborative Research
Group. The Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack
Trial. Major outcomes in high-risk hypertensive patients randomized to angiotensin-
converting enzyme inhibitor or calcium channel blocker vs diuretic: The
Antihypertensive and Lipid-Lowering Treatment to Prevent Heart Attack Trial
(ALLHAT). JAMA. 2002; 288:2981-97.
2. Piaggesi A, Macchiarini S, Rizzo L et al. An Off-the-Shelf Instant Contact Casting
Device for the Management of Diabetic Foot Ulcers. A randomized prospective trial
versus traditional fiberglass cast. Diabetes Care 2007; 30:586–590

21
VI. Ierarhia dovezii: nivelul dovezii şi gradele de recomandare

Într-un capitol trecut am vorbit despre tipurile de studii în cercetarea clinică, (A) studii
observaţionale – 1)studii descriptive: seria de cazuri şi 2)studii analitice: studiile caz-
martor şi de cohortă, B)studiile experimentale: studiul clinic randomizat şi C) studiile
secundare, rezultate din combinarea şi sinteza mai mulor studii primare: recenzia
sistematică şi metaanaliza. Evaluarea standard asupra “greutăţii” diferitelor tipuri de
studii (atunci când pe baza lor trebuie să luăm o decizie de intervenţie clinică) le
situează pe acestea într-o anumită ordine (de la cele mai valide la cele mai puţin valide),
ordine exprimată prin calificative care seamănă cu cele date de organizaţii precum
Standard & Poors sau Moody’s pentru ţări sau firme. Problema este că există mai multe
organisme care acordă astfel de note, iar sistemele de notare diferă, chiar dacă ordinea
în funcţie de validitate este aceeaşi (Tabelul VI.1); din acest motiv există un grup
(GRADE Working Group), foarte activ în ultimul an, care susţine pe de o parte
transformarea notelor în simboluri (de exemplu stele, ca pentru hoteluri), iar pe de altă
parte creşterea simplităţii şi a clarităţii nivelului dovezii şi al gradelor de recomandare1.

Tabelul VI.1.Cel mai înalt nivel al dovezii şi cel mai puternic grad al recomadării pentru patru ierarhii ale
dovezii.
Sursa Cel mai înalt nivel al dovezii Condiţii pentru recomandare
pentru un tratament de grad A
Canadian Task Force on 1 = cel puţin 1 RCT* Un studiu (inclusiv MA sau SR)
Preventive Health care care îndeplineşte toate criteriile
de validitate
Scientific Advisory Council for 1+ = SR† sau MA‡ a mai multor Are la bază dovezi de nivel 1+
the Osteoporosis Society of RCT sau 1 şi consens
Canada 1 = 1 RCT cu putere adecvată
Centre for Evidence-Based 1a = SR de RCT omogene Mai multe studii de nivel 1
Medicine Oxford 1b = 1 RCT cu interval de
încredere îngust
1c = serie de cazuri “toţi sau
niciunul”
Scottish Intercollegiate 1++ = MA de înaltă calitate, SR Cel puţin 1 MA, SR sau RCT
Guidelines Network de RCT sau RCT cu risc foarte clasificate ca 1++ şi referindu-se
mic de eroare sistematică direct la populaţia ţintă; sau 1 SR
1+ = MA, SR sau RCT bine de RCT sau dovezi constând în
făcute, sau RCT cu risc mic de studii clasificate ca 1+ referindu-
eroare sistematică se direct la populaţia ţintă şi
1- = MA, SR sau RCT cu risc având rezultate omogene.
mare de erori sistematice

Aici vom prezenta o ierarhizare clasică, efectuată de Centrul de Medicină Bazată pe


Dovezi din Oxford§, care este cea mai folosită (Tabelul VI.2).

Tabelul VI.2. Nivelul dovezii şi gradele de recomandare


Nivelul dovezii
Nivelul 1.
1.a. Sinteză sistematică a unor studii clinice randomizate (RCT)

*
RCT = studiu clinic randomizat

SR = Systematic review (sinteză sistematică)

MA = metaanaliză
§
http://www.cebm.net/levels_of_evidence.asp

22
1.b. Studiu clinic randomizat (RCT).
1.c. Studiu tip “toţi sau niciunul” (serie de cazuri: înaintea existenţei acestui tratament mureau toţi
pacienţii, acum mai scapă unii, sau înaintea existenţei acestui tratament unii pacienţi mureau, acum scapă
toţi).
Nivelul 2.
2.a. Sinteză sistematică a unor studii de cohortă.
2.b. Studii de cohortă individuale (sau RCT de calitate slabă, de exemplu cu urmărire < 80%).
2.c. Studii ecologice.
Nivelul 3.
3.a. Sinteză sistematică a unor studii caz-martor.
3.b. Studiu caz-martor individual.
Nivelul 4: Serii de cazuri (sau studii de cohortă ori caz-martor de calitate slabă).
Nivelul 5: Opinia expertului, sau bazată pe cercetarea preclinică.

Gradele de recomandare
Gradul A (echivalent cu “Acesta-i tratamentul!”): studii de nivelul 1.
Gradul B (echivalent cu “Poţi aplica acest tratament”): studii de nivelul 2 sau 3 sau extrapolări de la
nivelul 1.
Gradul C (echivalent cu “Ar fi mai bine sa nu…”): studii de nivelul 4 sau extrapolări de la nivelul 2 sau
3.
Gradul D (echivalent cu “Nu trata”, sau, după mine, mai corect: “nu există nici o dovadă că tratamentul e
bun de ceva”): dovezi de nivelul 5 sau studii neconcludente de orice nivel.

Veţi observa cu mirare, citind diverse ghiduri de practică, faptul că numeroase


recomandări sund de gradul D, adică bazate numai pe părerea experţilor! Mai triste,
încă, sunt acele ghiduri în care nici nu sunt indicate nivelul dovezii şi gradul de
recomandare – atunci chiar ştii că cei ce le-au creat nu se bazează pe nimic înafara
părerii proprii!
Vă propun un exerciţiu – notaţi, timp de două sau trei zile, toate recomandările
terapeutice pe care le faceţi pacienţilor (ori studenţilor/rezidenţilor), iar apoi căutaţi să
descoperiţi ce grad de recomandare au avut – vă asigur că veţi avea o surpriză
neplăcută!

Câteva explicaţii:
 După cum se vede, RCT este etalonul dovezii (fie singur, fie mai multe din care s-a
făcut o sinteză), şi nici o dilemă terapeutică nu îşi va avea rezolvarea până la
efectuarea unui RCT. În privinţa nivelului 1c, un exemplu este meningita herpetică,
în care înaintea apariţiei aciclovirului mureau toţi pacienţii, iar un studiu pe 10
pacienţi, din care au scăpat 7 a fost suficient pentru a-i demonstara eficacitatea!
 Studiul caz-martor este singurul care poate fi efectuat atunci când sunt bănuite
efecte adverse rare; din acest motiv sunt des folosite în farmacoepidemiologie.
Când efectele adverse sunt mai frecvente (frecvenţa apropiată de cea a efectului
benefic studiat, pentru a cărui evidenţiere a fost calculată mărimea eşantionului), şi
un RCT poate avea puterea statistică de a le evidenţia; un caz relativ recent este cel
al rofecoxibului, care s-a văzut că produce mai multe infarcte miocardice decât
naproxenul încă din cursul studiului VIGOR, RCT publicat în 20002).
 Dovezile din cercetarea preclinică (fiziologie, fiziopatologie, biochimie etc.) sunt
abia la ultimul nivel. Este adevărat că de aici se porneşte întotdeauna în sintetizarea
un nou medicament – trebuie să ştii ce receptor sau mediator să blochezi sau să
activezi, şi care este structura sa chimică - dar de aici şi până la efectul clinic este un
drum foarte lung, pe care numai un mic procentaj dintre medicamente reuşesc să-l
parcurgă. Toate mecanismele moleculare pe care le invocă firmele farmaceutice la
prezentarea unui produs sunt interesante, dar pe ultimul loc în ierarhia dovezii!

23
 Seriile de cazuri sunt toate studiile tip “Înainte (de tratament) – după (tratament)”,
care nu au grup martor şi prin urmare nu pot beneficia nici de randomizare.
 Ca şi în studiile etiologice, până la consacrarea unui medicament prin unul sau mai
multe RCT, se începe cu studii de nivel scăzut (ipoteza fiziopatologică – serie de
cazuri, apoi eventual studiu observaţional tip caz-martor dacă medicamentul este
deja folosit), ajungîndu-se la studii observaţionale de cohortă şi apoi la RCT-uri mai
ieftine, cu efecte surogat, şi în sfârşit la studiile de calitate superioară care le
consacrează sau elimină.
 Foarte multe dintre medicamentele intens utilizate (unele aflate şi pe listele de
“compensate”) nu au nici un fel de dovezi.

Bibliografie
1. Schünemann HJ, Best D, Vist G, Oxman AD, for the GRADE Working Group.
Letters, numbers, symbols and words: how to communicate grades of evidence and
recommendations. CMAJ 2003; 169 (7):677-80.
2. Bombardier C, Laine L, Reicin L et al, for the VIGOR Study Group. Comparison of
upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid
arthritis. N Engl J Med 2000; 343 (21): 1520-8.

24
VII. Studiile terapeutice fără grup martor

Sunt de fapt serii de cazuri în care se compară starea pacientului după tratament cu
starea pacientului înainte de tratament, trăgîndu-se concluzia că eventuala îmbunătăţire
sau înrăutăţire a acesteia se datorează tratamentului (comparaţie înainte/după).
Multe dintre terapiile populare înainte şi dezavuate astăzi se bizuiau pe serii de cazuri,
iar studiile clinice randomizate efectuate ulterior au infirmat efectele terapiilor
respective; astăzi seriile de cazuri se folosesc în faza a II-a a cercetării medicamentelor,
înaintea introducerii pe piaţă [faza I: testarea iniţială pe câţiva oameni, de obicei
voluntari sănătoşi, pentru evaluarea acţiunii, metabolismului, efectelor secundare şi
pentru designul unui studiu de faza a II-a valid; faza II: experimente controlate pe
câteva sute de pacienţi, pentru evaluarea eficacităţii medicamentului şi determinarea
efectelor secundare frecvente; faza III: studii mai mari implicînd sute sau mii de
pacienţi pentru a afla mai mult despre eficacitatea şi siguranţa medicamentului şi pentru
a-l compara cu alte medicamente (care este un studiu clinic randomizat, RCT); şi faza
IV: studii care monitorizează în continuare eficacitatea şi siguranţa unui medicament
care a fost înregistrat pentru uzul general; pot fi elaborate de asemenea pentru evaluarea
unor noi utilizări ale medicamentului, sau în scop de marketing].
De ce avem nevoie de un grup martor? Pentru că, atunci când nu-l avem, nu putem să ne
dăm seama dacă ameliorarea observată se datorează într-adevăr tratamentului, sau uneia
dintre situaţiile de mai jos:
1. Ameliorarea previzibilă, care are loc în cazul bolilor care oricum se vindecă (cel
mai la îndemână exemplu este răceala). În broşurile pe care le înmânau până de
curând reprezentanţii firmei ce produce Bioparox se arată foarte frumos, în cifre şi
grafic, cum dispare odinofagia sub tratament în medie în 7 zile; cum nu avem grup
martor, ne punem legitima întrebare în cât timp ar dispărea odinofagia din faringite
dacă nu am trata-o deloc – bănuim că în cam tot atâtea zile.
2. Severitatea ondulatorie a bolii. Unele boli au o evoluţie ondulatorie, cu pusee de
activitate şi perioade de remisiune spontană; înafara acestora, practic în oricare
afecţiune există perioade mai bune şi perioade mai proaste, chiar şi pacientul
canceros are şi zile mai bune, în care începe să spere, alături de familie, că poate nu
are cancer, sau că se va vindeca. Evoluţiile ondulatorii sunt de multe ori subiective,
aşadar studiile care măsoară efecte subiective (gen calitatea vieţii, scale analogice
pentru durere, dispnee, astenie etc.) sunt mai des afectate de aceste “ciclicităţi”.
Putem da şi aici un exemplu, este vorba despre o “broşură” mai mare şi mai groasă
decât cea dinainte, reflectând rezultatele unui studiu multicentric efectuat pe
douăsprezece mii de pacienţi cu insuficienţă venoasă profundă trataţi cu detralex,
cărora li s-au măsurat efecte subiective (senzaţia de greutate la nivelul gambei,
durerea etc.)1. Ditamai studiul multicentric, pe mii de pacienţi, dar fără grup martor!
3. Regresia către medie este un fenomen universal în biologie, care arată că la fiecare
individ constantele sunt setate la un anumit nivel, mediu, de la care se pot abate din
când în când, dar tind de fiecare dată să revină către medie. Acesta este şi motivul
pentru care, de exemplu, diagnosticul de hipertensiune se pune după mai multe
măsurători ale tensiunii arteriale (dacă găsim o TA de 150/90 mmHg, există trei
posibilităţi: aceasta este TA a pacientului; l-am prins la o valoare maximă, şi va
reveni la media lui, care este de 130/80, de exemplu; sau dimpotrivă, l-am prins, din
întâmplare la o valoare minimă, şi va reveni la media lui care poate fi 170/100, de
exemplu). La fel se întâmplă cu toate constantele noastre, fie că este vorba despre

25
frecvenţa cardiacă, sau glicemie ori transaminaze etc. Dacă am început tratamentul
imediat după ce am descoperit TA=150/90, peste două zile o vom găsi 130/80 şi
vom trage concluzia că tratamentul merge, sau tot 150/90 şi vom trage eronat
concluzia că nu este eficient, deşi acesta a oprit TA să revină la media de 170/100.
4. Efectul de voluntariat (Hawthorne). Pacienţilor care au acceptat să participe la
studiu le merge mai bine numai pentru că au acceptat să participe (sunt anxioşi,
conştient sau nu, să mulţumească investigatorii). Numele vine de la Uzinele
Electrice Hawthorne de lângă Chicago, unde s-a încercat să se vadă dacă iluminatul
influenţează productivitatea. Astfel, intr-o secţie s-a scăzut gradul de iluminare, în
alta s-a crescut, iar într-o a treia a fost lăsat la fel. Rezultatul a fost că în toate cele
trei secţii a crescut productivitatea, la fel de mult.
5. Efectul placebo, care este un răspuns la tratament independent de efectul eventual
al substanţei active, răspuns ce poate fi atribuit aşteptării unui astfel de efect, cum ar
fi puterea sugestiei. De exemplu, în studiul unui supresor al apetitului, investigatorii
au administrat unor pacienţi obezi în perioade succesive de câte două săptămâni
medicamentul nou, un placebo şi nici un tratament. Atât medicamentul cât şi
placebo au scăzut aportul caloric zilnic, aşadar s-a concluzionat că eficacitatea
noului supresor al apetitului poate fi atribuită efectului placebo. Datorită existenţei
acestui efect, studiile terapeutice trebuie să conţină întotdeauna un grup martor,
tratat cu placebo, iar efectul tratamentului este considerat efectul măsurat în grupul
terapeutic din care se scade efectul măsurat în grupul placebo.
Raportările de serii de cazuri reprezintă încă o parte importantă a literaturii medicale
(deşi în revistele de clasă nu le mai prea găsim). Tipic, o serie se acumulează în timp şi
constă în toţi pacienţii care au îndeplinit anumite criterii într-un interval de timp. Ele
sunt o relatare a experienţei proprii şi au o valoare orientativă, putând furniza
informaţii folositoare despre cum să aplicăm o nouă tehnică şi despre dificultăţile de
care ne putem lovi aplicînd-o.
Un exemplu de serie de cazuri care a schimbat practica medicală este cea din 1847 a lui
John Snow, care a descris 75 de operaţii la care a folosit un echipament pentru anestezia
cu eter (aparatul reuşise să emită vapori de eter pentru inhalaţia pacienţilor, anestezia
fusese indusă la toţi pacienţii, toţi pacienţii îşi reveniseră din anestezie şi intervenţia
chirurgicală fusese efectuată cu mai mare uşurinţă decât fără această anestezie);
rezultatele au ajutat la risipirea neîncrederii care fusese sădită de aplicările
necorespunzătoare ale tehnicii până atunci în Anglia. Duă cum se vede, este un tip de
studiu “toţi sau niciunul”, cotat cu notă maximă - nivelul 1c, grad de recomandare A -
în ierarhia dovezii (singurul tip de studiu terapeutic astfel cotat care nu este studiu clinic
randomizat = RCT). Acest tip de studii, în care efectul este atât de spectaculos încât este
evident după o serie de cazuri (cum au fost efectele penicilinei în sifilis, sulfamidelor în
pneumonia pneumococică şi aciclovirul în encefalita herpetică, după cum se vede de
cele mai multe ori agenţi antiinfecţioşi în boli în care încă nu exista remediu) sunt
extrem de rare în medicina vremurilor noastre, în care noile tratamente scad mortalitatea
doar cu câteva procente.
O altă serie de cazuri celebră a fost cea a lui Pierre Louis, din 1836, o serie de
pneumonii necomplicate şi fără altă boală cronică, pe care le-a clasificat în funcţie de
efect (dacă au supravieţuit sau nu), şi de tratament (dacă s-a aplicat sângerarea precoce
sau mai târziu în cursul bolii); faptul că pacienţii la care sângerarea s-a efectuat precoce
au murit în proporţie mai mare decât ceilalţi a constituit o parte importantă a
argumentaţiei lui împotriva sângerării ca tratament în pneumonii.

26
Exemplele contrare, în care seriile de cazuri au dus la practici medicale încetăţenite
pentru perioade lungi de timp, până au fost “demontate” de studii clinice randomizate
sunt însă mult mai numeroase (radioterapia pentru tratamentul acneei sau al spondilitei
ankilozante, lobotomia prefrontală pentru schizofrenie, şuntul portocav pentru varicele
esofagiene, îngheţarea gastrică pentru ulcer, filtrele la nivelul cavei inferioare pentru
prevenţia emboliei pulmonare, dilatarea cu balonaş a stenozei arterei renale pentru
hipertensiunea secundară, anticoagularea cu INR>3 în sindromul antifosfolipidic şi
multe, multe altele, plus cele care vor urma).
De câte ori seriile de cazuri se referă la o intervenţie (sunt, aşadar, studii terapeutice),
descrierea lor conţine o comparaţie (fie explicită - între subgrupurile unei serii, fie
implicită - între seria respectivă de cazuri care a fost supusă intervenţiei noi, şi
aşteptările sau experienţa obişnuite de până atunci). Studiile se numesc fără martori
interni (pentru că martorii nu se află sub supravegherea noastră, în interiorul studiului),
comparaţia efectuându-se cu martori externi, cum ar fi cei istorici (de câte ori încercăm
un tratament nou pe o serie de pacienţi, avem în minte evoluţia pacienţilor cu boala
respectivă din populaţia generală, sau evoluţia pacienţilor cu boala respectivă până
acum, când am introdus acest tratament, şi comparăm de fapt evoluţia pacienţilor sub
noul tratament, cu ceea ce ştim despre evoluţia pacienţilor care nu au beneficiat de el).
Interpretarea seriilor de cazuri depinde de claritatea cu care autorul furnizează o serie de
detalii absolut necesare: definiţiile folosite, criteriile de includere şi excludere şi
numărul total de pacienţi din care au fost selectaţi cei care au format seria, cum a fost
pus diagnosticul, cum a fost măsurat efectul – adică toate acele detalii care sunt
necesare şi la studiile de calitate superioară. În plus, trebuie cunoscute şi valorile
celorlalte variabile care pot constitui factori de risc pentru efectul studiat – vârsta, sexul,
stadiul bolii etc.
Pentru evaluarea validităţii seriilor de cazuri se cere răspunsul la următoarele întrebări2:
1. A fost tratamentul administrat cu scopul explicit de a influenţa efectul descris
(vindecarea, supravieţuirea sau incidenţa complicaţiilor)?
2. Reiese clar că intenţia autorilor de a analiza şi raporta descoperirile lor a precedat
generarea datelor (începerea studiului)?
3. Au arătat autorii că aveau un raţionament plauzibil pentru interpretarea datelor încă
dinainte de analiza lor?
4. Ar fi fost rezultatele interesante (publicabile) dacă ar fi fost diferite? Dacă ar fi fost
rezultatele negative, ar fi avut şanse să fie raportate?
5. Prezintă autorii argumente rezonabile pentru generalizarea rezultatelor?
După cum se vede, sunt întrebările care se pun în cazul fiecărui studiu, chiar şi la cele
mai valide cum ar fi RCT, ele trebuind sa scoată în evidenţă faptul că ipotezele şi
modalităţile de analiză a datelor au fost stabilite conform unui protocol, înaintea
începerii studiului, şi nu a posteriori unor descoperiri întâmplătoare. Fiecare dintre
aceste întrebări este concepută pentru a vedea dacă interpretările standard ale
intervalelor de încredere şi valorilor P sunt mai mult sau mai puţin justificate. Un număr
mai mare de răspunsuri pozitive va susţine deducţiile statistice. Chiar dacă toate
răspunsurile la aceste întrebări ar fi “DA”, datele trebuie privite cu scepticism.
În principiu, se consideră că studiile terapeutice tip înainte/după pot fi mai greu fals
negative, astfel că dacă la un astfel de studiu o terapie nu pare a avea efect, nu are rost
să trecem mai departe la studii costisitoare precum RCT.
În concluzie trebuie reţinut că seriile de cazuri sunt dovezi de calitate inferioară (nivelul
4, gradul C de recomandare - penultimele – vezi Capitolul VI), şi că ele folosesc mai
ales pentru a ridica ipoteze (cu excepţia rarelor serii de cazuri “tot sau niciunul”, aflate

27
în vârful ierarhiei piramidei dovezii) ce trebuie verificate prin studii de calitate
superioară.

Bibliografie
1. Jantet G. Chronic venous insufficiency: worldwide results of the RELIEF study.
Reflux assEssment and quaLity of lIfe improvEment with micronized Flavonoids.
Angiology 2002;53:245-56.
2. Baillar III JC, Louis TA, Lavori PW, Polansky M. Studies without internal controls.
In: Baillar III JC, Mosteller F. Medical uses of statistics , 2nd Edition, NEJM Books,
Boston, 1992, p.120.

28
VIII. Studiile clinice randomizate

Atunci când citim un studiu despe terapie ne interesează două lucruri: dacă studiul a fost
corect efectuat din punct de vedere metodologic (validitatea) şi care au fost rezultatele.
Dacă studiul nu a fost valid, rezultatele nu mai au mare importanţă, pentru că nu avem
nici un argument pentru a putea susţine că ele sunt reale, iar dacă rezultatele nu sunt
bune (noul tratament nu îmbunătăţeşte prognosticul), atunci nu ne mai interesează
validitatea studiului1.
De fapt, lucrurile nu stau chiar aşa: şi în cazul în care studiul nu a fost impecabil
metodologic, dacă tratamentul nou pare promiţător înseamnă că merită investit într-un
studiu superior, pentru a vedea în ce măsură tratamentul are într-adevăr valoare; iar dacă
studiul este negativ, trebuie văzut dacă el a fost proiectat astfel încât să aibă puterea
statistică de a evidenţia o eventuală diferenţă între tratamentul nou şi cel martor, şi nu
cumva ne confruntăm cu o eroare de tip beta (studiul nu reuşeşte să evidenţieze o
diferenţă între tratamente, când de fapt ea există)2.
Ca la orice alt tip de studiu, pentru a putea susţine veridicitatea rezultatelor trebuie să ne
asigurăm că nu au intervenit erorile sistematice (bias) sau întâmplarea, care alterează
aceste rezultate. De erorile sistematice ne păzeşte o metodologie corectă, iar rolul
întâmplării este estimat de către statistică.
În privinţa evitării erorilor sistematice, există un gold standard metodologic, iar acesta
este studiul clinic randomizat (RCT). Practic există o serie de condiţii pe care trebuie
să le îndeplinească un RCT pentru a fi corect metodologic, iar fiecare dintre aceste
condiţii nu este altceva decât un “câine de pază” împotriva erorilor sistematice. Aceste
condiţii trebuie respectate atunci când cercetăm eficacitatea unui nou tratament
(epidemiologie clinică) şi, logic, de respectarea acestor condiţii depinde nota pe care o
dăm unui studiu terapeutic (medicina bazată pe dovezi).
Eroarea sistematică (bias) este o deviere sistematică a rezultatelor sau deducţiilor. În
studiile terapeutice, erorile sistematice pot lua naştere din diferenţe sistematice între
grupurile care sunt comparate în ceea ce priveşte: selecţia participanţilor (selection bias,
eroare sistematică de selecţie), îngrijirea acordată sau expunerea la alţi factori înafara
intervenţiei de interes (performance bias, eroare sistematică de execuţie), retrageri sau
excluderi de participanţi incluşi în studiu (attrition bias, eroare sistematică de uzură)
sau modul de evaluare a efectelor (detection bias, eroare sistematică de detecţie)2
(Figura VIII.1). Vom vedea exemple mai departe.
Aflaţi în faţa unui studiu terapeutic, treuie să ne răspundem următoarelor întrebări, care
reprezintă o grilă de evaluare3:
 Sunt rezultatele studiului valide?
1. Criterii primordiale:
- A fost alocarea pacienţilor pentru tratament aleatorie?
- A fost alocarea ascunsă?
- Au fost gupurile similare la începutul studiului?
- A fost urmărirea completă?
- Au fost pacienţii analizaţi în grupul în care au fost alocaţi (“intention-to-
treat-analysis”)?
2. Criterii secundare:
- Au fost pacienţii, clinicienii şi personalul implicat în studiu “orbi”?
- Cu excepţia intervenţiei experimentale, au fost grupurile tratate egal?
 Sunt rezultatele studiului importante?

29
- Cât de mare a fost efectul tratamentului (risc relativ, reducerea relativă a
riscului, reducerea absolută a riscului, număr de pacienţi necesar a fi
tratat)?
- Cât de precisă a fost estimarea efectului tratamentului (intervale de
încredere)?
 Mă vor ajuta rezultatele în îngrijirea pacienţilor mei?
- Pot fi aplicate rezultatele în îngrijirea pacientului meu?
- Au fost luate în consideraţie toate rezultatele clinice importante?
- Merită efectele tratamentului potenţialele efecte negative şi costurile?

Figura VIII.1. Studiile randomizate - modalităţi metodologice de evitare a erorilor sistematice.

Eşantion

Alocare

erori sistematice de selecţie


Tratament Martor
(randomizare)

Expus Neexpus erori sistematice de execuţie


tratamentului tratamentului (orbire)

erori sistematice de uzură şi migrare


urmărire urmărire (analiza în intenţie de tratament)

erori sistematice de detecţie


efect efect
(orbire)

1. A fost alocarea pacienţilor aleatorie?


Alocarea aleatorie (întâmplătoare, randomizată) reprezintă elementul care deosebeşte
studiile experimentale, cum sunt RCT, de cele observaţionale (studii caz-martor şi de
cohortă) şi care face diferenţa, din punctul de vedere al validităţii. Randomizarea este,
practic, singura metodă pentru eliminarea erorilor sistematice de selecţie.
Atunci când comparăm două tratamente, trebuie ca grupurile alocate celor două
tratamente să fie identice, cu excepţia tratamentelor. Dacă ele nu sunt identice, nu vom
şti dacă pacienţii din grupul A trăiesc mai mult sau fac infarct miocardic mai târziu
pentru că îi protejează medicamentul a, mai bun decât medicamentul b, cu care a fost
tratat grupul B, sau între cele două medicamente nu există nici o diferenţă, iar pacienţii
din grupul A au trăit mai mult de fapt pentru că ei aveau o tensiune mai mică, printre ei
erau mai puţini fumători, erau ceva mai tineri, aveau un statut social mai bun, făceau
mai multă mişcare etc. Aşadar, distribuţia celorlalţi factori de risc sau de protecţie
trebuie să fie egală între cele două grupuri trapeutice pentru a putea trage concluzia că
diferenţa provine numai din medicaţia administrată.

30
Este adevărat că avem mijloace matematice pentru a analiza cele două grupuri ca şi cum
acestea ar fi egale, cu excepţia tratamentului - de exemplu analiza stratificată (care însă
nu este posibilă atunci când avem mai mulţi factori de risc, cum se întâmplă de obicei)
sau analiza multivariabilă, care ia în consideraţie simultan aportul fiecărui factor de risc
(inclusiv a medicaţiei de studiat); problema cu acest tip de analize este însă aceea că
putem stratifica sau introduce în modelul de analiză multivariabilă numai acei factori de
risc pe care îi cunoaştem, ori randomizarea de aceea este importantă, pentru că
omogenizează grupurile de comparat în pivinţa tuturor factorilor care ar putea influenţa
deznodământul, inclusiv a celor care n-au fost descoperiţi încă. Să luăm exemplul unui
tratament de prevenire a infarctului miocadic – dacă studiul nu este randomizat şi
vedem că distribuţia factorilor de risc nu este egală între grupuri (HTA, vârsta, sexul,
ischemia miocardică, angorul de efort, colesterolul, fumatul etc.), putem la sfârşit să
facem o analiză multivariabilă avînd toţi aceşti factori la care adăugăm tratamentul ca
variabile independente, iar apariţia infarctului miocardic ca variabilă dependentă. Dacă
am fi făcut studiul acum zece ani, cu siguranţă nu am fi introdus în ecuaţie proteina C
reactivă, şi poate din întâmplare grupul de comparat (tratat cu placebo) avea o proteina
C reactivă mult mai mare decât grupul tratat cu medicamentul de studiat, iar rezultatul
favorabil al tratamentului s-a datorat de fapt acestei erori sistematice de selecţie (au fost
selecţionaţi pacienţi cu PCR mai mare în grupul placebo) şi nu vreunui efect benefic al
medicamentului. Şi poate că există, de fapt, un alt factor de risc (biochimic, genetic
etc.), nedescoperit încă, având un impact mult mai mare decât oricare dintre factorii
menţionaţi şi deci cunoscuţi, care în cazul distribuţiei inegale între grupurile de
comparat poate duce la concluzii greşite asupra eficienţei tratamentului.
Faptul că randomizarea este o necesitate şi adaugă validitate studiului a fost demonstrat
de fapte (adică există dovezi!): tratamente considerate eficiente pe baza unor studii
terapeutice nerandomizate s-au dovedit fără nici o valoare atunci când a fost efectuat un
studiu randomizat (cel mai cunoscut exemplu este cel al terapiei de substituţie
estrogenică, părând eficient pentru prognosticul cardiovascular în multe studii
observaţionale şi care s-a dovedit ineficient în RCT-ul HERS4, dar mai sunt multe
altele, precum efectul dietei cu fibre pentru prevenirea cancerului colorectal, beta-
carotenul şi vitamina E în bolile cardiovasculare, doza de aspirină în prevenţia
accidentului vascular cerebral ischemic etc.). Aşadar, atunci când căutăm dovezi pentru
vreun tratament, trebuie să căutăm în primul rând studiile în care, în abstract, există
cuvântul “randomizat”; doar dacă nu există, ne uităm pe cele la care alocarea pacienţilor
nu a fost întâmplătoare, avînd în minte faptul că studiile nerandomizate au o
probabilitate mai mare de a fi fals pozitive (adică de a apărea un efect benefic al
tratamentului, care de fapt nu există); dacă însă un studiu nerandomizat a ajuns la
concluzia că tratamentul experimental nu este folositor sau este dimpotrivă nociv, de
obicei putem accepta această concluzie fără prea multă teamă de a greşi pentru că, după
cum am mai spus, rezultatele fals pozitive ale studiilor nerandomizate sunt mult mai
frecvente decât cele fals negative (deoarece pe de o parte tratamentul experimental se
aplică de regulă pacienţilor cu prognostic mai bun, iar pe de altă parte pacienţii care îşi
iau tratamentul cu conştiinciozitate au un prognostic mai bun, chiar dacă acesta nu are
nici un efect sau este un placebo – cu alte cuvinte, pacienţii mai sănătoşi îşi iau mai
conştiincios tratamentul) – Tabelul. VIII.1.

Tabelul VIII.1. Factorii care supraestimează efectul tratamentului


Nonrandomizare +40%
Lipsa orbirii +17%
Doar studii mici +30%

31
Lipsa raportarii detaliilor +25%

De asemenea, dacă mărimea efectului tratamentului într-un studiu nerandomizat este


foarte importantă (de exemplu risc relativ = RR mai mic de 0,33), putem considera că la
efectuarea unui studiu randomizat ar mai rămâne ceva din acest efect şi probabilitatea ca
un studiu să fie fals pozitiv este mai mică.
Alocarea întâmplătoare duce la apariţia unor grupuri terapeutice cu atât mai apropiate cu
cât numărul de pacienţi este mai mare - este uşor de înţeles de ce: dacă dăm cu banul de
10 ori, se poate ca din întâmplare să iasă de 3 ori stema şi de 7 ori banul, iar diferenţa
este importantă. Dacă însă dăm de 500 de ori cu banul, nu prea mai contează dacă iese
de 497 ori stema şi de 503 ori banul.
2. A fost randomizarea ascunsă?
Este importantă şi metoda alocării pentru ca ea să fie cu adevărat întâmplătoare – mai
exact metoda de alocare trebuie să fie în aşa fel aleasă încât investigatorii care includ
pacientul în studiu să nu ştie cărui grup îi va aparţine acel pacient şi astfel să nu poată
înfluenţa acea alocare. Astfel, nu sunt considerate adecvate metode de alocare precum
numărul sau data prezentării la cabinet (spital), data naşterii, numărul foii de observaţie
(numere/date pare = grup tratament, numere/date impare = grup placebo) sau alte
metode similare, pentru că cel care include pacientul în studiu ştie că acesta va fi inclus
în grupul terapeutic, de exemplu, pentru că s-a prezentat într-o dată de 22, şi poate
hotărâ, mai mult sau mai puţin conştient, să nu-l includă sau să-l amâne pentru o altă
dată, eventual impară, determinând astfel apariţia erorilor sistematice de selecţie
(pacienţi mai gravi în grupul placebo şi mai puţin gravi în grupul terapeutic sau invers).
În orice caz alocarea trebuie făcută după ce s-a hotărât că pacientul îndeplineşte
criteriile de includere şi a fost inclus în studiu!
(Pentru ca toate statisticile pe care le efectuăm asupra unui lot studiat să fie valabile şi
să putem generaliza rezultatele obţinute pe acel lot asupra întregii populaţii de pacienţi
cu afecţiunea respectivă, ar trebui ca grupul inclus în studiu să fie reprezentativ pentru
populaţia de interes, fără erori de selecţie. Ideal, un astfel de lot reprezentativ se obţine
prin eşantionarea prin tragere la sorţi din populaţia ţintă, lucru care chiar se petrece în
studiile populaţionale, fie ele de sănătate publică sau sociologice. În studiile clinice însă
acest lucru este mult mai dificil şi atunci se cere ca măcar să fie incluşi în studiu toţi
pacienţii consecutivi, fără nici o excepţie şi fără a-i selecta altfel decât pe baza criteriilor
de includere şi de excludere stabilite înainte de începerea studiului).
Dacă alocarea nu este ascunsă, efectul tratamentului poate fi distorsionat în orice
direcţie, părând mai mare decât este în realitate. De multe ori articolele nu precizează
dacă lista de randomizare a fost ascunsă, dar dacă randomizarea s-a făcut prin telefon
sau prin orice sistem care a fost la distanţă de pacienţi, putem fi liniştiţi. Cei care au
participat la mari studii internaţionale ştiu cum se procedează, randomizarea are loc la
sediul sudiului, la mii de kilometri distanţă.
Probleme apar atunci când este vorba de studii mai mici, monocentrice. Regula este că
pacientul este mai întâi inclus în studiu, şi apoi randomizat, iar cel care face
randomizarea trebuie să fie diferit de cei care tratează pacientul şi măsoară efectul (end-
point-ul), pentru că altfel nu ar mai fi asigurată orbirea.
Metodele adecvate de randomizare sunt, înafara schemelor centralizate de care am
vorbit, scheme randomizate controlate de o farmacie (farmacia spitalului de exemplu),
liste de numere întâmplătoare, numere întâmplătoare alocate de calculator, plicuri opace
sigilate sau pur şi simplu datul cu banul.
Un exemplu de randomizare pe două tehnici chirurgicale: pacientul este pus pe masa de
operaţie, este deschis şi atunci se constată, în faţa aspectului anatomic, că i se poate

32
efectua oricare dintre cele două tipuri de tehnică chirurgicală, deci este inclus în studiu;
atunci cel responsabil cu randomizarea deschide un plic sigilat, iar dinăuntru scoate
biletul pe care scrie “tehnica 1” sau “tehnica 2”, care i se şi aplică pacientului.
Iată însă că lucrurile se pot întâmpla precum la un studiu efectuat în Australia, care
compara apendicectomia clasică cu cea laparoscopică5: randomizarea se efectua prin
deschiderea plicului în care se găsea tipul de apendicectomie căruia îi era alocat
pacientul. Inervenţiile erau efectuate de rezidenţi, dar la cele laparoscopice trebuia să
supravegheze un specialist. Ziua lucrurile se desfăşurau bine, însă noaptea, în funcţie de
personalitatea specialistului de gardă, rezidenţii evitau de multe ori să-l trezească pe
acesta, şi atunci luau plicurile şi le puneau în dreptul unui bec, citind ce scria pe biletul
dinăuntru şi alegîndu-le pe cele cu operaţia clasică. Cum noaptea se prezintă, mai
degrabă, urgenţe care nu mai pot aştepta până dimineaţa, ne putem întreba pe bună
dreptate dacă rezultatele nu au fost distorsionate de această eroare sistematică de
selecţie (cazuri mai grave operate clasic) în favoarea operaţiei laparoscopice…
3. Au fost grupurile similare la începutul studiului?
Pentru a fi siguri că tratamentul este cel care a determinat un prognostic mai bun,
trebuie să verificăm că grupurile (tratament şi placebo) au fost similare în privinţa
celorlalţi factori de risc pentru efectul urmărit. În mod normal, dacă alocarea a fost
randomizată, acest lucru trebuie să se întâmple, dar dacă loturile sunt mici, pot apărea
dezechilibre. De aceea, la orice articol privind un RCT capitolul “Rezultate” începe cu
un tabel descriptiv în care se compară frecvenţele sau mediile tuturor factorilor de risc
în cele două grupuri terapeutice. Nu are nici un sens să vedem dacă diferenţele sunt
semnificative statistic (pentru că oricare ar fi rezultatul, noi ştim că în cazul alocării
întâmplătoare, acele diferenţe sunt rezultatul întâmplării!) ci dacă ele există şi cât sunt
de mari – cu cât sunt mai mari, cu atât validiatea studiului fiind compromisă, pentru că
nu vom şti dacă rezultatele se datorează terapiei sau acelei diferenţe dintre factorii de
risc.
Dacă există diferenţe în privinţa unor factori de risc, trebuie să ne asigurăm că analiza
statistică a ajustat pentru aceste diferenţe, iar dacă rezultatele analizei ajustate şi a celei
neajustate (de ex. “adjusted odds ratio” şi “crude odds ratio”) sunt apropiate, putem fi
liniştiţi.
Chiar dacă nu ies în evidenţă diferenţe importante între distribuţiile celorlalţi factori
determinanţi ai efectului între cele două grupuri – tratament şi placebo – este bine să fie
efectuată o analiză ajustată, pentru că este posibil ca unul dintre grupuri să fie avantajat
global faţă de celălalt (media de vârstă cu puţin mai mică + colesterolul puţin mai mic +
puţin mai multe femei + un pic mai puţini diabetici + media TA un pic mai mică etc.),
fapt care nu se vede la fiecare factor de risc în parte dar poate influenţa rezultatul.
4. A fost urmărirea completă?
Studiile clinice randomizate sunt un tip special de studii de cohortă (în care alocarea
factorului de risc/protecţie este efectuată randomizat de investigator). Atunci când
urmărim efecte serioase, şi nu de tip surogat timpul necesar apariţiei acestor efecte este
de obicei lung (ani) şi de aceea problema cea mai dificilă este urmărirea pacienţilor,
riscul de pierdere a lor fiind foarte mare.
În timpul RCT-urilor au loc două feluri de pierderi: pierderi definitive, când pacienţii
dispar de tot şi nu mai avem de unde să-i luăm, aşadar nu mai ştim dacă au suferit sau
nu efectul (end-point) urmărit, şi pacienţii pe care îi pierdem numai din studiu – la un
moment dat nu mai vor, sau nu mai pot participa la studiu, aşadar încetează tratamentul
cu medicaţia de studiat sau placebo - dar la sfârşitul studiului îi putem căuta, pentru a
vedea dacă au suferit sau nu efectul urmărit. Pe aceştia din urmă îi putem lua în calcul la

33
analiza finală, chiar dacă au ieşit la un moment dat din studiu (analiza în intenţia de
tratament = intention to treat analysis), pe când pacienţii pierduţi de tot din vedere nu
pot fi luaţi în calcul, deoarece nu ştim dacă au suferit sau nu efectul de urmărit.
De ce trebuie să ne facem atâtea probleme în privinţa pacienţilor pierduţi din vedere şi
să nu facem, liniştiţi, doar analiza celor care au participat şi terminat studiul? Pentru că
este posibil ca acestă pierdere din vedere să aibă legătură tocmai cu tratamentul!
Pacienţii dispar dintr-un studiu pentru că se mută în alt oraş, sau suferă efecte negative
ale tratamentului, sau nu mai au motivaţie (pentru că nu le merge mai bine sub tratament
ori placebo), sau mor (din cauza bolii pentru care prescriem tratamentul, din cauza
tratamentului sau din altă cauză). Să presupunem, de exemplu, că din ramura
“tratament” o parte dintre pacienţi merg atât de prost, încât nu mai vor să participe la
studiu (poate tatamentul chiar îi ucide, astfel încât nici nu mai pot participa la studiu).
Dacă ne limităm analiza doar la pacienţii care rămân în studiu, vom lua în considerare
doar pe aceia cărora le-a mers bine sub tratament (care poate aveau de la început o boală
mai uşoară, cu un prognostic mai bun) şi astfel tratamentul va apărea, fals, în urma
analizei, ca fiind benefic. În plus, prin aceste piederi din vedere care sunt diferenţiale
(dispar mai ales pacienţii cărora le merge rău, mai rar dispar cei cărora le merge bine),
distrugem şi rezultatul randomizării, prin care obţinusem grupuri egale din punctul de
vedere al prognosticului bolii: prin această eroare sistematică de uzură/excludere
(attrition/exclusion bias), apar diferenţe sistematice între grupurile de comparat.
De aceea, atunci când citim secţiunea Metode a unui articol sau urmărim diagrama care
este prezentă în ultimul timp la toate studiile terapeutice, verificăm dacă numărul de
pacienţi randomizaţi pentru fiecare ramură coincide cu numărul de pacienţi care au
terminat studiul şi pe care este efectuată analiza statistică. Rareori coincide, pentru că
numai în studiile ideale nu există pierduţi din vedere, important este ca numărul lor să
fie foarte mic. Orientativ, se spune că nu ne putem bizui pe rezultatele unui studiu în
care au fost pierduţi mai mult de 20% dintre pacienţi, însă şi 20% sunt prea mulţi, atunci
când numărul de pacienţi care au suferit efectul urmărit este mic.
Pentru a fi siguri că numărul pierderilor nu a influenţat rezultatul, se poate face analiza
“în cel mai rău caz”: se reface analiza alocând pacienţii pierduţi din grupul care a mers
mai bine ca şi cum ar fi evoluat prost, iar pacienţii pierduţi din grupul care a mers mai
rău ca şi cum ar fi evoluat bine. Ca să dăm un exemplu, putem lua studiul ISOLDE6
(poate fi accesat gratuit pe Internet), în care s-a evaluat efectul cortizonului inhalator
(fluticazonă) în evoluţia cronică a BPOC. Unul dintre efectele urmărite a fost retragerea
din studiu din motive respiratorii (altele decât cancerul pulmonar), un argument pentru
tratamentul cu fluticazonă în BPOC fiind acela că din ramura placebo s-au retras mai
mulţi pacienţi pentru că le-a mers rău (25% faţă de 19% în ramura fluticazonă,
p=0,034).
Urmărind diagrama studiului (Figura VIII.2), vedem că au fost randomizaţi 372 de
pacienţi în ramura fluticazonă (dintre care s-au retras din motive respiratorii 69) şi 370
de pacienţi în ramura placebo (dintre care s-au retras din acelaşi motive 93) – aplicând
un test X2 rezultă p=0,034. Din aceeaşi diagramă vedem însă că în ramura fluticazonă
au fost pierduţi din vedere 16 pacienţi, iar din ramura placebo 18, despre

34
Figura VIII.2. Diagrama studiului ISOLDE6 (prescurtată)

Fluticazonă propionat Placebo


(n=372) (n=370)

Retrageri (n=160; 43%) Retrageri (n=195; 53%)


Evenimente respiratorii non-maligne 69 Evenimente respiratorii non-maligne 93
Exacerbări BPOC 39 Exacerbări BPOC 53
Infecţii pulmonare 5 Infecţii pulmonare 8
Accentuarea dispneei/tusei 7 Accentuarea dispneei/tusei 14
Înrăutăţirea stării generale 9 Înrăutăţirea stării generale 9
Pneumonie/haemoptizie 5 Pneumonie/haemoptizie 3
Alte afectări respiratorii 4 Alte afectări respiratorii 6
Evenimente cardiace 15 Evenimente cardiace 20
Neoplazii 10 Neoplazii 20
Alte evenimente 17 Alte evenimente 14
Total evenimente 111 Total evenimente 131
Non-compleanţă 6 Non-compleanţă 9
Pierdere din vedere 16 Pierdere din vedere 18
Altele 27 Altele 30

Au terminat studiul Au terminat studiul


212 (57%) 175 (47%)

soarta lor neştiind nimic. În analiza “în cel mai rău caz” considerăm că cei 16 din
ramura fluticazonă s-au retras din motive respiratorii (au suferit end-point-ul urmărit)

Figura VIII.3. Tabelele de contingenţă 2x2 pentru calcularea testului X2 cu datele din articol (tabelul din
stânga) şi în analiza “în cel mai rău caz” (tabelul din dreapta).

End-point End-point

DA NU DA NU

Fluticazonă 69 303 372 Fluticazonă 85 287 372

Placebo 93 277 370 Placebo 93 277 370

p = 0,034 p = 0,52

şi că cei 18 din ramura placebo s-au retras din alte motive (n-au suferit end-point-ul), şi
atunci avem 69+16=85 de pacienţi care au suferit end-point-ul în ramura fluticazonă şi
93 în ramura placebo (considerând, de această dată, că cei 18 pierduţi din vedere nu au
suferit efectul); refăcînd analiza rezultă p=0,52, diferenţa nemaifiind semnificativă.
[Studiul mai are o mulţime de alte lipsuri metodologice sau diferenţe aşa-zis
semnificative care de fapt nu sunt, pe lângă faptul că primul autor deţinea acţiuni iar alţi
doi autori lucrau la GlaxoWellcome, sponsorul studiului; cu toate acestea el a fost
acceptat spre publicare de către BMJ; mai mult, deşi alte studii nu evidenţiaseră un
beneficiu al cortizonului inhalator în BPOC cronic, pe baza acestui studiu cu deficienţe
Societatea Europeană de Pneumologie recomanda, în ghidul GOLD, cortizonul

35
inhalator în BPOC cronic. Recenziile sistematice care au urmat au arătat că tratamentul
cortizonic inhalator în BPOC cronic scade numărul de exacerbări (de la 1,32 la 0,99
exacerbări pe an – de judecat dacă aceasta este o diferenţă semnificativă clinic!?
Trebuie trataţi 33 de pacienţi pentru a preveni o exacerbare) fără a scădea mortalitatea
sau a îmbunătăţi calitatea vieţii].
În criteriile lui Alexandro Jadad7 de evaluare a calităţii RCT-urilor intră randomizarea,
orbirea şi urmărirea – Tabelul VIII.2. După cum se vede, el acordă aceeaşi importanţă
randomizării şi orbirii (pentru ca un RCT să fie considerat bun, trebuie să adune 4-5
puncte; cele de 1-2 puncte sunt de calitate slabă).

Tabelul VIII.2. Criteriile Jadad de evaluare a calităţii studiilor clinice randomizate 7


Randomizarea
+2 Randomizare cu alocare ascunsă şi descrierea adecvată a procesului de randomizare
+1 Studiu descris ca randomizat, dar la care nu se dau alte informaţii
0 Nerandomizat
Orbirea
+2 Dublu orb cu descrierea adecvată a tehnicilor utilizate pentru a o asigura (de exemplu tehnică
double dummy)
+1 Studiu descris ca dublu orb, dar la care nu se dau alte informaţii
0 Fără orbire (deschis)
Urmărirea
+1 Sunt furnizate numărul şi motivele pacienţilor pierduţi din vedere
0 Nu sunt furnizate numărul şi motivele pierderilor din vedere

5. A fost efectuată analiza în intenţia de tratament (intention to treat analysis)? (a


fost fiecare pacient analizat în grupul în care a fost randomizat?).
După cum am explicat mai sus, pentru a putea efectua o analiză în intenţia de tratament
trebuie să ştiu ce s-a întâmplat cu pacienţii care au părăsit studiul la un moment sau
altul, mai exact dacă aceştia au suferit, până la terminarea studiului, efectul urmărit şi
apoi să-i analizez ca şi cum aceştia nu ar fi părăsit studiul, ci ar fi luat în continuare
medicaţia de studiat sau placebo. La fel şi în cazul în care, dintr-un motiv sau altul se
petrece un cross-over (pacientul trece dintr-o ramura în alta a studiului) – el va fi
analizat la sfârşit ca aparţinînd grupului la care a fost alocat iniţial. De exemplu dacă
vrem să comparăm tratamentul medicamentos cu cel chirurgical în angorul stabil de
efort, având drept efect urmărit mortalitatea cardiovasculară şi/sau infarctul acut de
miocard, unii dintre pacienţii alocaţi medicaţiei fac la un moment dat angor instabil,
deci nu suferă efectul şi sunt supuşi intervenţiei chirurgicale; dacă pe aceştia îi vom
analiza la sfârşit ca făcînd parte din grupul chirurgical, normal că în acest grup se vor
aduna mai mulţi pacienţi gravi, pe când în celălalt vor rămâne cei cu prognostic mai
bun, distrugîndu-se astfel şi echilibrul introdus de randomizare; la sfârşit va rezulta că
tratamentul medicamentos este mai bun, pentru că mai puţini pacienţi de aici vor suferi
end-point-ul urmărit. Invers, dacă vrem să vedem eficienţa chirurgiei de reducţie în
emfizemul pulmonar, intervenţie care se efectuează la pacienţi gravi, este posibil ca unii
dintre pacienţii alocaţi ramurii chirurgicale să se decompenseze respirator şi să nu mai
poată fi operaţi, în acest grup rămânînd numai pacienţii mai puţin gravi şi rezultând
astfel un fals efect benefic al intervenţiei chirurgicale în comparaţie cu tratamentul
clasic.

36
Figura VIII.4. Dacă nu ţinem cont de pacienţii pierduţi din vedere, efectele celor două terapii par
identice (incidenţa deceselor = 25%); dacă însă cei 200 de pacienţi pierduţi au decedat, atunci riscul de
deces în grupul A devine 40%, faţă de 25% în grupul B.

TRATAMENT A TRATAMENT B
n=1000 n=1000

200 pierduţi URMĂRIRE 10 ANI 0 pierduţi

600 vii 750 vii


200 decedaţi 250 decedaţi

Aşadar, indiferent dacă pacienţii şi-au luat sau nu tratamentul (sau placebo), principiul
este: “odată randomizat, întotdeauna analizat” şi mai mult, analizat conform alocării
iniţiale!
De ce? Deoarece complianţa este legată de prognostic: pacienţii necomplianţi au o
evoluţie mai proastă (cu 30%) decât cei complianţi, chiar când este vorba de placebo!
Excluderea necomplianţilor îi selectează pe cei cu prognostic mai bun şi distruge
distribuţia echilibrată realizată prin randomizare, introducîndu-se o eroare sistematică de
selecţie (selection bias). Analiza trebuie să îi includă pe pacienţii necomplianţi cu
medicaţia sau care nu au terminat studiul.
În plus, eliminând pacienţii necomplianţi nu se poate răspune la problema cercetată, şi
anume dacă oferirea unui program terapeutic aduce beneficiu în lumea reală (care de
altfel oricum nu este o lume reală, din moment ce până la randomizare se realizează mai
multe selecţii, începînd cu criteriile de includere şi terminând cu includerea doar a
pacienţilor care acceptă să participe la studiu).
N.B. Analiza care nu este făcută în intenţia de tratament se numeşte analiza per
protocol.
6. Au fost pacienţii, medicii şi restul personalului participant la studiu “orbi” cu
privire la tratament?
Pentru a putea trage o concluzie cu privire la eficienţa unui tratament, trebuie ca cele
două grupuri (tratament şi martor) să fie identice în toate privinţele, cu excepţia
tratamentului de studiat. Ne asigurăm că cele două grupuri sunt identice la începutul
studiului prin alocarea întâmplătoare (randomizare).
Trebuie să menţinem această egalitate între grupuri şi mai departe, până la terminarea
studiului, iar una dintre metode este “obirea”.
În primul rând trebuie ca pacienţii să fie “orbi”, adică să nu ştie dacă sunt trataţi cu
medicamentul de studiat sau fac parte dintre martori. Indivizii care ştiu că iau un
tratament despre care cred că este eficient evoluează mai bine, chiar dacă medicamentul
respectiv nu are nici o acţiune biologică – efectul placebo. Poate că acest efect nu are
mare importanţă atunci când endpoint-urile de studiat sunt obiective (de exemplu
valoarea transaminazelor sau a colesterolului)8, deşi unele dintre ele sigur pot fi
influenţate de psihicul pacientului (TA, mortalitatea şi morbiditatea cardiovasculară
etc.); cu certitudine că depind mult de starea de spirit a pacientului evaluările privind
calitatea vieţii, durerea, dispneea şi multe, multe altele.
Studiile în care numai pacienţii au fost “orbi” se numesc simplu orb.

37
În studiile dublu orb nici medicii (investigatorii) nu ştiu din care grup face parte
pacientul. Acest lucru este esenţial, pentru ca toţi pacienţii să fie trataţi la fel (cu
excepţia tratamentului de studiat), indiferent de grupul din care fac parte. Cum de cele
mai multe ori, cei care hotărăsc dacă efectul de studiat a apărut sunt tot investigatorii,
iată un nou motiv de “orbire” – nu trebuie să ştie cărui grup aparţine pacientul, pentru a
nu fi influenţaţi, cei care fac examenul clinic sau citesc rezultatele investigaţiilor
paraclinice, cei care administrează testele de calitatea vieţii sau scale pentru durere şi, în
sfâşit, cei care hotărăsc dacă pacientul are angor instabil sau nu, dacă are infarct sau nu,
dacă a murit de inimă sau nu etc. Motivul este foarte simplu – fie că fac un examen
clinic, fie că interpretează examene radiologice, ECG-uri sau ecocardiografii, medicii
găsesc cea ce vor să găsească. Doi specialişti competenţi (au fost făcute studii chiar cu
experţi) ajung la aceeaşi concluzie cu puţin mai des decât ne-am aştepta ca rezultat al
întâmplării, ba mai mult, nici măcar acelaşi specialist nu este foarte des de acord cu el
însuşi atunci când interpretează acelaşi rezultat al unui test diagnostic la interval de
câteva luni9. Nivelul de acord între doi observatori (din care se scade acordul intervenit
din întâmplare) este coeficientul de concordanţă , care are valoarea 1 atunci când
acordul este deplin; s-a arătat că în măsurarea presiunii venoase jugulare, în clasificarea
retinopatiei diabetice la fundul de ochi ori la interpretarea mamografiilor,  variază între
0,42 şi 0,67.
În privinţa efectelor fundamentale, cum ar fi cauza morţii, ştim de la rapoartele de gardă
că uneori ne întrebăm cum a survenit decesul la un pacient internat, ce să mai vorbim de
pacienţii care, în marile studii clinice, pot deceda şi acasă! Din aceste motive, de multe
ori marile studii au un aşa numit “comitet de adjudecare” care hotărăşte, pe baza datelor
clinice şi de laborator disponibile, dacă pacientul a suferit sau nu efectul de studiat;
inutil să mai spun că ele sunt supuse “orbirii”! Desigur, pentru evaluarea unui efect gen
“mortalitate de orice cauză” nu este neapărată nevoie de orbire!
Când nu este posibilă orbirea celor care îngrijesc pacienţii – atunci când comparăm
două intervenţii chirurgicale, sau tratament chirurgical cu tratament medicamentos, sau
acupunctură cu masaj sau fizioterapie etc., sau când tratamenul produce efecte care îl
dau de gol (de exemplu bradicardie pentru beta-blocante), se asigură orbirea celui care
evaluează efectul, şi care trebuie să fie diferit de cel care a acordat îngrijirea (de
exemplu, abia când a fost efectuat RCT-ul dublu orb colecistectomie
clasică/laparoscopică s-a arătat că toţi pacienţii au avut aceeaşi durată de spitalizare –
randomizarea a fost efectuată după inducerea anesteziei, pansamentele erau identice şi
externarea era hotărâtă de investigatori care nu ştiau prin ce metodă fusese făcută
operaţia)10.
Orbirea se realizează prin folosirea placebo, constând din tablete sau soluţii perfuzabile
care trebuie să aibă aspect şi gust identice cu medicaţia activă; pentru medicamentele
active sub formă de soluţii perfuzabile colorate, se acoperă flaconul şi tubul de perfuzie
(doar asistenta care administrează substanţa ştie, nu şi pacientul sau investigatorul).
Termenul dummy se foloseşte atunci când pacientului i se administrează tablete sau
injecţii în plus, pentru orbire: dacă se compară un tratament care se administrează o dată
pe zi cu unul care se administrează de două ori pe zi, pacienţii din primul grup vor
primi, pe lângă o tabletă de medicaţie activă, una de placebo; dacă se compară un
tratament injectabil cu unul oral, pacienţii sub tratament injectbil vor primi şi tablete
placebo, iar cei sub tratament oral vor primi şi injecţii placebo; în sfârşit, dacă se
compară, de exemplu, claritromicină cu azitromicină, cum claritromicina se
administrează de două ori pe zi timp de 7 zile, va trebui ca pacienţii din ramura
azitromicină, cu care tratamentul durează 3 zile, să primească o tabletă de azitromicină

38
şi una de placebo 3 zile, iar apoi câte două de placebo până la 7 zile; şi exemplele pot
continua.
Exprimarea triplu orb se referă la faptul că şi cei care au analizat statistic datele au fost
supuşi orbirii; ştiind câte se pot face de exemplu prin comparaţii multiple (multiple
efecte, multiple subgrupuri), nu ne miră existenţa acestui concept.
Uneori se poate ajunge şi la exagerări - culmea orbirii pe care am întâlnit-o a fost la
studiul PROGRESS (perindopril+/-indapamid contra placebo)11, unde se stipulează că şi
cei care au scris articolul au fost orbi12; la început m-am îndoit, dar gândindu-mă mai
bine mi-am dat seama că pot fi scrise astfel capitolele de Material şi metodă şi
Rezultate; probabil că pentru Discuţii şi Concluzii li s-a spus, totuşi, ce rezultate cărui
grup aparţineau (deşi, dat fiind că cei trataţi aveau tensiunea mai mică, ar fi trebuit să-şi
dea seama şi singuri)!
Studiile arată că lipsa orbirii are un efect mai mic de distorsionare a rezultatelor (o
supraestimare a efectului tratamentului de 17%) faţă de lipsa randomizării (40%)
(Tabelul VIII.1), aşadar erorile sistematice de selecţie (selection bias) sunt mai
importante decât cele de execuţie şi detecţie (performance şi detection bias) (Figura
VIII.1).
7. Cu excepţia intervenţiei experimentale, au fost grupurile tratate egal?
După cum am mai spus, grupurile din RCT (tratament şi placebo) trebuie să fie identice
în privinţa tuturor factorilor care influenţează prognosticul (end-point-ul), cu excepţia
tratamentului evaluat, iar printre factorii care influenţează prognosticul de află şi
intervenţiile paralele care sunt aplicate pacienţilor din studiu. De exemplu, chiar dacă la
începutul studiului grupurile sunt egale ca factori de risc, este posibil ca medicii să-i
îndemne mai mult pe pacienţii care primesc medicaţia activă să mănânce fără sare, să
facă mişcare sau chiar să-i trateze altfel decât pe pacienţii din grupul placebo. Acest
lucru este evitat, în principiu, tot prin orbire, care asigură aplicarea nediferenţiată a
eventualelor intervenţii paralele, la grupul tratament faţă de grupul placebo.
În concluzie, erorile sistematice sunt evitate în RCT astfel (Figura VIII.1):
- erorile sistematice de selecţie: prin alocarea întâmplătoare a pacienţilor la grupurile
de comparat.
- erorile sistematice de execuţie, efectul placebo şi erorile sistematice de detecţie: prin
orbire.
- erorile sistematice de uzură şi migrare: prin urmărirea cât mai completă şi analiza în
intenţia de tratament.

Bibliografie
1. Straus S, Richardson S, Glasziou P, Haynes B. Evidence-based medicine. How to
practice and teach EBM. 3rd Edition, Elsevier 2005, p.115.
2. Băicuş C. Dicţionar de epidemiologie clinică şi medicină bazată pe dovezi. Ed.
Medicală 2002.
3. http://www.cche.net/usersguides/therapy.asp – accesat ultima oară pe 12/03/2007.
4. Hulley S, Grady D, Bush T et al. Randomized trial of estrogen plus progestine for
scondary prevention of coronary heart disease in postmenopausal women. Heart and
Estrogen/progestin Replacement Study (HERS) Research Group. JAMA 1998;280-605-
613.
5. Hansen JB, Smithers BM, Schache D, Wall DR, Miller BJ, Menzies BL.
Laparoscopic versus open appendicectomy: prospective randomized trial. World J Surg
1996;20:17-20.

39
6. Burge PS, Calverley PMA, Jones PW, Spencer S, Anderson JA, Maslen TK on behalf
of the ISOLDE study investigators. Randomised, double blind, placebo controlled study
of fluticasone propionate in patients with moderate to severe chronic obstructive
pulmonary disease: the ISOLDE trial. BMJ 2000; 320:1297-303.
7. Jadad A, Moore RA, Caroll D et al. Assessing the quality of reports of randomized
controlled trials: is blinding necessary? Controlled Clin Trials 1996; 17:1-12.
8. Meissner K, Distel H, Mitzdorf U. Evidence for placebo effects on physical but not
on biochemical outcome parameters: a review of clinical trials. BMC Med. 2007; 5:3
9. Sackett D, Haynes B, Guyatt G, Tugwell T. Clinical epidemiology. A basic science
for clinical medicine. 2nd Edition. London: Little, Brown 1991. p. 24-43.
10. Majeed AW, Troy G, Nicholl JP, et al. Randomised, prospective, single-blind
comparison of laparascopic versus small-incision cholecystectomy. Lancet 1996; 347:
989-94.
11. PROGRESS Collaborative Group. Randomised trial of a perindopril-based blood-
pressure-lowering regimen among 6105 individuals with previous stroke or transient
ischaemic attack. Lancet 2001;358:1033–41.
12. Combined treatment with indapamide and perindopril but not perindopril alone
reduced the risk for recurrent stroke .David Tirschwell (commentator). Evid Based Med
2002 7: 42.

40
IX. Exprimarea riscului

Atunci când analizăm orice asociere (între prezenţa diabetului zaharat şi incidenţa
infarctului miocardic, sau între tratamentul cu statine şi incidenţa infarctului miocardic,
de exemplu), avem de făcut două lucruri: întâi să măsurăm puterea asocierii dintre cele
două (factorul de risc şi efectul studiat), iar mai apoi să testăm semnificaţia statistică a
acestei asocieri.
Să vedem în continuare cum se măsoară asocierea.
Riscul (absolut) este probabilitatea de apariţie a unui eveniment în timpul unei perioade
date şi este deseori exprimat ca incidenţa evenimentului respectiv în sânul acelei
populaţii1. Astfel, dacă incidenţa tuberculozei este în România de x/100.000, atunci
acesta este riscul oricărui român de a face tuberculoză. În studiul EUROPA2, riscul de a
suferi efectul (endpoint) principal, care consta în infarct miocardic acut sau moarte de
origine cardiovasculară sau stop cardiac (efect compozit) era de 8% dacă pacientul ar fi
luat perindopril şi 10% dacă pacientul nu ar fi luat. Riscul la pacienţii care nu iau
perindopril se numeşte riscul bazal, riscul la neexpuşi sau rata evenimentului în
grupul martor (control event rate=CER), în timp ce riscul la pacienţii care iau
perindopril se numeşte riscul la expuşi sau rata evenimentului în grupul
experimental (experimental event rate=EER).
Să luăm exemplul unui studiu etiologic, în care găsim că incidenţa infarctului miocardic
în cohorta de fumători este de 18%, iar în cea de nefumători este de 6%. În acest caz,
riscul bazal este de 6%= riscul la neexpuşi, iar riscul la expuşi este de 18%.
Riscul relativ (RR) compară probabilitatea de a suferi efectul de către indivizii expuşi
cu probabilitatea de a-l suferi al indivizilor neexpuşi. RR = riscul la expuşi/riscul la
neexpuşi, arătând de cîte ori este mai mare riscul la expuşi faţă de neexpuşi. În exemplul
cu fumatul, RR= 18/6 =3, ceea ce înseamnă că fumătorii au un risc de a face un infarct
miocardic de trei ori mai mare decât nefumătorii. În studiul EUROPA2, RR= riscul la
expuşi/riscul la neexpuşi = 8/10=0,8. Se observă că în acest caz RR este subunitar, şi
asta deoarece riscul la expuşi (=trataţi cu perindopril) este mai mic decât la cei netrataţi,
deci numărătorul este mai mic decât numitorul. În acest caz, factorul la care sunt expuşi
indivizii nu este un factor de risc (cum este fumatul), ci un factor de protecţie. [Dacă
luăm reciproca riscului relativ, rezultă 1/RR = 1/0,8 = 1,25, asta însemnând că cei care
iau perindopril au un “risc” de 1,25 de ori mai mare de a NU suferi efectul compozit
decît cei care nu iau perindopril].
Dacă RR=1, înseamnă că riscul la expuşi este egal cu riscul la neexpuşi, aşadar factorul
studiat nu influenţează în nici un fel efectul. Cu cât este riscul relativ mai mare, cu atât
este mai puternică asocierea dintre factorul de risc şi efect.
Diferenţa riscului este, cum spune şi numele, diferenţa dintre riscuri. În studiile
etiologice ea se numeşte risc atribuibil – reluând exemplul cu fumatul: riscul la expuşi
– riscul la neexpuşi = 18%-6% = 12% dintre fumători fac infarct miocardic datorită
fumatului (6% ar fi făcut oricum, chiar dacă nu ar fi fumat).
În studiile terapeutice, această diferenţă a riscului se numeşte reducerea absolută a
riscului (RAR); cum aici de obicei riscul la expuşi este mai mic decât cel la neexpuşi
(adică cei trataţi suferă în mai mică măsură efectul de studiat), RRA = riscul la neexpuşi
– riscul la expuşi = 10%-8% = 2%, adică la fiecare 100 de pacienţi cu cardiopatie
ischemică trataţi cu perindopril, acest medicament va salva 2 de la efectul compozit; 8
dintre ei vor suferi oricum efectul, fie că sunt trataţi cu perindopril, fie că nu sunt.
Reducerea relativă a riscului (RRR) este o altă măsură de evaluare a eficacităţii
tratamentului şi estimează proporţia din riscul bazal eliminată prin tratament. Aşadar,
fără tratament 10 pacienţi din 100 suferă efectul, tratamentul scade cu 2 numărul de

41
indivizi care-l suferă, iar 2 reprezintă 20% din 10, aceasta fiind reducerea relativă a
riscului (mai simplu de calculat: 1-RR = 1-0,8= 0,2, adică 20%. Vezi toate formulele de
calcul în legenda Tabelului IX.1).

Tabelul IX.1. Tabel de contingenţă (2x2) reprezentînd un studiu terapeutic

EFECT

DA NU

DA a b a+b
TRATAMENT
NU c d c+d

Direcţia studiului

Riscul la expuşi (Rexp) = a/(a+b)


Riscul la neexpuşi (Rnexp) = c/(c+d)
Riscul relativ (RR) = [a/(a+b)] / [c/(c+d)]
Reducerea relativă a riscului(RRR)= [c/(c+d) – a/(a+b)] / [c/(c+d)], sau 1-RR
Reducerea absolută a riscului (RAR) = Rnexp - Rexp = a/(a+b)-c/(c+d)

Reducerile absolute şi reducerile relative ale riscului: care este diferenţa?


Acum câţiva ani, am cumpărat de dimineaţă nişte acţiuni cu 1 milion de lei. Când m-am
întâlnit după-amiază cu soţia mea, i-am spus fericit că acestea crescuseră cu 5%. Ea,
însă, nu s-a entuziasmat şi m-a întrebat: “bine, şi cât am câştigat de fapt?” Eu am
insistat:“Nu înţelegi ce deştept sunt, am câştigat în câteva ore cât ne-ar fi dat o bancă în
3 luni!” (pe vremea aceea dobânzile erau mai mari). “Bine, şi cât am câştigat?” a insistat
ea. Când i-am spus că cincizeci de mii, o cruntă dezamăgire i s-a putut citi pe chip.
Bineînţeles, altfel ar fi stat lucrurile dacă aş fi cumpărat acţiuni de o sută de milioane,
sau un miliard de lei.
La fel şi cu reducerile de risc: cea relativă este proporţia cu care a scăzut riscul la cei
trataţi, iar cea absolută ne arată câţi pacienţi am salvat cu adevărat. La aceleaşi risc
relativ şi reducere relativă a riscului, cu cât riscul bazal este mai mare, reducerea
absolută a riscului este mai mare. Imaginându-ne că riscul de a suferi efectul compozit
ar fi fost mai mare fără tratament – să zicem 50% - şi cum ştim că perindoprilul reduce
riscul relativ cu 20%, ar rezulta o reducere absolută a riscului de 10% (adică, la fiecare
100 de pacienţi trataţi cu perindopril, acest medicament ar fi salvat 10 pacienţi – vezi
Figura IX.1).

42
Figura IX.1. Rezultatele studiului EUROPA comparate cu cele ale unui studiu similar, ipotetic,
desfăşurat într-o populaţie cu risc bazal mai mare.

Se observă cum, pentru acelaşi tratament, în funcţie de riscul bazal al populaţiei în care se desfăşoară
studiul, riscul relativ (RR) şi reducerea relativă a riscului (RRR) sunt constante (0,8, respectiv 20%), în
timp ce reducerea absolută a riscului (RAR) este direct proporţională cu riscul bazal (10% la populaţia cu
risc mare şi 2% la populaţia cu risc mic).

Ca regulă generală, diferenţele relative ne interesează mai ales când vrem să studiem
procesele etiologice (de exemplu, să analizăm efectul unei îngrijiri sau al unui factor de
risc sau de protecţie presupus asupra apariţiei bolii sau decesului); se ştie că unul dintre
argumentele de cauzalitate într-o asociere este şi mărimea asocierii – cu cât riscul relativ
este mai mare, cu atât sunt mai multe şanse ca asocierea să fie de natură cauzală 3.
Dimpotrivă, atunci când ne interesează latura de sănătate publică a problemei – câte
vieţi, ce cantitate de medicamente sau tehnologie, cât costă – este mai potrivit să dăm
mai multă importanţă diferenţelor absolute4.
Esenţial este ca atunci cînd se folosesc cifrele, să se spună despre ce fel de reducere a
riscului este vorba. Pentru că, luând tot exemplul studiului EUROPA, poţi spune că
perindoprilul reduce riscul de a suferi efectul compozit principal cu 20% sau cu 2%.
Diferenţa este majoră, pe de o parte trebuie să spui dacă este vorba de reducerea relativă
(prima cifră) sau absolută (a doua cifră) a riscului, iar pe de altă parte cei care aud,
trebuie să ştie ce înseamnă una şi cealaltă.
Ca o regulă generală (fără nici o excepţie din experienţa mea, şi a altora din ţări mai
dezvoltate), în prezentările de medicamente (fie broşuri, fie simpozioane) firmele
farmaceutice folosesc întotdeauna reducerea relativă a riscului, şi nu spun niciodată
despre care reducere este vorba. De ce, este lesne de înţeles – fiind vorba în general
despre riscuri bazale mici, întotdeauna reducerea relativă a riscului este mai importantă.
S-a demonstrat în studii că medicii sunt mai puţin înclinaţi să trateze pacienţii după
prezentarea unui studiu sub formă de modificări absolute ale efectului decât când aceste
rezultate le sunt prezentate sub formă de modificări relative, deoarece consideră
eficacitatea unei intervenţii mult mai mică5, 6. La fel de susceptibili la modul în care sunt
comunicate rezultatele (reducerea relativă sau reducerea absolută a riscului) sunt şi
pacienţii.7, 8, 9
După ce am discutat despre riscul absolut, riscul relativ, reducerea absolută a
riscului şi reducerea relativă a riscului, mai jos vom trece în revistă alte forme de
exprimare a riscului, cum sunt numărul de pacienţi necesar a fi tratat pentru a obţine un
beneficiu sau un efect advers şi raportul cotelor (odds ratio).

43
Numărul necesar a fi tratat (number needed to treat=NNT) este o altă măsură a
impactului tratamentului, exprimată prin numărul de pacienţi care trebuie tratat pentru a
preveni un efect (deces, infarct, fractură, efect compozit etc.). Acest număr se obţine
calculând reciproca reducerii absolute a riscului (1/RAR, când acesta este exprimat ca
proporţie, sau 100/RRA, atunci când acesta est exprimat în procente).
Luînd din nou exemplul studiului EUROPA2 (tratamentul coronarienilor normotensivi
cu perindopril, efectul principal urmărit fiind combinaţia deces cardiovascular SAU
infarct miocardic SAU oprire cardiacă resuscitată), ne aducem aminte că, la sfârşitul
studiului care a durat 4,2 ani, suferiseră efectul principal 10% dintre cei trataţi şi 8%
dintre cei netrataţi, deci RAA=10-8=2%, şi de aici NNT = 100/RAR = 100/2 = 50;
aşadar, pentru a salva 1 pacient de la efectul compozit principal, trebuie să tratăm cu
perindopril 50 de pacienţi normotensivi cu coronaropatie, timp de 4,2 ani.
Se observă că NNT are întotdeauna o dimensiune temporală, care este egală cu durata
studiului. Pentru a putea compara NNT din diferite studii, se procedează la anualizarea
NNT, care se obţine prin înmulţirea NNT cu numărul de ani. Astfel, luând acelaşi
exemplu de mai sus, salvăm un pacient de la end-point-ul compozit tratând 50x4,2 =
210 pacienţi cu perindopril, timp de 1 an (ca să putem aplica această formulă,
presupunem că reducerea riscului de către un medicament se menţine constantă de-a
lungul timpului).
Number needed to harm (NNH) este numărul de pacienţi trataţi la care se obţine un efect
advers al medicamentului respectiv.
Să luăm ca exemplu de această dată studiul VIGOR10, în care s-au comparat rofecoxibul
cu naproxenul în privinţa efectelor adverse gastrointestinale. Vedem că în ramura
rofecoxib a studiului incidenţa efectelor adverse gastrointestinale grave (hemoragie
digestivă superioară, perforaţie sau stenoză) a fost de 0,6%, pe când în ramura naproxen
aceasta a fost de 1,4%. De aici putem calcula o reducere a riscului absolut de 1,4-6 =
0,8% (adică la fiecare 100 de pacienţi trataţi cu rofecoxib în loc de naproxen, au fost
salvaţi 0,8 pacienţi de la o afectare gastrointestinală gravă). Apoi calculăm NNT =
100/0,8 = 125, adică trebuie să tratăm cu rofecoxib în loc de naproxen 125 de pacienţi
pentru a salva unul de la o manifestare gastrointestinală gravă.
Mai departe observăm că în grupul rofecoxib 0,4% dintre pacienţi au suferit un infarct
miocardic, în timp ce în grupul naproxen au făcut infarct 0,1% dintre pacienţi. Aşadar,
rofecoxibul pare a fi determinat o creştere absolută a riscului (CAR) de 0,4-0,1=0,3%,
şi de aici NNH = 100/CRA = 100/0,3 = 333, adică la fiecare 333 de pacienţi trataţi cu
rofecoxib în loc de naproxen, avem un infarct miocardic în plus. Dacă facem raportul
NNH/NNT = 2,6, ceea ce înseamnă că la fiecare 2,6 complicaţii grave gastrointestinale
pe care le reducem tratând cu rofecoxib în loc de naproxen, avem 1 infarct miocardic în
plus11.
Lesne de dedus, cu cât NNT este mai mic, cu atât tratamentul respectiv este mai eficient
şi invers. În plus, NNT fiind calculat din RAR, păstrează proprietatea acestuia de a se
modifica odată cu riscul bazal (cu cât riscul bazal este mai mare, cu atât NNT petru
acelaşi tratament este mai mic şi invers). Un exemplu grăitor este tratamentul cu statine
(Tabelul IX.212).

Tabelul IX.2. Prevenirea evenimentelor coronariene prin statine comparat cu placebo (după Kumana12).
Studiul Pacienţi Urmărire (ani) RRR NNT NNT/an
a)AFCAPS/ Fără coronaropatie, 5,4 37% 49 256
TexCAPS colesterol normal
b) WOSCOPS Fără coronaropatie, 4,9 31% 44 217

44
colesterol crescut
c) CARE Coroaropatie, 5 24% 33 167
colesterol normal
d) LIPID Coronaropatie, 6,1 24% 28 172
colesterol normal
e) 4S Coronaropatie (infarct), 5,2 34% 12 63
colesterol crescut
(a + b) Fără coronaropatie 5,2 33% 47 237
(c + d + e) Coronaropatie 5,4 26% 23 129
(a + c + d) Colesterol normal 5,5 25% 39 209
(b + e) Colesterol crescut 5,2 30% 29 151

AFCAPS/TexCAPS = AirForce/Texas Coronary Atherosclerosis Prevention Study; WOSCOPS = West


of Scotland Coronary Prevention Study; CARE = Cholesterol and Recurrent Events; LIPID =
Long-term Intervention with Pravastatin in Ischaemic Disease trial; 4S = Scandinavian Simvastatin
Survival Study.

Se observă cum, spre deosebire de reducrea riscului relativ (RRR) care nu este
influenţată în nici un fel, numărul necesar a fi tratat (NNT) este invers proporţional cu
riscul subjacent: scade de la prevenţia primară la cea terţiară şi este mai mare la cei cu
colesterol normal faţă de cei cu colesterol crescut.

Calculul rapid al RAR şi NNT


Dat fiind că RR este dat încă din abstract, iar RRR în prezentările sponsorizate, voi arăta
aici cum se calculează rapid reducerea absolută a riscului şi NNT din datele dintr-un
abstract (Tabelul IX.3) şi dintr-un grafic prezentat de reprezentanţi (Figurile IX.2 şi 3).

Tabelul IX.3. Calculul RR, RRR, RAR şi NNT din secţiunea rezultate a unui abstract 13.
Rezultate
Incidenţa restenozării vasului ţintă a fost redusă de la 21% în cazul stenturilor standard la
8,6% la stenturile cu sirolimus (P<0.001) — o reducere datorată în mare măsură scăderii
necesităţii de revascularizare a leziunii ţintă (16.6 % la grupul cu stent clasic faţă de 4,1 % la
grupul cu sirolimus, P<0.001). Frecvenţa hiperplaziei neointimale din stent a fost de
asemenea scăzută la grupul care a primit stent cu sirolmus, după cum s-a văzut atât la
coronarografie cât şi la ecografia intravasculară. Analiza pe subgrupuri a relevat o reducere
a riscului de restenoză angiografică la toate subgrupurile examinate.
Pentru obiectivul principal (restenozarea vasului ţintă), RR=8,6/21=0,41, RRR=1-0,41=0,59 (deci riscul
scade cu 59%), RAR=21-8,6=11,4% (la fiecare 100 de pacienţi la care punem stent cu sirolimus în loc de
stent clasic, salvăm de la restenozare 11,4), iar NNT=100/11,4=8 (trebuie să tratăm 8 pacienţi cu stent cu
sirolimus în loc de stent clasic, pentru a salva unul de restenoză). În acelaşi mod se pot calcula aceşti
parametri pentru toate obiectivele secundare, inclusiv necesitatea de revascularizare a leziunii ţintă
(RAR=16,6-4,1=12,5%, NNT=100/12,5=8).

Figura IX.2. Calculul rapid al RAR şi NNT dintr-un grafic reprezentând curbe de supravieţuire Kaplan-
Meier.

45
Graficul dintr-o broşură de firmă arată cum tratamentul antihipertensiv cu perindopril+amlodipină scade
riscul de deces cardiovascular cu 24% faţă de tratamentul cu atenolol+diuretic tiazidic (studiu ASCOT-
BPLA14); este, bineînţeles, RRR. Pentru calculul RAR se duc două paralele la abscisă din vârfurile
curbelor de supravieţuire şi se citesc pe ordonată riscurile absolute (care în acest caz sunt 3,7% pentru cei
trataţi cu atenolol+diuretic, respectiv 2,7% pentru cei trataţi cu perindopril+amlodipină). Mai departe este
simplu, RAR =3,7-2,7 =1% (săgeata cu două vârfuri), iar NNT=100.

Figura IX.3. Calculul RAR şi NNT dintr-un grafic sub formă de bare.

Vedem cum tratamentul cu ranelat de stronţiu (osseor) timp de 3 ani scade fracturile vertebrale cu 41%
(din nou, RRR). Ducem aceleaşi drepte orizontale şi găsim frecvenţa fracturilor la 33% pentru placebo şi
21% pentru osseor; RAR =33%-21% =12% (săgeata cu două vârfuri), iar NNT =100/12 =8.

Raportul cotelor (odds ratio)


În timp ce riscul este probabilitatea de a suferi un efect, cota este probabilitatea (p) de a
suferi un efect raportată la probabilitatea de a nu suferi acel efect [cota = p/(1-p)]. Dacă
dăm cu zarul, probabilitatea să iasă oricare dintre cele 6 numere este 1/6 (16,6%), pe
când cota oricăruia dintre cele 6 numere este 1/5 (1/6 fiind probabilitaea ca acel număr
să iasă şi 5/6 fiind probabilitaea ca acel număr să nu iasă, 1/6 : 5/6 = 1/5).
Şi invers: dacă la campionatul mondial de fotbal cota României la casele de pariuri este
de, să zicem, 1/20 (la fiecare 1 individ care a pariat că România va câştiga campionatul,
avem 20 de indivizi care au pariat pe o altă echipă), atunci probabilitatea ca România să
câştige campionatul, estimată de casele de pariuri, este de 1/21 = 0,047, sau 4,7%.
Aşadar, pentru transformarea inversă, riscul (probabilitatea) = cota/(1+cota).
Riscul de a suferi efectul compozit la pacienţii trataţi cu placebo2 a fost de 10% (sau
0,10, exprimat ca proporţie), şi atunci probabilitatea de a nu suferi acest efect a fost de
1-0,1 =0,9, deci cota este 0,1/0,9 = 1/9 = 0,11. După cum se vede, cota este aici
apropiată de risc (0,11 faţă de 0,10), ea fiind cu atât mai apropiată cu cât riscul
(incidenţa efectului de studiat) este mai mic şi cu atât mai depărtată cu cât riscul este
mai mare [se vede din formulă, cota = p/(1-p), cota  p cu cât p este mai mică].
După cum riscul relativ este riscul de a suferi efectul la expuşi raportat la riscul de a
suferi efectul la neexpuşi, odds ratio este cota la expuşi raportată la cota neexpuşilor. Şi
după cum cota aproximează riscul, fiind cu atât mai aproape de risc cu cât acesta

46
(incidenţa bolii) este mai mic, la fel şi odds ratio, este cu atât mai aproape de riscul
relativ, cu cât incidenţa bolii (efectului studiat) este mai mică.
Aşadar odds ratio (OR) este o aproximare a riscului relativ şi întotdeauna îl
supraestimează pe acesta. Ea are aceeaşi semnificaţie: riscul de a face boala la expuşi
este de OR mai mare ca la neexpuşi; la fel ca la riscul relativ, dacă OR>1 înseamnă că
factorul de studiat este un factor de risc, dacă OR=1, înseamnă că factorul studiat nu are
nici o influenţă asupra incidenţei bolii, iar dacă OR<1 înseamnă că factorul respectiv
este un factor de protecţie cum sperămnoi să fie tratamentele, în studiileterapeutice).
De ce avem nevoie de odds ratio?
Avem nevoie de odds ratio atunci când nu putem calcula direct riscul relativ, şi acest
lucru se întâmplă în trei situaţii: 1) în studiile caz-martor, 2) în metaanalizele din
sintezele sistematice (systematic reviews) şi 3) atunci când se efectuează o analiză
multivariabilă.
În studiile de cohortă şi cele clinice randomizate (RCT) se porneşte de la expunere către
efect (un grup expus factorului de risc sau tratamentului şi un grup neexpus, ambele
fiind urmărite şi comparându-se proporţiile de indivizi care suferă efectul în cele două
grupuri), aşadar se înregistrează incidenţa efectului = probabilitatea = riscul.
În studiile caz-martor15, demersul este invers: se porneşte de la un grup de indivizi care
au suferit efectul (boala), se alege un grup martor de indivizi care nu l-au suferit şi se
cercetează ce proporţie dintre indivizii bolnavi şi dintre martori au fost expuşi la
factorul de risc studiat, comparându-se aceste proporţii. Aşadar, nu există posibilitatea
aflării riscului, deoarece nu putem afla incidenţa bolii (plecându-se de la indivizi care
deja au boala). În aceste studii, odds ratio reprezintă raportul dintre cota factorului de
risc printre bolnavi şi cota factorului de risc printre sănătoşi, însemnând că bolnavii au
fost expuşi de OR mai mult la factorul de risc decât sănătoşii. După cum se vede din
Figurile IX.1 şi IX.2, formula finală de calcul a odds ratio este aceeaşi, fie că este vorba
de studiu de cohortă sau caz martor.

Figura IX.1. Tabel de contingenţă (2x2) reprezentând un studiu de cohortă sau experimental (RCT). La
începutul studiului: (a+b) = expuşi comparaţi cu (c+d) = neexpuşi.

EFECT
DA NU

DA a b a+b
EXPUNERE
(TRATAMENT)
NU c d c+d

Direcţia studiului

Odds (cota efectului) la expuşi = a/b; Odds (cota efectului) la neexpuşi = c/d
Odds ratio = odds la expuşi/odds la neexpuşi = a/b : c/d = ad/bc

47
Figura IX.2. Tabel de contingenţă (2x2) reprezentînd un studiu caz-martor: (a+c) cazurile şi (b+d)
martorii sunt definiţi de la începutul studiului.

BOALĂ Direcţia
PREZENTĂ ABSENTĂ studiului
(CAZ) (MARTOR)
DA a b
EXPUNERE LA

FACTOR DE RISC NU c d

a+c b+d

Odds (cota expunerii) la cazuri (bolnavi) = a/c; Odds (cota expunerii) la martori = b/d
Odds ratio = odds la cazuri/odds la martori = a/c : b/d = ad/bc

Deoarece diferenţa dintre odds ratio şi riscul relativ creşte odată cu incidenţa (eventual
prevalenţa, în studii caz martor) bolii, ea nu poate aproxima decent riscul relativ decât în
cazul bolilor cu incidenţe scăzute (de cel mult 10%).
În celelalte două cazuri în care se estimează prin OR pentru că nu putem calcula riscul
relativ (metaanaliza, în care se calculează OR pornind de la datele din mai multe studii
puse împreună şi analiza multivariabilă, în care se calculează simultan OR pentru mai
multe variabile independente care concurează la apariţia unui efect), motivaţia este strict
matematică. Deşi uneori în articole apar sub numele de riscuri relative, de fapt sunt odds
ratios.
Hazard ratio se numeşte riscul relativ calculat în urma analizei de supravieţuire.

Bibliografie
1. Băicuş C. Dicţionar de epidemiologie clinică şi medicină bazată pe dovezi. Editura
Medicală Bucureşti, 2002, p.54.
2. The EURopean trial On reduction of cardiac events with Perindopril in stable
coronary Artery disease Investigators. Efficacy of perindopril in reduction of
cardiovascular eventsamong patients with stable coronary artery disease: randomised,
double-blind, placebo-controlled, multicentre trial (the EUROPA study). Lancet 2003;
362: 782–88.
3. Straus SE, Richardson WS, Glasziou P, Haynes P. Evidence-based medicine. How to
practice and teach EBM. 3rd Edition, Elsevier, Edinburgh, 2005, p.188-9.
4. Abramson JH, Abramson ZH. Making sense of data. A self-instruction manual on the
interpretation of epidemiological data. 3rd Edition, Oxford University Press, New York,
2001.
5. Forrow L, Taylor WC, Arnold RM. Absolutely relative: how research results are
summarized can affect treatment decisions. Am J Med 1992; 92:121-124.
6. Naylor CD, Chen E, Strauss B. Measured enthusiasm: does the method of reporting
trial results alter perceptions of therapeutic effectiveness? Ann Intern Med 1992;
117:916-921.
7. Malenka DJ, Baron JA, Johansen S, Wahrenberger JW, Ross JM. The framing effect
of relative and absolute risk. J Gen Intern Med 1993; 8: 543-548.

48
8. McNeil BJ, Pauker SG, Sox HC Jr, Tversky A. On the elicitation of preferences for
alternative therapies. N Engl J Med 1982; 306:1259-1262.
9. Hux JE, Naylor CD. Communicating the benefits of chronic preventive therapy: does
the format of efficacy data determine patients’ acceptance of treatment? Med Decision
Making 1995; 15:152-157.
10. Bombardier C, Laine L, Reicin L et al, for the VIGOR Study Group. Comparison of
upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid
arthritis. N Engl J Med 2000; 343 (21): 1520-8.
11. C. Baicus. Cox-2 inhibitors – expensive and unsafe. eBMJ, august 2002.
(http://www.bmj.com/cgi/eletters/324/7349/1287#24516).
12. Kumana CR, Cheung BM, Lauder IJ. Gauging the impact of statins using number
needed to treat. JAMA 1999;282:1899–901.
13. Moes JF et al. Sirolimus-eluting stents versus standard stents in patients with
stenosis in a native coronary artery. NEJM 2003; 349:1315-23.
14. Dahlof B et al. Prevention of cardiovascular events with an antihypertensive
regimen of amlodipine adding perindopril as required versus atenolol adding
bendroflumethiazide as required, in the Anglo-Scandinavian Cardiac Outcomes Trial-
Blood Pressure Lowering Arm (ASCOT-BPLA): a multicentre randomised controlled
trial. Lancet 2005; 366:895-906.
15. P Duhaut. Les études cas-témoins. În La recherche clinique. De l’idée á la
publication. Masson, Paris, 1995, p.65.

49
X. Din nou despre măsura efectului, semnificaţie clinică şi semnificaţie
statistică

În capitolul IX, la măsura efectului şi semnificaţia clinică am vorbit mai ales despre
studii cu end-point-uri hard, reprezentate de obicei prin variabile dihotomice (mort/viu,
cu infarct/fără, revascularizat/nerevascularizat etc.), la care se pot calcula riscuri
relative, absolute sau NNT. Există însă studii cu end-point-uri surogat, şi mai ales studii
la care end-point-ul se măsoară pe diferite scale de calitate a vieţii, reprezentate prin
variabile numerice, mai mult sau mai puţin continue şi aş vrea să vorbesc puţin despre
mărimea efectului la acest gen de studii.
Iată de exemplu rezultatele unui studiu privind efectul diclofenacului aplicat local în
gonartroză1 (publicat în CMAJ în 2004 şi recenzat în Evidence Based Medicine2 în 2005
sub titlul “În gonartroza primară, diclofenacul local a ameliorat durerea şi
funcţionalitatea fără efecte sistemice secundare”) (Tabelul X.1). Privind tabelul, este
evident că diclofenacul local a redus mai mult decât martorii toţi parametrii prezenţi pe
scala WOMAC, iar diferenţele au fost semnificative statistic (intervalele de încredere
95% nu includ cifra 0, pragul de semnificaţie pentru diferenţe). De altfel, pe lângă titlu,
şi comentariul expertului din EBM concluzionează: “Diclofenacul local a fost
semnificativ mai bun atât faţă de excipient, cât şi faţă de unguentul placebo pentru
reducerea durerii, disfuncţionalităţii fizice şi a redorii pe scala WOMAC”.

Tabelul X.1. Diclofenac local (DLO) versus excipient simplu (EXC) sau unguent placebo (PLA) pentru
gonartroza primară, la 28 de zile1.
Modificare medie Diferenţa dintre modifi-
Efect DLO EXC PLA cările medii (95%CI) Mărimea
scalei
Durere -3,9 -2,5 1,4 (1,2 la 1,5) 50
-3,9 -2,5 1,4 (1,2 la 1,5) 50
Funcţionalitate -11,6 -5,7 5,9 (5,1 la 6,4) 170
-11,6 -7,1 4,5 (4,0 la 5,4) 170
Redoare -1,5 -0,7 0,8 (0,7 la 0,8) 20
-1,5 -0,6 0,9 (0,9 la 0,9) 20
Durere la mers -0,8 -0,4 0,4 (0,4 la 0,5)
-0,8 -0,6 0,2 (0,2 la 0,3)

Măsurat pe subscala Western Ontario and McMaster Universities Osteoarthritis Index (WOMAC)

Acum ne punem întrebarea ce înseamnă “semnificativ mai bun”?


Pentru a ne da seama de mărimea efectului şi semnificaţia lui clinică, trebuie să ne
interesăm despre ce înseamnă scala WOMAC, şi căutând pe internet (prin Google
search), descoperim că această scală are 50 de puncte pentru durere, 170 de puncte
pentru funcţionalitate şi 20 de puncte pentru redoare. Comparând mărimea scalei
(ultima coloană din Tabelul X.1) cu mărimea efectului, avem tot dreptul să ne întrebăm:
pe o scală de 50 de puncte, este o reducere a durerii de 1,4 puncte importantă clinic? La
fel, pe o scală de 170 de puncte, este o îmbunătăţire a funcţionalităţii de 5,9 puncte
semnificativă clinic?
Mai mult, privind din nou tabelul, avem o revelaţie: efectul datorat medicamentului
(care este diferenţa dintre efectul total şi efectul datorat placebo) este mai mic decât
efectul obţinut doar cu placebo (1,4 faţă de 2,5 obţinut de placebo pentru durere, 4,5 faţă
de 7,1 obţinut de placebo pentru îmbunătăţirea funcţionalităţii, 0,2 faţă de 0,6 obţinut de
placebo în reducerea redorii). În această situaţie, vă propun o întrebare pur filozofică:

50
merită băgat în seamă un medicament a cărui substanţă activă obţine un efect mai slab
decât efectul placebo?
Ştiu că acest studiu terapeutic a fost recenzat în Evidence Based Medicine, ştiu că tot
acolo comentatorul vorbea de efectul “semnificativ mai bun” al diclofenacului, dar asta
nu înseamnă că nu avem dreptul de a judeca noi înşine (sau cei care introduc sau nu
medicamentul pe lista de compensate) cât de “semnificativ” este acest efect!
Ceva mai bine stau lucrurile într-un studiu3 (publicat în 2005 în Journal of
Rheumatology şi recenzat în bmjupdates), cu privire la efectul plasturilor cu ketoprofen
în tendinitele recente. De astă dată efectul a fost durerea măsurată pe o scală analogică
vizuală de 100 de milimetri. După o săptămână de tratament, în grupul placebo durerea
a scăzut cu 25,824,5 mm (37%), pe când în grupul ketoprofen durerea a scăzut cu
38,425,6 mm (56%) (p=0,0013). Ce spectaculoase par lucrurile când vedem un p atât
de mic! La fel, când comparăm cele două procente (atenţie aici şi la studiile privind
artrita reumatoidă, unde efectul este transformat în variabilă dihotomică prin clasificarea
ca repondenţi a celor la care indicele de activitate scade cu cel puţin 30% - vedem acum
ce fragile sunt toate aceste rezultate şi transformări!). Când ne uităm însă la rezultatele
brute, iată ce vedem: ketoprofenul a scăzut durerea cu aproape 40 de mm (ceea ce, de
astă dată e bine pe scala de 100 mm), însă şi placebo a scăzut-o cu o valoare
comparabilă, iar diferenţa dintre ele (deci efectul datorat ketoprofenului) este de 38,4-
25,8=12,6 mm (ceea ce nu mai este chiar atât de impresionant pe o scală de 100 mm).
Ieşind din domeniul reumatologiei, vă propun studiul TRISTAN4 asupra efectului
combinaţiei salmeterol+fluticazonă inhalatorii în BPCO. Unul dintre efectele studiate a
fost calitatea vieţii măsurată prin intermediul chestionarului St.George, chestionar
validat pentru BPCO.
În abstractul studiului citim: “tratamentul combinat a produs o îmbunătăţire
semnificativă a stării sănătăţii”, iar în articol: “numai grupul tratat cu combinaţia
salmeterol/fluticazonă şi-a îmbunătăţit semnificativ starea sănătăţii măsurată prin
chestionarul St. George după 52 de săptămâni”. Modificarea medie a scorului a fost de
4,3 la săptămâna 8 şi 4,5 la săptămâna 52, aceasta fiind semnificativ mai mare decât
aceea din grupurile placebo şi fluticazonă” (Tabelul X.2).

Tabelul X.2. Efectul combinaţiei salmeterol/fluticazonă asupra calităţii vieţii după 52 de săptămâni
Scor total SGRQ Placebo Salmeterol Fluticazonă Combinaţia
Media 46,3 45,2 45,5 44,1
Diferenţa (95%CI) § -2,2 (-3,3 la -1) -1,1 -1,4
p§ 0,0003 0,071 0,021

St George’s Respiratory Questionnaire
§
comparativ cu combinaţia

Ne revine iarăşi nouă, cititorilor sarcina de a vedea ce înseamnă “semnificativ” mai


mare şi mai bună.
Pentru asta, trebuie în primul rând să vedem ce este cu acest chestionar St. George, şi
din nou căutăm pe internet (tot cu Google). Pe site-ul American Thoracic Society găsim
informaţii fundamentale (http://www.atsqol.org/george.asp*). Prima este aceea că
susnumitul chestionar are 100 de puncte, şi atunci ne întrebăm ce înseamnă o
îmbunătăţire de 2,2 puncte (combinaţie minus placebo, rândul 2 din Tabelul X.2)
comparativ cu un total de 100 de puncte? După părerea mea, mai nimic!
A doua informaţie este că un tratament care modifică scorul cu 4 unităţi este considerat
uşor eficient, unul care-l modifică cu 8 unităţi este considerat moderat eficient, iar unul
*
Căutarea s-a efectuat în 2005. Pagina respectivă nu mai exista în ianuarie 2007.

51
care modifică scorul cu 12 unităţi este considerat foarte eficient. Placebo scăzuse scorul
cu aproape 3 puncte, deci mai avea puţin şi era uşor eficient, în timp ce despre
combinaţia salmeterol/fluticazonă care-l scăzuse cu 4,5 puncte putem spune cu mâna pe
inimă că este “uşor eficient”! Este, în acelaşi timp, “uşor scump” (cam la fel se petrec
lucrurile şi cu bromura de tiotropiu5). (La fel se petrec lucrurile şi în nou publicatul
studiu TORCH6. În plus, combinaţia salmeterol/fluticazonă pare a scădea uşor
mortalitatea).
Nu uitaţi să priviţi semnificaţia statistică a diferenţei dintre placebo şi combinaţie:
p=0,0003, înaltă semnificaţie statistică pentru o “mai puţin decât uşoară” semnificaţie
clinică. Interpretarea este: aceste 2,2 puncte amărâte care reprezintă diferenţa dintre
combinaţia salmeterol/fluticazonă şi placebo nu au apărut din întâmplare în studiul
nostru, ci sunt aproape sigur (risc de doar 3 la zece mii să ne înşelăm) datorate
tratamentului. Sau, profitând de informaţiile mai bogate pe care ni le dau intervalele de
încredere, putem spune că tratamentul cu combinaţia salmeterol/fluticazonă scade scorul
St. George cu de la 1,1 la 3,3 mai multe puncte decât placebo.
Din nou putem remarca faptul că în timp ce placebo scade scorul cu aproape 3 puncte,
diferenţa dintre combinaţie şi placebo este de doar 2,2 puncte, deci efectul datorat strict
medicaţiei este mai mic decât efectul placebo!
În sfârşit un ultim exemplu, găsit într-un studiu7 (citat de David8) referitor la
antidepresivele noi (fluoxetina, paroxetina, sertralina, venlafaxina, nefazodone şi
citalopram) şi în care se evaluau datele pe baza cărora aceste medicamente au fost
aprobate de Food and Drug Administration: în toate studiile terapeutice, 80% din
efectul medicaţiei a fost găsit şi în grupul placebo, diferenţa dintre pacienţii trataţi cu
medicaţia şi cei sub placebo a fost de 2 puncte pe scala Hamilton a depresiei, diferenţă
care din punct de vedere clinic nu este semnificativă (chiar dacă din punct de vedere
statistic este).
(Trebuie subliniat, însă, că rezultatele tuturor acestor studii sunt exprimate sub formă de
medii: în medie, combinaţia salmeterol/fluticazonă scade scorul St.George cu 2,2 puncte
mai mult decât placebo, ceea ce poate reprezenta media dintre doi pacienţi la care
diferenţa a fost zero şi unul la care medicamentul a scăzut scorul cu 6,6 puncte. Noi
trebuie să identificăm acel pacient la care avem acest efect, pentru a îi da tratamentul ca
şi pe cei doi la care nu avem nici un efect, pentru a evita o cheltuială inutilă! Acest
lucru, din păcate, nu se poate face acolo unde urmărim efecte “hard”: nici noi, nici
pacientul nu ne putem da seama căruia dintre pacienţi o terapie îi va prelungi sau nu
viaţa, deci nu putem aplica individualizat rezultatele unui studiu).

Bibliografie
1. Bookman AA, et al. Effect of a topical diclofenac solution for relieving symptoms of
primary osteoarthritis of the knee: a randomized controlled trial. CMAJ 2004;171:333–
8.
2. Topical diclofenac improved pain and physical function with no systemic side effects
in primary osteoarthritis of the knee. Ann Cranney, Siobhan O’Donnell
(Commentators). EBM 2005; 10:81.
3. Mazieres B, et al. Topical ketoprofen patch in the treatment of tendinitis: a
randomized, double blind, placebo controlled study. J Rheumatol. 2005;8:1563-70.
4. Calverley P, et al. Combined salmeterol and fluticasone in the treatment of chronic
obstructive pulmonary disease: a randomised controlled trial. Lancet. 2003
Feb;(9356):449-56.

52
5. Casaburi R, et al. A long-term evaluation of once-daily inhaled tiotropium in chronic
obstructive pulmonary disease. Eur Respir J 2002; 19:217-224.
6. Calverley PM, Anderson JA, Celli B, Ferguson GT, Jenkins C, Jones PW, Yates JC,
Vestbo J; TORCH investigators. Salmeterol and fluticasone propionate and survival in
chronic obstructive pulmonary disease. N Engl J Med. 2007; 356:775-89.
7. Kirsch I, et al. The emperor’s new drugs: an anlysis of antidepressant medication data
submitted to US FDA. Prevention and Treatment, 2002;5:1-11.
8 David D. Metodologia cercetării clinice. Fundamente. Editura Polirom Iaşi 2006, p.
81.

53
XI. Erorile de tip I şi II, puterea şi mărimea eşantionului

 şi testarea ipotezei
Facem un experiment fiindcă vrem să ştim dacă tratamentul modifică prognosticul.
Pentru aceasta avem nevoie de analiză statistică deoarece răspunsul poate fi (sau mai
bine zis de cele mai multe ori este) ambiguu.
Cele mai multe programe statistice prezintă rezultatele sub forma unei valori p care
răspunde la întrebarea: dacă tratamentul nu are nici un efect în realitate, care este
probabilitatea ca numai variabilitatea întâmplătoare să ducă la o diferenţă egală sau mai
mare decât cea care a rezultat în studiul nostru? Valoarea p este o fracţie care ia valori
de la 0 la 1. Dacă p este mic, suntem înclinaţi să credem că diferenţa observată în
studiul respectiv se datorează tratamentului, şi nu întâmplării.
Întotdeauna vrem să luăm o hotărâre în urma studiului, şi anume dacă diferenţa
observată este sau nu semnificativă statistic, iar acest lucru se face foarte simplu: înainte
de a începe studiul, se decide o valoare de prag pentru p, valoare numită , care este de
obicei egală cu 0,05. După efectuarea experimentului în urma căruia a fost calculată
valoarea lui p, dacă p=< tratamentul a avut un efect semnificativ statistic (şi respingem
ipoteza nulă că tratamentul nu a fost eficient), iar dacă p> experimentul nu ne
convinge că tratamentul a avut vreun efect.
Erorile de tip I şi II
Concluzia că un rezultat este sau nu semnificativ statistic este mai puţin solidă în
realitate, şi asta pentru că putem face două tipuri de greşeli:
 Eroarea de tip I () apare atunci când tragem concluzia că un efect este semnificativ
statistic, însă diferenţa a fost datorată întâmplării. Tratamentul nu a avut nici un
efect, iar variabilitatea întâmplătoare prezentă în cele două grupuri ne-a făcut să
tragem concluzia greşită că între ele există o diferenţă. Probabilitatea de a efectua o
astfel de greşeală este p.
 Eroarea de tip II () apare atunci când tragem concluzia că nu există un efect
semnificativ statistic, dar tratamentul este eficace. Tratamentul a avut efect, însă
variabilitatea întâmplătoare prezentă în cele două grupuri a ascuns diferenţa.
Această eroare apare atunci când studiul nu a avut destulă putere statistică.
 şi puterea
Chiar dacă tratamentul are efect, este posibil să nu obţinem o diferenţă semnificativă
statistic. Pur şi simplu din întâmplare, datele noastre pot duce la un p, cu alte cuvinte
facem o eroare de tip II ().
Probabilitatea ca, atunci când există o diferenţă în realitate, să obţinem şi noi
semnificaţie statistică în studiul nostru se numeşte putere.
 + puterea = 100%, de unde se vede că ele sunt complementare (crescînd puterea,
scădem probabilitatea de a face o eroare de tip II şi invers).
Putem privi experimentul (studiul) nostru ca pe un test diagnostic prin care vrem să
vedem dacă un tratament este sau nu eficient. Astfel,  este rata fals pozitivilor, (100%-
) este specificitatea, puterea este sensibilitatea, iar  este rata fals negativilor.
Testul nostru va fi cu atât mai sensibil cu cât puterea este mai mare şi cu atât mai
specific cu cât  (p) este mai mic.
Mărimea eşantionului
De câţi subiecţi (date) avem nevoie pentru un studiu?

54
Răspunsul depinde de:
1. Cât de mare este diferenţa pe care vreau să o evidenţiez (semnificaţia clinică)?
Cu cât efectul clinic este mai mare, cu atât avem nevoie de mai puţini subiecţi, şi invers.
Cum în zilele noastre efectele clinice ale tratamentelor sunt foarte mici (reduceri
absolute ale riscului = RAR uneori de sub 1%), studiile sunt efectuate pe efective din ce
în ce mai mari. Reprezentanţii firmelor farmaceutice se laudă de multe ori cu mărimea
eşantionului din studiul lor (“studiul a fost făcut pe x mii sau zeci de mii de pacienţi”);
acest lucru nu este neapărat de bine, ci arată că efectul clinic al tratamentului a fost atât
de mic, încât a fost nevoie de eşantioane uriaşe pentru a se atinge semnificaţia statistică.
Am văzut la exprimarea riscului, că RAR depinde de riscul bazal, aşadar cu cât riscul
bazal este mai mare, cu atât vom avea nevoie de mai puţini pacienţi şi invers. Studiile de
prevenţie terţiară (statine la pacienţi care deja au făcut un infarct) au nevoie de mai
puţini pacienţi decît cele de prevenţie secundară (statine la pacienţi cu boală
coronariană), de eşantionul cel mai mare având nevoie studiile de prevenţie primară
(statine la sănătoşi); chiar şi studiile de prevenţie primară se fac la pacienţi aflaţi la un
risc rezonabil de mare pentru a nu ne trezi că studiul nu a avut destulă putere (cum
spunea un prieten francez, profesor de medicină internă şi epidemiologie clinică, de ce
s-au făcut studiile HPS1 şi ASCOT2 în Marea Britanie şi Scandinavia, şi nu în ţări
mediteraneene?).
Se poate întâmpla ca estimarea frecvenţei evenimentelor din ramura martor să nu fie
adecvată [estimarea se face din studii de prevalenţă sau alte studii terapeutice; este
posibil ca eşantionul nostru să nu se potrivească cu estimarea din întâmplare, sau pentru
că populaţia noastră a fost diferită de cea din alte studii, sau pentru că estimarea a fost
prea vagă deoarece nu am găsit alte studii în domeniul respectiv sau care să urmărească
efectul (end-point-ul) respectiv]. O astfel de surpriză au avut coordonatorii studiului
EUROPA3, care a trebuit, pentru a avea mai multe evenimente încât să obţină
semnificaţie statistică, să prelungească durata studiului cu un an (soluţie preferabilă
includerii de noi pacienţi).
Alegînd pacienţi la risc mare pentru a creşte puterea statistică poate avea şi efect invers,
ca în studiul ISOLDE4, unde din cauza gravităţii bolii pacienţii au abandonat studiul în
număr foarte mare şi atunci retragerea din studiu a devenit efect de studiat (când se
simte foarte rău, pacientul nu mai simte nici un efect placebo, iar când nici
medicamentul nu are efect, normal că abandonează pacienţii din ambele ramuri ale
studiului!).
2. Cât de mare a fost variabilitatea datelor?
Cu cât variabilitatea datelor este mai mare (deviaţia standard a valorilor comparate
înainte şi după tratament, de exemplu), cu atât este nevoie de un eşantion mai mare.
3. Ce eroare de tip I ne asumăm (cât suntem de dispuşi să găsim o diferenţă care nu
există în realitate). De obicei =0,05, dar uneori poate vrem să obţinem un p mai mic
(atunci când investim mulţi bani într-un studiu) sau suntem dispuşi să acceptăm un p
mai mare (într-un studiu pilot, de exemplu). Cu cât vrem să obţinem un p mai mic, cu
atât vom avea nevoie de un eşantion mai mare.
4. Ce eroare de tip II ne asumăm (cît suntem de dispuşi să ratăm evidenţierea unei
diferenţe care există în realitate). Prin convenţie,  trebuie să fie cel mult 20% (deci
puterea măcar 80%).
Majoritatea studiilor publicate în NEJM (cea mai bună revistă medicală din lume!) în
anii 1970, şi lucrurile nu s-au îmbunătăţit în deceniul următor, nu aveau puterea
statistică de a evidenţia efectul propus5. În zilele noastre, dat fiind că majoritatea
studiilor terapeutice sunt sponsorizate de industria farmaceutică şi aceasta nu-şi permite
să cheltuiască sume uriaşe fără a reuşi să evidenţieze un efect cât de mic pentru a-şi

55
vinde medicamentul, studiile sunt proiectate de la început ca să aibă o putere destul de
mare (se vede calculul în secţiunea Metode a articolelor).
5. De cât timp şi bani dispune cel care face (sponsorizează) studiul. Modificări relativ
mici de  sau putere duc la modificări mari ale eşantionului (pentru că efectul
medicamentului este dat, nu putem umbla decât la erorile de tip I şi II atunci când
calculăm mărimea eşantionului) şi atunci, în funcţie de banii şi timpul disponibile, îţi
asumi riscuri mai mari sau mai mici.
Calculul puterii unui studiu
Atunci când întâlnim un studiu în care nu s-a ajuns la o semnificaţie statistică, vrem să
ştim dacă studiul este într-adevăr negativ sau tratamentul ar fi putut avea efect, însă
studiul nu a avut putere să îl evidenţieze. Pentru asta, putem introduce datele din studiu
(numărul de pacienţi incluşi în fiecare grup, numărul de pacienţi care au suferit efectul
urmărit şi RR sau RAR) şi obţinem puterea pentru =0,05 (care a fost puterea studiului
pentru a obţine măcar o semnificaţie statistică de p=0,05?).
Autorii studiului PEACE6 au dorit să demonstreze, după studiile HOPE7 cu ramipril şi
EUROPA3 cu perindopril, că şi trandolaprilul ar scădea morbi-mortalitatea la pacienţii
coronarieni fără hipertensiune sau insuficienţă cardiacă. Studiul PEACE nu a fost, însă,
pozitiv şi s-a vehiculat ideea că, pacienţii de aici fiind la risc mai mic decât cei din
HOPE şi EUROPA, nu s-a atins semnificaţia statistică pentru că studiul nu a avut
puterea necesară. Şi într-adevăr, pentru efectul principal (un efect compozit, altul decât
cel din EUROPA) puterea studiului a fost de 16%, pentru mortalitatea cardiovasculară
puterea a fost de 10%, iar pentru mortalitatea generală puterea a fost de 32% (calcule
efectuate cu Epi Info 6*). Dacă merita să mărim talia eşantionului pentru a obţine
semnificaţie statistică vom vedea la discutarea intervalelor de încredere (Capitolul XII).

Bibliografie
1. MRC/BHF Heart Protection Study of cholesterol lowering with simvastatin in 20,536
high risk individuals: a randomized placebo-controlled trial. Lancet 2002 360: 7-22.
2. Sever PS et al. Prevention of coronary and stroke events with atorvastatin in
hypertensive patients who have average or lower-than-average cholesterol
concentrations, in the Anglo-Scandinavian Cardiac Outcomes Trial-Lipid-Lowering
Arm (ASCOT-LLA): a multicentre randomised trial. Lancet 2003; 361: 1149-1158.
3. The EURopean trial On reduction of cardiac events with Perindopril in stable
coronary Artery disease Investigators. Efficacy of perindopril in reduction of
cardiovascular events among patients with stable coronary artery disease: randomised,
double-blind, placebo-controlled, multicentre trial (the EUROPA study). Lancet. 2003;
362: 782–88.
4. P S Burge PS, Calverley PMA, Jones PW, Spencer S, Anderson JA, Maslen TK on
behalf of the ISOLDE study investigators. Randomised, double blind, placebo
controlled study of fluticasone propionate in patients with moderate to severe chronic
obstructive pulmonary disease: the ISOLDE trial. BMJ 2000;320:1297–303
5. Freiman JA, Chalmers TC, Smith H, Kuebler RR. The importance of beta, the type II
error, and sample size in the design and interpretation of the randomized controlled trial.
Survey of two sets of “negative” trials. În JC Baillar III, F Mosteller (editors), Medical
uses of statistics, NEJM Books, Boston, Massachusetts, 2d Edition, 1992, p.357-73.
*
se poate lua gratuit de pe site-ul Center for Disease Control:
http://www.cdc.gov/epiinfo/Epi6/EI6dnjp.htm

56
6. The PEACE Trial Investigators. Angiotensin-Converting–Enzyme Inhibition in
Stable Coronary Artery Disease. N Engl J Med 2004;351:2058-68.
7. The Heart Outcomes Prevention Evaluation Study Investigators. Effects of an
angiotensin-converting-enzyme inhibitor, ramipril, on cardiovascular events in high-risk
patients. N Engl J Med 2000;342:145-153.

57
XII. Cât de precisă este estimarea efectului tratamentului?

În timp ce în capitolele IX şi X am vorbit despre semnificaţia clinică a rezultatelor unui


RCT (mărimea efectului), de această dată ne vom ocupa de semnificaţia statistică, şi în
special de intervalele de încredere.
Nu putem niciodată cunoaşte care este reducerea riscului în realitate (la nivelul
populaţiei), ci avem la îndemână estimarea punctuală (din studiul respectiv), pe care
încercăm statistic să o extrapolăm la nivelul populaţiei - aceasta se face prin
intermediul intervalului de încredere, adică intervalul în care putem fi 95% siguri că se
găseşte parametrul respectiv la nivelul populaţiei.
Aşadar, parametrul despre care vorbim (RR, RRR, RAR, OR etc.) se poate găsi în
realitate oriunde în acest interval, este adevărat cu o probabilitate din ce în ce mai mică
pe măsură ce ne îndreptăm spre capetele intervalului, şi cu o probabilitate de 5% să se
găsească înafara lui (2,5% sub limita inferioară şi tot 2,5% deasupra limitei superioare a
intervalului - Figura XII.1).

Figura XII.1. Rezultatul unui studiu clinic randomizat, exprimat sub forma riscului relativ (RR cu CI
95%).

RR este de 0,5 (estimarea punctuală), intervalul de încredere 95% fiind [0,25 - 0,75], marcat prin liniile
verticale scurte. Linia verticală lungă este RR de 1 (tratamentul nu reduce riscul, nici nu-l creşte). Aria
neagră = probabilitatea ca RR să fie mai mic de 0,25 (stânga) sau mai mare de 0,75 (dreapta) (fiecare
dintre aceste probabilităţi este de 2,5%). Aria gri închis = probabilitatea de 47,5% ca RR să fie între 0,25
şi 0,5 (probabilitatea scade pe măsură ce ne îndreptăm spre marginea 0,25 a CI). Aria gri deschis =
probabilitatea de 47,5% ca RR să fie între 0,5 şi 0,75 (probabilitatea scade pe măsură ce ne îndreptăm
spre marginea 0,75 a CI). Interpretare: tratamentul a scăzut riscul la jumătate în studiul nostru, iar în
realitate, cu o probabilitate de 95%, tratamentul scade riscul la între 1/4 şi 3/4 din riscul bazal.

Pentru ca două tratamente să fie diferite (să existe semnificaţie statistică), trebuie ca
intervalele de încredere ale rapoartelor (RR, OR) să nu-l cuprindă pe 1, ale diferenţelor
(RRR şi RAR, sau diferenţa dintre scorurile de calitatea vieţii, scoruri de durere sau pur
şi simplu diferenţele dintre valorile TA, colesterolului etc.) să nu-l cuprindă pe 0, iar al
NNT să nu tindă către infinit.
În Figura XII.2 sunt prezentate rezultatele a trei studii terapeutice pozitive. Toate trei
arată aceeaşi reducere absolută a riscului (RAR), de 4%, însă gradul de precizie al
estimării RAR este diferit, de la mic (studiul roz, cu CI95% cel mai larg, care cuprinde
şi valoarea 0, deci rezultatul nu este semnificativ statistic), la mare (studiul bleumarin,
cu CI95% cel mai îngust). Din punct de vedere statistic, studiile bleumarin şi portocaliu
sunt semnificative (CI95% nu cuprind valoarea 0), deci suntem 95% siguri că
tratamenul scade riscul. Din punct de vedere clinic (sau al sănătăţii publice), însă, se

58
Figura XII.2. Rezultatele a 3 studii terapeutice ipotetice, exprimate sub forma RAR cu CI95%.

Tratamentul dăunează Tratamentul ajută

RAR -4 -2 0 2 4 6 8 10
Pentru efectul (end-point-ul) respectiv, considerăm că o reducere absolută a riscului (RAR) de 2% (linia
verticală gri) este cel mai mic beneficiu pe care pacienţii îl consideră destul de important ca să merite să
urmeze tratamentul. În fiecare caz, maximul înălţimii “clopotului” reprezintă estimarea punctuală a RAR,
iar extremităţile sunt CI95%. Putem considera fie că este vorba de 3 RCT diferite din care din întâmplare
a rezultat aceeaşi RAR de 4%, fie că este vorba despre acelaşi RCT, dar cu eşantioane diferite,
determinând puteri statistice diferite ale studiului, de la eşantionul cel mai mic (clopotul roz), cu CI95%
cel mai mare, la studiul cu eşantionul cel mai mare (clopotul bleumarin), cu CI95% cel mai îngust.

Figura XII.3. Rezultatele a 2 studii terapeutice ipotetice “negative”, exprimate sub forma RAR cu
CI95%.

Tratamentul dăunează Tratamentul ajută

-8 -6 -4 -2 0 2 4 RAR
Ambele studii au arătat că tratamentul creşte riscul absolut cu 2% (rezultat nesemnificativ statistic,
deoarece intevalele de încredere cuprind valoarea 0). Dacă ambele extremităţi ale CI95% ar fi fost mai
mici decât 0, studiul ar fi arătat clar că tratamentul dăunează. Considerând, ca şi în Figura 2, RAR=2% ca
valoare de prag a semnificaţiei clinice şi/sau economice (linia verticală gri), studiul portocaliu poate fi
considerat clar negativ, nu însă şi studiul bleumarin.

59
poate considera că, pentru boala şi efectul (end-point-ul) respective, tratamentul nu
merită făcut dacă nu produce o RAR de cel puţin 2%, şi atunci nici studiul portocaliu nu
este concludent, pentru că intervalul de încredere cuprinde valoarea 2. Dintre toate,
numai studiul bleumarin este clar pozitiv.
În Figura XII.3 sunt prezentate rezultatele a două studii terapeutice “negative”, în care
estimarea punctuală arată că tratamentul ar creşte riscul absolut cu 2%. Dacă ambele
extremităţi ale CI95% ar fi fost în stânga liniei roşii, am fi putut spune că sigur
tratamentul nu ajută (ba chiar mai mult, că sigur tratamentul face rău). Studiul
portocaliu este negativ – chiar în eventualitatea, destul de improbabilă că, în realitate,
RAR s-ar găsi între linia roşie = RAR de 0 şi extremitatea superioară a intervalului de
încredere, rezultatul tot n-ar fi depăşit limia semnificaţiei clinice sau economice pe care
ne-am fixat-o la 2% pentru acest tratament şi efect, aşadar nu ar fi meritat. Celălalt
studiu, însă, cel bleumarin nu este clar negativ, deoarece nu este exclusă posibilitatea ca
tratamentul să scadă, totuşi, riscul cu mai mult de 2% (extremitatea superioară a
intervalului de încredere depăşeşte valoarea de 2%). Aşadar, deoarece intervalul de
încredere este prea larg, cuprinzînd nu numai valoarea 0, ci şi valori importante din
punct de vedere clinic, putem spune că studiile portocaliu şi roz din figura XII.2 şi
bleumarin din figura XII.3 nu sunt concludente, şi trebuie făcute alte studii cu
eşantioane mai mari pentru a îngusta intervalul de încredere şi a căpăta o siguranţă mai
mare. Altă soluţie este, atunci când dispunem de mai multe astfel de studii
neconcludente, cu intervale de încredere largi, să le cumulăm şi să facem o metaanaliză
(care nu este decât o altă metodă de mărire a eşantionului, şi deci a puterii statistice).
În Tabelul XII.1 sunt prezentate rezultatele a patru studii ASCOT1, trei imaginare,
efectuate pe eşantioane de 50, 10 şi 5 ori mai mici şi cel real, efectuat pe 19.257
pacienţi. Rezultatele se referă la unul dintre obiectivele secundare – total evenimente şi
proceduri cardiovasculare.
Se vede cum intervalul de încredere devine din ce în ce mai îngust pe măsură ce se
creşte eşantionul. Dacă studiul ar fi fost efectuat pe 385 pacienţi (de 50 ori mai puţin
decât în realitate), intervalul de încredere ar fi fost extrem de larg şi nu s-ar mai fi
obţinut semnificaţie statistică: RRR variază de la cu 34,5% mai mare în ramura
amlodipină faţă de atenolol pînă la cu 47,6% mai mic, iar NNT de la trebuie să tratăm
10 pacienţi cu amlodipină/peridopril în loc de atenolol/tiazidic petru a salva 1 pacient,
până la trebuie să tratăm 22 de pacienţi cu atenolol/tiazidic în loc de
amlodipină/perindopril pentru a salva 1 pacient.

Tabelul XII.1. Variaţiile intervalelor de încredere ale riscurilor şi NNT în funcţie de mărimea
eşantionului (studiul ASCOT cu eşantion real şi eşantioane imaginare mai mici) – end point: total
evenimente şi proceduri cardiovasculare.
Mărimea Incidenţa Incidenţa în RR RRR (CI95%) RAR NNT
eşantionul în grupul grupul (CI95%) (CI95%) (CI95%)
ui atenolol amlodipină
: 50 (385) 27/193 32/192 0,85 15% 2,5% 40
(0,53-1,35) [(-34,5)-47,6] [(-4,5)-9,9] [10-(-22)]
: 10 (1926) 136/964 160/962 0,85 15% 2,5% 40
(0,69-1,05) [(-4,7) – 31,3) [(-0,7) – 5,7) [18-(-142)]
: 5 (3.850) 272/1927 320/1923 0,85 15% (1,6-27) 2,5% 40
(0,73-0,98) (0,2-4,8) (21-500)
Real 1362/9639 1602/9618 0,85 15% 2,5% 40
(19.257) (0,78-0,90) (10-22) (1,5-3,5) (29-67)

60
Dacă studiul ar fi fost efectuat pe 3850 pacienţi (de 5 ori mai puţin decât în realitate), s-
ar fi obţinut semnificaţia statistică, însă intervalul de încredere s-ar fi întins până la
limita acesteia (0,98 pentru RR, 1,6% pentru RRR, 0,2% pentru RAR).
Şi acum trebuie să discutăm despre o chestiune foarte delicată, care este semnificaţia
clinică (vezi şi Capitolul X.Din nou despre măsura efectului, semnificaţie clinică şi
semnificaţie statistică). Delicată pentru că este subiectivă şi arbitrară.
Recunosc că eu, care sunt obsedat de semnificaţia clinică, am căutat în multe locuri să
vedem dacă a stabilit, vreodată, cineva nişte praguri peste care să spunem că un rezultat
este semnificativ clinic. În studiile de cost-eficienţă, acest prag este stabilit la 50.000
USD pentru un an de viaţă câştigat (stabilit în ţările dezvoltate, pentru cele mai sărace s-
ar putea să fie prea mult; unii nu concep să-şi ia o maşină care nu are cinci stele NCAP
la siguranţă, 6 air-baguri şi ABS, EBD etc., alţii nu au bani să-şi cumpere nici una cu
mult mai ieftină! Desigur, pentru idealişti o viaţă este inestimabilă şi merită să plăteşti
oricât pentru ea, însă avem de plătit pentru mai multe miliarde de vieţi pe Pământ şi nu
avem cu ce).
După unii2, RRR devine destul de importantă dacă este de măcar 25%, însă am văzut în
capitolul IX că RR şi RRR nu sunt măsuri ale semnificaţiei clinice, pentru că sunt
aceleaşi indiferent de riscul bazal, semnificaţia clinică fiind dată de RAR şi NNT.
De fapt nu s-a stabilit un prag universal, pentru că nu există aşa ceva, acesta depinde de
multe lucruri. Pragul este stabilit, de la caz la caz de responsabilii cu politica sanitară şi
de pacienţi (clinicienii sunt ultimii care să participe la aşa ceva). Responsabilii cu
sănătatea publică îl stabilesc în primul rând în funcţie de costuri (una este să reduci
riscul absolut cu 1% cu aspirină, sau un diuretic tiazidic, medicamente foarte ieftine, şi
alta este să realizezi acelaşi lucru cu clopidogrel, sau un trombolitic de ultimă generaţie,
ori amlodipină sau perindopril; desigur, în costuri intră multe alte cheltuieli înafara
preţului tratamentului). Pentru pacient, pragul dincolo de care merită mai degrabă să
facă un tratament decât altul este stabilit luând în considerare preţul pe care îl plăteşte
el, calitatea vieţii (scăzută de un tratament prin reacţiile adverse, sau crescută de un
medicament care este, poate, mai scump), elemente pe care fiecare pacient le evaluează
în felul său, în funcţie de venituri şi filozofia lui de viaţă. De aceea, în timp ce
responsabilii cu politica sanitară trebuie să găsească ei informaţia şi să evalueze dacă un
tratament merită sau nu mai mult decât altul să fie compensat sau gratuit, pacientul
trebuie să ia o hotărâre în funcţie de preferinţele lui, după ce medicul îi explică ce obţine
de fapt în raport cu un alt tratament sau cu nici un tratament (RAR, NNT) – vezi
Capitolul XVI. Comunicarea riscului.
Dacă stabilim pragul de semnificaţie clinică al RAR la 2% (pacientul consideră că nu
merită să cumpere, sau responsabilii cu politica sanitară consideră că nu merită să
compenseze amlodipină+perindopril în loc de atenolol+un tiazidic decât dacă acest din
urmă regim scade riscul absolut cu cel puţin 2%), studiul ASCOT imaginar pe un
eşantion de 3.850 de pacienţi (de 5 ori mai mic decât în realitate) (Tabelul XII.1) nu este
concludent, deoarece marginea inferioară a intervalului de încredere trece destul de bine
sub pragul de 2%.
Cum studiul ASCOT a fost efectuat în realitate pe un eşantion mult mai mare, iar
intervalul de încredere este mai îngust (1,5%-3,5%), cu o probabilitate foarte mare RRA
real se află mai sus de 2%. Rămâne doar de judecat dacă această diferenţă (între 1,5 şi
3,5% după 5,5 ani de tratament, cu un NNT corespunzător de 29-67, şi am ales din
articol end-point-ul cu semnificaţia statistică cea mai mare) este destul de tentantă,
ţinînd cont de preţul cu mult mai mare al combinaţiei amlodipină+perindopril. Chiar
dacă luăm varianta optimistă a intervalului de încredere, din 29 de pacienţi 28 dau

61
diferenţa de preţ degeaba, şi poate că dacă ar fi întrebaţi ar prefera să o dea lunar pe o
carte sau, de ce nu, pe o sticlă de vodcă. E viaţa lor şi au dreptul să aleagă.
Dintre pacienţii pe care îi vedem atât de des la jurnalele de ştiri în faţa farmaciilor,
descumpăniţi că nu li se mai compensează medicamentele scumpe pe care le luaseră
până atunci, niciunul nu ştie care sunt RAR sau NNT. Normal, din moment ce nici
medicii care le-au prescris habar nu au! Aceste lucruri sunt foarte sensibile din punct de
vedere filozofic şi politic – acum puţine luni a fost mare scandal în Marea Britanie când
National Institute for Cinical Excellence (NICE) a hotărât să sisteze compensarea
medicamentelor folosite în demenţă în stadiile incipiente, pentru că efectul lor nu merita
cheltuiala (2,5 lire sterline pe zi)3.

Bibliografie
1. Dahlof B, Sever PS, Poulter NR et al, for ASCOT investigators. Prevention of
cardiovascular events with an antihypertenive regimen of amlodipine adding perindopril
as required versus atenolol adding bendroflumethiazide as required, in he Anglo-
Scandinavian Cardiac Outcomes Trial – Blood Pressure Lowering Arm (ASCOT-
BPLA): a multicentre randomised controlled trial. Lancet. 2005; 366:895-906.
2. Sackett D, Haynes B, Guyatt G, Tugwell T. Clinical epidemiology. A basic science
for clinical medicine. 2nd Edition. London: Little, Brown 1991. p. 203.
3. http://news.bbc.co.uk/2/hi/health/6036519.stm (accesat ultima dată pe 18/01/2007)

62
XIII. Studiile N-of-1 (studiile pe un singur caz)

Cele mai multe studii implică mulţi pacienţi, dar la unele întrebări clinice se poate
răspunde făcând un studiu care foloseşte un singur pacient.
RCT-urile suferă de faptul că au o aplicabilitate limitată la pacienţii pe care îi întâlnim
în lumea reală, şi din acest motiv cel mai bun design de studiu pentru a determina care
sunt cele mai eficiente terapii sunt studiile N-of-1. Acestea folosesc metode la fel de
riguroase ca şi RCT-urile, şi totuşi le vedem rareori publicate1.
Scopul unui studiu N-of-1 este modest – nu încercăm să aflăm secretele naturii şi de
multe ori nici să strângem date care să ajute pacienţii viitori, vrem doar să vedem care
dintre mai multe alternative este cea mai bună pentru un anumit pacient.. Eu le-am
întâlnit pentru prima oară într-una din cărţile grupului de la McMaster2, dar ele sunt
prezentate şi in alte cărţi3, 4, 5, 6 sau articole7, pentru ca de curând să apară cocoţate direct
în vârful piramidei medicinei bazate pe dovezi8.
În 2004 găsim un studiu n-of-1 in BMJ (efectul vitaminei B6 asupra greţurilor la
gravide9), iar la căutarea pe MEDLINE a termenului “N-of-1” rezultă 182 de articole*,
şi sigur nu sunt toate. În România, pot să mă laud că am făcut primul studiu N-of-110,
după cum am făcut primul RCT11 şi primul studiu multicentric12. Ambele studii
terapeutice (N-of-1 şi RCT) au avut drept scop evaluarea efectul spirulinei – şi asta
pentru că o firmă producătoare a acesteia a fost singura care a acceptat să-mi furnizeze
medicamentul, şi placebo – nici una dintre firmele farmaceutice mari nu a fost interesată
de un studiu propus de mine.
Studiile "n of 1" se efectuează pe un singur pacient, alternându-se aleator perioade de
tratament cu perioade de placebo, dublu orb şi se evaluează care a fost efectul
tratamentului respectiv la acest pacient, hotărând-se apoi dacă tratamentul va fi prescris
pacientului.
Aşadar, dintr-un astfel de studiu putem trage concluzii numai asupra pacientului
respectiv (acesta este şi scopul), neputând generaliza.
Când este potrivit studiul N-of-1 ?
Aceste studii se fac în mai multe circumstanţe:
1. Există tratamente care se aplică pentru o anumită afecţiune, dar nu există dovezi
clare privind eficacitatea lor (nu exista nici un RCT).
În aceste cazuri, în practică se încearcă tratamentul, văzând dacă în timpul lui
pacientului îi merge mai bine. Fiind un studiu terapeutic fără martor, tip
“înainte/după”, este supus erorilor sistematice din mai multe motive (evoluţia
ondulantă a bolilor, efectul placebo, regresia către medie, efectul de voluntariat etc. –
vezi Capitolul VII. Studiile terapeutice fără grup martor) şi atunci pasul următor ar fi
un studiu N-of-1, în care pacientul devine propriul său martor (studiu în cross-over).
2. Există studii clinice randomizate (RCT) cu tratamentul respectiv; în aceste studii,
însă, avem comparaţii de medii (de exemplu combinaţia salmeterol-flixotide
îmbunătăţeşte scorul pe chestionarul StGeorge cu 2 puncte, sau creşte PEF cu un
număr de mililitri - este vorba de o medie a tuturor pacienţilor participanţi la studiu).
Dintre aceşti pacienţi, unii nu au răspuns de loc, alţii, dimpotrivă, au raspuns cu mult
mai bine decat media furnizata în articol, iar scopul studiului pe 1 pacient este acela
de a vedea cum răspunde respectivul pacient. Chiar dacă există studii randomizate în
care s-au urmărit efecte hard, în oricare dintre aceste studii o bună parte dintre
pacienţi nu răspund (un studiu este pozitiv atunci când suferă efectul urmărit mai
puţini pacienţi în grupul tratat decât în grupul martor, iar diferenţa este semnificativă
*
Căutat pe 18 martie 2007.

63
statistic), iar pacientul nostru nu ştim dacă face parte dintre cei care răspund la
tratament sau nu.
3. Există RCT, însă în toate aceste studii există criterii de excludere stricte, iar
pacientul nostru ar putea să facă parte dintr-un grup care să fi fost exclus dintr-un
asemenea studiu (de exemplu, într-un studiu pe pacienţi cu BPOC sunt excluşi
pacienţii cu fibrilaţie atrială în timp ce pacientul nostru are, sau pacienţii din studiu
sunt mai tineri sau mai în vârstă decât pacientul nostru, sau pacientul nostru are
afecţiunea localizată în altă parte sau în alt stadiu decât cei din studiu etc.).
Studiul "n-of-1" îl putem face pe orice pacient căruia ne gândim să-i aplicăm
tratamentul respectiv şi care poate să nu facă parte din populaţia ideală de pacienţi care
ar fi fost selectionaţi pentru un RCT.
De asemenea, putem efectua un astfel de studiu în cazul în care:
- Pacientul ia deja o medicaţie, dar nici el, nici medicul nu sunt convinşi că aceasta
are vreun efect.
- Medicul nu este sigur că tratamentul (pe care încă nu l-a început) va avea efect la un
pacient.
- Pacientul insistă să ia un tratament pe care medicul îl crede inutil sau potenţial
periculos, dar nu-l poate convinge pe pacient de acest lucru.
- Un pacient are o simptomatologie suspectată – fără a avea siguranţa – de a fi un
efect advers al tratamentului.
- Nici medicul, nici pacientul nu sunt siguri de doza optimă.
Condiţiile pentru un studiu N-of-1
1. Este studiul indicat pentru pacientul nostru?
- este eficacitatea tratamentului cu adevărat nesigură în cazul lui?
- dacă este eficient, va fi tratamentul continuat lung timp? (acest tip de studii
fiind destul de laborioase, nu merită să le facem pentru un tratament care va
fi apoi continuat doar câteva săptămâni, adică mai puţin decât însuşi studiul);
de asemenea, poate nu merită efectuat un astfel de studiu în cazul
tratamentelor ieftine şi fără efecte adverse (dacă există aşa ceva).
- doreşte pacientul nostru să colaboreze la designul şi implementarea unui
astfel de studiu?
2. Este un atfel de studiu fezabil la pacientul nostru?
- tratamentul îşi face efectul rapid?
- efectul tratamentului dispare repede după oprire? (în funcţie de răspunsul la
aceste întrebări se stabileşte durata perioadelor alternative de
tratament/placebo şi existenţa unei eventuale perioade de “spălare” între ele;
cu cât perioadele sunt mai scurte, cu atât studiul este mai fezabil).
- pot fi măsurate efectele relevante pentru pacient? După cum se vede, nu pot
fi urmărite decât efecte surogat (semne şi simptome, TA, VEMS etc.).
Efectele hard, care nu survin decât o singură dată şi sunt ireversibile, nu pot
fi folosite pentru studiile în cross over. Avantajul este însă că trebuie să
măsurăm efectele strict legate de acel pacient (ce îl supără pe el cel mai
mult), şi nu să aplicăm scale complicate de calitatea vieţii, de exemplu.
- pot fi stabilite criterii clare pentru oprirea studiului? (dacă medicul şi
pacientul sesizează diferenţe clare între două perioade, se va efectua măcar
încă o pereche înainte de a dezvălui codurile pentru medicaţie şi placebo;
dacă diferenţele sunt mici, atunci va fi nevoie de mai multe perechi de
perioade).
3. Putem noi efectua un astfel de studiu?

64
- are cine să ne furnizeze placebo? (în studiile de pînă acum, capsulele
identice erau pregătite de farmacia spitalului; bineînţeles că acest lucru nu se
poate realiza pentru medicaţie cu eliberare prelungită, de exemplu).
- putem interpreta rezultatele studiului? Odată strânse datele cu grijă, cum le
interpretăm? Cea mai simplă metodă este reprezentarea grafică a efectelor,
cu inspectarea lor vizuală, această metodă având un lung stagiu în
psihologie, de unde acest tip de studiu provine, de altfel. În general, dacă
diferenţele dintre tartament şi placebo nu sunt destul de mari încât să sară în
ochi, atunci efectul clinic probabil că nu este destul de important. Pentru a
evita erorile sistematice de observaţie (vedem că tratamentul pare grafic mai
eficicent pentru că ne dorim acest lucru), Guyatt recomandă abordarea
statistică (test t împerecheat). După părerea mea, este suficient să privim
reprezentarea grafică înainte de dezvăluirea codurilor, sau pur şi simplu să
punem să interpreteze graficul unul sau mai mulţi observatori “orbi”.

Aşadar, studiile N-of-1 nu sunt studii de cercetare ale căror rezultate le extrapolăm la un
grup de pacienţi, ci dimpotrivă reprezintă verificarea studiilor efectuate pe mai mulţi
pacienţi la pacientul nostru. Din experienţa celor care au efectuat astfel de studii, în
aproximativ o treime dintre cazuri tratamentul definitiv a diferit de tratamentul care ar fi
fost prescris dacă studiul N-of-1 nu ar fi fost efectuat. Au fost efectuate studii cu
antidepresive şi antialgice pentru durere, Ginseng pentru oboseală, beta-agonişti,
teofilină sau bromură de ipratropiu pentru astm sau BPOC, beta-blocante pentru
sincopă, spirulină pentru oboseală etc. Multe dintre aceste studii au salvat pacienţii de la
cheltuieli, neplăceri şi efecte adverse, identificând pacienţii la care tratamentele testate
chiar merg.

Bibliografie
1. POEM: Acetaminophen=celecoxib in DJD (LOE 1b). InfoRetriever, John Wiley &
Sons, Inc.
2. Sackett D, Haynes B, Guyatt G, Tugwell T. Clinical epidemiology. A basic science
for clinical medicine. 2nd Edition. London: Little, Brown 1991. p. 23-38.
3. Portney LG, Watkins M. Single-case experimental designs. In: Foundations of
clinical research. Applications to practice. Appleton and Lange, Norwalk, 1993, 191-
232.
4. Straus S, Richardson S, Glasziou P, Haynes B. Evidence-based medicine. How to
practice and teach EBM. 3rd Edition, Elsevier 2005, p.172-175.
5. Guyatt G, Jaeschke R, McGinn T. Therapy and validity. N of 1 randomized
controlled trials. In: Guyatt G, Rennie D. User’s guides to the medical literature. A
manual for evidence-based medicine. American Medical Association Press, Chicago,
2002, 284-286.
6. Motulsky H. Intuitive biostatistics. Oxford University Press, New York 1995. 192-
194.
7. Guyatt GH, Sackett D, Taylor DW, Chong J, Roberts R, Pugsley S. Determining
optimal therapy – randomized trials in individual patients. N Engl J Med. 1986;
314:889-892.

65
8. Guyatt G, Haynes B, Jaeschke R et al. Intoduction: the philosophy of evidence-based
medicine. In: Guyatt G, Rennie D. User’s guides to the medical literature. A manual for
evidence-based medicine. American Medical Association Press, Chicago, 2002, 7.
9. Harker N, Montgomery A, Fahey T. Treating nausea and vomiting during pregnancy:
case progression. BMJ 2004;328:337.
10. Baicus C, Baicus A. Spirulina did not ameliorate idiopathic chronic fatigue in four
N-of-1 randomized controlled trials. Phytotherapy Res 2007; DOI 10.1002/ptr.2114.
11. Baicus C, Tanasescu C. In chronic viral hepatitis, the treatment with spiruline for
one month has no effect on the aminotransferases. Rom J Intern Med 2002; 40:89-94.
12. Baicus C, Bolosiu HD, Tanasescu C, Baicus A for the GSFONR. Fever of unknown
origin - predictors of outcome. A prospective multicenter study on 164 patients. Eur J
Int Med 2003; 14:249-254.

66
XIV. Studiile care sintetizează studii: sinteza sistematică şi metaanaliza

Explozia publicaţiilor medicale în ultimele decenii (în jur de 20.000 de reviste, cu peste
2 milioane de articole anual) face imposibilă menţinerea la zi a cunoştinţelor medicale.
Mai mult, medicii şi managerii din sănătate au nevoie de informaţii cu privire la
eficienţa unui număr foarte mare de intervenţii terapeutice sau diagnostice.
Chiar şi în cazul unui singur domeniu, se întâmplă să existe zeci sau chiar sute de studii
publicate, dintre care multe dau rezultate neclare sau contradictorii. Privit individual,
fiecare studiu poate da o mică imagine asupra eficienţei tratamentului respectiv;
speranţa este că, atunci când sunt analizate mai multe împreună va rezulta un tablou mai
clar şi consistent.
Sintezele au fost întotdeauna parte a literaturii medicale. Ele erau efectuate de lideri de
opinie cunoscuţi în domeniul respectiv, care căutau să adune cunoştinţele existente în
privinţa eficienţei unei anumite metode terapeutice.
Din nefericire, aceste încercări de sinteze nu au fost întotdeauna riguroase, una dintre
probleme fiind aceea că respectivul lider de opinie pornea la drum cu o părere deja
formată asupra eficienţei tratamentului de studiat, părere formată pe baza experienţei
proprii sau a lecturilor, iar o părere preformată determină o apreciere subiectivă a
dovezilor existente, căutîndu-le pe acelea care sprijină respectiva opinie. Linus Pauling,
savantul care credea cu toată fiinţa în virtuţile vitaminei C, luând zilnic doze importante
din aceasta, a efectuat o sinteză a studiilor terapeutice referitoare la efectul vitaminei C
în răceală, iar rezultatul a fost că, într-adevăr, aceasta ajută, abia mai târziu
descoperindu-se că Pauling nu recenzase decât studiile pozitive, ignorîndu-le pe
celelalte.
Chiar şi atunci când autorul pleacă la drum fără păreri preconcepute, sintezele
tradiţionale (denumite narative, în contradicţie cu cele sistematice) sunt rareori explicite
în ceea ce priveşte modul de selecţie, evaluare şi integrare a studiilor primare, astfel
încât cititorul nu poate evalua probabilitatea de eroare.
Lipsa de rigoare în elaborarea sintezelor nu a fost remarcată decât la sfârşitul anilor 80,
când unii autori au expus inadecvările procesului de recenzie şi erorile recomandărilor
care rezultau în urma lui (de exemplu, recomandarea vitaminei C în răceală).
În 1992, Antman şi Lau publică două articole1, 2 în care arată că, dacă studiile originale
asupra trombolizei în infarctul acut de miocard ar fi fost recenzate sistematic, beneficiul
acestei terapii ar fi fost evident de pe la mijlocul anilor 70, iar pe de altă parte nici
tratatele, nici recenziile narative de până atunci nu fuseseră în stare să sintetizeze nivelul
cunoştinţelor asupra trombolizei: fie omiseseră menţionarea acestei terapii eficiente, fie
sugeraseră că ea mai trebuie studiată, când de fapt, dacă s-ar fi efectuat o sinteză
sistematică, eficienţa ei ar fi fost de netăgăduit.
S-a ajuns, astfel, la concluzia că este nevoie de aceeaşi rigoare în cercetarea secundară
(cercetarea care are drept obiect alte cercetări) ca şi cea aşteptată de la cercetarea
primară (studiile originale).
De sintezele sistematice este nevoie ori de câte ori există o incertitudine terapeutică, în
pofida existenţei mai multor studii (uneori cu rezultate contradictorii).
Necesitatea rigorii în producerea sintezelor sistematice a dus la dezvoltarea unui proces
formal care constă în următorii paşi:
1. Definirea problemei terapeutice, care necesită expunerea clară a intervenţiei, a
pacienţilor şi a efectelor evaluate (de exemplu tratamentul cu statine la pacienţii de
ambe sexe, peste 50 de ani, cu colesterolul crescut, fără boală coronariană, efectele
de evaluat fiind mortalitatea cardiovasculară şi mortalitatea generală). Aceste detalii
sunt utilizate pentru selecţionarea studiilor care vor fi recenzate.

67
2. Identificarea studiilor de recenzat. Căutarea, atât printre studiile publicate, cât şi prin
cele nepublicate (eroare sisematică de publicare = publication bias: studiile negative
au şanse mai mici de a fi publicate) a celor care îndeplinesc criteriile conform
punctului 1. Trebuie răsfoite toate bazele de date (nu numai Medline, nu numai
studiile în limba engleză, nu numai cele publicate ci şi cele doar expuse la congrese,
în rapoartele firmelor farmaceutice etc.). Răsfoirea numai a marilor publicaţii de
limbă engleză va da o impresie prea optimistă asupra eficacităţii tratamentului.
3. Evaluarea studiilor identificate din punctul de vedere al calităţii metodologice şi
includerea celor care îndeplinesc criteriile definite la început, justificîndu-se orice
excludere.
4. Combinarea rezultatelor din mai multe studii, rezultînd o concluzie asupra
problemei în cauză. Ideal, ar trebui asamblate datele individuale ale pacienţilor din
fiecare studiu, cu ajutorul investigatorilor. Combinarea cantitativă a rezultatelor se
efectuează utilizînd o tehnică de sinteză statistică numită metaanaliză.
5. Plasarea rezultatelor în context prin discutarea heterogenităţii studiilor incluse şi al
posibilului impact al erorilor sistematice şi al întâmplării în apariţia rezultatelor.
Efectuarea unei sinteze sistematice nu este de loc uşoară; necesită o căutare laborioasă
şi riguroasă a studiilor primare şi atenţie mare la detaliile metodologice pentru a merita
într-adevăr eticheta “sistematică”.
Neajunsurile sintezelor sistematice
Sintezele sistematice apar în vârful piramidei (ierarhiei) dovezilor (vezi Capitolul VI),
acest lucru însemnând că, atunci când sunt bine făcute, ele a trebuie să ne dea rezultatele
cele mai apropiate de realitate. Aşa cum am spus mai înainte, însă, uneori nu putem fi
siguri că s-a întâmplat astfel, putînd apărea mai multe probleme:
1. Ca orice lucru legat de cercetare, recenzia poate fi făcută prost. Pentru a vedea cum
stau lucrurile, ne vom da răspunsurile la întrebările legate de “Evaluarea unei
recenzii sistematice” de mai jos.
2. Alăturarea neadecvată a studiilor care sunt diferite în ceea ce priveşte tratamentul
utilizat sau pacienţii incluşi poate “masca” anumite efecte importante (de exemplu,
efectele observate în unele subgrupuri pot fi ascunse de lipsa efectului sau chiar
efectul invers din alte subgrupuri).
3. Rezultatele sintezelor sistematice nu concordă întotdeauna cu rezultatele unor studii
clinice randomizate mari, de bună calitate. În aceste cazuri, rezultatele sintezelor
sistematice trebuie bine cântărite în raport cu dovezile rezultate din alte surse şi în
mod normal reactualizarea sintezei (cu includerea noilor studii) ar trebui să îndrepte
aceste anomalii.
Evaluarea unei sinteze sistematice este necesară pentru a vedea dacă o sinteză este într-
adevăr sistematică şi în acest scop trebuie să răspundem la următoarele întrebări
(răspunsurile găsindu-le în secţiunea “Material şi metode”):
1. Este problema studiată bine definită (sunt menţionate intervenţia studiată, pacienţii
care au fost supuşi intervenţiei (şi eventual nivelul de îngrijire - primară, secundară,
terţiară?) şi efectul evaluat?
2. A fost căutarea studiilor recenzate exhaustivă? (vom afla care a fost strategia de
căutare, dacă au fost căutate toate bazele importante de date, dacă a fost efectuată şi
căutarea manuală, dacă s-a căutat şi în revistele de altă limbă decât engleza, revistele
fără recenzori externi, materialele diferitelor conferinţe şi congrese, rapoatele
nepublicate ale companiilor farmaceutice, bibliografiile şi bibliografiile
bibliografiilor studiilor primare etc). Dacă de exemplu căutăm studiile clinice
randomizate referitoare la vitamina C în prevenirea răcelii (61 de studii în total), în
bazele de date electronice putem găsi doar 22, baza de date manuală Index Medicus

68
mai relevă 14 studii, în bibliografiile studiilor găsite pe Medline au mai apărut 15,
iar în bibliografiile acestor bibliografii încă 9, iar în bibliografiile bibliografiilor
acestor bibliografii, încă unul3 (este adevărat, numai unul dintre studiile care nu se
aflau pe Medline îndeplinea criteriile de calitate metodologică şi a fost integrat în
recenzia sistematică a lui Knipschild4).
3. Criteriile de includere în sinteză a studiilor – au fost ele clar descrise şi într-adevăr
aplicate? Calitatea studiilor incluse - a fost evaluată la fel, de recenzori
independenţi şi “orbi”? Care a fost calitatea studiilor? (despre evaluarea sudiilor
terapeutice vezi capitolele respective).
4. Analiza de sensibilitate (sensitivity analysis) – ar fi modificate rezultatele sintezei
în funcţie de modalitatea de efectuare a acesteia? (dacă, de exemplu, s-ar fi schimbat
criteriile de includere pentru studii, dacă ar fi fost excluse studiile nepublicate, dacă
ar fi fost incluse şi studiile de calitate metodologică mai slabă, dacă toţi pacienţii
pierduţi din vedere din studii s-ar fi considerat că au murit/s-au vindecat, etc. – dacă
modificând toate aceste date, rezultatele sintezei rămân în picioare, se poate trage
concluzia că acestea sunt relativ robuste; iar dacă, dimpotrivă, unele dintre
rezultatele cheie ale recenziei se modifică fundamental în funcţie de aceste
schimbări, concluziile sunt mult mai şubrede).
5. Studiile incluse – par ele să indice acelaşi efect? Dacă nu, a fost efectuată o
analiză de heterogenitate?
Unde găsim recenziile sistematice existente?
În multe dintre revistele medicale bune găsim recenzii sistematice. În plus, ele pot fi
găsite în Librăria Cochrane (Registrul Cochrane de Recenzii Sistematice) – de altfel,
Colaborarea Cochrane cu asta se şi ocupă, există grupuri pe specialităţi care scot
recenzii sistematice pe anumite teme pe care apoi le actualizează la 2-3 ani.
Bineînţeles, abstractele le găsim pe MEDLINE – PubMed, iar dacă vrem să le căutăm în
special, o putem face prin Clinical Queries, bifând opţiunea Systematic Review.

Bibliografie
1. Antman EM, Lau J et al. A comparison of results of meta-analyses of randomized
control trials and recommendations of clinical experts. Treatments for myocardial
infarction. JAMA. 1992;268:240-8.
2. Lau J, Antman EM at al. Cumulative meta-analysis of therapeutic trials for
myocardial infarction. N Engl J Med. 1992;327:248-54.
3. Kleijnen J, Knipschild P. The comprehensiveness of Medline and Embase computer
searches. Searches for controlled trials of homoeopathy, ascorbic acid for common cold
and ginkgo biloba for cerebral insufficiency and intermittent claudication. Pharm
Weekbl Sci. 1992;14:316-20.
4. Knipschild P. Systematic reviews. Some examples. BMJ. 1994;309:719-21.

69
XV. Care sunt cele mai bune dovezi pentru terapie şi cum interpretăm
marile studii terapeutice?

Atunci când căutăm dovezi pentru o anumită terapie, în funcţie de aceasta, vom găsi mai
multe sau mai puţine articole descriind studii care o privesc şi va trebui să selectăm pe
cel(e) mai valid(e) dintre ele. Acest lucru se face relativ simplu, bizuindu-ne pe ierarhia
dovezii şi gradele de recomandare (vezi Capitolul VI). În plus, trebuie să mai ţinem
seama şi de alte lucruri, unele dintre ele evidente la nivelul bunului simţ.

Tabelul XV.I. Ierarhia dovezii (vezi, mai detailat, în capitolul VI).


I. Studii clinice randomizate
II. Studii de cohortă
III. Studii caz-martor
IV. Studii transversale
V. Studii de caz & serii de cazuri

Aşadar, ne vom uita în primul rând la tipul studiului, având cu atât mai multă încredere
în rezultate, cu cât acesta se află mai sus în piramida medicinei bazate pe dovezi; gold
standard-ul este studiul clinic randomizat, tot ce nu este un astfel de studiu fiind de
calitate inferioară.
Pentru fiecare nivel al dovezii, treapta cea mai înaltă este reprezentată de sinteza
sistematică a studiilor respective (sinteza sistematică a studiilor clinice randomizate,
sinteza sistematică a studiilor de cohortă, sinteza sistematică a studiilor caz-martor).
Sinteza sistematică trebuie să “sintetizeze” studii de acelaşi fel, deşi uneori pot fi
întâlnite şi amalgamuri heterogene (este adevărat, mai ales în domeniul etiologiei)1, 2.
Studiile de calitatea cea mai joasă (cu excepţia “părerii experţilor”) sunt seriile de
cazuri, adică studiile înainte-după, fără grup martor (Capitolele III şi VII). După cum
am mai spus, orice testare a unui medicament trece prin această fază (faza II de
cercetare) înainte de a se ajunge la studii cu grup martor şi mai ales la studii clinice
randomizate (RCT); dacă o terapie nu dă rezultate în această fază, este inutil să se
meargă mai departe. Dimpotrivă, dacă dă rezultate, ele pot fi datorate altor elemente
decât terapia (Capitolul VII – vindecarea spontană, severitatea ondulatorie, efectul
placebo, efectul Hawthorne, regresia către medie). Mai există, încă, terapii care nu au
alte dovezi mai bune decât acestea, cum ar fi cea cu hidroxiclorochină în sindromul
antifosfolipidic din lupus3, 4, dar în bolile rare şi grave este de înţeles. Mai puţin de
înţeles este efectuarea, în zilele noastre (adică zilele RCT), a unui studiu multicentric
internaţional pe mii de pacienţi, într-o boală ubicuitară cum este insuficienţa venoasă
profundă, fără a avea grup martor5!
În plus, în studiile tip înainte/după nu pot fi evaluate decât efecte surogat (TA, durerea,
numărul de crize anginoase, dispneea, colesterolul, calitatea vieţii etc. – cum se
modifică după tratament), nu şi efecte serioase (care sunt ireversibile) cum ar fi
mortalitatea.
În studiile caz-martor se porneşte de la efect şi se evaluează, retrospectiv, expunerea.
Acest tip de studii este folosit mai ales pentru evaluarea factorilor de risc în bolile cu
frecvenţă mică, iar din acest punct de vedere ele sunt foarte utile în
farmacoepidemiologie, în evaluarea efectelor adverse, care de obicei sunt prea rare
pentru a putea fi evidenţiate în studiile clinice randomizate (RCT).
Studiile de cohortă sunt tipul de studii observaţionale cel mai utilizat (se numesc
observaţionale, fiindcă doar observăm indivizii care iau un tratament şi îi comparăm cu
cei care nu iau, fără să intervenim cu nimic, pe când în studiile experimentale cum sunt

70
Figura XV.1. Efectul tratamentului de întrerupere a sistemului renină-angiotensină în raport cu alte
tratamente antihipertensive la pacienţii diabetici (riscul de dublare a creatininei) (metanaliza Strippoli) 17.

RR

Figura XV.2. Efectul tratamentului de întrerupere a sistemului renină-angiotensină în raport cu alte


tratamente antihipertensive la pacienţii diabetici (riscul de dublare a creatininei) (metanaliza Casas et
al.)16.

RCT-urile, noi hotărâm care dintre pacienţi iau tratamentul şi care nu, ideal prin tragere
la sorţi=randomizare).
După cum am arătat, problema cea mai mare a studiilor observaţionale – şi deci a lipsei
de randomizare – o constituie erorile sistematice de selecţie (tratamentul nefiind alocat
aleator, există diferenţe sistematice între grupul tratament şi cel netratat, altele decât
tratamentul, care pot duce la diferenţele constatate); am văzut că lipsa randomizării
afectează cel mai mult rezultatele unui studiu, tendinţa de supraestimare a efectului
tratamentului fiind cuantificată la circa 40% (Tabelul VIII.I). Rezultatele multor studii
observaţionale au fost contrazise de RCT-urile care au apărut la un moment dat6, iar
cazul cel mai ilustrativ este cel al hormonoterapiei de substituţie, despre care studiile

71
observaţionale şi o metaanaliză a lor arătase că scade riscul de boală coronariană 7,
pentru ca RCT-ul apărut după zeci de ani de terapie de substituţie să infirme această
“axiomă”8. Ale două exemple sunt cu terapia antioxidantă pentru prevenirea bolii
coronariene şi a cancerului, care părea promiţătoare după studiile observaţionale, dar a
fost invalidată de studiile terapeutice randomizate9, 10.
Asta nu înseamnă, bineînţeles, că niciodată rezultatele studiilor observaţionale nu sunt
reale – problema este că nu ştim când sunt şi când nu, iar în studiile randomizate putem
avea mai multă încredere11, 12.
Pe de altă parte, un lucru interesant la studiile observaţionale este aşa numita “lege a
rezultatelor iniţiale”13, conform căreia primele rezultate sunt întotdeauna spectaculoase,
după care în studiile următoare cu acelaşi obiectiv devin mediocre sau chiar
contradictorii, ceea ce nu prea se întâmplă cu RCT-urile, ale căror rezultate nu sunt
modificare decisiv în timp.
După cum am văzut, de obicei cunoştinţe devenite clasice în urma studiilor
observaţionale pot fi date peste cap de RCT-uri. Se poate întâmpla şi altfel, însă –
practici clasice fără prea multe dovezi, sunt puse sub semnul întrebării de studii
observaţionale – de exemplu, de curând un studiu observaţional a arătat că tratamentul
diuretic în insuficienţa cardiacă scurtează viaţa14 . Neavând un RCT (sau până vom avea
un RCT) – ce vom face şi câtă crezare vom da acestui studiu?
În sfârşit, ajungem la cel mai bun study design – în nici un caz perfect, sau ideal pentru
că nu există aşa ceva – studiul terapeutic randomizat. Este cel mai bun, pentru că prin
modul în care este conceput, cade mai greu pradă factorilor de confuzie şi/sau erorilor
sistematice.
Ce ne facem însă când avem mai multe studii randomizate efectuate pe prea puţini
pacienţi (deci fără suficientă putere statistică), sau unele dintre ele arată că tratamentul
este bun, altul că nu? Atunci le punem pe toate la un loc ca şi cum ar fi un singur studiu,
şi astfel căpătăm mai multă putere statistică (în loc de 10 studii pe câte 50 de pacienţi, e
ca şi cum am avea un studiu pe 500 de pacienţi). Problema este că studiile nu sunt
identice – unele au inclus pacienţi mai gravi, altele mai puţin gravi, unele au folosit
medicamentul într-o doză mai mare, altele în una mai mică, unele au folosit un beta-
blocant, altele altul, unele au urmărit pacienţii o perioadă, altele altă perioadă etc., iar
metaanaliza combină statistic datele tuturor acestor pacienţi. Se vede, deci, că nici
metaanalizele nu sunt lipsite de pericole, şi din punct de vedere metodologic, un RCT cu
destui pacienţi este întotdeauna mai credibil decât o metaanaliză, iat cocoţarea acesteia
deasupra RCT-ului simplu poate fi valabilă numai atunci cînd nu avem RCT-uri cu
destulă putere statistică.
Ce ne facem, de exemplu, când apare o metaanaliză care desfiinţează lucruri ce au
devenit locuri comune? Ştim cu toţii – din articole, dar mai ales din nenumărate
prezentări la congrese, simpozioane de firmă şi mese la restaurant (tot de firmă), că
statinele au, pe lângă efectul de scădere al colesterolului, şi alte efecte, pleiotrope –
antitrombotic, antiinflamator etc. Iată că apare o metaanaliză de RCT-uri care combate
toată această teorie de care ne-am lovit aproape zilnic în ultimii ani (dacă cineva va citi
acest capitol peste câţiva ani, poate că nu va avea habar despre ce este vorba?…)15. La
fel, unanim acceptat este faptul că inhibitorii de enzimă de conversie (ca şi blocantele
receptorilor angiotensinei II) protejează rinichiul în diabet prin alte mecanisme decât
scăderea tensiunii arteriale. Acum câteva luni am primit o metaanaliză* care infirma
acest lucru – nu, aceste substanţe protejează rinichiul prin simpla scădere a tensiunii
arteriale, nu şi prin alte mecanisme (concluzii: “Beneficiile inhibitorilor de

*
Pe BMJ.updates (www.bmjudates.com).

72
angiotensinconvertază (ACE) sau blocantelor receptorilor angiotensinei (ARB) asupra
rinichiului din studiile controlate cu placebo, provin probabil din efectul de scădere a
tensiunii arteriale. La pacienţii cu diabet, efectele adiţionale ale acestor substanţe
dincolo de scăderea tensiunii arteriale rămân nedovedite, şi nu avem nici o siguranţă
asupra renoprotecţiei mai mari văzute la nefropatiile nediabetice”) 16.
Căutând mai târziu această metaanaliză, pentru un curs de Medicină Bazată pe Dovezi,
am dat în InfoRetriever* de o alta, făcută de reţeaua Cochrane, la care concluzia sună
pe dos: “O reducere semnificativă a riscului de a dezvolta microalbuminurie la pacienţii
diabetici a fost demonstrată numai la inhibitorii ACE. Se pare că efectul inhibitorilor
ACE apare independent de tensiunea aterială bazală, funcţia renală sau tipul
diabetului…”17.
Iată, aparent, rezultatele celor două metaanalize se contrazic. Atunci când ne aflăm în
astfel de situaţii, pasul următor este să citim în detaliu măcar abstractul, la care avem
acces gratuit, urmărind ce au căutat şi au măsurat studiile respective. Făcând asta,
vedem că cele două metaanalize nu se contrazic, ele doar au urmărit obiective diferite,
însă dacă ne referim la acelaşi obiectiv (“dublarea creatininei” a fost urmărit de
amândouă), rezultatele sunt superpozabile: nici în metaanaliza Cochrane, care avea
concluzii pozitive, inhibitorii de ACE şi ARB nu au redus riscul de dublare a creatininei
nici comparativ cu placebo, şi cu atât mai puţin comparativ cu alte antihipertensive.
Acum, că am arătat cum metaanaliza cu concluzii pozitive17, nu era de fapt în favoarea
medicamentelor care întrerup sistemul renină angiotensină, să vedem dacă metaanaliza
“negativă”16 este într-adevăr aşa. Citind din nou abstractul16 în întregime, vedem că
riscul relativ (RR) de dublare a creatininei sub tratament de întrerupere a sistemului
renină-angiotensină raportat la tratamentul cu alte antihipertensive este 0,71, cu CI95%
(0,49-1,04). Dacă aplicăm acum cele învăţate în Capitolul XII referitor la utilizarea
intervalelor de încredere la aprecierea puterii statistice a unui studiu, vedem că
metaanaliza noastră nu a avut destulă putere statistică (dacă astfel stau lucrurile cu
metaanaliza făcută pe 11 studii înglobând 3.376 de pacienţi, vă daţi seama care a fost
puterea statistică a fiecăruia dintre aceste 11 studii!).
În Figura XV.2 vedem cum intervalul de încredere 95% este aproape în totalitate în
stânga RR=1 (deci tratamentul protejează), şi probabil că dacă eşantionul ar fi fost mai
mare, rezultatele ar fi căpătat semnificaţie statistică. Pentru analiza efectului “protecţia
împotriva apariţiei uremiei”, de exemplu, metaanaliza a putut sintetiza datele a 13 studii
totalizând 37.000 de pacienţi, şi a reuşit să obţină semnificaţie statistică (e adevărat, la
limită): RR= 0,87, CI95% (0,75-0,99).
Metaanaliza lui Strippoli17 are încă şi mai puţină putere statistică – intervalul de
încredere este foarte larg, întins de ambele părţi ale pragului de semnificaţie RR=1
(Figura XV.1); rezultatul acestei metaanalize nu ne permite să tragem nici o concluzie,
este ca şi cum nu ar fi fost efectuată şi bineînţeles că lucrurile stau şi mai prost cu
studiile individuale din care a luat ea naştere (3 studii, 2683 pacienţi).
Un exemplu similar este şi metaanaliza lui Saab18, una dintre concluziile acesteia fiind
că între TIPS (şunt porto-sistemic intrahepatic transjugular) şi paracenteză nu există o
diferenţă semnificativă privind mortalitatea, ceea ce sugerează un studiu negativ. Dacă
privim însă mai mult decât concluziile şi citim şi secţiunea “Rezultate” a abstractului,
vedem că riscul relativ TIPS/paracenteză de deces la 30 de zile este 1, cu CI95% (0,10 –
10,06), iar pentru mortalitatea la 24 de luni este 1,29, cu CI95% (0,65-2,56), ceea ce
arată că această metaanaliză făcută pe 5 RCT însumând 330 de pacienţi nu a avut
destulă putere statistică pentru a produce intervale de încredere mai înguste. Este foarte

*
www.infopoems.com

73
probabil ca TIPS să nu influenţeze mortalitatea (sau poate să o crească puţin la 24 de
luni), dar nu putem fi siguri, pentru că intervalele de încredere ne arată că la 30 de zile
mortalitatea poate fi de la scăzută cu 90% de către TIPS în comparaţie cu paracenteza la
scăzută cu 90% de către paracenteză în comparaţie cu TIPS, iar la 24 de luni
mortalitatea poate fi de la scăzută la aproape jumătate de către TIPS în comparaţie cu
paracenteza, la scăzută cu mai mult de jumătate de către paracenteză în comparaţie cu
TIPS* (deci putem arunca la coş rezultatele metaanalizei împreună cu cele ale celor 5
RCT; cel puţin deocamdată, până vor mai apărea câteva studii care să ne permită să
facem o metaanaliză cu mai multă putere statistică!).
Ce ne facem însă când rezultatele mai multor metaanalize pe aceeaşi temă sunt clar
diferite? Dau aici numai un exemplu, de care m-am lovit de curând: căutând† să văd
dacă hialuronatul este eficient în tratamentul gonartrozei, am dat de şase metaanalize
apărute în ultimii trei ani, cu rezultate diferite: două negative19, 20 şi patru pozitive21, 22,
23, 24
. Cum procedăm în această situaţie (ţinînd seama şi de faptul că doza pentru o
injecţie intraarticulară costă câteva sute de RON)? Concluzia pe care o putem trage în
urma acestor metaanalize este că dacă hialuronatul are vreun efect, atunci mărimea lui
nu este importantă (ceea ce se confirmă, dacă le citim pe cele pozitive urmărind
mărimea efectului – Capitolul X). Pe de altă parte, bazându-ne pe bunul simţ, n-avem
decât să încercăm câte o doză, la câte un pacient şi să vedem cum îi merge. Eu i-am
făcut unei paciente într-un singur genunchi – nu a avut bani pentru amândoi – şi i-a
mers bine.
Efecte “hard” şi efecte “surogat”
Pentru că tratamentele sunt pentru pacient, ele trebuie să îndeplinească scopurile care îl
interesează pe el. Şi anume, să trăiască mai mult şi/sau mai bine (ideal, amândouă în
acelaşi timp, dacă nu, măcar mai bine; în caz că nu putem să-i oferim decât mai mult şi
mai prost, trebuie să-l întrebăm dacă vrea).
Aşadar, de câte ori tratăm un pacient sau citim un articol, nu trebuie să pierdem din
vedere scopurile tratamentului (unii le spun patient oriented outcomes, adică efecte care
contează pentru pacient; sintezele din InfoRetriever/InfoPOEMS se numesc Patient
Oriented Evidence that Matters (POEMS), iar până de curând BMJ publica un POEM în
fiecare număr).
Pe pacient nu îl interesează cât are creatinina, sau colesterolul, sau tensiunea arterială
(decât dacă îl doare capul), sau densitatea osoasă, pentru că nu le simte în nici un fel.
Am exagerat, desigur, pe mulţi îi interesează de fapt, pentru că sunt sensibilizaţi de
media şi ştiu că dacă ai glicemia mare, faci complicaţiile diabetului, dacă ai colesterolul
sau tensiunea mari, faci infarct miocardic sau accident vascular cerebral etc. şi atunci
mulţi vor sa-şi scadă colesterolul sau glicemia (pentru unii acest lucru chiar devine
preocuparea vieţii lor).
Pentru noi, ca medici, pare şi logic ca atunci când vrem să prevenim o boală, să
acţionăm asupra factorilor de risc ai acelei boli, iar dacă am dovedit că un medicament
scade un factor de risc ne închipuim poate că am dovedit şi faptul că acel medicament
protejează împotriva bolii respective. Ceea ce, din păcate, nu este întotdeauna adevărat.
De ce? În unele cazuri pentru că factorii de risc asupra cărora acţionăm nu sunt şi factori
cauzali (ci sunt asociaţi numai statistic bolii respective), iar în alte cazuri
medicamentele, deşi scad factorul de risc, probabil au şi alte efecte negative uneori mai

*
Pentru a transforma RR TIPS/paracenteză în RR paracenteză/TIPS, calculăm reciprocele: astfel, RR
TIPS/paracenteză mortalitate la 24 de luni = 1,26 CI95% (0,65-2,56) devine RR paracenteză/TIPS =
1/1,26 CI95% (1/0,65-1/2,56), adică 0,79 CI95% (0,39-1,54).

Căutare efectuată pe 30 ianuarie 2007 (MEDLINE –PubMed, prin Clinical Queries).

74
importante decât factorul de risc însuşi şi astfel, în loc să-i facem bine pacientului, de
fapt îi facem rău (de exemplu, este posibil ca scăzând colesterolul, să creştem
mortalitatea – şi acest lucru clofibratul chiar l-a făcut, zeci de ani25 - sau să scăpăm de
extrasitolele ventriculare, cu preţul provocării unor aritmii mortale – cum face flecainida
după infarct26 - ori crescând densitatea osoasă, să creştem de fapt riscul de fractură –
cum face fluorura de sodiu27).
Am asistat de curând la o prezentare despre ezetimib în care se arăta cum adăugând
acest medicament la o statină scădem mai mult LDL-colesterolul, acest lucru făcând
posibilă chiar reducerea dozei de statină, care ştim că poate da reacţii adverse. Problema
este că ezetimibul, un hipocolesterolemiant dint-o clasă nouă, are deocamdată studii
doar pe efecte surogat (colesterolul) şi nu serioase (morbiditate/mortalitate
cardiovasculară), şi este prematur să scădem dozele de statine, singurele despre care
ştim cu siguranţă că scad riscul de morbiditate/mortalitate cardiovasculară.
În concluzie, chiar dacă avem o sută de studii care arată că un medicament scade
colesterolul, dacă vrem să scădem morbiditatea cardiovasculară ne trebuie măcar un
studiu care să dovedească faptul că medicamentul respectiv scade morbiditatea
cardiovasculară.
Dacă este vorba de un medicament dintr-o nouă clasă, putem temporar să ne mulţumim
cu efecte surogat, aşteptând însă cu nerăbdare STUDIUL care să dovedească ceea ce pe
noi ne interesează de fapt, adică protecţia împotriva unui efect serios (hard). Dacă acest
studiu întârzie prea mult, putem pe bună dreptate să suspectăm că efectul în cauză nu
există – fie firma farmaceutică a făcut deja un studiu care s-a dovedit negativ şi din
acest motiv nu l-a publicat = publication bias (ceea ce era deseori cazul înainte, când nu
era obligatorie înregistrarea RCT-urilor încă de la demararea lor), fie din datele pe care
le are, firma farmaceutică nu crede că acest efect hard există într-adevăr, şi atunci vinde
şi ea cât poate pe baza efectelor surogat, neavând nici un interes să purceadă la un RCT
care înafară de faptul că ar costa-o bani, i-ar arunca şi medicamentul de pe piaţă (fie,
cum îmi explicau reprezentanţii unei firme, au apărut deja generice pe piaţă şi, dacă
firma investeşte bani într-un astfel de RCT, nu şi-i mai recuperează pentru că rezultatele
eventual pozitive le împarte cu producătorii de generice…).
Aşadar, trebuie să fim circumspecţi ori de câte ori ni se servesc drept argumente studii
cu efecte surogat în cazul unor medicamente care sunt de mult pe piaţă (de exemplu
trimetazidina, fibraţii ori antidiabeticele orale), sau medicamente noi din clase în care
avem deja medicamente cu efecte hard dovedite (de exemplu, o reprezentantă îmi arăta
cum creşte densitatea osoasă un nou bisfosfonat; cum bisfosfonaţii mai vechi aveau deja
studii cu obiectivul reducerea fracturilor, am întrebat-o dacă medicamentul reduce
fracturile nonvertebrale; mi-a răspuns că nu există încă studii – am căutat şi am găsit:
exista un studiu, iar medicamentul nu reducea fracturile nonvertebrale28).
Există multe broşuri de reclamă în care efectele moleculare sau biochimice ale
medicamentelor sunt reprezentate colorat şi tridimensional. Trebuie să rămânem însă
conştienţi că pacientului nu-i pasă ce receptor sau mediator îi blocăm, sau dacă se
sintetizează sau nu vreo substanţă chimică: el vrea să trăiască mai mult, să respire mai
bine, sau să-l doară mai puţin. Este adevărat că cercetările oricărei molecule terapeutice
pornesc de la un model fiziologic ori fiziopatologic, însă din păcate de aici şi până la
efectul clinic este un drum lung, pe care puţine medicamente reuşesc să-l parcurgă. Să
nu uităm că argumentele fiziopatologice sunt situate cel mai jos în ierarhia medicinei
bazate pe dovezi, şi până nu avem un studiu asupra unor efecte hard, să luăm
informaţiile cu titlu de inventar.
De ce se fac studii cu efecte surogat? Foarte simplu – pentru că ele necesită eşantioane
şi durate mai mici, deci sunt mult mai ieftine. Este mult mai simplu să demonstrezi că

75
un medicament scade colesterolul decât că el scade mortalitatea cardiovasculară, şi orice
tratament destinat scăderii acesteia prin intermediul scăderii colesterolului, va trece mai
întâi prin faza unui studiu cu efecte surogat; important este ca cercetările să nu se
oprească aici.
Obiective primare/secundare, efecte compozite, subgrupuri
Un principiu important în epidemiologia clinică este un obiectiv = un studiu (adică
pentru fiecare ipoteză de cercetat avem nevoie de un studiu, iar rezultatele acestuia sunt
valabile doar pentru ipoteza respectivă). După cum aţi văzut, însă, studiile (şi îndeosebi
cele mai valide, prospective) sunt greu de făcut şi costă mult. Din acest motiv, cam orice
studiu are, la naştere – atunci când se scrie protocolul – un obiectiv (end point) principal
şi mai multe obiective secundare. La sfârşitul studiului, rezultatul privind obiectivul
principal este cel mai valid, iar rezultatele privind obiectivele secundare sunt mai puţin
valide, şi trebuie luate mai mult sau mai puţin cu titlu de inventar. De exemplu, stabilim
ca obiectiv primar al studiului asupra unui medicament modificarea riscului de infarct
miocardic, iar ca obiective secundare modificarea riscurilor de accident vascular
cerebral, moarte subită cardiacă, mortalitate cardiovasculară şi mortalitate totală. Dacă
demonstrăm că medicamentul nostru scade toate aceste riscuri, sau le scade pe
majoritatea, ne putem încrede în rezultate, chiar şi în cele privind obiectivele secundare,
pentru că ele au sens; dacă, însă, medicamentul nu ajută decât la scăderea unuia dintre
riscuri (să zicem moarte subită cardiacă), atunci nu putem fi siguri de acest rezultat şi ne
trebuie un alt studiu cu obiectiv primar moartea subită cardiacă, care să confirme
rezultatul (ori este adevărat, şi am descoperit o acţiune a medicamentului la care nu ne
aşteptam, ori rezultatul a fost pozitiv din întâmplare).
Progresele din medicina ultimelor decenii a scăzut frecvenţa cu care pacienţii cu
suferinţe obişnuite cum ar fi infarctul de miocard suferă complicaţii severe. Deşi din
punctul lor de vedere acest lucru este binevenit, incidenţa scăzută a evenimentelor
erodează la rândul ei puterea statistică şi atunci, pentru a vedea dacă un medicament
ameliorează riscul de mortalitate cardiovasculară, un RCT trebuie să includă mult mai
mulţi pacienţi. Acest impediment a fost “rezolvat” de cercetători prin utilizarea
efectelor compozite (de exemplu deces cardiovascular, infarct miocardic şi oprire
cardiacă resuscitată29), care permit numărarea mai multor pacienţi care suferă oricare
dintre efectele componente ale end point-ului compozit. Utilizarea acestor efecte
compozite este de obicei justificată de presupunerea că tratamentul respectiv acţionează
la fel pe fiecare dintre componente şi că ele sunt la fel de importante pentru pacient,
ceea ce nu este întotdeauna cazul30. Aşadar, pentru ca un end point compozit să fie
valid, el trebuie să îndeplinească trei condiţii: componentele să aibă o importanţă
similară pentru pacienţi; dacă acest lucru nu se întâmplă, şi există unele componente
mai importante decât celelalte, atunci trebuie, pe de o parte, ca frecvenţele cu care apar
efectele componente să fie cât de cât egale sau mai mari în cazul celor mai importante,
iar tratamentul să amelioreze riscul în mod egal pentru fiecare dintre componente sau
mai mult pentru cele mai importante.
Principiile expuse mai sus sunt valabile şi în privinţa analizei pe subgrupuri: dacă la
nivelul unui subgrup apar rezultate discordante faţă de restul participanţilor la studiu, ne
putem afla fie în prezenţa unei descoperiri, fie a unei întâmplări. Pentru confirmare,
avem nevoie de un studiu separat, având ca obiectiv principal efectul la nivelul
subgrupului respectiv. De exemplu, rezultatele studiului UKPDS31 au fost decepţionante
în ceea ce priveşte efectul controlului strict faţă de controlul mai lax al gicemiei în
diabetul zaharat de tip II: a apărut doar o mică diferenţă la nivelul complicaţiilor
microvasculare, 80% din acest beneficiu fiind datorat scăderii necesităţii fotocoagulării

76
(dar nu şi a orbirii). Totuşi, în subgrupul pacienţilor obezi, cei trataţi de la început cu
metformin au avut o incidenţă mai mică a complicaţiilor cardiovasculare, indiferent de
nivelul glicemiei32. Posibil ca metforminul chiar să aibă un astfel de efect la pacienţii
obezi, dar nu putem şti exact decât după ce vom face un studiu care să aibă ca obiectiv
principal această ipoteză (care până atunci, nu rămâne decât o ipoteză, cu atât mai mult
cu cât pacienţii la care metforminul a fost adăugat la o sulfoniluree au avut, dimpotrivă,
o creştere cu 96% a mortalităţii faţă de cei care au rămas numai sub tratament cu
sulfonilureea).
După cum se vede, după fiecare studiu se fac multiple analize statistice: pentru
obiectivul principal şi restul obiectivelor secundare, pentru efectul compozit şi efectele
componente, pentru toţi pacienţii participanţi şi multiple subgrupuri. Problema este că
dacă stabilim pragul de semnificaţie statistică =0,05, pentru fiecare 20 de comparaţii
vom avea una care va ieşi semnificativă statistic din întâmplare, aşadar cu cât facem mai
multe comparaţii, riscul de a obţine false rezultate semnificative statistic creşte şi el. Din
acest motiv, putem fi siguri numai de rezultatul obţinut pe pacienţii incluşi în studiu,
pentru obiectivul principal; restul rezultatelor privind obiectivele secundare şi/sau
subgrupurile nu pot decât să constituie ipoteze pentru viitoare studii.
Unde a fost publicat studiul, sponsorul, conflicte de interese
Este o chestiune de bun simţ faptul că, atunci când ne întrebăm care este validitatea unui
studiu, dăm o mai mare crezare celor publicate în marile reviste medicale, care le
publică după ce acestea au fost supuse unei analize serioase din punctul de vedere al
metodologiei şi statisticii (peer review), decât studiilor apărute în reviste mici,
necunoscute, care eventual nu au un astfel de comitet critic. Acest fapt rămâne valabil,
cel puţin statistic – nu este imposibil să mai scape şi “rebuturi” în marile reviste, fie din
greşeală, fie sub presiunile oligarhiei farmaceutice care reuşeşte uneori chiar să schimbe
redactori şefi reputaţi.
De asemenea este recunoscut faptul că studiile sponsorizate de industria farmaceutică au
mai mari şanse să demonstreze eficacitatea unei terapii decât studiile independente,
finanţate prin granturi de cercetare (nici nu mai dau bibliografie aici, fiecare poate găsi
pe MEDLINE sute de articole) – tematica este larg discutată, uneori îi sunt dedicate
numere de revistă, deşi există şi sinteze sistematice care pun la îndoială existenţa acestei
erori sistematice (industry bias)33. În mod cert există eroarea sistematică de marketing
(marketing bias) prin care firmele prezintă rezultatele studiilor într-o lumină favorabilă
(prezentarea sub formă de RRR, omisiuni etc.).
Orice cercetător are o părere preformată despre un tratament când începe un studiu –
este normal, suntem oameni şi deci suntem subiectivi; când însă un articol este semnat
de un prim autor care are acţiuni la o firmă farmaceutică, iar restul autorilor lucrează
pentru acea firmă34, credibilitatea rezultatelor scade vertiginos – închipuiţi-vă că în
funcţie de ceea ce scrieţi într-un articol economiile voastre pot creşte înt-o singură zi cu
10-15%, sau dimpotrivă să scadă cu acelaşi procent: ce aţi scrie35?
Înainte, atunci când un studiu nu era favorabil unei terapii, compania farmaceutică
finanţatoare nici nu îl mai publica, dând naştere la ceea ce se cheamă eroare sistematică
de publicare (publication bias), adică studiile pozitive aveau mult mai multe şanse de
publicare. Metaanalizele încearcă să depisteze această eroare sistematică prin metode
statistice şi grafice (funnel plot), care însă nu sunt perfecte – normal că metaanaliza va
arăta că tratamentul este eficace, dacă nu a inclus şi studiile negative, din simplul motiv
că ele nu au fost publicate. Din fericire, acum orice RCT trebuie să fie înregistrat înainte
de debut, pentru a nu i se pierde cumva urma în caz de rezultate negative 36. Acest fapt
mai duce şi la alte consecinţe pozitive: având acces la protocolul iniţial, putem verifica

77
obiectivele primare şi secundare stabilite iniţial, şi să ne întrebăm de ce unele dintre ele
lipsesc din articolul final37. Bineînţeles că nu avem timpul şi răbdarea să verificăm de
fiecare dată protocoalele, dar uneori informaţii pot ieşi la iveală din întâmplare – de
exemplu, în 2000, la o prezentare de firmă privind efectul fluticazonului în BPOC34, o
colegă pneumolog a întrebat de ce nu apare şi rezultatul distanţei parcurse în 6 minute,
prevăzută a fi efectuată în protocol. Răspunsul nostru este simplu: pentru că rezultatul
nu era semnificativ statistic. De unde ştia colega despre protocol? Uneori protocoalele
sunt prezentate chiar de firmele în cauză, când lansează câte un studiu cu surle şi
trâmbiţe. Iar când apar rezultatele studiului, trebuie să facem abstracţie de aceleaşi surle
şi trâmbiţe38 – ceea ce ar trebui să reuşiţi, dacă aţi citit ce este scris până aici.

Bibliografie
1. Galli M, Luciani D, Bertolini G, Barbui T. Lupus anticoagulants are stronger risk
factors for thrombosis than anticardiolipin antibodies in the antiphospholipid syndrome:
a systematic review of the literature. Blood 2003; 101:1827-1832.
2 Janowsky EC, Kupper, LL, Hulka BS. Meta-analysis of the relation between silicone
breast implants and the risk of connective tissue diseases. N Engl J Med 2000; 342:781-
90.
3. Wallace DJ, Linker-Israeli M, Mezger AL, Stecher VJ. The relevance of antimalarial
therapy with regard to thrombosis, hypercholesterolemia and cytokines in SLE. Lupus
1993; 2:S12-S15.
4. Petri M. Hydroxychloroquine use in Baltimore lupus cohort: effects on lipids, glucose
and thrombosis. Lupus 1996; 5:S16-S22.
5. Jantet G. Chronic venous insufficiency: worldwide results of the RELIEF study.
Reflux assEssment and quaLity of lIfe improvEment with micronized Flavonoids.
Angiology. 2002;53:245-56.
6. Lacchetti C, Guyatt G. Therapy and validity. Surprising results of randomized
controlled trials. În: Guyatt G, Rennie D (Editors): User’ guides to the medical
literature. A manual for evidence-based clinical practice. AMA Press, Chicago, 2001,
p.255-261.
7. Stampfer MJ, Colditz GA. Estrogen replacement therapy and coronary heart disease:
a quantitative assessment of the epidemiologic evidence. Prev Med. 1991; 20:47-63.
8. Hulley S, Grady D, Bush T et al. randomized trial of estrogen plus progestin for
secondary prevention of coronary heart disease in postmenopausal women. Heart and
Estrogen/progestin Replacement Study (HERS) Research Group. JAMA. 1998;
280:605:613.
9. Lonn EM, Yusuf S. Is there a role for antioxidant vitamins in the prevention of
cardiovascular disease? An update on epidemiological and clinical trials data. Can J
Cardiol 1997;13:957-965.
10. Patterson RE, White E, Kristal AR, Neuhouser ML, Potter JD. Vitamin supplement
and cancer risk: the epidemiological evidence. Cancer Causes Control 1997;8:786-802.
11. Concato J, Shah N, Horwitz RI. Randomized, controlled trials, observational
studies, and the hierarchy of research designs. N Engl J Med 2000;342:1887-1892.

78
12. Benson K, Hartz AJ. A comparison of observational studies and randomized,
controlled trials. N Engl J Med 2000;342:1878-1886.
13. Ioannidis J. Contradicted and initially stronger effects in highly cited clinical
research. JAMA 2005; 294:218–28
14. Ahmed A, Husain A, Love TE, et al. Heart failure, chronic diuretic use, and increase
in mortality and hospitalization: an observational study using propensity score methods.
Eur Heart J. 2006; 27:1431-9.
15. Robinson JG, et al. Pleiotropic effects of statins: benefit beyond cholesterol
reduction? A meta-regression analysis. J Am Coll Cardiol. 2005.
16. Casas JP, et al. Effect of inhibitors of the renin-angiotensin system and other
antihypertensive drugs on renal outcomes: systematic review and meta-analysis.Lancet.
2005;366:2026-33.
17. Strippoli, GFM; Craig, M; Craig, JC; Strippoli, Giovanni. Antihypertensive agents
for preventing diabetic kidney disease (Cochrane Review). The Cochrane Library 2006
Issue 2. Chichester, UK: John Wiley and Sons, Ltd.
18. Saab, S; Nieto, JM; Ly, D; Runyon, BA. TIPS versus paracentesis for cirrhotic
patients with refractory ascites (Cochrane Review). In: The Cochrane Library 2006
Issue 2. Chichester, UK: John Wiley and Sons, Ltd.
19. Lo GH, LaValley M, McAlindon T, Felson DT. Intra-articular hyaluronic acid in
treatment of knee osteoarthritis: a meta-analysis. JAMA 2003; 290:3115-21.
20. Arrich J, Piribauer F, Mad P, Schmid D, Klaushofer K, Mullner M. Intra-articular
hyaluronic acid for the treatment of osteoarthritis of the knee: systematic review and
meta-analysis. CMAJ 2005; 172:1039-43.
21. Wang CT, Lin J, Chang CJ, Lin YT, Hou SM. Therapeutic effects of hyaluronic
acid on osteoarthritis of the knee. A meta-analysis of randomized controlled trials. J
Bone Joint Surg Am. 2004;86-A:538-45.
22. Aggarwal A, Sempowski IP. Hyaluronic acid injections for knee osteoarthritis.
Systematic review of the literature. Can Fam Physician. 2004;50:249-56.
23. Bellamy N, Campbell J, Robinson V, Gee T, Bourne R, Wells G.
Viscosupplementation for the treatment of osteoarthritis of the knee. Cochrane Database
Syst Rev. 2006; (2):CD005321.
24. Divine JG, Zazulak BT, Hewett TE. A Systematic Review of Viscosupplementation
for Knee Osteoarthritis. Clin Orthop Relat Res. 2006 Dec 7; [Epub ahead of print].
25. Sackett D, Haynes B, Guyatt G, Tugwell T. Clinical epidemiology. A basic science
for clinical medicine. 2nd Edition. London: Little, Brown 1991. p. 164-166.
26. Ech DS, Liebson PR, Mitchell LB et al. Mortality and morbidity in patients
receiving encainide, flecainide or placebo. The Cardiac Arrhythmia Suppression Trial.
N Engl J Med. 1991;324:781-88.
27. Riggs BL, Hodgson SF, O’Fallon WM et al. Effect of fluoride treatment on the
fracture rate in postmenopausal women with osteoporosis. N Engl J Med. 1990;
322:802-9.

79
28. Chesnut CH, III, Skag A, Christiansen C, et al. Effects of oral ibandronate
administered daily or intermittently on fracture risk in postmenopausal osteoporosis. J
Bone Miner Res. 2004;19:1241–1249.
29. The EURopean trial On reduction of cardiac events with Perindopril in stable
coronary Artery disease Investigators. Efficacy of perindopril in reduction of
cardiovascular eventsamong patients with stable coronary artery disease: randomised,
double-blind, placebo-controlled, multicentre trial (the EUROPA study). Lancet. 2003;
362: 782–88.
30. Montori VM, Permanyer-Miralda G, Ferreira-Gonzalez I, et al. Validity of
composite end points in clinical trials. BMJ 2005; 330:594–6.
31. UK Prospective Diabetes Study (UKPDS) Group. Intensive blood-glucose control
with sulfonylureas or insulin compared with conventional treatment and risk of
complications in patients with type 2 diabetes (UKPDS 33). Lancet 1998;352:837-853
32. UK Prospective Diabetes Study (UKPDS) Group. Effect of intensive blood-glucose
control with metformin on complications in overweight patients with type 2 diabetes
(UKPDS 34). Lancet 1998;352:854-865.
33. Barden J et al. Bias from industry trial funding? A framework, a suggested
approach, and a negative result. Pain 2006 121: 207-218.
34. Burge PS, Calverley PMA, Jones PW, Spencer S, Anderson JA, Maslen TK on
behalf of the ISOLDE study investigators. Randomised, double blind, placebo
controlled study of fluticasone propionate in patients with moderate to severe chronic
obstructive pulmonary disease: the ISOLDE trial. BMJ 2000;320:1297–303
35. Groza C. Actiunile Pfizer, în cădere liberă după suspendarea dezvoltării unui
medicament. Ziarul Financiar, 5 dec. 2006, p.6
36. Simes RJ. Publication bias: the case for an international registry of clinical trials. J
Clin Oncol. 1986 Oct;4(10):1529-41.
37. Chan AW, Hrobjartsson A, Haahr MT, Gotzsche PC, Altman DG. Empirical
evidence for selective reporting of outcomes in randomized trials: comparison of
protocols to published articles. JAMA. 2004; 291(20):2457-65.
38. McCormack J, Greenhalgh T. Seeing what you want to see in randomised controlled
trials: versions and perversions of UKPDS data. BMJ 2000;320;1720-1723.

80
XVI. Comunicarea riscului

După un capitol (IX) privind exprimarea riscului, voi vorbi acum despre comunicarea
lui. Această temă nu este abordată în cărţile de medicină bazată pe dovezi, însă mie mi
se pare potrivită şi importantă.
În fond, de ce încercăm noi, clinicienii să vedem care este riscul, dacă nu pentru a-l face
cunoscut pacientului? Pentru că, zic eu, de fapt hotărârile bazate pe risc şi pe posibila
reducere a acestuia trebuie luate în ultimul rând de clinicieni: cei care iau aceste decizii
sunt fie managerii de la nivelul sănătăţii publice (liste de medicamente sau tehnici
terapeutice gratuite ori compensate, la fel pentru metodele diagnostice - fie ele
screening sau nu, programe naţionale de sănătate în care merită sau nu investit etc.), fie
de pacientul însuşi, care în funcţie de filozofia de viaţă şi valorile proprii, hotărăşte când
merită să cheltuiască banii lui sau timpul lui (cozi la medicul de familie pentru o reţetă
compensată, cozi la farmacii pentru a mai prinde reţete compensate etc.) pentru un
medicament sau o tehnică diagnostică, sau când efectele benefice merită riscul celor
adverse. Iar rolul nostru aici este informarea pacientului.
Bineînţeles că vorbim despre un lucru teribil de dificil: în primul rând, trebuie să existe
studii care să evalueze un anumit risc (cu alte cuvinte, trebuie să avem de unde lua
informaţiile respective); în al doilea rând trebuie să le căutăm, iar odată găsite, dacă
validitatea lor nu este deja evaluată de alţii (vezi Capitolul II. Informaţia medicală),
trebuie să o evaluăm noi înşine (conform criteriilor din această carte). Până aici, deşi
este dificil şi devorator de timp, măcat teoretic tot ar fi trebuit să pierdem timpul cu asta,
pentru a fi noi înşine informaţi. După care, în plus, trebuie să mai petrecem timp pentru
a îi explica pacientului respectiv ceea ce ştim noi sau tocmai am aflat căutând în
literatură – greu, dacă ne gândim că de multe ori nu mai apucăm nici să-i explicăm la
externare cum să îşi ia tratamentul pe care i-l trecem în reţetă, sau să îi spunem în ce
constă cutare test diagnostic la care îl programăm! Şi totuşi, aşa ar trebui să se petreacă
lucrurile!
Dificultatea acestui demers mai vine dintr-o direcţie: vedem cum, evaluând noi înşine
riscurile sau probabilităţile posttest, ne schimbăm optica despre medicină şi începem să
gândim în probabilităţi, după ce înainte ştiam sigur că un medicament salvează (“există
dovezi!”), iar un test diagnostic, în general, pune sau exclude diagnosticul, iar acum nu
putem decât să ne mirăm când vedem că un pacient al colegei noastre se zbate să ajungă
la un test recomandat care, oricare ar fi rezultatul, nu va schimba nicicum decizia
terapeutică şi implicit prognosticul, iar altul pleacă acasă cu reţete indecent de scumpe
pentru care face sacrificii mari (apropo, tocmai a apărut o serie de studii n-of-1 - situate
în vârful piramidei medicinei bazate pe dovezi1 - care arată că celecoxibul nu a fost în
nici un fel superior paracetamolului în artroză2).
“Comunicarea riscului înseamnă că şi pacienţii trebuie să înveţe să trăiască cu
nesiguranţa”3. Frumos titlu apărut într-un număr al BMJ dedicat comunicării riscului.
Aşadar, ne-a fost nouă greu să înţelegem şi să lucrăm cu incertitudini şi probabilităţi,
cum îi va fi pacientului? Va putea el înţelege?
Pacienţii sunt revoltaţi de fiecare dată când le spui că nu ştii ce au. Un prieten de-al meu
se mira când i-am spus că nu ştiu ce a avut copilul meu, care fusese bolnav câteva zile;
cum el se ocupa de computere, l-am întrebat dacă ştia de fiecare dată când nu mergeau
cum trebuie ce au, şi mi-a răspuns că nu. Şi deşi computerele şi maşinile sunt făcute de
om, în timp ce omul este făcut de Dumnezeu, pacienţii nu se miră când mecanicul nu
ştie ce are maşina lor, ci doar dacă medicul le spune că nu ştie ce au ei!
Este un drept şi o datorie a pacientului să ştie ce i se poate întâmpla şi cât poate
influenţa o anumită decizie riscul şi prognosticul lui, şi trebuie măcar să participe,

81
informat, la luarea deciziei care îl priveşte (uneori îi marchează viaţa); mai mult, acest
lucru mai ia de pe umerii noştri din povara responsabilităţii zilnice.
De altfel, mulţi pacienţi se apropie singuri de acest lucru, în era Internetului. Pe de o
parte, pacientul are altă meserie şi nu este pregătit şi nici nu are timpul de a se ocupa de
medicină, dar pe de altă parte el nu trebuie să se ocupe decât de o singură boală, a lui, şi
din acest punct de vedere uneori un pacient interesat poate ajunge să cunoască mai mult
despre boala lui decât un medic – vom fi confruntaţi din ce în ce mai des cu astfel de
“încercări”, cărora va trebui să le facem faţă. Bineînţeles, vor fi şi pacienţi care
dimpotrivă, vor refuza să fie informaţi şi să participe la actul decizional – nici nu-i de
mirare, cu atâtea incertitudini – cerîndu-i medicului să hotărască, dar acest lucru trebuie
să fie decizia pacientului!
În Capitolul IX. Exprimarea riscului am arătat cum, prezentând efectul unei terapii sub
forma reducerii relative a riscului (cum face întotdeauna industria farmaceutică), acesta
pare mult mai important decât dacă l-am arăta sub forma reducerii absolute a riscului,
iar impactul fiecăreia dintre cele două modalităţi de prezentare a riscului a fost diferit
atât la medicii care prescriau terapia, cât şi la pacienţii care erau potenţiali beneficiari
(vezi bibliografia capitolului respectiv). De aici rezultă clar posibilitatea de manipulare
a pacientului, fie într-un sens, fie în celălalt, ceea ce trebuie în primul rând să evităm!
Pentru a explica riscurile şi opţiunile asociate afecţiunilor medicale avem nevoie de
informaţie şi de prezentări grafice de bună calitate, care să fie folosite atât de medici în
timpul consultaţiei, cât şi de organizaţiile care vor să ia în mâini deciziile privind
propria sănătate. Există presiuni din multe surse şi medii care sfătuiesc indivizii cum să
se lupte pentru sănătatea lor şi să prevină boala prin diferite stratageme, de la
suplimente nutritive şi până la screening. De multe ori trebuie luate în considerare
multiple riscuri asociate mai multor posibilităţi terapeutice, pe care să le punem în
balanţă cu posibilele beneficii, atât pe termen scurt cât şi lung.
Studiile au arătat (doar este o carte de MBD!) cum la consultaţiile la care au fost folosite
grafice ajutătoare pentru luarea deciziei (“ajutoarele decizionale” – decision aids),
conţinutul consultaţiei s-a schimbat, concentrându-se pe acest aspect, iar pacienţii au
perceput mai bine deciziile luate4, 5 (Tabelul XVI.1).

Tabelul XVI.1. Modificarea calităţii deciziilor pacienţilor de către ajutoarele decizionale 4


 Au îmbunătăţit cunoştinţele pacienţilor cu 19 puncte pe o scală de 100 de puncte (CI95% 13 - 24)
 Au crescut proporţia de pacienţi cu percepţii realiste asupra şanselor de beneficiu sau efecte adverse
cu 40% (10 - 90%)
 Au scăzut conflictul decizional (nesiguranţa) legat de faptul de a se simţi neinformaţi cu 9 puncte din
100 (6 - 12)
 Au redus pasivitatea la luarea deciziilor cu 30% (10% - 50%)
 Au redus indecizia după consiliere cu 57% (30% - 70%)
 Au îmbunătăţit acordul dintre valorile şi preferinţele pacientului şi opţiunea sa
terapeutică/diagnostică (trei studii au măsurat acest acord în feluri diferite)

Ajutoarele decizionale sunt foi de hârtie sau broşuri în care pacienţilor li se descriu, în
cuvinte şi grafic, beneficiile şi riscurile unui anumit test diagnostic şi mai ales tratament.
Descrierile în cuvinte nu sunt simpliste de loc, iar dacă în ţările civilizate se pune bază
pe inteligenţa pacientului, de ce n-am face şi noi acest lucru (de multe ori, în practica
noastră medicală, avem surprize plăcute din acest punct de vedere – ca şi surprize
neplăcute, de altfel!). Pentru cei interesaţi, exemple de astfel de ajutoare decizionale
pentru pacienţii canadieni pot fi găsite la www.ohri.ca/decisionaid.
Normal, pacienţii care au beneficiat de o descriere clară a unui anume risc au avut
percepţii diferite: în timp ce unii considerau riscul acceptabil, alţii nu – ceea ce nu

82
demonstrează altceva decât ce am spus mai înainte, şi anume că fiecărui pacient trebuie
să i se comunice riscul, pentru ca să poată lua o hotărâre în cunoştinţă de cauză, fiindcă
noi nu avem de unde să ştim care este viziunea lui.
Cunoaşterea şi înţelegerea frecvenţei unui eveniment în populaţie nu aduce nici o
certitudine pentru individ, ci doar o orientare care poate fi folosită în funcţie de
preferinţele, circumstanţele şi valorile sale. Pentru pacient, frica distruge echilibrul
dintre comportamentul raţional şi cel iraţional, iar asumarea responsabilităţii deciziilor
privind propria îngrijire nu este deloc uşoară, dar poate beneficia de ajutorul unui medic
sensibil şi cu aptitudini în acest sens.
Deciziile pot fi considerate “eficiente” sau “influenţate de preferinţe” (Wennberg JE et
al, citat de6). Primele sunt uşor de luat atât de pacient cât şi de medic, deoarece au ca
fundament dovezi clare, iar raportul risc/beneficiu este ridicat. Deciziile sunt greu de
luat şi sunt “influenţate de preferinţe” fie când nu există dovezi clare asupra raportului
risc/beneficiu, fie când raportul este cunoscut, dar este influenţat de valorile pacientului.
Pentru a ghida medicii şi pacienţii să identifice care decizii au răspunsuri clare şi care
mai puţin clare, opţiunile sunt clasificate acum nu numai conform puterii dovezii
ştiinţifice, ci şi prin prisma mărimii raportului risc/beneficiu (în Tabelul XVI.2 vedem
clasificările lui Chalmers7 şi ale US Preventive Task Force8).

Tabelul XVI.2. Scheme pentru clasificarea opţiunilor medicale în funcţie de puterea dovezii ştiinţifice şi
mărimea raportului beneficiu/risc
Schema lui Chalmers din Clinical evidence7
Benefic – Dovezi clare din RCT-uri; probabilitatea reacţiilor adverse este mică în comparaţie cu
beneficiile.
Pare a aduce beneficiu – Mai puţin dovedit ca în treapta superioară
Compromis între beneficiu şi risc – Medicii şi pacienţii trebuie să cântărească efectele benefice şi cele
adverse adaptat la circumstanţele şi priorităţile individuale.
Eficacitate necunoscută – Date insuficiente
Nu pare a avea beneficiu — Dovezi mai slabe decât pentru nivelul “pare a aduce beneficiu”
Pare a fi ineficient sau nociv — Dovezi clare de nocivitate a intervenţiei

Ghidurile US Preventive Task Force8 (gradele de recomandare – vezi şi Capitolul VI)


A—Recomandat cu tărie (dovezi de bună calitate; beneficiul substanţial mai mare decât efectele
adverse)
B—Recomandare în favoarea utilizării de rutină (dovezi rezonabile; beneficiu moderat)
C—decizie dificilă, nu există recomandare nici pro, nici contra utilizării de rutină (dovezi bune sau
rezonabile; mărimea beneficiului mică, sau sensibilă la valorile pacientului)
I—Dovezi insuficiente pentru o recomandare pro sau contra utilizării de rutină (dovezi de calitate
slabă)
D—Recomandare împotriva utilizării de rutină (dovezi bune sau rezonabile; diferenţa dintre beneficiu
şi risc zero sau negativă)

Pentru deciziile eficiente, sfatul este mai uşor de dat, este direct şi clar şi ia mai puţin
timp. În cazurile deciziilor “influenţate de preferinţe”, nici nu este recomandat a se da
vreun sfat, deoarece nu există alegere bună sau proastă6.
Exprimările calitative ale probabilităţii, cum ar fi “puţin probabil”, “uneori”, “risc înalt”
sunt folosite totdeauna în medicina clinică pentru a descrie riscul. Problema cu acestea
este că interpretarea lor variază mult de la un individ la altul. Chiar mie mi s-a întâmplat

83
– când auzeam de hipertensiune cu risc foarte înalt, mărturisesc că mă gândeam la un
risc la zece ani cu mult mai înalt decât cel care am aflat că este de fapt. Aşadar, şi
pacientului trebuie să-i dăm, atunci când îi comunicăm riscul, valoarea exactă a
acestuia, pentru ca el să hotărască singur dacă este destul de înalt sau nu, ori dacă
tratamentul îl scade destul de mult pentru a merita efectele adverse, banii daţi, efortul şi
timpul de a alerga după reţeta compensată, apoi pe la farmacii, apoi de a lua
medicamentele de câteva ori pe zi sau poate consideră că este mai bine să slăbească sau
să facă mişcare, ori să se lase de fumat!
Figura XVI.1. Riscul cardiovascular rezultat din studiul populaţiei din Framingham (calculat cu
InfoRetriever9).

Mai jos avem trei exemple cu o diagramă ce poate fi folosită pentru a reprezenta efectul
unui tratament (ele sunt utile şi să le arătăm unor colegi care prescriu prea des unele
medicamente…). Acestea se referă la studiile VIGOR10 (naproxen comparat cu
rofecoxib), ASCOT-BPLA11 (combinaţia amlodipină+prindopril comparată cu
combinaţia atenolol+ diuretic tiazidic) şi EUROPA12 (perindopril comparat cu placebo
la pacienţi cu coronaropatie fără HTA sau insuficienţă cardiacă)
Pacienţii cu verde sunt cei care, indiferent de tratament, nu suferă efectul de studiat; cei
cu roşu sunt pacienţii care, indiferent de tratament, vor suferi efectul; iar cei cu albastru
sunt pacienţii care sunt salvaţi de la efectul urmărit de către tratamentul respectiv.

84
Figura XVI.2. Model de ajutor decizional: reducerea riscului de complicaţii ale ulcerului (sângerare,
perforaţie, stenoză) de către tratamentul cu rofecoxib faţă de cel cu naproxen (studiul VIGOR 10).
Pacienţii cu albastru sunt aceia care vor fi salvaţi de la o complicaţie a ulcerului dacă le dăm rofecoxib în

loc de naproxen. Nu am figurat aici şi riscul de infarct miocardic. Coxibii sunt de câteva sute de ori mai
scumpi decât antiinflamatoarele obişnuite. Se vede foarte bine cum, la 1000 de pacienţi care iau rofecoxib
în loc de naproxen, sunt salvaţi de la o complicaţie a ulcerului gastro-duodenal 8, deci RAR=0,8%, iar
NNT=125.

Figura XVI.3. Model de ajutor decizional: reducerea riscului de deces cardiovascular de către
tratamentul cu combinaţia perindopril+amlodipină faţă de combinaţia atenolol+diuretic tiazidic la
pacienţii hipertensivi (studiul ASCOT-BPLA11).

Pacienţii cu albastru sunt cei care vor fi salvaţi de la deces dacă le dăm combinaţia
perindopril+amlodipină în loc de atenolol+diuretic tiazidic. Se vede foarte bine cum, la 1000 de pacienţi
care iau primul tratament în loc de cel de-al doilea, sunt salvaţi de la deces cardiovascular 8, deci
RAR=0,8%, iar NNT=125.

Figura VI.4. Model de ajutor decizional: reducerea riscului de eveniment cardiovascular (efect compozit:
mortalitate cardiovasculară + infarct miocardic acut + stop cardiac resuscitat) de către tratamentul cu
perindopril la pacienţii cu coronaropatie şi fără hipertensiune sau insuficienţă cardiacă (studiul
EUROPA12).

85
Pacienţii cu albastru sunt cai care vor fi salvaţi de la efectul compozit de către tratamentul cu perindopril.
Acesta este numai un exemplu, probabil că pe pacient îl interesează mai degrabă riscul de mortalitate în
general, fiindu-i indiferent dacă moare de inimă sau de altă cauză – în acest caz, vom avea şi mai puţine
buline albastre (în studiu, pe mortalitatea totală sau cardiovasculară nu s-a atins semnificaţia statistică).

Bibliografie
1. Guyatt G, Haynes B, Jaeschke R et al. Intoduction: the philosophy of evidence-based
medicine. In: Guyatt G, Rennie D. User’s guides to the medical literature. A manual for
evidence-based medicine. American Medical Association Press, Chicago, 2002, p.7.
2. Yelland MJ, Nikles CJ, McNairn N, Del Mar CB, Schluter PJ, Brown RM. Celecoxib
compared with sustained-release paracetamol for osteoarthritis: a series of n-of-1 trials.
Rheumatology 2007;46:135-140.
3. Edwards A. Communicating risk means that patients too have to learn to live with
uncertainity. BMJ 2003;327:691–2.
4. O’Connor AM, Stacey D, Entwistle V, et al. Decision aids for people facing health
treatment or screening decisions. Cochrane Database Syst Rev 2003;(2):CD001431.
5. Thornton H, Edwards A, Elwyn G. Evolving the multiple roles of “patients” in
health-care research: reflections after involvement in a trial of shared decision-making.
Health Expectations 2003;6:189-97.
6. O’Connor AM, Legare F, Stacey D. Risk communication in practice. BMJ
2003;327:736–40.
7. Clinical evidence. Issue 2. London: BMJ Publishing, 1999.
8. Harris RP, Helfand M,Woolf SH, Lohr KW, Mulrow CD, Teuch SM, et al. Current
methods of the US preventive services task force: a review of the process. Am J Prev
Med 2001;20:21-35.
9. InfoRetriever, Wiley & Sons Inc. 2007 (www.infopoems.com).
10. Bombardier C, Laine L, Reicin L et al, for the VIGOR Study Group. Comparison of
upper gastrointestinal toxicity of rofecoxib and naproxen in patients with rheumatoid
arthritis. N Engl J Med 2000; 343 (21): 1520-8.
11. Dahlof B, Sever PS, Poulter NR et al, for ASCOT investigators. Prevention of
cardiovascular events with an antihypertenive regimen of amlodipine adding perindopril
as required versus atenolol adding bendroflumethiazide as required, in he Anglo-
Scandinavian Cardiac Outcomes Trial – Blood Pressure Lowering Arm (ASCOT-
BPLA): a multicentre randomised controlled trial. Lancet. 2005; 366:895-906.
12. The EURopean trial On reduction of cardiac events with Perindopril in stable
coronary Artery disease Investigators. Efficacy of perindopril in reduction of
cardiovascular eventsamong patients with stable coronary artery disease: randomised,
double-blind, placebo-controlled, multicentre trial (the EUROPA study). Lancet. 2003;
362: 782–88.

86
XVII. Evaluarea testelor diagnostice: criterii de validitate

Anormalitatea
Medicii petrec o bună parte a timpului distingînd normalul de anormal (Sunt aceste
adenopatii patologice? Este consistenţa ficatului crescută? Este scăderea ponderală la
acest individ determinată de stress sau are cancer?).
Când anomaliile sunt grosiere (adenopatii mari, ficat dur cu marginea ascuţită, pacient
emaciat cu alte modificări biologice), este simplu de răspuns la aceste întrebări.
Greutatea apare atunci când modificările sunt subtile, cum se întâmplă de obicei la
debutul bolii – şi uneori diagnosticul este cu atât mai important. Atunci fie decidem că
modificările reflectă o boală şi anunţăm pacientul, continuăm investigaţiile (cu unele
mai invazive şi/sau mai scumpe) sau tratăm boala (operăm, administrăm tratamente care
costă şi au efecte adverse), fie decidem că modificările nu ies din sfera normalului şi
liniştim pacientul (dar ne asumăm riscul de a trece pe lângă o boală care totuşi există,
iar când diagnosticul va fi clar, poate va fi prea târziu).
Testele diagnostice sunt de două feluri, calitative şi cantitative. Primele clasifică
pacienţii ca bolnavi sau sănătoşi în funcţie de prezenţa sau absenţa unei modificări
clinice sau de laborator (de exemplu, prezenţa sau absenţa unei pneumonii la examenul
radiologic). Cele cantitative au ca rezultat o variabilă numerică continuă, iar clasificarea
pacientului ca bolnav sau nu se face pe baza unei valori de prag (numite criteriu de
pozitivitate), în funcţie de care testul este considerat pozitiv sau negativ (de exemplu
TA, creatinina, transaminazele, VEMS etc.). Sunt mai multe metode de a hotărâ care
este normalul:
1. Metoda distributiei Gaussiene, bazată pe presupunerea că valorile testului au o
distribuţie normală (Gaussiană). Conform acestei metode, se încadrează în normal
cei aflaţi în zona mediei  2 deviaţii standard, adică 95% din populaţie, extremele
fiind anormale. Pentru a obţine aceste valori, se face un studiu pe o populaţie
considerată “sănătoasă” (eventual separat pe grupe de vârstă, sex, rasă sau alte
subgrupuri), se aplică testul diagnostic şi se calculează media şi deviaţia standard.
Problema cu această metodă este aceea că rezultatele majorităţii testelor nu au o
distribuţie normală (de exemplu media creatininemiei este în jurul valorii 0,9, în
timp ce extremele se pot duce şi la 15 în sus, dar mult mai puţin în jos); de
asemenea, conform acestei metode extremele de 2,5% ar reprezenta anormalul, deci
toate bolile ar avea o prevalenţă fixă de 5%, ceea ce este absurd. Singurii pacienţi
normali ar fi cei necăutaţi (dacă aplicăm 1 test, probabilitatea să iasă un rezultat
normal ar fi 95%; dacă aceluiaşi pacient îi aplicăm 2 teste, probabilitatea să iasă
normale scade la 90%; iar dacă îi aplicăm 20 de teste independente – nu ştiu câte
teste are screeningul anual obligatoriu introdus recent de Ministerul Sanataţii –
probabilitatea scade la 0.9520=33%).
2. Metoda procentuală, care este aproape identică celei Gaussiene (se măsoară
valorile testului într-o populaţie şi se defineşte normalul tot ca valorile în care se
încadrează 95% din populaţie, iar patologicul fie 5% din valorile superioare, fie
2,5% din extremele de ambele părţi). Această metodă nu cere ca valorile testului să
aibă o distribuţie normală, dar are aceleaşi dezavantaje ca şi metoda Gaussiană.
3. Metoda “preferinţei culturale”, care descrie ca normal ceea ce societatea
consideră astfel (de exemplu greutatea la femei). În acest caz se creează o confuzie
cu privire la rolul medicinei.
4. Metoda factorului de risc: valorile devin patologice peste pragul la care este
demonstrat că factorul respectiv devine factor de risc. Desigur, nu ne ajută cu nimic
diagnosticarea unui factor de risc asupra căruia nu putem interveni.

87
5. Metoda diagnostică sau a valorii predictive: de acestă metodă ne vom ocupa în
continuare, şi pe aceasta o aplicăm de fapt în clinică zi de zi.
6. Metoda terapeutică: valorile devin patologice de la nivelul la care s-a demonstrat
că tratându-le se obţine mai mult beneficiu decât efecte adverse. Exemple pentru
metoda aceasta şi cea a factorului de risc pot fi TA şi colesterolul, la care vedem că
valorile de prag se modifică continuu. Pentru stabilirea valorilor de prag sunt
necesare mari studii de cohortă (metoda factorului de risc) şi terapeutice (metoda
terapeutică). Metoda terapeutică este cea mai pragmatică, derivând din metoda
factorului de risc.

Performanţa măsurătorilor: validitatea şi reproductibilitatea


Validitatea (sau acurateţea) este corectitudinea măsurătorii – ne arată cât de aproape
este valoarea unei măsurători de valoarea reală (cât de aproape este o potasemie
măsurată de potasemia reală).
Reproductibilitatea (sau precizia) arată gradul în care o serie de măsurători fluctuează
în jurul unei valori centrale, valoare care poate fi mai mult sau mai puţin apropiată de
valoarea reală (în funcţie de acurateţea testului). De exemplu în determinarea unei
potasemii (valoare reală de 4 mEq/l), metoda noastră de măsurare este validă dacă
repetând măsurătoarea vom avea valori foarte apropiate de 4 mEq/l. Pentru ca metoda să
fie precisă, măsurătorile trebuie să dea valori foarte apropiate între ele, chiar dacă
diferite de cea reală (de exemplu dacă toate măsurătorile dau valoarea 7,49 mEq,
înseamnă că metoda este foarte precisă, dar deloc validă).
Acurateţea se poate evalua determinând diferenţa dintre media rezultatelor măsurării şi
valoarea reală, în timp ce precizia se evaluează observând distribuţia frecvenţelor
măsurătorilor şi calculând deviaţia standard a acestora. O metodă de măsurare este bună
atunci când este în acelaşi timp validă şi precisă.
Atunci când rezultatele testelor sunt binare (pozitiv/negativ), reproductibilitatea
interobservator se calculează raportând numărul de rezultate convergente (în care
investigatorii au dat acelaşi verdict) la numărul de rezultate divergente (în care părerile
investigatorilor au fost diferite) - aceasta este reproductibilitatea calculată prin metoda
simplă (Tabelul XVII.1 - doi clinicieni au consultat 100 de pacienţi cu dispnee: ambii
sunt de acord cu prezenţa zgomotului 3 la 5 pacienţi şi cu absenţa lui la 75 de pacienţi –
aşadar, “acordul simplu” este de (5+75)/100 = 0,80, sau acordul a fost prezent în
proporţie de 80%).

Tabelul XVII.1 Calculul reproductiilităţii interobservator – metoda simplă. Acordul dintre doi clinicieni
asupra prezenţei galopului protodiastolic la pacienţi cu dispnee.
Clinician II (galop)
DA NU
DA 5 5
Clinician I (galop)
NU 15 75

Acest calcul are avantajul de a fi simplu de efectuat, dar nu ţine cont de faptul că cei doi
observatori pot ajunge la acelaşi rezultat, măcar într-un număr de cazuri, din întâmplare
(să ne închipuim că medicii, în loc să asculte zgomotele cardiace, diagnostichează
prezenţa zgomotului 3 dând cu banul: capul = zgomot 3 prezent, pajura = zgomot 3
absent; este clar că, de câte ori cei doi vor ajunge la acelaşi rezultat prin această
“metodă diagnostică”, acest lucru va fi rezultatul întâmplării).

88
Pentru remedierea acestui neajuns, deci pentru a vedea care este acordul dintre doi
investigatori în realitate, scăzând contribuţia întâmplării, se foloseşte coeficientul de
concordanţă , care ia valori de la 0 la 1 (pentru valorile de la 0 la 0,2 concordanţa este
uşoară, de la 0,2 la 0,4 este acceptabilă, de la 0,4 la 0,6 moderată, de la 0,6 la 0,8
substanţială, iar de la 0,8 la 1 aproape perfectă1). Pentru exemplul din Tabelul XVII.1,
coeficientul de concordanţă  este 0,23 (mult mai mic decât acordul simplu de 80%,
considerându-se că acordul datorat întâmplării a fost în acest caz 74% - pentru calculul
, vezi 1, 2).
În Tabelele XVII.2 şi 3 putem vedea câteva exemple de acord interobservator (pentru o
colecţie mult mai mare, vezi2 şi mai ales1). Se observă că testele diagnostice pe care le
folosim (de la semne clinice la teste paraclinice) sunt departe de a fi perfecte în privinţa
reproductibilităţii. Chiar şi în privinţa analizelor de laborator, în care clinicianul nu are
decât de interpretat un număr, dezacordul dintre investigatori este încă posibil (de
exemplu, într-un studiu în care trei endocrinologi au văzut aceleaşi rezultate privind
funcţia tiroidiană şi alte date clinice privind 55 de pacienţi consecutivi la care se
suspecta boală tiroidiană, ei au fost în dezacord cu privire la diagnosticul final în 40%
din cazuri3. Mai mult, nici măcar analiza computerizată a rezultatelor nu are o
reproductibilitate mai bună: într-un studiu asupra unor perechi de electrocardiograme
făcute la interval de un minut la 92 de pacienţi, interpretarea computerului a fost
semnificativ diferită în 40% din cazuri, chiar dacă traseele nu difereau4.

Tabelul XVII.2. Acordul interobservator – câteva exemple în cazul semnelor fizice (din1).
Semn Coeficient 
Piele
Paloare (pacientul pare anemic)5, 6 0,23-0,48
7
Paloare conjunctivală 0,54-0,75
Cianoză5,8 0,36-0,70
9
Icter 0,65
Semne vitale
Hipotensiune (TA sistolică < 90mmHg) 0,90
5
Febră (evaluată prin palparea pielii) 0,09-0,23
8
Tahipnee 0,25
10, 11
Retinopatie diabetică
Exudate 0,56-0,67
Hemoragii intraretiniene 0,89
Neovascularizaţie 0,1-0,48
Stadializare 0,65
Matitate la percuţia pulmonară8,12, 13 0,16-0,52
8, 12, 14
Raluri alveolare 0,21-0,63
8, 12, 14, 15
Raluri sibilante 0,43-0,93

Tabelul XVII.3. Acordul interobservator – câteva exemple în cazul testelor diagnostice (din1).

89
Semn (la testul diagostic) Coeficient 
Radiografie toracică
Cardiomegalie16 0,48
16
Redistribuţia circulaţiei pulmonare 0,50
17
Fibroza pulmonară (pe o scală cu 4 grade) 0,45
Venografie cu substanţă de contrast
Tromboză venoasă profundă18 0,53
Angiografie cu subtracţie digitală
Stenoză de arteră renală19 0,65
Coronarografie
Clasificarea leziunilor arterelor coronare20 0,33
21
Tomografia computerizată cerebrală
Normală sau anormală, la pacienţi cu accident vascular cerebral 0,60
Leziune pe partea dreaptă sau stângă, la pacienţi cu accident vascular cerebral 0,65
Efect de masă, prezent sau absent 0,52
Tomografa computerizată toracică
Stadializarea cancerului pulmonar22 0,40-0,60
Rezonanţă magnetică nucleară crebrală
Compatibilă cu scleroză multiplă23 0,57-0,87
Rezonanţă magnetică nucleară a coloanei vertebrale
Modificări ale discului interbertebral sau normal 24 0,59
Ecografie
Tromboză venoasă profundă, prezentă sau absentă 25 0,69
Nodul tiroidian, prezent sau absent26, 27 0,57-0,66
28
Examenul histopatologic al biopsiei hepatice
Colestază 0,40
Boală alcoolică a ficatului 0,49
Ciroză 0,59

Prin efectuarea unui test, clinicianul se străduieşte să clasifice starea reală dar
necunoscută a unui subiect de observaţie cu ajutorul unui instrument imperfect.
Sursele de nesigutanţă/variabilitate sunt:
1. Instrumentul de măsură: imprecizia analitică (acelaşi test aplicat aceluiaşi pacient să
dea acelaşi rezultat).
2. Variabilitatea subiectului: intraindividuală (regresia către medie – fluctuaţii
fiziologice)/ interindividuală (cu cât acestă variabilitate este mai mare, avem nevoie
de un eşantion mai mare pentru studiul nostru).
3. Variabilitatea interpretării: interindividuală (doi radiologi sau ecografişti văd lucruri
diferite la acelaşi pacient) / intraindividuală (acelaşi radiolog/anatomopatolog vede
lucruri diferite citind aceeaşi radiografie/lamă în momente diferite; studiile au arătat

90
că aceste diferenţe sunt incredibil de mari). Această variabilitate este cuantificată
prin mărimea coeficientului de concordanţă .
4. Validitatea intrinsecă a testului (sensibilitatea, specificitatea, raportul de
probabilitate=likelihood ratio).
5. Prevalenţa bolii = probabilitatea pretest, care influenţează valorile predictive ale
testului conform teoremei lui Bayes.

Ca la orice tip de studiu, şi la cele terapeutice ne interesează două lucruri: validitatea


(calitatea metodologică) şi rezultatele. Este necesar ca în primul rând studiul să fie
corect efectuat, pentru a ne putea baza pe rezultate.
Evaluarea validităţii studiului se face prin verificarea următoarelor criterii:
1. A fost testul comparat cu un gold standard adevărat? A fost comparaţia
“oarbă”?
Gold standard-ul este testul etalon, cu care comparăm orice test nou şi în funcţie de care
îl evaluăm pe acesta. Se presupune că gold standard-ul este testul perfect, care
identifică toţi indivizii care au boala şi nu dă rezultate fals pozitive sau negative – de
obicei este examenul histopatologic (în coronaropatii, este coronarografia). Există boli
pentru care nu avem gold standard – de exemplu bolile pentru care avem criterii de
diagnostic. În aceste cazuri trebuie căutat un alt tip de gold standard, cum ar fi evoluţia
clinică (pentru artrita reumatoidă, de exemplu, pentru care nu avem un test perfect).
Deloc surprinzător, de cele mai multe ori tocmai pentru astfel de boli fără gold standard
se caută un test diagnostic bun. Acolo unde avem gold standard evaluăm teste noi fie
pentru că sunt mai ieftine, fie mai puţin invazive, fie mai uşor de efectuat. Atunci când
testul etalon este imperfect, şi evaluăm un test nou în funcţie de acesta, dacă testul nou
este mai bun, prin natura studiilor diagnostice acest fapt nu va putea fi evidenţiat, iar
testul nou întotdeauna apare ca fiind mai slab decât gold standard-ul.
Testul de evaluat trebuie să fie independent de gold standard – de exemplu, nu putem
evalua anticorpii antiADN dublu catenar ca test diagnostic în lupus, având ca gold
standard criteriile ACR pentru lupus, deoarece printe criterii se află şi aceşti
autoanticorpi. Iar la evaluarea criteriilor de diagnostic pentru arterita cu celule gigante29,
gold standard-ul folosit a fost… părerea experţilor. Oare pe ce s-o fi bazat părerea
acestora, dacă nu (măcar parţial) tot pe simptomele şi testele cuprinse în aceste criterii!
Aşadar, atenţie la ce gold standard a fost folosit, şi cât de valid este acesta, pentru a
aprecia validitatea studiului!
De asemenea, comparaţia dintre gold standard şi testul de evaluat trebuie să fie oarbă –
adică cei care au efectuat şi interpretat testul de evaluat nu trebuie să ştie rezultatul gold
standard-ului şi invers. După ce medicii află de existenţa unui nodul pulmonar apărut la
CT, îl vor vedea şi pe radiografie, iar după ecocardiografia care a arătat o regurgitare
aortică, normal că vor auzi şi suflul! Astfel se introduce o eroare sistematică în favoarea
testului de evaluat. Bineînţeles că, la fel ca la studiile terapeutice, cu cât testul este mai
subiectiv (examen fizic, anamneză, radiologie, ecografie, chiar examen histologic – am
vazut cât de mare este variabilitatea inter/intraobservator), cu atât mai mult este nevoie
de precauţii care să asigure orbirea. Pentru testele biochimice – care nu pot fi influenţate
de cel care le interpretează – lipsa orbirii nu prea poate introduce erori sistematice în
favoarea acurateţei testului30 - deşi nu este imposibilă înterpretarea subiectivă a
rezultatelor biochimice3!
2. A fost testul evaluat la pacienţii potriviţi?
Pacienţii pe care efectuăm studiul diagnostic trebuie să fie asemănători acelora la care l-
am folosi în practică. Un test diagnostic este util atunci când face diferenţa între
afecţiuni asemănătoare, între care fără el nu am prea putea face diagnosticul diferenţial.

91
Oricine îşi dă seama că un pacient în vârstă, cu istoric de infarct anterior, ortopnee,
subcrepitante, edeme, jugulare turgescente, cardiomegalie şi galop protodiastolic are
insuficienţă cardiacă, iar o tânără cu crize de wheezing are altă cauză a dispneei, nu este
nevoie pentru asta să dozăm peptidul natriuretic. La fel, un test pentru artrita reumatoidă
ne este necesar la pacienţi care au poliartrită de scurt timp, şi ne întrebăm dacă este
vorba despre o artrită reumatoidă sau o altă boală inflamatorie articulară. Dacă, pentru a
evalua un test diagnostic se folosesc, ca bolnavi, pacienţi cu aspect clar al bolii
respective, iar ca indivizi neavând boala oameni sănătoşi, testul va apărea cu o putere
discriminativă mult mai mare decât în realitate. Aşadar, trebuie ca testul să fie evaluat la
pacienţi consecutivi la care boala respectivă este suspectată.
3. A fost efectuat gold standard-ul la toti pacienţii, indiferent de rezultatul testului
evaluat?
După cum am mai spus, presupunând că testul etalon este perfect, avem totuşi nevoie să
dezvoltăm alte teste, mai ieftine, mai puţin laborioase sau mai puţin invazive decât
acesta. Nu putem face coronarografie la toţi pacienţii pentru că este o investigaţie
invazivă şi disponibilă în puţine centre (la noi în ţară), care necesită personal specializat,
de asemenea preferăm să avem un alt test, imagistic prin care să diferenţiem
formaţiunile intrahepatice decât examenul histopatologic al fragmentului obţinut prin
biopsie ţintită. Din acest motiv căutăm să dezvoltăm alte teste, mai simple, cum ar fi
computerul tomograf pentru bolile coronariene, leziunile colonice sau trombembolismul
pulmonar, RMN pentru afecţiunile coledocului - în loc de coronarografie, colonoscopie,
scintigrafie/arteriografie, colangiografie retrogradă endoscopică etc. - testele etalon. În
studiile care consacrează aceste noi investigaţii, pentru a putea face comparaţia testului
nou cu gold standard-ul, trebuie ca tuturor pacienţilor să li se aplice concomitent şi
testul de evaluat, şi gold standard-ul şi nu, de exemplu, dacă pacientului nu-i iese nimic
la colangio-RMN, să nu-i mai facem colangiografia retrogradă endoscopică, sau dacă
tomografia cu emisie de pozitroni nu arată că leziunea este malignă, să nu-i mai facem
biopsie din tumoră prin puncţie sau prin operaţie, ori dacă anticorpii antipeptid citrulinat
(antiCCP) sunt negativi, să ne spunem că oricum nu părea o artrită reumatoidă şi să nu
mai urmărim pacientul un an (evoluţia clinică fiind, înacest caz, gold standard-ul), deci
să considerăm că pacientul nu are boala, fără să-i mai aplicăm gold standard-ul. Ori în
toate aceste cazuri am omite cazurile fals negative şi testul de evaluat va părea, din nou,
mai bun, cu o sensibilitate mult mai mare decât în realitate. Invers, dacă pacienţii la care
testul de evaluat iese pozitiv îi considerăm ca având boala, renunţând să le mai facem
testul gold standard, omitem fals negativii, şi atunci testul va părea că are o specificitate
mult mai mare decât în realitate.
Când pacienţii au un test diagnostic negativ, investigatorii sunt tentaţi să nu mai aplice
gold standard-ul, iar când acesta este invaziv sau riscant (de exemplu angiografie) poate
că nici nu merită să fie făcut la pacienţii la care testul de evaluat a fost negativ. Pentru a
trece peste această deficienţă, investigatorii pot utiliza în aceste cazuri un nou standard
de referinţă pentru a demonstra că pacienţii într-adevăr nu au avut boala – de exemplu
evoluţia clinică fără probleme în absenţa tratamentului. O dovadă convingătoare că un
pacient cu suspiciune clinică de tromboză venoasă profundă nu a avut-o include lipsa
oricărei complicaţii pe durata unei urmăriri îndelungate fără tratament anticoagulant31 -
ceea ce, de fapt, nu constituie de loc o dovadă că pacientul nu a avut boala. În schimb,
este o evaluare mult mai pragmatică a valorii unui test diagnostic – nici nu mă
interesează să descopăr o tromboză care nu face rău, pentru că nu este nevoie să o tratez
– aşa s-a procedat şi în celebrul studiu PIOPED32.
De obicei aplicăm testele pe bolnavi, şi atunci, în lipsa unui studiu diagnostic bun, ne
bizuim pe aceste rezultate deformate de lipsa cunoştinţelor privind rezultatele testului la

92
pcienţii care nu au boala. Rezonanţă magnetică nucleară (RMN), de exemplu, se face
pacienţilor cu dureri la nivelul coloanei lombare, şi se descoperă tot felul de modificări,
care au determinat explozia intervenţiilor chirurgicale la acest nivel la începutul anilor
90. Întrebarea legitimă este: cum arată coloana la indivizi fără dureri, şi pentru a
răspunde s-a efectuat RMN la 98 de voluntari care nu se plângeau de nimic33.
Radiologii care au citit rezultatele nu ştiau asta (erau “orbi”), şi au descoperit la fel de
des protruzii discale ca şi la pacienţii care făceau RMN pentru dureri (şi care fuseseră,
probabil, operaţi de mult…).
4. S-a demonstrat că testul este reproductibil inter/intraobservator?
Dacă un medic efectuează un test de două ori asupra unui subiect a cărui condiţie nu s-a
schimbat, într-o anumită proporţie de cazuri el va obţine rezultate diferite – acest lucru
este valabil pentru toate testele şi toţi investigatorii, numai că gradul de concordanţă
variază – una este să fie de 99%, alta 50%. Cu atât mai mult variază rezultatele când
testul este efectuat de investigatori diferiţi. Aşadar, înainte de a începe evaluarea unui
test, trebuie să vedem dacă reproductibilitatea lui este acceptabilă (nu este mai puţin
adevărat că acelaşi lucru se întâmplă şi cu gold standard-ul – am mai spus, există
variabilitate intra- şi interobservator şi la citirea aceleiaşi lame histologice; în aceste
cazuri se poate apela la citirea testului de către doi sau mai mulţi investigatori, “orbi”
unul faţă de celălalt).
5. Au fost furnizate intervalele de încredere pentru sensibilitate, specificitate şi
ceilalţi parametri ai testului?
6. Este furnizat raportul de probabilitate (Likelihood ratio) al testului, sau datele
din care acesta poate fi calculat?

Bibliografie
1. McGee S. Evidence-based physical diagnosis. WB Saunders, Philadelphia, 2001.
p.33-50.
2. Sackett DL, Haynes B, Guyatt G, Tugwell P. Clinical epidemiology. A basic science
for clinical medicine. 2nd edition, Little, Brown. Toronto. 1991. p. 25-35.
3. Jarlov AE et al. Observer variation in the clinical and laboratory evaluation of
patients with thyroid dysfunction and goiter. Thyroid 1998; 8:393-398.
4. Spodick DH, Bishop RL. Computer treason: ntraobserver variability of an
electrocardiographic computr system. Am J Cardiol 1997; 80:102-103.
5. Gjorup T et al. Global assessment of patients – a bedside study. II. Interobserver
variation and frequency of clunical findings. J Intern Med 1990; 228:147-150.
6. Gjorup T et al. A critical evaluation of the clinical diagnosis of anemia. Am J
Epidemiol 1986; 124:657-665.
7. Sheth TN et al. The relation of conjunctival pallor to the presence or absence of
anemia. J Gen Intern Med 1997; 12:102-106.
8. Spiteri MA, Cook DG, Clarke SW. Reliability of eliciting physical signs in
examination of the chest. Lancet 1988; 2:873-875.
9. Espinoza P et al. Interobserver agreement in the physical diagnosis of alcoholic liver
disease. Dig Dis Sci 1987; 32:244-247.
10. Milton RC, Ganley JP, Lynk RH. Variability in grading diabetic retinopathy from
stereo fundus photographs: comparison of physician and lay readers. Br J Ophtalmol
1977; 61:192-201.

93
11. Early Treatment Diabetic Retinopathy Study Research Group. Grading diabetic
retinopathy from stereoscopic color fundus photographs: an extension of the modified
Airlie House classification. ETDRS report number 10. Ophtalmology 1991; 98:786-806.
12. Mulrow CD et al. Observer variation in the pulmonary examination. J Gen Intern
Med 1986; 94:188-196.
13. Gjorup T, Bugge PM, Jensen AM. Interobserver variation in assessment of
respiratory signs: physicians’ guesses as to interobserver variation. Acta Med Scand
1984; 216:61-66.
14. Holleman DR, Simmel DL, Goldberg JS. Diagnosis of obstrucive airways disease
from the clinical examination. J Gen Intern Med 1993; 8:63-68.
15. Badgett DG et al. Can moderate chronic obstructive pulmonary disease be
diagnosed by historical and physical findings alone? Am J Med 1993; 94:188-196.
16. Butman SM et al. Bedside cardiovascular examination in patients with severe
chronic heart failure: Importance of rest or inducible jugular venous distension. J Am
Coll Cardiol 1993; 22:968-974.
17. Baughman RP et al. Crackles in interstitial lung disease: comparison of sarcoidosis
and fibrosing alveolitis. Chest 1991; 100:96-101.
18. Illescas FF et al. Interobserver variability in the interpretation of contrast
venography, technetium-99m red blood cell venography and impedance
plethysmography for deep venous thrombosis. J Can Assoc Radiol 1990; 41:264-269.
19. DeVries ar et al. Interobserver variability in assessing renal artery stenosis by digital
subtraction angiography. Diagn Imag Clin Med 1984; 53:277-281.
20. Herman JPR et al. Inter- and intra-observer variability in the qualitative
categorization of coronary angiograms. Int J Card Imag 1996; 12:21-30.
21. Shinar D et al. Interobserver reliability in the interpretation of computed
tomographic scans of stroke patients. Arch Neurol 1987; 44:149-155.
22. Webb WR et al. Interobserver variability in CT and MR staging of lung cancer. J
Comput Assist Tomogr 1993; 17:841-846.
23. Barkhof F et al. Interobserver agreement for diagnostic MRI criteria in suspected
multiple sclerosis. Neuroradiology 1999; 41:347-350.
24. Jensen MC et al. Magnetic resonance imaging of the lumbar spine in eople without
back pain. N Engl J Med 1994; 331:69-73.
25. Atri M et al. Accuracy of sonography in the evaluation of calf deep vein thrombosis
in both postoperative surveillance and symptomatic patients. Aqm J Radiol 1996;
166:1361-1367.
26. Jarlov AE et al. Observer variation in ultrasound assessment of the thyroid gland. Br
J Radiol 1993; 66:625-627.
27. Schneider AB et al. Thyroid nodules in the follow-up of irradiated individuals:
Comparison of thyroid ultrasound with scanning and palpation. J Clin Endocrinol
Metab 1997; 82:4020-4027.
28. Theodossi A et al. Observer variation in assessment of liver biopsies including
analysis by kappa statistics. Gastroenterology 1980; 79:232-241.

94
29. Hunder GG, Bloch DA, Michel BA et al. The American College of Rheumatology
1990 criteria for the classification of giant cell arteritis. Arthritis Rheum. 1990; 33:1122-
8.
30. Meissner K, Distel H, Mitzdorf U. Evidence for placebo effects on physical but not
on biochemical outcome parameters: a review of clinical trials. BMC Med. 2007; 5:3
31. Strauss SE, Richardson S, Glasziou P, Haynes B. Evidence-based medicine. How to
practice and teach EBM. 3rd edition, Elsevier, London, 2005. p.73.
32. The PIOPED investigators. Value of the ventilation/perfusion scan in acute
pulmonary embolism: results of the prospective investigation of pulmonary embolism
diagnosis (PIOPED). JAMA 1990; 263: 2753-59.
33. Jensen MC, Brant-Zawadzki MN, obuchowski N, Modic MT, Malkasian D, Ross
JS. Magnetic resonance imaging of the lumbar spine in people withot back pain. N Engl
J Med 1994; 331: 69-73.

95
XVIII. Parametrii unui test diagnostic (I): sensibilitatea şi specificitatea.
Tabelul XVIII.1. Tabel de contingenţă 2x2 cu cele patru posibilităţi privind rezultatul unui test
diagnostic.
Boala (gold standard)
Prezentă Absentă
Testul Pozitiv RP FP
Negativ FP RN
RP = real pozitiv; RN = real negativ; FP = fals pozitiv; FN = fals negativ.

În tabelul de mai sus sunt reprezentate cele patru posibilităţi privind rezultatul unui test
diagnostic: când pacientul este bolnav, iar testul este pozitiv, rezultatul este real pozitiv;
când pacientul este bolnav, iar testul este negativ, rezultatul este fals negativ; când
pacientul nu are boala, dar testul este pozitiv, rezultatul este fals pozitiv; iar când
pacientul nu are boala, iar testul este negativ, rezultatul este real negativ. Este o
chestiune de bun simţ să ne dăm seama că puterea de discriminare a testului este cu atât
mai mare, cu cât acesta dă mai multe rezultate reale (negative sau pozitive) şi mai puţine
false (negative sau pozitive).
Sensibilitatea (Sn) este probabilitatea de a avea testul pozitiv, atunci când eşti bolnav,
sau proporţia celor cu test pozitiv printre bolnavi (bolanvii cu test pozitiv / toţi
bolnavii). Sensibilitatea unui test este puterea acestuia de a descoperi boala; cu cât testul
este mai sensibil, riscul este mai mic să scape bolnavi nedescoperiţi (1-Sn= proporţia
FN, adică cu cât sensibilitatea este mai mare, cu atât avem mai puţini fals negativi).
Un test foarte sensibil ne ajută mai ales atunci când este negativ: proporţia de fals
negativi fiind foarte mică, putem exclude boala (SnNout1). Un bun exemplu sunt d-
dimerii: testul, foarte sensibil, ne ajută atunci când este negativ, pentru excluderea
trombozei venoase. Testele sensibile sunt folosite pentru screening, atunci când este
important să nu trecem pe lângă pacienţi care au boala fără să-i descoperim. Cu cât
testul este mai sensibil, cu atât putem fi mai siguri că nu există boala atunci când este
negativ. Anticorpii antinucleari (ANA), de exemplu, sunt prezenţi la 95-98% dintre
pacienţii cu lupus eritematos sistemic2 – aceasta este sensibilitatea; ceea ce înseamnă că,
dacă ANA sunt negativi, nu mai sunt şanse decât de 2-5% ca pacientul să aibă, totuşi,
lupus, aşa că teoretic putem exclude boala. Lactat dehidrogenaza este o enzimă
nespecifică, care poate creşte în o mulţime de afecţiuni, aşadar pe prezenţa ei nu putem
pune un diagnostic; o dată am vrut să ştiu, însă, dacă pot exclude o hemoliză pe baza
normalităţii ei, şi am găsit o sensibilitate de 93% pentru hemoliză3, deci poate fi utilizată
cu destulă siguranţă pentru excluderea acestei afecţiuni.
Specificitatea (Sp) este probabilitatea de a avea testul negativ, atunci când eşti sănătos,
sau proporţia celor cu test negativ, printre sănătoşi (sănătoşii cu test negativ / toţi
sănătoşii). Un test specific este foarte util pentru a pune diagnosticul de boală, când
acesta este pozitiv (SpPin1), pentru că specificitatea este invers proporţională cu rata fals
pozitivilor (1-Sp = proporţia FP).
Testul ideal este şi sensibil, şi specific, şi atunci ne este foarte util şi când este pozitiv –
pentru a pune diagnosticul de boală, şi când este negativ – pentru a exlude boala. Dacă
testul este foarte sensibil, nu însă şi specific, atunci când este negativ pacientul aproape
sigur nu are boala, dar când este pozitiv este posibil să fie fals pozitiv. Când testul este
foarte specific, nu însă şi sensibil, dacă este pozitiv punem diagnosticul de boală, dacă
însă este negativ, este posibil să fie fals negativ.

96
Tabelul XVIII.2: Reprezentarea unui tabel de contingenţă 2x2 în scopul evaluării unui test diagnostic:

B O A L Ă TOTAL
PREZENTĂ ABSENTĂ

TEST POZITIV a b a+b

DIAGNOSTIC NEGATIV c d c+d

a+c b+d a+b+c+d

(a=real pozitivi; b=fals pozitivi; c=fals negativi; d=real negativi)


Sensibilitatea (Sn) = a/(a+c)
Specificitatea (Sp) = d/(b+d)
Likelihood ratio pentru un rezultat pozitiv al testului (LR+) = sensibilitate/(1-specificitate)
Likelihood ratio pentru un rezultat negativ al testului (LR-) = (1-sensibilitate)/specificitate
Cota pretest = prevalenţa/(1-prevalenţa)
Cota posttest = cota pretest x likelihood ratio
Probabilitatea posttest = cota posttest/(cota posttest+1)
Probabilitatea pretest (prevalenţa) = (a+c)/(a+b+c+d)
Valoare predictivă pozitivă (VPP) = a/(a+b)
Valoare predictivă negativă (VPN) = d/(c+d)

Când rezultatele testelor diagnostice nu sunt variabile dihotomice (binare) ci continue,


se stabileşte o valoare de prag faţă de care considerăm rezultatul testului ca pozitiv sau
negativ (de exemplu CK-MB =80 u/l, ce se află deasupra este infarct miocardic acut, ce
se află dedesubt nu este). Bineînţeles, putem stabili alte valori de prag, pentru fiecare
dintre ele având o sensibilitate şi o specificitate: dacă vrem o sensibilitate mare, scădem
valoarea de prag şi nu vom scăpa nici un infarct miocardic, dar vom diagnostica drept
infarcte pacienţi care nu au – cu alte cuvinte, scădem specificitatea; dacă vrem o
specificitate mare, creştem valoarea de prag şi atunci vom fi mai siguri că un pacient cu
testul pozitiv are boala, dar vom avea mulţi fals negativi, deci vom scăpa pacienţi cu
infarct miocardic pe care nu i-am diagnosticat – cu alte cuvinte, scădem sensibilitatea
testului. Aşadar, pentru un test dat, putem creşte sensibilitatea cu preţul scăderii
specificităţii şi viceversa. Un astfel de test poate fi evaluat global prin calculul ariei de
sub curba ROC4, care este graficul sensibilităţii în funcţie de (1-specificitate) – Figura
XVIII.1. Cu cât aria se apropie de valoarea 1, testul este mai bun, cu sensibilitate şi
specificitate mari. Cu cât aria este mai mică, nu putem creşte sensibilitatea sau
specificitatea decât cu preţul unei din ce în ce mai drastice scăderi a celuilalt parametru;
dacă aria =0,5, testul are aceeaşi valoare ca şi datul cu banul. În Figura XVIII.2 este dat
exemplul a două teste cu arii destul de mici.

97
Figura XVIII.1. Curba ROC a valorilor CK în infarctul miocardic acut (preluată din5)
Aria curbei este 0,876; valoarea de prag cu cel mai bun echilibru dintre sensibilitate şi specificitate este
cea de 80u/l, fiind cea mai apropiată de colţul din stânga sus al graficului – Sn=0,94, Sp=0,89; pentru
valoarea CK=40 u/l, Sn=0,99, Sp=0,68; pentru CK=280 u/l, Sn=0,43, Sp=0,99.

Specificitate
1,0 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0
1,0
Proporţia real pozitivilor = sensibilitate 40
0,9
80
0,8
0,7
0,6
0,5
0,4 280

0,3
0,2
0,1
0
0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1.0
Proporţia fals pozitivilor = 1- specificitate

Figura XVIII.2. Curbele ROC ale vârstei şi VSH în cancer6. Pentru vârstă aria de sub curbă este 0,684,
iar pentru VSH=0,690. Se vede cum curbele sunt mai aproape de linia de referinţă (aria=0,5) decât de
colţul din stânga sus, punctul de maximă acurateţe a testului.
Sensibilitate

1-Specificitate
Testarea multiplă
Cum cele mai multe teste diagnostice sunt departe de a fi perfecte, de multe ori un
singur test este insuficient. Din acest motiv, clinicienii folosesc teste diagnostice

98
multiple, administrate fie în paralel, fie în serie. De fapt, întotdeauna folosim teste
multiple: primele sunt vârsta şi sexul pacientului, pe care le observăm sau aflăm din
primele secunde şi continuăm cu anamneza, multiplele manevre ale examenului clinic şi
apoi cu testele de laborator.
Atunci când aplicăm testele în paralel, ele sunt efectuate concomitent, iar bateria de
teste este considerată pozitivă dacă un singur test este pozitiv, şi negativă atunci când
toate testele sunt negative. În cazul unei paciente cu poliartrită, de exemplu, spunem că
aceasta are lupus fie dacă are rash malar, sau sindrom nefrotic, sau trombocitopenie, sau
revărsat pleural, sau anticorpi antinucleari (ANA) etc.
Prin aplicarea testelor în paralel, creştem sensibilitatea (practic, nu pierdem nici un
pacient cu lupus), dar scădem specificitatea (pacienţi diagnosticaţi cu lupus pot avea de
fapt altă boală, deci testul a fost fals pozitiv).
Atunci când aplicăm o baterie de teste în serie, o considerăm pozitivă când toate testele
care compun bateria sunt pozitive, şi negativă când măcar unul este negativ. Luând
acelaşi exemplu cu lupusul, punem acest diagnostic când pacienta cu poliartrită are în
acelaşi timp rash malar, sindrom nefrotic, trombocitopenie, revărsat pleural şi ANA.
Vedem, aşadar, cum prin această metodă se creşte specificitatea (o pacientă care
îndeplineşte toate aceste criterii, sigur are lupus), pierzînd, în schimb, din sensibilitate
(vor scăpa diagnosticului paciente care nu au toate aceste manifestări ale bolii, ci numai
pe unele dintre ele).
De cele mai multe ori, aplicarea testelor în serie se face secvenţial, începîndu-se cu cele
mai sensibile şi mergînd mai departe cu cele mai specifice; sau, în practica zilnică, de la
cele mai simple la cele mai scumpe sau invazive – anamneza, apoi examen clinic, apoi
teste de laborator.
În Tabelul XVIII.3 sunt prezentate anemia, VSH şi scăderea ponderală ca teste pentru
depistarea cancerului şi modificările de sensibilitate şi specificitate care apar atunci
când aceste teste sunt aplicate în paralel sau serie.

Tabelul XVIII.3. Anemia, VSH şi scăderea ponderală ca teste diagnostice în cancer (simplificat din 7)
(sunt date intervalele de încredere 95%). Se vede cum aplicarea în paralel creşte sensibilitatea, iar cea în
serie specificitatea.

TEST Sensibilitate Specificitate


ANEMIE 37 (CI=36-39) 92 (CI=91-93)

VSH 52 (CI=51-54) 89 (CI=88-90)


SLĂBIT 46 (CI=45-48) 94 (CI=93-94)
Testele în paralel 87 (CI=86-88) 79 (CI=78-81)
Testele în serie 9 (CI=9-10) 99,6 (CI=99-100)

O altă metodă de a evalua mai multe teste concomitent şi probabilitatea ca pacientul să


aibă boala în funcţie de rezultatul lor este analiza multivariată (regresia logistică)4, 8, 9 -
pentru exemple, vezi6, 10. Atunci când aceste teste sunt preponderent clinice (semne şi
simptome), atunci evaluarea lor concomitentă duce la formularea unor reguli de
predicţie clinică, dintre care unele sunt celebre (scorul Wells pentru tromboza venoasă
profundă11).

Bibliografie
1. Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based Medicine. How
to practice and teach EBM. 3rd Edition, Chuchill-Livingstone, London 2005.

99
2. Hahn BH. Systemic Lupus Erythematosus. În Harrison’s Principles of Internal
Medicine, 16th Edition, McGraw-Hill, New York 2005, p.1961.
3. Van Lente F, Marchand A, Galen RS. Diagnosis of hemolytic disease by
electrophoresis of erythrocyte lactate dehydrogenase isoenzymes on cellulose acetate or
agarose. Clin Chem. 1981; 27:1453-5.
4. Baicus C. Dicţionar de epidemiologie clinică şi medicină bazată pe dovezi. Editura
Medicală, Bucureşti 2002, p.54-55.
5. Sackett DL, Haynes RB, Guyatt G, Tugwell P. Clinical epidemiology. A basic
science for clinical medicine. 2nd Edition, Little, Brown, Toronto, 1991, p.118.
6. Baicus C, Ionescu R, Tanasescu C. Does this patient have cancer? The assessment of
age, anemia, and erythrocyte sedimentation rate in cancer as a cause of weight loss. A
retrospective study based on a secondary care university hospital in Romania. Eur J
Intern Med. 2006; 17:28-31.
7. Baicus C, Tanasescu C, Ionescu R. Has this patient a cancer? The assessment of
weight loss, anemia and erythrocyte sedimentation rate as diagnostic tests in cancer. A
retrospective study based in a secondary care university hospital in Romania. Rom J
Intern Med. 1999; 37:261-7.
8. Baicus C. Analiza multivariabilă. Stetoscop 2006; 50: 41
(http://www.stetoscop.ro/arhiva/2006/50/medicinabazatapedovezi.php)
9. Baicus C. Regresia logistică. Stetoscop 2006; 52-53: 28-29
(http://www.stetoscop.ro/pdf/stetoscop_nr52-53.pdf)
10. Baicus C, Bolosiu HD, Tanasescu C, Baicus A. Fever of unknown origin -
predictors of outcome. A prospective multicenter study on 164 patients. Eur J Intern
Med. 2003; 14:249-254.
11. Wells PS, Anderson DR, Rodger M, et al. Evaluation of d-dimer in the diagnosis of
suspected deep vein thrombosis. N Engl J Med 2003; 349: 1227-35.

100
XIX. Valorile predictive ale testelor şi teorema lui Bayes; reguli de predicţie
clinică

Sensibilitatea şi specificitatea, deşi sunt parametri importanţi ai testelor diagnostice (şi,


de altfel, cei mai cunoscuţi), nu ne ajută prea mult în practica noastră clinică, cu
excepţia cazurilor când se apropie de 100% şi putem aplica regulile SnNout şi SpPin.
Se vede din definiţii (Sn= probabilitatea ca un bolnav să aibă testul pozitiv şi Sp =
probabilitatea ca un sănătos să aibă testul negativ) că demersul este exact pe dos decât
cel practic, în care noi ne aflăm în faţa pacientului, fără să ştim dacă este sănătos sau
bolnav, îi aplicăm testul şi abia în urma rezultatului acestuia trebuie să hotărâm acest
lucru.
Exact acestei probleme îi răspund valorile predictive:
Valoarea predictivă pozitivă a unui test este probabilitatea ca un pacient la care testul
a fost pozitiv, să aibă boala, iar valoarea predictivă negativă a unui test este
probabilitatea ca un pacient la care testul a fost negativ, să nu aibă boala.
Pentru a calcula aceste valori, se foloseşte acelaşi tabel de contingenţă 2x2 din capitolul
anterior (Tabelul XVIII.2). După cum se vede aici, sensibilitatea şi specificitatea se
calculează pe verticală, separat la bolnavi (sensibilitatea) şi sănătoşi (specificitatea),
deci nu are nici o importanţă care este raportul dintre sănătoşi şi bolnavi, sau cu alte
cuvinte care este prevalenţa bolii (proporţia de bolnavi din totalul pacienţilor).
În schimb, atât prevalenţa = (a+c)/(a+b+c+d), cât şi valorile predictive pozitivă =
a/(a+b) şi negativă = d/(c+d) se calculează pe orizontală, iar valorile predictive depind
de prevalenţa bolii.
Ce înseamnă acest lucru? Înseamnă că, dacă un test a fost evaluat într-o clinică de
îngrijire terţiară (unde prevalenţa bolilor este mai mare decât la nivelele inferioare de
îngrijire) şi am obţinut anumite valori pentru sensibilitate şi specificitate, aceste valori
vor fi valabile oriunde am aplica acest test*!
Exact pe dos se întâmplă cu valorile predictive ale testului, adică tocmai acele valori pe
care le folosim de fapt pentru a pune diagnosticul: prevalenţa mică a bolii determină
scăderea valorii predictive pozitive şi creşterea celei negative, iar prevalenţa crescută a
bolii are efectul contrar.
Aceasta nu este altceva decât teorema lui Bayes, care spune că probabilitatea posttest
de a exista boala este direct proporţională cu probabilitatea pretest, adică prevalenţa
bolii (pentru formula matematică, vezi şi1).

Tabelul XIX.1. Probabilitatea posttest pentru un test diagnostic excelent, cu Sn şi Sp = 95%

Prev 99 95 90 80 70 60 50 40 30 20 10 5 1 0,5
VPP 99,9 99,7 99,4 99 98 97 95 93 89 83 68 50 16 9
VPN 16 50 68 83 89 93 95 97 98 99 99,4 99,7 99,9 99,9
PTN 84 50 32 17 11 7 5 3 2 1 0,6 0,3 0,1 0,03
Prev = prevalenţă = probabilitate pretest; VPP = valoare predictivă pozitivă = probabilitate posttest
pozitiv; VPN = valoare predictivă negativă; PTN = probabilitate posttest negativ = 100-VPN

*
Lucrurile sunt puţin mai nuanţate, dar nu are rost să intrăm în detalii. Sensibilitatea unui test este mai
mare la nivelele de îngrijire superioară pentru că acolo ajung pacienţi cu boli mai avansate. Acelaşi test,
de exemplu ecografia, are o sensibilitate mai mică pentru metastaze hepatice în ambulator, pentru că
acolo sunt mai puţini pacienţi cu metastaze multe şi mari decât într-o clinică de gastroenterologie, de
exemplu.

101
Din acest Tabel XIX.1 se observă cum este modificată probabilitatea pretest de către un
test foarte bun, cu sensibilitate şi specificitate de 95%, test cum rareori întâlnim în
practică. Se vede că, dacă probabilitatea pretest este foarte mare (95-99%) sau foarte
mică (0,5-5%), degeaba mai aplicăm testul, pentru că nu ne foloseşte nici la excluderea
bolii, nici la punerea diagnosticului. De exemplu, dacă probabilitatea pretest este de 95-
99%, practic putem pune diagnosticul de boală şi nu mai avem nevoie de test; dacă
totuşi îl facem şi este pozitiv, probabilitatea posttest creşte cu puţin şi devenim şi mai
siguri de ceva ce ştiam deja: 99,7-99,9%. Dacă cumva testul iese negativ, probabilitatea
posttest scade, dar nu destul de mult ca să ne ajute să excludem diagnosticul: de la 99%
la 84% şi de la 95% la 50%. Dacă, dimpotrivă, probabilitatea pretest este foarte mică,
un test negativ nu face decât să confirme că boala nu există: probabilitatea scade de la
0,5 la 0,03%, sau de la 5 la 0,3%. Nici dacă testul este pozitiv nu ne este de vreun folos,
pentru că nu va creşte probabilitatea destul de mult ca să putem pune diagnosticul:
probabilitatea creşte de la 0,5 la 9%, sau de la 5 la 50%. Concluzia este că, dacă suntem
convinşi fie că pacientul are boala, fie că nu o are (deci probabilitatea pretest este fie
foarte mare, fie foarte mică), orice test diagnostic este superfluu, pentru că fie pozitiv,
fie negativ nu ne va ajuta cu nimic la excluderea sau punerea diagnosticului de boală.
Asta arată de ce, dacă aplicăm teste pentru o boală într-un context clinic care nu
sugerează deloc acea boală, un rezultat pozitiv nu face altceva decât să ne încurce.
Cu totul altfel se petrec lucrurile dacă probabilitaea pretest este medie – rezultatul
testului, fie el pozitiv sau negativ va modifica foarte mult probabilitatea posttest. De
exemplu, dacă probabilitatea pretest este 50%, un test pozitiv o creşte la 95% (practic
punem diagnosticul), în timp ce un test negativ o scade la 5% (practic excludem boala).
Din păcate testele sunt rareori atât de bune, iar dacă acurateţea lor este mai mică,
modificările de probabilitate aduse de test sunt şi ele mai mici (Tabelul XIX.2).

Tabelul XIX.2. Probabilitatea posttest pentru un test diagnostic cu Sn şi Sp de 90% (criteriile de


diagnostic ale arteritei cu celule gigante).

Prev. 99 95 90 80 70 60 50 40 30 20 10 5 1 0,5

VPP 99,8 99,4 98,7 97 95 90 90 86 79 69 50 32 8,3 4,3

VPN 8,3 32 50 69 79 86 90 93 95 97 98,7 99,4 99,9 99,9

PTN 81,7 58 50 31 21 14 10 7 5 3 1,3 0,6 0,1 0,03

Prev = prevalenţă = probabilitate pretest; VPP = valoare predictivă pozitivă = probabilitate posttest
pozitiv; VPN = valoare predictivă negativă; PTN = probabilitate posttest negativ = 100-VPN

Am văzut că, după teorema lui Bayes, pentru a calcula probabilitatea posttest (valoarea
predictivă pozitivă), avem nevoie de probabilitatea pretest – dar de unde o aflăm pe
aceasta?
Nu o putem niciodată şti cu siguranţă, dar o putem estima. Pentru îngrijirea primară,
prevalenţa este aceeaşi cu prevalenţa bolii în populaţia respectivă – iar dacă nu avem
nici un studiu în România, cum se întâmplă adesea, încercăm să o extrapolăm din studii
pe populaţii asemănătoare. Putem încerca să găsim aceste prevalenţe în literatură,
căutând studii descriptive care documentează probabilităţile pretest pentru diagnosticele
ce stau în spatele anumitor semne şi simptome similare celor prezentate de pacientul
nostru – câteva exemple sunt în Tabelul XIX.3, adaptat din 2.
Uneori, pentru a vedea această prevalenţă, putem pur şi simplu să vedem care a fost ea
în ultimii câţiva ani printre pacienţii care s-au prezentat la cabinetul nostru, sau s-au
internat în clinica noastră, şi dacă n-au intervenit modificări majore privind

102
adresabilitatea (modificări de populaţie, modificări ale profilului cabinetului sau
secţiei), atunci putem să ne bizuim pe aceste rezultate.

Tabelul XIX.3. Câteva exemple de probabilităţi pretest (luate din 2).


Simptom sau problemă Sursa Procedee diagnostice Probabilităţile bolilor
clinică
Anemie cronică simplă 90 de adulti internaţi Examen clinic, biologie, Infecţie 36%
într-un serviciu de teste selectate Inflamaţie 6%
medicină internă (spital Cancer 19%
regional din SUA) 3 Renală 15%
Altele 24%
Ameţeli > 2 săptămâni 100 pacienţi adulţi Examen clinic, Vertij 54%
consultaţi de medicul de neurologic, Psihiatric 16%
familie într-un oraş din oftalmologic şi Multicauzal 13%
SUA4 psihologic, teste Altele 19%
selectate Necunoscută 8%
Dispnee > 4 săptămâni, 72 adulţi trimişi într-un Examen clinic, teste şi Respiratorie 36%
neexplicată de ambulator de tratamente standardizate Cardiacă 14%
examenul clinic, pneumologie, SUA5 Hiperventilaţie 19%
radiografie sau Altele 12%
spirometrie Neexplicată 19%
Palpitaţii 190 de pacienţi de la Examen clinic, teste Cardiace 43%
departamente de cardiologice şi Psihiatrice 31%
urgenţă, SUA6 psihologice, alte teste Diverse 10%
Necunoscute 16%
Fenomen Raynaud Sinteză a unor studii Examen clinic, 12,6% au dezvoltat boli
publicate înglobând 639 serologie, urmărire de colagen (scleroză
pacienţi din diverse sistemică, LES etc.)
nivele de îngrijire7

Odată ce avem această prevalenţă, mai avem nevoie să găsim în literatură sensibilitatea
şi specificitatea testului care ne interesează. Dacă acestea au fost calculate într-un mediu
asemănător cu cel în care lucrăm noi (aceeaşi prevalenţă a bolii), atunci nu avem decât
să folosim valorile predictive calculate în respectivul articol.
Dacă prevalenţa bolii din locul unde a fost evaluat testul în articol diferă semnificativ de
prevalenţa bolii din locul în care lucrăm noi, atunci, bizuindu-ne pe faptul că
sensibilitatea şi specificitatea se menţin constante indiferent de prevalenţă, putem
calcula valorile predictive ale testului pentru probabilitatea pretest de la noi, prin
metoda retrocalculării (Tabelele XIX.4 şi 5): dăm o valoare arbitrară totalului (să zicem
1000), după care, ştiind prevalenţa, aflăm numărul de bolnavi (a+c) şi de sănătoşi (b+d)
(dacă prevalenţa ar fi de 5%, atunci numărul de bolnavi este 50, iar cel de sănătoşi este
Tabelul XIX.4: Calculul valorilor predictive ale unui test cunoscând prevalenţa, sensibilitatea şi
specificitatea

B O A L Ă TOTAL
PREZENTĂ ABSENTĂ

TEST POZITIV a b a+b

DIAGNOSTIC NEGATIV c d c+d

a+c b+d a+b+c+d

103
(metoda retrocalculării)
(a=real pozitivi; b=fals pozitivi; c=fals negativi; d=real negativi)
Cunoaştem:
Probabilitatea pretest (prevalenţa) = (a+c)/(a+b+c+d) = 5%
Sn = a/(a+c) = 0,95; Sp = d/(b+d) = 0,90
Nu cunoaştem:
VPP = a/(a+b); VPN = d/(c+d)

Tabelul XIX.5: Retrocalcularea valorilor din tabelul de contingenţă, pentru adaptarea valorilor predictive
ale testului la altă valoare a prevalenţei

B O A L Ă TOTAL
PREZENTĂ ABSENTĂ

TEST POZITIV 47 95 142

DIAGNOSTIC NEGATIV 3 855 858

50 950 1000

(a=real pozitivi; b=fals pozitivi; c=fals negativi; d=real negativi)


VPP = 0,33; VPN = 0,997.

950). Mai departe, ştiind sensibilitatea= 0,95, calculăm numărul de real pozitivi
(50x0,95=47,5, rotunjit 47) şi pe cel de fals negativi (50-47=3), iar ştiind specificitatea=
0,90, calculăm numărul de real negativi (950x0,90=855) şi pe cel de fals pozitivi (950-
855=95). De aici, având completate toate căsuţele tabelului de contingenţă, lucrurile
sunt foarte simple: VPP = 47/142 = 0,33, iar VPN = 855/858 = 0,997.
Îngrijirea pacienţilor implică multe predicţii şi estimări. Tradiţional, ne bazăm aceste
predicţii şi estimări pe raţionamentul nostru combinat cu experienţa clinică, însă din
păcate aceasta din urmă poate da de multe ori greş, şi asta pentru că nu prea suntem în
stare să observăm într-un mod imparţial şi sistematic, ci avem tendinţa de a da mai
multă atenţie lucrurilor noi, neobişnuite sau interesante.
Astfel, experienţa personală câştigată cu nişte pacienţi poate fi înşelătoare; cu toţii ştim
că o singură experienţă nefericită poate afecta definitiv modul de practică al
clinicianului, chiar dacă acea experienţă a fost o excepţie, iar un succes terapeutic la un
pacient ne poate face uşor să credem că tratamentul va avea acelaşi succes şi la
pacientul următor. Experienţa din facultate şi rezidenţiat, de obicei căpătată în clinici de
îngrijire secundară şi terţiară ne supraexpune la bolile şi evoluţiile rare şi ciudate,
făcându-ne să supraestimăm prevalenţa lor.
Apariţia unei informaţii – într-un articol recent sau o prezentare de caz – creşte, de
asemenea, sensibilitatea nostră la un anumit diagnostic, şi creşte probabilitatea să
punem şi noi – corect sau nu – acest diagnostic la pacienţii care urmează. În sfârşit – dar
nu la urmă – părerile colegilor şi informaţiile din tratate se pot baza, de asemenea, mai
degrabă pe cazuri anecdotice decât pe informaţii corecte privind prevalenţa unei boli sau
incidenţa unui efect (adică riscul!). Aceste erori – mai sunt şi altele – ne limitează
capacitatea de a pune un diagnostic sau estima un prognostic corecte pentru pacienţii
noştri. Iată, aşadar, de ce este atât de importantă teorema lui Bayes!
Pentru a creşte acurateţea diagnosticlui şi prognosticului, putem folosi regulile de
predicţie clinică, care folosesc experienţa unui grup de clinicieni cu sute ori chiar mii

104
de pacienţi, şi apar prin distilarea acestei experienţe într-o simplă – sau mai complicată
– regulă. Au fost dezvoltate deja sute de reguli de predicţie clinică, iar multe dintre ele
au fost deja validate (scorul Wells pentru tromboza venoasă profundă, scorul pentru
angina streptococică, scorul CAGE pentru alcoolism, cel pentru testul ECG de efort şi
multe altele). Din păcate, de multe ori este dificil să le găsim în literatură, deoarece nu
sunt indexate specific.
Putem căuta reguli de predicţie clinică în Clinical Queries de pe MEDLINE (Capitolul
II. Informaţia medicală) – ecranul este prezentat în Figura XIX.1.

Figura XIX.1. Regulile de predicţie clinică se pot căuta din Clinical Queries, pe MEDLINE – Pub Med8.

Din păcate, după cum veţi observa la eventualele căutări, rezultatele nu sunt specifice de
loc.
Mark Ebell, profesor asociat la Departamentul de Medicină de Familie de la
Universitatea de Stat Michigan şi fost editor la Journal of Family Practice şi Evidence-
based Practice, a scris întâi o carte9 însoţită de un CD-ROM ce conţinea programul
InfoRetriever - o bază de date cu articole valide metodologic, ghiduri de practică,
abstracte de sinteze Cochrane şi POEM-uri (Patient Oriented Evidence that Matters).
Până în urmă cu câteva luni, de când BMJ a dezvoltat împreună cu Universitatea
canadiană McMaster bmjupdates10, în fiecare număr din BMJ apărea un POEM. După
ce InfoRetriever/InfoPOEMS11 s-a dezvoltat, anul trecut a fst cumpărat de Wiley&Sons
care deţine, printre multe publicaţii, şi librăria Cochrane. InfoRetriever are o colecţie
impresionantă de reguli de predicţie clinică pe care, dat fiind că există şi varianta pentru
PDA, le putem folosi pentru a calcula riscurile şi probabilităţile diagnostice sau
prognostice chiar la patul pacientului (fiind furnizate studiul în care au fost dezvoltate
şi/sau validate şi nivelul dovezii pentru a putea evalua validitatea studiului respectiv).

105
Figura XIX.2. InfoRetriever – regula de predicţie clinică a trombozei venoase profunde dezvoltată de
Wells12 şi validată de mulţi autori, la diverse nivele de îngrijire.

Bibliografie
1. Băicuş C. Dicţionar de epidemiologie clinică şi medicină bazată pe dovezi. Editura
Medicală, Bucureşti 2002, p.15-16.
2. Straus SE, Richardson WS, Glasziou P, Haynes RB. Evidence-based medicine. How
to practice and teach EBM. 3rd Edition, Churchill-Livingstone, Toronto 2005; p.83-84.
3. Cash JM, Sears DA. The anemia of chronic disease: spectrum of associated diseases
in a series of unselected hospitalized patients. Am J Med. 1989; 87: 638-44.
4. Kroenke K, Lucas CA, Rosenberg ML et al. Causes of persistent dizziness. A
prospective study of 100 patients in ambulatory care. Ann Intern Med. 1992; 117:898-
904.
5. DePaso WJ, Winterbauer RH, Lusk JA, Dreis DF, Springmeyer SC. Chronic dyspnea
unexplained by history, physical examination, chest roentgenogram, and spirometry.
Analysis of a seven-year experience. Chest. 1991 Nov;100(5):1293-9.
6. Weber BE, Kapoor WN. Evaluation and outcomes of patients with palpitations. Am J
Med. 1996; 100:138-48.
7. Spencer-Green G. Outcomes in primary Raynaud phenomenon: a meta-analysis of
the frequency, rates, and predictors of transition to secondary diseases. Arch Intern Med.
1998; 158:595-600.
8. http://www.ncbi.nlm.nih.gov/entrez/query/static/clinical.shtml
9. Ebell HE. Evidence-based diagnosis. A handbook of clinical prediction rules.
Springer, New York 2001.
10. www.bmjupdates.com
11. www.infopoems.com
12. Wells PS, Anderson DR, Rodger M, et al. Evaluation of d-dimer in the diagnosis of
suspected deep vein thrombosis. N Engl J Med. 2003; 349: 1227-35.

106
XX. Parametrii unui test diagnostic (II): raportul de probabilitate.

Şi pentru că toate noţiunile de până acum privind testele diagnostice (sensibilitate,


specificitate, curba ROC, probabilitate pretest, valoare predictivă pozitivă, valoare
predicitivă negativă, probabilitate posttest, teorema lui Bayes) nu sunt deajuns, m-am
gândit să mai introduc una: raportul de probabilitate (likelihood ratio). De ce? Pur şi
simplu, pentru că în orice carte de medicină bazată pe dovezi el există, şi după cum am
văzut în Capitolul XVII, furnizarea lui sau a datelor din care el poate fi calculat este un
criteriu de validitate a studiilor privind testele diagnostice.
Raportul de probabilitate pentru un test pozitiv (positive likelihood ratio, LR+) este
raportul dintre probabilitatea ca testul respectiv să iasă pozitiv la bolnav şi probabilitatea
ca testul să iasă pozitiv la sănătos, adică raportul dintre sensibilitate şi rata fals
pozitivilor, ultima dintre ele fiind complementul specificităţii [LR+ = Sn / (1-Sp)].
Raportul de probabilitate pentru un test negativ (negative likelihood ratio, lr-) este
raportul dintre probabilitatea ca testul să iasă negativ la sănătos şi probabilitatea ca
acesta să iasă negativ la bolnav, adică raportul dintre specificitate şi rata fals negativilor,
aceasta din urmă fiind complementul sensibilităţii [lr- = Sp / (1-Sn)] – toate formulele
sunt date şi în subsolul Tabelului XVIII.2.
De fapt, el este important pentru că aduce mai multe avantaje faţă de ceilalţi parametri
ai testelor diagnostice prezentaţi până acum, avantaje care rezultă din caracteristicile lor:
1. Fiind calculate din sensibilitatea şi specificitatea testului, ca şi acestea, nu se
modifică odată cu prevalenţa (probabilitatea pretest) a bolii ţintă.
2. Pot fi calculate pe mai multe nivele ale semnului, simptomului sau testului de
laborator, şi nu numai pe două (pozitiv/negativ); acest lucru le face mai stabile chiar
decât sensibilitatea şi specificitatea la modificările prevalenţei.
3. Ştiind probabilitatea pretest (prevalenţa), se ajunge uşor la probabilitatea posttest.
4. Se poate calcula uşor probabilitatea posttest după o secvenţa de teste diagnostice.
Dintre toate, cel mai important mi se pare faptul că pot fi calculate pe mai multe nivele
ale testului. Pentru că dacă stabilim o valoare de prag dincolo de care testul este
considerat pozitiv, una este ca el să aibă valoarea imediat peste valoarea de prag (la
limita pozitivităţii) şi alta să aibă o valoare mult mai mare. Pentru orice test, valorea de
prag nu etste decât o negociere între sensibilitate şi specificitate, nu este ceva absolut;
cu cât rezultatul testului are o valoare mai mare, cu atât creşte probabilitatea bolii
respective, şi cu cât are o valoare mai mică, cu atât scade probabilitatea posttest.
Am prezentat curba ROC pentru valoarea CK în infarctul miocardic acut (Figura
XVIII.1). Se vede acolo că valoarea CK de 80 u/l, fiind cea mai apropiată de colţul din
stânga sus, reprezintă echilibrul cel mai bun între sensibilitate (94%) şi specificitate
(89%); este posibil, însă, să dorim o sensibilitate mai bună, şi atunci alegem valoarea de
prag 40 u/l (Sn=99%, dar Sp scade la 68%) sau o specificitate mai bună, şi atunci
alegem valoarea de prag 280 u/l (Sp creşte la 99%, dar Sn scade la 43%). Ca să profităm
de toate cele trei valori de prag, calculăm LR pe intervale de CK şi găsim valorile din
Tabelul XX.1 (preluat din 1).
Cum interpretăm valorile LR?
 LR >10 sau < 0.1 generează modificări mari, decisive de la probabilitatea pre- la
posttest; pot fi considerate ca echivalente ale SpPin şi SnNout (se poate pune –
pentru LR >10 - sau exclude – pentru LR< 0.1 - diagnosticul2).
 LR de 5-10 şi 0,1-0,2 generează modificări moderate ale probabilităţii;
 LR de 2-5 si 0,5-0,2 generează modificări mici (dar uneori importante) ale
probabilităţii;

107
 LR de 1-2 and 0,5-1 modifică probabilitatea într-un grad foarte mic (şi rareori
important).
Valorile subunitare ale LR sunt, de fapt, lr- (rapoartele de probabilitate atunci când
testul este negativ), care scad probabilitatea posttest.

Tabelul XX.1. Rapoartele de probabilitate pentru diferite nivele ale CK în infarctul miocardic acut 1.

CK (u/l) LR

 280 55

80-279 4,4

40-79 0,3

1-39 0,01

Pentru a folosi LR în calculul probabilităţilor, trebuie de fapt să lucrăm cu cotele (odds).


În primul rând trebuie să transformăm probabilitatea pretest = prevalenţa în cota pretest,
după formul cota = probabilitatea de a avea boala / probabilitatea de a nu avea boala =
prevalenţa / (1-prevalenţa). Cota posttest = cota pretest x LR, şi de aici trecem din nou
la probabilitate după formula probabilitatea = cota / (cota+1). Dacă aplicăm mai multe
teste, înmulţim succesiv cota pretest iniţială cu LR fiecărui test, după care cota posttest
finală o reconvertim în probabilitate posttest. De exemplu, într-o secţie de medicină
internă din Bucureşti, prevalenţa cancerului printre pacienţii cu scădere ponderală
involuntară a fost de 24%3. Să presupunem că un pacient are 63 de ani, hemoglobina
9,3g% şi VSH 57 mm/h. Pentru fiecare dintre rezultatele acestor teste, LR au fost de
1,55, 2,83, respectiv 2,23. Cota pretest este 0,24/(1-0,24) = 0,34, iar cota posttest este
0,34 x 1,55 x 2,83 x 2,23 = 3,32, pe care o reconvertim în probabilitate: probabilitatea
posttest a pacientului respectiv este 3,32/(1+3,32) = 0,77, adică de 77%. Vedem astfel
cum testele care individual nu aveau mare valoare în diagnosticul cancerului (cel mai
mare LR de 2,83), aplicate împreună cresc probabilitatea de cancer de la 24% la 77%!

Bibliografie
1. Sacket DL, Haynes RB, Guyatt GH, Tugwell P. Clinical epidemiology. A basic
science for clinical medicine. 2nd edition, Little, Brown. Toronto, 1991. p.122.
2. Ebell HE. Evidence-based diagnosis. A handbook of clinical prediction rules.
Springer, New York 2001, p.7.
3. Baicus C, Ionescu R, Tanasescu C. Does this patient have cancer? The assessment of
age, anemia, and erythrocyte sedimentation rate in cancer as a cause of weight loss. A
retrospective study based on a secondary care university hospital in Romania. Eur J
Intern Med. 2006; 17:28-31.

108
XXI. Studiile diagnostice – ierarhia dovezii

Nivelul dovezii cu gradele de recomandare sunt foarte cunoscute la studiile terapeutice


– chiar dacă variază foarte mult, de la un organism/societate care face clasificările la
alta, ducând la numeroase confuzii deoarece sunt notate ba unele cu cifre şi celelalte cu
litere, ba invers - principiul este acelaşi, cu cât studiul este mai valid nivelul dovezii
este mai bun, şi de aici şi recomandarea este mai clară.
Acelaşi principiu este folosit şi pentru studiile diagnostice, şi cum în acest domeniu nu
există înghesuiala pe care o întâlnim la terapie – nici la nivelul studiilor primare, nici la
interpretări şi clasificări – lucrurile sunt mai simple, neexistând decât clasificarea
propusă de Centrul pentru Medicină Bazată pe Dovezi de la Oxford* (unde regăsim,
însă, omniprezent şi neobosit, acelaşi nucleu de la Universitatea canadiană McMaster).

Tabelul XXI.1. Studiile diagnostice – nivelul dovezii conform Centrului de Medicină Bazată pe Dovezi
Oxford
Nivel Studii Recomandare
† ‡ §
1a SR (omogene ) ale unor studii diagnostice de nivelul 1; RPC
derivate din studii 1b din mai multe centre clinice.
1b Studiu de cohortă de validare ** cu gold standard bun††; sau RPC§§§§
A
testate într-un singur centru.
1c SpPin şi SnNout absolute‡‡
2a SR†††† (omogene‡‡‡‡) ale unor studii diagnostice de nivelul >2.
2b Studiu de cohortă explorator***** cu standard bun†††††; RPC§§§§
nevalidate, sau validate în cadrul studiului explorator, prin divizarea
B
eşantionului sau a bazei de date§§.
3a SR (omogene) din studii 3b.
3b Studii în care pacienţii nu au fost înrolaţi consecutiv; sau standardul
nu a fost aplicat de fiecare dată.
4 Studiu caz-martor, gold standard slab sau neindependent C
5 Opinia expertului, sau bazată pe cercetarea preclinică. D

*
www.cebm.net

Systematic Review (sinteză sistematică)

Omogenitate înseamnă lipsa variaţiilor mari ale rezultatelor de la un studiu la altul. Cele cu astfel de
variaţii (heterogene) vor avea un "-" la sfârşitul nivelului desemnat.
§
Regulă de Predicţie Clinică (algoritmuri sau scoruri care duc la estimări prognostice sau diagnostice –
vezi capitolul anterior).
**
Studiile de validare testează calitatea unui test diagnostic sau reguli de predicţie clinică dezvoltate
anterior cu ocazia unui studiu diagnostic explorator. Un studiu explorator colectează informaţia şi
analizează datele (de exemplu folosind regresia logistică) pentru a descoperi care factori sunt
'semnificativi'.
††
Un gold standard (standard de referinţă) bun este independent de test şi aplicat orb la toţi pacienţii. Un
gold standard slab este aplicat aleator, dar încă este independent de testul diagnostic studiat. Dacă acesta
nu este independent de testul studiat ( 'testul' este inclus în 'gold standard', sau 'testarea' influenţează
'standardul') implică un studiu de nivel 4 (pentru detalii vezi Capitolul XVII. Evaluarea testelor
diagnostice: criterii de validitate).
‡‡
Un "SpPin absolut" apare atunci când Specificitatea testului este atât de mare, încât un rezultat pozitiv
pune diagnosticul, iar un "SnNout absolut" apare atunci când Sensibilitatea este atât de mare, încât un
rezultat negativ exclude diagnosticul.
§§
Validarea prin divizare se face colectând toată informaţia odată, iar apoi împărţind artificial baza de
date într-un eşantion din care derivă şi unul în care se validează regula de predicţie clinică.

109
Studiile clinice randomizate
Studiile diagnostice prezentate mai sus evaluează cât de bine se descurcă un test în
punerea diagnosticului. Diagnosticul, însă, nu este decât un alt efect surogat, care ne
interesează numai în măsura în care ne închipuim că, întotdeauna, dacă punem
diagnosticul mai bine sau mai repede, pacientul va trăi mai mult sau mai bine, acestea
fiind adevăratele efecte “hard”, care ne interesează.
Ca să aflăm acest lucru (în ce măsură un test diagnostic contribuie la prelungirea vieţii
sau la îmbunătăţirea calităţii vieţii pacientului la care îl folosim), soluţia este, până la
urmă, tot un RCT, care este de fapt tipul cel mai valid de studiu şi în evaluarea unei
tehnici diagnostice.

Figura XXI.1. Diagrama unui RCT pentru evaluarea unui test diagnostic

Eşantion de pacienţi

randomizare

Test diagnostic nou, de Îngrijirea clasică (diagnostic,


evaluat tratament), fără testul
diagnostic nou

Tratament conform
rezultatului testului

Efect Efect
(supravieţuire, calitatea vieţii) (supravieţuire, calitatea vieţii)

Am văzut în Capitolul XVII că, dacă nu avem un gold standard perfect (cu sensibilitate
şi specificitate 100%, cum ar trebui să fie), iar noul test dianostic este mai bun decât
gold standardul cu care îl comparăm, prin natura studiilor diagnostice, noul test va
apărea ca fiind mai slab calitativ decât gold standardul. Pe de altă parte, chiar dacă testul
este bun, nu ştim dacă îmbunătăţeşte într-adevăr îngrijirea pacienţilor - şi asta se
întâmplă mai ales în cazul testelor screening, în care ne lovim de erorile sistematice
specifice legate de timp: lead time bias şi length time bias. Primul tip de eroare apare
când boala (cancerul) este diagnosticată mai devreme, dar pacientul decedează la fel ca
şi înainte, dându-se impresia de supravieţuire mai lungă numai pentru că diagnosticul a
fost pus mai devreme (de fapt, pacientul a supravieţuit mai mult timp cu diagnosticul
pus!) (Figura XXI.2). Al doilea tip de eroare apare pentru că evoluţia şi rata de dublare a
masei tumorale este diferită de la un pacient la altul, chiar şi în cazul aceluiaşi tip

110
histologic de cancer. Implicit, la cancerele cu evoluţie lungă, perioada subclinică este
lungă, permiţînd testului screening să pună diagnosticul, după care urmează şi o
perioadă clinică lungă, iar pacientul pare să supravieţuiască mult mai mult (de fapt chiar
supravieţuieşte, dar aşa este evoluţia naturală a cancerului său, nu are nici o legătură cu
diagnosticul pus de testul screening). La pacienţii care au un cancer cu evoluţie rapidă,
perioada subclinică este foarte scurtă, nepermiţînd testului screening să pună
diagnosticul înaintea diagnosticului clinic, după care urmează şi o evoluţie clinică
scurtă, ducând la concluzia greşită că, deoarece nu s-a efectuat testul screening la timp,
pacientul a decedat mult mai repede (Figura XXI.3).

Figura XXI.2. Pacientul nu supravieţuieşte mai mult, ci doar este diagnosticat mai devreme (lead time
bias).

BOALĂ SUBCLINICĂ DIAGNOSTIC CLINIC DECES

Test screening SUPRAVIEŢUIRE

S U P R A V I E Ţ U I R E

Figura XXI.3. Testele screening relevă cancerele cu o evoluţie mai lentă (A). Pacientul A oricum ar fi
trăit mai mult. La pacientul B, la care evoluţia cancerului este mai rapidă, şi faza subclinică este mai
rapidă, deci diagnosticul prin test screening nu poate fi făcut mai devreme de momentul în care boala
devine aparentă clinic. Şi atunci, cum testele screening pun diagnosticul precoce numai la pacienţii care
oricum au o evoluţie lentă (A), apare falsa impresie de prelungire a supravieţuirii (length time bias).

A Debutul bolii Diagnostic Deces


clinic

B Debutul bolii Diagnostic Deces


clinic

Cel mai bun exemplu al primului tip de eroare este utilizarea antigenului specific
prostatic (PSA) în screeningul cancerului de prostată. Un studiu suedez 1 început înainte
de apariţia PSA arată că, după diagnosticul clinic al cancerului de prostată, fie îl tratăm
chirurgical, fie stăm şi ne uităm (watchful waiting), nu apar diferenţe în mortalitatea
generală sau calitatea vieţii şi se îmbunătăţeşte foarte puţin mortalitatea datorată bolii, la
opt ani. PSA utilizat ca screening este posibil să grăbească diagnosticul cancerului de
prostată cu cel puţin 4 ani2, şi atunci ne punem pe bună dreptate întrebarea la ce ne-ar
folosi tratamentul acestor pacienţi, dacă oricum nu ar fi mare diferenţă între
prostatectomie radicală şi simpla urmărire la 12 de ani (4+8)? De altfel, acest lucru pare
confirmat de primele studii3.
Există RCT-uri care evaluează teste diagnostice (de fapt, sunt RCT care privesc
managementul bolii în general), şi am să dau doar două exemple. Două studii care au
arătat că dozarea procalcitoninei la pacienţii cu BPCO acutizată duce la scăderea la
jumătate a consumului de antibiotice, fără să afecteze durata spitalizării, mortalitatea,
calitatea vieţii sau durata până la următoarea acutizare4, 5 - nici nu ne-a interesat
acurateţea procalcitoninei ca test diagnostic!

111
Alt exemplu, nenumăratele studii care decid managementul dispepsiei pe baza prezenţei
sau nu a microbului Helicobacter pylori, fără a ne mai interesa care este boala sau
aplicarea vreunui gold standard6, 7, 8, 9.

Bibliografie
1. Holmberg L, Bill-Axelson A, Helgesen F, et al. A randomized trial comparing radical
prostatectomy with watchful waiting in early prostate cancer. N Engl M Med 2002; 347
781-9.
2. Gann PH, Hennekens CH, Stampfer MJ. A prospective evaluation of plasma prostate-
specific antigen for detection of prostatic cancer. JAMA 1995;273: 289-94.
3. Coldman AJ, Phillips N, Pickles TA. Trends in prostate cancer incidence and
mortality: an analysis of mortality change by screening intensity. CMAJ 2003; 168:31-
5.
4. Christ-Crain M, Jaccard-Stolz D, Bingisser R, et al. Effect of procalcitonin-guided
treatment on antibiotic use and outcome in lower respiratory tract infections: cluster-
randomised, single-blinded intervention trial. Lancet 2004; 363:600-07.
5. Stolz D, Christ-Crain M, Bingisser R, et al. Antibiotic treatment of exacerbations of
COPD: a randomized, controlled trial comparing procalcitonin-guidance with standard
therapy. Chest 2007;131:9-19.
6. Lassen AT, Pedersen FM, Bytzer P, de Muckadell OBS. Helicobacter pylori test-and-
eradicate versus prompt endoscopy for management of dyspeptic patients: a randomised
trial. Lancet 2000;356:455-60.
7. Chiba N, van Zanten SJ, Sinclair P, Ferguson RA, Escobedo S, Grace E. Treating
Helicobacter pylori infection in primary care patients with uninvestigated dyspepsia: the
Canadian adult dyspepsia empiric treatment - Helicobacter pylori positive (CADET-Hp)
randomised controlled trial. BMJ 2002;324:1012-6.
8. Lassen AT, Hallas J, Schaffalitzky de Muckadell OB. Helicobacter pylori test and
eradicate versus prompt endoscopy for management of dyspeptic patients: 6.7 year
follow-up of a randomsed trial. Gut 2004; 53: 1758-63.
9. Jarbol DE, Kragstrup J, Stovring H, Havelund T, Schaffalitzky de Muckadell OB.
Proton pump inhibitor or testing for Helicobacter pylori as the first step for patients
presenting with dyspepsia? A cluster randomized trial. Am J Gastroenterol
2006;101:1200-1208.

112
XXII. Evaluarea prognosticului

Atunci când oamenii se îmbolnăvesc, au o mulţime de întrebări despre viitor: boala este
periculoasă? Ar putea muri? Dacă se va întâmpla asta – în cât timp? Cum va modifica
riscul un tratament sau altul? Şi multe altele. Cei mai mulţi pacienţi şi familiile lor vor
să ştie la ce să se aştepte şi în cât timp.
Aşadar, prognosticul se referă la rezultatele posibile ale unei boli şi la frecvenţele cu
care acestea sunt aşteptate să apară, şi are un aspect calitativ (ce se poate întâmpla?) şi
unul temporal (după cât timp?).
Studiile prognostice sunt similare celor etiologice, fiind în primul rând studii de cohortă,
numai că pacienţii intră în studiu când deja au boala şi sunt urmăriţi un timp suficient de
lung pentru ca efectul (deces, vindecare, complicaţie) să apară. Se caută asocieri între
anumiţi factori – ce se vor numi factori prognostici – şi apariţia respectivelor efecte. De
asemenea, studiile prognostice sunt într-un fel similare celor diagnostice, numai că în
timp ce primele evaluează testele care fac diferenţa între cei care au şi cei care nu au
boala, cele prognostice sugerează factori care disting între pacienţii la risc crescut sau
scăzut pentru un deznodământ sau efect advers. Cu toate acestea, studiile prognostice
sunt suficient de diferite atât de cele etiologice, cât şi de cele diagnostice, pentru a avea
criterii separate de evaluare.
Un factor de risc este reprezentat de orice condiţie care poate fi descrisă şi dovedită că
se asociază apariţiei unei anumite boli cu o frecvenţă superioară celei aşteptate.
Factorii prognostici sunt analogi celor de risc, numai că în timp ce ultimii sunt studiaţi
la indivizi sănătoşi, căutând asocierea lor cu apariţia bolii, cei de risc sunt studiaţi la
indivizi deja bolnavi, căutând asocierea lor cu prognosticul bolii. Altă diferenţă care
există între factorii de risc şi cei prognostici este aceea că, în timp ce la primii ne
interesează relaţia de cauzalitate (doar studiul se numeşte “etiologic”), la factorii
prognostici nu ne interesează decât asocierea statistică: atâta timp cât ei prezic un
prognostic, nu ne interesează şi dacă ei îşi aduc sau nu contribuţia cu ceva la acesta (este
valabil, bineînţeles, dacă îi folosim numai pentru predicţia prognosticului; atunci când
ne punem întrebarea dacă nu cumva, influenţându-i, putem modifica prognosticul,
relaţia de cauzalitate începe să ne intereseze).
Figura XXII.1. Relaţia dintre boală, factorii de risc şi factorii prognostici.

FACTOR DE RISC
SĂNĂTOS BOLNAV
FACTOR PROGNOSTIC
DEZNODĂMÂNT
O altă diferenţă între studiile etiologice şi cele prognostice este frecvenţa evenimentelor:
incidenţele diferitelor boli sunt de ordinul a 1/1000 - 1/100.000 sau chiar mai puţin, iar
relaţia dintre expunere şi boală este dificil de confirmat în activităţile zilnice. Studiile
prognostice descriu evenimente mai frecvente şi care pot surveni după un timp nu prea
lung, şi astfel clinicienii pot estima prognosticul pe termen scurt destul de corect,
pornind de la experienţa personală – de studii au nevoie mai ales pentru a vedea care
sunt factorii legaţi de prognosticul pe termen mai lung, sau pentru a descurca modul
complex în care factorii prognostici interacţionează .
Factorii prognostici mai pot fi evidenţiaţi şi de studii caz-martor, doar că aceste studii
nu pot oferi informaţii cu privire la incidenţa efectelor.

113
De asemenea, atunci când studiem modificarea prognosticului de către un tratament,
putem utiliza un studiu clinic randomizat (RCT).
Criteriile de validitate
Pentru a evalua validitatea unui studiu prognostic, trebuie să ne răspundem la întrebările
următoare1, 2, 3:
1. A fost eşantionul reprezentativ?
Ideal, studiile prognostice, ca şi cele etiologice, ar trebui făcute pe populaţia tuturor
indivizilor care au boala al cărei prognostic îl studiem (de exemplu, toţi cei cu boala
dintr-o regiune). Numai astfel putem fi siguri că pacienţii descrişi sunt un eşantion lipsit
de erori sistematice de selecţie4. Acest lucru este posibil numai în ţările în care există
registre medicale naţionale (de exemplu, în două studii olandeze au fost selecţionaţi toţi
indivizii din ţară la care apărea boala într-o perioadă de timp, după care aceştia au fost
urmăriţi5, 6).
Totuşi, cele mai multe studii despre prognostic se bizuie pe eşantioane clinice, şi atunci
condiţia esenţială este ca pacienţii să fie incluşi consecutiv (şi nu pe sărite), pe măsură
ce se prezintă la centrele participante la studiu şi se vede că întrunesc criteriile de
includere. Oricum, trebuie descrise în detaliu caracteristicile pacienţilor (vârstă,
severitatea bolii, comorbidităţi, adică toate variabilele care ar putea constitui factori
prognostici), ca şi locul unde (îngrijire primară, secundară etc.) şi cum au fost
selecţionaţi, iar mai apoi diagnosticaţi (toţi trebuie diagnosticaţi în acelaşi fel). Aceste
informaţii sunt foarte utile pentru generalizarea rezultatelor, ca şi pentru a vedea dacă
rezultatele acelui studiu sunt aplicabile pacientului nostru.
Important este să vedem dacă pacienţii au trecut prin vreun filtru înainte de a fi incluşi
în studiu – dacă da, sunt şanse mari ca eşantionul să nu fie reprezentativ. Un astfel de
filtru este reprezentat de trimiterea pacientului de la centrele de referinţă primară
(cabinetul medicului de familie) către cele de referinţă terţiară (clinici universitare
specializate), acestea din urmă îngrijind mai ales pacienţi mai gravi sau cu afecţiuni mai
rare. Cercetările asupra prognosticului în centrele terţiare nu sunt valabile de cele mai
multe ori pentru pacientul normal din populaţie – de exemplu, riscul de recurenţă a
convulsiilor febrile este mult mai mare la copiii din centrele terţiare (până la 77%) decât
în studiile populaţionale (1,5-4,6%)7, deoarece aceia din clinicile universitare au drept
substrat al convulsiilor boli neurologice grave. Pentru a putea “ghici” prognosticul
pacientului nostru, trebuie să ştim cât de similar este acesta pacienţilor dintr-un studiu
sau altul.
2. Au fost pacienţii incluşi suficient de omogeni în privinţa prognosticului?
În primul rând, pacienţii trebuie incluşi într-un moment similar în evoluţia bolii.
Cohortele din studiile prognostice încep de la un punct în timp, numit momentul zero.
Acest moment trebuie specificat clar şi să fie acelaşi, bine definit, cum ar fi momentul
apariţiei simptomelor, momentul diagnosticului, sau începutul tratamentului pentru toţi
pacienţii din cohortă. Dacă observarea este începută în momente diferite de-a lungul
evoluţiei bolii pentru participanţii la studiu, descrierea prognosticului va fi lipsită de
precizie. Astfel, dacă de exemplu includem într-un studiu privind prognosticul
bolnavilor cu hepatită C pacienţi care fac hepatită acută (aşadar aproape de momentul
infecţiei), pacienţi a căror hepatită este diagnosticată întâmplător (transaminaze crescute
în analize efectuate cu diverse ocazii), şi pacienţi care se prezintă la spital pentru ciroză
hepatică decompensată, prognosticul acestor grupe de pacienţi va fi foarte diferit!
Pacienţii cu cancer pulmonar sunt diagnosticaţi într-un stadiu care depinde de
sensibilitatea testelor diagnostice utilizate. Feinstein a observat, comparând două
cohorte de pacienţi cu cancer pulmonar, una mai veche cu circa douăzeci de ani decât

114
următoarea, cum prognosticul cancerului pulmonar s-a îmbunătăţit8. Evaluând cele două
studii se constată că, de fapt, din cauza îmbunătăţirii tehnicilor diagnostice care au
început să descopere cancerul mai devreme, pacienţii păreau numai să trăiască mai mult
– momentul zero era mutat mai devreme (aceasta este una dintre erorile sistematice
întâlnite în evaluarea tehnicilor de screening, cel mai bun exemplu fiind dozarea PSA
pentru cancerul de prostată).
Ideal ar fi ca momentul 0 să fie chiar momentul debutului bolii, iar în acest caz vorbim
de o cohortă iniţială (inception cohort).
Odată ce ne-am asigurat că pacienţii sunt incluşi într-un moment similar, trebuie să
vedem care este distribuţia celorlalţi factori prognostici; cum majoritatea studiilor sunt
observaţionale şi nu experimentale (cu alocare randomizată), atunci când vrem să
vedem cât de important este un anume factor pentru prognostic, trebuie să ajustăm
pentru ceilalţi, iar pentru aceasta toţi ceilalţi trebuie măsuraţi (vezi Analiza
multivariată din Capitolul IV. Tipurile de variabile şi testele statistice). (Bineînţeles,
putem ajusta numai pentru factorii pe care îi ştim, nu şi pentru cei care nu s-au
descoperit încă). De exemplu, în studiul Framingham9, incidenţa accidentului vascular
cerebral la pacienţii cu fibrilaţie atrială şi valvulopatie reumatismală a fost de 41/1000
persoane-ani, la fel ca şi la pacienţii cu fibrilaţie atrială fără valvulopatie reumatismală;
cum însă pacienţii cu valvulopatie reumatismală erau mult mai tineri, după ajustarea
riscului cu vârsta a rezultat că, de fapt, riscul de accidente vasculare embolice a fost de
şase ori mai mare în prezenţa valvulopatiei reumatismale decât în absenţa ei. Atunci
când sunt luaţi în considerare, concomitent, mai mulţi factori prognostici, se pot
construi reguli de predicţie (clinică), cu ajutorul regresiei logistice, una dintre tehnicile
de analiză multivariată (vezi şi Reguli de predicţie clinică, în Capitolul XIX).
3. A fost urmărirea suficientă?
Pacienţii trebuie urmăriţi un timp suficient de lung pentru ca efectele studiate să poată
apărea, altfel incidenţa lor va fi subestimată. Perioada necesară depinde de boală – de la
câteva zile pentru mortalitatea post-hemoragie prin ruptura varicelor esofagiene, până la
zeci de ani pentru apariţia cirozei şi/sau a complicaţiilor sale după infecţia cu virusul
hepatitei C.
Urmărire suficientă nu se referă doar la perioada de timp, ci şi la numărul de pacienţi: ca
la orice studiu de cohortă, pericolul cel mai mare constă în pierderea din vedere, şi cu
cât timpul de urmărire este mai lung, cu atât este mai greu să nu pierzi pacienţi. De
obicei, pacienţii pierduţi sunt diferiţi de ceilalţi – fie au prognostic mai bun, fie mai
prost, şi cu cât sunt mai mulţi pacienţi pierduţi, cu atât este mai mare riscul de erori
sistematice induse de aceste pierderi din vedere. De asemenea, cu cât incidenţa
evenimentelor de studiat este mai mică, cu atât mai puţini pacienţi îţi poţi permite să
pierzi, pentru a nu primejdui validitatea studiului (pentru explicaţii, vezi şi criteriile de
validitate ale RCT = A fost urmărirea completă? – Capitolul VIII). Dacă ai pierdut mai
mulţi, poţi verifica validitatea studiului făcând, ca şi la studiile terapeutice, analiza “în
cel mai rău caz” (Capitolul VIII).
4. Au fost criteriile de măsurare a efectelor obiective şi fără erori sistematice?
Efectele pot varia de la unele obiective şi uşor de măsurat (de exemplu decesul), la
altele care necesită ceva judecată (de exemplu infarctul miocardic) şi până la acelea care
necesită multă reflecţie şi sunt mai greu de măsurat (cele legate de calitatea vieţii).
Oricare ar fi ele, investigatorii trebuie să enunţe clar încă de la începutul studiului atât
efectele, cât şi modul în care vor fi ele măsurate (de preferinţă, cât mai obiectiv). Cu cât
gradul de subiectivitate al efectului creşte, cu atât este mai important ca investigatorii
care le măsoară să fie “orbi” cu privire la prezenţa/absenţa factorului prognostic.

115
Descrierea prognosticului trebuie să includă toate manifestările importante pentru
pacienţi. Aceasta nu înseamnă numai moarte sau boală, ci şi durere, anxietate şi
imposibilitatea de a-şi urma activităţile zilnice.
În eforturile lor de a fi “ştiinţifici”, medicii tind să acorde mai multă importanţă
efectelor măsurate mai precis cu mijloace tehnologice decât celor care au, uneori, mai
multă relevanţă clinică. Unele efecte clinice nu pot fi percepute direct de către pacienţi –
de exemplu, reducerea dimensiunii tumorii, normalizarea unor analize, îmbunătăţirea
fracţiei de ejecţie sau modificări serologice, care nu sunt importante clinic prin ele
însele; nu are rost să substituim aşa-numitele patient oriented end-points (efecte
importante pentru pacient) cu aceste fenomene biologice, decât dacă ele sunt clar legate
unele de celelalte (de exemplu, îmbunătăţirea scorului St. George de calitatea vieţii la
pacienţii cu BPOC este importantă din punct de vedere clinic dacă este de măcar 12
puncte, şi este abia perceptibilă clinic dacă este de 4 puncte; şi combinaţia
fluticazonă/salmeterol10, şi tiotropiul11 îmbunătăţesc acest scor cu 4 puncte în medie, din
care dacă scădem îmbunătăţirea datorată placebo, de 2 puncte, mai rămân 2 şi ne
întrebăm: au acestea vreo relevanţă pentru pacient? – vezi şi Capitolul X). Dacă un efect
măsurat nu poate fi legat direct de ceva ce pacienţii simt, informaţia nu merită folosită
pentru a ghida tratamentul, chiar dacă efectul respectiv este important pentru înţelegerea
originii şi mecanismului bolii.
Calitatea vieţii legată de starea de sănătate se măsoară prin metode variate, începând de
la scoruri simple (scale analogice vizuale de 10 puncte sau note de la 1 la 10) şi până la
altele mult mai extinse, cuantificate după interviuri ce conţin zeci de întrebări (de
exemplu Sickness Impact Profile, susnumitul chestionar St. George pentru pacienţii
respiratori sau WOMAC pentru gonartroza etc., fiecare cu peste 100 de puncte în mai
multe categorii). Trebuie subliniat că valoarea studiului prognostic este crescută atunci
când astfel de măsuri sunt raportate împreună cu alte măsuri obiective şi evidente
precum mortalitatea sau recurenţa bolii.
Analiza supravieţuirii
Rezultatele cantitative ale studiilor prognostice sunt reprezentate prin numărul de
evenimente care apar în timp, exprimate ca o incidenţă – proporţia de pacienţi care a
suferit efectul de-a lungul unei anumite perioade. Această modalitate este foarte simplă,
cifrele pot fi ţinute minte şi communicate succint. Dezavantajul lor este acela că ele
conţin mai puţină informaţie, prognostice diferite putând fi ascunse în aceeaşi cifră
(Figura XXII.2).
Durata supravieţuirii este importantă din multe puncte de vedere.
Principalul este cel clinic: când se stabileşte un diagnostic, prima întrebare pe care o
pune pacientul este “cât timp mai am de trăit”, sau “în cât timp mă fac bine”?
Sub denumirea generică de “analiza supravieţuirii” se adăposteşte orice analiză a
timpului până la un efect (outcome), care nu este neapărat moartea (ci şi infarct
miocardic, efect compozit cardiovascular, hemoragie digestivă superioară,
decompensare, recădere etc.), şi rareori poate fi şi unul bun (vindecarea). În consecinţă,
în baza de date a studiului vom avea neapărat, printre variabilele dependente (efect) şi
independente (factori de risc ori prognostici, factori de confuzie potenţiali etc.) şi o
variabilă timp.
Alt motiv este cel statistic: comparând două regimuri terapeutice numai prin efectele
cumulate la sfârşitul studiului, este posibil să nu putem evidenţia unele diferenţe.
De exemplu, evaluând efectele la sfârşitul studiului ipotetic din Figura XXII.2 nu se
observă nici o deosebire între tratamentul medical (curba albastră), cel chirurgical
(curba roşie) şi nici un tratament (curba galbenă), pe când studiul curbelor de
supravieţuire evidenţiază aceste diferenţe.

116
Analiza datelor de supravieţuire este mai complicată decât ne imaginăm. Nu putem, de
exemplu, să calculăm durate medii de supravieţuire, pe de o parte pentru că duratele de
supravieţuire par a nu avea o distribuţie Gaussiană, iar pe de altă parte pentru că nu se
poate calcula media dacă nu ştii toate duratele de supravieţuire, aşadar nu poţi analiza
datele până nu a decedat şi ultimul pacient. Ori asta nu se întâmplă de obicei în studii –
întotdeauna mai rămân pacienţi în viaţă la sfârşitul studiului. Din acest motiv, cel mai
simplu mod de a compara două curbe de supravieţuire este prin intermediul
supravieţuirii mediane (timpul până la care a decedat jumătate dintre pacienţii din
studiu), care în figura 1 sunt de 10, 7 şi 3 luni pentru fiecare dintre curbe.

Figura XXII.2. Trei curbe de supravieţuire: la sfârşitul studiului a rămas în viaţă un număr egal de
pacienţi. Se observă, totuşi, că ele sunt diferite (în cea de sus = C, supravieţuirea este bună la început,
pentru ca apoi să scadă abrupt, în cea mijlocie = B mortalitatea este constantă de-a lungul timpului, iar în
cea de jos = A mortalitatea este mare la început, pentru ca apoi panta să fie mai lină). Supravieţuirea
mediană este de 10 luni în primul caz, 7 luni în al doilea şi 3 luni în al treilea.

Curbele de supravieţuire afişează grafic supravieţuirea procentuală în funcţie de timp;


timpul 0 nu este o dată specificată din calendar, sau ziua în care a început studiul, ci este
momentul în care fiecare pacient este înrolat în studiu.
La timpul 0 toţi pacienţii sunt în viaţă, astfel că Y=100%. Apoi, decesul fiecărui pacient
este vizibil ca o treaptă în jos de-a lungul curbei. Dacă studiul (şi astfel axa X) se întinde
destul, Y poate atinge valoarea 0. Precizia stimărilor supravieţuirii scade cu timpul,
deoarece sunt din ce în ce mai puţini pacienţi sub observaţie, iar intervalele de încredere
devin din ce în ce mai largi.
Există două metode prin care se pot efectua curbe de supravieţuire: cea actuarială, în
care axa X este divizată în în intervale regulate (de ex. luni sau ani) şi supravieţuirea
este calculată pentru fiecare interval, şi metoda Kaplan-Meier, prin care supravieţuirea
este recalculată de fiecare dată când moare un pacient. Metoda din urmă este cea
preferată (înafara cazului în care lucrăm cu efective uriaşe).
Am spus mai sus că în studiile clinice este folosită compararea curbelor de
supravieţuire, în locul comparării efectelor cumulate la sfârşitul studiului şi din cauze
statistice, şi anume pentru că prima metodă conferă o putere statistică mai mare.
Dacă luăm studiul reprezentat în Figura XXII.3, putem evalua diferenţele dintre
pacienţii trataţi cu chimioterapice şi cei trataţi cu placebo în două feluri. Primul, la
sfârşitul studiului (săptămâna 60, diferenţa marcată de săgeţi), vedem câţi pacienţi au
trăit din lotul chimioterapie şi câţi din lotul placebo, punem rezultatele într-un tabel de
contingenţă 2x2 şi, printr-un test tip X2 vedem dacă diferenţa de supravieţuire dintre

117
cele două loturi a fost semnificativă statistic. Când eşantionul este prea mic şi nu putem
evidenţia diferenţe care există între tratamente, se creşte puterea statistică comparând
curbele de supravieţuire pe toată lungimea lor, printr-un test tip X2 stratificat, în care
straturile sunt diferenţele dintre curbe la nivelul fiecărei trepte. Acest test se numeşte log
rank.

Figura XXII.3. Curbele Kaplan-Meier reprezentând supravieţuirea în saptamâni cu (negru) şi fără (gri)
chimioterapie în leucemia limfatică acută (studiu ipotetic).

1,2

1,0

,8

,6

,4
Tratament
,2 placebo

0,0
chimi oterapie
-,2
0 10 20 30 40 50 60 70

Timpul (saptamani)
Când pacienţii sunt pierduţi din studiu în orice moment, din oricare alt motiv decât
efectul studiat, sunt numiţi cenzuraţi. În analiza supravieţuirii se presupune că
cenzurarea nu este legată de prognostic. În măsura în care acest lucru nu este, de fapt,
adevărat, analiza supravieţuirii poate duce la estimări eronate ale prognosticului.
Hazardul relativ (hazard ratio) este analogul riscului relativ, şi este calculat din
analiza supravieţuirii. De asemenea, curbele de supravieţuire pot fi comparate după ce s-
au luat în consideraţie şi ceilalţi factori legaţi de prognostic, astfel încât este examinat
efectul independent al unei singure variabile – practic se vede efectul acelei variabile
(factor prognostic) după ce s-a ajustat pentru celelalte, iar acest lucru se face prin
modele matematice rezultate din analiza multivariabilă, care în cazul analizei
supravieşuirii se numeşte analiza hazardului proporţional sau modelul lui Cox.
În sfârşit, rezultatele unui studiu prognostic sunt mai de încredere dacă, la fel ca şi la
studiile diagnostice, au fost validate şi pe alte cohorte din alte populaţii.
Studiile prognostice – ierarhia dovezii
Tabelul XXI.1. Studiile prognostice – nivelul dovezii conform Centrului de Medicină Bazată pe Dovezi
Oxford12

118
Nivel Studii Recomandare
* † ‡ §
1a SR (omogene ) ale unor studii de cohortă iniţială; RPC validate pe
populaţii diferite.
1b Studiu de cohortă iniţială cu urmărire> 80%; sau RPC validate pe o
A
singură populaţie.
1c Serii de cazuri “toţi sau niciunul”
2a SR (omogene) ale unor studii de cohortă retrospective sau grupuri
martor din RCT.
2b Studiu de cohortă retrospectiv sau grupul martor dintr-un RCT; RPC
B
nevalidate, sau validate în cadrul studiului explorator, prin divizarea
eşantionului sau a bazei de date**.
4 Serii de cazuri (şi studii prognostice de cohortă de calitate slabㆆ) C
5 Opinia expertului, sau bazată pe cercetarea preclinică. D

Bibliografie
1. Straus SE, WS Richardson, P Glasziou, RB Haynes. Evidence-based Medicine. How
to practice and teach EBM. 3rd Edition, Chuchill Livingstone, Oxford 2005, p.101-114.
2. Randolph A, Bucher H, Richardson WS, Wells G, Tugwell P, Guyatt G. Prognosis.
În: G Guyatt, D Rennie (Editors). User’s guides to the medical literature. A manual for
Evidence-Based Medicine. AMA Press, Chicago, 2002. p. 141-154.
3. Fletcher R, Fletcher S. Clinical epidemiology. The essentials. Lippincott
Williams&Wilkins, 4th Edition, Baltimore 2005. p. 105-124.
4. Băicuş C. Dicţionar de epidemiologie clinică şi medicină bazată pe dovezi. Editura
Medicală 2002, Bucureşti, p.31.
5. de Kleijn EM, van Lier HJ, van der Meer JW. Fever of unknown origin (FUO). II.
Diagnostic procedures in a prospective multicenter study of 167 patients. The
Netherlands FUO Study Group. Medicine (Baltimore). 1997;76:401-14.
6. Evers IM, de Valk HW, Visser GHA. Risk of complications of pregnancy in women
with type 1 diabetes: nationwide prospective study in Netherlands. BMJ 2004; 328: 915-
920.

*
Systematic Review (sinteză sistematică)

Omogenitate înseamnă lipsa variaţiilor mari ale rezultatelor de la un studiu la altul. Cele cu astfel de
variaţii (heterogene) vor avea un "-" la sfârşitul nivelului desemnat.

Regulă de Predicţie Clinică (algoritmuri sau scoruri care duc la estimări prognostice sau diagnostice –
vezi capitolul anterior).
§
Studiile de validare testează calitatea unui test diagnostic sau reguli de predicţie clinică dezvoltate
anterior cu ocazia unui studiu diagnostic explorator. Un studiu explorator colectează informaţia şi
analizează datele (de exemplu folosind regresia logistică) pentru a descoperi care factori sunt
'semnificativi'.
**
Validarea prin divizare se face colectând toată informaţia odată, iar apoi împărţind artificial baza de
date într-un eşantion din care derivă şi unul în care se validează regula de predicţie clinică.
††
Studii cu erori sistematice de eşantionare în favoarea pacienţilor care deja au suferit efectul, sau
măsurarea efectului s-a realizat în <80% dintre pacienţi, sau efectul a fost măsurat într-un mod subiectiv
(lipsa “orbirii”), sau nu s-a ajustat pentru factorii de confuzie.

119
7. Ellenberg JH, Nelson KB. Sample selection and the natural history of disease: studies
of febrile seizures. JAMA. 1980; 243:1337-1340.
8. Feinstein AR, Sosin DM, Wells CK. The Will Rogers phenomenon: Stage migration
and new diagnostic tecniques as a source of misleading statistics for suvival in cancer. N
Engl J Med 1985; 312: 1604-1608.
9. Dawbwr TR, Kannel WB, Lyell LP. An approach to longitudinal studies in a
community: the Framingham study. Ann NY Acad Sci. 1963; 107:539.
10. Calverley P, et al. Combined salmeterol and fluticasone in the treatment of chronic
obstructive pulmonary disease: a randomised controlled trial. Lancet. 2003
Feb;(9356):449-56.
11. Casaburi R et al. A long-term evaluation of once-daily inhaled tiotropium in chronic
obstructive pulmonary disease. Eur Respir J 2002; 19:217-224.
12. www.cebm.net

120
XXIII. Un punct de vedere economic

Cheltuielile pentru sănătate sunt infinite, dar bugetul este limitat, şi cu acest buget
trebuie salvate cât mai multe vieţi. Fiecare cheltuială făcută într-un domeniu duce la
diminuarea cheltuielilor într-un alt domeniu.
În toate afecţiunile, încercăm să reducem riscul la zero. Un risc zero este imposibil,
pentru că suntem, totuşi, muritori; dar ambiţia noastră ne conduce la cheltuieli din ce în
ce mai mari pentru reduceri din ce în ce mai mici ale riscului. Cu cât ne apropiem de
idealul riscului zero, cu atât cheltuim mai multe fonduri pe care le-am fi putut folosi la
prevenirea altor boli1.
În domeniul sănătăţii, termenul “cost” este indezirabil, iar includerea costurilor în
ghiduri rămâne controversată. Şi totuşi, “cost” nu înseamnă doar “bani”, ci şi “alte
tratamente pe care nu ni le putem permite dacă utilizăm resursele noastre finite pentru
un anume tratament”2.
Compensare în funcţie de eficacitate
În România, gratuitatea este oferită pentru anumite afecţiuni, în timp ce compensarea se
face în funcţie de o listă de medicamente.
Ca în multe alte ţări, toţi pacienţii care cumpără un medicament plătesc acelaşi preţ. Dar
eficacitatea acelui medicament nu este aceeaşi pentru toţi pacienţii, deoarece se ştie că
eficacitatea creşte odată cu riscul.
Aşadar, Casa de Asigurări ar putea compensa medicamentele pe paliere de risc –
începând cu compensare 100% petru pacienţii la mare risc, până la lipsa compensării
pentru pacienţii al căror risc este scăzut. De exemplu, pentru statine, gratuitate pentru
coronarieni (eventual după un prim infarct miocardic) şi nici o compensare pentru
pacienţii care au doar hipercolesterolemie; sau palierele trebuie calculate cu formula
Framingham. Este ciudat cum se dau gratuit antidiabeticele orale, când nu s-a
demonstrat deocamdată nici un efect al controlului strâns al glicemiei asupra
mortalităţii3 sau calităţii vieţii4, iar medicamentele care salvează vieţile diabeticilor
insulinoindependenţi (antihipertensivele şi statinele)5, 6, 7, 8 nu sunt decât compensate.
Statinele salvează vieţi chiar şi în prevenţie primară, la pacienţii cu colesterol normal.
Aceste medicamente devin eficiente atunci când riscul anual depăşeşte 0,6% (reducerea
relativă a riscului este de 33%). Dar dacă s-ar începe prescrierea lor la pacienţii al căror
risc anual este de 3%, 10% din bugetul pentru sănătate al Marii Britanii s-ar duce numai
pe statine9 – iar acest buget este mult mai mare decât ce al României. Astfel, Marea
Britanie nu-şi poate permite să urmeze indicaţiile propriilor ghiduri10, adică începerea
tretamentului de prevenţie cardiovasculară stunci când un pacient are un risc de 3% -
cred că România ar trebui să-şi stabilească acest prag mult mai sus, altfel pragul nu ar fi
decât teoretic, pe hârtie.
Pe de altă parte, există alte tratamente mult mai eficiente (antihipertensivele şi aspirina)
pntru reducerea acestui risc, la cer statinele adaugă un pic, cu preţul unei creşteri
dramatice a costurilor11. Am putea, în consecinţă, să ne întrebăm dacă nu merită mai
degrabă să oferim gratuit tratamentul antihipertensiv (diuretic tiazidic şi betablocantele;
nefrixul are un preţ incredibil de mic, şi totuşi este foarte puţin folosit…) şi aspirina
pentru bărbaţi, şi să nu compensăm deloc statinele.
Totuşi, tratamentul cu statine pare mai eficient decât tratamentul cu antiinflamatoare
selective COX-212 sau tratamentul cu bisfosfonaţi pentru osteoporoză (care este la modă
în România de asemenea; bineînţeles, şi bisfosfonaţii, şi antiinflamatoarele COX-2 sunt
compensate).

121
Exemplul statinelor poate fi aplicat la orice tratament – gratuitate pentru tratamentele cu
mare eficienţă, şi compensare 0% pentru cele puţin eficace. Trebuie să alegem
medicamentele de compensat de către Casa de Asigurări după o analiză cost-utilitate,
privilegiind tratamentele mai utile. Noile medicamente sunt mult mai scumpe, pentru o
reducere absolută a riscului foarte mică. Aceste tratamente cu un raport cost-eficienţă
mic trebuie să fie compensate de către sistemul privat de asigurări de sănătate sau de
bolnavul însuşi9.
Prevalenţa bolilor cadiovasculare este, în România, printre cele mai înalte din Europa.
Dar mai există cel puţin o afecţiune la noi în ţară cu o prevalenţă înaltă şi un cost enorm
petru bugetul de sănătate – hepatita cronică de etiologie virală. Oare poate suporta
bugetul tratamentul tuturor acestor bolnavi?
Când finanţatorii din Marea Britanie au hotărât, în această toamnă, să nu mai
ramburseze tratamentul împoriva demenţei în fazele incipiente, considerând că nu este
eficient, a izbucnit scandalul din partea industriei farmaceutice şi a asociaţiilor de
pacienţi/aparţinători. Oare de ce nimeni nu se gândeşte să facă scandal şi să revendice
contribuţia statului pentru a-şi putea cumpăra automobile mai sigure, cu 5 stele NCAP,
maxim de airbaguri, ABS, EBD, TRC, VSC etc.? Cred că s-ar salva mai multe vieţi –
oricum mult mai mulţi QALY (Quality Adjusted Life Years) decât cu majoritatea
tratamentelor utilizate în medicină.
Prea scump pentru ţările dezvoltate – nu destul de scump pentru România?
Este adevărat, medicamentele despre care voi vorbi sunt mult utilizate (şi compensate)
în ţările dezvoltate. Dar, cel puţin, există specialişti care fac analize economice şi care
declară că aceste medicamente sunt prea scumpe în raport cu beneficiile pe care le aduc.
Nu este cazul României. Ne plângem permanent că bugetul este prea mic pentru a plăti
investigaţii şi tratamente esenţiale, dar nimeni nu protestează atunci când medicamente
considerate prea scumpe în ţările dezvoltate se găsesc pe listele de medicamente
rambursate de către Casa de Asigurări românească.
Ajungem mereu la statine. Dar cel puţin, acestea au un efect sigur. Fibraţii, care sunt
compensaţi şi ei, mai ieftini, nu au mare efect asupra supravieţuirii.
Un alt exemplu de medicamente considerate prea scumpe în ţările dezvoltate şi
compensate de către Casa noastră de Asigurări sunt antiinflamatoarele selective COX-
213, dintre care rofecoxibul producea un infarct miocardic la fiecare 2,6 pacieţi salvaţi
de la o complicaţie a ulcerului duodenal14. Într-un studiu recent, celecoxibul nu a fost
mai eficient decât paracetamolul pentru artroză15.
Noile antidepresive, puţin mai eficiente decât placebo şi care costă sute de RON pe
lună, sunt şi ele pe lista de gratuităţi16.
Pentru clopidogrel exista un program naţional, în cadrul căruia acest medicament
beneficia de gratuitate timp de un an după un eveniment cardiovascular important; un
medicament prea scump în comparaţie cu aspirina17, asupra căreia are un avantaj clar
numai în prima lună după infarct miocardic cu sau fără intervenţie coronariană
percutană (PCI)18, 19, 20, iar în studiul care a arătat beneficiu pe termen de un an21, NNT
aproape că a egalat NNH (number needed to harm) în privinţa sângerărilor majore22.
Tratamentele pentru hepatitele virale cronice B şi C sunt finanţate prin intermediul unui
alt program naţional - noroc că nu sunt depistaţi toţi pacienţii cu aceste boli. Dacă i-am
şti, mă îndoiesc că ar mai rămâne bani şi pentru altceva decât pentru interferon!
Ghidurile de practică
Să lăsăm deoparte ghidurile româneşti – ele sunt pe cale de a se naşte. În ţările cu
tradiţie în acest domeniu, ghidurile de prectică nu iau în calcul analiza economică a

122
tratamentelor. Imediat ce un rezultat de studiu terapeutic are semnificaţie statistică,
medicamentul este inclus în ghidurile societăţii de specialitate.
Exemplele – bineînţeles, aceleaşi ca mai sus (statine, clopidogrel, inhibitori COX-2
etc.). O pildă edificatoare – utilizarea corticoizilor inhalatori în bronhopneumopatia
cronică obstructivă: mai multe RCT-uri nu au găsit nici un efect, ce excepţia studiului
ISOLDE23, care nu îndeplineşte cele mai elementare criterii de validitate; şi totuşi,
Societatea Europeană de Pneumologie atât a aşteptat ca să includă corticoterapia în
ghidurile sale privind această boală (câţiva ani mai târziu l-am înâlnit pe TRISTAN24
unde, observându-se că tratamentul combinat salmeterol/fluticazonă ameliorează
calitatea vieţii cu 4 puncte, aceasta fiind şi limita semnificaţiei clinice pentru
chestionarul St. George, autorii au uitat să scadă cele 2 puncte reprezentând ameliorarea
adusă de placebo; inutil să mai amintesc, această combinaţie, foarte scumpă, este
compensată).
Probabil că multe dintre aceste probleme se datorează specializării: în timp ce bugetul
pentru sănătate este unul singur pentru toţi pacienţii, cu toate afecţiunile, fiecare
specialitate este interesată numai de progresele din domeniul ei şi doreşte să trateze cât
mai multe boli cu mijloace terapeutice cât mai sofisticate (adică “moderne”), nefiind
interesată dacă nişte fonduri nu ar fi cumva mai eficient cheltuite într-o specialitate
diferită. Fără să mai spunem că peste toate aceste jocuri de putere – fie ea economică
sau profesională – se suprapun interesele industriei farmaceutice.
Eficienţa este proporţională cu riscul
Deja am vorbit mai sus, ca şi în capitolul IX (Exprimarea riscului): statinele sunt mai
eficiente când riscul de infarct este mai mare, inhibitorii COX-2 sunt mai eficienţi când
riscul de ulcer duodenal este mai mare. Pe de altă parte, putem scădea riscul
cardiovascular tratând hipertensiunea cu tiazidice sau beta-blocante şi cu aspirină, mult
mai ieftine şi atunci, scăzând riscul, statinele îşi pierd din eficienţă. (Sau slăbind,
mâncând sănătos şi făcînd măcar 30 de minute de exerciţii fizice pe zi, dar cine să se
mai gândească şi la asta - pentru pacient e prea greu, şi nu aduce profit niciunei
industrii!). După mine, compensarea ar trebui să se facă în funcţie de risc, şi nu de
medicament sau boală: risc mare – gratuitate, risc mic – compensare 0%!
În mod normal, există patru motive pentru care un medicament nu ar trebui să se afle pe
lista de compensate. Primul, eficienţa sa comparată cu terapia actuală este relativ mică
(de exemplu, clopidogrel comparat cu aspirina pentru prevenirea accidentului vascular
cerebral). Al doilea, preţul noului medicament este mult prea mare, iar eficienţa cu puţin
crescută (acelaşi exemplu). Al treilea, eficienţa unui nou medicament nu a fost
demonstrată de o manieră convingătoare – ceea ce se întâmplă când nu avem RCT-uri
comparative cu tratamentul uzual sau când au fost utilizate efecte surogat fără
importanţă clinică. Al patrulea motiv, medicamentul nu este eficient decât la un subgrup
de pacienţi, dar este utilizat şi compensat pentru un grup de pacienţi mult mai general
(de exemplu, inhibitorii COX-2).
Eficienţa statinelor şi a inhibitorilor enzimei de conversie a fost demonstată, iar
folosirea lor este economică la mulţi pacienţi, deci sunt compensate. Şi totuşi, nici
măcar medicamentele cele mai cost-eficiente nu duc la economii în cadrul sistemului de
sănătate atunci când sunt utilizate de o mare parte a populaţiei25.
Există părerea că, în cazul unor afecţiuni foarte frecvente, chiar dacă efectul este mic,
aplicat la populaţii largi numărul celor salvaţi este mare. Vorbind despre tratamentul
antihipertensiv, combinaţia perindopril+amlodipină salvează, raportat la combinaţia
atenolol+diuretic_tiazidic cu 0,5% [CI: -0,1, 1,1]26 mai mulţi pacienţi de moarte
cardiovasculară sau infarct miocardic. Veţi spune că această reducere absolută a riscului

123
pare mică, dar hipertensiunea având o prevalenţă mare, dacă tratăm o sută de milioane
de pacienţi, vom salva un milion, ceea ce nu este puţin. Iar eu aş putea să vă răspund:
da, dar gândiţi-vă şi că trataţi nouăzeci şi nouă de milioane de pacienţi cu combinaţia
mult mai scumpă în locul celei ieftine degeaba!
Costul total este determinat de preţul medicamentului, de numărul pacienţilor care au
boala pentru care medicamentul a fost demonstrat ca fiind cost-eficient şi de numărul
pacienţilor care nu au boala, dar cărora le este prescris medicamentul. Ultima situaţie
este îngrijorătoare şi este determinată de folosirea medicamentului în cazul unei
afecţiuni pentru care nu a fost demonstrat vreun beneficiu (nitraţi sau trimetazidină la
pacienţi care nu au angor) sau la pacienţi pentru care raportul cost-eficienţă nu este
atractiv (salmeterol/fluticazonă în BPOC, inhibitori COX-2 la pacienţii cu risc scăzut de
ulcer gastro-duodenal)25.
Raportul etică/economie
În acest domeniu, un singur lucru este sigur: resursele sunt finite, iar utilizarea raţională
a resurselor este etică.
Dar care este utilizarea raţională a resurselor? În ceea ce priveşte analizele economice,
ele sunt relative şi “folosind rezultatele unei analize cost-eficienţă, medicii trebuie să-şi
tempereze intepretările cu bun simţ, compasiune şi simţ justiţiar”27.
Pentru alţi autori28, lucrurile sunt clare dacă urmăm principiile economice – explicaţiile
sunt un pic dificile pentru clinician.
De ce cheltuim sume imense pentru terapii cu o eficienţă slabă? Nu există decât două
motive. Primul, factorii de decizie nu cunosc deloc analiză economică sau medicină
bazată pe dovezi. Şi al doilea: presiunea industriei farmaceutice, la care este din ce în ce
mai dificil să rezişti în ţările mai puţin dezvoltate.
Pentru ca statinele să devină cost-eficiente, ar trebui ca preţul lor să scadă cu 77%11.
Toată lumea aştepta genericele; iată-le, au sosit – şi în România – dar preţul lor nu este
cu mult mai mic decât al statinelor originale. Nici preţurile originalelor nu erau
justificate25 – dar de ce să le scădem, atunci când piaţa este bună: Casa de Asigurări
plăteşte!

Bibliografie
1. Warburton RN. What do we gain from the sixth coronary heart disease drug? BMJ
2003 ; 327 : 1237-1238.
2. Sackett DL, Richardson WS, Rosenberg WMC, Haynes RB. Evidence-based
medicine: how to practice and teach EBM. New York : Churchill Livingstone, 1997.
3. UK Prospective Diabetes Study (UKPDS) Group. Intensive blood-glucose control
with sulfonylureas or insulin compared with conventional treatment and risk of
complications in patients with type 2 diabetes (UKPDS 33). Lancet 1998;352:837-853.
4. U.K. Prospective Diabetes Study Group. Quality of life in type 2 diabetic patients is
affected by complications but not intensive policies to improve blood glucose or blood
pressure control (UKPDS 37). Diabetes Care 1999;22:1125-36.
5. UK Prospective Diabetes Study Group. Efficacy of atenolol and captopril in reducing
risk of macrovascular and microvascular complications in type 2 diabetes: UKPDS 39.
BMJ 1998;317:713-20

124
6. Effects of ramipril on cardiovascular and microvascular outcomes in people with
diabetes mellitus: results of the HOPE study and MICRO-HOPE substudy. Lancet
2000;355:253-9.
7. Colhoun HM, Betteridge DJ, Durrington PN, et al. Primary prevention of
cardiovascular disease with atorvastatin in type 2 diabetes in the Collaborative
Atorvastatin Diabetes Study (CARDS): multicentre randomised placebo-controlled trial.
Lancet 2004; 364:685-96.
8. Huang ES, Meigs JB, Singer DE. The effect of interventions to prevent
cardiovascular disease in patients with type 2 diabetes mellitus. Am J Med
2001;111:633-42.
9. Raithatha N, Smith RD. Paying for statins. BMJ 2004 ; 328 : 400-402.
10. Department of Health. National service framework for coronary heart disease.
London: Stationery Office, 2000.
11. Marshall T. Coronary heart disease prevention: insights from modelling incremental
cost effectiveness. BMJ 2003 ; 327 : 1264-1267.
12. Messori A. Economic appropriateness of the expenditure for alendronate: cost-
effectiveness analysis of national prescription data in Italy.
http://bmj.com/cgi/eletters/327/7406/89#40333 (accesat ultima dată în iule 2004).
13. Spiegel BMR, Targownik L, Dulai GS, Gralnek IM. The Cost-Effectiveness of
Cyclooxygenase-2 Selective Inhibitors in the Management of Chronic Arthritis. Ann
Intern Med 2003 ; 138 : 795-806.
14. Baicus C. COX-2 inhibitors - expensive and unsafe.
http://bmj.com/cgi/eletters/324/7349/1287#24517 (accesat ultima oară în iulie 2002).
15. Yelland MJ, Nikles CJ, McNairn N, Del Mar CB, Schluter PJ, Brown RM.
Celecoxib compared with sustained-release paracetamol for osteoarthritis: a series of n-
of-1 trials. Rheumatology 2007;46:135-140.
16. Kirsch I, et al. The emperor’s new drugs: an anlysis of antidepressant medication
data submitted to US FDA. Prevention and Treatment, 2002;5:1-11.
17. Gaspoz JM, Coxson PG, Goldman PA, Williams LW, Kuntz KM, Hunink M,
Goldman L. Cost effectiveness of aspirin, clopidogrel, or both for secondary prevention
of coronary heart disease. N Engl J Med 2002 ; 346 : 1800-1806.
18. Sabatine MS, Cannon CP, Gibson CM, et al. Addition of clopidogrel to aspirin and
fibrinolytic therapy for myocardial infarction with ST-segment elevation. N Engl J Med
2005;352:1179-189.
19. Chen ZM, Jiang LX, Chen YP, et al., for the COMMIT (ClOpidogrel and
Metoprolol in Myocardial Infarction Trial) Collaborative Group. Addition of
clopidogrel to aspirin in 45,852 patients with acute myocardial infarction: randomised
placebo-controlled trial. Lancet 2005; 366:1607-21.
20. The Clopidogrel in Unstable Angina to Prevent Recurrent Events Trial
Investigators. Effects of clopidogrel in addition to aspirin in patients with acute
coronary syndromes without ST-segment elevation. N Engl J Med 2001; 345:494-502.

125
21. Steinhubl SR, Berger PB, Mann JT, et al. Early and sustained dual oral antiplatelet
therapy following percutaneous coronary intervention: A randomized controlled trial.
JAMA 2002;288:2411-20.
22. Clopidogrel for 1 year reduces risks after PCI. InfoPOEMs summary, InfoRetriever,
Copyright 2007, John Wiley & Sons, Inc. (www.infopoems.com)
23. Burge PS, Calverley PMA, Jones PW, Spencer S, Anderson JA, Maslen TK on
behalf of the ISOLDE study investigators. Randomised, double blind, placebo
controlled study of fluticasone propionate in patients with moderate to severe chronic
obstructive pulmonary disease: the ISOLDE trial. BMJ 2000 ; 320 : 1297-1303.
24. Calverley P, Pauwels R, Vestbo J, Jones P, Pride N, Gulsvik A, Anderson J, Maden
C; TRial of Inhaled STeroids ANd long-acting beta2 agonists study group. Combined
salmeterol and fluticasone in the treatment of chronic obstructive pulmonary disease: a
randomised controlled trial. Lancet 2003 ; 361: 449-456.
25. Laupacis A. Inclusion of drugs in provincial drug benefit programs: Who is making
these decisions, and are they the right ones? CMAJ 2002 ; 166 : 44-46
26. Dahlof B et al. Prevention of cardiovascular events with an antihypertensive
regimen of amlodipine adding perindopril as required versus atenolol adding
bendroflumethiazide as required, in the Anglo-Scandinavian Cardiac Outcomes Trial-
Blood Pressure Lowering Arm (ASCOT-BPLA): a multicentre randomised controlled
trial. Lancet 2005; 366:895-906.
27. Naylor D. Cost-effectiveness analysis: Are the outputs worth the inputs? ACP
Journal Club 1996 ; 124 : A12.
28. Gafni A. Economic evaluation of health care interventions: an economist's
perspective. ACP Journal Club 1996 ; 124 : A12.

126

S-ar putea să vă placă și