Sunteți pe pagina 1din 8

MG - Lucrarea practică 9 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Lucrarea practică 9
Indicaţii generale:
Prin formularea unui model matematic explicit, un investigator doreşte să descrie
cât de multă variaţie din variabila răspuns (de exemplu din durata de supravieţuire după
diagnosticarea bolii pentru un grup de indivizi) poate fi explicată în termenii uneia sau a
mai multor variabile predictor „statistic semnificative” cu care este corelată.
În acest scop ar putea încerca exprimarea „probabilităţii de supravieţuire” pe o
durată mai mare decât durata d ca funcţie liniară de valorile variabilei (variabilelor)
predictor.
În cercetarea biologică este des folosită regresia logistică (logit). Iar prelucrarea
datelor de supravieţuire se face în primul rând cu tehnica Kaplan-Meyer.
Compararea eficacităţii a două teste biologice se poate face grafic, prin diagrame
de tipul ROC (receiver operating characteristics).

În această lucrare practică veţi învăţa să:


a) lucraţi cu comanda LOGISTIC REGRESSION pentru analizarea legăturii
între o variabilă continuă şi una Booleană;
b) lucraţi cu comanda KAPLAN-MEIER SURVIVAL pentru prelucrarea datelor
privind „supravieţuirea” pacienţilor;
c) estimaţi curbe ROC pentru compararea eficacităţii a două teste.

Teme
38: regresia logistică
39: analiza supravieţuirii cu Epi Info
specială: compararea testelor prin curbe ROC în Excel

Softul ce va fi utilizat în lucrarea practică:


Excel, Epi Info

134
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 11 2015/2016

Tema 38: regresia logistică.


Creaţi un document Word denumit nume_LOGISTIC.doc cu următorul conţinut:
Regresia logistică este folosită pentru a analiza relaţia între variabila dependentă,
de tip categorial, cu două niveluri, şi una sau mai multe variabile predictor
(independente). De exemplu, am dori să putem „prezice” succesul sau eşecul la un
test, depinzând de mai multe variabile continue, cum ar fi durata pregătirii pentru acel
test. Sau am dori să „prezicem” şansele de deces sau de supravieţuire, în funcţie de
doza unui tratament.
Variabila dependentă binară Y este asimilată unei variabile continue P, cu valori
între 0 şi 1. O valoare p este interpretată ca probabilitatea de a obţine un „succes” la
test. Regresia logit constă în determinarea „celor mai bune” valori ale coeficienţilor
şi din relaţia
P P
log X , adică exp( X).
1 P 1 P
Comanda Logistic Regression din EpiInfo (modulul Analyze Data) realizează aşa-
numita regresie logistică. În fereastra comenzii, variabila rezultat (Outcome Variable)
este variabila dependentă Y, de obicei de tip Boolean, iar celelalte variabile (Other
Variables) sunt variabilele independente X. În cazul cel mai simplu – dar şi cel mai des
întâlnit – avem de-a face cu o singură variabilă independentă.
Să luăm, ca exemplu, datele din fişierul LP09_1.xls. În acesta dispuneţi de rezultatele
obţinute asupra unor şoareci bolnavi, în urma aplicării unei doze de concentraţie diferită.
Vindecarea este marcată cu valoarea 1 în coloana Event. Sexul şoarecilor este înregistrat
prin valorile 1 sau 2 în coloana Group.
Se observă că „vindecări” apar începând cu concentraţia de 20.6%, însă abia de la
concentraţia 23.4% putem fi „siguri” de vindecare. Ce se poate obţine folosind regresia
logistică?
Preluaţi fişierul LP09_1.xls cu EpiInfo, după ce i-aţi mai adăugat două înregistrări
(corespunzând unor experienţe pe care presupunem că le-aţi făcut împreună cu echipa de
cercetare). Observaţi că înregistrările sunt ordonate după valorile crescătoare ale
concentraţiei. Respectaţi această ordonare!
Apelaţi comanda Logistic Regression din grupul Advanced Statistics. Evident, în
caseta de dialog a comenzii veţi cere ca Outcome Variable să fie Event, iar pentru Other
Variables vă limitaţi la Dose.
Rezultatul va fi prezentat (aproximativ) astfel:
Odds Coefficie Z-
Term 95% C.I. S. E. P-Value
Ratio nt Statistic
dose 3.3179 1.4248 7.7261 1.1993 0.4313 2.7809 0.0054
CONSTANT * * * -26.2133 9.5109 -2.7561 0.0058
Reţineţi de aici coeficienţii, dar şi faptul că ei sunt „validaţi” de valorile p foarte mici
(putem accepta că sunt nenuli). Aşadar formula
P
log 26.2133 1.1993 X
1 P
este suficient de bună pentru „prognozarea” probabilităţii de vindecare în funcţie de
concentraţia dozei injectate.
Y
Evident, P unde Y exp( 26.2133 1.1993 X ) .
1 Y

135
MG - Lucrarea practică 9 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Redenumiţi nume_LOGISTIC.xls fişierul LP09_1.xls. Pe singura sa foaie de calcul


plasaţi în celula E1 textul „Prob”, în celula D2 formula
=EXP(–26.2133+1.1993*A2)
iar în celula E2 formula
=D2/(1+D2)
Extindeţi aceste formule pe coloane, apoi folosiţi datele din coloanele A şi E pentru a
crea o diagramă de tipul X-Y. Ar trebui să obţineţi o logistică (vezi figura).
1.0

0.0
10 15 20 25 30 35

Tema 39: analiza supravieţuirii cu Epi Info.


Creaţi un document Word, denumit nume_SUPRAV, cu următorul conţinut:
Analiza supravieţuirii
Să presupunem că studiem eficacitatea unui tratament nou pentru o maladie grea,
ce determină în general decesul pacienţilor. Evident, ceea ce ne interesează este ca, în
urma tratamentului, pacienţii să supravieţuiască cât mai mult posibil.
Odată ce am înregistrat data aplicării tratamentului, pare uşor să aflăm numărul de
zile (săptămâni, luni, ani) care au trecut de atunci şi până astăzi (chiar dacă regulile
calendarului: ani bisecţi, luni cu număr de zile diferit, etc. nu sunt prea comode).
În principiu, pentru compararea tratamentului nou cu cel „clasic” s-ar părea că
putem utiliza metodele de testare statistică obişnuite. Apar însă două aspecte care ne
împiedică să le folosim direct:
1) nu ne putem permite să aşteptăm până când vor deceda toţi pacienţii. Va trebui să
încheiem studiul nostru la un moment dat, cu majoritatea pacienţilor încă în viaţă.
Este vorba despre pacienţii care „supravieţuiesc în continuare”;
2) este posibil ca unii pacienţi să fi părăsit domiciliul şi să nu mai putem să-i
contactăm. Este vorba despre pacienţii „pierduţi din vedere”.
Aşadar, va trebui să ţinem seamă de două tipuri de aşa-numite observaţii
cenzurate (censored observations): a) obţinute de la pacienţii care supravieţuiesc
termenului final al studiului nostru, b) obţinute de la pacienţii pierduţi din vedere,
despre care ştim că au supravieţuit câtva timp tratamentului (dar nu suntem siguri că
mai sunt în viaţă).
Cel mai simplu mod de a descrie evoluţia unei populaţii este de a-i desena curba
de supravieţuire. Pe axa absciselor (axa timpului) se consideră mai multe intervale
corespunzătoare perioadelor consecutive, momentul t = 0 fiind considerat, pentru toţi
pacienţii, momentul începerii tratamentului. După trecerea a t intervale de timp se
poate calcula (şi reprezenta grafic) proporţia pacienţilor care au supravieţuit cel puţin
durata t.

136
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 11 2015/2016

Comanda Kaplan-Meier Survival din modulul Analyze Data se foloseşte pentru


obţinerea unor grafice şi realizarea unor teste în legătură cu grupuri de subiecţi care au fost
urmăriţi întrun studiu clinic. Probabil că ceea ce interesează în primul rând este o
comparaţie între duratele de supravieţuire. Fiecare subiect este înregistrat (luat în
considerare) la un anumit moment de timp. Din acel moment (să zicem că este data
operaţiei) şi până în momentul studiului trece un timp. Unii dintre subiecţii aflaţi în studiu
pot să fie cenzuraţi, ceea ce înseamnă că pentru acei subiecţi avem observaţii incomplete
despre durata de supravieţuire.
Pentru reprezentarea datelor de supravieţuire, datorită cenzurării, va trebui să folosim
două variabile:
– o variabilă ale cărei valori sunt duratele de supravieţuire (Time Variable),
– o altă variabilă, binară, ale cărei valori indică fie cenzurarea, fie necenzurarea
(Censored Variable).
De menţionat că este necesară precizarea valorii care indică necenzurarea (Value for
Uncensored) precum şi a unităţii de timp folosite (Time Unit).
De obicei suntem interesaţi în compararea eficacităţii a două tratamente, din punctul de
vedere al duratelor de supravieţuire. Este nevoie de încă o variabilă, ale cărei valori să
indice grupul căruia îi aparţine fiecare observaţie (Group Variable).
În urma execuţiei comenzii se poate obţine diagrama curbelor (funcţiilor) de
supravieţuire pentru fiecare dintre cele două grupuri (Graph Type: Survival Probability)
şi rezultatele pentru testele care compară cele două funcţii de supravieţuire.
Preluaţi fişierul LP09_2.xls, în care veţi găsi date referitoare la 199 de pacienţi, de
ambele sexe, dializaţi prin două metode. Identificaţi cu uşurinţă data începerii
tratamentului în coloana Dateinit şi data decesului (dacă este cazul) în coloana
Datedeath. Adăugaţi o nouă înregistrare, cenzurată (lăsând aşadar necompletată valoarea
în coloana Datedeath), în care valoarea în coloana Dateinit este data d-voastră de naştere,
iar în coloana Mode plasaţi una dintre valorile ce corespund modalităţilor de tratament.
Salvaţi forma nouă (cu 200 de înregistrări) cu numele nume_DIALIZA.xls. Preluaţi
apoi acest fişier cu EpiInfo, modulul Analysis. Nu există pacienţi „pierduţi din vedere”.
Adăugaţi încă o coloană, să o numim Durata, în care să plasăm durata de supravieţuire
pentru pacienţi (exprimată în săptămâni). Pentru cei necenzuraţi va trebui să evaluăm
numărul de zile între data începerii tratamentului şi data decesului, iar pentru cei cenzuraţi
numărul de zile între data începerii tratamentului şi data curentă (pe care o putem prelua
din parametrul SYSTEMDATE al sistemului de operare).
Adăugarea noii coloane se va face cu comanda Define din grupul Variables. După care
se va folosi comanda Assign pentru a completa valorile. Pentru început asignaţi variabilei
Durata expresia
=DAYS(DATEINIT,SYSTEMDATE)/7
care va avea efect asupra tuturor înregistrărilor, cenzurate sau nu.
Observaţi comanda înregistrată în fereastra Program Editor (dreapta-jos). Continuaţi în
această fereastră, inserând prin tastare următorul program scurt:
IF CENSURE=”No” THEN
Durata=DAYS(DATEINIT,DATEDEATH)/7
END
după care Run This Command.
Dispunem acum de duratele (în săptămâni) necesare pentru utilizarea comenzii
Kaplan-Meier Survival din grupul Advanced Statistics.

137
MG - Lucrarea practică 9 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

Evident, după declanşarea comenzii va trebui să alegem variabilele şi valorile dorite, în


caseta de dialog a comenzii, prezentată în figura următoare. Observaţi – în figură – că
drept variabilă de grupare am ales Gender, iar unitatea de timp este, evident, săptămâna.
Diagrama probabilităţilor de
supravieţuire ar trebui să fie
asemănătoare celei din figura de
mai jos. Se poate observa că există
o diferenţă „sensibilă” între cele
două curbe, cu impresia că grupa
„femeilor” beneficiază de o
supravieţuire mai bună, pe termen
lung, decât grupa „bărbaţilor”.

Oare această diferenţă este „semnificativă”? Răspunsul poate fi sugerat de datele


prezentate în tabelul anexat.
Test Statistic D.F. P-Value
Log-Rank 2.2849 1 0.1306
Wilcoxon 1.7908 1 0.1808
Valoarea p obţinută prin testul Wilcoxon ar trebui să ne facă însă destul de rezervaţi în
a susţine afirmaţia. Mai degrabă ar trebui să enunţăm că „nu dispunem de suficiente date
pentru a afirma …”.
(Ipoteza nulă afirmă că nu există deosebiri între cele două curbe de supravieţuire!)
Repetaţi comanda luând ca variabilă de grupare Mode în loc de Gender. Folosiţi apoi
comanda Select din grupul Select/If pentru a selecta doar pacienţii de sex masculin şi a
compara, doar pentru ei, supravieţuirea în urma celor două modalităţi de tratament.
138
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 11 2015/2016

Preluaţi graficele (pe care EpiInfo le livrează sub forma de fişiere de tipul JPG) şi
comentaţi-le în fişierul-document Word intitulat nume_COMENTARIU.doc. Comparaţi
comportarea atât „pe termen scurt” (imediat după începerea tratamentului) cât şi „pe
termen lung”. Nu ar trebui să lipsească nici comentariul privind numărul de observaţii de
care ar trebui să dispunem pentru a putea trage concluzii „certe” privind superioritatea
unui tratament asupra altuia (şi nici aprecieri privind „calitatea vieţii” după începerea
tratamentului).
În fişierul LP09_3.xls găsiţi următoarele date înregistrate pentru nou-născuţii cu
greutatea la naştere sub 1 kg:
– sexul, în coloana SEX, valori „F” sau „M”;
– regiunea geografică de domiciliu a părinţilor (5 valori, identificaţi-le), în coloana
REGGEO;
– data naşterii, în coloana DATANAST;
– decedat, valori „Da” sau „Nu”;
– data decesului, în coloana DATADECES (completată dacă este cazul).
Preluaţi cu EpiInfo acest fişier şi încercaţi să răspundeţi – plasând răspunsurile în
documentul Word nume_INFANT.doc – la următoarele întrebări:
1) numărul de decedaţi (comanda Select);
2) distribuţia decedaţilor pe sexe, pe regiuni geografice (comanda Frequencies);
3) distribuţia decedaţilor pe sexe şi pe regiuni geografice (comanda Tables).
Creaţi o nouă variabilă, DurataVietii, în care plasaţi durata vieţii fiecărui subiect
decedat (în zile). Calculaţi media şi mediana acestei noi variabile (comanda Means), apoi
mediile pe sexe. Se poate afirma că durata vieţii la subiecţii de sex feminin diferă de cea a
subiecţilor de sex masculin? Completaţi fişierul nume_COMENTARIU.doc. cu
concluziile d-voastră.
Tema specială: compararea testelor prin curbe ROC în Excel.
Reluăm tema utilizării curbelor ROC (receiver operating characteristics), de data
aceasta pentru compararea eficacităţii a două teste biologice în detecţia aceleiaşi maladii.
Vom utiliza Excel, mai precis creând un fişier „carte de calcul” denumit nume_2ROC, cu
cinci foi de calcul denumite „Datele”, „CalculeCK” şi „CalculeT”, respectiv „GraficCK”
şi „GraficT”.
Testul troponinei T tinde să înlocuiască testul CK (creatin-fosfokinazei) în depistarea
infarctului de miocard deoarece: (a) este mai specific în cazul afectării muşchiului cardiac,
şi (b) poate fi efectuat pe o durată mai îndelungată de timp. Valorile obţinute nu sunt
sensibile la afectarea altor muşchi (prin injecţii, exerciţii fizice sau medicamente).
Să comparăm cele două teste folosind un lot de 44 pacienţi, asupra cărora au fost
efectuate ambele teste. Unii dintre aceştia au avut confirmat ulterior diagnosticul „infarct
miocardic”. Rezultatele măsurătorilor (exprimate pentru testul CK în unităţi/litru iar pentru
testul TT în micrograme/litru) precum şi diagnosticul final le veţi prelua din fişierul
LP09_4.xls.
Plasaţi coloana diagnosticelor, urmată de coloanele CK şi TT, în domeniul A1:C45 al
foii de calcul „Datele” din fişierul nume_2ROC.
Aşa cum aţi procedat întro lucrare practică anterioară, veţi începe prin a determina
valorile extreme ale testelor. În celula D1 plasaţi textul „Extreme CK”, în E1 plasaţi textul
„Extreme T”, apoi în celulele din domeniul D2:E3 inseraţi formulele de calcul
corespunzătoare. (În D2 formula =MIN(B2:B45), ... în E3 formula =MAX(C2:C45).)
Copiaţi acum pentru calcule datele din coloanele A:B în foaia „CalculeCK”. Aici le
veţi sorta în ordine crescătoare după valorile testului (coloana B?) după care, pe coloana

139
MG - Lucrarea practică 9 2015/2016 UMF “Carol Davila” – Informatică Medicală şi Biostatistică

C, veţi calcula pragurile de separare.


Reamintim că primul „prag de separare” este valoarea mai mică cu 1 decât minimul
valorilor testului (care a fost calculat în celula D2 de pe foaia „Datele”) iar ultimul „prag
de separare” este valoarea mai mare cu 1 decât maximul valorilor testului (maxim calculat
în celula D3 de pe foaia „Datele”)
Prin urmare, formula pe care o veţi introduce în celula C2 va fi
=Datele!D2–1
Dedesubt veţi plasa ca „praguri de separare” mediile aritmetice a două valori-test
consecutive, formula de bază fiind
=(B2+B3)/2
iar ultimul „prag de separare”, introdus în celula C46, va fi
=Datele!D3+1
Reamintim că trebuie eliminate pragurile de separare care coincid cu valorile testului.
Aşadar, vom rezerva coloana D pentru criteriul de eliminare; în celula D1 plasaţi textul
„Elimin?”, iar în D2 formula
=IF(C2=B2,”da”,”nu”)
pe care o extindeţi la domeniul D2:D45.
Ar trebui să observaţi că pacienţii cu diagnosticul „angină” s-au grupat în partea
inferioară a listei, existând doar un singur caz de intercalare cu pacienţii cu diagnosticul
„infarct”. Aceasta indică faptul că testul CK este „extrem de puternic”.
Coloanele E:H vor fi utilizate pentru stabilirea numărului de subiecţi „true negatives”,
„false negatives”, „true positives” şi „false positives” pentru fiecare prag. Începeţi cu
plasarea inscripţiilor pe prima linie, apoi cu plasarea valorilor iniţiale „0” pentru „true
negatives” şi „false negatives” pe a doua linie. Pentru celelalte valori iniţiale puteţi plasa
numărul pacienţilor cu diagnostic „infarct” respectiv al celor cu diagnostic „angină”.
Dar, pentru uşurinţa calculelor pentru celelalte praguri, este de preferat să plasaţi în
celulele G2:H2 formule care să poată fi extinse prin „tragere de mâner”. Pentru celula G2
o asemenea formulă este
=COUNTIF($A$2:$A$45,"infarct")–F2
iar pentru celula H2 formula este
=COUNTIF($A$2:$A$45,"angina")–E2
Rămâne doar de plasat valorile de iniţializare în celulele E3 şi F3, anume
=COUNTIF($A$2:$A3,"angina") resp. =COUNTIF($A$2:$A3,"infarct")
pe care să le extindeţi pe rândurile următoare, până la rândul 45.
Urmează etapa calculului valorilor specificităţii şi senzitivităţii asociate fiecărui prag,
mai precis plasaţi în celula I1 textul „1–Spec” iar în J1 textul „Senz”, inseraţi dedesubt
formulele de calcul, =1–E2/(E2+H2) în celula I2 şi =G2/(G2+F2) în celula J2 după care
extindeţi formulele la domeniul I2:J45.
Este momentul să preluăm aceste coloane (I şi J), împreună cu coloana D a criteriului
de eliminare, prin Copiere/Lipire specială (Valori), în coloanele A:C din foaia
„GraficCK”.
Aici prima operaţiune va fi sortarea acestor date după valorile criteriului de eliminare,
urmând ca toate liniile cu „da” să fie eliminate.
Cu valorile numerice rămase (să presupunem că senzitivităţile sunt pe coloana C iar
valorile „nu” pe coloana A, deci cu valorile de pe coloanele B:C) se va crea o diagramă de
tipul X-Y, cu linii şi – de preferat – fără marcatori. Aceasta va fi curba ROC asociată
testului nostru.
Reamintim că scalarea pe ambele axe trebuie făcută aşa încât valorile extreme să fie 0
şi 1, iar dreptunghiul ar trebui să fie pătrat. (Acest lucru se poate obţine prin modificarea
140
UMF “Carol Davila” – Informatică Medicală şi Biostatistică MG - Lucrarea practică 11 2015/2016

corespunzătoare a marginilor paginii, prin comanda din meniul Fişier). De asemenea, ar


trebui eliminată legenda şi toate liniile de ghidare, iar prin tastare ar trebui introduse
titlurile „1 – Specificitatea” pe axa X respectiv „Senzitivitatea” pe axa Y. Mai mult, ar
trebui evidenţiată diagonala pătratului, ceea ce se poate face prin folosirea unui instrument
de desenare.
Pentru evidenţierea „puterii” testului se va calcula aria „de sub curbă”. Această arie se
poate obţine prin însumarea de fâşii trapezoidale verticale cu bazele între specificităţile
calculate pentru pragurile de separare. Am putea să calculăm ariile acestor fâşii prin
formule ce extind formula
=(B2–B3)*(C2+C3)/2
pe care o plasăm de exemplu în celula E2. Aria totală o vom obţine atunci în celula E41
prin formula de însumare
=SUM(E2:E40)
Valoarea 0.998 pe care o obţinem, foarte apropiată de 1, ne confirmă că avem la
dispoziţie un test „aproape perfect” pentru diagnoza infarctului miocardic.
Totuşi, reţineţi că ceea ce aţi făcut nu este decât o ESTIMARE a curbei ROC şi implicit
a bonităţii testului CK, folosind doar un eşantion limitat de pacienţi care se plâng de
dureri. Curba ROC teoretică va avea probabil un alt aspect, mai „neted”.
Repetaţi acum, folosind foile de calcul „CalculeT” şi „GraficT”, toate operaţiunile
anterioare, de data aceasta pentru rezultatele testului T din foaia „Datele”. Atenţie la
praguri! Ar trebui să obţineţi în final valoarea 0.877 pentru aria „de sub curbă”.
Pentru compararea celor două teste ar fi de dorit să putem reprezenta cele două curbe
ROC în aceeaşi diagramă. Nu este prea dificil. Este suficient să preluăm valorile de pe
coloanele B:C din foaia „GraficCK” şi să le plasăm dedesubtul celor din foaia „GraficT”.
(Este de preferat să lăsăm o linie intermediară între ele.) Iar pentru separarea culorilor am
putea să deplasăm valorile „noi” de pe coloana C pe coloana D şi să le inserăm ca „serie
nouă” în diagramă.
Preluaţi diagrama finală
(asemănătoare celei alăturate)
întrun document denumit
nume_DOUAROC.doc.
Adăugaţi explicaţii adecvate
despre eficacitatea celor două
teste. De ce oare este folosit, din
ce în ce mai mult, testul
troponinei T? De ce altceva, în
afară de curbele ROC, trebuie să
ţinem seamă în evaluarea
eficacităţii testelor?

141

S-ar putea să vă placă și