Documente Academic
Documente Profesional
Documente Cultură
METODA KAPLAN-MEIER
Suntem adesea interesaţi în studiul intervalului de timp până la apariţia unui eveniment de
interes.
Supravieţuirea se referă la analiza în timp a probabilităţii de apariţie a unui anumit eveniment.
Dacă considerăm „decesul” evenimentul urmărit, variabila ce caracterizează perioada de viaţă
este timpul scurs până la realizarea acestuia.
În cadrul "analizei supravieţuirii" putem aborda orice analiză a timpului până la un efect
(eveniment),
care nu este neapărat decesul (infarct miocardic, hemoragie digestivă, decompensare,
recidivă, etc.) şi
rareori poate fi şi unul bun (vindecarea, o sarcina dorita etc.).
Am putea în primă etapă să folosim noţiunile specifice din statistica descriptivă deci, am putea
caracteriza populaţia prin indicatorii statistici de:
localizare: medie, mediana, modul;
variatie: dispersia, amplitudinea, intervalul intercuartilic;
distribuţie de frecvenţă,
sau se pot realiza comparaţii între aceşti indicatori pentru diferite loturi studiate.
ANALIZA SUPRAVIEȚUIRII
PROBLEME SPECIFICE:
Pe parcursul studiului se pierd pacienţi din diferite motive (schimbare de adresă, abandon,
deces din alte cauze sau terminarea studiului şi neapariţia evenimentului analizat etc.). Astfel,
suntem nevoiţi să eliminăm datele incomplete pe perioada de analiză. Dacă pierdem cantităţi
importante de informaţie putem compromite întregul studiu.
Datele pierdute se numesc date cenzurate. Acestea conţin informaţie parţială.
De asemenea pot apărea cazuri noi care ar trebui incluse în lot. Dacă am transla toate
înregistrările la o origine de timp comună am putea ţine cont de informaţia chiar parţial
introdusă. Ar trebui să folosim într-un mod corect această informaţie care ne-ar aduce, evident,
un plus de informaţie care ajută la eliminarea indeciziilor existente.
Nu putem, de exemplu, să calculăm durate medii de supravieţuire, pe de o parte pentru că
duratele de supravieţuire par a nu avea o distribuţie Gaussiană, iar pe de altă parte, pentru că
nu se poate calcula media dacă nu se ştiu toate duratele de supravieţuire, aşadar nu poţi
analiza datele până nu a decedat şi ultimul pacient. Ori asta nu se întâmplă de obicei în studii,
întotdeauna mai rămân pacienţi în viaţă la sfârşitul studiului.
Analiza de tip Kaplan-Meier permite exact acest tip de lucru cu date cenzurate şi/sau noi.
Practic profităm de toată informaţia pe care o avem pe parcursul intervalului de timp investit în
cercetare.
ANALIZA SUPRAVIEȚUIRII
1.0
0.9
Cumulative Proportion Surviving
0.8
0.7
0.6
0.5
0.4
age<65
years old
0.3
age>=65
10 20 30 40 50 60 70 80 90 100 110
years old
Time
ANALIZA SUPRAVIEȚUIRII
În timp această probabilitate de supravietuire variază, scade şi astfel ea va capăta o tendinţă
descrescătoare. Cu cât timpul trece cu atât mai puţini pacienţi vor fi în viaţă.
La diferite momente de timp Ti se produc evenimente ce reprezintă decesul sau cenzura. Acestea definesc
punctele în care probabilitatea de supravieţuire îşi schimbă valoarea.
Reprezentarea timpului de apariţie a evenimentelor ce caracterizează starea pacienţilor (cenzura/deces) cât
şi a momentului înrolării de noi cazuri.
Există un moment de start (romb) pentru fiecare pacient şi de asemenea momentul apariţiei evenimentului
(sfârșitul urmăririi - cerc).
Aici trebuie să se acorde o atenţie deosebită deoarece, poate exista o mare relativitate în
stabilirea momentului de start (de ex.: în cancerul de sân, care este momentul de determinare
a prezenţei neoplaziei?).
Toate cazurile luate în studiu trebuie să fie tratate uniform pentru a nu introduce erori.
După trecerea a t intervale de timp se poate calcula (şi reprezenta grafic) proporţia pacienţilor
care au supravieţuit cel puţin durata t. Deci, variabila timp este o durată (perioadă) de timp şi
nu o dată calendaristică. Ea reprezintă numărul de perioade de timp de la data iniţială.
Dacă datele analizate conţin două variabile de tip dată (ex. data de început, data decesului
pacientului) ele trebuie transformate în durate (perioade) de timp.
METODA KAPLAN MEIER
Variabila de stare trebuie să fie o variabilă categorială reprezentând evenimentul de interes. Ea poate fi o variabilă
numerică sau text (string) ce conţine codul pentru un anumit eveniment. Variabila de stare trebuie să definească
clar un anumit eveniment (ex. data la care pacientul a raportat primele simptome).
Variabila de stratificare. Este o variabilă categorială ce reprezintă un efect de grupare. Într-o setare medicală, o
variabilă de stratificare poate fi tipul de boală. Dacă "type" este setată ca variabilă de stratificare, se pot obţine
grafice de supravieţuire pentru fiecare tip de boală. Apoi se pot compara indicii de supravieţuire dintre diversele
tipuri de boală.
Variabila de factor. Este o variabilă categorială care reprezintă un efect cauzal (de ex., tratamentele). Într-o setare
medicală o variabilă de factor poate fi tipul de tratament aplicat (de ex. tipul de injecţie). Dacă tratamentul este
setat (ales) ca variabilă de factor, ieşirea (output-ul) va include grafice (curbe) de supravieţuire în cadrul fiecărui
strat (de ex. fiecare tip de gripă). Apoi se pot compara indicii de supravieţuire între grupele de tratament, aparte
pentru fiecare tip de gripă. Variabila de factor se poate considera ca fiind principala variabilă de grupare, iar
variabila de stratificare ca fiind o variabilă de subgrupare. Dar ambele sunt opţionale.
METODA KAPLAN MEIER - EXEMPLU
Avem următoarele date prezente în tabelul de mai jos. Acestea descriu evenimentele de tip deces respectiv
cenzură. Determinam prin metoda Kaplan Meier curba de supravieţuire şi calculam cuartilele. Numărul total
de pacienţi este 22+21=43.
Prob. Condiţionată
Pacienţi la risc Prob. de supravieţuire
An Cenzuri Eveniment urmărit pe interval
1 1 1 43 1-1/43=97.67% 97.67%
2 2 2 43-1-1=41 1-2/41=95.12% 0.97.67 x 95.12=92.91%
3 2 2 41-2-2=37 1-2/37=94.59% 92.91 x 94.59=87.89%
4 3 3 37-2-2=33 1-3/33=90.91% 87.89 x 90.91=79.90%
6 3 1
33-3-3=27 1-1/27=96.30% 79.90 x 96.30=76.94%
8 3 4
10 4 3 27-3-1=23 1-4/23=82.61% 76.94 x 82.61=63.56%
11 2 2 23-3-4=16 1-3/16=81.25% 63.56 x 81.25=51.64%
13 1 2 16-4-3=9 1-2/9=77.78% 51.64 x 77.78=40.17%
14 1 1
9-2-2=5 1-2/5=60.00% 40.17 x 60=24.10%
22 21
Total 5-1-2=2 1-1/2=50.00% 24.10 x 0.50=12.05%
43
1. Se va determina numarul pacientilor la risc pentru primul interval care este egal cu suma tuturor
pacienţilor luaţi în studiu. Pe celelalte intervale se scade în mod reperat atât numărul de cenzuri cât
şi numărul de evenimente urmărite realizate.
1.0
0.8
0.7
0.6
0.5
BMI [18.5-24.9]
10 20 30 40 50 60 70 80 90 100 110
BMI >=25
Time
În cazul studiului decesului panta echivalentă a curbei de supravieţuire este de dorit să fie cât mai
mică.
Dacă se studiază timpul necesar însănătoşirii în urma unui tratament, atunci este de dorit ca panta
să fie cât mai mare, efectul să fie cat mai rapid.
REGRESIE COX
Dacă hazardul este constant pentru toată durata studiului, înseamnă că riscul de deces este
independent de durata de timp cat un individ a putut să supravieţuiască. Astfel un subiect care
a supravieţuit 3 luni ar avea acelaşi risc al morţii în momentul următor ca unul care a
supravieţuit 10 ani.
Abordarea cea mai realistă este de a nu face prezumţii asupra constanţei hazardului ci de a-l
determina din datele existente.
Acest numitor este cunoscut sub denumirea de “hazard de bază” şi este o noţiune virtuală (nu
trebuie presupus că un asemenea pacient ar exista).
REGRESIE COX
Din motive tehnice, este mai convenabil să se lucreze cu logaritmii hazardului relativ şi se acceptă
prezumţia că pentru orice combinaţie a valorilor variabilelor predictive (prognostice), logaritmul
hazardului relativ se poate scrie ca o sumă ponderată a acestor valori (exemplu: pondere pentru
vârstă, pentru dimensiunea unei tumori, pentru agresivitatea tipului celular al tumorii etc.).
Suma ponderată a unui pacient se va calcula prin înmulţirea fiecăreia din aceste valori cu ponderea
sa (vârstă, dimensiune, agresivitate) şi însumarea acestor produse. În acest mod se determină
valoarea ponderilor şi hazardul bazal.
O dată cu această etapă realizată, se poate construi o curbă de supravieţuire pentru orice combinaţie
a valorilor variabilelor predictive (prognostice).
Dacă e necesar, se pot aplica transformări asupra oricăreia din variabilele predictive (exemplu: pentru
a reduce variabilitatea valorilor observate se poate aplica o transformare logaritmică).
Coeficienţii regresiei Cox pot fi utilizaţi pentru determinarea riscului relativ pentru fiecare variabilă
independentă şi pentru o variabilă rezultantă, ajustată la efectul tuturor celorlalte variabile din ecuaţie
(riscul relative ajustat).
ALEGEREA MODELULUI DE ANALIZĂ
O importanţă deosebită prezintă alegerea modelului de analiză care să permită selectarea unui set de predictori având
maximum de putere de predicţie asupra variabilei criteriu. Scopul nu este acela de a aduna informaţie de la toate
variabilele disponibile ci doar de la acelea care aduc contribuţia cea mai consistentă.
O primă recomandare, cu caracter preliminar, este aceea de a avea în vedere un anumit raport între numărul de subiecţi
şi numărul variabilelor independente. Acest raport este cifrat la valoarea 15/1, adică pentru un eşantion de 150 de
subiecţi se poate miza pe cel mult 10 variabile independente.
După ce setul de variabile predictor a fost fixat, se va trece la adoptarea uneia dintre metodele de introducere a acestora
în ecuaţia de regresie:
Regresia multipla standard. Toate variabilele predictor sunt incluse în ecuaţie, efectul fiecăreia fiind evaluat după şi
independent de efectul tuturor celorlalte variabile introduse anterior. Fiecare variabilă independentă este evaluată numai
prin prisma contribuţiei proprii la explicarea variabilei dependente.
Regresia multiplă secvenţială (numită şi regresie ierarhică). Variabilele independente sunt introduse în ecuaţie într-o
anumită ordine, în funcţie de opţiunile analistului. Atunci când acesta are motive să creadă că o anumită variabilă are o
influenţă mai mare, o poate introduce în ecuaţie înaintea altora.
Regresia multiplă pas cu pas. Este utilizată adesea în studii exploratorii, atunci când există un număr mare de predictori
despre care nu se ştie exact care este contribuţia fiecăreia la corelaţia de ansamblu cu variabila dependentă. Există trei
variante ale acetui tip de analiză:
ALEGEREA MODELULUI DE ANALIZĂ
Selecţia anterogradă. Toate variabilele independente sunt corelate cu variabila dependentă după care variabila care are
corelaţia cea mai mare este introdusă prima în ecuaţie. Următoarea variabilă introdusă în ecuaţie este cea care are corelaţia
cea mai mare, după ce a fost eliminat efectul variabilei anterioare. Procesul continuă până ce nivelul contribuţiei variabilelor
independente este prea mic pentru a mai fi luat în considerare. O variabilă, odată introdusă în ecuaţie rămâne acolo.
Selecţia pas cu pas. Este o variantă a metodei anterioare. Diferenţa constă în faptul că la fiecare pas, fiecare variabilă deja
introdusă este retestată pentru a se evalua efectul lor ca şi cum ar fi fost introduse ultima. Cu alte cuvinte, dacă o variabilă
nou introdusă are o contribuţie mai consistentă asupra variabilei dependente va determina eliminarea unei variabile
anterioare dar care se dovedeşte mai puţin predictivă.
Selecţia retrogradă. Pasul iniţial al acestei metode este acela de calculare a unei ecuaţii de regresie în care toate variabilele
predictor sunt incluse. Ulterior, pentru fiecare variabilă predictor este efectuat un test de semnificaţie „F”, pentru a se evalua
contribuţia fiecărui predictor la corelaţia de ansamblu. Valorile testului F sunt comparate cu o valoare limită prestabilită,
variabilele care nu trec acest prag fiind eliminate din ecuaţie. Pe măsură ce o variabilă este eliminată, o nouă ecuaţie este
calculată şi un nou test F este efectuat pentru variabilele rămase, urmat de eventuala eliminare a unei alte variabile. Procesul
continuă până când doar variabilele semnificative rămân în ecuaţie.
Este evident că metoda „secvenţială” şi cea „pas cu pas” sunt superioare metodei „standard”. Între primele două diferenţa
constă în faptul că, în cazul metodei secvenţiale, decizia de selecţionare a variabilelor introduse în ecuaţie aparţine
cercetătorului în timp ce în cazul metodei pas cu pas, programul este cel care face în mod automat selecţia, în funcţie de
parametri fixaţi de analist.
REGRESIE COX
Interpretare: % 1-exp(B)
Dacă luăm Age din model atunci efectul a grupelor este redus,
grupa B având un risc relativ crescut în raport cu grupa A de 2,56
(95% CI: 0.74-8.82), dar care este acum nesemnificativ statistic la
5% eroare de estimare nivelul (p = 0,136).
REGRESIE COX
(EXEMPLU DE INTERPRETARE)
Sig. 95% CI for EXP(β)
Exp(β)
Pre-dialysis variables β S.E. Wald p-
HR Lower Upper
value
LVMI (gm/m2) 0.020 0.008 5.889 0.015 1.320 1.004 1.437
SCOR UCL pre-dialysis 0.975 0.049 4.939 0.026 2.651 1.122 6.262
Age (years) 0.048 0.035 1.949 0.163 1.049 0.981 1.123
CRP (mg/dl) 0.018 0.019 0.897 0.344 1.018 0.981 1.058
Hydration status - ΔHS 0.051 0.059 0.739 0.390 1.052 0.937 1.182
Albumin (g/dl) -1.047 0.091 0.630 0.427 0.351 0.026 4.657
Ejection fraction, % -0.017 0.046 0.135 0.713 0.983 0.899 1.076
Dialysis vintage (months) 0.002 0.007 0.099 0.754 1.002 0.989 1.015
Modelul Cox-proportional hazard regression a fost aplicat pentru evaluarea impactului factorilor independenţi
(predictori: age, dialysis vintage, male sex, hydratation status-ΔHS, LVMI, Fejectie, albumin, CRP, UCL) asupra
supravieţuirii pacienţilor supuşi tratamentului de hemodializă. A fost aplicată metoda Backward Stepwise (Wald) de
eliminare treptată a factorilor ce nu prezintă o influenţă semnificativă asupra supravieţuirii. S-a obţinut astfel cel mai
bun model multivariat (Hosmer-Lemeshow tests χ2 = 6.51, df=8, p=0.59, 95%CI). Contribuția covariabilelor ce
explică variabila dependentă a fost evaluată prin intermediul testului Wald, cu p-value<0,05 considerată semnificativă.