Sunteți pe pagina 1din 27

ANALIZA SUPRAVIEȚUIRII

METODA KAPLAN MEIER


Conf. Dr. Vasile Lucian Boiculese
INTRODUCERE

Supravieţuirea se referă la analiza în timp a probabilităţii de apariţie a unui anumit eveniment. Decesul
a fost iniţial urmărit, iar ca variabilă de lucru timpul până la producerea acestuia.

Putem da câteva exemple atât pozitive dar şi negative ca efect, care au făcut temele de studiii în cadrul
cercetărilor:

- timpul scurs de la îmbolnăvire până la deces.


- timpul scurs până la apariţia recidivelor.
- timpul de utilizare a unui cateter.
- timpul scurs până la însănătoşire în cazul aplicării unui anumit tratament.
- timpul scurs până la apariţia sarcinii în cadrul cuplurilor sterile (sub tratament).
- timpul de utilizare a unui produs.

În tehnică – analiza de fiabilitate (reliability analysis)


În analiza supraviețuirii, timpul este variabila de interes. Putem să caracterizăm anumite situații
medicale prin calculul unor indicatori statistici specifici sau să comparăm din punct de vedere al timpului
scurs până la îndeplinirea evenimentului, mai multe seturi de date.
De exemplu dorim să verificăm dacă perioada de însănătoșire este mai mică în cazul noului tratament
notat A comparativ cu metoda standard B.

Apar totuşi, unele aspecte specifice procesului de analiză în timp a datelor.

1 – O parte din pacienţii care iniţial au fost incluşi în studiu vor fi pierduţi pe parcurs datorită cauzelor
obiective (pierderea contactului cu persoana prin diferite forme: schimbarea adresei, abandon, deces din
alte cauze, sau terminarea studiului şi neapariţia evenimentului studiat). Acestea sunt cunoscute ca date
cenzurate (sau eliminate) şi sunt utile până în momentul înlăturării din studiu.
2 – Putem înrola în studiu noi pacienţi ce apar pe perioada definită de analiză. Aceştia la rândul lor
aduc un aport de informaţie care ajută la creșterea preciziei în estimările făcute.

Metoda Kaplan Meier este o tehnică statistică neparametrică ce permite estimarea probabilităţii de
supravieţuire în timp, acceptând lucrul cu date cenzurate cât şi introducerea de noi cazuri în perioada de
cercetare.
METODĂ

Să considerăm cazul standard în care evenimentul studiat este decesul și dorim să studiem funcția de
supraviețuire. Aceasta este probabilitatea ca la momentul T>ti pacienții să se afle în viață. Dacă
cunoaștem probabilitatea de deces atunci probabilitatea de supraviețuire este Psupraviețuire = 1-Pdeces.
Este clar că în timp această probabilitate variază, scade şi astfel forma sa este descrescătoare. Cu cât
timpul trece cu atât mai puţini pacienţi vor fi în viaţă şi astfel probabilitatea de supravieţuire va scădea.
La diferite momente de timp ti au loc evenimente ce reprezintă decesul sau cenzura. Punctele de
deces afectează probabilitatea de supravieţuire deci aceasta trebuie recalculată. Volumul pacienților la
risc pe un anumit subinterval depinde atât de decesele cât și de cenzurile anterioare. Astfel și cenzurile
afectează probabilitatea de supraviețuire respectiv deces.

Dacă este să avem o prezentare în timp a apariţiei evenimentelor ce caracterizează starea pacienţilor
(cenzură sau deces) cât şi a înrolării de noi cazuri, acestea ar putea fi reprezentate grafic asemănător
celor din figura următoare. Observăm că există un start (marcat cu romb negru) şi apoi evenimentul ce
defineşte sfârşitul (marcat prin cerc).
Eveniment de studiu
realizat Pacienţi
Pacienţi
P1
P1
Cenzură P2
P2

Sfârşit studiu
Sfârşit studiu T0 T1 T2 T3 Ti
Reperul este determinat Timp
timp (calendaristic)

Figura 1. Monitorizarea pacienţilor pe perioada de studiu. Figura 2. Aducerea la reper zero în timp a pacienţilor din studiu.

Evenimentele au loc la momentele notate: T1, T2, … Ti, … Tn. Între acestea se respectă relaţia: T1 < T2 <
… < Ti < … < Tn. Momentul de start este T0 definit de scopul studiului. Aici trebuie să se acorde o atenţie
deosebită, deoarece poate exista o mare relativitate în stabilirea momentului de start (de ex. în cancerul de
sân, care este momentul de determinare a prezenţei neoplaziei ?). Toate cazurile luate în studiu trebuie să
fie tratate uniform pentru a nu introduce erori.
CALCLUL FUNCȚIEI DE SUPRAVIEȚUIRE

Funcţia de supravieţuire este definită ca probabilitatea ca o persoană (sau caz de studiu) să


supravieţuiască mai mult de i unităţi de timp Ps(T>Ti). Aceste unităţi de timp sunt tocmai valorile T1, T2,
…Tn.
Putem calcula probabilitatea pe fiecare interval Ti-1, Ti. Aceasta este însă o probabilitate condiţionată.
Practic în intervalul Ti-1–Ti , avem o anumită compoziţie a lotului de studiu. La momentul Ti-1 avem în
viaţă Ni-1 pacienţi. În intervalul precizat o parte din pacienţi vor fi eliminaţi din studiu (cenzuraţi), notaţi cu
Ci, iar o parte vor deceda, notaţi Di.
Putem calcula probabilitatea condiționată de deces: Pd(T> Ti | T> Ti-1) = Di / Ni-1
Astfel probabilitatea condiționată de supraviețuire: PS(T> Ti | T> Ti-1) =1- Pd(T> Ti | T> Ti-1)=1- Di / Ni-1
Remarcăm că pe interval avem o probabilitate condiționată (fie de deces fie de supraviețuire).
Pe noi ne interesează probabilitatea de supraviețuire Ps(T>Ti) – pe care o vom deduce din
descompunerea probabilităților condiționate.
N0 N1 Ni-1 Ni = Ni-1-Ci-Di
C i , Di
Pd(T> Ti | T> Ti-1)=Di/Ni-1
T0 T1 Ti-1 Ti Prob. pe interval Ti+1
P A∩B
Formula probabilităților condiționate: P A B = P B .
Evenimentul A poate fi de exemplu, timpul de supravieţuire mai mare ca Ti (T>Ti), iar evenimentul B
poate reprezenta T>Ti-1. Deoarece evenimentul A este mai restrictiv, probabilitatea intersecției devine
egală cu probabilitatea evenimentului A: P A∩B = P T>Ti ∩ T>Ti−1 = P T>Ti = 𝑃(𝐴)
Ps T>Ti
Astfel probabilitatea condiționată de supraviețuire: Ps T>Ti T>Ti−1 = .
Ps T>T𝑖−1
Și avem probabilitatea de supraviețuire la momentul Ti: Ps (T>Ti )=Ps (T>Ti │T>Ti−1 )∗ Ps (T>Ti−1 )
Înlocuind în continuare probabilitatea de supravieţuire de la momentul Ti-1 cu o formulă asemănătoare
celei de sus, obţinem un produs al probabilităţilor condiţionate.

Avem astfel în final:


Ps (T>Ti )=Ps (T>Ti │T>Ti−1 )∗Ps (T>Ti −1│T>Ti−2 ). . .∗ Ps (T>T1│T>T0 ) ∗ Ps (T>T0 ); dar Ps (T>T0 )=1
Este justificat astfel şi pseudonimul: „product limit estimate”.
Fiind un produs de probabilităţi putem uşor observa că în timp, forma grafică va fi de tip descrescător.
Practic vom determina pe fiecare interval numărul de pacienţi la risc (Ni), numărul de decese (Di) şi
numărul de pacienţi eliminaţi (sau cenzuraţi, Ci). Se poate calcula apoi probabilitatea condiţionată şi în
final prin produsul acestora se află funcţia de supravieţuire în fiecare punct în timp unde se întâlnesc
evenimentele de deces.
Exemplu de calcul
Avem un set de 45 de participanți la studiu. Aceștia au fost urmăriți pe o perioadă de 14 zile.

Probabilitatea
Etapele de calcul sunt detaliate în tabelul

Eveniment
Prob. De alăturat.
Cenzuri
cumulată de

urmărit
Pacienţi la supraviețuire
Ziua

supravieţuire Se vor determina mai întâi pentru fiecare


risc condiţionată pe
(produsul prob. interval pacienţii la risc.
interval
condiţionale)
1 7 2 45 1-2/45=0.955 0.955
În etapa următoare se poate calcula
2 4 1 45-7-2=36 1-1/36=0.972 0.955*0.972=0.929 probabilitatea condiţionată de supravieţuire.
3 2 2 36-4-1=31 1-2/31=0.935 0,929*0.935=0.869 Aceasta are valoarea egală cu 1 minus raportul
4 3 3 31-2-2=27 1-3/27=0.888 0.869*0.888=0.772 dintre numărul de evenimente urmărite şi
6 1 2 27-3-3=21 1-2/21=0.904 0.772*0.904=0.698
8 3 4 21-1-2=18 1-4/18=0.777 0.698*0.777=0.543 numărul de pacienţi la risc. Se observă că
10 2 1 18-3-4=11 1-1/11=0.909 0.543*0.900=0.494 această probabilitate poate creşte sau descreşte
11 2 2 11-2-1=8 1-2/8=0.75 0.494*0.750=0.370 pe fiecare interval după numărul de evenimente
13 1 2 8-2-2=4 1-2/4=0.5 0.370*0.500=0.185
14 0 1 4-1-2=1 0 0
ce s-au consumat.
total 25 20 În final prin înmulţirea cumulată a
probabilităţilor condiţionate se obţine
Se acceptă următoarea aproximare: probabilitatea de supravieţuire. Aceasta este
Evenimentele C sau D au loc la sfârșitul fiecărui interval. descrescătoare atingând la sfârșit valoarea 0
pentru cazul studiat. Dacă ar fi rămas cenzuri
atunci în ultima grupă atunci punctul final nu
avea probabilitatea de supraviețuire 0.
Exemplu de calcul – fără evenimente cenzurate
Avem un set de 20 de participanți la studiu. Aceștia au fost urmăriți pe o perioadă de 14 zile.
Pentru a calcula probabilitatea de supraviețuire la fiecare moment de timp deoarece nu avem cenzuri
putem aplica formula: Ps(T>Ti)=1- (suma evenimente deces până la Ti)/(volum total eșantion).
Vom scrie formulele de pe rândul 3:

Coloana D: =D2-B2-C2 (B2 este 0)

Coloana E: =1-C3/D3

Coloana F: =PRODUCT($E$2:E3)

Coloana G: =1-SUM($C$2:C3)/$C$12

Am repetat calculul din tabelul anterior ținând cont de cenzuri – probabilitatea cumulată de supraviețuire
fiind calculată în coloana F.
În coloana G am aplicat formula directă fără a ține cont de cenzuri.
Cum era de așteptat rezultatele sunt identice.
REPREZENTAREA GRAFICĂ A FUNCȚIEI DE SUPRAVIEȚUIRE

Percentiles
25.0% 50.0% 75.0%
Estimate Std. Error Estimate Std. Error Estimate Std. Error
13.000 1.149 10.000 1.480 6.000 1.442

Means and Medians for Survival Time


Meana Median
95% Confidence Interval 95% Confidence Interval
Estimate Std. Error Lower Bound Upper Bound Estimate Std. Error Lower Bound Upper Bound
9.205 .779 7.677 10.732 10.000 1.480 7.099 12.901
a. Estimation is limited to the largest survival time if it is censored.
EXEMPLU 2 - Kaplan Meier
Iată ce am schimbat:

- În ziua a doua nu avem


Eveniment
Cenzuri

urmărit
decât evenimente cenzurate
Ziua

- În ultima zi avem un
eveniment cenzurat.
1 7 2
2 4 0 Observații:
3 2 2
4 3 3
6 1 2 - Probabilitatea de
8 3 4 supraviețuire se calculează numai
10 2 1
în momentele în care avem
11 2 2
13 1 2 decese (cenzurile modifică
14 1 1 volumul eșantionului deci
total 25 20 participă la calculul supraviețuirii)
- Dacă avem cenzuri în ultimul
interval de timp atunci nu se
atinge valoarea 0 a probabilității
de supraviețuire.
COMPARAȚII ÎNTRE FUNCȚIILE DE SUPRAVIEȚUIRE
Dacă sunt mai multe grupuri de date ce reprezintă funcţii diferite de supravieţuire atunci acestea pot fi
comparate prin teste statistice ca: Log Rank (Mantel-Cox), Breslow (Generalized Wilcoxon) sau Tarone-Ware
(existente în aplicația SPSS). Aceste teste reprezintă statistici de tip Chi pătrat (𝜒2).
Metoda Log Rank ponderează în mod egal evenimentele, Breslow folosește ca ponderi pentru fiecare
eveniment numărul de pacienți la risc iar Tarone-Ware folosește ca ponderi radical din pacienții la risc.
Metoda de calcul pentru testul Log Rank (există diferite forme ale statisticii).
Această metodă ponderează evenimentele în mod egal și are putere mare dacă condiția de hazard
proporțional este respectată.
Pentru fiecare grup se determină valorile observate ale frecvenţelor absolute (valorile determinate
experimental, notate cu O) şi se calculează de asemenea valorile aşteptate (expected values, notate cu E).
De exemplu pentru două loturi de 30 respectiv de 40 pacienţi, în care avem în prima săptămână un singur
deces, putem calcula aceste valori ale frecvenţilor:
- frecvenţa absolută observată O=O1+O2=1, respectiv relativă este 1/(30+40)=0.0142.
- frecvenţa absolută aşteptată în grupul 1 este Egrup1=30 * 0.0142=0.428
- frecvenţa absolută aşteptată în grupul 2 este Egrup2=40 * 0.0142=0.572
Se determină pentru fiecare grup frecvenţele absolute aşteptate în fiecare moment și apoi se calculează
suma frecvenţelor observate totale şi aşteptate pentru grupul 1 respectiv grupul 2.
σ O − σ Ejt 2
σ
t jt t
În final se află statistica Chi pătrat: χ = j
2 σ E
t jt unde j reprezintă grupul iar t timpul.
Numărul gradelor de libertate este nr. de grupuri -1.
În final se compară valoarea calculată cu valoarea tabelată.
Observaţii

Menţionăm că în cazul studiului decesului, panta echivalentă a curbei de supravieţuire este de dorit să fie
cât mai mică, implicând ca graficul să fie cât mai aproape de o paralelă cu axa XX’. Aceasta ar implica o
scădere lentă a probabilităţii de supravieţuire în timp. Efectul ar fi un timp de viaţă îndelungat, evident sperat
poate de mulţi dintre noi.
Dacă intenţionăm să studiem timpul necesar pentru ca un medicament să aibă efect în însănătoşirea
pacientului, atunci de dorit este ca panta să fie cât mai mare, adică efectul să fie cât mai rapid.
Iată, depinzând de situaţia în care ne aflăm, forma grafică a funcţiei poate diferi, având caracteristici dorite
chiar opuse, tocmai datorită scopului optim de atins.
Probabilitate cumulată

Probabilitate cumulată
Eveniment = deces Eveniment = efect tratament

Timp
Timp
Exemplu de realizare a analizei de supravieţuire folosind metoda Kaplan Meier în SPSS

Lansarea în execuţie se realizează apelând meniul şi urmând calea: Analyze → Survival → Kaplan-Meier

Pentru a putea analiza supravieţuirea, se încarcă mai


întâi fişierul de date cu cel puţin două coloane, ce
reprezintă timpul dintre evenimentul de start şi cel de stop,
respectiv tipul evenimentului (cenzură sau deces).
Codificările pentru evenimente pot fi numerice, în
majoritatea cazurilor 0 reprezintă cenzură iar 1 reprezintă
deces.
Fiecare rând din tabel defineşte practic un pacient
inclus în eşantionul de studiu. Astfel numărul total de
rânduri va fi egal cu volumul eşantionului (număr total
pacienţi).
Dacă dorim să comparăm datele ne mai trebuie o
coloană ce definește grupul de studiu (codificat 1,2,3..).
În etapa următoare se definesc variabilele de lucru deci
variabila ce determină timpul scurs între evenimente
(pentru cazul nostru coloana notată „Zi”), respectiv
variabila ce precizează tipul evenimentului (pentru cazul
nostru coloana „Eveniment”).

Pentru a înţelege tipul de codificare utilizat, se


foloseşte butonul „Define Event” în care se specifică
valoarea din coloană pentru evenimentul deces (sau
evenimentul studiat). În situaţia noastră valoarea 1
defineşte decesul iar 0 cenzura.

Dacă se doreşte o comparare între diferite curbe de


supravieţuire, se poate specifica în coloana factor,
variabila ce defineşte subgrupurile pentru analiză. Pentru
cazul nostru coloana tratament definește subgrupurile.
Se specifică de asemenea şi testele statistice de
verificare a diferenţelor presupuse prin opțiunea Compare
Factor.

Coloana factor poate fi spre exemplu o variabilă de tip


dicotomic ce defineşte tratamentul aplicat. Se doreşte o
comparaţie între două tratamente pentru a vedea care
prezintă un timp de supravieţuire mai îndelungat.

Menționăm că SPSS acceptă mai mult de două grupe,


dar prin semnificația calculată nu se indică efectiv seturile
de date care diferă (dacă se obține semnificație).
În final acestea trebuie comparate două câte două, sau
se poate folosi un model de analiză Cox în care
covariabila este tocmai grupul. Se va stabili apoi un set de
referință față de care se face analiza.
În final cu ajutorul butonului Options se definesc
indicatorii statistici ce se vor calcula cât şi graficele ce pot
fi realizate. Cel puţin funcţia de supravieţuire trebuie
reprezentată grafic cât şi calculele necesare realizării
tabelei de supravieţuire
Interpretarea rezultatelor

Primul tabel reprezintă o descriere a


seturilor de date : numărul de participanți din
fiecare grup de studiu, numărul de
evenimente apoi cenzurile și procentul
acestora din total.

Conform analizei cerute va fi prezentat un


tabel de supravieţuire conţinând pentru fiecare
caz în parte momentul de timp al
evenimentului realizat, valorile funcţiei de
supravieţuire şi a erorii standard , numărul de
evenimente cumulative şi cele rămase.
Dacă s-a cerut calculul anumitor indicatori statistici (medie, mediană, cuartile) aceştia
sunt prezentaţi într-un tabel separat, fiind afişat şi intervalul de confidenţă. Acestea pot fi
folosite pentru verificarea într-o primă formă a suprapunerii intervalelor de confidenţă
pentru compararea diferitelor curbe. Dacă există suprapunere a intervalelor atunci şansa
de a diferi semnificativ este minimă.
Testele de comparare efectivă sunt prezentate în tabelul următor. Se acceptă pragul standard de 5%
echivalent valorii de 0.05. Dacă valoarea nivelului de semnificaţie calculat este sub 0.05 atunci se poate
decide că diferenţa este semnificativă statistic şi nu întâmplător cele două curbe diferă. Astfel tratamentul 1
este diferit faţă de tratamentul 2 din punctul de vedere al evenimentului studiat.
Pentru cazul nostru, valoarea semnificației p este cu mult peste pragul de 0.05. În concluzie nu există
diferenţă semnificativă statistic, deci cele două tratamente au efecte asemănătoare (din punct de vedere al
timpului de supraviețuire).
DE REȚINUT

- Curba Kaplan-Meier (KM) reprezintă funcția de supraviețuire – descrie în timp modificarea probabilității de
supraviețuire P(T>ti);
- Deoarece avem în timp decese curba este descrescătoare dar poate ajunge la un moment dat constantă;
- Tehnica KM permite introducerea de noi pacienți pe durata studiului;
- Tehnica KM acceptă pierderea de participanți pe durata studiului (cenzuri);
- Un participant la studiu în final se poate afla într-una din cele două stări: eveniment studiat îndeplinit sau
cenzură;
- Se pot compara curbele KM prin teste neparametrice folosind statistici de tip Chi pătrat;
- Dacă comparăm mai mult de două funcții de supraviețuire și obținem semnificație nu știm care dintre
curbe diferă (se pot compara două câte două sau metoda Cox).
- Metoda KM nu ține cont de eventualele covariabile ce pot afecta probabilitatea de supraviețuire (metoda
Cox este dezvoltată pentru aceasta);
- În timp volumul eșantionului scade (datorită cenzurilor și evenimentelor îndeplinite). Dacă am reprezenta
curba KM cu intervale de confidență acestea ar crește odată cu timpul;
- Deoarece timpul măsurat nu respectă de obicei o distribuție normală, cuartilele sau la modul general
cuantilele (percentile) ne dau informații pertinente în studiul supraviețuirii;
- Metoda KM reprezintă o formă generală de analiză a probabilității cumulate a evenimentului în timp – nu
este dedicată doar supraviețuirii.
Exemplu – R pachetul survival

Avem un fișier ce conține trei coloane care descriu timpul, evenimentul respectiv grupul (salvat sub
formă text cu delimitare tab). Este un fișier generic, timpul este exprimat în zile, evenimentul este definit cu 1
respectiv grupul cuprinde două valori, 1 și 2.
Încărcăm pachetul survival:
> library(survival)

Deschidem interactiv fișierul text și-l definim data_1:


> data_1=read.delim(file.choose(), sep = "\t", header=TRUE)

Vom folosi funcția survfit() din pachetul survival pentru a calcula


cenzurile, decesele, probabilitatea și toți indicatorii folosiți în analiza
Kaplan Meier.
> KM1 <- survfit(Surv(zi, eveniment==1) ~ grup, data = data_1)
> KM1
Call: survfit(formula = Surv(zi, eveniment==1) ~ grup, data = data_1)
n events median 0.95LCL 0.95UCL (confidence limit)
grup=1 45 20 10 8 NA
grup=2 58 31 8 8 13
Reprezentarea grafică

Avem o varietate de parametri pentru reprezentarea grafică (putem afișa chiar valoarea semnificației
comparării curbelor). Folosim funcția ggsurvplot(). Această funcție se găsește în pachetul survminer.
> library(survminer)
> ggsurvplot(KM1,conf.int = TRUE, surv.median.line = "hv",pval=TRUE,break.time.by=2)
Putem compara curbele de supraviețuire prin mai
multe teste – exemplificăm doar pentru log rank test
(rho=0):
>survdiff(Surv(zi, eveniment) ~ grup, data =
data_1,rho = 0)

N Observed Expected (O-E)^2/E (O-E)^2/V


grup=1 45 20 22.5 0.277 0.608
grup=2 58 31 28.5 0.219 0.608

Chisq= 0.6 on 1 degrees of freedom, p= 0.4


Pentru rho=1 se aplică modificarea Peto & Peto a
testului Gehan-Wilcoxon.
Situația unui singur set de date

Iată avem doar două coloane ce definesc timpul până la eveniment respectiv tipul evenimentului.
Vom avea o singură curbă Kaplan Meier ce o putem caracteriza statistic.
> library(survival) # încărcăm pachetul necesar analizei
> data_1=read.delim(file.choose(), sep = "\t", header=TRUE) # încărcăm datele de lucru
> KM1 <- survfit(Surv(zi, eveniment==1) ~ 1, data = data_1) # calculăm datele necesare creării
analize KM. Aici s-a folosit funcția survfit ce creează un obiect numit KM1 face apel la funcția Surv ce
depinde de un singur grup ~ 1.
> summary(KM1) # afișăm sumarul calculelor din obiectul KM1
Situația unui singur set de date

Putem apela direct obiectul KM1


> KM1
Call: survfit(formula = Surv(zi, eveniment==1) ~ 1, data = data_1)
n events median 0.95LCL 0.95UCL # LCL=Lower Confidence Limit
103 51 8 8 11
În mod special ne interesează cuartilele (sau cuantilele de 25%, 50%, 75%).
> quantile(KM1,probs = c(0.25, 0.5, 0.75), conf.int = TRUE)
$quantile
25 50 75
5 8 13

$lower
25 50 75
4 8 11

$upper
25 50 75
8 11 NA
Reprezentarea grafică

Pentru aceasta vom încărca pachetul survminer

> library(survminer)
> ggsurvplot(KM1,fun="pct",conf.int = TRUE, surv.median.line = "hv",break.x.by=2,xlab="Zi", palette =
"blue", risk.table = TRUE)
> ggsurvplot(KM1,fun="cumhaz",conf.int = TRUE,break.x.by=2,xlab="Zi", palette = "red")
VĂ MULȚUMESC !

S-ar putea să vă placă și