Sunteți pe pagina 1din 12

Universitatea "AL. I.

Cuza" Iaşi
Facultatea de Economie şi Administrarea Afacerilor

Proiect
Modele de durată

Specializarea: Statistică şi actuariat în Asigurări de Sănătate

Iaşi
2010
1. Elemente pentru caracterizarea funcţiei de supravieţuire
a) Conceptul de supravieţuire

Pentru a definii funcţiile de supravieţuire si hazard, trebuie mai întâi definit conceptul
de supravieţuire. În cazul supravieţuirii biologice, moartea este lipsită de ambiguitate, dar
pentru fiabilitatea mecanică, eşecul nu pot fi bine definit, deoarece pot exista sisteme
mecanice, în care eşecul este parţial, o chestiune de grad sau nelocalizat în timp. Chiar şi în
problemele biologice, unele evenimente (de exemplu, atac de cord sau insuficienţă a unor
organe) pot avea aceleaşi ambiguitate. Teorie subliniată de mai sus îşi asumă evenimente bine
definite la momente specifice; alte cazuri pot fi mai bine tratate de alte modele, care în mod
explicit iau în considerare evenimente ambigue.
Teoria de supravieţuire presupune că moartea sau eşecul se întâmplă doar o singură
dată pentru fiecare subiect. Studiul evenimetelor recurente este relevant în sistemele de
fiabilitate, precum şi în multe domenii ale ştiinţelor sociale şi de cercetare medicală.

b) Funcţia de supravieţuire
Funcţia de supravieţuire este prin definiţie o completare a funcţiei de repartiţie:
S ( t ) =1 − F ( t ) = P(T > t )

Convenţional este notată cu S şi reprezintă o funcţie descrescătoare, S(0)=1 (dacă


P(T=0)=0, ceea ce presupunem) şi lim de t→∞ din S(0)=0. Dacă durata medie de supravieţuire
(media) există, atunci ea se exprimă doar cu ajutorul lui S:
∞ ∞ ∞
E (T ) = ∫ tdF (t ) = −∫ tdS (t ) = ∫ S (t ) dt
0 0 0

Un alt termen pentru funcţia de supravieţuire este cel de funcţie complementară


cumulativă de distribuţie. Fie T o variabilă continuă aleatoare cu funcţia cumulativă de
distribuţie F(t) pentru intervalul [0,∞). Funcţia de supravieţuire va fi :

R ( t ) = P ( {T > t } ) = ∫ f ( u ) du = 1 − F ( t )
t

Fiecare funcţie de supravieţuire R(t) este monoton descrescătoare, iar R (u) <R (t)
pentru u> t. Timpul, t = 0, poate reprezinta originea, de obicei începutul unui studiu sau de
începerea funcţionării unor sistem. R (0) poate reprezenta probabilitatea ca sistemul să nu
reuşească imediat după operaţie.
Funcţia de supravieţuire reprezintă probabilitatea ca momentul morţii să fie mai târziu
de o perioadă de timp specificată. Funcţia de supravieţuire este numită, de asemenea, funcţie
de urmaş sau funcţe de fiabilitate în probleme de supravieţuire mecanice.
Funcţia de supravieţuire trebuie să fie necrescătoare: S (u) ≤ S (t) în cazul în care u> t.
Acest lucru reflectă faptul că noţiunea de supravieţuire la o vârstă mai târzie este posibilă
numai în caz de supravieţuire la toate vârstele tinere. Având în vedere această proprietate,
funcţia de distribuţie pe durata de viaţă şi de densitate a evenimentului (F şi F de mai jos) sunt
bine definite. Funcţia de supravieţuire tinde de obicei către 0, S (t) → 0 AS t → ∞, deşi limita
ar putea fi mai mare decât zero, dacă viaţa veşnică este posibilă.
Varianţa se calculează în cayul funcţiei de supravieţuire după următoarea relaţie de calcul:

V (T ) = 2 ∫ tS (t )dt − E (T ) 2
0
Pentru o funcţie de supravieţuire, valoarea Y pe grafic începe la 1 şi uniform scade la
zero. Funcţia de supravieţuire ar trebui să fie în raport cu funcţia cumulativă de distribuţie.

c) Variabile şi parametrii
T- timpul sau durata până la producerea unui eveniment, numit şi timpul de
supravieţuire (survival time),
T este o variabilă aleatoare pozitivă (T≥0), definită cu precizie, pentru care se
stabileşte cu exactitate mărimea duratei de la începutul studiului şi până în momentul în care
se produce evenimentul. Termenul de eveniment face referire fie la un eşec, respectiv moarte,
apariţia unei boli, fie la un eveniment pozitiv.

d) Metode pentru estimarea funcţiei de supravieţuire

Abordarea neparametrică

i. Metoda actuarială (life-table sau actuarial method)


S(t)=q1*q2*q3*......*qi
unde: qi = P(T>ti‌T≥ti) reprezintă proporţia persoanelor care nu au cunoscut
evenimentul la momentul ti sau probabilitatea condiţionată de a supravieţui momentului ti,
ştiind că indivizii sunt în viaţă până la momentul ti.
1-qi reprezintă rata de mortalitate mi din momentul ti;
mi=di/ni reprezintă proporţia indivizilor care au cunoscut evenimentul în momentul ti,
dacă cenzurile se produc la sfârşitul intervalului de timp. Dacă cenzurile se produc la
începutul intervalului, atunci rata de mortalitate estimată este egală cu: di
mi =
ni − wi
În situaţia în care cenzurile se produc în timpul intervalului, rata de mortalitate
estimată va fi egală cu: di
mi =
ni − ( wi / 2 )
În acest caz, estimăm rata de mortalitate utilizând mărimea ni-(wi/2), care reprezintă
volumul real al eşantionului.

ii. Estimatorul Kaplan-Meier


Estimatorul Kaplan-Meier de asemenea cunoscute ca estimatorul de produs limită. În
cercetarea medicală, poate fi utilizat pentru a măsura fracţiunea de pacienţi care trăiesc pentru
o anumită perioadă de timp după tratament. Un economist ar putea măsura intervalul de timp
în care oameni rămân fără loc de muncă după o concediere. Un avantaj important al curbei
Kaplan-Meier este că metoda poate lua în considerare date "cenzurate" - pierderi din eşantion,
înainte de rezultatul final (de exemplu, dacă un pacient se retrage dintr-un studiu). Atunci când
nu există trunchieri sau cenzura nu are loc, curba Kaplan-Meier este echivalentă cu o
distribuţie empirică.
Estimatorul Kaplan-Meier este o estimarea neparametrică de risc maxim de S (t).
Acesta este un produs de forma:

unde ni reprezintă numărul de personae supuse riscului de a cunoaşte evenimetul în ti


sau ansamblul persoanelor care, imediat înainte de momentul ti nu cunoscuseră evenimentul şi
nu ieşiseră de sub observaţie
wi desemnează numărul persoanelor cenzurate (de exemplu ieşite de sub observaţie).
Estimatorul Kaplan-Meier este o statistică pentru care sunt necesari mai mulţi estimatori
pentru a-i aproxima varianţa. Una dintre cei mai comuni estimatori este Greenwood's:

iii. Estimatorul Nelson-Aalen


Estimatorul Nelson-Aalen reprezintă o alternativă pentru folosirea estimatorului
Kaplan-Meier pentru a estima funcţia de supravieţuire şi funcţia hazardului cumulate,
principala diferenţă fiind faptul că se porneşte de la determinarea funcţiei hazardului cumulate
şi se continuă cu estimarea funcţiei de supravieţuire.
Ambii estimatori oferă aceleaşi estimaţii pentru eşantioane de volum mare, însă pentru
cele de volum mic, estimările sunt diferite, estimatorul Nelson-Aelen oferind rezultate mai
bune pentru funcţia hazardului cumulate.

 di 
Pentru hazardul cumulate se utilizează următoarea relaţie de calcul:

H (ti ) = ∑  
Funcţia de supravieţuire se calculează astfel:
exp( − H ( t i ) )
Varianţa estimatorului Nelson-Aalen era

i / ti 〈 t ndii 
următoarea formulă de calcul:

Abordarea parametrică
Estimarea parametrică constă în alegerea formei unei distribuţii, V ( H ( t) = ∑  2 
i / ti 〈 t ni 
ca de exemplu: distribuţia exponenţială, distribuţia Weibull, distribuţia
log-normală, distribuţia Gamma şi distribuţia Gompertz-Makenham.
În cazul distribuţiei Weibull, funcţia de supravieţuire se
calculează astfel:
α
S (t ) = e − λ t , t〉 0
Conform distribuţiei log-normală, funcţia de supravieţuire are următoarea formă:
 ln ( tα ) 
S (t ) = 1 −φ 
 β 

unde ф este funcţia de repartiţie a legii normale standarde N(0,1).

Expresia funcţiei de supravieţuire prin distribuţia Gompertz-Makeham este de forma:



S (t ) = exp − at −
b
ln( c)

c t −1 [ ]
 
e. Intervalul de încredere pentru durata medie, mediana, de supravieţuire

Media este calculată pe ansamblul perioadei cuprinsă între momentul t0 şi momentul


maxim de-a lungul căreia a fost observat evenimentul. De remarcat este faptul că această
perioadă nu cuprinde ieşirile de sub observaţie care vor avea loc după acest moment maxim.
Media şi mediana se calculează foarte uşor cu ajutorul programului SPSS.

f. Teste de comparare a distribuţiilor funcţiilor de supravieţuire la nivelul a două


subpopulaţii
De regulă putem folosi două metode pentru a compara funcţii de supravieţuire şi
pentru a testa dacă există diferenţe semnificative. Prima metodă se bazează pe calcularea
intervalelor de încredere pentru fiecare funcţie de supravieţuire (ex. Life table, product limit
methods). Ambele metode furnizează estimaţii pentru erorile standard ale funcţiei de
supravieţuire. O altă posibilitate este de a calcula statistici test specifice pentru a compara
două sau mai multe funcţii de supravieţuire.

2. Elemente pentru caracterizarea funcţiei hazardului


în cazul modelului Cox

a) Conceptul de hazard
Hazardul reprezintă:
- este o mărime latentă care măsoară un potenţial instantaneu de producere a unui
eveniment;
- manieră intuitivă în cazul unui eveniment repetabil;

-numărul mediu aşteptat de evenimente, dacă se menţin aceleaşi condiţii pe întreaga


perioadă;
- densitate condiţionată a cărei valoare estimată poate fi mai mare ca 1.
Inversul hazardului reprezintă durata medie anterioară producerii evenimentului, dacă
se menţin aceleaşi condiţii de producere a evenimentului.

b) Funcţia hazardului
Funcţia de hazard (sau rata de risc, rata de default, rata de deces, risc instantaneu, etc)
este prin definiţie: f (t ) S ' (t ) d
h( t ) = = =− ln S ( t )
S(t ) S (t) dt

Putem deduce că funcţia de hazard determină în întregime legea lui T rezultând


următoarea relaţie:

 t 
S ( t ) = exp  − ∫ h( s ) ds  t
Funcţia hazardului cumulat  0  H ( t ) = ∫ h( s ) ds
se notează în general (H fiind crescător): 0

sau S ( t ) = exp ( − H ( t ) )
În anumite teste de competenţă H(T) urmează o lege exponenţială de parametru 1:
( ) ( ) ( ) ( ( ))
P( H ( T ) > x ) = P T > H −1 ( x ) = S H −1 ( x ) = S H −1 ( x ) = exp − H H −1 ( x ) = exp( − x )
O particularitate a funcţiei de hazard este că aceasta este crescătoare doar dacă este
singură dacă durata de viaţă reziduală în funcţie de u este stochastic decrescătoare ca funcţie
de u. Astfel, se utilizează funcţia de hazard pentru a specifica un model de durată.

c) Variabile şi parametrii
Modelul Cox este o sub-categorie a modelelor de supravieţuire, în care efectul unui
tratament în conformitate cu studiul are un efect multiplicativ asupra ratei de risc al
subiectului. De exemplu, un medicament poate să reducă la jumătate o probabilitate imediată
de accident vascular cerebral.
Modele de supravieţuire cuprind din două părţi: funcţia de bază de pericol, de multe ori
notate Λ 0 (t), descriind modul de pericol (risc), modificări în timp, la nivelul iniţial al
variabilelor concomitente, precum şi parametrii de efect, care descriu modul în care variază în
funcţie de pericol, ca răspuns la covariabilele explicative. Sir David Cox a observat că dacă
ipoteza hazardelor cumulate se aplică, atunci este posibil să se estimeze parametrul the efect
(s) fară luarea în considerare a funcţiei de control.
Modelul Cox cunoscut şi dub numele de model semiparametric, are următoarele componente:
i. componenta neparametrică, datorată absenţei ipotezei asupra formei funcţiei riscului
h0(t) sau asupra distribuţiei duratei T0;
ii. componenta parametrică, care exprimă efectele predictorilor asupra hazardului
predictorii fiind parametrizaţi sub formă liniară.

d) Metode de estimare
Modelu Cox sau semiparametric cu hazarduri proporţionale este estimate prin
maximizarea unei funcţii de verosimilitate parţială, care este independentă de funcţia de
referintă h0(t) şi de parametrii acesteia.
Statisticile Wald şi Score Test sunt folosite pentru a testa semnificaţia unui
subansamblu de parametri după o lege Chi pătrat, pentru un număr de grade de libertate egal
cu numărul coeficienţilor b sau a numărul de variabile explicate.
În cazul în care nu se poate realiza cu exactitate un calcul al verosimilităţii, se recurge
la aproximarea Breaslow. Potrivit acesteia, atunci când mai multe durate se termină la
momentul ti, se defineşte contribuţia fiecărei dintre ele utilizând acelaşi numitor.
e) Proprietăţile modelului
Modelul Cox indică rata hazardului sau riscul de default de a cunoaşte evenimentul
studiat în funcţie de o combinaţie liniară de factori explicativi şi permite cunatificarea şi
testarea efectelor proprii ale predictorilor, asupra riscului de tranziţie către o altă parte.
Acest model se deosebeşte prin faptul că nu presupune o ipoteză asupra formei
distribuţiei duratelor, lucru care a întărit încrederea în acest model.
Principalele caracteristici ale modelului Cox:
i. oferă posibilitatea de a estima coeficienţii β fără nici o ipoteză asupra formei lui
h0 ;
ii. caracterizat de curbele LLS, logaritmul antilogaritmului funcţiei de
supravieţuire, paralele pentru diversele combinaţii ale valorilor variabilelor
explicative (fapt care facilitează o identificare geometrică pentru curbele
estimate).
3) Pentru un eşantion de 104 pacienţi cu afecţiuni cardiace s-a înregistrat timpul până la
producerea primului infact:

a) Să se estimeze funcţia de supravieţuire pentru durata producerii a primului infarct pentru


aniii 2, 4, 6, 8, 10, 12 şi 14 pentru persoanele cu afecţiuni cardiace.
Anii Număr Număr de
persoane cenzuri ni mi qi=1-mi SD(ti)
cu infarct
0-2 2 3 105 0,019 0,981 0,981
2-4 1 2 100 0,01 0,99 0,971
4-6 4 8 97 1,041 0,959 0,931
6-8 3 10 85 0,035 0,965 0,898
8-10 2 21 72 0,028 0,972 0,873
10-12 2 21 49 0,041 0,959 0,838
12-14 3 21 26 0,115 0,885 0,742

b) Să se determine varianţa estimatorului pentru anii 2, 4, 6, 8, 10, 12 şi 14 considerând


volumul eşantionului ni-wi/2 în loc de ni în formula varianţei.
di
V [ S(t)] = [ S(t )] ∑ ni( n ( formulaGre enwood )
2

ti i − di )
wi/2 ni- wi/2 V[S (t)]
1,5 103,5 0,00018
1 99 0,00009 4) Se dă următorul set
4 93 0,00020 de date pentru durată :
5 80 0,00039 3, 4, 5+, 6, 6+, 8+, 11,
14, 15, 16+,unde « + »
10,5 61,5 0,00042
semnifică o durată
10,5 38,5 0,00100 cenzurată la dreapta :
10,5 15,5 0,00085
a) Să se estimeze funcţia de supravieţuire şi varianţa estimatorului Kaplan-Meier

ti ni di wi mi 1-mi S(ti)
0 10 0 0 0 1 1
1 10 0 0 0 1 1
2 10 0 0 0 1 1
3 10 1 0 0,1 0,9 0,9
4 9 1 0 0,1 0,9 0,81
5 8 0 1 0 1 0,81
6 8 1 1 0,125 0,875 0,71
7 7 0 0 0 1 0,71
8 7 0 1 0 1 0,71
9 7 0 0 0 1 0,71
10 7 0 0 0 1 0,71
11 7 1 0 0,142 0,858 0,6
12 6 0 0 0 1 0,6
13 6 0 0 0 1 0,6
14 6 1 0 0,166 0,834 0,5
15 5 1 0 0,2 0,8 0,4
16 4 0 1 0 1 0,4

di
V [ S(t)] = [ S(t )] ∑ ni( n ( formulaGre enwood )
2

ti i − di )

[S(ti)]2 di/ni(ni-di) V[S(ti)]


1 0 0,14
1 0 0,14
1 0 0,14
0,81 0,01 0,11
0,66 0,01 0,09
0,66 0 0,09
0,50 0,02 0,07
0,50 0 0,07
0,50 0 0,07
0,50 0 0,07
0,50 0 0,07
0,36 0,02 0,05
0,36 0 0,05
0,36 0 0,05
0,25 0,03 0,03
0,16 0,05 0,02
0,16 0 0,02
di
∑ti ni ( ni − d i )
=0,14

b) Să se estimeze funcţia hazardului cumulat şi varianţa sa cu ajutorul estimatorului Nelson-


Aalen.

ti ni di di/ni H(t) di/ni2 σ 2(H(t)


)
3 10 1 0,1 0,1 0,01 0,01
4 9 1 0,11 0,21 0,012 0,022
6 8 1 0,125 0,335 0,015 0,037
11 7 1 0,143 0,478 0,02 0,057
14 6 1 0,166 0,644 0,027 0,084
15 5 1 0,2 0,844 0,04 0,124

di
V ( H (t )) = ∑ 2 =0,124
ti <t ni
c) Să se estimeze funcţia de supravieţuire folosind estimaţiile Nelson-Aalen de la subpunctul
b.
S (t ) = exp( −H (t ))

S(t)
0,9
0,81
0,72
0,62
0,53
0,43

5) Aplicaţie pentru modelul Cox

Fenomenul observat îl constituie durata până la apariţia infecţiei de la inserţia unui


cater, pentru pacienţii care se confruntă cu insuficienţă a rinichilor şi folosesc echipament
portabil pentru dializă.
Caterele pot fi îndepărtate şi pentru alte motiv decât cel legat de infecţie, caz în care
observaţia este cenzurată. Fiecare pacient are două două consultaţii.

a) Estimarea unui model simplu


Dorim să explicăm hazardul de apariţie a unei infecţii în funcţie de următoarele
variabile explicative:
• vârstă;
• sex- sexul persoanei (1-masculin; 2-feminin);
• tip_boală (0-nefrita glomerulară; 1-nefrita acuta; 2-rinichi polichistic; 3-altele).

Variabila dependentă (răspuns) este caracterizată prin două variabile:


• timp-durata până la infecţie;
• status- statusul pacientului bolnav de insuficienţă renală abservat: 1-Eveniment:
infecţie; 0-Episod cenzurat.

În programul SPSS se utilizează următoarele funcţii: Analyze→ Survival →Cox Regression.


Case Processing Summary

N Percent

Cases available in analysis Eventa 76 100.0%

Censored 0 .0%

Total 76 100.0%

Cases dropped Cases with missing values 0 .0%

Cases with negative time 0 .0%

Censored cases before the 0 .0%


earliest event in a stratum

Total 0 .0%

Total 76 100.0%

a. Dependent Variable: timp

Block 0: Beginning Block

Omnibus Tests of
Model Coefficients

-2 Log Likelihood

513.305

Block 1: Method = Enter


Omnibus Tests of Model Coefficientsa,b

Overall (score) Change From Previous Step Change From Previous Block

-2 Log Likelihood Chi-square df Sig. Chi-square df Sig. Chi-square df Sig.

507.727 6.044 3 .109 5.578 3 .134 5.578 3 .134

a. Beginning Block Number 0, initial Log Likelihood function: -2 Log likelihood: 513.305

b. Beginning Block Number 1. Method = Enter

Variables in the Equation

B SE Wald df Sig. Exp(B)

varsta .001 .008 .009 1 .922 1.001

sex -.562 .273 4.248 1 .039 .570

tip_boala -.120 .107 1.264 1 .261 .887


Covariate Means

Mean

varsta 43.697

sex 1.737

tip_boala 1.553

Data on the recurrence times to infection, at the point of insertion of the catheter, for kidney
patients using portable dialysis equipment. Catheters may be removed for reasons other than
infection, in which case the observation is censored. Each patient has exactly 2 observations.

The data set has been used by several authors to illustrate random effects ("frailty") models for
survival data. However, any non-zero estimate of the random effect is almost entirely due to
one outlier, subject 21.

• patient id
• follow-up time
• status: 0 = censored, 1 = infection
• age
• sex (1 = male, 2 = female)
• disease type
o 0 = Glomerulo Nephritis
o 1 = Acute Nephritis
o 2 = Polycystic Kidney Disease
o 3 = Other
• estimate of the frailty, as listed in the reference below

S-ar putea să vă placă și