Inf No Parametric Con Datos Censurados PDF

ESTADISTICA ESPAOÂ
Vol. 33, Nm. 127, 1991, pgs. 325 a 362
Inferencia no paramtrica con datos

censurados
WENCESLAO GONZALEZ MANTEIGA
Y
CARMEN CADARSO SUAREZ (*)

Departamento de Estadstica e Investigacin Operativa
Facultad de Matemticas
Universidad de Santiago de Compostela
RESUMEN
En este trabajo se revisa la metodologa de la inferencia no
paramtrica, con muestras en las que existen datos censurados,
desarrollada fundamentalmente en los ltimos quince aos. La
censura considerada es la aleatoria por la derecha. Los tpicos
aqu revisados son los relativos al estudio del estimador de
Kaplan-Meier, asi como sus aplicaciones a la estirnacin funcional, los contrastes de hiptesis, intervalos y bandas de confianza,
regresin lineal, estimacin de curvas y aplicaciones. A su vez,
recientes tcnicas de estimacin no paramtrica y paramtrica
son tambin revisadas y aplicadas a datos de inters suministrados por el Hospital General de Galicia relativos a tiempos de
vida en procesos tumarales.
Palabras clave.^ Censura aleatoria por la derecha, estimador de
Kaplan-Meier.
Clasificacin A MS .^ 6 2 C; 0 5.
(')
Trabajo subvencionado por el proyecto de la Xunta de Galicia XUGA80505588.
f ^r ^^tai^;n^ ^ t Ê^^^ti^î ^^
1.
UNA VISION GENERAL DE LOS PROBLEMAS DE INFEREI'VCIA

SIN CENSURA
Una situacin general en la estimacicin funcional no paramtrica es la

descrita por los siguientes puntos:
a)
Se tiene una farnilia de distribuciones ^^, ={ F,,, ^l E O}.
b)
Se dispone de una muestra { X,,...,X } de la distribucin poblacional
F- Y
c) Se desea estimar el parmetro ^lo del espacio Cl, para el que Fo es la

distribucin ms cercana a F en algn sentido.
Diferentes puntos de vista de como F puede ser aproximada por Fo
resultan de la formulacin general introducida por Stute (1 986):
'" l)o es el valor para el que se satisface la ecuacin:
(1 .1 )
f T(x,tl^,F) dF(x) = 0
donde T es un funcional definido sobre Rx(^xl^; siendo f^ un espacio general

de distribuciones conteniendo a la poblacional ".
Si se pretende estirnar llo, la sustitucin de F por la distribucin emprica
F,,, construda con la muestra inicial, da lugar a la familia general de
estimadores, resultante de la estima.cin de la ecuacin (1 .1 ) y solucin de:
n
(1. 2 )
(1 /n ) ^ T ( X,, 1,,, F,^) = 0

,- ^
,.
La prctica totalidad de los estimadores f^ (camo se puede ver para ms
detalles en el libro de Serfling ( 1980) ) existentes en la literatura relativa a
la inferencia no pararntrica sin censura, pueden ser obtenidos a partir de
1a formulacin ( 1 .2). Basta con ver la siguiente relacin amplia de ejemplos:
i) T(x,l), F) = 1(^^/^>^l) f(x))/f(x), donde f es la densidad asociada a F,,, da
lugar^ a la estimacin de mxima verosimilitud.
iii T(x,(l,F) _ì'(x-ll), siendo `^' una funcin de R en R, representa la M
estimacin.
r
iii)
T(x,(I,F) = J(F(x) ), can f o J(t)dt= 1, representa la L estirnacin.
iv)
T(x,(I,F) = J( F(x) ) ^^(x-(1), la M-L estimacin.
v) T(x, U, F) ^ J(( F(x)+ 1- F(2 O-x) )/ 2), con

estimacin.
r (t)dt=0, representa la R
JoJ
^^7
I\F^f^Rf-^(Î^^ tiO P^^R^^ti1t ^TRI(^^^^ (Ôt O11Oti (^t ^^,t F21[^^(^ti
vi^ T(x,(^,F) _(F(x)-F(x) )(^^/t>fl)F(x},

de Cramer- Von M ises, ... etc.
la estimacin de mnima distancia
Bajo condiciones de suavidad sobre el funcional T, del tipa:

" T(x, l^, F+th) = T(x, f1, F}+DT (x, fl, F) ( th) + O(t2), cuanda t tiende a 0, uniformemente en h, siendo h cualquier funcin uniformemente aôtada y donde DT
es la derivada de R iesz:
(1 . 3}
DT (x, D, F)(h} = J h ry) ,c^ (x, CI, F, dy)
con ^c la medida asociada resultante del teorema de representacin de

Riesz",
se obtiene el resultado general ( Stute ( 1 986) }:
^n H' (f1O ) (lln - fl 0)
> N (O,c^)
(1.4)
con
H( fl )= JT (x, f1, F} dF (x) ,
^ = 1 (Q(y)- 1QdF)2dF(y)
Y
Q(y} = T(y,fô,F) - f1y^ ^^(x,flo,F,dz) dF(x)

A
bajo el supuesto de consistencia en probabilidad de f^,,.

Este resultado viene a representar una unificacin de todos los mtodos
desarrollados en aos anteriores. Obsrvese que la particularizacin ^^=0 da
lugar a la varianza asinttica de los estimadores de mxima verosimiiitud a
ms generalmente la de los M estirnadores generalizando a Huber (1 964).
Otras particularizaciones de inters son las siyuientes:
i1 ^c(x,f1,F) _ (1 /2)J' ( (F(x)+1 -F(2U-x) )/2) (c)X-c)r2_x^)

varianza asinttica de los R estimadores.
da
lugar a la
ii) ^^(x,(I,F) = J'(F(x) )t)x representa 1a varianza asinttica de los L estimadores, ... etc., resultando en cierta med^da que todos (os mtodos descritos
en el libro de Serfling (1 980) tienen una varianza asinttica que puede ser
expresada de una forma unificada va la derivada de Riesz.
Una visin todava ms general fu la introducida por Gon^lez Manteiga
(1990), sin ms que tener en cuenta que el parmetro fl descanocido
pudiera ser realmente una curva ^l(x), asociada a una medicin de depen-
f ^ 1^ I)Iti I I( ^ fÎ' ^\t 11 i
dencia entre un vector de covariables X y una variable respuesta Y, definida

por la siguiente generalizacin de la ecuacin (1 .1 ):
(1.5}
f T(y,^1(x), F(-/X-x) ) dF(y/X-x}=0

en ia que F(./X=x) representa la distribucin condicionada.
Si de forma alternativa a{ 1.2) se sustituye ahora la distribucin condicionada terica por una estimacin no paramtrica de la misma se obtiene de
forr^na unificada la varianza asinttica de todos los estimadores no paramtricos de la regresin existentes hasta la actualidad. En particular si se
utiliza un estimador no paramtrico tipo ncleo, por ejemplo el introducido
por Yang (1 981 )(con X unidimensional}:
^
F(y/x) _ { 1 /nh) ^^ ! y,- Y K ( (F(x)-F(X,) ) / h)

a partir de una rnuestra inicial {(X,,Y, ^ ,...,(X,,,Y) }, se verifica que el resultado anlogo a! visto en ( 1 .3)-(1.4) con la terminologa de { 1.5) es el
siguiente:
w
n h (r*1(x) - (I (x) ) H' {l^(x} ) -----^
N (o,Var(Q{Y}lX=x) cK}
^
donde O es el estimador no paramtrico resultante de (1 .5), h es el valor
del parmetro ventana utilizado y eK=K2{u)du, siendo K la funcin ncleo. ^
La varianza asinttica de todos los estimadores no paramtricos de curvas midiendo fas dependencias entre un vector de covariables y una variabie respuesta unidimensional puede tambin ser vista de forma unificada.
En base a esta visin genera! de la estimacin no paramtrica funcional
uno puede deducir un cierto grado de teora consolidada. Nuestro objetivo
en lo que sigue de trabajo va a ser la extensin de la estimacin funcional
bajo la existencia de censura unidimensional considerando sus posibles
aplicaciones.
As como bajo una situacin tradicional los estimadores fundamentales

eran la funcin de distribucin emprica o un estimador no paramtrico de
la distribucin condicional, en un contexto de datos censurados, stos
sern el estimador de Kaplan-Meier o una versin generalizada de ste,
para una situacin de existencia de covariables.
I^f f Itf `( I\ tc) I^\Ft ^ti1f T Rlc \((}^ I) \ Tc ^ ti c f^^1 K\(x)^
2.
^^y
INTRODUCCION A LOS MODELOS CON CENSURA
Los modelos estadsticos con muestras censuradas son de especial inters en ciencias experimentales como la medicina, la ingeniera,... etc. y han
tenido un desarrollo muy intenso en los ltimos aos, siendo la censura
aleatoria por la derecha la desarrollada por nosotros a lo largo de todo el
traba jo.
La situacin estndar para estos mecanismos de censura es la siguiente:

i^
La muestra aleatoria de inters es { T,,...,T }. T es la variable poblacio-
nal, representando muy frecuentemente el tiempo de vida de un enfermo,

la duracin de una pieza electrnica, el tiempo de reparacin de un sistema,... etc.
ii^ En ocasiones la variable T; no se observa debido a que se verifica la
realizacin de otra variable C;, que denominaremos de censura, antecediendo a la primera. A^ s, por ejemplo, el tiempo de vida de un enferrno por una
determinada enfermedad, puede no ser observado debido a que ste muere
en un accidente de carretera. Por tanto surge una nueva muestra aleatoria
{ C,, ..., C }, que supondremos independiente de la primera, y que recibe el
nombre de muestra de censura.
iii)
Finalmente la muestra observada viene dada por:

{ (Z, rV, )....i (^ni ^n^ ^
en donde Z,= rnin { T;,C; } y ,- ^{ r<

, c}
^ , ^- i ,..., n'
La consideracin de esta muestra representa una alternativa a la forma
ms simple de proceder, que resultara si se eliminasen los datos censurados. Dicho de otra forma, con esta muestra, uno est considerando la
informacin que proporciona el tiempo de vida Z, que al menos vivi el
individuo isimo respecto de la causa de inters cuando este dato es un
dato censurado.
Este mecanismo probabilstico que trae consigo la censura aleatoria por
la derecha viene descrito en gran medida por las siguientes curvas:
i)
La funcin de supervivencia de la vriable de inters T:

1 -F(t) = P(T > t)
ii)
La funcin de supervivencia de la variable que censura C:
1 -G (t) = P(G > t)
E ti r ^^ [^^^ i ic ^> f ^t^ ^ ^c ^^ .t
^ ^()
iii)
La funcin de supervivencia de la variable observada Z:

1-H(t} = P(Z > t)
en donde 1-H=(1 -F ^ (1-Gi, debido a la suposicin de independencia entre

T y C. F, G y H son por tanto las correspondientes funciones de distribucin
iv) La subdistribucin de la variable observada Z cuando sta es una

observacin no censurada:
H, (t) = P(Z < t, ^S -- 1) -. P(Z < t,T < C) _ .^^ { 1-G (s) ) dF (s)
v) La subdistribucin de la variable Z cuando sta es una observacin
censurada:
t
H2(t) = P(Z < t, ^S = 0) = P(Z ^ t,T > C) = Jo (1-F(s) ) dG Is}
con H(t) = H, (t) + H2(t).

vi)
La funcin de razn de fallo:
r(t^ = I i m (1 /^S) P (t<T < t+^S / T> t ^ = f(t) /( 1-F (t^ )

^ --^ o
^
en donde f es la funcin de densidad asociada a la variabie T. La funcin de
razn de fallo nos viene a indicar como es la probabilidad de supervivencia
en los momentos inmediatamente posteriores. Si esta probabilidad nos
interesa de forma acumulada resulta la razn de fallo acumulada:
.n ( t) _ .â r( s } ds = -/n (1 - F ( t 1 ) _ .ô (1 - F ( s 1 ) ^' dF {s ) _
r
_ ô {1-H(s) )-' dH,(si
A diferencia del contexto en el que no hay censura, no se puede estimar
la funcin de distribucin F poblacional mediante la distribucin emprica
en aquellas situaciones en las que por lo menos existe un dato censurado.
Alternativamente, uno puede, mediante las correspondientes empricas, estimar H, H, y ^1 respectivamente por:
H(t) _ (^ i // Z; < t } ),ln
H ,,,(t) = (^ { i% Z; ^ t , T, < C; } } /n
ItiF^Ê^KE ti(Î^^ tit) f^'^^K.-^ti1f I^KI(^^^^ (Ôti I}^11O^ ( t^^l Ft^1[X)^
r
A ( t ) _ ô
dH ^ ( s )
^`^ ( t)
1- H(s)
^-'
n-Rango(Z^)
î ^
donde ^3;(t) = 1{z;s t. r;S c; ^Teniendo en cuenta el problema que encierra la posible presencia de la
observacin Z^,,, no censurada, donde Z^,,, es el estadstico ordenado
mximo, es aconsejable la sustitucin en los denorninadores de la expresin n(t) por !as cantidades n- Rango (Z;) + 1. Con esta versin corregida y
en base a que 1-F(t) = exp {-A(t) }, resulta de forma natural un estimador
para la distribucin F en el context0 de datos censurados a travs de
1 - F(t) = exp { -n(t) }
(2.1 )
Por otro lado, utilizando el desarrollo de Taylor de primer orden de la

funcin
exp{ x}
en
torno
punto
al
cero
y
aplicndolo
a
exp{ -^;(t)/(n-Rango(Z^)+1 )}; j=1,...,n en (2.1 ), resulta el conocido estimador de Kaplan-Meier (1 958)
^
1-F(t)
0
n - Rango (Z^)
^ is,{^^
si t < Z^,,,
n - Rango (Z;) + 1
(2.2 )
en el resto
EI estimador de Kaplan-Meier (2.2) es el estimador bsico en el contexto

de datos censurados lo mismo que el emprico en el marco sin censura.
Presenta la propiedad de ser el estimador mximo verosrnil no pararntrico, siendo ste el mecanismo a travs del cual se ilega a fa expresin (2.2)
en el artculo de Kaplan-Meier (1 958). Ante la ausencia de censura este
estimador es la supervivencia emprica, es decir, 1-F(t), con F la distribu,
,.
côn ernp^r^ca.
3.
PROPIEDADES DEL ESTIMADOR DE KAPLAN-MEIER
ôs aos setenta y ochenta fueron prdigos en obtencin de resultados

relativos a distintas propiedades del estimador de Kaplan-Meier. En cierta
medida se obtuvieron propiedades paralelas a las de la distribucin emprica, que ya estaban perfectamente desarrolladas en el libro de Billingsley
{ 1 968). Una constante comn a todas estas propiedades es su generaliza-
^ ^^^r^^^r>i^rîc^.^ r tiF^^^^^^^ ^^
cin relativa a!as de la distribucin emprica. En efecto, como veremos a!o

largo de este epgrafe, en el caso particular de ausencia de censura resultarn las propiedades conocidas de la distribucin emprica.
Los resultados ms notables obtenidos en !os ltimos veinte aos son a
nuestro juicio los siguientes:
i) (Breslow-Crowley (1 974) ). " Bajo la suposicin de que las distribuciones F y G sean continuas, se verifica puntualmente en cada x E R, con
x< To y H(To} < 1, lo siguiente:
^
^ n ( F(x) - F(x} )
d -^ N (o,cr^(x) )
X
con cr^ (x) _ (1- F(x) ) 2 Jo (1 /(1- H (x) )^) dH , (x) ".
ii) (Breslow-Crowley (1 974) ). '" Bajo las suposiciones anteriores se verifica globalmente en el intervalo [O,To] :
d---^. Z(.1
^ t F - F)
siendo Z un proceso Gaussiano de rnedia cero y funcin de covarianza:

Cov(Z(s), Z(t) } _ (1-F(s) ) (1-F(t) } Jp 1 /(1-H)2 dH,
cuando s < t ".
iii) (Fldes-Rejto (1981) ). " En las condiciones de i) o ii) se cumple el
siguiente orden de convergencia uniforme:
s u p ( Fnx) - F lx) ^= O^
o`- x` To
log n^.
n
de forrna casi segura ".

iv1 (Chang-Rao (1989) ). " Puntualmente, igual que en i), se verifica una
cota de tipo Berry-Esseen para el estimador de Kaplan-Meier, es decir
s up ^ P ^ rr(x) ^' f n^, F(x) - F(x) ^
< y) - ^(y) I <
< K(1 +V(x}')(1 - H(x))^2
si
donde
x
V(x)=f o i/(1 -H(y) )2dH, (y} y ^ es la funcin de distribucin de una IV (0,1 }".
I?^t t Rk_ti(Î^^ tiO N^1K^1!^9ET^K!( ^1 t'Oti [)-^^f(15< f^^l ft^^[7K)^
î^
Todas las propiedades anteriores resuttan las conocidas para {a distribucin emprica en ausencia de censura. Esto es consecuencia de que, en
dicho caso, H es F, H, es tambin F y por tanto V(x)=F(x)/(1 -F(x) ). A su
vez, la distribucin asinttica global puede extenderse a todo R, dando
{ugar a{ proceso Gaussiano, cuyo supremo en valor abso{uto tiene la distribucin de Kolmogorov-Srnirnov, corno ya es conocido.
^ Otras propiedades de inters del estimador de Kaplan-Meier de notable
importancia son {as relativas a su eficiencia, cuando se trata de estimar ia
distribucin F desconocida en cada punto x. Desde ese punto de vista
Fernndez Sotelo-Gonzlez Manteiga ( 1 986), prueban que el estimador de
Kaplan-Meier puede ser mejorado bajo el criterio del error cuadrtico medio. En efecto, considerando la versin suavizada del mismo.
Fs(x) = J (1 /hn} K ( (x-u) /h) d F ( u)
( 3.1 )
donde
I
K(z) = f_^ K(u) du es la funcin ncleo acumulada, se verifica
v)
^(n) - n
(f(x}/(1-G(x} ) } J 2zK(z}K(z) dz
nhn
(1 -F(x) )2 V(x)
li m
n -^ ^
siendo f la densidad asociada a F, K una funcin ncleo positiva de segundo orden, es decir, JK=1, f zK(z)dz-o, JK(z)z2dz> O y K positiva y h el
parmetro ventana de la suavizacin. Por otro lado i(n) es el va{or entero
para el que
i(n) = m i n{ 1 E N/ M S E( F, (x) )< M S E( FS (x) )}

con MSE representando el error cuadrtico medio.
Esta ltima propiedad nos viene a garantizar que si suavizamos el esti> ^ cuando
mador de Kap{an Meier, con una ventana que verifique nh
h
> 0, es posible obtener un estimador infinitamente ms eficiente
desde el punto de vista del ndice r(n). Es decir bajo las condiciones anteriores sobre la ventana, la diferencia entre i(n) y n tiende a^, necesitndose
tamaos muestrales infinitamente mayores que n, cuando se quiere que el
error cuadrtico medio de1 estimador de Kaplan-Meier sea tan pequeo
como ei del estimador suavizado.
Esta idea de suavizacin del estimador de Kaplan-Meier generaliza a la
desarro{lada para la distribucin empirica por Azzalini (1 981 ), Faraldo
Roca-Gonz{ez Manteiga (1984) y Falk (1983, 1 984, 1 985}. Por otro lado
Z i^
F^ t^ i>i^, t ^r ^^^^^ t^^ ^^ ^
es especialmente interesante la suavizacin propuesta por Ghoray (1 989)

en un modelo de censura proporcional. En un modefo de este tipo.
(1-G (x) ) _ (1- F(x) )^s con %^ > 0

resultando de forma sencilla que la proporcin de censura viene dada por
P(c^=1)=f(1-G)dF=(1/(1+/3))=a
y por tanto
(1 -F(x) } _ (1 -H (x} 1z
Un estimador naturai para este tipo de censura es el definido a travs de
A
Fn(x) - 1
-(^- H n(a(j } xn
con
n
a _ ^ ^S; /n
,_ ^
1a proporcin de censura emprica. Suavizando este estimador mediante el
mismo mecanismo que el desarrollado con el estimador de Kaplan-Meier
en (3.1 ) se obtienen anlogas propiedades de eficiencia.
4.
A^ PLICAC!NES A LA INFERENCIA ESTADlSTICA DEL

ESTI VIADOR DE KAPLAN-MEIER
Varias aplicaciones en la inferencia estadstica surgen de manera natural

como consecuencia de la herramienta probabilstca desarrollada relativa al
estimador de Kaplan-Meier. Nos centraremos fundamentalmente en los
intervalos de confianza puntuales, !as bandas de confianza y los contrastes
de hiptesis del tipo Kolmogorov-Smirnov o^.
IRITERVAL^S DE CONFIANZA.
Teniendo en cuenta la normalidad asinttica del estimador de KaplanMeier descrita en el apartado anterior es natural definir un intervalo de
canfianza de nivel aproximadamente a a travs de:
r
^ F,^ (x) ^ zz^2 ^ 1 / n ) ^,^(x) l
I^.f 1 ftf ti( I^\(1 f' ^ft ^^1f l ftl( ^t (^(),. f)^^ I c)ti E f^ti1 Ft ^11x)ti
donde z,,2 es el cuantil correspondiente de la normal y c^(x) la estimacin

emprica de la desviacin tpica asinttica. Es decir
^r (x) _ (1 - F(x) )2 ` n , ^ ^
t ^/Z^ `^.
(n - Rango (Z,) )^
.
A su vez el denominador de esta ltima expresin puede ser corregido para

evitar el problema del cero en el denominador.
BANDAS DE CONFIANZA.
Considerando [O,T), con T en las candiciones del apartado anterior, y en
base a la distribucin asinttica global del proceso asociado a la distribucin de Kaplan-Meier, descrito en el apartado anterior, Hall-Wellner (1980)
dan la siguiente versin reescalada del mismo
^ l
^
F(x} - F (x)
(1 -F(x} ) / K(x)
> W (o K (xi )
donde
K(x) = 1-v(x) /(1 +v(x) ), con la funcin v previamente definida en el apartado anterior y W el puente browniano en el intervala (0,1 ). Para ms
detalles relativos a este proceso consultar el libro de Billingsley (1 968),
donde se puede ver que dicho proceso est definido como Wt-tW,, con W^
un proceso Gaussiano de media cero y funcin de covarianza Cov(s, t)= s si
S< t. Los procesos W y W son conocidos tambin como movimiento
browniano y puente browniano respectivamente.
Tomando `-N una funcin continua y positiva en (0,1 ) se verifica

sup
o= X= To
^
F(x1 - F(x)
^ `^ (K(x) )
_
^n ^
(1 -F(x) ) / K(x)
sup
^ W(K(x) ) ^`^(Klx) =
O' x^ T 0
sup
u T KIT^ ^
>
Iw(u)I ^(u)
^ Zh
f ^T 11)I^T I( -^ E ^N ^\OL ^>
De este modo poseyendo la tabulacin correspondiente a la distribucin

lmite, es decir
P { s ^. ^ ^
a. ^< b
^ W(u) ( ^ (u) < e^ } = 1 -a
es posible dar distintas bandas de confianza para distintas elecciones de ^.

Siendo de especial inters
^
a)
4'(u) = 1/ u(1 -u). La Ilamada banda de igual precisin de Nair
119 $4).
b1
4'(u) = 1/(1-u). Conocida como la banda de Renyi.
c)
4'(u) = 1. La banda de Hall-Wellner (1 980).
As por ejemplo, considerando las correspondientes estimaciones empricas y el eX adecuado, la banda de igual precisin viene dada por
[ F(x) -- (1 /^) er ^r(x) ] con x tal que a ^ K(x) ^ b donde K^ (t) es
la correspondiente estimacin emprica de K. EI nombre de igual precisin
es obviamente atribuible a que la banda posee en cada punto x una
anchura directamente proporcional a la varianza empricamente estimada
del estimador de Kaplan-Meier.
Iguales razonamientos se podrian aplicar a las otras bandas, observndose en general que la anchura de la banda resultante va a estar ntimamente
ligada a la funcin ^ utilizada. En esa lnea de resultados se encuentran los
profundos estudios de simulacin realizados por Nair(1984). Las conclusiones por ! obtenidas podrian resumirse de la siguiente manera:
i) EI funcionamiento de la banda de Renyi es ineficiente, siendo ms
estrecha que las bandas de igual precisin y de Hali-Wellner nicamente
en la cola superior. Esto es obviamente consecuencia de la penalizacin
que imprime la funcin `l' en esos puntos, ya que para ellos u tiende a 1 y
por tanto 4' tiende a^, obligando a que la diferencia entre el estimador
de Kaplan-Meier y la funcin terica desconocida sea cada vez ms pe^
quena.
ii) Las bandas de Hall-Wellner y de igual precisin son muy competitivas. La primera es rns estrecha en los puntos medios mientras que la
itima lo es ms en las colas. De anloga forma la explicacin de este
hecho radica en la naturaleza de `^. A su vez el mejor funcionamiento de la
banda de igual precisin se incrementa a rnedida que aumenta la propor-
cin de censura.
iii) Los valores crticos asintticos proveen aproximaciones razonables
para muestras finitas.
ftif F F^tf \( I^t 1(^ F'^^Ft ^!^1F i Rl('^^ C()^. [)-^ T<)ti ( f ^l Ft ^fX)^
^37
Por otro lado obsrvese que de las tres bandas citadas solo la de
Hall-Wellner es extensi^ n de la clsica de Kolmogorov -Smirnov. En efecto
esta sale como consecuencia de particularizar a=0 y b=1. Es decir soporte
sin restricciones. Adems a diferencia de sta las bandas construidas con
censura son de anchura aleatoria, siendo necesario un mecanismo de
muestreo secuencial cuando se quiera construir una banda de anchura
acotada por un cierto valor d. En esta lnea de actuacin es interesante el
trabajo de Dikta-Kurtz-Stute (1 989) quienes consideran la banda de
Hall-Wellner secuencial.
CONTRASTE D E H I PTES I S.
Las dos vas estudiadas para contrastar si la distribucin poblacional
desconocida F es Fo, bajo el modelo de censura aqu tratado, son la
correspondiente extensin del contraste de Kolmogorov-Smirnov y del contraste ,^.
Respecto al primer mecanismo se actuara en funcin de la banda utilizada rechazando la hiptesis en el caso de que en algn tramo la distribucin
Fo est fuera de la banda. EI mecanismo alternativo es el descrito por el
test ^ para este contexto. EI estudio del mismo fu desarrollado muy
recientemente por Akritas ( 1988). EI procedirniento en esencia es como
sigue. Si estamos interesados en contrastar la hiptesis F=Fo, que supondremos continua, establecindose una particin en R+ a travs de
A^- [a; ,, a^), con ,j =1 ,..., k y ao < a, <... < ak= ^ se tienen las sigu ientes
probabilidades
po;= P(Z E A;,d=O) =JA (1-Fo)dG

^
p,^= P(Z E A;,^)= 1) = J,^; (1-G)DF^,
con j=1,...,k.
Como G es desconocida y teniendo en cuenta la independencia,

(1 -G) (1 -Fo) _ (1 -H), G es estimada por
..
G= 1 - (1-H)/(1-Fo)
y de esa manera resultan de forma natural las estimaciones ^pv,

Akritas ( 1988) prueba la siguiente propiedad asinttica ^2.
( N,; - np,;}
L
;= T
nP,;
P,
IÎ \I>lti11^
Z^?^
^ t1!'^tl)l ^
donde N,c es la frecuencia absoluta de individuos que estn en el j-simo

elemento de la particin con ^)^ 1.
La conclusin ms sorprendente de este resultado es el hecho de que

este estadstico no generaliza al clsico ^ en ausencia de censura, dando
ms bien un test alternativo. En efecto el nmero de grados de libertad es
aqu k en contraposicin a k-1 del mtodo clsico. Akritas extiende este
mecanismo a la hiptesis compuesta en el mismo artculo. A su vez en
estudios de simulacin comprueba el buen funcionamiento del nuevo mtodo en ct^mparacin al clsico en ausencia de censura.
LA ESTIMACION FUNCIONAL.
Como hemos visto en el apa^tado uno la estimacin funcional en ausencia de censura est perfectamente desarrollada. Desde nuestro punto de
vista, y aunque existen algunos artculos de estimacin funcional con censura, ver por ejemplo Schick-Susarla-Koul (1 ^881, una forma de extender
la metodologa desarrollada en el apartado uno aplicando el estimador de
Kaplan-Meier consistira en definir como estimador de U la solucin de la
ecuacin (1.1 ^ cuando se sustituye F por el estimador de Kaplan-Meier. En
cuyo caso la ecuacin resultante sera
^
n
T (Z;, i^ n , F ^ ^ (S^
(1 in) ^
-0
(1 - G (Z,) )
..
donde G es el estimador de Kaplan-Meier de la variabie que censura.
Indudablemente este mtodo ha de ser objeto de futuros trabajos.
REGRESioN PARAMETRICA CON DATOS CENSURADOS

En el estudio con datos censurados es frecuente la consideracin de
covariables sobre la variable de inters T. As por ejemplo cuando se
observa el tiempo de vida de un enferrno desde que se le diagnostica
de una determinada enfermedad puede ser de inters la edad en dicho
momento.
En una situacin de existencia de covariables la muestra observada
viene dada por
(Z^)xy}"
i- 1
i^ 1^ i
donde camo antes z, = m in { T;, C; } y^S, = 1 t T;,, c^ ?, siendo x; _(x,,, ...,

isimo vector de las covariables de inters.
I^+f f kf ti( I^ ^( ^ I'^^K ^ti1f I kl( ^^ c(1^, O^\ 1Oti ([ ttil K^(M ^ ^
ôr otro lado las funciones de inters ya comentadas en ausencia de

censura pasan ahora a depender del valor de la covariable, es decir, F(./x,),
G{./x,) y H(./x,). Las interpretaciones de dichas funciones son tambin
anlogas a la situacin de ausencia de covariables.
De los modelos y mtodos de estimacin desarrollados en este contexto
destacaremos como ms importantes los introducidos en los articulos de
Cox (1 972,1 975), Koul-Susaria y Van Ryzin (1981 a, 1981 b, 1 982), Miller
{ 1976) y Buckley-James (1979). EI factor comn en todos los modelos
introducidos es ia dependencia lineal sobre las covariables, bien sea respecto del logaritmo de la razn de fallo condicional ( Mtodo de Cax) o bien
respecto del logaritmo de la propia variable tiempo de vida (los mtodos
restantes).
METODO DE COX.
, Basado en la idea de modelos de fallo proporcionales supone que la
razn de fallo condicional de la variable de inters T viene dada por
^.(t/x) _ ^ô(t)exp{xtj^ ^
donde x es el vector p-dimensional de covariables, ^3 el vector
p-dimensional de coeficientes a estimar yô la razn de fallo de la variable
T para cuando x=0.
La estructura del modelo anterior permite construir de la siguiente forma ^
una funcin de verosimilitud parcial en ^^. Si R(t) son los individuos aun
vivos en el instante t- y si un paciente muere en el instante t, entonces la
probabilidad de que ese paciente sea el isirrô de entre los que estn en
riesgo en R (t) es
e x p { ^ ^j }
exp { ^^ }
^
-_ R (tl
De esta manera si consideramos la muestra ordenada de las variables

observables Zr,^< ... c Z,,,^, resulta de forma natural la verosimilitud
exp ( xl /^ )
L=I1
,_^
^.
/ ^
R (Z^^)^
exp ( x` l^^ )
^^r;^
^
donde ^)^,^ es el correspondiente a la isima Z ordenada.
FSTA[)I^TI( ^1 f S[,^^`t)[ A
Finalmente el valor de la estimacin de ^3 resulta de la solucin de la

ecuacin de verosimilitud
c) log L/^)^ = 0
Posteriormente ^.o es estimada no paramtricamente o semiparamtricamente, Una visin ms profunda sobre este tipo de estimaciones es desarrollada en el apartado posterior relativo a estimacin de curvas.
METODO DE MILLER.
Bajo la suposicin Ft/x) = F(t-^-x`^^) con F una distribucin de media 0 y
por tanto verificndose la consiguiente dependencia lineal entre T y el
vector de covariables x, E(T/x) _^+xr/^, Miller (1 976) sugiri una extensin
del mtodo de mnimos cuadrados a datos con respuesta censurada.
EI mtodo desarrollado por Miller (1976i consiste en definir como estimadores para (:^,/^) aquellos que minimizen el funcional
n J t,'2 clF(^ ; a, b i
donde F(.;a,b) es el estimador de Kaplan-Meier basado en la muestra
{(^^,^^) }^^ ^ con ; = Z;-a-x; b, i=1,...,n 1os residuos estimados a travs de una
estimacin piloto inicial de (a,^^). Miller sugiere tomar como dicha estimacin la de mnimos cuadrados con los datos no censurados.
EI mecanismo es por tanto iterativo resultando la siguiente relacin recursiva en las estimaciones
..
^k+1-
r
ILX
X ^^^ ^ t W (^jk) ^ X - X^.,
l
J
-1
L
X- X^^ ] W(^^k) L
( 6.1 )
donde
X=((x,^^ ) es la matriz de variables predictoras,
n
,.
X`'' r(^ c^^;(^^k) x,^) es la matriz de promedios ponderada segn los pesos
;-^
^
de los saltos del estimador de Kaplan-Meier
cl^,{ f3k), i=1,..., n, representantes
^
en (os puntos , = Z,-x; ^jk correspondientes a la fase k-sima de la recursvidad en la estimacn y
.
{
^v,(^jk)
}
;
Z
(Z,,...,
Z)`.
diagonal
W (f^k) r
Finalmente J3 es el estimador que se obtiene en una etapa k suficientemente grande estimndose posteriormente a como
= ^ cv,(^^) (Z;-x; j^)

,^r
^tif t k^ ^^ i^^ ti^^ F^^^k^t^^t r ki^ -^ ^^^^^ r^^^^^^<^^ ^ F^^^ ^-^rx^ti
Uno de los problemas importantes que presenta este mtodo en la

posibilidad de entrar en un bucle en el proceso recursivo.
METOD O D E B UCKL EY Y JA MES

EI mtodo de Buckley-James ( 1979) est basado en la relacin
E [ ^,Z; + (1 -cS,) E ( T; /T; > Z, ) / x; ] = a + ac; j3
Es decir, uno puede suplir la variable T; por
r^,Z, + (1 - ^^;) E ( T,/T; > Z,),
ya que ambas siguen el mismo modelo respuesta.
Como la ltima variable no es observable, Buckley-James ( 1 979) proponen, bajo un modelo de censura fija dado por los valores c,,...,c,,, la siguiente estimacin de E(T;/T; > Z,) que hace que la nueva variable respuesta sea
obtenible en la prctica:
^(T;/T; > Z,) = x; j3k + E(T,-x; ^/ T;-x` j3 > c; - X` j3)

^
x; j^k +
^
^_e^ê;
-}
1- F ( ,; o, j^k )
î ( ^jk ^ î
A
donde con la misma not^.cin del mtodo anterior F es el estimador de

Kaplan-Meier basado en 1os residuos {(Z; - x; j3k, ^S,) }, siendo j3k la estimacin
de ^3 en la etapa k-sima.
Por tanto el mtodo de Buckley-James es tambin recursivo. Considerando {as nuevas variables respuesta en una etapa k-sima, el estirnador en la
etapa {k+1 ) viene dado, aplicando el criterio de minirnos cuadrados, por
^(k+ 11 = r ( X - i^ ^ t 1 %^ - /^ ) ] -1
L
[ i^ _ ^^ , t Z ( ^k )
( fj . 2 )
donde Z(j3k) es el vector de las nuevas variables respuesta, es decir

^
^,
)
Z( j _ ^; Z; +(1 - ^ E{ T; / T, > Z, ) s i ; - 0
,^ky
T, si
^=1
^
i=1,...,n
y X es !a matrir de medias muestrales de Ia variable regresora.

Finalrnente la estimacin de j^ se hara eligiendo un k suficientemente
grande, estimndose a de forma anloga al mtodo anterior. BuckleyJames proponen como estimador pifoto en la etapa primera e1 de minimos
cuadrados con toda la muestra.
r w r ^r^r^ ric 1 r^F^ ^^<^^ ^t
MÊTDDDS DE KDUL -SUSA RLA Y V.4 N R YÎN.

Basndose en la suposicin restrictiva de que la funcin de supervivenca
de (a variable que censura G(./x,) es independiente de la covariable, es
decir, G, Koul-Susarla y Van Ryzin elaboran en los aos 1981-1 982 ires
nuevos mtodos de estimacin en modelos de regresin con respuesta
censurada.
EI primero de ellos, Koul-Susarla y Van Ryzin (1981 a), siguiendo la
metodologa de Buckley y James, consiste en sustituir la variable respuesta
Z, por una nueva variable que siga el modelo de regresin lineal adecuado.
Teniendo en cuenta que
^>, Z,
E^
/ x, ^ ^;z + x; ^^
1 - G (Z,/x,)
y bajo la suposicin antes mencionada, se propone como variable respuesta

c^,Z,1 z ,.^
Z,
i=1, .., n.
1 - ^ (Z,)
^
donde G es el estimador de Kaplan-Meier de la varable que censura
basado en ia muestra {(Z,,1 -^),) },n,, _y M es una constante dependiente de
n y de la muestra, que establece un truncamiento para evitar la inestabilidad del estimador de Kaplan-Meier en las colas.
Con fa correspondiente nueva variable respuesta, se aplicara el mtodo
de mnimos cuadrados para la obtencin del nuevo estimador. A pesar de
no ser recursivo, este mtodo tiene un gran problema ante la eleccin dei
valor M en la prctica.
EI segundo de ellos, Koul-Susarla-Van Ryzin (1 981 b), consiste en definir
como. nuevos estimadores aquellos que resulten de (a optimizacin de!
funcinal
,
.`^,. ^
^^
x 3 ` = L,
t^.^^
;_^
1 - G (z;)
1, z.i_ M;^
(Z, - a- X;1^)2
n
con la misma notacin considerada en el mtodo anterior.
INF=f^RF^t^11 `) P1K^^41^ TKt(^1 (Ô^ [)^^TOtit f^Sl R>Ik^ti
Finalmente el tercer mtodo, Koul-Susarla-Van Ry2in (1 982 ^ , est basado en una extensin del mtodo de uckley-James al contexto de censura
aleatoria bajo la hiptesis comn a todos los mtodos de Koul-Susarla-Van
Ryzin.
Ya que bajo esta hiptesis la nueva variable respuesta satisface
Z*= ^^Z; + (1 -rS;) E (T,/T, > Z,}=rS,Z, + (1-h,} E(T,/,=O) _
=s,Z,+c1-a,) .
j s11 - G(s ^ 1 dFls-^-^^1
1 c ^-^ cS)} ^ c S-^-^ a^
estimando G de forma anloga a los mtodos anteriores se posee la

variable respuesta estimada. Como tambin se necesita la estimacin de
Kaplan-Meier de los residuos, una estimacin inicial de x y^^ es necesaria.
Koul-Susarla-11an Ryzin proponen que se utilize su estimador introducido
en 1981 a) como piloto iniciai, siguindose un mecanismo recursivo anlogo al desarrollo por Buckley-James.
Los cinco mtodos introducidos tienen la interesante propiedad comn
de ser los estimadores mnimo cuadrticos en ausencia de censura. Sin
embargo estn elaborados en general bajo fuertes restricciones, como Ps el
caso de los mtodos de Koul-Susarla--Van Ryzin, o padecen ciertas dificultades computacionales producidas por la recursividad de sus clculos,
como es el caso de los mtodos d e Miller y de Buckley-James. En la
siguiente seccin, dedicada a la estimacin de curvas con datos censurados, se describe un nuevo mtodo de estimacin de 1os parmetros de un
modelo de regresin lineal obtenido a partir de estimaciones de curvas para
est contexto.
6.
ESTIMACION DE CURVAS COIV DATOS CENSURADOS Y

APLICACIO RI ES
Un campo de estudio de gran expansin en !a actualidad en Estadstica

es el de la estimacin de curvas. Los resultados obtenidos en dicho estudio,
para datos censurados, son reiativarnente recientes habiendose ctesarrollado fundamentalmente en los ltimos diez aos.
Las curvas que ms han merecido atencin en este contexto, y que
comentaremos en lo que sigue, son la funcin de densidad, la funcin de
razn de fallo, la funcin de distribucin condicional y la funcin de re+gresin.
f ^ i^ f>I^ 1 Ic ^ t^,I' 1 Z(^l ^
EST1MACiON DE LA FUNCiCiN DE DENSiDAD.

E! mtodo preferentemente desarrollado en este contexto, es el que se
obtiene como una extensi+n dei clsico Rosenblatt (1 95^6) - Parzen { 1 962).
f^(X} ; (1 /nh) ^ K 1
x - T,
=1 K(
i` 1
hn
X'u )(1/h)dFfu)
^n
^
tambin conocido como mtodo ncieo, donde f es la estimacin de ia

densidad f desconocida de 1a variable T, K la funcin ncleo, en genera! una
densidad, h el Ilamado parmetro ventana y F la funcin de distribucin
emprica de la muestra de partida. Para una exhaustiva revisin sobre los
mtodos de estimacin de densidad sin censura ver ei excelente artculo de
Cuevas {1989).
La obtencin natural de un mtodo de estimacin de la densidad en este
contexto es Ilevada a cabo sin ms que carr^biar la distribucin empirica F^
por el estimador de Kapian-Meier Fn, resultando
f(x) ^ j K(
u 1/1 fh) dF(u) _

h
i { 1 f nh^ ) ^
'-'
K { (x-Z,) /h) ;
..
( 1 - ^(Z,) )
^
donde G es el estimador de Kaplan-Meier de la variable que censura.
Yandell (1 9$1 } obtiene el error cuadrtico medio de dicho estimador
aportando fa correspondiente ventana ptima terica. Marron y Padgett
{ 1 986) proponen el mtodo de validacin cruzada para este contexto
{cross validation), aportando propiedades de optimalidad asinttica de la
ventana "cross validation" respecto de ia ptima terica. Finalmente Diehl
y Stute { 1 985) prueban propiedades de consistencia, dando errores de
convergencia del tipo logaritmo iterado. Asimismo prueban resultados relativos a la convergencia dbil tanto puntuaimente como globaimente.
ESTIMACI^N DE LA FUNCICJN DE RAZON DE FALLO
Varios procedimientos fueron elaborads para !a estimacin de fa funcin
de razn de failo r(t)=f(t)/(1 -F(t) ). La razn de sto quiz sea atribuible a
la gran importancia que tiene la razn de fallo en el cantexto de la fiabiiidad, camp de naturai aparicin de los datos censurados.
I\F^F^^Kf \(Î ^\C1 1'^1Fi^^^1t T Rlt ^ (Ô^ [)^TÔti ( f^^l K^^f^x)S
^45
La primera idea tambin desarrollada por Yandell, siguiendo caminos

paralelos al de !a estimacin de la densidad, consiste en suavizar la razn
de fallo acumulativa
A(t) = f o ^(s) ds
A
a travs de la estimacin emprica A previamente intraducida en el epgrafe segundo, resultando

^(t) _ .(^ ( 1 /h) K ( t
,^
= l 1 /h) ^ K (
;_^
t - Zr;^
^ d (s) _
) (ar;^/ (n-+ 1) ^
EI propio Yandell (1981, 1983) propone camo estimador natural, teniendo en cuenta la forma de la expresin de la razn de fallo, a
^
^
rntt) = f^(t)/(1 - F(tl )
donde el numerador es la estimacin de la densidad y en el denominador

aparece el estimador de Kaplan-Meier.
Teniendo en cuenta las propiedades de eficiencia del estimadar de
Kaplan-Meier suavizado, Fernndez Sotelo y Gonzlez Manteiga (1 986)
proponen sustituir la estimacin de Kaplan Meier por la suavizada en el
estimador anterior.
Finalmente Tanner (1 983) y Cheng (1 987) proponen considerar en estimadores como las anteriores ventanas h que en vez de ser fijas dependan
de la distancia al k-sima dato ms cercano, probando la eficiencia de
estas estimaciones respecto de las anteriores en puntos de baja probabilidad.
ES TIMA CION D E LA FUNCION D E D lS TRIB UCION COND lCIONA L

Siguiendo la misma notacin que en Î epgrafe relativo a la regresin
paramtrica con datos censurados, uno puede disponer adems de la informacin que proporciona un cierto vector de cavariables X que puede ser
determinstico, cuando se trata de un diseo fijo, o aleatorio cuando se
trata de este otro tipo de diseo. De esta forma la muestra de partida viene
dada por:
F^T -1[)ItiT I( ^^ f til'^tit1^ 1
{ (^r^,.X,j },n,
donde como siempre Z, = min {T,,C,}.

Las distribuciones de inters son ahora las correspondientes condicionadas F(./X=x), G(./X=x) y H(./X=x), suponindose como siempre la independencia, en este caso condicional, entre T y C.
EI ob^ etivo fundamental es la estimacin de F(./X=x), funcin de distribucin condicional de la variable T al valor particular x del vector de covariables. Ba ^ o el contexto de censura son escasos los trabajos realizados en
esta linea, destacanda Beran (1 981 ), Hrvath (1 981 ) y Dabrowska (1 987,
1989). En todos ellos se sigue un camino paralelo al contexto de ausencia
de covariables, descrito previamente en este trabajo, estimndose inicialmente la razn de fallo acumulativa y posteriormente la funcin de distribucin.
EI problema ms importante que resulta de dichas estimaciones es la no

aplicabilidad a la estimacin de la funcin de regresin
m (x) = E tT/X^x)
por la dificultad que entraa el desconocimiento de los saltos de la funcin
de distribucin condicional estimada usada en los articulos de Dabrovvska
(1987, 1 989). Por esta razn recientemente hemos aportado (Gonzlez
Manteiga y Cadarso Surez (1 989) ) un nuevo mtodo de estimacin del
tipo Kaplan-Meier generalizado con covariables para la supervivencia condicianal 1-F(./X=x) dado por
n
1 - ^ 1 {zr^ zJ} Bn,(X)
^- r
S n ( tlX=x}=
^^.,1^^
, S1
t^ Z ln1
^ 1 {zr y zJ^ f^^,(X) + B^,(X)

r-1
,en el resto
dande
J^^(t) = 1{z1,, ^.^,^__, }
e^ emplo del tipo
Bn^(x} una sucesin generai de pesos, por
Bnr(X) = K/^(x-Z^) / t ^ K,,ix-Z^) )

1=1
con Kh(u) ={ 1/h) K{u/h), siendo K una fun-cin ncleo y h= h el parmetro

ventana (Nadaraya (1964}-Watson (1964) i, o bien del tipo
ItiF F.Kf.^( 1-1 tiO P-1K^1ti11 TFtI( ^(()ti l)^lOti (. (`til K^^(X)ti
Cin,(X)
= I 1 /n) K,,(x'Z,)
(Priestley-Chao (1972) ), ... etc.

La formulacin de este nuevo estimador es consecuencia natural de
seguir los mismos pasos constructivos, pero en la versin condicional,
Ilevados a cabo para obtener el estimador de Kaplan-Meier sin covariables
a partir del estimador (2.1 ^.
En efecto, dicho mtodo de estimacin generaliza a los existentes, as:
i) Si no hay covariables B,,,(x) = 1/n,
Kaplan-Meier previamente introducido.
resultando el estimador de
ii^ Si hay covariables pero no censura resulta la clsica estimacin no

paramtrica de la funcin de distribucin condicional, y finalmente
iii)
Si no hay censura ni covariables resulta el estimador ernprico.
Por otro lado, de este estimador es fcil conocer los saltos dando lugar
de forma natural a un estimador no paramtrico de la funcin de regresin
con datos censurados (el primero a nuestro juicio en la literatura existentel,
resultando
m(x) = J t d(1 - ^ (t/X=x) )= E

r=
Z; ; B,,; (x)
1 - G (Z;^X=X)
donde G es el estimador de Kaplan-Meier generalizado con covariables de

la distribucin de la variable que censura.
Este estirnador generaliza a los existentes para el contexto de ausencia
de censura, ya que en ese caso ^ =0 y ^,=1 para todo i, resultando la
formulacin general de los estimadores no paramtricos de la funcin de
regresin ( H^rdle ( 1 990) ).
A PL lCA CIONES.
Una de las aplicaciones ms importante, consecuencia de la elaboracin
de un estimador no paramtrico de la funcin de regresin con datos
censurados, es la consiguiente estimacin de los parmetros de un modelo
de regresin lineal con datos censurados. En efecto siguiendo la lnea de
Gonzlez Manteiga (1 988 ^ , suponiendo el modelo
T = A`(X) f^ + F
t ti 1^[)tti T I( ^[^T'^1tO[ ^^
en l que ^.^ es un parmetro ,p-dimensional, objetivo de nuestra estimacin,

y A un funcional de RQ en R^', y considerando e! estimador no paramtrico
de la funcin de regresin previamente introducido, bajo la suposicin de
que ^ sea un error aleatorio de media cero se define una nueva clase de
estimadores de %3 como aqulla que minimiza el funcional
`^ (j^) = .^ (m(x1 - A`(x)^)^ d^(x)

donde S2 es una funcin de ponderacin.
En base a la muestra inicial con datos censurados y tomando como S^ la
distribucin emprca sobre las cavariables { X,,...,X }, el nuevo estimador
viene dado por
[ G.
i-1
A(x;) A`(x;? ] -^ r ^ ^(x;),nn(x;) ]

(, i-1
donde obviamente m es culquier estimador no paramtrico piloto inicial.

Este mtodo no adolece de ias dificultades computacionales de los mtodos de Miller (1 976} y Buckley-James (1979), ya que no es recursivo. Por
otro lado esta elaborado sin hptesis restrictivas, propias de las mtodos
de Koui-Susarla-Van Ryzin { 1981 a, i 981 b, 1 982). A su vez es una generalizacin del mtodo de mnimos cuadrados para situaciones de ausencia
de censura, sin mas que tomar como estimador no paramtrico el degenerado
n
ll^n{Xj = ^
^ ^ T; ^
r-1
Una buena propiedad que presenta esta clase de estimadores, cuando no

existen datos censurados, es la eficiencia en muestras pequeas con respecto al estimador de mnimos cuadrados. Dado que nuestro contexto es el
de datos censurados, realizamos en lo que sigue un estudio de simulacin
comparando !a nueva clase con todos los mtodos introducidos en e!
epgrafe anterior. Para ello se simula el modelo
Z; = m i n { T;, C; }
donde
T;=2+0.01Z,;+0.5Z2;
C; = 2+ 0.01 Z,, + 0.5Z2i +^;
con i= 1,...,n, siendo ^; una normai de media cero y desviacin tpica ^r y^,
una normal independiente de la anterior de media tl y desviacin tpica rr,
garantizndose de esta forma la independencia condicional entre T y C.
IÎFÊ RF.tiI('1-1 ti() P-^R7!^1E TR1('A ('<)ti DA-T-()S ('f tiSl R^1[X1S
^^y
EI nmero de rplicas con que se simula el modelo anterior es N para

distintos valores de n,^ y 0. Por otro lado se considera en la simulacin que
las covariables Z del modelo siguen una distribucin uniforme en el cuadrado unidad ^0,1 J x[0,1 ]. A su vez el criterio con l que se comparan los
distintos mtodos es el error cuadrtico medio multidimensional, es decir
,.
,.
M.S.E.(^)= ^
;=o
[1
;_^ î^,-^^1^
/
+(1^N)^
aproximacin, en base a las distintas rplicas, del error cuadrtico medio

^.
multidimensional terico, en donde, ^; , representa la estirnacin de la
i-sima
^ componente de ^^ construda a partir de la j-sima muestra simulada y^; es el promedio de dichas estimaciones.
Finalmente el porcentaje de censura puede ser bien cantrolado en funcin de las distribuciones de los errores simulados resultando
% Censura = ^ 1 - ^ ^
-^
Q^
^ ^ 100%
donde ^ es la funcin de distribucin de la normal estndar.

Considerando simulaciones previas hemos seleccionado como mtodos
competitivos los de Miller (1976), (6.1), Buckley-James (1979), (6.2) y el
de
Buckley-James
modificado
introducido
por
Koul-Susarla-Van
Ryzin (1982). A su vez para la nueva clase de estimadores se toma como
estimador no paramtrico de la funcin de regresin el mtodo ncleo de
Nadaraya-Watson con ncleo uniforme y con las distintas ventanas 0.6,
0.6 5, 0.7 5 y 0.8, obten indose los resu Itados descritos en las tablas 1-12.
De dichos resultados se puede deducir el buen funcionamiento de los
nuevos estimadores que presentan un error cuadrtico medio enormemente ms pequeo respecto a los otros mtodos a medida que aumenta la
varianza del error o el porcentaje de censura. Cuando la desviacin tpica es
muy pequea el efecto de la suavizacin inicial se hace despreciable presentando un funcionamiento similar a los mtodos del tipo Buckley-James
pero peor que el mtodo de Miller (1 976).
f^ tii 11)Iti l l( ^^ t til'ttit)I ^1
Por otro iado la eleccin de los cuatro valores distintos para la ventana
est nicamente encaminada a analizar la posible forma de U del error
cuadrtico medio y es obviamente independiente del tamao muestral.
Dicha farma para la funcin error cuadrtico medio es apreciada en porcentajes bajos de censura. En efecto cuando el porcentaje aumenta la
ventana ptima se encuentra para valores superiores a ios elegidos para el
estudio de simulacin. A su vez en estudios elaborados por nosotros recientemente parece apreciarse un buen funcionamento del mtodo de
validacin cruzada para una eieccin automtica inicial de la ventana
tGanzlez Manteiga-Cadarso Surez (1 990) ).
TABLA 1: n-25, 16I de ce^sura y N= 1000
rr
0. 1
MlLLER
0 . 02581
BUCKLEY
JAMES
0 . 1 7008
BUCKLEY
JAMES MOD.
0,27376
ESTIIVIACION
SUAViZADA
0.28293
0.26103
0.261 97
0.27054
0.4231 7
0.5
0.40053
0.65244
0.69927
0.33482
0.29297
o.287sa
0.68680
.
1 . 57567
2 . 01 6+D2
1.95569
0.5091 7
0.37390
0.341 87
1 .62361
6 . 24627
7 . 23230
7.16742
1.12500
0.671 84
0.5571 6
IÎ 1 Ftf ^+( I^ ti(1 f' ^ft ^tit{ I kl( \(()\ f) 1 T(1^, ^ F\^,I KÎx^ti
TABLA 2: n=25, 33% de censura y N= 1000
MILLER
BUCKLEY
BUCKLEY
ESTIMACION
JAMES
JAMES MOD.
SUAVIZADA
0.1
0.5
0.03944
0.52823
2.04109
8.08201
0.36190
0.54301
0.95236
2.631 16
9,01742
0.65451
0.48877
0.33499
0.31058
1.01301
0.84245
0.61971
0.38599
0.342 74
2.56330
1.28759
0.90604
0.50726
0.42751
8.69837
2.68961
1 .83080
0.93486
0.73327
TABIA 3: n=2 5, 50% de censura y N= 10t^0
c^
MILLER
gUCKLEY
JAM ES
BUCKLEY
JAM ES MOD.
ESTIMACION
5UAVIZADA
1 .401 52
0.1
0.5
0.06487
0.74603
0.97369
0.97065
1.71338
1.69312
0.98577
0.57198
0.47448
1 .681 13
1.1 1 139
0.60014
Q.50220
2.43340
1
2.87294
1 1.31367
4.39953
13.91292
4.25516
13.70472
1 .60733
0 82730
0.65721
4.64209
3.05158
1 .50346
1.13734
^5?
FS T-1 [)I^T I(^ ^ f tiF' ^ tiC3t A
0,1
MILLER
0.12893
BUCKLEY
JAMES
1.18697
BUCKLEY
JAMES MOD.
1.7 4233
ESTIMACION
SUAVIZADA
3.{J5742
2" 13021
1 .1 2051
0.84533
3.14021
0.5
2.39126
4.1 1 C^26
3.75469
2.21491
1 .1 6584
0.89282
3.?9464
9.36609
37.25566
7.98803
22.12668
6.$7453
17.34526
2.73035
1.46332
1.14852
5.93612
4.33053
2.39933
1.91 902
TA B LA 5: n- 50, i 6 % de censura y N= 1000
MILLER
BUCKLEY
BUCKLEY
ESTIMACION
JAMES
JAMES MOD.
SUAVIZADA
0.18272
0.1
0.5
0.01067
0.16842
0 . 65419
O.C^3233
0.22156
0 . 78910
0.0245E
0.23412
0.7031 1
0.19396
0.23425
0.2551 1
0.24499
0 . 22950
0.24434
0.25976
0.38438
0.32189
0.28527
0.28706
2.61338
2.99318
2.86345
0.83(J48
0.63027
0.43297
0.39397
i`^F f KF ^<'I^1 tit) I'-^R ^titf ^T RI( 1 (`()\ [)^^^ 1(1^ ( E\^1 Ft ^fX)1
TABLA fi: n=50, 33^6 de censura y N= 1000
0.1
MILLER
0.02078
BUCKLEY
JAMES
0.05981
BUCKLEY
JAMES MOD.
ESTI MACION
SUAVIZADA
0.04869
0.32 504
0.28378
0.26496
0.26988
0.47949
0.5
0.25393
0.97448
0.30879
1.00613
0.32876
0.97656
0.37498
a.28828
a.28o62
0.73232
0.54765
0.35556
0.32 542
1.55648
3.82797
3.69026
3.58654
1.1 1016
0.60719
0.50133
MILLER
BUCKLEY
JAMES
BUCK^LEY
JAMES MOD.
ESTIMACION
SUAVIZADA
0.77755
0.1
0.03738
0.11376
0.09563
a.60720
0.402 8 8
0.35054
0.5
0.35452
1.33385
0.40308
1.24980
0.47632
0.92302
0.6581 1
0.40012
0.35596
1.16655
1.33125
0.9342 5
0.52142
0.4442 7
2.5421 4
15.24449
4.46359
4.25786
1.75938
0.90663
0.72650
Ftit ^()Itiflt ^ F^F'^\t)t >
TABLA 8: n-SU, 67% de censura y N= 1000
MILLER
BUCKLEY
JAMES
BUCKLEY
JAMES MOD.
ESTIMACION
SUAVIZADA
1 .84808
0.1
0.05460
0.3001 5
0.1 9840
1.34107
0.7 3 503
0.59590
1 .89907
0.5
0.5125
0.71262
O.fi4367
1.32506
0.7241 7
0.59014
1
2.14146
1.97736
1.54685
2.49239
1.73859
0.94183
0.76129
4.28461
8 . 43407
6 . 62410
6 . 43898
3^Q1 508
1 .61045
1.29007
TABLA 9: n=100, 1 6% de censura y N= 1000
MILLER
gUCKLEY
JAMES
BUCKLEY
JAMES MOD.
ESTIMACICJN
SUAViZADA
0.1 81 24
0.1
0.00579
^J.O1023
0.00854
023830
0.29083
0.32407
0.5
0.09998
0.10441
0 . 10035
0.2U1 72
0.24343
0.28703
0.31 635
0.2491 1
0.39452
1.55499
0.38478
1.49812
0.3654$
1.35$02
0.26370
0.29567
0.31 957
0.41 544
0.34460
0.33547
0.34529
Itil f Kt ti( I ^ ti(^ f'^K ^titf I KI( ^ c(^^ O^ Ic^ti ^ I"I K 1fN>ti
TABLA 10: n=100, 33% de cens^^ra y N= 1000
rr
0. 1
MILLER
0 . 01 15$
BUCKLEY
JAMES
0 . 01439
BUCKLEY
JAMES MOD.
0 . 01245
ESTIMACION
SUAVIZADA
0.22320
0 . 2 5002
0.28823
0.31937
0. 5
0 . 14760
0.57399
2.26951
0 . 12180
0.43960
1.69044
0.11658
0.26592
0.25650
0.2 8100
0.304 7 5
0.44389
0.35466
0.28791
0.2 912 0
0.308 7 6
1.63987
0.65663
0.4191 5
0.35080
0.34746
TABLA 1 1: n=100, 50% de censura y N= 1000
^r
MILLER
BUCKLEY
JAMES
BUCKLEY
JAMES MOD.
ESTIMACION
SUAVIZADA
0.3472 7
0.1
0.5
0.02088
0.21681
0.82 2 59
0.02161
0.14973
0.52 610
0 . 02087
0.13677
0.50643
0.29532
0.29974
0.31832
0.39002
0.29868
0.29216
0.30676
0.53666
0.36080
0.31936
0.32262
1 .^1^201
3.22168
2.00237
2 . 00221
0.57^50
0.4^-^ 12
0.4037 5
t^^r ^^^ cî ^; r ic .^ t ti r-^ `c^ t^^
MILLER
BUCKLEY
JAMES
BUCKLEY
JAMES MOD.
ESTIMACION
SUAVIZADA
1.40991
0.1
0.03815
0.04052
0.04115
0.77695
0.47323
0.3 5108
1.73601
0.5
0.3381 1
0.21507
0.23417
0.86299
0.49810
0.36806
1 .1 5791
1.26498
4.95585
0.73553
2.76028
0.71231
2.11345
0.63314
0.45074
0.42327
2.092 51
1.08331
0.71462
0.64022
A pesar del buen funeionamiento ^que presenta !a nueva clase de estimadores en !a prctica uno ha de ser prudente en ia eleccin del estimador
piloto no paramtrico inicial. En efecto exponemos en lo que sigue un
ejemplo ilustrativo relativo a la importancia de esta eleccin.
Se considera una muestra de tamao n=70 correspondiente al logaritmo
en base 10 de !os tiempos de seguimiento correspondientes a enfermos de
adenocarcinoma renal desde el da en que se les somete a tratamiento
quirrgico, siendo la entrada de pacientes serial desde Enero de 1970
hasta enero de 1990. EI conjunto de estas datos ha sido aportado por el
Servicio y Ctedra de Urologa del Hospital General de Galicia.
De entre las covariabies de inters tratadas en ei estudio de estos datos
(Cadarso Surez 11 990) ) nos centraremos aqu para nuestro propsito en
la covariable velocidad de sed^mentacin globular (VSG ). Representando
por + el dato censurado y por x el no censurado, la figura 1 3 muestra un
plot de los datos con un 38,6I de censura. A su vez muestra la estimacin
no paramtrica de la funcin de regresin en trazo continuo y la correspondiente estimacin paramtrica lineal con la nueva metodologa, utilizndose
una ventana de validacin cruzada con el mtodo ncieo en el estimador
piloto no paramtrico.
I`f f Ftf `(Î ^ tic^ f^1Ft^ltitf Tltlc ^ (()^ f)^T^^ti( E^tit El ^()c^ti
^57
â tendencia de crecimiento proporcionada por !a recta es contraria a la

opinin a priori proporcionada por los urlogos, Por otro lado la estimacin
no paramtrica y por tanto la paramtrica presenta unos valores bajos de
carcter pesimista en funcin del VSG tambin en contra de la opinin
generalizada de los mdicos. Un anlisis ms profundo de los datos nos
indic el carcter asimtrico de la censura, observndose que en general
los datos censurados eran los ms grandes produciendo estimaciones, no
paramtricas basadas en promedios de los valores ms bajos.
Una estrategia adecuada para la correccin de este defecto en este
conjunto de datos fu la consideracin de otro estimador no paramtrico
que tuviese ms en cuenta los datos censurados. De esta forma teniendo
en cuenta la misma idea de Buckley-James (1 979) de sustituir la variable
T no observable en general por otra que siga el mismo modelo dada por
,.
Z^ = rS Z+(1 -^) E(Z/T > Z)
cn
n
^ Zj^1 -C^^j B^ ^X^
(Z/T > Z)= (Z/^S=o)=
j=1
^ 1-j^ gjx)
J=1
es posible definir un nuevo estimador no paramtrico de la funcin de

regresin a travs de
n
m (x) _ ^ Z * B,,; (x)

,^ ^
Tomando este estimador como piloto no paramtrico y aplicndolo en la
estimacin de los parmetros del modelo de regresin lineal con la nueva
metodologa resultan las grficas reflejadas en la figura 1 4. En dicha grfica
se puede observar el pesimismo corregido de la otra estimacin no paramtrica y la tendencia lineal esperada por los urlagos.
AGRADECIMIENTOS
Nuestros agradecimientos a los dos referees por su lectura crtica y
constructiva que sin duda mejor notablemente la presentacin de este
trabajo.
^St^
Fsr^ttîtir^t :^ E ^F^^^^c^t a
_..____^...^
^ LOGC T) _C DI^S)
4. G^
3. 2
2. 4
_^ ..
v T ^'
^C,+
^-+
^c-.^.-^` ,^, _^ ^- ^ ,^.

x ^ ~
^^.-
^r
_^
X
^
1. 6
^--r
X
X
X
m^^^^^ ^ ,^^^^TT^^^^^^^^ I I !
^2. ^7
',
^
^
64 .^
^6. a
128. C^_ 6^. P^
^V S G ^^
Figura: 13
LOG( T) _ C DI^S) ^
--+-------
40
3. 2
+
+
^x
,*
x
+
x
+ +
+
x
x +
x ôc ^ ^ x
x
xx
-^-
x
x
i. 6
x
x
8
x
--^c
r
@
Figura: 14
^2. @
64, @
9^. @
128. ^16@. 0
11iF F RF \( 1^ tiO F'^1Ft-1!^1f F RI( ^ (()\ [)^11 l)ti ( I\til kÎX)ti
7.
359
BI BLIOGRAFIA
AKRITAS, M. G. { 1988), " Pearson-type goodness of fit tests: The univariate

case", J.A.S.A., Vol. 3, 401, 222-230.
AZZALINI, A. (1981), "A note on the estirnation of a distribution function
and quantiles by a kernel method". Biometrika, 68, 326-328.
BERAN, R. 11 981 ), "Nonparametric regression with randomly censored survival data". Technical report, Univ. California, Berkeley.
P. (1968), "Weak convergence of probability measures'".
Wiley, New York.
BILLINGSLEY ,
BRESôw, N. y CROWLEY, J. (1974), "A large sample study of the lfe tabfe
and product-limit estimates under random censorship". Ann. of Stat., 2,
437-453.
BUCKLEY, J. y JAMES ,
I. (1979), "Linear- regression with censored data'",
Biometrika, 66, 429-436.

CADARSO, SUREZ, (1 990), "'Nuevos aportes a la regresin paramtrica y no
paramtrica con datos censurados`". Tesis Doctoral. Universidad de
Santiago de Compostela.
Cox, D. R. t 1972), "Regression models and life tables'" (with discussion), J.

R. Stat. Soc. B, 34, 1 87-202.
Cox, D. R. { 1975), " Partial likelihood'", Biometrika, 62, 269-276.
CuEVAS, A. { 1989), '" Una revisin de resultados recientes en estirnacin de
densidades"'. Estadstica Espaola, 31, 120, 7-62.
CHANG, M. y RAO, P. (1989), "Berry-Esseen bound for the Kaplan-Meier
estimator". Commun. Stat. Theory Meth. 18, 12, 4647-4664.
CHENG, P. (1 987), " A nearest neighbor hazard rate estimator for randomly
censored data". Commun, Stat. Theory Meth., 1 6, 3, 61 3-625.
DABROWSKA, D. { 1 987), " Nonparametric regression with randomly censo-
red survival data". Scand. J. Stat. 14, 1 81-197.

DABROWSKA, D. (1989), " Uniform consistency of the kernel conditional
Kapian-Meier estirndte'^. AF-^^-^. uf S^d^. 7, 3, i 1 57- i 1 6 i.
DIEHL, S. y STUTE, W. (1985), " Kernel density estimation in the presence of
censoring". Technical report, Univ. G iessen.
DIKTA, G., KuRTZ, B. y STUTE ,
W. (1 989), "Sequential fixed-width confidence bands for distribution functions under random censoring"". Metrika,
36, 167-176.
^ ^ l)
! til ^(}Itil l( 1 f ^.I'^`( ^ ^ ^
FALK, M. (1 983), "Relative efficiency and deficiency of kernel type estimators of smooth distribution functions". Stat. Neerlandica. 37, 2, 78-$3.
FALK, M. { 1 984), "Relative deficiency of kernel type estimators of quantiles" Ann. Stat., 12, 261-268.
FALK, M. (1 985), "Asymptotic normality of the kernel quantile estimator".
Ann. Stat., 13, 428-433.
FARALDO ROCA, P. y GONZLEZ MANTEIGA, W. ( 1 984), "Obtencin del SesgO,
varianza y error cuadrtico medio de una familia axiomtica de estimadores no paramtricos para funciones de distribucin. Actas del XIV
congreso naciona I de la S E I O. G ranada. 180-1 91.
M. A . y GONZLEZ MANTEIGA, W. (1986), "Suavizacin
no paramtrica en fiabilidad"'. Trabajos de Estadstica. 1, 2, 1 3-36.
FERNNDEZ SOTELO ,
A. y REJTO , L. (1 981 ^, "A L1L type result for the product limit
estirnator". Z. Wahrscheinlichkeitstheorieverw. Gebiete. 56, 75-86.
FbLDES ,
GONZLEZ MANTEIGA, W. (1988), "Una perspectiva general con nuevos

resultados de !a aplicacin de la estimacin no paramtrica a la regresin lineal". Estadstica Espaola. 30, 1 18. 141-1 79.
GONZLEZ MANTEIGA,
W.
(19901 , "ASymptotiC normality Of generalized
functional estimators dependent on covariables". Journal or Stat.

Planning and Inference. 24, 377-390.
Inference'using
parametric and nonparametric estimation. The censored data case". 47.
GONZLEZ MANTEIGA, W. y CADARSO SUREZ, C. ( 1 989), "
Session of the ISI. Paris. 387-388.

GONZLEZ MANTEIGA, W. y CADARSO SUREZ, C. ( 1 990), "Linear regression
with randomly right-censored data using prior nonparametric estimation". NATO. Advanced Study Institute on Nonparametric Functional
Estimation and Related Topics. Kluwer. (en prensa).
GHORAY, J. (1989), "Deficiency of the MLE of a smooth survival function
under the proportional hazard mOdel". Commun. Stat.- Theory Meth. 1 8,
8, 3047-3056.
HALL ,
W. J . y WELLIVER , J. A. (1980), "Confidence bands for a survival curve

from censored data". Biametrika. 67, 133-143.
HRDLE, W. (1 990), "Applied nonparametric regression". Cambridge Press.

HORVTH, L. 11 982), "On nonparametric regression with randomly censored
data'". Proc. of the third Pannonian Symp. 105-1 1 3.
HuBER, P. J. { 1964), "Robust estimation of a location parameter". Ann.

Math. Stat. 35, 73-101.
Itif f RI ^( 1 1 ^tt F'^R ^\11 I R1( 1<^c^ O^ f^^ti t t^til R^^(X)^
KAPLAN, E. L. y MEIER, P. (1958), "Nonparametric estimation from incomplete observations"'. J.A.S.A. 53, 457-481.
Kou^, H. L., SUSARLA, V. y VAN RYZiN, J. (1 981 a), '"Regression analysis with
randomly right censored data". Ann. Stat, 9, 6, 12 7 6-1288.
. (19$1 b}, "Least squares regression
analysis with censored survival data"'. Technical Report. (recibido por
cOmunicacin personal).
KOuL, H. L., SUSARLA, V y VAN RYZIN, .J
Kou^, H. L., SusARÂ, V y VAN RYZiN, J. (1982), "Multi-step estimation of

regression coefficients in a linear model with censored survival data".
I.M.S. Lecture Notes, Val. 2, 86-100.
Asymptoticatly optimal bandwidth

selection for kernel density estimators from randomly right-censored
samples". Ann. of Stat. 1 5, 4, 1 520-1 535.
MARRON, J. S. y PADGETT, W. J. (1 987), "
MILLER, R. G. (1976), "Least squares regression with censored data". Biometrika, 63, 449-464.
NADARAYA, E. (1964), " On estimating regression". Theory Prob. Appl., 9,
141-142.
NAIR, V. ( 1984}, "Confidence bands for survival function with censored

data: A comparative study". Technometrics, 26, 3, 265-275.
PARZEN, E. ( 1962 ), " On estimation of a probability density and mode"". Ann.
M ath. Stat., 3 3, 106 5-107 6.
PRIESTLEY,
M. B. y CHAO, M. T. (1 972), "'
Nonparametric function fitting"`.
Journal of the Royal Stat. Soc., serB, 34, 385-392.

ROSENBLATT, M. (1 956), "Remarks on some nonparametric estimators of a
density function". Ann. Math. Stat., 27, 642-669,
SCHICK, A., SUSARLA, V. y Kou^, H. (1988), "'Efficient estimation of functionals with censored data". Stat and Decisions, 6, 349-360.
SERFLING, R. J. (1 980), "Approximation Theorerns of Mathematical Statistics". Wiley, New York.
STUTE, W. (1 986), "Parameter estimation in smooth empirical processes".

Stochastic Process. Appl., 22, 223-244.
TANNER, M. (1 983), " A note on the variable kernel estimator of the function
from randomly censored data". Ann. Stat. 1 1, 3, 994-998.
WATSON, G, S. (1 964), " Smooth regression analysis", Sankhya SerA, 26,
359-372.
^6_'
t-^; r Arîs r ic -^ t^^ t>^^c^t ^
YANDELL, B. S. (19$1 ), " Nonparametric inference for rates and densities

with censored serial data"'. Tesis Doctoral. Universidad de California,
Berkeley.
YANDELL, B. S. (1983^, " NOnparametric inference for rates with censored
su rvival data". Ann. of Stat. 1 1, 4, 1 1 19-1 13 5.
YANG, S. ^ 1981), " Linear functians of concomitants of order statistics with
application to nonparametric estimation of a regression function".
J.A.S.A., 76, 658-662.
NONPARAMETRIC INFERENCE WHIT CENSORED DATA
SUMMARY
In this paper the nonparametric inference with censored data,

developed in the last fifteen years is reviewed. The topics here
considered are relative to the random right censoring including
the Daplan-Meier estimator with its applications to functional
estimation, testing hypothesis, confidence intervals, linear regression and c:^rve estimation. Some application are also included and compared with the reviewed methods using simulations
and rea^ data.
Key wo^ds.^ Kaplan-Meier estimator, random right censoring.

^4 MS Classifeation: 6 2 G 0 5.

Inf No Parametric Con Datos Censurados PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Inf No Parametric Con Datos Censurados PDF

Încărcat de

Drepturi de autor:

Formate disponibile

ESTADISTICA ESPAO^A

Vol. 33, Nm. 127, 1991, pgs. 325 a 362

Inferencia no paramtrica con datos

CARMEN CADARSO SUAREZ (*)

Trabajo subvencionado por el proyecto de la Xunta de Galicia XUGA80505588.

UNA VISION GENERAL DE LOS PROBLEMAS DE INFEREI'VCIA

Una situacin general en la estimacicin funcional no paramtrica es la

Se tiene una farnilia de distribuciones ^^, ={ F,,, ^l E O}.

Se dispone de una muestra { X,,...,X } de la distribucin poblacional

c) Se desea estimar el parmetro ^lo del espacio Cl, para el que Fo es la

donde T es un funcional definido sobre Rx(^xl^; siendo f^ un espacio general

(1 /n ) ^ T ( X,, 1,,, F,^) = 0

T(x,(I,F) = J(F(x) ), can f o J(t)dt= 1, representa la L estirnacin.

T(x,(I,F) = J( F(x) ) ^^(x-(1), la M-L estimacin.

v) T(x, U, F) ^ J(( F(x)+ 1- F(2 O-x) )/ 2), con

I\F^f^Rf-^(^I^^ tiO P^^R^^ti1t ^TRI(^^^^ (^Ot O11Oti (^t ^^,t F21[^^(^ti

vi^ T(x,(^,F) _(F(x)-F(x) )(^^/t>fl)F(x},

la estimacin de mnima distancia

Bajo condiciones de suavidad sobre el funcional T, del tipa:

DT (x, D, F)(h} = J h ry) ,c^ (x, CI, F, dy)

con ^c la medida asociada resultante del teorema de representacin de

Q(y} = T(y,f^o,F) - f1y^ ^^(x,flo,F,dz) dF(x)

bajo el supuesto de consistencia en probabilidad de f^,,.

i1 ^c(x,f1,F) _ (1 /2)J' ( (F(x)+1 -F(2U-x) )/2) (c)X-c)r2_x^)

f ^ 1^ I)Iti I I( ^ f^I' ^\t 11 i

dencia entre un vector de covariables X y una variable respuesta Y, definida

f T(y,^1(x), F(-/X-x) ) dF(y/X-x}=0

F(y/x) _ { 1 /nh) ^^ ! y,- Y K ( (F(x)-F(X,) ) / h)

n h (r*1(x) - (I (x) ) H' {l^(x} ) -----^

As como bajo una situacin tradicional los estimadores fundamentales

I^f f Itf `( I\ tc) I^\Ft ^ti1f T Rlc \((}^ I) \ Tc ^ ti c f^^1 K\(x)^

INTRODUCCION A LOS MODELOS CON CENSURA

La situacin estndar para estos mecanismos de censura es la siguiente:

La muestra aleatoria de inters es { T,,...,T }. T es la variable poblacio-

nal, representando muy frecuentemente el tiempo de vida de un enfermo,

Finalmente la muestra observada viene dada por:

en donde Z,= rnin { T;,C; } y ,- ^{ r<

La funcin de supervivencia de la vriable de inters T:

La funcin de supervivencia de la variable que censura C:

1 -G (t) = P(G > t)

E ti r ^^ [^^^ i ic ^> f ^t^ ^ ^c ^^ .t

La funcin de supervivencia de la variable observada Z:

en donde 1-H=(1 -F ^ (1-Gi, debido a la suposicin de independencia entre

iv) La subdistribucin de la variable observada Z cuando sta es una

con H(t) = H, (t) + H2(t).

La funcin de razn de fallo:

r(t^ = I i m (1 /^S) P (t<T < t+^S / T> t ^ = f(t) /( 1-F (t^ )

.n ( t) _ .^a r( s } ds = -/n (1 - F ( t 1 ) _ .^o (1 - F ( s 1 ) ^' dF {s ) _

ItiF^Ê^KE ti(Î^^ tit) f^'^^K.-^ti1f I^KI(^^^^ (Ôti I}^11O^ ( t^^l Ft^1[X)^

1 - F(t) = exp { -n(t) }

Por otro lado, utilizando el desarrollo de Taylor de primer orden de la

EI estimador de Kaplan-Meier (2.2) es el estimador bsico en el contexto

PROPIEDADES DEL ESTIMADOR DE KAPLAN-MEIER

^os aos setenta y ochenta fueron prdigos en obtencin de resultados

cin relativa a!as de la distribucin emprica. En efecto, como veremos a!o

siendo Z un proceso Gaussiano de rnedia cero y funcin de covarianza:

de forrna casi segura ".

< y) - ^(y) I <

< K(1 +V(x}')(1 - H(x))^2

I?^t t Rk_ti(^I^^ tiO N^1K^1!^9ET^K!( ^1 t'Oti [)-^^f(15< f^^l ft^^[7K)^

K(z) = f_^ K(u) du es la funcin ncleo acumulada, se verifica

i(n) = m i n{ 1 E N/ M S E( F, (x) )< M S E( FS (x) )}

F^ t^ i>i^, t ^r ^^^^^ t^^ ^^ ^