Sunteți pe pagina 1din 21

Estimacin Altamente robusto de dispersin

Matrices
Yanyuan Ma y Marc G. Genton
Instituto de Tecnologa de Massachusetts
E-mail:? Yanyuan math.mit.edu, Genton
math.mit.edu
Recibido 04 de enero 1999; publicado en lnea
el 06 de abril 2001
En este trabajo, proponemos un nuevo estimador de componente a componente de una matriz
de dispersin, basado en un estimador muy robusto de escala. La idea clave es la eliminacin de
un estimador de ubicacin en el procedimiento de estimacin de la dispersin. Las propiedades
de robustez se estudian por medio de la funcin de inuencia y el punto de ruptura. Adems
Tambin se analizaron las caractersticas tales como la varianza y la eciencia asinttica. Se
muestra en el enfoque de componente a componente, para las distribuciones gaussianas multivariantes, que la estimacin de matriz de covarianza es ms difcil que la estimacin de matriz
de correlacin.
La razn es que la varianza asinttica del estimador de covarianza aumentos con el aumento de
la dependencia, mientras que disminuye con el aumento de la dependencia de estimadores de
correlacin. Tambin demostramos que la varianza asinttica de dispersin estimadores para
distribuciones gaussianas multivariantes es proporcional a la asinttica varianza del estimador
subyacente escala. El valor de proporcionalidad depende slo en la dependencia subyacente.
Por lo tanto, en el medio slido estimador de dispersin es entre la mejor opcin slida en el
momento presente en el enfoque de componente a componente, porque es-lugar libre y combina pequeas propiedades de robustez variabilidad y tales como la alta punto de ruptura y
funcin de inuencia limitada. Un estudio de simulacin se lleva a cabo a n de evaluar el
comportamiento del nuevo estimador. En primer lugar, una composicin comparacin con otro
estimador robusto de componente a componente basado en la mediana se realiza absoluta estimador de escala de desviacin. Las propiedades altamente robustos de la se conrman nuevo
estimador. Una segunda comparacin con estimadores globales como El mtodo de la estimador
momento, el elipsoide de volumen mnimo, y el mnimo Tambin se realiza estimador de covarianza determinante, con dos tipos de valores atpicos. En este caso, el estimador de la matriz
altamente robusto dispersin resulta ser una interesante Ing compromiso entre la alta eciencia
del mtodo de momento en estimador situaciones no contaminadas y las propiedades altamente
robustas del mnimo elipsoide volumen y estimadores mnimos determinantes de covarianza en
contaminadas situaciones. 2001 Academic Press
AMS clasicaciones temticas: 62H12; 62G35. Palabras y frases clave: punto de ruptura; componente a componente; funcin de inuencia; robustez; estimador de escala.
1. INTRODUCCIN
Matrices de dispersin, es decir, la covarianza y correlacin matrices, juegan un papel importante en muchos mtodos de estadstica multivariante. Por ejemplo, que son las piedras angulares del anlisis de componentes principales, discriminante anlisis, anlisis factorial, anlisis
de correlacin cannica, y muchos otros (por ejemplo Mardia et al., 1979). Adems, las matrices de dispersin son en s mismos cantidades de inters, ya que representan una medida de
1

asociacin o internacional dependencia entre varias caractersticas. Proporcionan informacin


sobre la forma de la elipsoide de la nube de datos en un multidimensional espacio. Por lo tanto,
los estimadores conables de matrices de dispersin son de primordial importancia. Desafortunadamente, las matrices de dispersin de la muestra clsica se conocen ser muy sensible a los
valores atpicos en los datos, que puede ser tpicamente oculto en la alta dimensionalidad del
espacio de variables. Como cuencia cuencia, valores y vectores propios de la matriz de dispersin
heredar esta sensibilidad. Un anlisis de componentes principales de este modo podra revelar
una articial estructura de los datos, que en realidad no existe, pero es simplemente creado por
un algunos valores atpicos.
En las ltimas tres dcadas, muchos intentos para superar la pobre resistencia propiedades de la
matriz de dispersin de la muestra clsica se han hecho. El propuestas slidas se pueden clasicar
en dos categoras principales: robusta composicin estimacin ponentwise y estimacin mundial
slido de la dispersin matriz. La primera de ellas se puede abordar a travs de la estimacin
de la ubicacin, o la escala estimacin, como se describe en la Seccin 3. Tiene la ventaja de
ser capaz de hacer frente a los valores perdidos en los datos, pero no est afn invariante y lo
hace no proporcionar una matriz denida positiva directamente. La segunda categora por lo
general asegura invariancia afn y denitud positiva, pero es menos apropiado para tratar con
datos que faltan.
En este trabajo, se propone el uso de un estimador muy robusto de escala, denotado por
Q n, en el enfoque de componente a componente. De hecho, se muestra que que es uno de
la mejor opcin robusta disponible en el momento presente en el enfoque de componente a
componente. Por supuesto, otras escalas robustos y ecientes estimadores podran utilizarse,
por ejemplo, como el propuesto por -bsculas {Yohai y Zamar (1988). Sin embargo, el estimador
muy robusto de la escala Q n posee la propiedad-lugar libre y ya ha sido utilizado con xito en la
accin texto de regresin (Ho ssjer, Croux y Rousseeuw, 1994;? Croux, Rousseeuw, y Ho? ssjer,
1994), as como para la estimacin de variograma (Genton, 1998) en estadstica espacial, y la
estimacin de autocovarianza (Ma y Genton, 2000) en series de tiempo. En la siguiente seccin,
se comienza por recordar algunos de la dispersin estimadores de la matriz que se pueden
encontrar en la literatura. En la tercera seccin describe el estimador muy robusto de matrices
de dispersin. Robustez propiedades se discuten en la Seccin 4 La funcin de inuencia de
covarianza estimadores de correlacin se estudian, as como su punto de ruptura.
La varianza y la eciencia asinttica se derivan para el nuevo estimador en el caso de las
distribuciones gaussianas multivariantes. Al nal, se compara la mtodo propuesto con otros
mtodos (componente a componente y global) y llevar a cabo algunas simulaciones.
En la secuela del trabajo, utilizamos las siguientes anotaciones. En el caso de dos variables
aleatorias, que suelen utilizar X e Y para que los represente y el uso x = (x1 ; x2 ; :::; xn )T ,
y = (y1 ; y2 ; :::; yn )T , para representar la observacin vectores. En el caso de p variables aleatorias, usamos Xi , i = 1; 2; :::; p a denotar las variables aleatorias. Los n observaciones de cada
variable aleatoria Xi se representan por x1i ; 2ix ; :::; xni y que se renen en un vector x(i) . Las n/
realizaciones del vector aleatorio (X1 ; X2 ; :::; Xp)est representado por xj = (xj1 ; xj2 ; :::; xjp ),
j = 1; 2; :::; n. Por lo tanto, la matriz de datos X puede ser representado en el siguiente formato:

2. ESTIMADORES MATRIZ DE DISPERSIN


En esta seccin, describimos algunos estimadores de uso comn para la matriz de dispersin,
as como algunas recientes propuestas robustos. Nos centramos en la estimacin de matrices
de covarianza, ya que la estimacin de matrices de correlacin se puede derivar de la misma
manera.
Suponga que la muestra x1 ; :::; xn , con xi 2 Rp , i = 1; :::; n, es independientemente e idnticamente distribuidos segn una distribucin multivariante con media vector y matriz de
covarianza . Tenga en cuenta que la estimacin depla correlacin
p matriz R siempre se puede
;
:::;
1=
derivar de la relacin R = D D, donde D = diag(1=
11
pp ). El mtodo de momento
estimador (MME) de la matriz de covarianza es

1X
donde b =
xi
n i=1
n

El punto de ruptura es una caracterstica importante de la abilidad de un estimador. Indica,


en lneas generales, la mayor proporcin de datos que pueden ser reemplazado por valores
arbitrarios para llevar el estimador de los lmites de la espacio de parmetros. Ms detalles se
pueden encontrar por ejemplo en Donoho y Huber (1982), Huber (1981, 1984), Hampel et al.
(1986). El punto del mtodo de momento estimador de ruptura (1) es cero, lo que indica su
muy pobre resistencia.
Equivariante A ne M-estimadores para matrices de dispersin se sugirieron primero por Hampel (1973), y estudiado por Maronna (1976) y Huber (1977, 1981). Desafortunadamente, su
punto de ruptura es a lo sumo 1=(P + 1). esto es no es satisfactoria, ya que signica que el
punto de ruptura se convierte ms pequeo con el aumento de dimensin, donde hay ms oportunidades para que se produzcan valores atpicos. El rendimiento de algunos M-estimadores
fueron estudiados por media de un estudio de Monte Carlo por Devlin et al. (1975, 1981). Stahel (1981) y Donoho (1982) fueron los primeros en proponer de forma independiente robustos
estimadores equivariante anes de ubicacin multivariante y la dispersin tiene un punto de
ruptura alta (asintticamente 1=2) de cualquier dimensin.
Se denen como la media ponderada y la dispersin ponderada, donde el pesos son funciones
de una medida de outlyingness obtiene considerando todas las proyecciones univariado de
los datos. Posteriormente, otro desglose alta
Se han introducido punto equivariante estimadores multivariados. El ms conocido es probablemente el elipsoide de volumen mnimo (MVE) estimador, introduccin producida por Rousseeuw
3

(1984, 1985), y se discute en Rousseeuw y Leroy (1987), y van Rousseeuw Zomeren (1990). El
mtodo busca de un elipsoide volumen mnimo, que contiene m = b(n + p + 1)=2c puntos, donde
b c denota la parte entera. Ms precisamente, consiste en encontrar bM V E y b M V E tales que
el determinante de se minimiza sujeta a

donde a2 es una constante ja, por ejemplo desde 2p en el caso de los datos de Gauss. El
MVE tiene un punto de ruptura de la muestra nita de m, es decir, 50 % asintticamente.
Dos algoritmos (remuestreo y proyeccin) para calcular un aproximado solucin de MVE se
puede encontrar en Rousseeuw y van Zomeren (1990). El estimador MVE se ha generalizado a
multivariantes S-estimadores (Davies, 1987; Lopuhaa ?, 1989;? Lopuhaa y Rousseeuw, 1991).
Li y Chen
(1985) propusieron un estimador de matriz de dispersin basado en robustifying director componentes a travs de tcnicas de persecucin proyeccin. Una clase de estimadores de proyeccin
para matrices de dispersin fueron estudiados por Maronna, Stahel y Yohai (1992). Tyler (1994)
discute nito punto desglose muestra de proyeccin basada
estimadores, en particular, el estimador Stahel-Donoho. Maronna y Yohai (1995) estudiaron
los comportamientos asintticos y nito-muestra de la Stahel? Donoho estimadores robustos
multivariados. De un estudio de simulacin, concluyeron que se comparan favorablemente con
otras propuestas como la M-multivariado o S-estimadores, y MVE de Rousseeuw. Sin embargo,
el principal inconveniente sigue siendo la falta de mtodos posibles para calcular los estimadores
de mayores dimensiones que p = 2:
Recientemente, Rousseeuw y Van Driessen (1999) propusieron un algoritmo rpido (FASTMCD) para el estimador mnimo Covarianza Determinante (MCD). Originalmente propuesto
por Rousseeuw (1984, 1985), el uso de este estimador fue hasta ahora obstaculizada por el
elevado tiempo de clculo de los algoritmos existentes. El objetivo es encontrar MCD h de
n observaciones cuya clsica covarianza matriz tiene el determinante ms bajo. El estimador
MCD, b M CD , de la matriz de covarianza es entonces el mtodo de momento estimador de estos h
observaciones. Rousseeuw y Van Driessen (1999) han demostrado que el muestra nita punto de
MCD desglose m se han denido anteriormente, cuando h = m, es decir, 50 % asintticamente.
Adems, Croux y Haesbroeck (1999) mostraron MCD que es ms eciente que MVE en altas
dimensiones, y por lo tanto recomendar el uso de MCD.
3. el estimador muy robusto
3.1. La dispersin entre dos variables aleatorias
Tradicionalmente, la estimacin de la covarianza entre dos variables aleatorias X e Y se basa
en un enfoque de ubicacin, ya que Cov(X; Y ) = E[(X E(X)) (Y E(Y ))]; produciendo, por
ejemplo, el estimador (1) de . Sin embargo, estimacin de covarianza tambin puede basarse
en un enfoque de escala, por medio de la siguiente identidad (Huber, 1981; Gnanadesikan,
1997):
[V ar (X= + Y = ) V ar (X=
Y = )] ;
8 ; 2R
(3)
4
En general, X e Y se pueden medir en diferentes unidades, y la eleccin
= X y p= Y es
p
recomendable (Gnanadesikan y Kettenring, 1972), donde X = V ar(X) y Y = V ar(Y ).
La eleccin de un estimador robusto de la varianza en (3) produce un estimador robusto de la
covarianza entre X y Y.

Cov(X; Y ) =

En el contexto de la estimacin de escala, Rousseeuw y Croux (1992, 1993) propone un estimador simple, explcito y muy robusto de escala, Qn ,
Qn (z) = d fjzi

zj j ; i < j; i; j = 1; 2; :::; ng(k) ,

(4)

n
) + 2)=4c + 1
2
y b c denota la parte entera. El factor d es la coherencia: para la distribucin de Gauss, d =
2;2191: Esto signica que ordenamos el conjunto de todos absoluta diferencias jzi zj j en orden
creciente para i < j; i; j = 1; 2; :::; n; y a continuacin, calcular su estadstica de orden k-simo
(aproximadamente el cuantil 1=4 para n grande). Este valor se multiplica por d, produciendo
de este modo Qn . Tenga en cuenta que este estimador calcula la estadstica de orden k-simo
n
de la ( ) Distancias entre puntos.
2
donde z = (z1 ; :::; zn )T es una muestra de una variable aleatoria Z; k = b((

Es de inters sealar que Qn no se basa en ningn conocimiento de ubicacin y por lo tanto se


dice que es-lugar libre. Esto est en contraste con la clsica matriz de covarianza de muestra
(1), que se puede obtener mediante la insercin del clsico estimador de la varianza de la
muestra en la ecuacin. (3). Por lo tanto, el uso de la estimador muy robusto escala (4) en la
identidad (3) producir un gran robusta estimador de covarianza, que es tambin-puesto libre.
A primera vista, la estimador Qn parece necesitar O(n2 ) el tiempo de clculo, lo que sera un
desventaja. Sin embargo, puede ser calculada utilizando no ms de O(n log n) tiempo y O(n)
de almacenamiento, por medio del algoritmo rpido descrito en Croux y Rousseeuw (1992).
El uso de la identidad (3) y la denicin (4) de la escala estimador Qn ; se proponer el siguiente
estimador muy robusto para calcular la covarianza
Entre dos variables aleatorias Xe Y . En primer lugar, utilice Qn para estimar la desviaciones
estndar X y Y de X y Y . A continuacin, utilice Qn de nuevo para estimar las desviaciones estndar + y
de X= X + Y = Y y X= X Y = Y La covarianza entre X e Y es
2
2
=4 Por lo tanto, el altamente estimador robusto bQ de la covarianza es
X Y
+
bQ (x; y) =

[Q2n (x= + y= )

Q2n (x=

y= )] ;
(5)
4
donde: = Qn (x), = Qn (y). Como se muestra en la Seccin 4, tiene un avance punto de
cada de 50 %, que es el mismo que el Qn estimador. Aqu, 50 % punto de ruptura signica que
entre los pares n de observacin fxi; yig ; i = 1; :::; n valores, la mitad de ellos puede contener
contaminados (arbitrarias) y la estimacin no ser totalmente destruida. Tenga en cuenta que
en el medio slido estimador de covarianza bQ tambin puede llevarse a cabo conO(n log n)
tiempo y O(n) de almacenamiento.
A n de obtener un estimador muy robusto de la correlacin
e Y , podramos dividir el estimador bQ (x; y) en

entre dos variables aleatorias X

Eq. (5) por Qn (x) y Qn (y), produciendo

1 2
[Q (x= + y= ) Q2n (x=
y= )]
(6)
4 n
donde: Qn (x), = Qn (y). Sin embargo, esto no es una correlacin naturales estimador porque
no est limitada y entre 1 y 1. Por lo tanto, nos
considere lo siguiente estimador muy robusto correlacin bQ de ;

bQ (x; y) =

Q2n (x= + y= ) Q2n (x=


Q2n (x= + y= ) + Q2n (x=

y= )
y= )

(7)

donde el denominador es un estimador del valor 4 que asegura jbQ (x; y) j 1. Tenga en cuenta
que bQ (x; y) depende de la eleccin de la constante d apareciendo en Eq. (4), mientras que
bQ es independiente de la eleccin de d. Sin embargo, d puede ser calculado para diversas
distribuciones, aunque el caso es gaussiana generalmente preferido.
3.2. Dispersin entre p variables aleatorias

En el caso de n observaciones de un vector aleatorio p-dimensional, se utiliza el estimador


bQ para estimar cada covarianza entre Xi y Xj(i; j = 1; :::; p; i 6= j) para conseguir la entrada (i; j) de la matriz de covarianza . Las entradas diagonales han sido estimados utilizando
Q2n directamente en la Xi 0s(i = 1; :::; p). Esto proporciona una gran estimador robusto componente a componente b Q de la matriz de covarianza .
El uso de bQ , podemos estimar las entradas de la matriz de correlacin R de manera similar
como en el caso de la matriz de covarianza, produciendo as un componente a componente
bQ . Nos pusimos todos los elementos de la diagonal de R
bQ a
altamente robusto estimador de R
1.

Tenga en cuenta que dado que el mtodo que proponemos se componente a componente en
lugar de global, no hay garanta de que tenemos una matriz denida positiva en el nal de la
estimacin. Rousseeuw y Molenberghs (1993) propusieron tres tipo de mtodos para transformar
la matriz estimada a una denida positiva matriz. Ellos son, respectivamente, el mtodo de
reduccin, el mtodo de valor propio, y el mtodo de escalado. Cuando el propio covarianza es
la cantidad de inters, hay que transformarla en una matriz denida positiva usando uno de
estos mtodos, mientras que si algunas entradas en particular de la matriz son los valores de
inters, entonces los valores estimados debe proporcionar una buena estimacin de la valores
reales.
4. PROPIEDADES DEL PERITO
4.1. puntos Desglose
Se sabe que el punto de ruptura Qn es 50 % (Rousseeuw y Croux, 1993). Inspeccionar X= +
Y = (o X=
Y = ), podemos ver que mientras como xi (o yi ) est contaminada, entonces
x= + y= (o x=
y= ) est contaminado. As que en los pares (x1 ; y1 ); :::; (xn ; yn ), podemos
tener como mximo la mitad de los pares de concentraciones que contiene datos contaminados.
Si nos jamos en un par como una observacin, entonces el estimadores bQ y bQ son robustos
frente a ms de la mitad de la contaminacin observaciones. As, tienen punto de ruptura 50 %
En la estimacin de la matriz de covarianza y la matriz de correlacin R, que forman pares de
todo el observaciones de Xi y Xj (i; j = 1; :::; p), y el estimador permite en la mayora la mitad
de las parejas para estar contaminada. Por lo tanto, entre la observacin n vectores x1 ; x2 ; :::; xn ,
a lo sumo la mitad de ellos puede contener datos contaminados.
En otras palabras, el punto de la componente a componente altamente robusto desglose estibQ es 50 % Tenga en cuenta que en el contexto de la dispersin la estimacin de
madores b Q y R
la matriz, otro tipo interesante de punto de ruptura es cuando valores atpicos causan la matriz
estimada para convertirse en singular. Sin embargo, este No es el caso de nuestros estimadores
bQ . incluso sin valores atpicos, que han de ser transformado a denitud
de dispersin b Q y R
positiva por medio de uno de los tres mtodos mencionados en el apartado 3.2.
4.2. Funcin Inuencia

La funcin de inuencia (Hampel, 1974) es una herramienta para describir la robustez ness
propiedades de un estimador. Su importancia radica en su heurstica atractivo interpretacin:
mide el sesgo asinttico causada por un innitesimal contaminacin de las observaciones. Denotemos por Q , Q , y Q la estadstica funcional (por ejemplo Huber, 1981;. Hampel et al,
6

1986) correspondiente a la estimadores Q , Q y Qn , respectivamente. La funcin de inuencia


de la dispersin estimadores viene por Genton y Ma (1999). Se basa en la inuencia funcin
del estimador subyacente escala. En nuestro caso, la inuencia funcin de Qn es (Rousseeuw y
Croux, 1993):
1
F (u + d 1 ) + F (u d 1 )
4
R
(8)
IF (u; Q; F ) = d
f (x + d 1 ) f (x) dx
donde f es la funcin de densidad de la distribucin de F y d es el mismo ciente ciente como
en el Qn estimador. Basado en (5), la funcin de inuencia de la estimador de covarianza bQ
es:
1
u
u
u
u
IF (u; v) ; Q ; F =
+
; Q; F+
IF
; Q; F
+ IF
X Y
2
X
Y
X
Y
u
u
u
u
+ , F es la funcin de distribucin de
,
Aqu, F+ es la funcin de distribucin de
X

F es la distribucin bivariante de X e Y , con marginal

distribuciones FX y FY . Las funciones de inuencia IF ( ; Q; F+ ) y IF ( ; Q; F ) estn dadas por


la ec. (8).
Ms informacin sobre la justicacin y las propiedades de la ecuacin. (9) puede ser encontrado
en Genton y Ma (1999). Una manera de entender intuitivamente es: X y Y en la ecuacin. (9)
puede ser reemplazado por cualquier constante no cero y . Luego de la ecuacin. (5), al notar
la conexin entre la funcin de inuencia y la derivada de primer orden, sabemos Eq. (9) da la
funcin de inuencia. En particular, para = X y = Y , Eq. (9) sigue siendo vlida. Uno
puede sospechar que desde = X y = Y ellos mismos tienen que ser estimados en primer
lugar, nuestra funcin de inuencia debe tomar la perturbacin de estos dos estimadores en
cuenta tambin, por lo tanto debe tener una forma ms complicada que la dada en la ecuacin.
(9). Afortunadamente, este no es el caso y podemos entenderlo de esta manera: hasta dnde
la estimada = X y = Y son de los verdaderos valores hace no tiene ningn efecto directo
sobre la estimacin, ya que incluso si se toma arbitraria y , el estimador es todava vlida.
Y
X
+
y
Los valores de y ; slo tienen un efecto en la realizacin de la estimacin de
X
X

, y esto se toma cuidar de la funcin de inuencia de estos dos estimadores.

Puesto que el estimador de correlacin bQ (x; y) se puede escribir como en la ecuacin. (7), se
tiene:
IF (u; v) ;

Q; F

2
(

2
+

2 2

2
+

2
+

+ IF

+ IF

; Q; F+

; Q; F+

IF

u
X

IF

; Q; F

; Q; F

De este modo, se obtiene la siguiente funcin de inuencia de la correlacin estimador bQ :


IF (u; v) ;

Q; F

IF

; Q; F+

IF

; Q; F

Se puede comprobar que las funciones


R de inuencia tanto de la covarianza estimador y el
estimador de la correlacin satisfacen IF dF = 0.
7

(11)

4.3. varianza asinttica


Bajo condiciones de regularidad, tanto bQ y bQ son estimadores consistentes, desde Qn es
consistente (Rousseeuw y Croux, 1993). Adems, son asintticamente normal con varianza
asinttica (de orden 1=n) dada por:

Q; F

Q; F

V (Q; F ) =

Z
Z

IF (u; v) ;

Q; F

IF (u; v) ;

Q; F

IF (u; Q; F ) ;

dF (u; v)
dF (u; v)

Q; F

dF (u)

(12)

Posteriormente, se asume una distribucin gaussiana bivariante F =


X
Y

0
0

donde

2
X

es la covarianza y

2
Y

0
0

2
X

para (X; Y )T , es decir:

X Y
2
Y

es la correlacin entre X e Y. Nosotros tenemos:

Proposicin 1: La varianza asinttica del estimador de covarianza bQ es


V

Q;

= 2V (Q; )

2
X

2
Y

2
X

= 1;215

2
Y

(13)

y la varianza asinttica del estimador de correlacin bQ es


V(

Q;

2 2

) = 2V (Q; )(1

2 2

) = 1; 215(1

(14)

donde representa la funcin de distribucin gaussiana estndar, es decir, con media cero y
varianza uno.
En la Tabla I, se calcula la varianza del estimador de covarianza y de el estimador de correlacin
para diferentes varianzas y covarianzas subyacentes.
Los resultados se presentan en la cuarta y quinta columnas de la Tabla I. Proposicin la 1 es
de hecho vlido para un estimador de dispersin basado en cualquier estadstica funcional de
escala. Por ejemplo, podemos reemplazar la Qn estimador en Proposicin 1 con el estimador de
mxima verosimilitud de MLE escala, y calcular la forma cerrada de la varianza del estimador
de covarianza bM LE y del estimador correlacin bM LE :
CUADRO I

Asinttica Varianza y eciencia de la dispersin Estimadores bQ y bQ , en el caso de


distribuciones de Gauss
2
X

1
1
1
1
1
1
1

2
Y

1
1
1
1
2
3
10

V
0
0;2
0;5
0;8
0;5
0;5
0;5

Q;

1;215
1;264
1;519
1;993
2;735
3;950
12;458

Q;

1;215
1;120
0;683
0;157
0;930
1;021
1;155
8

Ef f v Q ;
0;823
0;701
0;296
0;040
0;498
0;589
0;745

Ef f v Q ;
0;823
0;791
0;658
0;501
0;732
0;758
0;803

Nota. Los valores numricos de las varianzas asintticas se calcularon con la Proposicin 1
y los valores numricos de las eciencias asintticas se calcularon con la Proposicin 3.
COROLARIO 1. La varianza asinttica del estimador de covarianza bM LE es
V

M LE

2
X

2
Y

(15)

y la varianza asinttica del estimador de correlacin bM LE es


V(

M LE ;

2 2

) = (1

);

(16)

Por lo tanto, la varianza asinttica de los estimadores de covarianza aumenta con aumento de la
dependencia, mientras que disminuye con el aumento de la dependencia de estimadores de correlacin. De hecho, vemos que la varianza asinttica de estimadores de dispersin para distribuciones gaussianas multivariantes es proporcional cional a la varianza asinttica del estimador
subyacente escala. El valor de proporcionalidad depende slo de la dependencia subyacente.
4.4. Informacin de Fisher
Para distribuciones de Gauss, una forma cerrada de la informacin de Fisher tanto covarianza
y correlacin se pueden obtener:
Proposicin informacin 2. La informacin de Fisher de la covarianza es
I( ;

)=

2 2
X Y
2 2
X Y

y la informacin de Fisher de la correlacin


I( ;

)=

(17)

2 )2

es

1+ 2
2 )2
(1

(18)

Tenga en cuenta que a partir de la informacin de Fisher para la covarianza , es lineal remitir
a obtener la informacin de Fisher para la correlacin, ya que la correlacin Es simplemente
X

4.5. Eciencia
La eciencia se dene como la inversa del producto de la informacin Fisher y la varianza
asinttica del estimador. As, por las distribuciones gausianas, podemos calcular la eciencia
asinttica de bQ y bQ
Proposicin 3. La eciencia asinttica del estimador de covarianza bQ es
E

Q;

(
2V (Q;

2
X

2 2

2
Y

)(

2
X

2
Y

2 )2

= 0;823

(
(

2
X
2
X

2
Y
2
Y

2 2

y la eciencia asinttica del estimador de correlacin bQ es


E

Q;

1
2V (Q; ) (1 +

2)

= 0;823

1
1+

(19)

2 )2

(20)

Se presenta la ecacia tanto de la covarianza y la correlacin estimadores en la sexta y sptima


columna de la Tabla I, calculado por la Proposicin 3. De hecho, la Proposicin 3 es vlida para
un estimador de dispersin basado en cualquier estadstica funcional de escala. Por ejemplo,
podemos volver a reemplazar la Qn estimador en la Proposicin 3 con el estimador de mxima verosimilitud de escala MLE, y calcular la forma cerrada de la eciencia asinttica de la
estimador de covarianza bM LE y del estimador de correlacin bM LE :
COROLARIO 2. La eciencia asinttica de la mxima verosimilitud estimador de la covarianza
bM LE es
E(

M LE ;

)=

2
X
2
X

2
Y
2
Y

2 2

(21)

2 )2

y la eciencia asinttica del estimador de mxima verosimilitud de la correlacin bM LE es


E(

M LE ;

)=

1
1+

(22)

5. COMPARACIONES
En primer lugar, comparamos el estimador que hemos propuesto aqu, bQ , con el mximo
probabilidad uno, bM LE , y otro componente a componente slido estimador, bM AD , basado en
la desviacin media absoluta (por ejemplo, Hampel et al., 1986). A continuacin Comparar
b Q con los estimadores globales b M M E ; b M V E y b M CD Nos centramos en la estimacin de
covarianza aqu ya que como vamos a sealar en la seccin 5.1, se es ms difcil que la estimacin
de correlacin.
5.1. Comparacin con MLE y MAD
Como hemos sealado, la Proposicin 1 es vlido para cualquier estimador de dispersin sobre
la base de un M-estimador de escala (Genton y Ma, 1999). En la Fig. 1, trazamos la varianza
asinttica del tres estimadores de covarianza bQ , bM LE y bM AD , para una distribucin gaussiana
normalizada con correlacin . del mismo modo nosotros tambin representamos la varianza
asinttica de los tres correlacin correspondiente estimadores de la Fig. 2. Las tres curvas de
la gura. 1 y en la Fig. 2 se calculan con la frmula de la Proposicin 1 y en el Corolario 1.
Podemos ver que

FIG.1. La varianza asinttica de los estimadores de covarianza basada en Qn , MLE, y MAD,


para una distribucin gaussiana bivariada estandarizada con correlacin . El bM LE estimador
tiene la varianza asinttica ms pequeo, la varianza asinttica del estimador bQ es un poco
ms grande, mientras que bM ADE tiene una varianza asinttica mucho ms grande que los otros
10

dos. para los tres estimadores, la varianza asinttica aumenta cuando la covarianza entre los
dos variables aleatorias aumenta.
cuando la covarianza (correlacin) entre dos variables aleatorias aumenta, la varianza asinttica
del estimador de covarianza aumenta, mientras que el varianza asinttica de los estimadores
de correlacin disminuye. Como cuencia cuencia, la estimacin de la correlacin es ms fcil
que la estimacin de la covarianza, en el sentido de que tiene menor variabilidad. En la de
Gauss estndar independiente caso de distribucin, es decir, = 0, la varianza asinttica de la
covarianza estimador y el estimador de correlacin tienen el mismo valor.

FIG. 2. La varianza asinttica de los estimadores de correlacin basado en Qn , MLE, y MAD,


para una distribucin gaussiana bivariada estandarizada con correlacin . El bM LE estimador
tiene la varianza asinttica ms pequeo, la varianza asinttica de la bQ estimador es ligeramente
ms grande, mientras que bM AD tiene una varianza asinttica mucho ms grande que los otros
dos. Para los tres estimadores, la varianza asinttica disminuye cuando la covarianza entre el
dos variables aleatorias aumenta.
TABLA II
La media y la varianza de la covarianza Estimadores bQ , bM LE y bM AD

Nota. Los datos siguen una distribucin de Gauss estndar independiente, y se calcul la media
y la varianza despus de ejecutar 1.000 muestras. Los tres estimadores son todo imparcial, y
la varianza de la bM AD es signicativamente mayor que los otros dos.
Hemos llevado a cabo algunas simulaciones para probar la media y la varianza de la estimadores
de dispersin basado en el Qn , MLE, y estimadores MAD. la simulacin fue de dos variables
aleatorias gaussianas normalizadas con covarianza 0 y 0,5, y en base a 1000 muestras. Los
11

tamaos de las muestras fueron 20, 100 y 200. Los resultados se presentan en la Tabla II y III.
Podemos ver que los estimadores son imparciales y la varianza de los estimadores aumenta a
medida que la variacin entre las dos variables se incrementa al azar.
5.2. Comparacin con MME, MVE, y MCD
Con el n de comparar la gran robustez estimador componente a componente b Q con los
estimadores globales b M M E ; b M V E y b M CD , que lleva a cabo algunos
TABLA III

La media y la varianza de la covarianza Estimadores bQ ; bM LE y bM AD

Nota. Los datos siguen una distribucin gaussiana con media cero y varianza uno, y la covarianza
# entre las dos variables aleatorias fue de 0,5. Se calcul la media y la varianza despus de
ejecutar 1.000 muestras. Los tres estimadores son todo imparcial, y la varianza de la bM AD es
signicativamente mayor que los otros dos.
simulaciones en tres variables, es decir,
Distribucin gaussiana. En la Tabla IV,
0

1
0
= @ 0 A;
0

y en la tabla V,
0

1
1
= @ 2 A;
3

es una matriz 3

1;0 0;9
@
0;9 1;0
=
0;5 0;2
0

1
0;5
0;2 A ;
3;0

1
1;0 0;8 0;5
= @ 0;8 1;0 0;8 A ;
0;5 0;8 1;0

3, a partir de un multivariante

(23)

(24)

Ambas situaciones son algunas correlaciones de gran tamao (0,9 en (23) y 0,8 en (24)). Generamos 1.000 conjuntos de datos, cada uno con un tamao de muestra de 100 y se utiliz el cuatro
estimadores para el clculo de la matriz de covarianza . En la estadstica software S-Plus, el
b M M E , b M V E , y b M CD estimadores son, respectivamente, implementado como var, cov.mve, y
cov.mcd$cov (tenga en cuenta que la ltima dos funciones dan un paso estimadores reweighted
basado en MVE y MCD, vase, por ejemplo Rousseeuw y Van Driessen (1999)). Implementamos b Q en S-Plus desde un C-rutina proporcionada por Croux y Rousseeuw (1992). Sobre la
base de las matrices de covarianza estimadas 1000, hemos calculado la media y la varianza de
las estimaciones. Los resultados se presentan en la Tabla IV y V. En las primeras columnas,
los datos no contienen valores atpicos, en el segunda columna, 10 % de los datos tienen una
matriz de covarianza 9 (explotar escriba los valores extremos), en la tercera columna, 10 % de
los datos tienen una covarianza matriz =9 (implosionar valores extremos tipo). En estos ejemplos, las matrices b Q son denida positiva. En caso de que no son denida positiva, como una
transformacin se describe al nal de la Seccin 3.2 se debe aplicar. Por conveniencia, llamar a
12

la suma de los valores absolutos de todas las entradas de una matriz de la 1-norma de la matriz, y denotan por k k1 . El ms pequeo de 1-norma en cada columna se destaca por la fuente
negrita. A partir de las tablas, se puede observar que cuando no hay valores atpicos, b M M E se
comporta mejor, b Q es ligeramente peor, mientras b M V E y b M CD se comportan peor. Cuando
los valores extremos son de explotar tipo (la observacin tiende a ser mucho ms grande que
el valor verdadero), b M V E tiene la mejor estimacin, seguido por b M CD y b Q , mientras que
b M M E da la peor resultado. Para los valores extremos que son de tipo implosin (la observacin
tiende a ser mucho ms pequeo que el valor verdadero), b M M E y b Q tanto dan relativamente
buenas estimaciones, mientras que b M V E es peor y b M CD da el peor resultado. Esto se puede
entender si nos damos cuenta de que los estimadores b M V E y b M CD slo tener en cuenta la
mitad de las observaciones que se distribuyen ms cercana a un centro estimada. Por lo tanto
los valores atpicos explosin no tendrn mucho

13

14

efectuar en los estimadores, mientras que la implosin valores atpicos puede traer importantes
desaar a los estimadores. En otras palabras, b M V E y b M CD son robustos slo en contra de
la explosin de los valores extremos, no implosin valores atpicos. b M M E da muy buenos
resultados en el caso de implosin debido a que los valores de implosionar que probamos son
No caso extremo y slo pueden llevar 10 % de los datos, por lo que en virtud el procedimiento
promediado, el efecto de implosin es muy pequea. b Q no es la mejor en cualquiera de las tres
simulaciones, pero es relativamente bueno en las tres simulaciones. As, en la prctica, cuando
uno no sabe muy bien qu tipo de valores atpicos existen y cuntos porcentaje de los datos
estn contaminados, b Q es una estimador adecuado a utilizar. En particular en lo que no hay
valores atpicos, el sesgo de b Q es casi tan pequeo como el sesgo de b M M E . Tenga en cuenta
que los resultados de la simulacin para b Q son vlidos slo para (23) y (24) porque nuestro
estimador no es afn invariante. Sin embargo, los resultados para (23) y (24) son bastante
similares.
6. CONCLUSIN
Un nuevo estimador de componente a componente de una matriz de dispersin, basado en
una altamente estimador robusto de la escala, se ha propuesto en este artculo. su robustez
propiedades fueron estudiados por medio de la funcin de inuencia y el desglose punto. Otras
caractersticas tales como la varianza y la eciencia asinttica eran tambin analizado. Una
ventaja importante de la novela estimador es que su comportamiento es cerca de el mtodo
de momento estimador en situaciones no contaminadas, mientras que es muy robusto en los
contaminados. Se demostr en el enfoque de componente a componente, para las distribuciones
gaussianas multivariantes, que la estimacin de matriz de covarianza es ms difcil que la matriz
de correlacin estimacin. La razn es que la varianza asinttica de la covarianza aumenta con
el aumento de la dependencia del estimador, mientras que disminuye con creciente dependencia
de estimadores de correlacin. Tambin hemos podido comprobar que la varianza asinttica de
los estimadores de dispersin de Gauss multivariado distribuciones es proporcional a la varianza asinttica de la escala subyacente estimador. El valor de proporcionalidad depende slo
de la subyacente dependencia. Por lo tanto, la gran robustez estimador de dispersin es la
mejor robusto eleccin en el momento presente en el enfoque de componente a componente, ya
que combina pequeas propiedades de variabilidad y robustez, como punto de ruptura y alta
acotada funcin de inuencia. Un estudio de simulacin se llev a cabo con el n de evaluar
15

el comportamiento de la nueva estimador. En primer lugar, una comparacin con otra estimador robusto componente a componente basado en la escala de desviacin absoluta mediana
estimador, se llev a cabo. Las propiedades altamente robusto del nuevo estimador fueron conrmados. Por otra parte, se ha demostrado que el comportamiento de la nueva estimador es
mejor que el basado en el MAD, aunque este ltimo es el B-estimador robusto dispersin componente a componente ms (Genton y Ma, 1999). Una segunda comparacin con estimadores
globales como el mtodo de estimador momento, el mnimo volumen estimador de elipsoide, y
el covarianza mnimo estimador determinante, tambin se ha realizado, con dos tipos de valores
atpicos. En este caso, la matriz de dispersin muy robusto estimador resulta ser un compromiso
entre la alta eciencia de la mtodo de momento estimador en situaciones no contaminadas y
la muy propiedades robustas del volumen mnimo elipsoidales y covarianza mnimo estimadores
determinantes en situaciones contaminados, con la explosin de tipo de valores atpicos.
7. PRUEBAS
7.1. Prueba de la Proposicin 1
La varianza asinttica de bQ a las

es

El cambio de variables

rendimientos

y corresponde a las variables aleatorias


sigue la distribucin normal estndar

+ X

y
Y

X
+ X

y es independiente

el uno del otro. por lo tanto

16

, cada uno de los cuales


Y

Tenga en cuenta que usamos la propiedad lineal de la funcin de inuencia (Hampel et al.,
1986): IF ( x; Q; X ) =: IF (x; Q; X ); n : 8 2 R. Por lo tanto:

Del mismo modo, la varianza asinttica de bQ a las

es

Usando la misma tcnica que el anterior, tenemos:

7.2. Prueba de la Proposicin 2


Escribimos a cabo la funcin de densidad de probabilidad de la bivariado Gauss distribucin
17

donde A = bu2 + av 2
Fisher, tenemos

2 uv y B = 2ab

2 2 . Siguiendo la denicin de la informacin de

dejar

Entonces, tenemos

y la Ec. (25) se convierte

18

Sea p =

s2 =[4

q
p
p p
ab( ab + )] y q = t2 =[4 ab( ab

)]. entonces la Ec. (26) se convierte

Por la denicin de la informacin de Fisher, sabemos

Donde

ab en este caso. Usando la ecuacin. (17), obtenemos

AGRADECIMIENTOS
Los autores agradecen a Xavier de Luna por sus comentarios sobre una versin anterior de
la papel. Tambin agradecemos a dos rbitros annimos por los comentarios que ayudaron a
mejorar el papel.
Referencias
1. algoritmos en tiempo eciente C. Croux y PJ Rousseeuw, para dos estimadores altamente
robustos de escala, Comput. Estatista. 2 (1992), 411- 428.
2. C. Croux, PJ Rousseeuw, y O. Ho? Ssjer, generalizadas S-estimadores, J. Amer. Estatista.
Assoc. 89 (1994), 1271- 1281.
3. C. Croux y G. Haesbroeck, la funcin y la eciencia de la covarianza mnimo Inuencia
estimador de la matriz de dispersin determinante, J. multivariado anal. 71 (1999), 161?
190.
19

4. PL Davies, Comportamiento asinttico de S estimaciones de parmetros de localizacin


y multivariado matrices de dispersin, Ann. de estatista. 15 (1987), 1269? 1292.
5. SJ Devlin, R. Gnanadesikan, y JR Kettenring, estimacin robusta y atpico deteccin con
coecientes de correlacin, Biometrika 62 (1975), 531- 545.
6. SJ Devlin, R. Gnanadesikan, y JR Kettenring, estimacin robusta de la dispersin matrices y componentes principales, J. Amer. Estatista. Assoc. 76 (1981), 354- 362.
7. DL Donoho y PJ Huber, La nocin de punto de ruptura, en Un Festschrift para Erich
L. Lehmann (PJ Bickel, KA Doksum, y JL Hodges Jr., Eds.), Pp. 157? 184, 1982.
8. MG Genton, estimacin variograma altamente robusto, Matemticas. Geol. 30 (1998),
213- 221.
9. MG Genton y Y. Ma, propiedades de robustez de los estimadores de dispersin, estatista.
Probab. Lett. 44 (1999), 343-350., Estimaciones robustas, los residuos, y la deteccin de
valores atpicos
10. R. Gnanadesikan y JR Kettenring con datos multirespuesta, Biometra 28 (1972), 81124.
11. R. Gnanadesikan, Mtodos de anlisis de datos estadsticos de las observaciones multivariantes, 2a ed., Wiley, Nueva York, 1997.
12. FR Hampel, estimacin robusta: Una encuesta parcial condensada, Z. Wahr. Verw. Gebiete 27 (1973), 87- 104.
13. FR Hampel, La curva de inuencia y su papel en la estimacin robusta, J. Amer. Estatista.
Assoc. 69 (1974), 383- 393.
14. FR Hampel, EM Ronchetti, PJ Rousseeuw, y WA Stahel, Los estadsticos robustos: El
Enfoque Basado en funciones de inuencia , Wiley, Nueva York, 1986.
15. O. Ho? Ssjer, C. Croux, y PJ Rousseeuw, asinttica de S-estimadores generalizadas, J.
multivariado anal. 51 (1994), 148? 177.
16. PJ Huber, covarianzas robustas, en Teora de la Decisin Estadstica y Temas Relacionados 2 (SS Gupta y DS Moore, Eds.), Pp. 165- 191, Academic Press, San Diego,
1977.
17. PJ Huber, Los estadsticos robustos, Wiley, Nueva York, 1981.
18. PJ Huber, Finito punto de m- y p-estimadores, Ann desglose muestra. de estatista. 12
(1984), 119-126.
19. G. Li y Z. Chen, el enfoque de proyeccin-bsqueda a las matrices de dispersin y robustos
componentes principales: la teora de primaria y Monte Carlo, J. Amer. Estatista. Assoc.
80 (1985), 759- 766.
20. H. Lopuhaa ?, Sobre la relacin entre S y M-estimadores estimadores de multivariante
ubicacin y covarianza, Ann. Estatista. 17 (1989), 1662- 1683.
21. H. Lopuhaa? Y PJ Rousseeuw, punto de estimadores equivariante anes de Desglose
ubicacin y covarianza matrices multivariantes, Ann. de estatista. 19 (1991), 229? 248.

20

22. Y. Ma y MG Genton, estimacin muy robusta de la funcin de autocovarianza, J. Tiempo


Serie anal. 21 (2000), 663- 684.
23. CL Malvas, sobre algunos temas en Robustez, Bell Labs Tecnologa. Memo, Murray
Hill, NJ, 1976.
24. KV Mardia, JT Kent, y JM Bibby, Anlisis Multivariante, Academic Press, San Diego,
1979.
25. RA Maronna, robustos M-estimadores de localizacin y dispersin multivariante, Ann. de
estatista. 4 (1976), 51- 67.
26. RA Maronna, WA Stahel, y VJ Yohai, estimacin robusta de Bias-multivariado de dispersin basado en proyecciones, J. multivariado anal. 42 (1992), 141- 161.
27. RA Maronna y VJ Yohai, El comportamiento del robusto multivariable? Donoho Stahel
estimador, J. Amer. Estatista. Assoc. 90 (1995), 330- 341.
28. PJ Rousseeuw, menos la mediana de cuadrados de regresin, J. Amer. Estatista. Assoc.
79 (1984), 871- 880.
29. PJ Rousseeuw, estimacin multivariante con alto punto de ruptura, en Matemtico
Estadstica y Aplicaciones (W. Grossmann, G. Pug, I. Vincze, y W. Wertz, eds.), pp.
283? 297, Reidel, Dordrecht, 1985.
30. PJ Rousseeuw y AM Leroy, Regresin Robusta y deteccin de las dems , Wiley, Nueva
York, 1987.
31. PJ Rousseeuw y G. Molenberghs, Transformacin de correlacin no positiva semidenida
matrices, Commun. Estatista. Teora Meth. 22 (1993), 965- 984.
32. PJ Rousseeuw y BC van Zomeren, valores atpicos multivariantes desenmascarar y apalancamiento puntos, J. Amer. Estatista. Assoc. 85 (1990), 633- 651.
33. PJ Rousseeuw y C. Croux, estimadores explcitos escala con alto punto de ruptura, en L
1 Los anlisis estadsticos y mtodos relacionados (Y. Dodge, Ed.), pp. 77? 92, Elsevier,
Amsterdam, 1992.
34. PJ Rousseeuw y C. Croux, Alternativas a la desviacin absoluta mediana, J. Amer. Estatista. Assoc. 88 (1993), 1273- 1283.
35. PJ Rousseeuw y G. Molenberghs, Transformacin de semidenida no positivo matrices
de correlacin, Commun. Estatista. Teora Meth. 22 (1993), 965- 984.
36. PJ Rousseeuw y K. Van Driessen, un algoritmo rpido para la covarianza mnimo estimador determinante, Technometrics 41 (1999), 212- 223.
37. WA Stahel, Distribucin de covarianza estimadores, Informe de Investigacin 31,
Fachgruppe fu? r Statistik ETH, Zu? rica, 1981.
38. DE Tyler, ubicacin multivariado nitos puntos desglose muestra de proyeccin basada y
dispersar las estadsticas, Ann. de estatista. 22 (1994), 1024- 1044.
39. VJ Yohai y R. Zamar, las estimaciones de alta desglose de punto de regresin por medio
de la minimizacin de una escala eciente, J. Amer. Estatista. Assoc. 83 (1988), 406- 413.

21

S-ar putea să vă placă și