Sunteți pe pagina 1din 35

Un estimador de la varianza del total estimado

bajo muestreo sistem atico de una poblaci on especca


M onica Tinajero Bravo
*
Guillermina Eslava G omez
**
Luis Cruz Orive
***
Enero de 2010
*
Candidato a Doctor en Ciencias Matematicas, Posgrado en Ciencias Matematicas, UNAM. Ciudad Uni-
versitaria, 04510, D.F., Mexico, tinajerobm@gmail.com. Este reporte de investigacion es parte del trabajo de
investigacion del programa de Doctorado en Ciencias Matematicas.
**
Depto. de Matematicas, Facultad de Ciencias, UNAM. Ciudad Universitaria, 04510, D.F., Mexico, esla-
va@matematicas.unam.mx.
***
Depto. de Matematicas, Estadstica y Computacion, Facultad de Ciencias, Universidad de Cantabria, Av.
Los Castros s/n, E-39005 Santander, Espa na, lcruz@matesco.unican.es.
1

Indice
1. Introducci on 4
2. Varianza del estimador del total poblacional bajo muestreo sistematico 6
3. Algunos estimadores de la varianza 10
4. Varianza del estimador bajo el modelo especco modelo de cola de ballena,
WTM 12
4.1. WTM poblacion continua . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
4.1.1. Estimador del total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.1.2. Varianza del estimador del total . . . . . . . . . . . . . . . . . . . . . . . 15
4.1.3. Varianza del estimador del total considerando un error en el modelo . . . 17
4.1.4. Estimador de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2. WTM poblacion nita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2.1. Estimador del total . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.2.2. Varianza del estimador del total . . . . . . . . . . . . . . . . . . . . . . . 21
4.2.3. Varianza del estimador del total considerando un error en el modelo . . . 22
4.2.4. Estimador de la varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5. Experimento emprico y simulaciones 23
6. Anexos 25
6.1. Relaci on entre

V
Sdi
y

V
GC
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
6.2. Derivacion de V
WTM
(

), poblacion continua . . . . . . . . . . . . . . . . . . . . 26
6.3. Estimador de

t

, WTM poblaci on nita . . . . . . . . . . . . . . . . . . . . . . . 33


2
Resumen
En general no existen estimadores insesgados para la varianza del estimador del total
poblacional bajo muestreo sistematico. Se han obtenido varias aproximaciones suponiendo
que la poblacion de estudio es una realizacion de una superpoblacion que sigue un modelo
especco, o bien mediante metodos no parametricos basados en la teora transitiva de G.
Matheron.
En esta trabajo se presenta una aproximacion, a partir de una sola muestra, de la
varianza del estimador del total poblacional bajo muestreo sistematico sobre una poblacion
normal, reordenada de una manera especial que tiende a reducir dicha varianza. El graco
de la funcion de medida resultante, f, es una version simetrizada de la inversa de la
funcion de distribucion de una variable aleatoria normal con las colas truncadas; debido a
la forma de f le llamamos Modelo de cola de ballena (Whale Tail Model ). Se demuestra
que si el tama no de muestra es un n umero par y la distribucion normal se trunca de forma
simetrica, la varianza del estimador del total es cero. Adicionalmente, se proponen dos
estimadores de la varianza cuando hay un error en el modelo,

f = f + , donde es una
variable aleatoria, es decir, cuando puede suponerse que la poblacion de interes, antes
de ordenarse, se aproxima a una poblacion normal. Generando poblaciones a partir de
una N(0, 1) truncada y ordenandolas de la manera propuesta, se observa que uno de los
estimadores sugeridos es el de menor sesgo y mayor estabilidad, en comparacion con tres
estimadores se nalados en la literatura.
Palabras clave: Muestreo sistematico, estimador de Horvitz-Thompson, varianza de
un estimador, poblacion nita, poblacion continua, superpoblacion.
3
1. Introducci on
El muestreo sistem atico es usado ampliamente en la pr actica debido a su simplicidad operativa,
y a que, para cierta clase de poblaciones, genera estimadores mas ecientes que el muestreo
aleatorio simple. Su eciencia depende de las propiedades de la distribucion de los valores de la
variable en la poblaci on, es decir, del orden de la misma. Algunas veces el sistem atico es m as
preciso, pero en raras ocasiones se est a seguro que ser a el m as eciente, por lo que es necesario
tener informaci on sobre la estructura de la poblacion para usarlo de manera efectiva.
La desventaja principal del muestreo sistematico es que no existe una expresion analtica,
basada en una sola muestra y sin alg un supuesto sobre la poblacion de la cual se extrajo la
muestra, para estimar la varianza del estimador del total,

t

, de manera insesgada (Cochran [2],


Iachan [9]). No obstante, en la literatura se se nalan algunas aproximaciones para el estimador de
la varianza, que se han generado en al menos dos contextos: en el de las poblaciones nitas y en
el de la Estereologa, que trata principalmente con poblaciones continuas. En el primer enfoque
se han propuesto estimadores bajo el supuesto que la poblaci on nita es una realizacion de una
superpoblacion que sigue un modelo determinado, estimadores que usan informacion auxiliar
como el de regresion, estimadores que usan metodos de remuestreo y por ultimo, modicar el
dise no al elegir m as de un arranque aleatorio. En el area de la Estereologa, ciencia que se encarga
de la inferencia estadstica de par ametros cuantitativos de estructuras espaciales basados en
muestras geometricas como un plano o secciones en lnea a traves de la estructura (Kieu [12]),
una herramienta importante la constituyen los metodos transitivos debidos a Matheron, los
cuales son libres de distribuci on y consideran las transiciones o saltos de la primera derivada
no continua de la funci on de medida f.
En el contexto de muestreo de poblaciones nitas, uno de los primeros trabajos se debe a
Madow y Madow [13], quienes sentaron las bases para la teora del muestreo sistematico de-
sarrollando f ormulas para la varianza del estimador de la media en terminos de la varianza y
las autocorrelaciones poblacionales. Por su parte, Cochran [2] se nala que no hay un estimador
insesgado de la varianza a partir de una sola muestra sistem atica, y cualquier estimaci on de-
pender a de los supuestos que se hagan sobre la forma de la poblaci on muestreada. Cochran [2]
deriva expresiones para la varianza de tres dise nos: sistem atico, aleatorio simple y estrati-
cado, suponiendo que la poblaci on nita es generada a partir de una poblaci on innita (su-
perpoblacion), en la cual la autocorrelacion entre dos unidades separadas u unidades,
u
, es
una funci on monotona decreciente de u. Bajo este modelo, las varianzas son funciones lineales
de la correlacion y demuestra que no se puede establecer un resultado general para todas las
poblaciones con
u
mon otonamente decreciente. Sin embargo, si se hacen supuestos adicionales
como que
u
es una funci on lineal de u, entonces el muestreo sistem atico es el mas eciente, en
4
terminos del valor esperado de la varianza, siguiendole el estraticado y por ultimo el aleatorio
simple; si
u
sigue una funci on exponencial, entonces el muestreo mas eciente corresponde
al sistem atico, y ademas establece un estimador consistente para la varianza. Yates [21] pro-
pone usar lo que denomina muestras sistem aticas parciales las cuales consisten en dividir la
muestra en segmentos para obtener comparaciones independientes. Quenouille [16] parte del
trabajo realizado por Cochran [2] y se nala que las expresiones para la varianza derivadas por
este ultimo se pueden obtener bajo condiciones mas generales.
Diferentes supuestos sobre sobre la distribuci on de la poblaci on dan lugar a diferentes es-
timadores de la varianza, que son en general insesgados bajo el modelo de superpoblacion que
se asuma, Iachan [9]. Wolter [19], [20] compara ocho estimadores, analizando algunas de sus
propiedades teoricas suponiendo cinco modelos para super poblaciones (aleatorio, tendencia li-
neal, efectos de estraticacion, autocorrelacionado de orden uno y efectos peri odicos), as como
sus propiedades empricas. De acuerdo con Wolter, estos estimadores son representativos de las
diferentes soluciones que resultan utiles en la pr actica: a) tratar la muestra sistem atica como
una muestra aleatoria simple sin reemplazo (SI), b) un estimador basado en diferencias sucesivas
entre los valores muestrales, c) aproximaci on mediante un muestreo aleatorio estraticado con
dos unidades seleccionadas de cada estrato de 2T unidades, d) considerar la segunda diferencia
entre los datos en la muestra e) suponer que la correlaci on entre dos elementos separados u
unidades es de tipo exponencial,
u
= e
u
, f) considerar diferencias de observaciones sucesivas
hasta de orden 4, g) diferencias hasta de orden 8 y h) hacer una particion de la muestra en k
submuestras de tama no n/k. Si no se puede suponer alg un modelo para la poblaci on, sugiere
usar los estimadores se nalados en b) y c), los cuales parecen ser buenas aproximaciones para
diferentes clases de poblaciones.
Otra aproximaci on consiste en seleccionar dos o mas arranques aleatorios de manera inde-
pendiente, es decir, tomar replicas de muestras sistem aticas. Esta idea se remonta a los trabajos
de Madow y Madow [13], quienes describen este metodo de seleccion, as como a los de Ma-
halanobis [14], quien introdujo el concepto de muestras interpenetrantes para referirse a la
replicas. Este metodo genera un estimador insesgado de la varianza, pero tiene la desventaja de
que se pierde precision (Iachan [9]) si el n umero de submuestras es peque no, o si el n umero de
submuestras se aumenta dejando el tama no total de muestra jo. Gautschi [7] demuestra que
si la superpoblaci on cumple con: a) la autocorrelaci on
u
es decreciente y b) el correlograma es
c oncavo hacia arriba, es decir,
u+1
2
u
+
u1
0, entonces el valor esperado de la varianza
para un muestreo con una sola muestra sistem atica es menor que el de un muestreo con varias
muestras sistem aticas.
Otro enfoque es usar informaci on auxiliar, es decir, involucrar informaci on de otras variables
5
adicionales a la variable de interes que tienen relacion con esta ultima. Berger [1], propone un
estimador de varianza para un muestreo sistem atico con probabilidades desiguales de seleccion
para cada unidad en la poblaci on basado en un modelo de regresi on.
Por otra parte, en el contexto de la Estereologa, un total t puede verse como la aproximacion
de la integral de la funcion de medida f = y a partir de datos discretos. La varianza del
estimador se obtiene a traves de los metodos transitivos, debidos a Matheron [15], los cuales se
basan en el comportamiento del covariograma de f cerca del origen y han sido adaptados a este
contexto por diversos autores. En Kieu [10] y Kieu et al. [12] la varianza del estimador, V
SY
_

_
,
se aproxima usando la formula de Euler-MacLaurin con varias modicaciones, mediante lo que se
denomina el termino de extensi on, bajo los supuestos de que la funci on f es suave a trozos (m, p)
y el intervalo muestral T es lo sucientemente peque no, con m Z
+
0. Garca-Fi nana y Cruz-
Orive [6] proponen una generalizacion del estimador anterior donde m ya no necesariamente es
un entero, misma que se obtiene a traves de un renamiento de la f ormula de Euler-MacLaurin
usando herramientas de c alculo fraccional.
Tomando la experiencia que se maneja en esa area referente al grado de suavidad de la
poblaci on y al orden de la misma [8], derivamos la varianza del estimador bajo muestreo sis-
tem atico asumiendo lo que denominamos el Modelo de cola de ballena (WTM por sus siglas
en ingles Whale Tail Model ). Posteriormente, proponemos dos estimadores de la varianza en
base a los resultados obtenidos.
Este trabajo esta organizado de la siguiente manera. En la secci on 2 se introduce la notaci on
b asica, el estimador del area o del total y su varianza considerando dos tipos de poblaciones:
continuas y discretas. En la secci on 3 se reportan tres de las aproximaciones encontradas en la
literatura para la varianza del estimador. En la secci on 4, se desarrolla la varianza del estimador
bajo el WTM y se proponen dos aproximaciones para la misma cuando se toma en cuenta un
error en el modelo. Finalmente, en la seccion 5 mediante un ejercicio de simulacion, se muestra
el desempe no de las aproximaciones propuestas.
2. Varianza del estimador del total poblacional bajo muestreo
sistematico
Sea y
i
el valor de la variable de interes para el elemento i de la poblacion nita de tama no N,
cuyos elementos se enumeraran como U = {1, 2, . . . , N}. Se selecciona una muestra de tama no
n mediante muestreo sistem atico, s
r
, la cual consta de las unidades s
r
= {r, r+T, r+2T, . . . , r+
(n 1)T}, donde T = N/n representa el salto o intervalo muestral y r denota el arranque que
6
es una realizacion de U
r
U{1, . . . , T}. Para simplicar el problema, se supondr a que T Z
+
en el caso de una poblaci on nita y para simplicar notaci on, las unidades en la muestra se
enumerar an serialmente como s
r
= {1, . . . , n}. En este trabajo se usar a indistintamente i s
r
o i {1, . . . , n} para denotar que la unidad i pertenece a la muestra.
Esquem aticamente, el metodo de selecci on se puede representar como sigue
b b b s b b b b s b b b b s b b b b s b ` ` ` b b b s b
r
T
r +T r + 2T r + (n 1)T
nT
Considerese el caso del total poblacional t, el cual puede expresarse mediante
t =
N

i=1
y
i
=
T

r=1
t
sr
(1)
donde t
sr
=

isr
y
i
.
En general, si s
r
es una muestra probabilstica, un estimador insesgado del total poblacional es
el denominado estimador- o de Horvitz-Thompson:

=

t
sr
=

isr
y
i

i
, (2)
equivalentemente, el estimador puede expresarse como una funci on lineal de las variables indi-
cadoras I
i
,

iU
I
i
y
i

i
,
donde
I
i
=
_
1 si i s
r
0 en otro caso
y

i
= Pr(i s
r
) = Pr(I
i
= 1) es la denominada probabilidad de inclusion de primer
orden.
La varianza de (2) est a dada por (Sarndal [17], resultado 2.8.1)
V
_

_
=

U
_

ij

i

j
_
y
i
y
j
=

ij

j
y
i
y
j

_

U
y
i
_
2
, (3)
7
donde
ij
= Pr(i, j s
r
) = Pr(I
i
= 1, I
j
= 1) corresponde a la probabilidad de inclusi on de
segundo orden. Si se cumple que
ij
> 0 para toda i, j U, un estimador insesgado de V
_

_
est a dado por

V
_

_
=

sr

sr
_

ij

i

ij

j
_
y
i
y
j
. (4)
En el caso de un muestreo sistem atico de unidades con igual probabilidad, las probabilidades
de inclusion de primer y segundo orden,
i
y
ij
son, respectivamente:

i
=
n
N
con i = 1, . . . , N

ij
=
_
n
N
si i, j s
r
, r = 1, . . . , T
0 si i s
r
y j s
l
con r = l .
En consecuencia, el estimador del total (2) y su varianza (3) se reducen a las expresiones
siguientes (S arndal [17], resultado 3.4.1)

=

t
sr
= T

isr
y
i
, (5)
V
SY
_

_
= T
T

r=1
_
t
sr

t
T
_
2
=

T
r=1
_

t
sr
t
_
2
T
. (6)
Desde el enfoque de la Estereologa, el par ametro de interes t puede ser escrito como la integral
de alguna funcion de medida f sobre un espacio unidimensional, es decir,
t =
_
R
f(x)dx (7)
donde f : R R, es integrable, con soporte acotado en R.
Los puntos donde se observa f son tomados de una muestra sistematica, y por lo tanto, la
informaci on con la que se dispone es {(x, f(x)) : x s
r
}, donde s
r
= {u
r
T + kT, k Z} y u
r
es una realizaci on de U
r
U(0, 1). Gracamente se tiene que
urT (ur + 1)T (ur + n 1)T ` ` `
a b - T
f(x)
?
An alogamente a (5), un estimador insesgado de t es:

= T

xsr
f(x). (8)
8
N otese que

t

puede verse como la aproximaci on numerica de la integral a partir de datos dis-


cretos, por lo que la varianza del estimador se obtiene a partir de modicaciones a la formula de
Euler-MacLaurin propuestas en esta area, mediante lo que se denomina el termino de extensi on,
bajo los supuestos de que la funci on f es suave a trozos (m, p) y el intervalo muestral T es lo
sucientemente peque no.
Dada una funci on f : R R, la amplitud del salto o transici on de su mesima derivada
f
(m)
, se dene mediante
Sf
(m)
(x) := lm
yx
+
f
(m)
(y) lm
yx

f
(m)
(y), x R, m = 0, 1, 2, ...
siempre que el lmite exista, su soporte es el conjunto
Df
(m)
=
_
x : Sf
(m)
(x) = 0
_
.
Se dice que la funcion f es suave a trozos (m, p), con m, p N si:
a) Df
(k)
= , k = 0, 1, ..., m1 y Df
(m)
= y
b) f
(k)
tiene un n umero nito de saltos y estos son nitos, k = m, m + 1, ..., m + p.
El orden de la primera derivada de f no continua es m, es decir, es el orden de la derivada
en la cual ocurren saltos o transiciones.
Originalmente, Kieu [10] supone que m Z
+
0 y obtiene que la varianza del estimador de
t, bajo un muestreo sistematico, si f es de orden (m, p), esta dado por la expresion siguiente
V
SY
(

) = (1)
m
T
2m+2

s,tDf
(m)
P
2m+2,T
(t s)Sf
(m)
(s)Sf
(m)
(t) + o(T
2m+2
)
= (1)
m
T
2m+2
P
2m+2,T
(0)

tDf
(m)
(Sf
(m)
(t))
2
+ (1)
m
T
2m+2

s,tDf
(m)
,ts=0
P
2m+2,T
(t s)Sf
(m)
(s)Sf
(m)
(t) + o(T
2m+2
),
(9)
donde P
l,T
(x) = P
l
_
x
T

_
x
T
_
es una funci on con perodo T, [x] que denota la parte entera de
x y P
l
(x) un polinomio de Bernoulli, l 1.
La ecuacion (9) se representa tambien de la siguiente manera
V
SY
(

) = V
E
(

) + Z(T) + o(T
2m+2
).
donde
i. V
E
(

) es el llamado termino de extensi on y corresponde al primer sumando de la ultima


igualdad en (9), s olo depende de las amplitudes de las transiciones de f
(m)
.
9
ii. Z(T) es el denominado Zitterbewegung y corresponde a los sumandos con t s = 0, lo
cual depende tanto de las amplitudes de las transiciones como de su distribucion en el eje
muestral. Es una funci on oscilante de T.
iii. o(T
2m+2
) es una funci on tal que lm
T0
o(T
2m+2
)
T
2m+2
= 0.
Cuando T es suciente peque no V
E
(

) constituye una buena aproximacion de V


SY
(

) ya
que representa la tendencia central de la varianza. Este termino puede escribirse como
V
E
(

) =
B
2m+2
(2m + 1)!
T
2m+2
m + 1
g
(2m+1)
(0
+
) (10)
donde
g
(2m+1)
(0
+
) =
1
2
Sg
(2m+1)
(0) =
(1)
m
2

tDf
(m)
Sf
(m)
(t), g es el covariograma alrededor
del origen de la funcion de medida f.
B
2m+1
es un n umero de Bernoulli. Existe una relaci on entre los polinomios y los n umeros
de Bernoulli, B
2m+2
= (2m+2)!P
2m+2
(0). Los primeros n umeros de Bernoulli son: B
0
= 1,
B
1
= 1/2, B
2
= 1/6, B
4
= 1/30 y B
3
= B
5
= B
7
= = 0.
Garca-Fi nana y Cruz-Orive [6] proponen una generalizacion de la varianza anterior, la cual se
deriva relajando el supuesto de que los saltos de la funci on de medida son nitos, en este caso m
ya no necesariamente es un entero, denot andolo por q. La aproximaci on se obtiene a traves de
un renamiento de la f ormula de Euler-MacLaurin usando herramientas de calculo fraccional.
La expresi on analtica depende de un par ametro de suavizaci on q [0, 1], que generalmente se
desconoce y habr a que estimarlo o bien suponerlo.
3. Algunos estimadores de la varianza
Como se se nal o, la condici on
ij
> 0 no se cumple para toda i, j U en el caso del muestreo
sistem atico y por ello la ecuaci on (4) no se puede usar para estimar la varianza. No obstante, se
han propuesto varias aproximaciones, a continuacion se presentan tres de ellas por ser las que
algunos autores recomiendan, y porque en una comparaci on emprica efectuada por los autores
de este trabajo, basada tanto en datos reales como poblaciones simuladas, resultaron ser las de
menor sesgo.
i. Una aproximacion se basa en diferencias sucesivas de los valores muestrales. Esta fue
sugerida por Yates [22] y se nalada tambien en Sukhatme, Sukhatme y Asok [18]

V
Fdi
_

_
= N
2
(1 f)
1
n
n

i=2
(y
i
y
i1
)
2
2(n 1)
, (11)
10
donde f = n/N = 1/T es la fraccion de muestreo. Fuller [4] (resultado 5.3.5) se nala
que este estimador resulta de suponer un modelo en el que dos observaciones adyacentes
tienen la misma media, es decir, y
i
= + e
i
con e
i
ind(0,
2
i
), i = 1, . . . , n.
ii. Otra considera la segunda diferencia de los datos muestrales (Wolter [19])

V
Sdi
_

_
= N
2
(1 f)
1
n
n

i=3
(y
i
2y
i1
+ y
i2
)
2
6(n 2)
. (12)
Cochran [3] se nala que este estimador resulta de suponer un modelo lineal para la poblaci on,
es decir, y
i
=
0
+
1
x
i
+e
i
con e
i
ind(0,
2
i
). Fuller [4] (resultado 5.3.7) tambien propone
un estimador muy similar al anterior, la diferencia radica en el primer y ultimo sumandos
de la expresi on.
iii. El el area de la Estereologa, Kieu [10] obtiene una aproximacion del covariograma cerca
del origen, g
(2m+1)
(0
+
) para estimar V
E
(

). Tal aproximacion la hace considerando que:


a) las estimaciones del covariograma estan disponibles en un conjunto discreto de valores,
b) usando la f ormula de Taylor y c) aplicando el metodo de mnimos cuadrados para
estimar los coecientes involucrados en la expansi on de Taylor. El estimador resultante
tiene la forma

V
E
(

) =
B
2m+2
(m + 1)
T
l

k=1

k
C
k
(13)
donde C
k
=
nk

i=1
y
i
y
i+k
y l es un entero tal que lT (0, ), intervalo en el que g(lT) es
q + 1 veces continuamente diferenciable, con 2m + 1 q 2m + 2p 1.
Si por ejemplo m = 0, q = 2 y l = 2, entonces

V
E
(

) =
T
2
12
(3C
0
4C
1
+ C
2
),
en cambio, si m = 1, q = 3 y l = 2, el estimador que se obtiene es

V
E
(

) =
T
2
240
(3C
0
4C
1
+ C
2
).
El estimador de varianza cuando m = 0 es veinte veces el estimador cuando m = 1.
Posteriormente, Garca-Fi nana y Cruz-Orive [6] desarrollan la generalizacion siguiente a
la ecuacion (13) para el caso en que m = q [0, 1]

V
GC
_

_
= (q) [3C
0
4C
1
+ C
2
] T
2
,
11
donde (q) =
(2q+2)(2q+2) cos(q)
(2)
2q+2
(12
2q1
)
, (w) =

k=1
1
k
w
denota la funcion zeta de Riemann y
q es una constante o par ametro de suavizacion que se puede estimar mediante q =
1
2logk
log
_
3C
0
4C
k
+C
2k
3C
0
4C
1
+C
2
_

1
2
. No existe una gua para el valor apropiado de k = 2, 2, 3, . . . ,
pero los autores recomiendan k = 2, 4.
Si se considera la correccion por nitud, (1 f), el estimador anterior toma la forma
siguiente

V
GC
_

_
= N
2
(1 f)
1
n
2
(q) [3C
0
4C
1
+ C
2
] . (14)
Garca-Fi nana y Cruz-Orive [6] muestran que para datos sinteticos, usando una funci on
de medida con q = 1/2, y datos reales de cerebros humanos, su estimador de varianza con
q estimado se comporta mejor que con q = 0 o q = 1.
Por otra parte, haciendo un poco de algebra, se puede demostrar que (ver Anexo 6.1)

V
Sdi
_

_
= N
2
(1 f)
1
3n(n 2)
_
3
n

i=1
y
2
i
4
n

i=2
y
i
y
i1
+
n

i=3
y
i
y
i2
_
+ N
2
(1 f)
(5y
2
1
y
2
2
y
2
n1
5y
2
n
+ 4y
2
y
1
+ 4y
n
y
n1
)
6n(n 2)
,
si n n 2 y (q = 1/2) = 1/3, entonces

V
Sdi
_

_


V
GC
_

_
N
2
(1 f)
1
6n
2
_
5y
2
1
+ y
2
2
+ y
2
n1
+ 5y
2
n
4y
2
y
1
4y
n
y
n1

,
es decir, el estimador (12) puede expresarse como un caso particular de (14) con par ametro
(1/2) = 1/3 menos una cantidad que depende de y
1
, y
2
, y
n1
y y
n
.
Si 2

5 4,

V
Sdi
ser a menor que

V
GC
con q = 1/2, ya que la expresi on anterior se puede
escribir como

V
Sdi
_

_


V
GC
_

_
N
2
(1 f)
1
6n
2
_
(

5y
1
y
2
)
2
+ (

5y
n
y
n1
)
2
_
.
4. Varianza del estimador bajo el modelo especco mo-
delo de cola de ballena, WTM
La eciencia del muestreo sistem atico depende del orden de los elementos de la poblaci on, la
varianza es mas peque na si los totales muestrales

t
sr
son similares, como puede observarse en
la expresi on (6). Los estimadores

V
Fdi
_

_
y

V
Sdi
_

_
se derivan al suponer para la poblaci on
un modelo de media constante entre dos elementos adyacentes y lineal, respectivamente. En la
12
derivacion de

V
GC
_

_
se encuentra que V
SY
(

) depende del grado de suavidad de la funcion de


medida para la cual se quiere estimar el total o la media, a traves del parametro de suavizaci on
q. Es importante hacer notar que al suponer un modelo, implcitamente se est a induciendo un
orden.
En esta seccion la varianza del estimador se deriva bajo un modelo especco para la
poblaci on que se ha denominado por su formamodelo de cola de ballena (WTM por sus
siglas en ingles Whale Tail Model ), mismo que involucra una poblaci on normal reordenada de
cierta manera para reducir varianza. Primero se har a la derivacion en el caso de una poblaci on
continua y posteriormente se planteara un modelo an alogo en el caso de una poblacion nita.
4.1. WTM poblacion continua
En el caso de que la poblacion de interes sea continua y ja, se dene como la funci on de
medida, f

(p), a la funci on (gura 1)


f

(p) = y

=
_

1
(p) +|a| si
a
p
b

1
(2 p) +|a| si 2
b
p 2
a
(15)
donde

1
(p) denota la funci on inversa de una N(0, 1) para el cuantil p, es decir, si y =
1
(p)
entonces p =
_
y

2
e
t
2
/2
dt,
(a) =
a
y (b) =
b
,
a =
1
(
a
), b =
1
(
b
). Por denicion de f

(p) se est a trabajando con una normal


truncada,
y

= y +|a| es la funci on y trasladada a unidades hacia arriba, con


f(p) = y =
_

1
(p) si
a
p
b

1
(2 p) si 2
b
p 2
a
. (16)
13
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
f
*
(
p
)
p 2-
b

b 2
a

Figura 1: Modelo poblacion continua, y

= f

(p)
4.1.1. Estimador del total
En esta situacion, un parametro objetivo t

puede ser el area bajo la curva de la funci on de


medida f

(p), es decir,
t

=
_

b
a
f

(p)dp +
_
2a
2
b
f

(p)dp
= 2
_

b
a
f

(p)dp
= 2
_

b
a

1
(p)dp + 2|a|(
b

a
).
Un estimador insesgado de t

bajo un muestreo sistem atico, est a dado por

= T

isr
y

i
= T

isr
_

1
(p
i
) +|a|
_
donde
T =
2(
b

a
)
n
es el intervalo muestral,
p
i
=
_

a
+ [u + i 1]T si
a
p
i

b
2[1
b
] +
a
+ [u
r
+ i 1]T si 2
b
p
i
2
a
,
u
r
generado de una U(0, 1).
14
4.1.2. Varianza del estimador del total
A continuacion se derivara una expresi on para V
WTM
(

) considerando que el tama no de muestra


n es par, y se demostrar a que cuando los lmites del intervalo de integraci on se eligen tales que

b
= 1
a
, entonces la varianza del estimador es cero (ver Anexo 6.2).
Por denici on, la varianza del estimador es igual a
V
WTM
(

) = E
_
(

)
2
_
t
2
= T
2
E
_
n

i=1
y

i
_
2
t
2
= T
2
_
n

i=1
E(y
2
i
) + 2
n1

i=1
n

j=i+1
E(y
i
y
j
) + 2n|a|
n

i=1
E(y
i
) + n
2
a
2
_
t
2
.
(17)
donde los valores esperados de la ultima igualdad est an dados por
n

i=1
E(y
i
) =
2
T
_

b
a

1
(v)dv. (18)
n

i=1
E(y
2
i
) =
2
T
_

b
a
_

1
(v)
_
2
dv. (19)
n1

i=1
n

j=i+1
E(y
i
y
j
) =
1
T
_
_
_
2
n/21

k=1
_

b
kT
a

1
(v)
1
(v + kT) dv
+
n/21

k=0
_

b
a+kT

1
(v)
1
(
a
+
b
v + kT) dv
+
n/21

k=1
_

b
kT
a

1
(v)
1
(
a
+
b
v kT) dv
_
_
_
.
(20)
Sustituyendo los valores esperados (18), (19), (20) en la ecuacion (17) y simplicando se obtiene
V
WTM
(

) = 2T
__

b
a
_

1
(v)
_
2
dv
+ 2
n/21

k=1
_

b
kT
a

1
(v)
1
(v + kT) dv
+
n/21

k=0
_

b
a+kT

1
(v)
1
(
a
+
b
v + kT) dv

n/21

k=1
_

b
kT
a

1
(v)
1
(
a
+
b
v kT) dv
_
{t 2|a|(
b

a
)}
2
.
15
Un caso interesante se presenta cuando
b
= 1
a
, ya que en tal situacion:
V
WTM
(

) = 2T
__
1a
a
_

1
(v)
_
2
dv
+ 2
n/21

k=1
_
1akT
a

1
(v)
1
(v + kT) dv
2
n/21

k=1
_
1akT
a

1
(v)
1
(v + kT) dv

_
1a
a

1
(v)
1
(v) dv
_
{t 2|a|(
b

a
)}
2
= {t 2|a|(
b

a
)}
2
= {2|a|(
b

a
) 2|a|(
b

a
)}
2
= 0.
(21)
Por lo tanto, bajo el modelo propuesto, V
WTM
(

) = 0 si se cumplen tres condiciones: i ) que el


tama no de muestra n sea par, condicion que se puede controlar, ii ) que
b
= 1
a
, lo cual
implica que se estan truncando los valores extremos (cola izquierda y derecha) de la distribuci on
subyacente con igual probabilidad y iii )
1
(v) =
1
(1 v), la cual se cumplir a si la
variable subyacente a la inversa de la funci on de medida es simetrica, como lo es el caso de la
distribuci on normal, la t-de student, la uniforme y otras.
Geometricamente, el area bajo la funci on de medida f

(p) es igual al area del rectangulo de


base 12
a
y altura |2a|, lo cual se puede ver facilmente si se corta la gura 1 en sus dos mitades
simetricas y se da vuelta a una de ellas, ambas se pueden acoplar perfectamente formando un
rect angulo con las dimensiones anteriores. Cuando se efectua un muestreo sistem atico, la altura
del primer punto seleccionado m as la altura del
n
2
+1 ser a igual a la altura del rect angulo,|2a|;
lo mismo sucede con el segundo punto y el punto
n
2
+ 2, y as sucesivamente, hasta los puntos
n
2
1 y n. Por lo tanto, el estimador

t

siempre sera igual a (1 2


a
)|2a|.
Cuando se considera la funci on de medida f(p) = y = y

|a|, es facil ver que la varianza


del estimador del total

t

= T

isr
y
i
es
V
WTM
(

) = V
WTM
(

),
y en caso de que Y N(,
2
) en lugar de que Y N(0, 1), se tiene que
V
WTM
(

t
,,
2) =
2
V
WTM
(

) = 0.
16
4.1.3. Varianza del estimador del total considerando un error en el modelo
Un problema mas general consiste en suponer que hay un error en el modelo propuesto, es
decir, que la variable de interes es

Y = y

+ = f

(p) + (p) (22)


donde es una variable aleatoria que cumple:
i. E
M
[(p)] = 0
ii. V
M
[(p)] =
2

(p).
Sup ongase que el objetivo es estimar el total t =
N

i=1
y
i
, entonces el estimador de Horvitz-
Thompson es

= T
n

i=1

Y
i
= T
n

i=1
(y

i
+
i
) =

t

+ T
n

i=1

i
.
Por otro lado, la esperanza condicional dada la muestra es
E
M
_

|u
r

= E
M
_

+ T
n

i=1

i
|u
r
_
= E
M
_

|u
r

+ T
n

i=1
E
M
[
i
|u
r
]
=

t

+ 0
=

t

,
V
M
_

|u
r

= V
M
_

+ T
n

i=1

i
|u
r
_
= V
M
_

|u
r

+ V
M
_
T
n

i=1

i
|u
r
_
+ 2Cov
_

, T
n

i=1

i
|u
r
_
= 0 + V
M
_
T
n

i=1

i
|u
r
_
+ 0
= V
M
_
T
n

i=1

i
|u
r
_
.
Sustituyendo estas dos ecuaciones en el resultado
V
SY
_

_
= V
SY
_
E
M
_

|u
r
_
+ E
SY
_
V
M
_

|u
r
_
17
se obtiene
V
SY
_

_
= V
SY
_

_
+ E
SY
_
V
M
_
T
n

i=1

i
|u
r
__
.
Bajo el WTM, con n par y
b
= 1
a
se llega nalmente a
V
WTM
_

_
= 0 + E
SY
_
V
M
_
T
n

i=1

i
|u
r
__
= E
SY
_
V
M
_
T
n

i=1

i
|u
r
__
.
(23)
4.1.4. Estimador de la varianza
Dependiendo de los supuestos que se hagan acerca de V
M
[(p)] =
2

(p), se pueden proponer


diferentes aproximaciones para estimar la varianza dada por la ecuaci on (23). Por ejemplo:
Si se supone que los errores son independientes y V
M
[(p)] =
2

, entonces

V
WTM,SI
_

_
= T
2
(1 f) ns
2

donde
y
1
, y
1
, . . . , y
N
son realizaciones de

Y ,

i
= e
i
= y
i
y

i
e =

n
i=1
e
i
n
s
2

=
n

i=1
(e
i
e)
2
n 1
.
Si se supone que los errores no son independientes, se propone usar alguna aproximaci on
de las se naladas en la secci on 3. En virtud de los resultados obtenidos para diversos
ejercicios que hemos realizado, se sugiere estimar la varianza mediante

V
WTM,Sdi
_

_
= T
2
(1 f) n
n

i=3
(e
i
2e
i1
+ e
i2
)
2
6(n 2)
.
4.2. WTM poblacion nita
En muchas situaciones la poblacion de interes no es de naturaleza continua, sino que se trata
de una poblaci on nita y por lo tanto discreta, por ejemplo: n umero de habitantes, matrcula
18
en un nivel escolar, n umero de personas con determinado padecimiento, etc. En este caso se
propone el modelo siguiente (gura 2) cuando el tama no de la poblaci on N es par:
y

i
= E (y

|p I
i
)
= |a| + E (y|p I
i
)
= |a| +
1

_
I
i
f(p)dp, i = 1, 2, . . . , N
(24)
donde
y

= f

(p) = f(p) +|a|,


f(p) =
_

1
(p) si
a
p 1
a

1
(2 p) si 1 +
a
p 2
a
,

1
(p) denota la funci on inversa de una N(0, 1) para el cuantil p, es decir, si y =
1
(p)
entonces p =
_
y

2
e
t
2
/2
dt,
(a) =
a
,
a =
1
(
a
),
=
2(12a)
N
corresponde a la longitud del intervalo I
i
,
I
i
=
_
[
a
+ (i 1),
a
+ i] si 1 i N/2
[3
a
+ (i 1), 3
a
+ i] si N/2 + 1 i N
.
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
4.0
4.5
0.0 0.2 0.4 0.6 0.8 1.0 1.2 1.4 1.6 1.8 2.0
f
*
(
p
)
p
y
i
*
=E[ f*(p) | I
i
]
I
i
y
i
'=f*(p
i
)
p
i
=
a
+(i-0.5)2(1-2
a
)/N

Figura 2: Modelo poblacion nita, y

i
19
Se puede demostrar que en general se cumple
_

1
(p)dp =
1

2
exp
_

1
2
[
1
(p)]
2
_
.
Si
a
p 1
a
, o equivalentemente si 1 i N/2, entonces
y
i
=
1

_
I
i
f(p)dp
=
1

_
I
i

1
dp
=
1

2
exp
_

1
2
[
1
(p)]
2
__
a+i
a+(i1)
=
1

2
_
exp
_

1
2
[
1
(
a
+ (i 1))]
2
_
exp
_

1
2
[
1
(
a
+ i)]
2
__
.
An alogamente, si 1 +
a
p 2
a
, o bien si N/2 + 1 i N
y
i
=
1

_
I
i
f(p)dp
=
1

2
exp
_

1
2
[
1
(2 p)]
2
__
3a+i
3a+(i1)
=
1

2
_
exp
_

1
2
[
1
(2 3
a
i)]
2
_
exp
_

1
2
[
1
(2 3
a
(i 1))]
2
__
.
Por lo tanto,
y
i
=
_
1

2
_
exp
_

1
2
[
1
(
a
+ (i 1))]
2
_
exp
_

1
2
[
1
(
a
+ i)]
2
_
si 1 i
N
2
1

2
_
exp
_

1
2
[
1
(2 3
a
i)]
2
_
exp
_

1
2
[
1
(2 3
a
(i 1))]
2
_
si
N
2
+ 1 i N
.
(25)
Una alternativa al modelo (24) es que el valor de p asociado a la unidad i sea el punto medio
del intervalo I
i
, es decir,
y

i
= f

( p
i
)
donde
p
i
=
_

a
+ (i
1
2
) si 1 i
N
2
p
i
= 3
a
+ (i
1
2
) si
N
2
+ 1 i N.
Los valores y

i
y y

i
ser an muy similares (gura 2), las diferencias seran un poco m as grandes
en los extremos, cercanos a
a
o 2
a
, y en la parte central, cercanos a 1
a
o 1 +
a
. Por
ejemplo, si N = 20 y
a
=0.02, entonces y

5
=1.9328, y

5
=1.9331, y

8
=2.6995 y y

8
=2.6971,
mientras que y

10
=3.5838 y y

10
=3.5446.
20
4.2.1. Estimador del total
El parametro objetivo t

corresponde al total de y

i
, es decir,
t

=
N

i=1
y

i
= N|a| +
N/2

i=1
1

2
_
exp
_

1
2
[
1
(
a
+ (i 1))]
2
_
exp
_

1
2
[
1
(
a
+ i)]
2
__
+
N

i=N/2+1
1

2
_
exp
_

1
2
[
1
(2 3
a
i)]
2
_
exp
_

1
2
[
1
(2 3
a
(i 1))]
2
__
= N|a| +
1

2
_
exp
_

1
2
[
1
(
a
)]
2
_
exp
_

1
2
[
1
(
a
+
N
2
)]
2
_
exp
_

1
2
[
1
(2 3
a

N
2
)]
2
_
+ exp
_

1
2
[
1
(2 3
a
N)]
2
__
.
Ya que
a
+
N
2
= 1
a
, 2 3
a

N
2
= 1
a
y 2 3
a
N =
a
, nalmente se llega a
t

= N|a|.
Un estimador insesgado de t

bajo un muestreo sistem atico, est a dado mediante

= T

isr
y

i
= T

isr
(|a| + y
i
)
donde
T =
N
n
s
r
= r, r + T, r + 2T, . . . , r + (n 1)T.
Sustituyendo los valores de la expresion (25) y simplicando (ver Anexo 6.3. Estimador de

t

,
WTM poblacion nita) se obtiene

= N|a|. (26)
4.2.2. Varianza del estimador del total
Ya que el total estimado es igual a una constante entonces
V
WTM
(

) = 0.
Cuando se consideran los valores poblaciones sin trasladar, y
i
, es f acil ver que
V
WTM
(

) = V
WTM
(

) = 0,
21
y en caso de que Y N(,
2
) en lugar de que Y N(0, 1), se tiene que
V
WTM
(

t
,,
2) =
2
V
WTM
(

) = 0.
4.2.3. Varianza del estimador del total considerando un error en el modelo
Al igual que en el caso continuo, un problema m as general consiste en suponer que hay un error
en el modelo, es decir,

Y
i
= y

i
+
i
(27)
donde es una variable aleatoria que cumple:
i. E
M
[
i
] = 0
ii. V
M
[
i
] =
2

i
.
En este caso

= T
n

i=1

Y
i
=

t

+ T
n

i=1

i
.
An alogamente al caso de una poblaci on continua, bajo el WTM, con n par y
b
= 1
a
se
llega a
V
WTM
_

_
= 0 + E
SY
_
V
M
_
T
n

i=1

i
|u
r
__
= E
SY
_
V
M
_
T
n

i=1

i
|u
r
__
.
(28)
4.2.4. Estimador de la varianza
Para aproximar la ecuacion (28) se pueden hacer supuestos acerca de V
M
[
i
]. Por ejemplo:
Si los errores son independientes y V
M
[
i
] =
2
, entonces

V
WTM,SI
_

_
= T
2
(1 f) ns
2

(29)
Si los errores no son independientes, se propone

V
WTM,Sdi
_

_
= T
2
(1 f) n
n

i=3
(e
i
2e
i1
+ e
i2
)
2
6(n 2)
. (30)
donde y
1
, y
1
, . . . , y
N
son realizaciones de

Y , e
i
y s
2

se denen de manera an aloga al caso


continuo.
22
5. Experimento emprico y simulaciones
A continuacion se analizara de manera emprica el comportamiento de los estimadores de la
varianza (29) y (30), para el caso en que la poblaci on nita proviene de una poblacion innita
con distribucion normal.
Sea z
1
, z
2
, ..., z
N
una poblacion nita generada a partir de una N(0, 1) con z [a, a],
donde
1
(
a
) = a. Esta se ordena en forma de cola de ballena colocando a las unidades
de la siguiente manera: y
1
= z
(1)
, y
2
= z
(3)
, y
3
= z
(5)
,..., y
N/2
= z
(N1)
, y
N/2+1
= z
(N)
,...,
y
N2
= z
(6)
, y
N1
= z
(4)
, y
N
= z
(2)
, donde z
(1)
, . . . , z
(N)
denotan las observaciones ordenadas de
menor a mayor.
Bajo el WTM para poblaciones nitas el error observado estar a dado por e
i
= y
i
y
i
con
y
i
dada por la expresi on (25).
En el experimento se simularon K = 100 poblaciones independientes y nitas de N = 2, 200
unidades bajo una distribucion normal estandar truncada con
a
=0.01. Para cada poblaci on
y cada una de las T posibles muestras de tama no n se calcularon:
La varianza del estimador, par ametro V
SY
(

).
Los estimadores tres se nalados en la secci on 3 y los dos propuestos en la secci on anterior:

V
Fdi
(

),

V
Sdi
(

),

V
GC
(

),

V
WTM,SI
(

) y

V
WTM,Sdi
(

).
La simulacion tiene dos objetivos: i) comparar el desempe no de cada uno de los cinco
estimadores con respecto a la varianza del estimador (par ametro), es decir, comparar el sesgo
y ii) comparar los cinco estimadores en terminos de su estabilidad.
En la gura 3 se presenta el promedio de las varianzas sobre las 100 poblaciones y las T
muestras,

_
T

r=1
_

Vsr (

t)/T
_
K
, seg un el tama no de muestra. Adicionalmente se graca el promedio
de la desviaci on estandar del estimador (par ametro),

__
V
SY (

t)
_
K
=

_
_

T
r=1
(

tsr
t)
2
/T
_
K
sobre
las 100 poblaciones. En terminos del sesgo, el mejor estimador corresponde a

V
WTM,Sdi
(

), el
cual decrece conforme el tama no de muestra aumenta.
Como una medida de la estabilidad de las estimaciones, en la gura 4 se muestra el promedio
de la desviacion est andar de la varianza estimada,

_
V (

V (

t))
_
K
=

_
_

_
T

r=1
_

V
SY

r=1

V
SY
T
_
2
/T
_
_
K
.
Se observa que el estimador con una menor dispersion tambien es

V
WTM,Sdi
(

).
23
8 10 20 40 50 100 200 440 1100
10
2
10
1
10
0
10
1
10
2
10
3
Tamao de muestra, n

VF di

VSdi

VGC

VW TM,SI

VW TM,Sdi

VSY
Figura 3: Poblaciones generadas N(0, 1) y ordenadas en forma de cola de ballena. Desviacion estandar
poblacional y estimada promedio (escala logartmica). La lnea continua muestra el promedio de la desviacion
estandar poblacional sobre las 100 poblaciones generadas. Las lneas punteadas representan el promedio de la
desviacion est andar estimada, seg un tama no de muestra, sobre las 100 poblaciones generadas y las T muestras;
la varianza para cada muestra se estima mediante:

V
Fdi
,

V
Sdi
,

V
GC
,

V
WTM,SI
y

V
WTM,Sdi
.
8 10 20 40 50 100 200 440 1100
10
3
10
2
10
1
10
0
10
1
10
2
10
3
10
4
10
5
Tamao de muestra, n

V (

V )

V (

VF d i )

V (

VSd i )

V (

VGC)

V (

VW T M,SI )

V (

VW T M,Sd i )
Figura 4: Poblaciones generadas N(0, 1) y ordenadas en forma de cola de ballena. Promedio de la
desviacion est andar de la varianza, seg un tama no de muestra y estimador, sobre las 100 poblaciones generadas
(escala logartmica). La varianza se estima usando:

V
Fdi
,

V
Sdi
,

V
GC
,

V
WTM,SI
y

V
WTM,Sdi
.
24
Adicionalmente al trabajo presentado, es de interes explorar el desempe no de los estimadores
propuestos para funciones de medida resultantes cuando la poblacion subyacente no es la nor-
mal, as como en el caso de datos reales en lugar de simulados. En ambos casos es importante
considerar alguna medida de distancia o diferencia de alejamiento de la funci on de medida
analizada respecto al WTM.
6. Anexos
6.1. Relaci on entre

V
Sdi
y

V
GC
Se haba visto que

V
GC
_

_
= N
2
(1 f)
1
n
2
(q) [3C
0
4C
1
+ C
2
]
= N
2
(1 f)
1
n
2
(q)
_
3
n

i=1
y
2
i
4
n

i=2
y
i
y
i1
+
n

i=3
y
i
y
i2
_

V
Sdi
_

_
= N
2
(1 f)
1
n
n

i=3
(y
i
2y
i1
+ y
i2
)
2
6(n 2)
. (31)
Desarrollando el trinomio al cuadrado en (31) se tiene que
n

i=3
(y
i
2y
i1
+ y
i2
)
2
=
n

i=3
_
y
2
i
+ 4y
2
i1
+ y
2
i2
4y
i
y
i1
4y
i1
y
i2
+ 2y
i
y
i2
_
=
n

i=1
6y
2
i
y
2
1
y
2
2
4y
2
1
4y
2
n
y
2
n1
y
2
n

i=2
8y
i
y
i1
+ 4y
2
y
1
+ 4y
n
y
n1
+
n

i=3
2y
i
y
i2
= 6
n

i=1
y
2
i
8
n

i=2
y
i
y
i1
+ 2
n

i=3
y
i
y
i2
5y
2
1
y
2
2
y
2
n1
5y
2
n
+ 4y
2
y
1
+ 4y
n
y
n1
.
Haciendo c = 5y
2
1
y
2
2
y
2
n1
5y
2
n
+ 4y
2
y
1
+ 4y
n
y
n1
, y sustituyendo en (31), se tiene

V
Sdi
_

_
= N
2
(1 f)
1
6n(n 2)
_
6
n

i=1
y
2
i
8
n

i=2
y
i
y
i1
+ 2
n

i=3
y
i
y
i2
+ c
_
= N
2
(1 f)
2
6n(n 2)
_
3
n

i=1
y
2
i
4
n

i=2
y
i
y
i1
+
n

i=3
y
i
y
i2
+ c/2
_
= N
2
(1 f)
1
3n(n 2)
_
3
n

i=1
y
2
i
4
n

i=2
y
i
y
i1
+
n

i=3
y
i
y
i2
_
+ N
2
(1 f)
c
6n(n 2)
,
25
si n n 2 y (q = 1/2) = 1/3, entonces

V
Sdi
_

_


V
GC
_

_
N
2
(1 f)
1
6n
2
_
5y
2
1
+ y
2
2
+ y
2
n1
+ 5y
2
n
4y
2
y
1
4y
n
y
n1

.
Finalmente si 2

5 4, la ultima expresion se puede escribir como

V
Sdi
_

_


V
GC
_

_
N
2
(1 f)
1
6n
2
_
(

5y
1
y
2
)
2
+ (

5y
n
y
n1
)
2
_
. (32)
6.2. Derivacion de V
WTM
(

), poblacion continua
A continuacion se derivara una expresi on para V
WTM
(

) considerando que el tama no de muestra


n es par, y se demostrara que cuando
b
= 1
a
, entonces la varianza del estimador es cero.
Por denici on, la varianza del estimador es igual a
V
WTM
(

) = E
_
(

)
2
_
t
2
= T
2
E
_
n

i=1
y

i
_
2
t
2
= T
2
E
_
n

i=1
(y
i
+|a|)
_
2
t
2
= T
2
E
_
n

i=1
y
i
+ n|a|
_
2
t
2
= T
2
_
_
_
E
_
n

i=1
y
i
_
2
+ 2n|a|
n

i=1
E(y
i
) + n
2
a
2
_
_
_
t
2
= T
2
_
n

i=1
E(y
2
i
) + 2
n1

i=1
n

j=i+1
E(y
i
y
j
) + 2n|a|
n

i=1
E(y
i
) + n
2
a
2
_
t
2
.
(33)
Enseguida se desarrollar an los valores esperados de la ultima igualdad en la ecuacion (33),
considerando que n es par.
n

i=1
E(y
i
) =
n/2

i=1
E(y
i
) +
n

i=n/2+1
E(y
i
).
26
Obteniendo el valor esperado del primer sumando
n/2

i=1
E(y
i
) =
n/2

i=1
_
1
0

1
(
a
+ [u + i 1]T) du
=
n/2

i=1
1
T
_
a+iT
a+[i1]T

1
(v)dv
=
1
T
_
a+
n
2
T
a

1
(v)dv
=
1
T
_

b
a

1
(v)dv
donde se hizo el cambio de variable v =
a
+ [u + i 1]T.
An alogamente, efectuando el cambio de variable v = 2 2(1
b
) +
a
+ [u + i 1]T =
2
b

a
[u + i 1]T, se tiene que el valor esperado del segundo sumando es
n

i=n/2+1
E(y
i
) =
n

i=n/2+1
_
1
0

1
(2
b

a
[u + i 1]T) du
=
n

i=n/2+1

1
T
_
2
b
aiT
2
b
a[i1]T

1
(v)dv
=
1
T
_
2
b
anT
2
b
a
n
2
T

1
(v)dv
=
1
T
_
a

1
(v)dv
=
1
T
_

b
a

1
(v)dv.
Por lo tanto,
n

i=1
E(y
i
) =
2
T
_

b
a

1
(v)dv.
Por otra parte, el valor esperado de la variable al cuadrado es:
n

i=1
E(y
2
i
) = 2
n/2

i=1
_
1
0
_

1
(
a
+ [u + i 1]T])
_
2
du
=
2
T
n/2

i=1
_
a+iT
a+[i1]T
_

1
(v)
_
2
dv
=
2
T
_
a[n/2]T
a
_

1
(v)
_
2
dv
=
2
T
_

b
a
_

1
(v)
_
2
dv.
27
Para obtener el valor esperado de y
i
y
j
se deben de considerar 3 casos, dependiendo de los valores
que tomen los subndices i y j,
n1

i=1
n

j=i+1
E(y
i
y
j
) = s1 + s2 + s3 (34)
donde:
s1 =
n/21

i=1
n/2

j=i+1
_
1
0

1
(
a
+ [u + i 1]T)
1
(
a
+ [u + j 1]T) du (35)
s2 =
n/2

i=1
n

j=n/2+1
_
1
0

1
(
a
+ [u + i 1]T)
1
(2
b

a
[u + j 1]T) du (36)
s3 =
n1

i=n/2+1
n

j=i+1
_
1
0

1
(2
b

a
[u + i 1]T)
1
(2
b

a
[u + j 1]T) du. (37)
Haciendo los cambios de variable v =
a
+ [u + i 1]T y j = i + k en (35) y simplicando se
llega a que
s1 =
n/21

i=1
n/2i

k=1
1
T
_
a+iT
a+[i1]T

1
(v)
1
(v + kT) dv
=
1
T
_
_
_
n/21

k=1
_
a+T
a

1
(v)
1
(v + kT) dv
+
n/22

k=1
_
a+2T
a+T

1
(v)
1
(v + kT) dv
+ +
1

k=1
_
a+[n/21]T
a+[n/22]T

1
(v)
1
(v + kT) dv
_
=
1
T
_
_
a+[n/21]T
a

1
(v)
1
(v + T) dv
+
_
a+[n/22]T
a

1
(v)
1
(v + 2T) dv
+ +
_
a+T
a

1
(v)
1
(v + [n/2 1]T) dv
_
=
1
T
n/21

k=1
_
a+[n/2k]T
a

1
(v)
1
(v + kT) dv
=
1
T
n/21

k=1
_

b
kT
a

1
(v)
1
(v + kT) dv.
(38)
28
Si v =
a
+ [u + i 1]T y j = i + k, entonces 2
b

a
[u + j 1]T = 2
b
kT v.
Sustituyendo en (36) se tiene lo siguiente
s2 =
n/2

i=1
ni

k=n/2+1i
1
T
_
a+iT
a+[i1]T

1
(v)
1
(2
b
v kT) dv
=
1
T
_
_
_
n1

k=n/2
_
a+T
a

1
(v)
1
(2
b
v kT) dv
+
n2

k=n/21
_
a+2T
a+T

1
(v)
1
(2
b
v kT) dv
+ +
n/2

k=1
_
a+[n/2]T
a+[n/21]T

1
(v)
1
(2
b
v kT) dv
_
_
_
=
1
T
_
_
a+[n/2]T
a

1
(v)
1
(2
b
v [n/2]T) dv
+
_
a+[n/2]T
a+T

1
(v)
1
(2
b
v [n/2 1]T) dv
+ +
_
a+[n/2]T
a+[n/21]T

1
(v)
1
(2
b
v T) dv
+
_
a+[n/21]T
a

1
(v)
1
(2
b
v [n/2 + 1]T) dv
+
_
a+[n/22]T
a

1
(v)
1
(2
b
v [n/2 + 2]T) dv
+ +
_
a+T
a

1
(v)
1
(2
b
v [n 1]T) dv
_
=
1
T
_
_
_
n/2

k=1
_
a+[n/2]T
a+[k1]T

1
(v)
1
(2
b
v [n/2 k + 1]T) dv
+
n/21

k=1
_
a+[n/2k]T
a

1
(v)
1
(2
b
v [n/2 + k]T) dv
_
_
_
=
1
T
_
_
_
n/21

k=0
_
a+[n/2]T
a+kT

1
(v)
1
(2
b
v [n/2 k]T) dv
+
n/21

k=1
_
a+[n/2k]T
a

1
(v)
1
(2
b
v [n/2 + k]T) dv
_
_
_
29
=
1
T
_
_
_
n/21

k=0
_

b
a+kT

1
(v)
1
(
a
+
b
v + kT) dv
+
n/21

k=1
_

b
kT
a

1
(v)
1
(
a
+
b
v kT) dv
_
_
_
.
(39)
Si en la ecuaci on (37) se hacen los cambios de variable v = 2
b

a
[u +j 1]T y j = i +k,
se tiene que
s3 =
n1

i=n/2+1
ni

k=1

1
T
_
2
b
a[i]T
2
b
a[i1]T

1
(v)
1
(v kT) dv
=
n1

i=n/2+1
ni

k=1
1
T
_
2
b
a[i1]T
2
b
a[i]T

1
(v)
1
(v kT) dv
=
1
T
_
_
_
n/21

k=1
_
2
b
a[n/2]T
2
b
a[n/2+1]T

1
(v)
1
(v kT) dv
+
n/22

k=1
_
2
b
a[n/2+1]T
2
b
a[n/2+2]T

1
(v)
1
(v kT) dv
+ +
1

k=1
_
2
b
a[n2]T
2
b
a[n1]T

1
(v)
1
(v kT) dv
_
=
1
T
_
_
2
b
a[n/2]T
2
b
a[n1]T

1
(v)
1
(v T) dv
+
_
2
b
a[n/2]T
2
b
a[n2]T

1
(v)
1
(v 2T) dv
+ +
_
2
b
a[n/2]T
2
b
a[n/2+1]T

1
(v)
1
(v [n/2 1]T) dv
_
=
1
T
n/21

k=1
_
2
b
a[n/2]T
2
b
a[nk]T

1
(v)
1
(v kT) dv
=
1
T
n/21

k=1
_

b
a+kT

1
(v)
1
(v kT) dv
=
1
T
n/21

k=1
_

b
kT
a

1
(v)
1
(v + kT) dv.
(40)
30
Sustituyendo (38), (39) y (40) en la ecuaci on (34)
n1

i=1
n

j=i+1
E(y
i
y
j
) =
1
T
_
_
_
2
n/21

k=1
_

b
kT
a

1
(v)
1
(v + kT) dv
+
n/21

k=0
_

b
a+kT

1
(v)
1
(
a
+
b
v + kT) dv
+
n/21

k=1
_

b
kT
a

1
(v)
1
(
a
+
b
v kT) dv
_
_
_
.
Sustituyendo los valores esperados en (33) y efectuando operaciones se obtiene
V
WTM
(

) = T
2
_
2
T
_

b
a
_

1
(v)
_
2
dv
+
2
T
_
_
2
n/21

k=1
_

b
kT
a

1
(v)
1
(v + kT) dv
+
n/21

k=0
_

b
a+kT

1
(v)
1
(
a
+
b
v + kT) dv
+
n/21

k=1
_

b
kT
a

1
(v)
1
(
a
+
b
v kT) dv
_
_
+ 2n|a|
2
T
_

b
a

1
(v)dv + n
2
a
2
_
t
2
,
simplicando se llega nalmente a
V
WTM
(

) = 2T
__

b
a
_

1
(v)
_
2
dv
+ 2
n/21

k=1
_

b
kT
a

1
(v)
1
(v + kT) dv
+
n/21

k=0
_

b
a+kT

1
(v)
1
(
a
+
b
v + kT) dv

n/21

k=1
_

b
kT
a

1
(v)
1
(
a
+
b
v kT) dv
_
_
_
{t 2|a|(
b

a
)}
2
.
(41)
Cuando
b
= 1
a
y considerando que en el caso de la distribuci on normal
1
(v) =
31

1
(1 v), entonces
_

b
a+kT

1
(v)
1
(
a
+
b
v + kT) dv =
_
1a
a+kT

1
(v)
1
(1 v + kT) dv
=
_
1a
a+kT

1
(1 v)
1
(1 v + kT) dv
=
_
a
1akT

1
(v)
1
(v + kT) dv
=
_
1akT
a

1
(v)
1
(v + kT) dv,
_

b
kT
a

1
(v)
1
(
a
+
b
v kT) dv =
_
1akT
a

1
(v)
1
(1 v kT) dv
=
_
1akT
a

1
(1 v)
1
(1 v kT) dv
=
_
a+kT
1a

1
(v)
1
(v kT) dv
=
_
a
1akT

1
(v)
1
(v + kT) dv
=
_
1akT
a

1
(v)
1
(v + kT) dv.
Luego, reemplazando las ultimas dos integrales en (41) se llega a
V
WTM
(

) = 2T
__
1a
a
_

1
(v)
_
2
dv
+ 2
n/21

k=1
_
1akT
a

1
(v)
1
(v + kT) dv
2
n/21

k=1
_
1akT
a

1
(v)
1
(v + kT) dv

_
1a
a

1
(v)
1
(v) dv
_
{t 2|a|(
b

a
)}
2
= {t 2|a|(
b

a
)}
2
= {2|a|(
b

a
) 2|a|(
b

a
)}
2
= 0.
32
6.3. Estimador de

t

, WTM poblacion nita


Un estimador insesgado de t

bajo un muestreo sistem atico, est a dado por la expresi on

= T

isr
y

i
= T

isr
(|a| + y
i
)
donde
T =
N
n
s
r
= r, r + T, r + 2T, . . . , r + (n 1)T.
Luego,

= T
n

i=1
(|a| + y
i
)
= Tn|a| + T
n

i=1
y
i
= N|a| + T
n/2

i=1
y
i
+ T
n

i=n/2+1
y
i
= N|a| +
T

2
n/2

i=1
_
exp
_

1
2
[
1
(
a
+ [r + (i 1)T 1])]
2
_
+
exp
_

1
2
[
1
(
a
+ [r + (i 1)T])]
2
__
+
+
T

2
n

i=n/2+1
_
exp
_

1
2
[
1
(2 3
a
[r + (i 1)T])]
2
_
+
exp
_

1
2
[
1
(2 3
a
+ [r + (i 1)T 1])]
2
__
= N|a| +
T

2
n/2

i=1
_
exp
_

1
2
[
1
(
a
+ [r + (i 1)T 1])]
2
_
+
exp
_

1
2
[
1
(
a
+ [r + (i 1)T])]
2
__
+
+
T

2
n/2

i=1
_
exp
_

1
2
[
1
(2 3
a
[r + (n/2 + i 1)T])]
2
_
+
exp
_

1
2
[
1
(2 3
a
+ [r + (n/2 + i 1)T 1])]
2
__
.
Ya que 23
a
[r+(n/2+i1)T] = 1
a
[r+(i1)T], 23
a
[r+(n/2+i1)T1] =
33
1
a
[r + (i 1)T 1] y
1
(1 v) =
1
(v), entonces

= N|a| +
T

2
n/2

i=1
_
exp
_

1
2
[
1
(
a
+ [r + (i 1)T 1])]
2
_
+
exp
_

1
2
[
1
(
a
+ [r + (i 1)T])]
2
__
+
+
T

2
n/2

i=1
_
exp
_

1
2
[
1
(
a
[r + (i 1)T])]
2
_
+
exp
_

1
2
[
1
(
a
+ [r + (i 1)T 1])]
2
__
= N|a|.
Referencias
[1] Y. G. Berger. A variance estimator for systematic sampling from a deliberately ordered
population. Communications in Statistics. Theory and Methods, 34:15331541, 2005.
[2] W. G. Cochran. Relative accuracy of systematic and stratied random samples for a
certain class of populations. Annals of Mathematics Statistics, 17:164177, 1946.
[3] W. G. Cochran. Sampling Techniques. Wiley, 1977.
[4] A. W. Fuller. Sampling Statistics. Wiley, John and Sons, 2009.
[5] M. Garca-Fi nana. Muestreo Sistematico en R. Tesis doctoral, Universidad de Cantabria,
Espa na, 2000.
[6] M. Garca-Fi nana and L. M. Cruz-Orive. Improved variance prediction for systematic
sampling on R. Statistics, 38(3):243272, 2004.
[7] W. Gautschi. Some remarks on systematic sampling. The Annals of Mathematical Statis-
tics, 28(2):385394, 1957.
[8] H. J. G. Gundersen. The smooth fractionator. Journal of Microscopy, 207:191210, 2002.
[9] R. Iachan. Systematic sampling: A critical review. International Statistical Review,
50(3):293303, 1982.
[10] K. Kieu. Three lectures on sistematic geometric sampling. Memoirs, 13. University of
Aarhus, 1997.
34
[11] K. Kieu and M. Mora. Stereological estimation of mean volume: precision of three simple
sampling designs. Reporte tecnico, Unite Mathematiques et Informatique Appliquees,
Institut National de la Recherche Agronomique, Versalles, 2005.
[12] K. Kieu, S. Souchet, and J. Istas. Precision of systematic sampling and transitive methods.
Statistical Planning and Inference, 77:263279, 1999.
[13] W. G. Madow and L. H. Madow. On the theory of systematic sampling I. Annals of
Mathematics Statistics, 15(1):124, 1944.
[14] P.C. Mahalanobis. Recent experiments in statistical sampling in the indian statistical
institute. Royal Statistical Society, 109(4):325370, 1946.
[15] G. Matheron. Les variables regionalisees et leur estimation. Masson, Paris, 1965.
[16] M. H. Quenouille. Problems in plane sampling. Annals of Mathematics Statistics,
20(3):355375, 1949.
[17] C. E. S arndal, B. Swensson, and J. Wretman. Model Assisted Survey Sampling. Springer-
Verlag, 1992.
[18] P. V. Sukhatme, B. V. Sukhatme, and Asok. Sampling Theory of Surveys with Applications.
Iowa State University Press, 1984.
[19] K. M. Wolter. An investigation of some estimators of variance for systematic sampling.
Journal of the American Statistical Association, 79:781790, 1984.
[20] K. M. Wolter. Introduction to Variance Estimation. Springer-Verlag, 2007.
[21] F. Yates. Systematic sampling. Philosophical Transactions of the Royal Society of London,
241(834):345377, 1948.
[22] F. Yates. Sampling Methods for Censuses and Surveys. Charles Grin and Company
Limited, 1981.
35

S-ar putea să vă placă și