Muestreo de Redes

Muestreo de Redes
INTRODUCCIÓN
El diseño de muestreo de la red se utilizó por primera vez no para au-
mentar la eficiencia, sino porque surgió inevitablemente en la situación de
muestreo (un paciente que tiene registros en más de un centro médico). Do-
cumentos posteriores sobre el tema reconocieron su potencial para dar es-
timaciones de varianza más bajas que los procedimientos convencionales y
para aumentar el rendimiento”de la encuesta; es decir, el número total de
personas en la muestra con la enfermedad u otra caracterı́stica.
En una encuesta para estimar la prevalencia de una enfermedad rara, se se-

lecciona una muestra aleatoria de centros médicos. De los registros de cada
centro médico en la muestra, se obtienen registros de pacientes tratados por
esa enfermedad. Sin embargo, un paciente dado puede haber sido tratado en
más de un centro médico. Cuantos más centros médicos en los que se haya
tratado a un paciente determinado, mayor es la probabilidad de que se ob-
tengan los registros del paciente en la muestra.
En otra encuesta, también con el propósito de estimar la prevalencia de

una caracterı́stica rara en una población, se selecciona una muestra aleatoria
simple de hogares. En un hogar seleccionado, se pide a los ocupantes adultos
que informen sobre la aparición de la caracterı́stica no solo en sı́ mismos sino
también en sus hermanos. Por lo tanto, una persona con varios hermanos
que viven en hogares diferentes tiene una mayor probabilidad de inclusión
que uno sin hermanos que viven en hogares separados. Incluso dentro de un
solo hogar, las probabilidades de inclusión para diferentes ocupantes no son
necesariamente iguales.
Los diseños del tipo descrito anteriormente se denominan muestreo de

red o muestreo de multiplicidad. En el muestreo en red, se selecciona una
muestra aleatoria simple o una muestra aleatoria estratificada de unidades
(unidades de selección), y se incluyen u observan todas las unidades de ob-
servación (personas en los ejemplos) vinculadas a cualquiera de las unidades
seleccionadas. La multiplicidad de una persona es el número de unidades de
selección (centros médicos u hogares) a las que está vinculada una perso-
na. Al definir una red como un conjunto de unidades de observación con un
patrón de enlace dado, una red puede estar vinculada con más de una unidad
de selección (hermanos que viven en más de un hogar), y una sola unidad de
selección puede estar vinculada con más de una red (no hermanos que com-
1
parten un casa). Si la población de unidades de selección está estratificada,
una red también puede intersectar más de un estrato.
Debido a la desigual selección o las probabilidades de inclusión, la media

muestral no forma un estimador insezgado de la media poblacional con dicho
diseño.
ESTIMACIÓN DE LA POBLACIÓN TOTAL

O MEDIO
Supongamos que el valor de la variable de interés para la i−ésima unidad
de observación en una población se denota yi . En una encuesta para estimar
la prevalencia de una enfermedad u otra caracterı́stica, yi es una variable
indicadora, igual a 1 si la unidad tiene la caracterı́stica y cero en caso contra-
rio. La variable de interés yi no necesita ser una variable indicadora; podrı́a
ser, por ejemplo, el costo del tratamiento médico de la enfermedad para la
i−ésima persona.
Sea N el númeroP de unidades de observación en la población. El total de la
población es t = N i=1 yi .
Sea mi la multiplicidad de la i-ésima unidad de observación, es decir, el
número de unidades de selección a las que está vinculada esa unidad de
observación. El número de unidades de selección en la población se denomi-
nará M . La media de la población por unidad de selección es µ = t/M . A
continuación, consideramos un diseño de muestreo en el que se obtiene una
muestra aleatoria simple (sin reemplazo) de n0 unidades de selección y cada
unidad de observación vinculada a cualquier unidad de selección se incluye
en la muestra.
ESTRATIFICACIÓN EN EL MUESTREO DE
RED
Cuando las unidades de selección de la población están estratificadas,
surge una complicación porque una unidad de observación dada puede estar
vinculada a unidades de selección en más de un estrato. Luego, las obser-
vaciones en diferentes estratos no son independientes como en el muestreo
estratificado convencional.
Suponga que las unidades de selección M en la población se dividen en
2
estratos L, con unidades de selección Mh en el estrato h, y suponga que se se-
lecciona una muestra aleatoria estratificada con un tamaño de muestra nh en
el estrato h, para h = 1, . . . , L. Para cada unidad de selección en la muestra,
todas las unidades de observación vinculadas a ella, independientemente de
en qué estratos se encuentren, se incluyen en la muestra. Sea Ahj el conjunto
de unidades de observación vinculado a la j−ésima unidad de selección en
el estrato h. Para la i−ésima unidad de observación, sea mi el número de
unidades de selección, que pueden ser de más de un estrato, a las que está
vinculado. Para la j−ésima unidad de selección P en el estrato h, una nue-
va variable de interés whj se define por whj = i∈Ahj yi /mi . Defina la media
muestral de las variables w en el estrato h para que sea w̄h = (1/nh ) nj=1
P h
whj
El estimador de multiplicidad estratificado (Birnbaum y Sirken 1965)
tiene la forma
L
X
t̂m = Mh w̄h (1)
h=1
Es un estimador insesgado del total de la población, con varianza.
L
X Mh (Mh − nh ) 2
V (t̂m ) = σwh (2)
h=1
nh
2
en el que σwh es la varianza de población finita de los valores de w dentro del
estrato h. Se obtiene una estimación insezgado de esta varianza reemplazando
2
σwh con s2wh , la varianza muestral de los valores de w dentro del estrato h.
Tenga en cuenta que mientras t̂m es insesgado para el total de la población
total t, un término individual Mh w̄h no es en general insezgado para un total
de población relevante dentro del estrato h. Esto se debe a que w̄h puede ba-
sarse en parte en los valores y de las unidades de observación asociadas con
estratos distintos de h. Por ejemplo, si las unidades de selección son hogares,
que están estratificados por región geográfica, y las unidades de observación
son personas vinculadas por relaciones entre hermanos, la selección de un
hogar en un estrato puede generar informes sobre hermanos en uno o más
estratos. Los valores y para cada uno de estos hermanos se combinan en el
valor whj para ese hogar.
Para una unidad de observación i vinculada a una unidad de selección

de muestra en el estrato h, el peso dado al valor yi en el estimador anterior
[Ecuación (2)] es Mh /nh mi . Por lo tanto, para una unidad de observación
vinculada a unidades de selección en más de un estrato, el peso dado a su
3
valor y puede variar dependiendo del estrato en el que se realiza la selección
a la que está vinculado. Para evitar esta dependencia aparentemente arbitra-
ria del estrato a través del cual se informa una observación dada, se puede
considerar un estimador alternativo. En el Estimador de Hansen-Hurwitz,
cada valor de y se divide por el número esperado de veces que se selecciona
bajo el diseño. Sea mhi el número de unidades de selección en el estrato h al
que está vinculada la i−ésima unidad de observación. Sea zhi el número de
unidades de selección en la muestra vinculadas a la unidad de observación i.
La variable aleatoria zhi tiene una distribución hipergeométrica con el valor
esperado nh mi /Mh . El número total de veces que se selecciona la unidad de
observación i es la suma, sobre los estratos L, de zhi . P
El número esperado de
veces que se selecciona la unidad de observación i es Lh=1 nh mi /Mh .
Se obtiene un estimador insezgado más cercano al espı́ritu del estimador

Hansen-Hurwitz dividiendo cada valor de y por esta expectativa. Para hacer
0
esto, defina la nueva variable whj para la j−ésima unidad de selección del
estrato h por
0 nh X yi
whj = PL
Mh i∈A h=1 nh mi /Mh
j
0
y sea w̄hj la media muestral de los valores w dentro del estrato h. Un
estimador insesgado de t es
L
X
t̂p = mh wh0
h=1
Las fórmulas de varianza [Ecuación (2) y su estimador] para el estimador

de multiplicidad estratificado se mantienen para este estimador alternativo
cuando los valores de w0 se sustituyen por w.
Para el estimador de Horvitz-Thompson con muestreo de red estratifica-

do, m∗hk denota el número de unidades de selección en el estrato h vinculadas
a la red kth en la población, y deja que m∗hk denote el número vinculado a
ambas redes k y l. Las probabilidades de inclusión son
L
Mh − m∗hk

Y Mh
π =1− /
h=1
nh nh
L
Mh − m∗hk − m∗hl + m∗hkl

Y Mh
πkl = πk + πl − 1 /
h=1
nh nh
4
Con estas probabilidades de inclusión, se mantienen las fórmulas habi-
tuales de Horvitz-Thompson.

Muestreo de Redes

Încărcat de

Informații document

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Muestreo de Redes

Încărcat de

Drepturi de autor:

Formate disponibile

Muestreo de Redes

En una encuesta para estimar la prevalencia de una enfermedad rara, se se-

En otra encuesta, también con el propósito de estimar la prevalencia de

Los diseños del tipo descrito anteriormente se denominan muestreo de

Debido a la desigual selección o las probabilidades de inclusión, la media

ESTIMACIÓN DE LA POBLACIÓN TOTAL

Suponga que las unidades de selección M en la población se dividen en

Es un estimador insesgado del total de la población, con varianza.

Para una unidad de observación i vinculada a una unidad de selección

Se obtiene un estimador insezgado más cercano al espı́ritu del estimador

Las fórmulas de varianza [Ecuación (2) y su estimador] para el estimador

Para el estimador de Horvitz-Thompson con muestreo de red estratifica-

S-ar putea să vă placă și