Sunteți pe pagina 1din 5

Muestreo de Redes

INTRODUCCIÓN
El diseño de muestreo de la red se utilizó por primera vez no para au-
mentar la eficiencia, sino porque surgió inevitablemente en la situación de
muestreo (un paciente que tiene registros en más de un centro médico). Do-
cumentos posteriores sobre el tema reconocieron su potencial para dar es-
timaciones de varianza más bajas que los procedimientos convencionales y
para aumentar el rendimiento”de la encuesta; es decir, el número total de
personas en la muestra con la enfermedad u otra caracterı́stica.

En una encuesta para estimar la prevalencia de una enfermedad rara, se se-


lecciona una muestra aleatoria de centros médicos. De los registros de cada
centro médico en la muestra, se obtienen registros de pacientes tratados por
esa enfermedad. Sin embargo, un paciente dado puede haber sido tratado en
más de un centro médico. Cuantos más centros médicos en los que se haya
tratado a un paciente determinado, mayor es la probabilidad de que se ob-
tengan los registros del paciente en la muestra.

En otra encuesta, también con el propósito de estimar la prevalencia de


una caracterı́stica rara en una población, se selecciona una muestra aleatoria
simple de hogares. En un hogar seleccionado, se pide a los ocupantes adultos
que informen sobre la aparición de la caracterı́stica no solo en sı́ mismos sino
también en sus hermanos. Por lo tanto, una persona con varios hermanos
que viven en hogares diferentes tiene una mayor probabilidad de inclusión
que uno sin hermanos que viven en hogares separados. Incluso dentro de un
solo hogar, las probabilidades de inclusión para diferentes ocupantes no son
necesariamente iguales.

Los diseños del tipo descrito anteriormente se denominan muestreo de


red o muestreo de multiplicidad. En el muestreo en red, se selecciona una
muestra aleatoria simple o una muestra aleatoria estratificada de unidades
(unidades de selección), y se incluyen u observan todas las unidades de ob-
servación (personas en los ejemplos) vinculadas a cualquiera de las unidades
seleccionadas. La multiplicidad de una persona es el número de unidades de
selección (centros médicos u hogares) a las que está vinculada una perso-
na. Al definir una red como un conjunto de unidades de observación con un
patrón de enlace dado, una red puede estar vinculada con más de una unidad
de selección (hermanos que viven en más de un hogar), y una sola unidad de
selección puede estar vinculada con más de una red (no hermanos que com-

1
parten un casa). Si la población de unidades de selección está estratificada,
una red también puede intersectar más de un estrato.

Debido a la desigual selección o las probabilidades de inclusión, la media


muestral no forma un estimador insezgado de la media poblacional con dicho
diseño.

ESTIMACIÓN DE LA POBLACIÓN TOTAL


O MEDIO
Supongamos que el valor de la variable de interés para la i−ésima unidad
de observación en una población se denota yi . En una encuesta para estimar
la prevalencia de una enfermedad u otra caracterı́stica, yi es una variable
indicadora, igual a 1 si la unidad tiene la caracterı́stica y cero en caso contra-
rio. La variable de interés yi no necesita ser una variable indicadora; podrı́a
ser, por ejemplo, el costo del tratamiento médico de la enfermedad para la
i−ésima persona.
Sea N el númeroP de unidades de observación en la población. El total de la
población es t = N i=1 yi .
Sea mi la multiplicidad de la i-ésima unidad de observación, es decir, el
número de unidades de selección a las que está vinculada esa unidad de
observación. El número de unidades de selección en la población se denomi-
nará M . La media de la población por unidad de selección es µ = t/M . A
continuación, consideramos un diseño de muestreo en el que se obtiene una
muestra aleatoria simple (sin reemplazo) de n0 unidades de selección y cada
unidad de observación vinculada a cualquier unidad de selección se incluye
en la muestra.

ESTRATIFICACIÓN EN EL MUESTREO DE
RED
Cuando las unidades de selección de la población están estratificadas,
surge una complicación porque una unidad de observación dada puede estar
vinculada a unidades de selección en más de un estrato. Luego, las obser-
vaciones en diferentes estratos no son independientes como en el muestreo
estratificado convencional.

Suponga que las unidades de selección M en la población se dividen en

2
estratos L, con unidades de selección Mh en el estrato h, y suponga que se se-
lecciona una muestra aleatoria estratificada con un tamaño de muestra nh en
el estrato h, para h = 1, . . . , L. Para cada unidad de selección en la muestra,
todas las unidades de observación vinculadas a ella, independientemente de
en qué estratos se encuentren, se incluyen en la muestra. Sea Ahj el conjunto
de unidades de observación vinculado a la j−ésima unidad de selección en
el estrato h. Para la i−ésima unidad de observación, sea mi el número de
unidades de selección, que pueden ser de más de un estrato, a las que está
vinculado. Para la j−ésima unidad de selección P en el estrato h, una nue-
va variable de interés whj se define por whj = i∈Ahj yi /mi . Defina la media
muestral de las variables w en el estrato h para que sea w̄h = (1/nh ) nj=1
P h
whj
El estimador de multiplicidad estratificado (Birnbaum y Sirken 1965)
tiene la forma
L
X
t̂m = Mh w̄h (1)
h=1

Es un estimador insesgado del total de la población, con varianza.

L
X Mh (Mh − nh ) 2
V (t̂m ) = σwh (2)
h=1
nh

2
en el que σwh es la varianza de población finita de los valores de w dentro del
estrato h. Se obtiene una estimación insezgado de esta varianza reemplazando
2
σwh con s2wh , la varianza muestral de los valores de w dentro del estrato h.
Tenga en cuenta que mientras t̂m es insesgado para el total de la población
total t, un término individual Mh w̄h no es en general insezgado para un total
de población relevante dentro del estrato h. Esto se debe a que w̄h puede ba-
sarse en parte en los valores y de las unidades de observación asociadas con
estratos distintos de h. Por ejemplo, si las unidades de selección son hogares,
que están estratificados por región geográfica, y las unidades de observación
son personas vinculadas por relaciones entre hermanos, la selección de un
hogar en un estrato puede generar informes sobre hermanos en uno o más
estratos. Los valores y para cada uno de estos hermanos se combinan en el
valor whj para ese hogar.

Para una unidad de observación i vinculada a una unidad de selección


de muestra en el estrato h, el peso dado al valor yi en el estimador anterior
[Ecuación (2)] es Mh /nh mi . Por lo tanto, para una unidad de observación
vinculada a unidades de selección en más de un estrato, el peso dado a su

3
valor y puede variar dependiendo del estrato en el que se realiza la selección
a la que está vinculado. Para evitar esta dependencia aparentemente arbitra-
ria del estrato a través del cual se informa una observación dada, se puede
considerar un estimador alternativo. En el Estimador de Hansen-Hurwitz,
cada valor de y se divide por el número esperado de veces que se selecciona
bajo el diseño. Sea mhi el número de unidades de selección en el estrato h al
que está vinculada la i−ésima unidad de observación. Sea zhi el número de
unidades de selección en la muestra vinculadas a la unidad de observación i.
La variable aleatoria zhi tiene una distribución hipergeométrica con el valor
esperado nh mi /Mh . El número total de veces que se selecciona la unidad de
observación i es la suma, sobre los estratos L, de zhi . P
El número esperado de
veces que se selecciona la unidad de observación i es Lh=1 nh mi /Mh .

Se obtiene un estimador insezgado más cercano al espı́ritu del estimador


Hansen-Hurwitz dividiendo cada valor de y por esta expectativa. Para hacer
0
esto, defina la nueva variable whj para la j−ésima unidad de selección del
estrato h por

0 nh X yi
whj = PL
Mh i∈A h=1 nh mi /Mh
j

0
y sea w̄hj la media muestral de los valores w dentro del estrato h. Un
estimador insesgado de t es
L
X
t̂p = mh wh0
h=1

Las fórmulas de varianza [Ecuación (2) y su estimador] para el estimador


de multiplicidad estratificado se mantienen para este estimador alternativo
cuando los valores de w0 se sustituyen por w.

Para el estimador de Horvitz-Thompson con muestreo de red estratifica-


do, m∗hk denota el número de unidades de selección en el estrato h vinculadas
a la red kth en la población, y deja que m∗hk denote el número vinculado a
ambas redes k y l. Las probabilidades de inclusión son
L 
Mh − m∗hk
  
Y Mh
π =1− /
h=1
nh nh
L 
Mh − m∗hk − m∗hl + m∗hkl
  
Y Mh
πkl = πk + πl − 1 /
h=1
nh nh

4
Con estas probabilidades de inclusión, se mantienen las fórmulas habi-
tuales de Horvitz-Thompson.

S-ar putea să vă placă și