Documente Academic
Documente Profesional
Documente Cultură
Notas
Índice
1. INTRODUCCIÓN .............................................................................................................1
2. ESTADÍSTICA BAYESIANA ............................................................................................2
3. ¿QUÉ ES LA INFERENCIA BAYESIANA?......................................................................3
4. CONCEPTOS BAYESIANOS BÁSICOS .........................................................................5
4.1. Teorema de Bayes ..................................................................................................................................... 5
4.2. Naturaleza secuencial del teorema de Bayes ............................................................................................ 7
4.3. Distribución a priori difusa o no informativa ............................................................................................... 7
4.4. Distribución a priori conjugada ................................................................................................................. 10
5. INFERENCIA BAYESIANA............................................................................................12
5.1. Estimación puntual ................................................................................................................................... 12
5.2. Intervalos de credibilidad o regiones veraces .......................................................................................... 16
5.3. Prueba de hipótesis para una muestra .................................................................................................... 17
5.4. Prueba de hipótesis para dos muestras................................................................................................... 18
6. CONCLUSIONES ..........................................................................................................20
7. BIBLIOGRAFÍA..............................................................................................................20
1. Introducción
Como anunciaba Lindley en el primer Congreso Internacional de Estadística Bayesiana, falta menos para el
2021 año en el que el adjetivo bayesiano para la estadística sería superfluo al ser bayesianas todas las
aproximaciones a la estadística.
El objetivo de la estadística, y en particular de la estadística Bayesiana, es proporcionar una metodología
para analizar adecuadamente la información con la que se cuenta (análisis de datos) y decidir de manera
razonable sobre la mejor forma de actuar (teoría de decisión).
Toma de
decisiones Población
Inferencia Muestreo
Análisis de
Muestra
datos
Pr ( A ) =
• La metodología bayesiana está basada en la interpretación subjetiva de la probabilidad y tiene como
punto central el Teorema de Bayes.
2. Estadística bayesiana
El interés por el teorema de Bayes trasciende la aplicación clásica, especialmente cuando se amplía a otro
contexto en el que la probabilidad no se entiende exclusivamente como la frecuencia relativa de un suceso
a largo plazo, sino como el grado de convicción personal acerca de que el suceso ocurra o pueda ocurrir
(definición subjetiva de la probabilidad). Afirmaciones del tipo "es muy probable que el partido X gane las
próximas elecciones", "es improbable que Juan haya sido quien llamó por teléfono" o "es probable que se
encuentre un tratamiento eficaz para el sida en los próximos cinco años", normales en el lenguaje común,
no pueden cuantificarse formalmente; resultan ajenas, por tanto, a una metodología que se desenvuelva en
un marco frecuentista. Una cuantificación sobre base subjetiva resulta, sin embargo, familiar y fecunda para
el enfoque bayesiano. Al admitir un manejo subjetivo de la probabilidad, el analista bayesiano podrá emitir
juicios de probabilidad sobre una hipótesis H y expresar por esa vía su grado de convicción al respecto,
tanto antes como después de haber observado los datos. En su versión más elemental y en este contexto,
el teorema de Bayes asume la forma siguiente:
Pr ( datos | H )
Pr ( H | datos ) = Pr ( H )
Pr ( datos )
2
La probabilidad a priori de una hipótesis, Pr ( H ) , se ve transformada en una probabilidad a posteriori,
Pr ( H | datos ) , una vez incorporada la evidencia que aportan los datos. El caso considerado se
circunscribe a la situación más simple, aquella en que Pr ( H ) representa un número único; sin embargo, si
se consiguiera expresar la convicción inicial (y la incertidumbre) mediante una distribución de
probabilidades.
Entonces una vez observados los datos, el teorema "devuelve" una nueva distribución, que no es otra cosa
que la percepción probabilística original actualizada por los datos.
Esta manera de razonar de la inferencia bayesiana, radicalmente diferente a la inferencia clásica o
frecuentista (que desdeña en lo formal toda información previa de la realidad que examina), es sin embargo
muy cercana al modo de proceder cotidiano, e inductivo. Debe subrayarse que esta metodología, a
diferencia del enfoque frecuentista, no tiene como finalidad producir una conclusión dicotómica (significación
o no significación, rechazo o aceptación, etc.) sino que cualquier información empírica, combinada con el
conocimiento que ya se tenga del problema que se estudia, "actualiza" dicho conocimiento, y la
trascendencia de dicha visión actualizada no depende de una regla mecánica.
Los métodos bayesianos han sido cuestionados argumentando que, al incorporar las creencias o
expectativas personales del investigador, pueden ser caldo de cultivo para cualquier arbitrariedad o
manipulación. Se podría argüir, por una parte, que el enfoque frecuentista no está exento de decisiones
subjetivas (nivel de significación, usar una o dos colas, importancia que se concede a las diferencias, etc.);
de hecho, la subjetividad (algo bien diferente de la arbitrariedad o el capricho) es un fenómeno inevitable,
especialmente en un marco de incertidumbre como en el que operan las ciencias biológicas y sociales. Por
otra parte, las "manipulaciones" son actos de deshonestidad, que pueden producirse en cualquier caso
(incluyendo la posibilidad de que se inventen datos) y que no dependen de la metodología empleada sino
de la honradez de los investigadores.
Aunque las bases de la estadística bayesiana datan de hace más de dos siglos, no es hasta fechas
recientes cuando empieza a asistirse a un uso creciente de este enfoque en el ámbito de la investigación.
Una de las razones que explican esta realidad y que a la vez anuncian un impetuoso desarrollo futuro es la
absoluta necesidad de cálculo computarizado para la resolución de algunos problemas de mediana
complejidad. Hoy ya existe software disponible (BUGS, macros para MINITAB, próxima versión de EPIDAT
y First Bayes, entre otros) que hace posible operar con estas técnicas y augura el "advenimiento de una era
Bayesiana".
El proceso intelectual asociado a la inferencia bayesiana es mucho más coherente con el pensamiento
usual del científico que el que ofrece el paradigma frecuentista. Los procedimientos bayesianos constituyen
una tecnología emergente de procesamiento y análisis de información para la que cabe esperar una
presencia cada vez más intensa en el campo de la aplicación de la estadística a la investigación clínica y
epidemiológica.
parámetro. Esta diferencia conduce a inferencias mucho más naturales, lo único que se requiere para el
proceso de inferencia bayesiana es la especificación previa de una distribución a priori de probabilidad
3
Pr (θ ) , la cual representa el conocimiento acerca del parámetro antes de obtener cualquier información
respecto a los datos.
La noción de la distribución a priori para el parámetro es el corazón del pensamiento bayesiano. El análisis
bayesiano hace uso explícito de las probabilidades para cantidades inciertas (parámetros) en inferencias
basadas en análisis estadísticos de datos.
El análisis bayesiano lo podemos dividir en las siguientes etapas:
1. Elección de un modelo de probabilidad completo. Elección de una distribución de probabilidad conjunta
para todas las cantidades observables y no observables. El modelo debe ser consistente con el
conocimiento acerca del problema fundamental y el proceso de recolección de la información;
2. Condicionamiento de los datos observados. Calcular e interpretar la distribución a posteriori apropiada
que se define como la distribución de probabilidad condicional de las cantidades no observadas de
interés, dados los datos observados;
3. Evaluación del ajuste del modelo y las implicancias de la distribución a posteriori resultante. ¿Es el
modelo apropiado a los datos?, ¿son las conclusiones razonables?, ¿qué tan sensibles son los
resultados a las suposiciones de modelamiento de la primera etapa?. Si fuese necesario, alterar o
ampliar el modelo, y repetir las tres etapas mencionadas.
La inferencia bayesiana se basa en el uso de una distribución de probabilidad para describir todas las
cantidades desconocidas relevantes a un problema de estimación, la concreción técnica de este resultado
consiste en lo siguiente:
Si se dispone de una colección de variables aleatorias intercambiables {x , x
1 2 ,… , x n } es decir que su
distribución sólo depende del valor de esas variables y no del orden en que han sido observadas, entonces
la distribución de probabilidad
n
f ( x 1 , x 2 ,… , x n ) = ∫ ∏ f ( x |θ ) π (θ ) dθ
i
Θ
i =1
∑x
i =1
i
donde: θ = n lim ∞
n
Es importante notar que lo que quiere decir el anterior resultado es que siempre que se tenga una colección
de variables intercambiables, y en una muestra aleatoria sencilla lo son, existe una distribución inicial sobre
el parámetro θ . Además, el valor del parámetro puede obtenerse como límite de las frecuencias relativas.
La aproximación bayesiana implica entonces, que la información muestral y la distribución inicial se
actualizan mediante el teorema de Bayes para dar lugar a la distribución final.
π (θ ) f ( x1 , x 2 ,… , x n |θ )
π (θ | x1 , x 2 ,… , x n ) =
∫ π (θ ) f ( x
Θ
1 , x 2 ,… , x n |θ ) dθ
Ahora todas las inferencias, la estimación por punto, la estimación por regiones veraces y los contrastes de
hipótesis, se realizan mediante la distribución final.
4
4. Conceptos bayesianos básicos
{ }
Sea Y = y 1 , y 2 ,… , y n ' un vector de n observaciones cuya distribución de probabilidad Pr ( y |θ )
Pr ( y |θ ) = Pr ( y |θ ) Pr (θ ) = Pr (θ | y ) Pr ( y )
de donde la distribución de probabilidad condicional de θ dado el vector de observaciones Y resulta:
Pr ( y |θ ) Pr (θ )
Pr (θ | y ) =
Pr ( y )
con Pr ( y ) ≠ 0
5
y aplicar el teorema de Bayes dado en [1], la distribución a posteriori de θ dada la muestra y queda
expresada como:
n ( m !) ∑ yi
Pr (θ | y ) = c θ∑ (1 − θ )
yi mn−
n n
∏ y !∏ ( m − y )!
i =1
i
i =1
i
∏ y ! ∏ ( m − y )!
i =1
i
i =1
i
que tiene la forma de una distribución beta con parámetros ∑ y + 1 y n m − ∑ y + 1 .
i i
Luego el valor adecuado de la constante normalizadora c será:
c =
Γ ( n m + 2) ∏ y !∏ m − y !
i i ( )
n ( m !)
Γ ∑ y + 1 Γ n m − ∑ y + 1
i i
Nótese que es a través de l ( θ | Y ) que los datos (información muestral) modifican el conocimiento previo
de q dado por Pr (θ ) . Este proceso de revisión de las probabilidades iniciales, dada la información
muestral, se ilustra en la figura 3.
Distribución
Información a priori
inicial
Pr(θ)
Teorema de Distribución
Bayes a posteriori
Función de
Información verosimilitud
nueva
l(θ | y)
Figura 3.
Por ultimo, es conveniente señalar que la información muestral Y por lo general será introducida en el
modelo a través de estadísticas suficientes para θ , dado que estas contienen toda la información referente
a los datos. Así, dado un conjunto de estadísticas suficientes t para los parámetros en θ , Pr ( y |θ ) podrá
ser intercambiada por Pr ( t |θ ) , para lo cual bastara con calcular la distribución condicional de t dado θ .
6
Valoración a priori acerca de si la hipótesis
Componente subjetivo
es verdadera antes de ver los datos
x x
Factor de Bayes Componente de los datos (evidencia)
Pr (θ | y 1 , y 2 ) ∝ l (θ | y 1 , y 2 ) Pr (θ ) = l (θ | y 1 ) l (θ | y 2 ) Pr (θ )
Pr (θ | y 1 , y 2 ) ∝ l (θ | y 2 ) Pr (θ | y 1 )
De esta manera, la distribución a posteriori obtenida con la primera muestra se convierte en la nueva
distribución a priori para ser corregida por la segunda muestra.
En este proceso puede repetirse indefinidamente. Así, si se tienen r muestras independientes, la
distribución a posteriori puede ser recalculada secuencialmente para cada muestra de la siguiente manera:
Pr (θ | y 1 , y 2 ,… , y m ) ∝ l (θ | y m ) Pr (θ | y 1 , y 2 ,… , y m −1 ) para m = 2,3,… , r
7
Método de Jeffreys
En situaciones generales, para un parámetro θ el método mas usado es el de Jeffreys (1961) que sugiere
que, si un investigador es ignorante con respecto a un parámetro θ , entonces su opinión a cerca de θ
dado las evidencias X debe ser la misma que el de una parametrización para θ o cualquier
transformación uno a uno de θ , g (θ ) , una priori invariante sería:
Pr (θ ) ∝ I (θ )
∂ 2 Lnf ( y |θ )
I (θ ) = − Eθ
∂θ 2
Si θ = (θ ,θ
1 2 ,… ,θ n ) ' es un vector, entonces:
Pr (θ ) ∝ det I (θ ) [2]
∂ 2 Lnf ( y |θ )
I i j = − E0
∂ θ i ∂ θ j
Por transformación de variables, la densidad a priori Pr (θ ) es equivalente a la siguiente densidad a priori
para φ:
dθ
Pr (φ ) = Pr (θ = h −1 (φ ) ) [3]
dφ
El principio general de Jeffreys consiste en que al aplicar el método para determinar la densidad a priori
Pr (θ ) , debe obtenerse un resultado equivalente en Pr (φ ) si se aplica la transformación del parámetro
para calcular Pr (φ ) a partir de Pr (θ ) en la ecuación [3] o si se obtiene Pr (φ ) directamente a partir del
método inicial. Es decir, debe cumplirse la siguiente igualdad:
dθ
I (φ ) = I (θ )
dφ
Ejemplo. Sea la variable Y con una distribución B ( n , θ )
8
n
f ( y |θ ) = Pr ( y |θ ) = θ y (1 − θ )
n− y
y
n
log f ( y |θ ) = log + y log θ + ( n − y ) log (1 − θ )
y
d log f ( y |θ ) y n− y
= +
dθ θ 1−θ
d log f ( y |θ )
2
y n− y
= − +
dθ 2 θ(1 − θ )
2 2
y n− y nθ E ( n − y )
E − 2 + = −− 2 +
θ (1 − θ )
2
θ (1 − θ )
2
y n− y n
E − 2 + =
θ
(1 − θ )
2
θ (1 − θ )
n
o
θ 1−θ
Prescindiendo de n se obtiene que la distribución a priori de θ es:
Pr (θ ) ∝ θ 1−θ
esto es, θ ≈ Beta ( 0,5 , 0,5 ) .
Ejemplo. Se aplicara el método de Jeffreys para calcular una distribución conjunta a priori para los
parámetros de un modelo normal.
Sea y ∼ N ( µ , σ ) , ambos parámetros desconocidos. Entonces:
2
1 ( y −µ)2
f ( y|µσ ) = exp −
2π µ 2 σ 2
( y−µ)
2
1
ln f ( y | µ σ ) = ln − ln σ −
2π µ 2σ 2
y la matriz de información de Fisher estará dada por:
∂2 ∂2
ln f ( y | µ , σ ) ln f ( y | µ , σ )
∂ µ 2
∂ µ ∂σ
I (θ ) = − E0
∂2 ∂2
ln f ( y | µ , σ ) ln f ( y | µ , σ )
∂σ ∂ µ ∂σ 2
1 2( y − µ )
− 2 −
σ σ 3
I (θ ) = − E0
2( y − µ ) 1 3 ( y − µ )
2
− −
σ3 σ2 σ4
9
1
σ 2 0
I (θ ) = − E0
0 2
σ 2
Ahora, según la ecuación [2], la distribución a priori no informativa para θ = ( µ ,σ ) será:
2 1
Pr ( µ , σ ) ∝ ∝
σ 4
σ2
Nótese que aplicando las reglas anteriores, dado que µ es un parámetro de posición y σ un parámetro de
µ σ serian Pr ( µ ) = 1 y Pr (σ ) = σ
−1
escala, las distribuciones a priori para y , por lo que si se supone
independencia entre ambos parámetros se tendría Pr ( µ , σ ) = Pr ( µ ) Pr (σ ) = σ σ 2.
−1
en vez de
Jeffreys resolvió este problema estableciendo que µ y σ deberían ser tratados a priori
independientemente y por separado. Así, cuando el método de Jeffreys es aplicado al modelo normal con
σ fijo, resulta una a priori uniforme para µ y cuando es aplicado con µ fijo, se obtiene la a priori
Pr (σ ) = σ −1 lo cual conduce a: Pr ( µ , σ ) = σ −1 , que es lo más deseable.
Ejemplo. Sea el parámetro θ que a priori tiene una distribución beta con parámetros α y β la variable
aleatoria Y que tiene una distribución de probabilidad binomial con parámetros m y θ , m conocido por
conveniencia. Entonces se tienen las siguientes funciones de distribución:
Γ (α + β )
Pr (θ ) θ α −1 (1 − θ ) I 0,1 (θ )
β −1
=
Γ (α ) Γ ( β )
m
Pr ( y |θ ) = θ y (1 − θ )
m− y
y = 0,1,… , m
y
Ahora para una muestra aleatoria de tamaño n la función de verosimilitud estará dada por:
n m
l ( y |θ ) = ∏ θ ∑ i (1 − θ ) ∑ i
y m n− y
y = 0,1,… , m ∀i
i =1 y
y al aplicar el teorema de Bayes, la distribución posterior de θ dada la muestra y queda expresada de la
siguiente manera:
Pr (θ | y ) ∝ θ α+ ∑ y i −1 (1 − θ ) β + m n − ∑ y i −1
10
Otro caso importante es el de la distribución normal
1 (θ − µ 0 )
2
1
Pr (θ ) = exp −
2π τ 0 2 τ 02
1 ( x −θ )
2
1
Pr ( x |θ ) = exp −
2π σ 2 σ2
y al aplicar el teorema de Bayes, la distribución posterior de θ dada la muestra x queda expresada de la
siguiente manera:
1 (θ − µ 1 )
2
1
Pr (θ | x ) = exp −
2π τ 0 2 τ 12
1 1
µ0 + x
τ 2
σ2
donde µ1 = 0
1 1
+
τ 2
0 σ2
1 1 1
= +
τ 2
1 τ 2
0 σ2
Luego Pr (θ | x ) ∼ N (µ 1 ,τ 12 ) de donde se pueden sacar conclusiones:
{ }
Sea x1 , x 2 ,… , x n un vector de n observaciones, siendo x i observaciones idénticamente distribuidas
θ ∼ N ( µ 0 ,τ 02 )
x ∼ N (θ , σ 2 )
Entonces al aplicar el teorema de Bayes, la distribución posterior de θ dada la muestra x i queda
expresada de la siguiente manera:
Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) Pr ( x1 |θ ) Pr ( x 2 |θ )… Pr ( x n |θ )
n
Pr (θ | x ) ∝ Pr (θ ) Pr ( x |θ ) = Pr (θ ) ∏ Pr ( x i |θ )
i =1
11
1 (θ − µ 0 ) n 1 ( x i −θ )
2
2
∏
Pr (θ | x ) ∝ exp − exp −
2 τ 02 i =1 2 σ 2
1 (θ − µ 0 )
2
n n
+ 2 ∑ ( x i −θ )
2
Pr (θ | x ) ∝ exp −
2 τ 02 σ i =1
n
∑x i
σ2
Pr (θ | x ) ∼ N θ | x ,
n
5. Inferencia bayesiana
Dado que la distribución posterior, contiene toda la información concerniente al parámetro de interés θ
(información a priori y muestral), cualquier inferencia con respecto a θ consistirá en afirmaciones hechas a
partir de dicha distribución.
12
Estimador de Bayes posterior
El estimador de Bayes posterior se define de la siguiente manera:
Sean {x , x
1 2 ,… , x n } una muestra aleatoria de f ( x |θ ) , donde θ es un valor de la variable aleatoria θ
con función de densidad g θ ( i ) . El estimador de Bayes posterior de τ (θ ) con respecto a la priori g θ ( i )
es definida como E (τ (θ ) | x , x 1 2 ,… , x n ) .
∫ g θ (θ ) ∏ f ( x |θ ) dθ
0 i =1
i
θ∑
xi
(1 − θ )
n− ∑ x i I (θ )
f (θ | x1 , x 2 ,… , x n ) =
( 0,1)
1
∑ x i (1 − θ )n − ∑ x i dθ
∫θ
0
1
∑ x i (1 − θ )n − ∑ x i dθ
∫θ θ
E (θ | x1 , x 2 ,… , x n ) = 0
1
∑ x i (1 − θ )n − ∑ x i dθ
∫θ
0
n n
B ∑ x i + 2 , n − ∑ x i + 1
E (θ | x1 , x 2 ,… , x n ) =
i =1 i =1
n n
B ∑ x i + 1 , n − ∑ x i + 1
i =1 i =1
n
∑x i +1
E (θ | x1 , x 2 ,… , x n ) =
i =1
2
n
∑x
i =1
i +1
Luego el estimador a posteriori de Bayes de θ, es un estimador sesgado. El estimador máximo
n+2
n
∑x
i =1
i
13
n n
Γ ∑ xi + 2 Γ n − ∑ xi + 2
Γ ( n + 2)
E (θ (1 − θ ) | x1 , x 2 ,… , x n ) = =
i =1 i =1
Γ ( n + 4) n n
Γ ∑ x i + 1 Γ n − ∑x i + 1
i =1 i =1
n n
∑ x i + 1 n − ∑ x i + 1
E (θ (1 − θ ) | x1 , x 2 ,… , x n ) =
i =1 i =1
( n + 3) ( n + 2 )
estimador de θ (1 − θ ) con respecto a la a priori uniforme.
Se especifica una función de perdida L (θ , a ) que cuantifica las posibles penalidades en estimar θ por a .
Hay muchas funciones pérdida que se pueden usar. La elección en particular de una de ellas dependerá de
contexto del problema. Las más usadas son:
1. Pérdida cuadrática:
L (θ , a ) = (θ − a ) ;
2
g ( a − θ ) a >θ
L (θ , a ) = si
h (θ − a ) a <θ
En cada uno de los casos anteriores, por la minimización de la pérdida esperada posterior, se obtienen
formas simples para la regla de decisión de Bayes, que es considerado como el estimado punto de θ para
la elección en particular de la función pérdida.
Nota: L (θ , a ) es la pérdida incurrida al adoptar la acción a cuando el verdadero estado de la naturaleza
es θ . Pr ( a , x ) es la perdida esperada posterior. Luego:
R a (θ ) = E ( L (θ , a ) ) = Pr ( a , x ) = ∫ L (θ , a ) Pr (θ | x ) dθ
Regla de decisión de Bayes (estimador de Bayes): d ( x ) es la acción que minimiza Pr ( a , x ) .
Riesgo de Bayes: RB ( d ) = ∫ ρ ( d ( x ) , x ) ρ ( x ) dx
Ejemplo. Sean {x , x
1 2 ,… , x n } una muestra aleatoria de una distribución normal, N (θ ,1) ,
L (θ , a ) = (θ − a ) , y θ ∼ N ( µ 0 ,1) .
2
14
n
1 1 n 2 1 1 2
exp − ∑ ( x i − θ ) exp − (θ − µ 0 )
2π 2 i =1 2π 2
f (θ | x ) = n
∞
1 1 n 2 1 1 2
∫ exp − ∑ ( x i − θ ) exp − (θ − µ 0 ) dθ
−∞ 2π 2 i =1 2π 2
Considerando x 0 = µ 0 :
1 1 n 2
exp − ∑ ( x i − θ )
2π 2 i =1
f (θ | x ) = ∞
1 1 n 2
∫ exp − ∑ ( x i − θ ) dθ
−∞ 2π 2 i =1
1 n +1 n xi
2
f (θ | x ) =
2π
exp −
2
θ − ∑
i =1 n + 1
n +1
n xi
E (θ | x1 , x 2 ,… , x n ) = ∑ n +1
i=0
1
var (θ | x1 , x 2 ,… , x n ) =
n +1
(b) Aproximación bayesiana
Por lo tanto; el estimador de Bayes o regla de Bayes con respecto a la perdida cuadrado del error es:
n n
x0 + ∑ xi µ 0 + ∑ xi
i =1 i =1
=
n +1 n +1
Es decir, en este caso, la decisión óptima que minimiza la pérdida esperada es θ = E (θ ) .
La mejor estimación de θ con pérdida cuadrática es la media de la distribución de θ en el momento de
producirse la estimación.
d ( x) =
E
Π (θ | x )
(θ w (θ ) )
E
Π (θ | x )
( w (θ ) )
d ( x) =
∫ θ w (θ ) f ( x |θ ) dθ
∫ w (θ ) f ( x |θ ) dθ
Si L (θ , a ) = q − a , cualquier mediana de Π (θ | x ) es un estimador de Bayes de
2
θ.
K 0 (θ − a ) θ − a ≥ 0 K0
Si L (θ , a ) = si cualquier fractil de Π (θ | x ) es un estimador de Bayes
K 1 ( a − θ ) θ −a < 0 K 0 + K1
de θ.
15
Resumen
En el contexto bayesiano, un estimado puntual de un parámetro es una simple estadística descriptiva de la
distribución posterior Π (θ | x ) .
Utilizando la calidad de un estimador a través de la función perdida, la metodología de la teoría de decisión
conduce a elecciones optimas de estimados puntuales. En particular, las elecciones más naturales de
función perdida conducen respectivamente a la media posterior, mediana y moda como estimadores
puntuales óptimos.
Π (θ | x ) dθ ( caso continuo )
C∫
1 − α ≤ Pr ( C | x ) = ∫ dF
Π (θ | x )
(θ ) =
C ∑ Π (θ | x ) ( caso discreto )
θ ∈C
Un aspecto importante con los conjuntos veraces (y lo mismo sucede con los intervalos de confianza) es
que ellos no son únicamente definidos.
Cualquier región con probabilidad (1 − α ) cumple la definición. Pero solamente se desea el intervalo que
contiene únicamente los valores “más posibles” del parámetro, por lo tanto es usual imponer una restricción
adicional que indica que el ancho del intervalo debe ser tan pequeño como sea posible.
Para hacer esto, uno debe considerar solo aquellos puntos con Π (θ | x ) más grandes. Esto conduce a un
intervalo (o región) de la forma:
C = C α ( x ) = {θ : f (θ | x ) ≥ γ }
16
luego el conjunto veraz es igual al de estadística clásica. Pero sus interpretaciones son distintas.
Aproximación bayesiana
La aproximación natural es realizar la prueba bajo las consideraciones en las probabilidades a posteriori
relativas de los valores formulados en las hipótesis. Es decir:
f (θ 1 | x ) f (θ 1 ) f ( x |θ 1 )
λB = =
f (θ 2 | x ) f (θ 0 ) f ( x |θ 0 )
razón de apuestas a posteriori = razón de apuestas a priori x razón de verosimilitud
Si λB asume valores grandes significa que hay preferencia por H 1
17
α1 f (θ 1 | x ) Π1
Definición: la razón = es la razón de apuestas a posteriori de H 1 a H 0 , y es la razón
α0 f (θ 0 | x ) Π0
de apuestas a priori. La cantidad:
f (θ 1 | x )
razon de apuestas a posteriori f (θ 0 | x )
B = =
razon de apuestas a priori f (θ 1 )
f (θ 0 )
f (θ 1 | x ) f (θ 0 ) α1 Π 0 f ( x |θ 1 )
B = = = λ =
f (θ 0 | x ) f (θ 1 ) α 0 Π1 f ( x |θ 0 )
B es una medida del peso de la información que contienen los datos en favor de H 1 sobre H 0 . Si B es
grande, este anula cualquier preferencia a priori por H 0 . La preferencia a posteriori es H 1 .
18
El problema se da en situaciones comparativas, por ejemplo, al comparar los valores de colesterol entre
niños y niñas.
Combinaciones pareadas
Antes de continuar, se debería tomar precauciones contra una posible mala aplicación del modelo. Si
m = n y cada una de las x esta de algún sentido emparejados con las y , es decir que x i e y i deben
estar definidos: w i = x i − y i y entonces investigar los w como una muestra w1 , w 2 ,… , w n ∼ N ( δ , ω ) ,
para algún ω . Esto se conoce como el método de comparaciones pareadas.
El caso cuando las varianzas son conocidas
En el caso del problema de dos muestras, se pueden presentar tres casos:
1. Cuando φ y ψ son conocidos;
2. Cuando se sabe que φ =ψ pero se desconocen sus valores;
3. Cuando φ y ψ son desconocidos.
Ciñéndose al primer caso, ya que esta situación implica menor complejidad cuando las varianzas son
conocidas. Si λ y µ tienen como referencia unas a prioris independientes (constante) Pr ( λ ) = Pr ( µ ) ≈ 1
entonces, como se ha visto anteriormente con varias observaciones normales con una a priori normal, la
φ
distribución a posteriori para λ será N x , y, de forma similar, la distribución a posteriori para µ será
m
ψ
N y , que es independientemente de λ . De lo cual se deduce:
n
φ ψ
δ = λ − µ ∼ Nx−y , +
m n
Información a priori importante
El método se generaliza para este caso cuando la información a priori importante esta disponible. Cuando la
distribución a priori para λ es N (λ 0 , φ 0 ) entonces la distribución a posteriori es:
λ ∼ N ( λ1 , φ 1 )
−1
−1 φ −1
donde: φ 1 = φ 0 + ; y
m
λ0 x
λ1 = φ 1 +
φ0
φ
m
De modo semejante si la distribución a priori para µ es N (µ 0 , ϕ 0 ) y entonces la distribución a posteriori
para µ es N (µ 1 , ϕ 1 ) y donde ϕ 1 y µ 1 están definidos de modo semejante, como sigue:
δ = λ − µ ∼ N ( λ1 − µ 1 , φ 1 +ψ 1 )
y las inferencias se proceden igual que antes.
19
6. Conclusiones
Los procedimientos basados en la distribución en el muestreo son ad hoc para prácticamente cada
aplicación o grupo de aplicaciones con los que se esté trabajando. En contraposición, los procedimientos
bayesianos siempre funcionan de la misma manera; hay que determinar una distribución inicial que recoja la
información que se tenga del problema, construir la distribución final y esta es la que recoge, en forma de
una distribución de probabilidad, la información suministrada por la muestra.
Una crítica que suele hacerse a la aproximación bayesiana es que está influenciada por la distribución
inicial, pero es hoy perfectamente factible examinar el problema con una variedad de distribuciones iniciales,
o bien emplear distribuciones iniciales objetivas, y en todo caso se debe tener en cuenta que para tamaños
muestrales grandes la verosimilitud domina a la distribución inicial por lo que las inferencias se ven poco
afectadas por la distribución inicial. A cambio, los métodos bayesianos siempre tratan la incertidumbre
mediante la probabilidad y la precisión de los mismos se mide siempre en términos de probabilidad.
7. Bibliografía
1. Berger JO. Statistical decision theory and Bayesian analysis. Springer-Verlag: New York, 1985.
2. Bernardo JM. Intrinsic credible regions. An objetcive Bayesian approach to interval estimation. Test
2005;14(2): 317-384 (disponible en http://www.uv.es/~bernardo/2005Test.pdf)
3. Chu J. Bayesian function estimation using overcomplete dictionaries with application in genomics.
Department of Statistical Science. Duke University, 2007 (disponible en www.stat.duke.edu/people/theses/
jenhwa.html)
4. Gunn LH. Bayesian order restricted methods with biomedical applications. Institute of Statistics and
Decision Sciences. Duke University, 2004 (disponible en www.isds.duke.edu/people/theses/laura.ps).
5. House LL. Nonparametric bayesian models in expression proteomic applications. Institute of Statistic and
Decision Sciences. Duke University, 2006 (disponible en: http://www.isds.duke.edu/people/theses/
leanna.pdf)
6. O´Hagan A, Luce BR. A primer on bayesian statistics in health economics and outcomes Research.
MEDTAP International Inc., 2003 (disponible en http://www.shef.ac.uk/content/1/c6/07/15/10/primer.pdf).
7. Rodriguez A. Some advances in Bayesian nonparametric modelling. Institute of Statistic and Decision
Sciences. Duke University, 2007 (disponible en: http://www.stat.duke.edu/people/theses/abel.pdf).
8. Thornburg H. Introduction to bayesian statistics. CCRMA. Stanford University 2006 (disponible en
http://ccrma.stanford.edu/~jos/bayes/bayes.pdf).
9. Yupanqui Pacheco RM: Introducción a la estadística bayesiana. UNMSM. Facultad de Ciencias
Matemáticas. EAP de Estadística, Lima, 2005 (disponible en: http://sisbib.unmsm.edu.pe/
bibvirtualdata/Tesis/Basic/yupanqui_pr/yupanqui_pr.pdf).
10. http://halweb.uc3m.es/esp/Personal/personas/mwiper/docencia/Spanish/Bayesian_Methods/apuntes
.html
20