Introducción A La Inferencia Bayesiana

Capítulo 1
1
1.
2
Capítulo 2
Introducción a la inferencia
bayesiana
2.1. Inferencia clásica y bayesiana
La Inferencia Estadística desarrolla métodos para obtener información acerca de la ley
de probabilidad de un fenómeno aleatorio mediante la observación del mismo.
En la asignatura Estimación I y en el capítulo 1 de Estimación II se ha considerado el
caso en que la distribución teórica, desconocida, es …ja y podemos suponer que pertenece a
cierta familia paramétrica. En estos procedimientos se considera que la distribución teórica,
desconocida, es …ja. Estos métodos se denominan clásicos, y se engloban en la inferencia
clásica, en contraposición a la inferencia bayesiana, que estudiamos en este capítulo.
En el planteamiento bayesiano paramétrico, el estudio estadístico está basado en un
elemento nuevo, una distribución de probabilidad sobre el espacio paramétrico. Se parte de
una distribución inicial sobre el espacio paramétrico, y ésta queda modi…cada añadiéndole
la información proporcionada por la muestra. Ésto se lleva a cabo considerando la distribu-
ción del parámetro condicionada a los valores observados en la muestra. A partir de esta
distribución se realizan las inferencias sobre el parámetro.
La inferencia bayesiana no paramétrica tiene mayor complejidad. La distribución inicial
3
2. Introducción a la inferencia bayesiana
se especi…ca mediante un proceso estocástico cuyas realizaciones son distribuciones de
probabilidad.
Nos ocupamos del caso paramétrico. En muchas ocasiones, se puede admitir que la
distribución teórica tiene una forma funcional …ja y conocida (por ejemplo, es normal),
que depende de un parámetro . El parámetro toma valores en un subconjunto Rk ,
denominado espacio paramétrico.
En inferencia clásica se considera que es …jo y desconocido, y el estudio del valor de
se puede afrontar mediante estimación puntual, estimación por intervalos de con…anza y
contrastes de hipótesis.
En inferencia bayesiana se considera una distribución inicial para el parámetro (sobre el
espacio paramétrico, que es el conjunto de valores que puede tomar), que queda modi…cada
incorporando la información aportada por la muestra. Se puede realizar estimación puntual
del parámetro a partir de esta distribución. Los intervalos de con…anza y contrastes de
hipótesis bayesianos se obtienen de un modo diferente a los del caso clásico, a partir de la
“distribución a posteriori”.
2.2. El enfoque bayesiano, distribución a prori y distribución
a posteriori
En el planteamiento bayesiano, no se considera que exista una única distribución teórica
F , …ja, que es la verdadera distribución que genera los datos del experimento aleatorio,
como en el enfoque clásico. En vez de ello, se considera una distribución de probabilidad
sobre el conjunto de posibles distribuciones teóricas F, que se denomina distribución a
priori. Este nuevo elemento complementa los elementos del planteamiento clásico. Permite
obtener soluciones que en algunas ocasiones coinciden con las obtenidas con el enfoque
clásico y que en otras ocasiones las mejoran.
Nos limitamos a estudiar el caso paramétrico. La distribución a priori está de…nida
sobre el espacio paramétrico y se denota por , y entonces toma valores ( ) para 2 .
Puede ser una función de masa o una función de densidad.
4
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori
La distribución a priori puede ser un elemento intrínseco del problema, como cuando
el experimento aleatorio consiste en extraer bolas de una urna, pero antes de ello la urna
se elige al azar entre varias opciones. La distribución a priori especi…ca el procedimiento
aleatorio de selección de la urna.
En otras ocasiones, la distribución a priori es un arti…cio que permite añadir, a la in-
formación proporcionada por los datos, otra información disponible sobre la distribución
teórica. Por ejemplo, queremos estudiar la longitud media de los tornillos producidos
por una máquina. Por limitaciones físicas de la máquina, sabemos que el valor de está
comprendido entre 70 2 y 70 5 mm. Con un enfoque clásico, esta información no es uti-
lizada para realizar inferencias, y se pierde. Podemos utilizar esta información con un
enfoque bayesiano, considerando una distribución a priori para con soporte en el interva-
lo (70 2; 70 5). Si no tenemos mas información, deberíamos utilizar la distribución uniforme
U (70 2; 70 5) como distribución a priori: U (70 2; 70 5).
Una vez especi…cada la distribución a priori y la distribución de la muestra, el primer
objetivo es la obtención de la “distribución a posteriori”. Para ello se utiliza la fórmula
de Bayes, que da nombre a este planteamiento. Las inferencias se realizan a partir de la
“distribución a posteriori”.
El hecho de que sea aleatorio, determina que la función de masa o densidad de la
muestra f (x1 ; : : : ; xn ) sea una función de masa o densidad condicionada al valor del
parámetro, y entonces se denota por f (x1 ; : : : ; xn = ). Es la misma función para los casos
clásico y bayesiano, pero ahora, además de la notación, la interpretación es diferente, es
una distribución condicionada.
La función de masa o densidad marginal de la muestra se denomina distribución pre-
dictiva. Se denota por m y viene dada por

Z
m (x1 ; : : : ; xn ) = ( ) f (x1 ; : : : ; xn = ) d . (2.1)
Frecuentemente ( ) es una función de densidad. Si es …nito o numerable, entonces ( )
es una función de masa, y se reemplaza la integral por una suma.
La información disponible inicialmente sobre viene dada por la distribución a priori
5
( ). Una vez observada la muestra x1 ; : : : ; xn , podemos incorporar la información pro-
porcionada por estos datos utilizando la distribución a posteriori ( =x1 ; : : : ; xn ). Es la
distribución del parámetro condicionada a la muestra X1 = x1 ; : : : ; Xn = xn , y viene
dada por
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) = . (2.2)
m (x1 ; : : : ; xn )
Obsérvese que el denominador no depende de . Es el valor por el que hay que dividir la
función de del numerador, ( ) f (x1 ; : : : ; xn = ), que hace que ( =x1 ; : : : ; xn ) sea una
función de densidad:
Z Z
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) d = d (2.3)
m (x1 ; : : : ; xn )
Z
1
= ( ) f (x1 ; : : : ; xn = ) d (2.4)
m (x1 ; : : : ; xn )
1
= m (x1 ; : : : ; xn ) = 1 . (2.5)
m (x1 ; : : : ; xn )
Si ( =x1 ; : : : ; xn ) es una función de densidad conocida, es inmediato obtenerla a partir
del numerador ( ) f (x1 ; : : : ; xn = ). Si este numerador multiplicado por una constante
(que no depende de ) es una función de densidad conocida, entonces ( =x1 ; : : : ; xn ) es

1
justamente esta densidad conocida y la constante es justamente m(x1 ;:::;xn ) .
Para evitar tener que escribir repetidamente x1 ; : : : ; xn , condicionando en la distribu-
ción a posteriori, podemos expresarlo vectorialmente, llamando x a x1 ; : : : ; xn . Por ejemplo,
podemos expresar ( =x1 ; : : : ; xn ) como ( =x) y f (x1 ; : : : ; xn = ) como f (x= ). Cuando
se escriba a mano, particularmente en los exámenes, debe escribirse x como !

x , con una
‡echa encima. Aquí se ha preferido la negrita por simplicidad, pero la negrita escrita a
mano podría dar lugar a ambigüedad.
Ejemplo 1. Se desea estudiar para una distribución de Bernoulli, con = (0; 1). No
se dispone de ninguna información sobre , y entonces es conveniente utilizar la distribu-
ción uniforme sobre , la U (0; 1), como distribución a priori. Se ha observado la muestra
x1 ; : : : ; xn . Determina la distribución a posteriori.
Solución: Se tiene que U (0; 1), y entonces
( ) = 1 si 0 < < 1 (y ( ) = 0 en otro caso). (2.6)
6
Se tiene que
f (x1 ; : : : ; xn = ) = t
(1 )n t
(2.7)
n
X
con x1 ; : : : ; xn = 0; 1 , y t = xi = nx , (2.8)
i=1
y entonces
( ) f (x= ) t (1 )n t
( =x) = = si 0 < <1. (2.9)
m (x) m (x)
1 1
La función de densidad de la Beta ( ; ) es g ; (z) = z Be( (1 z)
; ) si 0 < z < 1, con
( ) ( ) t n t
Be ( ; ) = . Obsérvese que gt+1;n t+1 ( ) = (1 )
Be( ; ) . La única posible difer-
( + )
encia entre las funciones de densidad ( =x) y gt+1;n t+1 ( ) son los denominadores, que no
dependen de , y entonces deben ser iguales, ya que en caso contrario no podríán ser ambas
función de densidad. Entonces, ( =x) = gt+1;n t+1 ( ) , que es la función de densidad de
una Beta (t + 1; n t + 1), y por tanto la distribución a posteriori es
( =x) Beta (t + 1; n t + 1) . (2.10)
Si ( ) es constante (distribución a priori uniforme), como en el ejemplo 1, entonces la
moda a posteriori coincide con el estimador, clásico, de máxima verosimilitud (Estimación
I), como explicamos a continuación. La moda a posteriori (la moda de la distribución a
posteriori) es el valor de que maximiza ( =x) (véase 2.2). Puesto que ni m (x) depende
de ni ( ) tampoco en este caso uniforme, entonces el valor de que maximiza ( =x) es
el valor de que maximiza f (x= ). Este valor de es justamente el estimador de máxima
verosimilitud.
Las inferencias sobre se realizan en función de la distribución a posteriori (o dis-
tribución posterior) ( =x). Por ejemplo, la moda de ( =x) proporciona una estimación
puntual para .
En el ejemplo 1 la distribución a priori es U (0; 1), que es una Beta (1; 1). En el siguiente
ejemplo consideramos una distribución teórica de Bernoulli, como en el ejemplo 1, y como
distribución a priori la Beta ( ; ) para cualesquiera valores ; > 0.
7
Ejemplo 2. Se desea estudiar para una distribución de Bernoulli, con = (0; 1). Se
considera la distribución a priori ( ) Beta ( ; ). Se ha observado la muestra x1 ; : : : ; xn .
Determina la distribución a posteriori.
Solución: Se tiene que

1 (1 ) 1
( )= si 0 < < 1, y (2.11)
Be ( ; )
n
X
t n t
f (x1 ; : : : ; xn = ) = (1 ) con t = xi , (2.12)
i=1
y entonces
1 (1 ) 1
( ) f (x= ) Be( ; )
t (1 )n t
( =x) = = (2.13)
m (x) m (x)
+t 1 (1 ) +n t 1
= si 0 < <1. (2.14)
Be ( ; ) m (x)
Obsérvese que ésta es la función de densidad de una Beta ( + t; +n t), salvo cons-
tantes multiplicativas, y entonces la distribución a posteriori es
( =x) Beta ( + t; +n t) . (2.15)
La esperanza de la distribución Beta ( ; ) es + , y la varianza es ( + )2 ( + +1)

.
Llamemos y 2 a la esperanza y varianza de la distribución a priori del ejemplo anterior,

0 0
la Beta ( ; ), y y 2 a las de la distribución a posteriori, la Beta ( + t; +n t), que

1 1
son:
+t
1 = , (2.16)
+ +n
2 ( + t) ( + n t)
1 = . (2.17)
( + + n)2 ( + + n + 1)
Obsérvese que si n = 0 (y por tanto t = 0) se tiene que 1 = 0 y 1 = 0, lo cual re‡eja el
hecho de que para una muestra de tamaño n = 0 la distribución a posteriori coincide con
la distribución a priori.
En sentido contrario, la in‡uencia de la distribución a priori en la distribución a pos-
teriori tiende a desaparecer cuando el tamaño de muestra es grande. En este caso, la
8
información proporcionada por la muestra se impone sobre la información proporcionada
por la distribución a priori. Veamos cómo se re‡eja este hecho en el valor de la esperanza
y varianza a posteriori del ejemplo 2, en (2.16) y (2.17). Se tiene que
=n + t=n =n + x
1 = = y (2.18)
=n + =n + n=n =n + =n + 1
2 ( + t) ( + n t) =n3 ( =n + x) ( =n + 1 x) =n
1 = 2 = .
( + + n) ( + + n + 1) =n 3 ( =n + =n + 1)2 ( =n + =n + 1 + 1=n)
Obsérvese que en las expresiones obtenidas todos los valores y que intervienen, que son
los parámetros de la distribución a priori, están divididos por n. Entonces, para n grande,
se tiene que
2
1 'x y 1 ' x (1 x) =n . (2.19)
Para n grande también se tiene que la varianza a posteriori 2 es pequeña. Entonces, la

1
distribución posterior ( =x), que nos informa sobre , toma valores alrededor de 1 ' x,
y con poca dispersión.
Este resultado asintótico, donde la aportación de la distribución a priori se diluye, es
coherente con el análisis clásico, para el que hay que estimar el parámetro de la Bernoulli
(1 ) x(1 x)
que estamos considerando mediante X, con error cuadrático medio n ' n . Se tiene
además que 2 n!1

1 ! 0. Cuanto menor sea su dispersión, mas informativa es la distribución
a posteriori.
Cuando n no es grande, la aportación de la distribución a priori ( ) sí tiene impor-
tancia. Véase por ejemplo (2.16) y (2.17), dónde la aportación de los valores y de la
distribución a priori no debe desprecirse si no son pequeños, respecto de n.
Los factores que intervienen en la expresión de ( =x) que no dependen de , forman
parte de la constante multiplicativa que hacen que sea una función de masa o densidad
1
( Be( ; )m(x) en (2.14)). Es habitual omitir estas constantes en los cálculos para obtener
( =x), y para ello se utiliza la notación “/”, que indica que dos funciones son iguales
salvo factores que no dependen del argumento de las funciones, o lo que es lo mismo, que
el cociente de las funciones no depende del argumento. De este modo, podemos expresar
9
la igualdad en (2.14) del siguiente modo

+t 1 (1 ) +n t 1
( =x) = (2.20)
Be ( ; ) m (x)
+t 1 +n t 1
/ (1 ) , (2.21)
que permite también identi…car la función de densidad ( =x), con argumento , como
una Beta ( + t; +n t), puesto que la expresión en (2.21) es la función de densidad de
esa beta salvo constantes multiplicativas.
Ejemplo 3. Se desea estudiar para una distribución normal N ( ; ) con conocida, con
= R. Se considera para la distribución a priori N ( 0; 0 ). Se ha observado la muestra
x1 ; : : : ; xn . Determina la distribución a posteriori.
Solución: Se tiene que
1 2
( )= p 1 exp ( 0) si 1< < 1, y (2.22)
2 0 2 2
0
n=2 1 Pn
f (x1 ; : : : ; xn = ) = (2 ) n
exp 2 i=1 (xi )2 , (2.23)
2
y entonces
( ) f (x= )
( =x) = (2.24)
m (x)
n o n Pn o
2 n=2
p
2
1
exp 2
1
2 ( 0) (2 ) n exp
2
1
2 i=1 (xi )2
0 0
=
m (x)
1 2 1 Pn
/ exp 2 ( 0) exp 2 i=1 (xi )2 (2.25)
2 0 2
1 2 2 1 Pn 2 2
= exp 2 + 0 2 0 exp 2 i=1 xi +n 2n x
2 0 2
1 2 1 2
= exp 2 0 exp 2 2 0 (2.26)
2 0 2 0
1 Pn 2 1 2
exp 2 i=1 xi exp 2
n 2n x (2.27)
2 2
1 2 1 2
/ exp 2 2 0 exp 2
n 2n x (2.28)
2 0 2
1 1 n 2 0 x
= exp 2 2 + 2
+ 2 +n 2
. (2.29)
0 0
Multiplicando por una constante adecuada para completar el cuadrado, a continuación, se
obtiene que ( =x) es normal. Se tiene que a ( b)2 = a 2 2ab + ab2 . Igualando el
10
exponente en (2.29) a los términos en 2 y en a ( b)2 , se obtiene
1 1 n
2 2 + 2
=a, (2.30)
0
0 x
2 +n 2
= 2ab . (2.31)
0
Despejando, se obtiene
0 x
2 + 2 n 2+ nx 2 2 n 02
0 0 0
b= 1 n = 2+n 2
= 2 2 0+ 2+n 2x . (2.32)
2 + 2 0 +n 0 0
0
Entonces, con estos valores de a y b se obtiene, teniendo en cuenta que exp ab2 no
depende de ,
1 1 n 2 0 x
( =x) / exp 2 2 + 2
+ 2 +n 2
(2.33)
0 0
2
= exp a 2ab (2.34)
2
/ exp a 2ab exp ab2 (2.35)
n o
= exp a 2
2ab + ab2 = exp a ( b)2 (2.36)
1 2
= exp 2 ( 1) , (2.37)
2 1
2 1
con 1 =by 1 = 2a , esto es,
2 n 02
1 = 0+ 2x y (2.38)
+ n 02 2 2+n
0
1 1 n
2 = 2 + 2 . (2.39)
1 0
Por tanto, ( =x) es la función de densidad de una N ( 1; 1 ), salvo constantes multi-
plicativas. Entonces, puesto que ( =x) es una función de densidad, debe ser la función de
densidad de la N ( 1; 1 ), obteniéndose que la distribución a posteriori es
( =x) N( 1; 1) , (2.40)
con 1 y 1 dados en (2.38) y (2.39).
Obsérvese que en este ejemplo, si n = 0 se tiene que 1 = 0 y 1 = 0 (véase
(2.38) y (2.39)), puesto que no hay una muestra que aporte información que modi…que la
distribución a priori.
11
Para n grande se tiene que
2 2
0
1 = 0 + 2x 'x, (2.41)
2 + n 02 2 =n + 0
1 2 2 2 =n 2
2 0
1 = 1 = = ' (2.42)
+ n2 2
2 2
2 +n 0 2 +1 n
0 n 0
(en este caso, la varianza posterior no depende de la muestra, solo del tamaño). Estas
aproximaciones para n grande, donde la aportación de la distribución a priori tiende a
desaparecer, es coherente con el análisis clásico, para el que hay que estimar el parámetro
2
de la N ( ; ) que estamos considerando mediante X, con error cuadrático medio n .
Cuando n no es grande, la aportación de la distribución a priori ( ) sí tiene importan-
cia. En (2.38) se expresa la esperanza posterior 1 como una combinación lineal convexa
de 0, la esperanza prior (esto es, a priori) y x, la media muestral. La mejor manera de
comparar los pesos en la combinación lineal es considerando el cociente, que vale n 2 2

0= .
Por ejemplo, los pesos son iguales, valen 1=2, si n 2 2 2= 2.

0= = 1, esto es, si n = 0
2.3. Familas conjugadas de distribuciones
Cuando las distribuciones prior y posterior pertenecen a la misma familia paramétrica,
se dice que esta familia es conjugada de la distribución teórica que se esté considerando.
De este modo, por el ejemplo 2 se tiene que la familia Beta es conjugada de la familia de
Bernoulli, y por el ejemplo 3 se tiene que la Normal es conjugada de la Normal.
Para una distribución teórica dada, el hecho de que una distribución a priori sea conju-
gada de ella no es un motivo para elegirla. Sin embargo, en algunos casos una distribución
conjugada es adecuada, como ocurre con la elección que hemos hecho en los ejemplos
anteriores.
Por ejemplo, la distribución beta es muy adecuada como distribución a priori para
el parámetro de una Bernoulli. Con una elección adecuada de parámetros se consigue
concentrar la probabilidad a priori donde se quiera, y con una dispersión también a elección.
12
2.3 Familas conjugadas de distribuciones
Por ejemplo, si creemos que una moneda debería estar casi equilibrada, y tomamos
como distribución a priori para la Beta ( ; ), como en el ejemplo 2, podemos elegir
los parámetros de modo que sea 0 = 1=2. Ésto se consigue tomando = . Además,
podemos elegir este valor común de modo que 0 tome un valor especi…cado. Si pensamos
que la verdadera probabilidad de éxito no debería alejarse mucho de 1=2, tomaremos 0
pequeño, y si no creemos que sea así tomaremos 0 mas grande.
Ejemplo 4. Para ( ) Beta ( ; ), determina los valores y adecuados para que sea
0 = 1=2 y 0 = 00 1.
Solución: 0 y 0 son, como siempre en este capítulo, la esperanza y la desviación
típica de ( ). Resolvemos el sistema con las ecuaciones = 1=2 y 2 = 00 12 expresadas

0 0
en función de y :
1
0 = = =) + = 2 =) = (2.43)
+ 2
2 1
2
0 = 2 = 2 = = 00 12 =) (2.44)
( + ) ( + + 1) (2 ) (2 + 1) 4 (2 + 1)
1 1
= 2 = 12 . (2.45)
8 0 2
Hay que tomar = = 12.
Ejemplo 5. Consideremos una distribución teórica con función de densidad
1
f (x= ) = (1 + x) para x > 0 , (2.46)
siendo un parámetro positivo. Comprueba que la distribución gamma es conjugada de
esta distribución teórica. Determina la distribución a posteriori para una distribución a
priori Exp ( ).
Solución: Se tiene que = (0; 1). La función de densidad de la m.a.s. y la función
de densidad a priori de (p; a) son

n
! 1
Y
n
f (x1 ; : : : ; xn = ) = (1 + xi ) para x1 ; : : : ; xn > 0 , y (2.47)
i=1
ap p 1 a
( )= e para >0. (2.48)
(p)
13
Para el cálculo de ( =x) identi…camos los factores que dependen de en el producto
( ) f (x= ) (utilizamos la notación /, que indica que las dos funciones conectadas con el
símbolo son iguales salvo factores que no dependen de ). En primer lugar, obsérvese que
n
! 1
Y Yn Yn 1
(1 + xi ) = (1 + xi ) (1 + xi ) (2.49)
i=1 i=1
i=1
Yn n Xn o
/ (1 + xi ) = exp log (1 + xi ) . (2.50)
i=1 i=1
Se tiene que
n
! 1
Y
p 1 a n
( =x) / ( ) f (x= ) / e (1 + xi ) (2.51)
i=1
n Xn o
p 1 a n
/ e exp log (1 + xi ) (2.52)
i=1
n h Xn io
p+n 1
= exp a+ log (1 + xi ) . (2.53)
i=1
Pn
Obsérvese que ésta es la función de densidad de una (p + n; a + t), con t = i=1 log (1 + xi ),
salvo constantes multiplicativas, y entonces la distribución a posteriori es
( =x) (p + n; a + t) . (2.54)
Por tanto, la gamma es conjugada de la distribución teórica considerada.
Puesto que la Exp ( ) es una (1; ), si ( ) Exp ( ) se tiene que
( =x) (n + 1; t + ) . (2.55)
Ejercicio: comprueba que
0 t 02 n
1 = 2 0 + 2 , (2.56)
0+t 0 0+t 0 t
siendo 2 2
0, 0, 1 y 1 las esperanzas y varianzas a priori y a posteriori, respectivamente.
Cuando la distribución prior no es conjugada de la distribución teórica, puede ocurrir
que la distribución posterior sea poco manejable. En este caso, el uso del ordenador es muy
útil para realizar cálculos numéricos para la distribución posterior.
14
2.4 Distribuciones a priori no informativas
2.4. Distribuciones a priori no informativas
La información que se incluye en el problema mediante la distribución a priori suele ser
subjetiva. En el apartado anterior comentábamos de qué manera se puede incluir la infor-
mación de que una moneda debería estar casi equilibrada, en el estudio de la probabilidad
de obtener cara.
Se puede utilizar la experiencia de una persona en el campo de trabajo donde se esté
realizando el estudio estadístico. Se puede incluir su opinión a traves de la distribución a
priori.
En algunos casos, también se puede considerar una distribución a priori que no contenga
información.
Si es acotado, entonces la distribución uniforme en es no informativa. La función
de densidad es constante, y entonces la probabilidad de un intervalo en es proporcional
a la amplitud del intervalo. No hay zonas con mayor densidad de probabilidad que otras.
En el ejemplo 1 considerábamos una distribución a priori uniforme, en = (0; 1).
Si es un intervalo no acotado, entonces no existe la distribución uniforme en : para
cualquier constante positiva c, la función constante ( ) = c tiene integral sobre que vale
1, y por tanto no puede valer 1. En un intento de acercarnos a una distribución que no
concentre mayor probabilidad en unas zonas que en otras, podemos repartir la probabilidad
en un rango amplio de valores. Comentamos como llevar a cabo ésto en el ejemplo 3.
En el ejemplo 3 se estudia el parámetro para una distribución teórica N ( ; ) con
conocida, con distribución a priori N ( 0; 0 ). Cuanto mayor es 0, menos informativa es
la N ( 0; 0 ). Comprobamos cual es el efecto en la distribución a posteriori. Se obtuvo que
( =x) N( 1; 1 ), con
2 2 2 1
0
1 = 0 + 2x = 0 + x,y (2.57)
2 + n 02 2 =n + 0
2 +n 2
0
2= n 02 + 1
2 1
1 = 1 . (2.58)
2 + n2
0
Tomando el límite cuando ! 1, se obtiene que para grande 'xy 2 ' 2 =n, y
0 0 1 1
entonces estos momentos a posteriori tienden a no depender de 0 ni de 0 para 0 grande.
15
En ocasiones, se utiliza el arti…cio de utilizar formalmente una función no negativa ( )

R
con ( ) d = 1, como si fuera una función de densidad a priori. A una tal función
( ) la denominamos función de densidad impropia.
En particular, ésto permite considerar lo que sería una “distribución uniforme” sobre
cuando es no acotado; por ejemplo, para el caso normal que acabamos de comentar. En
el cálculo de ( =x), el elemento ( ) = c se cancela en el numerador con el denominador:
( ) f (x= ) c f (x= )
( =x) = R = R (2.59)
( ) f (x= ) d c f (x= ) d
f (x= )
=R . (2.60)
f (x= ) d
Obsérvese que aunque ( ) no sea una función de densidad, ( =x) sí lo es:

Z Z
f (x= )
( =x) d = R (2.61)
f (x= ) d
Z
1
= R f (x= ) d = 1 . (2.62)
f (x= ) d
La utilización de tal ( ) es formalmente válida porque, aunque no sea función de densidad,
se puede operar con ella para el cálculo de ( =x), obteniéndose una función de densidad.
Ejemplo 6. Se desea estudiar para una distribución normal N ( ; ) con conocida,
con = R. Se considera a priori para la función de densidad impropia ( ) = 1. Se ha
observado la muestra x1 ; : : : ; xn . Determina la distribución a posteriori.
Solución: Por (2.59, 2.60) se tiene que ( =x) / f (x= ). Operando, se obtiene
1 Pn
( =x) / f (x= ) / exp 2 i=1 (xi )2 (2.63)
2
1 Pn 2 2
= exp 2 i=1 xi +n 2n x
2
1 Pn 2 1 2
= exp 2 i=1 xi exp 2
n 2n x (2.64)
2 2
1 2
/ exp 2
n 2n x (2.65)
2
1 n 2 x
= exp 2 2
+n 2
. (2.66)
Entonces, la función de densidad ( =x) tiene una estructura como la del ejemplo 3:
depende del argumento a través de la exponencial de un polinomio de segundo grado.
16
2.4 Distribuciones a priori no informativas
Razonamos como en el ejemplo 3 para obtener que la distribución a posteriori es normal,
calculando también los parámetros. Para completar el cuadrado, consideramos la igualdad
a( b)2 = a 2 2ab + ab2 , planteamos las ecuaciones
1 n x
2 2
=a , n 2
= 2ab , (2.67)
y despejamos, obteniendo b = x. Entonces, con estos valores de a y b se obtiene,
1 n 2 x 2
( =x) / exp 2 2
+n 2
= exp a 2ab (2.68)
/ exp a 2 2ab exp ab2 = exp a 2 2ab + ab2 (2.69)

n o n o
1 n
= exp a ( b)2 = exp 2 2 ( x)2
(2.70)
1
= exp 2 =n)
( x)2 para 1< <1. (2.71)
2 (
Recuérdese que aquí el argumento es , y el resto de elementos son constantes: 2 es
conocida y x es función de la realización muestral x1 ; : : : ; xn . La densidad normal N ( 1; 1)
tiene esta estructura, con =xy 2 = 2 =n, y entonces

1 1
( =x) N x; p . (2.72)
n
Recuérdese que en inferencia clásica el parámetro (considerado …jo y desconocido) se
estima mediante X, que tiene distribución N ; pn . En el análisis bayesiano que hemos
realizado en este ejemplo, con distribución a priori no informativa, se obtiene una conclusión
similar, pero con diferente interpretación. La conclusión en ambos casos es que la media
muestral menos tiene distribución N 0; pn , pero en el enfoque clásico es …jo y X es
la variable aleatoria:
X N 0; p . (2.73)
n
En el enfoque bayesiano se considera una muestra …ja x1 ; : : : ; xn y es la variable aleatoria:
( x=x1 ; : : : ; xn ) N 0; p . (2.74)
n
Como vemos, el hecho de poder ignorar las constantes multiplicativas simpli…ca las
operaciones, puesto que no hay que calcular integrales. Además, simpli…ca también las
expresiones al omitir estas constantes.
17
2.5. Actualización de la distribución a priori con muestras
sucesivas
Después de actualizar la distribución a priori ( ) incorporando la información pro-
porcionada por la muestra x1 ; : : : ; xn , mediante la obtención de la distribución a posteriori
( =x1 ; : : : ; xn ), podemos repetir el proceso.
La información actual sobre el parámetro después del muestreo viene dada por la dis-
tribución a posteriori ( =x), y ésta se convierte en la nueva distribución a priori, que
incorpora toda la información disponible sobre . Si se obtiene una nueva m.a.s, de tamaño
k, xn+1 ; : : : ; xn+k , independiente de la muestra anterior x1 ; : : : ; xn , podemos incorporar la
nueva información obtenida. Simplemente, consideramos a ( =x1 ; : : : ; xn ) como distribu-
ción a priori, que es la información actual sobre , y aplicamos la fórmula para calcular la
distribución a posteriori.
Si partimos de ( ) y consideramos las dos muestras como una única muestra, la
distribución ( =x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k ) debe coincidir con la distribución descrita en
el párrafo anterior. Lo comprobamos.
Partimos de una distribución a priori ( ), obtenemos una muestra x1 ; : : : ; xn , y cal-
culamos la distribución a posteriori ( =x1 ; : : : ; xn ):
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) = / ( ) f (x1 ; : : : ; xn = ) . (2.75)
m (x1 ; : : : ; xn )
Ahora obtenemos una nueva muestra xn+1 ; : : : ; xn+k independiente de la muestra anterior
(para cada valor de ). Se tiene que
f (x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k = ) = f (x1 ; : : : ; xn = ) f (xn+1 ; : : : ; xn+k = ) . (2.76)
Denotamos por
( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) (2.77)
a la distribución a posteriori para la muestra xn+1 ; : : : ; xn+k considerando ( =x1 ; : : : ; xn )
18
2.5 Actualización de la distribución a priori con muestras sucesivas
como distribución a priori. Comprobamos que coincide con ( =x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k ).
( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) / ( =x1 ; : : : ; xn ) f (xn+1 ; : : : ; xn+k = ; x1 ; : : : ; xn )
= ( =x1 ; : : : ; xn ) f (xn+1 ; : : : ; xn+k = ) (2.78)
/ ( ) f (x1 ; : : : ; xn = ) f (xn+1 ; : : : ; xn+k = ) (2.79)
= ( ) f (x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k = ) (2.80)
= ( =x1 ; : : : ; xn+k ) (2.81)
Puesto que tanto ( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) como ( =x1 ; : : : ; xn+k ) son funciones
de densidad (la integral vale 1), se tiene que
( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) = ( =x1 ; : : : ; xn+k ) . (2.82)
Ejemplo 7. Consideremos una distribución teórica de Bernoulli, B (1; ), y una distribu-
ción a priori ( ) Beta ( ; ). Se obtuvo en primer lugar una muestra x1 ; : : : ; xn , con

Pn Pn+k
i=1 xi = t1 , y después otra muestra xn+1 ; : : : ; xn+k , con i=n+1 xi = t2 . Comprueba en
este caso particular lo que acabamos de comprobar en general: que es indiferente obtener
la distribución a posteriori considerando la muestra formada por la reunión de las dos, u
obtenerla incorporando primero la información de una muestra y luego la de la otra.
Solución: Por el ejemplo 2, página 8, se tiene que
( =x1 ; : : : ; xn ) Beta ( + t1 ; +n t1 ) . (2.83)
Entonces,
( =x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k ) Beta ( + (t1 + t2 ) ; + (n + k) (t1 + t2 )) . (2.84)
Por otra parte, ( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) Beta (( + t1 ) + t2 ; ( + n t1 ) + k t2 ),
esto es
( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) Beta ( + t1 + t2 ; +n+k t1 t2 ) (2.85)
19
2.6. Estimación puntual bayesiana
El estimador bayesiano es la distribución a posteriori. A partir de ella se pueden intro-
ducir procedimientos análogos a los de la inferencia clásica. Podemos considerar un valor
destacado de esta distribución como estimación puntual, una región de alta probabilidad
para obtener un intervalo de con…anza, y las probabilidades de las hipótesis para realizar
un contraste.
Estudiamos en este apartado la estimación puntual bayesiana.
En primer lugar, hacemos un breve comentario sobre la noción de su…ciencia bayesiana.
La idea es la misma que en el análisis clásico. Un estadístico es su…ciente si incluye toda
la información que aporta la muestra sobre el parámetro. Pero en el análisis bayesiano se
formula de una manera diferente: el estadístico T = T (x1 ; : : : ; xn ) es su…ciente si se tiene
que ( =x1 ; : : : ; xn ) = ( =t), con t = T (x1 ; : : : ; xn ), para cualquier distribución a priori
( ).
Mediante el uso adecuado de probabilidades condicionadas, se demuestra que los es-
tadísticos su…cientes bayesianos son los mismos que los estadísticos su…cientes clásicos,
estudiados en la asignatura Estimación I. No presentamos aquí la demostración.
Como estimación puntual, podemos considerar algún parámetro de centralización de
la distribución ( =x). Los principales parámetros de centralización (también llamados de
posición o de localización) de una distribución de probabilidad son la esperanza, la mediana
y la moda.
Para ( ) constante (esto es, no informativa, propia o impropia) la moda a posteriori
coincide con el estimador clásico de máxima verosimilitud. Ya se comprobó después del
ejemplo 1, página 6, con distribución a priori propia. En el caso impropio el razonamiento
es el mismo: se tiene que
( =x) / ( ) f (x= ) / f (x= ) ; (2.86)
obsérvese que f (x= ) = L ( ) es la función de verosimilitud, puesto que la variable es
, y la muestra es …ja; entonces, la moda a posteriori, que es el valor de que maximiza
20
2.6 Estimación puntual bayesiana
( =x), coincide con el valor de que maximiza L ( ), que es la estimación de máxima
verosimilitud.
En lugar de la moda, se suelen utilizar la esperanza (principalmente) y la mediana,
puesto que cumplen propiedades de optimalidad, como comentamos a continuación.
Consideremos un estimador puntual T y una función de perdida L (t; ), siendo t la
estimación puntual t = T (x1 ; : : : ; xn ) de con la muestra (x1 ; : : : ; xn ). El valor de t es
…jo y la distribución a priori para es ( ). Se de…ne la perdida …nal esperada como la
esperanza de L (t; ) para la distribución a posteriori:
P F E(T ) = E [L (t; ) =x1 ; : : : ; xn ] . (2.87)
Es conveniente identi…car y utilizar estimadores con pérdida …nal esperada mínima.
Consideremos la función de pérdida cuadrática L (t; ) = ( t)2 . En este caso,

h i
PFE = E ( t)2 =x1 ; : : : ; xn . (2.88)
h i
Para una variable aleatoria cualquiera Z, se tiene que la expresión E (Z t)2 se min-
imiza con t = E [Z]. Entonces, la P F E en (2.88) se minimiza tomando t = E [ =x] =
E [ =x1 ; : : : ; xn ], la esperanza de la distribución a posteriori ( =x), que estamos llamando
1 en este capítulo. (Téngase en cuenta que 0 es la esperanza a priori de la v.a. y 1
es la esperanza a posteriori, que son distintas de la esperanza de la distribución teórica
= E [Xi ]). Ésto determina el estimador puntual
T (x) = E [ =x] = 1 , (2.89)
que se denomina estimador bayesiano o estimador Bayes. Su P F E vale

h i
PFE = E ( E [ =x])2 =x = V [ =x] , (2.90)
h i
2 2
esto es, P F E = E ( 1 ) =x = 1, que es la varianza de la distribución a posteriori
( =x).
Ejemplo 8. La proporción de enfermos en una determinada colectividad puede ser
modelizada mediante una variable aleatoria con distribución beta. De estudios previos,
21
puede suponerse que Beta (5; 10) (con 0 = 1=3 y 0 = 00 118). En una muestra de
100 individuos hay 20 enfermos. Determina la estimación bayesiana de y la pérdida …nal
esperada. Considera el estimador clásico centrado adecuado, determina su ECM , y realiza
la estimación con este estimador.

P
Solución: La distribución teórica es de Bernoulli, y se ha observado xi = 20, con
n = 100. Por el ejemplo 2, página 8, se tiene que
( =x) Beta (25; 90) (2.91)
( + t = 5 + 20 y +n t = 10 + 100 20). Entonces, la estimación bayesiana es
b = E [ =x] = E [Beta (25; 90)] = 25 5

= = 00 217 = 1 , (2.92)
25 + 90 23
con pérdida …nal esperada
P F E = V [ =x] = V [Beta (25; 90)] (2.93)

25 90
= 2 = 00 00147 = 2
1 . (2.94)
(25 + 90) (25 + 90 + 1)
El estimador clásico centrado adecuado es el estimador centrado de uniformemente
mínima varianza (es el estimador centrado óptimo, considerando pérdida cuadrática). Este
estimador del parámetro es X para la distribución teórica de Bernoulli que estamos
considerando y, por otra parte, coincide con el estimador de máxima verosimilitud y con
el obtenido por el método de los momentos. La estimación vale
e = x = 20 = 00 2 , (2.95)
100
y el ECM del estimador vale

h i (1 ) x (1 x)
2
ECM = E X =V X = ' = 00 00162 . (2.96)
n n 1
La aproximación se ha obtenido estimando 2 = V [Xi ] = (1 ) mediante la cuasivari-
anza muestral S 2 (el estimador clásico, puesto que hablamos de ECM ), y que en el caso
n
de distribución teórica de Bernoulli se simpli…ca, obteniéndose S 2 = n 1 x (1 x).
La muestra aporta información sobre el parámetro, sobre el que se disminuye la incer-
tidumbre, lo que hace que disminuya la varianza de su distribución (al pasar de prior a
p
posterior): 1 = 0;00147 = 00 0383 < 00 118 = 0 .
22
2.6 Estimación puntual bayesiana
La estimación (clásica) e = x = 00 2 solo depende de la muestra. La estimación bayesiana

b = E [ =x] = 00 217 depende de la muestra y de la distribución a priori, y toma un valor
comprendido entre 0 = 1=3 y x.
Aunque el ECM y la P F E no tienen una correspondencia directa, en este ejemplo el
hecho de sea P F E < ECM (00 00147 < 00 00162) re‡eja la mejora en precisión que supone
la utilización de la información a priori.
Ejemplo 9. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica B (1; ),
y una distribución a priori Beta ( ; ). Determina el estimador Bayes. ¿Cual es el
estimador para una distribución a priori U (0; 1)?
( =x) Beta ( + t; +n t) , (2.97)
y entonces la estimación Bayes es
b = E [ =x] = E [Beta ( + t; +t
+n t)] = . (2.98)
+ +n
Puesto que la U (0; 1) es la Beta (1; 1), se tiene con esta distribución a priori que
b = t + 1 = x + 1=n . (2.99)
n+2 1 + 2=n
Este estimador es distinto del estimador clásico x, aunque para n grande toman valores
cercanos.
Ejemplo 10. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica N ( ; )
con conocida, y una distribución a priori N( 0; 0 ). Determina el estimador bayesiano.

2 n 02
b = E [ =x] = = +
1 2 +n 2 0 2+n 2x . (2.100)
0 0
23
Ejemplo 11. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica N ( ; )
con conocida, y una distribución a priori no informativa. Determina el estimador bayesiano
y la P F E. Compáralo con el estimador clásico y su ECM .
( =x) N x; p . (2.101)
n
Entonces, la estimación bayesiana es
p
b = E [ =x] = E N x; = n =x, (2.102)
y la P F E es
p 2
P F E = V [ =x] = V N x; = n = =n . (2.103)
p
El estimador clásico adecuado es X, que es centrado para , con distribución N ( ; = n),
y tiene entonces error cuadrático medio ECM = V X = 2 =n. Se observa que el ECM
de X coincide con la P F E de x, considerado como estimador bayesiano con distribución a
priori no informativa.
En todos los ejemplos estamos considerando una distribución a priori de una familia
paramétrica, y suponemos que los valores de sus parámetros están dados. Se han ofrecido
algunas indicaciones sobre la elección del valor de los parámetros. Existen distintas técnicas
para la elección de estos valores, que no estudiamos.
El análisis para una distribución teórica normal con ambos parámetros desconocidos
involucra una distribución a priori bidimensional. No estudiamos este caso.
Considerando la pérdida absoluta L (t; ) = j tj, se obtiene que el estimador con
pérdida …nal esperada mínima es la mediana de ( =x).
2.7. Intervalos de con…anza bayesianos
Recordamos la noción de intervalo de con…anza para en inferencia clásica, con dis-
tribución teórica continua. Sean T1 = T1 (X1 ; : : : ; Xn ) y T2 = T2 (X1 ; : : : ; Xn ) estadísticos
24
2.7 Intervalos de con…anza bayesianos
unidimensionales tales que
P fT1 < < T2 g = 1 para todo . (2.104)
Dada una realización muestral x = (x1 ; : : : ; xn ), al intervalo numérico
(T1 (x) , T2 (x))
se le denomina intervalo de con…anza (IC) para con nivel de con…anza 1 . Una vez
observada la muestra x1 ; : : : ; xn , el intervalo obtenido puede incluir o no el verdadero valor
de , considerado …jo y desconocido, y medimos el grado de con…anza en que lo incluya
mediante el nivel de con…anza.
Un error común del principiante en el estudio de los IC es entender el nivel de con…anza
como la probabilidad de que el intervalo incluya el verdadero valor de . Ésto no tiene
sentido porque el valor de es …jo, constante, y no una variable aleatoria. Sin embargo, sí
tiene sentido desde un punto de vista bayesiano, en el que es una variable aleatoria. De
hecho la de…nición de IC bayesiano está basada en ello.
Consideramos el caso en que la distribución a priori ( ) es continua. Sean T1 y T2
estadísticos unidimensionales. Dada una realización muestral x, si
P fT1 < < T2 = xg = 1 , (2.105)
al intervalo numérico
(T1 (x) , T2 (x)) (2.106)
se le denomina intervalo de con…anza bayesiano, o región creible, con probabilidad 1 .
Aquí sí podemos hablar con propiedad de la probabilidad de cubrir el verdadero valor
con el IC bayesiano. Esta probabilidad vale 1 .
Obsérvese que en (2.105) T1 y T2 son constantes, valen T1 = T1 (x) y T2 = T2 (x),
puesto que la distribución que se considera es condicionada con x. El elemento aleatorio
en (2.105) es .
Entonces, para obtener un IC hay que determinar una región del espacio paramétrico
, función de la muestra, con probabilidad a posteriori 1 .
25
Eligiendo la región con los valores mas grandes de la función de densidad ( =x) se
consigue el intervalo con menor amplitud. Sin embargo, es habitual considerar el intervalo
que deja probabilidad =2 a su derecha y =2 a su izquierda; con distribución simétrica,
como la normal, éste es precisamente el intervalo con menor amplitud.
Ejemplo 12. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica N ( ; 1),
y una distribución a priori N (0; 1). Determina un IC bayesiano para . Se obtuvo una
Pn
muestra de tamaño 24 con i=1 xi = 70 2; determina el correspondiente IC con probabilidad
00 95.
Solución: Por el ejemplo 3, página 10, se tiene que la distribución posterior es

2 n 02 n 2 1 1
( =x) N( 1; 1 ), con 1 = 2 +n 2 0 + 2 +n 2 x= 1+n x y 1 = 1 n = 1+n , esto es,
0 0 2+ 2
0
n 1
( =x) N x; p . (2.107)
n+1 n+1
Determinamos el intervalo que deja probabilidad =2 a su derecha y =2 a su izquierda.
n
Es un intervalo simétrico respecto de n+1 x, puesto que la distribución normal es simétrica
(respecto de su esperanza). Entonces, el intervalo es un conjunto de valores para de la

n o
n
forma : n+1 x < c , para un valor de c adecuado, que calculamos a continuación.
n
n x c
1 =P x <c x =P p n+1 < p x (2.108)
n+1 1= n + 1 1= n + 1
p
= P jN (0; 1)j < c n + 1 . (2.109)
p
Entonces, debe ser c n + 1 = z =2 (siendo z el valor tal que P fN (0; 1) > z g = ). Por
p
tanto, c = z =2 = n + 1 y entonces
n z =2 n z =2 n z =2
: x <p = : x p < < x+ p
n+1 n+1 n+1 n+1 n+1 n+1
n z =2 n z =2
= x p , x+ p , (2.110)
n+1 n+1 n+1 n+1
es un IC bayesiano con probabilidad 1 , que denotamos por
n z =2
x p . (2.111)
n+1 n+1
Pn
Con nx = i=1 xi = 70 2, n = 24, se obtiene el IC para
00 288 00 392 = 00 104; 00 680 , (2.112)
26
2.8 Contrastes de hipótesis bayesianos
con probabilidad 1 = 00 95 (z =2 = 10 96).
2.8. Contrastes de hipótesis bayesianos
Un método bayesiano de contraste consiste en aceptar la hipótesis con mayor probabil-
idad a posteriori dada la muestra:
C = fx : P (H1 /x) > P (H0 /x)g . (2.113)
Con este método, hay un tratamiento simétrico de ambas hipótesis, a diferencia de lo que
ocurre en los contrastes clásicos, donde el objetivo es limitar la probabilidad de error de
tipo I.
Para una hipótesis simple, por ejemplo H0 : = 0, el cálculo se realiza de la siguiente
manera:
( 0 ) f (x/ 0 )
P (H0 /x) = P f = 0 / xg = ( 0 /x) = . (2.114)
m (x)
El factor Bayes se de…ne como:
P (H0 /x) = P (H1 /x)

Bay (x; H0 ; H1 ) = . (2.115)
P (H0 ) = P (H1 )
Mide el reforzamiento al apoyo de la hipótesis nula producido por la muestra, respecto
al que tenía a priori.
27

Introducción A La Inferencia Bayesiana

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Introducción A La Inferencia Bayesiana

Încărcat de

Drepturi de autor:

Formate disponibile

Capítulo 1

2.1. Inferencia clásica y bayesiana

La Inferencia Estadística desarrolla métodos para obtener información acerca de la ley

de probabilidad de un fenómeno aleatorio mediante la observación del mismo.

En la asignatura Estimación I y en el capítulo 1 de Estimación II se ha considerado el

cierta familia paramétrica. En estos procedimientos se considera que la distribución teórica,

desconocida, es …ja. Estos métodos se denominan clásicos, y se engloban en la inferencia

clásica, en contraposición a la inferencia bayesiana, que estudiamos en este capítulo.

En el planteamiento bayesiano paramétrico, el estudio estadístico está basado en un

elemento nuevo, una distribución de probabilidad sobre el espacio paramétrico. Se parte de

la información proporcionada por la muestra. Ésto se lleva a cabo considerando la distribu-

distribución se realizan las inferencias sobre el parámetro.

La inferencia bayesiana no paramétrica tiene mayor complejidad. La distribución inicial

se especi…ca mediante un proceso estocástico cuyas realizaciones son distribuciones de

que depende de un parámetro . El parámetro toma valores en un subconjunto Rk ,

denominado espacio paramétrico.

En inferencia clásica se considera que es …jo y desconocido, y el estudio del valor de

se puede afrontar mediante estimación puntual, estimación por intervalos de con…anza y

En inferencia bayesiana se considera una distribución inicial para el parámetro (sobre el

incorporando la información aportada por la muestra. Se puede realizar estimación puntual

del parámetro a partir de esta distribución. Los intervalos de con…anza y contrastes de

2.2. El enfoque bayesiano, distribución a prori y distribución

En el planteamiento bayesiano, no se considera que exista una única distribución teórica

como en el enfoque clásico. En vez de ello, se considera una distribución de probabilidad

sobre el conjunto de posibles distribuciones teóricas F, que se denomina distribución a

clásico y que en otras ocasiones las mejoran.

Nos limitamos a estudiar el caso paramétrico. La distribución a priori está de…nida

sobre el espacio paramétrico y se denota por , y entonces toma valores ( ) para 2 .

Puede ser una función de masa o una función de densidad.

se elige al azar entre varias opciones. La distribución a priori especi…ca el procedimiento

aleatorio de selección de la urna.

En otras ocasiones, la distribución a priori es un arti…cio que permite añadir, a la in-

comprendido entre 70 2 y 70 5 mm. Con un enfoque clásico, esta información no es uti-

lo (70 2; 70 5). Si no tenemos mas información, deberíamos utilizar la distribución uniforme

U (70 2; 70 5) como distribución a priori: U (70 2; 70 5).

Una vez especi…cada la distribución a priori y la distribución de la muestra, el primer

objetivo es la obtención de la “distribución a posteriori”. Para ello se utiliza la fórmula

de Bayes, que da nombre a este planteamiento. Las inferencias se realizan a partir de la

El hecho de que sea aleatorio, determina que la función de masa o densidad de la

clásico y bayesiano, pero ahora, además de la notación, la interpretación es diferente, es

una distribución condicionada.

La función de masa o densidad marginal de la muestra se denomina distribución pre-

dictiva. Se denota por m y viene dada por

Frecuentemente ( ) es una función de densidad. Si es …nito o numerable, entonces ( )

es una función de masa, y se reemplaza la integral por una suma.

La información disponible inicialmente sobre viene dada por la distribución a priori

( ). Una vez observada la muestra x1 ; : : : ; xn , podemos incorporar la información pro-

porcionada por estos datos utilizando la distribución a posteriori ( =x1 ; : : : ; xn ). Es la

distribución del parámetro condicionada a la muestra X1 = x1 ; : : : ; Xn = xn , y viene

del numerador ( ) f (x1 ; : : : ; xn = ). Si este numerador multiplicado por una constante

(que no depende de ) es una función de densidad conocida, entonces ( =x1 ; : : : ; xn ) es

Para evitar tener que escribir repetidamente x1 ; : : : ; xn , condicionando en la distribu-

ción a posteriori, podemos expresarlo vectorialmente, llamando x a x1 ; : : : ; xn . Por ejemplo,

podemos expresar ( =x1 ; : : : ; xn ) como ( =x) y f (x1 ; : : : ; xn = ) como f (x= ). Cuando

se escriba a mano, particularmente en los exámenes, debe escribirse x como !

mano podría dar lugar a ambigüedad.

se dispone de ninguna información sobre , y entonces es conveniente utilizar la distribu-

x1 ; : : : ; xn . Determina la distribución a posteriori.

Solución: Se tiene que U (0; 1), y entonces

( ) = 1 si 0 < < 1 (y ( ) = 0 en otro caso). (2.6)

función de densidad. Entonces, ( =x) = gt+1;n t+1 ( ) , que es la función de densidad de

una Beta (t + 1; n t + 1), y por tanto la distribución a posteriori es

( =x) Beta (t + 1; n t + 1) . (2.10)