Documente Academic
Documente Profesional
Documente Cultură
1
1.
2
Capítulo 2
Introducción a la inferencia
bayesiana
caso en que la distribución teórica, desconocida, es …ja y podemos suponer que pertenece a
una distribución inicial sobre el espacio paramétrico, y ésta queda modi…cada añadiéndole
ción del parámetro condicionada a los valores observados en la muestra. A partir de esta
3
2. Introducción a la inferencia bayesiana
probabilidad.
Nos ocupamos del caso paramétrico. En muchas ocasiones, se puede admitir que la
distribución teórica tiene una forma funcional …ja y conocida (por ejemplo, es normal),
contrastes de hipótesis.
espacio paramétrico, que es el conjunto de valores que puede tomar), que queda modi…cada
hipótesis bayesianos se obtienen de un modo diferente a los del caso clásico, a partir de la
“distribución a posteriori”.
a posteriori
F , …ja, que es la verdadera distribución que genera los datos del experimento aleatorio,
priori. Este nuevo elemento complementa los elementos del planteamiento clásico. Permite
obtener soluciones que en algunas ocasiones coinciden con las obtenidas con el enfoque
4
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori
La distribución a priori puede ser un elemento intrínseco del problema, como cuando
el experimento aleatorio consiste en extraer bolas de una urna, pero antes de ello la urna
formación proporcionada por los datos, otra información disponible sobre la distribución
teórica. Por ejemplo, queremos estudiar la longitud media de los tornillos producidos
por una máquina. Por limitaciones físicas de la máquina, sabemos que el valor de está
lizada para realizar inferencias, y se pierde. Podemos utilizar esta información con un
enfoque bayesiano, considerando una distribución a priori para con soporte en el interva-
“distribución a posteriori”.
muestra f (x1 ; : : : ; xn ) sea una función de masa o densidad condicionada al valor del
parámetro, y entonces se denota por f (x1 ; : : : ; xn = ). Es la misma función para los casos
5
2. Introducción a la inferencia bayesiana
dada por
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) = . (2.2)
m (x1 ; : : : ; xn )
Obsérvese que el denominador no depende de . Es el valor por el que hay que dividir la
función de del numerador, ( ) f (x1 ; : : : ; xn = ), que hace que ( =x1 ; : : : ; xn ) sea una
función de densidad:
Z Z
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) d = d (2.3)
m (x1 ; : : : ; xn )
Z
1
= ( ) f (x1 ; : : : ; xn = ) d (2.4)
m (x1 ; : : : ; xn )
1
= m (x1 ; : : : ; xn ) = 1 . (2.5)
m (x1 ; : : : ; xn )
Si ( =x1 ; : : : ; xn ) es una función de densidad conocida, es inmediato obtenerla a partir
‡echa encima. Aquí se ha preferido la negrita por simplicidad, pero la negrita escrita a
Ejemplo 1. Se desea estudiar para una distribución de Bernoulli, con = (0; 1). No
ción uniforme sobre , la U (0; 1), como distribución a priori. Se ha observado la muestra
6
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori
Se tiene que
f (x1 ; : : : ; xn = ) = t
(1 )n t
(2.7)
n
X
con x1 ; : : : ; xn = 0; 1 , y t = xi = nx , (2.8)
i=1
y entonces
( ) f (x= ) t (1 )n t
( =x) = = si 0 < <1. (2.9)
m (x) m (x)
1 1
La función de densidad de la Beta ( ; ) es g ; (z) = z Be( (1 z)
; ) si 0 < z < 1, con
( ) ( ) t n t
Be ( ; ) = . Obsérvese que gt+1;n t+1 ( ) = (1 )
Be( ; ) . La única posible difer-
( + )
encia entre las funciones de densidad ( =x) y gt+1;n t+1 ( ) son los denominadores, que no
dependen de , y entonces deben ser iguales, ya que en caso contrario no podríán ser ambas
posteriori) es el valor de que maximiza ( =x) (véase 2.2). Puesto que ni m (x) depende
verosimilitud.
tribución posterior) ( =x). Por ejemplo, la moda de ( =x) proporciona una estimación
puntual para .
En el ejemplo 1 la distribución a priori es U (0; 1), que es una Beta (1; 1). En el siguiente
7
2. Introducción a la inferencia bayesiana
Ejemplo 2. Se desea estudiar para una distribución de Bernoulli, con = (0; 1). Se
y entonces
1 (1 ) 1
( ) f (x= ) Be( ; )
t (1 )n t
( =x) = = (2.13)
m (x) m (x)
+t 1 (1 ) +n t 1
= si 0 < <1. (2.14)
Be ( ; ) m (x)
Obsérvese que ésta es la función de densidad de una Beta ( + t; +n t), salvo cons-
son:
+t
1 = , (2.16)
+ +n
2 ( + t) ( + n t)
1 = . (2.17)
( + + n)2 ( + + n + 1)
hecho de que para una muestra de tamaño n = 0 la distribución a posteriori coincide con
la distribución a priori.
8
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori
por la distribución a priori. Veamos cómo se re‡eja este hecho en el valor de la esperanza
=n + t=n =n + x
1 = = y (2.18)
=n + =n + n=n =n + =n + 1
2 ( + t) ( + n t) =n3 ( =n + x) ( =n + 1 x) =n
1 = 2 = .
( + + n) ( + + n + 1) =n 3 ( =n + =n + 1)2 ( =n + =n + 1 + 1=n)
Obsérvese que en las expresiones obtenidas todos los valores y que intervienen, que son
los parámetros de la distribución a priori, están divididos por n. Entonces, para n grande,
se tiene que
2
1 'x y 1 ' x (1 x) =n . (2.19)
distribución posterior ( =x), que nos informa sobre , toma valores alrededor de 1 ' x,
coherente con el análisis clásico, para el que hay que estimar el parámetro de la Bernoulli
(1 ) x(1 x)
que estamos considerando mediante X, con error cuadrático medio n ' n . Se tiene
a posteriori.
tancia. Véase por ejemplo (2.16) y (2.17), dónde la aportación de los valores y de la
parte de la constante multiplicativa que hacen que sea una función de masa o densidad
1
( Be( ; )m(x) en (2.14)). Es habitual omitir estas constantes en los cálculos para obtener
( =x), y para ello se utiliza la notación “/”, que indica que dos funciones son iguales
salvo factores que no dependen del argumento de las funciones, o lo que es lo mismo, que
el cociente de las funciones no depende del argumento. De este modo, podemos expresar
9
2. Introducción a la inferencia bayesiana
que permite también identi…car la función de densidad ( =x), con argumento , como
Ejemplo 3. Se desea estudiar para una distribución normal N ( ; ) con conocida, con
1 2
( )= p 1 exp ( 0) si 1< < 1, y (2.22)
2 0 2 2
0
n=2 1 Pn
f (x1 ; : : : ; xn = ) = (2 ) n
exp 2 i=1 (xi )2 , (2.23)
2
y entonces
( ) f (x= )
( =x) = (2.24)
m (x)
n o n Pn o
2 n=2
p
2
1
exp 2
1
2 ( 0) (2 ) n exp
2
1
2 i=1 (xi )2
0 0
=
m (x)
1 2 1 Pn
/ exp 2 ( 0) exp 2 i=1 (xi )2 (2.25)
2 0 2
1 2 2 1 Pn 2 2
= exp 2 + 0 2 0 exp 2 i=1 xi +n 2n x
2 0 2
1 2 1 2
= exp 2 0 exp 2 2 0 (2.26)
2 0 2 0
1 Pn 2 1 2
exp 2 i=1 xi exp 2
n 2n x (2.27)
2 2
1 2 1 2
/ exp 2 2 0 exp 2
n 2n x (2.28)
2 0 2
1 1 n 2 0 x
= exp 2 2 + 2
+ 2 +n 2
. (2.29)
0 0
obtiene que ( =x) es normal. Se tiene que a ( b)2 = a 2 2ab + ab2 . Igualando el
10
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori
1 1 n
2 2 + 2
=a, (2.30)
0
0 x
2 +n 2
= 2ab . (2.31)
0
Despejando, se obtiene
0 x
2 + 2 n 2+ nx 2 2 n 02
0 0 0
b= 1 n = 2+n 2
= 2 2 0+ 2+n 2x . (2.32)
2 + 2 0 +n 0 0
0
Entonces, con estos valores de a y b se obtiene, teniendo en cuenta que exp ab2 no
depende de ,
1 1 n 2 0 x
( =x) / exp 2 2 + 2
+ 2 +n 2
(2.33)
0 0
2
= exp a 2ab (2.34)
2
/ exp a 2ab exp ab2 (2.35)
n o
= exp a 2
2ab + ab2 = exp a ( b)2 (2.36)
1 2
= exp 2 ( 1) , (2.37)
2 1
2 1
con 1 =by 1 = 2a , esto es,
2 n 02
1 = 0+ 2x y (2.38)
+ n 02 2 2+n
0
1 1 n
2 = 2 + 2 . (2.39)
1 0
plicativas. Entonces, puesto que ( =x) es una función de densidad, debe ser la función de
( =x) N( 1; 1) , (2.40)
(2.38) y (2.39)), puesto que no hay una muestra que aporte información que modi…que la
distribución a priori.
11
2. Introducción a la inferencia bayesiana
2 2
0
1 = 0 + 2x 'x, (2.41)
2 + n 02 2 =n + 0
1 2 2 2 =n 2
2 0
1 = 1 = = ' (2.42)
+ n2 2
2 2
2 +n 0 2 +1 n
0 n 0
(en este caso, la varianza posterior no depende de la muestra, solo del tamaño). Estas
desaparecer, es coherente con el análisis clásico, para el que hay que estimar el parámetro
2
de la N ( ; ) que estamos considerando mediante X, con error cuadrático medio n .
cia. En (2.38) se expresa la esperanza posterior 1 como una combinación lineal convexa
se dice que esta familia es conjugada de la distribución teórica que se esté considerando.
De este modo, por el ejemplo 2 se tiene que la familia Beta es conjugada de la familia de
Para una distribución teórica dada, el hecho de que una distribución a priori sea conju-
gada de ella no es un motivo para elegirla. Sin embargo, en algunos casos una distribución
conjugada es adecuada, como ocurre con la elección que hemos hecho en los ejemplos
anteriores.
Por ejemplo, la distribución beta es muy adecuada como distribución a priori para
concentrar la probabilidad a priori donde se quiera, y con una dispersión también a elección.
12
2.3 Familas conjugadas de distribuciones
Por ejemplo, si creemos que una moneda debería estar casi equilibrada, y tomamos
los parámetros de modo que sea 0 = 1=2. Ésto se consigue tomando = . Además,
podemos elegir este valor común de modo que 0 tome un valor especi…cado. Si pensamos
Ejemplo 4. Para ( ) Beta ( ; ), determina los valores y adecuados para que sea
0 = 1=2 y 0 = 00 1.
en función de y :
1
0 = = =) + = 2 =) = (2.43)
+ 2
2 1
2
0 = 2 = 2 = = 00 12 =) (2.44)
( + ) ( + + 1) (2 ) (2 + 1) 4 (2 + 1)
1 1
= 2 = 12 . (2.45)
8 0 2
1
f (x= ) = (1 + x) para x > 0 , (2.46)
priori Exp ( ).
13
2. Introducción a la inferencia bayesiana
( ) f (x= ) (utilizamos la notación /, que indica que las dos funciones conectadas con el
símbolo son iguales salvo factores que no dependen de ). En primer lugar, obsérvese que
n
! 1
Y Yn Yn 1
(1 + xi ) = (1 + xi ) (1 + xi ) (2.49)
i=1 i=1
i=1
Yn n Xn o
/ (1 + xi ) = exp log (1 + xi ) . (2.50)
i=1 i=1
Se tiene que
n
! 1
Y
p 1 a n
( =x) / ( ) f (x= ) / e (1 + xi ) (2.51)
i=1
n Xn o
p 1 a n
/ e exp log (1 + xi ) (2.52)
i=1
n h Xn io
p+n 1
= exp a+ log (1 + xi ) . (2.53)
i=1
Pn
Obsérvese que ésta es la función de densidad de una (p + n; a + t), con t = i=1 log (1 + xi ),
( =x) (p + n; a + t) . (2.54)
( =x) (n + 1; t + ) . (2.55)
0 t 02 n
1 = 2 0 + 2 , (2.56)
0+t 0 0+t 0 t
siendo 2 2
0, 0, 1 y 1 las esperanzas y varianzas a priori y a posteriori, respectivamente.
que la distribución posterior sea poco manejable. En este caso, el uso del ordenador es muy
14
2.4 Distribuciones a priori no informativas
mación de que una moneda debería estar casi equilibrada, en el estudio de la probabilidad
de obtener cara.
priori.
En algunos casos, también se puede considerar una distribución a priori que no contenga
información.
a la amplitud del intervalo. No hay zonas con mayor densidad de probabilidad que otras.
cualquier constante positiva c, la función constante ( ) = c tiene integral sobre que vale
concentre mayor probabilidad en unas zonas que en otras, podemos repartir la probabilidad
( =x) N( 1; 1 ), con
2 2 2 1
0
1 = 0 + 2x = 0 + x,y (2.57)
2 + n 02 2 =n + 0
2 +n 2
0
2= n 02 + 1
2 1
1 = 1 . (2.58)
2 + n2
0
Tomando el límite cuando ! 1, se obtiene que para grande 'xy 2 ' 2 =n, y
0 0 1 1
15
2. Introducción a la inferencia bayesiana
En particular, ésto permite considerar lo que sería una “distribución uniforme” sobre
cuando es no acotado; por ejemplo, para el caso normal que acabamos de comentar. En
( ) f (x= ) c f (x= )
( =x) = R = R (2.59)
( ) f (x= ) d c f (x= ) d
f (x= )
=R . (2.60)
f (x= ) d
se puede operar con ella para el cálculo de ( =x), obteniéndose una función de densidad.
Solución: Por (2.59, 2.60) se tiene que ( =x) / f (x= ). Operando, se obtiene
1 Pn
( =x) / f (x= ) / exp 2 i=1 (xi )2 (2.63)
2
1 Pn 2 2
= exp 2 i=1 xi +n 2n x
2
1 Pn 2 1 2
= exp 2 i=1 xi exp 2
n 2n x (2.64)
2 2
1 2
/ exp 2
n 2n x (2.65)
2
1 n 2 x
= exp 2 2
+n 2
. (2.66)
Entonces, la función de densidad ( =x) tiene una estructura como la del ejemplo 3:
16
2.4 Distribuciones a priori no informativas
1 n x
2 2
=a , n 2
= 2ab , (2.67)
1 n 2 x 2
( =x) / exp 2 2
+n 2
= exp a 2ab (2.68)
( =x) N x; p . (2.72)
n
realizado en este ejemplo, con distribución a priori no informativa, se obtiene una conclusión
similar, pero con diferente interpretación. La conclusión en ambos casos es que la media
la variable aleatoria:
X N 0; p . (2.73)
n
En el enfoque bayesiano se considera una muestra …ja x1 ; : : : ; xn y es la variable aleatoria:
( x=x1 ; : : : ; xn ) N 0; p . (2.74)
n
Como vemos, el hecho de poder ignorar las constantes multiplicativas simpli…ca las
operaciones, puesto que no hay que calcular integrales. Además, simpli…ca también las
17
2. Introducción a la inferencia bayesiana
sucesivas
La información actual sobre el parámetro después del muestreo viene dada por la dis-
incorpora toda la información disponible sobre . Si se obtiene una nueva m.a.s, de tamaño
ción a priori, que es la información actual sobre , y aplicamos la fórmula para calcular la
distribución a posteriori.
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) = / ( ) f (x1 ; : : : ; xn = ) . (2.75)
m (x1 ; : : : ; xn )
Ahora obtenemos una nueva muestra xn+1 ; : : : ; xn+k independiente de la muestra anterior
Denotamos por
18
2.5 Actualización de la distribución a priori con muestras sucesivas
como distribución a priori. Comprobamos que coincide con ( =x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k ).
Puesto que tanto ( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) como ( =x1 ; : : : ; xn+k ) son funciones
este caso particular lo que acabamos de comprobar en general: que es indiferente obtener
Entonces,
esto es
19
2. Introducción a la inferencia bayesiana
destacado de esta distribución como estimación puntual, una región de alta probabilidad
para obtener un intervalo de con…anza, y las probabilidades de las hipótesis para realizar
un contraste.
( ).
tadísticos su…cientes bayesianos son los mismos que los estadísticos su…cientes clásicos,
y la moda.
20
2.6 Estimación puntual bayesiana
verosimilitud.
( =x).
modelizada mediante una variable aleatoria con distribución beta. De estudios previos,
21
2. Introducción a la inferencia bayesiana
puede suponerse que Beta (5; 10) (con 0 = 1=3 y 0 = 00 118). En una muestra de
mínima varianza (es el estimador centrado óptimo, considerando pérdida cuadrática). Este
considerando y, por otra parte, coincide con el estimador de máxima verosimilitud y con
e = x = 20 = 00 2 , (2.95)
100
anza muestral S 2 (el estimador clásico, puesto que hablamos de ECM ), y que en el caso
n
de distribución teórica de Bernoulli se simpli…ca, obteniéndose S 2 = n 1 x (1 x).
tidumbre, lo que hace que disminuya la varianza de su distribución (al pasar de prior a
p
posterior): 1 = 0;00147 = 00 0383 < 00 118 = 0 .
22
2.6 Estimación puntual bayesiana
hecho de sea P F E < ECM (00 00147 < 00 00162) re‡eja la mejora en precisión que supone
b = E [ =x] = E [Beta ( + t; +t
+n t)] = . (2.98)
+ +n
Puesto que la U (0; 1) es la Beta (1; 1), se tiene con esta distribución a priori que
b = t + 1 = x + 1=n . (2.99)
n+2 1 + 2=n
Este estimador es distinto del estimador clásico x, aunque para n grande toman valores
cercanos.
23
2. Introducción a la inferencia bayesiana
( =x) N x; p . (2.101)
n
p
b = E [ =x] = E N x; = n =x, (2.102)
y la P F E es
p 2
P F E = V [ =x] = V N x; = n = =n . (2.103)
p
El estimador clásico adecuado es X, que es centrado para , con distribución N ( ; = n),
y tiene entonces error cuadrático medio ECM = V X = 2 =n. Se observa que el ECM
priori no informativa.
En todos los ejemplos estamos considerando una distribución a priori de una familia
paramétrica, y suponemos que los valores de sus parámetros están dados. Se han ofrecido
algunas indicaciones sobre la elección del valor de los parámetros. Existen distintas técnicas
El análisis para una distribución teórica normal con ambos parámetros desconocidos
24
2.7 Intervalos de con…anza bayesianos
se le denomina intervalo de con…anza (IC) para con nivel de con…anza 1 . Una vez
sentido porque el valor de es …jo, constante, y no una variable aleatoria. Sin embargo, sí
tiene sentido desde un punto de vista bayesiano, en el que es una variable aleatoria. De
al intervalo numérico
en (2.105) es .
Entonces, para obtener un IC hay que determinar una región del espacio paramétrico
25
2. Introducción a la inferencia bayesiana
Eligiendo la región con los valores mas grandes de la función de densidad ( =x) se
consigue el intervalo con menor amplitud. Sin embargo, es habitual considerar el intervalo
y una distribución a priori N (0; 1). Determina un IC bayesiano para . Se obtuvo una
Pn
muestra de tamaño 24 con i=1 xi = 70 2; determina el correspondiente IC con probabilidad
00 95.
n 1
( =x) N x; p . (2.107)
n+1 n+1
Determinamos el intervalo que deja probabilidad =2 a su derecha y =2 a su izquierda.
n
Es un intervalo simétrico respecto de n+1 x, puesto que la distribución normal es simétrica
n z =2 n z =2 n z =2
: x <p = : x p < < x+ p
n+1 n+1 n+1 n+1 n+1 n+1
n z =2 n z =2
= x p , x+ p , (2.110)
n+1 n+1 n+1 n+1
es un IC bayesiano con probabilidad 1 , que denotamos por
n z =2
x p . (2.111)
n+1 n+1
Pn
Con nx = i=1 xi = 70 2, n = 24, se obtiene el IC para
26
2.8 Contrastes de hipótesis bayesianos
Con este método, hay un tratamiento simétrico de ambas hipótesis, a diferencia de lo que
tipo I.
manera:
( 0 ) f (x/ 0 )
P (H0 /x) = P f = 0 / xg = ( 0 /x) = . (2.114)
m (x)
El factor Bayes se de…ne como:
27