Sunteți pe pagina 1din 27

Capítulo 1

1
1.

2
Capítulo 2

Introducción a la inferencia
bayesiana

2.1. Inferencia clásica y bayesiana

La Inferencia Estadística desarrolla métodos para obtener información acerca de la ley

de probabilidad de un fenómeno aleatorio mediante la observación del mismo.

En la asignatura Estimación I y en el capítulo 1 de Estimación II se ha considerado el

caso en que la distribución teórica, desconocida, es …ja y podemos suponer que pertenece a

cierta familia paramétrica. En estos procedimientos se considera que la distribución teórica,

desconocida, es …ja. Estos métodos se denominan clásicos, y se engloban en la inferencia

clásica, en contraposición a la inferencia bayesiana, que estudiamos en este capítulo.

En el planteamiento bayesiano paramétrico, el estudio estadístico está basado en un

elemento nuevo, una distribución de probabilidad sobre el espacio paramétrico. Se parte de

una distribución inicial sobre el espacio paramétrico, y ésta queda modi…cada añadiéndole

la información proporcionada por la muestra. Ésto se lleva a cabo considerando la distribu-

ción del parámetro condicionada a los valores observados en la muestra. A partir de esta

distribución se realizan las inferencias sobre el parámetro.

La inferencia bayesiana no paramétrica tiene mayor complejidad. La distribución inicial

3
2. Introducción a la inferencia bayesiana

se especi…ca mediante un proceso estocástico cuyas realizaciones son distribuciones de

probabilidad.

Nos ocupamos del caso paramétrico. En muchas ocasiones, se puede admitir que la

distribución teórica tiene una forma funcional …ja y conocida (por ejemplo, es normal),

que depende de un parámetro . El parámetro toma valores en un subconjunto Rk ,

denominado espacio paramétrico.

En inferencia clásica se considera que es …jo y desconocido, y el estudio del valor de

se puede afrontar mediante estimación puntual, estimación por intervalos de con…anza y

contrastes de hipótesis.

En inferencia bayesiana se considera una distribución inicial para el parámetro (sobre el

espacio paramétrico, que es el conjunto de valores que puede tomar), que queda modi…cada

incorporando la información aportada por la muestra. Se puede realizar estimación puntual

del parámetro a partir de esta distribución. Los intervalos de con…anza y contrastes de

hipótesis bayesianos se obtienen de un modo diferente a los del caso clásico, a partir de la

“distribución a posteriori”.

2.2. El enfoque bayesiano, distribución a prori y distribución

a posteriori

En el planteamiento bayesiano, no se considera que exista una única distribución teórica

F , …ja, que es la verdadera distribución que genera los datos del experimento aleatorio,

como en el enfoque clásico. En vez de ello, se considera una distribución de probabilidad

sobre el conjunto de posibles distribuciones teóricas F, que se denomina distribución a

priori. Este nuevo elemento complementa los elementos del planteamiento clásico. Permite

obtener soluciones que en algunas ocasiones coinciden con las obtenidas con el enfoque

clásico y que en otras ocasiones las mejoran.

Nos limitamos a estudiar el caso paramétrico. La distribución a priori está de…nida

sobre el espacio paramétrico y se denota por , y entonces toma valores ( ) para 2 .

Puede ser una función de masa o una función de densidad.

4
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori

La distribución a priori puede ser un elemento intrínseco del problema, como cuando

el experimento aleatorio consiste en extraer bolas de una urna, pero antes de ello la urna

se elige al azar entre varias opciones. La distribución a priori especi…ca el procedimiento

aleatorio de selección de la urna.

En otras ocasiones, la distribución a priori es un arti…cio que permite añadir, a la in-

formación proporcionada por los datos, otra información disponible sobre la distribución

teórica. Por ejemplo, queremos estudiar la longitud media de los tornillos producidos

por una máquina. Por limitaciones físicas de la máquina, sabemos que el valor de está

comprendido entre 70 2 y 70 5 mm. Con un enfoque clásico, esta información no es uti-

lizada para realizar inferencias, y se pierde. Podemos utilizar esta información con un

enfoque bayesiano, considerando una distribución a priori para con soporte en el interva-

lo (70 2; 70 5). Si no tenemos mas información, deberíamos utilizar la distribución uniforme

U (70 2; 70 5) como distribución a priori: U (70 2; 70 5).

Una vez especi…cada la distribución a priori y la distribución de la muestra, el primer

objetivo es la obtención de la “distribución a posteriori”. Para ello se utiliza la fórmula

de Bayes, que da nombre a este planteamiento. Las inferencias se realizan a partir de la

“distribución a posteriori”.

El hecho de que sea aleatorio, determina que la función de masa o densidad de la

muestra f (x1 ; : : : ; xn ) sea una función de masa o densidad condicionada al valor del

parámetro, y entonces se denota por f (x1 ; : : : ; xn = ). Es la misma función para los casos

clásico y bayesiano, pero ahora, además de la notación, la interpretación es diferente, es

una distribución condicionada.

La función de masa o densidad marginal de la muestra se denomina distribución pre-

dictiva. Se denota por m y viene dada por


Z
m (x1 ; : : : ; xn ) = ( ) f (x1 ; : : : ; xn = ) d . (2.1)

Frecuentemente ( ) es una función de densidad. Si es …nito o numerable, entonces ( )

es una función de masa, y se reemplaza la integral por una suma.

La información disponible inicialmente sobre viene dada por la distribución a priori

5
2. Introducción a la inferencia bayesiana

( ). Una vez observada la muestra x1 ; : : : ; xn , podemos incorporar la información pro-

porcionada por estos datos utilizando la distribución a posteriori ( =x1 ; : : : ; xn ). Es la

distribución del parámetro condicionada a la muestra X1 = x1 ; : : : ; Xn = xn , y viene

dada por
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) = . (2.2)
m (x1 ; : : : ; xn )
Obsérvese que el denominador no depende de . Es el valor por el que hay que dividir la

función de del numerador, ( ) f (x1 ; : : : ; xn = ), que hace que ( =x1 ; : : : ; xn ) sea una

función de densidad:
Z Z
( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) d = d (2.3)
m (x1 ; : : : ; xn )
Z
1
= ( ) f (x1 ; : : : ; xn = ) d (2.4)
m (x1 ; : : : ; xn )
1
= m (x1 ; : : : ; xn ) = 1 . (2.5)
m (x1 ; : : : ; xn )
Si ( =x1 ; : : : ; xn ) es una función de densidad conocida, es inmediato obtenerla a partir

del numerador ( ) f (x1 ; : : : ; xn = ). Si este numerador multiplicado por una constante

(que no depende de ) es una función de densidad conocida, entonces ( =x1 ; : : : ; xn ) es


1
justamente esta densidad conocida y la constante es justamente m(x1 ;:::;xn ) .

Para evitar tener que escribir repetidamente x1 ; : : : ; xn , condicionando en la distribu-

ción a posteriori, podemos expresarlo vectorialmente, llamando x a x1 ; : : : ; xn . Por ejemplo,

podemos expresar ( =x1 ; : : : ; xn ) como ( =x) y f (x1 ; : : : ; xn = ) como f (x= ). Cuando

se escriba a mano, particularmente en los exámenes, debe escribirse x como !


x , con una

‡echa encima. Aquí se ha preferido la negrita por simplicidad, pero la negrita escrita a

mano podría dar lugar a ambigüedad.

Ejemplo 1. Se desea estudiar para una distribución de Bernoulli, con = (0; 1). No

se dispone de ninguna información sobre , y entonces es conveniente utilizar la distribu-

ción uniforme sobre , la U (0; 1), como distribución a priori. Se ha observado la muestra

x1 ; : : : ; xn . Determina la distribución a posteriori.

Solución: Se tiene que U (0; 1), y entonces

( ) = 1 si 0 < < 1 (y ( ) = 0 en otro caso). (2.6)

6
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori

Se tiene que

f (x1 ; : : : ; xn = ) = t
(1 )n t
(2.7)
n
X
con x1 ; : : : ; xn = 0; 1 , y t = xi = nx , (2.8)
i=1

y entonces
( ) f (x= ) t (1 )n t
( =x) = = si 0 < <1. (2.9)
m (x) m (x)
1 1
La función de densidad de la Beta ( ; ) es g ; (z) = z Be( (1 z)
; ) si 0 < z < 1, con
( ) ( ) t n t
Be ( ; ) = . Obsérvese que gt+1;n t+1 ( ) = (1 )
Be( ; ) . La única posible difer-
( + )
encia entre las funciones de densidad ( =x) y gt+1;n t+1 ( ) son los denominadores, que no

dependen de , y entonces deben ser iguales, ya que en caso contrario no podríán ser ambas

función de densidad. Entonces, ( =x) = gt+1;n t+1 ( ) , que es la función de densidad de

una Beta (t + 1; n t + 1), y por tanto la distribución a posteriori es

( =x) Beta (t + 1; n t + 1) . (2.10)

Si ( ) es constante (distribución a priori uniforme), como en el ejemplo 1, entonces la

moda a posteriori coincide con el estimador, clásico, de máxima verosimilitud (Estimación

I), como explicamos a continuación. La moda a posteriori (la moda de la distribución a

posteriori) es el valor de que maximiza ( =x) (véase 2.2). Puesto que ni m (x) depende

de ni ( ) tampoco en este caso uniforme, entonces el valor de que maximiza ( =x) es

el valor de que maximiza f (x= ). Este valor de es justamente el estimador de máxima

verosimilitud.

Las inferencias sobre se realizan en función de la distribución a posteriori (o dis-

tribución posterior) ( =x). Por ejemplo, la moda de ( =x) proporciona una estimación

puntual para .

En el ejemplo 1 la distribución a priori es U (0; 1), que es una Beta (1; 1). En el siguiente

ejemplo consideramos una distribución teórica de Bernoulli, como en el ejemplo 1, y como

distribución a priori la Beta ( ; ) para cualesquiera valores ; > 0.

7
2. Introducción a la inferencia bayesiana

Ejemplo 2. Se desea estudiar para una distribución de Bernoulli, con = (0; 1). Se

considera la distribución a priori ( ) Beta ( ; ). Se ha observado la muestra x1 ; : : : ; xn .

Determina la distribución a posteriori.

Solución: Se tiene que


1 (1 ) 1
( )= si 0 < < 1, y (2.11)
Be ( ; )
n
X
t n t
f (x1 ; : : : ; xn = ) = (1 ) con t = xi , (2.12)
i=1

y entonces
1 (1 ) 1
( ) f (x= ) Be( ; )
t (1 )n t
( =x) = = (2.13)
m (x) m (x)
+t 1 (1 ) +n t 1
= si 0 < <1. (2.14)
Be ( ; ) m (x)

Obsérvese que ésta es la función de densidad de una Beta ( + t; +n t), salvo cons-

tantes multiplicativas, y entonces la distribución a posteriori es

( =x) Beta ( + t; +n t) . (2.15)

La esperanza de la distribución Beta ( ; ) es + , y la varianza es ( + )2 ( + +1)


.

Llamemos y 2 a la esperanza y varianza de la distribución a priori del ejemplo anterior,


0 0

la Beta ( ; ), y y 2 a las de la distribución a posteriori, la Beta ( + t; +n t), que


1 1

son:

+t
1 = , (2.16)
+ +n
2 ( + t) ( + n t)
1 = . (2.17)
( + + n)2 ( + + n + 1)

Obsérvese que si n = 0 (y por tanto t = 0) se tiene que 1 = 0 y 1 = 0, lo cual re‡eja el

hecho de que para una muestra de tamaño n = 0 la distribución a posteriori coincide con

la distribución a priori.

En sentido contrario, la in‡uencia de la distribución a priori en la distribución a pos-

teriori tiende a desaparecer cuando el tamaño de muestra es grande. En este caso, la

8
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori

información proporcionada por la muestra se impone sobre la información proporcionada

por la distribución a priori. Veamos cómo se re‡eja este hecho en el valor de la esperanza

y varianza a posteriori del ejemplo 2, en (2.16) y (2.17). Se tiene que

=n + t=n =n + x
1 = = y (2.18)
=n + =n + n=n =n + =n + 1
2 ( + t) ( + n t) =n3 ( =n + x) ( =n + 1 x) =n
1 = 2 = .
( + + n) ( + + n + 1) =n 3 ( =n + =n + 1)2 ( =n + =n + 1 + 1=n)

Obsérvese que en las expresiones obtenidas todos los valores y que intervienen, que son

los parámetros de la distribución a priori, están divididos por n. Entonces, para n grande,

se tiene que
2
1 'x y 1 ' x (1 x) =n . (2.19)

Para n grande también se tiene que la varianza a posteriori 2 es pequeña. Entonces, la


1

distribución posterior ( =x), que nos informa sobre , toma valores alrededor de 1 ' x,

y con poca dispersión.

Este resultado asintótico, donde la aportación de la distribución a priori se diluye, es

coherente con el análisis clásico, para el que hay que estimar el parámetro de la Bernoulli
(1 ) x(1 x)
que estamos considerando mediante X, con error cuadrático medio n ' n . Se tiene

además que 2 n!1


1 ! 0. Cuanto menor sea su dispersión, mas informativa es la distribución

a posteriori.

Cuando n no es grande, la aportación de la distribución a priori ( ) sí tiene impor-

tancia. Véase por ejemplo (2.16) y (2.17), dónde la aportación de los valores y de la

distribución a priori no debe desprecirse si no son pequeños, respecto de n.

Los factores que intervienen en la expresión de ( =x) que no dependen de , forman

parte de la constante multiplicativa que hacen que sea una función de masa o densidad
1
( Be( ; )m(x) en (2.14)). Es habitual omitir estas constantes en los cálculos para obtener

( =x), y para ello se utiliza la notación “/”, que indica que dos funciones son iguales

salvo factores que no dependen del argumento de las funciones, o lo que es lo mismo, que

el cociente de las funciones no depende del argumento. De este modo, podemos expresar

9
2. Introducción a la inferencia bayesiana

la igualdad en (2.14) del siguiente modo


+t 1 (1 ) +n t 1
( =x) = (2.20)
Be ( ; ) m (x)
+t 1 +n t 1
/ (1 ) , (2.21)

que permite también identi…car la función de densidad ( =x), con argumento , como

una Beta ( + t; +n t), puesto que la expresión en (2.21) es la función de densidad de

esa beta salvo constantes multiplicativas.

Ejemplo 3. Se desea estudiar para una distribución normal N ( ; ) con conocida, con

= R. Se considera para la distribución a priori N ( 0; 0 ). Se ha observado la muestra

x1 ; : : : ; xn . Determina la distribución a posteriori.

Solución: Se tiene que

1 2
( )= p 1 exp ( 0) si 1< < 1, y (2.22)
2 0 2 2
0
n=2 1 Pn
f (x1 ; : : : ; xn = ) = (2 ) n
exp 2 i=1 (xi )2 , (2.23)
2

y entonces

( ) f (x= )
( =x) = (2.24)
m (x)
n o n Pn o
2 n=2
p
2
1
exp 2
1
2 ( 0) (2 ) n exp
2
1
2 i=1 (xi )2
0 0
=
m (x)
1 2 1 Pn
/ exp 2 ( 0) exp 2 i=1 (xi )2 (2.25)
2 0 2
1 2 2 1 Pn 2 2
= exp 2 + 0 2 0 exp 2 i=1 xi +n 2n x
2 0 2
1 2 1 2
= exp 2 0 exp 2 2 0 (2.26)
2 0 2 0
1 Pn 2 1 2
exp 2 i=1 xi exp 2
n 2n x (2.27)
2 2
1 2 1 2
/ exp 2 2 0 exp 2
n 2n x (2.28)
2 0 2
1 1 n 2 0 x
= exp 2 2 + 2
+ 2 +n 2
. (2.29)
0 0

Multiplicando por una constante adecuada para completar el cuadrado, a continuación, se

obtiene que ( =x) es normal. Se tiene que a ( b)2 = a 2 2ab + ab2 . Igualando el

10
2.2 El enfoque bayesiano, distribución a prori y distribución a posteriori

exponente en (2.29) a los términos en 2 y en a ( b)2 , se obtiene

1 1 n
2 2 + 2
=a, (2.30)
0
0 x
2 +n 2
= 2ab . (2.31)
0

Despejando, se obtiene
0 x
2 + 2 n 2+ nx 2 2 n 02
0 0 0
b= 1 n = 2+n 2
= 2 2 0+ 2+n 2x . (2.32)
2 + 2 0 +n 0 0
0

Entonces, con estos valores de a y b se obtiene, teniendo en cuenta que exp ab2 no

depende de ,

1 1 n 2 0 x
( =x) / exp 2 2 + 2
+ 2 +n 2
(2.33)
0 0
2
= exp a 2ab (2.34)
2
/ exp a 2ab exp ab2 (2.35)
n o
= exp a 2
2ab + ab2 = exp a ( b)2 (2.36)
1 2
= exp 2 ( 1) , (2.37)
2 1
2 1
con 1 =by 1 = 2a , esto es,
2 n 02
1 = 0+ 2x y (2.38)
+ n 02 2 2+n
0
1 1 n
2 = 2 + 2 . (2.39)
1 0

Por tanto, ( =x) es la función de densidad de una N ( 1; 1 ), salvo constantes multi-

plicativas. Entonces, puesto que ( =x) es una función de densidad, debe ser la función de

densidad de la N ( 1; 1 ), obteniéndose que la distribución a posteriori es

( =x) N( 1; 1) , (2.40)

con 1 y 1 dados en (2.38) y (2.39).

Obsérvese que en este ejemplo, si n = 0 se tiene que 1 = 0 y 1 = 0 (véase

(2.38) y (2.39)), puesto que no hay una muestra que aporte información que modi…que la

distribución a priori.

11
2. Introducción a la inferencia bayesiana

Para n grande se tiene que

2 2
0
1 = 0 + 2x 'x, (2.41)
2 + n 02 2 =n + 0
1 2 2 2 =n 2
2 0
1 = 1 = = ' (2.42)
+ n2 2
2 2
2 +n 0 2 +1 n
0 n 0

(en este caso, la varianza posterior no depende de la muestra, solo del tamaño). Estas

aproximaciones para n grande, donde la aportación de la distribución a priori tiende a

desaparecer, es coherente con el análisis clásico, para el que hay que estimar el parámetro
2
de la N ( ; ) que estamos considerando mediante X, con error cuadrático medio n .

Cuando n no es grande, la aportación de la distribución a priori ( ) sí tiene importan-

cia. En (2.38) se expresa la esperanza posterior 1 como una combinación lineal convexa

de 0, la esperanza prior (esto es, a priori) y x, la media muestral. La mejor manera de

comparar los pesos en la combinación lineal es considerando el cociente, que vale n 2 2


0= .

Por ejemplo, los pesos son iguales, valen 1=2, si n 2 2 2= 2.


0= = 1, esto es, si n = 0

2.3. Familas conjugadas de distribuciones

Cuando las distribuciones prior y posterior pertenecen a la misma familia paramétrica,

se dice que esta familia es conjugada de la distribución teórica que se esté considerando.

De este modo, por el ejemplo 2 se tiene que la familia Beta es conjugada de la familia de

Bernoulli, y por el ejemplo 3 se tiene que la Normal es conjugada de la Normal.

Para una distribución teórica dada, el hecho de que una distribución a priori sea conju-

gada de ella no es un motivo para elegirla. Sin embargo, en algunos casos una distribución

conjugada es adecuada, como ocurre con la elección que hemos hecho en los ejemplos

anteriores.

Por ejemplo, la distribución beta es muy adecuada como distribución a priori para

el parámetro de una Bernoulli. Con una elección adecuada de parámetros se consigue

concentrar la probabilidad a priori donde se quiera, y con una dispersión también a elección.

12
2.3 Familas conjugadas de distribuciones

Por ejemplo, si creemos que una moneda debería estar casi equilibrada, y tomamos

como distribución a priori para la Beta ( ; ), como en el ejemplo 2, podemos elegir

los parámetros de modo que sea 0 = 1=2. Ésto se consigue tomando = . Además,

podemos elegir este valor común de modo que 0 tome un valor especi…cado. Si pensamos

que la verdadera probabilidad de éxito no debería alejarse mucho de 1=2, tomaremos 0

pequeño, y si no creemos que sea así tomaremos 0 mas grande.

Ejemplo 4. Para ( ) Beta ( ; ), determina los valores y adecuados para que sea

0 = 1=2 y 0 = 00 1.

Solución: 0 y 0 son, como siempre en este capítulo, la esperanza y la desviación

típica de ( ). Resolvemos el sistema con las ecuaciones = 1=2 y 2 = 00 12 expresadas


0 0

en función de y :

1
0 = = =) + = 2 =) = (2.43)
+ 2
2 1
2
0 = 2 = 2 = = 00 12 =) (2.44)
( + ) ( + + 1) (2 ) (2 + 1) 4 (2 + 1)
1 1
= 2 = 12 . (2.45)
8 0 2

Hay que tomar = = 12.

Ejemplo 5. Consideremos una distribución teórica con función de densidad

1
f (x= ) = (1 + x) para x > 0 , (2.46)

siendo un parámetro positivo. Comprueba que la distribución gamma es conjugada de

esta distribución teórica. Determina la distribución a posteriori para una distribución a

priori Exp ( ).

Solución: Se tiene que = (0; 1). La función de densidad de la m.a.s. y la función

de densidad a priori de (p; a) son


n
! 1
Y
n
f (x1 ; : : : ; xn = ) = (1 + xi ) para x1 ; : : : ; xn > 0 , y (2.47)
i=1
ap p 1 a
( )= e para >0. (2.48)
(p)

13
2. Introducción a la inferencia bayesiana

Para el cálculo de ( =x) identi…camos los factores que dependen de en el producto

( ) f (x= ) (utilizamos la notación /, que indica que las dos funciones conectadas con el

símbolo son iguales salvo factores que no dependen de ). En primer lugar, obsérvese que

n
! 1
Y Yn Yn 1
(1 + xi ) = (1 + xi ) (1 + xi ) (2.49)
i=1 i=1
i=1
Yn n Xn o
/ (1 + xi ) = exp log (1 + xi ) . (2.50)
i=1 i=1

Se tiene que

n
! 1
Y
p 1 a n
( =x) / ( ) f (x= ) / e (1 + xi ) (2.51)
i=1
n Xn o
p 1 a n
/ e exp log (1 + xi ) (2.52)
i=1
n h Xn io
p+n 1
= exp a+ log (1 + xi ) . (2.53)
i=1

Pn
Obsérvese que ésta es la función de densidad de una (p + n; a + t), con t = i=1 log (1 + xi ),

salvo constantes multiplicativas, y entonces la distribución a posteriori es

( =x) (p + n; a + t) . (2.54)

Por tanto, la gamma es conjugada de la distribución teórica considerada.

Puesto que la Exp ( ) es una (1; ), si ( ) Exp ( ) se tiene que

( =x) (n + 1; t + ) . (2.55)

Ejercicio: comprueba que

0 t 02 n
1 = 2 0 + 2 , (2.56)
0+t 0 0+t 0 t

siendo 2 2
0, 0, 1 y 1 las esperanzas y varianzas a priori y a posteriori, respectivamente.

Cuando la distribución prior no es conjugada de la distribución teórica, puede ocurrir

que la distribución posterior sea poco manejable. En este caso, el uso del ordenador es muy

útil para realizar cálculos numéricos para la distribución posterior.

14
2.4 Distribuciones a priori no informativas

2.4. Distribuciones a priori no informativas

La información que se incluye en el problema mediante la distribución a priori suele ser

subjetiva. En el apartado anterior comentábamos de qué manera se puede incluir la infor-

mación de que una moneda debería estar casi equilibrada, en el estudio de la probabilidad

de obtener cara.

Se puede utilizar la experiencia de una persona en el campo de trabajo donde se esté

realizando el estudio estadístico. Se puede incluir su opinión a traves de la distribución a

priori.

En algunos casos, también se puede considerar una distribución a priori que no contenga

información.

Si es acotado, entonces la distribución uniforme en es no informativa. La función

de densidad es constante, y entonces la probabilidad de un intervalo en es proporcional

a la amplitud del intervalo. No hay zonas con mayor densidad de probabilidad que otras.

En el ejemplo 1 considerábamos una distribución a priori uniforme, en = (0; 1).

Si es un intervalo no acotado, entonces no existe la distribución uniforme en : para

cualquier constante positiva c, la función constante ( ) = c tiene integral sobre que vale

1, y por tanto no puede valer 1. En un intento de acercarnos a una distribución que no

concentre mayor probabilidad en unas zonas que en otras, podemos repartir la probabilidad

en un rango amplio de valores. Comentamos como llevar a cabo ésto en el ejemplo 3.

En el ejemplo 3 se estudia el parámetro para una distribución teórica N ( ; ) con

conocida, con distribución a priori N ( 0; 0 ). Cuanto mayor es 0, menos informativa es

la N ( 0; 0 ). Comprobamos cual es el efecto en la distribución a posteriori. Se obtuvo que

( =x) N( 1; 1 ), con

2 2 2 1
0
1 = 0 + 2x = 0 + x,y (2.57)
2 + n 02 2 =n + 0
2 +n 2
0
2= n 02 + 1
2 1
1 = 1 . (2.58)
2 + n2
0

Tomando el límite cuando ! 1, se obtiene que para grande 'xy 2 ' 2 =n, y
0 0 1 1

entonces estos momentos a posteriori tienden a no depender de 0 ni de 0 para 0 grande.

15
2. Introducción a la inferencia bayesiana

En ocasiones, se utiliza el arti…cio de utilizar formalmente una función no negativa ( )


R
con ( ) d = 1, como si fuera una función de densidad a priori. A una tal función

( ) la denominamos función de densidad impropia.

En particular, ésto permite considerar lo que sería una “distribución uniforme” sobre

cuando es no acotado; por ejemplo, para el caso normal que acabamos de comentar. En

el cálculo de ( =x), el elemento ( ) = c se cancela en el numerador con el denominador:

( ) f (x= ) c f (x= )
( =x) = R = R (2.59)
( ) f (x= ) d c f (x= ) d
f (x= )
=R . (2.60)
f (x= ) d

Obsérvese que aunque ( ) no sea una función de densidad, ( =x) sí lo es:


Z Z
f (x= )
( =x) d = R (2.61)
f (x= ) d
Z
1
= R f (x= ) d = 1 . (2.62)
f (x= ) d

La utilización de tal ( ) es formalmente válida porque, aunque no sea función de densidad,

se puede operar con ella para el cálculo de ( =x), obteniéndose una función de densidad.

Ejemplo 6. Se desea estudiar para una distribución normal N ( ; ) con conocida,

con = R. Se considera a priori para la función de densidad impropia ( ) = 1. Se ha

observado la muestra x1 ; : : : ; xn . Determina la distribución a posteriori.

Solución: Por (2.59, 2.60) se tiene que ( =x) / f (x= ). Operando, se obtiene

1 Pn
( =x) / f (x= ) / exp 2 i=1 (xi )2 (2.63)
2
1 Pn 2 2
= exp 2 i=1 xi +n 2n x
2
1 Pn 2 1 2
= exp 2 i=1 xi exp 2
n 2n x (2.64)
2 2
1 2
/ exp 2
n 2n x (2.65)
2
1 n 2 x
= exp 2 2
+n 2
. (2.66)

Entonces, la función de densidad ( =x) tiene una estructura como la del ejemplo 3:

depende del argumento a través de la exponencial de un polinomio de segundo grado.

16
2.4 Distribuciones a priori no informativas

Razonamos como en el ejemplo 3 para obtener que la distribución a posteriori es normal,

calculando también los parámetros. Para completar el cuadrado, consideramos la igualdad

a( b)2 = a 2 2ab + ab2 , planteamos las ecuaciones

1 n x
2 2
=a , n 2
= 2ab , (2.67)

y despejamos, obteniendo b = x. Entonces, con estos valores de a y b se obtiene,

1 n 2 x 2
( =x) / exp 2 2
+n 2
= exp a 2ab (2.68)

/ exp a 2 2ab exp ab2 = exp a 2 2ab + ab2 (2.69)


n o n o
1 n
= exp a ( b)2 = exp 2 2 ( x)2
(2.70)
1
= exp 2 =n)
( x)2 para 1< <1. (2.71)
2 (
Recuérdese que aquí el argumento es , y el resto de elementos son constantes: 2 es

conocida y x es función de la realización muestral x1 ; : : : ; xn . La densidad normal N ( 1; 1)

tiene esta estructura, con =xy 2 = 2 =n, y entonces


1 1

( =x) N x; p . (2.72)
n

Recuérdese que en inferencia clásica el parámetro (considerado …jo y desconocido) se

estima mediante X, que tiene distribución N ; pn . En el análisis bayesiano que hemos

realizado en este ejemplo, con distribución a priori no informativa, se obtiene una conclusión

similar, pero con diferente interpretación. La conclusión en ambos casos es que la media

muestral menos tiene distribución N 0; pn , pero en el enfoque clásico es …jo y X es

la variable aleatoria:

X N 0; p . (2.73)
n
En el enfoque bayesiano se considera una muestra …ja x1 ; : : : ; xn y es la variable aleatoria:

( x=x1 ; : : : ; xn ) N 0; p . (2.74)
n

Como vemos, el hecho de poder ignorar las constantes multiplicativas simpli…ca las

operaciones, puesto que no hay que calcular integrales. Además, simpli…ca también las

expresiones al omitir estas constantes.

17
2. Introducción a la inferencia bayesiana

2.5. Actualización de la distribución a priori con muestras

sucesivas

Después de actualizar la distribución a priori ( ) incorporando la información pro-

porcionada por la muestra x1 ; : : : ; xn , mediante la obtención de la distribución a posteriori

( =x1 ; : : : ; xn ), podemos repetir el proceso.

La información actual sobre el parámetro después del muestreo viene dada por la dis-

tribución a posteriori ( =x), y ésta se convierte en la nueva distribución a priori, que

incorpora toda la información disponible sobre . Si se obtiene una nueva m.a.s, de tamaño

k, xn+1 ; : : : ; xn+k , independiente de la muestra anterior x1 ; : : : ; xn , podemos incorporar la

nueva información obtenida. Simplemente, consideramos a ( =x1 ; : : : ; xn ) como distribu-

ción a priori, que es la información actual sobre , y aplicamos la fórmula para calcular la

distribución a posteriori.

Si partimos de ( ) y consideramos las dos muestras como una única muestra, la

distribución ( =x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k ) debe coincidir con la distribución descrita en

el párrafo anterior. Lo comprobamos.

Partimos de una distribución a priori ( ), obtenemos una muestra x1 ; : : : ; xn , y cal-

culamos la distribución a posteriori ( =x1 ; : : : ; xn ):

( ) f (x1 ; : : : ; xn = )
( =x1 ; : : : ; xn ) = / ( ) f (x1 ; : : : ; xn = ) . (2.75)
m (x1 ; : : : ; xn )

Ahora obtenemos una nueva muestra xn+1 ; : : : ; xn+k independiente de la muestra anterior

(para cada valor de ). Se tiene que

f (x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k = ) = f (x1 ; : : : ; xn = ) f (xn+1 ; : : : ; xn+k = ) . (2.76)

Denotamos por

( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) (2.77)

a la distribución a posteriori para la muestra xn+1 ; : : : ; xn+k considerando ( =x1 ; : : : ; xn )

18
2.5 Actualización de la distribución a priori con muestras sucesivas

como distribución a priori. Comprobamos que coincide con ( =x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k ).

( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) / ( =x1 ; : : : ; xn ) f (xn+1 ; : : : ; xn+k = ; x1 ; : : : ; xn )

= ( =x1 ; : : : ; xn ) f (xn+1 ; : : : ; xn+k = ) (2.78)

/ ( ) f (x1 ; : : : ; xn = ) f (xn+1 ; : : : ; xn+k = ) (2.79)

= ( ) f (x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k = ) (2.80)

= ( =x1 ; : : : ; xn+k ) (2.81)

Puesto que tanto ( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) como ( =x1 ; : : : ; xn+k ) son funciones

de densidad (la integral vale 1), se tiene que

( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) = ( =x1 ; : : : ; xn+k ) . (2.82)

Ejemplo 7. Consideremos una distribución teórica de Bernoulli, B (1; ), y una distribu-

ción a priori ( ) Beta ( ; ). Se obtuvo en primer lugar una muestra x1 ; : : : ; xn , con


Pn Pn+k
i=1 xi = t1 , y después otra muestra xn+1 ; : : : ; xn+k , con i=n+1 xi = t2 . Comprueba en

este caso particular lo que acabamos de comprobar en general: que es indiferente obtener

la distribución a posteriori considerando la muestra formada por la reunión de las dos, u

obtenerla incorporando primero la información de una muestra y luego la de la otra.

Solución: Por el ejemplo 2, página 8, se tiene que

( =x1 ; : : : ; xn ) Beta ( + t1 ; +n t1 ) . (2.83)

Entonces,

( =x1 ; : : : ; xn ; xn+1 ; : : : ; xn+k ) Beta ( + (t1 + t2 ) ; + (n + k) (t1 + t2 )) . (2.84)

Por otra parte, ( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) Beta (( + t1 ) + t2 ; ( + n t1 ) + k t2 ),

esto es

( =x1 ; : : : ; xn =xn+1 ; : : : ; xn+k ) Beta ( + t1 + t2 ; +n+k t1 t2 ) (2.85)

19
2. Introducción a la inferencia bayesiana

2.6. Estimación puntual bayesiana

El estimador bayesiano es la distribución a posteriori. A partir de ella se pueden intro-

ducir procedimientos análogos a los de la inferencia clásica. Podemos considerar un valor

destacado de esta distribución como estimación puntual, una región de alta probabilidad

para obtener un intervalo de con…anza, y las probabilidades de las hipótesis para realizar

un contraste.

Estudiamos en este apartado la estimación puntual bayesiana.

En primer lugar, hacemos un breve comentario sobre la noción de su…ciencia bayesiana.

La idea es la misma que en el análisis clásico. Un estadístico es su…ciente si incluye toda

la información que aporta la muestra sobre el parámetro. Pero en el análisis bayesiano se

formula de una manera diferente: el estadístico T = T (x1 ; : : : ; xn ) es su…ciente si se tiene

que ( =x1 ; : : : ; xn ) = ( =t), con t = T (x1 ; : : : ; xn ), para cualquier distribución a priori

( ).

Mediante el uso adecuado de probabilidades condicionadas, se demuestra que los es-

tadísticos su…cientes bayesianos son los mismos que los estadísticos su…cientes clásicos,

estudiados en la asignatura Estimación I. No presentamos aquí la demostración.

Como estimación puntual, podemos considerar algún parámetro de centralización de

la distribución ( =x). Los principales parámetros de centralización (también llamados de

posición o de localización) de una distribución de probabilidad son la esperanza, la mediana

y la moda.

Para ( ) constante (esto es, no informativa, propia o impropia) la moda a posteriori

coincide con el estimador clásico de máxima verosimilitud. Ya se comprobó después del

ejemplo 1, página 6, con distribución a priori propia. En el caso impropio el razonamiento

es el mismo: se tiene que

( =x) / ( ) f (x= ) / f (x= ) ; (2.86)

obsérvese que f (x= ) = L ( ) es la función de verosimilitud, puesto que la variable es

, y la muestra es …ja; entonces, la moda a posteriori, que es el valor de que maximiza

20
2.6 Estimación puntual bayesiana

( =x), coincide con el valor de que maximiza L ( ), que es la estimación de máxima

verosimilitud.

En lugar de la moda, se suelen utilizar la esperanza (principalmente) y la mediana,

puesto que cumplen propiedades de optimalidad, como comentamos a continuación.

Consideremos un estimador puntual T y una función de perdida L (t; ), siendo t la

estimación puntual t = T (x1 ; : : : ; xn ) de con la muestra (x1 ; : : : ; xn ). El valor de t es

…jo y la distribución a priori para es ( ). Se de…ne la perdida …nal esperada como la

esperanza de L (t; ) para la distribución a posteriori:

P F E(T ) = E [L (t; ) =x1 ; : : : ; xn ] . (2.87)

Es conveniente identi…car y utilizar estimadores con pérdida …nal esperada mínima.

Consideremos la función de pérdida cuadrática L (t; ) = ( t)2 . En este caso,


h i
PFE = E ( t)2 =x1 ; : : : ; xn . (2.88)
h i
Para una variable aleatoria cualquiera Z, se tiene que la expresión E (Z t)2 se min-

imiza con t = E [Z]. Entonces, la P F E en (2.88) se minimiza tomando t = E [ =x] =

E [ =x1 ; : : : ; xn ], la esperanza de la distribución a posteriori ( =x), que estamos llamando

1 en este capítulo. (Téngase en cuenta que 0 es la esperanza a priori de la v.a. y 1

es la esperanza a posteriori, que son distintas de la esperanza de la distribución teórica

= E [Xi ]). Ésto determina el estimador puntual

T (x) = E [ =x] = 1 , (2.89)

que se denomina estimador bayesiano o estimador Bayes. Su P F E vale


h i
PFE = E ( E [ =x])2 =x = V [ =x] , (2.90)
h i
2 2
esto es, P F E = E ( 1 ) =x = 1, que es la varianza de la distribución a posteriori

( =x).

Ejemplo 8. La proporción de enfermos en una determinada colectividad puede ser

modelizada mediante una variable aleatoria con distribución beta. De estudios previos,

21
2. Introducción a la inferencia bayesiana

puede suponerse que Beta (5; 10) (con 0 = 1=3 y 0 = 00 118). En una muestra de

100 individuos hay 20 enfermos. Determina la estimación bayesiana de y la pérdida …nal

esperada. Considera el estimador clásico centrado adecuado, determina su ECM , y realiza

la estimación con este estimador.


P
Solución: La distribución teórica es de Bernoulli, y se ha observado xi = 20, con

n = 100. Por el ejemplo 2, página 8, se tiene que

( =x) Beta (25; 90) (2.91)

( + t = 5 + 20 y +n t = 10 + 100 20). Entonces, la estimación bayesiana es

b = E [ =x] = E [Beta (25; 90)] = 25 5


= = 00 217 = 1 , (2.92)
25 + 90 23

con pérdida …nal esperada

P F E = V [ =x] = V [Beta (25; 90)] (2.93)


25 90
= 2 = 00 00147 = 2
1 . (2.94)
(25 + 90) (25 + 90 + 1)
El estimador clásico centrado adecuado es el estimador centrado de uniformemente

mínima varianza (es el estimador centrado óptimo, considerando pérdida cuadrática). Este

estimador del parámetro es X para la distribución teórica de Bernoulli que estamos

considerando y, por otra parte, coincide con el estimador de máxima verosimilitud y con

el obtenido por el método de los momentos. La estimación vale

e = x = 20 = 00 2 , (2.95)
100

y el ECM del estimador vale


h i (1 ) x (1 x)
2
ECM = E X =V X = ' = 00 00162 . (2.96)
n n 1

La aproximación se ha obtenido estimando 2 = V [Xi ] = (1 ) mediante la cuasivari-

anza muestral S 2 (el estimador clásico, puesto que hablamos de ECM ), y que en el caso
n
de distribución teórica de Bernoulli se simpli…ca, obteniéndose S 2 = n 1 x (1 x).

La muestra aporta información sobre el parámetro, sobre el que se disminuye la incer-

tidumbre, lo que hace que disminuya la varianza de su distribución (al pasar de prior a
p
posterior): 1 = 0;00147 = 00 0383 < 00 118 = 0 .

22
2.6 Estimación puntual bayesiana

La estimación (clásica) e = x = 00 2 solo depende de la muestra. La estimación bayesiana


b = E [ =x] = 00 217 depende de la muestra y de la distribución a priori, y toma un valor

comprendido entre 0 = 1=3 y x.

Aunque el ECM y la P F E no tienen una correspondencia directa, en este ejemplo el

hecho de sea P F E < ECM (00 00147 < 00 00162) re‡eja la mejora en precisión que supone

la utilización de la información a priori.

Ejemplo 9. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica B (1; ),

y una distribución a priori Beta ( ; ). Determina el estimador Bayes. ¿Cual es el

estimador para una distribución a priori U (0; 1)?

Solución: Por el ejemplo 2, página 8, se tiene que

( =x) Beta ( + t; +n t) , (2.97)

y entonces la estimación Bayes es

b = E [ =x] = E [Beta ( + t; +t
+n t)] = . (2.98)
+ +n

Puesto que la U (0; 1) es la Beta (1; 1), se tiene con esta distribución a priori que

b = t + 1 = x + 1=n . (2.99)
n+2 1 + 2=n

Este estimador es distinto del estimador clásico x, aunque para n grande toman valores

cercanos.

Ejemplo 10. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica N ( ; )

con conocida, y una distribución a priori N( 0; 0 ). Determina el estimador bayesiano.

Solución: Por el ejemplo 3, página 10, se tiene que


2 n 02
b = E [ =x] = = +
1 2 +n 2 0 2+n 2x . (2.100)
0 0

23
2. Introducción a la inferencia bayesiana

Ejemplo 11. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica N ( ; )

con conocida, y una distribución a priori no informativa. Determina el estimador bayesiano

y la P F E. Compáralo con el estimador clásico y su ECM .

Solución: Por el ejemplo 6, página 16, se tiene que

( =x) N x; p . (2.101)
n

Entonces, la estimación bayesiana es

p
b = E [ =x] = E N x; = n =x, (2.102)

y la P F E es
p 2
P F E = V [ =x] = V N x; = n = =n . (2.103)
p
El estimador clásico adecuado es X, que es centrado para , con distribución N ( ; = n),

y tiene entonces error cuadrático medio ECM = V X = 2 =n. Se observa que el ECM

de X coincide con la P F E de x, considerado como estimador bayesiano con distribución a

priori no informativa.

En todos los ejemplos estamos considerando una distribución a priori de una familia

paramétrica, y suponemos que los valores de sus parámetros están dados. Se han ofrecido

algunas indicaciones sobre la elección del valor de los parámetros. Existen distintas técnicas

para la elección de estos valores, que no estudiamos.

El análisis para una distribución teórica normal con ambos parámetros desconocidos

involucra una distribución a priori bidimensional. No estudiamos este caso.

Considerando la pérdida absoluta L (t; ) = j tj, se obtiene que el estimador con

pérdida …nal esperada mínima es la mediana de ( =x).

2.7. Intervalos de con…anza bayesianos

Recordamos la noción de intervalo de con…anza para en inferencia clásica, con dis-

tribución teórica continua. Sean T1 = T1 (X1 ; : : : ; Xn ) y T2 = T2 (X1 ; : : : ; Xn ) estadísticos

24
2.7 Intervalos de con…anza bayesianos

unidimensionales tales que

P fT1 < < T2 g = 1 para todo . (2.104)

Dada una realización muestral x = (x1 ; : : : ; xn ), al intervalo numérico

(T1 (x) , T2 (x))

se le denomina intervalo de con…anza (IC) para con nivel de con…anza 1 . Una vez

observada la muestra x1 ; : : : ; xn , el intervalo obtenido puede incluir o no el verdadero valor

de , considerado …jo y desconocido, y medimos el grado de con…anza en que lo incluya

mediante el nivel de con…anza.

Un error común del principiante en el estudio de los IC es entender el nivel de con…anza

como la probabilidad de que el intervalo incluya el verdadero valor de . Ésto no tiene

sentido porque el valor de es …jo, constante, y no una variable aleatoria. Sin embargo, sí

tiene sentido desde un punto de vista bayesiano, en el que es una variable aleatoria. De

hecho la de…nición de IC bayesiano está basada en ello.

Consideramos el caso en que la distribución a priori ( ) es continua. Sean T1 y T2

estadísticos unidimensionales. Dada una realización muestral x, si

P fT1 < < T2 = xg = 1 , (2.105)

al intervalo numérico

(T1 (x) , T2 (x)) (2.106)

se le denomina intervalo de con…anza bayesiano, o región creible, con probabilidad 1 .

Aquí sí podemos hablar con propiedad de la probabilidad de cubrir el verdadero valor

con el IC bayesiano. Esta probabilidad vale 1 .

Obsérvese que en (2.105) T1 y T2 son constantes, valen T1 = T1 (x) y T2 = T2 (x),

puesto que la distribución que se considera es condicionada con x. El elemento aleatorio

en (2.105) es .

Entonces, para obtener un IC hay que determinar una región del espacio paramétrico

, función de la muestra, con probabilidad a posteriori 1 .

25
2. Introducción a la inferencia bayesiana

Eligiendo la región con los valores mas grandes de la función de densidad ( =x) se

consigue el intervalo con menor amplitud. Sin embargo, es habitual considerar el intervalo

que deja probabilidad =2 a su derecha y =2 a su izquierda; con distribución simétrica,

como la normal, éste es precisamente el intervalo con menor amplitud.

Ejemplo 12. Consideremos una muestra x1 ; : : : ; xn de una distribución teórica N ( ; 1),

y una distribución a priori N (0; 1). Determina un IC bayesiano para . Se obtuvo una
Pn
muestra de tamaño 24 con i=1 xi = 70 2; determina el correspondiente IC con probabilidad

00 95.

Solución: Por el ejemplo 3, página 10, se tiene que la distribución posterior es


2 n 02 n 2 1 1
( =x) N( 1; 1 ), con 1 = 2 +n 2 0 + 2 +n 2 x= 1+n x y 1 = 1 n = 1+n , esto es,
0 0 2+ 2
0

n 1
( =x) N x; p . (2.107)
n+1 n+1
Determinamos el intervalo que deja probabilidad =2 a su derecha y =2 a su izquierda.
n
Es un intervalo simétrico respecto de n+1 x, puesto que la distribución normal es simétrica

(respecto de su esperanza). Entonces, el intervalo es un conjunto de valores para de la


n o
n
forma : n+1 x < c , para un valor de c adecuado, que calculamos a continuación.
n
n x c
1 =P x <c x =P p n+1 < p x (2.108)
n+1 1= n + 1 1= n + 1
p
= P jN (0; 1)j < c n + 1 . (2.109)
p
Entonces, debe ser c n + 1 = z =2 (siendo z el valor tal que P fN (0; 1) > z g = ). Por
p
tanto, c = z =2 = n + 1 y entonces

n z =2 n z =2 n z =2
: x <p = : x p < < x+ p
n+1 n+1 n+1 n+1 n+1 n+1
n z =2 n z =2
= x p , x+ p , (2.110)
n+1 n+1 n+1 n+1
es un IC bayesiano con probabilidad 1 , que denotamos por

n z =2
x p . (2.111)
n+1 n+1
Pn
Con nx = i=1 xi = 70 2, n = 24, se obtiene el IC para

00 288 00 392 = 00 104; 00 680 , (2.112)

26
2.8 Contrastes de hipótesis bayesianos

con probabilidad 1 = 00 95 (z =2 = 10 96).

2.8. Contrastes de hipótesis bayesianos

Un método bayesiano de contraste consiste en aceptar la hipótesis con mayor probabil-

idad a posteriori dada la muestra:

C = fx : P (H1 /x) > P (H0 /x)g . (2.113)

Con este método, hay un tratamiento simétrico de ambas hipótesis, a diferencia de lo que

ocurre en los contrastes clásicos, donde el objetivo es limitar la probabilidad de error de

tipo I.

Para una hipótesis simple, por ejemplo H0 : = 0, el cálculo se realiza de la siguiente

manera:
( 0 ) f (x/ 0 )
P (H0 /x) = P f = 0 / xg = ( 0 /x) = . (2.114)
m (x)
El factor Bayes se de…ne como:

P (H0 /x) = P (H1 /x)


Bay (x; H0 ; H1 ) = . (2.115)
P (H0 ) = P (H1 )

Mide el reforzamiento al apoyo de la hipótesis nula producido por la muestra, respecto

al que tenía a priori.

27

S-ar putea să vă placă și