Documente Academic
Documente Profesional
Documente Cultură
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/275893178
CITATIONS READS
0 686
2 authors:
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Humberto Gutirrez Pulido on 05 May 2015.
U n i v e r s i da d de G ua da l a ja r a
2013
ndice
P r e fac i o 11
1. G e n e r a l i da d e s d e l a e s ta d s t i c a B ay e s i a na 13
1.1 I n t ro d u c c i n 13
1.2 T eorema de B ay e s 17
1.3 D istribuciones a priori y posterior 19
1.4 D istribucin p r e d i c t i va 21
1.5 E squema de decisiones 23
1.6 P r e g u n ta s y e j e rc i c i o s 25
2. m to d o s b a s a d o s e n v e ro s i m i l i t u d 27
2.1 v e ro s i m i l i t u d pa r a m o d e lo s d i s c r e to s 28
2.2 v e ro s i m i l i t u d pa r a m o d e lo s c o n t i n u o s 33
2.3 v e ro s i m i l i t u d pa r a dato s c e n s u r a d o s 35
2.4 P ro p i e da d e s d e l a v e ro s i m i l i t u d 40
2.5 V e ro s i m i l i t u d c o n d o s o m s pa r m e t ro s 43
2.6 V e ro s i m i l i t u d perfil 48
2.7 S core, i n f o r m ac i n y a p rox i m ac i n n o r m a l 50
2.8 V e ro s i m i l i t u d pa r a o t ro s m o d e lo s 55
2.9 P r e g u n ta s y e j e rc i c i o s 56
[7]
3. E s p e c i f i c ac i n de distribuciones a priori 63
3.1 M to d o pa r a d i s t r i b u c i o n e s c o n u n pa r m e t ro 65
3.2 A p r i o r i pa r a e l M o d e lo N o r m a l 70
3.3 M to d o d e m o m e n to s pa r a d i s t r i b u c i o n e s c o n d o s pa r m e t ro s 73
3.4 D istribuciones a p r i o r i n o i n f o r m at i va s 76
3.5 P r e g u n ta s y e j e rc i c i o s 77
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 81
4.1 M o d e lo binomial 81
4.2 M o d e lo p o i s s o n 85
4.3 M o d e lo Exponencial 88
4.4 M o d e lo Normal 94
4.4 P r e g u n ta s y e j e rc i c i o s 100
5. E s t i m ac i n y p ru e b a d e h i p t e s i s 105
5.1 E s t i m ac i n 105
5.2 E s t i m ac i n p o r i n t e rva lo s d e p ro b a b i l i da d 112
5.3 P ru e b a (contraste) de hiptesis 114
5.4 F ac to r de B ay e s 116
5.5 P r e g u n ta s y e j e rc i c i o s 117
8. E squema d e d e c i s i n b ay e s i a na 147
8.1 T oma d e d e c i s i o n e s ( f u n c i n d e u t i l i da d ) 147
8.2 E leccin de tiempos de garanta 151
8.3 E j e m p lo : t i e m p o d e g a r a n t a pa r a a m o rt i g ua d o r e s 157
8.4 P r e g u n ta s y e j e rc i c i o s 159
9. C a rta s d e c o n t ro l b ay e s i a na s pa r a at r i b u to s 163
9.1 I n t ro d u c c i n 163
9.2 C a rta s b ay e s i a na s u y c 168
9.3 C a rta s b ay e s i a na s p y np 172
9.4 P r e g u n ta s y e j e rc i c i o s 174
A pndices 177
a . a x i o m a s pa r a l a e s ta d s t i c a b ay e s i a na 179
b . P ro g r a m a s e n s - p lu s 181
B Ibliografa 189
[9]
P r e fac i o
Captulo 1
Generalidades de la Estadstica
Bayesiana
En este captulo se tratan los principales conceptos de la estadstica Bayesiana, que permi-
tiran en el resto de los captulos centrarnos en problemas o aplicaciones especiales de la
estadstica Bayesiana.
1.1.I n t ro
1.1 Introduccion
duccin
tanto para realizar inferencias estadsticas como para tomar decisiones bajo incertidumbre.
La estadstica Bayesiana puede ser derivada de un sistema axiomatico para la eleccion de
eventos (ver apendice), no se sale del marco de la probabilidad y proporciona una metodo-
loga coherente que permite incorporar formalmente informacion inicial (a priori).
El paradigma Bayesiano se basa en una interpretacion de la probabilidad como una
medida condicional de incertidumbre, que esta estrechamente relacionada con la interpre-
tacion de la palabra probabilidad del lenguaje ordinario. De esta manera probabilidad es
una medida de lo que se sabe a cerca de un evento y siempre es contextual (es decir esta con-
dicionada). Comprueba que tan verosmil es dicho suceso y en un sentido amplo es una
medida de lo que sabemos acerca del mismo. En general Probabilidad es un termino utili-
zado en la vida diaria, que nos ayuda a crear una idea sobre la posibilidad que suceda un
determinado suceso bajo un contexto de incertidumbre. Antes de continuar veamos, otras
interpretaciones de la probabilidad.
Tanto la estadstica tradicional como la Bayesiana dependen del concepto de probabi-
lidad. Desde el punto de vista matematico propiamente dicho no hay discrepancia, ya que
si es un experimento aleatorio con espacio muestral , una distribucion de probabilidad
P() es una funcion real definida para todos los eventos medibles contenidos en , y que
satisface los axiomas de Kolmogorov o leyes de la probabilidad:
1. P(A) 0, para todo A ,
2. P() = 1,
3. Para cualquier secuencia de eventos disjuntos A 1 , A 2 , . . . contenidos en , se cumple
que P(A 1 A 2 ) = P(A 1 ) + P(A 2 ) +
Probabilidad clasica. Esta se define por una regla del tipo m entre k, y parte del hecho
que = {E 1 , E 2 , . . . , E k } tiene k resultados que son juzgados como igualmente proba-
bles y cuando un evento A consiste de m de estos k resultados, entonces P(A) = mk . Es
claro, que muchas de las aplicaciones practicas, la repeticion de experimentos varias veces
bajo identicas condiciones es imposible, por lo que inevitablemente en esas circunstancias
aparece una carga subjetiva en cuanto a la probabilidad de un resultado.
Probabilidad frecuentista. Se define como la proporcion de veces que ocurre un even-
to en una larga cantidad de replicas de un experimento aleatorio. La probabilidad clasica
objetiva se puede ver como un ejemplo de la probabilidad frecuentista.
Probabilidad subjetiva. Esto mide la incertidumbre que tiene un individuo sobre la ocu-
rrencia de un evento, y puede variar de un individuo a otro. Esta forma de entender la pro-
babilidad (subjetiva dado que es contextual y condiciona a lo que se sabe) es parte del origen
del debate entre los metodos estadsticos tradicionales y la estadstica Bayesiana.
El que la metodologa Bayesiana unicamente requiera las matematicas de una teora
general de la probabilidad perfectamente justificada, y el concepto de probabilidad que co-
1.1. INTRODUCCION 3
1. G e n e r a l i da d e s d e l a e s ta d s t i c a B ay e s i a na 15
rresponde al uso convencional de esa palabra en el lenguaje cotidiano; son muy importan-
tes: por una parte, los metodos Bayesianos reducen los problemas de inferencia estadsti-
ca a problemas de la teora de la probabilidad, lo que hace esencialmente innecesaria la
introduccion de nuevos conceptos. Por otra parte, la metodologa Bayesiana proporciona
una justificacion logica a muchos de los procedimientos estadsticos convencionales co-
mo aproximaciones adecuadas (especialmente en el caso de grandes muestras), al hacer
explcitas las condiciones que resultan necesarias para garantizar su validez (ver Bernardo,
2000). En el apendice se presenta axiomas para la verosimilitud entre eventos que permiten
fundamentar la estadstica Bayesiana.
En los ultimos treinta anos han aparecido cada vez mas metodologas Bayesianas que
resuelven problemas complejos que son intratables con las metodologas tradicionales (ver
Bernardo, 2003). En decadas pasadas las polemicas entre estadsticos que defendan su para-
digma (Bayesiano vs. tradicional) fueron intensas, pero con el paso del tiempo se ha dismi-
nuido la intensidad de esos debates y cada vez son mas los estadsticos que se han acercado
a conocer los metodo Bayesianos y aplicarlos en sus investigaciones. Aqu no se va a pole-
mizar, y solo se presentaran los aspectos principales del paradigma Bayesiano y algunos de
sus metodos.
En la figura 1.1 se muestra un esquema general sobre el paradigma Bayesiano ya sea para
modelar la realidad o para tomar una decision. Donde se parte de dos posibles objetivos:
caracterizar (modelar) la realidad y/o tomar una decision. A partir de esto se establece lo
que se sabe antes de obtener datos y se incorpora formalmente a traves de una distribucion
de probabilidad a priori, al aplicar algun metodo apropiado (ver captulo 3). Si se considera
necesario para cumplir el objetivo sera necesario recabar nuevos datos (muestras). La in-
formacion contenida en los datos sobre los parametros de interes se sintetiza a traves de la
funcion de verosimilitud. El teorema de Bayes establece como debe integrarse el conoci-
miento inicial y la evidencia aportada por los datos, para obtener el modelo de la realidad
o distribucion de probabilidad posterior .
Como se representa en la figura 1.1, la integracion del conocimiento de la realidad con
las decisiones que se quieren tomar, se hace a traves de una funcion de decision, que tambien
se conoce como funcion de utilidad o perdida. La decision optima es aquella que maximi-
za la utilidad espera o minimiza la perdida esperada. Como se vera a lo largo del libro, en
muchas aplicaciones de la estadstica existen muchos problemas de decision que requie-
ren esquemas optimos de decision como el que propone la estadstica Bayesiana, pero que
sin embargo el uso de ciertos metodos estadsticos tradicionales realmente no resuelven el
problema de decision, y al final de cuentas el usuario de la estadstica tiene que tomar una
decision sin la estimacion adecuada entre consecuencias y estado de la realidad. En el resto
del presente captulo se establecen los conceptos principales que se derivan del esquema de
la figura 1.1.
Tambien la figura 1.1 nos sirve para comentar que siempre que se quiere obtener datos
en un contexto de incertidumbre, ya sea en un analisis cientfico y/o un problema real, el
4 CAPITULO 1. GENERALIDADES DE LA ESTADISTICA BAYESIANA
16 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 1.1
Esquema general del paradigma bayesiano
primer reto es clarificar el objetivo que se persigue y las interrogantes que se desee respon-
der, para que todas las actividades esten bien enfocadas. Una vez obtenidos los datos o en
caso que ya se tengan, una regla de oro es analizar en forma descriptiva los mismos, para
detectar patrones, tendencias, relaciones entre variables, etcetera. Por lo que un analisis Ba-
yesiano formal debe ser antecedido de un analisis descriptivo, y para ello se debe aplicar las
tecnicas graficas y analticas apropiadas de la estadstica.
1.2.T e o rTeorema
1.2
de Bayes
e m a d e B ay e s
La version general del teorema de Bayes1 , que se puede encontrar en muchos libros de
probabilidad y estadstica, establece lo siguiente.
Teorema 1.1 Suponer que E 1 , E 2 , . . . , E k constituyen una particion finita del espacio muestral
, tal que P(E i ) > 0 para i = 1, . . . , k; y sea B cualquier evento tal que P(B) > 0. Entonces
para todo E i se cumple que
P(BE i )P(E i )
P(E i B) = (1.1)
j=1
k
P(BE j )P(E j )
Demostracion. Por la definicion de probabilidad condicional se tiene que
P(B E i )
P(E i B) =
P(B)
y P(B E i ) = P(BE i )P(E i ). Por lo que el teorema se demuestra si se ve que P(B) es igual
al denominador de la parte derecha de (1.1). Para ello veamos que dada la particion se tiene
que B = j (BE j ), y como los E j son disjuntos (al formar una particion), entonces (BE j )
tambien son disjuntos, por lo tanto
P(B) = P( j (B E j ))
k
= P(B E j )
j=1
k
= P(BE j )P(E j )
j=1
1 En
1763 la Royal Society dio a conocer el trabajo An essay towards solving a problem in the doctrine of
changes, el trabajo comunicado por R. Price fue atribuido a Tomas Bayes (1701-1761), clerigo y matematico ingles
que haba muerto dos anos antes. Bayes solo demostro su teorema para una distribucion a priori uniforme, y
Laplace en 1774, sin conocer el trabajo de Bayes, genero la forma general discreta del teorema de Bayes.
6 CAPITULO 1. GENERALIDADES DE LA ESTADISTICA BAYESIANA
18 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Ejemplo 1.1 Identificacion del origen de un artculo defectuoso. Un lote grande de artculos
fue fabricado por tres lneas de produccion, A 1 , A 2 y A 3 ; en porcentajes del 25 %, 20 % y 55 %,
respectivamente. Se sabe que el porcentaje de artculos defectuosos con la que produce las lneas
A 1 , A 2 y A 3 es del 1 %, 1.5 % y 2 %, respectivamente. Suponer que se selecciona al azar del lote
un artculo y se encuentra que es defectuoso, cual es la probabilidad que se haya producido
en la lnea A 1 ?
Sea A i el evento de que el artculo seleccionado haya sido fabricado por la lnea A i
(i = 1, 2, 3), y sea B el evento de que el artculo seleccionado sea defectuoso. Por lo que
interesa calcular P(A 1 B). Claro que P(A 1 ) = 0 25, P(A 2 ) = 0 20 y P(A 3 ) = 0 55. Ademas
la probabilidad P(BA i ) de que un artculo producido por la lnea A i sea defectuoso es:
P(BA 1 ) = 0 01, P(BA 2 ) = 0 015 y P(BA 3 ) = 0 02. Luego al aplicar el teorema de Bayes
de (1.1):
P(BA 1 )P(A 1 )
P(A 1 B) =
P(BA j )P(A j )
j=1
3
0 01 0 25
=
0 01 0 25 + 0 015 0 20 + 0 02 0 55
= 0 151 52
que es una probabilidad mas baja que P(A 1 ). Se deja como ejercicio al lector verificar que
P(A 2 B) = 0 18182 y P(A 3 B) = 0 667. Como se puede apreciar esta ultima probabilidad es
mas grande que la probabilidad inicial de P(A 3 ), por lo que el resultado del experimento
ha modificado esa percepcion inicial.
Probabilidades inicial y final. En el ejemplo las P(A i ) se les denomina probabilidades
iniciales o a priori, debido a que esa es la probabilidad del correspondiente evento antes de
que se haya seleccionado el artculo (antes del experimento aleatorio) y antes que se sepa
que el artculo fue defectuoso. Una probabilidad como P(A 1 B) se denomina probabilidad
final o a posteriori de que el artculo seleccionado haya sido fabricado por la lnea A 1 , de-
bido a que es la probabilidad de este evento despues de saber que el artculo seleccionado
resulto defectuoso.
En muchas aplicaciones es de utilidad aplicar el teorema de Bayes para construir arbo-
les de decisiones. Por ejemplo en Pena-Reya et al. (2004) se presenta una aplicacion del
1.3. DISTRIBUCIONES A PRIORI Y POSTERIOR 7
1. G e n e r a l i da d e s d e l a e s ta d s t i c a B ay e s i a na 19
teorema de Bayes para decidir esquemas de vacunacion con base en un estudio de costos y
efectividad de una vacuna.
Una forma de enfatizar la idea de probabilidades iniciales y finales, es con la siguiente
version del teorema de Bayes.
Teorema 1.2 Si H denota una hipotesis y X los datos, entonces el teorema de Bayes, en su
forma mas simple, establece que
P (XH) P(H)
P (HX) = (1.2)
P (X)
donde P(H) es una afirmacion probabilstica de certidumbre acerca de H antes de obtener
los datos X, y P (HX) se convierte en una afirmacion probabilstica de creencia acerca de
H despues de haber obtenido los datos. En otras palabras el teorema de Bayes proporciona
una solucion al problema de que tanto se aprende de los datos. La demostracion del teorema
es directa de la definicion de probabilidad condicional.
Con estas dos versiones del teorema de Bayes, en donde se fundamenta la inferencia
Bayesiana, vale la pena comentar que quienes critican algunos aspectos de la estadstica
Bayesiana, no rechazan estos teoremas, puesto que estos teoremas se sustentan en la teora
matematica de la probabilidad. Mas bien el tema de discusion en la forma de asignar y
entender la probabilidad misma, sobre todo en lo relativo a establecer P(H). Por cierto
si H es una variable aleatoria, entonces aparece el concepto de distribuciones a priori y
posterior, que se veran enseguida.
que si los datos X = {x 1 , ..., x n } estan efectivamente constituidos por un conjunto de observaciones homogeneas
x i , entonces existe un modelo, f (xw) que describe la relacion probabilstica entre los datos obtenidos y la natu-
raleza del proceso, descrita por un parametro o estado de la naturaleza w, de forma que X constituye una muestra
aleatoria de tal modelo, y que existe ademas una distribucion de probabilidad P(w) sobre los posibles estados de
la naturaleza que describe la informacion de que inicialmente se dispone sobre la naturaleza del proceso.
8 CAPITULO 1. GENERALIDADES DE LA ESTADISTICA BAYESIANA
20 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
(, X) P(X)()
(X)= = .
f (X) P(X)()d
Al obtener la integral del denominador de (1.3) se obtiene una constante que no depende
de , por lo que ( X) es proporcional a la verosimilitud multiplicada por la distribucion
a priori:
( X) L(X ) () (1.5)
Como se ve posteriormente, este hecho en muchos casos, facilita los calculos y hara in-
necesario obtener la integral del denominador de (1.3), cosa que por lo general es compli-
cado. Por esto el denominador de (1.3) recibe el nombre de constante normalizadora de
( X). Otro nombre que recibe f (X) es el de verosimilitud integrada.
De (1.5) es claro que las inferencias respecto a estan basados en ( X), y que esta es
resultado de la contribucion de los datos a traves de la verosimilitud P(X ) y del aporte
de la informacion o conocimiento a priori dado por ().
Para variables aleatorias discretas el teorema de Bayes, toma la forma siguiente:
P(X i ) ( i )
( i X) = (1.6)
P(X j )P( j )
j
1.4.D i s tDistribucion
1.4
Predictiva
r i b u c i n p r e d i c t i va
Teorema 1.4 Bajo el supuesto de que hay independencia entre los datos, X, y la observacion
futura, x, la distribucion posterior predictiva esta dada por
f (x X) = f (x)(X)d (1.7)
Demostracion. Para demostrar esta igualdad, suponer que x y X son independientes, cosa
que se cumple en muchas aplicaciones, por lo tanto
f (x) f (X)
f (xX,)=
f (X)
= f (x) (1.9)
De aqu y de la igualdad (1.9), se obtiene la expresion (1.7), que era lo que se quera demos-
trar.
Observar que en realidad la distribucion posterior predictiva f (xX) es el valor espe-
rado de f (x) respecto a X, es decir
E X [ f (x)] = f (x)(X)d
= f (xX)
1.5. ESQUEMA DE DECISIONES 11
1. G e n e r a l i da d e s d e l a e s ta d s t i c a B ay e s i a na 23
En muchas aplicaciones (X) no tiene una forma analtica, tampoco f (X) y me-
nos f (xX). Esto genera una gran cantidad de literatura que plantean diferentes metodos
numericos para encontrar por simulacion de estas distribuciones, ver captulo 6.
Para algunas aplicaciones es necesario conocer la densidad a priori predictiva, f (x), que
de acuerdo al teorema anterior, esta dada por
y representa lo que se sabe sobre la variable aleatoria X antes del muestreo, ya que en la
integral se utiliza la distribucion a priori ()
1.5.
1 . 5 E s q uEsquema
e m a d e d e c i de
s i o nDecisiones
es
Como se bosquejo en la figura 1.1 por lo general el objetivo ultimo de un analisis estadsti-
co es tomar una decision, como por ejemplo fijar un tiempo de garanta (ver captulo 8 y
Gutierrez et al. 2006), rechazar o aceptar un lote de produccion con base en un esquema
optimo de decision, establecer polticas de mantenimiento preventivo, decidir esquemas de
vacunacion con base en un estudio de costos y efectividad de una vacuna (ver Pena-Reya
et al. 2004). Obviamente es deseable que estas decisiones esten fundamentadas en un buen
conocimiento sobre la realidad y las consideraciones adecuadas en terminos de costos y
consecuencias de la decision.
A continuacion se vera brevemente los elementos esenciales de un esquema coherente
de toma de decisiones de tipo cuantitativo. Los elementos de una decision en el contexto
de inferencia son:
5. Explicar por que se dice que el teorema de Bayes proporciona una solucion al pro-
blema de que tanto se aprende de los datos.
9. Leer los axiomas para la verosimilitud entre eventos del apendice, como sirve esto
de fundamento para la estadstica Bayesiana? Explicar.
10. En cierta planta de montaje, tres maquinas, B1 , B2 y B3 montan 30 %, 45 % y 25 % de
los productos, respectivamente. Se sabe de la experiencia pasada que 2 %, 3 % y 2 %
de los productos ensamblados por cada maquina respectivamente, tienen defectos.
Ahora suponer que se selecciona de forma aleatoria un producto determinado y se
encuentra que es defectuoso, Cual es la probabilidad de que este ensamblado por la
maquina B3 ?
11. Los resultados falsos positivos ocurren cuando una prueba reporta en forma falsa
o incorrecta un resultado positivo. Por ejemplo, una prueba medica para una en-
fermedad puede reportar un resultado positivo que indica que el paciente tiene una
enfermedad aunque que el paciente en realidad no tiene la enfermedad. Se puede uti-
lizar el teorema de Bayes para determinar la probabilidad que un resultado positivo
sea en realidad un falso positivo. En general si una enfermedad es rara (se presenta
en pocos pacientes), entonces la mayora de resultados positivos pueden ser positivos
falsos, aunque la prueba sea muy exacta. Suponer que una prueba para una enferme-
dad genera los resultados siguientes: si un paciente evaluado tiene la enfermedad, la
prueba genera un resultado positivo el 99 % de las veces (o con la probabilidad 0.99);
en cambio si un paciente evaluado no tiene la enfermedad, la prueba vuelve un re-
sultado negativo el 95 % de las veces (o con la probabilidad 0.95). Suponer tambien
que solamente el 0.3 % de la poblacion tiene esa enfermedad, de modo que un pa-
ciente aleatoriamente seleccionado tiene 0.003 de probabilidad a priori de tener la
enfermedad. Se puede utilizar el teorema de Bayes para calcular la probabilidad de
que un resultado positivo de la prueba positivo sea en realidad un falso positivo. Sea
A la condicion en la cual el paciente tiene la enfermedad, y B representa la evidencia
de un resultado positivo de la prueba.
Captulo 2
Metodos Basados en
Verosimilitud
En este captulo se ven los aspectos generales de los metodos estadsticos basados en la fun-
cion de verosimilitud. Que juega un papel central en la estadstica Bayesiana y en muchos
metodos estadsticos tradicionales.
Como se senalo en el captulo anterior el paradigma Bayesiano esta basado en espe-
cificar un modelo de probabilidad f (x ) para los datos observados, X; dado un vec-
tor de parametros de valor desconocido. El teorema de Bayes establece que (X)
P (X) (), donde P (X) es la probabilidad condicional de haber obtenido los datos X
si el valor dado de hubiese sido el verdadero estado de la naturaleza.
Una vez tomados los datos, se desea usarlos para determinar cuales de los posibles valo-
res del parametro son mas admisible (plausibles). Sobre el particular es reconocido que la
funcion de verosimilitud proporciona toda la informacion sobre contenida en los datos,
cuando la forma funcional supuesta para f es verdadera, ver Sprott(2000) y Edwards(1972).
Por ello es util saber que tan verosmil son los diferentes valores de dados los datos, y es-
to lo proporciona la funcion de verosimilitud que es una funcion de y es proporcional a
P (X), es decir
[27]
15
16 CAPITULO 2. METODOS BASADOS EN VEROSIMILITUD
28 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
2.1.v e roVerosimilitud
2.1 s i m i l i t u d pa r a m o para Modelos
d e lo s d i s c r e to s Discretos
En el caso de una variable aleatoria discreta, como la P (X = x i ) lo da la funcion de pro-
babilidad, P (X = x i ) = f (x i ), entonces dados los datos X = {x 1 , . . . , x m } y los x i
independientes entre s, entonces la funcion de verosimilitud estara dada por
L (X) = P (x 1 , . . . , x m )
= f (x 1 ) f (x 2 ) f (x m ) (2.2)
= i=1 f (x i )
m
(2.3)
Modelo binomial
Modelo Binomial
Es frecuente encontrar experimentos aleatorios con solo dos resultados, uno llamado exito y
el otro fracaso. Por ejemplo, un artculo cumple con especificaciones o no, un artculo resiste
cierta fuerza o no, una lampara esta buena o no. Un experimento aleatorio que consiste
de m ensayos repetidos tales que los ensayos son independientes, cada ensayo tiene solo
dos resultados, denominados exito y fracaso, y la probabilidad de exito en cada ensayo,
denota por p, permanece constante. Entonces este tipo de experimentos recibe el nombre
de experimento binomial. La variable aleatoria X que es igual al numero de ensayos donde
el resultado es un exito, tiene una distribucion binomial(n, p). As, dado p, la probabilidad
de obtener x exitos en n ensayos, esta dada por
n!
f (xp) = p x (1 p) con x = 0, 1, 2, . . . , n
nx
(2.4)
x! (n x)!
Ejemplo 2.1 Una universidad quiere tener informacion sobre la proporcion de estudiantes
que son fumadores habituales. Para ello se toma una muestra aleatoria de 100 estudiantes, y
resulta que 20 de ellos se catalogan como fumadores. Es razonable suponer un modelo binomial
para el numero de fumadores, por lo que de acuerdo a (2.4) la verosimilitud para p esta dada
2.1. VEROSIMILITUD PARA MODELOS DISCRETOS 17
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 29
por
n!
L (pX) = p x (1 p)
nx
x! (n x)!
p x (1 p) n = 100, x = 20
nx
, (2.5)
Notese que en la expresion final para L (px) se ha eliminado n!/ [x! (n x)!], ya que es
una constante que afecta por igual a todos los valores de L (px). Esta practica de eliminar
las constantes de la funcion de verosimilitud es muy socorrida para facilitar los calculos
numericos. As es posible evaluar L(px) para un rango amplio de valores de p, en la figura
2.1a se muestra la grafica de (2.5) dados los datos del ejemplo (x = 20, y n = 100). De
esta grafica es claro que de acuerdo a los datos, los valores mas verosmiles (plausibles,
preferibles, admisibles) de p estan entre 0 13 y 0 27 aproximadamente. Mas adelante se
vera con detalle esta idea de los intervalos.
Los calculos y graficas para este ejemplo se han hecho con el programa 1 que se muestra
en el apendice 1. El programa se ha hecho en el sistema computacional S-Plus.
Estimador de maxima verosimilitud. Para obtener el valor de p que maximiza L(px), es
practica comun, por las facilidades que ello implica, obtener de forma equivalente el valor
p que maximiza la transformacion a logaritmos log(L(px)), de esta manera al derivar
log(L(px)) respecto a p :
d d
[log(L(px))] = [x log(p) + (n x) log(1 p)]
dp dp
x (n x)
=
p (1 p)
al igualar a cero esta expresion y despejar a p se obtiene el emv
p = x/n. Que para el ejemplo
de los fumadores es p = 0 20.
Funcion de verosimilitud relativa. Un problema que se tiene cuando se trabaja con la
funcion de verosimilitud es que por lo general sus valores son pequenos (ver eje y en la
figura 2.1a) y dependen de n y x. Una forma de evitar esto es estandarizar la verosimilitud
respecto al maximo. Esto da origen a la funcion de verosimilitud relativa que de manera
general se define como:
L (X)
R (X) = (2.6)
L (X)
donde es el emv. Es claro que L(X) es una constante, por lo que R(X) tiene exacta-
mente la misma forma que L(X), con la unica diferencia que R(X) toma valores entre
0 y 1 0 R(X) 1.
En el caso binomial la verosimilitud relativa toma la siguiente forma
p x (1 p)
nx
R(px) = (2.7)
( n ) (1 ( nx ))nx
x x
30 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 2.1
Funcin de verosimilitud para modelo binomial, ejemplo fumadores
R (X) c, para 0 c 1
litud no es una afirmacion sobre la certidumbre o confianza del intervalo, sino una afir-
macion sobre la plausibilidad relativa de los puntos individuales dentro del intervalo (ver
Sprott 2000, seccion 2.8).
Es interesante ver el efecto que tiene sobre la funcion de verosimilitud cuando se tiene
mas informacion. Por ejemplo en el caso de fumadores, si en lugar de obtener una muestra
de n = 100 estudiantes se hubiera obtenido el doble n = 200, y se haya obtenido la misma
proporcion muestral, es decir x = 40, entonces en la figura 2.1d se muestra la grafica de
R (px) y los intervalos con c = 0 05, 0 15 y 0 25. Especficamente los intervalos son:
[0 137, 0 275], [0 149, 0 259] y [0 156, 0 250]. Al comparar esta grafica y sus interva-
los con la figura 2.1b es claro que cuando se aumenta n la verosimilitud es mas estrecha
entorno al emv, y por lo tanto los intervalos de verosimilitud para p tambien son mas estre-
chos. En otras palabras, la verosimilitud registra claramente que hay mas informacion para
poder establecer afirmaciones mas precisas sobre los posibles valores de la proporcion de
fumadores.
Algo que quizas a algunos lectores les confunda o les extrane es el uso de las palabras
.admisibilidad y plausibilidadpara interpretar los intervalos de verosimilitud y para ex-
plicar cuando un valor de p es mas verosmil que otro. Esto en la practica se convierte en
un concepto auxiliar para comunicar afirmaciones sobre los posibles valores de p, y no es
una probabilidad por el hecho de que, entre otras razones, R(px) no es una distribucion
de probabilidad (aunque se parezca mucho). Un caso similar a este, en la estadstica tradi-
cional, son los intervalos de confianza, cuya interpretacion resulta un tanto extrana, por lo
menos para los usuarios de la estadstica (ver la anterior nota a pie de pagina).
En este sentido, una de las bondades de la estadstica Bayesiana es que las inferencias se
basan en la probabilidad, y en consecuencia no requiere de los conceptos auxiliares que se
utilizan en la estadstica tradicional o en verosimilitud, y que en muchas ocasiones compli-
can al usuario de la estadstica el entendimiento pleno de las metodologas. Por ejemplo, en
el caso Bayesiano como ya se vio en el captulo anterior, la incertidumbre sobre los valores
de p dados los datos x, estara dada por la distribucion posterior (px) que es proporcional
a R (px) (p). Donde la distribucion a priori (p) representa el conocimiento inicial que
se tiene sobre p. En el caso que no se conozca nada sobre p, se puede dar una distribucion
uniforme (p) = 1 para 0 p 1; y por tanto (px) sera proporcional a R(px). Solo
habra que estandarizar a R (px) para que sea una densidad y el area bajo su curva sea uno.
De esta manera los intervalos para p seran intervalos de probabilidad (ver captulo 4), y no
se requeriran conceptos auxiliares como plausibilidad o confianza.
Lo anterior sirve para decir, que al analizar la grafica de la funcion de verosimilitud
donde Z /2 es el percentil (1 /2) de la distribucion normal estandar. Por ejemplo a 95 % de confianza Z 0,05/2 =
1,96, y el intervalo para la proporcion de fumadores sera [0,122, 0,278]. Notese que este intervalo es simetrico
respecto a 0,20, debido a que esta basado en la aproximacion normal a la verosimilitud binomial (ver seccion 2.7).
Este intervalo se interpreta en la estadstica tradicional en forma frecuentista: con este procedimiento el 95 % de las
veces se atrapara la proporcion p con el intervalo obtenido. Cuando p pequena la verosimilitud es mas asimetrica,
y en consecuencia el procedimiento tradicional sera menos adecuado.
2.2. VEROSIMILITUD PARA MODELOS CONTINUOS 21
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 33
2.2.
v e roVerosimilitud
2.2 para
s i m i l i t u d pa r a m o d e lo s cModelos
o n t i n u o s Continuos
1 1
P [X = x 0 ] = P [x 0 X x 0 + ]
2 2
x 0 + 21
= f (x) dx (2.8)
x 0 21
Bajo las condiciones del teorema de valor medio para la integracion, existe un valor x entre
x 0 21 y x 0 + 21 , tal que la integral (area bajo la curva) es igual al ancho del intervalo
multiplicada por la altura de la curva en ese punto f (x ), es decir,
x 0 + 21
f (x)dx = f (x )
x=x 0 21
L(x 0 ) c f (x 0 ) (2.9)
donde c es una constante que no depende de . De esta manera si se tiene n observaciones
independientes de X, X = (x 1 , x 2 , . . . , x n ), entonces
L (X) = P [(x 1 , x 2 , . . . , x n ) ]
f (x 1 ) f (x 2 ) f (x n ) = i=1 f (x i )
n
(2.10)
Modelo Exponencial
Modelo exponencial
Un modelo que se aplica con frecuencia para describir tiempos de falla de productos es el
modelo exponencial, que esta dado por
1 x
f (x) = e ; > 0, x > 0. (2.11)
El parametro se interpreta como el tiempo medio de falla. Si se toma una muestra
aleatoria de X y se obtienen los siguientes datos X = (x 1 , x 2 , . . . , x n ), entonces de acuerdo
a (2.10) la verosimilitud esta dada por
L(X) = i=1 f (x i )
n
= n e
s
(2.12)
donde s = ni=1 x i . Al observar la expresion para la verosimilitud queda claro que el es-
tadstico minimal suficiente es precisamente s El logaritmo de L(X) esta dado por
s
log(L(X)) = n log() (2.13)
para encontrar el emv, se deriva esta expresion respecto a y se obtiene
d [log (L (X))] n s
= + 2
d
al igualar a cero, y despejar se obtiene que
=
s
(2.14)
n
es decir el emv para es la media. Luego la verosimilitud relativa para el modelo exponen-
cial esta dada por
s n s
R (X) = ( ) exp ( + n) . (2.15)
n
2.3. VEROSIMILITUD PARA DATOS CENSURADOS 23
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 35
Ejemplo 2.2 Los siguientes datos representan tiempos de falla del equipo de aire acondicio-
nado de un aeroplano (ver Prochan, 1963).
1, 3, 5, 7, 11, 11, 11, 12, 14, 14, 14, 16, 16, 20, 21, 23, 42,
47, 52, 62, 71, 71, 87, 90, 95, 120, 120, 225, 246, 261
Una buena practica al analizar datos es graficarlos. Por ejemplo en la figura 2.2a se
muestra un histograma para los tiempos de falla. De donde se aprecia la distribucion de
los tiempos de falla y parecen sugerir que efectivamente siguen una distribucion exponen-
cial. En el captulo 7 se veran pruebas formales Bayesianas para validar que efectivamente
estos datos siguen una distribucion exponencial. Por lo pronto, si se supone que estos da-
tos son descritos adecuadamente por un modelo exponencial, interesa utilizar los datos
para saber que informacion proporcionan sobre . En el ejemplo n = 30 y la suma de los
datos es s = 1788. En la figura 2.2b se muestra la grafica de R (X) junto con interva-
los de verosimilitud al nivel c = 0 05, 0 15 y 0 25. Los intervalos son: [39 37, 97 087],
[42 553, 86 957] y [44 643, 81 967], respectivamente. El emv es = 298 5
= 59 6. Si se to-
ma el ultimo intervalo se puede decir que dados los datos, los valores de mas verosmiles
estan en [44 643, 81 967] y el mas verosmil es = 59 6. Notese que lo que se ha dicho
no depende de ninguna aproximacion, algo que es frecuente en la estadstica tradicional.
Tambien se aprecia que la forma de la funcion de verosimilitud es ligeramente asimetrica.
L (x i ) = P (x i > q)
= 1 F (q) (2.16)
donde F() es la distribucion acumulada de f (). Por ejemplo para el caso exponencial, al
integrar respecto a x la funcion (2.11), la distribucion acumulada esta dada por
36 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 2.2
Histograma y verosimilitud para el problema de tiempos de falla
L (x i ) = P (x i < q)
= F (q) . (2.18)
En suma para una variable aleatoria continua, de acuerdo a (2.10) la verosimilitud apor-
tada por los tiempos de falla observados se recoge a traves de f (x i ), mientras que para
la censura por la derecha con (2.16) y para la censura por la izquierda con (2.18).
Censura multiple tipo I. Una muestra con censura multiple tipo I surge cuando cada uno
de los especmenes 1, 2, . . . , n de un experimento de confiabilidad estan sujetos a perodos
lmite de observacion q 1 , q 2 , . . . , q n , de manera respectiva. De tal forma que los tiempos
individuales de falla x i , son observados solo si x i q i Cuando los tiempos de censura son
iguales, q 1 = q 2 = = q n = q, se habla de censura simple tipo I.
Si X = (x 1 , . . . , x n ) es una muestra aleatoria de f (x) donde se observan r fallas y n r
datos censurados (0 r n). Sea x(1) , . . . , x(r) los r valores no censurados ordenados en
forma creciente, y tambien se ordenan en forma ascendente los n r valores no observados,
x(r+1) , x(r+2) , . . . , x(n) , y que fueron censurados en los tiempos q(r+1) , q(r+2) , . . . , q(n) , de
manera correspondiente. De acuerdo a lo anterior, la verosimilitud estara dada por:
r n
L (X) = f (x(i) ) (1 F (q( j) )) . (2.19)
i=1 j=r+1
Censura tipo II. Esta es una censura por la derecha en el que el experimento corre has-
ta que una cierta cantidad fija, r, de unidades falla de entre n disponibles (r n). Sea
x(1) , . . . , x(r) estos r tiempos de falla ordenados en forma creciente, entonces el r-esimo
tiempo de falla x(r) sera la duracion del experimento y se convertira el tiempo de censura
por la derecha para los n r productos que no fallaron a ese tiempo. Es facil demostrar que
en este caso, ver Lawless(1982, pag. 32), la verosimilitud estara dada por:
r
L (X) = C [1 F (x(r) )] f (x(i) )
nr
(2.21)
i=1
= [F(x i ) F(x i1 )]
di
(2.22)
y en consecuencia de manera general la verosimilitud para un experimento censurado por
intervalo esta dada por:
p
n j=1 d j
L (X) = (1 F (x p )) [F (x i ) F (x i1 )]
p
di
(2.23)
i=1
lo tanto la aproximacion para la verosimilitud dada por (2.9) no es posible. De aqu que se deba tomar en cuenta
el error de medicion, y esto se hace tomando en cuenta la amplitud del intervalo.
2.3. VEROSIMILITUD PARA DATOS CENSURADOS 27
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 39
Las observaciones por intervalo son frecuentes en muchas areas, debido a que la eva-
luacion de las unidades experimentales no se puede hacer de forma continua. Una mala
practica es tomar los datos que fallaron en un intervalo, igual al centro de dicho intervalo.
Lo que se debe hacer es obtener la verosimilitud como se ha indicado y a partir de esta hacer
la inferencias deseadas.
Ejemplo 2.3 Durante una prueba de vida acelerada para determinar la confiabilidad de un
producto, debido a que no es posible hacer una inspeccion continua para evaluar si el producto
aun esta en buenas condiciones, se hace inspeccion por intervalo. Se ponen a prueba un total
de 42 unidades, y cada cinco das se hace una revision para evaluar cuantas unidades fallaron
desde la ultima inspeccion. La prueba se suspende a los 20 das, y a esa fecha 5 productos aun
no haban fallado, por lo que se consideran como censurados por la derecha. Los datos son:
Si se supone un modelo exponencial, ver (2.11), lo primero que se quiere tener es in-
formacion sobre el parametro del modelo. De acuerdo a (2.23) y a (2.17), la verosimilitud
esta dada por:
4
L(X) = [1 (1 e 20 )] [1 e
1 x i
(1 e x i1 ))]
1 4237 1 di
i=1
=e 1 100
(1 e ) (e
1 5 16 1 5
e 10 ) (e 10 e 15 ) (e 15 e 20 )
1 10 1 1 7 1 1 4
para simplificar estar funcion, se puede factorizar parcialmente los sumandos que involu-
cran a la funcion e. Por ejemplo el primero
(e 5 e 10 ) = (e 5 [1 e 5 ])
1 1 10 1 1 10
L(X) = e 280 (1 e 5 )
1 1 37
2.4.Ademas
Propiedades de la Verosimilitud
de los aspectos relevantes que se han comentado hasta aqu respecto a la fun-
cion de verosimilitud,
Ademas estarelevantes
de los aspectos tiene algunas propiedades
que se adicionales
han comentado que respecto
hasta aqu le dan unaa lamayor
fun-
importancia en la inferencia estadstica. Dos de esas propiedades, que se veran
cion de verosimilitud, esta tiene algunas propiedades adicionales que le dan una mayorenseguida,
son invarianza
importancia funcional
en la inferenciay combinacion de observaciones.
estadstica. Dos de esas propiedades, que se veran enseguida,
Invarianza funcional.
son invarianza funcional y combinacion de establece
Esta propiedad que cualquier afirmacion cuantitativa
observaciones.
Invarianza funcional. Esta propiedad establece que cualquier afirmacion cuantitativa
2.4. PROPIEDADES DE LA VEROSIMILITUD 29
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 41
para implica una afirmacion cuantitativa sobre cualquier transformacion uno a uno de ,
= (), y se establece directamente mediante una sustitucion algebraica de = (). De
esta manera si R (X) es la verosimilitud relativa de , entonces la verosimilitud relativa
de es R (X) = R ( () X). Tambien
= ().
Por ejemplo, si > 0, y = log (), entonces se cumple que:
i)
= log ()
iii) a b log (a) log (b). Estas dos afirmaciones son equivalentes y tienen
la misma incertidumbre o plausibilidad.
L (D 1 , D 2 , . . . , D k ) = L (D 1 ) L (D 2 ) L (D k ) (2.24)
Ejemplo 2.4 Sea el modelo exponencial dado por (2.11), al hacer = 0 1 se generan dos
muestras aleatoria de este modelo ylalaprimera
segunda
de de = 20
30 ny la Los datos
segunda de n=son:
20. Los datos son:
D 1 , primer conjunto de datos (n 1 = 30): 2.30, 50.48, 1.35, 7.10, 11.27, 5.47, 11.50, 22.22,
0.58, 0.47, 34.89, 1.94, 0.41, 7.40, 9.66, 2.64, 4.76, 6.93, 16.23, 0.66, 4.14, 3.26, 9.44, 4.38,
0.39, 7.78, 3.81, 3.49, 19.21 y 15.10. Sea s 1 = 269 26, la suma de estos datos.
D 2 , segundo conjunto de datos (n 2 = 20): 4.22, 0.95, 1.46, 17.76, 22.21, 3.13, 17.83, 2.87,
3.90, 16.78, 4.39, 32.86, 5.92, 11.90, 2.19, 6.85, 26.65, 4.57, 6.55 y 3.91. Sea s 2 = 196 9, la
suma de estos datos.
42 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 2.4
Combinacin de datos con base en la verosimilitud
A partir de (2.15) se obtiene la verosimilitud relativa para cada conjunto de datos. Las
dos graficas correspondientes se muestran en la figura 2.4. De donde se aprecia claramente
que la verosimilitud para con base en el primer conjunto de datos (n = 30) tiene menor
variacion que la verosimilitud para con el segundo conjunto de datos (n = 20). Por lo
tanto en el primer caso la informacion sobre es mas precisa.
Mientras que la informacion que aportan ambos conjuntos de datos de manera conjunta
sobre , esta dada por (2.24)
L (D 1 , D 2 ) = L (D 1 ) L (D 2 )
De aqu y dado que la verosimilitud para un modelo exponencial esta dada por (2.12),
la verosimilitud combinada esta dada por
L (D 1 , D 2 ) = n 1 e s 1 n 2 e s 2
1 1
= (n 1 +n 2 ) e (s 1 +s 2 )
1
(2.25)
2.5.V e roVerosimilitud
2.5
con 2 o mas Parametros
s i m i l i t u d c o n d o s o m s pa r m e t ro s
Hasta aqu se estudio la funcion de verosimilitud para modelos que solo tienen un
parametro. Ahora se vera la verosimilitud cuando los modelos tienen dos o mas parame-
tros.
32 CAPITULO 2. METODOS BASADOS EN VEROSIMILITUD
44 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Modelo normal
Modelo Normal
La distribucion normal juega un papel relevante en muchas aplicaciones practicas de la
estadstica y en muchos estudios teoricos. Su densidad, esta dada por:
1/2
f (x, ) = ( ) exp [ (x )2 ] (2.26)
2 2
con < x < +, < < +, > 0, el parametro es la media condicional,
es decir, E (x) = , y el parametro es la precision, es decir es igual al inverso de la
varianza condicional: V (x) = 1/. La funcion de verosimilitud dependera de estos dos
parametros. En el caso que se haga un muestreo sin censura y se observen n valores de la
variable aleatoria X, X = (x 1 , x 2 . . . , x n ), la verosimilitud para el modelo normal estara dada
por:
n/2 n
L (, X) = ( ) exp [ (x i )2 ] (2.27)
2 2 i=1
Una expresion mas sencilla se obtiene al observar que
n n
(x i ) = n( x n ) + (x i x n ) ,
2 2 2
i=1 i=1
con x n = 1
n
xi , sn =
i=1
n
i=1 (x i
n
x n ) y en consecuencia la verosimilitud (2.27) toma
2
la forma siguiente:
n/2 sn
L(, X) = ( ) exp [ n( x n )2 ] exp [ ] (2.28)
2 2 2
Para encontrar los emv se tiene que al derivar parcialmente e igualar a cero a la log
verosimilitud se obtiene
log L(, X) = ( x n ) (n) = 0
1 n (s n + n (x n ) )
2
log L(, X) = log L(, X) = 0.
2
La solucion simultanea es
n
= x n , = (2.29)
sn
En ocasiones se supone conocido ya sea o , y se quiere hacer inferencias sobre el
otro. Por ejemplo si se supone conocido e igual a una constante, entonces la verosimilitud
(2.28) toma la forma siguiente:
n
L(X, ) exp [ ( x n )2 ] (2.30)
2
2.5. VEROSIMILITUD CON 2 O MAS PARAMETROS 33
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 45
Por otro lado, si en la muestra hay observaciones censuradas, ya sea del tipo I, tipo II o
aleatoria, de acuerdo a (2.18) la verosimilitud para el modelo normal estara dada por:
r
2 sr n
L (, X) = C ( ) exp [ r ( x r ) ] exp [ ] (1 ( 1/2 (q( j) )))
2
2 2 2 j=r+1
(2.31)
donde ( ) es la distribucion normal estandar acumulada. Ademas en el caso de censura
tipo I y aleatoria la constante C = 1. En el caso de censura tipo II, C = (nr)!
n!
y el tiempo de
censura esta dado por la r-esima estadstica de orden, q( j) = x(r) = Te En el caso de tener
una censura simple del tipo I, entonces la verosimilitud anterior toma la forma siguiente:
r
2 r sr
L (, X) = ( ) exp [ ( x r ) ] exp [ ] (1 ( 1/2 (Te )))
2 nr
2 2 2
Ejemplo 2.5 Se realizo un estudio para evaluar la duracion de amortiguadores para au-
tomovil. Se probaron 38 amortiguadores (OConnor, 1985; pag. 85). Solo se observaron 11 fa-
llas, y los restantes 27 estan censurados de manera multiple por la derecha. A continuacion se
muestran los datos en miles de kilometros. Los que tienen como exponente un signo +, estan
censurados por la derecha, es decir, a esa distancia el amortiguador todava estaba en buen
estado.
46 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 2.5
Verosimilitud para problema de duracin de amortiguadores
Es claro que aunque muchos amortiguadores no fallaron durante el perodo del estudio,
aportan informacion importante sobre el tiempo de vida de tal producto. Por ejemplo el
ultimo dato senala que el correspondiente amortiguador duro mas de 28100 km.
Si se supone que estos
2.5. VEROSIMILITUD CONdatos
2OM vienen
AS PAR un modelo normal (, ), enseguida se ve que35in-
de AMETROS
formacion aportan estos datos sobre los posibles valores de los parametros (, ). Para ello,
de acuerdo a (2.31) se obtiene la grafica de verosimilitud correspondiente (ver programa 3
Es claro que aunque muchos amortiguadores no fallaron durante el perodo del estudio,
del apendice). En la figura 2.5 se muestra la grafica en superficie de respuesta y en la figu-
aportan informacion importante sobre el tiempo de vida de tal producto. Por ejemplo el
ra 2.6, en grafica de contornos o curvas de nivel. De estas figuras se aprecia claramente las
ultimo dato senala que el correspondiente amortiguador duro mas de 28100 km.
regiones de mayor verosimilitud para valores de (, ), en particular en la figura de contor-
Si se supone
nos que estos
puede apreciar ladatos
regionvienen
con c de= 0un2,modelo
dentro normal (, ), la
de esa region enseguida se ve que
verosimilitud in-
es mayor
formacion
a 0 80. El aportan ,
(
emv esestos ) = (24
datos sobre
57, los
0 posibles
0143), vervalores de los4 parametros
programa (, ). Para ello,
del apendice.
de acuerdo a (2.31) se obtiene la grafica de verosimilitud correspondiente (ver programa 3
del apendice). En la figura 2.5 se muestra la grafica en superficie de respuesta y en la figu-
ra 2.6, en grafica de contornos o curvas de nivel. De estas figuras se aprecia claramente las
regiones de mayor verosimilitud para valores de (, ), en particular en la figura de contor-
nos se puede apreciar la region con c = 0 2, dentro de esa region la verosimilitud es mayor
a 0 80. El emv es ( ,
) = (24 57, 0 0143), ver programa 4 del apendice.
Figura 2.6
Verosimilitud en contornos para problema de duracin de amortiguadores
2.6.
V e roVerosimilitud
2.6 similitud perfil Perfil
Puede ocurrir que, no obstante que un modelo involucre a dos parametros desconoci-
dos y , se quisiera tener informacion separada para alguno de ellos. Como se vio en la
seccion anterior, la verosimilitud relativa conjunta R (, X) jerarquiza a los pares de valo-
res de y de acuerdo a su verosimilitud o plausibilidad, a la luz de los datos. Sin embargo,
nos gustara tener informacion solo de uno de los valores. Sea por ejemplo el parametro
sobre el que se tiene mas interes.
La verosimilitud perfil o la funcion de maxima verosimilitud relativa de se obtiene al
maximizar R (, X) sobre , con fijo:
r m (X) = r (, () X) = l (, () X) l (
, X) (2.33)
0 R m (X) 1 y R m (
X) = 1
Ejemplo 2.6 Dos objetos con peso desconocido 1 y 2 son pesados en forma separada y de
manera conjunta por la misma bascula, por lo que se obtienen tres valores : X 1 , X 2 y X 3 . Se
sabe que la bascula genera mediciones independientes y distribuidas normalmente alrededor
del verdadero valor, con una varianza de 1 De esta manera X 1 , X 2 y X 3 son independientes
y tienen la siguiente distribucion:
X 1 N( 1 , 1); X 2 N( 2 , 1) y X 3 N( 1 + 2 , 1)
3
1
f (x 1 , x 2 , x 3 1 , 2 ) = ( ) exp [(x 1 1 )2 /2 (x 2 2 )2 /2 (x 3 1 2 )2 /2)]
2
l( 1 , 2 ) = (x 1 1 )2 /2 (x 2 2 )2 /2 (x 3 1 2 )2 /2 (2.34)
Para encontrar los emv primero se obtienen las derivadas parciales
l( 1 , 2 )
= (x 1 1 ) + (x 3 1 2 ) (2.35)
1
l( 1 , 2 )
= (x 2 2 ) + (x 3 1 2 ) (2.36)
2
que al igualarlas a ceros y resolverse en forma simultanea se obtiene los emv As al igualar
a cero a (2.35) y despejar de ella a 1 , se obtiene que
1 ( 2 ) = (x 1 + x 3 2 ) /2 (2.37)
Al tomar esto como el valor de 1 y sustituir en (2.36), se obtiene que:
2 = (2x 2 + x 3 x 1 )/3 = 29 6
Si se sustituye este valor en (2.37), resulta que
1 = (x 1 + x 3
2 ) /2 = (2x 1 + x 3 x 2 )/3 = 15 9.
De acuerdo a (2.32) se podra usar (2.37) en lugar de 1 para obtener la verosimilitud
perfil de 2 . En forma mas sencilla, se puede obtener la log perfil al aplicar (2.33). Con lo
que
r m ( 2 X) = r ( 2 ,
1 ( 2 ) X) = l ( 2 , 2 ,
1 ( 2 ) X) l ( 1 X)
la forma especfica de r m ( 2 X) en el ejemplo se obtiene a partir de las expresion anteriores
y de (2.34). Es facil mostrar, se deja como ejercicio, que:
3
r m ( 2 X) = ( 2
2 )2
4
de la misma manera se puede demostrar que
3
r m ( 1 X) = ( 1
1 )2 .
4
38 CAPITULO 2. METODOS BASADOS EN VEROSIMILITUD
50 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
2.7.
2 . 7 S c o rScore, Informacion
e, inform ac i n y a p rox i my
acAproximacion
in normal Normal
Como se vio antes, usualmente la funcion de verosimilitud es producto de terminos. Esto
hace que sea conveniente aplicar la transformacion logaritmo para trabajar con sumas. La
funcion log verosimilitud es el logaritmo natural de L :
Es claro que el valor de que maximiza a l (X) tambien maximiza a L (X). Por ello,
usualmente la obtencion de se consigue al derivar a l (X) con respecto a , luego el
resultado se iguala a cero y se despeja . Es posible que este procedimiento conduzca a un
maximo relativo o a un punto de inflexion, en lugar del maximo deseado. Por lo que es
necesario verificar que efectivamente se ha encontrado un maximo, que bajo condiciones
de regularidad se logra cuando la segunda derivada evaluada en ese valor es negativa.
La funcion Score S (X) es definida por la primera derivada de la log verosimilitud
respecto a :
d [l (X)]
S (X) = l (X) = (2.39)
d
Mientras que la funcion informacion o informacion de Fisher I (X) es menos la segunda
derivada de la funcion log verosimilitud respecto a :
d 2 [l (X)]
I (X) = l (X) = S (X) = (2.40)
d 2
Esto junto con lo anterior juega un papel crucial para la siguiente aproximacion. La expan-
sion de la serie de Taylor para la funcion log verosimilitud al rededor de = esta dada
por:
( ) 2
( ) 3
( )
+
l (X) = l (X) +
l (X)
+
l (X)
+
l (X)
1! 2! 3!
Como se dijo antes, si es un punto interior del espacio parametrico , l (X) = 0 y de
acuerdo a (2.34), r (X) = l (X) l (X), entonces se tiene que:
2
( ) 3
( )
r (X) = +
I (X) +
l (X) (2.42)
2! 3!
1
r N (X) = ( )
2 I(X) (2.43)
2
s
2.7. SCORE, INFORMACION Y APROXIMACION NORMAL 41
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 53
en (2.43), se obtiene que la aproximacion normal a la log verosimilitud relativa para el modelo
exponencial esta dada por:
2
1 n
r N (X) = n ( 1) (2.46)
2 s
y de (2.44) los intervalos aproximados de verosimilitud al nivel c, estan dador por:
s 2 ln c
1
n n
s s
r (X) = n ln ( ) +n
n
Para comparar esta expresion con su aproximacion normal (2.46), es mejor obtener
R (X), es decir si se obtiene el exponencial de ambas expresiones. Haciendo esto, en la
figura 2.7 se aprecia la grafica para ambas expresiones (al utilizar los datos de tiempo de falla
de los aires acondicionados. De donde queda claro este ligero desfase de la aproximacion
respecto a la verosimilitud exacta conforme se aleja de . Este hecho es uno de los riesgos de
muchos metodos estadsticos tradicionales que estan basados en la aproximacion normal
de la verosimilitud.
Cuando la aproximacion normal es suficientemente buena, la mayor parte de la infor-
macion concerniente a es resumida por y I (X).
Pero en ocasiones se abusa de esto, y
en algunos analisis estadsticos tradicionales sin verificar la calidad de la aproximacion se
hacen inferencias sobre con base en tal aproximacion.
En estadstica Bayesiana esta aproximacion no sera necesaria, ya que la inferencia sobre
se hace con base en una distribucion de probabilidad, la distribucion posterior (X),
que como establecimos en el captulo 1 es proporcional a la verosimilitud por la distribucion
a priori:
(X) L (X) ()
54 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 2.7
Evaluacin de la aproximacin normal de la verosimilitud relativa, ejemplo 2.7
2.8.
V e roVerosimilitud
2.8 para
s i m i l i t u d pa r a o t ro s m o dOtros
e lo s Modelos
En esta seccion se establecen las verosimilitudes para otros modelos, que se utilizan en
captulos posteriores.
Modelo
Modelologonormal
Lognormal.
La densidad de la distribucion lognormal (, ) esta dada por:
1/2 1
f (x, ) = ( ) x exp [ (log (x) ) ]
2
(2.47)
2 2
con 0 < x, < < +, > 0. Los nombres de los parametros son logmedia , y logpreci-
sion . Al seguir un procedimiento similar al caso normal, se puede ver que la verosimilitud
para datos completos para el modelo lognormal esta dada por:
1 n/2 vn
L (, X) = ( ) exp [ n ( w n ) ] exp [ ]
2
(2.48)
i=1
n
xi 2 2 2
donde v r = ri=1 (log (x(i) ) w r ) y w r = r1 ri=1 log (x(i) ). Ademas como ya se vio la
2
constante C y los tiempos de censura q( j) , dependen del tipo de censura (ver Seccion 2.3).
i=1 i=1
nr
exp
exp ( (q ( j) ))
(2.51)
j=1
DistribucionWeibull
Distribucin Weibull
La densidad para el modelo Weibull (, ) esta dada por:
x
1
exp
x
f (x, ) = ( ) (
) con x > 0, > 0, > 0 (2.52)
la distribucion acumulada esta dada por
De aqu que la verosimilitud para datos censurados para el modelo Weibull esta dada
por:
r
r 1
exp
r x(i) nr q
( j)
L (, X) = C ( ) ( x(i) )
( ) ( ) (2.53)
i=1
i=1 j=1
Notese que para datos completos n = r, por lo que la ultima sumatoria en el exponente
del ultimo termino de (2.53), desaparece.
2.9.
P r e gPreguntas
2.9
y Ejercicios
u n ta s y e j e rc i c i o s
6. En el caso anterior se quiere tener mas informacion sobre p, para ello se toma una
segunda muestra aleatoria de n = 100 piezas, y se obtienen x = 4 defectuosas. Consi-
derar las dos muestras, y hacer lo siguiente:
Zona 1 2 3 4 5 6
Muestras obtenidas n i 60 65 75 55 50 60
Muestras positivas x i 3 4 5 1 2 3
1. a) Suponer un modelo Binomial y obtener la forma analtica de la verosimilitud y
la grafica de la funcion de verosimilitud relativa.
b) Calcular un intervalo de verosimilitud al c=0.15, e interpretar.
c) Que nivel de incidencia tiene el patogeno?
10. En Sprott(2000) se reportan los resultados de un ensayo clnico para investigar la
efectividad de cierto medicamento (ramipril) para ayudar a la sobrevivencia despues
de un infarto agudo al miocardio. El estudio se hizo un con 1986 sujetos. De estos
se selecciono aleatoriamente a 1004 y se les dio el medicamento, mientras que a los
restantes 982 se les administro un placebo (grupo control). Los datos obtenidos se
muestran en la siguiente tabla de contingencia.
Tratamiento Sobrevivio Fallecio Total
Ramipril 834 170 1004
Placebo 760 222 982
Total 1594 392 1986
1. a) Suponer un modelo binomial y obtener la verosimilitud relativa para cada tra-
tamiento, y con base en ella decidir si el ramipril tienen algun impacto positivo.
11. En una fabrica de muebles se inspecciona meticulosamente el acabado de las mesas
cuando salen del departamento de laca. La cantidad de defectos que son encontrados
en cada mesa son registrados con el fin de conocer y mejorar el proceso. Es razonable
suponer una distribucion Poisson para le numero de defectos por mesa. En la inspec-
cion de 15 mesas se obtuvieron los siguientes defectos: 7, 5, 10, 2, 6, 5, 4, 9, 7, 5, 6, 7, 8,
4, 5.
12. El siguiente modelo fue propuesto para representar la distribucion del numero de
hijos por pareja de leones en los zoologicos de Mexico:
P (x hijos en la familia) = x
1 2
P (0 hijos en la familia) =
1
2.9. PREGUNTAS Y EJERCICIOS 47
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 59
donde es un parametro desconocido tal que 0 < < 21 . Un total de 50 parejas fueron
seleccionadas al azar de la poblacion, y se observaron los datos que se muestran en
la siguiente tabla:
No. de hijos 0 1 2 3 4
Frecuencia observada(parejas) 17 22 7 3 1
13. Los siguientes datos son el numero de unidades automotrices que se producen entre
fallas sucesivas de la pintura:
97 51 11 4 141 18 142 68 77
80 1 16 106 206 82 54 31 216
46 111 39 63 18 191 142 163 24
13. El salario x de los empleados de una empresa, con la escala de que x = 1 es el salario
mnimo. Se supone la distribucion de probabilidad Pareto:
Los siguientes datos son los salarios de empleados selectos al azar: 1 02, 1 41, 1
75, 2 31, 3 42, 4 31, 9 21, 17 4, 38 6, 392 8
15. Suponer que se quiere estimar el numero de carros de polica en cierta ciudad, N.
Los carros estan numerados del 1 al N Suponer que un perodo dado de tiempo se
observa en cierto punto pasar los carros con los numeros: 137, 24, 86, 33, 92, 129, 17
y 111. Suponer que los carros pasan por ese punto en forma aleatoria, por lo que la
probabilidad de que pasa cualquier carro es 1/N.
a) Tomar el punto central de cada intervalo del tiempo de gestacion como el tiem-
po real observado, y obtener la verosimilitud relativa conjunta para y 2 , y los
emv
b) Suponer como los valores correctos de los parametros a y 2 , y calcular las
frecuencia esperadas y compararlas con los datos.
c) Obtener la funcion de verosimilitud relativa exacta, usar la censura por inter-
valo, y obtener los y 2 exactos.
d) Comparar lo obtenido en a) y c), y comentar.
3 3
r p ( 2 X) = ( 2
2 ) y r p ( 1 X) = ( 1
1 )
4 4
1. b. Obtener las graficas de ambas y un intervalo de verosimilitud al c = 0 15.
19. Respecto al ejemplo 2.6, obtener la aproximacion normal para la verosimilitud con-
junta.
20. El tiempo de vida de anaquel de un cierto tipo de pan en das es:
1 2 3 3 0 6 5 1 1 5
0 1 0 1 12 1 0 1 0 1
20. En un hospital se atendieron por mes los siguientes pacientes con cierto tipo de en-
fermedad
21 13 17 13 13 11 16 11 14 14
22. En una embotelladora se cree que el llenado de un cierto tipo de bebida es una va-
riable aleatoria normal. Se tienen los siguientes datos de llenado (en milmetros)
24. Un modelo usual para eventos extremos es el Pareto, que esta dado por
Captulo 3
Especificacion de Distribuciones a
priori
informacion disponible sobre las observables, es decir, sobre la variable X, mas que de los
no observables -los parametros de los modelos de tiempo de vida-, ver por ejemplo Win-
kler (1981), Singpurwalla (1988), Wolfson (1995), Kadane y Wolfson (1998), OHagan(1998),
Garthwaite y OHagan(2000) y Percy(2002).
3.1. Metodo
3 . 1 M to d o pa r a dpara
i s t r i b uDistribuciones
c i o n e s c o n u n pa r con un Parametro
m e t ro
Metodo General
Mtodo general dede Momentos
momentos
Se supone que el experto en el campo de aplicacion proporciona un intervalo para el parame-
tro , o quizas un intervalo para los momentos de X. Entonces esta informacion la con-
vertimos en expresiones explcitas para los hiperparametros de (), ave tienen ciertos
componentes que proporcionan cierta flexibilidad en la especificacion de ().
Sea f (x ) el modelo para X, y (, ) la distribucion a priori para , donde y
son hiperparametros. Se trata de establecer un metodo que a partir de la informacion
que proporciona el experto se pueda especificar los valores de estos hiperparametros. Para
ello, sabemos que la media E(, ) y varianzaV (, ), si es que existen, son funciones
de , . Se supone que un experto en el campo de aplicacion proporciona un intervalo de
ocurrencia para (incertidumbre sobre cual es el valor de ), sea [L , U ] este intervalo
Entonces se propone que:
L + U
E (, ) = (3.1)
2
Para definir los dos hiperparametros se necesita una ecuacion adicional. Para ello se
considera tambien la varianza de . Una aproximacion para esta varianza se puede obtener
con:
U L 2
V (, ) = ( ) (3.2)
2z
donde z es un numero en [1 5, 3 5]. Esta ecuacion esta inspirada en la desigualdad de
Tchebychev, donde 2z veces la desviacion estandar cubre basicamente la mayor parte del
rango de variabilidad. Como se vera mas adelante para diferentes modelos, z esta directa-
mente relacionado con V (, ), de tal forma que conforme sea mayor el valore de z, ma-
yor sera la probabilidad inicial de que este dentro del intervalo [L , U ]. De esta manera
(3.1) y (3.2) proporcionan dos ecuaciones simultaneas con dos incognitas (los hiperparame-
tros). Al resolver este sistema de ecuaciones se obtiene los valores de , . Obviamente esta
metodologa es facil de aplicar si los parametros del modelo tiene una interpretacion direc-
ta, como se muestra en los ejemplos.
3.1. METODO PARA DISTRIBUCIONES CON UN PARAMETRO 53
3. E s p e c i f i c ac i n de distribuciones a priori 65
Es importante notar que la extension de la desigualdad de Tchebychev, hecha por Camp
y Meidel (ver Duncan, 1994, pag. 102), es aplicable a nuestro caso. Concretamente esta ex-
tension establece que si la distribucion de es unimodal, entonces:
1
P ( z < < + z ) 1
2 25z 2
A priori para
A priori paraModelo
el Modelo Binomial
Binomial
En el captulo anterior se vio que el modelo binomial esta dado por:
n
f (xp) = ( )p x (1 p) con 0 < p < 1 y x = 0, 1, . . . , n
nx
x
Para p se requiere una distribucion cuyo soporte o dominio sea [0, 1]. Una distribucion
muy flexible y que es conjugada1 , es la distribucion beta(, ):
( + ) 1
(p) = p (1 p) con > 0, > 0
1
(3.3)
() ()
donde () es la funcion beta, que para cualquier numero y positivo esta definida por
(y) = y (y 1) y si y es un numero entero positivo entonces (y) = (y 1)!. Deci-
mos que la distribucion beta es muy flexible porque dependiendo de los valores de y
tiene diversas formas en el intervalo [0, 1]. De tal forma que se puede ajustar a la incer-
tidumbre que el usuario tenga a priori sobre el valor de p. Por ejemplo si = 1 y = 1,
entonces (3.3) se convierte en una distribucion uniforme(0, 1). Que como distribucion a
1 Una distribucion a priori () para un modelo f (x) se dice que es conjugada, si la distribucion posterior
priori sera apropiada si a priori no se sabe nada del valor de p La media y varianza de la
distribucion beta estan dadas por:
E (p, ) = y V (p, ) = (3.4)
+ ( + ) ( + + 1)
2
(L p + U p )
= (3.5)
+ 2
Up Lp 2
=( ) (3.6)
( + ) ( + + 1)
2 2z
Resolviendo estas, se obtiene que:
z 2 (2 L p U p ) (L p + U p ) (U p L p ) (L p + U p )
2 2
= (3.7)
2 (U p L p )
2
y
2 Lp Up
= ( ) (3.8)
Lp + Up
Ejemplo 3.1 Suponer que un experto cree que en un problema especfico p (la probabilidad de
exito en el experimento Bernoulli) esta en [L p , U p ] = [0 05, 0 15], entonces al aplicar (3.7)
y (3.8) para valores de z = 1 5, 2 0, 2 5, 3 0 y 3 5, se obtienen los hiperparametros siguien-
tes: (z, , ) = (1 5, 8, 72); (2 0, 14 3, 128 7); (2 5, 22 4, 201 6) ; (3 0, 32 3, 290 7)
y (3 5, 44, 396). La Figura 3.1 muestra las correspondientes distribuciones a priori beta. De
esta figura es evidente que a medida que z aumenta la distribucion a priori se hace mas alta
y la mayor parte de la misma cae dentro del intervalo inicial para p. As es claro que (3.7) y
(3.8) proporciona una forma practica de especificar los hiperparametros de la distribucion a
priori beta para el modelo binomial.
El procedimiento aplicado para definir los hiperparametros para la a priori beta para el
modelo binomial puede aplicarse para otros modelos que tienen fundamento en los expe-
rimentos Bernoulli, porque el parametro de estos modelos es p (probabilidad de exito en el
experimento Bernoulli). Este es el caso de los modelos geometrico y binomial negativa.
3.1. METODO PARA DISTRIBUCIONES CON UN PARAMETRO 55
3. E s p e c i f i c ac i n de distribuciones a priori 67
Figura 3.1
Distribucin a priori beta para modelo binomial
A priori
A prioripara
paraelelModelo
ModeloPoisson
Poisson
El modelo Poisson esta dado por:
e x
f (x) = con > 0 y x = 1, 2, . . .
x!
La distribucion usual conjugada para el parametro esta dada por la distribucion gama:
1
() = e con > 0, > 0 (3.9)
()
donde E (, ) = y V (, ) = 2 . Es sabido que representa el numero promedio
de conteos que ocurren por unidad, entonces es muy probable que el experto proporcione
un intervalo donde el espera que este localizado. Sea [L , U ] tal intervalo. Entonces de
acuerdo a (3.1) y (3.2), se tienen las dos ecuaciones siguientes:
(L + U )
= (3.10)
2
U L 2
= ( ) (3.11)
2 2z
Resolviendolas, se obtiene que:
2z 2 (L + U )
= (3.12)
(U L )
2
z (L + U )
2
=( ) (3.13)
U L
A priori para el Modelo Uniforme
A priori para el Modelo Uniforme
El modelo uniforme (0, ) esta dado por:
1
f (x) = con 0 < x < (3.14)
La distribucion usual conjugada para es una distribucion Pareto (ver Bernardo y
Smith, 1994 p. 438):
() = (+1) con y > 0 (3.15)
En este caso:
2
E () = con > 1 y V () = con > 2 (3.16)
( 1) ( 1)2 ( 2)
3.1. METODO PARA DISTRIBUCIONES CON UN PARAMETRO 57
3. E s p e c i f i c ac i n de distribuciones a priori 69
= 2
( U 2zL )
2 2
(1)2 (2)
A priori para
A priori paraelelModelo
ModeloExponencial
Exponencial
La densidad para el modelo exponencial es:
1 1 x
ef (x) =
; > 0, x > 0 (3.18)
Una distribucion a priori conjugada para es la distribucion gama inversa:
1 /
() = e con > 0, > 0 (3.19)
()
donde
2
E() = y V () = con > 2 (3.20)
1 ( 1)2 ( 2)
Es conocido que esta relacionado con la media de X, ya que E(X) = . Por esto es
razonable suponer que el usuario puede dar a [L , U ], que es el intervalo donde el usuario
cree que se localiza . Entonces de acuerdo con (3.1), (3.2) y (3.20), se tiene:
L + U
=
1 2
58 CAPITULO 3. ESPECIFICACION DE DISTRIBUCIONES A PRIORI
70 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
2 U L 2
=( )
( 1) ( 2)
2 2z
Resolviendolas se obtiene que:
z 2 (U + L )
2
= 2 +2 (3.21)
(U L )
y
U + L
= ( 1) ( ) (3.22)
2
1/2
f (x, ) = ( ) exp [ (x )2 ] ,
2 2
con < x < +, > 0, E(X, ) = y V (X, ) = 1 La usual distribucion a priori
conjugada para (, ) es la normal-gama:
k 1/2 k
(, , , m, k) = ( ) 1/2 exp ( ( m)2 ) (3.23)
() 2 2
E() = / y V () = / 2 (3.24)
La distribucion marginal de es un a t-Student(m, 2, k/) (ver DeGroot, 1970, p. 171),
donde
E() = m y V () = (3.25)
k ( 1)
En este caso para especificar los cuatro hiperparametros se propone la siguiente ver-
sion revisada del procedimiento descrito en Gutierrez-Pulido et al. (2005b). Suponer que
el experto proporciona intervalos de ocurrencia para la media [L m , U m ] y para la varianza2
[Lv , Uv ] de la variable X, respectivamente. No obstante que siendo estrictos estos intervalos
2 En general es mas facil que el experto proporcione informacion en terminos de la desviacion estandar. En
este caso, el experto puede dar un intervalo para la desviacion estandar y convertir este para obtener [Lv , Uv ].
3.2. A PRIORI PARA EL MODELO NORMAL 59
3. E s p e c i f i c ac i n de distribuciones a priori 71
son para E(X) y V (X), in Gutierrez-Pulido et al. (2005b) se muestra que tales intervalos
pueden ser tomados como si ellos fueran para E(X, ) y V (X, ), y por lo tanto estos
intervalos tienen informacion sobre los parametros (, ). Sabemos que V (X , ) = 1/,
y que = 1/ tiene la distribucion gama inversa, ver (3.19), con
2
y V () =
E() = con > 2 (3.26)
1 ( 1)2 ( 2)
donde y son los mismos parametros de la densidad gama. Por ello, se propone que
Uv Lv 2
V () = (
)
2zv
Al igualar estas ecuaciones con los correspondientes momentos de la distribucion gama
inversa, dados por (3.26), se obtiene que los hiperparametros para la distribucion marginal
de estan dados por
zv2 (Uv + Lv )
2
= 2 +2 (3.27)
(Uv Lv )
y
Uv + Lv
= ( 1) ( ) (3.28)
2
E() = (L m + U m )/2,
Um Lm 2
)
V () = (
2z m
as al igualar estas dos expresiones con los correspondientes momentos de la distribucion
marginal , ver (3.25), se obtiene que
m = (L m + U m )/2 (3.29)
4z 2m
k= (3.30)
(U m L m ) ( 1)
2
Figura 3.2
A priori normal-gamma para modelo normal
a) (zm, zs)= (1, 5, 1, 5), b) (1, 5, 3, 0), c) (3, 0, 1, 5), d) (3, 0, 3, 0)
3.3. METODO DE MOMENTOS PARA DISTRIBUCIONES CON DOS PARAMETROS 61
3. E s p e c i f i c ac i n de distribuciones a priori 73
3.3.M toMetodo
3.3 de
do de mom Momentos
e n to s pa r a d i s t r ipara
b u c i o nDistribuciones
e s c o n d o s pa r m e tcon
ro s dos Pa-
rametros
Hasta aqu se ha explicado como especificar las distribuciones a priori para modelos cuyos
parametros tienen una interpretacion estrechamente relacionada con la variable observable
X. Sin embargo, existen muchos otras distribuciones (modelos) cuyos parametros no tie-
nen una interpretacion directa en terminos de X. Para este tipo de modelos, a continuacion
se explican los detalles de un procedimiento descrito en Gutierrez-Pulido et al. (2005b) y
se aplica al modelo lognormal. Tal procedimiento parte del hecho que independiente del
modelo a utilizar, la unica caracterstica general en todos los modelos es la informacion
observable en terminos de la variable aleatoria X. As, si se da informacion a priori para
X, la idea basica es hacer que las distribuciones a priori predictivas f (x) sean consistentes
con la informacion dada. Se supone que el experto proporciona intervalos de ocurrencia
para la media m, [L m , U m ]; y la desviacion estandar S, [L s , U s ]. Dado (H), con hiper-
parametros H, la distribucion a priori predictiva es:
f (xH) = f (x)(H)d.
0 5
h 1 ( 1 , 2 ) = E (X 1 , 2 ) = exp( + ) y
h 2 ( 1 , 2 ) = V (X 1 , 2 ) = exp(2 + 1 )[exp( 1 ) 1] (3.31)
Igualando el valor esperado con y la varianza con 2 , y resolviendo el sistema de ecua-
2 + 2
ciones respecto a y , se obtiene = log ( 2 + 2 ) y 1 = log ( 2 ). El centro de D se
2
denota con 0 = (L m +U m)
y 0 = (L s +U s)
. Para encontrar los hiperparametros H, para las a
priori ( 1 , 2 H), se procede de forma tal que
2 2
E( i H) = i ( 0 , 0 ) i = 1, 2 (3.32)
62 CAPITULO 3. ESPECIFICACION DE DISTRIBUCIONES A PRIORI
74 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
ra igualando estas expresiones con las correspondientes de (3.32) y (3.33), se tienen cuatro
ecuaciones simultaneas con cuatro incognitas (los hiperparametros). Al resolver este siste-
ma se obtiene que:
E( 2 H)
= = E( 2 H) (3.34)
V ( 2 H)
m = E( 1 H) k= (3.35)
( 1) V ( 1 H)
log( L2s +U m2 ) log( U s2 +L2m )
1 1 02
Um2 L 2m
02 4z 2
m = log y k = .
(02 + 02 )1/2 U 2 (U 2 +L 2 )1/2
( 1) log2 ( L 2m (L 2s+U 2m)1/2 )
m s m
En la tabla 3.1 se muestran los resultados de aplicar el procedimiento descrito para ob-
tener los hiperparametros de los modelos normal, lognormal, valor extremo y Weibull. En
este ultimo caso es importante comentar que se hizo 1 = y 2 = , por lo que
3.3. METODO DE MOMENTOS PARA DISTRIBUCIONES CON DOS PARAMETROS 63
3. E s p e c i f i c ac i n de distribuciones a priori 75
1
1 ( 1 , 2 ) = E (X 1 , 2 ) = (1 + ) y
2 1
2 ( 1 , 2 ) = V (X 1 , 2 ) = 2 {(1 + ) 2 (1 + )}
Las ecuaciones resultantes de igualar el valor esperado con y la varianza con 2 , no tienen
solucion analtica en terminos de y . Por ello para encontrar las funciones i , se utiliza
la siguiente funcion auxiliar
E(X , ) (1 + 1 )
g() = = (3.36)
V (X , ) {(1 + ) 2 (1 + )}1/2
2 1
Si a partir de esta funcion se obtiene el valor de para valores dados de y . Entonces este
valor se puede utilizar en 1 ( 1 , 2 ) para obtener el valor de . De esta manera las funciones
i se pueden obtener como sigue
2 [, , ] = { g( ) = 0} (3.37)
1 [, , ] = (3.38)
[1 + 1
2 [,]
]
Notar que la funcion 2 [, ] es igual a , donde es la solucion de g() = 0
Esta solucion se obtiene numericamente sobre los posibles valores de y . Con estas ex-
presiones para las funciones i se obtiene E( i H) y V ( i H) de acuerdo a (3.32) y (3.33),
respectivamente. Y sustituyendo en (3.34) y (3.35), se obtiene los hiperparametros de la tabla
3.1.
Modelo i i mi ki
1 4z 2
Normal 12 1 2 2 0 (U m L m )2 (1)
0 [L s ] 02
02
z
z2
2
log( 0 2 +1)
log ( )
0 02 z2
LogN 1 2
( 02 + 02 )1/2 (1) log 2 ( L 0 )
2 2
log 2 [( 2s +1)( 02 +1) ] log( 02 +1)
U
m
0 0 0
Valor Extremo
z2
2
0 + 0 450 z2
(1)[ 0 L m ]2
0 6[ ] 0 6
0 6 6L s
z 2 (1)1
Weibull z 2 2 (, 0 , 0 )
2 (, 0 , 0 )r 2 (, 0 ,L s )2
2 (, 0 , 0 ) 0
(m 1 (,L m , 0 ))2
[1+ (,1 , ) ]
2 0 0
3.4.
D i s t rDistribuciones
3.4 aopriori
ibuciones a priori n noi vainformativas
i n f o r m at s
La idea distribuciones a priori no informativas surge ya sea porque se conoce poco o nada de los
posibles valores de los parametros de un modelo o porque se quiere hacer inferencia con base en
metodo Bayesianos y se desea solo utilizar la informacion que aportan los datos (dejar que los datos
hablen por s mismos). En el contexto Bayesiano este tipo de metodos se conocen como inferencias
objetivas.
(X) L(X)()
n
exp [ ( x n )2 ]
2
que salvo una constante corresponde a una distribucion normal con media x n y varianza (n)1
Si por el contrario en el modelo normal(, ) se supone conocida , entonces de (2.28) se obtiene
que log verosimilitud esta dada por
n log() n s n
l(X) = ( x n )2
2 2 2
con lo que al derivar dos veces respecto a a l(X),se obtiene la funcion de informacion:
3.5. PREGUNTAS Y EJERCICIOS 65
3. E s p e c i f i c ac i n de distribuciones a priori 77
n 2
I(X) = l (X) =
2
por lo que la distribucion a priori no informativa tipo Jeffreys en este caso es del tipo
() 2
Distribuciones de Referencia
Distribuciones de referencia
Al seguir la idea de las a priori tipo Jeffreys en el sentido de que la eleccion de la a priori afecte lo
menos posible a la distribucion posterior, en los anos recientes se ha desarrollado lo que se conoce
como analisis de referencia (ver Bernardo y Smith, 1994; y Bernardo, 2003). Suponer que el modelo
que genera los datos es de la forma f (x, ), donde es un vector de parametros espurios (que no
interesan) adecuadamente elegidos. Para obtener la distribucion posterior de la cantidad de interes
f (X) es necesario especificar la distribucion a priori conjunta f (, ) de forma tal que esta tenga
un efecto mnimo sobre la distribucion posterior de
f (X) L(X, ) f (, )d
Si consideramos un parametro, y si t = t(X) T es un estadstico suficiente. En la teora de la in-
formacion de Shannon la cantidad de informacion I {T, f ()} que se puede esperar que proporcione
los datos X sobre , esta definida por
f (t, ) f (t)
I {T, f ()} = f (t, ) log ddt = E t [ f (t) log d]
T f (t) f () f ()
que es la esperanza del logaritmo de la divergencia entre la posterior y la distribucion a priori. Esta
es naturalmente una funcional de la distribucion a priori f (), de tal forma que a mayor informacion
de la a priori, menor sera la informacion que los datos puede proporcionar. La funcional I {T, f ()}
es concava, no negativa e invariante bajo transformaciones una a uno de
Si se tienen k realizaciones independientes {t 1 , , t k } del experimento original. Conforme k
, tal que un experimento proporcionara cualquier informacion perdida acerca de . As, confor-
me k , el funcional I {T, f ()} se aproximara a la informacion perdida acerca de asociada
con la a priori f () Intuitivamente una a priori no informativa de , es aquella que maximiza la
informacion perdida acerca de Formalmente, si k () denota la densidad a priori que maximiza
I {T k , ()} en la clase P de distribuciones a priori estrictamente positivas que sean compatibles con
las suposiciones aceptadas sobre , entonces la distribucion a priori de referencia () es el lmite de
la secuencia de a prioris k ()
3.5.P r e gPreguntas
3.5
y Ejercicios
u n ta s y e j e rc i c i o s
1. Sobre la especificacion de distribuciones a priori, conteste:
a) Que son los hiperparametros de una distribucion a priori, y por que es necesarios es-
pecificarlos para poder obtener la distribucion posterior?
66 CAPITULO 3. ESPECIFICACION DE DISTRIBUCIONES A PRIORI
78 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
a) Encontrar una distribucion a priori si se cree que los datos provienen de un modelo
exponencial, y si el experto provee el intervalo [L , U ] = [0 25, 0 45], usar z = 2.
b) Se puede considerar compatible la distribucion a priori con los datos observados?
12. Si en una aplicacion del modelo binomial se cree que p esta en [0 10, 0 25], muestre distri-
buciones Beta diferentes en su forma que se podran usar como a priori en forma razonable
dada esta informacion.
13. El siguiente modelo se ha utilizado para modelar longitudes de variables aleatorias continuas.
f (x ) = 2 xe x/ ; > 0, x > 0
Se puede demostrar que E(x) = 2. Se suele utilizar una distribucion a priori gama inversa
para , ver (3.19). Si se da un intervalo a priori donde se espera este la media de x, obtener el valor
de los hiperparametros para esta distribucion (aplicar el procedimiento descrito al inicio del presente
captulo).
4. I nferencia
pa r a lo s m o d e lo s m s u s ua l e s
Captulo 4
En este captulo se presentan los aspectos fundamentales para hacer inferencias con los modelos mas
usuales en estadstica. Especficamente se ven los modelos Binomial, Poisson, Exponencial y Normal.
Ya se vio en la seccion 2.1 que el modelo Binomial se utiliza para describir la variabilidad del numero
de exitos en n ensayos de tipo Bernoulli, y que su funcion de densidad de probabilidades esta dada
por (2.4):
n
f (xp) = ( )p x (1 p)nx con x = 0, 1, 2, . . . , n
x
Si se efectuan k experimentos binomial, con tamanos n 1 , ..., n k , y se observan, respectivamente, los
siguientes exitos: x 1 , ..., x k . La correspondiente verosimilitud esta dada por (2.5)
k k
L (pX) p x (1 p)nx , x = xi y n = ni
i=1 i=1
Como distribucion a priori para el parametro p se debe tener un soporte en [0, 1] y que de una buena
flexibilidad. Es practica usual utilizar la densidad Beta(, ), debido a su flexibilidad y a que es una
distribucion conjugada para el modelo binomial. La densidad Beta(, ) esta dada por:
( + ) 1
(p) = p (1 p) 1 con 0 p 1
() ()
con
E(p) = y V (p) =
+ ( + )2 ( + + 1)
[81]
69
70 CAPITULO 4. INFERENCIA PARA LOS MODELOS MAS USUALES
82 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
La flexibilidad de la densidad Beta se muestra en la Figura 4.1, donde se aprecia diferentes formas
que puede tomar esta densidad dependiendo del valor de los parametros. De hecho la distribucion
uniforme [0, 1], que se utilizara cuando no se sabe nada a priori del parametro p, es un caso particular
de la distribucion Beta cuando = 1 y = 1, como se aprecia claramente en la figura 4.1
Figura 4.1
Densidades tipo beta con parmetros y diferentes
De esta manera si se utiliza como a priori una distribucion beta, la distribucion posterior para p
es proporcional a L(pX)(p), es decir:
( + ) 1
(pX) p x (1 p)nx p (1 p) 1
()()
p +x1 (1 p) 1+nx
Esta ultima expresion, salvo por una constante, corresponde a una distribucion beta con = + x
4.1. MODELO BINOMIAL 71
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 83
y = + n x. Por lo tanto
( + ) 1
(pX) = p (1 p) 1 (4.1)
( )( )
y
E(pX) = y V (pX) = .
+ ( + )2 ( + + 1)
Ejemplo 4.1 Del ejemplo 2.1 de la proporcion de fumadores., donde de una muestra de n = 100, se
detectaron x = 20 fumadores. Al tomar en cuanta solo la verosimilitud (ver figura 2.1) se encontro que
los valores mas verosmiles de p a un nivel c = 0 15 estan entre 0 130 y 0 285. Si este problema se ve
en forma Bayesiana, se necesita definir una distribucion a priori para p. Para ello si a priori se cree que
p esta entre [0 1, 0 3]. Entonces al aplicar el metodo descrito en la subseccion 3.1.2, en particular las
ecuaciones (3.7) y (3.8) con z = 2, se tiene que = 12 6 y = 50 4.
N ( + ) 1
=( ) p +y1 (1 p) +Ny1 d p
y ( )( ) 0
El integrando salvo por una constante, es una distribucion beta. Por ello completado esta, la integral
sera uno, y por lo tanto la distribucion posterior predictiva para el modelo binomial esta dada por:
N ( + ) ( + y) ( + N y)
f (yX) = ( ) (4.2)
y ( )( ) ( + + N)
84 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 4.2
Funciones de la proporcin de fumadores
e x
f (x) = con > 0 y x = 0, 1, 2, . . .
x!
Si se observan n experimentos Poisson la verosimilitud esta dada por:
n
L (X) e n r , r = xi
i=1
La distribucion a priori usual conjugada para el parametro esta dada por la distribucion gama:
1
() = e con > 0, > 0
()
2z 2 (L + U )
=
(U L )2
z (L + U ) 2
=( )
U L
De esta manera si se utiliza como a priori una distribucion gama, la distribucion posterior para es
proporcional a L(X)(), es decir:
1
(X) e n r e
()
(+r)1 e (+n)
74 CAPITULO 4. INFERENCIA PARA LOS MODELOS MAS USUALES
86 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Esta ultima expresion, salvo por una constante, corresponde a una distribucion Gama con = + r
y = + n. Por lo tanto
( )
(X) = a 1 e (4.3)
( )
E(X) = y V (X) = 2 .
Ejemplo 4.2 En una fabrica de muebles se inspecciona meticulosamente el acabado de las mesas cuando
salen del departamento de laca. La cantidad de defectos que son encontrados en cada mesa son regis-
trados con el fin de conocer y mejorar el proceso. Es razonable suponer una distribucion Poisson para le
numero de defectos por mesa. De acuerdo a informaciones previas se cree que anda entre 3 y 7 por lo
que con z = 2 la a priori tiene parametros = 25 y = 5. En la inspeccion de 15 mesas se obtuvieron los
siguientes defectos: 7, 5, 10, 2, 6, 5, 4, 9, 7, 5, 6, 7, 8, 4, 5. De aqu que r = 90, n = 15.
En la figura 4.3 se muestra la verosimilitud relativa, la distribucion a priori y la distribucion poste-
rior para . Incluye intervalo de probabilidad al 95 % que en el caso de la posterior es [4 747215, 6 847441].
El cual comparandolo con el de la verosimilitud al c = 0 05 que fue de [4 5821, 7 684] y con el de
la a priori de [3 235736, 7 142019] es mas estrecho, esto significa que la incertidumbre es menor al
utilizar la inferencia Bayesiana sobre . De esta manera lo que se sabe sobre , que es el promedio de
defectos en las mesas, es que este promedio esta entre [4 747215, 6 847441]. Este es un promedio, y
no se refiere al numero de defectos por cada mesa. Si se quiere tener informacion por mesa, entonces
en lugar de hacer inferencias sobre el parametro , se requiere hacer inferencias sobre la variable x.
Retomando el ejemplo seria el numero de defectos por mesa. Para ello, como se vio en el seccion 1.4
se utiliza la distribucion posterior predictiva. Que para el caso del modelo Poisson estara dada por:
f (yX) = f (y)(X)d
0
e y
= 1 e b d
0 y! ( )
=
)
e (1+ +y1 d
y! ( ) 0
El integrando salvo por una constante, es una distribucion gama. Por ello completado esta, la integral
sera uno, y por lo tanto la distribucion posterior predictiva para el modelo Poisson esta dada por:
( + y)
f (yX) = (4.4)
y! ( ) ( + 1) +y
Esta distribucion nos da la probabilidad posterior de ver y conteos en un experimento Poisson
(por ejemplo ver y defectos en una mesa). Esta distribucion se conoce como Poisson-Gama( , , 1)
o bien Poisson-Gama( + r, + n, 1). Y tiene
E(y) =
+r
=
+n
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 87
Figura 4.3
Funciones para el nmero de defectos
1
V (y) = [1 + ]
+r 1
= [1 + ]
+n +n
Al seguir el ejemplo anterior, se tendra que = 115, = 20, y la grafica de f (y X) se muestra
en la figura 4.3
20 115 (115 + y)
f (y X) = ( )
21 y! (115) 21 y
La distribucion predictiva tambien se puede resumir a traves de un intervalo de probabilidad,
que en este caso con 95 % de cobertura esta dado por [1, 10], es decir, Pr(1 y 10) = 0,95. Por lo
que el numero esperado de defectos por mesa es de 1 a 10, con una probabilidad del 95 %.
i=1
La distribucion a priori usual conjugada para el parametro esta dado por la distribucion gama
inversa(, ):
1 /
() = e con > 0, > 0
()
donde E() = 1 y V () = (1)2 (2) . De acuerdo al metodo expuesto en el capitulo 3, dado un
2
(X) n e 1 e /
s
n1 e /
s
4.3. MODELO EXPONENCIAL 77
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 89
que salvo por una constante corresponde a una distribucion gama inversa con parametros a = + n
y b = + s. Con lo que
b a a1 b/
(X) =
e
(a)
Para encontrar cuantiles de esta distribucion se puede aprovechar el hecho de que si se distribuye
gama inversa, entonces = 1/ se distribuye gama(, ), por lo tanto es facil demostrar que si x es
el cuantil de la distribucion gama(, ), entonces 1/x es el cuantil (1 ) de la distribucion gama
inversa.
La distribucion posterior predictiva. Para hacer inferencias sobre la variable aleatoria (tiempo de
vida, por ejemplo) se requiere la distribucion posterior predictiva, que para este caso estara dada por:
f (yX) = f (y)(X)d
0
1 1 y b a a1 b/
= e e d
0 (a)
ba
= (a+1)1 e (y+b) d
1
(a) 0
Al completar en una densidad gama inversa en el integrando, se obtiene que:
b a (a + 1) 1
f (yX) =
(a) (b + y)(a+1)
= ab a (b + y)(a+1) (4.5)
ab 2
V (y) =
(a 1)2 (a 2)
( + n) ( + s)2
=
( + n 1)2 ( + n 2)
Para calcular probabilidades para y es util contar con la predictiva posterior acumulada, que esta dada
por
x
F (xX) = f (yX) d y
0
x
ab a ba
= [ a] =1 (4.6)
a (b + y) 0 (b + x) a
78 CAPITULO 4. INFERENCIA PARA LOS MODELOS MAS USUALES
90 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
De aqu se puede obtener la funcion cuantil: x p = F 1 [p], con p (0, 1), con la que se puede obtener
intervalos de probabilidad para valores especficos de p. Para ello sea
ba
1 =p
(b + x p ) a
despejando de aqu x p , se obtiene que:
1/a
1
xp = b ( ) b. (4.7)
1 p
Ejemplo 4.3 Los siguientes datos representan tiempos de falla del equipo de aire acondicionado de un
aeroplano (ver Prochan, 1963). Ver programa 6.
1, 3, 5, 7, 11, 11, 11, 12, 14, 14, 14, 16, 16, 20, 21, 23, 42,
47, 52, 62, 71, 71, 87, 90, 95, 120, 120, 225, 246, 261
Si se cree que esta entre [30, 80], al tomar z = 2, se tiene que la a priori tiene parametros = 21 36,
y = 1119 8. Ademas como s = 1788, n = 30, entonces a = 51 36, b = 2907 8. En la figura 4.4 se
muestra la verosimilitud relativa, la distribucion a priori y la distribucion posterior. Incluye intervalo de
probabilidad al 95 % para la distribucion posterior que es [43 8396, 75 955]. Al comparar este con el de
la verosimilitud con c = 0 15 que fue de [42,6, 86,98] y con el de la a priori de [35 747, 84 309] , es
bastante mas estrecho. As que lo que se sabe sobre (el tiempo medio de falla), es que con probabilidad
del 95 %, este anda entre [43 8396, 75 955]. Por otro lado, si se quisiera saber donde se espera el tiempo
de falla de un producto individual, entonces se requiere obtener un intervalo de probabilidad para la
distribucion posterior predictiva, que se puede obtener con la funcion cuantil de la predictiva (4.7). Por lo
que dada la forma de la densidad de la figura 4.4d, solo se obtiene para la parte superior con p = 0,95, en
ese caso se espera que con probabilidad 95 % el tiempo de falla este entre 0 y 174.6505. Con la acumulada
de la predictiva (4.6) se pueden obtener probabilidades especficas, por ejemplo la probabilidad de que
un equipo dure funcionando mas de 100 horas. Esta probabilidad esta dada por
ba
1 F (100X) = = 0 176
(b + 100) a
Ejemplo 4.4 Durante una prueba de vida acelerada para determinar la confiabilidad de un producto,
debido a que no es posible hacer una inspeccion continua para evaluar si el producto aun esta en buenas
condiciones, se hace inspeccion por intervalo. Se ponen a prueba un total de 42 unidades, y cada cinco
das se hace una revision para evaluar cuantas unidades fallaron desde la ultima inspeccion. La prueba
se suspende a los 20 das, y a esa fecha 5 productos aun no haban fallado, por lo que se consideran como
censurados por la derecha. Los datos son:
Intervalo Numero de productos que fallaron
(0, 5] = (x o , x 1 ] 16
(5, 10] = (x 1 , x 2 ] 10
(10, 15] = (x 2 , x 3 ] 7
(15, 20] = (x 3 , x 4 ] 4
Mas de 20 (x > x 4 ) 5
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 91
Figura 4.4
Funciones para el problema de aire acondicionado
Al suponer un modelo exponencial, ver (2.11), lo primero que se quiere tener es informacion sobre
el parametro del modelo. De acuerdo a (2.23) y a (2.17), la verosimilitud esta dada por:
L(X) = e 280 (1 e 5 )
1 1 37
Si ademas se cree que esta entre [8, 16], se tiene que su distribucion a priori gama inversa
tiene parametros = 38, = 444. De esta manera la distribucion posterior para es proporcional a
L(X)(), es decir:
1 /
(X) e 280 (1 e 5 )
1 1 37
e
()
e (280+) (1 e 5 ) 1
1 1 37
Para hacer de esta distribucion una densidad de probabilidad la multiplicamos por la constante
c y su integral da
1 810 081899
ce 724 (1 e 5 ) 39 d =
37
1 1
c
0 1 3454 1085
al igualar este resultado a 1, se obtiene
1 3454 1085
c=
1 810 081899
1 810081899 0
Figura 4.5
Funciones para confiabilidad del producto
4.4.
M o d Modelo
4.4 e lo N o r m aNormal
l
En el captulo 2 ya habamos visto que el modelo normal juega un papel muy importante en muchas
aplicaciones de la estadstica tradicional. Sea aqu como se hace la inferencia Bayesiana para el este
modelo. La densidad para una distribucion normal (, ), esta dada por
1/2
f (x, ) = ( ) exp [ (x )2 ]
2 2
con < x < +, < < +, > 0. De acuerdo a (2.28) la verosimilitud para el modelo
normal esta dada por:
n/2 s n
L(, X) = ( ) exp [ n( x n )2 ] exp [ ] (4.8)
2 2 2
con x n = n1 ni=1 x , s n = ni=1 (x x n )2 .
Como ya se dijo en el captulo 3, debido a que es conjugada, se suele utilizar como distribucio-
nes a priori para los parametros del modelo normal (, ), una distribucion normal-gama. Donde
la distribucion condicional de dado es normal (m, k) y la distribucion marginal de es una
gama(, ), por lo que:
k 1/2 k
(, , , m, k) = ( ) exp [ ( m)2 ] exp() 1 (4.9)
2 2 ()
con , , k > 0. Se va a requerir la distribucion t-Student con tres parametros: grados de libertad,
parametro de localizacion m y precision , que esta dada por
E(xm, , ) = m
1
V (xm, , ) = , si > 2.
( 2)
2(k+n)
En terminos general la distribucion t-Student con tres parametros(m, , ), esta dada por
( 21 ( + 1)) 1/2 2 +1
f (y X) = ( ) [ (y m)2 + 1] (4.11)
() (1/2)
Ademas sabemos, (ver Bernardo y Smith, 1994, pag. 123), que si y se distribuye tStudent(m, , ),
entonces z = 1/2 (y m) se distribuye t-Student estandar (0, 1, ). Es precisamente la distribucion
t-Student estandar la que viene incluida en la mayora de los programas estadsticos computacionales,
con lo que se facilita el trabajo con esta distribucion.
Demostracion. a). De la distribucion conjunta (, , , m, k), es claro que la marginal () esta da-
da por
k 1/2 k
() = ( ) exp [ ( m)2 ] exp() 1 d
0 2 2 ()
k 1/2 k
= ( ) exp [ ( ( m)2 + )] (+1/2)1 d
() 2 0 2
k 1/2
() = ( ) exp [z] y1 d
() 2 0
La expresion en la integral, salvo por una constante, corresponde a una densidad gama(y, z). Por lo
tanto al completar la densidad gama se obtiene:
(y) k 1/2 y z y
() = ( ) z exp [z] z y1 dz
() 2 0 (y)
La integral de la densidad en todo el soporte es igual a uno, por lo que:
( + 21 ) k 1/2 k (+1/2)
() = ( ) ( ( m)2 + )
() 2 2
( 21 (2 + 1)) k
1/2
k
2+1
= ( ) ( ( m)2 + 1)
2
( 2 (2))
1 2 2
( 21 (2 + 1)) k/
1/2
2+1
() = ( ) [(2)1 (k/) ( m)2 + 1] 2
(4.12)
( 21 2) 2
Esta funcion corresponde a una densidad t-Student con tres parametros: 2 grados de libertad, loca-
lizacion m y precision k/, (ver Bernardo y Smith, 1994). Que es lo que se quera demostrar.
Demostracion. b). Como la distribucion posterior para (, ) es proporcional a L(X, , M)(, ),
y dadas (4.8), (4.9) y al eliminar las constantes y simplificar se obtiene
sn
(, X) exp [ (n( x n )2 + k( m)2 )] exp [ ( + )]
(+ n+1
2
)1
2 2
84 CAPITULO 4. INFERENCIA PARA LOS MODELOS MAS USUALES
96 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
sea h = n( x n )2 + k( m)2 , si se expande
h = km 2 2nx n 2km + k 2 + n 2 + nx 2n
se factoriza (k + n)
nx n + km
h = km 2 + nx 2n + (k + n) ( 2 2)
k+n
y al completar binomio cuadrado con m = nx n +km
k+n
h = km 2 + nx 2n m2 (k + n) + (k + n) ( 2 m 2 + m2 )
= km 2 + nx 2n m2 (k + n) + (k + n) ( m )
2
h = B + (k + n) ( m )
2
De aqu que
sn
(, X) exp [ (B + (k + n) ( m ) )] exp [ ( + )]
2 (+ n+1
2
)1
2 2
al reagrupar
(k + n) sn B
(, X) exp [ ( m ) ] exp [ ( + + )]
(+ n+1 )1
2
2
2 2 2
B
al hacer = + n2 , = + sn
2
+ 2
=+ sn
2
+ nk(x n m)2
2(k+n)
, k = k + n se obtiene
k
(, X) exp [ ( m ) ] exp [ ] 1
2
2
que salvo por una constante es una distribucion normal-gama con parametros (m , k , , ). Por
lo que
k k
1/2
(, X) = ( ) exp [ ( m )2 ] exp( ) 1 (4.13)
2 2 ( )
que corresponde a una distribucion t-Student con tres parametros: 2 grados de libertad, localiza-
cion m y precision k / , que es lo que se quera demostrar.
Demostracion. d) Respecto a la distribucion posterior predictiva se tiene que
k k
1/2
1/2
f (y X) = ( ) exp [ (y )2 ] ( ) exp [ ( m )2 ]
0 2 2 2 2
exp( ) 1 d d
( )
luego al factorizar
R= exp [ ((y )2 + k ( m )2 )] d
2
sea z = (y ) + k ( m ) , al expandirlo se obtiene
2 2
z = y 2 2k m 2y + 2 + 2 k + k (m )2
z = (y 2 + k m2 ) 2 (m k + y) + 2 (1 + k )
m k + y
= (y 2 + k m2 ) + (1 + k ) (2 ( ) + 2 )
1 + k
k (y m )
2
w=
k + 1
k m +y
q=
1 + k
z = w + (1 + k ) ( q)2
por esto
R= exp [ (w + (1 + k ) ( q)2 )] d
2
al mover las constantes fuera de la integral, se tiene que
(1 + k )
R = exp [ w] exp [ ( q)2 ] d
2 2
que salvo por una constante, la integral es una distribucion normal (q, (1 + k )), al completar la
integral
(1 + k ) (1 + k )
1/2 1/2
2
R = exp [ w] ( ) ( ) exp [ ( q)2 ] d
2 (1 + k ) 2 2
de aqu que
k
1/2
1 2
f (y X) =
[ ( )
( ) 2 0
exp( ) exp w] d
2 (1 + k )
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 99
k
1/2
1 2 +1
f (y X) = ( ) exp [ ( + w)] 2 1 d
( ) 2 (1 + k ) 0 2
La integral tiene la forma de una densidad gama. Al completar e integrar, se obtiene que
k
1/2 ( 2 2 +1 )
f (y X) = ( )
( ) 2 (1 + k )
2 +1
( + 21 w) 2
( 2 2 +1 ) k
1/2
1
2 +1
= ( ) ( + w)
2
( ) 2 (1 + k ) 2
( 2 2 +1 ) k
1/2
1 k (y m )
2 2 2 +1
f (y X) = ( ) [ (1 +
)]
( 21 2 ) 2 (1 + k ) 2 (k + 1)
( 2 2 +1 ) k
1/2
1 k (y m )
2 2 2 +1
= ( ) [ (1 +
)]
( 21 2 ) 2 (1 + k ) 2 (k + 1)
( 2 2 +1 ) k
1/2
2 2 +1 2 +1
f (y X) = ( ) [1 + (y m )2 ]
2
( 21 2 ) 2 (1 + k ) 2
2 +1
( 21 (2 + 1))
1/2
= ( ) [1 + (y m )2 ]
2
(4.15)
( 2 2 ) [1/2] 2
1 2
Esta funcion corresponde a una densidad t-Student con tres parametros: 2 grados de libertad, lo-
calizacion m y precision , que es lo que se quera demostrar.
Ejemplo 4.5 Las especificaciones para el peso (en gramos) de un producto son 350 10. A priori se cree
que la media del peso esta entre [345, 355] y la varianza en [4, 20]. Para evaluar el cumplimiento de
especificaciones se toma una muestra aleatoria de n = 25 productos. Los datos son los siguientes. Ver
programa 7.
344.9 355.6 345 352.1 348.2
349.1 346.1 344.9 348.7 348.3
347.1 348.8 350.8 352.7 351.1
341.4 350.6 346 352.3 344.1
349.7 348.6 345.9 350.8 348.7
88 CAPITULO 4. INFERENCIA PARA LOS MODELOS MAS USUALES
100 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
con x n = 348 46, s n = 247 94. Con estos datos y de (4.8) se obtiene que la verosimilitud conjunta
para (, )
n/2
L(, X) = ( ) exp [12 5( 348 46)2 ] exp [123 97]
2
Se puede ver (de 2.29) que los estimadores de maxima verosimilitud para (, ) estan dados por
12 5
R(X, , M) = ( ) exp [12 5( 348 46)2 ] exp [123 97 ( )]
Como en el ejemplo Lv = 4, Uv = 20, y L m = 345, U m = 355, z = 2. De acuerdo a (3.27, 3.28,
3.30, 3.29) se obtiene que los hiperparametros de la distribucion a priori normal gama estan dados
por = 11, = 120, m = 350, k = 1 92. De aqu se obtienen las marginales a priori como se ha
indicado en el teorema anterior. Tambien las posteriores (ver programa 7). Las graficas de las posibles
funciones de interes en este problema se muestran en la figura 4.6. En las graficas univariadas se
muestra graficamente el intervalo al 95 % de probabilidad para cada caso. Por ejemplo para el caso de
la posterior predictiva, este intervalo es [341.94, 355.12]. Es decir, se espera que el 95 % de los productos
tengan un peso en ese rango. El porcentaje de producto que se espera dentro de las especificaciones
[340, 360], es de 99.32 %.
4.5.
P r e gPreguntas
4.4 u n ta s y e j e rc iy
c i Ejercicios
os
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 101
Figura 4.6
Funciones normal
a) Si el intervalo inicial para es [2, 8], obtener (X) y la distribucion posterior predic-
tiva y comparelas con las obtenidas en el ejemplo 4.2. Comentar.
b) Para el caso anterior obtener intervalos de probabilidad al 95 % con base en las dos dis-
tribuciones e interpretatarlos.
c) Comparar los intervalos anteriores con los obtenidos en el ejemplo 4.2 y comentar.
d) Si se inspecciona una mesa, cuantos defectos se esperan en la misma?
a) Si el intervalo inicial para es [40, 70], obtener (X) y la distribucion posterior pre-
dictiva y comparelas con las obtenidas en el ejemplo 4.2. Comentar.
b) Para el caso anterior obtener intervalos de probabilidad al 95 % con base en las dos dis-
tribuciones e interpretarlos.
c) Comparar los intervalos anteriores con los obtenidos en el ejemplo 4.3 y comentar.
a) Si los intervalos iniciales para la media y la varianza son [347, 353] y [6, 15], obtener las
distribuciones posteriores conjuntas, marginales y la distribucion posterior predictiva.
Comparelas con las obtenidas en el ejemplo 4.5. Comentar.
b) Para el caso anterior obtener intervalos de probabilidad al 95 % para la distribucion pos-
terior predictiva.
c) Utilizando la predictiva, calcular la probabilidad de que se cumpla con especificaciones.
Comparar con lo obtenido en el ejemplo 4.5.
11. Para el problema 2.15 se cree a priori que la media se encuentra entre [280, 285] y la varianza
entre [40, 150], utilizar z = 2, y encontrar la distribucion posterior(, ) y predictiva. Para esta
ultima incluya un intervalo de probabilidad al 95 % e interpretar.
12. Para el problema del ejercicio 2.21 proponga intervalos iniciales para la media y la varianza
que sean razonables, y obtener la distribucion posterior predictiva e interpretar en terminos
del problema.
13. Para el problema 2.9, considerando solo el tratamiento de Ramipril, proponga un intervalo
inicial para p (la efectividad del tratamiento) mas o menos amplios y obtener la distribucion
posterior para p e interpretar en terminos del problema.
4.5. PREGUNTAS Y EJERCICIOS 91
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 103
14. En el caso del ejercicio 2.23, inciso f, suponer una distribucion impropia uniforme para ,
() c, y obtener la distribucion posterior y predictiva.
15. Una distribucion a priori () para un modelo f (x) se dice que es conjugada, si la distri-
bucion posterior (X) es de la misma familia que la a priori. Demostrar que las siguientes
densidades son conjugadas para los modelos referidos.
Captulo 5
5.1.E s t i Estimacion
5.1 m ac i n
aqu, lamda es una funcion no negativa del vector error d, tal que (0) = 0 y es una funcion
de ponderacion no negativa que indica la relativa seriedad del vector error para diferentes valores del
parametro . Si la funcion de perdida L(, d) depende solo del vector error d, entonces la funcion
puede ser tomada como constante en el espacio R k .
Puede existir algunos problemas en los que no interesa estimar todos los componentes del vector
. En esos casos, a los parametros que no interesan se les llama como parametros de estorbo (nuisan-
ce).
[105]
93
94 CAPITULO 5. ESTIMACION Y PRUEBA DE HIPOTESIS
106 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
L (, d) = a db (5.3)
Perdida Cuadratica
Prdida cuadrtica
En la mayora de los problemas envueltos en la estimacion de un parametro real es la perdida
cuadratica especificada en (5.3) con b = 2
L (, d) = a d2 = a ( d)2 (5.4)
Y cuando la funcion de perdida esta dada de esta manera, decision de Bayes sera la que minimice
(, d) = E [a ( d)2 ]
= a (d 2 2dE [] + E [ 2 ]) .
2a (d E []) = 0
de aqu que
d = E [] . (5.5)
Mas aun cuando este valor de d es escogido el valor mnimo de riesgo es
(, E []) = E [a ( E [])2 ]
= aE [( E [])2 ]
= a Var []
Ejemplo 5.1 Suponer que X 1 , X 2 , . . . , X n es una muestra aleatoria de una distribucion Poisson para el
que el valor de la media es desconocido. Si la distribucion a priori () es una distribucion gama con
parametros y . Sabemos que la distribucion posterior esta dada por (4.3) es una gama con parametros
+ r, + n. Asumimos que la funcion de perdida esta dada por (5.4) con a = 1. El estimador de Bayes
esta definido por
d = E [X]
+r
=
+n
y su varianza es
+r
Var [X] =
( + n)2
n
y como r = x i se cumple que
i=1
n
E [r] = E [x i ]
i=1
Para calcular E [x i ] es necesario aplicar la siguiente identidad de las esperanza condicional, que senala
que dados X = (X 1 , ..., X n ) y Y = (Y1 , ..., Yn ) dos vectores aleatorios, y (X, Y) una funcion integrable,
entonces se cumple que E{E[(X, Y)Y]} = E[(X, Y)] (ver DeGroot, 1970, pag. 29). De esta manera
E [x i ] = E{E[x i ]}, pero como x i tiene una distribucion condicional Poisson(), entonces E[x i ] =
, y como a priori tiene una distribucion gama(, ), se tiene que
E [x i ] = E{E[x i ]} = E{} = /
Con lo que E [r] = n . Luego
+r
() = E [ ]
( + n)2
sacando las constantes
1
() = E [ + r]
( + n)2
separando el valor esperado
+ E [r]
() =
( + n)2
y al sustituir se llega a que el riesgo de Bayes esta dado por
+ n
() = =
( + n)2 ( + n)
y si ademas el costo del muestreo por observacion es de c (con c > 0) y el experto pueda escoger el
numero de observaciones en la muestra. Para una muestra de n observaciones se sigue que el riesgo
total seria
+ cn
( + n)
96 CAPITULO 5. ESTIMACION Y PRUEBA DE HIPOTESIS
108 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Es claro que el numero de observaciones debe de ser un entero positivo. Y en dado caso que
el valor especificado anteriormente sea negativo, entonces la muestra optima es de tamano n = 0.
En estos casos, ninguna observacion debe de ser realizada, y el experto debera de estimar de la
distribucion a priori.
Si en cambio, suponemos que la funcion de perdida esta dada por
( d)2
L (, d) =
expandiendo esta expresion se obtiene
d2
L (, d) = 2d +
Para la decision de Bayes se tiene que
( d)2
(, d) = E [ X]
= E [X] 2d + d 2 E [1 X] (5.6)
2 (dE [1 X] 1) = 0
y simplificando se obtiene
+n
E [1 X] =
+r1
por lo tanto
+r1
d=
+n
5.1. ESTIMACION 97
5. E s t i m ac i n y p ru e b a d e h i p t e s i s 109
y como
+r
E [X] =
+n
se tiene que
+r +r1
(, d) =
+n +n
1
=
n+
De esta forma el riego de Bayes esta dado por
1
() = E [ ]
n+
y como es una constante se tiene que
1
() =
n+
De aqu que si cada muestra tiene un costo de c por observacion se obtiene que el riesgo total es
1
+ cn
n+
el cual es minimizado cuando
n= c
Ejemplo 5.2 Se toma una muestra aleatoria de n = 5 observaciones de una distribucion geometrica
X=(6,4,2,10,8) sin conocer cual es el parametro .. La verosimilitud, si se observan n veces realizaciones
del modelo geometrico, X = (x 1 , , x n ), esta dada por:
L(x) = (1 )sn n
() = 1 con 0 1
(X) (1 )sn n ()
(1 )sn n
98 CAPITULO 5. ESTIMACION Y PRUEBA DE HIPOTESIS
110 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Esta densidad salvo por constantes corresponde a una densidad Beta con parametros = n +1 =
6, y = sn+1 = 26. Por lo tanto dado que la a priori y la posterior son de la misma familia, entonces
la distribucion beta es conjugada para el modelo geometrico. Ademas de acuerdo a (3.4) se obtiene
que:
n+1 3
E(X) = =
s + 2 16
(n + 1) (s + 1 n) 13
V (X) = =
(s + 2)2 (s + 3) 2816
L (, d) = a d (5.8)
Cuando la funcion de perdida es especificada por la ecuacion 5.8, la decision de Bayes, sera aquella
que minimice a
E [L (, d)] = E [a d] = aE [ d]
pero como a es una constante entonces sera la que minimice a
E [ d]
E [ d ] = nf E [ d]
<d<
<d
d <0
E [ d d ] > (d d ) [P ( d ) P (d < )]
Ejemplo 5.3 Sea X 1 , X 2 , . . . , X n una muestra aleatoria de una distribucion normal con un parametro
desconocido, el de la media , y una precision especifica r. El estimador d que es usado lo da la funcion
de perdida dada por 5.8, con a = 1. Si se escoge como a priori para una distribucion normal con media
m y precision , se tiene que la distribucion posterior para X 1 , X 2 , . . . , X n es una distribucion normal
con media m+nr
+nr
X
y precision + nr.
Aqu se aprovecha el hecho de que en la distribuciones normal existe una unica mediana y esta
coincide con el valor de la media, se tiene que el estimador de Bayes d se define como
m + nr X
d = .
+ nr
De igual forma el riesgo de Bayes esta determinado como
() = E [ d ]
100 CAPITULO 5. ESTIMACION Y PRUEBA DE HIPOTESIS
112 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
En concordancia con lo anterior, la distribucion posterior de d debe ser una normal con
media cero y precision + nr. Ahora si Y es una variable aleatoria con una distribucion normal con
media cero y precision p, se tiene que
1
2 2
E (Y) = ( )
p
de aqu que
1
2
() = ( )
2
( + nr)
Si cada muestra tiene un costo de c por observacion se obtiene que el riesgo total es
1
2
( ) + cn
2
( + nr)
5.2.E s t i mEstimacion
5.2
por Intervalos de Probabilidad
ac i n p o r i n t e rva lo s d e p ro b a b i l i da d
La estimacion consiste en resumir la distribucion posterior a traves de un intervalo o region
donde el parametro de interes se encuentra con una probabilidad dada.
Sea {p (w) , w W} una familia completa de modelos parametricos que se desea calcular, de
los datos X = (x 1 , , x n ), una region C en donde se espera razonablemente que este el parametro
desconocido w.
Una region C tal que
p (w) dw = 1
C
se dice ser una region de confianza, con probabilidad 1 de contener al parametro w, con respecto
a p (w). Con 0 < < 1.
Si p (w) es una distribucion a priori, posterior o predictiva; se hace referencia a ella como una
region a priori, posterior o predictiva, respectivamente.
Claramente, para cualquier no existe una unica region de confianza (incluso si restringimos
las regiones a un intervalo cerrado). Para cada , p (w) y fijo, el problema de escoger entre los
subconjuntos C tal que C p (w) dw = 1 puede ser visto como un problema de decision, de
tal forma que es necesario usar una funcion de perdida, s (C, w), reflejando las posibles consecuencias
de tomar cierta region C. De aqu que intuitivamente la funcion de perdida debe ser que dado , se
debe de preferir una region C cuyo tamano C (volumen, area, longitud) sea mnima.
Proposicion 5.2 Sea p (w) una densidad de probabilidad para w ; y dado , 0 < < 1, si
A = {C; P (w C) = 1 }
5.2. ESTIMACION POR INTERVALOS DE PROBABILIDAD 101
5. E s t i m ac i n y p ru e b a d e h i p t e s i s 113
y
s (C, w) = k C 1C (w) , k>0
entonces C es optimo si y solo si tiene la propiedad de que p (w 1 ) p (w 2 ) para todo w 1 C, w 2 C.
s (C, w) p (w) dw = k C + 1
nf p (w) C D c p (w) dw
wCD c CD c
= p (w) dw
C c D
sup p (w) C c D
wC c D
con
sup p (w) nf p (w)
wC c D wCD c
entonces C D c C c D, y esto es C D.
Una region C se dice ser la region de mas alta probabilidad 1 para w con respecto a p (w)
si
i P (w C) = 1
ii p (w 1 ) p (w 2 ) para todo w 1 C, w 2 C.
Si p (w) es una distribucion a priori, posterior o predictiva; se hace referencia a ella como como
una region de la mas alta densidad de probabilidad 1 a priori, posterior o predictiva, respectiva-
mente.
Ejemplo 5.4 Sean los datos y la distribucion posterior para el modelo exponencial del ejemplo 4.3, y de
(4.5), se tiene que
f (yX) = ab a (b + y)(a+1)
con a = 51 36, b = 2907 8.
(b + y i ) a
1
ys = b ( a a) 1
a
b (1 ) (b + y i )
)
a
b a (1 ) (b + y i )
1
a
de aqu que
b (1 ) (b + y i ) > 0
a a
entonces
b ((1 ) a 1) > y i > 0
1
5.3.P ru ePrueba
5.3
(contraste) de Hipotesis
ba (contraste) de hiptesis
Sea X = (x 1 , , x n ) una muestra aleatoria de f (x). Se desea contrastar las siguientes hipotesis
H1 1
H2 2
donde 1 y 2 forma una particion de Sea () una distribucion a priori para .. Calculamos
entonces
P(H i X) = (X)d
i
Se prefiere a H 1 , o los datos apoyan a H 1 si P(H 1 X) > P(H 2 X) Se pueden tener mas de dos
hipotesis.
5.3. PRUEBA (CONTRASTE) DE HIPOTESIS 103
5. E s t i m ac i n y p ru e b a d e h i p t e s i s 115
Ejemplo 5.5 Del ejemplo 4.1 de la proporcion de fumadores. Donde de una muestra de n = 100, se
detectaron x = 20 fumadores se tiene que = 12 6 y = 50 4 y su distribucion posterior es una una
beta con parametros ( = 32 6, = 130 4)
( + ) 1
(X) = (1 ) 1
( )( )
H 1 1 = [0, 0 2]
H 2 2 = [0 2, 1]
Para H 1
02 ( + ) 1
P(H 1 X) = (1 ) 1 d = 0 515 64
0 ( )( )
Esta probabilidad se calcula con S-Plus con pbeta(0.2, , ). De la misma manera se calcula
1 ( + ) 1
P(H 2 X) = (1 ) 1 d = 0 484 36
02 ( )( )
Como P(H 1 X) > P(H 2 X), entonces Se prefiere a H 1 , o los datos apoyan a H 1 .
H0 0
H1 1
() = P(X C) para
La probabilidad maxima para tomar una decision incorrecta entre los valores de que satisfacen H 0 .
As es la probabilidad de error tipo I, esto es
() = P(rechazar H 0 0 )
() = P(aceptar H 0 1 )
104 CAPITULO 5. ESTIMACION Y PRUEBA DE HIPOTESIS
116 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
d0 d1
H0 0 w0
H1 w1 0
Suponer que la probabilidad inicial de que H 0 sea cierta es 0 , y la probabilidad inicial de que
H 1 sea cierta es 1 0 Por lo tanto la perdida esperada por cualquier procedimiento de contraste es
L () = E(L(, d))
5.4. Factor
5 . 4 F ac to de
r d e B ay e s Bayes
El enfoque Bayesiano para probar hipotesis fue desarrollado por Jeffreys como parte fundamental
de su programa de inferencia cientfica (Kass y Raftery, 1995). Jeffreys estaba interesado en comparar
las predicciones que se obtenan con dos teoras cientficas en competencia. En su enfoque, se intro-
ducen modelos estadsticos para representar la probabilidad de los datos de acuerdo a cada una de
las dos teoras, y el teorema de Bayes es utilizado para calcular la probabilidad posterior de que una
de las dos teoras sea la correcta. Una pieza central en esto fue el llamado factor de Bayes.
Sea X los datos y suponer que estos han sido obtenidos de una de dos hipotesis H 1 y H 2 , de
acuerdo con la densidad de probabilidad Pr(X H 1 ) o Pr(X H 2 ) Dadas las probabilidades a priori
Pr(H 1 ) y Pr(H 2 ) = 1 Pr(H 1 ), entonces los datos generan probabilidades posteriores Pr(H 1 X) y
Pr(H 2 X) = 1 Pr(H 1 X) Puesto que cualquier opinion a priori es transformada en una opinion
a posterior a traves de los datos; la transformacion en s misma representa la evidencia aportada
por los datos. En efecto, tal transformacion es utilizada para obtener la probabilidad posterior, sin
tomar en cuenta la probabilidad a priori. Cuando generamos la escala de momios (= probabilidad /
(1- probabilidad)), la transformacion toma una forma sencilla. Del teorema de Bayes (ver captulo 1),
se obtiene:
P(XH k )P(H k )
P(H k X) = con k = 1, 2 (5.9)
P(XH 1 )P(H 1 ) + P(XH 2 )P(H 2 )
por lo que
Pr(H 1 X) P(XH 1 ) P(H 1 )
=
Pr(H 2 X) P(XH 2 ) P(H 2 )
y la transformacion es simplemente la multiplicacion por
P(XH 1 )
B 12 = (5.10)
P(XH 2 )
y en forma equivalente el factor de Bayes es la razon de los momios posteriores de H 1 y sus momios
a priori.
5.5. PREGUNTAS Y EJERCICIOS 105
5. E s t i m ac i n y p ru e b a d e h i p t e s i s 117
Intuitivamente, B 12 proporciona una medida de si los datos tienen momios crecientes o decre-
cientes sobre H 1 en relacion a H 2 As B 12 > 1 significa que H 1 es relativamente mas admisible a la luz
de los datos; B 12 < 1 significa que la plausibilidad relativa de H 2 es mayor. El factor de Bayes puede uti-
lizarse directamente como criterio de seleccion de modelos (Ross, 1989). Aunque aqu se utilizara un
enfoque diferente.
Cuando las hipotesis son igualmente probables (H 1 ) = P(H 2 ) = 0 5, entonces el factor de
Bayes es igual a los momios posteriores de H 1 . Sin embargo, no siempre dos hipotesis son igualmente
probables (cap. 7).
En el caso mas simple cuando dos hipotesis son distribuciones simples con parametros fijos (el
caso de hipotesis simple versus simple), B 12 es la razon de verosimilitud. En otros casos, cuando hay
parametros desconocidos bajo una o ambas hipotesis, el factor de Bayes es todava dado por (5.10),
y en este sentido, este aun tiene la forma de una razon de verosimilitud. Sin embargo, las densidades
P(XH k ) (k = 1, 2) son obtenidas al integrar (no maximizando) sobre el espacio parametrico, as que
en la ecuacion (5.10)
P(X H k ) = L(X k ,H k )( k H k )d k (5.11)
5.5.P r e gPreguntas
5.5
y Ejercicios
u n ta s y e j e rc i c i o s
4. Sea el modelo uniforme (0, ), dado por f (x) = 1/, con 0 < x < , y una distribucion
Pareto
como a priori () = (+1) con > 0 y > 0. A priori se considera que esta en
[10, 50]. Se obtiene la siguiente muestra aleatoria de x {5.8, 10.2, 6.0, 14.6, 13.7, 10.2, 8.2, 7.7, 5.8}
Contestar.
H 1 1 = { 25}
H 2 2 = { > 25}
2
1
L(, d) = ( d)
1. a) Suponer que la distribucion a priori para es una gama(, ) tal que > 2 . Si el numero
de observaciones n es fijo, encontrar la funcion de decision de Bayes y calcular el riesgo.
b) Si el costo por observacion es c, demostrar que el numero optimo de observaciones n,
esta dado por la siguiente ecuacion:
n= ( 1)
[c( 1)( 2)]1/2
7. Si 29, 29, 32, 27, 23, 24, 44, 33, 40, 33 es una muestra aleatoria de una distribucion Poisson para
el que el valor de la media es desconocido. Si la distribucion a priori de es una distribucion
gama con parametros y , sabemos que la distribucion posterior esta dada por (4.3), que es
una gama con parametros + r, + n, con r igual a la suma de los datos. Asumimos que la
funcion de perdida esta dada por (5.4) con a = 1. Encuentra el riego de Bayes.
8. En el ejercicio anterior utiliza ahora la funcion de perdida
( d)2
L (, d) =
5.5. PREGUNTAS Y EJERCICIOS 107
5. E s t i m ac i n y p ru e b a d e h i p t e s i s 119
a) Encontrar el riesgo de Bayes.
b) Si cada muestra tiene un costo de $125.50, y el parametro = 21 e 2 . Encontrar el tamano
mnimo de muestra para ambos tipos de funciones de perdida.
(2x + 2) 2x1
(X) = (1 )
(2x)(2)
La cual corresponde a una beta con parametros (2x, 2). Y se quiere comparar las hipotesis de
que
H 1 1 = [0, 0 2]
H 2 2 = [0 2, 1]
f (yX) = ab a (b + y)(a+1)
ba (a + y)
f (yX) =
y! (a) (b + 1) a+y
(80)
(p) = p7 (1 p)71
(8) (72)
6. A p rox i m ac i o n e s numricas
Captulo 6
Aproximaciones numericas
f (y X) = f (y)(X)d
Aunque se concentro la atencion en los modelos parametricos mas usuales en los que hay una dis-
tribucion a priori conjugada, existen muchos modelos que no la tienen como por ejemplo el modelo
Weibull con a priori normal-gama. Esto presenta un problema basico: como evaluar la integral? O
como encontrar la constante de proporcionalidad?
A esto se reduce la parte operativa del analisis Bayesiano, despues de haber definido un modelo y
una a priori. Uno puede interesarse en marginales de la posterior, que involucraran mas integraciones
de la posterior.
6.1. Metodos
6 . 1 M to d o s b s i c o basicos
s
Aproximacin dedeLaplace
Aproximacion Laplace
lo que
Se supone que el integrando, P(X)() es muy puntiagudo alrededor de su maximo ,
es razonable a partir de tamanos muestrales relativamente bajos. Sea
y el valor de que maximiza s(). Al expandir s() hasta los terminos cuadraticos alrededor de ,
se obtiene una aproximacion de P(X)() que tiene la forma de una densidad normal con media
y matriz de covarianza = (D 2 s())
1 , donde D 2 s j ( )
es la matriz de segundas derivadas con
respecto a .
[121]
109
110 CAPITULO 6. APROXIMACIONES NUMERICAS
122 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Al integrar esta aproximacion se obtiene que:
P(X)()d (2) P(X)()
d/2 1/2
(6.2)
donde d es la dimension de
As para aplicar esta aproximacion se lleva a cabo lo siguiente:
i. Calcular s()
ii. Estimar numericamente el vector posterior de modas ()
iii. Obtener la matriz D 2 s( )
1 y su determinante
iv. Calcular la matriz = (D 2 s( ))
v. Finalmente se evalua (6.2).
La aproximacion del metodo de Laplace es evaluada en varios trabajos, en Kass y Raftery (1995) se
citan varios de ellos. En general hay consenso en que la aproximacion es adecuada en aquellos casos
en los que la dimension de es pequena y cuando las funciones de verosimilitud no tienen una forma
muy diferente a la normal. Por ejemplo, bajo las condiciones concretas descritas en Kass et al. (1990),
se demuestra que conforme n , p(x)()d = I (1 + O(n1 )), es decir, el error relativo es
de O(n ). De esta manera, cuando el metodo de Laplace es aplicado al numerador y denominador,
1
por ejemplo para calcular el factor de Bayes (capitulo anterior) o la probabilidad posterior para un
modelo, la aproximacion resultante tiene tambien un error del orden O(n1 ) (Kass y Reftery, 1995).
Un punto importante en el analisis Bayesiana es encontrar momentos a posteriori como:
E [g () X]
Al usar como el maximo de h() y a como el maximo de h() , y y como el
valor de las segundas derivadas en los maximos elevadas a la 1/2, se tiene que:
n
nh () nh () ( )
2
2 2
y entonces
exp [nh ()] d 2 n1/2 exp (nh ())
6.1. METODOS BASICOS 111
6. A p rox i m ac i o n e s numricas 123
E [g () X]
con
exp {n [h ( ) h ()]}
Monte Carlo
Monte Carlo
Otro metodo para calcular en forma aproximada la integral es a traves de simulacion Monte
Carlo. Efectivamente al observar que:
f (X) = P(X)()d
f (X) =
1 m
P(X )
(i)
m i=1
Muestreo
Muestreorelevante
Relevante
Al considerar la integral de una funcion f (x), y usar una densidad g (x), es facil ver que
f (x) f (x)
f (x) dx = g (x) g (x) dx = E G [ g (x) ]
donde G es la distribucion de una variable aleatoria con densidad g. Se ve ahora un proceso para
estimar
f (x) dx
Si se simula x i con distribucion G se tiene que
1 n f (x i )
f (x) dx n g (x )
i=1 i
P (X) ()
112 CAPITULO 6. APROXIMACIONES NUMERICAS
124 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
1 n
f (X i )
n i=1
Teorema 6.1 Sean g(x) y h(y) densidades, a la primera se le llama densidad instrumental y a la se-
gunda densidad objetivo. Si existe una constante M tal que h(x) M g(x) en todo el soporte de h;
entonces se puede generar h a partir de g con el siguiente algoritmo:
1. Generar X g y U u(0, 1)
2. Aceptar Y = X si U h(X)
M g(X)
3. Regrese a 1 en otro caso.
Entonces la distribucion de Y es h
Demostracion. Del enunciado del teorema y del algoritmo, se puede ver que la distribucion de Y
esta dada por
h(X)
Pr(Y y) = Pr (X yU )
M g(X)
Pr (X y, U h(X)
)
=
M g(X)
Pr (U h(X)
M g(X)
)
0
y M g(x)
dug(x)dx
Pr(Y y) = h(x)
0
M g(x)
dug(x)dx
como
h(X)
h(x)
du =
M g(X)
0 M g(x)
entonces
h(x)dx
1 y
Pr(Y y) = M
h(x)dx
1
M
y
= h(x)dx
6.2. MUESTREO-REMUESTREO RELEVANTE 113
6.A p rox
6.2. MUESTREO-REMUESTREO
i m ac i o n e s n u m r i c a s RELEVANTE 125
113
que es lo que se quera demostrar.
que Si
es en el anterior
lo que se querateorema hacemos la densidad objetivo h igual a la densidad posterior: h( X) =
demostrar.
P(XSi)en(), a la densidad
el anterior teorema instrumental
hacemos la densidad g igual objetivo h igual aalapriori
a la distribucion (),
densidad y a M = h(
posterior: P (XX) =,
)
P(X )(),
donde maximizaa la densidad
la funcioninstrumental
de verosimilitud. g igual se sigue dea manera
a la distribucion
Entonces priori (),
directa M = P (X) ,
y aque:
donde maximiza la funcion de verosimilitud. Entonces se sigue de manera directa que:
h( X) = P(X ) ()P (X) ()M() (6.3)
h( X) = P(X ) ()P (X) ()M() (6.3)
Con esto se tiene una forma de generar la distribucion posterior con base a la a priori y la vero-
similitud. En particular
Con esto se tiene una deforma
(6.3), se deaprecia
generarque la forma de posterior
la distribucion aceptar encon el paso
base 2a del
la aalgoritmo
priori y laque
vero-es
parte del teorema
similitud. anterior,
En particular es con:se aprecia que la forma de aceptar en el paso 2 del algoritmo que es
de (6.3),
parte del teorema anterior, es con: h( X) P(X ) ()
U = R(X ) (6.4)
M()
h( X) P (X
P(X ()
)
U ) = R(X ) (6.4)
M() P (X) ()
donde R(X ) es la funcion de verosimilitud relativa, que en general esta definida de la siguiente
maneraR(X ) es la funcion de verosimilitud relativa, que en general esta definida de la siguiente
donde
P(X)
manera R(X ) =
P(X)
P(X)
R(X ) =
donde maximiza la funcion de verosimilitud. P(X)
Con estos elementos, se esta
donde maximiza la funcion de verosimilitud.en posibilidades de describir un metodo muy usual para generar
muestras aleatorias
Con estos de la densidad
elementos, se esta enposterior,
posibilidades (X), o de la densidad
de describir un metodo posterior predictiva
muy usual (yX).
para fgenerar
Este metodo
muestras de muestreo
aleatorias se conoceposterior,
de la densidad como muestreo-remuestreo
(X), o de la densidad relevante (sampling
posterior f (yX).
importance
predictiva re-
sampling).
Este metodo Que aunque esse
de muestreo mas general,
conoce como adaptandolo a lo que se requiere
muestreo-remuestreo relevanteen(sampling
este caso,importance
consiste en re-
los
siguientes pasos (ver Bernardo y Smith, 1994, pag. 350):
sampling). Que aunque es mas general, adaptandolo a lo que se requiere en este caso, consiste en los
siguientes
a) Generar pasos
una (ver Bernardo
muestra aleatoria i , i =1994,
y Smith, 1, ,pag. M, de350):
la priori ()
a)
b) Generar
Retener el una muestra
i-esimo aleatoria
valor i , i = 1, , ,con
de la muestra, M, probabilidad R(X ) Esto se hace generando una
de la priori ()
realizacion aleatoria, U , de una distribucion
b) Retener el i-esimo valor de la muestra, , con probabilidad R(X
uniforme(0, ) Esto se
1), y retener hace R(X )una
si U generando
c) De acuerdo al teorema, los valores retenidos de la muestra, 1 , , M (M M), es una
realizacion aleatoria, U , de una distribucion uniforme(0,
1), y
retener
si U R(X )
muestra
c) De acuerdo al teorema, los valores retenidos de la muestra, 1 , , M (M M), es una muestra
aleatoria de la densidad posterior (X)
cada j de
d) Paraaleatoria selagenera
densidad
unaposterior (X)del modelo f (t j ), entonces t j , con j = 1, , M ,
t j directamente
d) Paraescada
en realidad una muestra
j se genera una t j de la densidaddel
directamente posterior
modelopredictiva f (t X). t j , con j = 1, , M ,
f (t j ), entonces
es en realidad una muestra de la densidad posterior predictiva f (t X).
Estimacionde
Estimacin delaladistribucin
distribucion
de de
unun cuantil
cuantil o una
o una probabilidad.
probabilidad
Estimacion de laladistribucion
Una vez generada muestra dede un cuantil posterior
la distribucion o una probabilidad.
(X), se pueden generar otras distri-
i
buciones
Una que depende
vez generada de i , como
la muestra es el caso de la distribucion posterior predictiva. Pero tambien
i de la distribucion posterior (X), se pueden generar otras distri-
es posible generar estimaciones e intervalos para de . posterior
buciones que depende de i , como es el caso de funciones
la distribucion Por ejemplo suponer Pero
predictiva. que se quiere
tambien
obtener un cuantil, y sea t = g(, p) la funcion cuantil para un modelo especfico,
es posible generar estimaciones e intervalos para funciones de . Por ejemplo suponer que se quiere
p entonces la dis-
tribucion posterior emprica de este cuantil se obtiene al calcular t p = g(
obtener un cuantil, y sea t p = g(, p) la funcion cuantil para un modelo especfico, entonces la dis-
i , p) para un p dado. Por
ejemplo suponer
tribucion que
posterior se tienede
emprica uneste
modelo Weibull(,
cuantil se obtiene),alver (2.52),t psi=a g(
calcular del metodo anterior se
traves
, p) para un p dado. Por
= ( i ,del
i ),metodo
i
genera una
ejemplo muestra
suponer quedeselatiene
distribucion
un modelo posterior de estos
Weibull(, ver (2.52), siai traves
), parametros entonces la distri-
anterior se
genera una muestra de la distribucion posterior de estos parametros i = ( i , i ), entonces la distri-
bucion del cuantil t p se obtendra a traves de la funcion cuantil para el
modelo Weibull, que esta dada
por
bucion del cuantil t p se obtendra a traves de la funcion cuantil para el modelo Weibull, que esta dada
por
114 CAPITULO 6. APROXIMACIONES NUMERICAS
126 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Cadenasde
Cadenas deMarkov
Markov
Las cadenas de Markov es una sucesion de variables aleatorias en el que su estado o realizacion al
tiempo t + 1 depende unicamente del estado anterior (en el tiempo t). Suponer que x t es el valor de
una variable aleatoria en el tiempo t:
i (t + 1) = Pr (X t+1 = s i )
= Pr (X t+1 = s i x t = s k ) Pr(X t = s k )
k
Iteraciones sucesivas de esta ecuacion describe la evolucion de la cadena. Esta puede ser expresada
por medio de la matriz de transicion de probabilidad P cuyo elemento P (i, j) es la probabilidad de ir
de i a j (los renglones suman uno). Con lo que la ecuacion de Chapman-Kolmogorov toma la forma
(t + 1) = (t) P (6.7)
en forma recursiva queda que
p i j = Pr (x t+n = s j x t = s i )
(n)
(6.9)
Una cadena de Markov es irreductible si existe un entero positivo para el cual p i j > 0, para
(n)
cualquier i, j. Las cadenas de Markov tambien pueden ser periodicas. Una cadena de Markov se con-
sidera periodica cuando el numero de iteraciones para llegar de un dato a otro no se requiere que sea
multiplo de algun entero. Ademas despues de un numero considerable de iteraciones la cadena de
Markov se hace estacionaria. Esto significa que el vector de probabilidades llega a ser independien-
te de la condicion inicial. Si una cadena de Markov es irreducible y periodica entonces tambien es
estacionaria.
Ejemplo 6.1 Suponer que los estado del espacio son (lluvia, soleado, nublado) y que el clima sigue un
proceso de Markov. As, la probabilidad del clima de manana depende simplemente del clima de hoy, y no
del clima de otros das anteriores. Si este es el caso, la observacion de que ha llovido tres das consecutivos
no altera la probabilidad del clima de manana comparada con la situacion donde hoy llovio pero estuvo
soleado la semana anterior. Suponer que las probabilidades de transicion dado que hoy esta lloviendo
estan dadas por
Con lo que el primer renglon de la matriz de transicion es (0 5, 0 25 025) Suponer que el resto
de la matriz de transicion esta dado por
0 5 0 25 0 25
P= 0 5 0 0 5
0 25 0 25 0 5
Notese que la Cadena de Markov es irreductible. Suponer que hoy es soleado, cual es el clima esperado
dentro de dos das o siete das. Aqu (0) = (0 1 0), dando
(7) = (0)P 7 = (0 4 0 2 0 4)
Si por el contrario, suponemos que hoy es lluvioso, as que (0) = (1 0 0). El clima esperado es
Como en el ejemplo anterior, una cadena de Markov puede alcanzar su distribucion estacionaria
, que satisface la siguiente igualdad
= P
Es decir, es el vector propio izquierdo de la matriz P asociado al valor propio = 1 de esta matriz.
La condicion para una distribucion estacionaria es que la cadena sea irreductible y no periodica. Una
condicion suficiente para la unicidad de la distribucion estacionaria es se cumpla la siguiente ecuacion
de balance
P( j, k) j = P(k, j) k (6.10)
Si esta ecuacion se cumple para todo k y j; se dice que la cadena es reversible y a la (6.10) se le
conoce como la condicion de reversibilidad. Notar que esta condicion implica que = P, ya que
jesimo elemento de P es
(P) j = i P(i, j) = j P( j, i) = j P( j, i) = j
i i i
P(x, y)d y = 1
y la extension al caso continuo de la ecuacion de Chapman-Kolmogorov se convierte es
Algoritmo Metropolis-Hasting
Algoritmo Metropolis-Hasting
Un problema al aplicar la integracion Monte Carlo, seccion 6.2, es obtener muestras de algunas distri-
buciones de probabilidad a priori () complejas, cuando es un vector de dimension alta. En un in-
tento por resolver este problema por medio de muestras aleatorias resulto el algoritmo de Metropolis-
Hasting (Bernardo y Simith, 1994).
El algoritmo genera una cadena de Markov 1 , 2 , , t , con espacio de estados y distribucion
de equilibrio (X). Suponer que se quiere generar muestras de p() donde p() = f ()/K, donde
K es la constante normalizadora (que a menudo es difcil de obtener). Notese que la distribucion
posterior puede verse igual a esta distribucion, ya que: p() = f ()/K = P(X)()/K = (X).
Por lo tanto en este caso P(X)() = f () El algoritmo Metropolis es como sigue.
p ( ) f ( )
= =
p ( t1 ) f ( t1 )
notese que la constante normalizadora se cancela al calcular .
4. Si la transicion incrementa la densidad ( > 1) , se acepta el punto propuesto, por lo que
t = . Si la densidad decrece, entonces o se rechaza el punto propuesto o se acepta con
probabilidad , que es la probabilidad de un movimiento.
5. Retornar al paso 2.
Se puede resumir el muestreo Metropolis, primero calculando
f ( )
= mn ( , 1) (6.11)
f ( t1 )
y aceptar el punto propuesto con probabilidad (la probabilidad de un movimiento). Esto genera
una cadena de Markov ( 1 , 2 , , k , ) puesto que la probabilidad de transicion de t a t+1 solo
depende de t . Se se aplica un perodo inicial suficientemente largo (de k pasos por ejemplo), la
cadena tendera a su distribucion estacionaria y las muestras ( k+1 , , k+n ) sera un muestra de
p() = (X).
Hasting generaliza el algoritmo de Metropolis usando una funcion de probabilidad de transicion
arbitraria q ( 1 , 2 ), y establece la probabilidad de aceptacion para el punto propuesto como
f ( ) q ( , t1 )
= mn ,1 (6.12)
f ( t1 ) q ( t1 , )
Ejemplo 6.2 Suponer que se desea generar una muestra aleatoria de una distribucion gama inversa:
1 /
() = e = C 1 e / con > 0, > 0
()
y suponer que = 5 y = 20. En la figura 6.1 se muestra la grafica de esta distribucion. Si usamos el al-
goritmo de Metropolis, y como distribucion candidata generadora una distribucion uniforme(0, 40),
que cubre bien el rango de variacion de . Se va a correr el algoritmo. Tomemos un 0 = 2 como el
valor inicial, y suponer que la distribucion uniforme propone como un valor candidato = 9, por
lo tanto de acuerdo a (6.11), se tiene que
6.3. SIMULACION MCMC 119
6. A p rox i m ac i o n e s numricas 131
f ( ) 91 e /9
= mn ( , 1) = mn ( 1 /2 , 1) = mn(0 2874, 1) = 0 2874
f ( )
t1 2 e
31 e /3 24/2 e 2/2
= mn ( , 1) = mn(2 704, 1)
21 e /2 34/2 e 3/2
Como = 1, el = 3 propuesto se acepta (con probabilidad 1). Continuando el proceso, en 100, 000
ocasiones, de estos se aceptaron 20856 valores de . El histograma y la densidad ajustada para estos
se muestra en la figura 6.1d. Donde se aprecia una mejor aproximacion que la obtenida en el caso del
algoritmo Metropolis con la distribucion uniforme (0,30) como generadora.
Con los mejores resultados obtenidos en la figura 6.1d, surge la pregunta si hay mejores opcio-
nes en cuanto a la distribucion propuesta en el algoritmo Metropolis-Hasting. Al respecto hay dos
enfoque principales: caminatas aleatorias y muestreo de cadenas independientes. Para el primer ca-
so el nuevo valor es igual al actual mas una variable aleatoria z, es decir: y = x + z. En este caso
q(x, y) = g(y x) = g(z), la densidad asociada con la variable aleatoria z.
Nmero
Numerode
decorridas
Corridas
El numero de corridas o pasos en una implementacion de este tipo es un tema clave, hasta donde
la cadena se aproxima a una distribucion estacionaria. Comunmente los primeros 1000 a 5000 ele-
mentos son rechazados. Despues se utiliza alguna de las pruebas de convergencia para evaluar si la
distribucion estacionaria se ha alargado.
Una eleccion pobre de los valores iniciales y/o la distribucion propuesta puede incrementar enor-
memente el tiempo. Por lo que una eleccion optima de los mismos es muy importante. Una sugerencia
para los valores iniciales es comenzar la cadena con un valor tan cercano al centro como sea posible
(como la moda).
120 CAPITULO 6. APROXIMACIONES NUMERICAS
132 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 6.1
Grficas para ejemplo 6.1
Muestras deGibbs
Muestras de Gibbs
El algoritmo de Gibbs es un caso especial del Metropolis Hasting donde el valor aleatorio es acep-
tado siempre (i.e. = 1). La tarea consiste en especificar como construir una cadena de Markov cuyos
valores convergen a la distribucion principal. La clave es solo considerar las distribuciones condicio-
nales univariadas. As que se toma la distribucion cuando todas las variables aleatorias, excepto una,
tienen asignados valores fijos.
Sea el vector de cantidades desconocidas que aparece en el teorema de Bayes, que tiene los com-
ponentes 1 , . . . , k . El objetivo es obtener inferencias de la distribucion conjunta posterior p (x) =
p ( 1 , . . . , k x). Como ya se vio, puede llevar a problemas de integracion numerica. En lugar de ello
observar que
p ( i x, j , j i) i = 1, . . . , k
la llamada densidad condicional completa para los componentes individuales, dado los datos y los
valores especficos de , son facilmente identificados, como funciones de i . Por inspeccion de la for-
ma de p (x) p (x) p () en cualquier aplicacion dada. Suponer dados un conjunto arbitrarios
de valores iniciales
(0)
(0)
1 , . . . , k
se obtiene 2 de p ( 1 x, 1 , 3 , . . . , k )
(1) (1) (0) (0)
se obtiene k de p ( 1 x, 1 , . . . , k1 )
(1) (1) (1)
se obtiene 1 de p ( 1 x, 2 , . . . , k )
(2) (1) (1)
y as sucesivamente.
Ahora suponer que el procedimiento anterior es continuando a traves de t iteracciones y es inde-
pendientemente replicado m veces de tal forma que se tiene m replicas del vector t = ( 1 , . . . , k ),
(t) (t)
donde t es una realizacion de una cadena de Markov con probabilidades de transicion dadas por
k
( t , t+1 ) = p ( lt+1 tj , j > l , t+1
j , j < l , x)
l =1
sidad conjunta es p (x). En particular, i tiende en distribucion a la cantidad aleatoria cuya dis-
(t)
6.4.
P r e g Preguntas
6.4 u n ta s y e j e rc i y Ejercicios
cio s
a) E(X),
b) V(X),
c) Graficar la densidad,
d) Investigar el valor exacto de la media y la varianza para la distribucion, y compararlos
con los obtenidos por simulacion.
Captulo 7
Especificacion de modelos
Un aspecto central en la inferencia estadstica es la especificacion del modelo f (x) que describe
el comportamiento de la variable aleatoria x. Aunque en general hay aspectos fsicos que ayudan
a seleccionar el modelo en algunas aplicaciones, en general es necesario validar que efectivamente
el modelo elegido es el adecuado a los datos. Porque las inferencias que se obtienen a partir de las
distribuciones posteriores (X) y f (yX), depende del modelo utilizado. En este captulo se vera
la forma general que la estadstica Bayesiana aborda este problema.
7.1.I n t ro
7.1 Introduccion
duccin
Muestra Datos
1 0.01 0.11 0.13 0.15 0.17 0.32 0.33 0.41 0.42 0.44 0.45 0.48 0.56 0.60 0.80
2 0.04 0.12 0.17 0.20 0.20 0.24 0.29 0.43 0.44 0.45 0.60 0.64 0.68 0.72 1.03
3 0.03 0.09 0.10 0.13 0.14 0.17 0.29 0.31 0.33 0.43 0.53 0.60 0.78 0.78 0.88
4 0.05 0.06 0.19 0.25 0.26 0.30 0.35 0.42 0.70 0.73 0.78 0.90 1.03 1.41 1.45
Ejemplo 7.1.
En la tabla 7.1 se muestran datos simulados de una distribucion exponencial y en la figura 7.1 se
aprecian las correspondientes graficas de probabilidad normal. Con base en estas graficas es difcil
rechazar la idea de que estos datos provengan de una distribucion normal. Remarcando el hecho
[135]
123
124 CAPITULO 7. ESPECIFICACION DE MODELOS
136 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
de que esto ocurre con una distribucion como la exponencial, que tiene una forma radicalmente
diferente a la normal.
Ejemplo 7.2.
Una de las caractersticas particulares de los datos en confiabilidad es que por lo general son mues-
tras censuradas. Por ejemplo los datos de la tabla 7.2 representan la distancia de falla en kilometros
de 38 amortiguadores de vehculos (OConnor, 1985; pag. 85). Los datos que tienen como exponente
un signo +, son tiempos censurados por la derecha, es decir, a esa distancia el amortiguador todava
estaba en buen estado. Con el esquema de censura multiple por la derecha, de los 38 amortiguadores,
solo se observaron 11 fallas. Utilizando el metodo Kaplan-Meier para definir las posiciones de pro-
babilidad (Meeker y Escobar, 1998, secc. 3.5), en la figura 7.2 se muestra las correspondientes graficas
de probabilidad con bandas de confianza generadas por el procedimiento probplot.censor del sistema
S-Plus. Teniendo como alternativa cuatro posibles modelos: (a) normal, (b) lognormal, (c) valor ex-
tremo y (d) Weibull. De acuerdo a estas graficas practicamente cualquiera de estas distribuciones es
factible, quizas la valor extremo pudiera descartarse por el punto fuera de las bandas.
Con base en los dos ejemplos anteriores, se ve que se requiere contar con herramientas mas for-
males que ayuden en la especificacion del modelo para datos de confiabilidad. En Gutierrez Pulido et
al (2006c) se hace una revision bibliografica de las diferentes alternativas para abordar el problema, y
se propone una alternativa para la especificacion de modelos desde la perspectiva Bayesiana. Se estu-
dian los modelos normal, lognormal, valor extremo, Weibull y exponencial y se ve que la probabilidad
posterior para algunos de ellos tiene forma cerrada, en otros casos se obtienen aproximaciones . La
metodologa se evalua analizando datos de problemas de confiabilidad. El captulo se basa principal-
mente en Gutierrez Pulido et al (2006c).
f (XM j ) Pr(M j )
Pr(M j X) = j = 1, 2, ,m (7.1)
i=1
m
f (XM i ) Pr(M i )
donde
7. E s p e c i f i c ac i n d e m o d e lo s 137
Figura 7.1
Grfica de probabilidad normal para datos de la tabla 7.1
138 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
Figura 7.2
Grficas de probabilidad para datos tabla 7.2
Como se vio en el captulo 1, la funcion dada por (7.2) es la distribucion conjunta marginal de los datos
bajo el modelo M j , y tambien se le conoce como la constante normalizadora o como la verosimilitud
integrada. Ademas ( j M j ) es la densidad a priori para el vector de parametros j , con P(X j , M j )
la verosimilitud bajo el modelo M j , y Pr(M j ) es la probabilidad o ponderacion a priori que se le asigna
al modelo M j .
De acuerdo al factor de Bayes, seccion 5.6, la probabilidad posterior para un modelo dada por
(7.1), se puede ver como una generalizacion de la formula dada en (5.9), y (7.2) sera equivalente a
(5.11). De esta manera con (7.1) se puede evaluar la evidencia que aportan los datos en favor de una
distribucion de probabilidad como modelo de X al compararla contra otras distribuciones.
La problematica para calcular (7.1) se localiza en poder calcular (7.2), la cual depende de la ve-
rosimilitud y de la densidad a priori. Si (7.2) no tiene solucion analtica, habra que emplear metodos
numericos, lo cual tiene su problematica especial debido a que conforme n crece el integrando de
(7.2) se pone puntiagudo. En el captulo anterior se vio varias formas de calcularla.
La expresion (7.2) tiene solucion analtica solo para unos cuantos casos. Por ejemplo si se con-
sideran las distribuciones normal (M 1 ), lognormal (M 2 ), valor extremo (M 3 ), Weibull (M 4 ) y ex-
ponencial (M 5 ), que son modelos muy utilizados para modelar tiempos de vida en confiabilidad y
supervivencia, entonces (7.2) tiene solucion para el caso normal, lognormal y exponencial, con mues-
tras no censurados. Para el caso de muestras censuradas, solo para el caso exponencial.
Teorema 7.1 Bajo muestras aleatorias sin censura y al suponer una densidad a priori normal-gama(m 1 , k 1, 1 , 1 )
para el modelo normal y una normal-gama (m 2 , k 2, 2 , 2 ) para el modelo lognormal, la expresion (7.2)
esta dada por:
1 1 ( n2 + 1 ) (k 1 )1/2
f (XM 1 , 1 , 1 , m 1 , k 1 ) = n + (7.3)
(k 1 + n)1/2 ( 1 )(2)n/2 h 12
1
con h 1 = 21 k 1 n (mk1 1x n)
+ 1 + s2n , s n = ni=1 (x i x)2 y x n es la media aritmetica
2
+n
b) En el caso del modelo lognormal M 2
2 2 ( n2 + 2 ) (k 2 )1/2
f (XM 2 , 2 , 2 , m 2 , k 2 ) = n + (7.4)
(k 2 + n)1/2 ( 2 )(2)n/2 h 22 i=1 x i
n
2
con h 2 = 21 k 1 n (mk2 w n)
+ 2 + u2n
2
1 +n
Demostracion. Sabemos que (7.2) esta dada por
f (XM i , i , i , m i , k i ) = L(X, , M i )(, i , i , m i , k i )d d
0
a) Caso normal: al sustituir las expresiones para la verosimilitud normal (2.28) y la densidad a priori
normal gama, y al combinar terminos se obtiene que (7.2) esta dada por
128 CAPITULO 7. ESPECIFICACION DE MODELOS
140 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
(k )1/2 2 + 1
n1
1 1 k1 s n
exp [ ( m 1 )2 n( x n )2 1 ] d d
1
( 1 ) 0 (2) (n+1)/2 2 2 2
De aqu, al desarrollar los terminos que involucran a , combinar y completar un binomio cuadrado,
se obtiene que (7.2)
1 1 (k 1 )1/2 2 + 1 (k 1 m 1 + nx n ) 2
n1
1
exp ( (k + n) [ ])
( 1 ) (2)(n+1)/2 k1 + n
1
0 2
1 (m 1 x n )2 s n
exp [ k 1 n ] exp ( 1 ) d d
2 k1 + n 2
Ahora, de la forma de las densidades normal y gama, y completar en el caso normal y separar expre-
siones se obtiene que (7.2) es
1 1 (k 1 )1/2 n2 1 (m 1 x n )2 sn
+ 1
[ ( + 1 + ) ]
(k 1 + n)1/2 ( 1 )(2)n/2 0
exp k n
k1 + n
2
1
2 2
(k 1 + n) 1/2 1 (k 1 m 1 + nx n ) 2
( ) exp ( (k 1 + n) [ ] ) d d
2 2 k1 + n
Los dos ultimos terminos de esta expresion corresponden a una densidad normal para , que al estar
siendo integrada sobre todo el espacio parametrico, esa integral es igual a uno. Por ello, al integrar,
completar una densidad gama y hacer h 1 = 21 k 1 n (mk11x) + 1 + s2n , se obtiene que la constante nor-
2
+n
malizadora esta dada por
n +
1 1 ( n2 + 1 ) (k 1 )1/2 h 12
1
2 + 1 1 exp [h 1 ] d
n
( n2 + 1 )
n +
(k 1 + n)1/2 ( 1 )(2)n/2 h 1 0 2 1
La expresion dentro del integrando corresponde a una densidad gama para , que al estar siendo
integrada sobre todo el espacio parametrico es igual a uno. Por ello, finalmente se obtiene que la
verosimilitud integrada para el modelo M 1 esta dada por
1 1 ( n2 + 1 ) (k 1 )1/2
n +
(k 1 + n)1/2 ( 1 )(2)n/2 h 12
1
(k )1/2 2 + 2
n1
2 2 k2
exp [ ( m 2 )2 n( w n )2 ]
2
( 2 ) i=1 x i 0
n
(2)(n+1)/2 2 2
u n
exp ( 2 ) d d
2
7.2. PROBABILIDAD POSTERIOR PARA UN MODELO 129
7. E s p e c i f i c ac i n d e m o d e lo s 141
De aqu, al desarrollar los terminos que involucran a , combinar y completar un binomio cuadrado
se obtiene que la VI es
2 2 (k 2 )1/2 2 + 2 (k 2 m 2 + nw n ) 2
n1
1
exp ( (k 2 + n) [ ])
( 2 ) i=1 x i 0
n
(2) (n+1)/2 2 k2 + n
1 (m 2 w n )2 u n
exp [ k 2 n ] exp ( 2 ) d d
2 k2 + n 2
Ahora, al rescribir el integrando en la forma de las densidades normal y gama, completar en el caso
normal y separar expresiones se obtiene que la VI es
(k 2 + n)1/2 2 2 (k 2 )1/2 n2 1 (m 2 w n )2 un
+ 2
exp [ ( k n + 2 + ) ]
( 2 )(2)n/2 i=1 x i 0 k2 + n
2
n 2
2 2
(k 2 + n) 1/2 1 (k 2 m 2 + nw n ) 2
( ) exp ( (k 2 + n) [ ] ) d d
2 2 k2 + n
Los dos ultimos terminos de esta expresion corresponden a una densidad normal para , que al estar
integrada sobre todo el espacio parametrico, esa integral es igual a uno. Por ello, al integrar, completar
una densidad gama y hacer h 2 = 21 k 2 n (mk22w) + 2 + u2n , se obtiene que la VI es
2
+n
n +
2 2 ( n2 + 2 ) (k 2 )1/2 h 22
2
2 + 2 1 exp [h 2 ] d
n
( n2 + 2 )
n +
(k 2 + n)1/2 ( 2 )(2)n/2 h 2 i=1 x i 0
n 2 2
Esta expresion dentro del integrando corresponde a una densidad gama para , que al estar integrada
sobre todo el espacio parametrico es igual a uno. Por ello, finalmente se obtiene que
2 2 ( n2 + 2 ) (k 2 )1/2
f (XM 2 ) = n +
(k 2 + n)1/2 ( 2 )(2)n/2 h 22 i=1 x i
n
2
Teorema 7.2 Bajo muestreo aleatorio completo de un modelo exponencial (, ), y al suponer conocido
. Dado que la densidad para el modelo exponencial esta dada por f (x , ) = exp [(x )] >
0, 0 < x, entonces f (XM i ) esta dada por:
5 5 (n + 5 )
f (XM 5 , ) = (7.5)
( 5 ) (s 5 )n+ 5
donde s 5 = ni=1 x i + 5 n
b) Al suponer una distribucion a priori uniforme (a 5 , b 5 ) para
1
f () = con 0 a 5 < b 5 (7.6)
b5 a5
130 CAPITULO 7. ESPECIFICACION DE MODELOS
142 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
entonces
u 5 (n + 1)
f (X M 5 , ) = [G(b 5 ; n + 1, v) G(a 5 ; n + 1, v)] (7.7)
v n+1
donde v = ni=1 x i n, y G(; n + 1, v) es la distribucion gama acumulada con parametros (n + 1,
v).
Demostracion. a) A priori gama. Dada la verosimilitud de un modelo exponencial y utilizando una
distribucion gama( 5 , 5 ) como distribucion inicial para , entonces
n
5 5 5 1
f (XM 5 , ) = n exp [ ( x i n)] exp()d
0 i=1 ( 5 )
al reagrupar terminos y completar una densidad gama, incluyendo sus terminos constantes, se obtiene
que f (XM i ) es
5 5 (n + 5 )
n+
b1 5
n+ 5 1 exp (s 5 ) d
( 5 ) s 5
n+ 5
0 (n + 5 )
5 5 (n + 5 )
f (XM 5 , ) =
( 5 ) s 5n+ 5
que es lo que se quera demostrar.
b) A priori uniforme. Dada la expresion la verosimilitud de un modelo exponencial y utilizando una
distribucion uniforme(a 5 , b 5 ) como distribucion inicial para , entonces f (XM i ) esta dada por
b5 n
u 5 n exp [ ( x i n)] d
a5 i=1
u 5 (n + 1) b5 v n+1
n exp [v] d
v n+1 a 5 (n + 1)
con v = ni=1 x i n Como el integrando de esta expresion corresponde a una densidad gama, en-
tonces al integrar se obtiene que
u 5 (n + 1)
f (XM i ) = [G(b 5 ; n + 1, v) G(a 5 ; n + 1, v)]
v n+1
donde G(; n + 1, v) es la distribucion gama acumulada con parametros (n + 1, v) Esta expresion es
la que se quera obtener.
7.2. PROBABILIDAD POSTERIOR PARA UN MODELO 131
7. E s p e c i f i c ac i n d e m o d e lo s 143
Tabla de
de probabilidades
probabilidades posteriores
posteriores
Se va a aplicar la metodologa propuesta para evaluar cual de los cinco modelos (normal-M 1 , lognormal-
M 2 , valor extremo-M 3 , Weibull-M 4 y exponencial-M 5 ) tiene mayores meritos como modelo de dis-
tintos conjuntos de datos. Para ello, de acuerdo al metodo descrito en Gutierrez-Pulido et al (2005b),
se necesita proponer intervalos iniciales donde se espera ocurran la media y la desviacion estandar
del tiempo de vida. Obviamente lo deseable hubiese sido proponer estos intervalos de forma previa a
obtener los datos, sin embargo, como lo datos ya existen, se propone directamente los intervalos para
la media y la desviacion estandar, ya que estos son comunes a todos los modelos.
A partir de los intervalos para la media y la desviacion estandar se calculan los hiperparametros
de las distribuciones a priori para los parametros de los diferentes modelos considerados, al aplicar
para ello los resultados resumidos en la tabla 3.1. La comparacion de modelos se hace de forma general,
al calcular la probabilidad posterior para cada modelo al tomar en cuenta todos los demas (7.1). Es
decir, al calcular
f (XM j ) Pr(M j )
Pr(M j X) = j = 1, 2, ,5 (7.8)
i=1
5
f (XM i ) Pr(M i )
Pr(M j X) proporciona una evidencia cuantitativa de que tan adecuado es cada modelo al ser com-
parado contra el resto de los modelos considerados. Notese que 5j=1 Pr(M j X) = 1, por lo que los
modelos que tengan una mayor probabilidad posterior seran los modelos, de entre los considera-
dos, con mayores meritos para ser considerados como modelos para los datos correspondientes. La
probabilidad inicial para cada modelo sera la misma (Pr(M j ) = 1/5).
Ademas con la idea de tener mayores elementos de evaluacion de los meritos de cada modelo
en relacion otro, es posible comparar de dos en dos los modelos. Esto permitira tener argumentos
especficos en favor en contra de un modelo, al ser contrastado con otro. As, ademas de la evaluacion
general proporcionada por Pr(M j X), se propone, a partir de cada f (X M i ) construir la tabla de
probabilidades pareadas, en la que se comparan en pares los modelos considerados. Para ello si se
desea comparar el modelo M i con el modelo M j , y se considera solo estos dos modelos como las
posibles opciones, entonces de acuerdo a (7.1) la probabilidad posterior del modelo M i estara dada
por
f (X M i ) Pr(M i )
Pr(M i , j X) = con i j (7.9)
f (X M j ) Pr(M j ) + f (X M i ) Pr(M i )
Esta expresion se obtiene directamente de (7.1), haciendo Pr(M i ) = 0 5. Al ordenar estas probabilida-
des se obtiene una tabla como la 7.4. De aqu que en la medida que Pr(M i , j X) sea mayor que 0 5, el
modelo M i sera mas adecuado que el modelo M j De esta manera, si en total se evaluan m modelos
y se comparan por pares mediante el calculo de (7.9); estas probabilidades pueden organizarse en una
tabla con m renglones y m columnas. Si los renglones de esta tabla los denotamos con el subndice i y
las columnas con el subndice j, entonces la interpretacion de esta tabla sera como sigue: en el renglon
i se observaran las probabilidades posteriores del modelo M i al ser comparado contra el resto de los
modelos que se indican en cada columna; por lo tanto si estas probabilidades son grandes y mayores
que 0 5, entonces de acuerdo a la metodologa este modelo resulta mas adecuado para los datos. Por
el contrario, si todas o casi todas las probabilidades del renglon i son pequenas y menores que 0 5,
entonces el modelo M i no es un buen candidato a ser especificado como el modelo para el tiempo de
132 CAPITULO 7. ESPECIFICACION DE MODELOS
144 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
falla. La interpretacion de las columnas es opuesta: valores bajos de las probabilidades en la columna
de una distribucion indican que esa distribucion es un buena alternativa como modelo. Esto se debe
a que
Pr(M i , j X) + Pr(M j, i X) = 1
En los conjuntos de datos que se consideran enseguida se muestran ejemplos de esta tabla de proba-
bilidades posteriores.
Con estos parametros y al calcular f (XM i ) por simulacion Monte Carlo (20000 replicas), se
obtienen los resultados de la tabla 7.4. Al analizar la ultima columna de esta tabla se aprecia que los
modelos con mayores meritos son el normal y el Weibull (Pr(M 1 X) = 0 42 y Pr(M 4 X) = 0 41),
seguidos de forma lejana por el valor extremo. En Meeker y Escobar (1998, pag. 176) se consideran
estos mismos datos, y con base a graficas de probabilidad con bandas de confianza deciden el modelo
Weibull sobre el lognormal, pero no consideran el modelo normal. De la misma tabla 7.4, se aprecia
que para estos datos el modelo Weibull es muy superior al lognormal, ya que Pr(M 4,2 X) = 0 9061,
y Pr(M 2,4 X) = 0 0939
Tabla 7.4. Probabilidad posterior para los cinco modelos, datos de amortiguadores.
7.3. PREGUNTAS Y EJERCICIOS 133
7. E s p e c i f i c ac i n d e m o d e lo s 145
(a priori normal-gama)
Modelo M1 M2 M3 M4 M5 Pr(M j X)
Normal, M 1 0.9077 0.7717 0.5048 0.9999 0.4214
Lognormal, M 2 0.0923 0.2558 0.0939 0.9992 0.0416
V. extremo, M 3 0.2283 0.7442 0.2317 0.9997 0.1234
Weibull, M 4 0.4952 0.9061 0.7683 0.9999 0.4136
Exponencial, M 5 0.0001 0.0008 0.0003 0.0001 0.0000
7.3.P r e gPreguntas
7.3 u n ta s y e j e rc y
i c iEjercicios
os
a) Obtener histograma y graficas de probabilidad para estos datos y de una primera opinion
sobre lo adecuado de estos modelos.
b) Obtener las expresiones analticas que permitan calcular la probabilidad posterior (da-
dos los datos) para ambos modelos.
c) Recurriendo a los metodos descritos en el captulo 3, obtener las distribuciones a prioris
adecuadas para cada modelo.
d) Con lo hecho en los dos incisos anteriores calcular la probabilidad posterior para cada
modelo y comentar.
a) Obtener graficas de probabilidad para estos datos y de una primera opinion sobre lo
adecuado de estos modelos.
b) Obtener las expresiones analticas que permitan calcular la probabilidad posterior (da-
dos los datos) para ambos modelos.
c) Recurriendo a los metodos descritos en el captulo 3, obtener las distribuciones a prioris
adecuadas para cada modelo.
d) Con lo hecho en los dos incisos anterior calcular la probabilidad posterior para cada
modelo y comentar.
134 CAPITULO 7. ESPECIFICACION DE MODELOS
146 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
6. Se tienen los siguientes datos: 4.2 4.5 3.3 4.7 6.1 4.2 3.6 5.2 3.7 3.7 2.2 7.4 6.1 8.9 7.4 4.4
4.8 7.1 8.1 5.7 2.9 3.8 5.7 7.2 3.8. A priori se cree que la media y desviacion estandar estan
en [3, 7] y [1,5, 3], respectivamente. Como modelos propuestos para estos se quiere analizar el
normal, lognormal y exponencial.
a) Obtener graficas de probabilidad para estos datos y de una primera opinion sobre lo
adecuado de estos modelos.
b) Recurriendo a los metodos descritos en el captulo 3, obtener las distribuciones a prioris
adecuadas para cada modelo.
c) Aplicar los resultados de la seccion 7.2 para obtener la probabilidad posterior para cada
modelo y comentar.
8. E squema de decisin b ay e s i a na
Captulo 8
Se dijo en el captulo 1, que la estadstica Bayesiana proporciona un sistema consistente tanto para
realizar inferencias estadsticas como para tomar decisiones bajo incertidumbre. En los captulos an-
teriores se hizo enfasis en hacer inferencias, ya sea sobre los parametros de los modelos o sobre la
variable aleatoria misma. En este captulo se ve con detalle como hacer las decisiones en forma Baye-
siana. En la primer seccion se presentan las ideas generales y en la segunda se aborda el problema de
determinar en forma optima el tiempo de garanta de un producto.
mientras que si w es una variable aleatoria discreta, entonces la utilidad esperada esta dada por
u (a) = u(a, )p() (8.2)
[147]
135
136 CAPITULO 8. ESQUEMA DE DECISION BAYESIANA
148 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
y la decision sera aquella a A que maximice u (a) Alternativamente, si en lugar de trabajar con
u(a, ), se trabaja con la llamada funcion de perdida
donde h( ) es una funcion fija arbitraria, la eleccion optima de la respuesta es aquella a A que
minimiza la perdida esperada.
Ejemplo 8.1 Suponer que un lote de produccion procede de una de cuatro lneas de produccion del
proveedor. Se sabe que la proporcion de defectuosos de cada lnea es diferente, y esta dada por = 0 01,
0 04, 0 07 y 0 10. Las tres posibles decisiones son a 1 =aceptar el lote sin inspeccion, a 2 =inspeccionar
el lote al 100 % para separar el producto defectuoso y a 3 = regresarlo al proveedor. Se quisiera que si el
lote proviene de las lneas con mejor calidad favorecer la decision a 1 y si vienen de las lneas con peor
calidad, entonces se quisiera tomar la decision a 3 . De acuerdo a esto, se estima que los costos o perdidas
(consecuencias) de estas posibles decisiones, en combinacion con el valor de , se muestran en la siguiente
tabla
a1 a2 a3
1 = 0 01 0 1 3
2 = 0 04 2 0 2
3 = 0 07 3 1 0
4 = 0 10 4 2 0
Por ejemplo si se decide a 3 y el lote viene de la lnea 1 ( 1 = 0 01) , entonces las perdidas seran de
3. En este caso los estados desconocidos de la realidad lo representa la incertidumbre sobre la lnea
de donde viene el lote. Por ello se requiere saber p(). Si no se tiene una presuncion sobre p(),
entonces se puede suponer una distribucion discreta uniforme: p( = i ) = 1/4.
Para tomar la decision se plantea tomar una muestra de n artculos y ver cuantos son defectuosos
x. Suponer que el tamano de lote es grande y que n = 50, entonces se puede suponer que X tiene
una distribucion binomial f (x) Bin(n). Dados los datos de la muestra, P( i x) proporciona
la probabilidad posterior de que el lote venga de la lnea i. Por el teorema de Bayes:
f (x i )P( i )
P( i x) =
j=1 f (x j )P( j )
4
donde l(a j , i ) se obtiene de la tabla de consecuencias o perdidas. Por ejemplo suponer que en la
muestra salen 2 defectuosos, si se decide a 2 , entonces de acuerdo a los datos de la tabla 8.1, la perdida
esperada sera:
l(a 2 x = 2) = 1 P( 1 x) + 0 P( 2 x) + 1 P( 3 x) + 2 P( 4 x)
= 1 0 12 + 0 0 45 + 1 0 30 + 2 0 13 = 0 68
8.1. TOMA DE DECISIONES (FUNCION DE UTILIDAD) 137
8. E squema de decisin B ay e s i a na 149
En la tabla 8.1 tambien se muestra la evaluacion de l(a j x) para diferentes valores de x Se resalta
el valor de l(a i x) que minimiza la perdida, y que indica la decision de Bayes. Se puede apreciar que
si x > 2, la decision debe ser a 3 , y conforme x es mas mayor que 2, la perdida (riesgo) disminuye. Lo
que quiere decir que para esos valores de x, la evidencia favorece fuertemente a a 3 . Solo en caso de
que x = 0 se decide a 1 , y x = 1 y x = 2, llevan a la decision a 2 .
Ejemplo 8.2 Suponer que el 10 % de los empleados de cierto tipo de fabricas padecen una enfermedad
pulmonar. Ver programa 8. Suponer, tambien, que disponen de una prueba para ayudarles a determinar
si tienen la enfermedad y que el resultado de esta prueba es una variable aleatoria X con la siguiente
distribucion: Si el empleado tiene la enfermedad, entonces X tiene una distribucion normal con media
50 y varianza 1. Si el empleado no tiene la enfermedad, entonces X tiene una distribucion normal con
media 52 y varianza 1. Como consecuencia del resultado X, un empleado puede requerir un estudio
medico mas completo. Suponer que la perdida por requerir un estudio cuando el empleado no tiene la
enfermedad es $100, y que la perdida por no requerir un estudio medico completo cuando el empleado
tiene la enfermedad es $2000 y que en otro caso la perdida es cero. Si se realiza la prueba a un empleado
seleccionada al azar de una fabrica de este tipo, para que valores de X la decision de Bayes es requerir
un estudio medico completo?
a 1 Estudio a 2 no estudio
1 enfermo = 0 1 0 2000
2 sano = 0 9 100 0
En este caso los estados desconocidos de la realidad lo representa la incertidumbre sobre si el em-
pleado tiene la enfermedad o no. Por ello se requiere saber p(). Como p ( 1 ) = 1 p ( 2 ) = 0 1.
Ademas X tiene una distribucion normal
f (x 1 ) Norm(50, 1)
y
f (x 2 ) Norm(52, 1).
Dados los datos de la muestra, P( i x) proporciona la probabilidad posterior del estado de salud Por
el teorema de Bayes:
f (x i )P( i )
P( i x) = 2
j=1 f (x j )P( j )
138 CAPITULO 8. ESQUEMA DE DECISION BAYESIANA
150 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
2
l(a j x) = l(a j , i )P( i x),
i=1
Figura 8.1
Grficas de P (i | x) y l(ai |x) para ejemplo 8.2
en la prueba.
Tabla 8.2. Calculos para ejemplo 8.2
x P( 1 x) P( 2 x) l(a 1 x) l(a 2 x)
51.37 0.0503 0.9497 94.966 100.688
51.38 0.0494 0.9506 95.060 98.792
51.39 0.0485 0.9515 95.153 96.931
51.40 0.0476 0.9524 95.245 95.103
51.41 0.0467 0.9533 95.334 93.308
En la primera parte de la figura 8.1 se muestra la grafica de P( 1 x) y P( 2 x), de donde se aprecia
que a medida que x es mas grande, aumenta P( 2 x). En x = 49.9 las curvas se interceptan con una
probabilidad posterior igual a 0.5. De esta manera si solo se decidiera con base a la probabilidad
posterior, si x 49.9 entonces P( 1 x) > P( 2 x), es decir para x 49.9 la probabilidad posterior de
estar enfermo es mayor a la de estar sano, y solo cuando x 49.9 se mandara a la persona a una estudio
mas completo. Sin embargo, como las consecuencias de una mala decision no son las mismas, y es
muy inadecuado no hacer un estudio completo cuando la persona esta enferma, entonces las graficas
de la funcion de perdida, en la misma figura 8.1, muestran una mayor sensibilidad de l(a 2 x), y se
debe enviar a revision si x 51.39.
8.2.
E l e c cEleccion
8.2 i n d e t i e mde
p o sTiempos de Garanta
de garanta
Uno de los objetivos basicos de muchos de los estudios de confiabilidad es decidir el tiempo o esquema
de garanta para un producto, sin embargo esto practicamente no se aborda en la literatura clasica de
confiabilidad. Es comun que solo se sugiera implcitamente que el tiempo de garanta se fija con base
en cuantiles bajos de la distribucion del tiempo de vida, y se omite cualquier tipo de consideraciones
economicas para esta eleccion. En esta seccion se aborda el problema de decidir el tiempo de garanta
considerando la distribucion posterior predictiva como modelo del tiempo de vida de un producto y
una funcion de utilidad que incorpore las diferentes consideraciones economicas y de mercadotecnia
de la decision. Lo que aqu se presenta esta basado principalmente en Gutierrez et al. (2006b y e)
Funcin
Funcionde
deutilidad
Utilidad
Decidir el tiempo o esquema de garanta, tw , de un producto es una decision, que deseamos soportar
en un esquema coherente de toma de decisiones de tipo cuantitativo. Por ello de acuerdo a lo expuesto
al inicio de este captulo, esta decision se fundamenta en una funcion de utilidad U A R La
decision es un tiempo de garanta, a tw A R+ , y la realidad desconocida la representa el tiempo
de vida del producto, t R+ Ademas las creencias actuales acerca de los posibles estados de
la realidad es logico que lo represente la densidad posterior predictiva, por lo tanto, p() f (t X).
De esta manera, de acuerdo a la ecuacion (8.1), la eleccion optima del tiempo de garanta tw es el que
maximiza la utilidad esperada:
U (tw ) E [U(t, tw )] = U(tw , t) f (t X) dt (8.3)
0
De aqu que para poder tomar esta decision, necesitamos obtener f (t X) para los diferentes
modelos considerados en este estudio, aspecto que se aborda en la siguiente subseccion. Ademas es
140 CAPITULO 8. ESQUEMA DE DECISION BAYESIANA
152 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
necesario definir una funcion de utilidad U(tw , t) que refleje las diferentes consecuencias de tomar
la decision, tw Esto es lo que se hara en esta subseccion.
Sea L el numero de productos a vender por la empresa en el perodo de referencia (L es una
variable aleatoria), y sea t i el tiempo de falla de la manufactura i-esima i = 1, , L Se propone
que una funcion U(t i , tw ) mida la utilidad monetaria cuando el producto i falla al tiempo t i y la
garanta que se le da al consumidor es tw Para definir U(t i , tw ) se propone que se tomen en cuenta
tres aspectos fundamentales que contemplan las diferentes consecuencias de tomar la decision tw
Los beneficios economicos asociados a una cierta garanta, b(tw ). Beneficios en mercadotecnia,
imagen y probabilidad de venta.
El costo directo en la que incurre el fabricante, r(t i , tw ), cuando el producto falla en t i dentro del
perodo de garanta tw
El costo de insatisfaccion del cliente debido a que el producto i falla al tiempo t i dentro del perodo
de garanta, I(t i , tw ).
De acuerdo a estos tres puntos, y al suponer que todos estan en las mismas unidades, la funcion
de utilidad propuesta esta dada por
b(tw ) si t > tw
U(t i , tw ) = { (8.4)
b(tw ) r(t i , tw ) I(t i , tw ) si t tw
De aqu que la utilidad total U(tw ) este dada por
L
U(tw ) = u(t i , tw ) (8.5)
i=1
A continuacion detallamos como definir cada uno de los componentes de (8.4).
Funcion Beneficio b(tw ) Consideramos que b(tw ) debe ser una funcion creciente y acotada supe-
riormente. Sera poco realista suponer que b(tw ) creciera sin ninguna cota superior, como en Sing-
purwalla y Wilson (1998), quienes proponen una funcion logaritmo. Ya que dar un perodo de garanta
mucho mayor al de los competidores es probable que ya no traiga un beneficio real e incluso puede
causar duda o suspicacia de parte del cliente. Por lo anterior se propone usar la funcion siguiente,
b(tw ) = A 2 [1 e A 1 t w ], (8.6)
para constantes positivas A 1 y A 2 Esta es una familia flexible de funciones que son positivas, crecientes
y acotadas por A 2 , y cuya rapidez de crecimiento es proporcional a A 1 Los parametros A 1 y A 2 deberan
ser derivados de consideraciones proporcionadas por el fabricante. Especficamente consideramos
que es factible que el fabricante proporcione la siguiente informacion en relacion al producto y su
garanta:
v = p s c, utilidad directa, con p s el precio de venta y c el costo de produccion.
c r es el costo para la empresa para reparar o reemplazar el producto.
t e la garanta actual o estandar del mercado.
(t e , p s ) la participacion en el mercado con t e y p s dados.
M el tamano del mercado potencial para el producto.
t a es una garanta que es mas atractiva para el cliente pero que mas alla de ella el fabricante no
espera un aumento significativo en cuanto a su participacion en el mercado al precio actual. Notar
que t a > t e .
8.2. ELECCION DE TIEMPOS DE GARANTIA 141
8. E squema de decisin B ay e s i a na 153
I a es el aumento esperado en los beneficios por el fabricante, resultado de un aumento en la pene-
tracion en el mercado si se ofrece la garanta t a con el precio p s . Al aumentar las ventas se aumentan
los ingresos y la participacion porcentual de los costos fijos en el costo de produccion, disminuye.
(t a , p s ) = (t e , p s )[1 + I a ], porcion del mercado con t a y p s dados.
C a = M(t e , p s ) [1 + I a ] es el numero esperado de unidades a vender con t a y p s dados.
De acuerdo a lo anterior E(L) = C a , y los beneficios totales para el fabricante con t e y t a estan
dados por M(t e , p s )b(t e ) = M(t e , p s )v y C a b(t a ) = M(t e , p s )[1 + I a ]v, respectivamente. Es
facil ver que
b(t e ) 1 e A 1 t e 1
= = (8.7)
b(t a ) 1 e A 1 t a 1 + I a
por lo tanto sea
entonces A 1 es la solucion de
1
g(A 1 ) = , (8.9)
1 + Ia
que se obtiene en forma numerica. La existencia y unicidad de la solucion se garantiza si tt ae < 1+I1 a .
En cuanto a A 2 dado el significado de (8.6) y que esta acotada por A 2 entonces es razonable suponer
que A 2 esta relacionada con el incremento de los beneficio b(t a ) de dar un mejor tiempo de garanta,
que de acuerdo a lo que se dijo, esta dado por (p s c)(1 + I a ). Pero como b(t) solo alcanza a A 2 en
forma asintotica. Entonces se propone que
(reembolso, credito para una nueva compra) es inversamente proporcional al tiempo de uso. Esta
forma de garanta es utilizada para productos que fallan por su desgaste de uso y que no es factible
repararlos, por lo que deben ser reemplazados por un producto nuevo. Por ejemplo bateras y llantas
para automoviles.
De acuerdo a lo anterior, si el producto falla dentro de la garanta, se propone que el costo en el
que incurre la empresa este dado por la siguiente funcion
A3 t
r(t, tw ) = A 4 (1 ) para t < tw (8.11)
tw
Si se tiene una garanta de reemplazo o reparacion, entonces A 3 = 0 y la constante A 4 debe ser igual
c r , es decir A 4 = c r . Bajo una garanta del tipo prorrateo (1 t w3 ) es la proporcion de p s o c r que
A t
el usuario recibe si el producto falla al tiempo t, con t < tw , por lo tanto A 3 debe definirse bajo esa
consideracion y A 4 sera igual a p s o c r .
Funcion Costo de insatisfaccion I(t, tw ) En este otro componente de la funcion de utilidad no con-
siderado en Menzefricke (1992) y Singpurwalla y Wilson (1998), se incluye el costo para el productor
(costo indirecto) debido a que el producto falla (al tiempo t) dentro del perodo de garanta. O sea
este es el costo de insatisfaccion del cliente debido a que el producto falla dentro del perodo de ga-
ranta (Patankar y Mitra, 1996). El cliente no espera que el producto funcione para siempre, pero
s tiene ciertas expectativas que son reforzadas o incrementadas por un tiempo de garanta largo, por
lo que si el producto falla relativamente rapido despues de la compra, la insatisfaccion del consumidor
podra ser significativa (Kelley, 1996). Aunque la garanta minimice o atenue tal insatisfaccion, cual-
quier reclamo de una garanta genera costo para el consumidor que no son cubiertos por la garanta
(tiempo, desplazamientos, la interrupcion en el uso del producto, frustracion por no cumplimento
de expectativa, etcetera). Por ello es necesario tomar en cuenta esta insatisfaccion en la funcion de
utilidad. De tal manera que esta funcion penalice garantas largas si es que no estan respaldadas por
la confiabilidad del producto. Porque es ampliamente reconocido ahora que un cliente insatisfecho
afecta la imagen o prestigio de la empresa y eso repercute negativamente en las ventas futuras. Por
ejemplo Deming (1989, pag. 94) cita un trabajo realizado en la industria automotriz, en el que se afir-
ma que un propietario satisfecho de un carro vale mas que 10 folletos publicitarios, ya que este regresa
sin publicidad, es probable que comunique su satisfaccion a ocho personas en promedio, e incluso
puede que traiga a un amigo. Sin embargo si esta insatisfecho e irritado le contara sus problemas a un
promedio de dieciseis personas. Obviamente la insatisfaccion del cliente sera mayor en cuanto mas
pronto falle el producto, ya que aunque la falla sea cubierta por la garanta, la falla causa molestias.
Por ello se propone que este costo indirecto se cuantifique mediante una funcion como la siguiente:
t
I(t, tw ) = A 5 (1 ) para t < tw (8.12)
tw
La especificacion de A 5 se puede hacer a partir de considerar el costo del maximo nivel de insatis-
faccion que se dara si el producto falla en forma muy temprana. Como es difcil cuantificar esto,
se propone que se asigne como una proporcion q, del precio de venta del producto p s , por lo tanto
A 5 = qp s
8.2. ELECCION DE TIEMPOS DE GARANTIA 143
8. E squema de decisin B ay e s i a na 155
Utilidadesperada
Utilidad Esperada
De acuerdo a (8.4) y (8.5) la utilidad esperada esta dada por
L L
E [U(tw )] = E [Lb(tw )] E [ r(t i , tw )] E [ I(t i , tw )]
i=1 i=1
L tw A3 t
E [ r(t i , tw )] = E(L)E[r(t, tw )] = C a A 4 (1 ) f (tX)dt,
i=1 0 tw
donde f (tX) es la distribucion posterior predictiva del tiempo de falla. Similarmente,
L tw t
E [ I(t i , tw )] = C a A 5 (1 ) f (tX)dt,
i=1 0 tw
Por lo tanto
tw A3 t t
E [U(tw )] = C a A 2 [1 e A 1 t w ] C a [c r (1 ) + qp s (1 )] f (tX)dt
o tw tw
tw A3 t t
A 2 [1 e A 1 t w ] [c r (1 ) + qp s (1 )] f (tX)dt (8.13)
o tw tw
con t tw .Por lo que el valor de C a no influye en la eleccion de tw , y con ello realmente no es necesario
conocer M La decision optima para la garanta tw , esta dada por el tw que maximiza (8.13). En caso
que se tenga una garanta por reemplazo o reparacion, A 3 = 0, entonces
tw t
E [U(tw )] A 2 [1 e A 1 t w ] A 4 F(tw ) A 5 (1 ) f (tX)dt (8.14)
o tw
donde si t tw al beneficio se le resta: el precio de reparacion A 4 por el cuantil que corresponde al
tiempo de garanta F(tw ) y el costo de imagen. Que resulta intuitivo ya que a esa proporcion de los
productos vendidos se le tendra que cubrir la garanta. De manera similar, resultara para el caso de
costo de imagen, donde el peor escenario sera que t 0, en cuyo caso el ultimo termino de (8.14)
tomara la forma A 5 F(tw ).
1 M A 3 t (k) t (k)
U (tw ) A 2 [1 e A 1 t w ] [A 4 (1 ) + A 5 (1 )] 1(0,t w ) (t (k) ). (8.15)
M k=1 tw tw
Obtencion de f (t X)
Obtencin de f (t|x)
1 +n (k 1 +n+1)
tad. Ademas sabemos, (ver Bernardo y Smith, 1994, pag. 123), que si y se distribuye tStudent(, , ),
entonces z = 1/2 (y ) se distribuye t-Student estandar (0, 1, ) Es precisamente la distribucion
t-Student estandar la que viene incluida en la mayora de los programas estadsticos computacionales.
Por lo anterior para obtener una muestra de t de f 1 (t X), se aplican los siguientes pasos:
Percentil 1 5 10 15 20 25
Valor 5.477 10.291 13.513 15.7797 17.674 19.311
Figura 8.2
Eleccin del tiempo de garanta para amortiguadores
procedimiento optimize de S-Plus el maximo se alcanza con t = 10 95215, que corresponde al percentil
5 821 de f (tX) La funcion de utilidad evaluada en el optimo es U (10 952) = 840 1264 Algo de
destacar en la grafica de la funcion de utilidad es que es bastante plana entre 10 5 y 11 8, por lo que un
tiempo de garanta en este rango tendra un utilidad similar. De esta manera, si en las evaluaciones
iniciales se haba considerado que el tiempo de garanta se podra fijar en 10 mil kilometros, con las
consideraciones hechas y la aplicacion de la metodologa antes descrita, se ve que una mejor decision
es establecer un tiempo de garanta cercano a 11 mil kilometros.
a1 a2 a3
1 = 0,02 0 2 2
2 = 0,05 2 0 1
3 = 0,09 3 2 0
4 = 0,12 4 3 0
d1 d2 d3
w1 0 2 3
w2 1 0 2
w3 3 4 0
w4 1 2 0
3. Retomar los datos y suposiciones del ejemplo 5.2 (seccion 5.1), en donde se quiere decidir por
una de las siguientes hipotesis:
148 CAPITULO 8. ESQUEMA DE DECISION BAYESIANA
160 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
H 1 1 = [0, 0,16]
H 2 2 = { con > 0,16}
d1 d2
H1 a b
H2 c d
d1 d2 d3
=0 0 1 5
=1 5 1 0
1. a) Demostrar que una regla de decision de Bayes tiene la forma siguiente: elegir la decision
d 1 si X c 1 , elegir d 2 si c 1 < X < c 2 y elegir d 3 si X c 2 . Determinar los valores de c 1 y
c2 .
b) Cual es la perdida esperada o riesgo de la decision Bayes cuando el tamano muestral es
n = 4?
5. Suponer que el 11 % de los empleados de cierto tipo de fabricas padecen una enfermedad pul-
monar. Suponer, tambien, que disponen de una prueba para ayudarles a determinar si tienen
la enfermedad y que el resultado de esta prueba es una variable aleatoria X con la siguiente
distribucion: Si el empleado tiene la enfermedad, entonces X tiene una distribucion normal
con media 40 y varianza 3. Si el empleado no tiene la enfermedad, entonces X tiene una distri-
bucion normal con media 52 y varianza 5. Como consecuencia del resultado X, un empleado
puede requerir un examen medico completo. Suponer que la perdida por requerir un examen
cuando el empleado no tiene la enfermedad es $322, que la perdida por no requerir un exa-
men medico cuando el empleado tiene la enfermedad es $4580 y que en otro caso la perdida
es cero. Si se realiza la prueba a un empleado seleccionada al azar de una fabrica de este tipo,
para que valores de X la decision de Bayes es requerir un examen medico completo?
8.4. PREGUNTAS Y EJERCICIOS 149
8. E squema de decisin B ay e s i a na 161
6. Suponer un modelo exponencial para el tiempo de vida de un producto, utilizar una distribu-
cion gama como a priori, y la funcion de utilidad (8.14) para decidir el tiempo de garanta.
Captulo 9
Con el proposito de mostrar otras bondades de los metodos estadsticos Bayesianos, en este captulo se
analizan los problemas de las cartas de control para atributos. En particular, se ve que el procedimien-
to tradicional para obtener los lmites de control no incorpora la incertidumbre sobre la estimacion
del parametro del modelo, no contempla las variaciones en el parametro del proceso y requiere un
perodo base para obtener datos. Durante este perodo base no se tiene una carta de control para mo-
nitorear el proceso. Se ve que las deficiencias anteriores son resueltas con metodos Bayesianos. Se ve
como establecer los lmites de control Bayesianos para las Graficas u, en forma secuencial desde la
primera observacion. Esto elimina la necesidad del perodo base. Este captulo esta basado principal-
mente en Gutierrez-Pulido(2006d).
9.1. Introduccion
9.1 I n t ro d u c c i n
Se dijo en la introduccion que los metodos de la estadstica Bayesiana se estan convirtiendo en una
herramienta estandar en muchas aplicaciones estadsticas. En particular en las areas de aplicacion de
la estadstica industrial existen muchos problemas de decision que requieren esquemas optimos de
decision, como lo se vio en el captulo anterior. Una area donde se manifiesta con mucha claridad la
necesidad de aplicar metodologas Bayesianas son las tradicionales cartas de control para atributos,
como se vera enseguida.
En adelante con f (y) se denota el modelo para las observaciones y, con el parametro del
modelo. Como es bien conocido las cartas de control ayudan a monitorear un proceso analizando
la distribucion de las caractersticas de calidad a traves del tiempo. En el enfoque tradicional se su-
pone que el parametro es constante, y durante un perodo base (PB) de observacion se obtiene
Y = (y 1 , ..., y k1 ) para estimar . Con esta estimacion se obtiene los lmites de control y la carta se
utiliza para monitorear la estabilidad del proceso a partir de la observacion y k . Por lo tanto durante
[163]
151
152 CAPITULO 9. CARTAS DE CONTROL BAYESIANAS PARA ATRIBUTOS
164 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
el PB no se tienen los lmites de control, y en consecuencia no es posible aplicar la carta de control.
Esto en general es una desventaja importante para el adecuado y oportuno control de procesos, pero
es sumamente crtico en los procesos en los que se obtiene datos lentamente o los procesos actuales
de multiples modelos de productos, donde se cada da hay se trabaja mas con corridas cortas, ver Del
Castillo et al. (1996) y Tsiamyrtzis y Hawkins (2005). De tal forma que en estos caso es casi imposible
cubrir ese PB para poder calcular los lmites y tener una carta de control. Otro problema que tienen
todas las cartas de control tradicionales, y que en cierto sentido esta ligado al PB, es que en el calculos
de los lmites de control no se incorpora la incertidumbre sobre la estimacion de : se procede for-
malmente de igual manera si k = 10 o si k = 100. Esta es la razon por la que se exige el perodo base,
para de alguna forma tener informacion suficiente para estimar bien.a . Sin embargo, como se vera
mas adelante, los metodos Bayesianos s incluyen la incertidumbre con la que se estima y con ello
no habra necesidad del PB.
Ademas los modelos utilizados en las cartas para atributos, como el Binomial y el Poisson, solo
consideran variacion del muestreo y no contemplan las pequenas variaciones que en forma natural se
dan a traves del tiempo en muchos procesos, ver por ejemplo Bayari y Garca-Donato(2005). As al no
modelar adecuadamente la variacion natural de los procesos, la carta de control correspondiente no
sera un buen instrumento para el control y monitoreo del proceso. Otro problema es que los lmites
de control para la cartas de atributos se obtienen con el enfoque 3-sigma. Que se basa en el hecho que
bajo normalidad y estabilidad, la probabilidad de que los datos esten dentro de los lmites de control
es de 0,9973. Sin embargo en el caso de los datos de atributos las distribuciones son sesgadas, y en
consecuencia los correspondientes lmites de control no reunen tales requerimientos, ver Gutierrez-
Pulido y Camacho-Castillo(1998) y Hamada (2002). Esta problematica se acrecienta conforme los
niveles de defectos son pequenos. Algo que cada da ocurre mas.
En este contexto un objetivo de este captulo es analizar los problemas anteriores y ver la mane-
ra en que las cartas de control Bayesianas para atributos las resuelven. Particularmente se veran los
detalles de las cartas Bayesianas: u, c, p y np.
La variacion de un proceso
La variacin de un proceso
Un aspecto importante en muchas metodologas de control de calidad para procesos de atributos es
la probabilidad de que un artculo sea defectuoso, p. Por claridad en la exposicion vamos a suponer
que el producto ha sido fabricado por un proceso en una serie de lotes. En caso que el proceso no
produzca por lotes, entonces la produccion de cada cierto perodo (turno por ejemplo) se vera como
un lote. Debido a fluctuaciones aleatorias, estos lotes diferiran en calidad aunque el proceso sea estable
y este en control estadstico. Si de cada lote se toma una muestra aleatoria y se obtiene el numero de
artculos defectuosos y. Obviamente y varia de muestra a muestra aunque p se mantenga constante.
Las variaciones en y pueden separarse en variacion dentro de lote o debida al muestreo, que se da
debido a que se toma una muestra finita del lote (variacion dentro de lote) y a la variacion entre lotes,
que se debe al muestreo y al mismo proceso. Si estas dos fuentes de variacion son iguales, cada lote
puede ser considerado una muestra al azar obtenida de un proceso con p constante. Esta es la premisa
detras del las cartas de control p y np (ver Heimann, 1996) y otras metodologas tradicionales, como
por ejemplo el muestreo de aceptacion (Calvin, 1984).
9.1. INTRODUCCION 153
9. C a rta s d e c o n t ro l b ay e s i a na s pa r a at r i b u to s 165
n
f (yp) = ( )p y (1 p)ny , y = 0, 1, 2, . . . , n. (9.1)
y
La obtencion de los lmites de control 3-sigma (E(p i ) 3 p i ) para la carta p, se obtienen al suponer
solamente la variacion debida al muestreo, y estan dados por:
p(1 p)
p3
n
Por el contrario, desde una perspectiva Bayesiana se consideran ambas fuentes de variacion, ya que
la variacion muestral se considera a traves de la verosimilitud y la incertidumbre sobre el valor de p
se considera a traves de una distribucion a priori. Como se vio en el captulo 4. es usual incorporar la
incertidumbre sobre el valor de p a traves de la distribucion a priori beta(, )
( + ) 1
(p) =p (1 p) 1 , , > 0 y 0 p 1. (9.2)
()()
Cuya media y varianza estan dadas por
E(p) = y V (p) = . (9.3)
+ ( + )2 ( + + 1)
Si denotamos E(p) = p, entonces p se puede ver como la probabilidad promedio de producir artculos
defectuosos. Dado que p = /( + ), es facil ver que
p(1 p)
V (p) = (9.4)
++1
De esta manera la probabilidad de obtener y artculos defectuosos en una muestra de tamano n, no se
obtiene con (9.1), sino con la distribucion a priori predictiva (distribucion marginal de y, ver captulo
1)
1 n ( + y)( + n y)( + )
f (y) = f (yp) (p) d p = ( ) (9.5)
0 y ()()( + + n)
Esta distribucion recibe el nombre de beta-binomial o tambien es conocida como distribucion de
Polya.
Una forma de cuantificar que tan necesario es considerar un esquema Bayesiano desde la pers-
pectiva de los dos tipos de variacion, es contrastar la variacion dentro de lote contra la variacion
154 CAPITULO 9. CARTAS DE CONTROL BAYESIANAS PARA ATRIBUTOS
166 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
entre lotes. Sobre esto, ya se dijo que ambos tipos de variacion estan contempladas por la distribucion
beta-binomial, cuya media y varianza estan dadas por
n ( + + n)
E(y) = n y V (y) = , (9.6)
+ ( + )2 ( + + 1)
p(1 p) ( + + n)
V (y/n) =
n ( + + 1)
p(1 p) ( + ) p(1 p)
= + .
n ( + + 1) ( + + 1)
p(1 p) p(1 p)
V (y/n) + .
n ( + + 1)
De acuerdo a las propiedades del modelo binomial y a la expresion (9.4), esta ultima expresion para
V (y/n) se puede ver como una suma de la variacion de un proceso binomial mas el de la distribucion
beta. Es decir, V (y/n) es igual a la variacion del muestreo mas la variacion del proceso (en termi-
nos de p). De aqu resulta razonable obtener la razon de varianza total con la varianza del muestreo
(binomial). Es facil ver que esta dada por:
V (y/n) ++n
r= = . (9.8)
p(1p) ++1
n
As valores de r mayores que uno, significan que en la variacion observada no solo se debe a la va-
riacion del muestreo (como se supone tradicionalmente), sino que ademas esta presente la variacion
debido a que p no se mantiene constante en el proceso a traves del tiempo. Al seguir ideas de cartas
de control, Heimann (1996) establece que el valor maximo de r donde todava el modelo binomial
puede ser adecuado es de 1,357. De esta manera este parametro r se convierte en un indicador para
decidir cuando usar un esquema Bayesiano. El recproco de r, 1/r, es un indicador de la proporcion
de la variacion total que es debida al muestreo.
Si en los procesos tradicionales es difcil que p se mantenga constante, en los procesos de hoy
en da es mucho menos probable que p permanezca constante. Ya que hoy en da se tienen multiples
modelos del mismo producto, los tamanos de lote son cada da mas pequenos debido a la exigencia
de no producir para inventario. Ademas cada da mas los productos son resultados de ensambles o
9.1. INTRODUCCION 155
9. C a rta s d e c o n t ro l b ay e s i a na s pa r a at r i b u to s 167
componentes, que a su vez fueron producidos en diferentes plantas ubicadas en diferentes regiones o
pases. Todo esto hace que se tenga mayores fuentes de variacion a traves del tiempo (lote a lote), y
que consecuencia p no permanezca constante. Otros trabajos se han originado a partir de que p no
permanece constante, ni siquiera dentro del lote, ver por ejemplo Quarshie y Shindo (1996).
Informacin aapriori
Informacion priori
Tanto para aplicar la distribucion Beta-Binomial como para estimar el parametro r , ver (9.8), es
necesario especificar los hiperparametros de la distribucion beta(, ). Para estimar r basicamente
se ha propuesto obtener la variacion de las proporciones en m muestras previas y compararla con la
variacion bajo el modelo binomial, de la siguiente manera
i=1 (p i
p)
m 1
r= m1
(9.9)
p(1 p)/n
donde p i es la proporcion de defectuosos en la muestra i, y
p es la proporcion de defectuosas obtenidas
en las m muestras, ver Calvin(1984) y Heimann(1996). De acuerdo a lo anterior, para obtener los
valores de y , veamos que (9.7) y (9.8) son dos ecuaciones simultaneas que tienen como incognitas
a y . Resolviendo estas ecuaciones se obtiene que
nr nr
= p(
) y = (1 p) ( )
r1 r1
donde el valor de p se puede estimar con p.
En el caso mas realista en el que no se disponga de las m muestras iniciales. Entonces para deter-
minar y , y con ello r, se puede utilizar el procedimiento descrito en el captulo 3 para especificar
la a priori para el modelo binomial.
Efecto de
Efecto deno
noconsiderar
considerarla la
variacin de pde p
variacion
En este apartado se vera un ejemplo, del tipo de efecto que tiene no considerar la variacion en p. Se
hara a traves de la obtencion de una curva caracterstica de operacion (CO) de un plan de muestreo de
aceptacion (ver Gutierrez-Pulido y de la Vara Salazar, 2009, Cap. 14). Si las caractersticas de calidad
son variables de atributos del tipo pasa no-pasa, entonces un plan simple de MA del tipo (N , n, c),
esta definido por un tamano de lote N, un tamano de muestra n, y el numero de aceptacion c. Por
ejemplo el plan N = 6000, n = 200 y c = 2; significa que de un lote de 6000 unidades se seleccionan
e inspeccionan 200; y si el numero de artculos defectuosos en la muestra y es menor o igual que c
(y c), entonces el lote es aceptado. Pero si y > c el lote es rechazado. Si se tiene un escenario donde se
quiere un plan para atributos del tipo (N , n, c), con (n/N) < 0,10, y p permanece constante, entonces
estamos bajo el caso del muestreo de aceptacion tradicional donde la probabilidad de aceptacion (Pa )
de un lote esta dada por el modelo binomial (9.1):
c
Pa = f (yp). (9.10)
y=0
c
Pa = f (y). (9.11)
y=0
Ejemplo 9.1 Suponer un plan con N = 3500, n = 200, c = 3. Para calcular la CO para el muestreo de
aceptacion tradicional simplemente se aplica (9.10) utilizando algun software computacional apropiado.
En el caso Bayesiano, suponer que para un valor dado de p, este puede variar hasta en un 0,5p. Con
este criterio se obtienen el intervalo [L p , U p ] para cada p en la curva CO, y con (3.7) y (3.8) se obtienen
y . En la Figura 9.1 se muestra las curvas CO para el muestreo tradicional que no incluye variacion
en p, y para el Bayesiano que s lo considera. Como se aprecia el MA tradicional subestima la proba-
bilidad de aceptar el lote conforme se incrementa p. Por ejemplo para valores de p cercanos a 0,032,
las probabilidades de aceptar son 0,118 y 0,174, para los casos tradicional y Bayesiano, respectivamente.
Por lo tanto, si hay variaciones de p, entonces si se aplica un plan tradicional del tipo (N , n, c), se es-
tara dejando pasar peores niveles de calidad de los que muestra la correspondiente curva CO. Por ello
en estos casos, sera mejor cuantificar la variacion de p con una distribucion a priori y disenar el plan de
muestreo Bayesiano con base en (9.11).
e m (m)x
f (y) = con > 0 y y = 0, 1, 2, . . .
y!
En forma tradicional el parametro es estimado con el usual estimador insesgado:
Funcin de utilidad k k
u = y i / m i (9.12)
i=1 i=1
donde m i es el tamano del conjunto (subgrupo) del cual y i fue obtenido. Los tradicionales lmites de
control 3-sigma para la carta u estan dados por
u 3 u/m i (9.13)
Un primer problema con estos lmites es que no se incorpora de ninguna manera el numero de ob-
servaciones con base en las que se calculo u. Es decir, no se incorpora la incertidumbre sobre la
estimacion de , y se procede igual si u se obtuvo con k = 5 subgrupos que si se hizo con k = 500.
De ah que la recomendacion tradicional de tener por lo menos 20 subgrupos durante el PB se vuelva
crtica, ya que de esa manera se trata de tener un buen.estimador puntual para . Sin embargo, en
los ambientes actuales de manufactura y en los procesos lentos, es cada da mas difcil cumplir con
tal recomendacion.
9. C a rta s d e c o n t ro l b ay e s i a na s pa r a at r i b u to s 169
Figura 9.1
Curvas CO para MA tradicional y bayesiano para el plan n = 200 y c = 3
Ademas la idea de los lmites de control 3-sigma se basa en el hecho que bajo normalidad y es-
tabilidad, la probabilidad de que los datos esten dentro de los lmites de control es de 0,9973. Sin
embargo en el caso de los datos de atributos las distribuciones son sesgadas, y en consecuencia los
correspondientes lmites de control no reunen tales requerimientos, ver Gutierrez-Pulido y Camacho-
Castillo(1998) y Hamada (2002).
Por otro lado, algunos autores, ver por ejemplo Irony y Pereira (1994), han reportado que es fre-
cuente que el modelo Poisson tenga un pobre ajuste para este tipo de datos. Ademas al considera que
el parametro permanece constante, no se considera la variacion de corto plazo. Pero como ya se
vio en la seccion anterior, es frecuente que los procesos tengan variaciones de corto plazo aun para
procesos con una razonable estabilidad.
Por lo anterior estamos ante el campo propicio de aplicar un modelo Bayesiano para cartas de
control. En el caso particular de las cartas u y c, se supone sigue una distribucion a priori gama(, )
y por lo tanto la probabilidad de encontrar y defectos en una unidad de inspeccion de tamano m, lo
da la distribucion marginal (a priori) predictiva, que esta dada por:
(y + ) m y
f (y) = f (y)()d = ( ) . (9.14)
0 ()(m + ) y y! m +
Esta distribucion se conoce en la literatura Bayesiana como Poisson-gama. Para valores enteros del
hiperparametro , esta distribucion se reduce a una distribucion binomial negativa(, m(m + )1 ),
que algunos autores la han propuesto como un modelo alternativo para datos de atributos, ver por
ejemplo Sheaffer y Leavenworth (1976), y Irony y Pereira (1994). As el modelo (9.14) esta tomando
en cuenta tanto la posible variacion de que en forma natural se da en el proceso (a traves de la
distribucion a priori), como la variacion debida al muestreo (a traves de la verosimilitud).
Un aspecto clave en un contexto Bayesiano es evitar el PB, ya que si se tiene un conocimiento ge-
nuino sobre el proceso, se puede obtener una distribucion a priori para , y con esta se puede obtener
(9.14) para que desde la primera observacion del proceso se tenga una carta de control. Incluso en el
caso que no se conozca nada y la distribucion a priori sea poco informativa, con relativamente pocas
observaciones se tendra una buena carta Bayesiana u (ver Hamada, 2002). En el captulo 3 se describe
un procedimiento para determinar los hiperparametros de la distribucion a priori gama(, ) para
un modelo Poisson. Parte de que el experto en el proceso de un intervalo [L , U ] donde se espe-
ra que este . Aspecto que es razonable suponer, debido a que representa el numero promedio de
defectos por pieza o artculo.
Suponer que se ha obtenido del proceso k 1 observaciones: u 1 , ..., u k1 ; con u i = y i /m i . Es facil
ver que dados Y = (y 1 , ..., y k1 ), M = (m 1 , ..., m k1 ), s = k1
i=1 y i y m s = i=1 m i la distribucion
k1
(m s + )s+ (m s +) s+1
(Y , M) = e . (9.15)
(s + )
Que corresponde a una densidad gama(s + , m s + ), ver Bernardo y Smith (1994). A partir de
aqu se obtiene la correspondiente distribucion posterior predictiva para la siguiente observacion en
terminos de y:
9.2. CARTAS BAYESIANAS U Y C 159
9. C a rta s d e c o n t ro l b ay e s i a na s pa r a at r i b u to s 171
f (y k Y) = f (y k )(Y)d
0
(y k + + s) + ms
y s+
mk k
= ( ) ( ) (9.16)
( + s) (y k )! + m s + m k + ms + m k
m k es el tamano de subgrupo para y k . Por lo tanto los lmite de control inferior (LCI) y superior (LCS)
para una carta Bayesiana en terminos de y estan dados por
+k1 (y k + + s)
s+ yk
1
f (y k Y) = ( ) ( ) . (9.19)
+k ( + s) (y k )! + k
Los lmites de control para la carta c, se obtienen con los cuantiles /2 y 1 /2 de esta distribucion.
Si se aplica la carta u tradicional es necesario esperar los 24 lotes para estimar u, de acuerdo a (9.12),
u = 1,046. Y los lmites de control se obtienen de acuerdo a (9.13). En la Figura 9.2a se muestra la
correspondiente carta de control u. De donde se aprecia que en los lotes 10 y 21 ocurrieron hechos
especiales en el proceso. Pero esto lo sabemos hasta despues de producido el lote 24, por lo que es
demasiado tarde para actuar.
Para poder obtener la carta Bayesiana u, y obtener lmites secuenciales. Lo primero que necesi-
tamos es especificar los parametros de la distribucion a priori para . Si suponemos que esta entre
[0,5, 1,5], con una probabilidad aproximada de 0,95. De esta manera de acuerdo a (3.13) y (3.12), y
tomando z = 2, los parametros para la distribucion a priori gama son = 16 y = 16. En la Figura
9.2b se aprecia la correspondiente carta Bayesiana u. Para los lmites de control se usa la significancia
usual ( = 0,0027) y se van obteniendo de manera secuencial de acuerdo a (9.18).
Contrastando la carta u tradicional (Figura 2a) con la carta Bayesiana u (figura 2b), se puede
apreciar lo siguiente. Con la carta Bayesiana desde la primera observacion se tenan lmites de control:
con base en la distribucion a priori se esperaba que u 1 estuviera entre 0,2 y 2,2. Estos lmites son
los mas amplios comparados con los lmites de la carta u tradicional. Una vez obtenida la primera
observacion, los lmites para la segunda observacion en la Figura 9.2b, practicamente se parecen a los
lmites de la carta u tradicional. Los lmites de la carta Bayesiana son exactos y no del tipo tres sigma.
La carta Bayesiana detecto un punto adicional fuera del lmite de control superior (la observacion 15).
9.3. Cartas
9 . 3 C a rta Bayesianas
s b ay e s i a na s p y np p y np
En la carta de control p se lleva la proporcion p i = y i /n i de artculos defectuosos por subgrupo de
tamano n i . En forma tradicional los lmites de la carta se calculan bajo el supuesto de distribucion
binomial. Los lmites 3-sigma para esta carta estan dados por
p(1 p)
p3 (9.20)
ni
donde p es la estimador insesgado de p
i=1 y i
k
p=
i=1 n i
k
9. C a rta s d e c o n t ro l b ay e s i a na s pa r a at r i b u to s 173
Figura 9.2
Cartas de control para datos de tabla 9.1
( + ) 1
(pY) = p (1 p) 1 (9.21)
( )( )
que corresponde a una distribucion beta( = + s, = + n s s), con s = k1 i=1 n i p i y
n s = k1
i=1 n i . La distribucion posterior predictiva es de la forma beta-binomial y esta dada por:
n k ( + )( + n k y k )
f (y k Y) = ( ) . (9.22)
y k ( )( )( + + n k )
De esta manera los lmites de control para la carta Bayesiana p estan dados por
9.4.
9 . 4 P r e gPreguntas
u n ta s y e j e rc iy
c i Ejercicios
os
1. Cuales son los principales problemas que tienen las cartas de control tradicionales y como es
que la estadstica Bayesiana los corrige?
2. Por que es importante considerar en un modelo para el control de procesos la variacion debida
al muestreo y la variacion debida al proceso?
3. En una empresa se registra el numero de quejas por mal servicio. Los datos de las ultimas 25
semanas se muestran enseguida (el orden es por renglon):6 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7
8 9 0 1 2 3 4 5. Contestar lo siguiente.
7. En el caso del ejercicio anterior, se aplica un plan de mejora, y se toma varias acciones. Los
datos obtenidos en la semana posterior a las mejoras son:7 4 5 5 6 4 3 4 7 6 4 6 4 6 4 5
8 3 7 8.
a) Fijando los lmites ultimos que obtuvo en el ejercicio anterior, analice estos datos con la
carta Bayesiana p. Las mejoras dieron resultado? Argumente
b) Junte los datos del ejercicio anterior con los de este, y construya una carta Bayesiana p
con lmites secuenciales. Que observa de relevante comparando esta carta con la que
obtuvo en el inciso anterior?
c) Cual es la incertidumbre sobre el valor de p con una probabilidad de 99.7 %? Comparar
este valor con el obtenido en el b) del ejercicio anterior.
8. Analice los datos del ejercicio 9.6, pero ahora obteniendo una carta Bayesiana np. Interpretar.
A pndices
a. a xiomas pa r a l a e s ta d s t i c a b ay e s i a na
Apendice A
Una de las caractersticas claves de la estadstica Bayesiana es que no sale del marco de la probabi-
lidad y no recurre a conceptos auxiliares. De tal forma que se puede ver como un sistema formal para
hacer inferencias, basado en una serie de axiomas, que por su sencillez se pueden considerar validos.
Para estos axiomas se parte que se tiene un espacio medible (,@) y que para cualquiera dos eventos
A, B @ se puede decir si A es mas, menos o igual de verosmil (factible) que B. Esto lo escribimos
como A B, A B y A B, respectivamente. Con A B se indica que A no es mas verosmil que B A
continuacion vamos a establecer una serie de axiomas que la relacion de verosimilitud entre eventos
debe seguir.
Axioma 1. Para cualquiera dos eventos A, B @, solo una de las tres condiciones siguientes es
valida:
A B, A B o A B.
Axioma 2. Si A 1 , A 2 , B 1 , B 2 son cuatro eventos tales que A 1 A 2 = B 1 B 2 = y A i B i , i = 1, 2,
entonces
A 1 A 2 B 1 B 2 . Si A i B i para algun i, entonces A 1 A 2 B 1 B 2
La interpretacion de estos axiomas es clara y es creble para una persona coherente. Con los dos
axiomas se puede probar una serie de resultados que se enuncian sin demostracion.
Resultado 1. Sean A, B, D @, eventos tales que A D = B D = . Entonces, A B si y solo si,
A D B D
Resultado 2 (transitividad). Sean A, B, D @, eventos tales que A B y B D, entonces A D.
Resultado 3 (generalizacion del resultado 1). Si A i son n eventos disjuntos entre s, y B i tambien
n eventos disjuntos entre s; tales que se cumple A i B i para todo i, entonces
ni=1 A i ni=1 B i
[179]
165
166 APENDICE A. AXIOMAS PARA LA ESTADISTICA BAYESIANA
180 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
ni=1 A i ni=1 B i
..
Resultado 4. Para cualquiera dos eventos A, B, @, A B i si y solo si A B Donde A es el
complemento de A
Axioma 3. Si A @ es un evento cualquiera, entonces se cumple que A. Tambien se cumple
que .
Axioma 4. Si A 1 A 2 es una secuencia decreciente de eventos en @ y B @/ es un evento tal
que A i B para toda i, entonces
i=1 A i B.
El experimento auxiliar. Con los 4 axiomas aun no se puede definir una medida de probabilidad en
@. Por ejemplo, imaginemos dos eventos A y A, estos junto con y forman una - algebra, y al
establecer que, por ejemplo, A B, tendramos una relacion de verosimilitud acorde con los axiomas
anteriores. Sin embargo, hay una infinidad de medidas de probabilidad que concordaran con .
Esto se resuelve agregando una serie de eventos auxiliares (elementales, como por ejemplo un
circulo en una ruleta) que sean independientes de los eventos en @. Los eventos auxiliares deben ser
tales que para toda 0 p 1 exista un evento auxiliar C con probabilidad p. Entonces solo se necesita
encontrar es un tal C tal que A C, para encontrar la probabilidad de A. En otras palabras, se compara
la verosimilitud de los eventos en @ con los de los eventos auxiliares, de los cuales esta establecida su
probabilidad, y as se encuentra la probabilidad de cualquier evento.
Usando un poco de teora de la medida es muy facil establecer el ultimo axioma. Sea la medida
de Lebesgue y los conjuntos Borelianos en [1 , 0]
Axioma 5. Existen una variable aleatoria X en (, @) , con 0 X () 1, para todo , y tal que
para cualquier I 1 , I 2 , se cumple que { X I 1 } {X I 2 } si y solo si (I 1 ) (I 2 )
Con los 5 axiomas anteriores es posible crear una medida de probabilidad en @, y de esta manera
queda axiomatizada la estadstica Bayesiana.
b. P ro g r a m a s en s -p l us
Apendice B
Programas en S-PLus
[181]
167
168 APENDICE B. PROGRAMAS EN S-PLUS
182 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
ri
rs
#grafica de R con intervalos
plot(p, R(p,n,x),type=l,lty=1,xlab=p,ylab=R(px), lwd=1.5, sub=c) Intervalos de verosimilitud
para p)
segments(pg,0,pg,R(pg,n,x))
segments(ri[1],R(ri[1],n,x), rs[1],R(rs[1],n,x))
segments(ri[2],R(ri[2],n,x), rs[2],R(rs[2],n,x))
segments(ri[3],R(ri[3],n,x), rs[3],R(rs[3],n,x))
Programa 2 (verosimilitud exponencial con censura del ejemplo 2.3)
#Verosimilitud para modelo exponencial con censura por intervalo
L<-function(t){
return(exp(-280/t)*(1-exp(-5/t))37)} #estimador
tg<-optimize(L, c(0.1,11), maximum=T)
tg[[1]]
R<-function(t){return(L(t)/L(tg[[1]]))}
a<-seq(5,17,length=100)
fa<-R(a)
#Intervalos de verosimilitud
ri<-numeric(0)
rs<-numeric(0)
c<-c(0.05,0.15,0.25)
for (i in 1:3){
R1<-function(a){return(R(a)-c[i])}
inf<-uniroot(R1,c(0.1,tg[[1]]))
ri[i]<-inf[[1]]
sup<-uniroot(R1,c(tg[[1]],20))
rs[i]<-sup[[1]]}
ri #intervalos
rs
tg[[1]]
#grafica de R con intervalos
plot(a, fa, type=l,lty=1,xlab=Teta,ylab=R(tetax), lwd=1.5)
segments(tg[[1]],0,tg[[1]],R(tg[[1]]))
segments(ri[1],R(ri[1]), rs[1],R(rs[1]))
segments(ri[2],R(ri[2]), rs[2],R(rs[2]))
segments(ri[3],R(ri[3]), rs[3],R(rs[3]))
a<-function(z,l,u){return(((z2)*(2-l-u)*((l+u)2)-((l-u)2)*(l+u))/(2*(l-u)2))}
alpha<-a(z,Lp,Up)
b<-function(a,l,u){return(a*(2-l-u)/(l+u))}
beta<-b(alpha,Lp,Up)
intervalo<-c(qbeta(0.025,alpha+x,beta+n-x),qbeta(0.975,alpha+x,beta+n-x))
p<-seq(0.75*Lp,1.25*Up, length=100)
par(mfrow=c(2,2))
plot(p, R(p,x,n), type=l, lty=1, xlab=p, ylab=R (pX),sub=.a)Verosimilitud relativa)
abline(v=0.1149452)
abline(v=0.3085769)
plot(p, dbeta(p,alpha,beta), type=l, lty=1, xlab=p, ylab=Pi (p), sub=b)A priori)
abline(v=qbeta(0.025,alpha,beta))
abline(v=qbeta(0.975,alpha,beta))
plot(p,dbeta(p,alpha+x,beta+n-x),type=l,lty=1,xlab=p,ylab=Pi(pX), sub=c)Distribucion pos-
terior)
abline(v=qbeta(0.025,alpha+x,beta+n-x))
abline(v=qbeta(0.975,alpha+x,beta+n-x))
m<-100
# densidad pred. beta-binomial usando la funcion lgamma (log(gamma(y))=lgamma(y))
BB<-function(y,a,b,n){return(exp(lgamma(m+1)-lgamma(y+1)-lgamma(m-y+1)+
lgamma(a+b)+lgamma(a+y)+lgamma(b+m-y)-lgamma(a)-lgamma(b)-lgamma(a+b+m)))}
#Beta-binomial cuantil (corre hasta a cumular el cuantil
BBA<-function(sig,a,b,m){
bp<-0
for (j in 0:m){
if (BB(0,a,b,m)>=sig)
{return(0)
stop}
bp<-BB(j,a,b,m)+bp
if (bp<=sig) next
else {return(j-1)
stop}}}
liy<-BBA(0.025,alpha+x,beta+n-x, m)
lsy<-BBA(0.975,alpha+x,beta+n-x,m)
liy #intervalo para la predictiva
lsy
y<-seq(liy-5,lsy+5, by=1)
plot(y,BB(y,alpha+x,beta+n-x, n),type=p,xlab= ,sub=d)D. Predictiva,ylab=f(yX))
2
plot(mu,dt((mu-m)*sqrt(L),A),type=l,ylab=,xlab=m,font=8 )
title(sub=b) A priori,cex=1, font=1)
abline(v=qt(0.025,A)*(1/sqrt(L))+m)
abline(v=qt(0.975,A)*(1/sqrt(L))+m)
tau2<-seq(0.05,0.2,length=max3)
mu2<-seq(340,355,length=max3)
z<-matrix(0,max3,max3)
ng<-function(x,y,a,b,m,k){return(exp(log(b)*a+log(0.5*k/pi)*(0.5)+log(y)*(a-0.5)-0.5*k*y*(x-m)2-
b*y))}
for(i in 1:max3){ for(j in 1:max3) { z[i,j]<-ng(mu2[j],tau2[i],a,b,m,k)}}
persp(mu2,tau2,z,axes = T, box=T,xlab=m,ylab=t,font=8, lab=c(3,3,2))
title(sub=c)A priori,cex=1, font=1)
#Datos
x<-c(344.9,355.6,345.0,352.1,348.2,349.1,346.1,344.9,348.7,348.3,347.1,348.8,350.8,352.7,351.1,
341.4,350.6,346.0,352.3,344.1,349.7,348.6,345.9,350.8,348.7)
X<-mean(x)
sn<-var(x,SumSquares=T)
n<-length(x)
#parametros posteriores
ap<-a+n/2
bp<-b+sn/2+n*k*(X-m)*(X-m)*0.5/(k+n)
mp<-(n*X+k*m)/(k+n)
kp<-k+n
prep<-ap*kp/bp
#verosimilitud
z<-matrix(0,max3,max3)
R<-function(t,m, m2, s2){return((0.5*n*(log(t)-log(2*pi))-0.5*n*t*(m-m2)2-0.5*s2*t))}
for(i in 1:max3){ for(j in 1:max3) {z[i,j]<-exp(R(tau2[i],mu2[j], X, sn))/exp(R(n/sn,X, X, sn))}}
persp(mu2,tau2,z,axes = T, box=T,xlab=m,ylab=t,font=8, lab=c(3,3,2))
title(sub=d)Ver. rel.,cex=1, font=1)
plot(tau,dgamma(tau,ap,bp),type=l,ylab=, xlab=t,font=8)
title(sub=.e)Posterior,cex=1, font=1)
abline(v=qgamma(0.025,ap,bp))
abline(v=qgamma(0.975,ap,bp))
plot(mu,dt((mu-mp)*sqrt(prep),2*ap),type=l,ylab=, xlab=m,font=8)
title(sub=f)posterior,cex=1, font=1)
abline(v=qt(0.025,2*ap)*(1/sqrt(prep))+mp)
abline(v=qt(0.975,2*ap)*(1/sqrt(prep))+mp)
z<-matrix(0,max3,max3)
for(i in 1:max3){ for(j in 1:max3){ z[i,j]<-ng(mu2[j],tau2[i],ap,bp,mp,kp)}}
persp(mu2,tau2,z,axes = T, box=T,xlab=m,ylab=t,font=8, lab=c(3,3,2))
title(sub=g)Posterior,cex=1, font=1)
#predictiva
y<-seq(340,360,length=max)
173
b. P ro g r a m a s en s -p l us 187
plot(y,dt((y-mp)*sqrt(prep*(1/(kp+1))),2*ap),type=l,ylab=, xlab= )
2
title(sub=h)Predictiva,cex=1, font=1)
abline(v=qt(0.025,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp)
abline(v=qt(0.975,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp)
qt(0.025,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp
qt(0.975,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp
w1<-(340-mp)*sqrt(prep*(1/(kp+1)))
w2<-(360-mp)*sqrt(prep*(1/(kp+1)))
pt(w2, 2*ap)-pt(w1, 2*ap)
Bibliografa
[1] Bayarri, M.J. y Garca-Donato, G. (2005). A Bayesian sequential look at u-control charts. Tech-
nometrics, 47, 2, 142-151.
[2] Berger, J.O. y Pericchi L.R. (1996). The intrinsic Bayes factor for model selection and prediction.
J. Amer. Statist. Assoc. 91, 109-121.
[3] Berger, J.O. (1985), Statistical Decision Theory and Bayesian Analysis 2nd ed. (New York:
Springer-Verlang).
[4] Bernardo, J.M. y Smith A.F.M.(1994), Bayesian Theory (Chichester:John. Wiley).
[5] Bernardo, J.M. (2000). Metodos Estadsticos Contemporaneos en la Investigacion Cientfica,
Departament dEstadstica i I.O.,
[6] Bernardo, J.M. (2003). Bayesian Estadistics in Encyclopedia of Life Support Systems (Proba-
bility and Statistics ed. R. Viertl), Oxford, U.K. ONESCO.
[7] Besag, J. y Green, P. J. (1993). Spatial statistics and Bayesian computation(with discussion),
Journal of the Royal Statistical Society B, vol. 55, pp. 25-37 (discussion, pp. 53-102).
[8] Blischke, W.R. y Murthy, D.N.P., Editores (1996). Product Warranty Handbook. Marcel.Dekker:
New York
[9] Blischke (1996). The basic free replacement warranty and related rebate warranties. In Product
Warranty Handbook, ed. por. Blischke, W.R. y Murthy, D.N.P. Marcel.Dekker: New York, pp.
265-291.
[10] Box, J.E. y Tiao, C.G. (1973). Bayesian Inference Statistical Analysis. Wiley, New York.
[11] Calvin, T.W. (1984). How and When to Perform Bayesian Acceptance Sampling. American Society
for Quality, Milwaukee, EU.
[12] DeGroot, M.H. (1970). Optimal Statistical Decisions. McGraw-Hill: New York.
[13] Doganaksoy, N., Hahn, G.J., y Meeker, W.Q. (2002). Reliability analysis by failure mode. Qua-
lity Progress, 35, 6, 47-52.
[14] Del Castillo, E., Grayson, J.M., Montgomery, D.C. y Runger, G.C. (1996). A review of statistical
process control techniques for short run manufacturing systems. Communications in Statistics-
Theory and Methods, 25 (11): 2723-2737.
[189]
175
176 BIBLIOGRAFIA
190 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
[15] DeGroot, M.H. (1970), Optimal Statistical Decisions (New York: McGraw-Hill).
[16] Duncan, A.J. (1994), Quality Control and Industrial Statistics, 5th ed. (New York: McGraw-Hill).
[17] Edwards, A.W.F. (1972). Likelihood, Cambridge University Press, Cambridge.
[18] Garthwaite P.H.y OHagan, A. (2000), Quantifying expert opinion: an experimental study, The
Statistician, 49(4), pp. 455-477.
[19] Gutierrez-Pena, E. y Walker, S.G. (2001). A Bayesian predictive approach to model selection.
J. of Statistical Planning and Inference, 93, 259-276.
[20] Gutierrez-Pulido, H. y Camacho-Castillo, O. (1996). Ineficiencia de la carta p para tamanos de
subgrupo grande: diagnostico y alternativas. Memorias del X Foro Nacional de Estadstica y del II
Congreso Iberoamericano de Estadstica; Asociacion Mexicana de Estadstica e INEGI, Mexico.
[21] Gutierrez-Pulido, H., Camacho-Castillo, O. (1998). Modificacion de las Cartas de Atributos (p,
np, c y u) para Mejorar su Aproximacion a la Significancia Bajo Normalidad. Agrociencia, 32 (4),
385-394.
[22] Gutierrez-Pulido, H. y de la Vara-Salazar, R. (2004). Control Estadstico de Calidad y Seis Sigma.
Mcgraw-Hill: Mexico.
[23] Gutierrez-Pulido, H. (2005a). Calidad Total y Productividad, segunda edicion. Mcgraw-Hill:
Mexico.
[24] Gutierrez-Pulido, H., Aguirre-Torres, V. y Christen, A. (2005b), A practical method for ob-
taining prior distributions in reliability, IEEE Transactions on Reliability, 54(2), pp. 262- 269.
[25] Gutierrez-Pulido, H. y Aguirre-Torres, V. (2006a). A Method of Moments Procedure for Elici-
ting Prior Distributions. Reporte Tecnico DE-C05.8, Departamento de Estadstica, ITAM, Mexi-
co.
[26] Gutierrez Pulido, H., Aguirre-Torres, V, And Christen A. (2006b). A Bayesian Approach for the
Determination of Warranty Length. Journal of Quality Technology, 38 (2): 180-189.
[27] Gutierrez-Pulido, H., Aguirre-Torres, V. y Christen, A. (2006c), Contrasting reliability models
using prior information. Technical report DE-C06.1, Statistics Department, ITAM, Mexico. 24
pages.
[28] Gutierrez Pulido, H. (2006d). Cartas de control Bayesianas para atributos y el tamano de sub-
grupo grande en la carta p. Revista Colombiana de Estadstica, vol. 29, No.2, pp. pp. 163-18.
[29] Gutierrez Pulido, H., Aguirre-Torres, V, And Christen A. (2006e). Una Metodologa para Deter-
minar el Perodo de Garanta para un Producto. Memoria del XX Foro Nacional de Estadstica,
Mexico.
[30] Hamada, M. (2002). Bayesian tolerance interval control limits for attributes. Quality and Relia-
bility Engineering International, 18 (1), pp. 45-52.
[31] Heimann, P.A. (1996). Atributes control charts with large sample sizes. Journal of Quality Tech-
nology, 28, 4, pp. 451-459.
[32] Hoeting, J.A., Madigan, D., Raftery, A.E. y Volinsky, C.T. (1999). Bayesian model averaging: a
tutorial. Statistical Science, 14, 382-417.
BIBLIOGRAFIA 177
b. B ibliografa 191
[33] Ibrahim, J.G., Chen, M-H., y Sinha, D. (2001). Bayesian Survival Analysis. Springer-Verlag: New
York.
[34] Irony, T. y Pereira, C. (1994). Motivation for the use of discrete distribution in quality assurance.
Test, 3, 181-193.
[35] Kadane, J.B., Dickey, J.M., Winkler, R.L., Smith, W.S. y Peters, S.C. (1980), Interactive elicitation
of opinion for a normal linear model, Journal of the American Statistical Association, 75, pp. 845-
854.
[36] Kadane J.B.y Wolfson L.J. (1998), Experiences in elicitation, The Statistician, 47, pp. 3-19.
[37] Kass, R.E. y Raftery, A. E. (1995). Bayes factor. J. Amer. Statist. Assoc. 90, 773-795.
[38] Kelley, C.A. (1996). Warranty and consumer behavior: product choice In Product Warranty
Handbook, ed. por. Blischke, W.R. y Murthy, D.N.P. Marcel.Dekker: New York, pp. 409-419.
[39] Lawless, J.F. (1982).Statistical Models and Methods for Lifetime Data. New York: Wiley.
[40] Meeker, W.Q. and Escobar, E. (1998). Statistical Methods for Reliability Data. New York: Wiley.
[41] Menezes, M.A.J. y Currim, I.S. (1992). An approach for determination of warranty lenght. In-
tern. J. of Research in Marketing, 9, 177-195.
[42] Menzefricke, U. (1992). On the variance of total warranty claims. Commun. Statist.-Theory
Meth. 21 (3), 779-790.
[43] Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., y Teller, E. (1953). Equation
of state calculations by fast computing machines. Journal of Chemical Physics, vol. 21, pp. 1087-
1092.
[44] OConnor, P.D.T. (1985). Practical Reliability Engineering (Second Edition). Wiley: New York.
[45] OHagan, A. (1998) Eliciting expert belief s in substantial practical applications, The Statisti-
cian, 47, pp. 21-35.
[46] Patankar, J.G. y Mitra, A. (1996). Warranty and consumer behavior: warranty execution In
Product Warranty Handbook, ed. por. Blischke, W.R. y Murthy, D.N.P. Marcel.Dekker: New York,
pp. 421-438.
[47] Pena-Reya, I., Perez-Farinosa, N., Cortes-Garca, M. y Amela-Herasa, C. (2004). Coste-
efectividad de la vacunacion contra la varicela en adolescentes en Espana, Gaceta Sanitara,
18(4), pp.287-294.
[48] Percy, D.F. (2002) Bayesian enhanced strategic decision making for reliability,. European Jour-
nal of Operational Research, 139, pp. 133-145.
[49] Perez J.M. y Berger, J.O. Expected-posterior prior distributions for model selection, Biometri-
ka, vol. 89, pp. 491-511, 2002.
[50] Proschan, F. (1963). Theoretical explanation of observed failure rate. Technometrics, 5, 375-383.
[51] Quarshie, B.L.; Shindo, H. (1996). A Comparison of operating characteristics of the p-V and the
p-Rp charts. Quality Engineering, Vol. 9, No. 2, pp. 221-228.
[52] Robert, C.P. y Casella, G. (1999). Monte Carlo Statistical Methods. Springer: New York.
178 BIBLIOGRAFIA
192 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
[53] Sheaffer, R.E. y Leavenworth, R. (1976). The negative binomial model for counts in units of
varying size. Journal of Quality Technology, 8, 158-163.
[54] Sinha, D., Chen, M-H. y Ghosh, S.K. (1999). Bayesian analysis and model selection for interval-
censored survival data. Biometrics, 55, 585-590.
[55] Singpurwalla, N.D. (1988) An interactive pc-based procedure for reliability assessment incor-
porating expert opinion and survival data, Journal of the American Statistical Association, 83,
pp. 43-51.
[56] Singpurwalla; N.D.y Wilson, S.P. (1998). Failure models indexed by two scales. Adv. Appl. Prob.,
30, 1058-1072.
[57] Sprott, D. A.(2002). Statistical Inference in Science, Springer Verlag, New York.
[58] Suzuki, K. (1985a). Estimation method of lifetime based on the record of failure during the
warranty period. Journal of the American Statistical Association, 80, 66-72.
[59] Tsiamyrtzis, P. y Hawkins, D.M. (2005). A Bayesian scheme to detect changes in the mean of a
short-run process. Technometrics 47 (4), pp. 446-456.
[60] Winkler, R.L. (1981) Combining probability distributions from dependent information sources,
Management Science, 27 (5), pp. 479-488.
[61] Wilson, A.G. (1994). Cognitive factors affecting subgective probability assessment. Discussion
Paper 94-02, Institute of Statistics and Decisions Sciences, Duke University.
[62] Wolfson, L.J. (1995). Elicitation of priors and utilities for Bayesian analysis. Tesis Doctoral,
Departamento de Estadstica, Carnegie Mellon University: Pittsburgh.
U n i v e r s i da d de G ua da l a ja r a
Diseo de la portada:
Avelino Sordo Vilchis
Composicin tipogrfica:
Dr. Alfonso Hernndez Magdaleno
Cuidado del texto:
Humberto Gutirrez Pulido/
Porfirio Gutirrez Gonzlez
View publication stats