2013 Bayesiana

See
discussions, stats, and author profiles for this publication at: https://www.researchgate.net/publication/275893178
Fundamentos y Aplicaciones de la estadstica

Bayesiana
Book January 2013
CITATIONS READS
0 686
2 authors:
Humberto Gutirrez Pulido Porfirio Gutirrez Gonzlez

University of Guadalajara University of Guadalajara
66 PUBLICATIONS 633 CITATIONS 9 PUBLICATIONS 27 CITATIONS
SEE PROFILE SEE PROFILE
Some of the authors of this publication are also working on these related projects:
ENLACE View project
DOS DCADAS EN EL DESARROLLO DE JALISCO 1990-2010 View project
All content following this page was uploaded by Humberto Gutirrez Pulido on 05 May 2015.
The user has requested enhancement of the downloaded file.

H u m b e rto G u t i r r e z p u l i d o
P orfirio G utirrez G onzlez
U n i v e r s i da d de G ua da l a ja r a
2013
ndice
P r e fac i o 11
1. G e n e r a l i da d e s d e l a e s ta d s t i c a B ay e s i a na 13
1.1 I n t ro d u c c i n 13
1.2 T eorema de B ay e s 17
1.3 D istribuciones a priori y posterior 19
1.4 D istribucin p r e d i c t i va 21
1.5 E squema de decisiones 23
1.6 P r e g u n ta s y e j e rc i c i o s 25
2. m to d o s b a s a d o s e n v e ro s i m i l i t u d 27
2.1 v e ro s i m i l i t u d pa r a m o d e lo s d i s c r e to s 28
2.2 v e ro s i m i l i t u d pa r a m o d e lo s c o n t i n u o s 33
2.3 v e ro s i m i l i t u d pa r a dato s c e n s u r a d o s 35
2.4 P ro p i e da d e s d e l a v e ro s i m i l i t u d 40
2.5 V e ro s i m i l i t u d c o n d o s o m s pa r m e t ro s 43
2.6 V e ro s i m i l i t u d perfil 48
2.7 S core, i n f o r m ac i n y a p rox i m ac i n n o r m a l 50
2.8 V e ro s i m i l i t u d pa r a o t ro s m o d e lo s 55
[7]
3. E s p e c i f i c ac i n de distribuciones a priori 63
3.1 M to d o pa r a d i s t r i b u c i o n e s c o n u n pa r m e t ro 65
3.2 A p r i o r i pa r a e l M o d e lo N o r m a l 70
3.3 M to d o d e m o m e n to s pa r a d i s t r i b u c i o n e s c o n d o s pa r m e t ro s 73
3.4 D istribuciones a p r i o r i n o i n f o r m at i va s 76
4. I nferencia pa r a lo s m o d e lo s m s u s ua l e s 81
4.1 M o d e lo binomial 81
4.2 M o d e lo p o i s s o n 85
4.3 M o d e lo Exponencial 88
4.4 M o d e lo Normal 94
5. E s t i m ac i n y p ru e b a d e h i p t e s i s 105
5.1 E s t i m ac i n 105
5.2 E s t i m ac i n p o r i n t e rva lo s d e p ro b a b i l i da d 112
5.3 P ru e b a (contraste) de hiptesis 114
5.4 F ac to r de B ay e s 116
6. A p rox i m ac i o n e s numricas 121

6.1 M to d o s bsicos 121
6.2 M uestreo-remuestreo r e l e va n t e 124
6.3 S i m u l ac i n mcmc 126
7. E s p e c i f i c ac i n d e m o d e lo s 135
7.1 I n t ro d u c c i n 135
7.2 P ro b a b i l i da d p o s t e r i o r pa r a u n m o d e lo 136
8. E squema d e d e c i s i n b ay e s i a na 147
8.1 T oma d e d e c i s i o n e s ( f u n c i n d e u t i l i da d ) 147
8.2 E leccin de tiempos de garanta 151
8.3 E j e m p lo : t i e m p o d e g a r a n t a pa r a a m o rt i g ua d o r e s 157
9. C a rta s d e c o n t ro l b ay e s i a na s pa r a at r i b u to s 163
9.1 I n t ro d u c c i n 163
9.2 C a rta s b ay e s i a na s u y c 168
9.3 C a rta s b ay e s i a na s p y np 172
A pndices 177
a . a x i o m a s pa r a l a e s ta d s t i c a b ay e s i a na 179
b . P ro g r a m a s e n s - p lu s 181
B Ibliografa 189
[9]
P r e fac i o
Las innovaciones crecientes en la ciencia y la tcnica, y la necesidad de mejorar los niveles

de productividad y competitividad en las empresas y organizaciones de todo el mundo,
hace que cada da se requieran ms y mejores metodologas estadsticas, que no slo ayu-
den a entender (modelar) la variabilidad sino que sean la base para tomar decisiones p-
timas bajo incertidumbre. En este contexto, se ha demostrado que en algunos problemas
especficos, los mtodos de la estadstica Bayesiana tienen ventajas sobre otros mtodos
identificadas con la estadstica tradicional. Apesar de lo anterior, an falta mucho por hacer
para que ms estadsticos y no expertos en estadstica conozcan las bondades de la estads-
tica Bayesiana, y de esa manera se obtener mayor provecho.
El objetivo del presente trabajo es mostrar los aspectos bsicos de la inferencia es-
tadstica Bayesiana, junto con algunos de los resultados de investigacin de los autores.
De esta manera en el primer captulo se presentan los aspectos generales de la estadstica
Bayesiana. En el segundo se detallan los mtodos estadsticos basados en la funcin de ve-
rosimilitud, que es el vnculo entre la estadstica clsica y la Bayesiana. En el tercer captulo
se aborda el problema de especificar las distribuciones a priori, y se muestra un mtodo
propuesto por lo autores para resolver este problema clsico de la inferencia Bayesiana. En
el captulo cuarto se ven detalles de la inferencia Bayesiana y se dan los detalles relativos a
los modelos ms usuales en la prctica. En el captulo quinto se aborda el tema de estima-
cin y prueba de hiptesis. Muchos de los mtodos de la estadstica Bayesiana requieren
mtodos numricos, por ello en el captulo sexto se aborda los aspectos principales de los
mtodos numricos de mayor uso en la estadstica Bayesiana. El captulo sptimo se dedica
a abordar la forma que se resuelve el problema de especificar los modelos, y se discute un
mtodo propuesto por los autores. En el octavo captulo se ven los aspectos principales de
los esquemas de decisin Bayesiana, y se ilustra mediante un mtodo propuesto por los
[11]
12 F u n da m e n to s y a p l i c ac i o n e s d e l a e s ta d s t i c a B ay e s i a na
autores para resolver el problema de determinar el tiempo de garanta de un producto.

Por ltimo en el captulo noveno se tratan las cartas de control Bayesianas a partir de una
propuesta de los autores.
En el apndice se han agregado algunos programas hechos en los software S-Plus y R
que ayudan a aplicar algunos de los mtodos vistos a lo largo del libro.
1 . G e n e r a l i da d e s d e l a
e s ta d s t i c a B ay e s i a na
Captulo 1
Generalidades de la Estadstica
Bayesiana
En este captulo se tratan los principales conceptos de la estadstica Bayesiana, que permi-
tiran en el resto de los captulos centrarnos en problemas o aplicaciones especiales de la
estadstica Bayesiana.
1.1.I n t ro
1.1 Introduccion
duccin
En la actualidad hay abundantes datos, cifras, informacion y conocimiento sobre diferentes

situaciones. Por ello hay una mayor exigencia para que esa informacion se utilice de forma
efectiva y as fundamentar mejor las acciones y decisiones que se toman. Pero a pesar de
cifras y datos, siempre existe la incertidumbre sobre acontecimientos futuros. Por ello es
importante sacar provecho a la informacion disponible y, cuando se requiera, obtener nueva
informacion para as asegurar una mejor comprension del presente y visualizar el futuro.
Esto es particularmente valido en el campo de la ciencia y la tecnica.
Lo anterior sirve de contexto para decir que la estadstica es la ciencia del estudio de
la incertidumbre, es la ciencia del estudio de la variabilidad. Mas formalmente se puede
decir que la estadstica es la ciencia de recolectar, organizar, presentar, analizar e interpretar
datos, tomando en cuenta la variabilidad, con el proposito de hacer inferencias y ayudar a
una toma de decisiones mas efectiva.
Se reconocen dos paradigmas principales de la estadstica, el tradicional y el Bayesiano.
El primero se basa en las distribuciones muestrales de los estadsticos, y buena parte de los
metodos estadsticos que se presentan en los libros basicos de estadstica estan basados en
este paradigma. Por su parte la estadstica Bayesiana proporciona un sistema consistente
[13]
1
2 CAPITULO 1. GENERALIDADES DE LA ESTADISTICA BAYESIANA
tanto para realizar inferencias estadsticas como para tomar decisiones bajo incertidumbre.
La estadstica Bayesiana puede ser derivada de un sistema axiomatico para la eleccion de
eventos (ver apendice), no se sale del marco de la probabilidad y proporciona una metodo-
loga coherente que permite incorporar formalmente informacion inicial (a priori).
El paradigma Bayesiano se basa en una interpretacion de la probabilidad como una
medida condicional de incertidumbre, que esta estrechamente relacionada con la interpre-
tacion de la palabra probabilidad del lenguaje ordinario. De esta manera probabilidad es
una medida de lo que se sabe a cerca de un evento y siempre es contextual (es decir esta con-
dicionada). Comprueba que tan verosmil es dicho suceso y en un sentido amplo es una
medida de lo que sabemos acerca del mismo. En general Probabilidad es un termino utili-
zado en la vida diaria, que nos ayuda a crear una idea sobre la posibilidad que suceda un
determinado suceso bajo un contexto de incertidumbre. Antes de continuar veamos, otras
interpretaciones de la probabilidad.
Tanto la estadstica tradicional como la Bayesiana dependen del concepto de probabi-
lidad. Desde el punto de vista matematico propiamente dicho no hay discrepancia, ya que
si es un experimento aleatorio con espacio muestral , una distribucion de probabilidad
P() es una funcion real definida para todos los eventos medibles contenidos en , y que
satisface los axiomas de Kolmogorov o leyes de la probabilidad:
1. P(A) 0, para todo A ,
2. P() = 1,
3. Para cualquier secuencia de eventos disjuntos A 1 , A 2 , . . . contenidos en , se cumple
que P(A 1 A 2 ) = P(A 1 ) + P(A 2 ) +
Probabilidad clasica. Esta se define por una regla del tipo m entre k, y parte del hecho
que = {E 1 , E 2 , . . . , E k } tiene k resultados que son juzgados como igualmente proba-
bles y cuando un evento A consiste de m de estos k resultados, entonces P(A) = mk . Es
claro, que muchas de las aplicaciones practicas, la repeticion de experimentos varias veces
bajo identicas condiciones es imposible, por lo que inevitablemente en esas circunstancias
aparece una carga subjetiva en cuanto a la probabilidad de un resultado.
Probabilidad frecuentista. Se define como la proporcion de veces que ocurre un even-
to en una larga cantidad de replicas de un experimento aleatorio. La probabilidad clasica
objetiva se puede ver como un ejemplo de la probabilidad frecuentista.
Probabilidad subjetiva. Esto mide la incertidumbre que tiene un individuo sobre la ocu-
rrencia de un evento, y puede variar de un individuo a otro. Esta forma de entender la pro-
babilidad (subjetiva dado que es contextual y condiciona a lo que se sabe) es parte del origen
del debate entre los metodos estadsticos tradicionales y la estadstica Bayesiana.
El que la metodologa Bayesiana unicamente requiera las matematicas de una teora
general de la probabilidad perfectamente justificada, y el concepto de probabilidad que co-
1.1. INTRODUCCION 3
rresponde al uso convencional de esa palabra en el lenguaje cotidiano; son muy importan-
tes: por una parte, los metodos Bayesianos reducen los problemas de inferencia estadsti-
ca a problemas de la teora de la probabilidad, lo que hace esencialmente innecesaria la
introduccion de nuevos conceptos. Por otra parte, la metodologa Bayesiana proporciona
una justificacion logica a muchos de los procedimientos estadsticos convencionales co-
mo aproximaciones adecuadas (especialmente en el caso de grandes muestras), al hacer
explcitas las condiciones que resultan necesarias para garantizar su validez (ver Bernardo,
2000). En el apendice se presenta axiomas para la verosimilitud entre eventos que permiten
fundamentar la estadstica Bayesiana.
En los ultimos treinta anos han aparecido cada vez mas metodologas Bayesianas que
resuelven problemas complejos que son intratables con las metodologas tradicionales (ver
Bernardo, 2003). En decadas pasadas las polemicas entre estadsticos que defendan su para-
digma (Bayesiano vs. tradicional) fueron intensas, pero con el paso del tiempo se ha dismi-
nuido la intensidad de esos debates y cada vez son mas los estadsticos que se han acercado
a conocer los metodo Bayesianos y aplicarlos en sus investigaciones. Aqu no se va a pole-
mizar, y solo se presentaran los aspectos principales del paradigma Bayesiano y algunos de
sus metodos.
En la figura 1.1 se muestra un esquema general sobre el paradigma Bayesiano ya sea para
modelar la realidad o para tomar una decision. Donde se parte de dos posibles objetivos:
caracterizar (modelar) la realidad y/o tomar una decision. A partir de esto se establece lo
que se sabe antes de obtener datos y se incorpora formalmente a traves de una distribucion
de probabilidad a priori, al aplicar algun metodo apropiado (ver captulo 3). Si se considera
necesario para cumplir el objetivo sera necesario recabar nuevos datos (muestras). La in-
formacion contenida en los datos sobre los parametros de interes se sintetiza a traves de la
funcion de verosimilitud. El teorema de Bayes establece como debe integrarse el conoci-
miento inicial y la evidencia aportada por los datos, para obtener el modelo de la realidad
o distribucion de probabilidad posterior .
Como se representa en la figura 1.1, la integracion del conocimiento de la realidad con
las decisiones que se quieren tomar, se hace a traves de una funcion de decision, que tambien
se conoce como funcion de utilidad o perdida. La decision optima es aquella que maximi-
za la utilidad espera o minimiza la perdida esperada. Como se vera a lo largo del libro, en
muchas aplicaciones de la estadstica existen muchos problemas de decision que requie-
ren esquemas optimos de decision como el que propone la estadstica Bayesiana, pero que
sin embargo el uso de ciertos metodos estadsticos tradicionales realmente no resuelven el
problema de decision, y al final de cuentas el usuario de la estadstica tiene que tomar una
decision sin la estimacion adecuada entre consecuencias y estado de la realidad. En el resto
del presente captulo se establecen los conceptos principales que se derivan del esquema de
la figura 1.1.
Tambien la figura 1.1 nos sirve para comentar que siempre que se quiere obtener datos
en un contexto de incertidumbre, ya sea en un analisis cientfico y/o un problema real, el
Figura 1.1
Esquema general del paradigma bayesiano
Figura 1.1: Esquema general del paradigma Bayesiano.

1.2. TEOREMA DE BAYES 5
primer reto es clarificar el objetivo que se persigue y las interrogantes que se desee respon-
der, para que todas las actividades esten bien enfocadas. Una vez obtenidos los datos o en
caso que ya se tengan, una regla de oro es analizar en forma descriptiva los mismos, para
detectar patrones, tendencias, relaciones entre variables, etcetera. Por lo que un analisis Ba-
yesiano formal debe ser antecedido de un analisis descriptivo, y para ello se debe aplicar las
tecnicas graficas y analticas apropiadas de la estadstica.
1.2.T e o rTeorema
1.2
de Bayes
e m a d e B ay e s
La version general del teorema de Bayes1 , que se puede encontrar en muchos libros de
probabilidad y estadstica, establece lo siguiente.
Teorema 1.1 Suponer que E 1 , E 2 , . . . , E k constituyen una particion finita del espacio muestral
, tal que P(E i ) > 0 para i = 1, . . . , k; y sea B cualquier evento tal que P(B) > 0. Entonces
para todo E i se cumple que
P(BE i )P(E i )
P(E i B) = (1.1)
j=1
k
P(BE j )P(E j )
Demostracion. Por la definicion de probabilidad condicional se tiene que
P(B E i )
P(E i B) =
P(B)
y P(B E i ) = P(BE i )P(E i ). Por lo que el teorema se demuestra si se ve que P(B) es igual
al denominador de la parte derecha de (1.1). Para ello veamos que dada la particion se tiene
que B = j (BE j ), y como los E j son disjuntos (al formar una particion), entonces (BE j )
tambien son disjuntos, por lo tanto
P(B) = P( j (B E j ))
k
= P(B E j )
j=1
k
= P(BE j )P(E j )
j=1
1 En
1763 la Royal Society dio a conocer el trabajo An essay towards solving a problem in the doctrine of
changes, el trabajo comunicado por R. Price fue atribuido a Tomas Bayes (1701-1761), clerigo y matematico ingles
que haba muerto dos anos antes. Bayes solo demostro su teorema para una distribucion a priori uniforme, y
Laplace en 1774, sin conocer el trabajo de Bayes, genero la forma general discreta del teorema de Bayes.
con lo que queda demostrado el teorema.

Este teorema presenta una forma sencilla de calcular la probabilidad condicional de
cada evento A i dado B, a partir de probabilidades condicionales de B dado cada uno de los
eventos A i y la probabilidad no condicional de B. Las aplicaciones tpicas que se muestran
en los libros basicos de probabilidad de este teorema se ilustran con el siguiente ejemplo.
Ejemplo 1.1 Identificacion del origen de un artculo defectuoso. Un lote grande de artculos
fue fabricado por tres lneas de produccion, A 1 , A 2 y A 3 ; en porcentajes del 25 %, 20 % y 55 %,
respectivamente. Se sabe que el porcentaje de artculos defectuosos con la que produce las lneas
A 1 , A 2 y A 3 es del 1 %, 1.5 % y 2 %, respectivamente. Suponer que se selecciona al azar del lote
un artculo y se encuentra que es defectuoso, cual es la probabilidad que se haya producido
en la lnea A 1 ?
Sea A i el evento de que el artculo seleccionado haya sido fabricado por la lnea A i
(i = 1, 2, 3), y sea B el evento de que el artculo seleccionado sea defectuoso. Por lo que
interesa calcular P(A 1 B). Claro que P(A 1 ) = 0 25, P(A 2 ) = 0 20 y P(A 3 ) = 0 55. Ademas
la probabilidad P(BA i ) de que un artculo producido por la lnea A i sea defectuoso es:
P(BA 1 ) = 0 01, P(BA 2 ) = 0 015 y P(BA 3 ) = 0 02. Luego al aplicar el teorema de Bayes
de (1.1):
P(BA 1 )P(A 1 )
P(A 1 B) =
P(BA j )P(A j )
j=1
3
0 01 0 25
=
0 01 0 25 + 0 015 0 20 + 0 02 0 55
= 0 151 52
que es una probabilidad mas baja que P(A 1 ). Se deja como ejercicio al lector verificar que
P(A 2 B) = 0 18182 y P(A 3 B) = 0 667. Como se puede apreciar esta ultima probabilidad es
mas grande que la probabilidad inicial de P(A 3 ), por lo que el resultado del experimento
ha modificado esa percepcion inicial.
Probabilidades inicial y final. En el ejemplo las P(A i ) se les denomina probabilidades
iniciales o a priori, debido a que esa es la probabilidad del correspondiente evento antes de
que se haya seleccionado el artculo (antes del experimento aleatorio) y antes que se sepa
que el artculo fue defectuoso. Una probabilidad como P(A 1 B) se denomina probabilidad
final o a posteriori de que el artculo seleccionado haya sido fabricado por la lnea A 1 , de-
bido a que es la probabilidad de este evento despues de saber que el artculo seleccionado
resulto defectuoso.
En muchas aplicaciones es de utilidad aplicar el teorema de Bayes para construir arbo-
les de decisiones. Por ejemplo en Pena-Reya et al. (2004) se presenta una aplicacion del
1.3. DISTRIBUCIONES A PRIORI Y POSTERIOR 7
teorema de Bayes para decidir esquemas de vacunacion con base en un estudio de costos y
efectividad de una vacuna.
Una forma de enfatizar la idea de probabilidades iniciales y finales, es con la siguiente
version del teorema de Bayes.
Teorema 1.2 Si H denota una hipotesis y X los datos, entonces el teorema de Bayes, en su
forma mas simple, establece que
P (XH) P(H)
P (HX) = (1.2)
P (X)
donde P(H) es una afirmacion probabilstica de certidumbre acerca de H antes de obtener
los datos X, y P (HX) se convierte en una afirmacion probabilstica de creencia acerca de
H despues de haber obtenido los datos. En otras palabras el teorema de Bayes proporciona
una solucion al problema de que tanto se aprende de los datos. La demostracion del teorema
es directa de la definicion de probabilidad condicional.
Con estas dos versiones del teorema de Bayes, en donde se fundamenta la inferencia
Bayesiana, vale la pena comentar que quienes critican algunos aspectos de la estadstica
Bayesiana, no rechazan estos teoremas, puesto que estos teoremas se sustentan en la teora
matematica de la probabilidad. Mas bien el tema de discusion en la forma de asignar y
entender la probabilidad misma, sobre todo en lo relativo a establecer P(H). Por cierto
si H es una variable aleatoria, entonces aparece el concepto de distribuciones a priori y
posterior, que se veran enseguida.
1.3. Distribuciones a priori y posterior

1.3 D istribuciones a priori y posterior
Los resultados experimentales u observacionales generalmente consisten de datos de la
forma general X = {x 1 , . . . , x n }, donde x i son observaciones un tanto homogeneas (posi-
blemente multidimensionales). Los metodos estadsticos se usan tpicamente para derivar
conclusiones tanto sobre la naturaleza del proceso que ha producido esas observaciones co-
mo del comportamiento esperado de casos futuros del mismo proceso. Un elemento central
de cualquier analisis estadstico es la especificacion de un modelo de probabilidad f (x)
que se supone describe el mecanismo que ha generado los datos observados X, como una
funcion de un parametro , posiblemente multidimensional, y sobre cuyo valor solo se
tiene informacion limitada2 .
2 El modelo probabilstico. Los teoremas de representacion de la teora de la probabilidad permiten garantizar
que si los datos X = {x 1 , ..., x n } estan efectivamente constituidos por un conjunto de observaciones homogeneas
x i , entonces existe un modelo, f (xw) que describe la relacion probabilstica entre los datos obtenidos y la natu-
raleza del proceso, descrita por un parametro o estado de la naturaleza w, de forma que X constituye una muestra
aleatoria de tal modelo, y que existe ademas una distribucion de probabilidad P(w) sobre los posibles estados de
la naturaleza que describe la informacion de que inicialmente se dispone sobre la naturaleza del proceso.
Para hacer la inferencia estadstica con apoyo de la teora de probabilidades y por lo

tanto requerir menos conceptos auxiliares, es necesario que las incertidumbres iniciales
(conocimiento inicial) se representan traves de una distribucion de probabilidad. As el
conocimiento que se tiene sobre los valores de es necesario que se de a traves de una
distribucion a priori o inicial denotada por (). Notese que en fuerte contraste con la
estadstica convencional, los parametros son tratados como variables aleatorias. Donde se
reconoce que los parametros son cantidades desconocidas, tpicamente constantes, por lo
que () se convierte en una descripcion de la incertidumbre acerca de los valores de . Es a
traves de () como el investigador incorpora formalmente el conocimiento o informacion
inicial que tiene antes de tomar datos. El conocimiento puede ser sobre los valores de o
bien sobre la variable X pero que se debe trasladar de alguna forma en conocimiento sobre
(ver captulo 3).
En general () depende a su vez de otros parametros, que se les denomina hiper-
parametros h i , y que sera necesario especificar de acuerdo al conocimiento inicial que se
tenga, por ello en ocasiones para enfatizar este hecho, la distribucion a priori se podra de-
notar con (h i ). De hecho especificar adecuadamente los hiperparametros es una de las
problematicas importantes en estadstica Bayesiana, y ha dado lugar muchas propuestas e
investigaciones para resolver ese problema. Esto se aborda en el captulo 3.
Observado los datos X las inferencias respecto a se basan en la distribucion a posteriori
o posterior (X), la cual es obtenida por el teorema de Bayes.
Teorema 1.3 La distribucion posterior ( X) es la distribucion condicional de dados los
datos X, y esta dada por
P(X ) ()
( X) = (1.3)
P(X ) ()d
donde es el espacio parametrico de , y P(X) es la verosimilitud (ver captulo 2), que
es la probabilidad de haber obtenido los datos X si el valor dado de hubiese sido el verda-
dero estado de la naturaleza. De esta manera la verosimilitud P(X) puede verse como la
distribucion conjunta condicional de X dado . En caso de que sea una variable aleatoria
discreta, simplemente la integral del denominador de (1.3) se sustituye por la sumatoria sobre
todos los posibles valores de .
Demostracion. Es facil demostrar la expresion (1.3), ya que si X = (x 1 , . . . , x n ) es una
muestra aleatoria de tamano n de f (x); entonces la verosimilitud P(X) es la distribu-
cion conjunta condicional de X para un valor dado de . De esta manera la distribucion
conjunta de (, X) esta dada por
(, X)=P(X)()
por lo que la distribucion marginal de X, esta dada por
f (X)= P(X)()d (1.4)

1.4. DISTRIBUCION PREDICTIVA 9
luego la distribucion condicional de dado los datos X esta dada por
(, X) P(X)()
(X)= = .
f (X) P(X)()d
Al obtener la integral del denominador de (1.3) se obtiene una constante que no depende
de , por lo que ( X) es proporcional a la verosimilitud multiplicada por la distribucion
a priori:
( X) L(X ) () (1.5)
Como se ve posteriormente, este hecho en muchos casos, facilita los calculos y hara in-
necesario obtener la integral del denominador de (1.3), cosa que por lo general es compli-
cado. Por esto el denominador de (1.3) recibe el nombre de constante normalizadora de
( X). Otro nombre que recibe f (X) es el de verosimilitud integrada.
De (1.5) es claro que las inferencias respecto a estan basados en ( X), y que esta es
resultado de la contribucion de los datos a traves de la verosimilitud P(X ) y del aporte
de la informacion o conocimiento a priori dado por ().
Para variables aleatorias discretas el teorema de Bayes, toma la forma siguiente:
P(X i ) ( i )
( i X) = (1.6)
P(X j )P( j )
j
1.4.D i s tDistribucion
1.4
Predictiva
r i b u c i n p r e d i c t i va
En muchas aplicaciones, despues del muestreo, en lugar de hacer inferencias sobre , es

de interes hacer inferencias sobre un valor futuro de la variable X. En este sentido, si se
supone que x, con distribucion f (x ), representa un valor futuro de la variable aleatoria
X. Para simplificar notacion al hacer referencia al vector de parametros en esta seccion,
se hara referencia a su estado despues del muestreo, es decir, a (X).
Teorema 1.4 Bajo el supuesto de que hay independencia entre los datos, X, y la observacion
futura, x, la distribucion posterior predictiva esta dada por
f (x X) = f (x)(X)d (1.7)

Demostracion. Para demostrar esta igualdad, suponer que x y X son independientes, cosa
que se cumple en muchas aplicaciones, por lo tanto
f (x, X) = f (x) f (X) (1.8)

Por otro lado, por definicion de distribuciones condicionales se cumple que

f (x, X, )
f (xX,)=
f (X, )
f (x, X)() f (x, X)
= =
f (X)() f (X)
al aplicar la igualdad dada por la ecuacion (1.8) al numerador de esta ultima expresion, se
obtiene que
f (x) f (X)
f (xX,)=
f (X)
= f (x) (1.9)
La distribucion de (x, X) se puede ver como la distribucion marginal con respecto a de

(x, X,), es decir
f (x, X)= f (x, X,)d

de aqu y de la definicion de distribucion condicional se tiene que
1
f (xX)= f (x, X)
f (X)
1
= f (x, X,)d
f (X)
f (xX,) f (X,)
= d
f (X)
(X) f (X)
= f (xX,) d
f (X)
= f (xX,)(X)d

De aqu y de la igualdad (1.9), se obtiene la expresion (1.7), que era lo que se quera demos-
trar.
Observar que en realidad la distribucion posterior predictiva f (xX) es el valor espe-
rado de f (x) respecto a X, es decir
E X [ f (x)] = f (x)(X)d

= f (xX)
1.5. ESQUEMA DE DECISIONES 11
En muchas aplicaciones (X) no tiene una forma analtica, tampoco f (X) y me-
nos f (xX). Esto genera una gran cantidad de literatura que plantean diferentes metodos
numericos para encontrar por simulacion de estas distribuciones, ver captulo 6.
Para algunas aplicaciones es necesario conocer la densidad a priori predictiva, f (x), que
de acuerdo al teorema anterior, esta dada por
f (x) = f (x)()d (1.10)

y representa lo que se sabe sobre la variable aleatoria X antes del muestreo, ya que en la
integral se utiliza la distribucion a priori ()
1.5.
1 . 5 E s q uEsquema
e m a d e d e c i de
s i o nDecisiones
es
Como se bosquejo en la figura 1.1 por lo general el objetivo ultimo de un analisis estadsti-
co es tomar una decision, como por ejemplo fijar un tiempo de garanta (ver captulo 8 y
Gutierrez et al. 2006), rechazar o aceptar un lote de produccion con base en un esquema
optimo de decision, establecer polticas de mantenimiento preventivo, decidir esquemas de
vacunacion con base en un estudio de costos y efectividad de una vacuna (ver Pena-Reya
et al. 2004). Obviamente es deseable que estas decisiones esten fundamentadas en un buen
conocimiento sobre la realidad y las consideraciones adecuadas en terminos de costos y
consecuencias de la decision.
A continuacion se vera brevemente los elementos esenciales de un esquema coherente
de toma de decisiones de tipo cuantitativo. Los elementos de una decision en el contexto
de inferencia son:
i) a A, las posibles respuestas o decisiones.
ii) , estados desconocido de la realidad.
iii) u A R, una funcion de decision que vincula la utilidad o ganancia de cada

(a, ), es decir, que evalua las consecuencias de una respuesta a y una situacion
resultante de la realidad
iv) P(), una especificacion, en la forma de una distribucion de probabilidad, de los

conocimientos actuales acerca de los posibles estados de la realidad.
La eleccion optima de la respuesta para un problema de inferencia es aquella a A que

maximiza la utilidad esperada,
u (a) = u(a, )p()d (1.11)

Alternativamente, si en lugar de trabajar con u(a, ), se trabaja con la llamada funcion

de perdida
l(a, ) = h() u(a, ),

donde h() es una funcion fija arbitraria, la eleccion optima de la respuesta es aquella a A
que minimiza la perdida esperada,
l (a) = l(a, )p()d (1.12)

En el contexto de inferencia parametrica o predictiva, el estado desconocido de la reali-

dad son parametros o valores futuros de una variable (observables). Por lo tanto, las creen-
cias actuales, p(), se reducen a alguna de las densidades de probabilidad que se han visto
antes:
Densidades Tipo de conocimiento

() inicial sobre un vector de parametros,
(X) acerca de , dados los datos X
( X) acerca de una funcion de , = g(), dados los datos X
f (xX) sobre un valor futuro x, dados los datos X
En diferentes partes del libro se tratan funciones de decision. En particular en el captulo

8 el tema se aborda con mas detalle.
1.6. Preguntas y Ejercicios

1.6 P r e g u n ta s y e j e rc i c i o s
1. En que consistio la aportacion de Tomas Bayes?
2. Cuales son los axiomas de Kolmogorov o leyes de la probabilidad?
3. Como se entiende la probabilidad en la estadstica Bayesiana?
4. En estadstica Bayesiana como se incorpora el conocimiento inicial o a priori que

tiene el experto?, por que se incorpora precisamente de esa manera?
5. Explicar por que se dice que el teorema de Bayes proporciona una solucion al pro-
blema de que tanto se aprende de los datos.
6. En el ejemplo 1.1, verificar que P(A 2 B) = 0 18182 y P(A 3 B) = 0 667
7. Explicar lo que representa las distribuciones predictivas (a priori y posterior) f (x) y

f (xX).
1.6. PREGUNTAS Y EJERCICIOS 13
8. Cuales son los elementos de un esquema de decision en el contexto Bayesiano?

Senalar el significado de cada elemento.
9. Leer los axiomas para la verosimilitud entre eventos del apendice, como sirve esto
de fundamento para la estadstica Bayesiana? Explicar.
10. En cierta planta de montaje, tres maquinas, B1 , B2 y B3 montan 30 %, 45 % y 25 % de
los productos, respectivamente. Se sabe de la experiencia pasada que 2 %, 3 % y 2 %
de los productos ensamblados por cada maquina respectivamente, tienen defectos.
Ahora suponer que se selecciona de forma aleatoria un producto determinado y se
encuentra que es defectuoso, Cual es la probabilidad de que este ensamblado por la
maquina B3 ?
11. Los resultados falsos positivos ocurren cuando una prueba reporta en forma falsa
o incorrecta un resultado positivo. Por ejemplo, una prueba medica para una en-
fermedad puede reportar un resultado positivo que indica que el paciente tiene una
enfermedad aunque que el paciente en realidad no tiene la enfermedad. Se puede uti-
lizar el teorema de Bayes para determinar la probabilidad que un resultado positivo
sea en realidad un falso positivo. En general si una enfermedad es rara (se presenta
en pocos pacientes), entonces la mayora de resultados positivos pueden ser positivos
falsos, aunque la prueba sea muy exacta. Suponer que una prueba para una enferme-
dad genera los resultados siguientes: si un paciente evaluado tiene la enfermedad, la
prueba genera un resultado positivo el 99 % de las veces (o con la probabilidad 0.99);
en cambio si un paciente evaluado no tiene la enfermedad, la prueba vuelve un re-
sultado negativo el 95 % de las veces (o con la probabilidad 0.95). Suponer tambien
que solamente el 0.3 % de la poblacion tiene esa enfermedad, de modo que un pa-
ciente aleatoriamente seleccionado tiene 0.003 de probabilidad a priori de tener la
enfermedad. Se puede utilizar el teorema de Bayes para calcular la probabilidad de
que un resultado positivo de la prueba positivo sea en realidad un falso positivo. Sea
A la condicion en la cual el paciente tiene la enfermedad, y B representa la evidencia
de un resultado positivo de la prueba.
a) Obtener P(AB) e interpretar su significado.

b) Al parecer la confiabilidad de la prueba es baja, Como incrementar la confia-
bilidad de los resultados?
c) Obtener P(Ano B) e interpretar su significado.
2. m to d o s b a s a d o s e n v e ro s i m i l i t u d
Captulo 2
Metodos Basados en
Verosimilitud
En este captulo se ven los aspectos generales de los metodos estadsticos basados en la fun-
cion de verosimilitud. Que juega un papel central en la estadstica Bayesiana y en muchos
metodos estadsticos tradicionales.
Como se senalo en el captulo anterior el paradigma Bayesiano esta basado en espe-
cificar un modelo de probabilidad f (x ) para los datos observados, X; dado un vec-
tor de parametros de valor desconocido. El teorema de Bayes establece que (X)
P (X) (), donde P (X) es la probabilidad condicional de haber obtenido los datos X
si el valor dado de hubiese sido el verdadero estado de la naturaleza.
Una vez tomados los datos, se desea usarlos para determinar cuales de los posibles valo-
res del parametro son mas admisible (plausibles). Sobre el particular es reconocido que la
funcion de verosimilitud proporciona toda la informacion sobre contenida en los datos,
cuando la forma funcional supuesta para f es verdadera, ver Sprott(2000) y Edwards(1972).
Por ello es util saber que tan verosmil son los diferentes valores de dados los datos, y es-
to lo proporciona la funcion de verosimilitud que es una funcion de y es proporcional a
P (X), es decir
L (X) = c P (X) (2.1)

donde c es una constante positiva que no depende de . As, L (X) como funcion de
proporciona un orden de preferencia o plausibilidad entre los posibles valores de , con
base en los datos observados X. Este orden de preferencia de los valores de se establece
por la probabilidad que estos valores dan a lo observado (ver Sprott, 2000). As cuando
P (X= ) > P (X= ), entonces los datos observados X hacen mas admisible a =
que a = , y de (2.1) es claro que L ( X) > L ( X).
[27]
15
16 CAPITULO 2. METODOS BASADOS EN VEROSIMILITUD
La razon de verosimilitudes L ( X) /L ( X) es una medida de la plausibilidad de

relativa a con base en los datos observados X.
El valor de que maximiza L(X) recibe el nombre de estimador de maxima vero-
similitud (emv) y es denotado por . Este es uno de los metodos de estimacion mas fre-
cuentemente utilizados en los metodos estadsticos convencionales. Pero como se va a ver
enseguida, limitarse a saber cual es el valor mas verosmil de dados los datos, es en muchos
sentidos desperdiciar informacion.
2.1.v e roVerosimilitud
2.1 s i m i l i t u d pa r a m o para Modelos
d e lo s d i s c r e to s Discretos
En el caso de una variable aleatoria discreta, como la P (X = x i ) lo da la funcion de pro-
babilidad, P (X = x i ) = f (x i ), entonces dados los datos X = {x 1 , . . . , x m } y los x i
independientes entre s, entonces la funcion de verosimilitud estara dada por
L (X) = P (x 1 , . . . , x m )
= f (x 1 ) f (x 2 ) f (x m ) (2.2)
= i=1 f (x i )
m
(2.3)
Modelo binomial
Modelo Binomial
Es frecuente encontrar experimentos aleatorios con solo dos resultados, uno llamado exito y
el otro fracaso. Por ejemplo, un artculo cumple con especificaciones o no, un artculo resiste
cierta fuerza o no, una lampara esta buena o no. Un experimento aleatorio que consiste
de m ensayos repetidos tales que los ensayos son independientes, cada ensayo tiene solo
dos resultados, denominados exito y fracaso, y la probabilidad de exito en cada ensayo,
denota por p, permanece constante. Entonces este tipo de experimentos recibe el nombre
de experimento binomial. La variable aleatoria X que es igual al numero de ensayos donde
el resultado es un exito, tiene una distribucion binomial(n, p). As, dado p, la probabilidad
de obtener x exitos en n ensayos, esta dada por
n!
f (xp) = p x (1 p) con x = 0, 1, 2, . . . , n
nx
(2.4)
x! (n x)!
Ejemplo 2.1 Una universidad quiere tener informacion sobre la proporcion de estudiantes
que son fumadores habituales. Para ello se toma una muestra aleatoria de 100 estudiantes, y
resulta que 20 de ellos se catalogan como fumadores. Es razonable suponer un modelo binomial
para el numero de fumadores, por lo que de acuerdo a (2.4) la verosimilitud para p esta dada
2.1. VEROSIMILITUD PARA MODELOS DISCRETOS 17
2. M to d o s b a s a d o s e n v e ro s i m i l i t u d 29
por
n!
L (pX) = p x (1 p)
nx
x! (n x)!
p x (1 p) n = 100, x = 20
nx
, (2.5)
Notese que en la expresion final para L (px) se ha eliminado n!/ [x! (n x)!], ya que es
una constante que afecta por igual a todos los valores de L (px). Esta practica de eliminar
las constantes de la funcion de verosimilitud es muy socorrida para facilitar los calculos
numericos. As es posible evaluar L(px) para un rango amplio de valores de p, en la figura
2.1a se muestra la grafica de (2.5) dados los datos del ejemplo (x = 20, y n = 100). De
esta grafica es claro que de acuerdo a los datos, los valores mas verosmiles (plausibles,
preferibles, admisibles) de p estan entre 0 13 y 0 27 aproximadamente. Mas adelante se
vera con detalle esta idea de los intervalos.
Los calculos y graficas para este ejemplo se han hecho con el programa 1 que se muestra
en el apendice 1. El programa se ha hecho en el sistema computacional S-Plus.
Estimador de maxima verosimilitud. Para obtener el valor de p que maximiza L(px), es
practica comun, por las facilidades que ello implica, obtener de forma equivalente el valor
p que maximiza la transformacion a logaritmos log(L(px)), de esta manera al derivar
log(L(px)) respecto a p :
d d
[log(L(px))] = [x log(p) + (n x) log(1 p)]
dp dp
x (n x)
=
p (1 p)
al igualar a cero esta expresion y despejar a p se obtiene el emv
p = x/n. Que para el ejemplo
de los fumadores es p = 0 20.
Funcion de verosimilitud relativa. Un problema que se tiene cuando se trabaja con la
funcion de verosimilitud es que por lo general sus valores son pequenos (ver eje y en la
figura 2.1a) y dependen de n y x. Una forma de evitar esto es estandarizar la verosimilitud
respecto al maximo. Esto da origen a la funcion de verosimilitud relativa que de manera
general se define como:
L (X)
R (X) = (2.6)
L (X)
donde es el emv. Es claro que L(X) es una constante, por lo que R(X) tiene exacta-
mente la misma forma que L(X), con la unica diferencia que R(X) toma valores entre
0 y 1 0 R(X) 1.
En el caso binomial la verosimilitud relativa toma la siguiente forma
p x (1 p)
nx
R(px) = (2.7)
( n ) (1 ( nx ))nx
x x
Figura 2.1
Funcin de verosimilitud para modelo binomial, ejemplo fumadores
Figura 2.1: Funcion de verosimilitud para el modelo binomial, ejemplo fumadores.

2.1. VEROSIMILITUD PARA MODELOS DISCRETOS 19
En la figura 2.1b se muestra la grafica de R(px) para el caso de la proporcion de fuma-

dores. Notese que las graficas de L(px) y R(px) son similares, la unica diferencias es que
R(px) va de 0 a 1.
Intervalos (Regiones) de Verosimilitud Confianza

Intervalos (regiones) de verosimilitud confianza
Mas que comparar la verosimilitud relativa de dos valores especficos de , como se comen-
to antes, es mas interesante especificar los rangos de mayor plausibilidad. Esto se logra al
obtener intervalos de verosimilitud o en forma mas general regiones de verosimilitud. A un
nivel c la region de verosimilitud para esta dada por
R (X) c, para 0 c 1
Cuando es un escalar la region sera un intervalo si R (X) es unimodal, o posible-

mente la union de intervalos disjuntos cuando R (X) es multimodal. Cada valor de
dentro de la region tiene una verosimilitud relativa mayor o igual que c, y cada valor de
fuera de la region tiene una verosimilitud relativa menor que c. De esta manera, la region
separa los valores admisibles de de los que no son admisibles a un nivel c.
Cuando es un escalar, los intervalos o union de intervalos, se obtienen al trazar una
lnea horizontal en la grafica de R(), c del eje . Al variar c de 0 a 1 se generan intervalos
anidados que convergen al estimador de maxima verosimilitud conforme c 1. Cuando
se obtienen intervalos de verosimilitud es importante proporcionar informacion sobre el
comportamiento de la verosimilitud dentro del intervalo, como por ejemplo ver la posicion
relativa al centro geometrico, ya que esto da informacion sobre el sesgo de la grafica de
R (X).
Algunos niveles usuales de c son c = 0 05, 0 15 y 0 25; que bajo el supuesto de dis-
tribucion normal, equivalen en forma aproximada a los intervalos de confianza a un nivel
de 99 %, 95 % y 90 % de confianza, respectivamente (ver Sprott 2000, cap. 2). En la figura
2.1c se muestran los intervalos de verosimilitud para la proporcion de estudiantes fumado-
res a un nivel c = 0 05, 0 15 y 0 25. Especficamente los intervalos son: [0 115, 0 309],
[0 130, 0 285] y [0 139, 0 272], respectivamente. As, dados los datos, los valores mas ve-
rosmiles para p estaran dentro de estos intervalos al nivel c correspondiente. Como el
estimador de maxima verosimilitud es 0 20, entonces se puede notar que estos intervalos
no son simetricos respecto a 0 20. Esto se debe a la asimetra de la grafica de R (px).
Para los estadsticos que trabajan con metodos estadsticos basados en verosimilitud,
que difieren en varios aspectos de los estadsticos tradicionales1 , el intervalo de verosimi-
1 En la estadstica tradicional lo que se calcula son intervalos de confianza. Por ejemplo para estimar una pro-
porcion p se utiliza usualmente la siguiente formula:

p (1
p)

p Z /2
n
litud no es una afirmacion sobre la certidumbre o confianza del intervalo, sino una afir-
macion sobre la plausibilidad relativa de los puntos individuales dentro del intervalo (ver
Sprott 2000, seccion 2.8).
Es interesante ver el efecto que tiene sobre la funcion de verosimilitud cuando se tiene
mas informacion. Por ejemplo en el caso de fumadores, si en lugar de obtener una muestra
de n = 100 estudiantes se hubiera obtenido el doble n = 200, y se haya obtenido la misma
proporcion muestral, es decir x = 40, entonces en la figura 2.1d se muestra la grafica de
R (px) y los intervalos con c = 0 05, 0 15 y 0 25. Especficamente los intervalos son:
[0 137, 0 275], [0 149, 0 259] y [0 156, 0 250]. Al comparar esta grafica y sus interva-
los con la figura 2.1b es claro que cuando se aumenta n la verosimilitud es mas estrecha
entorno al emv, y por lo tanto los intervalos de verosimilitud para p tambien son mas estre-
chos. En otras palabras, la verosimilitud registra claramente que hay mas informacion para
poder establecer afirmaciones mas precisas sobre los posibles valores de la proporcion de
fumadores.
Algo que quizas a algunos lectores les confunda o les extrane es el uso de las palabras
.admisibilidad y plausibilidadpara interpretar los intervalos de verosimilitud y para ex-
plicar cuando un valor de p es mas verosmil que otro. Esto en la practica se convierte en
un concepto auxiliar para comunicar afirmaciones sobre los posibles valores de p, y no es
una probabilidad por el hecho de que, entre otras razones, R(px) no es una distribucion
de probabilidad (aunque se parezca mucho). Un caso similar a este, en la estadstica tradi-
cional, son los intervalos de confianza, cuya interpretacion resulta un tanto extrana, por lo
menos para los usuarios de la estadstica (ver la anterior nota a pie de pagina).
En este sentido, una de las bondades de la estadstica Bayesiana es que las inferencias se
basan en la probabilidad, y en consecuencia no requiere de los conceptos auxiliares que se
utilizan en la estadstica tradicional o en verosimilitud, y que en muchas ocasiones compli-
can al usuario de la estadstica el entendimiento pleno de las metodologas. Por ejemplo, en
el caso Bayesiano como ya se vio en el captulo anterior, la incertidumbre sobre los valores
de p dados los datos x, estara dada por la distribucion posterior (px) que es proporcional
a R (px) (p). Donde la distribucion a priori (p) representa el conocimiento inicial que
se tiene sobre p. En el caso que no se conozca nada sobre p, se puede dar una distribucion
uniforme (p) = 1 para 0 p 1; y por tanto (px) sera proporcional a R(px). Solo
habra que estandarizar a R (px) para que sea una densidad y el area bajo su curva sea uno.
De esta manera los intervalos para p seran intervalos de probabilidad (ver captulo 4), y no
se requeriran conceptos auxiliares como plausibilidad o confianza.
Lo anterior sirve para decir, que al analizar la grafica de la funcion de verosimilitud
donde Z /2 es el percentil (1 /2) de la distribucion normal estandar. Por ejemplo a 95 % de confianza Z 0,05/2 =
1,96, y el intervalo para la proporcion de fumadores sera [0,122, 0,278]. Notese que este intervalo es simetrico
respecto a 0,20, debido a que esta basado en la aproximacion normal a la verosimilitud binomial (ver seccion 2.7).
Este intervalo se interpreta en la estadstica tradicional en forma frecuentista: con este procedimiento el 95 % de las
veces se atrapara la proporcion p con el intervalo obtenido. Cuando p pequena la verosimilitud es mas asimetrica,
y en consecuencia el procedimiento tradicional sera menos adecuado.
2.2. VEROSIMILITUD PARA MODELOS CONTINUOS 21
relativa, practicamente se esta en la antesala de la estadstica Bayesiana. Es por ello, que se

decidio escribir el presente captulo.
2.2.
v e roVerosimilitud
2.2 para
s i m i l i t u d pa r a m o d e lo s cModelos
o n t i n u o s Continuos
En el caso de variables aleatorias continuas es facil extender la forma de obtener la funcion

de verosimilitud, debido a que aunque en la naturaleza existen variables aleatorias conti-
nuas, los sistemas de medicion para medirlas tienen una precision finita, por lo que cuando
se observa una variable continua en realidad se tiene una coleccion discreta de eventos. Es-
pecficamente cuando X es una variable aleatoria continua y se dice que X = x 0 , en realidad
esto significa que x 0 21 X x 0 + 21 , donde es dado por la precision del sistema de
medicion (ver captulo 11 de Gutierrez-Pulido y de la Vara, 2004). As si la distribucion de
X esta dada por f (x), entonces
1 1
P [X = x 0 ] = P [x 0 X x 0 + ]
2 2
x 0 + 21
= f (x) dx (2.8)
x 0 21
Bajo las condiciones del teorema de valor medio para la integracion, existe un valor x entre
x 0 21 y x 0 + 21 , tal que la integral (area bajo la curva) es igual al ancho del intervalo
multiplicada por la altura de la curva en ese punto f (x ), es decir,
x 0 + 21
f (x)dx = f (x )
x=x 0 21
De aqu y de la definicion de verosimilitud dada en (2.1), se cumple que L(x 0 ) = f (x ).

Si ademas la densidad f (x) es aproximadamente constante dentro del intervalo [x 0 21 ,
x 0 + 21 ] para los diferentes posibles valores de (que por lo general se cumple si es
pequena), entonces f (x ) f (x 0 ). Si ademas no depende de , entonces
L(x 0 ) c f (x 0 ) (2.9)
donde c es una constante que no depende de . De esta manera si se tiene n observaciones
independientes de X, X = (x 1 , x 2 , . . . , x n ), entonces
L (X) = P [(x 1 , x 2 , . . . , x n ) ]
f (x 1 ) f (x 2 ) f (x n ) = i=1 f (x i )
n
(2.10)
Esta ultima expresion es la definicion tradicional de la funcion de verosimilitud que se

puede encontrar en los libros basicos de probabilidad y estadstica.
Lo que se ha dicho y el involucrar de la precision del sistema de medicion ayuda a supe-

rar la aparente contradiccion que se presenta cuando en los libros de probabilidad se dice
que si X es una variable aleatoria continua la probabilidad que tome un valor fijo, x 0 , es
cero, P (X = x 0 ) = 0, sin embargo cuando se muestrea sobre X se observan valores es-
pecficos. En otras palabras resulta que se observan cosas que en teora tenan probabilidad
cero de observarse. Lo que pasa es que la afirmacion de que P(X = x 0 ) = 0 para todo
x 0 , implica que se tiene un sistema de medicion con precision infinita (sin error de medi-
cion), cosa que no existe en la realidad. Por lo tanto lo correcto es decir que P[X = x 0 ] =
P[x 0 21 X x 0 + 21 ], lo que no necesariamente es cero.
Modelo Exponencial
Modelo exponencial
Un modelo que se aplica con frecuencia para describir tiempos de falla de productos es el
modelo exponencial, que esta dado por
1 x
f (x) = e ; > 0, x > 0. (2.11)

El parametro se interpreta como el tiempo medio de falla. Si se toma una muestra
aleatoria de X y se obtienen los siguientes datos X = (x 1 , x 2 , . . . , x n ), entonces de acuerdo
a (2.10) la verosimilitud esta dada por
L(X) = i=1 f (x i )
n
= n e
s
(2.12)
donde s = ni=1 x i . Al observar la expresion para la verosimilitud queda claro que el es-
tadstico minimal suficiente es precisamente s El logaritmo de L(X) esta dado por
s
log(L(X)) = n log() (2.13)

para encontrar el emv, se deriva esta expresion respecto a y se obtiene
d [log (L (X))] n s
= + 2
d
al igualar a cero, y despejar se obtiene que
=
s
(2.14)
n
es decir el emv para es la media. Luego la verosimilitud relativa para el modelo exponen-
cial esta dada por
s n s
R (X) = ( ) exp ( + n) . (2.15)
n
2.3. VEROSIMILITUD PARA DATOS CENSURADOS 23
Ejemplo 2.2 Los siguientes datos representan tiempos de falla del equipo de aire acondicio-
nado de un aeroplano (ver Prochan, 1963).
1, 3, 5, 7, 11, 11, 11, 12, 14, 14, 14, 16, 16, 20, 21, 23, 42,
47, 52, 62, 71, 71, 87, 90, 95, 120, 120, 225, 246, 261
Una buena practica al analizar datos es graficarlos. Por ejemplo en la figura 2.2a se
muestra un histograma para los tiempos de falla. De donde se aprecia la distribucion de
los tiempos de falla y parecen sugerir que efectivamente siguen una distribucion exponen-
cial. En el captulo 7 se veran pruebas formales Bayesianas para validar que efectivamente
estos datos siguen una distribucion exponencial. Por lo pronto, si se supone que estos da-
tos son descritos adecuadamente por un modelo exponencial, interesa utilizar los datos
para saber que informacion proporcionan sobre . En el ejemplo n = 30 y la suma de los
datos es s = 1788. En la figura 2.2b se muestra la grafica de R (X) junto con interva-
los de verosimilitud al nivel c = 0 05, 0 15 y 0 25. Los intervalos son: [39 37, 97 087],
[42 553, 86 957] y [44 643, 81 967], respectivamente. El emv es = 298 5
= 59 6. Si se to-
ma el ultimo intervalo se puede decir que dados los datos, los valores de mas verosmiles
estan en [44 643, 81 967] y el mas verosmil es = 59 6. Notese que lo que se ha dicho
no depende de ninguna aproximacion, algo que es frecuente en la estadstica tradicional.
Tambien se aprecia que la forma de la funcion de verosimilitud es ligeramente asimetrica.
2.3. Verosimilitud para Datos Censurados

2 . 3 v e ro s i m i l i t u d pa r a dato s c e n s u r a d o s
En varias areas de aplicacion de la estadstica los experimentos, para generar muestras de X,

son censurados. Dos areas donde frecuentemente hay datos censurados son confiabilidad y
analisis de sobrevivencia. Si se supone que se esta en el caso de problemas en confiabilidad,
la censura por la derecha surge generalmente cuando por razones de tiempo y costo un
experimento o prueba de confiabilidad no se puede seguir hasta que falle el producto, sino
que la prueba o experimento se suspende en un tiempo fijo q, de tal forma que si el tiempo
de falla ocurre antes que q entonces se puede observar el valor del tiempo de falla, sino solo
se sabra que el producto duro mas que q, es decir x i > q, y se dice que esa observacion fue
censurada por la derecha en el tiempo q. De esta manera, en este caso, y de acuerdo a (2.1),
la verosimilitud esta dada por
L (x i ) = P (x i > q)
= 1 F (q) (2.16)
donde F() es la distribucion acumulada de f (). Por ejemplo para el caso exponencial, al
integrar respecto a x la funcion (2.11), la distribucion acumulada esta dada por
F (x) = 1 e ; > 0, x > 0.

x
(2.17)
Figura 2.2
Histograma y verosimilitud para el problema de tiempos de falla
Figura 2.2: Histograma y verosimilitud para el problema de tiempos de falla.

En forma similar se dice que una observacion x i es censurada por la izquierda en q si

el valor exacto de la observacion no se conoce, y solo se sabe que es menor que q, es decir,
x i < q. Por ello en este caso, la verosimilitud estara dada por
L (x i ) = P (x i < q)
= F (q) . (2.18)
En suma para una variable aleatoria continua, de acuerdo a (2.10) la verosimilitud apor-
tada por los tiempos de falla observados se recoge a traves de f (x i ), mientras que para
la censura por la derecha con (2.16) y para la censura por la izquierda con (2.18).
Censura multiple tipo I. Una muestra con censura multiple tipo I surge cuando cada uno
de los especmenes 1, 2, . . . , n de un experimento de confiabilidad estan sujetos a perodos
lmite de observacion q 1 , q 2 , . . . , q n , de manera respectiva. De tal forma que los tiempos
individuales de falla x i , son observados solo si x i q i Cuando los tiempos de censura son
iguales, q 1 = q 2 = = q n = q, se habla de censura simple tipo I.
Si X = (x 1 , . . . , x n ) es una muestra aleatoria de f (x) donde se observan r fallas y n r
datos censurados (0 r n). Sea x(1) , . . . , x(r) los r valores no censurados ordenados en
forma creciente, y tambien se ordenan en forma ascendente los n r valores no observados,
x(r+1) , x(r+2) , . . . , x(n) , y que fueron censurados en los tiempos q(r+1) , q(r+2) , . . . , q(n) , de
manera correspondiente. De acuerdo a lo anterior, la verosimilitud estara dada por:
r n
L (X) = f (x(i) ) (1 F (q( j) )) . (2.19)
i=1 j=r+1
En caso que se tenga un censura simple: (q 1 = q 2 = = q n = q), entonces (2.19) toma

la siguiente forma
r
L (X) = f (x(i) ) [1 F (q)]
nr
. (2.20)
i=1
Censura tipo II. Esta es una censura por la derecha en el que el experimento corre has-
ta que una cierta cantidad fija, r, de unidades falla de entre n disponibles (r n). Sea
x(1) , . . . , x(r) estos r tiempos de falla ordenados en forma creciente, entonces el r-esimo
tiempo de falla x(r) sera la duracion del experimento y se convertira el tiempo de censura
por la derecha para los n r productos que no fallaron a ese tiempo. Es facil demostrar que
en este caso, ver Lawless(1982, pag. 32), la verosimilitud estara dada por:
r
L (X) = C [1 F (x(r) )] f (x(i) )
nr
(2.21)
i=1
donde la constante C = (nr)!

n!
. En los experimentos con censura tipo II, su duracion Te , es
una variable aleatoria y es igual a la r-esima estadstica de orden, Te = x(r) Notese que esta
verosimilitud es similar, excepto por la constante C, a la verosimilitud para censura simple

tipo I (expresion 2.20); al hacer en ambos casos Te = x(r) = q.
Censura aleatoria. En algunos estudios los tiempos de censura son aleatorios. Por ejem-
plo, si las unidades experimentales entran al estudio de acuerdo al tiempo en que se ven-
dieron, y el estudio se termina en cierta fecha preestablecida; entonces los tiempos de cen-
sura son aleatorios; esto es el tiempo transcurrido desde que un artculo entra al estudio
hasta que finaliza el experimento, es aleatorio. Otra situacion en la que aparece la censura
aleatoria, es cuando aunque todas las unidades experimentales entran al mismo tiempo al
estudio, por alguna razon externa (independiente de ) puede ocurrir que ya no es posible
darle seguimiento a algunas unidades experimentales y por lo tanto el tiempo de falla para
esas unidades sera censurado. Para propositos de inferencia se puede trabajar condicional-
mente sobre los tiempos de censura, para ello se procede como si la censura fuera del tipo
I, pero tener presente el mecanismo por el que se generaron los datos a fin de justificar tal
proceder (ver Lawless, 1982). Entonces bajo el tipo de censura aleatoria considerada antes,
la verosimilitud estara dada por (2.19).
Censura por intervalo. En algunos estudios de confiabilidad las fallas solo son detectadas
en los tiempos de inspeccion o analisis, y no se detecta con precision cuando ocurrio la falla,
solo se sabe que ocurrio en cierto intervalo2 . Esto genera datos censurados por intervalo,
que tambien se conocen como datos de inspeccion o datos agrupados. Este tipo de censura
es una combinacion de censura por la izquierda y censura por la derecha. Por ejemplo, si
los tiempos de inspeccion estan dados por x 1 , x 2 , ...,x p , y en la primera inspeccion en el
tiempo x 1 se observa que d 1 unidades ya fallaron, lo que se sabra es que su tiempo de falla
ocurrio entre 0 y x 1 , y como P(0 < X x 1 ) = F(x 1 ) F(0), entonces la correspondiente
verosimilitud estara dada por [F(x 1 ) F(0)] 1 .
d
Si en general en el intervalo i-esimo, (x i1 , x i ), se detectan d i unidades que fallaron,

entonces la verosimilitud que aporta ese intervalo esta dada por:
L(d i ) = [P(x i1 < X x i )]

di
= [F(x i ) F(x i1 )]
di
(2.22)
y en consecuencia de manera general la verosimilitud para un experimento censurado por
intervalo esta dada por:
p
n j=1 d j
L (X) = (1 F (x p )) [F (x i ) F (x i1 )]
p
di
(2.23)
i=1
Notar que el primer factor de la expresion anterior corresponde a la verosimilitud de

las unidades que no fallaron hasta el ultimo tiempo de inspeccion.
2 Otra forma de ver los datos censurados es como si se tuviera en (2.8) un error de medicion muy grande, y por
lo tanto la aproximacion para la verosimilitud dada por (2.9) no es posible. De aqu que se deba tomar en cuenta
el error de medicion, y esto se hace tomando en cuenta la amplitud del intervalo.
Las observaciones por intervalo son frecuentes en muchas areas, debido a que la eva-
luacion de las unidades experimentales no se puede hacer de forma continua. Una mala
practica es tomar los datos que fallaron en un intervalo, igual al centro de dicho intervalo.
Lo que se debe hacer es obtener la verosimilitud como se ha indicado y a partir de esta hacer
la inferencias deseadas.
Ejemplo 2.3 Durante una prueba de vida acelerada para determinar la confiabilidad de un
producto, debido a que no es posible hacer una inspeccion continua para evaluar si el producto
aun esta en buenas condiciones, se hace inspeccion por intervalo. Se ponen a prueba un total
de 42 unidades, y cada cinco das se hace una revision para evaluar cuantas unidades fallaron
desde la ultima inspeccion. La prueba se suspende a los 20 das, y a esa fecha 5 productos aun
no haban fallado, por lo que se consideran como censurados por la derecha. Los datos son:
Intervalo Numero de productos que fallaron

(0, 5] = (x o , x 1 ] 16
(5, 10] = (x 1 , x 2 ] 10
(10, 15] = (x 2 , x 3 ] 7
(15, 20] = (x 3 , x 4 ] 4
Mas de 20 (x > x 4 ) 5
Si se supone un modelo exponencial, ver (2.11), lo primero que se quiere tener es in-
formacion sobre el parametro del modelo. De acuerdo a (2.23) y a (2.17), la verosimilitud
esta dada por:
4
L(X) = [1 (1 e 20 )] [1 e
1 x i
(1 e x i1 ))]
1 4237 1 di
i=1
=e 1 100
(1 e ) (e
1 5 16 1 5
e 10 ) (e 10 e 15 ) (e 15 e 20 )
1 10 1 1 7 1 1 4
para simplificar estar funcion, se puede factorizar parcialmente los sumandos que involu-
cran a la funcion e. Por ejemplo el primero
(e 5 e 10 ) = (e 5 [1 e 5 ])
1 1 10 1 1 10
al repetir algo similar para el resto se llega a que:
L(X) = e 280 (1 e 5 )
1 1 37
Para encontrar el emv es necesario recurrir a metodo numericos. Al aplicar la rutina

1
optimize de S-PLus (ver programa 2 de apendice), se obtiene que = 5 (ln 93 ) 9 857112. 56
Con ello se puede obtener R (X). En la figura 2.3 se muestra la grafica para la verosimilitud
relativa, junto con intervalos de verosimilitud al nivel c = 0 05, 0 15 y 0 25. Los intervalos son:
Figura 2.3
Verosimilitud relativa para experimento censurado por intervalo
Figura 2.3: Verosimilitud relativa para experimento censurado por intervalo.

Figura 2.3: Verosimilitud relativa para experimento censurado por intervalo.
[6 726917, 15 22981], [7 245281, 13 86745] y [7 562226, 13 16672], respectivamente. De

[6acuerdo
726917,al15
ultimo
22981], [7 245281,
intervalo se puede
13 86745] y [7dados
decir que los datos
562226, del experimento
13 16672], censurado
respectivamente. De
por intervalo, los valores de mas verosmiles estan en [7 562226, 13 16672].
acuerdo al ultimo intervalo se puede decir que dados los datos del experimento censurado
por intervalo, los valores de mas verosmiles estan en [7 562226, 13 16672].
2.4.
P ro pPropiedades
2.4 des i mlai l Verosimilitud
i e da d e s d e l a v e ro itud
2.4.Ademas
Propiedades de la Verosimilitud
de los aspectos relevantes que se han comentado hasta aqu respecto a la fun-
cion de verosimilitud,
Ademas estarelevantes
de los aspectos tiene algunas propiedades
que se adicionales
han comentado que respecto
hasta aqu le dan unaa lamayor
fun-
importancia en la inferencia estadstica. Dos de esas propiedades, que se veran
cion de verosimilitud, esta tiene algunas propiedades adicionales que le dan una mayorenseguida,
son invarianza
importancia funcional
en la inferenciay combinacion de observaciones.
estadstica. Dos de esas propiedades, que se veran enseguida,
Invarianza funcional.
son invarianza funcional y combinacion de establece
Esta propiedad que cualquier afirmacion cuantitativa
observaciones.
Invarianza funcional. Esta propiedad establece que cualquier afirmacion cuantitativa
2.4. PROPIEDADES DE LA VEROSIMILITUD 29
para implica una afirmacion cuantitativa sobre cualquier transformacion uno a uno de ,
= (), y se establece directamente mediante una sustitucion algebraica de = (). De
esta manera si R (X) es la verosimilitud relativa de , entonces la verosimilitud relativa
de es R (X) = R ( () X). Tambien
= ().
Por ejemplo, si > 0, y = log (), entonces se cumple que:
i)
= log ()
ii) R (X) = R (exp () X), y
iii) a b log (a) log (b). Estas dos afirmaciones son equivalentes y tienen
la misma incertidumbre o plausibilidad.
Combinacion de observaciones. La verosimilitud permite combinar facilmente los datos

de diferentes experimentos independientes, ya que la probabilidad conjunta de eventos in-
dependientes es igual al producto de sus respectivas probabilidades individuales. As dados
los resultados de los diferentes experimentos, de acuerdo a (2.1) la verosimilitud sera igual
al producto de las verosimilitudes para cada experimento. Es decir, si D 1 , D 2 , . . . , D k son k
experimentos o conjuntos de datos independientes, donde cada uno se puede ver como un
muestreo aleatorio de la variable X, con modelo f (x). Entonces la funcion de verosimi-
litud de que resulta de combinar los k conjuntos de datos esta dada por:
L (D 1 , D 2 , . . . , D k ) = L (D 1 ) L (D 2 ) L (D k ) (2.24)
De aqu se puede apreciar que para obtener intervalos de verosimilitud para y su

estimador de maxima verosimilitud con base en los k conjuntos de datos, lo que se debe
hacer es trabajar con (2.24) y obtener los intervalos y el emv correspondiente. En otras
palabras no resulta de promediar o combinar de alguna forma los estimadores obtenidos
con cada verosimilitud individual L (D i ). Enseguida un ejemplo.
Ejemplo 2.4 Sea el modelo exponencial dado por (2.11), al hacer = 0 1 se generan dos
muestras aleatoria de este modelo ylalaprimera
segunda
de de = 20
30 ny la Los datos
segunda de n=son:
20. Los datos son:
D 1 , primer conjunto de datos (n 1 = 30): 2.30, 50.48, 1.35, 7.10, 11.27, 5.47, 11.50, 22.22,
0.58, 0.47, 34.89, 1.94, 0.41, 7.40, 9.66, 2.64, 4.76, 6.93, 16.23, 0.66, 4.14, 3.26, 9.44, 4.38,
0.39, 7.78, 3.81, 3.49, 19.21 y 15.10. Sea s 1 = 269 26, la suma de estos datos.
D 2 , segundo conjunto de datos (n 2 = 20): 4.22, 0.95, 1.46, 17.76, 22.21, 3.13, 17.83, 2.87,
3.90, 16.78, 4.39, 32.86, 5.92, 11.90, 2.19, 6.85, 26.65, 4.57, 6.55 y 3.91. Sea s 2 = 196 9, la
suma de estos datos.
Figura 2.4
Combinacin de datos con base en la verosimilitud
Figura 2.4: Combinacion de datos con base en la verosimilitud.

2.5. VEROSIMILITUD CON 2 O MAS PARAMETROS 31
A partir de (2.15) se obtiene la verosimilitud relativa para cada conjunto de datos. Las
dos graficas correspondientes se muestran en la figura 2.4. De donde se aprecia claramente
que la verosimilitud para con base en el primer conjunto de datos (n = 30) tiene menor
variacion que la verosimilitud para con el segundo conjunto de datos (n = 20). Por lo
tanto en el primer caso la informacion sobre es mas precisa.
Mientras que la informacion que aportan ambos conjuntos de datos de manera conjunta
sobre , esta dada por (2.24)
L (D 1 , D 2 ) = L (D 1 ) L (D 2 )
De aqu y dado que la verosimilitud para un modelo exponencial esta dada por (2.12),
la verosimilitud combinada esta dada por
L (D 1 , D 2 ) = n 1 e s 1 n 2 e s 2
1 1
= (n 1 +n 2 ) e (s 1 +s 2 )
1
(2.25)
de donde resulta que el emv = ns 11 +s 2

+n 2
= 9 3232, con esto y al sustituir los valores de n 1 , n 2 ,
s 1 y s 2 en (2.24), se obtiene la grafica de la verosimilitud relativa combinada de la figura 2.4.
De donde se aprecia la forma en que esta combina la informacion de las verosimilitudes
que aporta cada conjunto de datos. Tambien se ve que la verosimilitud combinada tiene
una menor variabilidad.
Una forma de apreciar las diferencias en variabilidad de las verosimilitudes individuales
y combinada de la figura 2.4, se obtiene al calcular los intervalos de verosimilitud que se
muestran en la Tabla 2.1, junto con el correspondiente emv
Tabla 2.1. Intervalos de verosimilitud para ejemplo 2.4

Intervalos de verosimilitud al nivel
Caso c = 0 25 c = 0 15 c = 0 05 emv
D 1 (n 1 = 30) [6 720268, 12 36294] [6 415617, 13 09855] [5 921173, 14 54565] 8 9753
D 2 (n 2 = 20) [6 933546, 14 64216] [6 559130, 15 74579] [5 961518, 17 97751] 9 845
Combinados [7 432889, 11 91269] [7 164381, 12 44386] [6 720846, 13 46169] 9 3232
2.5.V e roVerosimilitud
2.5
con 2 o mas Parametros
s i m i l i t u d c o n d o s o m s pa r m e t ro s
Hasta aqu se estudio la funcion de verosimilitud para modelos que solo tienen un
parametro. Ahora se vera la verosimilitud cuando los modelos tienen dos o mas parame-
tros.
Modelo normal
Modelo Normal
La distribucion normal juega un papel relevante en muchas aplicaciones practicas de la
estadstica y en muchos estudios teoricos. Su densidad, esta dada por:
1/2
f (x, ) = ( ) exp [ (x )2 ] (2.26)
2 2
con < x < +, < < +, > 0, el parametro es la media condicional,
es decir, E (x) = , y el parametro es la precision, es decir es igual al inverso de la
varianza condicional: V (x) = 1/. La funcion de verosimilitud dependera de estos dos
parametros. En el caso que se haga un muestreo sin censura y se observen n valores de la
variable aleatoria X, X = (x 1 , x 2 . . . , x n ), la verosimilitud para el modelo normal estara dada
por:
n/2 n
L (, X) = ( ) exp [ (x i )2 ] (2.27)
2 2 i=1
Una expresion mas sencilla se obtiene al observar que
n n
(x i ) = n( x n ) + (x i x n ) ,
2 2 2
i=1 i=1
con x n = 1
n
xi , sn =
i=1
n
i=1 (x i
n
x n ) y en consecuencia la verosimilitud (2.27) toma
2
la forma siguiente:
n/2 sn
L(, X) = ( ) exp [ n( x n )2 ] exp [ ] (2.28)
2 2 2
Para encontrar los emv se tiene que al derivar parcialmente e igualar a cero a la log
verosimilitud se obtiene

log L(, X) = ( x n ) (n) = 0

1 n (s n + n (x n ) )
2

log L(, X) = log L(, X) = 0.
2
La solucion simultanea es
n
= x n , = (2.29)
sn
En ocasiones se supone conocido ya sea o , y se quiere hacer inferencias sobre el
otro. Por ejemplo si se supone conocido e igual a una constante, entonces la verosimilitud
(2.28) toma la forma siguiente:
n
L(X, ) exp [ ( x n )2 ] (2.30)
2
Por otro lado, si en la muestra hay observaciones censuradas, ya sea del tipo I, tipo II o
aleatoria, de acuerdo a (2.18) la verosimilitud para el modelo normal estara dada por:
r
2 sr n
L (, X) = C ( ) exp [ r ( x r ) ] exp [ ] (1 ( 1/2 (q( j) )))
2
2 2 2 j=r+1
(2.31)
donde ( ) es la distribucion normal estandar acumulada. Ademas en el caso de censura
tipo I y aleatoria la constante C = 1. En el caso de censura tipo II, C = (nr)!
n!
y el tiempo de
censura esta dado por la r-esima estadstica de orden, q( j) = x(r) = Te En el caso de tener
una censura simple del tipo I, entonces la verosimilitud anterior toma la forma siguiente:
r
2 r sr
L (, X) = ( ) exp [ ( x r ) ] exp [ ] (1 ( 1/2 (Te )))
2 nr
2 2 2
con x r igual a la media de los r tiempos de falla observados y s r = ri=1 (x(i) x r ) .

2
Los estimadores de maxima verosimilitud de (, ), son el par de valores de estos parame-

,
tros ( ) que maximizan la verosimilitud. Se pueden encontrar de manera numerica, o
tambien en algunos casos de manera analtica. En esta ultima situacion, lo que se hace es
derivar de forma parcial a la log verosimilitud respecto a cada uno de los parametros, y se
iguala a cero, con lo que se obtienen dos ecuaciones simultaneas. Al resolver estas ecuacio-
nes se obtiene ( ,
).
Pero como se ha enfatizado a lo largo del captulo, la grafica de la verosimilitud aporta
informacion adicional muy valiosa. En el caso de dos parametros, la grafica de verosimilitud
conjunta es tridimensional, como se ilustra con el siguiente ejemplo.
Ejemplo 2.5 Se realizo un estudio para evaluar la duracion de amortiguadores para au-
tomovil. Se probaron 38 amortiguadores (OConnor, 1985; pag. 85). Solo se observaron 11 fa-
llas, y los restantes 27 estan censurados de manera multiple por la derecha. A continuacion se
muestran los datos en miles de kilometros. Los que tienen como exponente un signo +, estan
censurados por la derecha, es decir, a esa distancia el amortiguador todava estaba en buen
estado.
6 70 6 95+ 7 82+ 8 79+ 9 12 9 66+ 9 82+

11 31+ 11 69+ 11 85+ 11 88+ 12 14+ 12 20 12 87+
13 15 13 33+ 13 47+ 14 04+ 14 30 17 52 17 54+
17 89+ 18 42+ 18 96+ 18 98+ 19 41+ 20 10 20 10+
20 15+ 20 32+ 20 90 22 70 23 49+ 26 51 27 41+
27 49 27 89+ 28 10+
Tabla2.1 Distancia de falla para 38 amortiguadores de vehculos.
Figura 2.5
Verosimilitud para problema de duracin de amortiguadores
Figura 2.5: Verosimilitud para problema de duracion de amortiguadores

Es claro que aunque muchos amortiguadores no fallaron durante el perodo del estudio,
aportan informacion importante sobre el tiempo de vida de tal producto. Por ejemplo el
ultimo dato senala que el correspondiente amortiguador duro mas de 28100 km.
Si se supone que estos
2.5. VEROSIMILITUD CONdatos
2OM vienen
AS PAR un modelo normal (, ), enseguida se ve que35in-
de AMETROS
formacion aportan estos datos sobre los posibles valores de los parametros (, ). Para ello,
de acuerdo a (2.31) se obtiene la grafica de verosimilitud correspondiente (ver programa 3
Es claro que aunque muchos amortiguadores no fallaron durante el perodo del estudio,
del apendice). En la figura 2.5 se muestra la grafica en superficie de respuesta y en la figu-
aportan informacion importante sobre el tiempo de vida de tal producto. Por ejemplo el
ra 2.6, en grafica de contornos o curvas de nivel. De estas figuras se aprecia claramente las
ultimo dato senala que el correspondiente amortiguador duro mas de 28100 km.
regiones de mayor verosimilitud para valores de (, ), en particular en la figura de contor-
Si se supone
nos que estos
puede apreciar ladatos
regionvienen
con c de= 0un2,modelo
dentro normal (, ), la
de esa region enseguida se ve que
verosimilitud in-
es mayor
formacion
a 0 80. El aportan ,
(
emv esestos ) = (24
datos sobre
57, los
0 posibles
0143), vervalores de los4 parametros
programa (, ). Para ello,
del apendice.
de acuerdo a (2.31) se obtiene la grafica de verosimilitud correspondiente (ver programa 3
del apendice). En la figura 2.5 se muestra la grafica en superficie de respuesta y en la figu-
ra 2.6, en grafica de contornos o curvas de nivel. De estas figuras se aprecia claramente las
regiones de mayor verosimilitud para valores de (, ), en particular en la figura de contor-
nos se puede apreciar la region con c = 0 2, dentro de esa region la verosimilitud es mayor
a 0 80. El emv es ( ,
) = (24 57, 0 0143), ver programa 4 del apendice.
Figura 2.6
Verosimilitud en contornos para problema de duracin de amortiguadores
Figura 2.6: Verosimilitud en contornos para problema de duracion de amortiguadores.
Figura 2.6: Verosimilitud en contornos para problema de duracion de amortiguadores.

2.6.
V e roVerosimilitud
2.6 similitud perfil Perfil
Puede ocurrir que, no obstante que un modelo involucre a dos parametros desconoci-
dos y , se quisiera tener informacion separada para alguno de ellos. Como se vio en la
seccion anterior, la verosimilitud relativa conjunta R (, X) jerarquiza a los pares de valo-
res de y de acuerdo a su verosimilitud o plausibilidad, a la luz de los datos. Sin embargo,
nos gustara tener informacion solo de uno de los valores. Sea por ejemplo el parametro
sobre el que se tiene mas interes.
La verosimilitud perfil o la funcion de maxima verosimilitud relativa de se obtiene al
maximizar R (, X) sobre , con fijo:
R m (X) = max R (, X) = R (, () X) (2.32)

Aqu () es el emv de dado . Que puede ser encontrado al resolver la ecuacion

l (, ) / = 0. Donde l (, ) es la log verosimilitud. El logaritmo de R m es:
r m (X) = r (, () X) = l (, () X) l (
, X) (2.33)
Es decir, r m es la diferencia entre el maximo restringido de l(, ) con fijo, y el maxi-

mo no restringido.
Como se vio en la seccion anterior la grafica de la verosimilitud conjunta R (, X)
se puede ver como una montana de verosimilitud puesta en el plano (, ). En cambio la
verosimilitud perfil R m (X) es precisamente el perfil o silueta de R (, X) cuando esta
es vista desde un punto distante del eje . En forma similar, R m (X) es el perfil o silueta
de R (, X) cuando esta es vista desde un punto distante del eje .
Es facil ver que las propiedades de R m (X) son similares a las verosimilitudes de un
parametro. Por ejemplo:
0 R m (X) 1 y R m (
X) = 1
Ejemplo 2.6 Dos objetos con peso desconocido 1 y 2 son pesados en forma separada y de
manera conjunta por la misma bascula, por lo que se obtienen tres valores : X 1 , X 2 y X 3 . Se
sabe que la bascula genera mediciones independientes y distribuidas normalmente alrededor
del verdadero valor, con una varianza de 1 De esta manera X 1 , X 2 y X 3 son independientes
y tienen la siguiente distribucion:
X 1 N( 1 , 1); X 2 N( 2 , 1) y X 3 N( 1 + 2 , 1)
Dados los x 1 = 15 6, x 2 = 29 3 y x 3 = 45 8; se quiere tener informacion sobre el verdadero

peso 1 y 2 de los objetos.
La distribucion conjunta de X 1 , X 2 y X 3 es el producto de tres normales:
2.6. VEROSIMILITUD PERFIL 37
3
1
f (x 1 , x 2 , x 3 1 , 2 ) = ( ) exp [(x 1 1 )2 /2 (x 2 2 )2 /2 (x 3 1 2 )2 /2)]
2
Por lo que la log verosimilitud para 1 y 2 esta dada por
l( 1 , 2 ) = (x 1 1 )2 /2 (x 2 2 )2 /2 (x 3 1 2 )2 /2 (2.34)
Para encontrar los emv primero se obtienen las derivadas parciales
l( 1 , 2 )
= (x 1 1 ) + (x 3 1 2 ) (2.35)
1
l( 1 , 2 )
= (x 2 2 ) + (x 3 1 2 ) (2.36)
2
que al igualarlas a ceros y resolverse en forma simultanea se obtiene los emv As al igualar
a cero a (2.35) y despejar de ella a 1 , se obtiene que

1 ( 2 ) = (x 1 + x 3 2 ) /2 (2.37)
Al tomar esto como el valor de 1 y sustituir en (2.36), se obtiene que:

2 = (2x 2 + x 3 x 1 )/3 = 29 6
Si se sustituye este valor en (2.37), resulta que
1 = (x 1 + x 3
2 ) /2 = (2x 1 + x 3 x 2 )/3 = 15 9.
De acuerdo a (2.32) se podra usar (2.37) en lugar de 1 para obtener la verosimilitud
perfil de 2 . En forma mas sencilla, se puede obtener la log perfil al aplicar (2.33). Con lo
que
r m ( 2 X) = r ( 2 ,
1 ( 2 ) X) = l ( 2 , 2 ,
1 ( 2 ) X) l ( 1 X)
la forma especfica de r m ( 2 X) en el ejemplo se obtiene a partir de las expresion anteriores
y de (2.34). Es facil mostrar, se deja como ejercicio, que:
3
r m ( 2 X) = ( 2
2 )2
4
de la misma manera se puede demostrar que
3
r m ( 1 X) = ( 1
1 )2 .
4
2.7.
2 . 7 S c o rScore, Informacion
e, inform ac i n y a p rox i my
acAproximacion
in normal Normal
Como se vio antes, usualmente la funcion de verosimilitud es producto de terminos. Esto
hace que sea conveniente aplicar la transformacion logaritmo para trabajar con sumas. La
funcion log verosimilitud es el logaritmo natural de L :
l (X) = log L (X) (2.38)
Es claro que el valor de que maximiza a l (X) tambien maximiza a L (X). Por ello,
usualmente la obtencion de se consigue al derivar a l (X) con respecto a , luego el
resultado se iguala a cero y se despeja . Es posible que este procedimiento conduzca a un
maximo relativo o a un punto de inflexion, en lugar del maximo deseado. Por lo que es
necesario verificar que efectivamente se ha encontrado un maximo, que bajo condiciones
de regularidad se logra cuando la segunda derivada evaluada en ese valor es negativa.
La funcion Score S (X) es definida por la primera derivada de la log verosimilitud
respecto a :
d [l (X)]
S (X) = l (X) = (2.39)
d
Mientras que la funcion informacion o informacion de Fisher I (X) es menos la segunda
derivada de la funcion log verosimilitud respecto a :
d 2 [l (X)]
I (X) = l (X) = S (X) = (2.40)
d 2
Usualmente cuando es un punto interior del espacio parametrico , la primera deriva

evaluada en es cero, y la segunda derivada evaluada en sera negativa, as bajo estas
condiciones se llega a:

S (X)
= 0 y I (X) > 0.

La cantidad I (X) es llamada a menudo la informacion observada. Tanto esta cantidad

como muestran aspectos importantes de la verosimilitud y juegan un papel decisivo en
muchos metodos estadsticos. Ya que como se vio muestra la posicion o localizacion de
la verosimilitud en el eje . Mientras que como se vera mas adelante I(X) es una una
medida de la curvatura (o precision local) de la verosimilitud en la vecindad de . Por esto

a I (X) se le conoce como la informacion observada.
Al tomar en cuenta (2.6), la funcion log verosimilitud relativa r(X) esta defina por
r(X) = log R(X)

= log L(X) log L(X)
= l(X) l(X) (2.41)
2.7. SCORE, INFORMACION Y APROXIMACION NORMAL 39
Esto junto con lo anterior juega un papel crucial para la siguiente aproximacion. La expan-
sion de la serie de Taylor para la funcion log verosimilitud al rededor de = esta dada
por:

( ) 2
( ) 3
( )
+
l (X) = l (X) +
l (X)
+
l (X)
+
l (X)
1! 2! 3!

Como se dijo antes, si es un punto interior del espacio parametrico , l (X) = 0 y de

acuerdo a (2.34), r (X) = l (X) l (X), entonces se tiene que:
2
( ) 3
( )
r (X) = +
I (X) +
l (X) (2.42)
2! 3!
La aproximacion normal de r (X) es definida de la forma siguiente:
1
r N (X) = ( )
2 I(X) (2.43)
2
es pequeno, el termino cubico y demas terminos de mayor grado en (2.42) son

Si
tambien pequenos, y por lo tanto r (X) r N (X).
La razon que se le llame aproximacion normal a (2.43), se debe a que esta es precisa-
mente la forma de r(X) para la log verosimilitud para una distribucion normal cuando se
supone conocido , ver (2.30). Efectivamente si a partir de (2.30) se obtiene log L (X, ),
y esta coincide con (2.43), donde = , = x n , y I (X)
= n.
Como se vio en el ejemplo 2.4 el efecto de incrementar la cantidad de datos es que se
genera una verosimilitud muy puntiaguda e intervalos de verosimilitud pequenos. De esta
manera, para una cantidad de datos suficientemente grande, sera pequeno y r N (X)
sera una buena aproximacion a r (X) sobre toda la region de valores admisibles para .
Como los intervalos o regiones de verosimilitud para al nivel c (o al nivel 100c %), es
el conjunto de valores de tal que R (X) c, o en forma equivalente tal que r (X)
log (c) (debido a la propiedad de invarianza funcional de la verosimilitud). Al sustituir
a r(X) por la aproximacion normal, se tiene que la region de verosimilitud al nivel c
esta dada por:
1
( )
2 I(X) log(c)
2
de donde

2 log (c)

I (X)
Por lo tanto la region de verosimilitud obtenida de forma aproximada con la aproximacion

normal esta dada por los valores de tales que:

2 log (c)

(2.44)

I (X)
Evidentemente este es un intervalo centrado en y con una longitud total de

2 2 log (c) /I (X)

y por tanto, conforme I(X) sea mas grande el intervalo (2.44) sera mas estrecho, y se
tendra una informacion mas precisa (mas informacion) sobre los valores admisibles de .

Esta es la razon por la que a I(X) se le llama informacion observada y a I(X) funcion
de informacion. En general cuando la aproximacion normal es suficientemente buena, la
mayor parte de la informacion concerniente a es resumida por y I(X).

A partir de (2.44) y dada las propiedades de la distribucion normal, se puede tener una
idea de los niveles de cobertura que alcanzan los diferentes valores de c en R(). Efec-
tivamente dado que en el caso normal I (X) = n = n/ 2 , entonces los intervalos de

verosimilitud toman la siguiente forma: 2 log (c) n . Por lo que si se piensa en las

propiedades de la distribucion normal 2 log (c) = Z /2 , donde Z /2 es el cuantil de la
distribucion normal tal que entre Z /2 y Z /2 se ubica el (1 ) 100 % de la densidad
normal estandar. De esta manera si se quiere coberturas de 90 %, 95 % y 99 %, entonces Z /2
toma los valores de 1.64, 1.96 y 2.58, respectivamente; con lo que c =0.2585, 0.1465 y 0.0362,
respectivamente.
Ejemplo 2.7 En el problema de los tiempos de falla de aire acondicionado de un aeroplano
descrito en el ejemplo de la seccion 2.2, se vio que un nivel c = 0 05, el intervalo de verosimilitud
para el parametro de un modelo exponencial esta dado por [39 37, 97 09]. Se va ahora
calcular este intervalo con la aproximacion normal. De acuerdo a (2.13) la log verosimilitud
para un modelo exponencial esta dada por:
s
log (L (X)) = n log()

donde s = ni=1 x i . Obteniendo la primera y segunda derivada respecto a de esta expresion,
se obtiene que las funciones Score y de informacion para el modelo exponencial estan dadas
por:
s n s n
S (X) = 2 y I (X) = 2 3 2 (2.45)

Ademas de (2.14) sabemos que el emv para , esta dado por = s/n. Por tanto al evaluar la

funcion de informacion en el emv, se obtiene que I(X) = n2 . Al sustituir estas expresiones
3
s
2.7. SCORE, INFORMACION Y APROXIMACION NORMAL 41
en (2.43), se obtiene que la aproximacion normal a la log verosimilitud relativa para el modelo
exponencial esta dada por:
2
1 n
r N (X) = n ( 1) (2.46)
2 s
y de (2.44) los intervalos aproximados de verosimilitud al nivel c, estan dador por:

s 2 ln c
1
n n
De esta manera, dado que n = 30 y s = 1788, a un nivel c = 0 05, el intervalo aproximado

para esta dado por:

ln 20
59 6 1
15
Es decir, 59 6 26 635. El intervalo aproximado es entonces [32 965, 86 235], que si

lo comparamos con el intervalo exacto [39 37, 97 09], se ve que el aproximado esta des-
plazado a la derecha por no considerar la asimetra de la verosimilitud.
Un analisis mas adecuado de la calidad de la aproximacion normal se puede hacer si se
compara la grafica de la aproximacion y de la expresion exacta. Para ello de (2.15) se puede
obtener la expresion exacta para la log verosimilitud relativa para el modelo exponencial:
s s
r (X) = n ln ( ) +n
n
Para comparar esta expresion con su aproximacion normal (2.46), es mejor obtener
R (X), es decir si se obtiene el exponencial de ambas expresiones. Haciendo esto, en la
figura 2.7 se aprecia la grafica para ambas expresiones (al utilizar los datos de tiempo de falla
de los aires acondicionados. De donde queda claro este ligero desfase de la aproximacion
respecto a la verosimilitud exacta conforme se aleja de . Este hecho es uno de los riesgos de
muchos metodos estadsticos tradicionales que estan basados en la aproximacion normal
de la verosimilitud.
Cuando la aproximacion normal es suficientemente buena, la mayor parte de la infor-
macion concerniente a es resumida por y I (X).
Pero en ocasiones se abusa de esto, y
en algunos analisis estadsticos tradicionales sin verificar la calidad de la aproximacion se
hacen inferencias sobre con base en tal aproximacion.
En estadstica Bayesiana esta aproximacion no sera necesaria, ya que la inferencia sobre
se hace con base en una distribucion de probabilidad, la distribucion posterior (X),
que como establecimos en el captulo 1 es proporcional a la verosimilitud por la distribucion
a priori:
(X) L (X) ()
Figura 2.7
Evaluacin de la aproximacin normal de la verosimilitud relativa, ejemplo 2.7
Figura 2.7: Evaluacion de la aproximacion normal de la verosimilitud relativa, ejemplo 2.2.1

2.8. VEROSIMILITUD PARA OTROS MODELOS 43
2.8.
V e roVerosimilitud
2.8 para
s i m i l i t u d pa r a o t ro s m o dOtros
e lo s Modelos
En esta seccion se establecen las verosimilitudes para otros modelos, que se utilizan en
captulos posteriores.
Modelo
Modelologonormal
Lognormal.
La densidad de la distribucion lognormal (, ) esta dada por:
1/2 1
f (x, ) = ( ) x exp [ (log (x) ) ]
2
(2.47)
2 2
con 0 < x, < < +, > 0. Los nombres de los parametros son logmedia , y logpreci-
sion . Al seguir un procedimiento similar al caso normal, se puede ver que la verosimilitud
para datos completos para el modelo lognormal esta dada por:
1 n/2 vn
L (, X) = ( ) exp [ n ( w n ) ] exp [ ]
2
(2.48)
i=1
n
xi 2 2 2
donde v n = ni=1 (log (x i ) w) y w n = n1 ni=1 log (x i ).

2
En el caso de censura tipo I, II y aleatoria, la verosimilitud para el modelo lognormal

esta dada por:
r
1 2 r vr
L (, X) = C ( ) exp [ ( w r ) ]
2
i=1 x i
r
2 2 2
nr
21
( (2) e 2 dw)
w2
j=1 1/2 (log(q ( j) ))
donde v r = ri=1 (log (x(i) ) w r ) y w r = r1 ri=1 log (x(i) ). Ademas como ya se vio la
2
constante C y los tiempos de censura q( j) , dependen del tipo de censura (ver Seccion 2.3).
Distribucion Valor Extremo

Distribucin valor extremo
La funcion de densidad para la distribucion de valor extremo esta dada por:
f (x, ) = exp [ (x ) exp ( (x ))] (2.49)
con < x < , > 0, < < . El parametro es de localizacion y es de escala.

Al considerar datos sin censura, la verosimilitud para este modelo esta dada por:
n n
L (, X) = () exp [ (n + x i ) ( exp ( (x i )))]
n
(2.50)
i=1 i=1
y la verosimilitud con muestras censuradas toma la forma siguiente:

r r
L (, X) = C () exp [ (r + x(i) ) ( exp ( (x(i) )))]
r
i=1 i=1
nr

exp
exp ( (q ( j) ))
(2.51)
j=1

DistribucionWeibull
Distribucin Weibull
La densidad para el modelo Weibull (, ) esta dada por:

x
1
exp
x
f (x, ) = ( ) (
) con x > 0, > 0, > 0 (2.52)

la distribucion acumulada esta dada por
F (x, ) = 1 exp { (x/) }

De aqu que la verosimilitud para datos censurados para el modelo Weibull esta dada
por:
r

r 1
exp
r x(i) nr q
( j)
L (, X) = C ( ) ( x(i) )
( ) ( ) (2.53)

i=1
i=1 j=1
Notese que para datos completos n = r, por lo que la ultima sumatoria en el exponente
del ultimo termino de (2.53), desaparece.
2.9.
P r e gPreguntas
2.9
y Ejercicios
u n ta s y e j e rc i c i o s
1. Como se define la funcion de verosimilitud y que tipo de informacion proporciona?

2. Que es el estimador de maxima verosimilitud?
3. Que es un intervalo de verosimilitud al nivel c = 0 15?
4. Explicar brevemente con sus palabras el significado de las propiedades de invarianza
y combinacion de observaciones de la verosimilitud.
5. Se quiere tener informacion sobre la proporcion p de artculos defectuosos de un lote
grande. Para ello se toma un a muestra aleatoria de n = 150 artculos y se obtiene que
x = 7 son defectuosos.
a) Verificar que la distribucion propuesta es una funcion de probabilidad.

b) Suponer un modelo binomial y obtener la forma analtica de la verosimilitud y
la grafica de la funcion de verosimilitud relativa.
c) Calcular un intervalo de verosimilitud al c = 0 15, e interpretar.
d) Aplicar el procedimiento tradicional, y obtener un intervalo de confianza para
p al 95 % de confianza. Interpretar.
e) Contrastar los intervalos obtenidos antes. Tomar como referencia el emv y la
amplitud de los intervalos.
6. En el caso anterior se quiere tener mas informacion sobre p, para ello se toma una
segunda muestra aleatoria de n = 100 piezas, y se obtienen x = 4 defectuosas. Consi-
derar las dos muestras, y hacer lo siguiente:
a) Obtener la forma analtica de la verosimilitud y la grafica de la funcion de ve-

rosimilitud relativa.
b) Calcular un intervalo de verosimilitud al c = 0 15, e interpretar.
c) Contrastar los intervalos de verosimilitud del ejercicio anterior y con los de este.
Comentar.
7. Que es la matriz de informacion en una funcion de verosimilitud y que relacion tiene

con la amplitud de la variabilidad de dicha funcion.
8. Sea la distribucion exponencial con f (x) = (1/)ex p(x/). Se requiere simular
datos de una distribucion exponencial con parametro = 0,10. En S-plus o R utilizar
el comando rex p(n, ) para generar las muestras aleatorias de esta distribucion.
a) Generar datos con tamano de muestra n = 40, 80 y 160; y representar cada

conjunto de datos en un histograma, que se observa en cuanto a los valores y
distribucion de los datos generados?
b) Usar los datos anteriores para obtener en cada caso la funcion de verosimili-
tud para . Represente la funcion de verosimilitud para cada caso en la misma
grafica.
c) Obtener los intervalos de verosimilitud con c=0.147 para cada caso.
d) Que ocurre conforme se aumenta el tamano de muestra?
9. Para determinar la incidencia de cierto organismo patogeno en cierta region costera

se hacen determinacion en seis zonas localizadas en dicha region. Para ello se toman
muestras de agua y se analiza si el organismo esta presente o no. Los resultados son
los siguientes:
Zona 1 2 3 4 5 6
Muestras obtenidas n i 60 65 75 55 50 60
Muestras positivas x i 3 4 5 1 2 3
1. a) Suponer un modelo Binomial y obtener la forma analtica de la verosimilitud y
la grafica de la funcion de verosimilitud relativa.
b) Calcular un intervalo de verosimilitud al c=0.15, e interpretar.
c) Que nivel de incidencia tiene el patogeno?
10. En Sprott(2000) se reportan los resultados de un ensayo clnico para investigar la
efectividad de cierto medicamento (ramipril) para ayudar a la sobrevivencia despues
de un infarto agudo al miocardio. El estudio se hizo un con 1986 sujetos. De estos
se selecciono aleatoriamente a 1004 y se les dio el medicamento, mientras que a los
restantes 982 se les administro un placebo (grupo control). Los datos obtenidos se
muestran en la siguiente tabla de contingencia.
Tratamiento Sobrevivio Fallecio Total
Ramipril 834 170 1004
Placebo 760 222 982
Total 1594 392 1986
1. a) Suponer un modelo binomial y obtener la verosimilitud relativa para cada tra-
tamiento, y con base en ella decidir si el ramipril tienen algun impacto positivo.
11. En una fabrica de muebles se inspecciona meticulosamente el acabado de las mesas
cuando salen del departamento de laca. La cantidad de defectos que son encontrados
en cada mesa son registrados con el fin de conocer y mejorar el proceso. Es razonable
suponer una distribucion Poisson para le numero de defectos por mesa. En la inspec-
cion de 15 mesas se obtuvieron los siguientes defectos: 7, 5, 10, 2, 6, 5, 4, 9, 7, 5, 6, 7, 8,
4, 5.
a) Obtener la forma analtica de la verosimilitud y la grafica de la funcion de ve-

rosimilitud relativa.
b) Calcular un intervalo de verosimilitud al c=0.15, e interpretar.
c) Que se puede decir sobre el promedio de defectos por mesa?
12. El siguiente modelo fue propuesto para representar la distribucion del numero de
hijos por pareja de leones en los zoologicos de Mexico:
P (x hijos en la familia) = x
1 2
P (0 hijos en la familia) =
1
donde es un parametro desconocido tal que 0 < < 21 . Un total de 50 parejas fueron
seleccionadas al azar de la poblacion, y se observaron los datos que se muestran en
la siguiente tabla:
No. de hijos 0 1 2 3 4
Frecuencia observada(parejas) 17 22 7 3 1
a) Verificar que la distribucion propuesta es una funcion de probabilidad.

b) Obtener la grafica de la verosimilitud relativa.
c) Encuentra el emv para
d) Suponer al emv como el valor verdadero de , y calcular las frecuencias que se
esperaran en el estudio. Este modelo da una aproximacion razonable de los
datos?
e) Un estudio mas grande realizado hace 20 anos indico que = 0 45. Es esto
admisible con los datos obtenidos?
13. Los siguientes datos son el numero de unidades automotrices que se producen entre
fallas sucesivas de la pintura:
97 51 11 4 141 18 142 68 77
80 1 16 106 206 82 54 31 216
46 111 39 63 18 191 142 163 24
a) Asumiendo que estas son observaciones independientes de una distribucion

exponencial con media , encontrar y el intervalo al 0 10 para
b) Dados los siguientes intervalos de clases (0, 50], (50, 100], (100, 200], (200, ),
obtener una tabla de frecuencia con los datos . Calcular las frecuencias espera-
das para estas clases con la suposicion de (a). Es el modelo exponencial apro-
piado para estos datos?
13. El salario x de los empleados de una empresa, con la escala de que x = 1 es el salario
mnimo. Se supone la distribucion de probabilidad Pareto:
f (x) = x (+1) , con x 1 y > 0
Los siguientes datos son los salarios de empleados selectos al azar: 1 02, 1 41, 1
75, 2 31, 3 42, 4 31, 9 21, 17 4, 38 6, 392 8
a) Obtener la grafica de verosimilitud, el emv y un intervalo del 0 10 para .

b) Es razonable suponer la distribucion propuesta? Se puede comparar el histo-

grama de los datos contra f (x).
c) Obtener la aproximacion normal a esta verosimilitud y analice que tan buena

es dicha aproximacion.
15. Suponer que se quiere estimar el numero de carros de polica en cierta ciudad, N.
Los carros estan numerados del 1 al N Suponer que un perodo dado de tiempo se
observa en cierto punto pasar los carros con los numeros: 137, 24, 86, 33, 92, 129, 17
y 111. Suponer que los carros pasan por ese punto en forma aleatoria, por lo que la
probabilidad de que pasa cualquier carro es 1/N.
a) Obtener el emv para N y graficar la funcion de verosimilitud relativa.

b) Obtener un intervalo de verosimilitud al c=0.15.
c) Cual es la verosimilitud relativa de N=175?
16. El periodo de gestacion para 1000 mujeres se resume en la siguiente tabla:
Intervalo(das) Frecuencia Intervalo(das) Frecuencia

249.5-264.5 6 284.5-289.5 176
264.5-269.5 27 289.5-294.5 135
269.5-274.5 107 294.5-299.5 34
274.5-279.5 198 299.5-304.5 4
279.5-284.5 312 304.5-309.5 1
Se supone que el periodo de gestacion se distribuye normal con media y varianza

2 . Resolver los siguientes puntos.
a) Tomar el punto central de cada intervalo del tiempo de gestacion como el tiem-
po real observado, y obtener la verosimilitud relativa conjunta para y 2 , y los
emv
b) Suponer como los valores correctos de los parametros a y 2 , y calcular las
frecuencia esperadas y compararlas con los datos.
c) Obtener la funcion de verosimilitud relativa exacta, usar la censura por inter-
valo, y obtener los y 2 exactos.
d) Comparar lo obtenido en a) y c), y comentar.
17. El tiempo de vida de unas bateras en horas son:
183 355 538 618 697 834 862 887 1056

1147 1351 1506 1578 1607 1683 1710 2020 2410
Suponer un modelo Weibull para el tiempo de vida obtener.

a) La grafica de contornos para la verosimilitud relativa y los emv.

b) Obtener la verosimilitud perfil para cada parametro y obtener un intervalo de
verosimilitud al c=0.15 para ambos.
c) Seria razonable asumir una distribucion exponencial para estos datos?
18. Respecto al ejemplo 2.6, hacer lo siguiente:
a) Apoyarse en los calculos hechos, y mostrar que
3 3
r p ( 2 X) = ( 2
2 ) y r p ( 1 X) = ( 1
1 )
4 4
1. b. Obtener las graficas de ambas y un intervalo de verosimilitud al c = 0 15.
19. Respecto al ejemplo 2.6, obtener la aproximacion normal para la verosimilitud con-
junta.
20. El tiempo de vida de anaquel de un cierto tipo de pan en das es:
1 2 3 3 0 6 5 1 1 5
0 1 0 1 12 1 0 1 0 1
a) Encuentra , si se cree un modelo exponencial

b) Obtener la grafica de la verosimilitud relativa y un intervalo al 0.10.
c) Seria razonable asumir una distribucion exponencial para estos datos?
20. En un hospital se atendieron por mes los siguientes pacientes con cierto tipo de en-
fermedad
21 13 17 13 13 11 16 11 14 14
a) Suponer un modelo Poisson para el numero de pacientes y encontrar .

b) Obtener la grafica de la verosimilitud relativa y un intervalo al 0.15, e interpretar.
22. En una embotelladora se cree que el llenado de un cierto tipo de bebida es una va-
riable aleatoria normal. Se tienen los siguientes datos de llenado (en milmetros)
750 31 746 35 752 64 747 54 753 74

751 38 748 13 753 74 751 38 754 81
748 39 750 26 752 03 750 25 749 34
Obtener la grafica de contornos de verosimilitud y los valores de y 2 .

23. Considerar dos observaciones independientes x 1 = 2 y x 2 = 2 de una distribucion

Cauchy: f (x) 1/[1 + (x )2 ]
a) Obtener la grafica de la verosimilitud relativa para y comentar los aspectos

mas sobresalientes de la misma.
b) Hacer lo mismo que antes con la suposicion de que las observaciones vienen de
un distribucion normal (, 1)
c) Repetir a) y b) con las observaciones x 1 = 0 5 y x 2 = 0 5
24. Un modelo usual para eventos extremos es el Pareto, que esta dado por
f (x , ) = x (+1) con x y > 0

Al parametro se le conoce como umbral y como escala.
1. a) Sea conocido y si se observa X = (x 1 , x 2 , , x n ), entonces obtener la expresion

analtica para la funcion de verosimilitud para
b) Ahora suponer conocido y que se observa X = (x 1 , x 2 , , x n ), y obtener la
expresion verosimilitud para
c) Obtener la verosimilitud para los dos parametros.
d) Calcular la forma analtica para los estimadores de maxima verosimilitud para
ambos parametros..
e) En caso de que de las n observaciones, solo r se hayan podido observar y las
restantes n r sean censuradas por la derecha, hacer el inciso (a).
f ) Si para una aplicacion se observan los siguientes datos: 112, 100, 88, 436, 113, 87,
91, 103, 298, 81, 106, 202, 81, 137 y 103. Tomar = y obtener la grafica R()
junto con un intervalo de verosimilitud al 0.147 .
3 . E s p e c i f i c ac i n
de distribuciones a priori
Captulo 3
Especificacion de Distribuciones a
priori
En este captulo se aborda la problematica de especificar la distribucion a priori () para

los parametros de los modelos f (x), y se sintetizan los metodos propuestos en Gutierrez-
Pulido et al. (2005b) y Gutierrez-Pulido et al. (2006a,c).
Como se menciono en el captulo 1, un elemento clave de los metodos Bayesianos es la
posibilidad de incorporar el conocimiento previo. Si es el parametro del modelo f (x),
el procedimiento para incorporar la informacion previa es por medio de la distribucion
a priori (). En general () depende a su vez de otros parametros, que se les denomi-
na hiperparametros H i , y que sera necesario especificar de acuerdo al conocimiento inicial
que se tenga, por ello en ocasiones para enfatizar este hecho, la distribucion a priori se
podra denotar con (H i ). Especificar adecuadamente los hiperparametros es una de las
problematicas importantes en estadstica Bayesiana, y ha dado lugar a muchas propuestas
e investigaciones para resolver ese problema. Es un topico de investigacion, ver por ejem-
plo Gutierrez-Pulido et al (2005b) y Gutierrez-Pulido et al (2006a,c). En Wilson (1994),
Wolfson (1995) y Kadane y Wolfson (1998) se discuten diferentes aspectos cognitivos y psi-
cologicos del proceso mediante el cual el conocimiento del experto es transformado en
afirmaciones probabilsticas. Es tambien reconocido que a pesar de la importancia del pro-
blema de especificar la distribucion a priori, este ha recibido poca atencion en la literatura
Bayesiana (OHagan, 1998).
Uno de los problemas que mas ha motivado propuestas para especificar las distribucio-
nes a priori, es el de seleccion de modelos desde el enfoque Bayesiano, ya que en ese caso
no se pueden utilizar distribuciones a priori impropias.
Para las propuestas que se presentan en este captulo se parte de una especie de consen-
so entre los expertos Bayesianos, acerca de que la especificacion de la a priori debe partir de
[63]
51
52 CAPITULO 3. ESPECIFICACION DE DISTRIBUCIONES A PRIORI
informacion disponible sobre las observables, es decir, sobre la variable X, mas que de los
no observables -los parametros de los modelos de tiempo de vida-, ver por ejemplo Win-
kler (1981), Singpurwalla (1988), Wolfson (1995), Kadane y Wolfson (1998), OHagan(1998),
Garthwaite y OHagan(2000) y Percy(2002).
3.1. Metodo
3 . 1 M to d o pa r a dpara
i s t r i b uDistribuciones
c i o n e s c o n u n pa r con un Parametro
m e t ro
En esta seccion se describe un metodo propuesto en Gutierrez-Pulido et al. (2006a). El

metodo se enfoca a especificar () para modelos cuyos parametros tienen una interpre-
tacion directa en terminos de X.
Metodo General
Mtodo general dede Momentos
momentos
Se supone que el experto en el campo de aplicacion proporciona un intervalo para el parame-
tro , o quizas un intervalo para los momentos de X. Entonces esta informacion la con-
vertimos en expresiones explcitas para los hiperparametros de (), ave tienen ciertos
componentes que proporcionan cierta flexibilidad en la especificacion de ().
Sea f (x ) el modelo para X, y (, ) la distribucion a priori para , donde y
son hiperparametros. Se trata de establecer un metodo que a partir de la informacion
que proporciona el experto se pueda especificar los valores de estos hiperparametros. Para
ello, sabemos que la media E(, ) y varianzaV (, ), si es que existen, son funciones
de , . Se supone que un experto en el campo de aplicacion proporciona un intervalo de
ocurrencia para (incertidumbre sobre cual es el valor de ), sea [L , U ] este intervalo
Entonces se propone que:
L + U
E (, ) = (3.1)
2
Para definir los dos hiperparametros se necesita una ecuacion adicional. Para ello se
considera tambien la varianza de . Una aproximacion para esta varianza se puede obtener
con:
U L 2
V (, ) = ( ) (3.2)
2z
donde z es un numero en [1 5, 3 5]. Esta ecuacion esta inspirada en la desigualdad de
Tchebychev, donde 2z veces la desviacion estandar cubre basicamente la mayor parte del
rango de variabilidad. Como se vera mas adelante para diferentes modelos, z esta directa-
mente relacionado con V (, ), de tal forma que conforme sea mayor el valore de z, ma-
yor sera la probabilidad inicial de que este dentro del intervalo [L , U ]. De esta manera
(3.1) y (3.2) proporcionan dos ecuaciones simultaneas con dos incognitas (los hiperparame-
tros). Al resolver este sistema de ecuaciones se obtiene los valores de , . Obviamente esta
metodologa es facil de aplicar si los parametros del modelo tiene una interpretacion direc-
ta, como se muestra en los ejemplos.
3.1. METODO PARA DISTRIBUCIONES CON UN PARAMETRO 53
Es importante notar que la extension de la desigualdad de Tchebychev, hecha por Camp
y Meidel (ver Duncan, 1994, pag. 102), es aplicable a nuestro caso. Concretamente esta ex-
tension establece que si la distribucion de es unimodal, entonces:
1
P ( z < < + z ) 1
2 25z 2
donde y son la media y la desviacion estandar de . Por lo tanto si suponemos dis-

tribuciones a priori unimodales, y E (, ) y V (, ) son obtenidas con (3.1) y (3.2),
respectivamente, entonces la correspondiente distribucion a priori cubre al menos el (1
1/(2 25z 2 )) 100 % del intervalo de ocurrencia [L , U ].. De esta manera si z = 1 5, enton-
ces se espera que al menos el 80 2 % de la distribucion a priori este en [L , U ], y si z = 3 5
se espera que al menos el 96 4 % de la distribucion a priori este en [L , U ].
Es importante enfatizar que nuestro metodo es diferente de otros (ver por ejemplo Ber-
ger, 1985, p. 79), donde el usuario se le pide que proporcione de manera directa el valor de
la media E (, ) y la varianza V (, ). Nuestro metodo solo requiere que el exper-
to proporcione un intervalo de ocurrencia para , digamos [L , U ], y una evaluacion de
que tan seguro es que el intervalo contenga , esta seguridad es reflejado por z, como se
explico. Enseguida se muestra la metodologa con varios modelos y ejemplos.
A priori para
A priori paraModelo
el Modelo Binomial
Binomial
En el captulo anterior se vio que el modelo binomial esta dado por:
n
f (xp) = ( )p x (1 p) con 0 < p < 1 y x = 0, 1, . . . , n
nx
x
Para p se requiere una distribucion cuyo soporte o dominio sea [0, 1]. Una distribucion
muy flexible y que es conjugada1 , es la distribucion beta(, ):
( + ) 1
(p) = p (1 p) con > 0, > 0
1
(3.3)
() ()
donde () es la funcion beta, que para cualquier numero y positivo esta definida por
(y) = y (y 1) y si y es un numero entero positivo entonces (y) = (y 1)!. Deci-
mos que la distribucion beta es muy flexible porque dependiendo de los valores de y
tiene diversas formas en el intervalo [0, 1]. De tal forma que se puede ajustar a la incer-
tidumbre que el usuario tenga a priori sobre el valor de p. Por ejemplo si = 1 y = 1,
entonces (3.3) se convierte en una distribucion uniforme(0, 1). Que como distribucion a
1 Una distribucion a priori () para un modelo f (x) se dice que es conjugada, si la distribucion posterior
(X) es de la misma familia que la a priori. Esto facilita mucho la inferencia.

priori sera apropiada si a priori no se sabe nada del valor de p La media y varianza de la
distribucion beta estan dadas por:

E (p, ) = y V (p, ) = (3.4)
+ ( + ) ( + + 1)
2
Como p es la probabilidad de exito en el experimento Bernoulli, es probable que el

experto proporcione un intervalo donde el espere se localice p. Sea [L p , U p ] este intervalo.
Entonces de acuerdo a (3.1), (3.2) y (3.4), se obtienen las dos ecuaciones siguientes:
(L p + U p )
= (3.5)
+ 2
Up Lp 2
=( ) (3.6)
( + ) ( + + 1)
2 2z
Resolviendo estas, se obtiene que:
z 2 (2 L p U p ) (L p + U p ) (U p L p ) (L p + U p )
2 2
= (3.7)
2 (U p L p )
2
y
2 Lp Up
= ( ) (3.8)
Lp + Up
Ejemplo 3.1 Suponer que un experto cree que en un problema especfico p (la probabilidad de
exito en el experimento Bernoulli) esta en [L p , U p ] = [0 05, 0 15], entonces al aplicar (3.7)
y (3.8) para valores de z = 1 5, 2 0, 2 5, 3 0 y 3 5, se obtienen los hiperparametros siguien-
tes: (z, , ) = (1 5, 8, 72); (2 0, 14 3, 128 7); (2 5, 22 4, 201 6) ; (3 0, 32 3, 290 7)
y (3 5, 44, 396). La Figura 3.1 muestra las correspondientes distribuciones a priori beta. De
esta figura es evidente que a medida que z aumenta la distribucion a priori se hace mas alta
y la mayor parte de la misma cae dentro del intervalo inicial para p. As es claro que (3.7) y
(3.8) proporciona una forma practica de especificar los hiperparametros de la distribucion a
priori beta para el modelo binomial.
El procedimiento aplicado para definir los hiperparametros para la a priori beta para el
modelo binomial puede aplicarse para otros modelos que tienen fundamento en los expe-
rimentos Bernoulli, porque el parametro de estos modelos es p (probabilidad de exito en el
experimento Bernoulli). Este es el caso de los modelos geometrico y binomial negativa.
Figura 3.1
Distribucin a priori beta para modelo binomial
Figura 3.1: Distribucion a priori beta para el modelo binomial.

A priori
A prioripara
paraelelModelo
ModeloPoisson
Poisson
El modelo Poisson esta dado por:
e x
f (x) = con > 0 y x = 1, 2, . . .
x!
La distribucion usual conjugada para el parametro esta dada por la distribucion gama:
1
() = e con > 0, > 0 (3.9)
()
donde E (, ) = y V (, ) = 2 . Es sabido que representa el numero promedio
de conteos que ocurren por unidad, entonces es muy probable que el experto proporcione
un intervalo donde el espera que este localizado. Sea [L , U ] tal intervalo. Entonces de
acuerdo a (3.1) y (3.2), se tienen las dos ecuaciones siguientes:
(L + U )
= (3.10)
2
U L 2
= ( ) (3.11)
2 2z
Resolviendolas, se obtiene que:
2z 2 (L + U )
= (3.12)
(U L )
2
z (L + U )
2
=( ) (3.13)
U L
A priori para el Modelo Uniforme
A priori para el Modelo Uniforme
El modelo uniforme (0, ) esta dado por:
1
f (x) = con 0 < x < (3.14)

La distribucion usual conjugada para es una distribucion Pareto (ver Bernardo y
Smith, 1994 p. 438):
() = (+1) con y > 0 (3.15)
En este caso:
2
E () = con > 1 y V () = con > 2 (3.16)
( 1) ( 1)2 ( 2)
El parametro es el limite superior para X, es razonable pensar que el experto tenga

algun conocimiento del valor probable de , y por consecuencia pueda proveer un intervalo
de localizacion de . Sea [L , U ] ese intervalo. Por la forma de la distribucion Pareto, es
natural tomar a L = . Para obtener usamos a (3.16), (3.1) y (3.2):
U + L 2 U L 2
= y =( )
( 1) 2 ( 1) ( 2)
2 2z
De estas ecuaciones se obtiene:
( U +L )
2 2 2
(1)2

= 2
( U 2zL )
2 2
(1)2 (2)
y al simplificar se tiene que

z(U + L )
2
2 2 = ( ) .
U L
Al resolver esta ecuacion para , y tomar solo la raz positiva se obtiene:

1 + ( z(U + L ) )
2
=1+ (3.17)
U L
donde > 2, como es requerido en (3.16).
A priori para
A priori paraelelModelo
ModeloExponencial
Exponencial
La densidad para el modelo exponencial es:
1 1 x
ef (x) =
; > 0, x > 0 (3.18)

Una distribucion a priori conjugada para es la distribucion gama inversa:
1 /
() = e con > 0, > 0 (3.19)
()
donde
2
E() = y V () = con > 2 (3.20)
1 ( 1)2 ( 2)
Es conocido que esta relacionado con la media de X, ya que E(X) = . Por esto es
razonable suponer que el usuario puede dar a [L , U ], que es el intervalo donde el usuario
cree que se localiza . Entonces de acuerdo con (3.1), (3.2) y (3.20), se tiene:
L + U
=
1 2
2 U L 2
=( )
( 1) ( 2)
2 2z
Resolviendolas se obtiene que:
z 2 (U + L )
2
= 2 +2 (3.21)
(U L )
y
U + L
= ( 1) ( ) (3.22)
2
3.2. A priori para el modelo Normal

3 . 2 A p r i o r i pa r a e l M o d e lo N o r m a l
La densidad de probabilidades para el modelo normal esta dada por
1/2
f (x, ) = ( ) exp [ (x )2 ] ,
2 2
con < x < +, > 0, E(X, ) = y V (X, ) = 1 La usual distribucion a priori
conjugada para (, ) es la normal-gama:
k 1/2 k
(, , , m, k) = ( ) 1/2 exp ( ( m)2 ) (3.23)
() 2 2
Esta distribucion depende de cuatro hiperparametros, la distribucion condicional de da-

do (m, k) y la distribucion marginal de es gama con parametros (, ), con , , k > 0,
donde
E() = / y V () = / 2 (3.24)
La distribucion marginal de es un a t-Student(m, 2, k/) (ver DeGroot, 1970, p. 171),
donde

E() = m y V () = (3.25)
k ( 1)
En este caso para especificar los cuatro hiperparametros se propone la siguiente ver-
sion revisada del procedimiento descrito en Gutierrez-Pulido et al. (2005b). Suponer que
el experto proporciona intervalos de ocurrencia para la media [L m , U m ] y para la varianza2
[Lv , Uv ] de la variable X, respectivamente. No obstante que siendo estrictos estos intervalos
2 En general es mas facil que el experto proporcione informacion en terminos de la desviacion estandar. En
este caso, el experto puede dar un intervalo para la desviacion estandar y convertir este para obtener [Lv , Uv ].
3.2. A PRIORI PARA EL MODELO NORMAL 59
son para E(X) y V (X), in Gutierrez-Pulido et al. (2005b) se muestra que tales intervalos
pueden ser tomados como si ellos fueran para E(X, ) y V (X, ), y por lo tanto estos
intervalos tienen informacion sobre los parametros (, ). Sabemos que V (X , ) = 1/,
y que = 1/ tiene la distribucion gama inversa, ver (3.19), con
2
y V () =
E() = con > 2 (3.26)
1 ( 1)2 ( 2)
donde y son los mismos parametros de la densidad gama. Por ello, se propone que
E() = (Lv + Uv )/2

y
Uv Lv 2
V () = (
)
2zv
Al igualar estas ecuaciones con los correspondientes momentos de la distribucion gama
inversa, dados por (3.26), se obtiene que los hiperparametros para la distribucion marginal
de estan dados por
zv2 (Uv + Lv )
2
= 2 +2 (3.27)
(Uv Lv )
y
Uv + Lv
= ( 1) ( ) (3.28)
2
Ademas como en el modelo normal se cumple que E(X, ) = , se propone que
E() = (L m + U m )/2,
Um Lm 2
)
V () = (
2z m
as al igualar estas dos expresiones con los correspondientes momentos de la distribucion
marginal , ver (3.25), se obtiene que
m = (L m + U m )/2 (3.29)
4z 2m
k= (3.30)
(U m L m ) ( 1)
2
Aqu z m y zv estan en [1 5, 3 5] como antes.

Figura 3.2
A priori normal-gamma para modelo normal
a) (zm, zs)= (1, 5, 1, 5), b) (1, 5, 3, 0), c) (3, 0, 1, 5), d) (3, 0, 3, 0)
3.3. METODO DE MOMENTOS PARA DISTRIBUCIONES CON DOS PARAMETROS 61
3.3.M toMetodo
3.3 de
do de mom Momentos
e n to s pa r a d i s t r ipara
b u c i o nDistribuciones
e s c o n d o s pa r m e tcon
ro s dos Pa-
rametros
Hasta aqu se ha explicado como especificar las distribuciones a priori para modelos cuyos
parametros tienen una interpretacion estrechamente relacionada con la variable observable
X. Sin embargo, existen muchos otras distribuciones (modelos) cuyos parametros no tie-
nen una interpretacion directa en terminos de X. Para este tipo de modelos, a continuacion
se explican los detalles de un procedimiento descrito en Gutierrez-Pulido et al. (2005b) y
se aplica al modelo lognormal. Tal procedimiento parte del hecho que independiente del
modelo a utilizar, la unica caracterstica general en todos los modelos es la informacion
observable en terminos de la variable aleatoria X. As, si se da informacion a priori para
X, la idea basica es hacer que las distribuciones a priori predictivas f (x) sean consistentes
con la informacion dada. Se supone que el experto proporciona intervalos de ocurrencia
para la media m, [L m , U m ]; y la desviacion estandar S, [L s , U s ]. Dado (H), con hiper-
parametros H, la distribucion a priori predictiva es:
f (xH) = f (x)(H)d.

La idea basica es encontrar los hiperparametros H, tal que E (X) [L m , U m ] y

V (X) [L s , U s ]. Aqu solo se explica la distribucion a priori Normal-Gama( 1 , 2 );
en Gutierrez-Pulido et al. (2005b) tambien se ve el caso Uniforme( 1 , 2 ). Sea (, ) un
punto en D = [L m , U m ] [L s , U s ]. Sea
h 1 ( 1 , 2 ) = E (X 1 , 2 )
y
h 2 ( 1 , 2 ) = V (X 1 , 2 ) .
Primero se resuelve el sistema h 1 ( 1 , 2 ) = y h 2 ( 1 , 2 ) = 2 para 1 y 2 , con lo que se
obtienen las funciones 1 (, ) y 2 (, ). Esto se ejemplifica para el modelo lognormal,
cuya densidad esta dada por (2.47). Si se hace 1 = y 2 = , se tiene que
0 5
h 1 ( 1 , 2 ) = E (X 1 , 2 ) = exp( + ) y

h 2 ( 1 , 2 ) = V (X 1 , 2 ) = exp(2 + 1 )[exp( 1 ) 1] (3.31)
Igualando el valor esperado con y la varianza con 2 , y resolviendo el sistema de ecua-
2 + 2
ciones respecto a y , se obtiene = log ( 2 + 2 ) y 1 = log ( 2 ). El centro de D se
2
denota con 0 = (L m +U m)
y 0 = (L s +U s)
. Para encontrar los hiperparametros H, para las a
priori ( 1 , 2 H), se procede de forma tal que
2 2
E( i H) = i ( 0 , 0 ) i = 1, 2 (3.32)
Puesto que la a priori normal-gama tiene cuatro hiperparametros, para especificarlos se

debe anadir 2 ecuaciones. Esto se logra al definir la varianza de los parametros 1 y 2 . De
acuerdo a lo explicado en la primera seccion de este captulo una aproximacion para estas
varianzas es:
max(,)D i (, ) mn(,)D i (, )
2
V ( i H) = ( ) (3.33)
2z
para l = 1, 2. Como ya se explico, la ecuacion anterior esta basada en la desigualdad de

Tchebychev, en donde 2z veces la desviacion estandar cubre basicamente todo el rango de
variabilidad de una variable aleatoria, con z [1 5, 3].
Si ( 1 , 2 ) tiene una distribucion normal-gama(, , m, k), de (3.25) y (3.24), se tiene
que E( 1 H) = m, E( 2 H) = /, V ( 1 H) = k(1) y V ( 2 H) = 2 . De esta mane-

ra igualando estas expresiones con las correspondientes de (3.32) y (3.33), se tienen cuatro
ecuaciones simultaneas con cuatro incognitas (los hiperparametros). Al resolver este siste-
ma se obtiene que:
E( 2 H)
= = E( 2 H) (3.34)
V ( 2 H)

m = E( 1 H) k= (3.35)
( 1) V ( 1 H)
donde E( i H) y V ( i H) estan dados por (3.32) y (3.33).

Al aplicar lo anterior para el caso lognormal. Dadas las anteriores expresiones para los
hiperparametros, la forma de obtener E( i H) y V ( i H) en (3.32) y (3.33), y las expresio-
nes (3.31) de las funciones 1 (, ) y 2 (, ) para el modelo lognormal; por sustitucion
se obtiene que los hiperparametros de la distribucion a priori normal-gama para los dos
parametros del modelo lognormal estan dados por
02 + 02
4z 2 log1 ( )
= 2 y = log ( 02 + 02 )
02

log( L2s +U m2 ) log( U s2 +L2m )
1 1 02

Um2 L 2m

02 4z 2
m = log y k = .
(02 + 02 )1/2 U 2 (U 2 +L 2 )1/2
( 1) log2 ( L 2m (L 2s+U 2m)1/2 )
m s m
En la tabla 3.1 se muestran los resultados de aplicar el procedimiento descrito para ob-
tener los hiperparametros de los modelos normal, lognormal, valor extremo y Weibull. En
este ultimo caso es importante comentar que se hizo 1 = y 2 = , por lo que
3.3. METODO DE MOMENTOS PARA DISTRIBUCIONES CON DOS PARAMETROS 63
1
1 ( 1 , 2 ) = E (X 1 , 2 ) = (1 + ) y

2 1
2 ( 1 , 2 ) = V (X 1 , 2 ) = 2 {(1 + ) 2 (1 + )}

Las ecuaciones resultantes de igualar el valor esperado con y la varianza con 2 , no tienen
solucion analtica en terminos de y . Por ello para encontrar las funciones i , se utiliza
la siguiente funcion auxiliar
E(X , ) (1 + 1 )
g() = = (3.36)
V (X , ) {(1 + ) 2 (1 + )}1/2
2 1
Si a partir de esta funcion se obtiene el valor de para valores dados de y . Entonces este
valor se puede utilizar en 1 ( 1 , 2 ) para obtener el valor de . De esta manera las funciones
i se pueden obtener como sigue

2 [, , ] = { g( ) = 0} (3.37)

1 [, , ] = (3.38)
[1 + 1
2 [,]
]
Notar que la funcion 2 [, ] es igual a , donde es la solucion de g() = 0

Esta solucion se obtiene numericamente sobre los posibles valores de y . Con estas ex-
presiones para las funciones i se obtiene E( i H) y V ( i H) de acuerdo a (3.32) y (3.33),
respectivamente. Y sustituyendo en (3.34) y (3.35), se obtiene los hiperparametros de la tabla
3.1.
Modelo i i mi ki
1 4z 2
Normal 12 1 2 2 0 (U m L m )2 (1)
0 [L s ] 02
02

z

z2
2
log( 0 2 +1)
log ( )
0 02 z2
LogN 1 2
( 02 + 02 )1/2 (1) log 2 ( L 0 )
2 2
log 2 [( 2s +1)( 02 +1) ] log( 02 +1)
U
m
0 0 0
Valor Extremo
z2
2

0 + 0 450 z2
(1)[ 0 L m ]2
0 6[ ] 0 6
0 6 6L s
z 2 (1)1
Weibull z 2 2 (, 0 , 0 )
2 (, 0 , 0 )r 2 (, 0 ,L s )2
2 (, 0 , 0 ) 0
(m 1 (,L m , 0 ))2
[1+ (,1 , ) ]
2 0 0
Tabla 3.1: Calculo de hiperparametros para distribucion n-g(, , m, k).

3.4.
D i s t rDistribuciones
3.4 aopriori
ibuciones a priori n noi vainformativas
i n f o r m at s
La idea distribuciones a priori no informativas surge ya sea porque se conoce poco o nada de los
posibles valores de los parametros de un modelo o porque se quiere hacer inferencia con base en
metodo Bayesianos y se desea solo utilizar la informacion que aportan los datos (dejar que los datos
hablen por s mismos). En el contexto Bayesiano este tipo de metodos se conocen como inferencias
objetivas.
Distribuciones tipo Jeffrey

Distribuciones tipo Jeffrey
Se podra pensar que la distribucion uniforme podra utilizarse en todos los casos como distribucion a
priori no informativa, sin embargo no es as. Una demostracion de esto se puede consultar en seccion
1.3 de Box y Tiao(1973). Una forma muy simple de encontrar distribuciones no informativas es a traves
de los que se conoce como regla de Jeffreys, que establece que la distribucion a priori para una solo
parametro es aproximadamente no informativa si esta es proporcional a la raz cuadrada de la funcion
de informacion o informacion de Fisher (ver seccion 2.7). De esta manera

() I(X)
Por ejemplo si en un modelo normal(, ) se supone conocida , entonces hacer = , y de
acuerdo a (2.30) la log verosimilitud esta dada por
n
l(X) = ( x n )2
2
con lo que al derivar dos veces respecto a a l(X),se obtiene la funcion de informacion:

I(X) = l (X) = n.
Es decir, la funcion de informacion es igual a una constante. Por lo tanto la distribucion a priori para
es proporcional a una constante: () c, en todo el soporte de . Esto hace impropia a esta
distribucion, ya que su integral no da uno. Pero lo que importa es que la distribucion posterior sea
propia. Por lo tanto en este caso, dado (2.30) la distribucion posterior de estara dada por:
(X) L(X)()
n
exp [ ( x n )2 ]
2
que salvo una constante corresponde a una distribucion normal con media x n y varianza (n)1
Si por el contrario en el modelo normal(, ) se supone conocida , entonces de (2.28) se obtiene
que log verosimilitud esta dada por
n log() n s n
l(X) = ( x n )2
2 2 2
con lo que al derivar dos veces respecto a a l(X),se obtiene la funcion de informacion:
n 2

I(X) = l (X) =
2
por lo que la distribucion a priori no informativa tipo Jeffreys en este caso es del tipo
() 2
Distribuciones de Referencia
Distribuciones de referencia
Al seguir la idea de las a priori tipo Jeffreys en el sentido de que la eleccion de la a priori afecte lo
menos posible a la distribucion posterior, en los anos recientes se ha desarrollado lo que se conoce
como analisis de referencia (ver Bernardo y Smith, 1994; y Bernardo, 2003). Suponer que el modelo
que genera los datos es de la forma f (x, ), donde es un vector de parametros espurios (que no
interesan) adecuadamente elegidos. Para obtener la distribucion posterior de la cantidad de interes
f (X) es necesario especificar la distribucion a priori conjunta f (, ) de forma tal que esta tenga
un efecto mnimo sobre la distribucion posterior de
f (X) L(X, ) f (, )d

Si consideramos un parametro, y si t = t(X) T es un estadstico suficiente. En la teora de la in-
formacion de Shannon la cantidad de informacion I {T, f ()} que se puede esperar que proporcione
los datos X sobre , esta definida por
f (t, ) f (t)
I {T, f ()} = f (t, ) log ddt = E t [ f (t) log d]
T f (t) f () f ()
que es la esperanza del logaritmo de la divergencia entre la posterior y la distribucion a priori. Esta
es naturalmente una funcional de la distribucion a priori f (), de tal forma que a mayor informacion
de la a priori, menor sera la informacion que los datos puede proporcionar. La funcional I {T, f ()}
es concava, no negativa e invariante bajo transformaciones una a uno de
Si se tienen k realizaciones independientes {t 1 , , t k } del experimento original. Conforme k
, tal que un experimento proporcionara cualquier informacion perdida acerca de . As, confor-
me k , el funcional I {T, f ()} se aproximara a la informacion perdida acerca de asociada
con la a priori f () Intuitivamente una a priori no informativa de , es aquella que maximiza la
informacion perdida acerca de Formalmente, si k () denota la densidad a priori que maximiza
I {T k , ()} en la clase P de distribuciones a priori estrictamente positivas que sean compatibles con
las suposiciones aceptadas sobre , entonces la distribucion a priori de referencia () es el lmite de
la secuencia de a prioris k ()
3.5.P r e gPreguntas
3.5
y Ejercicios
1. Sobre la especificacion de distribuciones a priori, conteste:
a) Que son los hiperparametros de una distribucion a priori, y por que es necesarios es-
pecificarlos para poder obtener la distribucion posterior?
b) En terminos generales en que consiste el metodo de especificar las a prioris en la seccion

3.1?
c) Cuando se recomienda usar distribuciones a priori no informativas?
d) Que son las distribuciones a priori de referencia?
2. Suponer que en el problema del ejercicio 2.5 se cree que p esta en [0 01, 0 08]. Aplicar el
metodo descrito en la seccion 3.1, y obtener una distribucion a priori beta y compararla contra
la verosimilitud. Comentar las diferencias.
3. Si en una aplicacion se tiene la distribucion binomial-negativa como modelo, conteste:
a) Proponga una distribucion a priori conjugada para este modelo.
b) Si utilizara la distribucion beta como a priori, servira el metodo descrito para obtener
sus hiperparametros para el modelo binomial, para este caso. Argumente.
4. Al suponer una distribucion hipergeometrica como modelo, que tipo de distribucion a priori
se requerira para este modelo?
5. Respecto al problema del ejercicio 2.12 se cree a priori que se encuentra entre [80, 130].
a) Obtener y graficar una distribucion a priori al aplicar el procedimiento descrito en la
seccion 2.1 (utilizar z = 2)
b) Si se compara esta distribucion contra el histograma de los datos, parece congruente la
distribucion a priori con lo observado.
6. Para el problema 2.15 se cree a priori que la media se encuentra entre [280, 285] y la varianza
entre [40, 150]. Utilizar z = 2 y aplicar el procedimiento descrito en la seccion 3.2 para obtener
la distribucion a priori normal-gama(, )
7. Dado que la distribucion de probabilidad Pareto esta dada por
f (x) = x (+1) , con x 1 y > 0

a) Obtener E(x) y V (x)
b) Que estructura tendra que tener una distribucion a priori para que fuera conjugada
respecto a este modelo?
c) Sea una distribucion a priori gama donde se da un intervalo inicial donde se espera
este , entonces aplicar el procedimiento general descrito en la seccion 3.1 y obtener las
expresiones para la distribucion Pareto.
8. El tiempo de vida de anaquel de un cierto tipo de pan en das es:
Periodo Frecuencia
[0, 2) 8
[2, 4) 9
[4, 6) 1
[6, 8) 5
[8, ) 2
3 . E s PREGUNTAS
3.5. p e c i f i c ac i n d eYdEJERCICIOS
istribuciones a priori 79
67
a) Encontrar una distribucion a priori si se cree que los datos provienen de un modelo
exponencial, y si el experto provee el intervalo [L , U ] = [0 25, 0 45], usar z = 2.
b) Se puede considerar compatible la distribucion a priori con los datos observados?
9. Que son las distribuciones a priori tipo Jeffreys? Cuando se aplican?

10. Sobre las distribuciones de referencia para los modelos Binomial y Poisson, conteste:
a) Cual es la forma de estas?

b) Las distribuciones de referencia son del tipo Jeffreys?
12. Si en una aplicacion del modelo binomial se cree que p esta en [0 10, 0 25], muestre distri-
buciones Beta diferentes en su forma que se podran usar como a priori en forma razonable
dada esta informacion.
13. El siguiente modelo se ha utilizado para modelar longitudes de variables aleatorias continuas.
f (x ) = 2 xe x/ ; > 0, x > 0
Se puede demostrar que E(x) = 2. Se suele utilizar una distribucion a priori gama inversa
para , ver (3.19). Si se da un intervalo a priori donde se espera este la media de x, obtener el valor
de los hiperparametros para esta distribucion (aplicar el procedimiento descrito al inicio del presente
captulo).
4. I nferencia
pa r a lo s m o d e lo s m s u s ua l e s
Captulo 4
Inferencia para los Modelos mas

Usuales
En este captulo se presentan los aspectos fundamentales para hacer inferencias con los modelos mas
usuales en estadstica. Especficamente se ven los modelos Binomial, Poisson, Exponencial y Normal.
4.1. Modelo Binomial

4 . 1 M o d e lo b i n o m i a l
Ya se vio en la seccion 2.1 que el modelo Binomial se utiliza para describir la variabilidad del numero
de exitos en n ensayos de tipo Bernoulli, y que su funcion de densidad de probabilidades esta dada
por (2.4):
n
f (xp) = ( )p x (1 p)nx con x = 0, 1, 2, . . . , n
x
Si se efectuan k experimentos binomial, con tamanos n 1 , ..., n k , y se observan, respectivamente, los
siguientes exitos: x 1 , ..., x k . La correspondiente verosimilitud esta dada por (2.5)
k k
L (pX) p x (1 p)nx , x = xi y n = ni
i=1 i=1
Como distribucion a priori para el parametro p se debe tener un soporte en [0, 1] y que de una buena
flexibilidad. Es practica usual utilizar la densidad Beta(, ), debido a su flexibilidad y a que es una
distribucion conjugada para el modelo binomial. La densidad Beta(, ) esta dada por:
( + ) 1
(p) = p (1 p) 1 con 0 p 1
() ()
con

E(p) = y V (p) =
+ ( + )2 ( + + 1)
[81]
69
70 CAPITULO 4. INFERENCIA PARA LOS MODELOS MAS USUALES
La flexibilidad de la densidad Beta se muestra en la Figura 4.1, donde se aprecia diferentes formas
que puede tomar esta densidad dependiendo del valor de los parametros. De hecho la distribucion
uniforme [0, 1], que se utilizara cuando no se sabe nada a priori del parametro p, es un caso particular
de la distribucion Beta cuando = 1 y = 1, como se aprecia claramente en la figura 4.1
Figura 4.1
Densidades tipo beta con parmetros y diferentes
Figura 4.1: Densidades tipo Beta con parametros y diferentes
De esta manera si se utiliza como a priori una distribucion beta, la distribucion posterior para p
es proporcional a L(pX)(p), es decir:
( + ) 1
(pX) p x (1 p)nx p (1 p) 1
()()
p +x1 (1 p) 1+nx
Esta ultima expresion, salvo por una constante, corresponde a una distribucion beta con = + x
4.1. MODELO BINOMIAL 71
y = + n x. Por lo tanto
( + ) 1
(pX) = p (1 p) 1 (4.1)
( )( )
y

E(pX) = y V (pX) = .
+ ( + )2 ( + + 1)
Ejemplo 4.1 Del ejemplo 2.1 de la proporcion de fumadores., donde de una muestra de n = 100, se
detectaron x = 20 fumadores. Al tomar en cuanta solo la verosimilitud (ver figura 2.1) se encontro que
los valores mas verosmiles de p a un nivel c = 0 15 estan entre 0 130 y 0 285. Si este problema se ve
en forma Bayesiana, se necesita definir una distribucion a priori para p. Para ello si a priori se cree que
p esta entre [0 1, 0 3]. Entonces al aplicar el metodo descrito en la subseccion 3.1.2, en particular las
ecuaciones (3.7) y (3.8) con z = 2, se tiene que = 12 6 y = 50 4.
En la figura 4.2 se muestra la verosimilitud relativa, la distribucion a priori y la distribucion pos-

terior. Una manera de resumir la distribucion posterior es mediante un intervalo o region de probabi-
lidad que tenga una cobertura 1 . En el caso de los fumadores el intervalo de probabilidad a un 95 %
es [0 1424182, 0 2645499]. El cual comparandolo con el de la verosimilitud a un nivel c = 0,15 que
fue de [0 130, 0 285] y con el de la a priori de [0 1116378, 0 3063666] es mas corto, esto significa
que la incertidumbre es menor al utilizar la inferencia Bayesiana sobre p. En suma lo que se sabe del
porcentaje de fumadores es que esta entre el 14 % al 26 % con una probabilidad del 95 %. Si se quisiera
disminuir esa incertidumbre se tendra que tomar mas datos.
Cabe senalar que el intervalo de probabilidad posterior se ha obtenido mediante los cuantiles
0.025 y 0.975 de la distribucion posterior (pX), que si se denotan por q 0,025 y q 0,975 , respectivamente.
Entonces Pr(q 0,025 < p < q 0,975 ) = 0,95. Cabe senalar, que existen muchas otras maneras de elegir un
intervalo que tenga una probabilidad de 0.95, por lo que esto se convierte en un problema de decision
que se trata con mayor detalle en la seccion 5.4.
En ocasiones, en lugar de hacer inferencias sobre el parametro, se quiere hacer inferencias sobre
la variable (como sera el caso en una carta de control np, por ejemplo, ver captulo 9). En el caso
del ejemplo sera hacer inferencia sobre el numero de fumadores esperados en un muestra futura de
cierto tamano. Para ello, como se vio en la seccion 1.4 se utiliza la distribucion posterior predictiva.
Que para el caso del modelo Binomial estara dada por:
1
f (yX) = f (y)(X)d
0
1 N ( + ) 1
= ( )p y (1 p) Ny p (1 p) 1 d p
0 y ( )( )

N ( + ) 1
=( ) p +y1 (1 p) +Ny1 d p
y ( )( ) 0
El integrando salvo por una constante, es una distribucion beta. Por ello completado esta, la integral
sera uno, y por lo tanto la distribucion posterior predictiva para el modelo binomial esta dada por:
N ( + ) ( + y) ( + N y)
f (yX) = ( ) (4.2)
y ( )( ) ( + + N)
Figura 4.2
Funciones de la proporcin de fumadores
Figura 4.2: Funciones de la proporcion de fumadores

4.2. MODELO POISSON 73
Al seguir el ejemplo de los fumadores, se tendra que = 32 6, = 130 4, x = 20, n = 100, y se

obtiene:
N (163) (32 6 + y) (130 4 + N y)
f (y X) = ( )
y (163 + N) (32 6)(130 4)
Si se toma otra muestra de N = 100 personas, entonces la probabilidad de encontrar y fumado-
res se muestra en la grafica de f (yX) de la figura 4.2d. Tambien se podra resumir la distribu-
cion posterior predictiva mediante un intervalo de probabilidad. Si se opta por obtener los cuantiles
q 0,025 y q 0,975 , entonces Pr(q 0,025 y q 0,975 ) = 0,95. Por la naturaleza discreta de y, se debe cum-
plir que Pr(y < q 0,025 ) = 0,025 y Pr(y q 0,975 ) = 0,975. En el programa 5 del apendice se muestra
una rutina computacional para obtener el intervalo. Que en el caso del numero de fumadores en una
muestra de 100 estudiantes el intervalo es [10, 30].
4.2. Modelo Poisson

4 . 2 M o d e lo p o i s s o n
Ya se vio en la subseccion 3.1.3 que el modelo Poisson esta dado por
e x
f (x) = con > 0 y x = 0, 1, 2, . . .
x!
Si se observan n experimentos Poisson la verosimilitud esta dada por:
n
L (X) e n r , r = xi
i=1
La distribucion a priori usual conjugada para el parametro esta dada por la distribucion gama:
1
() = e con > 0, > 0
()
donde E (, ) = y V (, ) = 2 . De acuerdo al metodo descrito en el capitulo 3, dado el

intervalo inicial para , [L , U ] el valor de los hiperparametros de la a priori gama estan dados por:
2z 2 (L + U )
=
(U L )2
z (L + U ) 2
=( )
U L
De esta manera si se utiliza como a priori una distribucion gama, la distribucion posterior para es
proporcional a L(X)(), es decir:
1
(X) e n r e
()
(+r)1 e (+n)
Esta ultima expresion, salvo por una constante, corresponde a una distribucion Gama con = + r
y = + n. Por lo tanto

( )
(X) = a 1 e (4.3)
( )

E(X) = y V (X) = 2 .

Ejemplo 4.2 En una fabrica de muebles se inspecciona meticulosamente el acabado de las mesas cuando
salen del departamento de laca. La cantidad de defectos que son encontrados en cada mesa son regis-
trados con el fin de conocer y mejorar el proceso. Es razonable suponer una distribucion Poisson para le
numero de defectos por mesa. De acuerdo a informaciones previas se cree que anda entre 3 y 7 por lo
que con z = 2 la a priori tiene parametros = 25 y = 5. En la inspeccion de 15 mesas se obtuvieron los
siguientes defectos: 7, 5, 10, 2, 6, 5, 4, 9, 7, 5, 6, 7, 8, 4, 5. De aqu que r = 90, n = 15.
En la figura 4.3 se muestra la verosimilitud relativa, la distribucion a priori y la distribucion poste-
rior para . Incluye intervalo de probabilidad al 95 % que en el caso de la posterior es [4 747215, 6 847441].
El cual comparandolo con el de la verosimilitud al c = 0 05 que fue de [4 5821, 7 684] y con el de
la a priori de [3 235736, 7 142019] es mas estrecho, esto significa que la incertidumbre es menor al
utilizar la inferencia Bayesiana sobre . De esta manera lo que se sabe sobre , que es el promedio de
defectos en las mesas, es que este promedio esta entre [4 747215, 6 847441]. Este es un promedio, y
no se refiere al numero de defectos por cada mesa. Si se quiere tener informacion por mesa, entonces
en lugar de hacer inferencias sobre el parametro , se requiere hacer inferencias sobre la variable x.
Retomando el ejemplo seria el numero de defectos por mesa. Para ello, como se vio en el seccion 1.4
se utiliza la distribucion posterior predictiva. Que para el caso del modelo Poisson estara dada por:

f (yX) = f (y)(X)d
0

e y
= 1 e b d
0 y! ( )

=
)
e (1+ +y1 d
y! ( ) 0

El integrando salvo por una constante, es una distribucion gama. Por ello completado esta, la integral
sera uno, y por lo tanto la distribucion posterior predictiva para el modelo Poisson esta dada por:

( + y)
f (yX) = (4.4)
y! ( ) ( + 1) +y
Esta distribucion nos da la probabilidad posterior de ver y conteos en un experimento Poisson
(por ejemplo ver y defectos en una mesa). Esta distribucion se conoce como Poisson-Gama( , , 1)
o bien Poisson-Gama( + r, + n, 1). Y tiene

E(y) =

+r
=
+n
Figura 4.3
Funciones para el nmero de defectos
Figura 4.3: Funciones para el numero de defectos

1
V (y) = [1 + ]

+r 1
= [1 + ]
+n +n
Al seguir el ejemplo anterior, se tendra que = 115, = 20, y la grafica de f (y X) se muestra
en la figura 4.3
20 115 (115 + y)
f (y X) = ( )
21 y! (115) 21 y
La distribucion predictiva tambien se puede resumir a traves de un intervalo de probabilidad,
que en este caso con 95 % de cobertura esta dado por [1, 10], es decir, Pr(1 y 10) = 0,95. Por lo
que el numero esperado de defectos por mesa es de 1 a 10, con una probabilidad del 95 %.
4.3. Modelo Exponencial

4.3 M o d e lo E x p o n e n c i a l
Se vio en la subseccion 2.2.1 que el modelo Exponencial esta dado por
1 1 x
f (x) = e ; > 0, x>0

Uno de los usos frecuentes de este modelo es para modelar tiempos de vida, en ese caso, el
parametro se interpreta como el tiempo promedio de vida. La verosimilitud con n experimentos
exponenciales esta dada por:
n
L (X) n e , s = xi
s
i=1
La distribucion a priori usual conjugada para el parametro esta dado por la distribucion gama
inversa(, ):
1 /
() = e con > 0, > 0
()
donde E() = 1 y V () = (1)2 (2) . De acuerdo al metodo expuesto en el capitulo 3, dado un
2

intervalo [L , U ] para , los hiperparametros para la a priori estan dados por:

z 2 (U + L )2
= +2
(U L )2
U + L
= ( 1) ( )
2
De esta manera la distribucion posterior esta dada por
(X) n e 1 e /
s
n1 e /
s
4.3. MODELO EXPONENCIAL 77
que salvo por una constante corresponde a una distribucion gama inversa con parametros a = + n
y b = + s. Con lo que
b a a1 b/
(X) =
e
(a)
Para encontrar cuantiles de esta distribucion se puede aprovechar el hecho de que si se distribuye
gama inversa, entonces = 1/ se distribuye gama(, ), por lo tanto es facil demostrar que si x es
el cuantil de la distribucion gama(, ), entonces 1/x es el cuantil (1 ) de la distribucion gama
inversa.
La distribucion posterior predictiva. Para hacer inferencias sobre la variable aleatoria (tiempo de
vida, por ejemplo) se requiere la distribucion posterior predictiva, que para este caso estara dada por:

f (yX) = f (y)(X)d
0
1 1 y b a a1 b/
= e e d
0 (a)
ba
= (a+1)1 e (y+b) d
1
(a) 0
Al completar en una densidad gama inversa en el integrando, se obtiene que:
b a (a + 1) 1
f (yX) =
(a) (b + y)(a+1)
= ab a (b + y)(a+1) (4.5)
Esta distribucion se conoce como Exponecial-gama inversa(a, b, 1). Y tiene

b
E(y) =
a1
+s
=
+n+1
ab 2
V (y) =
(a 1)2 (a 2)
( + n) ( + s)2
=
( + n 1)2 ( + n 2)
Para calcular probabilidades para y es util contar con la predictiva posterior acumulada, que esta dada
por
x
F (xX) = f (yX) d y
0
x
ab a ba
= [ a] =1 (4.6)
a (b + y) 0 (b + x) a
De aqu se puede obtener la funcion cuantil: x p = F 1 [p], con p (0, 1), con la que se puede obtener
intervalos de probabilidad para valores especficos de p. Para ello sea
ba
1 =p
(b + x p ) a
despejando de aqu x p , se obtiene que:
1/a
1
xp = b ( ) b. (4.7)
1 p
Ejemplo 4.3 Los siguientes datos representan tiempos de falla del equipo de aire acondicionado de un
aeroplano (ver Prochan, 1963). Ver programa 6.
1, 3, 5, 7, 11, 11, 11, 12, 14, 14, 14, 16, 16, 20, 21, 23, 42,
47, 52, 62, 71, 71, 87, 90, 95, 120, 120, 225, 246, 261
Si se cree que esta entre [30, 80], al tomar z = 2, se tiene que la a priori tiene parametros = 21 36,
y = 1119 8. Ademas como s = 1788, n = 30, entonces a = 51 36, b = 2907 8. En la figura 4.4 se
muestra la verosimilitud relativa, la distribucion a priori y la distribucion posterior. Incluye intervalo de
probabilidad al 95 % para la distribucion posterior que es [43 8396, 75 955]. Al comparar este con el de
la verosimilitud con c = 0 15 que fue de [42,6, 86,98] y con el de la a priori de [35 747, 84 309] , es
bastante mas estrecho. As que lo que se sabe sobre (el tiempo medio de falla), es que con probabilidad
del 95 %, este anda entre [43 8396, 75 955]. Por otro lado, si se quisiera saber donde se espera el tiempo
de falla de un producto individual, entonces se requiere obtener un intervalo de probabilidad para la
distribucion posterior predictiva, que se puede obtener con la funcion cuantil de la predictiva (4.7). Por lo
que dada la forma de la densidad de la figura 4.4d, solo se obtiene para la parte superior con p = 0,95, en
ese caso se espera que con probabilidad 95 % el tiempo de falla este entre 0 y 174.6505. Con la acumulada
de la predictiva (4.6) se pueden obtener probabilidades especficas, por ejemplo la probabilidad de que
un equipo dure funcionando mas de 100 horas. Esta probabilidad esta dada por
ba
1 F (100X) = = 0 176
(b + 100) a
Ejemplo 4.4 Durante una prueba de vida acelerada para determinar la confiabilidad de un producto,
debido a que no es posible hacer una inspeccion continua para evaluar si el producto aun esta en buenas
condiciones, se hace inspeccion por intervalo. Se ponen a prueba un total de 42 unidades, y cada cinco
das se hace una revision para evaluar cuantas unidades fallaron desde la ultima inspeccion. La prueba
se suspende a los 20 das, y a esa fecha 5 productos aun no haban fallado, por lo que se consideran como
censurados por la derecha. Los datos son:
Intervalo Numero de productos que fallaron
(0, 5] = (x o , x 1 ] 16
(5, 10] = (x 1 , x 2 ] 10
(10, 15] = (x 2 , x 3 ] 7
(15, 20] = (x 3 , x 4 ] 4
Mas de 20 (x > x 4 ) 5
Figura 4.4
Funciones para el problema de aire acondicionado
Figura 4.4: Funciones para el problema de aire acondicionado

Al suponer un modelo exponencial, ver (2.11), lo primero que se quiere tener es informacion sobre
el parametro del modelo. De acuerdo a (2.23) y a (2.17), la verosimilitud esta dada por:
L(X) = e 280 (1 e 5 )
1 1 37
Si ademas se cree que esta entre [8, 16], se tiene que su distribucion a priori gama inversa
tiene parametros = 38, = 444. De esta manera la distribucion posterior para es proporcional a
L(X)(), es decir:
1 /
(X) e 280 (1 e 5 )
1 1 37
e
()
e (280+) (1 e 5 ) 1
1 1 37
Para hacer de esta distribucion una densidad de probabilidad la multiplicamos por la constante
c y su integral da
1 810 081899
ce 724 (1 e 5 ) 39 d =
37

1 1
c
0 1 3454 1085
al igualar este resultado a 1, se obtiene
1 3454 1085
c=
1 810 081899
y su distribucion posterior esta dada por
1 3454 1085 1 724

(X) = (1 e 5 ) 39
1 37
e
1 810081899
En la figura 4.5 se muestra la verosimilitud relativa, la distribucion a priori y la distribucion

posterior. Incluye intervalo de probabilidad al 95 % para (X) que es [8 7027, 15 73229]. El cual
comparandolo con el de la verosimilitud que fue de [6 726919, 15 22981] y con el de la a priori de
[8 706, 16 511] es mas estrecho con lo que la incertidumbre es menor al utilizar la inferencia Baye-
siana sobre .
La distribucion posterior predictiva. Que para el problema anterior estara dada por:

f (yX) = f (y)(X)d
0
1 1 y 1 3454 1085 1 724

= (1 e 5 ) 39 d
1 37
e e
0 1 810081899
1 3454 1085
= e (724+y) (1 e 5 ) 40 d
37

1 1
1 810081899 0
Resolviendo numericamente se obtiene f (yX) y su grafica se encuentra en la figura 4.5d.

Figura 4.5
Funciones para confiabilidad del producto
Figura 4.5: Funciones para confiabilidad del producto.

4.4.
M o d Modelo
4.4 e lo N o r m aNormal
l
En el captulo 2 ya habamos visto que el modelo normal juega un papel muy importante en muchas
aplicaciones de la estadstica tradicional. Sea aqu como se hace la inferencia Bayesiana para el este
modelo. La densidad para una distribucion normal (, ), esta dada por
1/2
f (x, ) = ( ) exp [ (x )2 ]
2 2
con < x < +, < < +, > 0. De acuerdo a (2.28) la verosimilitud para el modelo
normal esta dada por:
n/2 s n
L(, X) = ( ) exp [ n( x n )2 ] exp [ ] (4.8)
2 2 2
con x n = n1 ni=1 x , s n = ni=1 (x x n )2 .
Como ya se dijo en el captulo 3, debido a que es conjugada, se suele utilizar como distribucio-
nes a priori para los parametros del modelo normal (, ), una distribucion normal-gama. Donde
la distribucion condicional de dado es normal (m, k) y la distribucion marginal de es una
gama(, ), por lo que:
k 1/2 k
(, , , m, k) = ( ) exp [ ( m)2 ] exp() 1 (4.9)
2 2 ()
con , , k > 0. Se va a requerir la distribucion t-Student con tres parametros: grados de libertad,
parametro de localizacion m y precision , que esta dada por
[( + 1)/2] 1/2 (+1)/2

f (xm, , ) = ( ) [1 + (x m)2 ] . (4.10)
[/2][1/2]
La media y varianza son
E(xm, , ) = m
1
V (xm, , ) = , si > 2.
( 2)
Teorema 4.1 Bajo los anteriores supuestos vamos a demostrar que:

a) La distribucion marginal de es una t-Student con 2 grados de libertad, parametro de
localizacion m y precision k/.
b) La distribucion posterior es normal-gama(, ) con parametros (m , k , , ), donde
= + n2 , = + s2n + nk(x n m)
, m = nxk+n
n +km
, k = k + n.
2
2(k+n)
c) Respecto a las marginales posteriores: para es una gama( , ) y para es una t-

Student con 2 grados de libertad, parametro de localizacion m y precision k / .
d) La densidad posterior predictiva f (yX) es t-Student con tres parametros: 2 grados de
libertad, localizacion m y precision = k /( (k + 1)).
4.4. MODELO NORMAL 83
En terminos general la distribucion t-Student con tres parametros(m, , ), esta dada por
( 21 ( + 1)) 1/2 2 +1
f (y X) = ( ) [ (y m)2 + 1] (4.11)
() (1/2)
Ademas sabemos, (ver Bernardo y Smith, 1994, pag. 123), que si y se distribuye tStudent(m, , ),
entonces z = 1/2 (y m) se distribuye t-Student estandar (0, 1, ). Es precisamente la distribucion
t-Student estandar la que viene incluida en la mayora de los programas estadsticos computacionales,
con lo que se facilita el trabajo con esta distribucion.
Demostracion. a). De la distribucion conjunta (, , , m, k), es claro que la marginal () esta da-
da por
k 1/2 k
() = ( ) exp [ ( m)2 ] exp() 1 d
0 2 2 ()
k 1/2 k
= ( ) exp [ ( ( m)2 + )] (+1/2)1 d
() 2 0 2
Al hacer el siguiente cambio z = ( k2 ( m)2 + ), y = + 1/2, se obtiene
k 1/2
() = ( ) exp [z] y1 d
() 2 0
La expresion en la integral, salvo por una constante, corresponde a una densidad gama(y, z). Por lo
tanto al completar la densidad gama se obtiene:
(y) k 1/2 y z y
() = ( ) z exp [z] z y1 dz
() 2 0 (y)
La integral de la densidad en todo el soporte es igual a uno, por lo que:
( + 21 ) k 1/2 k (+1/2)
() = ( ) ( ( m)2 + )
() 2 2
( 21 (2 + 1)) k
1/2
k
2+1
= ( ) ( ( m)2 + 1)
2
( 2 (2))
1 2 2
Al buscar que las expresiones 2 y k/ queden explcitas, se obtiene que:
( 21 (2 + 1)) k/
1/2
2+1
() = ( ) [(2)1 (k/) ( m)2 + 1] 2
(4.12)
( 21 2) 2
Esta funcion corresponde a una densidad t-Student con tres parametros: 2 grados de libertad, loca-
lizacion m y precision k/, (ver Bernardo y Smith, 1994). Que es lo que se quera demostrar.
Demostracion. b). Como la distribucion posterior para (, ) es proporcional a L(X, , M)(, ),
y dadas (4.8), (4.9) y al eliminar las constantes y simplificar se obtiene
sn
(, X) exp [ (n( x n )2 + k( m)2 )] exp [ ( + )]
(+ n+1
2
)1
2 2
sea h = n( x n )2 + k( m)2 , si se expande
h = km 2 2nx n 2km + k 2 + n 2 + nx 2n
al agrupar los terminos de
h = (km 2 + nx 2n ) (nx n + km) 2 + (k + n) 2
se factoriza (k + n)
nx n + km
h = km 2 + nx 2n + (k + n) ( 2 2)
k+n
y al completar binomio cuadrado con m = nx n +km
k+n
h = km 2 + nx 2n m2 (k + n) + (k + n) ( 2 m 2 + m2 )
= km 2 + nx 2n m2 (k + n) + (k + n) ( m )
2
y al simplificar con B = nk(x n m)2

(k+n)
h = B + (k + n) ( m )
2
De aqu que
sn
(, X) exp [ (B + (k + n) ( m ) )] exp [ ( + )]
2 (+ n+1
2
)1
2 2
al reagrupar
(k + n) sn B
(, X) exp [ ( m ) ] exp [ ( + + )]
(+ n+1 )1
2
2
2 2 2
B
al hacer = + n2 , = + sn
2
+ 2
=+ sn
2
+ nk(x n m)2
2(k+n)
, k = k + n se obtiene
k
(, X) exp [ ( m ) ] exp [ ] 1
2
2
que salvo por una constante es una distribucion normal-gama con parametros (m , k , , ). Por
lo que

k k
1/2

(, X) = ( ) exp [ ( m )2 ] exp( ) 1 (4.13)
2 2 ( )

que es lo que se quera demostrar.

Demostracion. c) De (4.13) es facil obtener las marginales posteriores. Primero para

k k
1/2

(X) = ( ) exp [ ( m )2 ] exp( ) 1 d
2 2 ( )

k k
1/2
1
= exp(
) ( ) exp [ ( m )2 ] d
( ) 2 2
como la integral es 1 por ser una distribucion normal (m , k )

(X) = exp( ) 1 (4.14)
( )
que corresponde a una distribucion gama( , ). Respecto a

k k
1/2

(X) = ( ) exp [ ( m )2 ] exp( ) 1 d
0 2 2 ( )
al reagrupar los terminos y sacando las constantes

k k
1/2
( 1 )1
(X) = ( ) exp [ ( ( m )2 + )] + 2 d
2 ( ) 0
2
k
al hacer z = + 21 , w = 2
( m )2 + se obtiene

k
1/2
(X) = ( ) exp [w] z1 d
2 ( ) 0
la integral salvo por una constante es una distribucion gama (z, w)

k (z) z w z
1/2
(X) = ( ) w exp [w] z1 d
2 ( ) 0 (z)
como la integral es uno. Con lo que
2 +1
k
1/2
( + 21 ) k
(X) = ( ) [ ( ) + ]
2
2
m
2 ( ) 2
2 +1
k
1/2
( + 21 ) k

=( ) ( ( ) +
2
2
m 1) 21
2 ( ) 2
que corresponde a una distribucion t-Student con tres parametros: 2 grados de libertad, localiza-
cion m y precision k / , que es lo que se quera demostrar.
Demostracion. d) Respecto a la distribucion posterior predictiva se tiene que
k k
1/2
1/2
f (y X) = ( ) exp [ (y )2 ] ( ) exp [ ( m )2 ]
0 2 2 2 2

exp( ) 1 d d
( )

al sacar las constantes se ve que para la primera integral

k
R= exp [ (y )2 ( m )2 ] d
2 2
luego al factorizar

R= exp [ ((y )2 + k ( m )2 )] d
2
sea z = (y ) + k ( m ) , al expandirlo se obtiene
2 2
z = y 2 2k m 2y + 2 + 2 k + k (m )2
al agrupar los terminos de
z = (y 2 + k m2 ) 2 (m k + y) + 2 (1 + k )
m k + y
= (y 2 + k m2 ) + (1 + k ) (2 ( ) + 2 )
1 + k
al completar el binomio cuadrado se obtiene
k (y m )
2
w=
k + 1
k m +y

q=
1 + k
z = w + (1 + k ) ( q)2
por esto

R= exp [ (w + (1 + k ) ( q)2 )] d
2
al mover las constantes fuera de la integral, se tiene que
(1 + k )
R = exp [ w] exp [ ( q)2 ] d
2 2
que salvo por una constante, la integral es una distribucion normal (q, (1 + k )), al completar la
integral
(1 + k ) (1 + k )
1/2 1/2
2
R = exp [ w] ( ) ( ) exp [ ( q)2 ] d
2 (1 + k ) 2 2
como la integral es uno, se obtiene

1/2
2
R = exp [ w] ( )
2 (1 + k )
de aqu que

k
1/2
1 2
f (y X) =
[ ( )
( ) 2 0
exp( ) exp w] d
2 (1 + k )
al sacar las constantes y reagrupar, se obtiene


k
1/2
1 2 +1
f (y X) = ( ) exp [ ( + w)] 2 1 d
( ) 2 (1 + k ) 0 2
La integral tiene la forma de una densidad gama. Al completar e integrar, se obtiene que

k
1/2 ( 2 2 +1 )
f (y X) = ( )
( ) 2 (1 + k )
2 +1
( + 21 w) 2

( 2 2 +1 ) k
1/2
1
2 +1
= ( ) ( + w)
2
( ) 2 (1 + k ) 2
al sustituir el valor de w, y avanzar en completar una densidad t Student, se tiene que

( 2 2 +1 ) k
1/2
1 k (y m )
2 2 2 +1
f (y X) = ( ) [ (1 +

)]
( 21 2 ) 2 (1 + k ) 2 (k + 1)

( 2 2 +1 ) k
1/2
1 k (y m )
2 2 2 +1
= ( ) [ (1 +

)]
( 21 2 ) 2 (1 + k ) 2 (k + 1)
si se define = k /( (k + 1)), entonces

( 2 2 +1 ) k
1/2
2 2 +1 2 +1
f (y X) = ( ) [1 + (y m )2 ]
2

( 21 2 ) 2 (1 + k ) 2
2 +1
( 21 (2 + 1))
1/2
= ( ) [1 + (y m )2 ]
2
(4.15)
( 2 2 ) [1/2] 2
1 2
Esta funcion corresponde a una densidad t-Student con tres parametros: 2 grados de libertad, lo-
calizacion m y precision , que es lo que se quera demostrar.
Ejemplo 4.5 Las especificaciones para el peso (en gramos) de un producto son 350 10. A priori se cree
que la media del peso esta entre [345, 355] y la varianza en [4, 20]. Para evaluar el cumplimiento de
especificaciones se toma una muestra aleatoria de n = 25 productos. Los datos son los siguientes. Ver
programa 7.
344.9 355.6 345 352.1 348.2
349.1 346.1 344.9 348.7 348.3
347.1 348.8 350.8 352.7 351.1
341.4 350.6 346 352.3 344.1
349.7 348.6 345.9 350.8 348.7
con x n = 348 46, s n = 247 94. Con estos datos y de (4.8) se obtiene que la verosimilitud conjunta
para (, )
n/2
L(, X) = ( ) exp [12 5( 348 46)2 ] exp [123 97]
2
Se puede ver (de 2.29) que los estimadores de maxima verosimilitud para (, ) estan dados por
= 348 46, = 0 1009
con lo que la verosimilitud relativa para el ejemplo toma la siguiente forma
12 5
R(X, , M) = ( ) exp [12 5( 348 46)2 ] exp [123 97 ( )]

Como en el ejemplo Lv = 4, Uv = 20, y L m = 345, U m = 355, z = 2. De acuerdo a (3.27, 3.28,
3.30, 3.29) se obtiene que los hiperparametros de la distribucion a priori normal gama estan dados
por = 11, = 120, m = 350, k = 1 92. De aqu se obtienen las marginales a priori como se ha
indicado en el teorema anterior. Tambien las posteriores (ver programa 7). Las graficas de las posibles
funciones de interes en este problema se muestran en la figura 4.6. En las graficas univariadas se
muestra graficamente el intervalo al 95 % de probabilidad para cada caso. Por ejemplo para el caso de
la posterior predictiva, este intervalo es [341.94, 355.12]. Es decir, se espera que el 95 % de los productos
tengan un peso en ese rango. El porcentaje de producto que se espera dentro de las especificaciones
[340, 360], es de 99.32 %.
4.5.
P r e gPreguntas
4.4 u n ta s y e j e rc iy
c i Ejercicios
os
1. Explicar como se obtiene la distribucion posterior de un parametro y la distribucion posterior

predictiva; que significa cada una de ellas y cuando se utilizan.
2. Encontrar la distribucion posterior para p en un modelo binomial si se supone como a priori
una distribucion uniforme(, ), con 0 < 1
3. Dado que la distribucion de probabilidad Pareto esta dada por f (x) = x (+1) , con x 1
y > 0 Suponer una a priori gama(, ) para , y obtener la distribucion posterior para y
la distribucion posterior predictiva.
4. Suponer un modelo con distribucion binomial negativa, con a priori beta(, ) para p, y ob-
tener la distribucion posterior para p y la distribucion posterior predictiva.
5. Dado el modelo uniforme (0, ) dado en (3.14), y la a priori para una Pareto, dada por (3.15),
encontrar la posterior para y la distribucion posterior predictiva.
6. Suponer un a priori normal-gama para los parametros del modelo dado por la distribucion
Gausiana Inversa GI(, ) dada en (??), encontrar la distribucion posterior conjunta.
7. Referirse al ejemplo 4.1, y contestar:
a) Obtener un intervalo del 95 % de probabilidad para la distribucion posterior predictiva

e interpretar.
Figura 4.6
Funciones normal
Figura 4.6: Funciones normal

b) Si el intervalo inicial para p es [0 07, 0 37], obtener (X) y la distribucion posterior

predictiva y comparelas con las obtenidas en el ejemplo 4.1. Comentar.
c) Para el caso anterior obtener intervalos de probabilidad al 95 % con base en las dos dis-
tribuciones e interpretarlos.
d) Comparar los intervalos anteriores con los obtenidos en el ejemplo 4.1 y en el inciso a).
Comentar.
8. Referirse al ejemplo 4.2, y contestar:
a) Si el intervalo inicial para es [2, 8], obtener (X) y la distribucion posterior predic-
tiva y comparelas con las obtenidas en el ejemplo 4.2. Comentar.
b) Para el caso anterior obtener intervalos de probabilidad al 95 % con base en las dos dis-
tribuciones e interpretatarlos.
c) Comparar los intervalos anteriores con los obtenidos en el ejemplo 4.2 y comentar.
d) Si se inspecciona una mesa, cuantos defectos se esperan en la misma?
9. Respecto al ejemplo 4.3, contestar:
a) Si el intervalo inicial para es [40, 70], obtener (X) y la distribucion posterior pre-
dictiva y comparelas con las obtenidas en el ejemplo 4.2. Comentar.
b) Para el caso anterior obtener intervalos de probabilidad al 95 % con base en las dos dis-
tribuciones e interpretarlos.
c) Comparar los intervalos anteriores con los obtenidos en el ejemplo 4.3 y comentar.
10. Respecto al ejemplo 4.5, y contestar:
a) Si los intervalos iniciales para la media y la varianza son [347, 353] y [6, 15], obtener las
distribuciones posteriores conjuntas, marginales y la distribucion posterior predictiva.
Comparelas con las obtenidas en el ejemplo 4.5. Comentar.
b) Para el caso anterior obtener intervalos de probabilidad al 95 % para la distribucion pos-
terior predictiva.
c) Utilizando la predictiva, calcular la probabilidad de que se cumpla con especificaciones.
Comparar con lo obtenido en el ejemplo 4.5.
11. Para el problema 2.15 se cree a priori que la media se encuentra entre [280, 285] y la varianza
entre [40, 150], utilizar z = 2, y encontrar la distribucion posterior(, ) y predictiva. Para esta
ultima incluya un intervalo de probabilidad al 95 % e interpretar.
12. Para el problema del ejercicio 2.21 proponga intervalos iniciales para la media y la varianza
que sean razonables, y obtener la distribucion posterior predictiva e interpretar en terminos
del problema.
13. Para el problema 2.9, considerando solo el tratamiento de Ramipril, proponga un intervalo
inicial para p (la efectividad del tratamiento) mas o menos amplios y obtener la distribucion
posterior para p e interpretar en terminos del problema.
14. En el caso del ejercicio 2.23, inciso f, suponer una distribucion impropia uniforme para ,
() c, y obtener la distribucion posterior y predictiva.
15. Una distribucion a priori () para un modelo f (x) se dice que es conjugada, si la distri-
bucion posterior (X) es de la misma familia que la a priori. Demostrar que las siguientes
densidades son conjugadas para los modelos referidos.
a) La densidad beta para un modelo Binomial.

b) La distribucion gama para la distribucion Poisson.
c) La densidad Pareto es conjugada para el modelo uniforme.
d) La normal-gama para el modelo normal f (x, )
5. E s t i m ac i n y p ru e b a d e h i p t e s i s
Captulo 5
Estimacion y Prueba de Hipotesis
5.1.E s t i Estimacion
5.1 m ac i n
Uno de los objetivos basicos de la inferencia Bayesiana es obtener la distribucion posterior de

interes. Y esta puede reportarse en forma grafica, a traves de su formula o bien resumirla de alguna
manera adecuada. En ese contexto el concepto de .estimaciondentro de la estadstica Bayesiana, no
es otra cosa que hacer resumenes de la posterior con la que se cuente. Por lo tanto, el concepto de
estimacion puntual lo se puede ver como resumir una distribucion con un solo punto (por absurda
que parezca esta perspectiva), y se puede ver como un problema donde se trata de DECIDIR un punto
del espacio parametrico .
En terminos generales la estimacion es un problema de decision, en el cual la decision a tomar
es estimar el valor de algun parametro = ( 1 , 2 , . . . , k ) cuyos valores corresponden a algun sub-
conjunto R k (k 1). Puesto que se debe estimar el valor de , tpicamente el espacio de decision
D coincide con . Aqu se supone, por simplicidad, que = D = R k , donde la probabilidad de que
caiga sobre algunas regiones de R k puede ser cero.
La decision d = (d 1 , d 2 , . . . , d k ) R k es una estimacion del valor de = ( 1 , 2 , . . . , k ) de , y
la perdida en la que se incurre debe reflejar la discrepancia entre el valor de y su estimacion d. Por
ello es frecuente que se asuma como funcion de perdida del tipo:
L(, d) = ()( d) (5.1)
aqu, lamda es una funcion no negativa del vector error d, tal que (0) = 0 y es una funcion
de ponderacion no negativa que indica la relativa seriedad del vector error para diferentes valores del
parametro . Si la funcion de perdida L(, d) depende solo del vector error d, entonces la funcion
puede ser tomada como constante en el espacio R k .
Puede existir algunos problemas en los que no interesa estimar todos los componentes del vector
. En esos casos, a los parametros que no interesan se les llama como parametros de estorbo (nuisan-
ce).
[105]
93
94 CAPITULO 5. ESTIMACION Y PRUEBA DE HIPOTESIS
Considerando ahora una problema arbitrario de estimacion en la que la funcion de perdida L

tiene la forma dada en (5.1), y al suponer que despues de todas las observaciones se obtuvo la distri-
bucion posterior de dada por . La decision de Bayes o estimador de Bayes d sera un punto d R k
tal que minimice la siguiente funcion de riesgo (, d)
(, d) = E [L (, d)] = ()( d)()dv() (5.2)

Rk
Cuando el parametro es un-dimensional y sus valores se encuentran en R 1 , la funcion de perdi-

da puede ser expresada a menudo de la siguiente forma
L (, d) = a db (5.3)
donde a > 0, y b > 0.

Ahora si se supone que X es una observacion con distribucion f (), la distribucion a priori
para , (x) es la distribucion posterior y sea d el estimador de Bayes. El riesgo de Bayes se define
como el nfimo para el riesgo (, d), es decir el riesgo es la cuota inferior mas grande para (, d),
y por tanto
p () = nf (, d) .
dD
Perdida Cuadratica
Prdida cuadrtica
En la mayora de los problemas envueltos en la estimacion de un parametro real es la perdida
cuadratica especificada en (5.3) con b = 2
L (, d) = a d2 = a ( d)2 (5.4)
Y cuando la funcion de perdida esta dada de esta manera, decision de Bayes sera la que minimice
(, d) = E [a ( d)2 ]
= a (d 2 2dE [] + E [ 2 ]) .
Al derivar todo con respecto a d e igualar a cero se obtiene
2a (d E []) = 0
de aqu que
d = E [] . (5.5)
Mas aun cuando este valor de d es escogido el valor mnimo de riesgo es
(, E []) = E [a ( E [])2 ]
= aE [( E [])2 ]
= a Var []
de aqu que el riesgo de Bayes es especificado por
() = E [a Var []] = aE [Var []] .

5.1. ESTIMACION 95
Ejemplo 5.1 Suponer que X 1 , X 2 , . . . , X n es una muestra aleatoria de una distribucion Poisson para el
que el valor de la media es desconocido. Si la distribucion a priori () es una distribucion gama con
parametros y . Sabemos que la distribucion posterior esta dada por (4.3) es una gama con parametros
+ r, + n. Asumimos que la funcion de perdida esta dada por (5.4) con a = 1. El estimador de Bayes
esta definido por
d = E [X]
+r
=
+n
y su varianza es
+r
Var [X] =
( + n)2
n
y como r = x i se cumple que
i=1
n
E [r] = E [x i ]
i=1
Para calcular E [x i ] es necesario aplicar la siguiente identidad de las esperanza condicional, que senala
que dados X = (X 1 , ..., X n ) y Y = (Y1 , ..., Yn ) dos vectores aleatorios, y (X, Y) una funcion integrable,
entonces se cumple que E{E[(X, Y)Y]} = E[(X, Y)] (ver DeGroot, 1970, pag. 29). De esta manera
E [x i ] = E{E[x i ]}, pero como x i tiene una distribucion condicional Poisson(), entonces E[x i ] =
, y como a priori tiene una distribucion gama(, ), se tiene que
E [x i ] = E{E[x i ]} = E{} = /
Con lo que E [r] = n . Luego
+r
() = E [ ]
( + n)2
sacando las constantes
1
() = E [ + r]
( + n)2
separando el valor esperado
+ E [r]
() =
( + n)2
y al sustituir se llega a que el riesgo de Bayes esta dado por
+ n
() = =
( + n)2 ( + n)
y si ademas el costo del muestreo por observacion es de c (con c > 0) y el experto pueda escoger el
numero de observaciones en la muestra. Para una muestra de n observaciones se sigue que el riesgo
total seria

+ cn
( + n)
y para minimizar el riesgo total, derivamos con respecto a n e igualamos a cero

c =0
(n + )2
y despejando se obtiene que el riesgo es minimizado cuando

n=
c
Es claro que el numero de observaciones debe de ser un entero positivo. Y en dado caso que
el valor especificado anteriormente sea negativo, entonces la muestra optima es de tamano n = 0.
En estos casos, ninguna observacion debe de ser realizada, y el experto debera de estimar de la
distribucion a priori.
Si en cambio, suponemos que la funcion de perdida esta dada por
( d)2
L (, d) =

expandiendo esta expresion se obtiene
d2
L (, d) = 2d +

Para la decision de Bayes se tiene que
( d)2
(, d) = E [ X]

= E [X] 2d + d 2 E [1 X] (5.6)
derivando con respecto a d, e al igualar a cero
2 (dE [1 X] 1) = 0
y despejando a d, se tiene que

d = 1/E [1 X] (5.7)
( + n)+r +r11 (+n)x

E [1 X] = x e dx
0 ( + r)
( + n)+r ( + r 1)
=
( + r) ( + n)(+r1)
y simplificando se obtiene
+n
E [1 X] =
+r1
por lo tanto
+r1
d=
+n
5.1. ESTIMACION 97
Y al sustituir (5.7) en (5.6), se tiene que
(, d) = E [X] 2/E [1 X] + 1/E [1 X]

= E [X] 1/E [1 X]
y como
+r
E [X] =
+n
se tiene que
+r +r1
(, d) =
+n +n
1
=
n+
De esta forma el riego de Bayes esta dado por
1
() = E [ ]
n+
y como es una constante se tiene que
1
() =
n+
De aqu que si cada muestra tiene un costo de c por observacion se obtiene que el riesgo total es
1
+ cn
n+
el cual es minimizado cuando
n= c
Ejemplo 5.2 Se toma una muestra aleatoria de n = 5 observaciones de una distribucion geometrica
X=(6,4,2,10,8) sin conocer cual es el parametro .. La verosimilitud, si se observan n veces realizaciones
del modelo geometrico, X = (x 1 , , x n ), esta dada por:
L(x) = (1 )sn n
donde s = ni=1 x i = 30 y n = 5, y por lo tanto s es el estadstico suficiente.

Si como a priori se utiliza una beta, ver (3.3). Como no se sabe nada de , se puede usar una
uniforme [0, 1] que corresponde a una beta( = 1, = 1)
() = 1 con 0 1
Entonces la distribucion posterior de esta dada por:
(X) (1 )sn n ()
(1 )sn n
Esta densidad salvo por constantes corresponde a una densidad Beta con parametros = n +1 =
6, y = sn+1 = 26. Por lo tanto dado que la a priori y la posterior son de la misma familia, entonces
la distribucion beta es conjugada para el modelo geometrico. Ademas de acuerdo a (3.4) se obtiene
que:
n+1 3
E(X) = =
s + 2 16
(n + 1) (s + 1 n) 13
V (X) = =
(s + 2)2 (s + 3) 2816
Entonces usando la funcion de perdida cuadratica la decision de Bayes o estimador de Bayes es

d = E(X). Que de acuerdo a lo anterior, esta dada por:
3
d = E(X) =
16
Perdida en valor absoluto

Prdida en valor absoluto
Se dice que el numero m es una mediana de la distribucion F, si
1 1
P (F m) , P (F m)
2 2
Cada distribucion tiene al menos una mediana, pero esto no significa que sea unica.
Si R 1 y d R 1 , se puede definir a la perdida de valor absoluto como:
L (, d) = a d (5.8)
Cuando la funcion de perdida es especificada por la ecuacion 5.8, la decision de Bayes, sera aquella
que minimice a
E [L (, d)] = E [a d] = aE [ d]
pero como a es una constante entonces sera la que minimice a
E [ d]
Teorema 5.1 Si E [] < , entonces cualquier numero satisface
E [ d ] = nf E [ d]
<d<
si y solo si, d es la mediana de la distribucion de
Demostracion. Sean d > d , entonces

d d con d

d d = d + d 2 con d < < d

dd

con d
5.1. ESTIMACION 99
y cuando d < < d
<d
d <0
sumando ambas ecuaciones

2 d < d
multiplicandola por 1
d 2 > d

y sumando d se obtiene
d + d 2 > d d
de aqu que
E [ d d ] > (d d) P ( d) + (d d) P (d < < d)

+ (d d ) P ( d )
de aqu que al factorizar a (d d )
E [ d d ] > (d d ) [P ( d ) P (d < )]
pero como d es mediana

P ( d ) P (d < ) 0
de aqu que
E [ d d ] 0
y separando
E [ d] E [ d ]
y la igualdad se alcanzara si y solo si d es tambien una mediana de la distribucion. Una demostracion
similar es cuando d < d .. con lo que queda demostrado el teorema.
Ejemplo 5.3 Sea X 1 , X 2 , . . . , X n una muestra aleatoria de una distribucion normal con un parametro
desconocido, el de la media , y una precision especifica r. El estimador d que es usado lo da la funcion
de perdida dada por 5.8, con a = 1. Si se escoge como a priori para una distribucion normal con media
m y precision , se tiene que la distribucion posterior para X 1 , X 2 , . . . , X n es una distribucion normal
con media m+nr
+nr
X
y precision + nr.
Aqu se aprovecha el hecho de que en la distribuciones normal existe una unica mediana y esta
coincide con el valor de la media, se tiene que el estimador de Bayes d se define como
m + nr X
d = .
+ nr
De igual forma el riesgo de Bayes esta determinado como
() = E [ d ]
En concordancia con lo anterior, la distribucion posterior de d debe ser una normal con
media cero y precision + nr. Ahora si Y es una variable aleatoria con una distribucion normal con
media cero y precision p, se tiene que
1
2 2
E (Y) = ( )
p
de aqu que
1
2
() = ( )
2
( + nr)
Si cada muestra tiene un costo de c por observacion se obtiene que el riesgo total es
1
2
( ) + cn
2
( + nr)
el cual es minimizado cuando

1
n= 3
.
2rc 2 r
5.2.E s t i mEstimacion
5.2
por Intervalos de Probabilidad
ac i n p o r i n t e rva lo s d e p ro b a b i l i da d
La estimacion consiste en resumir la distribucion posterior a traves de un intervalo o region
donde el parametro de interes se encuentra con una probabilidad dada.
Sea {p (w) , w W} una familia completa de modelos parametricos que se desea calcular, de
los datos X = (x 1 , , x n ), una region C en donde se espera razonablemente que este el parametro
desconocido w.
Una region C tal que
p (w) dw = 1
C
se dice ser una region de confianza, con probabilidad 1 de contener al parametro w, con respecto
a p (w). Con 0 < < 1.
Si p (w) es una distribucion a priori, posterior o predictiva; se hace referencia a ella como una
region a priori, posterior o predictiva, respectivamente.
Claramente, para cualquier no existe una unica region de confianza (incluso si restringimos
las regiones a un intervalo cerrado). Para cada , p (w) y fijo, el problema de escoger entre los
subconjuntos C tal que C p (w) dw = 1 puede ser visto como un problema de decision, de
tal forma que es necesario usar una funcion de perdida, s (C, w), reflejando las posibles consecuencias
de tomar cierta region C. De aqu que intuitivamente la funcion de perdida debe ser que dado , se
debe de preferir una region C cuyo tamano C (volumen, area, longitud) sea mnima.
Proposicion 5.2 Sea p (w) una densidad de probabilidad para w ; y dado , 0 < < 1, si
A = {C; P (w C) = 1 }
5.2. ESTIMACION POR INTERVALOS DE PROBABILIDAD 101
y
s (C, w) = k C 1C (w) , k>0
entonces C es optimo si y solo si tiene la propiedad de que p (w 1 ) p (w 2 ) para todo w 1 C, w 2 C.
Demostracion. Se sigue que para cada C A
s (C, w) p (w) dw = k C + 1

entonces un C optimo debe de tener un tamano mnimo.

Si C es optimo y D es otra region que esta en A, entonces como C = (C D) (C D c ), D =
(C D) (C c D) y P (w C) = P (w D), se tiene que
nf p (w) C D c p (w) dw
wCD c CD c
= p (w) dw
C c D
sup p (w) C c D
wC c D
con
sup p (w) nf p (w)
wC c D wCD c
entonces C D c C c D, y esto es C D.
Una region C se dice ser la region de mas alta probabilidad 1 para w con respecto a p (w)
si
i P (w C) = 1
ii p (w 1 ) p (w 2 ) para todo w 1 C, w 2 C.
Si p (w) es una distribucion a priori, posterior o predictiva; se hace referencia a ella como como
una region de la mas alta densidad de probabilidad 1 a priori, posterior o predictiva, respectiva-
mente.
Ejemplo 5.4 Sean los datos y la distribucion posterior para el modelo exponencial del ejemplo 4.3, y de
(4.5), se tiene que
f (yX) = ab a (b + y)(a+1)
con a = 51 36, b = 2907 8.
Se tiene que su distribucion acumulada es

y
F (yX) = ab a (b + w)(a+1) dw
0
(b + y) a b a
=
(b + y) a
si se quiere una region de confianza con probabilidad de 1 = 0,95, solo se necesita

F (y s X) F (y i X) = 1
y como
(b + y i ) a b a
F (y i X) =
(b + y i ) a
(b + y s ) a b a
F (y s X) =
(b + y s ) a
al despejar a y s se obtiene
(b + y i ) a
1
ys = b ( a a) 1
a
b (1 ) (b + y i )
y todo intervalo cerrado de probabilidad de 0,95 tiene la forma

y i , b ( (b + y i ) a
1
)
a
b a (1 ) (b + y i )
1

a

de aqu que
b (1 ) (b + y i ) > 0
a a
entonces
b ((1 ) a 1) > y i > 0
1
y el intervalo mnimo se da cuando y i = 0. Es decir la region de la mas alta densidad de probabilidad

1 = 0,95 es
1
1 a
[0, b (( ) 1)]

que para el ejemplo seria [0, 174 65], es decir, con una probabilidad de 0,95, los tiempos de falla estan
entre 0 y 174 65.
5.3.P ru ePrueba
5.3
(contraste) de Hipotesis
ba (contraste) de hiptesis
Sea X = (x 1 , , x n ) una muestra aleatoria de f (x). Se desea contrastar las siguientes hipotesis
H1 1
H2 2
donde 1 y 2 forma una particion de Sea () una distribucion a priori para .. Calculamos
entonces
P(H i X) = (X)d
i
Se prefiere a H 1 , o los datos apoyan a H 1 si P(H 1 X) > P(H 2 X) Se pueden tener mas de dos
hipotesis.
5.3. PRUEBA (CONTRASTE) DE HIPOTESIS 103
Ejemplo 5.5 Del ejemplo 4.1 de la proporcion de fumadores. Donde de una muestra de n = 100, se
detectaron x = 20 fumadores se tiene que = 12 6 y = 50 4 y su distribucion posterior es una una
beta con parametros ( = 32 6, = 130 4)
( + ) 1
(X) = (1 ) 1
( )( )

donde = p es la proporcion de fumadores. Si se quiere comparar las hipotesis de que
H 1 1 = [0, 0 2]
H 2 2 = [0 2, 1]
Para H 1
02 ( + ) 1
P(H 1 X) = (1 ) 1 d = 0 515 64
0 ( )( )
Esta probabilidad se calcula con S-Plus con pbeta(0.2, , ). De la misma manera se calcula
1 ( + ) 1
P(H 2 X) = (1 ) 1 d = 0 484 36
02 ( )( )

Como P(H 1 X) > P(H 2 X), entonces Se prefiere a H 1 , o los datos apoyan a H 1 .
Si se quiere un enfoque mas ligado al enfoque tradicional y a tomas de decisiones, sea X = (x 1 ,

, x n ) una muestra aleatoria de f (x). Sea el parametro de interes, se desea contrastar las siguientes
hipotesis
H0 0
H1 1
donde 0 y 1 forman una particion de .

Encontrar los valores de X para los que se rechaza H 0 se conoce como le region crtica C. La
funcion de potencia se define como:
() = P(X C) para
Idealmente se quisiera que () = 0 para todo 0 y () = 1 para todo 1 . Con

esto se tendra una decision correcta con probabilidad 1. Sin embargo este ideal raramente se da en
la practica. Por ello si 0 , () sera la probabilidad de una decision incorrecta. En muchos
problemas se especificara una cota superior 0 para este error: () 0 . A se le conoce como
nivel de significancia:
= sup ()
0
La probabilidad maxima para tomar una decision incorrecta entre los valores de que satisfacen H 0 .
As es la probabilidad de error tipo I, esto es
() = P(rechazar H 0 0 )
() = P(aceptar H 0 1 )
Sea d 0 la decision de aceptar H 0 y d 1 la decision de aceptar H 1 . Ademas la perdida de una decision

incorrecta esta dada por la siguiente tabla
d0 d1
H0 0 w0
H1 w1 0
Suponer que la probabilidad inicial de que H 0 sea cierta es 0 , y la probabilidad inicial de que
H 1 sea cierta es 1 0 Por lo tanto la perdida esperada por cualquier procedimiento de contraste es
L () = E(L(, d))
5.4. Factor
5 . 4 F ac to de
r d e B ay e s Bayes
El enfoque Bayesiano para probar hipotesis fue desarrollado por Jeffreys como parte fundamental
de su programa de inferencia cientfica (Kass y Raftery, 1995). Jeffreys estaba interesado en comparar
las predicciones que se obtenan con dos teoras cientficas en competencia. En su enfoque, se intro-
ducen modelos estadsticos para representar la probabilidad de los datos de acuerdo a cada una de
las dos teoras, y el teorema de Bayes es utilizado para calcular la probabilidad posterior de que una
de las dos teoras sea la correcta. Una pieza central en esto fue el llamado factor de Bayes.
Sea X los datos y suponer que estos han sido obtenidos de una de dos hipotesis H 1 y H 2 , de
acuerdo con la densidad de probabilidad Pr(X H 1 ) o Pr(X H 2 ) Dadas las probabilidades a priori
Pr(H 1 ) y Pr(H 2 ) = 1 Pr(H 1 ), entonces los datos generan probabilidades posteriores Pr(H 1 X) y
Pr(H 2 X) = 1 Pr(H 1 X) Puesto que cualquier opinion a priori es transformada en una opinion
a posterior a traves de los datos; la transformacion en s misma representa la evidencia aportada
por los datos. En efecto, tal transformacion es utilizada para obtener la probabilidad posterior, sin
tomar en cuenta la probabilidad a priori. Cuando generamos la escala de momios (= probabilidad /
(1- probabilidad)), la transformacion toma una forma sencilla. Del teorema de Bayes (ver captulo 1),
se obtiene:
P(XH k )P(H k )
P(H k X) = con k = 1, 2 (5.9)
P(XH 1 )P(H 1 ) + P(XH 2 )P(H 2 )
por lo que
Pr(H 1 X) P(XH 1 ) P(H 1 )
=
Pr(H 2 X) P(XH 2 ) P(H 2 )
y la transformacion es simplemente la multiplicacion por
P(XH 1 )
B 12 = (5.10)
P(XH 2 )
que es precisamente lo que se conoce como el factor de Bayes. As, en palabras
Momios posteriores = Factor de Bayes momios a priori
y en forma equivalente el factor de Bayes es la razon de los momios posteriores de H 1 y sus momios
a priori.
Intuitivamente, B 12 proporciona una medida de si los datos tienen momios crecientes o decre-
cientes sobre H 1 en relacion a H 2 As B 12 > 1 significa que H 1 es relativamente mas admisible a la luz
de los datos; B 12 < 1 significa que la plausibilidad relativa de H 2 es mayor. El factor de Bayes puede uti-
lizarse directamente como criterio de seleccion de modelos (Ross, 1989). Aunque aqu se utilizara un
enfoque diferente.
Cuando las hipotesis son igualmente probables (H 1 ) = P(H 2 ) = 0 5, entonces el factor de
Bayes es igual a los momios posteriores de H 1 . Sin embargo, no siempre dos hipotesis son igualmente
probables (cap. 7).
En el caso mas simple cuando dos hipotesis son distribuciones simples con parametros fijos (el
caso de hipotesis simple versus simple), B 12 es la razon de verosimilitud. En otros casos, cuando hay
parametros desconocidos bajo una o ambas hipotesis, el factor de Bayes es todava dado por (5.10),
y en este sentido, este aun tiene la forma de una razon de verosimilitud. Sin embargo, las densidades
P(XH k ) (k = 1, 2) son obtenidas al integrar (no maximizando) sobre el espacio parametrico, as que
en la ecuacion (5.10)
P(X H k ) = L(X k ,H k )( k H k )d k (5.11)

donde k es el parametro bajo H k , ( k H k ) es la densidad a priori, y L(X k ,H k ) es la densidad de

probabilidad de X dado el valor de k , o la funcion de verosimilitud de k En (Kass y Raftery, 1995)
se localiza un analisis amplio sobre la interpretacion del factor de Bayes y sus diferentes aplicaciones.
5.5
y Ejercicios
1. Se afirma que la inferencia Bayesiana consiste basicamente en obtener la distribucion posterior

de interes, por que se afirma esto?
2. El estimador de maxima verosimilitud es a L(X), lo que la moda es a (X). Explicar por
que.
3. Para un modelo binomial(n, p), con a priori beta(, ):
a) Demostrar que el estimador de Bayes bajo la perdida cuadratica no es igual a la moda

de (X).
b) Obtener la funcion de riesgo.
4. Sea el modelo uniforme (0, ), dado por f (x) = 1/, con 0 < x < , y una distribucion
Pareto
como a priori () = (+1) con > 0 y > 0. A priori se considera que esta en
[10, 50]. Se obtiene la siguiente muestra aleatoria de x {5.8, 10.2, 6.0, 14.6, 13.7, 10.2, 8.2, 7.7, 5.8}
Contestar.
1. a) Aplicar el metodo descrito en el captulo 3 para obtener la distribucion a priori para

b) Obtener la verosimilitud relativa para , y delimitar claramente los rangos admisibles
de .
c) Obtener la distribucion posterior (X) y la distribucion posterior predictiva f (yX).

Tener precaucion con los rangos en los que tanto la a priori como la verosimilitud son
diferentes de cero. Representar graficamente ambas distribuciones.
d) La distribucion a priori fue cercana a la realidad? Explicar.
e) Obtener y comparar los siguientes estimadores puntuales para : la moda de (X), el
estimador de Bayes bajo la perdida cuadratica y el estimador de Bayes bajo la perdida
valor absoluto.
f ) Obtener la region de mas alta densidad de probabilidad al 95 % para .
g) Considerar la distribucion posterior predictiva f (yX), y obtener la region de mas alta
densidad de probabilidad al 95 % para y, e interpretar.
5. Si en el problema anterior se plantea las siguientes hipotesis:
H 1 1 = { 25}
H 2 2 = { > 25}
1. a) Obtener P(H 1 X) y P(H 2 X), y optar por una de las hipotesis.

b) Si P(H 1 ) = P(H 2 ) = 0 5, obtener el factor de Bayes B 12 e interpretar.
6. Sea x 1 ,. . . , x n una muestra aleatoria de una distribucion exponencial: f (x ) = e x ; >
0, x > 0 Suponer que se desea estimar el valor de 1/ cuando la funcion de perdida es:
2
1
L(, d) = ( d)

1. a) Suponer que la distribucion a priori para es una gama(, ) tal que > 2 . Si el numero
de observaciones n es fijo, encontrar la funcion de decision de Bayes y calcular el riesgo.
b) Si el costo por observacion es c, demostrar que el numero optimo de observaciones n,
esta dado por la siguiente ecuacion:

n= ( 1)
[c( 1)( 2)]1/2
7. Si 29, 29, 32, 27, 23, 24, 44, 33, 40, 33 es una muestra aleatoria de una distribucion Poisson para
el que el valor de la media es desconocido. Si la distribucion a priori de es una distribucion
gama con parametros y , sabemos que la distribucion posterior esta dada por (4.3), que es
una gama con parametros + r, + n, con r igual a la suma de los datos. Asumimos que la
funcion de perdida esta dada por (5.4) con a = 1. Encuentra el riego de Bayes.
8. En el ejercicio anterior utiliza ahora la funcion de perdida
( d)2
L (, d) =

a) Encontrar el riesgo de Bayes.
b) Si cada muestra tiene un costo de $125.50, y el parametro = 21 e 2 . Encontrar el tamano
mnimo de muestra para ambos tipos de funciones de perdida.
9. Se toma una muestra aleatoria de n = 15 observaciones de una distribucion geometrica X=(1,

9, 1, 2, 1, 1, 3, 2, 2, 4) sin conocer cual es el parametro . Entonces usar la funcion de perdida
cuadratica y encontrar el riesgo de Bayes.
10. Si en una aplicacion la distribucion posterior es
(2x + 2) 2x1
(X) = (1 )
(2x)(2)
La cual corresponde a una beta con parametros (2x, 2). Y se quiere comparar las hipotesis de
que
H 1 1 = [0, 0 2]
H 2 2 = [0 2, 1]
Para que valores de x los datos apoyan a H 1 .

11. Se tiene que la distribucion posterior predictiva de un modelo exponencial es
f (yX) = ab a (b + y)(a+1)
con a = e 4 , b = e 8 . Encontrar una region de confianza para y con probabilidad de 1 = 0,95.

12. Se tiene que la distribucion posterior predictiva de un modelo Poisson es
ba (a + y)
f (yX) =
y! (a) (b + 1) a+y
con a = 11, b = 2. Encontrar la region de mas alta densidad de probabilidades 1 = 0,95.

13. Sean los datos {55 8, 56 1, 52 7, 56 7, 54 4, 57,8, 59 1, 57 0, 58 8, 58 0} una muestra aleatoria
de una distribucion normal con un parametro desconocido, el de la media , y una precision
especifica= 3. Al suponer que el estimador d es usado con la funcion de perdida dada por (5.4)
con a = 1. Si se escoge como a priori para una distribucion normal con media m y precision
Entonces la distribucion posterior para es normal con media m+nr +nr
X
y precision + 30.
Donde r es la suma de observaciones. Encontrar el riesgo de Bayes.
14. Encontrar la region de mas alta densidad de probabilidad 1 = 0,95 de la distribucion
(80)
(p) = p7 (1 p)71
(8) (72)
6. A p rox i m ac i o n e s numricas
Captulo 6
Aproximaciones numericas
Se ha visto que en la inferencia Bayesiana parametrica o en la toma de decisiones es fundamental

obtener alguna de los dos tipos de distribuciones posteriores
P(X ) ()
( X) =
P(X ) ()d
f (y X) = f (y)(X)d

Aunque se concentro la atencion en los modelos parametricos mas usuales en los que hay una dis-
tribucion a priori conjugada, existen muchos modelos que no la tienen como por ejemplo el modelo
Weibull con a priori normal-gama. Esto presenta un problema basico: como evaluar la integral? O
como encontrar la constante de proporcionalidad?
A esto se reduce la parte operativa del analisis Bayesiano, despues de haber definido un modelo y
una a priori. Uno puede interesarse en marginales de la posterior, que involucraran mas integraciones
de la posterior.
6.1. Metodos
6 . 1 M to d o s b s i c o basicos
s
Aproximacin dedeLaplace
Aproximacion Laplace
lo que
Se supone que el integrando, P(X)() es muy puntiagudo alrededor de su maximo ,
es razonable a partir de tamanos muestrales relativamente bajos. Sea
s() = log [P(X)()] (6.1)
y el valor de que maximiza s(). Al expandir s() hasta los terminos cuadraticos alrededor de ,

se obtiene una aproximacion de P(X)() que tiene la forma de una densidad normal con media
y matriz de covarianza = (D 2 s())
1 , donde D 2 s j ( )
es la matriz de segundas derivadas con
respecto a .
[121]
109
110 CAPITULO 6. APROXIMACIONES NUMERICAS
Al integrar esta aproximacion se obtiene que:

P(X)()d (2) P(X)()
d/2 1/2
(6.2)

donde d es la dimension de
As para aplicar esta aproximacion se lleva a cabo lo siguiente:
i. Calcular s()

ii. Estimar numericamente el vector posterior de modas ()

iii. Obtener la matriz D 2 s( )
1 y su determinante
iv. Calcular la matriz = (D 2 s( ))
v. Finalmente se evalua (6.2).
La aproximacion del metodo de Laplace es evaluada en varios trabajos, en Kass y Raftery (1995) se
citan varios de ellos. En general hay consenso en que la aproximacion es adecuada en aquellos casos
en los que la dimension de es pequena y cuando las funciones de verosimilitud no tienen una forma
muy diferente a la normal. Por ejemplo, bajo las condiciones concretas descritas en Kass et al. (1990),
se demuestra que conforme n , p(x)()d = I (1 + O(n1 )), es decir, el error relativo es
de O(n ). De esta manera, cuando el metodo de Laplace es aplicado al numerador y denominador,
1
por ejemplo para calcular el factor de Bayes (capitulo anterior) o la probabilidad posterior para un
modelo, la aproximacion resultante tiene tambien un error del orden O(n1 ) (Kass y Reftery, 1995).
Un punto importante en el analisis Bayesiana es encontrar momentos a posteriori como:
E [g () X]
Esto se calculara como:

g () p (X) () d
E [g () X] =
p (X) () d
Lo que tambien se puede escribir como
exp [nh ()] d

E [g () X] =
exp [nh ()] d
con
nh () = log () + log p (X)
nh () = log g () + log () + log p (X)

Al usar como el maximo de h() y a como el maximo de h() , y y como el
valor de las segundas derivadas en los maximos elevadas a la 1/2, se tiene que:
n
nh () nh () ( )
2
2 2
y entonces

exp [nh ()] d 2 n1/2 exp (nh ())
6.1. METODOS BASICOS 111
Y equivalentemente para h() . Entonces se puede aproximar
E [g () X]
con

exp {n [h ( ) h ()]}

Monte Carlo
Monte Carlo
Otro metodo para calcular en forma aproximada la integral es a traves de simulacion Monte
Carlo. Efectivamente al observar que:
f (X) = P(X)()d
es el valor esperado de P(X) con respecto a (); por lo tanto

f (X) =
1 m
P(X )
(i)
m i=1
donde { (i) i = 1, , m} es una muestra de la distribucion a priori () . La estimacion entonces no

es otra cosa que el promedio de las verosimilitudes de una muestra de valores del vector de parame-
tros . La eleccion de m debe ser suficientemente grande para garantizar la convergencia (Robert y
Casella,1999).
De esta manera dada la verosimilitud para un modelo, lo unico que se requerira es generar mues-
tras aleatorias de ().
Muestreo
Muestreorelevante
Relevante
Al considerar la integral de una funcion f (x), y usar una densidad g (x), es facil ver que
f (x) f (x)
f (x) dx = g (x) g (x) dx = E G [ g (x) ]
donde G es la distribucion de una variable aleatoria con densidad g. Se ve ahora un proceso para
estimar
f (x) dx
Si se simula x i con distribucion G se tiene que
1 n f (x i )
f (x) dx n g (x )
i=1 i
Si se toma f como la verosimilitud por la a priori
P (X) ()
y a g como la a priori (), entonces se estima la constante de normalizacion con
1 n
f (X i )
n i=1
6.2. Muestreo-Remuestreo Relevante

6.2 M uestreo-remuestreo r e l e va n t e
En la practica es frecuente que lo que se quiera no es calcular la integral de la constante normali-
zadora sino mas bien generar una muestra de (X) El metodo de muestreo-remuestreo relevante
(sampling-importance resampling) es una tecnica muy util para generar muestra de la distribucion
posterior, y esta basada en metodo de Aceptacion-Rechazo( Accept-Reject).
Teorema 6.1 Sean g(x) y h(y) densidades, a la primera se le llama densidad instrumental y a la se-
gunda densidad objetivo. Si existe una constante M tal que h(x) M g(x) en todo el soporte de h;
entonces se puede generar h a partir de g con el siguiente algoritmo:
1. Generar X g y U u(0, 1)
2. Aceptar Y = X si U h(X)
M g(X)
3. Regrese a 1 en otro caso.
Entonces la distribucion de Y es h
Demostracion. Del enunciado del teorema y del algoritmo, se puede ver que la distribucion de Y
esta dada por
h(X)
Pr(Y y) = Pr (X yU )
M g(X)
Pr (X y, U h(X)
)
=
M g(X)
Pr (U h(X)
M g(X)
)
al expresar esto en terminos de las integrales correspondientes, se obtiene que

h(x)
0
y M g(x)
dug(x)dx
Pr(Y y) = h(x)

0
M g(x)
dug(x)dx
como
h(X)
h(x)
du =
M g(X)
0 M g(x)
entonces
h(x)dx
1 y
Pr(Y y) = M

h(x)dx
1
M
y
= h(x)dx

6.2. MUESTREO-REMUESTREO RELEVANTE 113
6.A p rox
6.2. MUESTREO-REMUESTREO
i m ac i o n e s n u m r i c a s RELEVANTE 125
113
que Si
es en el anterior
lo que se querateorema hacemos la densidad objetivo h igual a la densidad posterior: h( X) =
demostrar.
P(XSi)en(), a la densidad
el anterior teorema instrumental
hacemos la densidad g igual objetivo h igual aalapriori
a la distribucion (),
densidad y a M = h(
posterior: P (XX) =,
)
P(X )(),
donde maximizaa la densidad
la funcioninstrumental
de verosimilitud. g igual se sigue dea manera
a la distribucion
Entonces priori (),
directa M = P (X) ,
y aque:

donde maximiza la funcion de verosimilitud. Entonces se sigue de manera directa que:
h( X) = P(X ) ()P (X) ()M() (6.3)
h( X) = P(X ) ()P (X) ()M() (6.3)
Con esto se tiene una forma de generar la distribucion posterior con base a la a priori y la vero-
similitud. En particular
Con esto se tiene una deforma
(6.3), se deaprecia
generarque la forma de posterior
la distribucion aceptar encon el paso
base 2a del
la aalgoritmo
priori y laque
vero-es
parte del teorema
similitud. anterior,
En particular es con:se aprecia que la forma de aceptar en el paso 2 del algoritmo que es
de (6.3),
parte del teorema anterior, es con: h( X) P(X ) ()
U = R(X ) (6.4)
M()
h( X) P (X
P(X ()
)
U ) = R(X ) (6.4)
M() P (X) ()
donde R(X ) es la funcion de verosimilitud relativa, que en general esta definida de la siguiente
maneraR(X ) es la funcion de verosimilitud relativa, que en general esta definida de la siguiente
donde
P(X)
manera R(X ) =
P(X)
P(X)
R(X ) =
donde maximiza la funcion de verosimilitud. P(X)
Con estos elementos, se esta
donde maximiza la funcion de verosimilitud.en posibilidades de describir un metodo muy usual para generar
muestras aleatorias
Con estos de la densidad
elementos, se esta enposterior,
posibilidades (X), o de la densidad
de describir un metodo posterior predictiva
muy usual (yX).
para fgenerar
Este metodo
muestras de muestreo
aleatorias se conoceposterior,
de la densidad como muestreo-remuestreo
(X), o de la densidad relevante (sampling
posterior f (yX).
importance
predictiva re-
sampling).
Este metodo Que aunque esse
de muestreo mas general,
conoce como adaptandolo a lo que se requiere
muestreo-remuestreo relevanteen(sampling
este caso,importance
consiste en re-
los
siguientes pasos (ver Bernardo y Smith, 1994, pag. 350):
sampling). Que aunque es mas general, adaptandolo a lo que se requiere en este caso, consiste en los
siguientes
a) Generar pasos
una (ver Bernardo
muestra aleatoria i , i =1994,
y Smith, 1, ,pag. M, de350):
la priori ()
a)
b) Generar
Retener el una muestra
i-esimo aleatoria
valor i , i = 1, , ,con
de la muestra, M, probabilidad R(X ) Esto se hace generando una
de la priori ()
realizacion aleatoria, U , de una distribucion
b) Retener el i-esimo valor de la muestra, , con probabilidad R(X
uniforme(0, ) Esto se
1), y retener hace R(X )una
si U generando
c) De acuerdo al teorema, los valores retenidos de la muestra, 1 , , M (M M), es una
realizacion aleatoria, U , de una distribucion uniforme(0,
1), y
retener
si U R(X )
muestra
c) De acuerdo al teorema, los valores retenidos de la muestra, 1 , , M (M M), es una muestra
aleatoria de la densidad posterior (X)
cada j de
d) Paraaleatoria selagenera
densidad
unaposterior (X)del modelo f (t j ), entonces t j , con j = 1, , M ,
t j directamente
d) Paraescada
en realidad una muestra
j se genera una t j de la densidaddel
directamente posterior
modelopredictiva f (t X). t j , con j = 1, , M ,
f (t j ), entonces
es en realidad una muestra de la densidad posterior predictiva f (t X).
Estimacionde
Estimacin delaladistribucin
distribucion
de de
unun cuantil
cuantil o una
o una probabilidad.
probabilidad
Estimacion de laladistribucion
Una vez generada muestra dede un cuantil posterior
la distribucion o una probabilidad.
(X), se pueden generar otras distri-
i
buciones
Una que depende
vez generada de i , como
la muestra es el caso de la distribucion posterior predictiva. Pero tambien
i de la distribucion posterior (X), se pueden generar otras distri-
es posible generar estimaciones e intervalos para de . posterior
buciones que depende de i , como es el caso de funciones
la distribucion Por ejemplo suponer Pero
predictiva. que se quiere
tambien
obtener un cuantil, y sea t = g(, p) la funcion cuantil para un modelo especfico,
es posible generar estimaciones e intervalos para funciones de . Por ejemplo suponer que se quiere
p entonces la dis-
tribucion posterior emprica de este cuantil se obtiene al calcular t p = g(
obtener un cuantil, y sea t p = g(, p) la funcion cuantil para un modelo especfico, entonces la dis-
i , p) para un p dado. Por
ejemplo suponer
tribucion que
posterior se tienede
emprica uneste
modelo Weibull(,
cuantil se obtiene),alver (2.52),t psi=a g(
calcular del metodo anterior se
traves
, p) para un p dado. Por

= ( i ,del
i ),metodo
i
genera una
ejemplo muestra
suponer quedeselatiene
distribucion
un modelo posterior de estos
Weibull(, ver (2.52), siai traves
), parametros entonces la distri-
anterior se
genera una muestra de la distribucion posterior de estos parametros i = ( i , i ), entonces la distri-
bucion del cuantil t p se obtendra a traves de la funcion cuantil para el
modelo Weibull, que esta dada
por
bucion del cuantil t p se obtendra a traves de la funcion cuantil para el modelo Weibull, que esta dada
por
t p = g(, ) = [ log(1 p)]1/

al aplicar esta expresion a toda la muestra i = ( i , i ) se tendra una muestra de tamano M de la
distribucion de t p , y de ella se pueden obtener su estimador Bayesiano o un intervalo de probabilidad.
Tambien se podra obtener la distribucion de una probabilidad F(t e X) para un valor especfico de t e .
Para esto simplemente se calcula F(t e i ). Por ejemplo en el caso del modelo Weibull simplemente
se calcula F(t e i , i ) = 1 exp[(t e / i ) i ]. Con esto se puede generar un intervalo de probabilidad
para la probabilidad de que T < t e .
6.3. Simulacion MCMC

6.3 S i m u l ac i n mcmc
El metodo que explicamos en la seccion anterior para obtener por simulacion a la distribucion poste-
rior (x) , tiene la limitante que es necesario generar muestras aleatorias de la distribucion a priori
(), lo cual se complica cuando tiene varias dimensiones o () tiene formas especiales, como
por ejemplo distribuciones impropias. Ante ello, y habiendo la necesidad de generar una muestra de
la distribucion posterior (x) para R k pero sin poder hacer esto directamente. Enseguida
se explica brevemente un metodo basado en una idea muy simple, y que ha tenido en los anos recien-
tes muchas aplicaciones en la inferencia Bayesiana, debido a que permite la aplicacion del paradigma
Bayesiano a situaciones complejas de inferencia.
La metodologa de simulacion Monte Carlo con cadenas de Markov (Markov Chain Monte Carlo,
MCMC), se llama as porque usa la muestra previa para generar aleatoriamente el siguiente valor de
la muestra, generando as una cadena de Markov, donde las probabilidades de transicion entre los
valores de la muestra son solo funcion del valor mas reciente de la muestra. La metodologa tiene
sus races en el algoritmo de Metropolis (Metropolis et al. 1953), propuesto por fsicos para calcular
integrales complejas, al expresar estas como esperanzas de alguna distribucion y entonces estimar las
esperanzas mediante muestras de tal distribucion.
La idea de la metodologa es muy sencilla. Suponer que construimos una cadena de Markov en el
espacio , que es del que se quiere simular, y cuya distribucion de equilibrio es (x). Si se corre la
cadena por un tiempo, los valores simulados de la cadena pueden ser usados como base para resumir
valores de interes de la distribucion posterior (x). Para implementar esta estrategia, se necesitan
de algoritmos para construir cadenas con distribuciones de equilibrio especificas. Para ver ejemplos
ver, Gelfand y Smith (1990), y Besag y Green (1993).
Ante ciertas condiciones de regularidad, los resultados asintoticos existen en el sentido de que las
salidas de la cadena con la funcion de equilibrio (x) puede ser usada para simular una muestra
aleatoria de (x) o estimar su valor esperado, con respecto a (x) de una funcion g () de
interes.
Si 1 , 2 , . . . , t , . . . es la realizacion de una cadena apropiada, tpicamente sus resultados asintoti-
cos cuando t incluyen
t (x) , en distribucion
y
1 t
g ( ) E x [g ()] , casi seguramente
i
t i=1
6.3. SIMULACION MCMC 115
Claramente, que los t consecutivos estaran correlacionados, entonces, si el primero de estos

resultados asintoticos son explotados para simular una muestra aleatoria de (x), se requerira es-
paciamientos convenientes para romper la dependencia y as formar la muestra, o bien se debe con-
siderar las corridas paralelas e independientes de la cadena . El segundo de los resultados asintoticos
implica que el promedio sobre una funcion de interes sobre la realizacion de una corrida sencilla de
la cadena proporciona un estimador consistente de su esperanza.
Cadenasde
Cadenas deMarkov
Markov
Las cadenas de Markov es una sucesion de variables aleatorias en el que su estado o realizacion al
tiempo t + 1 depende unicamente del estado anterior (en el tiempo t). Suponer que x t es el valor de
una variable aleatoria en el tiempo t:
Pr (X t+1 = s j X 0 = s k , , X t = s i ) = Pr (X t+1 = s j x t = s i ) (6.5)

As que (X 0 , , X t ) es una cadena de Markov puesto que se obtuvo por un proceso de Markov.
Para una cadena particular su aspecto mas crtico que la define es sus probabilidades de transicion,
P(i, j) = P(i j), el cual establece la probabilidad de que un procesos en el estado s i se mueva al
estado s j en una sola etapa:
P(i, j) = P(i j) = Pr (X t+1 = s j x t = s i ) (6.6)

Si j (t) es el vector renglon del espacio de probabilidades en el tiempo t tal que j (t) = Pr (x t = s j ).
Se puede empezar la cadena al especificar (0), que a menudo sera de ceros excepto por uno de sus
elementos que sera igual a 1, que correspondiente al punto de inicio de la cadena. Conforme progrese
la cadena, los valores se dispersaran por todo el espacio.
La probabilidad de que la cadena tenga un estado de valor s i en el tiempo (o etapa) t + 1 es dado
por la ecuacion de Chapman-Kolgomorov, la cual estable
i (t + 1) = Pr (X t+1 = s i )
= Pr (X t+1 = s i x t = s k ) Pr(X t = s k )
k
= Pr (k i) k (t) = Pr (k, i) k (t)

k k
Iteraciones sucesivas de esta ecuacion describe la evolucion de la cadena. Esta puede ser expresada
por medio de la matriz de transicion de probabilidad P cuyo elemento P (i, j) es la probabilidad de ir
de i a j (los renglones suman uno). Con lo que la ecuacion de Chapman-Kolmogorov toma la forma
(t + 1) = (t) P (6.7)
en forma recursiva queda que
(t) = (t 1) P = ( (t 2) P)P = (t 2) P 2 (6.8)

con lo que (t) = (0) P , y la probabilidad de obtener el n-esimo elemento, cuando el proceso
t
este en el paso j dado que se esta iniciando en el paso i es,

p i j = Pr (x t+n = s j x t = s i )
(n)
(6.9)
Una cadena de Markov es irreductible si existe un entero positivo para el cual p i j > 0, para
(n)
cualquier i, j. Las cadenas de Markov tambien pueden ser periodicas. Una cadena de Markov se con-
sidera periodica cuando el numero de iteraciones para llegar de un dato a otro no se requiere que sea
multiplo de algun entero. Ademas despues de un numero considerable de iteraciones la cadena de
Markov se hace estacionaria. Esto significa que el vector de probabilidades llega a ser independien-
te de la condicion inicial. Si una cadena de Markov es irreducible y periodica entonces tambien es
estacionaria.
Ejemplo 6.1 Suponer que los estado del espacio son (lluvia, soleado, nublado) y que el clima sigue un
proceso de Markov. As, la probabilidad del clima de manana depende simplemente del clima de hoy, y no
del clima de otros das anteriores. Si este es el caso, la observacion de que ha llovido tres das consecutivos
no altera la probabilidad del clima de manana comparada con la situacion donde hoy llovio pero estuvo
soleado la semana anterior. Suponer que las probabilidades de transicion dado que hoy esta lloviendo
estan dadas por
P(Manana llueva hoy llueve)=0.5,

P(Manana soleado hoy llueve)=0.25,
P(Manana nublado hoy llueve)=0.25,
Con lo que el primer renglon de la matriz de transicion es (0 5, 0 25 025) Suponer que el resto
de la matriz de transicion esta dado por
0 5 0 25 0 25
P= 0 5 0 0 5
0 25 0 25 0 5
Notese que la Cadena de Markov es irreductible. Suponer que hoy es soleado, cual es el clima esperado
dentro de dos das o siete das. Aqu (0) = (0 1 0), dando
(2) = (0)P 2 = (0 375 0 25 0 375)

y
(7) = (0)P 7 = (0 4 0 2 0 4)
Si por el contrario, suponemos que hoy es lluvioso, as que (0) = (1 0 0). El clima esperado es
(2) = (0 4375 0 1875 0 375) y (7) = (0 4 0 2 0 4)

Notar que despues de una cantidad de tiempo suficiente, el clima esperado es independiente del valor
inicial. En otras palabras, la cadena ha alcanzado una distribucion estacionara, donde los valores de
probabilidad son independientes del valor inicial.
Como en el ejemplo anterior, una cadena de Markov puede alcanzar su distribucion estacionaria
, que satisface la siguiente igualdad
= P
Es decir, es el vector propio izquierdo de la matriz P asociado al valor propio = 1 de esta matriz.
La condicion para una distribucion estacionaria es que la cadena sea irreductible y no periodica. Una
condicion suficiente para la unicidad de la distribucion estacionaria es se cumpla la siguiente ecuacion
de balance
P( j, k) j = P(k, j) k (6.10)
Si esta ecuacion se cumple para todo k y j; se dice que la cadena es reversible y a la (6.10) se le
conoce como la condicion de reversibilidad. Notar que esta condicion implica que = P, ya que
jesimo elemento de P es
(P) j = i P(i, j) = j P( j, i) = j P( j, i) = j
i i i
La ultima igualdad se cumple puesto que los renglones de P suman uno.

La idea basica de estados discretos de una cadena de Markov puede ser generalizado a un proceso
de Markov de estados continuos, al hacer un kernel o nucleo de probabilidad P(x, y) que satisface
P(x, y)d y = 1
y la extension al caso continuo de la ecuacion de Chapman-Kolmogorov se convierte es
t (y) = t1 (x)P(x, y)d y
En equilibrio, la distribucion estacionaria satisface
(y) = (x)P(x, y)d y
Algoritmo Metropolis-Hasting
Algoritmo Metropolis-Hasting
Un problema al aplicar la integracion Monte Carlo, seccion 6.2, es obtener muestras de algunas distri-
buciones de probabilidad a priori () complejas, cuando es un vector de dimension alta. En un in-
tento por resolver este problema por medio de muestras aleatorias resulto el algoritmo de Metropolis-
Hasting (Bernardo y Simith, 1994).
El algoritmo genera una cadena de Markov 1 , 2 , , t , con espacio de estados y distribucion
de equilibrio (X). Suponer que se quiere generar muestras de p() donde p() = f ()/K, donde
K es la constante normalizadora (que a menudo es difcil de obtener). Notese que la distribucion
posterior puede verse igual a esta distribucion, ya que: p() = f ()/K = P(X)()/K = (X).
Por lo tanto en este caso P(X)() = f () El algoritmo Metropolis es como sigue.
1. Iniciar con un valor 0 cualquiera que satisfaga que f ( 0 ) > 0

2. Utilizar el valor actual de y un punto candidato de alguna distribucion de transicion
q ( 1 , 2 ), (por el momento arbitraria). En este caso, q ( 1 , 2 ) es la probabilidad de regresar
un valor 2 dado un valor 1 . La unica restriccion para la distribucion de transicion propuesta
es que debe ser simetrica q ( 1 , 2 ) = q ( 2 , 1 ).
3. Dado el punto propuesto , calcular la razon de la densidad entre el punto propuesto y el
punto actual t1
p ( ) f ( )
= =
p ( t1 ) f ( t1 )
notese que la constante normalizadora se cancela al calcular .
4. Si la transicion incrementa la densidad ( > 1) , se acepta el punto propuesto, por lo que
t = . Si la densidad decrece, entonces o se rechaza el punto propuesto o se acepta con
probabilidad , que es la probabilidad de un movimiento.
5. Retornar al paso 2.
Se puede resumir el muestreo Metropolis, primero calculando
f ( )
= mn ( , 1) (6.11)
f ( t1 )
y aceptar el punto propuesto con probabilidad (la probabilidad de un movimiento). Esto genera
una cadena de Markov ( 1 , 2 , , k , ) puesto que la probabilidad de transicion de t a t+1 solo
depende de t . Se se aplica un perodo inicial suficientemente largo (de k pasos por ejemplo), la
cadena tendera a su distribucion estacionaria y las muestras ( k+1 , , k+n ) sera un muestra de
p() = (X).
Hasting generaliza el algoritmo de Metropolis usando una funcion de probabilidad de transicion
arbitraria q ( 1 , 2 ), y establece la probabilidad de aceptacion para el punto propuesto como
f ( ) q ( , t1 )
= mn ,1 (6.12)
f ( t1 ) q ( t1 , )
As que (6.12) es el algoritmo de Metropolis-Hasting. Si la distribucion propuesta es simetrica, en-

tonces se tiene el algoritmo original.
Ejemplo 6.2 Suponer que se desea generar una muestra aleatoria de una distribucion gama inversa:
1 /
() = e = C 1 e / con > 0, > 0
()
y suponer que = 5 y = 20. En la figura 6.1 se muestra la grafica de esta distribucion. Si usamos el al-
goritmo de Metropolis, y como distribucion candidata generadora una distribucion uniforme(0, 40),
que cubre bien el rango de variacion de . Se va a correr el algoritmo. Tomemos un 0 = 2 como el
valor inicial, y suponer que la distribucion uniforme propone como un valor candidato = 9, por
lo tanto de acuerdo a (6.11), se tiene que
f ( ) 91 e /9
= mn ( , 1) = mn ( 1 /2 , 1) = mn(0 2874, 1) = 0 2874
f ( )
t1 2 e
Como < 1, el = 9 propuesto se acepta con probabilidad 0 28 As se selecciona U numero

uniforme(0, 1), y se acepta si U < , y el proceso continua generando un nuevo candidato. Los
resultado de los primeros 500 valores de son graficados en la figura 6.1b. Donde se aprecia seg-
mentos planos grandes, eso indica que durante todo el segmento no se aceptaron nuevos . Esto se
debe en parte a que se esta generando de una uniforme(0, 40) que cubre de sobra el rango de la dis-
tribucion que se quiere generar (ver figura 6.1a). A este fenomeno se le conoce como que la cadena
esta pobremente mezclada. Estrechando un poco el rango de la uniforme se mejora la mezcla.
Con una uniforme(0, 30) se generaron n = 100, 000 tetas, y de ellas se aceptaron 20918. El his-
tograma y la densidad ajustada se muestra en la figura 6.1c (la densidad estimada con el comando
Density de S-Plus). Donde se aprecia una aproximacion razonablemente buena.
Si en lugar de utilizar la distribucion uniforme como generadora utilizamos una distribucion 2
con m = 4 grados de libertad. Entonces como esta distribucion no es simetrica, y por lo tanto se debe
usar el algoritmo Metropolis-Hasting para el proceso de aceptacion. As q ( t1 , ) m/2 e /2 . Si
el valor inicial es 0 = 2, y el primer valor generado es = 3, entonces de acuerdo a (6.12) se tiene
que
31 e /3 24/2 e 2/2
= mn ( , 1) = mn(2 704, 1)
21 e /2 34/2 e 3/2
Como = 1, el = 3 propuesto se acepta (con probabilidad 1). Continuando el proceso, en 100, 000
ocasiones, de estos se aceptaron 20856 valores de . El histograma y la densidad ajustada para estos
se muestra en la figura 6.1d. Donde se aprecia una mejor aproximacion que la obtenida en el caso del
algoritmo Metropolis con la distribucion uniforme (0,30) como generadora.
Con los mejores resultados obtenidos en la figura 6.1d, surge la pregunta si hay mejores opcio-
nes en cuanto a la distribucion propuesta en el algoritmo Metropolis-Hasting. Al respecto hay dos
enfoque principales: caminatas aleatorias y muestreo de cadenas independientes. Para el primer ca-
so el nuevo valor es igual al actual mas una variable aleatoria z, es decir: y = x + z. En este caso
q(x, y) = g(y x) = g(z), la densidad asociada con la variable aleatoria z.
Nmero
Numerode
decorridas
Corridas
El numero de corridas o pasos en una implementacion de este tipo es un tema clave, hasta donde
la cadena se aproxima a una distribucion estacionaria. Comunmente los primeros 1000 a 5000 ele-
mentos son rechazados. Despues se utiliza alguna de las pruebas de convergencia para evaluar si la
distribucion estacionaria se ha alargado.
Una eleccion pobre de los valores iniciales y/o la distribucion propuesta puede incrementar enor-
memente el tiempo. Por lo que una eleccion optima de los mismos es muy importante. Una sugerencia
para los valores iniciales es comenzar la cadena con un valor tan cercano al centro como sea posible
(como la moda).
Figura 6.1
Grficas para ejemplo 6.1
Figura 6.1: Graficas para ejemplo 6.1.

Muestras deGibbs
Muestras de Gibbs
El algoritmo de Gibbs es un caso especial del Metropolis Hasting donde el valor aleatorio es acep-
tado siempre (i.e. = 1). La tarea consiste en especificar como construir una cadena de Markov cuyos
valores convergen a la distribucion principal. La clave es solo considerar las distribuciones condicio-
nales univariadas. As que se toma la distribucion cuando todas las variables aleatorias, excepto una,
tienen asignados valores fijos.
Sea el vector de cantidades desconocidas que aparece en el teorema de Bayes, que tiene los com-
ponentes 1 , . . . , k . El objetivo es obtener inferencias de la distribucion conjunta posterior p (x) =
p ( 1 , . . . , k x). Como ya se vio, puede llevar a problemas de integracion numerica. En lugar de ello
observar que
p ( i x, j , j i) i = 1, . . . , k
la llamada densidad condicional completa para los componentes individuales, dado los datos y los
valores especficos de , son facilmente identificados, como funciones de i . Por inspeccion de la for-
ma de p (x) p (x) p () en cualquier aplicacion dada. Suponer dados un conjunto arbitrarios
de valores iniciales
(0)
(0)
1 , . . . , k
para las cantidades desconocidas, se implementa el siguiente procedimiento iterativo:

se obtiene 1 de p ( 1 x, 2 , . . . , k )
(1) (0) (0)
se obtiene 2 de p ( 1 x, 1 , 3 , . . . , k )
(1) (1) (0) (0)

se obtiene k de p ( 1 x, 1 , . . . , k1 )
(1) (1) (1)
se obtiene 1 de p ( 1 x, 2 , . . . , k )
(2) (1) (1)

y as sucesivamente.
Ahora suponer que el procedimiento anterior es continuando a traves de t iteracciones y es inde-
pendientemente replicado m veces de tal forma que se tiene m replicas del vector t = ( 1 , . . . , k ),
(t) (t)
donde t es una realizacion de una cadena de Markov con probabilidades de transicion dadas por
k
( t , t+1 ) = p ( lt+1 tj , j > l , t+1
j , j < l , x)
l =1
Entonces, cuando t , ( 1 , . . . , k ) tiende en distribucion a un vector aleatorio cuya den-

(t) (t)
sidad conjunta es p (x). En particular, i tiende en distribucion a la cantidad aleatoria cuya dis-
(t)
tribucion es p ( i x). Entonces, dado un t grande, las replicas ( i1 , . . . , im ) son aproximadamente

(t) (t)
muestras aleatorias de p ( i x). Se sigue, al hacer crecer a m, que la estimacion p ( i x) de p (x)

es facilmente obtenida por
1 m
p ( i x) = p ( i x, jl , j i)
(t)
m l =1
El potencial de esta rutina iterativa para la implementacion en el analisis Bayesiano ha sido de-
mostrada en detalle en una gran variedad de problemas: ver Gelfand y Smith (1990).
6.4.
P r e g Preguntas
6.4 u n ta s y e j e rc i y Ejercicios
cio s
1. Cuando y por que se requieren principalmente las aproximaciones numericas en la Inferencia

Bayesiana?
2. Para una distribucion Weibull(5,30), mediante Monte Carlo calcular:
a) E(X),
b) V(X),
c) Graficar la densidad,
d) Investigar el valor exacto de la media y la varianza para la distribucion, y compararlos
con los obtenidos por simulacion.
3. Repetir el ejercicio anterior con la distribucion Lognormal(3,1.5).

4. En relacion al problema 4.11 obtener la constante normalizadora utilizando los metodos de
Laplace, Monte Carlo y de muestreo relevante.
5. En relacion al ejemplo 4.5 donde se obtuvo la distribucion predictiva en forma analtica. Ahora
obtener esta distribucion usando el metodo de muestreo-remuestreo relevante y comparar los
resultados obtenidos con la forma analtica.
6. A partir del ejemplo 6.1, y generar mediante un algoritmo Metropolis la distribucion gama
inversa con = 5 y = 20, usando como distribucion propuesta (generadora) a una uniforme
(0, 20) en un caso y uniforme(0, 60) en otro. Que diferencias se observa con respecto a los
resultados de la figura 6.1?
7. Del ejemplo 6.1 generar mediante un algoritmo Metropolis-Hasting la distribucion gama in-
versa con = 5 y = 20, usando como distribucion propuesta (generadora) a una ji-cuadrada
con m = 10 grados de libertad Que diferencias observa respecto a los resultados de la figura
6.1?
8. Del ejemplo 6.1 generar mediante un algoritmo Metropolis-Hasting la distribucion gama in-
versa con = 5 y = 20, y proponer como distribucion generadora a una exponencial Que di-
ferencias se observan respecto a los resultados de la figura 6.1?
9. Mediante un algoritmo Metropolis genere la distribucion normalgama(m, k, , ), con (m, k, , ) =
(55, 22 5, 27 0, 1625 0). En la figura 3.5d puede consultar la grafica de esta distribucion. Utilice
como distribuciones generadoras de (, ) a dos uniformes independientes. Vea la figura re-
ferida para proponer parametros de estas distribuciones. Obtener la grafica y contrastela con
la figura 3.5d. Comentar.
7. E s p e c i f i c ac i n d e m o d e lo s
Captulo 7
Especificacion de modelos
Un aspecto central en la inferencia estadstica es la especificacion del modelo f (x) que describe
el comportamiento de la variable aleatoria x. Aunque en general hay aspectos fsicos que ayudan
a seleccionar el modelo en algunas aplicaciones, en general es necesario validar que efectivamente
el modelo elegido es el adecuado a los datos. Porque las inferencias que se obtienen a partir de las
distribuciones posteriores (X) y f (yX), depende del modelo utilizado. En este captulo se vera
la forma general que la estadstica Bayesiana aborda este problema.
7.1.I n t ro
7.1 Introduccion
duccin
En algunas areas de la estadstica, particularmente en confiabilidad, se utilizan graficas de probabili-

dad con bandas de confianza para evaluar la especificacion de la distribucion, ver por ejemplo Meeker
y Escobar (1998, cap. 6). Este tipo de graficas son utiles para detectar discrepancias fuertes respecto al
modelo de los datos, presencia de mezclas de distribuciones (Doganaksoy et. al. 2002), pero son sub-
jetivas y pueden tener poco poder para detectar errores en la especificacion. Sea el siguiente ejemplo.
Tabla 7.1. Muestras generadas de una distribucion exponencial (n = 15)
Muestra Datos
1 0.01 0.11 0.13 0.15 0.17 0.32 0.33 0.41 0.42 0.44 0.45 0.48 0.56 0.60 0.80
2 0.04 0.12 0.17 0.20 0.20 0.24 0.29 0.43 0.44 0.45 0.60 0.64 0.68 0.72 1.03
3 0.03 0.09 0.10 0.13 0.14 0.17 0.29 0.31 0.33 0.43 0.53 0.60 0.78 0.78 0.88
4 0.05 0.06 0.19 0.25 0.26 0.30 0.35 0.42 0.70 0.73 0.78 0.90 1.03 1.41 1.45
Ejemplo 7.1.
En la tabla 7.1 se muestran datos simulados de una distribucion exponencial y en la figura 7.1 se
aprecian las correspondientes graficas de probabilidad normal. Con base en estas graficas es difcil
rechazar la idea de que estos datos provengan de una distribucion normal. Remarcando el hecho
[135]
123
124 CAPITULO 7. ESPECIFICACION DE MODELOS
de que esto ocurre con una distribucion como la exponencial, que tiene una forma radicalmente
diferente a la normal.
Ejemplo 7.2.
Una de las caractersticas particulares de los datos en confiabilidad es que por lo general son mues-
tras censuradas. Por ejemplo los datos de la tabla 7.2 representan la distancia de falla en kilometros
de 38 amortiguadores de vehculos (OConnor, 1985; pag. 85). Los datos que tienen como exponente
un signo +, son tiempos censurados por la derecha, es decir, a esa distancia el amortiguador todava
estaba en buen estado. Con el esquema de censura multiple por la derecha, de los 38 amortiguadores,
solo se observaron 11 fallas. Utilizando el metodo Kaplan-Meier para definir las posiciones de pro-
babilidad (Meeker y Escobar, 1998, secc. 3.5), en la figura 7.2 se muestra las correspondientes graficas
de probabilidad con bandas de confianza generadas por el procedimiento probplot.censor del sistema
S-Plus. Teniendo como alternativa cuatro posibles modelos: (a) normal, (b) lognormal, (c) valor ex-
tremo y (d) Weibull. De acuerdo a estas graficas practicamente cualquiera de estas distribuciones es
factible, quizas la valor extremo pudiera descartarse por el punto fuera de las bandas.
Tabla 7.2. Distancia de falla para 38 amortiguadores de vehculos.

6700, 6950+ ,7820+ , 8790+ , 9120, 9660+ , 9820+ , 11310+ , 11690+ , 11850+ ,
11880+ ,12140+ ,12200,12870+ , 13150, 13330+ , 13470+ , 14040+ , 14300, 17520,
17540+ , 17890+ ,18420+ ,18960+ , 18980+ , 19410+ , 20100, 20100+ , 20150+ ,
20320+ , 20900, 22700, 23490+ , 26510, 27410+ , 27490, 27890+ , 28100+
Con base en los dos ejemplos anteriores, se ve que se requiere contar con herramientas mas for-
males que ayuden en la especificacion del modelo para datos de confiabilidad. En Gutierrez Pulido et
al (2006c) se hace una revision bibliografica de las diferentes alternativas para abordar el problema, y
se propone una alternativa para la especificacion de modelos desde la perspectiva Bayesiana. Se estu-
dian los modelos normal, lognormal, valor extremo, Weibull y exponencial y se ve que la probabilidad
posterior para algunos de ellos tiene forma cerrada, en otros casos se obtienen aproximaciones . La
metodologa se evalua analizando datos de problemas de confiabilidad. El captulo se basa principal-
mente en Gutierrez Pulido et al (2006c).
7.2. Probabilidad Posterior para un Modelo

7.2 P ro b a b i l i da d p o s t e r i o r pa r a u n m o d e lo
Sean m modelos en competencia M 1 ,...,M m , y X = (x 1 , , x n ) una muestra aleatoria de tamano n de los
datos (la muestra puede ser completa o censurada), entonces por el teorema de Bayes la probabilidad
posterior para el modelo M j , esta dada por:
f (XM j ) Pr(M j )
Pr(M j X) = j = 1, 2, ,m (7.1)
i=1
m
f (XM i ) Pr(M i )
donde
Figura 7.1
Grfica de probabilidad normal para datos de la tabla 7.1
Figura 7.1: Grafica de probabilidad normal para datos de la tabla 7.1.

Figura 7.2
Grficas de probabilidad para datos tabla 7.2
Figura 7.2: Graficas de probabilidad para datos tabla 7.2.

7.2. PROBABILIDAD POSTERIOR PARA UN MODELO 127
f (XM j ) = P(X j , M j )( j M j )d j (7.2)
Como se vio en el captulo 1, la funcion dada por (7.2) es la distribucion conjunta marginal de los datos
bajo el modelo M j , y tambien se le conoce como la constante normalizadora o como la verosimilitud
integrada. Ademas ( j M j ) es la densidad a priori para el vector de parametros j , con P(X j , M j )
la verosimilitud bajo el modelo M j , y Pr(M j ) es la probabilidad o ponderacion a priori que se le asigna
al modelo M j .
De acuerdo al factor de Bayes, seccion 5.6, la probabilidad posterior para un modelo dada por
(7.1), se puede ver como una generalizacion de la formula dada en (5.9), y (7.2) sera equivalente a
(5.11). De esta manera con (7.1) se puede evaluar la evidencia que aportan los datos en favor de una
distribucion de probabilidad como modelo de X al compararla contra otras distribuciones.
La problematica para calcular (7.1) se localiza en poder calcular (7.2), la cual depende de la ve-
rosimilitud y de la densidad a priori. Si (7.2) no tiene solucion analtica, habra que emplear metodos
numericos, lo cual tiene su problematica especial debido a que conforme n crece el integrando de
(7.2) se pone puntiagudo. En el captulo anterior se vio varias formas de calcularla.
La expresion (7.2) tiene solucion analtica solo para unos cuantos casos. Por ejemplo si se con-
sideran las distribuciones normal (M 1 ), lognormal (M 2 ), valor extremo (M 3 ), Weibull (M 4 ) y ex-
ponencial (M 5 ), que son modelos muy utilizados para modelar tiempos de vida en confiabilidad y
supervivencia, entonces (7.2) tiene solucion para el caso normal, lognormal y exponencial, con mues-
tras no censurados. Para el caso de muestras censuradas, solo para el caso exponencial.
Teorema 7.1 Bajo muestras aleatorias sin censura y al suponer una densidad a priori normal-gama(m 1 , k 1, 1 , 1 )
para el modelo normal y una normal-gama (m 2 , k 2, 2 , 2 ) para el modelo lognormal, la expresion (7.2)
esta dada por:
a) Para el modelo normal M 1
1 1 ( n2 + 1 ) (k 1 )1/2
f (XM 1 , 1 , 1 , m 1 , k 1 ) = n + (7.3)
(k 1 + n)1/2 ( 1 )(2)n/2 h 12
1
con h 1 = 21 k 1 n (mk1 1x n)
+ 1 + s2n , s n = ni=1 (x i x)2 y x n es la media aritmetica
2
+n
b) En el caso del modelo lognormal M 2
2 2 ( n2 + 2 ) (k 2 )1/2
f (XM 2 , 2 , 2 , m 2 , k 2 ) = n + (7.4)
(k 2 + n)1/2 ( 2 )(2)n/2 h 22 i=1 x i
n
2
con h 2 = 21 k 1 n (mk2 w n)
+ 2 + u2n
2
1 +n
Demostracion. Sabemos que (7.2) esta dada por

f (XM i , i , i , m i , k i ) = L(X, , M i )(, i , i , m i , k i )d d
0
a) Caso normal: al sustituir las expresiones para la verosimilitud normal (2.28) y la densidad a priori
normal gama, y al combinar terminos se obtiene que (7.2) esta dada por
(k )1/2 2 + 1
n1
1 1 k1 s n
exp [ ( m 1 )2 n( x n )2 1 ] d d
1
( 1 ) 0 (2) (n+1)/2 2 2 2
De aqu, al desarrollar los terminos que involucran a , combinar y completar un binomio cuadrado,
se obtiene que (7.2)
1 1 (k 1 )1/2 2 + 1 (k 1 m 1 + nx n ) 2
n1
1
exp ( (k + n) [ ])
( 1 ) (2)(n+1)/2 k1 + n
1
0 2
1 (m 1 x n )2 s n
exp [ k 1 n ] exp ( 1 ) d d
2 k1 + n 2
Ahora, de la forma de las densidades normal y gama, y completar en el caso normal y separar expre-
siones se obtiene que (7.2) es
1 1 (k 1 )1/2 n2 1 (m 1 x n )2 sn
+ 1
[ ( + 1 + ) ]
(k 1 + n)1/2 ( 1 )(2)n/2 0
exp k n
k1 + n
2
1
2 2
(k 1 + n) 1/2 1 (k 1 m 1 + nx n ) 2
( ) exp ( (k 1 + n) [ ] ) d d
2 2 k1 + n
Los dos ultimos terminos de esta expresion corresponden a una densidad normal para , que al estar
siendo integrada sobre todo el espacio parametrico, esa integral es igual a uno. Por ello, al integrar,
completar una densidad gama y hacer h 1 = 21 k 1 n (mk11x) + 1 + s2n , se obtiene que la constante nor-
2
+n
malizadora esta dada por
n +
1 1 ( n2 + 1 ) (k 1 )1/2 h 12
1
2 + 1 1 exp [h 1 ] d
n
( n2 + 1 )
n +
(k 1 + n)1/2 ( 1 )(2)n/2 h 1 0 2 1
La expresion dentro del integrando corresponde a una densidad gama para , que al estar siendo
integrada sobre todo el espacio parametrico es igual a uno. Por ello, finalmente se obtiene que la
verosimilitud integrada para el modelo M 1 esta dada por
1 1 ( n2 + 1 ) (k 1 )1/2
n +
(k 1 + n)1/2 ( 1 )(2)n/2 h 12
1

b) Para el modelo lognormal. Al sustituir las expresiones para la verosimilitud lognormal (2.48) y la
densidad a priori normal gama, y al combinar terminos se obtiene que la VI para f (XM 2 , 2 , 2 , m 2 , k 2 )
esta dada por
(k )1/2 2 + 2
n1
2 2 k2
exp [ ( m 2 )2 n( w n )2 ]
2
( 2 ) i=1 x i 0
n
(2)(n+1)/2 2 2
u n
exp ( 2 ) d d
2
De aqu, al desarrollar los terminos que involucran a , combinar y completar un binomio cuadrado
se obtiene que la VI es
2 2 (k 2 )1/2 2 + 2 (k 2 m 2 + nw n ) 2
n1
1
exp ( (k 2 + n) [ ])
( 2 ) i=1 x i 0
n
(2) (n+1)/2 2 k2 + n
1 (m 2 w n )2 u n
exp [ k 2 n ] exp ( 2 ) d d
2 k2 + n 2
Ahora, al rescribir el integrando en la forma de las densidades normal y gama, completar en el caso
normal y separar expresiones se obtiene que la VI es
(k 2 + n)1/2 2 2 (k 2 )1/2 n2 1 (m 2 w n )2 un
+ 2
exp [ ( k n + 2 + ) ]
( 2 )(2)n/2 i=1 x i 0 k2 + n
2
n 2
2 2
(k 2 + n) 1/2 1 (k 2 m 2 + nw n ) 2
( ) exp ( (k 2 + n) [ ] ) d d
2 2 k2 + n
Los dos ultimos terminos de esta expresion corresponden a una densidad normal para , que al estar
integrada sobre todo el espacio parametrico, esa integral es igual a uno. Por ello, al integrar, completar
una densidad gama y hacer h 2 = 21 k 2 n (mk22w) + 2 + u2n , se obtiene que la VI es
2
+n
n +
2 2 ( n2 + 2 ) (k 2 )1/2 h 22
2
2 + 2 1 exp [h 2 ] d
n
( n2 + 2 )
n +
(k 2 + n)1/2 ( 2 )(2)n/2 h 2 i=1 x i 0
n 2 2
Esta expresion dentro del integrando corresponde a una densidad gama para , que al estar integrada
sobre todo el espacio parametrico es igual a uno. Por ello, finalmente se obtiene que
2 2 ( n2 + 2 ) (k 2 )1/2
f (XM 2 ) = n +
(k 2 + n)1/2 ( 2 )(2)n/2 h 22 i=1 x i
n
2
que es lo se que quera demostrar.
Teorema 7.2 Bajo muestreo aleatorio completo de un modelo exponencial (, ), y al suponer conocido
. Dado que la densidad para el modelo exponencial esta dada por f (x , ) = exp [(x )] >
0, 0 < x, entonces f (XM i ) esta dada por:
a) Sea una densidad a priori gama ( 5 , 5 ) para (3.9), entonces:
5 5 (n + 5 )

f (XM 5 , ) = (7.5)
( 5 ) (s 5 )n+ 5
donde s 5 = ni=1 x i + 5 n
b) Al suponer una distribucion a priori uniforme (a 5 , b 5 ) para
1
f () = con 0 a 5 < b 5 (7.6)
b5 a5
entonces
u 5 (n + 1)
f (X M 5 , ) = [G(b 5 ; n + 1, v) G(a 5 ; n + 1, v)] (7.7)
v n+1
donde v = ni=1 x i n, y G(; n + 1, v) es la distribucion gama acumulada con parametros (n + 1,
v).
Demostracion. a) A priori gama. Dada la verosimilitud de un modelo exponencial y utilizando una
distribucion gama( 5 , 5 ) como distribucion inicial para , entonces
n
5 5 5 1
f (XM 5 , ) = n exp [ ( x i n)] exp()d
0 i=1 ( 5 )
al reagrupar terminos y completar una densidad gama, incluyendo sus terminos constantes, se obtiene
que f (XM i ) es
5 5 (n + 5 )
n+
b1 5
n+ 5 1 exp (s 5 ) d
( 5 ) s 5
n+ 5
0 (n + 5 )
donde s 5 = ni=1 x i + 5 n Como el integrando de esta expresion corresponde a una densidad

gama y la integracion se hace sobre todo el espacio parametrico, entonces la integral es igual a uno.
De aqu que
5 5 (n + 5 )

f (XM 5 , ) =
( 5 ) s 5n+ 5
b) A priori uniforme. Dada la expresion la verosimilitud de un modelo exponencial y utilizando una
distribucion uniforme(a 5 , b 5 ) como distribucion inicial para , entonces f (XM i ) esta dada por
b5 n
u 5 n exp [ ( x i n)] d
a5 i=1
Al reagrupar terminos y completar una densidad gama se obtiene que f (XM i ) es
u 5 (n + 1) b5 v n+1
n exp [v] d
v n+1 a 5 (n + 1)
con v = ni=1 x i n Como el integrando de esta expresion corresponde a una densidad gama, en-
tonces al integrar se obtiene que
u 5 (n + 1)
f (XM i ) = [G(b 5 ; n + 1, v) G(a 5 ; n + 1, v)]
v n+1
donde G(; n + 1, v) es la distribucion gama acumulada con parametros (n + 1, v) Esta expresion es
la que se quera obtener.
Tabla de
de probabilidades
probabilidades posteriores
posteriores
Se va a aplicar la metodologa propuesta para evaluar cual de los cinco modelos (normal-M 1 , lognormal-
M 2 , valor extremo-M 3 , Weibull-M 4 y exponencial-M 5 ) tiene mayores meritos como modelo de dis-
tintos conjuntos de datos. Para ello, de acuerdo al metodo descrito en Gutierrez-Pulido et al (2005b),
se necesita proponer intervalos iniciales donde se espera ocurran la media y la desviacion estandar
del tiempo de vida. Obviamente lo deseable hubiese sido proponer estos intervalos de forma previa a
obtener los datos, sin embargo, como lo datos ya existen, se propone directamente los intervalos para
la media y la desviacion estandar, ya que estos son comunes a todos los modelos.
A partir de los intervalos para la media y la desviacion estandar se calculan los hiperparametros
de las distribuciones a priori para los parametros de los diferentes modelos considerados, al aplicar
para ello los resultados resumidos en la tabla 3.1. La comparacion de modelos se hace de forma general,
al calcular la probabilidad posterior para cada modelo al tomar en cuenta todos los demas (7.1). Es
decir, al calcular
f (XM j ) Pr(M j )
Pr(M j X) = j = 1, 2, ,5 (7.8)
i=1
5
f (XM i ) Pr(M i )
Pr(M j X) proporciona una evidencia cuantitativa de que tan adecuado es cada modelo al ser com-
parado contra el resto de los modelos considerados. Notese que 5j=1 Pr(M j X) = 1, por lo que los
modelos que tengan una mayor probabilidad posterior seran los modelos, de entre los considera-
dos, con mayores meritos para ser considerados como modelos para los datos correspondientes. La
probabilidad inicial para cada modelo sera la misma (Pr(M j ) = 1/5).
Ademas con la idea de tener mayores elementos de evaluacion de los meritos de cada modelo
en relacion otro, es posible comparar de dos en dos los modelos. Esto permitira tener argumentos
especficos en favor en contra de un modelo, al ser contrastado con otro. As, ademas de la evaluacion
general proporcionada por Pr(M j X), se propone, a partir de cada f (X M i ) construir la tabla de
probabilidades pareadas, en la que se comparan en pares los modelos considerados. Para ello si se
desea comparar el modelo M i con el modelo M j , y se considera solo estos dos modelos como las
posibles opciones, entonces de acuerdo a (7.1) la probabilidad posterior del modelo M i estara dada
por
f (X M i ) Pr(M i )
Pr(M i , j X) = con i j (7.9)
f (X M j ) Pr(M j ) + f (X M i ) Pr(M i )
Esta expresion se obtiene directamente de (7.1), haciendo Pr(M i ) = 0 5. Al ordenar estas probabilida-
des se obtiene una tabla como la 7.4. De aqu que en la medida que Pr(M i , j X) sea mayor que 0 5, el
modelo M i sera mas adecuado que el modelo M j De esta manera, si en total se evaluan m modelos
y se comparan por pares mediante el calculo de (7.9); estas probabilidades pueden organizarse en una
tabla con m renglones y m columnas. Si los renglones de esta tabla los denotamos con el subndice i y
las columnas con el subndice j, entonces la interpretacion de esta tabla sera como sigue: en el renglon
i se observaran las probabilidades posteriores del modelo M i al ser comparado contra el resto de los
modelos que se indican en cada columna; por lo tanto si estas probabilidades son grandes y mayores
que 0 5, entonces de acuerdo a la metodologa este modelo resulta mas adecuado para los datos. Por
el contrario, si todas o casi todas las probabilidades del renglon i son pequenas y menores que 0 5,
entonces el modelo M i no es un buen candidato a ser especificado como el modelo para el tiempo de
falla. La interpretacion de las columnas es opuesta: valores bajos de las probabilidades en la columna
de una distribucion indican que esa distribucion es un buena alternativa como modelo. Esto se debe
a que
Pr(M i , j X) + Pr(M j, i X) = 1
En los conjuntos de datos que se consideran enseguida se muestran ejemplos de esta tabla de proba-
bilidades posteriores.
Experimento sobre amortiguadores

Experimento sobre amortiguadores
En el ejemplo 7.2 se presentaron los datos sobre el tiempo de vida (en kilometros) de amortiguadores
de automoviles. Analizando los datos, es claro que estamos ante el caso de censura multiple tipo
I o quizas una censura aleatoria. En la figura 7.2 se presentan las graficas de probabilidad para tales
datos. A partir de estas graficas es difcil la eleccion de la distribucion, excepto probablemente la valor
extremo, que se puede descartar ya que un punto se sale de las correspondientes bandas de confianza
Se va a aplicar a estos datos la metodologa anterior. Los intervalos iniciales propuestos para la
media y la desviacion estandar son [20000, 35000] y [5000, 15000], respectivamente. Dados los
intervalos a priori para la media y la desviacion estandar, utilizando una distribucion normal-gama
como a priori para los parametros de los cinco modelos en competencia. Entonces, al aplicar los
resultados del captulo 3 sintetizados en la tabla 3.1, se obtienen los valores de los hiperparametros de
la distribucion a priori que se muestran en la tabla 7.3.
Tabla 7.3: Parametros de la a priori normal-gama para datos de amortiguadores.

Modelo i i mi ki
Normal 2916 106 29 16 27500 16 568
Lognormal 4 083 32 88 10 1598 11 367
V. extremo 631554 81 32000 0 00126
Weibull 2 2932 6 8757 30796 57 5 2046 108
Exponencial 2850909 103 67
Con estos parametros y al calcular f (XM i ) por simulacion Monte Carlo (20000 replicas), se
obtienen los resultados de la tabla 7.4. Al analizar la ultima columna de esta tabla se aprecia que los
modelos con mayores meritos son el normal y el Weibull (Pr(M 1 X) = 0 42 y Pr(M 4 X) = 0 41),
seguidos de forma lejana por el valor extremo. En Meeker y Escobar (1998, pag. 176) se consideran
estos mismos datos, y con base a graficas de probabilidad con bandas de confianza deciden el modelo
Weibull sobre el lognormal, pero no consideran el modelo normal. De la misma tabla 7.4, se aprecia
que para estos datos el modelo Weibull es muy superior al lognormal, ya que Pr(M 4,2 X) = 0 9061,
y Pr(M 2,4 X) = 0 0939
Tabla 7.4. Probabilidad posterior para los cinco modelos, datos de amortiguadores.
(a priori normal-gama)
Modelo M1 M2 M3 M4 M5 Pr(M j X)
Normal, M 1 0.9077 0.7717 0.5048 0.9999 0.4214
Lognormal, M 2 0.0923 0.2558 0.0939 0.9992 0.0416
V. extremo, M 3 0.2283 0.7442 0.2317 0.9997 0.1234
Weibull, M 4 0.4952 0.9061 0.7683 0.9999 0.4136
Exponencial, M 5 0.0001 0.0008 0.0003 0.0001 0.0000
7.3 u n ta s y e j e rc y
i c iEjercicios
os
1. Por que en estadstica la especificacion de un modelo es un problema fundamental?

2. Describa de manera general como se hace la especificacion o seleccion de modelos en la es-
tadstica Bayesiana.
3. En estadstica clasica se usan pruebas de bondad de ajuste y graficas de probabilidad para la
especificacion de modelos, en que consisten estas y cual su problematica?
4. En una aplicacion se obtienen los siguientes datos: 0.8 0.6 2.5 5.2 2.2 0.5 6.4 4.6 5.4 8.6
8.4 0.5 0.3 6.0 7.4 0.6 6.8 8.3 0.2 1.6. Como modelo propuestos para estos se tiene a un
modelo uniforme y un exponencial.
a) Obtener histograma y graficas de probabilidad para estos datos y de una primera opinion
sobre lo adecuado de estos modelos.
b) Obtener las expresiones analticas que permitan calcular la probabilidad posterior (da-
dos los datos) para ambos modelos.
c) Recurriendo a los metodos descritos en el captulo 3, obtener las distribuciones a prioris
adecuadas para cada modelo.
d) Con lo hecho en los dos incisos anteriores calcular la probabilidad posterior para cada
modelo y comentar.
5. Se tienen los siguientes datos: 10 17 18 9 13 11 1 6 12 8 4 3 13 7 9. Como modelo propuestos

para estos se tiene a un modelo Poisson y un modelo binomial-negativo.
a) Obtener graficas de probabilidad para estos datos y de una primera opinion sobre lo
adecuado de estos modelos.
b) Obtener las expresiones analticas que permitan calcular la probabilidad posterior (da-
dos los datos) para ambos modelos.
c) Recurriendo a los metodos descritos en el captulo 3, obtener las distribuciones a prioris
d) Con lo hecho en los dos incisos anterior calcular la probabilidad posterior para cada
modelo y comentar.
6. Se tienen los siguientes datos: 4.2 4.5 3.3 4.7 6.1 4.2 3.6 5.2 3.7 3.7 2.2 7.4 6.1 8.9 7.4 4.4
4.8 7.1 8.1 5.7 2.9 3.8 5.7 7.2 3.8. A priori se cree que la media y desviacion estandar estan
en [3, 7] y [1,5, 3], respectivamente. Como modelos propuestos para estos se quiere analizar el
normal, lognormal y exponencial.
a) Obtener graficas de probabilidad para estos datos y de una primera opinion sobre lo
adecuado de estos modelos.
b) Recurriendo a los metodos descritos en el captulo 3, obtener las distribuciones a prioris
c) Aplicar los resultados de la seccion 7.2 para obtener la probabilidad posterior para cada
modelo y comentar.
8. E squema de decisin b ay e s i a na
Captulo 8
Esquema de decision Bayesiana
Se dijo en el captulo 1, que la estadstica Bayesiana proporciona un sistema consistente tanto para
realizar inferencias estadsticas como para tomar decisiones bajo incertidumbre. En los captulos an-
teriores se hizo enfasis en hacer inferencias, ya sea sobre los parametros de los modelos o sobre la
variable aleatoria misma. En este captulo se ve con detalle como hacer las decisiones en forma Baye-
siana. En la primer seccion se presentan las ideas generales y en la segunda se aborda el problema de
determinar en forma optima el tiempo de garanta de un producto.
8.1. Toma de Decisiones (Funcion de Utilidad)

8.1 T oma d e d e c i s i o n e s ( f u n c i n d e u t i l i da d )
Como se vio en el captulo 1, que los elementos de una decision en el contexto de inferencia son:
i) a A, las posibles respuestas o decisiones.
ii) , estados desconocido de la realidad.
iii) u A R, una funcion de decision que vincula la utilidad o ganancia de cada (a, ),
es decir, que evalua las consecuencias de una respuesta a y una situacion resultante de la
realidad
iv) P(), una especificacion, en la forma de una distribucion de probabilidad, de los conocimien-
tos actuales acerca de los posibles estados de la realidad.
La eleccion optima de la respuesta para un problema de inferencia es aquella a A que maxi-
miza la utilidad esperada, E P(w) (u(a, w)) = u (a), donde el valor esperado se obtiene con base a la
distribucion P(w). De esta manera si w es continua entonces
u (a) = u(a, )p()d, (8.1)

mientras que si w es una variable aleatoria discreta, entonces la utilidad esperada esta dada por
u (a) = u(a, )p() (8.2)

[147]
135
136 CAPITULO 8. ESQUEMA DE DECISION BAYESIANA
y la decision sera aquella a A que maximice u (a) Alternativamente, si en lugar de trabajar con
u(a, ), se trabaja con la llamada funcion de perdida
l(a, ) = h() u(a, ),
donde h( ) es una funcion fija arbitraria, la eleccion optima de la respuesta es aquella a A que
minimiza la perdida esperada.
Ejemplo 8.1 Suponer que un lote de produccion procede de una de cuatro lneas de produccion del
proveedor. Se sabe que la proporcion de defectuosos de cada lnea es diferente, y esta dada por = 0 01,
0 04, 0 07 y 0 10. Las tres posibles decisiones son a 1 =aceptar el lote sin inspeccion, a 2 =inspeccionar
el lote al 100 % para separar el producto defectuoso y a 3 = regresarlo al proveedor. Se quisiera que si el
lote proviene de las lneas con mejor calidad favorecer la decision a 1 y si vienen de las lneas con peor
calidad, entonces se quisiera tomar la decision a 3 . De acuerdo a esto, se estima que los costos o perdidas
(consecuencias) de estas posibles decisiones, en combinacion con el valor de , se muestran en la siguiente
tabla
a1 a2 a3
1 = 0 01 0 1 3
2 = 0 04 2 0 2
3 = 0 07 3 1 0
4 = 0 10 4 2 0
Por ejemplo si se decide a 3 y el lote viene de la lnea 1 ( 1 = 0 01) , entonces las perdidas seran de
3. En este caso los estados desconocidos de la realidad lo representa la incertidumbre sobre la lnea
de donde viene el lote. Por ello se requiere saber p(). Si no se tiene una presuncion sobre p(),
entonces se puede suponer una distribucion discreta uniforme: p( = i ) = 1/4.
Para tomar la decision se plantea tomar una muestra de n artculos y ver cuantos son defectuosos
x. Suponer que el tamano de lote es grande y que n = 50, entonces se puede suponer que X tiene
una distribucion binomial f (x) Bin(n). Dados los datos de la muestra, P( i x) proporciona
la probabilidad posterior de que el lote venga de la lnea i. Por el teorema de Bayes:
f (x i )P( i )
P( i x) =
j=1 f (x j )P( j )
4
En la tabla 8.1 se muestra la evaluacion de P( i x) para varios valores de x De acuerdo a (8.2), el

riesgo o perdida de cada decision a j esta dado por:
4
l(a j x) = l(a j , i )P( i x),
i=1
donde l(a j , i ) se obtiene de la tabla de consecuencias o perdidas. Por ejemplo suponer que en la
muestra salen 2 defectuosos, si se decide a 2 , entonces de acuerdo a los datos de la tabla 8.1, la perdida
esperada sera:
l(a 2 x = 2) = 1 P( 1 x) + 0 P( 2 x) + 1 P( 3 x) + 2 P( 4 x)
= 1 0 12 + 0 0 45 + 1 0 30 + 2 0 13 = 0 68
8.1. TOMA DE DECISIONES (FUNCION DE UTILIDAD) 137
8. E squema de decisin B ay e s i a na 149
En la tabla 8.1 tambien se muestra la evaluacion de l(a j x) para diferentes valores de x Se resalta
el valor de l(a i x) que minimiza la perdida, y que indica la decision de Bayes. Se puede apreciar que
si x > 2, la decision debe ser a 3 , y conforme x es mas mayor que 2, la perdida (riesgo) disminuye. Lo
que quiere decir que para esos valores de x, la evidencia favorece fuertemente a a 3 . Solo en caso de
que x = 0 se decide a 1 , y x = 1 y x = 2, llevan a la decision a 2 .
Tabla 8.1. Probabilidades posteriores y perdidas para el ejemplo 8.1

x P( 1 x) P( 2 x) P( 3 x) P( 4 x) l(a 1 x) l(a 2 x) l(a 3 x)
0 0.79 0.17 0.03 0.01 0.47 0.84 2.71
1 0.43 0.38 0.14 0.04 1.36 0.66 2.07
2 0.12 0.45 0.30 0.13 2.31 0.68 1.27
3 0.02 0.33 0.40 0.25 2.85 0.92 0.73
4 0.00 0.19 0.42 0.39 3.18 1.19 0.39
5 0.00 0.10 0.38 0.52 3.42 1.42 0.20
6 0.00 0.04 0.32 0.64 3.59 1.59 0.09
Ejemplo 8.2 Suponer que el 10 % de los empleados de cierto tipo de fabricas padecen una enfermedad
pulmonar. Ver programa 8. Suponer, tambien, que disponen de una prueba para ayudarles a determinar
si tienen la enfermedad y que el resultado de esta prueba es una variable aleatoria X con la siguiente
distribucion: Si el empleado tiene la enfermedad, entonces X tiene una distribucion normal con media
50 y varianza 1. Si el empleado no tiene la enfermedad, entonces X tiene una distribucion normal con
media 52 y varianza 1. Como consecuencia del resultado X, un empleado puede requerir un estudio
medico mas completo. Suponer que la perdida por requerir un estudio cuando el empleado no tiene la
enfermedad es $100, y que la perdida por no requerir un estudio medico completo cuando el empleado
tiene la enfermedad es $2000 y que en otro caso la perdida es cero. Si se realiza la prueba a un empleado
seleccionada al azar de una fabrica de este tipo, para que valores de X la decision de Bayes es requerir
un estudio medico completo?
Las consecuencias se muestra en la siguiente tabla.
a 1 Estudio a 2 no estudio
1 enfermo = 0 1 0 2000
2 sano = 0 9 100 0
En este caso los estados desconocidos de la realidad lo representa la incertidumbre sobre si el em-
pleado tiene la enfermedad o no. Por ello se requiere saber p(). Como p ( 1 ) = 1 p ( 2 ) = 0 1.
Ademas X tiene una distribucion normal
f (x 1 ) Norm(50, 1)
y
f (x 2 ) Norm(52, 1).
Dados los datos de la muestra, P( i x) proporciona la probabilidad posterior del estado de salud Por
el teorema de Bayes:
f (x i )P( i )
P( i x) = 2
j=1 f (x j )P( j )
En la tabla 8.2 se muestra la evaluacion de P( i x) para varios valores de x De acuerdo a (8.2), el

riesgo o perdida de cada decision a j esta dado por:
2
l(a j x) = l(a j , i )P( i x),
i=1
donde l(a j , i ) se obtiene de la tabla de consecuencias o perdidas.
Figura 8.1
Grficas de P (i | x) y l(ai |x) para ejemplo 8.2
Figura 8.1: Graficas de P( i x) y l(a i x) para ejemplo 8.2.
En la tabla 8.2 se muestra la evaluacion de l(a j x) para diferentes valores de x De donde se ve

que la decision de Bayes es mandar a un estudio medico completo a los que obtengan 51.39 o menos
8.2. ELECCION DE TIEMPOS DE GARANTIA 139
en la prueba.
Tabla 8.2. Calculos para ejemplo 8.2
x P( 1 x) P( 2 x) l(a 1 x) l(a 2 x)
51.37 0.0503 0.9497 94.966 100.688
51.38 0.0494 0.9506 95.060 98.792
51.39 0.0485 0.9515 95.153 96.931
51.40 0.0476 0.9524 95.245 95.103
51.41 0.0467 0.9533 95.334 93.308
En la primera parte de la figura 8.1 se muestra la grafica de P( 1 x) y P( 2 x), de donde se aprecia
que a medida que x es mas grande, aumenta P( 2 x). En x = 49.9 las curvas se interceptan con una
probabilidad posterior igual a 0.5. De esta manera si solo se decidiera con base a la probabilidad
posterior, si x 49.9 entonces P( 1 x) > P( 2 x), es decir para x 49.9 la probabilidad posterior de
estar enfermo es mayor a la de estar sano, y solo cuando x 49.9 se mandara a la persona a una estudio
mas completo. Sin embargo, como las consecuencias de una mala decision no son las mismas, y es
muy inadecuado no hacer un estudio completo cuando la persona esta enferma, entonces las graficas
de la funcion de perdida, en la misma figura 8.1, muestran una mayor sensibilidad de l(a 2 x), y se
debe enviar a revision si x 51.39.
8.2.
E l e c cEleccion
8.2 i n d e t i e mde
p o sTiempos de Garanta
de garanta
Uno de los objetivos basicos de muchos de los estudios de confiabilidad es decidir el tiempo o esquema
de garanta para un producto, sin embargo esto practicamente no se aborda en la literatura clasica de
confiabilidad. Es comun que solo se sugiera implcitamente que el tiempo de garanta se fija con base
en cuantiles bajos de la distribucion del tiempo de vida, y se omite cualquier tipo de consideraciones
economicas para esta eleccion. En esta seccion se aborda el problema de decidir el tiempo de garanta
considerando la distribucion posterior predictiva como modelo del tiempo de vida de un producto y
una funcion de utilidad que incorpore las diferentes consideraciones economicas y de mercadotecnia
de la decision. Lo que aqu se presenta esta basado principalmente en Gutierrez et al. (2006b y e)
Funcin
Funcionde
deutilidad
Utilidad
Decidir el tiempo o esquema de garanta, tw , de un producto es una decision, que deseamos soportar
en un esquema coherente de toma de decisiones de tipo cuantitativo. Por ello de acuerdo a lo expuesto
al inicio de este captulo, esta decision se fundamenta en una funcion de utilidad U A R La
decision es un tiempo de garanta, a tw A R+ , y la realidad desconocida la representa el tiempo
de vida del producto, t R+ Ademas las creencias actuales acerca de los posibles estados de
la realidad es logico que lo represente la densidad posterior predictiva, por lo tanto, p() f (t X).
De esta manera, de acuerdo a la ecuacion (8.1), la eleccion optima del tiempo de garanta tw es el que
maximiza la utilidad esperada:

U (tw ) E [U(t, tw )] = U(tw , t) f (t X) dt (8.3)
0
De aqu que para poder tomar esta decision, necesitamos obtener f (t X) para los diferentes
modelos considerados en este estudio, aspecto que se aborda en la siguiente subseccion. Ademas es
necesario definir una funcion de utilidad U(tw , t) que refleje las diferentes consecuencias de tomar
la decision, tw Esto es lo que se hara en esta subseccion.
Sea L el numero de productos a vender por la empresa en el perodo de referencia (L es una
variable aleatoria), y sea t i el tiempo de falla de la manufactura i-esima i = 1, , L Se propone
que una funcion U(t i , tw ) mida la utilidad monetaria cuando el producto i falla al tiempo t i y la
garanta que se le da al consumidor es tw Para definir U(t i , tw ) se propone que se tomen en cuenta
tres aspectos fundamentales que contemplan las diferentes consecuencias de tomar la decision tw
Los beneficios economicos asociados a una cierta garanta, b(tw ). Beneficios en mercadotecnia,
imagen y probabilidad de venta.
El costo directo en la que incurre el fabricante, r(t i , tw ), cuando el producto falla en t i dentro del
perodo de garanta tw
El costo de insatisfaccion del cliente debido a que el producto i falla al tiempo t i dentro del perodo
de garanta, I(t i , tw ).
De acuerdo a estos tres puntos, y al suponer que todos estan en las mismas unidades, la funcion
de utilidad propuesta esta dada por
b(tw ) si t > tw
U(t i , tw ) = { (8.4)
b(tw ) r(t i , tw ) I(t i , tw ) si t tw
De aqu que la utilidad total U(tw ) este dada por
L
U(tw ) = u(t i , tw ) (8.5)
i=1
A continuacion detallamos como definir cada uno de los componentes de (8.4).
Funcion Beneficio b(tw ) Consideramos que b(tw ) debe ser una funcion creciente y acotada supe-
riormente. Sera poco realista suponer que b(tw ) creciera sin ninguna cota superior, como en Sing-
purwalla y Wilson (1998), quienes proponen una funcion logaritmo. Ya que dar un perodo de garanta
mucho mayor al de los competidores es probable que ya no traiga un beneficio real e incluso puede
causar duda o suspicacia de parte del cliente. Por lo anterior se propone usar la funcion siguiente,
b(tw ) = A 2 [1 e A 1 t w ], (8.6)
para constantes positivas A 1 y A 2 Esta es una familia flexible de funciones que son positivas, crecientes
y acotadas por A 2 , y cuya rapidez de crecimiento es proporcional a A 1 Los parametros A 1 y A 2 deberan
ser derivados de consideraciones proporcionadas por el fabricante. Especficamente consideramos
que es factible que el fabricante proporcione la siguiente informacion en relacion al producto y su
garanta:
v = p s c, utilidad directa, con p s el precio de venta y c el costo de produccion.
c r es el costo para la empresa para reparar o reemplazar el producto.
t e la garanta actual o estandar del mercado.
(t e , p s ) la participacion en el mercado con t e y p s dados.
M el tamano del mercado potencial para el producto.
t a es una garanta que es mas atractiva para el cliente pero que mas alla de ella el fabricante no
espera un aumento significativo en cuanto a su participacion en el mercado al precio actual. Notar
que t a > t e .
I a es el aumento esperado en los beneficios por el fabricante, resultado de un aumento en la pene-
tracion en el mercado si se ofrece la garanta t a con el precio p s . Al aumentar las ventas se aumentan
los ingresos y la participacion porcentual de los costos fijos en el costo de produccion, disminuye.
(t a , p s ) = (t e , p s )[1 + I a ], porcion del mercado con t a y p s dados.
C a = M(t e , p s ) [1 + I a ] es el numero esperado de unidades a vender con t a y p s dados.
De acuerdo a lo anterior E(L) = C a , y los beneficios totales para el fabricante con t e y t a estan
dados por M(t e , p s )b(t e ) = M(t e , p s )v y C a b(t a ) = M(t e , p s )[1 + I a ]v, respectivamente. Es
facil ver que
b(t e ) 1 e A 1 t e 1
= = (8.7)
b(t a ) 1 e A 1 t a 1 + I a
por lo tanto sea
g(x) = (1 e x t e )/(1 e x t a ) (8.8)
entonces A 1 es la solucion de
1
g(A 1 ) = , (8.9)
1 + Ia
que se obtiene en forma numerica. La existencia y unicidad de la solucion se garantiza si tt ae < 1+I1 a .
En cuanto a A 2 dado el significado de (8.6) y que esta acotada por A 2 entonces es razonable suponer
que A 2 esta relacionada con el incremento de los beneficio b(t a ) de dar un mejor tiempo de garanta,
que de acuerdo a lo que se dijo, esta dado por (p s c)(1 + I a ). Pero como b(t) solo alcanza a A 2 en
forma asintotica. Entonces se propone que
A 2 = k(p s c)(1 + I a ), (8.10)

donde k sea un valor ligeramente superior a uno. Por ejemplo k = 1 1
Funcion de costo de garanta r(t, tw ) En este rubro se debe incluir el costo directo en el que incurre
el fabricante cuando el producto falla dentro del perodo de garanta. Para ello es necesario considerar
los tres planes tpicos de garanta (Menezes y Currim, 1992):
Reemplazo. Bajo este esquema, sin costo para el consumidor, el fabricante reemplaza el producto
que falla dentro del perodo de garanta, por uno nuevo. El nuevo producto es garantizado solo por el
perodo original de la garanta. Este esquema de garanta es muy usual para productos pequenos, que
son durables, pero que no son demasiado costosos; y generalmente se aplica a partes o componentes
de productos. Por ejemplo partes de carros. Este tipo de garanta tambien se le conoce como libre de
fallas, garanta estandar, garanta completa, en Blischke (1996) se hace un analisis mas extenso de
esta forma de garanta.
Reparacion. En este esquema el producto que falla dentro del perodo de garanta es reparado, sin
costo para el consumidor. Esta forma de garanta es usual en productos complejos y durables, como
carros, refrigeradores, etc.
Inversamente proporcional al uso (prorrateo). Bajo este esquema, si un producto falla dentro del
perodo de garanta, la empresa le da al consumidor un reembolso o un credito para una nueva com-
pra, que es proporcional al valor de la porcion no usada de la garanta. En otras palabras, la garanta
(reembolso, credito para una nueva compra) es inversamente proporcional al tiempo de uso. Esta
forma de garanta es utilizada para productos que fallan por su desgaste de uso y que no es factible
repararlos, por lo que deben ser reemplazados por un producto nuevo. Por ejemplo bateras y llantas
para automoviles.
De acuerdo a lo anterior, si el producto falla dentro de la garanta, se propone que el costo en el
que incurre la empresa este dado por la siguiente funcion
A3 t
r(t, tw ) = A 4 (1 ) para t < tw (8.11)
tw
Si se tiene una garanta de reemplazo o reparacion, entonces A 3 = 0 y la constante A 4 debe ser igual
c r , es decir A 4 = c r . Bajo una garanta del tipo prorrateo (1 t w3 ) es la proporcion de p s o c r que
A t
el usuario recibe si el producto falla al tiempo t, con t < tw , por lo tanto A 3 debe definirse bajo esa
consideracion y A 4 sera igual a p s o c r .
Funcion Costo de insatisfaccion I(t, tw ) En este otro componente de la funcion de utilidad no con-
siderado en Menzefricke (1992) y Singpurwalla y Wilson (1998), se incluye el costo para el productor
(costo indirecto) debido a que el producto falla (al tiempo t) dentro del perodo de garanta. O sea
este es el costo de insatisfaccion del cliente debido a que el producto falla dentro del perodo de ga-
ranta (Patankar y Mitra, 1996). El cliente no espera que el producto funcione para siempre, pero
s tiene ciertas expectativas que son reforzadas o incrementadas por un tiempo de garanta largo, por
lo que si el producto falla relativamente rapido despues de la compra, la insatisfaccion del consumidor
podra ser significativa (Kelley, 1996). Aunque la garanta minimice o atenue tal insatisfaccion, cual-
quier reclamo de una garanta genera costo para el consumidor que no son cubiertos por la garanta
(tiempo, desplazamientos, la interrupcion en el uso del producto, frustracion por no cumplimento
de expectativa, etcetera). Por ello es necesario tomar en cuenta esta insatisfaccion en la funcion de
utilidad. De tal manera que esta funcion penalice garantas largas si es que no estan respaldadas por
la confiabilidad del producto. Porque es ampliamente reconocido ahora que un cliente insatisfecho
afecta la imagen o prestigio de la empresa y eso repercute negativamente en las ventas futuras. Por
ejemplo Deming (1989, pag. 94) cita un trabajo realizado en la industria automotriz, en el que se afir-
ma que un propietario satisfecho de un carro vale mas que 10 folletos publicitarios, ya que este regresa
sin publicidad, es probable que comunique su satisfaccion a ocho personas en promedio, e incluso
puede que traiga a un amigo. Sin embargo si esta insatisfecho e irritado le contara sus problemas a un
promedio de dieciseis personas. Obviamente la insatisfaccion del cliente sera mayor en cuanto mas
pronto falle el producto, ya que aunque la falla sea cubierta por la garanta, la falla causa molestias.
Por ello se propone que este costo indirecto se cuantifique mediante una funcion como la siguiente:
t
I(t, tw ) = A 5 (1 ) para t < tw (8.12)
tw
La especificacion de A 5 se puede hacer a partir de considerar el costo del maximo nivel de insatis-
faccion que se dara si el producto falla en forma muy temprana. Como es difcil cuantificar esto,
se propone que se asigne como una proporcion q, del precio de venta del producto p s , por lo tanto
A 5 = qp s
Utilidadesperada
Utilidad Esperada
De acuerdo a (8.4) y (8.5) la utilidad esperada esta dada por
L L
E [U(tw )] = E [Lb(tw )] E [ r(t i , tw )] E [ I(t i , tw )]
i=1 i=1
Como b(tw ) no depende de t, entonces E [Lb(tw )] = E [L] b(tw ), y de acuerdo a la informacion

proporcionada por el productor se tiene que L tiene distribucion binomial (M, (t e , p s )[1 + I a ]),
por lo que E [L] = C a Para obtener E [ r(t i , tw )], se puede suponer que al menos en el perodo de
la decision L y t i son independientes, y en consecuencia
L tw A3 t
E [ r(t i , tw )] = E(L)E[r(t, tw )] = C a A 4 (1 ) f (tX)dt,
i=1 0 tw
donde f (tX) es la distribucion posterior predictiva del tiempo de falla. Similarmente,
L tw t
E [ I(t i , tw )] = C a A 5 (1 ) f (tX)dt,
i=1 0 tw
Por lo tanto
tw A3 t t
E [U(tw )] = C a A 2 [1 e A 1 t w ] C a [c r (1 ) + qp s (1 )] f (tX)dt
o tw tw
tw A3 t t
A 2 [1 e A 1 t w ] [c r (1 ) + qp s (1 )] f (tX)dt (8.13)
o tw tw
con t tw .Por lo que el valor de C a no influye en la eleccion de tw , y con ello realmente no es necesario
conocer M La decision optima para la garanta tw , esta dada por el tw que maximiza (8.13). En caso
que se tenga una garanta por reemplazo o reparacion, A 3 = 0, entonces
tw t
E [U(tw )] A 2 [1 e A 1 t w ] A 4 F(tw ) A 5 (1 ) f (tX)dt (8.14)
o tw
donde si t tw al beneficio se le resta: el precio de reparacion A 4 por el cuantil que corresponde al
tiempo de garanta F(tw ) y el costo de imagen. Que resulta intuitivo ya que a esa proporcion de los
productos vendidos se le tendra que cubrir la garanta. De manera similar, resultara para el caso de
costo de imagen, donde el peor escenario sera que t 0, en cuyo caso el ultimo termino de (8.14)
tomara la forma A 5 F(tw ).
Calculo de Utilidad Esperada

Clculo de utilidad esperada
Salvo para el modelo exponencial, para los demas modelos considerados (normal, lognormal, valor
extremo y Weibull), E [U(tw )] no tiene forma analtica, por lo que habra que recurrir a metodos
numericos para su obtencion. Dada la utilidad esperada (8.13), y de acuerdo al captulo 6 y a (Robert
y Casella,1999, pag. 75), el calculo de E [U(tw )] por simulacion Monte Carlo estara dada por

1 M A 3 t (k) t (k)
U (tw ) A 2 [1 e A 1 t w ] [A 4 (1 ) + A 5 (1 )] 1(0,t w ) (t (k) ). (8.15)
M k=1 tw tw
donde {t (k) ; k = 1, , M } es una muestra de la densidad posterior predictiva f (t X) De esta ma-

nera dada la muestra aleatoria la maximizacion de (8.15) se puede hacer por algun metodo numerico.
Obtencion de f (t X)
Obtencin de f (t|x)
De acuerdo a lo que se ha dicho se requiere obtener una muestra de la distribucion posterior

predictiva. Aqu se ven dos formas de obtener esto, que dependen de si f (t X) tiene forma analtica
o no. Para el caso analtico que es le modelo Normal y Lognormal (muestreo sin censura y a priori
normal-gama). Se procede como sigue. En la seccion 4.4 se demostro que bajo muestreo sin cen-
sura y a priori normal-gama( 1 , 1 , m 1 , k 1 ), la densidad posterior predictiva para el modelo normal
f 1 (t X) es una densidad t-Student(m t , s t , 2 1 + n), con los siguientes parametros: localizacion (me-
1
dia) m t = k 1 mn+k
1 +nx n
, precision s t = [ 21 nk 1 (mk1 1x n)
+ 1 + s2n ] ( 1 +n/2)(n+k 1)
y 2 1 + n grados de liber-
2
1 +n (k 1 +n+1)
tad. Ademas sabemos, (ver Bernardo y Smith, 1994, pag. 123), que si y se distribuye tStudent(, , ),
entonces z = 1/2 (y ) se distribuye t-Student estandar (0, 1, ) Es precisamente la distribucion
t-Student estandar la que viene incluida en la mayora de los programas estadsticos computacionales.
Por lo anterior para obtener una muestra de t de f 1 (t X), se aplican los siguientes pasos:
1. Obtener z de una t-Student estandar con 2 1 + n grados de libertad

2. Calcular t = s t z + m t ; entonces de acuerdo a lo que se dijo t se distribuye de acuerdo a la
1/2
densidad posterior predictiva f 1 (t X) del modelo normal.

3. Se repite los pasos anterior M veces, y con los t obtenidos se maximiza (8.15) para valores
del tiempo de garanta tw
Respecto al modelo lognormal, bajo muestreo completo y a priori normal-gama( 2 , 2 , m 2 , k 2 ),

la densidad posterior predictiva para el modelo lognormal f 2 (t X), es una densidad logt-Student(m l ,
s l , 2 2 + n), con los siguientes parametros: localizacion (media) m l = k 2 mn+k
2 +nw n
2
, precision
1
1 (m 2 w n )2 un ( 2 + n/2)(n + k 2 )
l = [ nk 2 + 2 + ]
2 k2 + n 2 (k 2 + n + 1)
y 2 2 +n grados de libertad. Ademas sabemos que si w se distribuye logt-Student( l , l , l ), entonces
la variable log(w) se distribuye t-Student( l , l , l ) De esta manera, y recurriendo a la tStudent
estandar,para obtener una muestra de t de f 2 (t X), se aplican los siguientes pasos:
1. Obtener z de una t-Student estandar con 2 2 + n grados de libertad

2. Calcular t = exp (l l z + m l ); entonces de acuerdo a lo que se dijo t se distribuye de acuer-
1/2
do a la densidad posterior predictiva f 2 (t X) del modelo lognormal

8.3. EJEMPLO: TIEMPO DE GARANTIA PARA AMORTIGUADORES. 145
3. Se repite los pasos anterior M veces, y con los t obtenidos se evaluara (8.15) para un rango
amplio de posibles valores del tiempo de garanta t g , y se seleccionara el que maximice la
utilidad.
Cuando f (t X) no tenga forma analtica, como sera el caso de muestreo censurado para todos
los modelos aqu considerados, entonces se puede aplicar la tecnica de muestreo-remuestreo relevante
(SIR) que ya se explico en el captulo 6.
8.3. Ejemplo: Tiempo de garanta para amortiguadores.

8 . 3 E j e m p lo : t i e m p o d e g a r a n t a pa r a a m o rt i g ua d o r e s
En el ejemplo 7.2 se presentaron los datos sobre el tiempo de falla de amortiguadores. Suponer que
estos tienen un precio de venta de 2000 pesos (p s = 2000) y un costo de produccion c = 1200. Y que
usualmente se ha venido dando una garanta de siete mil kilometros bajo condiciones de uso normal
(t e = 7). Suponer que el fabricante tiene interes en aumentar el tiempo de garanta, y ha evaluado que
si esta se eleva a 10 mil kilometros (t a = 10), podra aumentar sus beneficios en un 12 % (I a = 0 12).
De esta manera resolviendo en forma numerica a (8.9), se obtiene que A 1 = 0 2364 Para especificar
A 2 , suponer que en (8.10), k = 1 1, entonces A 2 = k(p s c)(1 + I a ) = 1 1(2000 1200)(1 12) = 985 6
En la figura 8.2a se muestra la funcion beneficio (8.6) con estos parametros. De donde se aprecia que
B(t e ) es muy proxima al beneficio actual, especficamente B(t e ) = 797 3 y B(t a ) tambien es muy
proxima a lo que establecimos: (p s c)(1 + I a ) = 896 0, concretamente B(t a ) = 892 9
Por otro lado, la forma de garanta que se suele utilizar es el de esquema de reemplazo, es decir, el
fabricante reemplaza el producto que falla dentro del perodo de garanta, por uno nuevo. De aqu que
el costo de reemplazo es igual al costo de produccion de c r = 1200 Por lo tanto, A 3 = 0 y A 4 = c r =
1200
Respecto al costo de imagen maximo por una falla dentro del perodo de garanta se decide esta-
blecer igual al 3 % del precio de venta (q = 0 05), por ello, A 5 = q p s = 0 05 2000 = 100 0
Los datos del ejemplo estan en kilometros. Para facilitar calculos, se han convertido a miles de
kilometros. En la seccion 7.4 se utilizo como intervalos a priori para la media y la desviacion estandar
a [20, 35] y [5, 15], respectivamente. Con base en esto se vio que el modelo con mayores meritos
para la distribucion del tiempo de falla fue el Weibull. Por lo que vamos a aplicar este modelo, y el
procedimiento muestreo-remuestreo relevante (SIR) para generar la distribucion posterior predictiva
f (tX). El tamano de muestra utilizado en SIR fue de 200,000 y se retuvieron M = 58988 valores
de t En la figura 7.2b se muestra el histograma para los datos generados de f (tX) y en la figura 7.2c
se muestra la estimacion de f (tX) utilizando el procedimiento desity de S-Plus. Algunos percentiles
de esta distribucion se muestran enseguida:
Percentil 1 5 10 15 20 25
Valor 5.477 10.291 13.513 15.7797 17.674 19.311
Si se procediera de acuerdo a la recomendacion tradicional de elegir el tiempo de garanta de

acuerdo a un percentil bajo de la distribucion del tiempo de falla, entonces habra que seleccionarlo
de entre los anteriores a alguno. Pero sin una consideracion economica, esta eleccion sera un tanto
arbitraria. Con el metodo descrito antes, obtenida la distribucion predictiva f (tX), es posible obtener
la funcion de utilidad (8.15). En la figura 7.2d se muestra la grafica de esta funcion. De acuerdo al
Figura 8.2
Eleccin del tiempo de garanta para amortiguadores
Figura 8.2: Eleccion del tiempo de garanta para amortiguadores.

procedimiento optimize de S-Plus el maximo se alcanza con t = 10 95215, que corresponde al percentil
5 821 de f (tX) La funcion de utilidad evaluada en el optimo es U (10 952) = 840 1264 Algo de
destacar en la grafica de la funcion de utilidad es que es bastante plana entre 10 5 y 11 8, por lo que un
tiempo de garanta en este rango tendra un utilidad similar. De esta manera, si en las evaluaciones
iniciales se haba considerado que el tiempo de garanta se podra fijar en 10 mil kilometros, con las
consideraciones hechas y la aplicacion de la metodologa antes descrita, se ve que una mejor decision
es establecer un tiempo de garanta cercano a 11 mil kilometros.
8.4. Preguntas y Ejercicios

8.4 P r e g u n ta s y e j e rc i c i o s
1. Suponer que un lote de produccion procede de una de cuatro lneas de produccion del pro-
veedor. Se sabe que la proporcion de defectuosos de cada lnea es diferente, y esta dada por
= 0,02, 0,05, 0,09 y 0,12. Las tres posibles decisiones son a 1 =aceptar el lote con la inspeccion
de una muestra de artculos, a 2 =inspeccionar el lote al 100 % para separar el producto defec-
tuoso y a 3 = regresarlo al proveedor. Se quisiera que si el lote proviene de las lneas con mejor
calidad favorecer la decision a 1 y si vienen de las lneas con peor calidad, entonces se quisiera
tomar la decision a 3 . De acuerdo a esto, se estima que los costos o perdidas (consecuencias) de
estas posibles decisiones, en combinacion con el valor de , se muestran en la siguiente tabla
a1 a2 a3
1 = 0,02 0 2 2
2 = 0,05 2 0 1
3 = 0,09 3 2 0
4 = 0,12 4 3 0
a) Para tomar la decision se decide tomar un muestra de n = 80 artculos y ver cuantos

son defectuosos x. Obtener una tabla como la 8.1 y senalar para que valores de x se toma
cada una de las decisiones.
2. Considerar un problema de decision en el cual el espacio parametrico es = {w 1 , w 2 , w 3 , w 4 ),

el espacio de decision es D = {d 1 , d 2 , d 3 } y la funcion de perdida l esta especificada en la tabla
siguiente. Suponer que la distribucion del parametro W es tal que: P(w 1 ) = 1/8, P(w 2 ) = 3/8,
P(w 3 ) = 1/4 y P(w 4 ) = 1/4. Demostrar que d 3 es la decision de Bayes bajo P(w).
d1 d2 d3
w1 0 2 3
w2 1 0 2
w3 3 4 0
w4 1 2 0
3. Retomar los datos y suposiciones del ejemplo 5.2 (seccion 5.1), en donde se quiere decidir por
una de las siguientes hipotesis:
H 1 1 = [0, 0,16]
H 2 2 = { con > 0,16}
la funcion de perdida esta dada por
d1 d2
H1 a b
H2 c d
1. a) Calcular P(H 1 X) y P(H 2 X).

b) Si a priori P(H 1 ) = P(H 2 ) = 0,5, calcular el factor de Bayes y decida por una de las
hipotesis.
c) Si se decide con base en la funcion de perdida, y a = 1, b = 5, c = 3, d = 1; cual es la
decision de Bayes: d 1 (aceptar H 1 ) o d 2 (aceptar H 2 ).
d) Si a = 1 y d = 1, para que valores de b y c, la decision de Bayes es d 1 .
4. Suponer que se toma una muestra aleatoria de tamano n de una distribucion normal con media
y varianza 1. Suponer que se sabe que = 0 o = 1, y que las probabilidades iniciales son
P( = 0) = P( = 1) = 1/2. Se quiere tomar una de tres decisiones d 1 , d 2 , d 3 , y que las perdidas
de estas decisiones son:
d1 d2 d3
=0 0 1 5
=1 5 1 0
1. a) Demostrar que una regla de decision de Bayes tiene la forma siguiente: elegir la decision
d 1 si X c 1 , elegir d 2 si c 1 < X < c 2 y elegir d 3 si X c 2 . Determinar los valores de c 1 y
c2 .
b) Cual es la perdida esperada o riesgo de la decision Bayes cuando el tamano muestral es
n = 4?
5. Suponer que el 11 % de los empleados de cierto tipo de fabricas padecen una enfermedad pul-
monar. Suponer, tambien, que disponen de una prueba para ayudarles a determinar si tienen
la enfermedad y que el resultado de esta prueba es una variable aleatoria X con la siguiente
distribucion: Si el empleado tiene la enfermedad, entonces X tiene una distribucion normal
con media 40 y varianza 3. Si el empleado no tiene la enfermedad, entonces X tiene una distri-
bucion normal con media 52 y varianza 5. Como consecuencia del resultado X, un empleado
puede requerir un examen medico completo. Suponer que la perdida por requerir un examen
cuando el empleado no tiene la enfermedad es $322, que la perdida por no requerir un exa-
men medico cuando el empleado tiene la enfermedad es $4580 y que en otro caso la perdida
es cero. Si se realiza la prueba a un empleado seleccionada al azar de una fabrica de este tipo,
para que valores de X la decision de Bayes es requerir un examen medico completo?
6. Suponer un modelo exponencial para el tiempo de vida de un producto, utilizar una distribu-
cion gama como a priori, y la funcion de utilidad (8.14) para decidir el tiempo de garanta.
a) Obtener expresion analtica para la utilidad esperada.

b) Es posible encontrar en forma analtica el valor de tw que maximiza la utilidad espera-
da?
c) Que informacion necesita para poder graficar esta utilidad?
9. C a rta sd e c o n t ro l b ay e s i a na s
pa r a at r i b u to s
Captulo 9
Cartas de control Bayesianas para

atributos
Con el proposito de mostrar otras bondades de los metodos estadsticos Bayesianos, en este captulo se
analizan los problemas de las cartas de control para atributos. En particular, se ve que el procedimien-
to tradicional para obtener los lmites de control no incorpora la incertidumbre sobre la estimacion
del parametro del modelo, no contempla las variaciones en el parametro del proceso y requiere un
perodo base para obtener datos. Durante este perodo base no se tiene una carta de control para mo-
nitorear el proceso. Se ve que las deficiencias anteriores son resueltas con metodos Bayesianos. Se ve
como establecer los lmites de control Bayesianos para las Graficas u, en forma secuencial desde la
primera observacion. Esto elimina la necesidad del perodo base. Este captulo esta basado principal-
mente en Gutierrez-Pulido(2006d).
9.1. Introduccion
9.1 I n t ro d u c c i n
Se dijo en la introduccion que los metodos de la estadstica Bayesiana se estan convirtiendo en una
herramienta estandar en muchas aplicaciones estadsticas. En particular en las areas de aplicacion de
la estadstica industrial existen muchos problemas de decision que requieren esquemas optimos de
decision, como lo se vio en el captulo anterior. Una area donde se manifiesta con mucha claridad la
necesidad de aplicar metodologas Bayesianas son las tradicionales cartas de control para atributos,
como se vera enseguida.
En adelante con f (y) se denota el modelo para las observaciones y, con el parametro del
modelo. Como es bien conocido las cartas de control ayudan a monitorear un proceso analizando
la distribucion de las caractersticas de calidad a traves del tiempo. En el enfoque tradicional se su-
pone que el parametro es constante, y durante un perodo base (PB) de observacion se obtiene
Y = (y 1 , ..., y k1 ) para estimar . Con esta estimacion se obtiene los lmites de control y la carta se
utiliza para monitorear la estabilidad del proceso a partir de la observacion y k . Por lo tanto durante
[163]
151
152 CAPITULO 9. CARTAS DE CONTROL BAYESIANAS PARA ATRIBUTOS
el PB no se tienen los lmites de control, y en consecuencia no es posible aplicar la carta de control.
Esto en general es una desventaja importante para el adecuado y oportuno control de procesos, pero
es sumamente crtico en los procesos en los que se obtiene datos lentamente o los procesos actuales
de multiples modelos de productos, donde se cada da hay se trabaja mas con corridas cortas, ver Del
Castillo et al. (1996) y Tsiamyrtzis y Hawkins (2005). De tal forma que en estos caso es casi imposible
cubrir ese PB para poder calcular los lmites y tener una carta de control. Otro problema que tienen
todas las cartas de control tradicionales, y que en cierto sentido esta ligado al PB, es que en el calculos
de los lmites de control no se incorpora la incertidumbre sobre la estimacion de : se procede for-
malmente de igual manera si k = 10 o si k = 100. Esta es la razon por la que se exige el perodo base,
para de alguna forma tener informacion suficiente para estimar bien.a . Sin embargo, como se vera
mas adelante, los metodos Bayesianos s incluyen la incertidumbre con la que se estima y con ello
no habra necesidad del PB.
Ademas los modelos utilizados en las cartas para atributos, como el Binomial y el Poisson, solo
consideran variacion del muestreo y no contemplan las pequenas variaciones que en forma natural se
dan a traves del tiempo en muchos procesos, ver por ejemplo Bayari y Garca-Donato(2005). As al no
modelar adecuadamente la variacion natural de los procesos, la carta de control correspondiente no
sera un buen instrumento para el control y monitoreo del proceso. Otro problema es que los lmites
de control para la cartas de atributos se obtienen con el enfoque 3-sigma. Que se basa en el hecho que
bajo normalidad y estabilidad, la probabilidad de que los datos esten dentro de los lmites de control
es de 0,9973. Sin embargo en el caso de los datos de atributos las distribuciones son sesgadas, y en
consecuencia los correspondientes lmites de control no reunen tales requerimientos, ver Gutierrez-
Pulido y Camacho-Castillo(1998) y Hamada (2002). Esta problematica se acrecienta conforme los
niveles de defectos son pequenos. Algo que cada da ocurre mas.
En este contexto un objetivo de este captulo es analizar los problemas anteriores y ver la mane-
ra en que las cartas de control Bayesianas para atributos las resuelven. Particularmente se veran los
detalles de las cartas Bayesianas: u, c, p y np.
La variacion de un proceso
La variacin de un proceso
Un aspecto importante en muchas metodologas de control de calidad para procesos de atributos es
la probabilidad de que un artculo sea defectuoso, p. Por claridad en la exposicion vamos a suponer
que el producto ha sido fabricado por un proceso en una serie de lotes. En caso que el proceso no
produzca por lotes, entonces la produccion de cada cierto perodo (turno por ejemplo) se vera como
un lote. Debido a fluctuaciones aleatorias, estos lotes diferiran en calidad aunque el proceso sea estable
y este en control estadstico. Si de cada lote se toma una muestra aleatoria y se obtiene el numero de
artculos defectuosos y. Obviamente y varia de muestra a muestra aunque p se mantenga constante.
Las variaciones en y pueden separarse en variacion dentro de lote o debida al muestreo, que se da
debido a que se toma una muestra finita del lote (variacion dentro de lote) y a la variacion entre lotes,
que se debe al muestreo y al mismo proceso. Si estas dos fuentes de variacion son iguales, cada lote
puede ser considerado una muestra al azar obtenida de un proceso con p constante. Esta es la premisa
detras del las cartas de control p y np (ver Heimann, 1996) y otras metodologas tradicionales, como
por ejemplo el muestreo de aceptacion (Calvin, 1984).
9.1. INTRODUCCION 153
Variacion muestraly yvariacin

Variacin muestral variacion
deldel proceso
proceso
Es frecuente que la variacion entre lotes sea mayor que la variacion dentro de lote debido a cambios
(relativamente pequenos) que se dan en el proceso a traves del tiempo, por lo que p varia continua-
mente, ver Heimann (1996). Sin embargo en las metodologas estadsticas tradicionales (frecuentistas)
no toman en cuenta esto, ya que consideran que p permanece constante. Por ejemplo, en la carta de
control p la variable que se lleva a la carta es la proporcion p i = y i /n de artculos defectuosos, donde
y i es el numero de artculos defectuosos en un subgrupo o muestra de tamano n. Y se supone como
correcto el modelo binomial, que da la probabilidad condicional de ver y defectuosos en una muestra
aleatoria de tamano n, dado el valor de p, es decir
n
f (yp) = ( )p y (1 p)ny , y = 0, 1, 2, . . . , n. (9.1)
y
La obtencion de los lmites de control 3-sigma (E(p i ) 3 p i ) para la carta p, se obtienen al suponer
solamente la variacion debida al muestreo, y estan dados por:

p(1 p)
p3
n
Por el contrario, desde una perspectiva Bayesiana se consideran ambas fuentes de variacion, ya que
la variacion muestral se considera a traves de la verosimilitud y la incertidumbre sobre el valor de p
se considera a traves de una distribucion a priori. Como se vio en el captulo 4. es usual incorporar la
incertidumbre sobre el valor de p a traves de la distribucion a priori beta(, )
( + ) 1
(p) =p (1 p) 1 , , > 0 y 0 p 1. (9.2)
()()
Cuya media y varianza estan dadas por

E(p) = y V (p) = . (9.3)
+ ( + )2 ( + + 1)
Si denotamos E(p) = p, entonces p se puede ver como la probabilidad promedio de producir artculos
defectuosos. Dado que p = /( + ), es facil ver que
p(1 p)
V (p) = (9.4)
++1
De esta manera la probabilidad de obtener y artculos defectuosos en una muestra de tamano n, no se
obtiene con (9.1), sino con la distribucion a priori predictiva (distribucion marginal de y, ver captulo
1)
1 n ( + y)( + n y)( + )
f (y) = f (yp) (p) d p = ( ) (9.5)
0 y ()()( + + n)
Esta distribucion recibe el nombre de beta-binomial o tambien es conocida como distribucion de
Polya.
Una forma de cuantificar que tan necesario es considerar un esquema Bayesiano desde la pers-
pectiva de los dos tipos de variacion, es contrastar la variacion dentro de lote contra la variacion
entre lotes. Sobre esto, ya se dijo que ambos tipos de variacion estan contempladas por la distribucion
beta-binomial, cuya media y varianza estan dadas por
n ( + + n)
E(y) = n y V (y) = , (9.6)
+ ( + )2 ( + + 1)
Luego la media y varianza (a priori) de y/n, estan dadas por

E(y/n) = y (9.7)
+
( + + n)
V (y/n) = .
( + ) n ( + + 1)
2
Si expresamos V (y/n) en terminos de p, se obtiene que
p(1 p) ( + + n)
V (y/n) =
n ( + + 1)
p(1 p) ( + ) p(1 p)
= + .
n ( + + 1) ( + + 1)
De aqu se puede apreciar que para valores moderadamente grandes de y , ( + )/( + + 1) va

tender a uno, y en consecuencia
p(1 p) p(1 p)
V (y/n) + .
n ( + + 1)
De acuerdo a las propiedades del modelo binomial y a la expresion (9.4), esta ultima expresion para
V (y/n) se puede ver como una suma de la variacion de un proceso binomial mas el de la distribucion
beta. Es decir, V (y/n) es igual a la variacion del muestreo mas la variacion del proceso (en termi-
nos de p). De aqu resulta razonable obtener la razon de varianza total con la varianza del muestreo
(binomial). Es facil ver que esta dada por:
V (y/n) ++n
r= = . (9.8)
p(1p) ++1
n
As valores de r mayores que uno, significan que en la variacion observada no solo se debe a la va-
riacion del muestreo (como se supone tradicionalmente), sino que ademas esta presente la variacion
debido a que p no se mantiene constante en el proceso a traves del tiempo. Al seguir ideas de cartas
de control, Heimann (1996) establece que el valor maximo de r donde todava el modelo binomial
puede ser adecuado es de 1,357. De esta manera este parametro r se convierte en un indicador para
decidir cuando usar un esquema Bayesiano. El recproco de r, 1/r, es un indicador de la proporcion
de la variacion total que es debida al muestreo.
Si en los procesos tradicionales es difcil que p se mantenga constante, en los procesos de hoy
en da es mucho menos probable que p permanezca constante. Ya que hoy en da se tienen multiples
modelos del mismo producto, los tamanos de lote son cada da mas pequenos debido a la exigencia
de no producir para inventario. Ademas cada da mas los productos son resultados de ensambles o
9.1. INTRODUCCION 155
componentes, que a su vez fueron producidos en diferentes plantas ubicadas en diferentes regiones o
pases. Todo esto hace que se tenga mayores fuentes de variacion a traves del tiempo (lote a lote), y
que consecuencia p no permanezca constante. Otros trabajos se han originado a partir de que p no
permanece constante, ni siquiera dentro del lote, ver por ejemplo Quarshie y Shindo (1996).
Informacin aapriori
Informacion priori
Tanto para aplicar la distribucion Beta-Binomial como para estimar el parametro r , ver (9.8), es
necesario especificar los hiperparametros de la distribucion beta(, ). Para estimar r basicamente
se ha propuesto obtener la variacion de las proporciones en m muestras previas y compararla con la
variacion bajo el modelo binomial, de la siguiente manera
i=1 (p i
p)
m 1
r= m1
(9.9)

p(1 p)/n
donde p i es la proporcion de defectuosos en la muestra i, y
p es la proporcion de defectuosas obtenidas
en las m muestras, ver Calvin(1984) y Heimann(1996). De acuerdo a lo anterior, para obtener los
valores de y , veamos que (9.7) y (9.8) son dos ecuaciones simultaneas que tienen como incognitas
a y . Resolviendo estas ecuaciones se obtiene que
nr nr
= p(
) y = (1 p) ( )
r1 r1
donde el valor de p se puede estimar con p.
En el caso mas realista en el que no se disponga de las m muestras iniciales. Entonces para deter-
minar y , y con ello r, se puede utilizar el procedimiento descrito en el captulo 3 para especificar
la a priori para el modelo binomial.
Efecto de
Efecto deno
noconsiderar
considerarla la
variacin de pde p
variacion
En este apartado se vera un ejemplo, del tipo de efecto que tiene no considerar la variacion en p. Se
hara a traves de la obtencion de una curva caracterstica de operacion (CO) de un plan de muestreo de
aceptacion (ver Gutierrez-Pulido y de la Vara Salazar, 2009, Cap. 14). Si las caractersticas de calidad
son variables de atributos del tipo pasa no-pasa, entonces un plan simple de MA del tipo (N , n, c),
esta definido por un tamano de lote N, un tamano de muestra n, y el numero de aceptacion c. Por
ejemplo el plan N = 6000, n = 200 y c = 2; significa que de un lote de 6000 unidades se seleccionan
e inspeccionan 200; y si el numero de artculos defectuosos en la muestra y es menor o igual que c
(y c), entonces el lote es aceptado. Pero si y > c el lote es rechazado. Si se tiene un escenario donde se
quiere un plan para atributos del tipo (N , n, c), con (n/N) < 0,10, y p permanece constante, entonces
estamos bajo el caso del muestreo de aceptacion tradicional donde la probabilidad de aceptacion (Pa )
de un lote esta dada por el modelo binomial (9.1):
c
Pa = f (yp). (9.10)
y=0
Si por el contrario p no permanece constante en el proceso, entonces estamos bajo el escenario de un

muestreo de aceptacion Bayesiano, donde la Pa esta dada por la distribucion beta-binomial ((9.5):
c
Pa = f (y). (9.11)
y=0
Ejemplo 9.1 Suponer un plan con N = 3500, n = 200, c = 3. Para calcular la CO para el muestreo de
aceptacion tradicional simplemente se aplica (9.10) utilizando algun software computacional apropiado.
En el caso Bayesiano, suponer que para un valor dado de p, este puede variar hasta en un 0,5p. Con
este criterio se obtienen el intervalo [L p , U p ] para cada p en la curva CO, y con (3.7) y (3.8) se obtienen
y . En la Figura 9.1 se muestra las curvas CO para el muestreo tradicional que no incluye variacion
en p, y para el Bayesiano que s lo considera. Como se aprecia el MA tradicional subestima la proba-
bilidad de aceptar el lote conforme se incrementa p. Por ejemplo para valores de p cercanos a 0,032,
las probabilidades de aceptar son 0,118 y 0,174, para los casos tradicional y Bayesiano, respectivamente.
Por lo tanto, si hay variaciones de p, entonces si se aplica un plan tradicional del tipo (N , n, c), se es-
tara dejando pasar peores niveles de calidad de los que muestra la correspondiente curva CO. Por ello
en estos casos, sera mejor cuantificar la variacion de p con una distribucion a priori y disenar el plan de
muestreo Bayesiano con base en (9.11).
9.2. Cartas Bayesianas u y c

9.2 C a rta s b ay e s i a na s u y c
En las tradicionales cartas de control u, la caracterstica de calidad es el numero de defectos por unidad
de inspeccion. As, en esta carta se analiza la variable u = y/m, donde y es el numero de defectos en
una unidad de inspeccion de tamano m. Cuando la unidad de inspeccion es constante esta carta se
reduce a la carta c (ver Gutierrez-Pulido y de la Vara, 2004; Cap. 8). Los lmites de control para estas
cartas se derivan bajo el supuesto de que f (y) Poisson(m)
e m (m)x
f (y) = con > 0 y y = 0, 1, 2, . . .
y!
En forma tradicional el parametro es estimado con el usual estimador insesgado:
Funcin de utilidad k k
u = y i / m i (9.12)
i=1 i=1
donde m i es el tamano del conjunto (subgrupo) del cual y i fue obtenido. Los tradicionales lmites de
control 3-sigma para la carta u estan dados por

u 3 u/m i (9.13)
Un primer problema con estos lmites es que no se incorpora de ninguna manera el numero de ob-
servaciones con base en las que se calculo u. Es decir, no se incorpora la incertidumbre sobre la
estimacion de , y se procede igual si u se obtuvo con k = 5 subgrupos que si se hizo con k = 500.
De ah que la recomendacion tradicional de tener por lo menos 20 subgrupos durante el PB se vuelva
crtica, ya que de esa manera se trata de tener un buen.estimador puntual para . Sin embargo, en
los ambientes actuales de manufactura y en los procesos lentos, es cada da mas difcil cumplir con
tal recomendacion.
Figura 9.1
Curvas CO para MA tradicional y bayesiano para el plan n = 200 y c = 3
Figura 9.1: Curvas CO para MA tradicional y Bayesiano para el plan n = 200 y c = 3.

Ademas la idea de los lmites de control 3-sigma se basa en el hecho que bajo normalidad y es-
tabilidad, la probabilidad de que los datos esten dentro de los lmites de control es de 0,9973. Sin
embargo en el caso de los datos de atributos las distribuciones son sesgadas, y en consecuencia los
correspondientes lmites de control no reunen tales requerimientos, ver Gutierrez-Pulido y Camacho-
Castillo(1998) y Hamada (2002).
Por otro lado, algunos autores, ver por ejemplo Irony y Pereira (1994), han reportado que es fre-
cuente que el modelo Poisson tenga un pobre ajuste para este tipo de datos. Ademas al considera que
el parametro permanece constante, no se considera la variacion de corto plazo. Pero como ya se
vio en la seccion anterior, es frecuente que los procesos tengan variaciones de corto plazo aun para
procesos con una razonable estabilidad.
Por lo anterior estamos ante el campo propicio de aplicar un modelo Bayesiano para cartas de
control. En el caso particular de las cartas u y c, se supone sigue una distribucion a priori gama(, )
y por lo tanto la probabilidad de encontrar y defectos en una unidad de inspeccion de tamano m, lo
da la distribucion marginal (a priori) predictiva, que esta dada por:
(y + ) m y

f (y) = f (y)()d = ( ) . (9.14)
0 ()(m + ) y y! m +
Esta distribucion se conoce en la literatura Bayesiana como Poisson-gama. Para valores enteros del
hiperparametro , esta distribucion se reduce a una distribucion binomial negativa(, m(m + )1 ),
que algunos autores la han propuesto como un modelo alternativo para datos de atributos, ver por
ejemplo Sheaffer y Leavenworth (1976), y Irony y Pereira (1994). As el modelo (9.14) esta tomando
en cuenta tanto la posible variacion de que en forma natural se da en el proceso (a traves de la
distribucion a priori), como la variacion debida al muestreo (a traves de la verosimilitud).
Un aspecto clave en un contexto Bayesiano es evitar el PB, ya que si se tiene un conocimiento ge-
nuino sobre el proceso, se puede obtener una distribucion a priori para , y con esta se puede obtener
(9.14) para que desde la primera observacion del proceso se tenga una carta de control. Incluso en el
caso que no se conozca nada y la distribucion a priori sea poco informativa, con relativamente pocas
observaciones se tendra una buena carta Bayesiana u (ver Hamada, 2002). En el captulo 3 se describe
un procedimiento para determinar los hiperparametros de la distribucion a priori gama(, ) para
un modelo Poisson. Parte de que el experto en el proceso de un intervalo [L , U ] donde se espe-
ra que este . Aspecto que es razonable suponer, debido a que representa el numero promedio de
defectos por pieza o artculo.
Suponer que se ha obtenido del proceso k 1 observaciones: u 1 , ..., u k1 ; con u i = y i /m i . Es facil
ver que dados Y = (y 1 , ..., y k1 ), M = (m 1 , ..., m k1 ), s = k1
i=1 y i y m s = i=1 m i la distribucion
k1
posterior esta dada por
(m s + )s+ (m s +) s+1
(Y , M) = e . (9.15)
(s + )
Que corresponde a una densidad gama(s + , m s + ), ver Bernardo y Smith (1994). A partir de
aqu se obtiene la correspondiente distribucion posterior predictiva para la siguiente observacion en
terminos de y:
9.2. CARTAS BAYESIANAS U Y C 159

f (y k Y) = f (y k )(Y)d
0
(y k + + s) + ms
y s+
mk k
= ( ) ( ) (9.16)
( + s) (y k )! + m s + m k + ms + m k
m k es el tamano de subgrupo para y k . Por lo tanto los lmite de control inferior (LCI) y superior (LCS)
para una carta Bayesiana en terminos de y estan dados por
Y LCI k = q /2 y Y LCS k = q 1/2 , (9.17)

respectivamente. Con q , el cuantil de la distribucion (9.16). Se ha agregado el subndice k a los
lmites de control para enfatizar que esos lmites son el pronostico de donde se espera la observacion
y k con tamano de subgrupo m k , de acuerdo a lo que se ha observado hasta el momento k 1. De esta
manera los lmites de control se convierten en un intervalo o region de confianza con probabilidad
1 , ver captulo 5.
Si se quiere los lmites de control Bayesianos para la carta u, de manera predictiva para u k =
y k /m k , entonces como (9.16) es una distribucion discreta, los lmites dados por (9.17) simplemente
se dividen por m k :
U LCI k = q /2 /m k y U LCS k = q 1/2 /m k . (9.18)

As conforme se vaya obteniendo informacion los lmites de control se van calculando con la infor-
macion disponible hasta ese momento. Y los lmites se ven como un pronostico sobre el desempeno
futuro del proceso. La lnea central se obtiene con la media de la distribucion predictiva, que para el
caso de la carta u esta dada por LC = ( + s)/( + m s ).
Si se observara un dato que cae fuera de los lmites de control, se tendra que investigar inmedia-
tamente si se ha dado un cambio especial en el proceso, en cuyo caso esa informacion no debera inte-
grarse a la informacion con la que se estan actualizando los lmites de control. Este proceso secuencial
de recalcular los lmites con cada nueva observacion se puede suspender hasta que se tenga un his-
torial suficiente, para que una vez establecido los lmites se pueda detectar derivas o tendencias en
el proceso. Cuando haya un cambio mayor se puede reiniciar el calculo de lmites, partiendo de una
distribucion a priori.
Respecto a la carta c, como habamos dicho esta se aplica cuando la unidad de inspeccion en
la carta u es constante. Y por ello deja de intervenir en los calculos el tamano m de la unidad de
inspeccion . Especficamente, en este caso (9.16) toma la forma siguiente:
+k1 (y k + + s)
s+ yk
1
f (y k Y) = ( ) ( ) . (9.19)
+k ( + s) (y k )! + k
Los lmites de control para la carta c, se obtienen con los cuantiles /2 y 1 /2 de esta distribucion.
Ejemplo 9.2 En Gutierrez-Pulido y de la Vara(2004, Cap. 8) se presenta los defectos encontrados en la

inspeccion por muestreo de 24 lotes de piezas electronicas. Los datos se muestran en la tabla 9.1.
Tabla 9.1. Defectos encontrados y i en m i piezas de 24 lotes.

Lote 1 2 3 4 5 6 7 8 9 10 11 12
mi 20 20 20 20 15 15 15 25 25 25 25 30
yi 17 24 16 26 15 15 20 18 26 10 25 21
Lote 13 14 15 16 17 18 19 20 21 22 23 24
mi 30 30 30 30 30 30 15 15 15 15 15 15
yi 40 24 46 32 30 34 11 14 30 17 18 20
Si se aplica la carta u tradicional es necesario esperar los 24 lotes para estimar u, de acuerdo a (9.12),
u = 1,046. Y los lmites de control se obtienen de acuerdo a (9.13). En la Figura 9.2a se muestra la
correspondiente carta de control u. De donde se aprecia que en los lotes 10 y 21 ocurrieron hechos
especiales en el proceso. Pero esto lo sabemos hasta despues de producido el lote 24, por lo que es
demasiado tarde para actuar.
Para poder obtener la carta Bayesiana u, y obtener lmites secuenciales. Lo primero que necesi-
tamos es especificar los parametros de la distribucion a priori para . Si suponemos que esta entre
[0,5, 1,5], con una probabilidad aproximada de 0,95. De esta manera de acuerdo a (3.13) y (3.12), y
tomando z = 2, los parametros para la distribucion a priori gama son = 16 y = 16. En la Figura
9.2b se aprecia la correspondiente carta Bayesiana u. Para los lmites de control se usa la significancia
usual ( = 0,0027) y se van obteniendo de manera secuencial de acuerdo a (9.18).
Contrastando la carta u tradicional (Figura 2a) con la carta Bayesiana u (figura 2b), se puede
apreciar lo siguiente. Con la carta Bayesiana desde la primera observacion se tenan lmites de control:
con base en la distribucion a priori se esperaba que u 1 estuviera entre 0,2 y 2,2. Estos lmites son
los mas amplios comparados con los lmites de la carta u tradicional. Una vez obtenida la primera
observacion, los lmites para la segunda observacion en la Figura 9.2b, practicamente se parecen a los
lmites de la carta u tradicional. Los lmites de la carta Bayesiana son exactos y no del tipo tres sigma.
La carta Bayesiana detecto un punto adicional fuera del lmite de control superior (la observacion 15).
9.3. Cartas
9 . 3 C a rta Bayesianas
s b ay e s i a na s p y np p y np
En la carta de control p se lleva la proporcion p i = y i /n i de artculos defectuosos por subgrupo de
tamano n i . En forma tradicional los lmites de la carta se calculan bajo el supuesto de distribucion
binomial. Los lmites 3-sigma para esta carta estan dados por

p(1 p)
p3 (9.20)
ni
donde p es la estimador insesgado de p
i=1 y i
k
p=
i=1 n i
k
Al igual que en le caso de la carta u, en la estimacion p no se incorpora de ninguna manera el numero

de observaciones con base en las que se calculo p. Es decir, no se incorpora la incertidumbre sobre
9.3. CARTAS BAYESIANAS P Y NP 161
Figura 9.2
Cartas de control para datos de tabla 9.1
Figura 9.2: Cartas de control para datos de tabla 1.

la estimacion de p y se procede igual si p se obtuvo con k = 10 subgrupos que si se hizo con k =

200. Tambien los lmites tres sigma tradicionales para la carta p, tienen el problema de no dejar una
probabilidad de 0,00135 en cada una de las colas de la distribucion, ver Gutierrez-Pulido y Camacho-
Castillo(1998) y Hamada (2002). Ademas se supone que p permanece constante. Pero ya se vio, que
existen variaciones de corto plazo que hacen que p no se mantenga constante, aun para procesos con
una moderada estabilidad.
Los puntos anteriores junto con el hecho de que durante el PB no se pueda tener lmites de control,
son razon suficiente para justificar la utilizacion de una carta Bayesiana p, que contemple variaciones
en p, y que desde la primera observacion puede tener lmites de control. Con a priori beta(, ) la
distribucion posterior para p esta dada por
( + ) 1
(pY) = p (1 p) 1 (9.21)
( )( )
que corresponde a una distribucion beta( = + s, = + n s s), con s = k1 i=1 n i p i y
n s = k1
i=1 n i . La distribucion posterior predictiva es de la forma beta-binomial y esta dada por:
n k ( + )( + n k y k )
f (y k Y) = ( ) . (9.22)
y k ( )( )( + + n k )
De esta manera los lmites de control para la carta Bayesiana p estan dados por
LCI k = q /2 /n k y LCS k = q 1/2 /n k , (9.23)

donde q , es el cuantil de la distribucion (9.22). Obviamente estos lmites estaran lo mas proximo
posible (por lo discreto de la distribucion) a la cobertura 1 deseada, y en consecuencia no tienen el
problema de cobertura de los lmites tres sigma. La lnea central se obtiene con LC = /( + ).
Cuando el tamano de subgrupo es constante se suele utilizar la carta np, donde se lleva en la
carta directamente el numero de defectos por subgrupo. En este caso los lmites de control estan
dados directamente por los cuantiles /2 y 1 /2 de la densidad (9.22).
9.4.
9 . 4 P r e gPreguntas
u n ta s y e j e rc iy
c i Ejercicios
os
1. Cuales son los principales problemas que tienen las cartas de control tradicionales y como es
que la estadstica Bayesiana los corrige?
2. Por que es importante considerar en un modelo para el control de procesos la variacion debida
al muestreo y la variacion debida al proceso?
3. En una empresa se registra el numero de quejas por mal servicio. Los datos de las ultimas 25
semanas se muestran enseguida (el orden es por renglon):6 2 3 4 5 6 7 8 9 0 1 2 3 4 5 6 7
8 9 0 1 2 3 4 5. Contestar lo siguiente.
a) Es adecuado analizar estos datos mediante una carta p? Argumente

b) Asumir un modelo Poisson() para estos datos y un intervalo inicial para dado por
[L , U ] = [2, 6], y obtener una carta Bayesiana c con lmites secuenciales desde la
primera observacion.
c) El proceso es razonablemente estable?

d) El nivel de calidad se puede considerar satisfactorio?
e) Cuantas quejas se esperan en la siguiente semana, con una probabilidad de 99 %?
f ) Cual es el promedio de quejas esperado por semana con una probabilidad de 99 %?
4. Una lnea de ensamble o montaje de pequenas piezas en tarjetas electronicas se cuantifica el

numero de defectos de diferente tipo por muestra de 10 tarjetas. Los defectos encontrados en
las ultimas 30 muestras se listan a continuacion (datos en orden por renglon).
28 22 25 21 26 22 36 22 32 22 23 27 26 18 29 24 6 20 25 29 26 24 32 31 29 24 27 21 27
31 20 22 28 26 24
1. a) Notese que en promedio hay mas de un defecto por tarjeta, es adecuado analizar estos
datos mediante una carta p? Argumente
b) Asumir un modelo Poisson() para el numero de defectos por tarjeta, un intervalo ini-
cial para dado por [L , U ] = [2, 3], y obtener una carta Bayesiana u con lmites se-
cuenciales desde la primera observacion. Interpretar.
c) Cual es el promedio de defectos esperado por tarjeta con una probabilidad de 99.7 %?
5. En el problema anterior obtener una carta Bayesiana c, con lmites secuenciales desde la pri-
mera observacion. Interpretar. Cuantos defectos se esperan en la siguiente muestra de diez
tarjetas con una probabilidad de 99.7 %?
6. Para analizar el desempeno de un proceso y tratar de mejorarlo, se decide analizar la propor-
cion de defectuosos. Para ello se toman subgrupos de tamano 200, y se cuantifica la cantidad
de defectuosos. Los datos obtenidos durante 6 das son los siguientes: 10 6 12 7 9 6 8 9 8 6
10 9 13 9 11 6 15 7 4 8.
a) Asumir a priori que la proporcion de defectuosos p esta en [0,03, 0,07], y obtener la

carta Bayesiana p con lmites secuenciales desde la primera observacion. Interpretar.
b) Cual es la incertidumbre sobre el valor de p con una probabilidad de 99.7 %?
7. En el caso del ejercicio anterior, se aplica un plan de mejora, y se toma varias acciones. Los
datos obtenidos en la semana posterior a las mejoras son:7 4 5 5 6 4 3 4 7 6 4 6 4 6 4 5
8 3 7 8.
a) Fijando los lmites ultimos que obtuvo en el ejercicio anterior, analice estos datos con la
carta Bayesiana p. Las mejoras dieron resultado? Argumente
b) Junte los datos del ejercicio anterior con los de este, y construya una carta Bayesiana p
con lmites secuenciales. Que observa de relevante comparando esta carta con la que
obtuvo en el inciso anterior?
c) Cual es la incertidumbre sobre el valor de p con una probabilidad de 99.7 %? Comparar
este valor con el obtenido en el b) del ejercicio anterior.
8. Analice los datos del ejercicio 9.6, pero ahora obteniendo una carta Bayesiana np. Interpretar.
A pndices
a. a xiomas pa r a l a e s ta d s t i c a b ay e s i a na
Apendice A
Axiomas para la estadstica

Bayesiana
Una de las caractersticas claves de la estadstica Bayesiana es que no sale del marco de la probabi-
lidad y no recurre a conceptos auxiliares. De tal forma que se puede ver como un sistema formal para
hacer inferencias, basado en una serie de axiomas, que por su sencillez se pueden considerar validos.
Para estos axiomas se parte que se tiene un espacio medible (,@) y que para cualquiera dos eventos
A, B @ se puede decir si A es mas, menos o igual de verosmil (factible) que B. Esto lo escribimos
como A B, A B y A B, respectivamente. Con A B se indica que A no es mas verosmil que B A
continuacion vamos a establecer una serie de axiomas que la relacion de verosimilitud entre eventos
debe seguir.
Axioma 1. Para cualquiera dos eventos A, B @, solo una de las tres condiciones siguientes es
valida:
A B, A B o A B.
Axioma 2. Si A 1 , A 2 , B 1 , B 2 son cuatro eventos tales que A 1 A 2 = B 1 B 2 = y A i B i , i = 1, 2,
entonces
A 1 A 2 B 1 B 2 . Si A i B i para algun i, entonces A 1 A 2 B 1 B 2
La interpretacion de estos axiomas es clara y es creble para una persona coherente. Con los dos
axiomas se puede probar una serie de resultados que se enuncian sin demostracion.
Resultado 1. Sean A, B, D @, eventos tales que A D = B D = . Entonces, A B si y solo si,
A D B D
Resultado 2 (transitividad). Sean A, B, D @, eventos tales que A B y B D, entonces A D.
Resultado 3 (generalizacion del resultado 1). Si A i son n eventos disjuntos entre s, y B i tambien
n eventos disjuntos entre s; tales que se cumple A i B i para todo i, entonces
ni=1 A i ni=1 B i
[179]
165
166 APENDICE A. AXIOMAS PARA LA ESTADISTICA BAYESIANA
Si ademas se cumple que A i B i para algun i, entonces
ni=1 A i ni=1 B i
..
Resultado 4. Para cualquiera dos eventos A, B, @, A B i si y solo si A B Donde A es el
complemento de A
Axioma 3. Si A @ es un evento cualquiera, entonces se cumple que A. Tambien se cumple
que .
Axioma 4. Si A 1 A 2 es una secuencia decreciente de eventos en @ y B @/ es un evento tal
que A i B para toda i, entonces

i=1 A i B.
El experimento auxiliar. Con los 4 axiomas aun no se puede definir una medida de probabilidad en
@. Por ejemplo, imaginemos dos eventos A y A, estos junto con y forman una - algebra, y al
establecer que, por ejemplo, A B, tendramos una relacion de verosimilitud acorde con los axiomas
anteriores. Sin embargo, hay una infinidad de medidas de probabilidad que concordaran con .
Esto se resuelve agregando una serie de eventos auxiliares (elementales, como por ejemplo un
circulo en una ruleta) que sean independientes de los eventos en @. Los eventos auxiliares deben ser
tales que para toda 0 p 1 exista un evento auxiliar C con probabilidad p. Entonces solo se necesita
encontrar es un tal C tal que A C, para encontrar la probabilidad de A. En otras palabras, se compara
la verosimilitud de los eventos en @ con los de los eventos auxiliares, de los cuales esta establecida su
probabilidad, y as se encuentra la probabilidad de cualquier evento.
Usando un poco de teora de la medida es muy facil establecer el ultimo axioma. Sea la medida
de Lebesgue y los conjuntos Borelianos en [1 , 0]
Axioma 5. Existen una variable aleatoria X en (, @) , con 0 X () 1, para todo , y tal que
para cualquier I 1 , I 2 , se cumple que { X I 1 } {X I 2 } si y solo si (I 1 ) (I 2 )
Con los 5 axiomas anteriores es posible crear una medida de probabilidad en @, y de esta manera
queda axiomatizada la estadstica Bayesiana.
b. P ro g r a m a s en s -p l us
Apendice B
Programas en S-PLus
Programa 1 (verosimilitud binomial del ejemplo 2.1)

#Programa para obtener la verosimilitud en el modelo binomial e intervalos de verosimilitud
n<-100
x<-20
L<-function(p,n,x){return(exp(log(p)*x+log(1-p)*(n-x)))}
R<-function(p,n,x){return(L(p,n,x)/L(x/n,n,x))}
par(mfrow=c(2,2))
#secuencia de valores para el dominio de la grafica
p<-seq(0.3*pg,1.9*pg,length=100)
plot(p, L(p,n,x),type=l,xlab=p,ylab=L(px), lwd=1.5, sub=.a) Verosimilitud para proporcion
de fumadores)
segments(pg,0,pg,L(pg,n,x))
plot(p, R(p,n,x),type=l,lty=1,xlab=p,ylab=R(px), lwd=1.5, sub=b) Verosimilitud relativa con
n=100 y x=20)
segments(pg,0,pg,R(pg,n,x))
#Intervalos de verosimilitud
ri<-numeric(0)
rs<-numeric(0)
for (i in 1:3){
c<-c(0.05,0.15,0.25)
#reparametrizacion de R par obtener raz con procedimiento uniroot
R1<-function(p){return(R(p,n,x)-c[i])}
inf<-uniroot(R1,c(0,pg))
ri[i]<-inf[[1]]
sup<-uniroot(R1,c(pg,1))
rs[i]<-sup[[1]]}
#intervalos
[181]
167
168 APENDICE B. PROGRAMAS EN S-PLUS
ri
rs
#grafica de R con intervalos
plot(p, R(p,n,x),type=l,lty=1,xlab=p,ylab=R(px), lwd=1.5, sub=c) Intervalos de verosimilitud
para p)
segments(pg,0,pg,R(pg,n,x))
segments(ri[1],R(ri[1],n,x), rs[1],R(rs[1],n,x))
Programa 2 (verosimilitud exponencial con censura del ejemplo 2.3)
#Verosimilitud para modelo exponencial con censura por intervalo
L<-function(t){
return(exp(-280/t)*(1-exp(-5/t))37)} #estimador
tg<-optimize(L, c(0.1,11), maximum=T)
tg[[1]]
R<-function(t){return(L(t)/L(tg[[1]]))}
a<-seq(5,17,length=100)
fa<-R(a)
#Intervalos de verosimilitud
ri<-numeric(0)
rs<-numeric(0)
c<-c(0.05,0.15,0.25)
for (i in 1:3){
R1<-function(a){return(R(a)-c[i])}
inf<-uniroot(R1,c(0.1,tg[[1]]))
ri[i]<-inf[[1]]
sup<-uniroot(R1,c(tg[[1]],20))
rs[i]<-sup[[1]]}
ri #intervalos
rs
tg[[1]]
#grafica de R con intervalos
plot(a, fa, type=l,lty=1,xlab=Teta,ylab=R(tetax), lwd=1.5)
segments(tg[[1]],0,tg[[1]],R(tg[[1]]))
segments(ri[1],R(ri[1]), rs[1],R(rs[1]))
Programa 4 (verosimilitud normal del ejemplo 2.5)

# Datos censurados 0=alive, 1=dead
ti<-c(6.70, 6.95, 7.82, 8.79, 9.12, 9.66, 9.82, 11.31, 11.69, 11.85, 11.88, 12.14,12.20, 12.87,
13.15, 13.33, 13.47, 14.04, 14.30, 17.52, 17.54, 17.89, 18.42, 18.96,18.98, 19.41, 20.10,
20.10, 20.15, 20.32, 20.90, 22.70, 23.49, 26.51, 27.41, 27.49,27.89, 28.10)
n<-length(ti)
169
b. P ro g r a m a s en s -p l us 183
censor.codes<-c (1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0,1, 0, 0, 0,1,1, 0, 0, 0, 0, 0, 0,1, 0, 0, 0,1,1, 0,1, 0,1,0,

0)
tf<-ti*(censor.codes) #obteniendo vector de tiempos de falla realmente observados:
tf<-ifelse(tf==0,NA,tf)
tf<-sort(tf, na.last=NA)
r<-length(tf)
#Estadsticos para los tf
mf<-mean(tf)
sf<-var(tf,SumSquares=T)
tc<ti*(censor.codes-1) #Obtencion de vector de tiempos de censura multiple
tc<-ifelse(tc==0,NA,tc)
tc<-sort(tc, na.last=NA)
mc<-mean(tc)
sc<-var(tc,SumSquares=T)
#-Logverosimilitud normal censurada
vnc.1<-function(x){return(-((r/2)*(log(x[2])-log(2*3.14159265))-0.5*x[2]*r*(x[1]-mf)2-
0.5*x[2]*sf+sum(log(1-pnorm((tc-x[1])*(x[2])0.5, mean=0, sd=1)))))}
# Se encuentra los emv para mu y eta
rn<-nlminb(c(mf,r/sf),vnc.1, lower=c(.01,0.0000000001), na.rm=T)
#verosimilitud relativa
emv<-rn[[1]]
vnr.1<-function(x){return(exp(-vnc.1(x))/exp(-vnc.1(emv)))}
vnr.1(emv)
#par(mfrow=c(2,1))
#amplitud para ver donde se grafica la R
x1<-seq(0.82*emv[1], 1.28*emv[1],length=60)
y1<-seq(0.3*emv[2], 2.2*emv[2],length=60)
#Evaluacion de R en esos puntos
z<-matrix(0,length(x1),length(y1))
for (i in 1:length(x1)){
for(j in 1:length(y1)){
te<-c(x1[i],y1[j])
z[i,j]<-vnr.1(te)}}
persp(x1,y1,z,axes = T, box=T,xlab=m,ylab=t,font=8)
contour(x1,y1,z,nlevels=10,xlab=m,ylab=t, font=8)
Programa 5 (inferencia modelo binomial, ejemplo 4.1)

n<-100
x<-20
Lp<-0.1
Up<-0.3
z<-2
V<-function(p,x,n){return((px)*((1-p)(n-x)))}
R<-function(p,x,n){return(V(p,x,n)/V(x/n,x,n))}
a<-function(z,l,u){return(((z2)*(2-l-u)*((l+u)2)-((l-u)2)*(l+u))/(2*(l-u)2))}
alpha<-a(z,Lp,Up)
b<-function(a,l,u){return(a*(2-l-u)/(l+u))}
beta<-b(alpha,Lp,Up)
intervalo<-c(qbeta(0.025,alpha+x,beta+n-x),qbeta(0.975,alpha+x,beta+n-x))
p<-seq(0.75*Lp,1.25*Up, length=100)
par(mfrow=c(2,2))
plot(p, R(p,x,n), type=l, lty=1, xlab=p, ylab=R (pX),sub=.a)Verosimilitud relativa)
abline(v=0.1149452)
abline(v=0.3085769)
plot(p, dbeta(p,alpha,beta), type=l, lty=1, xlab=p, ylab=Pi (p), sub=b)A priori)
abline(v=qbeta(0.025,alpha,beta))
abline(v=qbeta(0.975,alpha,beta))
plot(p,dbeta(p,alpha+x,beta+n-x),type=l,lty=1,xlab=p,ylab=Pi(pX), sub=c)Distribucion pos-
terior)
abline(v=qbeta(0.025,alpha+x,beta+n-x))
abline(v=qbeta(0.975,alpha+x,beta+n-x))
m<-100
# densidad pred. beta-binomial usando la funcion lgamma (log(gamma(y))=lgamma(y))
BB<-function(y,a,b,n){return(exp(lgamma(m+1)-lgamma(y+1)-lgamma(m-y+1)+
lgamma(a+b)+lgamma(a+y)+lgamma(b+m-y)-lgamma(a)-lgamma(b)-lgamma(a+b+m)))}
#Beta-binomial cuantil (corre hasta a cumular el cuantil
BBA<-function(sig,a,b,m){
bp<-0
for (j in 0:m){
if (BB(0,a,b,m)>=sig)
{return(0)
stop}
bp<-BB(j,a,b,m)+bp
if (bp<=sig) next
else {return(j-1)
stop}}}
liy<-BBA(0.025,alpha+x,beta+n-x, m)
lsy<-BBA(0.975,alpha+x,beta+n-x,m)
liy #intervalo para la predictiva
lsy
y<-seq(liy-5,lsy+5, by=1)
plot(y,BB(y,alpha+x,beta+n-x, n),type=p,xlab= ,sub=d)D. Predictiva,ylab=f(yX))
2
Programa 6 (inferencia con modelo exponencial, ejemplo 4.3)

x<-c(1,3,5,7,11,11,11,12,14,14,14,16,16,20,21,23,42,47,52,62,71,71,87,90,95,120,120,225,246,261)
s<-sum(x)
n<-length(x)
l<-30
171
u<-80
z<-2
alpha<-(z*(u+l)/(u-l))2+2
beta<-(alpha-1)*(u+l)/2
a<-alpha+n
b<-beta+s
R<-function(t){return(exp(n-s/t)*(s/(n*t))(n))}
LIG<-function(x,a,b){return((ba)*(x(-a-1))*(exp(-b/x))/gamma(a))}
par(mfrow=c(2,2))
t<-seq(l,u+20,length=100)
plot(t,R(t),xlab=T,sub=.a) Verosimilitud relativa,ylab=R(TX),type=l)
abline(v=39.37)
abline(v=97.087)
plot(t,LIG(t,alpha,beta),xlab=T,sub=b) a priori,ylab=Pi(T),type=l)
abline(v=35.747)
abline(v=84.309)
plot(t,LIG(t,a,b),xlab=T,sub=c) Posterior,ylab=Pi(TX),type=l)
abline(v=75.955)
abline(v=43.8396)
y<-seq(0,120,length=200)
f<-function(x){return(51.36*1119.851.36*(1119.8+x)-52.36)}
plot(y,f(y),type=l,ylab=f(yX),sub=d)Predictiva)
Programa 7(inferencia con modelo normal, ejemplo 4.5)

z<-2
ll<-4
ul<-20
a<-(z*(ll+ul)/(ul-ll))2+2
b<-0.5*(a-1)*(ll+ul)
lm<-345
um<-355
m<-(lm+um)/2
k<-4*z2*b/((um-lm)2*(a-1))
par(mfrow=c(3,3))
max<-100 #graficas a priori marginales
max3<-30
tau<-seq(0.03,0.2,length=max)
mu<-seq(340,358,length=max)
plot(tau,dgamma(tau,a,b),type=l,ylab=, xlab=t,font=8)
title(sub=.a) A priori,cex=1, font=1)
abline(v=qgamma(0.025,a,b))
abline(v=qgamma(0.975,a,b))
A<-2*a
L<-a*k/b
plot(mu,dt((mu-m)*sqrt(L),A),type=l,ylab=,xlab=m,font=8 )
title(sub=b) A priori,cex=1, font=1)
abline(v=qt(0.025,A)*(1/sqrt(L))+m)
abline(v=qt(0.975,A)*(1/sqrt(L))+m)
tau2<-seq(0.05,0.2,length=max3)
mu2<-seq(340,355,length=max3)
z<-matrix(0,max3,max3)
ng<-function(x,y,a,b,m,k){return(exp(log(b)*a+log(0.5*k/pi)*(0.5)+log(y)*(a-0.5)-0.5*k*y*(x-m)2-
b*y))}
for(i in 1:max3){ for(j in 1:max3) { z[i,j]<-ng(mu2[j],tau2[i],a,b,m,k)}}
persp(mu2,tau2,z,axes = T, box=T,xlab=m,ylab=t,font=8, lab=c(3,3,2))
title(sub=c)A priori,cex=1, font=1)
#Datos
x<-c(344.9,355.6,345.0,352.1,348.2,349.1,346.1,344.9,348.7,348.3,347.1,348.8,350.8,352.7,351.1,
341.4,350.6,346.0,352.3,344.1,349.7,348.6,345.9,350.8,348.7)
X<-mean(x)
sn<-var(x,SumSquares=T)
n<-length(x)
#parametros posteriores
ap<-a+n/2
bp<-b+sn/2+n*k*(X-m)*(X-m)*0.5/(k+n)
mp<-(n*X+k*m)/(k+n)
kp<-k+n
prep<-ap*kp/bp
#verosimilitud
R<-function(t,m, m2, s2){return((0.5*n*(log(t)-log(2*pi))-0.5*n*t*(m-m2)2-0.5*s2*t))}
for(i in 1:max3){ for(j in 1:max3) {z[i,j]<-exp(R(tau2[i],mu2[j], X, sn))/exp(R(n/sn,X, X, sn))}}
title(sub=d)Ver. rel.,cex=1, font=1)
plot(tau,dgamma(tau,ap,bp),type=l,ylab=, xlab=t,font=8)
title(sub=.e)Posterior,cex=1, font=1)
abline(v=qgamma(0.025,ap,bp))
abline(v=qgamma(0.975,ap,bp))
plot(mu,dt((mu-mp)*sqrt(prep),2*ap),type=l,ylab=, xlab=m,font=8)
title(sub=f)posterior,cex=1, font=1)
abline(v=qt(0.025,2*ap)*(1/sqrt(prep))+mp)
abline(v=qt(0.975,2*ap)*(1/sqrt(prep))+mp)
for(i in 1:max3){ for(j in 1:max3){ z[i,j]<-ng(mu2[j],tau2[i],ap,bp,mp,kp)}}
title(sub=g)Posterior,cex=1, font=1)
#predictiva
y<-seq(340,360,length=max)
173
plot(y,dt((y-mp)*sqrt(prep*(1/(kp+1))),2*ap),type=l,ylab=, xlab= )
2
title(sub=h)Predictiva,cex=1, font=1)
abline(v=qt(0.025,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp)
abline(v=qt(0.975,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp)
qt(0.025,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp
qt(0.975,2*ap)*(1/sqrt(prep*(1/(kp+1))))+mp
w1<-(340-mp)*sqrt(prep*(1/(kp+1)))
w2<-(360-mp)*sqrt(prep*(1/(kp+1)))
pt(w2, 2*ap)-pt(w1, 2*ap)
Programa 8 (Toma de decisiones del ejemplo 8.2)

p1<-function(x){return(0.1*dnorm(x,50,1))}
p2<-function(x){return(0.9*dnorm(x,52,1))}
P1<-function(x){return(p1(x)/(p1(x)+p2(x)))}
P2<-function(x){return(p2(x)/(p1(x)+p2(x)))}
Pp1<-function(x){return(2000*P1(x))}
Pp2<-function(x){return(100*P2(x))}
a<-function(x){return(Pp1(x)-Pp2(x))}
par(mfrow=c(1,2))
x<-seq(50,52,length=500)
plot(c(50,52),c(0,1),type=n,xlab=X,ylab=Probabilidad)
legend(50.3,0.6,legend=c(P(q1x),P(q2x)),lty=c(1,3),cex=1.5,bty=n)
lines(x,P1(x),lty=1)
lines(x,P2(x),lty=3)
x<-seq(50.5,52,length=500)
plot(c(50,52),c(0,1000),type=n,xlab=X,ylab=Perdida esperada)
legend(51,1000,legend=c(l(a1x),l(a2x)),lty=c(1,2),cex=2,bty=n)
lines(x,Pp1(x),lty=2)
lines(x,Pp2(x),lty=1)
raiz<-uniroot(a,c(50,52))
raiz[[1]]
X<-51.41
y<-c(P1(X),P2(X),Pp1(X),Pp2(X))
B Ibliografa
Bibliografa
[1] Bayarri, M.J. y Garca-Donato, G. (2005). A Bayesian sequential look at u-control charts. Tech-
nometrics, 47, 2, 142-151.
[2] Berger, J.O. y Pericchi L.R. (1996). The intrinsic Bayes factor for model selection and prediction.
J. Amer. Statist. Assoc. 91, 109-121.
[3] Berger, J.O. (1985), Statistical Decision Theory and Bayesian Analysis 2nd ed. (New York:
Springer-Verlang).
[4] Bernardo, J.M. y Smith A.F.M.(1994), Bayesian Theory (Chichester:John. Wiley).
[5] Bernardo, J.M. (2000). Metodos Estadsticos Contemporaneos en la Investigacion Cientfica,
Departament dEstadstica i I.O.,
[6] Bernardo, J.M. (2003). Bayesian Estadistics in Encyclopedia of Life Support Systems (Proba-
bility and Statistics ed. R. Viertl), Oxford, U.K. ONESCO.
[7] Besag, J. y Green, P. J. (1993). Spatial statistics and Bayesian computation(with discussion),
Journal of the Royal Statistical Society B, vol. 55, pp. 25-37 (discussion, pp. 53-102).
[8] Blischke, W.R. y Murthy, D.N.P., Editores (1996). Product Warranty Handbook. Marcel.Dekker:
New York
[9] Blischke (1996). The basic free replacement warranty and related rebate warranties. In Product
Warranty Handbook, ed. por. Blischke, W.R. y Murthy, D.N.P. Marcel.Dekker: New York, pp.
265-291.
[10] Box, J.E. y Tiao, C.G. (1973). Bayesian Inference Statistical Analysis. Wiley, New York.
[11] Calvin, T.W. (1984). How and When to Perform Bayesian Acceptance Sampling. American Society
for Quality, Milwaukee, EU.
[12] DeGroot, M.H. (1970). Optimal Statistical Decisions. McGraw-Hill: New York.
[13] Doganaksoy, N., Hahn, G.J., y Meeker, W.Q. (2002). Reliability analysis by failure mode. Qua-
lity Progress, 35, 6, 47-52.
[14] Del Castillo, E., Grayson, J.M., Montgomery, D.C. y Runger, G.C. (1996). A review of statistical
process control techniques for short run manufacturing systems. Communications in Statistics-
Theory and Methods, 25 (11): 2723-2737.
[189]
175
176 BIBLIOGRAFIA
[15] DeGroot, M.H. (1970), Optimal Statistical Decisions (New York: McGraw-Hill).
[16] Duncan, A.J. (1994), Quality Control and Industrial Statistics, 5th ed. (New York: McGraw-Hill).
[17] Edwards, A.W.F. (1972). Likelihood, Cambridge University Press, Cambridge.
[18] Garthwaite P.H.y OHagan, A. (2000), Quantifying expert opinion: an experimental study, The
Statistician, 49(4), pp. 455-477.
[19] Gutierrez-Pena, E. y Walker, S.G. (2001). A Bayesian predictive approach to model selection.
J. of Statistical Planning and Inference, 93, 259-276.
[20] Gutierrez-Pulido, H. y Camacho-Castillo, O. (1996). Ineficiencia de la carta p para tamanos de
subgrupo grande: diagnostico y alternativas. Memorias del X Foro Nacional de Estadstica y del II
Congreso Iberoamericano de Estadstica; Asociacion Mexicana de Estadstica e INEGI, Mexico.
[21] Gutierrez-Pulido, H., Camacho-Castillo, O. (1998). Modificacion de las Cartas de Atributos (p,
np, c y u) para Mejorar su Aproximacion a la Significancia Bajo Normalidad. Agrociencia, 32 (4),
385-394.
[22] Gutierrez-Pulido, H. y de la Vara-Salazar, R. (2004). Control Estadstico de Calidad y Seis Sigma.
Mcgraw-Hill: Mexico.
[23] Gutierrez-Pulido, H. (2005a). Calidad Total y Productividad, segunda edicion. Mcgraw-Hill:
Mexico.
[24] Gutierrez-Pulido, H., Aguirre-Torres, V. y Christen, A. (2005b), A practical method for ob-
taining prior distributions in reliability, IEEE Transactions on Reliability, 54(2), pp. 262- 269.
[25] Gutierrez-Pulido, H. y Aguirre-Torres, V. (2006a). A Method of Moments Procedure for Elici-
ting Prior Distributions. Reporte Tecnico DE-C05.8, Departamento de Estadstica, ITAM, Mexi-
co.
[26] Gutierrez Pulido, H., Aguirre-Torres, V, And Christen A. (2006b). A Bayesian Approach for the
Determination of Warranty Length. Journal of Quality Technology, 38 (2): 180-189.
[27] Gutierrez-Pulido, H., Aguirre-Torres, V. y Christen, A. (2006c), Contrasting reliability models
using prior information. Technical report DE-C06.1, Statistics Department, ITAM, Mexico. 24
pages.
[28] Gutierrez Pulido, H. (2006d). Cartas de control Bayesianas para atributos y el tamano de sub-
grupo grande en la carta p. Revista Colombiana de Estadstica, vol. 29, No.2, pp. pp. 163-18.
[29] Gutierrez Pulido, H., Aguirre-Torres, V, And Christen A. (2006e). Una Metodologa para Deter-
minar el Perodo de Garanta para un Producto. Memoria del XX Foro Nacional de Estadstica,
Mexico.
[30] Hamada, M. (2002). Bayesian tolerance interval control limits for attributes. Quality and Relia-
bility Engineering International, 18 (1), pp. 45-52.
[31] Heimann, P.A. (1996). Atributes control charts with large sample sizes. Journal of Quality Tech-
nology, 28, 4, pp. 451-459.
[32] Hoeting, J.A., Madigan, D., Raftery, A.E. y Volinsky, C.T. (1999). Bayesian model averaging: a
tutorial. Statistical Science, 14, 382-417.
BIBLIOGRAFIA 177
b. B ibliografa 191
[33] Ibrahim, J.G., Chen, M-H., y Sinha, D. (2001). Bayesian Survival Analysis. Springer-Verlag: New
York.
[34] Irony, T. y Pereira, C. (1994). Motivation for the use of discrete distribution in quality assurance.
Test, 3, 181-193.
[35] Kadane, J.B., Dickey, J.M., Winkler, R.L., Smith, W.S. y Peters, S.C. (1980), Interactive elicitation
of opinion for a normal linear model, Journal of the American Statistical Association, 75, pp. 845-
854.
[36] Kadane J.B.y Wolfson L.J. (1998), Experiences in elicitation, The Statistician, 47, pp. 3-19.
[37] Kass, R.E. y Raftery, A. E. (1995). Bayes factor. J. Amer. Statist. Assoc. 90, 773-795.
[38] Kelley, C.A. (1996). Warranty and consumer behavior: product choice In Product Warranty
Handbook, ed. por. Blischke, W.R. y Murthy, D.N.P. Marcel.Dekker: New York, pp. 409-419.
[39] Lawless, J.F. (1982).Statistical Models and Methods for Lifetime Data. New York: Wiley.
[40] Meeker, W.Q. and Escobar, E. (1998). Statistical Methods for Reliability Data. New York: Wiley.
[41] Menezes, M.A.J. y Currim, I.S. (1992). An approach for determination of warranty lenght. In-
tern. J. of Research in Marketing, 9, 177-195.
[42] Menzefricke, U. (1992). On the variance of total warranty claims. Commun. Statist.-Theory
Meth. 21 (3), 779-790.
[43] Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H., y Teller, E. (1953). Equation
of state calculations by fast computing machines. Journal of Chemical Physics, vol. 21, pp. 1087-
1092.
[44] OConnor, P.D.T. (1985). Practical Reliability Engineering (Second Edition). Wiley: New York.
[45] OHagan, A. (1998) Eliciting expert belief s in substantial practical applications, The Statisti-
cian, 47, pp. 21-35.
[46] Patankar, J.G. y Mitra, A. (1996). Warranty and consumer behavior: warranty execution In
Product Warranty Handbook, ed. por. Blischke, W.R. y Murthy, D.N.P. Marcel.Dekker: New York,
pp. 421-438.
[47] Pena-Reya, I., Perez-Farinosa, N., Cortes-Garca, M. y Amela-Herasa, C. (2004). Coste-
efectividad de la vacunacion contra la varicela en adolescentes en Espana, Gaceta Sanitara,
18(4), pp.287-294.
[48] Percy, D.F. (2002) Bayesian enhanced strategic decision making for reliability,. European Jour-
nal of Operational Research, 139, pp. 133-145.
[49] Perez J.M. y Berger, J.O. Expected-posterior prior distributions for model selection, Biometri-
ka, vol. 89, pp. 491-511, 2002.
[50] Proschan, F. (1963). Theoretical explanation of observed failure rate. Technometrics, 5, 375-383.
[51] Quarshie, B.L.; Shindo, H. (1996). A Comparison of operating characteristics of the p-V and the
p-Rp charts. Quality Engineering, Vol. 9, No. 2, pp. 221-228.
[52] Robert, C.P. y Casella, G. (1999). Monte Carlo Statistical Methods. Springer: New York.
178 BIBLIOGRAFIA
[53] Sheaffer, R.E. y Leavenworth, R. (1976). The negative binomial model for counts in units of
varying size. Journal of Quality Technology, 8, 158-163.
[54] Sinha, D., Chen, M-H. y Ghosh, S.K. (1999). Bayesian analysis and model selection for interval-
censored survival data. Biometrics, 55, 585-590.
[55] Singpurwalla, N.D. (1988) An interactive pc-based procedure for reliability assessment incor-
porating expert opinion and survival data, Journal of the American Statistical Association, 83,
pp. 43-51.
[56] Singpurwalla; N.D.y Wilson, S.P. (1998). Failure models indexed by two scales. Adv. Appl. Prob.,
30, 1058-1072.
[57] Sprott, D. A.(2002). Statistical Inference in Science, Springer Verlag, New York.
[58] Suzuki, K. (1985a). Estimation method of lifetime based on the record of failure during the
warranty period. Journal of the American Statistical Association, 80, 66-72.
[59] Tsiamyrtzis, P. y Hawkins, D.M. (2005). A Bayesian scheme to detect changes in the mean of a
short-run process. Technometrics 47 (4), pp. 446-456.
[60] Winkler, R.L. (1981) Combining probability distributions from dependent information sources,
Management Science, 27 (5), pp. 479-488.
[61] Wilson, A.G. (1994). Cognitive factors affecting subgective probability assessment. Discussion
Paper 94-02, Institute of Statistics and Decisions Sciences, Duke University.
[62] Wolfson, L.J. (1995). Elicitation of priors and utilities for Bayesian analysis. Tesis Doctoral,
Departamento de Estadstica, Carnegie Mellon University: Pittsburgh.
U n i v e r s i da d de G ua da l a ja r a
Doctor Marco Antonio Corts Guardado

Rector General
Doctor Miguel ngel Navarro Navarro

Vicerrector Ejecutivo
Maestro Jos Alfredo Pea Ramos

Secretario General
Doctor Hctor Ral Sols Gadea

Coordinador General Acadmico
Fundamentos y aplicaciones
de la estadstica bayesiana
termin de imprimirse en marzo de 2013
en los talleres de Pandora, S.A. de C.V.
Caa 3659, La Nogalera, Guadalajara, Jalisco, Mxico
Se tiraron 500 ejemplares ms sobrantes para reposicin
Diseo de la portada:
Avelino Sordo Vilchis
Composicin tipogrfica:
Dr. Alfonso Hernndez Magdaleno
Cuidado del texto:
Humberto Gutirrez Pulido/
Porfirio Gutirrez Gonzlez
View publication stats

2013 Bayesiana

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

2013 Bayesiana

Încărcat de

Drepturi de autor:

Formate disponibile

See

Fundamentos y Aplicaciones de la estadstica

Book January 2013

Humberto Gutirrez Pulido Porfirio Gutirrez Gonzlez

SEE PROFILE SEE PROFILE

ENLACE View project

DOS DCADAS EN EL DESARROLLO DE JALISCO 1990-2010 View project

The user has requested enhancement of the downloaded file.

6. A p rox i m ac i o n e s numricas 121

Las innovaciones crecientes en la ciencia y la tcnica, y la necesidad de mejorar los niveles

autores para resolver el problema de determinar el tiempo de garanta de un producto.

En la actualidad hay abundantes datos, cifras, informacion y conocimiento sobre diferentes

Figura 1.1: Esquema general del paradigma Bayesiano.

con lo que queda demostrado el teorema.

1.3. Distribuciones a priori y posterior

Para hacer la inferencia estadstica con apoyo de la teora de probabilidades y por lo

f (X)= P(X)()d (1.4)

luego la distribucion condicional de dado los datos X esta dada por

En muchas aplicaciones, despues del muestreo, en lugar de hacer inferencias sobre , es

f (x, X) = f (x) f (X) (1.8)

Por otro lado, por definicion de distribuciones condicionales se cumple que

La distribucion de (x, X) se puede ver como la distribucion marginal con respecto a de

f (x, X)= f (x, X,)d

f (x) = f (x)()d (1.10)

i) a A, las posibles respuestas o decisiones.

ii) , estados desconocido de la realidad.

iii) u A R, una funcion de decision que vincula la utilidad o ganancia de cada

iv) P(), una especificacion, en la forma de una distribucion de probabilidad, de los

La eleccion optima de la respuesta para un problema de inferencia es aquella a A que

u (a) = u(a, )p()d (1.11)

Alternativamente, si en lugar de trabajar con u(a, ), se trabaja con la llamada funcion

l(a, ) = h() u(a, ),

l (a) = l(a, )p()d (1.12)

En el contexto de inferencia parametrica o predictiva, el estado desconocido de la reali-

Densidades Tipo de conocimiento

En diferentes partes del libro se tratan funciones de decision. En particular en el captulo

1.6. Preguntas y Ejercicios

2. Cuales son los axiomas de Kolmogorov o leyes de la probabilidad?

3. Como se entiende la probabilidad en la estadstica Bayesiana?

4. En estadstica Bayesiana como se incorpora el conocimiento inicial o a priori que

6. En el ejemplo 1.1, verificar que P(A 2 B) = 0 18182 y P(A 3 B) = 0 667

7. Explicar lo que representa las distribuciones predictivas (a priori y posterior) f (x) y

8. Cuales son los elementos de un esquema de decision en el contexto Bayesiano?

a) Obtener P(AB) e interpretar su significado.

L (X) = c P (X) (2.1)

La razon de verosimilitudes L ( X) /L ( X) es una medida de la plausibilidad de

Figura 2.1: Funcion de verosimilitud para el modelo binomial, ejemplo fumadores.

En la figura 2.1b se muestra la grafica de R(px) para el caso de la proporcion de fuma-

Intervalos (Regiones) de Verosimilitud Confianza

Cuando es un escalar la region sera un intervalo si R (X) es unimodal, o posible-

porcion p se utiliza usualmente la siguiente formula:

relativa, practicamente se esta en la antesala de la estadstica Bayesiana. Es por ello, que se

En el caso de variables aleatorias continuas es facil extender la forma de obtener la funcion

De aqu y de la definicion de verosimilitud dada en (2.1), se cumple que L(x 0 ) = f (x ).

Esta ultima expresion es la definicion tradicional de la funcion de verosimilitud que se

Lo que se ha dicho y el involucrar de la precision del sistema de medicion ayuda a supe-

2.3. Verosimilitud para Datos Censurados

En varias areas de aplicacion de la estadstica los experimentos, para generar muestras de X,

F (x) = 1 e ; > 0, x > 0.

Figura 2.2: Histograma y verosimilitud para el problema de tiempos de falla.

En forma similar se dice que una observacion x i es censurada por la izquierda en q si

En caso que se tenga un censura simple: (q 1 = q 2 = = q n = q), entonces (2.19) toma

donde la constante C = (nr)!