Cálculo de Probabilidades

CÁLCULO DE PROBABILIDADES
EUGENIO SAAVEDRA GALLARDO
CÁLCULO DE PROBABILIDADES
© Editorial Universidad de Santiago de Chile
Av. Libertador Bernardo O`Higgins #2229
Santiago de Chile
Tel.: 56-2-7180080
www.editorial.usach.cl
editor@usach.cl
© Eugenio Saavedra Gallardo
Inscripción Nº: 136.819

I.S.B.N.: 978-956-7069-86-6
Portada y diseño: Patricio Andrade

Diagramación: Andrea Meza Vergara
Versión actualizada, octubre de 2012
Impreso en Ril Editores
Proyecto financiado por el Fondo Nacional de Fomento del Libro y la Lectura.
Ninguna parte de esta publicación puede ser reproducida, almacenada o transmitida en manera alguna ni
por ningún medio, ya sea eléctrico, químico o mecánico, óptico, de grabación o de fotocopia, sin permiso
previo de la editorial.
Impreso en Chile
A mi hijo Carlo Antonio
PRÓLOGO
Este material ha sido elaborado como apoyo, para la enseñanza de los contenidos de
Probabilidades, insertos en los programas de las carreras de Ingenierı́a y Ciencias de las
universidades chilenas.
En él se entregan los elementos básicos del Cálculo de Probabilidades, teniendo como
requisito para su lectura los conocimientos de cálculo en varias variables y álgebra lineal.
La lı́nea del texto busca, a partir de ejemplos sencillos, introducir el(los) concepto(s)
que se pretende enseñar, luego formalizar, y posteriormente mostrar una variedad de
ilustrativos ejemplos. En particular, se pretende que los estudiantes, en lugar de aprender
un conjunto de fórmulas (lo que es habitual en la enseñanza de Probabilidad y Estadı́stica)
perciban profundamente el significado de éstas, pues es común que las fórmulas sean
olvidadas rápidamente, por lo que la comprensión de los conceptos es realmente lo que
importa.
El texto consta de dos capı́tulos. El primero se subdivide en 5 secciones y está dedicado
a los Espacios de Probabilidad, mientras el segundo se subdivide en 9 secciones que recorren
los elementos básicos relacionados con variables aleatorias. Las soluciones, in extenso, a
los problemas planteados en las diferentes secciones del libro, se encuentran al final de
éste.
Santiago de Chile, Septiembre de 2003

Eugenio Saavedra G
Prólogo a la Segunda Edición
Esta edición difiere de la primera sólo en la corrección de algunos errores tipográficos y de

redacción, la inclusión de una demostración en la sección 2.7 y por la inclusión de nuevos
problemas en las secciones 1.4, 2.2, 2.3, 2.5, 2.6, 2.8, 2.9.
Santiago de Chile, Enero de 2012

Eugenio Saavedra G.
ix
ÍNDICE
1 ESPACIOS DE PROBABILIDAD 1
1.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Modelo de Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3 Modelo Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4 Modelo General de Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . 56
1.5 Teorema de Probabilidades Totales y de Bayes . . . . . . . . . . . . . . 72
2 VARIABLES ALEATORIAS 111

2.1 Variables Aleatorias Discretas . . . . . . . . . . . . . . . . . . . . . . . . . 111
2.1.1 Esperanza (o media) de una variable aleatoria discreta . . . . . . . . 120
2.1.2 Algunos modelos probabilı́sticos para variables aleatorias discretas . 123
2.2 Variables Aleatorias Continuas . . . . . . . . . . . . . . . . . . . . . . . . 143
2.2.1 Algunas funciones de densidad que aparecen en la práctica . . . . . 157
2.2.2 Transformación de variables aleatorias . . . . . . . . . . . . . . . . . 180
2.2.3 Esperanza de una variable aleatoria continua . . . . . . . . . . . . . 188
2.3 Desigualdades para la Esperanza Matemática . . . . . . . . . . . . . . . 210
2.4 Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
2.4.1 Distribuciones marginales . . . . . . . . . . . . . . . . . . . . . . . . 236
2.4.2 Independencia de variables aleatorias . . . . . . . . . . . . . . . . . . 245
2.5 Distribución de Vectores Aleatorios . . . . . . . . . . . . . . . . . . . . . 256
2.5.1 Suma de variables (caso discreto) . . . . . . . . . . . . . . . . . . . . 256
2.5.2 Suma de variables (caso continuo) . . . . . . . . . . . . . . . . . . . 258
2.5.3 Distribución del cuociente . . . . . . . . . . . . . . . . . . . . . . . . 261
2.6 Esperanza de Funciones de Vectores Aleatorios . . . . . . . . . . . . . . 281
2.6.1 Covarianza y correlación . . . . . . . . . . . . . . . . . . . . . . . . . 290
2.6.2 Función generadora de momentos . . . . . . . . . . . . . . . . . . . . 302
2.6.3 Función generadora de momentos multivariada . . . . . . . . . . . . 310
2.7 Aproximación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321
2.8 Dependencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
2.8.1 Caso discreto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333
2.8.2 Caso continuo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
2.8.3 Esperanza condicional . . . . . . . . . . . . . . . . . . . . . . . . . . 347
2.8.4 Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 362
2.9 Convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382
2.9.1 Tipos de convergencia . . . . . . . . . . . . . . . . . . . . . . . . . . 382
2.9.2 Ley de los grandes números . . . . . . . . . . . . . . . . . . . . . . . 388
2.9.3 Criterios para estudiar convergencia en distribución . . . . . . . . . 391
SOLUCIONES A PROBLEMAS PROPUESTOS 405
Bibliografı́a 571
Índice de Materias 573

CAPÍTULO 1
ESPACIOS DE PROBABILIDAD
1.1 Introducción
La conceptualización matemática del azar comienza por la noción de experiencia aleato-

ria (o experimento aleatorio). Lo concreto siempre está en relación multiforme con su
medio. Un cuerpo en movimiento no es sólo un punto sobre el cual se ha ejercido una
fuerza para sacarlo del reposo. En la Mecánica Clásica esto se analiza ası́, pero no es más
que una abstracción. En realidad, en el estudio de un cuerpo en movimiento intervienen
muchos otros factores: su forma, el medio en el cual se mueve, la forma en que se aplica la
fuerza, etc., la enumeración es indefinida. Es sólo en sistemas completamente aislados y
relativamente muy simples en los que se podrı́a seguir y verificar las relaciones “lineales”
de causa y efecto del determinismo clásico. Pero el objeto aislado es una idealización. Las
cadenas de causa y efecto se entrecruzan y la interacción mutua crea nuevos efectos. Ası́,
posibilidades nuevas se crean y surgen nuevas realidades.
Es ası́ como el llamado Principio de Causalidad del determinismo clásico ha evolu-
cionado gracias al descubrimiento de nuevas propiedades de la materia y nos ha conducido
al reemplazo de los viejos conceptos de “causa” y “efecto” por las categorı́as de inter-
dependencia y de interacción mutua. La interdependencia y la conexión universal en
la naturaleza se realizan gracias a formas de interacción concretas. Ası́ por ejemplo, la
Fı́sica introduce las interacciones fuertes, electromagnéticas, débiles, gravitacionales; ellas
aparecen cada vez más como propiedades inherentes a la materia y ligadas orgánicamente
a su movimiento: una carga eléctrica sufre la influencia de un campo electromagnético,
pero, a su vez, ella reacciona sobre este campo y lo modifica. Causa y efecto, efecto que se
transforma en causa, “lı́neas” causales que se entrecruzan y se determinan mutuamente,
conexión universal de las formas de la materia, es la imagen que la Fı́sica descubre en forma
cada vez más concreta, a medida que ella penetra en las profundidades de la materia.
El azar entonces, no hace más que expresar la determinación múltiple de cada estado
que se realiza en la naturaleza.
1
1.1 Introducción
Y una experiencia aleatoria no es más que una forma particular, concreta, de inter-
acción. En el proceso del conocimiento, corresponde a la acción (muy a menudo voluntaria)
del sujeto sobre el objeto en estudio (por ejemplo, para conocer la temperatura del agua
del baño, introducimos la mano en ella). Tiene, por lo tanto, múltiples resultados posibles.
Esta es la clave para formular los modelo matemáticos del azar que veremos en este
capı́tulo. Describimos cada experiencia aleatoria por el conjunto de todos sus resultados
posibles. Tradicionalmente se denota por Ω a dicho conjunto y un punto cualquiera de él,
vale decir, un resultado cualquiera de la experiencia en estudio, se acostumbra a escribir
por ω.
Observemos que hemos reducido la consideración de todas las experiencias aleatorias
a un modelo matemático único: cada experiencia no es más que la elección de un
elemento ω de un conjunto Ω dado. En lo que sigue del texto nos referiremos a este
espacio Ω, con el nombre de espacio muestral.
También, un suceso ligado a una experiencia aleatoria se produce o no según el resul-
tado de dicha experiencia y puede ser representado como un subconjunto del espacio Ω.
En adelante, un suceso o evento corresponderá a “cualquier” subconjunto de Ω, esto es,
un suceso será “cualquier” subconjunto del espacio muestral.
Consideremos, a tı́tulo de ejemplo, algunas experiencias aleatorias simples:
(1) Lanzamiento de dos dados;
(2) Observación del genotipo del descendiente de dos padres de genotipos Aa y aA

(hı́bridos), sabiendo que el genotipo del descendiente se obtiene por “elección” aleato-
ria de un gene (letra A a) de cada padre;
(3) Una mano de bridge, vale decir, la repartición al azar entre cuatro jugadores de un
paquete de 52 cartas ordenadas aleatoriamente;
(4) Precio del cobre en la Bolsa de Metales de Londres al cierre de hoy;
(5) Número de habitantes que tendrá Chile en el año 2090.
A modo de ejemplo, en el caso (1), los resultados posibles de la experiencia considerada

son exactamente los pares ordenados (m, n) de enteros comprendidos entre 1 y 6; el espacio
Ω formado por estos 36 pares ordenados describe esta experiencia. Hemos supuesto que
los dos dados podrı́an ser distinguidos y que, por lo tanto, los resultados (5, 4) y (4, 5)
son diferentes. Por el contrario, en el ejemplo (2) de Genética, los genotipos Aa y aA son
indistinguibles y el espacio Ω de los resultados posibles de dicha experiencia se reduce a
3 puntos, a saber, AA, Aa y aa. También, un suceso aleatorio ligado a la experiencia
(1) serı́a, por ejemplo, “la suma de los puntos obtenidos lanzando dos dados es mayor
que 9”; él se produce si y sólo si el resultado (m, n) de esta experiencia verifica que
m + n > 9. Es entonces natural describir matemáticamente tal suceso por el subconjunto
del espacio Ω formado por todos los resultados de la experiencia (puntos de Ω) que realizan
el suceso. Ası́, el suceso precedente queda descrito por el subconjunto A de Ω, con A =
{(4, 6), (5, 5), (5, 6), (6, 4), (6, 5), (6, 6)}.
-2-
1.1 Introducción
Una vez descrita una experiencia aleatoria por medio de su espacio muestral Ω, ¿cómo
podrı́amos “medir” un suceso ligado a esta experiencia aleatoria?, es decir, si A es sub-
conjunto de Ω, ¿cómo podrı́amos asignarle un número real positivo al conjunto A?
Primeramente, el concepto de “medida” que usaremos será el de probabilidad, referido
a un modelo para la proporción de ocurrencias (o frecuencia relativa) de un resultado,
en una larga serie de repeticiones de un experimento aleatorio. Por ejemplo, consideremos
el experimento consistente en arrojar una moneda una gran cantidad de veces y registremos
la proporción de veces que salió “cara”. Observamos que de una realización a otra los
valores registrados no suelen cambiar mucho. Los datos que mostramos a continuación
representan la proporción de “caras” en 10 repeticiones del experimento consistente en
arrojar la moneda 10000 veces,
0.4964 0.5018 0.4997 0.5070 0.4958 0.5012 0.4959 0.5094 0.5018 0.5048
(los tiros de la moneda han sido “simulados” en un computador haciendo innecesario el

trabajo de arrojarla 10000 veces).
Pero, ¿cuándo una serie es lo “bastante larga”? Una posible respuesta serı́a que es lo
bastante larga cuando las frecuencias relativas varı́an poco al realizar nuevas repeticiones.
¿Y cuándo se puede decir que varı́an “poco”? Podrı́amos decir que varı́an poco usando la
definición matemática de lı́mite de sucesiones.
Este planteo será el que utilizaremos para mostrar el Modelo de Probabilidades de
Laplace en la Sección 2 y el Modelo de Probabilidades Binomial en la Sección 3.
¿Y que hacer cuándo no es posible repetir el experimento aleatorio ? Por ejemplo, si
el experimento consiste en contar el número de accidentes de tránsito con consecuencias
fatales que ocurrirán el próximo semestre en Chile.
El concepto de “medida” de probabilidad general (Modelo de Kolmogorov) fue de-
sarrollado en 1933 por el matemático ruso A. Kolmogorov, quien definió la probabilidad
mediante un sistema de axiomas. La idea con la que él partió, la cual es común en el en-
foque axiomático de la Matemática, fue: si siempre se pudiera definir la probabilidad como
lı́mite de frecuencias relativas, ¿qué propiedades tendrı́a que cumplir? Estas propiedades
las mostraremos tanto para el Modelo de Laplace como para el Modelo Binomial, y son la
inspiración de los axiomas que se postulan en la Sección 4 para una “medida” de probabili-
dad general. La llamada “Ley de los Grandes Números” permite mostrar que la definición
general de probabilidad, a través de axiomas, es coherente con la noción de probabilidad
inspirada en la frecuencia relativa.
Finalmente, en la Sección 5 mostramos, para una medida de probabilidad general,
algunas propiedades que son de gran utilidad a la hora en que se desea encontrar, en
forma explı́cita, la medida de probabilidad de algún suceso especı́fico.
-3-
1.2. MODELO DE LAPLACE
1.2 Modelo de Laplace
En esta sección estudiaremos una serie de experimentos aleatorios relativamente simples,

de manera de descubrir alguna ley que los rija.
Experimento 1: Se lanza una moneda “normal” y se observa si sale cara o sello. Hemos
realizado una “tirada” cuando lanzamos una vez la moneda. Los resultados posibles de
una tirada son: sello (0), cara (1). Realizamos 15 tiradas de la moneda, y obtuvimos la
secuencia
1 1 0 1 0 0 1 1 1 0 1 1 0 0 1.
Entonces, en las 15 tiradas, salieron 6 sellos y 9 caras.

Realizamos, nuevamente, 15 tiradas de la moneda y obtuvimos la secuencia
0 0 1 0 0 1 0 0 0 0 1 1 0 1 0,
o sea, en este caso salieron 10 sellos y 5 caras.

Realiza 15 tiradas de una moneda normal, ¿cuántos sellos obtuviste?, ¿cuántas caras?
Compara tus resultados con los de alguna otra persona.
Posiblemente el número de caras (y por consecuencia el de sellos) resulte diferente de
los conseguidos por nosotros anteriormente.
Podrı́amos decir entonces, que el número de caras que obtenemos al lanzar la moneda
15 veces depende del azar.
¿Existirá algún patrón o tendencia que siga la proporción de las caras, o de los sellos,
después de lanzar la moneda 15 veces, 35 veces, 100 veces, o un “gran número” de veces?
Esta proporción (que dependerá del azar) es la que se modela matemáticamente. Por
esta razón, realizaremos “muchas” tiradas de la moneda. Como lanzar, por ejemplo,
300 veces la moneda, es un poco lento y engorroso, los lanzamientos se simulan en el
computador.
Las tablas siguientes muestran los resultados obtenidos en diferentes simulaciones.
Columna uno: Indica el número de veces que se tira la moneda.
Columna dos: Indica el número de sellos que se obtuvieron al tirar la moneda la cantidad
de veces que indica la columna uno.
Columna tres: Indica el número de caras que se obtuvieron al tirar la moneda la cantidad
de veces que indica la columna uno.
Columna cuatro: Indica la columna dos dividida por la columna uno (a esta proporción
la llamaremos frecuencia relativa del sello y la anotaremos por f0 ).
Columna cinco: Indica la columna tres dividida por la columna uno (a esta proporción la
llamaremos frecuencia relativa de la cara, y la anotaremos por f1 ).
-4-
N◦ de veces N◦ de veces N◦ de veces Frecuencia Relativa Frecuencia Relativa

que se lanza que ocurre que ocurre del sello de la cara
la moneda sello cara (f0 ) (f1 )
1 0 1 0.0000 1.0000
2 1 1 0.5000 0.5000
3 1 2 0.3333 0.6667
4 3 1 0.7500 0.2500
5 3 2 0.6000 0.4000
6 6 0 1.0000 0.0000
7 3 4 0.4286 0.5714
8 6 2 0.7500 0.2500
9 7 2 0.7778 0.2222
10 6 4 0.6000 0.4000
Tabla 1.2.1
Frecuencia
Relativa
de los sellos
f0
1.0
0.8
0.6
0.4
0.2
0.0
1 2 3 4 5 6 7 8 9 10 Número
de tiradas
Figura 1.2.1: Frecuencia relativa de los sellos obtenidos según la Tabla 1.2.1
La tabla siguiente muestra las frecuencias relativas (tanto para la cara como para el
sello) obtenidas al lanzar una moneda el número de veces que indica la primera columna.
-5-
N◦ de veces N◦ de veces N◦ de veces Frecuencia relativa Frecuencia relativa

que se lanza que ocurre que ocurre del sello de la cara
la moneda sello cara f0 f1
10 5 5 0.5000 0.5000
20 12 8 0.6000 0.4000
30 11 19 0.3667 0.6333
40 18 22 0.4500 0.5500
50 27 23 0.5400 0.4600
60 31 29 0.5167 0.4833
70 31 39 0.4429 0.5571
80 36 44 0.4500 0.5500
90 43 47 0.4778 0.5222
100 40 60 0.4000 0.6000
150 67 83 0.4467 0.5533
200 111 89 0.5550 0.4450
250 136 114 0.5440 0.4560
300 147 153 0.4900 0.5100
350 165 185 0.4714 0.5286
400 205 195 0.5125 0.4875
450 237 213 0.5267 0.4733
500 251 249 0.5020 0.4980
550 255 295 0.4636 0.5364
600 325 275 0.5417 0.4583
650 315 335 0.4846 0.5154
700 359 341 0.5129 0.4871
750 367 383 0.4893 0.5107
800 409 391 0.5113 0.4888
850 408 442 0.4800 0.5200
900 446 454 0.4956 0.5044
950 492 458 0.5179 0.4821
1000 498 502 0.4980 0.5020
Tabla 1.2.2
f0
.
....
..... ...........................
... .... ........ .... ....... .............. ..........
0.5 . ... .. ... ....... .............. ........................... ............................ ......... .....................................................................................................................................................
.
... .. ... .... . ... ............ ...........
.
... .. .... ... ........... .
.
..... .............
.....
0 100 200 300 400 500 600 700 800 900 1000 N◦ de tiradas
Figura 1.2.2: Frecuencia relativa de los sellos según la Tabla 1.2.2
-6-
De lo anterior, podemos observar que mientras mayor es el número de tiradas que reali-
zamos, las frecuencias relativas varı́an “muy poco”, obteniéndose que f0 es “cercano” a 12
y que f1 es “cercano” a 12 .
Como dijimos anteriormente, los resultados posibles al lanzar una moneda son sello
(0) y cara (1), por lo que el espacio muestral resultante para este experimento es
Ω = {0, 1} y #Ω = 2 .
Como, por ejemplo, A = {0}, es subconjunto de Ω, entonces A es un suceso. En este caso,

el suceso A representa el hecho que en la moneda lanzada resultó sello.
Las Tablas 1.2.1 y 1.2.2 motivan la siguiente definición de probabilidad para el suceso
A = {0}, que anotamos P (A),
#A
P (A) = 0.5 = .
#Ω
De igual forma, si B es el suceso salió cara al lanzar la moneda, es decir, B = {1},
entonces, se define
#B
P (B) = 0.5 = .
#Ω
Es común referirse al número de elementos de A (o de B) como número de casos favorables.
Al número de elementos de Ω se le conoce como número de casos totales o posibles.
Experimento 2: Se lanza un dado “común” y se observa su cara superior. Al igual

que en el Experimento 1, diremos que hemos realizado una tirada cuando lanzamos una
vez el dado. Los resultados posibles de una tirada son: 1, 2, 3, 4, 5, 6. Realizamos 20
tiradas del dado y obtuvimos los siguientes resultados:
en 5 ocasiones salió uno,
en 1 ocasión salió dos,
en 2 ocasiones salió tres,
en 3 ocasiones salió cuatro,
en 4 ocasiones salió cinco,
en 5 ocasiones salió seis.
Realizamos nuevamente, 20 tiradas del dado, obteniéndose que
en 3 ocasiones salió uno,
en 2 ocasión salió dos,
en 6 ocasiones salió tres,
en 5 ocasiones salió cuatro,
en 4 ocasiones salió cinco,
en 0 ocasiones salió seis.
-7-
Realiza 20 tiradas de un dado común, ¿en cuántas ocasiones te salió 1, 2, 3, 4, 5 ó

6? Compara los resultados con otras personas y con los obtenidos por nosotros anteri-
ormente. Con seguridad, los resultados que tú obtengas o que obtengan otras personas
serán diferentes de los nuestros.
Podrı́amos decir, nuevamente, que el número de veces que obtenemos 1, 2, 3, 4, 5 y 6,
al lanzar un dado 20 veces, depende del azar.
¿Existirá algún patrón o tendencia que “siga” la proporción de 1, 2, 3, 4, 5 ó 6, después
de lanzar el dado 20 veces, 100 veces, o un gran número de veces?
La Tabla 1.2.3a, muestra los resultados obtenidos en diferentes simulaciones.
Columna uno: Indica el número de veces que se tira el dado.

Columna dos: Indica el número de veces que salió uno al tirar el dado la cantidad de veces
que indica la columna uno.
Columna tres: Indica el número de veces que salió dos al tirar el dado la cantidad de veces
que indica la columna uno.
Columna cuatro, cinco, seis y siete tienen análoga interpretación a la columna tres.
N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces

que se lanza que sale que sale que sale que sale que sale que sale
el dado uno dos tres cuatro cinco seis
10 2 2 4 0 0 2
20 2 3 4 4 4 3
30 4 2 6 5 7 7
40 8 9 8 3 9 3
50 7 11 10 5 11 6
60 12 10 10 9 13 5
70 14 16 9 8 14 9
80 15 19 12 10 14 10
90 16 18 12 14 15 15
100 18 21 15 17 16 13
150 24 28 26 22 26 24
200 30 38 31 32 33 36
250 42 45 40 41 39 43
Tabla 1.2.3a
La primera columna de la Tabla siguiente, Tabla 1.2.3b, es la columna dos de la Tabla

1.2.3a dividida por la columna uno de la Tabla 1.2.3a, la llamamos frecuencia relativa del
uno, y se anota f1 . Análogas interpretaciones tienen el resto de las columnas de la Tabla
1.2.3b.
-8-
Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia

relativa del relativa del relativa del relativa del relativa del relativa del
uno (f1 ) dos (f2 ) tres (f3 ) cuatro (f4 ) cinco (f5 ) seis (f6 )
0.2000 0.2000 0.4000 0.0000 0.0000 0.2000
0.1000 0.1500 0.2000 0.2000 0.2000 0.1500
0.1333 0.0667 0.2000 0.1667 0.2333 0.2333
0.2000 0.2250 0.2000 0.0750 0.2250 0.0750
0.1400 0.2200 0.2000 0.1000 0.2200 0.1200
0.2000 0.1667 0.1667 0.1500 0.2167 0.0833
0.2000 0.2286 0.1286 0.1143 0.2000 0.1286
0.1875 0.2375 0.1500 0.1250 0.1750 0.1250
0.1778 0.2000 0.1333 0.1556 0.1667 0.1667
0.1800 0.2100 0.1500 0.1700 0.1600 0.1300
0.1600 0.1867 0.1733 0.1467 0.1733 0.1600
0.1500 0.1900 0.1550 0.1600 0.1650 0.1800
0.1680 0.1800 0.1600 0.1640 0.1560 0.1720
Tabla 1.2.3b
Nuevamente, podemos observar que mientras mayor es el número de tiradas que rea-
lizamos, las frecuencias relativas varı́an “muy poco”, obteniéndose que fi es cercano a 16 ,
para i ∈ {1, 2, 3, 4, 5, 6}.
f1
0.5
..... ........ ..............................................................................................................................

.. .... ..... .................. ..............................................................................................................................................................................
.. ....... .............
... ...........
..
..
..
...
0 25 50 75 100 125 150 175 200 225 250 N◦ de tiradas
Figura 1.2.3: Frecuencia relativa de los unos obtenidos según la Tabla 1.2.3b
-9-
f6
0.5
.....
.. .... ...
.. ...... .... ..... ............................................................................................................................................
... ......... ...
..
...... ..............................................................................................................
...
. ... ............... ...........................
. .......... ............
..
..
...
0 25 50 75 100 125 150 175 200 225 250 N◦ de tiradas
Figura 1.2.4: Frecuencia relativa de los seis obtenidos según la Tabla 1.2.3b
En este experimento, el espacio muestral resultante es
Ω = {1, 2, 3, 4, 5, 6} y #Ω = 6.
Si Ai = {i}, para i ∈ {1, 2, 3, 4, 5, 6}, entonces Ai representa el suceso salió el número i al

lanzar el dado.
La tabla anterior motiva la siguiente definición de probabilidad para el suceso Ai , que
anotamos P (Ai ),
1
P (Ai ) = .
6
Desde la tabla anterior, también podemos observar que la cantidad de veces que sale
número par, es aproximadamente la mitad de las veces que se tira el dado, lo que motiva
la siguiente definición de probabilidad para el suceso A = {2, 4, 6}, que representa el hecho
que sale par al lanzar el dado
P (A) = P ({2}) + P ({4}) + P ({6})
1 1 1
= + +
6 6 6
1
=
2
#A
= .
#Ω
Más aún, se puede verificar, a partir de la tabla anterior, que si A es un suceso
cualquiera, esto es, cualquier subconjunto de Ω, entonces la proporción de veces que ocurre
A respecto del total de tiradas del dado, es aproximadamente igual a #A #Ω , lo que sugiere
la definición
- 10 -
∑
P (A) = P ({j})
j∈A
∑ 1
=
6
j∈A
1
= #A
6
#A
= .
#Ω
∑
Cabe señalar que el sı́mbolo se
∑lee sumatoria, y representa la suma de los números que
esta indique. En nuestro caso, j∈A P ({j}), significa que se deben sumar los números
P ({j}), cuando j “recorre” todo el conjunto A.
Experimento 3: Se lanzan tres monedas normales y se observa si salió cara o sello en

cada una de las monedas. Diremos que hemos realizado una tirada cuando lanzamos las
tres monedas una vez. Los resultados posibles de una tirada son
Moneda 1 Moneda 2 Moneda 3

C C C
C C S
C S C
S C C
C S S
S C S
S S C
S S S
Realizamos ahora 30 tiradas de las tres monedas. Los resultados obtenidos se presentan
en la tabla siguiente. La última columna de ésta indica el número de veces que ocurrió el
resultado, dividido por 30.
Resultado
Moneda 1 Moneda 2 Moneda 3 Número de veces que Frecuencia
ocurrió el resultado relativa
C C C 2 0.0667
C C S 3 0.1000
C S C 1 0.0333
S C C 7 0.2333
C S S 6 0.2000
S C S 2 0.0667
S S C 4 0.1333
S S S 5 0.1667
Tabla 1.2.4
- 11 -
Por ejemplo, en cinco oportunidades las tres monedas resultaron sello.

Repetir el experimento, pero ahora en lugar de 30 tiradas, hacer 50 tiradas, 100 tiradas
y 500 tiradas.
Los resultados que se obtendrán mostrarán que a medida que aumenta el total de
tiradas, las frecuencias relativas comenzarán a variar “muy poco”, obteniéndose que el
número de veces que salen tres sellos, dividido por el total de lanzamientos realizados, es
aproximadamente igual a 18 . Lo mismo ocurre para cualquiera de los otros siete resultados.
El espacio muestral para este experimento es
Ω = {(c, c, c), (c, c, s), (c, s, c), (s, c, c), (c, s, s), (s, c, s), (s, s, c), (s, s, s)} y #Ω = 8.
Si A = {(s, s, s)}, entonces A representa que en las tres monedas salió sello, y definimos
1
P (A) = .
8
1
Similarmente, definimos por 8 a la probabilidad de cualquier suceso con un solo elemento
(suceso elemental).
¿Cuál es la probabilidad de que en dos monedas salga cara y en una sello?
Si A = {(c, c, s), (c, s, c), (s, c, c)}, es decir, A representa el suceso en dos monedas sale cara
y en una sello (sin importar en cuales monedas), entonces, definimos
P (A) = P ({(c, c, s)}) + P ({(c, s, c)}) + P ({(s, c, c)})
1 1 1
= + +
8 8 8
3
=
8
#A
= .
#Ω
Los resultados experimentales deberı́an indicar que el número de veces que en dos mo-
nedas sale cara y en una sello, es aproximadamente igual a 38 , más aún, experimentalmente
se puede verificar que si A es cualquier suceso, esto es, A es cualquier subconjunto de Ω,
entonces la proporción de veces que ocurre A, respecto del total de lanzamientos realizados
es, aproximadamente igual a #A #Ω , lo que motiva la definición
∑
P (A) = P ({a})
a∈A
∑ 1
=
8
a∈A
1
= #A
8
#A
= .
#Ω
- 12 -
¿Qué consideraciones se han tenido en cuenta en las definiciones de probabili-

dad dadas en los tres experimentos anteriores?
Los tres experimentos aleatorios tienen las siguientes caracterı́sticas en común:
1. Existe número finito (digamos n) de resultados posibles del experimento. Cada

resultado lo llamamos suceso elemental. La unión de todos los sucesos elementales
es el espacio muestral Ω.
2. Todos los sucesos elementales son igualmente probables.
3. Todo suceso A es la unión de m sucesos elementales, donde m ≤ n.
Definición 1.2.1: Sea Ω conjunto no vacı́o, Ω = {a1 , a2 , . . . , an } y A subcon-

junto de Ω tal que #A = m. Se define la probabilidad de A, se anota P (A),
como
#A m n◦ de casos favorables
P (A) = = = .
#Ω n n◦ de casos posibles
Al par (Ω, P ), se le conoce como Modelo de Probabilidades de Laplace,

también llamado Modelo de Probabilidades Equiprobable.
Este modelo representa la siguiente situación experimental:
• Se tiene un experimento aleatorio, cuyo conjunto de resultados posibles es Ω, el

cual es finito.
• Cada resultado de Ω es igualmente probable (equiprobable).
Algunas consecuencias de la definición anterior, son las propiedades siguientes:
a) Para todo suceso A, 0 ≤ P (A) ≤ 1.
b) P (Ω) = 1.
c) P (∅) = 0.
d) Si A ∩ B = ∅, entonces P (A ∪ B) = P (A) + P (B).
e) Para todo suceso A, P (AC ) = 1 − P (A) (complemento respecto de Ω).
f) Si A ⊂ B, entonces P (A) ≤ P (B).
Estas afirmaciones se verifican usando las siguientes propiedades de cardinalidad de un

conjunto finito:
#(∅) = 0 , #AC = #Ω − #A , #(A ∪ B) = #A + #B − #(A ∩ B).
- 13 -
Ejemplo 1.2.1: Se lanzan dos monedas comunes y se observa si en las monedas aparece
cara o sello. Una persona X dice que, como las monedas son indistinguibles, entonces los
únicos resultados de este experimento serı́an {c, c}, {c, s} y {s, s}, es decir, el espacio
muestral resultante serı́a
Ω = {{c, c} , {c, s} , {s, s}}.
Si esta persona ocupa el modelo de Laplace para calcular probabilidades, obtendrá que
la probabilidad del suceso A = {c, s} es
1
P (A) = .
3
Como A representa el suceso ocurrió una cara y un sello al lanzar las dos monedas,
este modelo asigna probabilidad 13 a este suceso.
Matemáticamente, el resultado obtenido por la persona X es correcto, sin embargo, el
modelo propuesto es erróneo, pues “experimentalmente” se verifica que los sucesos ele-
mentales no son equiprobables, lo que se observa en la tabla siguiente
N◦ de veces N◦ de veces N◦ de veces N◦ de veces Frecuencia Frecuencia Frecuencia

que se lanzan las que sale que sale que sale relativa de relativa de relativa de
dos monedas {c, c} {c, s} {s, s} {c, c} {c, s} {s, s}
10 3 6 1 0.300 0.600 0.100
50 13 22 15 0.260 0.440 0.300
100 30 54 16 0.300 0.540 0.160
150 33 75 42 0.220 0.500 0.280
200 53 88 59 0.265 0.440 0.295
250 56 129 65 0.224 0.516 0.260
300 75 152 73 0.250 0.507 0.243
350 89 180 81 0.254 0.515 0.231
400 90 209 101 0.225 0.523 0.252
450 114 229 107 0.253 0.509 0.238
500 122 250 128 0.244 0.500 0.256
750 198 360 192 0.264 0.480 0.256
1000 249 499 252 0.249 0.499 0.252
Tabla 1.2.5
Observando la tabla anterior, vemos que la probabilidad de que ocurran dos caras de-
berı́a ser 0.25, la probabilidad de que ocurra una cara y un sello 0.50 y la probabilidad de
obtener dos sellos 0.25.
Una forma alternativa al razonamiento de la persona X, serı́a asumir que podemos
hacer la distinción entre las dos monedas. Esta distinción la explicitamos colocando los
resultados de las dos monedas como un par ordenado. En la primera componente colocamos
el resultado de la “moneda 1” y en la segunda el resultado de la “moneda 2”. De esta
forma, el espacio muestral resultante del experimento serı́a
Ω = {(c, c) , (c, s) , (s, c) , (s, s)}.
En este caso, el suceso ocurrió una cara y un sello al lanzar las dos monedas, está
representado por A = {(c, s), (s, c)}.
- 14 -
Si ahora usamos el modelo equiprobable para calcular probabilidades, obtenemos que

#A
P (A) =
#Ω
2
=
4
1
= .
2
Este resultado sı́ es coincidente con lo que ocurre experimentalmente.
Ejemplo 1.2.2: Se lanzan dos dados comunes simultáneamente, y se observan los núme-
ros mostrados en las caras superiores. Calcular:
a) La probabilidad de que la suma sea 11.
b) La probabilidad de que ambos números no sean primos.
c) La probabilidad de que el máximo entre ambos números sea mayor o igual a 4.
Los resultados posibles al lanzar dos dados se muestran en la tabla siguiente
n◦ mostrado por el “segundo dado”

◦
n mostrado por
el “primer dado” 1 2 3 4 5 6
1 (1, 1) (1, 2) (1, 3) (1, 4) (1, 5) (1, 6)
2 (2, 1) (2, 2) (2, 3) (2, 4) (2, 5) (2, 6)
3 (3, 1) (3, 2) (3, 3) (3, 4) (3, 5) (3, 6)
4 (4, 1) (4, 2) (4, 3) (4, 4) (4, 5) (4, 6)
5 (5, 1) (5, 2) (5, 3) (5, 4) (5, 5) (5, 6)
6 (6, 1) (6, 2) (6, 3) (6, 4) (6, 5) (6, 6)
Tabla 1.2.6
Ası́, el conjunto Ω está formado por todos los pares de la tabla anterior, es decir,
Ω = {(i, j) : i, j ∈ {1, 2, 3, 4, 5, 6}} y #Ω = 36 = 6 · 6
(6 es el número de resultados posibles del “primer dado” y 6 es el número de resultados

posibles del “segundo dado”).
Experimentalmente, se puede verificar (lanzando “muchas” veces un par de dados) que

cada resultado de Ω es igualmente probable, por lo que usamos el modelo de Laplace para
resolver este problema.
De esta forma, si A es un suceso, es decir, A ⊂ Ω, entonces
#A #A
P (A) = = .
#Ω 36
- 15 -
El conjunto A = {(6, 5), (5, 6)} es el suceso que representa el hecho de que la suma de
los dados sea 11, por lo tanto
2 1
P (A) = = .
36 18
El conjunto B = {(4, 4), (4, 6), (6, 4), (6, 6)} es el suceso que representa el hecho de que
ambos números no sean primos (hemos asumido que 1 es primo), de donde
4 1
P (B) = = .
36 9
El conjunto C = {(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)} es el suceso
que representa el hecho de que el máximo entre ambos números sea menor que 4. Por lo
tanto, C c es el suceso que indica que el máximo entre ambos números es mayor o igual a
4. En consecuencia, la probabilidad pedida en el punto c) es P (C c ), y
P (C c ) = 1 − P ((C c )c )
= 1 − P (C)
#C
= 1−
36
9
= 1−
36
3
= .
4
Ejemplo 1.2.3: Se tienen 5 fichas idénticas y numeradas, 1 2 3 4 5 . Se
colocan en una bolsa no transparente y se escogen al azar, dos de ellas, con reposición.
Esto es, se saca una ficha se observa su número y luego se devuelve a la bolsa, ahora se
saca la segunda ficha. ¿Cuál es la probabilidad de que la segunda ficha escogida no sea la
misma que la primera?
Los resultados al escoger las dos fichas con reposición se muestran en la tabla siguiente
2a ficha escogida
1a ficha escogida 1 2 3 4 5
1 1 1 1 2 1 3 1 4 1 5
2 2 1 2 2 2 3 2 4 2 5
3 3 1 3 2 3 3 3 4 3 5
4 4 1 4 2 4 3 4 4 4 5
5 5 1 5 2 5 3 5 4 5 5
Tabla 1.2.7
- 16 -
El conjunto Ω, de todos los resultados posibles para este experimento, está formado por
todos los pares de fichas que muestra la tabla anterior. Luego, #Ω = 25.
Experimentalmente, se puede verificar (sacando “muchas” veces dos fichas de la bolsa)
que cada resultado de Ω es igualmente probable, por lo que usamos el modelo de Laplace
para calcular la probabilidad pedida. Ası́, si A es un suceso, es decir, A ⊂ Ω,
#A #A
P (A) = = .
#Ω 25
El conjunto A que representa el hecho que la segunda ficha escogida es igual a la primera
es n o
A= 1 1 , 2 2 , 3 3 , 4 4 , 5 5 , por lo que #A = 5.
Por lo tanto, el conjunto que representa el hecho que la segunda ficha escogida es
diferente a la primera es Ac , y como P (Ac ) = 1 − P (A),
#A 4
P (Ac ) = 1 − = .
25 5
Notar que, #A = 20 = 5 · 4 (5 es el número de fichas que se pueden escoger en la
primera extracción y 4 en la segunda, ya que esta segunda ficha no puede ser igual a la
primera que ya se sacó).
Observación 1.2.1: Muestreo con y sin Reemplazo. Sea B un mazo de n cartas.

Se requiere representar el experimento siguiente: Barajar bien, y extraer sucesivamente m
cartas.
En este experimento, el espacio muestral es el conjunto de las m-uplas formadas por m
cartas distintas: Ω = {(b1 , . (. . ,)bm ) : bi ∈ B, bi ̸= bj si i ̸= j}. De la definición de Ω , se
n
deduce que #Ω es igual a m m! (que se anota (n)m ) . Se representa matemáticamente
la idea de que el mazo está bien barajado postulando que los elementos de Ω son equi-
probables. Esta es la definición de muestreo sin reemplazo de m objetos de entre un total
de n.
Si no interesa el orden en que salen las cartas, sino solamente cuales salieron, el espacio
( n )resultante es Ω = {{b1 , . . . , bm } : bi ∈ B, bi ̸= bj si i ̸= j}. Este espacio muestral
muestral
tiene m conjuntos posibles, los cuales son equiprobables.
Consideremos en cambio el experimento descrito por el siguiente procedimiento: Hacer m
veces lo siguiente: Barajar bien, sacar una carta y registrarla. Ahora reponerla.
En este experimento, Ω = {(b1 , . . . , bm ), bi ∈ B} = B × · · · × B. Por lo tanto, #Ω = nm .
Se representa el buen barajado postulando que los elementos de Ω son equiprobables.
Esta es la definición de muestreo con reemplazo.
Un ejemplo de esta situación es: m lanzamientos sucesivos de un dado común. Aquı́
B = {1, 2, 3, 4, 5, 6}.
- 17 -
Comentario Histórico: Pierre Simon de Laplace nació el 23 de marzo de 1749 en

Beamont-en-Auge, Francia. Poco se sabe de su infancia, de familia humilde, hijo de un
agricultor y negociante en sidra, pudo realizar sus estudios gracias a la ayuda económica
de algunos vecinos ricos.
Reinando Luis XVI, marchó a Parı́s y con el apoyo de D’Alembert consiguió una plaza
de profesor en la Real Escuela Militar, apenas tenı́a 19 años de edad. Años después
fue nombrado profesor de la Escuela Normal Superior. Al mismo tiempo que su labor
docente, realiza una importante labor investigadora, que es reconocida cuando presenta
sus primeros trabajos sobre el Sistema Solar. En 1785 es nombrado miembro de pleno
derecho de la Academia de las Ciencias de Parı́s. Su importancia histórica como cientı́fico
sólo se ve superada por Newton y fue, junto con Lagrange, la figura más destacada en el
campo de la astronomı́a teórica de su tiempo.
Entre las contribuciones matemáticas de Laplace de primera importancia, destacan sus
investigaciones sobre el cálculo de probabilidades. En 1812, con la “Teorı́a Analı́tica de
las Probabilidades”, expone los principios y las aplicaciones de lo que él llama “geometrı́a
del azar”. Esta obra representa la introducción de los recursos del análisis matemático
en el estudio de los fenómenos aleatorios. Laplace expresa de forma sencilla el significado
del cálculo de probabilidades:“En el fondo, la teorı́a de probabilidades es sólo sentido
común expresado con números”. La importancia de esta materia la resalta Laplace con
las siguientes palabras :“Es notable que una ciencia que comenzó con las consideraciones de
juegos de azar habı́a de llegar a ser el objeto más importante del conocimiento humano.
Las cuestiones más importantes de la vida constituyen en su mayor parte, en realidad,
solamente problemas de probabilidad”. Su comentario se puede considerar profético ya
que hoy dı́a no se concibe el progreso en ninguna ciencia sin la presencia de la probabilidad.
Cabe resaltar que el método para estimar la proporción entre el número de casos favorables
y el número de casos posibles ya habı́a sido propuesto por Laplace en un documento escrito
en 1779. Fallece en Parı́s el 5 de Marzo de 1827, cien años después de Newton, casi el
mismo dı́a.
- 18 -
PROBLEMAS
Problema 1.2.A: Un mazo de barajas francesas de 52 cartas se reparten, al azar, entre
cuatro personas. Indique la probabilidad de que cada persona reciba un as.
Problema 1.2.B: Un kiosco tiene 100 cartones de un cierto juego de azar, entre los
cuales hay sólo dos que están premiados. Determine el menor número de cartones que es
necesario comprar para que la probabilidad de ganar a lo menos un premio sea superior a
4
5.
Problema 1.2.C: Una caja contiene 2n helados, n de sabor A y n de sabor B. En un

grupo de 2n personas, a prefieren el sabor A (con a < n), b prefieren el sabor B (con
b < n) y 2n − a − b no tienen preferencia. Encuentre la probabilidad de que al repartir
todos los helados (al azar) quede satisfecha la preferencia de todas las personas.
Problema 1.2.D: De un mazo de cartas españolas se extraen tres al azar sin reemplazo.
Si A indica el suceso de que todas las cartas escogidas sean de la misma pinta, calcule la
probabilidad del suceso A.
Problema 1.2.E: Control de calidad. En una canasta hay N artı́culos, de los cuales
M están defectuosos. Se eligen n al azar (sin reemplazo). ¿Cuál es la probabilidad p , de
sacar exactamente m defectuosos? Se asume que m ≤ n y m ≤ M.
Problema 1.2.F: El llamado método captura–recaptura a menudo se utiliza para estimar

el tamaño de poblaciones de animales. Suponga que t animales son capturados, marcados
y luego liberados. En una posterior ocasión, m animales son capturados, encontrándose
que r de ellos están marcados. ¿Cuál es el tamaño de la población?
Problema 1.2.G: Repartos. En una fiesta de cumpleaños, donde hay n niños, se

reparten al azar c caramelos. Estudie la probabilidad de que al festejado le toque al
menos un caramelo.
Problema 1.2.H: Una loterı́a emite N boletos, dentro de los cuales hay uno solo marcado
con el premio gordo (el sorteo se realiza una vez por semana). Un jugador compra n boletos
durante un sorteo, y otro jugador compra sólo un boleto cada semana, durante n semanas.
¿Cuál de los dos jugadores tiene mayor probabilidad de ganar el premio gordo?
Problema 1.2.I: Cumpleaños. Suponga que un salón contiene a n personas, n ≤ 365.

¿Cuál es la probabilidad que al menos dos de ellas estén de cumpleaños el mismo dı́a?
- 19 -
1.3. MODELO BINOMIAL
1.3 Modelo Binomial
Nuevamente realizaremos algunos experimentos aleatorios que nos sugieran alguna ley que
los rijan.
Experimento 1: Se lanza un dado “honesto”, si sale un número primo diremos que

ocurrió un “éxito” y si no sale primo diremos que ocurrió un “fracaso”. Hemos realizado
una “tirada” cuando lanzamos una vez el dado. Los resultados posibles de una “tirada”
son: 1 (éxito), 2 (éxito), 3 (éxito), 4 (fracaso), 5 (éxito), 6 (fracaso). Hemos asumido que
1 es un número primo. Realizamos 10 tiradas del dado, obteniendo la secuencia
3 , 5 , 1 , 4 , 5 , 3 , 1 , 4 , 2 , 2.
Si ahora contamos el número de veces en que ocurrió fracaso, y el número de veces

en que ocurrió éxito, tendremos que: se obtuvieron 2 fracasos y 8 éxitos. Realizamos,
nuevamente, 10 tiradas del dado obteniendo ahora la secuencia
1 , 6 , 5 , 2 , 6 , 1 , 6 , 3 , 2 , 3.
En este caso resultaron 3 fracasos y 7 éxitos. Si realizamos otra vez 10 tiradas del
dado, posiblemente resulte un número distinto de fracasos y un número distinto de éxitos
que los obtenidos anteriormente. Podrı́amos decir entonces, que el número de éxitos que
obtenemos al lanzar el dado 10 veces depende del azar. ¿Existirá algún patrón o tendencia
que “siga” la proporción de éxitos que resultan después de lanzar el dado 10 veces, o 100
veces, o un “gran número” de veces? Esta proporción (que dependerá del azar) es la que
se modelará matemáticamente, por esta razón realizaremos “muchas” tiradas del dado.
Como el lanzar, por ejemplo, 1000 veces el dado es un poco lento y engorroso, simularemos
los lanzamientos del dado en el computador. La tabla siguiente muestra los resultados
obtenidos en diferentes simulaciones, y cada columna indica lo siguiente:
Columna uno: indica el número de veces que se tira el dado.

Columna dos: indica el número de veces que no salió número primo (cero éxito), al tirar
el dado la cantidad de veces que indica la columna uno.
Columna tres: indica el número de veces que salió número primo (un éxito), al tirar el
dado la cantidad de veces que indica la columna uno.
Columna cuatro: indica la fracción, columna 2 sobre columna 1 (la llamaremos frecuencia
relativa de cero éxito, anotándose fF ).
Columna cinco: indica la fracción, columna 3 sobre columna 1 (la llamaremos frecuencia
relativa de un éxito, anotándose fE ).
- 20 -
1.3 Modelo Binomial
Simulación del Experimento

(lanzar un dado)
no de veces que se lanza no de veces que no sale no de veces que sale
un dado no primo (0 éxito) no primo (1 éxito) fF fE
10 2 8 0,2000 0,8000
50 18 32 0,3600 0,6400
100 28 72 0,2800 0,7200
1000 326 674 0,3260 0,6740
2000 670 1330 0,3350 0,6650
3000 968 2032 0,3227 0,6773
4000 1326 2674 0,3315 0,6685
5000 1658 3342 0,3316 0,6684
6000 1968 4032 0,3280 0,6720
7000 2327 4673 0,3324 0,6676
8000 2661 5339 0,3326 0,6674
9000 3041 5959 0,3379 0,6621
10000 3304 6696 0,3304 0,6696
15000 5086 9914 0,3391 0,6609
20000 6705 13295 0,3353 0,6648
30000 9926 20074 0,3309 0,6691
Tabla 1.3.1
A continuación, mostramos los gráficos del número de tiradas versus fF y número de

tiradas versus fE .
fF
2
3
..
...
....
1 ........ .........................................................................................................................................................................................................................................................................................................................................................................
. ...........
3
.. .............
...
..
..
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas
Figura 1.3.1
- 21 -
1.3 Modelo Binomial
fE
...
...
...
... ..............
..... .............. ............................................
2
...... ................................................ ..........................................................................................................................................................................................................................................................................
3 ....
...
.
1
3
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas
Figura 1.3.2
De los gráficos anteriores podemos observar que, mientras más tiradas realizamos, las
frecuencias relativas varı́an muy poco, obteniéndose que fF es “cercano” a 13 y que fE
es “cercano” a 23 . Más aún, al simular nuevamente las tiradas de un dado, las columnas
2 y 3 de la tabla anterior cambian; pero, al igual que en la primera simulación, mien-
tras más tiradas se realizan, las frecuencias relativas fF y fE serán “cercanas” a 13 y 32 ,
respectivamente. Este hecho motiva el siguiente modelo matemático.
Representamos por F el hecho que no salga éxito (lo llamaremos fracaso) y por E que
ocurra éxito.
En este caso el espacio muestral resultante para este experimento es Ω = {F, E}.
Ası́, la Tabla 1.3.1 sugiere la siguiente definición de probabilidad
1 2
P ({F }) = ; P ({E}) = .
3 3
}
Claramente, según este modelo de probabilidad, P ({F }) ̸= #{F 1
#Ω = 2 , es decir, este modelo
no es el modelo de Laplace.
El resultado del lanzamiento de un dado puede verse como el siguiente árbol, donde el
sı́mbolo F significa que ocurrió fracaso y el sı́mbolo E que ocurrió éxito.
Este árbol tiene dos ramas, verificándose que:

1 vez ocurre la rama con un fracaso,
1 vez ocurre la rama con un éxito.
- 22 -
1.3 Modelo Binomial
El número de ramas de este árbol puede escribirse, en forma horizontal, como la secuencia
de números:
1 1
Ahora, la probabilidad de fracaso (cero éxito) y de éxito (un éxito) pueden verse como el
siguiente árbol:
1
3
2
3
Una manera alternativa de escribir, P ({F }) y P ({E}), que nos ayudará posteriormente a
generalizar este modelo, es como producto; el cual contenga potencias de 23 y 13 ( nótese
que 13 = 1 − 23 ):
( )0 ( )1
1 2 1
P ({F }) = = ,
3 3 3
( )1 ( )0
2 2 1
P ({E}) = = .
3 3 3
Experimento 2: Repetimos el experimento anterior, pero en lugar de lanzar un dado,

lanzamos dos dados. Cabe señalar que, cualquiera de las siguientes formas de lanzar dos
dados arroja el mismo tipo de conclusiones.
a) Se tienen dos dados (los identificamos como dado 1 y dado 2) y los lanzamos si-
multáneamente.
b) Se tienen dos dados (los identificamos como dado 1 y dado 2), lanzamos primero el
dado 1 y luego lanzamos el dado 2.
c) Se tiene un dado, se lanza una vez (éste se identifica como el dado 1), se recoge y
luego se lanza una segunda vez (éste se identifica como el dado 2).
Para fijar ideas usaremos la forma b) de lanzamiento. Precisemos que, si realizamos,

por ejemplo, 2 tiradas, esto significa que tomamos los dos dados, los lanzamos una vez, los
recogemos y luego los volvemos a lanzar. Nuevamente escribiremos con una F (fracaso)
cuando el dado no muestre número primo y con E (éxito) cuando lo sea.
Realizamos 8 tiradas, obteniéndose
dado 1 dado 2 dado 1 dado 2

2 4 (E,F) 3 3 (E,E)
1 4 (E,F) 6 5 (F,E)
2 3 (E,E) 1 1 (E,E)
5 4 (E,F) 5 6 (E,F)
- 23 -
1.3 Modelo Binomial
En este caso en 3 oportunidades resultaron 2 éxitos, en ninguna se obtuvieron dos

fracasos, en 4 resultó éxito en el dado 1 y fracaso en el dado 2 y en 1 resultó fracaso en el
dado 1 y éxito en el dado 2.
Realizamos nuevamente 8 tiradas, obteniéndose
dado 1 dado 2 dado 1 dado 2

2 2 (E,E) 1 4 (E,F)
4 6 (F,F) 2 3 (E,E)
3 5 (E,E) 3 4 (E,F)
6 1 (F,E) 1 5 (E,E)
En esta ocasión, en 4 oportunidades resultaron dos éxitos, en 1 se obtuvo dos fracasos,

en 2 resultó éxito en el dado 1 y fracaso en el dado 2 y en 1 resultó fracaso en el dado 1 y
éxito en el dado 2.
Podrı́amos decir entonces que el número de éxitos (0 éxito; 1 éxito; 2 éxitos) que se
obtienen al realizar 8 tiradas de dos dados, depende del azar.
Al igual que en el experimento anterior, deseamos modelar matemáticamente la pro-

porción de éxitos (que dependen del azar) que resultan después de realizar “muchas”
tiradas. Recordemos que una tirada significa lanzar dos dados. Por esta razón, simulare-
mos ahora en el computador el lanzamiento de dos dados. La tabla siguiente muestra los
resultados obtenidos en diferentes simulaciones.
Columna uno: indica el número de veces que se tiran los dos dados.
Columna dos: indica el número de veces que no se obtuvo número primo en ninguno de
los dos dados (cero éxito), al tirar los dos dados la cantidad de veces que indica la columna
uno.
Columna tres: indica el número de veces que se obtuvo número primo en sólo el primer
dado (un éxito), al tirar los dos dados la cantidad de veces que indica la columna uno.
Columna cuatro: indica el número de veces que se obtuvo número primo en sólo el segundo
dado (un éxito), al tirar los dos dados la cantidad de veces que indica la columna uno.
Columna cinco: indica el número de veces que se obtuvo número primo en los dos dados
(dos éxitos), al tirar los dos dados la cantidad de veces que indica la columna uno.
Columna seis: indica el número total de veces que se obtuvo número primo (número total
de éxitos), al tirar los dos dados la cantidad de veces que indica la columna uno. Nótese
que esta columna se obtiene al sumar la columna 3 más la columna 4 más 2 veces la
columna 5.
Columna siete: indica la fracción, columna 2 sobre columna 1, que al igual que en el primer
experimento la llamaremos frecuencia relativa de cero éxito, anotándose f(F,F ) .
Columna ocho: indica la fracción, columna 3 sobre columna 1, anotándose f(E,F ) .
Columna nueve: indica la fracción, columna 4 sobre columna 1, anotándose f(F,E) .
Columna diez: indica la fracción, columna 5 sobre columna 1, anotándose f(E,E) .
Columna once: indica la fracción columna 6 sobre columna 1, que representa el número
promedio de primos (promedio de éxitos) que se han obtenido, al tirar dos dados la can-
tidad de veces que indica la columna 1, la anotaremos e2 .
- 24 -
Simulación del Experimento
(lanzar dos dados)
N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ total de veces

que se que no sale que sale que sale que sale que sale
lanzan primo en los primo sólo el primo sólo el primo en los N◦ primo f(F,F ) f(E,F ) f(F,E) f(E,E) e2
dos dados dos dados primer dado segundo dado dos dados
(0 éxito) (1 éxito) (1 éxito) (2 éxitos)
10 0 5 1 4 14 0.0000 0.5000 0.1000 0.4000 1.4000
50 5 10 14 21 66 0.1000 0.2000 0.2800 0.4200 1.3200
100 8 20 17 55 147 0.0800 0.2000 0.1700 0.5500 1.4700
1000 114 202 220 464 1350 0.1140 0.2020 0.2200 0.4640 1.3500
- 25 -
2000 228 451 421 900 2672 0.1140 0.2255 0.2105 0.4500 1.3360
3000 345 647 654 1354 4009 0.1150 0.2157 0.2180 0.4513 1.3363
4000 443 1001 754 1802 5359 0.1108 0.2503 0.1885 0.4505 1.3398
5000 543 1065 1129 2263 6720 0.1086 0.2130 0.2258 0.4526 1.3440
6000 710 1237 1362 2691 7981 0.1183 0.2062 0.2270 0.4485 1.3302
7000 777 1634 1533 3056 9279 0.1110 0.2334 0.2190 0.4366 1.3256
8000 908 1805 1742 3545 10637 0.1135 0.2256 0.2178 0.4431 1.3296
9000 997 1990 1557 3942 11945 0.1108 0.2211 0.2301 0.4380 1.3272
10000 1093 2183 2228 4496 13403 0.1093 0.2183 0.2228 0.4496 1.3403
Tabla 1.3.2
1.3 Modelo Binomial
1.3 Modelo Binomial
Las gráficas siguientes muestran el número de tiradas versus f(F,F ) (respectivamente

f(E,F ) , f(F,E) , f(E,E) y e2 ).
f(F,F )
1 ................................................................................................................................................................................................................................................................................................................................................................................
9 ..................
..
...
..
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas
Figura 1.3.3
f(E,F )
...
...
...
...
...
...
...
...
...
... ..............................................
2 ............................................................................................................................................... .........................................................................................................................................................................................................
9
1
9
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas
Figura 1.3.4
- 26 -
1.3 Modelo Binomial
f(F,E)
..
...
.... ............ ... ................................................................................................................................................ ....
2 ........ ............................. .................................................................. ..................................................................... ................... .................................
. ... ......
9
... ..
.
1 ..
9
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas
Figura 1.3.5
f(E,E)
..
....
.. ...
... ......... ................ ........... ....................................
. .......... .............. ......... ..............................................................................................................................................................................................................................................................................
..
4 ..
9
1
9
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas
Figura 1.3.6
- 27 -
1.3 Modelo Binomial
e2
.....
.. ....
4 .. .......................................................................................................................................................................................................................................................................................................................................................................................
3 ...
.
..
..
...
.
..
1 ..
...
..
..
1
3
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de tiradas
Figura 1.3.7
Notar que los únicos resultados posibles de una tirada son (E, E), (E, F ), (F, E) y
(F, F ), es decir, hay cuatro resultados posibles que provienen de las combinaciones que se
muestran en el siguiente diagrama
dado 1 dado 2
1
2
3
1 −→
4
5
6
1
2
3
2 −→
4
5
6
. .
.. ..
1
2
3
6 −→
4
5
6
Para este experimento, el espacio muestral resultante es
Ω = {(F, F ), (E, F ), (F, E), (E, E)} .
- 28 -
1.3 Modelo Binomial
La Tabla 1.3.2 sugiere la siguiente definición de probabilidad para cada uno de los
sucesos elementales pertenecientes a Ω.
1 2
P ({(F, F )}) = P ({(F, E)}) =
9 9
2 4
P ({(E, F )}) = P ({(E, E)}) =
9 9
Nuevamente, según este modelo de probabilidades, los sucesos elementales no son equi-
probables.
También, cualquiera sea el suceso A, es decir, cualquiera sea el subconjunto (no vacı́o)
de Ω, definimos P (A) por medio de la relación
∑
P (A) = P ({a}).
a∈A
Por ejemplo, si A = {(F, F ), (E, E)}, es decir, A representa el suceso de que en ambos
dados no sale primo ó en ambos dados sale primo, entonces
P (A) = P ({(F, F )}) + P ({(E, E)})
1 4
= +
9 9
5
= .
9
O sea, este modelo asigna probabilidad 95 al suceso A. En el caso en que el número de

tiradas es “grande”, la Tabla 1.3.2 muestra que la frecuencia relativa del conjunto A, esto
es f(F,F ) + f(E,E) , es aproximadamente igual a 95 .
El siguiente diagrama de árbol muestra los posibles resultados del lanzamiento de dos
dados.
F
F
E
F
E
E
Dado 1 Dado 2
Este árbol tiene 4 “ramas”, verificándose que:

1 vez ocurre la rama con dos fracasos, y cero éxito,
2 veces ocurre la rama con un éxito y un fracaso,
1 vez ocurre la rama con dos éxitos y cero fracaso.
- 29 -
1.3 Modelo Binomial
La clasificación de las ramas descrita recientemente, puede escribirse, en forma hori-

zontal, como la siguiente secuencia de números
1 2 1.
Como vimos anteriormente, la probabilidad de que ocurra cero éxito (que no salga primo)
en el lanzamiento del dado 1 es 13 , mientras que la probabilidad de que ocurra un éxito (que
salga primo) es 23 . Estas mismas probabilidades son válidas para el lanzamiento del dado
2. Observemos ahora las probabilidades de los sucesos elementales {(F, F )}, {(E, F )},
{(F, E)} y {(E, E)} como diagrama de árbol.
1 1 1 1
3
·
3 3
= 9
1
3
2 1 2 2
3
·
3 3
= 9
1 2 1 2
3
·
3 3
= 9
2
3
2 2 2 4
3
·
3 3
= 9
Dado 1 Dado 2
Resumiendo:
Sólo en una rama del árbol anterior ocurren dos fracasos y cero éxito, y esta rama tiene
probabilidad 31 13 = 19 .
En dos ramas ocurre un éxito y un fracaso, y cada rama tiene la misma probabilidad, ésta
es 31 23 = 92 .
Sólo en una rama ocurren dos éxitos y cero fracaso, y esta rama tiene probabilidad 32 23 = 94 .
También, en este caso, mostramos una forma alternativa de escribir la probabilidad de

cada suceso elemental como producto, el cual contenga potencias de 32 y 13
( )0 ( )2
1 2 1
P ({(F, F )}) = =
9 3 3
( )1 ( )1
2 2 1
P ({(F, E)}) = =
9 3 3
( )1 ( )1
2 2 1
P ({(E, F )}) = =
9 3 3
( )2 ( )0
4 2 1
P ({(E, E)}) = = .
9 3 3
- 30 -
1.3 Modelo Binomial
Además, si Ak representa el suceso que ocurran exactamente k-éxitos al lanzar los dos
dados, entonces
A0 = {(F, F )} ; A1 = {(E, F ), (F, E)} ; A2 = {(E, E)},
y se verifica que Ω es la unión disjunta de A0 , A1 y A2 , esto es
Ω = A0 ∪ A1 ∪ A2 .
También, a partir de la definición de probabilidad que hemos formulado, este modelo

asigna las siguientes probabilidades a los sucesos A0 , A1 y A2 :
1
P (A0 ) = ,
9
2 2 4
P (A1 ) = + = ,
9 9 9
4
P (A2 ) = .
9
Nótese además que
( )0 ( )
1 2 2 2
P (A0 ) = =1· · 1− ,
9 3 3
( )1 ( )
4 2 2 1
P (A1 ) = =2· · 1− ,
9 3 3
( )2 ( )
4 2 2 0
P (A2 ) = =1· · 1− ,
9 3 3
y
( ) ( ) ( )
2 2 2
= 1; = 2; = 1,
0 1 2
o sea, P (Ak ) puede ser escrito en la forma
( ) ( )k ( )
2 2 2 2−k
P (Ak ) = · · 1− , k ∈ {0, 1, 2}
k 3 3
( ) [ ] n◦
n◦ de dados lanzados de éxitos
= · enprobabilidad de éxito
cualquier lanzamiento
n◦ de éxitos
[ ] 2- n◦ de éxitos
probabilidad de éxito
· 1− en cualquier lanzamiento
de un dado
- 31 -
1.3 Modelo Binomial
Observación 1.3.1: Notemos que
4 8
0 · P (A0 ) + 1 · P (A1 ) + 2 · P (A2 ) = 0 + +
9 9
12
=
9
4
=
3
2
= 2·
3
[ ]
= [ n◦ de dados lanzados ]· en cualquier lanzamiento .
de un dado
El valor anterior lo definimos como E2 , esto es, E2 = 2 · 23 . Entonces, observando la

última columna de la Tabla 1.3.2 (cuando el número de tiradas es “grande”), vemos que
E2 es cercano a la frecuencia relativa del número total de éxitos (primos) que se obtienen
al lanzar dos dados. O sea, E2 es un modelo matemático para el promedio de éxitos que
se obtienen al lanzar dos dados.
Observación 1.3.2: Usando el Teorema del Binomio, vemos que

(( ) )
2 2 2
1= 1− +
3 3
( ) ( ) ( )2
2 2 2 2 2
= 1− +2· 1− · +
3 3 3 3
= P (A0 ) + P (A1 ) + P (A2 ).
Experimento 3: Se dispone de una bolsa no transparente que contiene una pelotita

amarilla, una azul, una rosada, una roja y una verde (todas de idéntico tamaño y textura).
Se saca una pelotita y se observa su color. Diremos que ocurrió éxito si la pelotita elegida
es la de color rojo, en caso contrario diremos que ocurrió fracaso.
El experimento consiste en extraer 3 pelotitas desde la bolsa. Las extracciones deben
ser con reposición, esto es, se saca la primera pelotita, se observa su color y luego se
devuelve a la bolsa. Enseguida se saca la segunda pelotita, se observa el color y se devuelve
a la bolsa. Finalmente, se extrae la tercera pelotita y se observa su color. Escribiremos
con una F (fracaso) cuando la pelotita escogida no sea la roja y con E (éxito) cuando lo
sea. Por ejemplo, si en la primera extracción sale la pelotita amarilla, en la siguiente la
pelotita roja y en la tercera la pelotita azul, anotaremos (F, E, F ).
Realizamos 30 repeticiones del experimento, es decir, en 30 ocasiones sacamos 3 peloti-
tas (con reposición) de la bolsa que contiene 5. Los resultados obtenidos fueron los si-
guientes:
- 32 -
1.3 Modelo Binomial
1a pelotita 2a pelotita 3a pelotita

escogida escogida escogida
Repetición 1 Verde Verde Azul (F,F,F)
Repetición 2 Roja Azul Azul (E,F,F)
Repetición 3 Verde Azul Roja (F,F,E)
Repetición 4 Rosada Verde Amarilla (F,F,F)
Repetición 5 Rosada Rosada Amarilla (F,F,F)
Repetición 6 Verde Verde Rosada (F,F,F)
Repetición 7 Azul Amarilla Azul (F,F,F)
Repetición 8 Azul Amarilla Azul (F,F,F)
Repetición 9 Roja Verde Azul (E,F,F)
Repetición 10 Azul Rosada Roja (F,F,E)
Repetición 11 Roja Verde Rosada (E,F,F)
Repetición 12 Amarilla Rosada Rosada (F,F,F)
Repetición 13 Roja Rosada Amarilla (E,F,F)
Repetición 14 Roja Azul Verde (E,F,F)
Repetición 15 Amarilla Roja Verde (F,E,F)
Repetición 16 Amarilla Azul Rosada (F,F,F)
Repetición 17 Roja Verde Amarilla (E,F,F)
Repetición 18 Rosada Azul Amarilla (F,F,F)
Repetición 19 Azul Azul Roja (F,F,E)
Repetición 20 Azul Verde Roja (F,F,E)
Repetición 21 Roja Azul Rosada (E,F,F)
Repetición 22 Amarilla Amarilla Azul (F,F,F)
Repetición 23 Amarilla Rosada Roja (F,F,E)
Repetición 24 Roja Roja Azul (E,E,F)
Repetición 25 Azul Rosada Roja (F,F,E)
Repetición 26 Verde Azul Rosada (F,F,F)
Repetición 27 Amarilla Verde Roja (F,F,E)
Repetición 28 Rosada Azul Azul (F,F,F)
Repetición 29 Amarilla Amarilla Rosada (F,F,F)
Repetición 30 Verde Azul Verde (F,F,F)
Tabla 1.3.3
Desde la tabla podemos observar que:

en 0 ocasión se obtuvo el resultado (E, E, E) (las tres veces la pelotita sacada fue la roja),
en 14 oportunidades se obtuvo el resultado (F, F, F ) (las tres veces la pelotita sacada no
fue la roja),
en 7 ocasiones se obtuvo (E, F, F ) (en la primera extracción salió la pelotita roja, en la
segunda no salió la pelotita roja y en la tercera no salió la pelotita roja),
en 1 ocasión se obtuvo el resultado (F, E, F ), esto es, en la primera extracción no salió
roja, en la segunda salió roja y en la tercera no salió roja,
en 7 ocasiones resultó (F, F, E), o sea, en la primera y segunda extracción la pelotita no
salió roja y en la tercera sı́,
en 1 oportunidad se obtuvo (E, E, F ), es decir, tanto en la primera como en la segunda
extracción la pelotita fue roja mientras que en la tercera no lo fue,
- 33 -
1.3 Modelo Binomial
en 0 ocasión se obtuvo el resultado (E, F, E), esto es, de las tres extracciones sólo en la
segunda no salió la pelotita roja,
en 0 oportunidad se obtuvo el resultado (F, E, E), o sea, en la primera sacada la pelotita
no fue roja y en la segunda y tercera sacada si lo fue.
Realizamos nuevamente 30 repeticiones del experimento, obteniéndose ahora que:

en 1 ocasión resultó (E, E, E),
en 16 oportunidades se obtuvo (F, F, F ),
en 5 ocasiones resultó (E, F, F ),
en 4 ocasiones resultó (F, E, F ),
en 2 oportunidades se obtuvo (F, F, E),
en 1 oportunidad se obtuvo (E, E, F ),
en 0 ocasión se obtuvo (E, F, E),
en 1 ocasión resultó (F, E, E).
En consecuencia, podrı́amos concluir que el número de éxitos (0 éxito, 1 éxito, 2 éxitos

ó 3 éxitos) que se obtienen al extraer 3 pelotitas (con reposición) desde la bolsa con 5,
depende del azar.
Nuevamente buscaremos modelar la proporción de éxitos (que dependen del azar) que
se obtienen después de repetir “muchas” veces el experimento. La siguiente tabla muestra
los resultados obtenidos a través de simulaciones computacionales.
Columna uno: indica el número de veces que se sacaron (con reposición) las 3 pelotitas
desde la bolsa con 5.
Columna dos: indica el número de veces que se obtuvo el resultado (F, F, F ), cuando el
“experimento” se repite el número de veces que indica la columna uno.
Columna tres: indica el número de veces que se obtuvo el resultado (E, F, F ), cuando el
“experimento” se repite el número de veces que indica la columna uno.
Análogas interpretaciones tienen las columnas cuatro, cinco, seis, siete, ocho y nueve.
Columna diez: indica el número total de veces que se sacó la pelotita roja (número total de
éxitos), al repetir el “experimento” el número de veces que indica la columna uno. Nótese
que esta columna se obtiene al sumar las columnas tres, cuatro y cinco, más 2 veces las
columnas seis, siete y ocho, más 3 veces la columna nueve.
- 34 -
Simulación
No de veces No de veces No de veces No de veces No de veces No de veces No de veces No de veces No de veces No total de veces
que se extraen que aparece que aparece que aparece que aparece que aparece que aparece que aparece que aparece que se sacó
3 pelotitas (con el resultado el resultado el resultado el resultado el resultado el resultado el resultado el resultado la pelotita roja
reposición) de la (F,F,F) (E,F,F) (F,E,F) (F,F,E) (E,E,F) (E,F,E) (F,E,E) (E,E,E) (No total de éxitos)
bolsa con 5 (0 éxito) (1 éxito) (1 éxito) (1 éxito) (2 éxitos) (2 éxitos) (2 éxitos) (3 éxitos)
10 6 3 1 0 0 0 0 0 4
50 30 4 5 5 1 2 3 0 26
100 46 18 17 8 3 2 5 1 66
250 128 27 28 33 11 11 12 0 156
500 257 76 51 63 17 15 18 3 299
1000 514 105 143 147 35 26 25 5 582
2000 1016 231 258 264 65 61 85 20 1235
- 35 -
3000 1599 369 351 380 84 106 91 20 1722
4000 2110 483 488 511 119 117 136 36 2334
5000 2540 615 655 648 176 155 178 33 3035
6000 3084 748 774 750 216 183 180 65 3625
7000 3507 899 897 970 202 231 235 59 4279
8000 4071 1016 1023 1075 247 241 253 74 4818
9000 4582 1146 1166 1176 296 270 288 76 5424
10000 5091 1269 1274 1308 336 318 332 72 6039
Tabla 1.3.4a
1.3 Modelo Binomial
1.3 Modelo Binomial
La tabla siguiente se obtiene a partir de la Tabla 1.3.4a de la siguiente forma:
Columna uno se obtiene al dividir columna 2 con columna 1 de la Tabla 1.3.4a, la

llamaremos frecuencia relativa del resultado (F, F, F ) y se anotará f(F,F,F ) . Análogas
interpretaciones tienen el resto de las columnas de la Tabla 1.3.4b.
Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia

relativa de relativa de relativa de relativa de relativa de relativa de relativa de relativa de relativa del
(F, F, F ) (E, F, F ) (F, E, F ) (F, F, E) (E, E, F ) (E, F, E) (F, E, E) (E, E, E) No total de
éxitos
f(F,F,F ) f(E,F,F ) f(F,E,F ) f(F,F,E) f(E,E,F ) f(E,F,E) f(F,E,E) f(E,E,E) e3
0.6 0.3 0.1 0 0 0 0 0 0.4
0.6 0.08 0.1 0.1 0.02 0.04 0.06 0 0.52
0.46 0.18 0.17 0.08 0.03 0.02 0.05 0.01 0.66
0.512 0.108 0.112 0.132 0.044 0.044 0.048 0 0.624
0.514 0.152 0.102 0.126 0.034 0.030 0.036 0.006 0.598
0.514 0.105 0.143 0.147 0.035 0.026 0.025 0.005 0.582
0.508 0.116 0.129 0.132 0.033 0.031 0.043 0.010 0.618
0.533 0.123 0.117 0.127 0.028 0.035 0.030 0.007 0.574
0.528 0.121 0.122 0.128 0.030 0.030 0.034 0.009 0.584
0.508 0.123 0.131 0.130 0.035 0.031 0.036 0.007 0.607
0.514 0.125 0.129 0.125 0.036 0.031 0.030 0.011 0.604
0.501 0.128 0.128 0.139 0.029 0.033 0.034 0.008 0.611
0.509 0.127 0.128 0.134 0.031 0.030 0.032 0.009 0.602
0.509 0.127 0.130 0.131 0.033 0.030 0.032 0.008 0.603
0.509 0.127 0.127 0.131 0.034 0.032 0.033 0.007 0.604
Tabla 1.3.4b
Las gráficas siguientes muestran el número de veces que se extraen 3 pelotitas versus
f(F,F,F ) (respectivamente f(E,F,F ) , f(E,E,F ) , f(E,E,E) y e3 ).
f(F,F,F )
1
....
...
... ..
0.512 ... .................................................................................................. .......................................................................................................................................................................................................................................................
.....
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas
Figura 1.3.8
- 36 -
1.3 Modelo Binomial
f(E,F,F )
1
...
...
...
...
......
........ ............
0.128 ..... ....... ...........................................................................................................................................................................................................................................................................................................................................
..
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas
Figura 1.3.9
f(E,E,F )
1
.
0.032 ................................................................................................................................................................................................................................................................................................................................................................
..
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas
Figura 1.3.10
- 37 -
1.3 Modelo Binomial
f(E,E,E)
1
.............
0.008 ............................................................................................................................................................................................................... .......................................................................................................................................
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas
Figura 1.3.11
e3
1
....
.. ....
.. ............................................................................................... ............................................................................................................................................................................................
0.6 ... ................................................................
.
...
.
..
..
...
.
0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 N◦ de veces que se
extraen 3 pelotitas
Figura 1.3.12
Las gráficas asociadas a f(F,E,F ) y f(F,F,E) son similares a la Figura 1.3.9 y las gráficas
asociadas a f(E,F,E) y f(F,E,E) son similares a la Figura 1.3.10.
Cabe señalar que los únicos resultados posibles al extraer 3 pelotitas (con reposición)
desde la bolsa son: (F, F, F ), (E, F, F ), (F, E, F ), (F, F, E), (E, E, F ), (E, F, E), (F, E, E)
y (E, E, E), que provienen de las siguientes 125 posibilidades.
- 38 -
1.3 Modelo Binomial
1a extracción 2a extracción 3a extracción
amarillo
azul
amarillo rosado
rojo
verde
amarillo
azul
azul rosado
rojo
verde
amarillo
azul
Amarillo rosado rosado
rojo
verde
amarillo
azul
rojo rosado
rojo
verde
amarillo
azul
verde rosado
rojo
verde
amarillo
azul
amarillo rosado
rojo
verde
amarillo
azul
azul rosado
rojo
verde
amarillo
azul
Azul rosado rosado
rojo
verde
amarillo
azul
rojo rosado
rojo
verde
amarillo
azul
verde rosado
rojo
verde
- 39 -
1.3 Modelo Binomial
Estos dos diagramas generan 50 posibilidades. Otros tres diagramas similares (que se
obtienen colocando en la primera extracción los colores Rosado, Rojo y Verde, respectiva-
mente) generan las otras 75 posibilidades.
Sin embargo, el espacio muestral para este experimento resulta contener sólo 8 elemen-
tos,
Ω = {(F, F, F ), (E, F, F ), (F, E, F ), (F, F, E), (E, E, F ), (E, F, E), (F, E, E), (E, E, E)}.
La Tabla 1.3.4b sugiere la siguiente definición de probabilidad para cada uno de los
sucesos elementales que componen Ω.
P ({(F, F, F )}) = 0.512 P ({(E, F, F )}) = 0.128
P ({(F, E, F )}) = 0.128 P ({(F, F, E)}) = 0.128
P ({(E, E, F )}) = 0.032 P ({(E, F, E)}) = 0.032
P ({(F, E, E)}) = 0.032 P ({(E, E, E)}) = 0.008 .

Otra vez, según este modelo de probabilidades, los sucesos elementales no son equipro-
bables.
En general, si A es un suceso cualquiera, esto es, un subconjunto (no vacı́o) de Ω,
definimos P (A) a través de la relación
∑
P (A) = P ({a}) .
a∈A
Por ejemplo, A = {(F, F, F ), (E, F, F ), (F, E, F ), (F, F, E)}, representa el suceso de

que en las tres extracciones no salió la pelotita roja, o bien, en sólo una de las tres
extracciones salió la pelotita roja. Entonces,
P (A) = P ({(F, F, F )}) + P ({(E, F, F )}) + P ({(F, E, F )}) + P ({(F, F, E)})
= 0.512 + 0.128 + 0.128 + 0.128
= 0.896 .
Es decir, este modelo asigna probabilidad 0.896 al suceso A. Observando la Tabla

1.3.4b, vemos que la frecuencia relativa del conjunto A (cuando el número de repeticiones
es “grande”), es similar a la probabilidad que le asigna este modelo al conjunto A.
El siguiente árbol muestra los resultados posibles que contiene Ω.
- 40 -
1.3 Modelo Binomial
F
F
E
F
F
E
E
F
F
E
E
F
E
E
El árbol anterior tiene 8 ramas, observándose que

1 vez ocurre la rama con tres fracasos y cero éxito,
3 veces ocurre la rama con dos fracasos y un éxito,
3 veces ocurre la rama con un fracaso y dos éxitos,
1 vez ocurre la rama con tres éxitos y cero fracaso.
La clasificación de las ramas descrita más arriba, puede escribirse, en forma horizontal,
como la siguiente secuencia de números
1 3 3 1.
Usando el modelo equiprobable vemos que la probabilidad de que ocurra éxito en la

primera extracción es 51 (hay un caso favorable, que corresponde a la pelotita roja y hay
5 casos totales, que corresponden al total de pelotitas en la bolsa). Como las extracciones
son con reposición, la probabilidad de éxito tanto en la segunda extracción como en la
tercera es la misma que en la primera extracción. Es decir, la probabilidad de éxito en la
segunda extracción es 51 y la probabilidad de éxito en la tercera extracción también es 51 .
El siguiente diagrama muestra las probabilidades de los sucesos elementales como dia-
grama de árbol.
- 41 -
1.3 Modelo Binomial
4 4 4 4 64
· · = 125
5 5 5 5
4
5
1 4 4 1 16
· · = 125
5 5 5 5
4
5
4 4 1 4 16
· · = 125
5 5 5 5
1
5
1 4 1 1 4
· · = 125
5 5 5 5
4 1 4 4 16
· · = 125
5 5 5 5
4
5
1 1 4 1 4
· · = 125
5 5 5 5
1
5
4 1 1 4 4
· · = 125
5 5 5 5
1
5
1 1 1 1 1
· · = 125
5 5 5 5
Resumiendo:
Sólo en una rama del árbol anterior ocurren tres fracasos y cero éxito, y esta rama tiene
64
probabilidad 125 = 0.512.
En tres ramas ocurren dos fracasos y un éxito, y cada rama tiene la misma probabilidad,
16
ésta es 125 = 0.128.
En tres ramas ocurre un fracaso y dos éxitos, y cada rama tiene la misma probabilidad,
4
ésta es 125 = 0.032.
1
Sólo en una rama ocurre 0 fracaso y tres éxitos, y esta rama tiene probabilidad 125 = 0.008.
- 42 -
1.3 Modelo Binomial
Ahora, al igual que en los experimentos anteriores de esta sección, mostramos una
forma alternativa de escribir las probabilidades
(4 de
) cada suceso elemental como producto,
el cual contenga potencias de 5 y 5 5 = 1 − 5 ,
1 4 1
( )0 ( )3
1 4
P ({(F, F, F )}) = 0.512 =
5 5
( )1 ( )2
1 4
P ({(E, F, F )}) = 0.128 =
5 5
( )1 ( )2
1 4
P ({(F, E, F )}) = 0.128 =
5 5
( )1 ( )2
1 4
P ({(F, F, E)}) = 0.128 =
5 5
( )2 ( )1
1 4
P ({(E, E, F )}) = 0.032 =
5 5
( )2 ( )1
1 4
P ({(E, F, E)}) = 0.032 =
5 5
( )2 ( )1
1 4
P ({(F, E, E)}) = 0.032 =
5 5
( )3 ( )0
1 4
P ({(E, E, E)}) = 0.008 = .
5 5
Si denotamos por Ak al suceso que ocurran exactamente k-éxitos al extraer tres pelotitas
desde la bolsa con 5 (cada extracción es con reposición), entonces:
A0 = {(F, F, F )} A1 = {(E, F, F ), (F, E, F ), (F, F, E)}
A2 = {(E, E, F ), (E, F, E), (F, E, E)} A3 = {(E, E, E)},
y además, se verifica que Ω es la unión disjunta de los sucesos A0 , A1 , A2 y A3 , esto es,
Ω = A0 ∪ A1 ∪ A2 ∪ A3 .
También, este modelo asigna las siguientes probabilidades a los sucesos Ak , para cada
k ∈ {0, 1, 2, 3}:
- 43 -
1.3 Modelo Binomial
( )0 ( )3
1 4
P (A0 ) =
5 5
( )1 ( )2 ( )1 ( )2 ( )1 ( )2 ( )1 ( )2
1 4 1 4 1 4 1 4
P (A1 ) = + + =3
5 5 5 5 5 5 5 5
( )2 ( )1 ( )2 ( )1 ( )2 ( )1 ( )2 ( )1
1 4 1 4 1 4 1 4
P (A2 ) = + + =3
5 5 5 5 5 5 5 5
( )3 ( )0
1 4
P (A3 ) = .
5 5
Pero,
( ) ( ) ( ) ( )
3 3 3 3
=1 ; =3 ; =3 ; =1
0 1 2 3
o sea, P (Ak ) puede ser escrito en la forma
( ) ( )k ( )
3 1 1 3−k
P (Ak ) = 1− , k ∈ {0, 1, 2, 3}
k 5 5
( ) [ ] n◦
n◦ de pelotitas extraı́das de éxitos
= · enprobabilidad de éxito
cualquier extracción
n◦ de éxitos
[ ] 3 - n◦ de éxitos
· 1− en cualquier extracción
Observación 1.3.3: Notemos que
0 · P (A0 ) + 1 · P (A1 ) + 2 · P (A2 ) + 3 · P (A3 ) = 0 + 0.384 + 0.192 + 0.024
= 0.6
1
= 3·
5
[ ] [ ]
n◦ de pelotitas probabilidad de éxito
= extraı́das · en cualquier extracción .
Este valor lo definimos como E3 , esto es, E3 = 3 · 51 . Entonces, observando la última

columna de la Tabla 1.3.4b, vemos que si el número de repeticiones es “grande”, la fre-
cuencia relativa del número total de éxitos es aproximadamente igual a E3 . Esto es, E3
es un modelo matemático para el promedio de pelotitas rojas que se obtienen al extraer 3
desde la bolsa con 5 (promedio de éxitos).
- 44 -
1.3 Modelo Binomial
Observación 1.3.4: Por el Teorema del Binomio, vemos también que

(( ) )
1 1 3
1= 1− +
5 5
( ) ( ) ( ) ( ) ( ) ( )3
1 3 1 2 1 1 1 1 1 2 1
= 1− +3 1− +3 1− +
5 5 5 5 5 5
= P (A0 ) + P (A1 ) + P (A2 ) + P (A3 ).
¿Qué elementos se repiten en los tres experimentos de esta sección?
a) En cada uno de ellos se realiza un cierto “ensayo” cuyos resultados dependen del
azar.
En los Experimentos 1 y 2 el “ensayo” consiste en lanzar el dado, mientras en el
Experimento 3 el “ensayo” significa extraer una pelotita de la bolsa.
b) Un resultado del “ensayo” representa una determinada caracterı́stica. Si la realiza-

ción de un ensayo da como resultado la caracterı́stica, se dice que ocurrió éxito, en
caso contrario se dice que ocurrió fracaso.
En los Experimentos 1 y 2 la caracterı́stica es que el dado muestre un número primo,
mientras en el Experimento 3, la caracterı́stica es que la pelotita extraı́da sea roja.
c) Se repite n veces el “ensayo”. Cada repetición del “ensayo” se llama intento.

En el Experimento 1 el “ensayo” se intenta 1 vez (se lanza un dado). En el Expe-
rimento 2 el “ensayo” se intenta 2 veces (se lanzan 2 dados, se lanza uno y luego el
otro). En el Experimento 3 el “ensayo” se intenta 3 veces (en 3 ocasiones se extrae
una pelotita de la bolsa).
d) Los ensayos son independientes, esto es, el resultado de un “ensayo” no tiene influ-
encia alguna en el resultado de cualquier otro “ensayo”.
En el Experimento 2, el resultado del lanzamiento del dado 1 no tiene ninguna
relación con el resultado del lanzamiento del dado 2. En el Experimento 3, la pelotita
que se saca en cualquiera de las 3 extracciones, no influye (debido a que la pelotita se
repone en la bolsa) en la pelotita que se sacará en cualquiera de las otras extracciones.
e) La probabilidad de obtener éxito, digamos p, en cualquiera de los “ensayos” es

siempre la misma.
En el Experimento 2, la probabilidad de obtener éxito (número primo) en el dado 1
es 23 y la probabilidad de obtener éxito en el dado 2 también es 23 . En el Experimento
3, la probabilidad de obtener éxito (sacar la pelotita roja) en la primera extracción
es 15 y la probabilidad de obtener éxito en la segunda o tercera extracción también
es 15 (debido a que la pelotita escogida se regresa a la bolsa).
- 45 -
1.3 Modelo Binomial
Los experimentos que poseen las caracterı́sticas a), b), c), d) y e) se dice que
siguen un Esquema Bernoulli de parámetros (n, p).
f ) Existe un número finito de resultados (digamos r) posibles del experimento. Cada
resultado lo llamamos suceso elemental y la unión de todos los sucesos elementales
es el espacio muestral Ω.
En el Experimento 1, r = 2, en el Experimento 2, r = 4 = 22 y en el Experimento
3, r = 8 = 23 .
g) Los sucesos elementales son vectores con n componentes (n es el número de intentos
del “ensayo”) y cada componente es una F (fracaso) o una E (éxito).
En el Experimento 1 los sucesos elementales fueron F y E, en el Experimento 2 los
sucesos elementales eran {(F, F )}, {(F, E)}, {(E, F )}, {(E, E)} y en el Experimento
3 los sucesos elementales eran {(F, F, F )}, {(E, F, F )}, {(F, E, F )}, {(F, F, E)},
{(E, E, F )}, {(E, F, E)}, {(F, E, E)}, {(E, E, E)}.
h) La probabilidad de cada suceso elemental depende del número de éxitos (E) que
tenga este.
i) Todo suceso A, es la unión de m sucesos elementales, donde m ≤ r.
Definición 1.3.1: Sea n natural, Ω = {(x1 , . . . , xn ) : xi ∈ {0, 1}} y p número

real tal que 0 < p < 1.
Si A = {(x1 , . . . , xn )} es suceso elemental, se define la probabilidad de A
como
P (A) = P ({(x1 , . . . , xn )})
= px1 +···+xn (1 − p)n−(x1 +···+xn ) .

Claramente los sucesos elementales no son equiprobables, ya que dependerán
de la suma x1 + · · · + xn . Además, x1 + · · · + xn , representa el número de
éxitos que aparecen en el vector (x1 , . . . , xn ) y n−(x1 +· · ·+xn ) corresponde
al número de fracasos en dicho vector.
En general, si A ⊂ Ω, se define
∑

 P ({a}) si A ̸= ϕ

a∈A
P (A) =



0 si A = ϕ
Al par (Ω, P ), se le conoce como Modelo de Probabilidades Binomial.
En los experimentos previos, podemos identificar el cero con la letra F y el uno a la letra
E. Por ejemplo, en el Experimento 3,
Ω = {(x1 , x2 , x3 ) : xi ∈ {0, 1}}
= {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)} .
- 46 -
1.3 Modelo Binomial
También, en este ejemplo, el valor de p es 1

5 y si A = {(1, 0, 1)}, entonces
P (A) = px1 +x2 +x3 (1 − p)3−(x1 +x2 +x3 )

( )1+0+1 ( )
1 1 3−(1+0+1)
= 1−
5 5
( )2 ( )1
1 4
=
5 5
= 0.032.
Si deseamos calcular la probabilidad del suceso que ocurran exactamente k-éxitos al

intentar n veces el “ensayo” (a este suceso lo anotamos Ak ), el Experimento 2 y el Expe-
rimento 3 nos hacen conjeturar que P (Ak ) deberı́a ser igual a
( )
n k
P (Ak ) = p (1 − p)n−k , k ∈ {0, 1, . . . , n}
k
( )
n◦ de ensayos ◦ ◦ de ensayos − n◦ de éxitos
= pn de éxitos
(1 − p) n .
n◦ de éxitos
En efecto, Ak es la unión de todos los sucesos elementales (x1 , . . . , xn ), que satisfacen

la condición que tengan k unos (k -éxitos) y n − k ceros. O sea, en cada uno de estos
vectores pertenecientes a Ak resulta que x1 + · · · + xn = k. Por lo tanto, la probabilidad
de cada uno de los sucesos elementales que componen Ak es igual a
px1 +···+xn (1 − p)n−(x1 +···+xn ) = pk (1 − p)n−k ,
es decir, todos los sucesos elementales de Ak tienen igual probabilidad.
¿Cuántos sucesos elementales conforman Ak ?

El número de sucesos elementales que conforman Ak es igual al número de permuta-
( )
ciones que pueden realizarse con k unos y n − k ceros. Este valor corresponde a nk .
Ası́,
P (Ak ) = pk (1 − p)n−k + pk (1 − p)n−k + · · · + pk (1 − p)n−k

| {z }
(nk) veces
( )
n k
= p (1 − p)n−k . (∗)
k
Por ejemplo, si el número de “ensayos” es 4, esto es n = 4, y la probabilidad de éxito

en cualquiera de los ensayos es p, 0 < p < 1, entonces
- 47 -
1.3 Modelo Binomial
Ω = {(x1 , x2 , x3 , x4 ) ; xi ∈ {0, 1}}
= {(0, 0, 0, 0), (1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1), (1, 1, 0, 0), (1, 0, 1, 0),
(1, 0, 0, 1), (0, 1, 1, 0), (0, 1, 0, 1), (0, 0, 1, 1), (1, 1, 1, 0), (1, 0, 1, 1), (1, 1, 0, 1),
(0, 1, 1, 1), (1, 1, 1, 1)},
#Ω = 16 = 24 .
( )
4
A0 = {(0, 0, 0, 0)} ; #A0 = 1 =
0
( )
4
A1 = {(1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0), (0, 0, 0, 1)} ; #A1 = 4 =
1
A2 = {(1, 1, 0, 0), (1, 0, 1, 0), (1, 0, 0, 1), (0, 1, 1, 0),

( )
4
(0, 1, 0, 1), (0, 0, 1, 1)} ; #A2 = 6 =
2
( )
4
A3 = {(1, 1, 1, 0), (1, 0, 1, 1), (1, 1, 0, 1), (0, 1, 1, 1)} ; #A3 = 4 =
3
( )
4
A4 = {(1, 1, 1, 1)} ; #A4 = 1 =
4
Ω= A0 ∪ A1 ∪ A2 ∪ A3 ∪ A4 .
Ası́ por ejemplo, en A3 todos los sucesos elementales tienen tres unos (3 éxitos) y un cero
(1 fracaso), esto debido a que 4 − 3 = 1. Además, la suma de los xi es siempre igual a 3,
o sea, k = 3. Luego,
P (A3 ) = p3 (1 − p)1 + p3 (1 − p)1 + p3 (1 − p)1 + p3 (1 − p)1

| {z }
(43) veces
= 4p3 (1 − p)1 .
- 48 -
1.3 Modelo Binomial
Algunas propiedades que se desprenden de la definición del Modelo Binomial
i) Si A ∩ B = ∅, entonces P (A ∪ B) = P (A) + P (B).

Esta propiedad es inmediata de la definición, ya que
∑
P (A ∪ B) = P ({c})
c∈(A∪B)
∑ ∑
= P ({c}) + P ({c})
c∈A c∈B
= P (A) + P (B).
ii) P (Ω) = 1.
En efecto, Ω es la unión disjunta de los sucesos Ak , esto es,
Ω = A0 ∪ A1 ∪ . . . ∪ An .
Luego, desde i),
P (Ω) = P (A0 ) + P (A1 ) + · · · + P (An )

( ) ( ) ( )
n 0 n 1 n n
= p (1 − p)n−0 + p (1 − p)n−1 + · · · + p (1 − p)n−n .
0 1 n
Pero, esta última expresión corresponde exactamente al desarrollo del binomio

(p + (1 − p))n , por lo que
P (Ω) = (p + (1 − p))n
= 1n
= 1.
iii) Para todo suceso A, 0 ≤ P (A) ≤ 1.

Esta propiedad resulta desde que la probabilidad de cada suceso elemental es un
valor mayor que cero y menor que uno. Por lo que
∑ ∑ ∑
P (A) = P ({a}) ≤ P ({a}) + P ({a})
a∈A a∈A a∈Ac
= P (A) + P (Ac ) .
Pero, Ω es la unión disjunta de A con Ac , entonces de i) y ii) resulta que

1 = P (A ∪ Ac ) = P (A) + P (Ac ). En consecuencia,
0 ≤ P (A) ≤ 1 .
- 49 -
1.3 Modelo Binomial
iv) Para todo suceso A, P (Ac ) = 1 − P (A).

Este resultado es inmediato de la relación
1 = P (Ω) = P (A) + P (Ac ).
v) Si A ⊂ B, entonces P (A) ≤ P (B).

En efecto, como B = A ∪ (Ac ∩ B),
∑ ∑ ∑
P (B) = P ({b}) = P ({b}) + P ({b})
b∈B b∈A b∈(Ac ∩B)
∑
≥ P ({b})
b∈A
= P (A) .
Nota: Los Experimentos 2 y 3 de esta sección nos permiten conjeturar que el valor En ,
definido por
En = 0 · P (A0 ) + 1 · P (A1 ) + · · · + n · P (An )
( ) ( ) ( )
n 0 n 1 n n
= 0 p (1 − p)n + 1 p (1 − p)n−1 + · · · + n p (1 − p)0 ,
0 1 n
deberı́a ser igual a np, esto es,

En = n p .
Efectivamente, este resultado es válido y su verificación se basa en el desarrollo del binomio
(1 + (1 − p))n−1 .
Ejemplo 1.3.1: Se lanza 3 veces un dado normal. Deseamos calcular la probabilidad de

que sólo en dos ocasiones la cara del dado muestre un número que sea mayor que 4.
Primera solución.
Usamos el modelo binomial con:
• ensayo : lanzar un dado
• éxito : la cara del dado muestra un número mayor que 4
• ◦
n de intentos : n=3
• probabilidad de éxito : p = 26 = 13
En este caso
Ω = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)}
y el suceso que representa el hecho que sólo en dos ocasiones la cara del dado muestre un
número que sea mayor que 4 es
A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)} .
- 50 -
1.3 Modelo Binomial
Recordemos nuevamente que 0 simboliza fracaso y 1 éxito, es decir, en este caso 0

simboliza que la cara del dado muestra un número menor que 5 y 1 simboliza que la cara
del dado es un número mayor que 4.
Por lo tanto, según el modelo binomial,
( )1+1+0 ( ) ( )1+0+1 ( )
1 1 3−(1+1+0) 1 1 3−(1+0+1)
P (A) = 1− + 1−
3 3 3 3
( )0+1+1 ( )
1 1 3−(0+1+1)
+ 1−
3 3
( )2 ( )1
1 2
= 3
3 3
2
= .
9
Segunda solución.
Usamos el modelo equiprobable con
Ω = {(a, b, c) : a, b, c ∈ {1, 2, 3, 4, 5, 6}} .
La primera componente de cada trio representa el número que apareció en el primer

lanzamiento del dado, la segunda componente representa el número que apareció en el
segundo lanzamiento, y la tercera componente el número que muestra el tercer lanzamiento.
En la tabla siguiente se observan los 216 trios que contiene Ω. Cada celda corresponde
a un trio.
111 112 113 114 115 116 121 122 123 124 125 126 131 132 133
134 135 136 141 142 143 144 145 146 151 152 153 154 155 156
161 162 163 164 165 166 211 212 213 214 215 216 221 222 223
224 225 226 231 232 233 234 235 236 241 242 243 244 245 246
251 252 253 254 255 256 261 262 263 264 265 266 311 312 313
314 315 316 321 322 323 324 325 326 331 332 333 334 335 336
341 342 343 344 345 346 351 352 353 354 355 356 361 362 363
364 365 366 411 412 413 414 415 416 421 422 423 424 425 426
431 432 433 434 435 436 441 442 443 444 445 446 451 452 453
454 455 456 461 462 463 464 465 466 511 512 513 514 515 516
521 522 523 524 525 526 531 532 533 534 535 536 541 542 543
544 545 546 551 552 553 554 555 556 561 562 563 564 565 566
611 612 613 614 615 616 621 622 623 624 625 626 631 632 633
634 635 636 641 642 643 644 645 646 651 652 653 654 655 656
661 662 663 664 665 666
Tabla 1.3.5
- 51 -
1.3 Modelo Binomial
Además, cada trio (es decir, cada suceso elemental) es igualmente probable (lo que
puede verificarse experimentalmente, lanzando “muchas” veces tres dados y calculando las
frecuencias relativas de cada resultado). Por esta razón usamos el modelo de Laplace para
calcular la probabilidad de cualquier suceso, esto es, cualquier subconjunto de Ω.
En consecuencia, si A ⊂ Ω, entonces
#A
P (A) =
#Ω
#A
= .
216
En este modelo, ¿cuál es el conjunto A que representa el suceso que sólo en dos lan-
zamientos del dado la cara de éste muestra un número mayor que 4? Las siguientes 48
celdas, que muestra la tabla siguiente, forman el conjunto A.
155 156 165 166 255 256 265 266

355 356 365 366 455 456 465 466
515 516 525 526 535 536 545 546
551 552 553 554 561 562 563 564
615 616 625 626 635 636 645 646
651 652 653 654 661 662 663 664
Tabla 1.3.6
48 2
Por lo tanto, según el modelo de Laplace, P (A) = = .
216 9
En resumen
• Ω = {(0, 0, 0), (1, 0, 0), (0, 1, 0), (0, 0, 1)

(1, 1, 0), (1, 0, 1), (0, 1, 1), (1, 1, 1)}
• #Ω = 8
¡ 1 ¢x1 +x2 +x3 ¡ 1 3−(x1 +x2 +x3 )
¢
• P ({(x1 , x2 , x3 )}) = 1−
Según Modelo 3 3
Binomial
• Suceso que se desea calcular su probabilidad
A = {(1, 1, 0), (1, 0, 1), (0, 1, 1)}
• #A = 3
¡ 1 ¢2 ¡ 2 ¢1 2
• P (A) = 3 3 3
= 9
Solución del
problema
planteado
• Ω = {(a, b, c) : a, b, c ∈ {1, 2, 3, 4, 5, 6}}
• #Ω = 216
1
• P ({(a, b, c)}) = 216
Según Modelo
de Laplace • Suceso que se desea calcular su probabilidad
A = {todos los trios de la Tabla 1.3.6}
• #A = 48
48 2
• P (A) = 216
= 9
- 52 -
1.3 Modelo Binomial
Observación 1.3.5: Es común que el modelo binomial sea descrito en términos de

una variable cuantitativa discreta (este tipo de variable la estudiaremos en el Capı́tulo 2,
Sección 1), que en lenguaje de probabilidades se conoce como variable aleatoria discreta.
La forma de enunciar el modelo binomial es la siguiente:
Sea X variable aleatoria discreta, n entero positivo y p un valor entre 0 y 1.
Se dice que la variable aleatoria X tiene distribución binomial de parámetros (n, p), se
anota X ∼ B(n, p), si para todo k ∈ {0, 1, . . . , n}, la probabilidad de que X asuma el
valor k es igual a P (Ak ), con P dada por el modelo binomial y Ak el suceso de que ocurran
exactamente k éxitos.
Es común anotar P (X = k), a la probabilidad de que X asuma el valor k, por lo tanto,
X ∼ B(n, p) si, para todo k ∈ {0, 1, . . . , n},
P (X = k) = P (Ak )
( )
n k
= p (1 − p)n−k .
k
En general, si A es subconjunto de R, entonces∑la probabilidad de que X pertenezca al
conjunto A, que se anota P (X ∈ A), es igual a k∈A∩{0,1,...,n} P (Ak ), esto es,
∑
P (X ∈ A) = P (Ak ).
k∈A∩{0,1,...,n}
Notar que si X ∼ B(n, p), entonces X cuenta el número de éxitos que ocurren en un
esquema Bernoulli de parámetros (n, p).
Comentario Histórico: Jacob Bernoulli nació el 6 de enero de 1655 en Basilea, Suiza.

Fue el primero de toda una familia de matemáticos suizos, Jacob Bernoulli era hermano
de Johann Bernoulli y tı́o de Daniel Bernoulli. La historia de la familia Bernoulli está
plagada de historias de disputas entre hermanos, originadas en problemas matemáticos.
Su familia lo obligó a estudiar teologı́a, obteniendo un grado de Teologı́a de Basilea en el
año 1676. Pero se interesó en las Matemáticas a pesar de la oposición de su padre.
Rechazando una nominación en la Iglesia, aceptó una cátedra de Matemáticas en la
Universidad de Basilea en 1687, gracias a sus conocimientos de los trabajos de Wa-
llis, Barrow, Descartes, Leibniz, que le permitirı́a luego comenzar con su producción ori-
ginal.
En una disputa matemática con su hermano Johann, inventó el cálculo de las varia-
ciones, por lo que su nombre está ligado a la introducción de los primeros principios del
Cálculo de Variaciones.
También fueron fundamentales sus contribuciones al desarrollo de la Combinatoria y
fue el primero en usar el término integral en el año 1690. Utilizó tempranamente las
coordenadas polares y descubrió el isócrono, la curva que se forma al caer verticalmente
un cuerpo con velocidad uniforme.
En una primera etapa se dedicó a aplicar el naciente cálculo diferencial e integral a
problemas de ingenierı́a. El trabajo más importante de Bernoulli, “Ars Conjectandi” (El
Arte de conjeturar), contiene su teorı́a de las permutaciones y el inicio de la combinatoria,
- 53 -
1.3 Modelo Binomial
la serie exponencial y los llamados hoy “números de Bernoulli”. Incluye también el tema
de las probabilidades y el descubrimiento de la primera ley del azar: la Ley de los Grandes
Números en su versión débil. Esta obra fue publicada en forma póstuma en 1713.
Bernoulli falleció en Basilea el 16 de Agosto de 1655.
- 54 -
1.3 Modelo Binomial
PROBLEMAS
Problema 1.3.A: Chevalier de Meré, jugador del siglo XVII, creı́a que los dos siguientes
casos eran igualmente probables.
Caso I: Le saldrı́a el 6 cuando menos una vez al echar el dado 4 veces.

Caso II: La suma de las caras serı́a 12, cuando menos una vez, al echar dos dados 24
veces.
¿Tendrı́a razón Chevalier de Meré?
Problema 1.3.B: Una prueba de selección múltiple contiene 50 preguntas y, en cada una
de ellas se debe elegir entre tres respuestas a), b), c) (sólo una es la correcta). Suponga
que el estudiante responde todas las preguntas al azar, por ejemplo, tiene una bolsa con
a) , b) , c)
tres fichas idénticas, marcadas , y para responder cada pregunta escoge una
de las tres fichas y responde la alternativa que le indica la ficha. Calcule la probabilidad
de que obtenga entre 10 y 16 respuestas correctas, ambos extremos incluidos.
Problema 1.3.C: Se construyen dos versiones de un calefactor eléctrico, uno con cuatro
componentes de calor y otro con dos componentes de calor. Las componentes de calor
actúan en forma independientes, es decir, el que funcione o no una componente de calor
no tiene incidencia en que funcione o no funcione cualquier otra componente.
Por datos históricos, se sabe que cualquiera de las componentes tiene probabilidad θ,
0 < θ < 1, de que falle. Los calefactores no funcionan si falla más de la mitad de sus
componentes.
a) Encuentre la probabilidad de que el calefactor de dos componentes funcione.
b) Encuentre la probabilidad de que el calefactor de cuatro componentes funcione.
c) ¿Qué valores de θ hacen igualmente fiables los dos calefactores?
- 55 -
1.4. MODELO GENERAL DE KOLMOGOROV
1.4 Modelo General de Kolmogorov
El Modelo de Probabilidades General, fue desarrollado en 1933 por el matemático ruso

A. Kolmogorov, quien definió este modelo mediante un sistema de axiomas. La idea con
la que l partió fue: si siempre se pudiera definir la probabilidad de un suceso como el
lı́mite de sus frecuencias relativas, es decir, si siempre se pudiera definir la probabilidad
de un suceso como lo hemos hecho en el modelo de Laplace y en el modelo Binomial, ¿qué
propiedades básicas tendrı́a que cumplir?
Tanto en el modelo de Laplace como en el Binomial, se cumplen, entre otras, las propiedades
siguientes:
a) La probabilidad de cualquier suceso es un número mayor o igual a cero y menor o

igual a 1.
b) La probabilidad de todo el espacio muestral es igual a uno.
c) La probabilidad de una unión disjunta de dos sucesos, es igual a la suma de las

probabilidades de cada suceso.
Algunas de estas propiedades básicas son las que se transforman en los axiomas que
debe cumplir un modelo general de probabilidades.
Definición 1.4.1: Sea Ω conjunto no vacı́o (lo llamaremos espacio muestral). Una
función P definida para todos los subconjuntos de Ω (a estos subconjuntos los llamaremos
sucesos) es una probabilidad si cumplen los axiomas siguientes:
i) Para todo A suceso, P (A) ≥ 0.
ii) P (Ω) = 1.
iii) Si A y B son sucesos disjuntos, es decir, A ∩ B = ∅, entonces
P (A ∪ B) = P (A) + P (B).
iv) Si A1 ⊆ A2 ⊆ A3 ⊆ · · · ⊆ An ⊆ An+1 ⊆ · · · es una sucesión infinita de sucesos

crecientes, entonces (∞ )
∪
P An = lim P (An ).
n→∞
n=1
Una forma equivalente de enunciar este axioma es:
iv’) Si A1 ⊇ A2 ⊇ A3 ⊇ · · · ⊇ An ⊇ An+1 ⊇ · · · es una sucesión infinita de sucesos

decrecientes, entonces (∞ )
∩
P An = lim P (An ).
n→∞
n=1
El axioma iv) o su equivalente iv’) es necesario por “razones técnicas”, ya que muchos
resultados importantes no podrı́an demostrarse sin el.
- 56 -
Al par (Ω, P ), donde Ω es un conjunto no vacı́o y P es una probabilidad sobre

los subconjuntos de Ω, se le llama Modelo de Probabilidades de Kolmogorov
(también conocido como Modelo de Probabilidades o Espacio de Probabilida-
des).
Ejemplo 1.4.1: Sea Ω el conjunto que muestra el gráfico siguiente.
0 a b x
Figura 1.4.1
Es decir, Ω = {(x, y) : a ≤ x ≤ b , c ≤ y ≤ d}.
Para cada A ⊂ Ω, se define P (A) como
área (A)
P (A) = .
área (Ω)
A partir de esta definición, es simple verificar que los axiomas i) - iii) se verifican. Es
decir, P es una probabilidad sobre los subconjuntos Ω, o dicho de otra forma, (Ω, P ) es un
Modelo de Probabilidades.
Por ejemplo, si A = {(x, y) ∈ Ω : a ≤ x ≤ b , y = b−a d−c
x − b−a
d−c
a + c} , es decir, A
representa la diagonal del rectángulo que muestra el gráfico siguiente.
A
c
a b x
Figura 1.4.2
- 57 -
entonces,
área (A)
P (A) =
área (Ω)
0
=
(b − a)(d − c)
= 0.
Observar que P (A) = 0, pero A ̸= ∅. Cabe señalar que en el Modelo de Laplace y en el

Modelo Binomial, P (A) = 0, si y sólo si A = ∅.
También, si A es el conjunto que muestra el gráfico siguiente
d
A
a a+b b x
2
Figura 1.4.3
b−a
entonces, el área de A, corresponde al área de un triángulo rectángulo de base 2 y
altura d − c. En consecuencia,
b−a
2 (d − c)
Área (A) = ,
2
por lo que
área (A)
P (A) =
área (Ω)
b−a
2
(d−c)
2
=
(b − a)(d − c)
1
= .
4
Observación 1.4.1: La siguiente tabla muestra, en un Diagrama de Venn, relaciones

entre conjuntos y su respectiva traducción a lenguaje de sucesos.
- 58 -
Diagrama de Venn Notación Lenguaje de Lenguaje de

Conjuntista Conjuntos Sucesos
Ω Conjunto Universal Espacio Muestral
A Subconjunto de Ω Suceso
∅ Conjunto vacı́o Suceso imposible
Ω
A
Ac Complemento de A No ocurre
el suceso A
A B
A∪B Unión de A y B Ocurre el suceso A
o el suceso B o ambos
A B
A∩B Intersección de A y B Ocurren ambos sucesos,
AyB
A B
A∩B =∅ A y B son disjuntos Los sucesos A
y B son mutuamente
excluyentes
- 59 -
Diagrama de Venn Notación Lenguaje de Lenguaje de

Conjuntista Conjuntos Sucesos
B
A⊆B A es subconjunto de B Si ocurre el suceso
A entonces ocurre
el suceso B
A B
A ∩ Bc = A \ B Diferencia de A y B Ocurre el suceso
A y no ocurre
el suceso B
A1
A2
A
A = A1 ∪ A2 Partición de A en A1
con y A2 . Por analogı́a,
A1 ∩ A2 = ∅ se obtiene una partición
de A en A1 , . . . , An
Tabla 1.4.1
La siguiente Proposición muestra algunas reglas generales que se desprenden de los
axiomas i)- iii) que definen un Modelo de Probabilidades cualquiera.
Para su verificación usaremos ilustraciones con el diagrama de Venn. En este diagrama
podemos imaginarnos la probabilidad como si estuviese definida por áreas relativas (al
estilo del Ejemplo 1.4.1).
Proposición 1.4.1: Sea (Ω, P ) modelo de probabilidades cualquiera

a) Regla del complemento: La probabilidad del complemento de A es
P (Ac ) = 1 − P (A).
En efecto, como Ω puede ser particionado entre A y Ac , esto es, Ω = A ∪ Ac con

A ∩ Ac = ∅,
Ω
A
Ac
Figura 1.4.4
- 60 -
entonces, de axiomas ii) y iii), 1 = P (A) + P (Ac ), por lo que
P (Ac ) = 1 − P (A).
Observar que si A = Ω, entonces Ac = ∅ y P (A) = 1. Luego, la regla del comple-

mento implica que 1 = 1 + P (∅), de donde P (∅) = 0.
También, por axioma i), P (Ac ) ≥ 0, es decir, 1 − P (A) ≥ 0, lo que implica
P (A) ≤ 1. En consecuencia,
0 ≤ P (A) ≤ 1.
b) Regla de la Diferencia: Si la ocurrencia de A implica la ocurrencia de B, esto

es, si A ⊂ B, entonces P (A) ≤ P (B). Además, la diferencia entre estas
probabilidades es igual la probabilidad que B ocurra y A no ocurra. Es decir,
P (B) − P (A) = P (Ac ∩ B).
Esta regla es consecuencia del hecho que B puede ser particionado en A y (B pero
no A), esto es, B = A ∪ (Ac ∩ B) y A ∩ (Ac ∩ B) = ∅.
Ω
B
Ac ∩B=B−A
Figura 1.4.5
Entonces, por axioma iii),
P (B) = P (A) + P (Ac ∩ B),
por lo que
P (B) − P (A) = P (Ac ∩ B).
Además, de axioma i), P (Ac ∩ B) ≥ 0, es decir, P (B) − P (A) ≥ 0. Esta última
expresión implica que P (A) ≤ P (B).
c) Regla de la Aditividad: Si B1 , B2 , . . . , Bn , forman una partición de B, entonces
P (B) = P (B1 ) + P (B2 ) + · · · + P (Bn ).
Esta regla, generaliza el axioma iii), para el caso de n sucesos (n ≥ 3).

Para el caso n = 3,
B = B1 ∪ B2 ∪ B3
- 61 -
y además, B1 ∩ B2 = ∅ , B1 ∩ B3 = ∅ , B2 ∩ B3 = ∅. Ası́,
(B1 ∪ B2 ) ∩ B3 = (B1 ∩ B3 ) ∪ (B2 ∩ B3 )

= ∅∪∅
= ∅.
Usando el axioma iii) con los sucesos (B1 ∪ B2 ) y B3 , se obtiene que
P (B) = P ((B1 ∪ B2 ) ∪ B3 )
= P (B1 ∪ B2 ) + P (B3 ).
Nuevamente usando axioma iii), pero ahora con los sucesos B1 y B2 , resulta
P (B1 ∪ B2 ) = P (B1 ) + P (B2 ). En consecuencia,
P (B) = (P (B1 ) + P (B2 )) + P (B3 )

= P (B1 ) + P (B2 ) + P (B3 ).
Inductivamente se obtiene el caso general, n > 3.
d) Regla de la Diferencia Generalizada: Si A y B son sucesos cualquiera, entonces
P (A ∩ B c ) = P (A) − P (A ∩ B)
y
P (Ac ∩ B) = P (B) − P (A ∩ B).
Esta regla generaliza la regla b), ya que en este caso no se pide que un suceso esté
incluido en el otro. En particular, si A ⊂ B, entonces A ∩ B = A, de donde
P (Ac ∩ B) = P (B) − P (A), que resulta ser la regla b).
Observando el diagrama de Venn, vemos que A ∩ B c y A ∩ B forman una partición
de A, esto es, (A ∩ B c ) ∩ (A ∩ B) = ∅ y A = (A ∩ B c ) ∪ (A ∩ B).
A∩B
A∩B c
A B
Figura 1.4.6
Ası́, axioma iii) implica que
P (A) = P (A ∩ B c ) + P (A ∩ B),
de donde
P (A ∩ B c ) = P (A) − P (A ∩ B).
- 62 -
Similarmente, Ac ∩ B y A ∩ B forman una partición de B,
A∩B
Ac ∩B
A B
Figura 1.4.7
de donde
P (B) = P (Ac ∩ B) + P (A ∩ B),
o sea
P (Ac ∩ B) = P (B) − P (A ∩ B).
e) Regla de Inclusión - Exclusión:
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Esta regla es una modificación del axioma iii), para el caso en que los sucesos A y
B tienen intersección no vacı́a. Observar que si A ∩ B = ∅, entonces P (A ∩ B) = 0,
por lo que esta regla se reduce al axioma iii).
Como lo muestra el diagrama siguiente, los conjuntos A ∩ B c , A ∩ B y Ac ∩ B
forman una partición de A ∪ B.
A∩B
A∩B c
Ac ∩B
A B
Figura 1.4.8
Por lo que, regla c) implica

P (A ∪ B) = P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B).
Pero, como vimos en la regla d),
P (A ∩ B c ) = P (A) − P (A ∩ B) y P (Ac ∩ B) = P (B) − P (A ∩ B).
En consecuencia,
P (A) + P (B) = [P (A ∩ B c ) + P (A ∩ B)] + [P (Ac ∩ B) + P (A ∩ B)]
= [P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B)] + P (A ∩ B)
= P (A ∪ B) + P (A ∩ B),
o sea,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
- 63 -
Nota: Otras reglas que se cumplen en cualquier modelo de probabilidades (regla de

probabilidades totales y regla de Bayes) y que son de gran utilidad al momento de
hacer cálculos explı́citos, se desarrollarán en la Sección 5.
Ahora mostraremos algunos ejemplos en los cuales se aplican las reglas que hemos visto
recientemente.
Ejemplo 1.4.2: Sea (Ω, P ) modelo de probabilidades cualquiera. Supongamos que A y

B son sucesos tales que P (A) = 0.6, P (B) = 0.4 y P (A ∩ B) = 0.2. Entonces:
a)
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
= 0.6 + 0.4 − 0.2
= 0.8.
b)
P (Ac ) = 1 − P (A)
= 1 − 0.6
= 0.4
y
P (B c ) = 1 − P (B)
= 1 − 0.4
= 0.6.
c) Como Ac ∩ B y A ∩ B forman una partición de B, entonces
P (B) = P (Ac ∩ B) + P (A ∩ B),
de donde
P (Ac ∩ B) = P (B) − P (A ∩ B)
= 0.4 − 0.2
= 0.2.
Un error que podrı́a cometerse en c), es ocupar la regla de la diferencia, esto es,
P (Ac ∩ B) = P (B) − P (A)

= 0.4 − 0.6
= −0.2.
Evidentemente este resultado es incorrecto ya que la probabilidad de cualquier suceso

es un número no negativo.
La razón por la cual no es posible usar la regla de la diferencia, es que no tenemos
la hipótesis de que A sea subconjunto de B.
- 64 -
#A
Por ejemplo, si Ω = {1, 2, 3, . . . , 10} y para D ⊂ Ω, definimos P (D) = #Ω (es
decir, (Ω, P ) es el modelo de Laplace), entonces
P (A) = 0.6 si A = {1, 2, 4, 8, 9, 10},
P (B) = 0.4 si B = {3, 4, 5, 9},
P (A ∩ B) = 0.2, pues A ∩ B = {4, 9}.
Pero, A no es subconjunto de B.
d) Por analogı́a con c),
P (A ∩ B c ) = P (A) − P (A ∩ B)
= 0.6 − 0.2
= 0.4,
de donde
P (A ∪ B c ) = P (A) + P (B c ) − P (A ∩ B c )
= 0.6 + 0.6 − 0.4
= 0.8.
e) Como Ac ∩ B c = (A ∪ B)c ,
A B
Ac ∩B c =(A∪B)c
Figura 1.4.9
entonces,
P (Ac ∩ B c ) = P ((A ∪ B)c )
= 1 − P (A ∪ B),
ahora usando a), se tiene que P (Ac ∩ B c ) = 1 − 0.8 = 0.2.
Ejemplo 1.4.3: Sean (Ω, P ) modelo de probabilidad cualquiera y A, B, C sucesos. En-

tonces, usando la regla de la inclusión - exclusión, para los sucesos (A ∪ B) y C, se obtiene
que
P (A ∪ B ∪ C) = P ((A ∪ B) ∪ C)
= P (A ∪ B) + P (C) − P ((A ∪ B) ∩ C)
= P (A ∪ B) + P (C) − P ((A ∩ C) ∪ (B ∩ C)).
Nuevamente por la regla e),
P (A ∪ B) = P (A) + P (B) − P (A ∩ B)
- 65 -
y
P ((A ∩ C) ∪ (B ∩ C)) = P (A ∩ C) + P (B ∩ C) − P ((A ∩ C) ∩ (B ∩ C))
= P (A ∩ C) + P (B ∩ C) − P (A ∩ B ∩ C).
En consecuencia,
P (A ∪ B ∪ C) = [P (A) + P (B) − P (A ∩ B)] + P (C)

− [P (A ∩ C) + P (B ∩ C) − P (A ∩ B ∩ C)]
= P (A) + P (B) + P (C) − P (A ∩ B) − P (A ∩ C)

−P (B ∩ C) + P (A ∩ B ∩ C).
Ejemplo 1.4.4: Una “liguilla” final de basketball es disputada por 4 equipos: A, B, C

y D. Las estadı́sticas muestran que es 3 veces más probable que el equipo A le gane al B,
2 veces más probable que B le gane a C y 3 veces más probable que el equipo C le gane a
D. ¿Cuál es la probabilidad que tiene cada equipo de ganar la “liguilla”?
Indicaremos por Ω = {ω1 , ω2 , ω3 , ω4 }, el espacio muestral que consiste de los cuatro
posibles resultados del experimento, donde:
ω1 corresponde a que el equipo A gane la “liguilla”,
ω2 corresponde a que el equipo B gane la “liguilla”,
ω3 corresponde a que el equipo C gane la “liguilla”,
ω4 corresponde a que el equipo D gane la “liguilla”.
Sea P una probabilidad sobre los subconjuntos de Ω. Si denotamos por p a la probabi-

lidad de que el equipo D gane la “liguilla”, esto es P ({ω4 }) = p, entonces de los datos del
problema se tienen las siguientes relaciones:
P ({ω3 }) = 3p,
P ({ω2 }) = 2P ({ω3 }) = 6p,
P ({ω1 }) = 3P ({ω2 }) = 18p.
Por axioma ii), 1 = P (Ω), de donde
1 = P ({ω1 , ω2 , ω3 , ω4 }).
Usando ahora la regla de la aditividad, se obtiene que
1 = P ({ω1 }) + P ({ω2 }) + P ({ω3 }) + P ({ω4 })
= 18p + 6p + 3p + p
= 28p,
- 66 -
esto es,
1
p= .
28
En consecuencia,
18 6
P ({ω1 }) = , P ({ω2 }) = ,
28 28
3 1
P ({ω3 }) = , P ({ω4 }) = .
28 28
Ejemplo 1.4.5: Sea (Ω, P ) modelo de probabilidades. Supongamos que A y B son suce-
sos tales que P (A) = 23 y P (B) = 94 . Verifiquemos que las siguientes relaciones se
cumplen:
i) P (A ∪ B) ≥ 23 ,
ii) 2
9 ≤ P (A ∩ B c ) ≤ 59 ,
iii) 1
9 ≤ P (A ∩ B) ≤ 49 .
En efecto, como A ⊂ A ∪ B, entonces la regla de la diferencia implica que
2
= P (A) ≤ P (A ∪ B),
3
es decir, i) se satisface.
También, A ∩ B c ⊂ B c , por lo que nuevamente la regla de la diferencia implica que
P (A ∩ B c ) ≤ P (B c ),
pero, de la regla del complemento se obtiene que
P (B c ) = 1 − P (B)
4
= 1−
9
5
= ,
9
o sea,
5
P (A ∩ B c ) ≤ .
9
Por otra parte, por la regla de la diferencia generalizada,
P (A ∩ B c ) = P (A) − P (A ∩ B)
2
= − P (A ∩ B),
3
- 67 -
y como A ∩ B es subconjunto de B, entonces, la regla de la diferencia implica que

P (A ∩ B) ≤ P (B) = 94 . Es decir,
2
P (A ∩ B c ) = − P (A ∩ B)
3
2 4
≥ −
3 9
2
= .
9
En consecuencia,
2 5
≤ P (A ∩ B c ) ≤ ,
9 9
por lo que ii) también se satisface.
Finalmente, como A ∩ B ⊂ B , entonces P (A ∩ B) ≤ P (B) = 49 . Además,

P (Ac ∩ B) = P (B) − P (A ∩ B), de donde resulta que P (A ∩ B) = P (B) − P (Ac ∩ B).
Pero, Ac ∩ B ⊂ Ac , por lo que
P (Ac ∩ B) ≤ P (Ac )
= 1 − P (A)
2
= 1−
3
1
= ,
3
o sea,
P (A ∩ B) = P (B) − P (Ac ∩ B)
4
= − P (Ac ∩ B)
9
4 1
≥ −
9 3
1
= .
9
A partir de estas relaciones obtenemos que
1 4
≤ P (A ∩ B) ≤ ,
9 9
es decir, iii) se verifica.
- 68 -
Comentario Histórico: Andrei Nikolaievitch Kolmogorov nació en Tambov el 25 de

abril de 1903. Su padre era un agrónomo. Su madre murió al dar a luz y su educación
fue asumida por la hermana de su padre, Vera Yakovlevna, de quien se dice tenı́a ideas
avanzadas.
Los matemáticos del siglo XX se acostumbraron a encontrar su nombre en relación con
muchas teorı́as distintas, marcando siempre contribuciones fundamentales. La teorı́a de
series trigonométricas, la teorı́a de la medida, la teorı́a de conjuntos, la teorı́a de la integral,
la lógica constructiva, la topologı́a, la teorı́a de la aproximación, la teorı́a de probabilida-
des, la teorı́a de procesos estocásticos, teorı́a de la información, estadı́stica matemática,
sistemas dinámicos, autómatas finitos, teorı́a de algoritmos, lingüı́stica matemática, teorı́a
de la turbulencia, mecánica celeste, ecuaciones diferenciales, el XIII problema de Hilbert,
balı́stica, y las aplicaciones de las matemáticas a problemas de la biologı́a, geologı́a,
la cristalización de metales, la creación poética a partir de los estudios en lingüı́stica
matemática, y muchas otras. Su producción cuenta alrededor de 350 artı́culos y libros,
cada uno de ellos un “clásico” en su género.
Recibió siete medallas “Lenin”, el tı́tulo de “Héroe del Trabajo Socialista”, los premios
“Lenin” y del Estado; el premio Bolzano. Fue nombrado miembro de varias Academias de
Ciencias: la Neerlandesa (1963); la London Royal Society (1964); la National Academy of
Sciences de USA (1967); l’Académie des Sciences de Paris (1968); la Academia de Ciencias
de Rumania (1956); la Academia Alemana de Naturalistas Leopoldina (1959); la American
Academy of Sciences and Arts in Boston (1959).
Antes, en 1939 (a los 36 años de edad), Kolmogorov fue elegido miembro de número de
la Academia de Ciencias de la URSS y accedió al poco tiempo a la Secretarı́a Académica
de la sección Matemáticas y Fı́sica. El grado de Doctor Honoris Causa le fue conferido por
las Universidades de Parı́s, Estocolmo y Varsovia. Fue elegido Miembro Honorario de las
Sociedades de Matemática de Moscú (de la cual fue Presidente durante varios perı́odos),
de Londres, de Calcuta, de la India y de la Royal Statistical Society, del Internacional
Statistical Institute y de la American Meteorological Society.
Podrı́a decirse que Andrei Kolmogorov se atrajo la consideración de todos los hombres
de ciencia de su época. Pocos cientı́ficos han desarrollado un trabajo tan diverso y completo
en la historia de la humanidad. Tiene algo de Leonardo, de Aristóteles, de Euclides.
Gracias a Kolmogorov, el Cálculo de Probabilidades se transformó en una verdadera
Teorı́a, a partir de su célebre obra “Fundamentos de la Teorı́a de Probabilidades” publicada
en alemán por Springer-Verlag en 1933. Más aún, Andrei Kolmogorov dedicó en realidad
toda su vida a investigar sobre los modelos matemáticos del azar. Aplicando el principio
de que ninguna obra cientı́fica se agota en sı́ misma y que ninguna teorı́a puede explicar
completamente la realidad, llevó su investigación por diversas ramas de la Matemática,
buscando refinar siempre su comprensión del azar para ası́ generar nuevos modelos de
estos fenómenos. Su primer modelo basado en la Teorı́a de la Medida, fue seguido por
su desarrollo de la Teorı́a de la Información que le permitió analizar el concepto de azar
asociado a las nociones de complejidad. Hacia el final de su vida, sus investigaciones
en complejidad de algoritmos y las llamadas sucesiones aleatorias contenı́an sus últimas
contribuciones a esta búsqueda incesante.
La obra de Kolmogorov sintetizó gran parte de las leyes del azar que la humanidad
habı́a descubierto en los siglos precedentes (Ley de los Grandes Números, Teoremas del
Lı́mite Central, Ley del incremento de la complejidad), y abrió la posibilidad de exten-
- 69 -
der disciplinas ya confirmadas como el Análisis, la Teorı́a de Números, la Geometrı́a,

mediante aplicaciones de la Teorı́a de Probabilidades. Desde el punto de vista de las disci-
plinas básicas del edificio matemático actual, la obra fundacional de Kolmogorov puede ser
comparada con aquella de “Los Elementos” de Euclides: los jóvenes matemáticos que se
formen durante el siglo XXI deberı́an incluir en su cultura básica el Álgebra, la Geometrı́a,
el Análisis y la Teorı́a de Probabilidades.
Durante su vida habı́a mantenido un interés constante en la Fı́sica, ciencia a la cual
contribuyó con importantes trabajos. Nunca abordó, sin embargo, los problemas de natu-
raleza sub-atómica y, en consecuencia, no incursionó en la Mecánica Cuántica. De haberlo
hecho, su búsqueda de nuevos modelos del azar se habrı́a sin duda aproximado a los traba-
jos de Von Newmann, quien produjo un concepto de espacio de probabilidad que incluye
al de Kolmogorov y permite al mismo tiempo dar sentido a la Mecánica Cuántica.
Kolmogorov murió en Moscú el 20 de Octubre de 1987.
- 70 -
PROBLEMAS
Problema 1.4.A: Sea (Ω, P ) modelo de probabilidades y A, B, C sucesos. Asuma que

1 1 1
P (A) = 2, P (B) = 3, P (C) = 4,
P (A ∩ B) = 1
5, P (A ∩ C) = 1
6, P (B ∩ C) = 0.
Calcule:
a) P (A ∪ B ∪ C),
b) P (A − (B ∪ C)).
Problema 1.4.B: Sea (Ω, P ) modelo de probabilidades y (An ; n ≥ 1) sucesión de sucesos

disjuntos. Verifique que (∞ )
∪ ∞
∑
P An = P (An ).
n=1 n=1
Problema 1.4.C: Sea (Ω, P ) modelo de probabilidades y (An ; n ≥ 1) sucesión de sucesos.

Verifique que
( r )
∪ ∑
r
a) P An ≤ P (An ), para todo r ≥ 2.
n=1 n=1
( ∞
) ∞
∪ ∑
b) P An ≤ P (An ).
n=1 n=1
( )
∩
r ∑
r
c) P An ≥1− P (Acn ), para todo r ≥ 2.
n=1 n=1
( ∞
) ∞
∩ ∑
d) P An ≥1− P (Acn ).
n=1 n=1
Suponga ahora que, P (An ) ≥ 1 − ε, para n ∈ {1, . . . , r}. Verifique que
( r )
∩
e) P An ≥ 1 − r ε.
n=1
Problema 1.4.D: Sea (Ω, P ) modelo de probabilidades. Suponga que A1 , A2 , . . . y

B1 , B2 , . . . son sucesos tales que
lim P (An ) = 1 y lim P (Bn ) = p.
n→∞ n→∞
Verifique que lim P (An ∩ Bn ) = p.

n→∞
Problema 1.4.E: Sea (Ω, P ) espacio de probabilidades y A, B ⊂ Ω sucesos. Asuma que

P (A) = 1 y P (B) = p, p ∈]0, 1[. Demuestre que P (A ∩ B) = p.
- 71 -
1.5. TEOREMA DE PROBABILIDADES TOTALES Y DE BAYES
1.5 Teorema de Probabilidades Totales y de Bayes
Para comenzar esta sección, introduciremos el concepto de probabilidad condicional. La

motivación para su definición en un espacio de probabilidades cualquiera la mostramos
con algunos ejemplos en el modelo de Laplace.
Ejemplo 1.5.1: Consideremos el Experimento 2 de la Sección 2 de este capı́tulo, esto

es, lanzar un dado honesto y observar su cara superior. Entonces, el espacio muestral
resultante es
Ω = {1, 2, 3, 4, 5, 6},
y un modelo adecuado para el cálculo de probabilidades de sucesos asociados a este expe-
rimento (o sea, subconjuntos de Ω) es el modelo de Laplace, esto es (Ω, P ), con
#A
P (A) = , A ⊂ Ω.
#Ω
De esta forma, si A = {1, 2, 3, 5}, o sea A representa el hecho que el dado muestre un
número primo, entonces
#A
P (A) =
#Ω
4
=
6
2
= .
3
Esta probabilidad es conocida como probabilidad a priori de A, esto quiere decir, antes
que el experimento se realize.
Supongamos que, una vez realizado el experimento, alguien nos informa que el resultado
de éste es un número par, esto es, que el suceso B = {2, 4, 6} ocurre.
Con esta información, nuestra opinión sobre la ocurrencia de A se modifica, ya que,
en este caso, solamente podrá haber ocurrido el suceso A si el resultado del experimento
ha sido el número 2.
O sea, con la información proporcionada, el número de casos favorables serı́a igual
a uno y el número de casos totales igual a tres (hay tres números pares entre 1 y 6),
por lo que la probabilidad bajo la información que se nos ha entregado (“probabilidad a
posteriori”) deberı́a ser 31 .
La “probabilidad a posteriori” deberı́a entonces cuantificar la información que se nos ha
entregado. La “probabilidad a posteriori”, más comúnmente conocida como probabilidad
condicional de A dado B, es definida en este ejemplo por
#(A ∩ B) 1
= .
#B 3
Notar que
#(A∩B)
#(A ∩ B) #Ω
= #B
,
#B
#Ω
- 72 -
#(A∩B) P (A∩B)
o sea, bajo el modelo de Laplace, #B = P (B) , por lo que la probabilidad condicional
P (A∩B)
de A dado B es igual a P (B) .
Este ejemplo motiva la siguiente definición general.
Definición 1.5.1: Sea (Ω, P ) modelo de probabilidades cualquiera (véase Sección 4 de

este capı́tulo) y A, B dos sucesos, de modo que P (B) > 0.
La probabilidad condicional de A dado B, se anota P (A/B), se define como el
número real P P(A∩B)
(B) , esto es,
P (A ∩ B)
P (A/B) = .
P (B)
Observación 1.5.1: En el caso en que (Ω, P ) sea el modelo de Laplace, esto es,
Ω = {a1 , . . . , an }, A ⊂ Ω , y
#A
P (A) = ,
#Ω
entonces,
P (A ∩ B)
P (A/B) =
P (B)
#(A∩B)
#Ω
= #B
#Ω
#(A ∩ B)
= .
#B
Ejemplo 1.5.2: Consideremos el modelo de probabilidades (Ω, P ) del Ejemplo 1.4.1,

esto es,
Ω = {(x, y) : a ≤ x ≤ b , c ≤ y ≤ d}
a b
Figura 1.5.1
- 73 -
y, para todo A ⊂ Ω,
área (A)
P (A) = .
área (Ω)
Supongamos que A es el suceso que muestra la figura sombreada
a a+b
2 b
Figura 1.5.2
y B es el suceso {(x, y) ∈ Ω : 3a+b

4 ≤x≤ 2 },
a+b
es decir, la figura sombreada que se
muestra a continuación.
a 3a+b a+b
4 2 b
Figura 1.5.3
Entonces,
área (A ∩ B)
P (A/B) =
área (B)
área (A ∩ B)
= 4· .
(b − a)(d − c)
Pero, A ∩ B es el triángulo rectángulo que muestra la figura sombreada siguiente
- 74 -
A∩B
d ւ
c+d
2
a 3a+b a+b
4 2 b
Figura 1.5.4
el cual tiene base a+b

2 − 3a+b
4 =
b−a
4 y altura d − (c+d)
2 = d−c
2 , por lo que su área es igual
· 2
b−a d−c
a 4
2 . En consecuencia,
(b−a) (d−c)
4
· 2
P (A/B) = 4 · 2
(b − a)(d − c)
= 0.25.
Ejemplo 1.5.3: Un grupo de 125 profesores de matemática de la región Metropolitana

está clasificado de la siguiente forma:
Sexo Años de docencia realizados

a lo más 5 años más de 5 años y menos de 10 más de 10 años
Hombres 11 7 29
Mujeres 10 10 58
Tabla 1.5.1
Se escoge un profesor al azar. Sabiendo que este profesor ha realizado más de 10 años
de docencia, ¿cuál es la probabilidad de que sea hombre?
Como asumimos que cada profesor tiene igual chance de ser escogido, entonces usamos
el modelo de Laplace como modelo de probabilidades.
En este caso, Ω representa al grupo de los 125 profesores, por lo que #Ω = 125.
Además, si A representa el conjunto de los hombres de este grupo y B el conjunto de
profesores (del grupo) que ha realizado más de 10 años de docencia, entonces lo que se
pide calcular es P (A/B).
De los datos del problema (Tabla 1.5.1),
#A = 47, #B = 87, #(A ∩ B) = 29,
por lo que
47 87 29
P (A) = , P (B) = , P (A ∩ B) = ,
125 125 125
- 75 -
y por tanto
P (A ∩ B)
P (A/B) =
P (B)
29
125
= 87
125
29
=
87
= 0.3333.
Ahora mostramos algunas propiedades básicas sobre la noción de probabilidad condicional.
Proposición 1.5.1: Sea (Ω, P ) modelo de probabilidades cualquiera y B ⊂ Ω suceso, tal

que P (B) > 0.
a) Para todo suceso A, P (A/B) ≥ 0.

En efecto, como P es una probabilidad sobre los subconjuntos de Ω, entonces axioma
i) en Definición 1.4.1, implica que P (A ∩ B) ≥ 0. Además, por hipótesis P (B) > 0,
por lo que el cuociente de estos dos valores es un número no negativo, esto es
P (A ∩ B)
P (A/B) = ≥ 0.
P (B)
b) P (Ω/B) = 1.
Este resultado es inmediato desde B ⊂ Ω, por lo que
P (Ω ∩ B)
P (Ω/B) =
P (B)
P (B)
=
P (B)
= 1.
c) Si A y C son sucesos disjuntos, entonces

P (A ∪ C / B) = P (A/B) + P (C/B).
Nuevamente, como P es una probabilidad sobre los subconjuntos de Ω, entonces

axioma iii) de la Definición 1.4.1 implica que P (A ∪ C) = P (A) + P (C). Además,
(A ∪ C) ∩ B = (A ∩ B) ∪ (C ∩ B),
y como A y C son disjuntos, entonces (A ∩ B) y (C ∩ B) también lo son, por lo que
nuevamente desde axioma iii) se obtiene
P ((A ∪ C) ∩ B) = P (A ∩ B) + P (C ∩ B).
- 76 -
En consecuencia,
P ((A ∪ C) ∩ B)
P (A ∪ C / B) =
P (B)
P (A ∩ B) + P (C ∩ B)
=
P (B)
P (A ∩ B) P (C ∩ B)
= +
P (B) P (B)
= P (A/B) + P (C/B).
Observación 1.5.2: La Proposición anterior nos dice que la función P (·/B), definida
por P (A/B) = P P(A∩B)
(B) , satisface los axiomas i), ii) y iii) de la Definición 1.4.1, es decir,
la función P (·/B) es una probabilidad sobre los subconjuntos de Ω. Dicho de otro modo,
(Ω, P (·/B)) es un modelo de probabilidades.
En consecuencia, como Proposición 1.4.1 es válida para cualquier modelo de probabi-
lidades, entonces, las reglas a) - e) se traducen para este caso en:
α) Si A es suceso cualquiera,
P (Ac /B) = 1 − P (A/B) , P (∅/B) = 0 , 0 ≤ P (A/B) ≤ 1.
β) Si A ⊂ C, entonces
P (A/B) ≤ P (C/B) y P (C/B) − P (A/B) = P (Ac ∩ C / B).
γ) Si C1 , C2 , . . . , Cn forman una partición de C, entonces
P (C/B) = P (C1 /B) + P (C2 /B) + · · · + P (Cn /B).
δ) Si A y C son sucesos cualquiera
P (A ∩ C c / B) = P (A/B) − P (A ∩ C / B)
y
P (Ac ∩ C / B) = P (C/B) − P (A ∩ C / B).
ϵ)
P (A ∪ C / B) = P (A/B) + P (C/B) − P (A ∩ C / B).
Nota: Cabe señalar que

P (A/B c ) ̸= 1 − P (A/B)
- 77 -
y
P (A / B ∪ C) ̸= P (A/B) + P (A/C).
Por ejemplo, si (Ω, P ) es el modelo de Laplace con Ω = {1, 2, 3, 4, 5, 6, 7}, A = {1, 2, 3},
B = {3, 4} y C = {3, 5, 6, 7}, entonces
#(A ∩ B c ) 2
P (A/B c ) = = ,
#(B c ) 5
#(A ∩ B) 1
P (A/B) = = ,
#B 2
#(A ∩ (B ∪ C)) 1
P (A / B ∪ C) = = ,
#(B ∪ C) 5
#(A ∩ C) 1
P (A/C) = = ,
#C 4
y
2 1 1 1 1
̸= 1 − , ̸= + .
5 2 5 2 4
La siguiente Proposición, conocida como regla del producto, muestra como calcular la
probabilidad de una intersección de dos sucesos, a partir de una probabilidad condi-
cional.
Proposición 1.5.2: Regla del producto. Sea (Ω, P ) modelo de probabilidades cualquiera
y A, B sucesos, de modo que P (B) > 0. Entonces
P (A ∩ B) = P (B) P (A/B). (∗)
Una forma habitual de usar esta regla es cuando B es un suceso que está determinado
en una “primera etapa”, y A es un suceso que depende de esa primera etapa (A está
determinado en una “segunda etapa”).
Escribir (∗) como
P (A1 ∩ A2 ) = P (A1 ) P (A2 /A1 ),
ayuda a pensar la regla de la multiplicación como una secuencia de “etapas”.
Cabe señalar que la verificación de la Proposición 1.5.2 es inmediata, ya que
P (A ∩ B)
P (A/B) = ,
P (B)
de donde
P (A ∩ B) = P (B) P (A/B).
- 78 -
Ejemplo 1.5.4: Se sabe que el 80% de los penales marcados a favor de la Selección
Chilena son ejecutados por jugadores de Colo-Colo. La probabilidad de que un penal sea
convertido es de 70% (esto es, 0.7) si es ejecutado por un jugador de Colo-Colo y es de
un 25% en caso contrario. Un penal a favor de la Selección Chilena acaba de ser cobrado,
¿cuál es la probabilidad de que el penal sea ejecutado por un jugador de Colo-Colo y sea
convertido?
Sea (Ω, P ) modelo de probabilidades y A1 , A2 los sucesos siguientes:
A1 : penal ejecutado por un jugador de Colo-Colo , A2 : penal es convertido.
Según los datos del problema se tiene que
P (A1 ) = 0.8, P (A2 /A1 ) = 0.7, P (A2 /Ac1 ) = 0.25,
y se desea calcular P (A1 ∩ A2 ), que por la regla del producto resulta

P (A1 ∩ A2 ) = P (A1 ) P (A2 /A1 )
= 0.8 · 0.7
= 0.56.
Por otra parte, ¿cuál es la probabilidad de que un penal cobrado a favor de la Selección
Chilena sea convertido?, esto es, ¿cuál es el valor de P (A2 )?
Notemos que del enunciado del problema, sólo se saben probabilidades condicionales de
que el penal sea convertido, ya sea que el ejecutante sea de Colo-Colo o pertenezca a otro
club.
Para hacer uso de esas probabilidades condicionales, consideramos el hecho que los
sucesos (A1 ∩ A2 ) y (Ac1 ∩ A2 ) forman una partición de A2 (véase Proposición 1.4.1 d)),
esto es
A2 = (A1 ∩ A2 ) ∪ (Ac1 ∩ A2 ).
Luego,
P (A2 ) = P (A1 ∩ A2 ) + P (Ac1 ∩ A2 ).
Pero, por la regla del producto,
P (A1 ∩ A2 ) = P (A1 ) P (A2 /A1 )
= 0.8 · 0.7
= 0.56
y
P (Ac1 ∩ A2 ) = P (Ac1 ) P (A2 /Ac1 )
= (1 − 0.8) · 0.25
= 0.05.
En consecuencia,
P (A2 ) = 0.56 + 0.05
= 0.61.
Cabe señalar que la Observación 1.5.2 α) implica que

P (Ac2 / A1 ) = 1 − P (A2 / A1 )
= 1 − 0.7
= 0.3.
- 79 -
y
P (Ac2 / Ac1 ) = 1 − P (A2 / Ac1 )
= 1 − 0.25
= 0.75.
Una forma práctica de resolver problemas como el anterior es recurrir a un diagrama

de árbol. Estos diagramas son útiles cuando el experimento aleatorio (subyacente a las
probabilidades que se desee obtener) posea una “secuencia de etapas”.
El diagrama de árbol para el ejemplo anterior es el siguiente:
A2
el penal
A1 es convertido
0.7
penal ejecutado
por un jugador
de Colo-Colo Ac2
0.3
0.8 el penal no
es convertido
A2
el penal
Ac1 es convertido
0.2
0.25
penal ejecutado
por un jugador
de otro equipo Ac2
0.75
el penal no
es convertido
Figura 1.5.5
Llamaremos ramas del árbol a las flechas del tipo ↗ o ↘ y caminos a secuencias
de ramas, por ejemplo, → →.
Los números en cada rama del árbol representan las probabilidades condicionales del
suceso asociado al final de la rama, dada la secuencia de sucesos que nos conducen a la
rama inicial.
Por ejemplo, 0.75 representa la probabilidad de que un penal cobrado en favor de la
Selección Chilena no sea convertido, dado que este fue ejecutado por un jugador que no
es de Colo-Colo. Esto es P (Ac2 / Ac1 ) = 0.75.
Un camino representa la ocurrencia conjunta de los sucesos involucrados en el camino.
Por ejemplo, el camino
0.7
0.8
Figura 1.5.6
- 80 -
representa la ocurrencia del suceso A1 ∩ A2 , y su probabilidad se calcula como el producto

entre los números de cada una de las ramas (regla del producto). Ası́,
P (A1 ∩ A2 ) = 0.8 · 0.7

= 0.56.
La partición de A2 en (A1 ∩ A2 ) y (Ac1 ∩ A2 ), es decir, la descomposición del suceso

“penal convertido” en los sucesos “penal ejecutado por un jugador de Colo-Colo y conver-
tido” y “penal ejecutado por un jugador de otro equipo y convertido”, puede ser vista en
el diagrama tomando todos los caminos del árbol que conducen al suceso A2 (caminos de
linea punteada)
A2
0.7
A1
0.8
0.3
Ac2
A2
0.25
0.2
Ac1
0.75
Ac2
Figura 1.5.7
Luego, la probabilidad del suceso A2 será la suma de las probabilidades obtenidas en

cada camino.
Recordar que la probabilidad de cada camino es calculada usando la regla del producto
(producto de los números de cada rama del camino). Ası́,
P (Ac1 ∩ A2 ) = P (Ac1 ) P (A2 /Ac1 )

= 0.2 · 0.25
= 0.05.
En consecuencia,
P (A2 ) = 0.8 · 0.7 + 0.2 · 0.25
= 0.56 + 0.05
= 0.61.
Por otra parte, supongamos que un penal fue sancionado a favor de la Selección Chilena
y ha sido desperdiciado, ¿cuál es la probabilidad de que el ejecutante halla sido jugador
de Colo-Colo?
La probabilidad que se desea calcular es P (A1 / Ac2 ), la cual no fue dada en el enunciado del
problema. Para calcular P (A1 / Ac2 ), recurrimos a la definición de probabilidad condicional
- 81 -
y al árbol siguiente
A2
0.7
A1
0.8
0.3
Ac2
A2
0.25
0.2
Ac1
0.75
Ac2
Figura 1.5.8
Entonces,
P (A1 ∩ Ac2 )
P (A1 /Ac2 ) =
P (Ac2 )
y además,
P (A1 ∩ Ac2 ) = 0.8 · 0.3

= 0.24 (siguiendo el camino correspondiente
en el árbol)
P (Ac2 ) = 0.8 · 0.3 + 0.2 · 0.75

= 0.39 (siguiendo los caminos del árbol que
conducen al suceso Ac2 )
Por lo tanto,
0.24
P (A1 / Ac2 ) =
0.39
= 0.615.
Ejemplo 1.5.5: Supongamos que hay dos componentes eléctricas. La chance que la
primera componente falle es de 10%. Si la primera componente falla, la chance que la
segunda componente falle es 20%. Pero, si la primera componente funciona, la chance que
la segunda componente falle es 5%. Calculemos la probabilidad de los siguientes sucesos:
a) al menos una de las componentes funciona,
b) exactamente una de las componentes funciona,
c) la segunda componente funciona.
El siguiente diagrama de árbol que presenta la Figura 1.5.9, muestra todos los posibles
resultados de la primera y segunda componente. Para calcular las probabilidades en a), b)
y c) usaremos la metodologı́a descrita en el ejemplo anterior.
- 82 -
Primeramente, a partir de la Proposición 1.4.1 a) y la Observación 1.5.2 α), se con-

cluye que
P (A1 ) = 1 − P (Ac1 )
= 1 − 0.1
= 0.9,
P (A2 / Ac1 ) = 1 − P (Ac2 / Ac1 )

= 1 − 0.2
= 0.8,
P (A2 / A1 ) = 1 − P (Ac2 / A1 )
= 1 − 0.05
= 0.95.
Luego, el diagrama de árbol resultante es
A2
Segunda componente
A1 95% funciona
Primera componente
funciona Ac2
90% 5% Segunda componente

falla
A2
Segunda componente
10% Ac1 80% funciona
Primera componente
falla Ac2
20% Segunda componente
falla
Figura 1.5.9
Inspeccionando el diagrama vemos que
a)
P (al menos una componente funciona) = P (A1 ∪ A2 )
= P ((Ac1 ∩ Ac2 )c )
= 1 − P (Ac1 ∩ Ac2 )
= 1 − 0.1 · 0.2
= 0.98.
- 83 -
b)
P (exactamente una componente funciona) = P (1a funciona y 2a falla)
+P ( 1a falla y 2a funciona )
= P (A1 ∩ Ac2 ) + P (Ac1 ∩ A2 )
= 0.9 · 0.05 + 0.1 · 0.8
= 0.125.
c)
P (2a componente funciona) = P (1a funciona y 2a funciona)
+P ( 1a falla y 2a funciona )
= P (A1 ∩ A2 ) + P (Ac1 ∩ A2 )
= 0.9 · 0.95 + 0.1 · 0.8
= 0.935.
La siguiente regla generaliza la Proposición 1.5.2 a n sucesos (n ≥ 3), esto es, muestra
como calcular la probabilidad de una intersección de n sucesos, a partir de probabilidades
condicionales.
Proposición 1.5.3: Regla del producto generalizado. Sea (Ω, P ) modelo de probabi-
lidades cualquiera y A1 , A2 , . . . , An (n ≥ 3) sucesos, de modo que se cumple
P (A1 ∩ A2 ∩ · · · ∩ An ) ̸= 0. Entonces,
P (A1 ∩ A2 ∩ · · · ∩ An ) = P (A1 )P (A2 /A1 )P (A3 /A1 ∩ A2 ) · · · P (An /A1 ∩ A2 ∩ · · · ∩ An−1 ).
En el caso en que n = 3, la relación anterior se escribe como
P (A1 ∩ A3 ∩ A3 ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 ∩ A2 )
y cuando n = 4,
P (A1 ∩ A3 ∩ A3 ∩ A4 ) = P (A1 ) P (A2 /A1 ) P (A3 /A1 ∩ A2 ) P (A4 /A1 ∩ A2 ∩ A3 ).
La verificación de esta Proposición la realizamos para el caso n = 4. El caso general

es totalmente análogo.
Usando la definición de probabilidad condicional obtenemos que
P (A1 ∩ A2 )
P (A2 / A1 ) = ,
P (A1 )
P (A1 ∩ A2 ∩ A3 )
P (A3 / A1 ∩ A2 ) = ,
P (A1 ∩ A2 )
P (A1 ∩ A2 ∩ A3 ∩ A4 )
P (A4 / A1 ∩ A2 ∩ A3 ) = .
P (A1 ∩ A2 ∩ A3 )
- 84 -
En consecuencia,
P (A1 ∩ A2 ) P (A1 ∩ A2 ∩ A3 )
P (A1 )P (A2 / A1 )P (A3 / A1 ∩ A2 )P (A4 / A1 ∩ A2 ∩ A3 ) = P (A1 )
P (A1 ) P (A1 ∩ A2 )
P (A1 ∩ A2 ∩ A3 ∩ A4 )
·
P (A1 ∩ A2 ∩ A3 )
= P (A1 ∩ A2 ∩ A3 ∩ A4 ),
lo que concluye la demostración.
Veamos la regla del producto generalizado (caso n = 3) a través de diagramas de árbol.
Ejemplo 1.5.6: Considere tres urnas, A, C y E, de modo que la urna A contenga 3

fichas blancas y 2 negras, la urna C contenga 5 fichas blancas y 3 negras y la urna E
contenga 2 fichas blancas y 5 negras.
Se lanza un dado equilibrado: Si aparece el 1 ó 2, se extrae de la urna A una ficha, y
sin regresar ésta a la urna se extrae una segunda ficha. En tanto, si aparece el valor 3,
4 ó 5, la extracción de las fichas se hace de la urna C, y si en el dado aparece un 6, las
fichas se extraen de la urna E.
a) ¿Cuál es la probabilidad de que la segunda ficha extraı́da sea negra?
b) Dado que la primera ficha extraı́da fue negra, ¿cuál es la probabilidad de que la
segunda también lo haya sido?
Primeramente, A, C, E, B1 , B2 , N1 , N2 denotan los siguientes sucesos:
A = el dado muestra el número 1 ó 2,

C = el dado muestra el número 3, 4 ó 5,
E = el dado muestra el número 6,
B1 = la ficha escogida en la primera extracción es blanca,
B2 = la ficha escogida en la segunda extracción es blanca,
N1 = la ficha escogida en la primera extracción es negra,
N2 = la ficha escogida en la segunda extracción es negra.
El diagrama de árbol para este ejemplo es el siguiente:
- 85 -
Urna A
2
◦•
Urna A 4 •
la 2a ficha
◦•◦ escogida es blanca
• Urna A
3 la 1a ficha 2
5 escogida es blanca
4 ◦•◦
Urna A
la 2a ficha
◦•◦◦ escogida es negra
• Urna A
el resultado del
dado es 1 ó 2 2 3
◦•◦
5 Urna A 4
la 2a ficha
◦•◦◦ escogida es blanca
Urna A
la 1a ficha 1
escogida es negra
4
◦◦◦
la 2a ficha
2 escogida es negra
6
Urna C
4
◦◦◦•
Urna C 7 ••
la 2a ficha
◦◦◦• escogida es blanca
••◦ Urna C
5 la 1a ficha 3
escogida es blanca
◦◦◦
8 7 ••◦
Urna C
la 2a ficha
◦◦◦• escogida es negra
3 ••◦◦ Urna C
6 el resultado del
dado es 3, 4 ó 5 3 5
◦◦◦•
8 Urna C 7 •◦
la 2a ficha
◦◦◦• escogida es blanca
•◦◦ Urna C
la 1a ficha 2
escogida es negra
◦◦◦
7 •◦◦
la 2a ficha
1 escogida es negra
6
Urna E
1
•••
Urna E 6 ••
la 2a ficha
•••◦ escogida es blanca
•• Urna E
2 la 1a ficha 5
escogida es blanca
•••◦
7 6 •
Urna E
la 2a ficha
•••◦ escogida es negra
••◦ Urna E
el resultado del
dado es 6 5 2
•••
7 Urna E 6 •◦
la 2a ficha
•••◦ escogida es blanca
•◦ Urna E
la 1a ficha 4
escogida es negra
6
••◦
•◦
la 2a ficha
escogida es negra
Figura 1.5.10
El diagrama anterior, en forma sintetizada, se escribe como en la figura siguiente.
- 86 -
2 B2
4
3
B1
5
2
4 N2
A 3 B2
4
2
N1
5
2
6 1
4 N2
4 B2
7
5
B1
8
3
7 N2
C
3 5 B2
7
6
3
N1
8
2
7 N2
1 B2
6
1
6
2
B1
7
5
6 N2
E 2 B2
6
5
N1
7
4
6 N2
Figura 1.5.11
Por ejemplo, la rama que indica 65 significa la probabilidad de que la segunda ficha escogida
sea negra, dado que el dado mostró el número 6 y que la primera ficha escogida fue blanca,
esto es,
5
P (N2 / E ∩ B1 ) = .
6
También, por la regla del producto generalizado, 62 · 52 · 43 = 10
1
, representa la ocurrencia
del suceso A ∩ N1 ∩ B2 , esto es, el dado mostró el número 1 ó 2, la primera ficha escogida
- 87 -
fue negra y la segunda fue blanca,
P (A ∩ N1 ∩ B2 ) = P (A) P (N1 / A) P (B2 / A ∩ N1 )
2 2 3
= · ·
6 5 4
1
= .
10
Para ver la probabilidad de que la segunda ficha extraı́da sea negra, debemos sumar las
probabilidades obtenidas en cada camino que conduzca al suceso N2 . Ası́,
2 3 2 2 2 1 3 5 3 3 3 2 1 2 5 1 5 4
P (N2 ) = · · + · · + · · + · · + · · + · ·
6 5 4 6 5 4 6 8 7 6 8 7 6 7 6 6 7 6
93114
=
211680
= 0.44.
Para responder la parte b) de la pregunta, debemos calcular P (N2 / N1 ). Sin embargo,

esta probabilidad condicional no aparece en ninguna rama del árbol. Las probabilidades
que si aparecen son
1
P (N2 / A ∩ N1 ) = ,
4
2
P (N2 / C ∩ N1 ) = ,
7
4
P (N2 / E ∩ N1 ) = .
6
Por esta razón, calculamos P (N2 / N1 ) usando la definición de probabilidad condicional
P (N1 ∩ N2 )
P (N2 / N1 ) = .
P (N1 )
Siguiendo los caminos respectivos en el árbol, vemos que
2 2 1
P (A ∩ N1 ∩ N2 ) = · · ,
6 5 4
3 3 2
P (C ∩ N1 ∩ N2 ) = · · ,
6 8 7
1 5 4
P (E ∩ N1 ∩ N2 ) = · · ,
6 7 6
pero, A, C, E forman una partición de {1, 2, 3, 4, 5, 6}, luego
- 88 -
(
P (A ∩ N1 ∩ N2 ) + P (C ∩ N1 ∩ N2 ) + P (E ∩ N1 ∩ N2 ) = P (A ∩ N1 ∩ N2 ))∪ (C ∩ N1 ∩ N2 )
∪ (E ∩ N1 ∩ N2 )
= P ((A ∪ C ∪ E) ∩ (N1 ∩ N2 ))
= P (Ω ∩ (N1 ∩ N2 ))
= P (N1 ∩ N2 ).
Por lo tanto,
2 2 1 3 3 2 1 5 4
P (N1 ∩ N2 ) = · · + · · + · ·
6 5 4 6 8 7 6 7 6
8799
=
52920
= 0.166.
O sea, P (N1 ∩ N2 ) corresponde a la suma de las probabilidades obtenidas en cada camino
que contenga a N1 y N2 .
Por otra parte, al igual en el Ejemplo 1.5.4, P (N1 ) corresponde a la suma de las
probabilidades obtenidas en cada camino que “termina” en el suceso N1 . Observando el
árbol anterior vemos que
2 2 3 3 1 5
P (N1 ) = · + · + ·
6 5 6 8 6 7
2217
=
5040
= 0.44,
en consecuencia,
P (N1 ∩ N2 )
P (N2 / N1 ) =
P (N1 )
0.166
=
0.44
= 0.377.
Ejemplo 1.5.7: Carlo Antonio quiere enviar un e-mail a Joel. La probabilidad de que
Carlo Antonio escriba el e-mail es 0.8. Se sabe además que el servidor de correo de Carlo
Antonio tiene probabilidad 0.99 de funcionar, mientras que el servidor de correo de Joel
tiene probabilidad 0.05 de no funcionar. Dado que Joel no recibió un e-mail de Carlo
Antonio, ¿cuál es la probabilidad de que Carlo Antonio no lo halla escrito?
Primeramente, a partir la Proposición 1.4.1 a) y la Observación 1.5.2 α), se obtiene que
P (Ac1 ) = 1 − P (A1 )
= 1 − 0.8
= 0.2,
- 89 -
P (Ac2 / A1 ) = 1 − P (A2 / A1 )
= 1 − 0.99
= 0.01,
P (A3 / A1 ∩ A2 ) = 1 − P (Ac3 / A1 ∩ A2 )
= 1 − 0.05
= 0.95,
Ası́, el diagrama de árbol resultante es

A3
Servidor de
correo de Bc
Joel 1
A2 0.95 funciona
Joel recibe
el e-mail de
Servidor de
Carlo Antonio
correo de
Carlo Antonio
A1 0.99 funciona
Ac3
Servidor de
Carlo Antonio 0.05 correo de
escribe el
Joel
e-mail Ac2 no funciona
Servidor de
0.8 0.01 correo de
Carlo Antonio 1
no funciona
1 B
Joel no recibe
el e-mail de
0.2 Ac1 Carlo Antonio
Carlo Antonio 1
no escribe
el e-mail
Figura 1.5.12
La probabilidad condicional P (Ac1 / B) , no aparece en el enunciado del problema. Para

calcularla, recurrimos a la definición de probabilidad condicional y al árbol anterior.
Primeramente,
P (Ac1 ∩ B)
P (Ac1 / B) = ,
P (B)
por lo que debemos calcular P (Ac1 ∩ B) y P (B) .
La probabilidad P (Ac1 ∩ B), corresponde a la suma de las probabilidades obtenidas en cada
camino que contenga a Ac1 y B. Como hay un único camino que contiene a Ac1 y B, y este
tiene probabilidad 0.2 · 1, se concluye que
P (Ac1 ∩ B) = 0.2 · 1
= 0.2.
También, P (B) corresponde a la suma de las probabilidades obtenidas en cada camino que
“termine” en el suceso B. Ası́,
P (B) = 0.8 · 0.99 · 0.05 · 1 + 0.8 · 0.01 · 1 + 0.2 · 1

= 0.2476.
- 90 -
En consecuencia,
0.2
P (Ac1 /B) =
0.2476
= 0.81.
Veamos ahora una especie de promedio de probabilidades condicionales, más conocido

como Fórmula de Probabilidades Totales.
Ilustramos esta especie de promedio de probabilidades condicionales con el Ejemplo
1.5.5 .
Sea A el suceso “exactamente una componente funciona”. Recordemos que los sucesos
A1 y A2 fueron definidos como:
A1 = primera componente funciona, A2 = segunda componente funciona.
Primeramente, de la definición de probabilidad condicional,
P (A ∩ A1 ) = P (A / A1 ) P (A1 ) y P (A ∩ Ac1 ) = P (A / Ac1 ) P (Ac1 ) .
Además,
P (A ∩ A1 ) = P (exactamente una componente funciona y 1a componente funciona)

= P (1a componente funciona y 2a componente falla)
= P (A1 ∩ Ac2 )
y
P (A ∩ Ac1 ) = P (exactamente una componente funciona y 1a componente falla)

= P (1a componente falla y 2a componente funciona)
= P (Ac1 ∩ A2 ).
Pero, la parte b) del Ejemplo 1.5.5 indica que
P (A) = P (A1 ∩ Ac2 ) + P (Ac1 ∩ A2 ),
por lo que las relaciones anteriores nos conducen a la ecuación
P (A) = P (A/A1 ) P (A1 ) + P (A/Ac1 ) P (Ac1 ). (α)
Esta última relación nos entrega la probabilidad del suceso A como la suma de probabili-
dades de caminos conducentes al suceso A.
Observando el diagrama de árbol de la Figura 1.5.9 , vemos que la ecuación anterior
nos dice que P (A) puede ser calculada como la suma de las probabilidades de los caminos
en que ocurre el suceso A.
Cabe señalar que el suceso A1 define una partición del espacio muestral Ω en dos
sucesos: A1 y Ac1 , que corresponden a las dos ramas iniciales del árbol que muestra la
Figura 1.5.9.
- 91 -
Existe una fórmula similar a (α), para cualquier suceso A y cualquier partición A1 , . . . , An
del espacio muestral Ω. En este caso, la partición determinará n ramas iniciales en el árbol
asociado. Esta fórmula se expresa en la siguiente proposición.
Proposición 1.5.4: Teorema de Probabilidades Totales.Sea (Ω, P ) modelo de pro-

babilidades cualquiera y A1 , . . . , An , partición de Ω, esto es,
Ω = A1 ∪ A2 ∪ · · · ∪ An y para i ̸= j, Ai ∩ Aj = ∅.
Si A es suceso cualquiera y P (Ai ) > 0, para todo i ∈ {1, . . . , n}, entonces
P (A) = P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 ) + · · · + P (A / An ) P (An ).
En otras palabras, la probabilidad P (A), es el promedio de las probabilidades P (A / Ai )

con pesos P (Ai ).
La demostración de esta proposición es bastante simple, y la ilustraremos con n = 4
para simplificar las notaciones.
Como Ω = A1 ∪ A2 ∪ A3 ∪ A4 , entonces
A= A∩Ω
= A ∩ (A1 ∪ A2 ∪ A3 ∪ A4 )
= (A ∩ A1 ) ∪ (A ∩ A2 ) ∪ (A ∩ A3 ) ∪ (A ∩ A4 ).
Además, los sucesos que componen esta unión son disjuntos, pues A1 , A2 , A3 , A4 son
disjuntos (por ser una partición de Ω)
Ω
A1 A3
A
A∩A1 A∩A2 A∩A3 A∩A4
A2 A4
Figura 1.5.13
Entonces, por la regla de la aditividad (Proposición 1.4.1, c)),
P (A) = P (A ∩ A1 ) + P (A ∩ A2 ) + P (A ∩ A3 ) + P (A ∩ A4 ).
Ahora, por la regla del producto (Proposición 1.5.2)
P (A ∩ Ai ) = P (A / Ai ) P (Ai ), para i ∈ {1, 2, 3, 4},
- 92 -
de donde,
P (A) = P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 ) + P (A / A3 ) P (A3 ) + P (A / A4 ) P (A4 ).
Ejemplo 1.5.8: Los huevos de una avı́cola se colocan en cajas de 12 unidades y se envı́an
a un cierto establecimiento comercial. Los controles de calidad de este indican que el 77.9%
de las cajas no contiene huevos quebrados, el 19.4% contiene un huevo quebrado, el 2.6%
contiene dos huevos quebrados y el 0.1% de las cajas contiene tres huevos quebrados. La
probabilidad de que haya más de tres huevos quebrados es cero.
Se elige, al azar, un huevo de una caja, ¿cuál es la probabilidad de que esté quebrado?
Sea (Ω, P ) modelo de probabilidades y A1 , A2 , A3 , A4 , A, los siguientes sucesos:
A1 = la caja contiene cero huevos quebrados,
A2 = la caja contiene un huevo quebrado,
A3 = la caja contiene dos huevos quebrados,
A4 = la caja contiene tres huevos quebrados,
A = huevo escogido está quebrado.
Según los datos del problema,
P (A1 ) = 0.779, P (A2 ) = 0.194, P (A3 ) = 0.026, P (A4 ) = 0.001
y
1 2 3
P (A/A1 ) = 0, P (A/A2 ) =
, P (A/A3 ) = , P (A/A4 ) = .
12 12 12
En consecuencia, por el Teorema de Probabilidades Totales,
P (A) = P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 ) + P (A / A3 ) P (A3 ) + P (A / A4 ) P (A4 )
1 2 3
= 0 · 0.779 + · 0.194 + · 0.026 + · 0.001
12 12 12
= 0.02075.
Ahora veremos una última regla acerca de probabilidades condicionales. Esta regla
entrega una forma de “actualizar” probabilidades y es conocida como regla de Bayes.
Antes de mostrar la regla en forma general, veamos un ejemplo que ilustre las ideas
básicas.
Ejemplo 1.5.9: Supongamos que hay tres cajas similares. La caja i contiene i fichas
blancas y una ficha negra, i = 1, 2, 3.
◦ ◦ ◦
◦ • ◦ • ◦ •
Caja 1 Caja 2 Caja 3
Figura 1.5.14
- 93 -
Asumiremos también que todas las fichas son similares (mismo tamaño y misma textura).
Supongamos que yo escojo una caja al azar y entonces saco una ficha al azar desde esta
caja, mostrándote a ti sólo el color de la ficha. Yo te ofrezco un premio si tu puedes
adivinar de que caja provenı́a la ficha que te he mostrado.
Problema: ¿Qué caja deberı́as escoger si la ficha que yo te muestro es blanca? y ¿cuál
es la chance que tienes de acertar?
Solución: Es intuitivamente razonable que tu escojas la caja 3, ya que ésta es la caja
que tiene una mayor proporción de fichas blancas. Para confirmarlo, realicemos, para
i = 1, 2, 3 , el cálculo de
P (caja escogida es la N o i y ficha extraı́da es blanca)
P (caja escogida es la N o i/ficha extraı́da es blanca) = .
P (ficha extraı́da es blanca)
La siguiente Figura muestra el diagrama de árbol asociado al problema
Caja escogida Ficha extraı́da
1
2
◦ •
1 1
3 2
◦
2
1 3
3 ◦
◦ • 1
3
•
1 3
3 4
◦ ◦
1
◦ • 4
Figura 1.5.15
De la Figura anterior, y por la regla del producto,
1 1
P (caja escogida es la N o 1 y ficha extraı́da es blanca) = · ,
3 2
1 2
3 3
1 3
3 4
es decir, para i = 1, 2, 3,
1 i
P (caja escogida es la N o i y ficha extraı́da es blanca) = · .
3 i+1
- 94 -
Los sucesos Ai = caja escogida es la N o i, con i ∈ {1, 2, 3}, forman una partición del
espacio muestral. Aplicando el Teorema de Probabilidades Totales al suceso A =ficha
extraı́da es blanca, y usando el árbol anterior, obtenemos que
1 1 2 1 3 1
P (ficha extraı́da es blanca) = · + · + ·
2 3 3 3 4 3
23
= .
36
En consecuencia,
1
3 · i
i+1
P (caja escogida es la N o i / ficha extraı́da es blanca) = 23
36
12 i
= · (i = 1, 2, 3).
23 i + 1
i
Sustituyendo i+1 , para i = 1, 2, 3, obtenemos los siguientes resultados:
i 1 2 3
6 8 9
P (caja escogida es la N o i / ficha extraı́da es blanca) 23 23 23
Tabla 1.5.2
Esta tabla confirma la idea intuitiva de que escoger la caja 3 es lo más razonable, si se
está informado(de que la )ficha extraı́da fue blanca. Además, la chance de acertar es del
orden del 39% 23 9
≃ 0.39 .
Supongamos, más generalmente, que los sucesos A1 , . . . , An , representan n posibles

resultados (mutuamente excluyentes) de la “primera etapa” de un experimento aleatorio.
Se asume que los resultados de esta primera etapa son desconocidos. Sin embargo, el
resultado de un suceso A que ocurre en una “segunda etapa” y cuya chance depende de
cual de los Ai ha ocurrido, es conocido.
En el ejemplo previo A era el suceso que la ficha extraı́da fuese blanca y Ai el suceso
que la caja elegida fuese la N o i, i = 1, 2, 3.
El problema general es calcular las probabilidades de los sucesos Ai , dada la ocurrencia
del suceso A (llamadas probabilidades a posteriori), en términos de
a) la probabilidad (no condicional) P (Ai ),
b) las probabilidades condicionales P (A / Ai ).
Proposición 1.5.5: Teorema de Bayes. Sea (Ω, P ) modelo de probabilidades cualquiera

y A1 , . . . , An , partición de Ω. Si A es un suceso cualquiera de modo que P (A) > 0 y
P (Ai ) > 0, para i ∈ {1, . . . , n}, entonces
- 95 -
P (A / Ai ) P (Ai )
P (Ai / A) = , i ∈ {1, . . . , n}.
P (A / A1 ) P (A1 ) + · · · + P (A / An ) P (An )
En efecto, de la definición de probabilidad condicional,

P (A ∩ Ai )
P (Ai / A) =
P (A)
y por la regla del producto,
P (A ∩ Ai ) = P (A / Ai ) P (Ai ).
Además, por el Teorema de Probabilidades Totales,
P (A) = P (A / A1 ) P (A1 ) + · · · + P (A / An ) P (An ).
En consecuencia, la fórmula que entrega el Teorema de Bayes se verifica.
Ejemplo 1.5.10: Durante el mes de julio la probabilidad de que llueva en un dı́a deter-
5
minado es 30 . Universidad de Chile gana un partido en un dı́a con lluvia con probabilidad
6 3
10 y en un dı́a sin lluvia con probabilidad 10 . Sabiendo que Universidad de Chile ganó un
partido en un dı́a de julio, ¿cuál es la probabilidad de que ese dı́a lloviera?
Sea (Ω, P ) modelo de probabilidades y A1 , A2 , A, los siguientes sucesos:
A1 = dı́a de julio llueve,
A2 = dı́a de julio no llueve,
A = Universidad de Chile gana el partido.
Según los datos del problema,

5 6 3
P (A1 ) = , P (A / A1 ) = , P (A / A2 ) =
30 10 10
25
y como A1 , A2 forman una partición de Ω, esto es, A2 = Ac1 , entonces P (A2 ) = 30 .
La siguiente figura muestra el diagrama de árbol para este ejemplo
A
Universidad de Chile
A1 6 gana el partido
10
Dı́a de Julio
llueve
5
30 Universidad de Chile
no gana el partido
A
25 3 gana el partido
30 A2 10
Dı́a de Julio
no llueve
no gana el partido
Figura 1.5.16
- 96 -
Además, como el problema consiste en calcular P (A1 / A), utilizaremos el Teorema de

Bayes para resolverlo. Ası́,
P (A / A1 ) P (A1 )
P (A1 / A) =
P (A / A1 ) P (A1 ) + P (A / A2 ) P (A2 )
10 · 30
6 5
= 6
10 · 5
30 + 10
3
· 25
30
2
= .
7
Ejemplo 1.5.11: En una fábrica de neumáticos, se sabe que 7 de cada 10000 neumáticos
presenta algún tipo de falla. Un test para detectar si un neumático está fallado da resul-
tado positivo (es decir, avisa que el neumático tiene fallas) el 98% de las veces que éste
efectivamente está fallado y da resultado positivo el 9% de las veces que el neumático está
bueno. Es decir, el 9% de las veces el test avisa que el neumático está fallado cuando éste
efectivamente está bueno.
Se elige al azar un neumático de esta fábrica y se le aplica el test. Calculemos la probabi-
lidad de que:
i) el neumático esté fallado y el resultado del test sea positivo,
ii) el neumático esté fallado y el resultado el test sea negativo, es decir, que el neumá-
tico esté fallado y que el test lo detecte como bueno,
iii) el neumático esté bueno y el resultado del test sea positivo,
iv) el neumático esté fallado sabiendo que el resultado del test es positivo.
La Figura siguiente muestra el diagrama de árbol asociado a este ejemplo.

+
Resultado del test

F 0.98 es positivo
Neumático
está fallado −
7 0.02
10000 Resultado del test
es negativo
Resultado del test

9993 es positivo
10000 B 0.09
Neumático
está bueno −
0.91 Resultado del test
es negativo
Figura 1.5.17
- 97 -
Sea (Ω, P ) espacio de probabilidades y F , B, +, − sucesos como los definidos en la

figura anterior. En estas condiciones, los datos del problema se traducen en
7
P (F ) = , P (+ / F ) = 0.98, P (+ / B) = 0.09.
10000
9993
También, por el hecho de que B = F c , se obtiene P (B) = 10000 y como el complemento
de + es −, Observación 1.5.2 α) implica que
P (− / F ) = 0.02, P (− / B) = 0.91.
En consecuencia, por la regla del producto se obtiene que
i)
P (F ∩ +) = P (F ) P (+ / F )
= 0.0007 · 0.98
= 0.000686
ii)
P (F ∩ −) = P (F ) P (− / F )
= 0.0007 · 0.02
= 0.000014
iii)
P (B ∩ +) = P (B) P (+ / B)
= 0.9993 · 0.09
= 0.089937
Ahora, utilizando el Teorema de Bayes resulta
iv)
P (+ / F ) P (F )
P (F / +) =
P (+)
P (+ / F ) P (F )
=
P (+ / F ) P (F ) + P (+ / B) P (B)
0.000686
=
0.000686 + 0.089937
= 0.00757.
Notar que P (+) = 0.090623, es decir, la proporción de neumáticos que resultan con
test positivo es del orden de 9 en 100.
Supongamos ahora que se aplica un segundo test más exacto a todos los neumáticos
que dieron positivo en el primer test. El segundo test da resultado positivo en el 99% de
los casos en que el neumático efectivamente está fallado y entrega resultado positivo el 1%
de las veces que el neumático está bueno. Veamos ahora cuál es la probabilidad de que un
neumático esté fallado dado que el segundo test también dio resultado positivo.
La figura siguiente muestra el diagrama de árbol para esta nueva situación
- 98 -
Neumático Resultado 1o test Resultado 2o test
0.99 +
+
0.98 −
F
0.0007 0.02
−
0.01 +
+
0.9993 0.09 −
B
0.91
−
Figura 1.5.18
Utilizando Teorema de Bayes,
P (2o test da positivo / F ) P (F )

P (F / 2o test da positivo) = .
P (2o test da positivo)
Para ver la probabilidad de que el segundo test de positivo, debemos sumar las probabili-
dades obtenidas en cada camino del árbol que conduzca a + (resultado del 2o test). Ası́,
P (2o test da positivo) = 0.0007 · 0.98 · 0.99 + 0.9993 · 0.09 · 0.01
= 0.00158.
También, desde el árbol anterior vemos que
P (F ) P (2o test da positivo / F ) = 0.0007 · 0.98 · 0.99
= 0.00068.
En consecuencia,
P (F / 2o test da positivo) = 0.43.
Para finalizar esta sección introduciremos la noción de independencia de sucesos (que

no debe confundirse con la noción de sucesos disjuntos). Si A y B son sucesos en algún
espacio de probabilidades, la idea intuitiva de que A y B sean independientes, es que la
probabilidad de A no dependa de la ocurrencia o no ocurrencia del suceso B, llamemos p
a esta probabilidad. En sı́mbolos,
P (A / B) = p y P (A / B c ) = p.
Ahora, del Teorema de Probabilidades Totales,
P (A) = P (A / B) P (B) + P (A / B c ) P (B c )
= p P (B) + p P (B c )
= p (P (B) + P (B c ))
= p [P (B) + (1 − P (B))]
= p.
- 99 -
Es decir,
P (A / B) = P (A).
Ejemplo 1.5.12: Una urna contiene dos fichas blancas y tres rojas. Se extraen dos
fichas al azar, sin reposición. Es decir, se elige la primera ficha, se observa su color y no
la devolvemos a la urna; ahora extraemos la segunda ficha.
Sea (Ω, P ) modelo de probabilidades y Bi , Ri , los siguientes sucesos:
Bi = ficha elegida en la i-ésima extracción es blanca,
Ri = ficha elegida en la i-ésima extracción es roja.
Entonces,
1 2
P (B2 / B1 ) = , P (B2 / R1 ) =
4 4
y
2 1 3 2
P (B2 ) = · + ·
5 4 5 4
2
= ,
5
por lo que
P (B2 / B1 ) ̸= P (B2 ).
El siguiente diagrama de árbol representa la situación anterior.
Primera extracción Segunda extracción
B2
Ficha elegida en
a
la 2 extracción
1
B1 4 es blanca
Ficha elegida en
a
la 1 extracción
es blanca R2
2 3 Ficha elegida en
5 4 a
la 2 extracción
es roja
B2
Ficha elegida en
a
la 2 extracción
3 2
5 R1 4 es blanca
Ficha elegida en
a
la 1 extracción
es roja R2
2 Ficha elegida en
4 a
la 2 extracción
es roja
Figura 1.5.19
En consecuencia, los sucesos B1 y B2 no podrı́an ser independientes. Intuitivamente, es
claro que la chance que se tiene de extraer la segunda ficha blanca dependerá (pues la
ficha no se regresa a la urna) de si la primera ficha es blanca o es roja.
Ejemplo 1.5.13: Imaginemos ahora que las fichas se extraen con reposición. Es decir,
se elige la primera ficha, se observa su color y luego se regresa a la urna. Ahora se extrae
la segunda ficha.
- 100 -
En este caso,
2 2
P (B2 / B1 ) = , P (B2 / R1 ) =
5 5
y
2 2 3 2
P (B2 ) = · + ·
5 5 5 5
2
= .
5
El árbol que representa ahora esta situación es
B2
2
5
B1
2 3
5 5
R2
B2
3 2
5 5
R1
3
5
R2
Figura 1.5.20
Es decir, los sucesos B1 y B2 serı́an independientes. Intuitivamente, la chance de extraer

la segunda ficha blanca no depende (pues la ficha elegida regresa a la urna) de si la
primera ficha es blanca o es roja.
Definición 1.5.2: Sea (Ω, P ) modelo de probabilidades cualquiera y A, B sucesos. Se

dice que A y B son independientes si
P (A ∩ B) = P (A) P (B).
Observar que si P (B) > 0, entonces por la regla del producto
P (A ∩ B) = P (A / B) P (B),
de donde obtenemos que

P (A) P (B) = P (A / B) P (B),
o sea,
P (A) = P (A / B).
- 101 -
Observación 1.5.3:
a) Si A y B son sucesos mutuamente excluyentes, esto es A ∩ B = ∅, entonces

P (A ∩ B) = 0, por lo que A y B son independientes si P (A) P (B) = 0, es decir, si
P (A) = 0 ó P (B) = 0.
Sin embargo, dos sucesos pueden ser independientes, pero no mutuamente excluyentes,
es decir, A ∩ B ̸= ∅.
A modo de ejemplo, si Ω = {1, 2, 3, 4, 5, 6}, A = {1, 3}, B = {1, 4, 5} y (Ω, P ) es
el modelo de Laplace, entonces
#(A ∩ B)
P (A ∩ B) =
#Ω
1
=
6
y
#A #B
P (A) P (B) =
#Ω #Ω
23
=
66
1
= .
6
Por lo tanto, los sucesos A y B son independientes, sin embargo A ∩ B ̸= ∅.
b) En general, se dice que los sucesos A1 , A2 , . . . , An son independientes si, para todo
m ∈ {2, 3, . . . , n} y todo {i1 , i2 , . . . , im } ⊂ {1, 2, . . . , n},
P (Ai1 ∩ Ai2 ∩ · · · ∩ Aim ) = P (Ai1 ) P (Ai2 ) · · · · · P (Aim ).
A modo de ejemplo, los sucesos A1 , A2 , A3 son independientes si
P (A1 ∩ A2 ) = P (A1 ) P (A2 ),
P (A1 ∩ A3 ) = P (A1 ) P (A3 ),
P (A2 ∩ A3 ) = P (A2 ) P (A3 ),
P (A1 ∩ A2 ∩ A3 ) = P (A1 ) P (A2 ) P (A3 ).
c) Si A, B son sucesos independientes, entonces también son independientes
i) Ac y B c .
ii) Ac y B.
- 102 -
iii) A y B c .
En efecto,
P (Ac ∩ B c ) = P ((A ∪ B)c )
= 1 − P (A ∪ B)
= 1 − [P (A) + P (B) − P (A ∩ B)]
= 1 − [P (A) + P (B) − P (A) P (B)]
= (1 − P (A)) − (P (B) − P (A) P (B))
= P (Ac ) − P (B)(1 − P (A))
= P (Ac ) − P (B) P (Ac )
= P (Ac )(1 − P (B))
= P (Ac ) P (B c ),
o sea, Ac y B c son independientes.

También, por la regla de la diferencia generalizada (Proposición 1.4.1, d)),
P (Ac ∩ B) = P (B) − P (A ∩ B)
y
P (A ∩ B c ) = P (A) − P (A ∩ B)
es decir,
P (Ac ∩ B) = P (B) − P (A) P (B)
= P (B) (1 − P (A))
= P (B) P (Ac )
y
P (A ∩ B c ) = P (A) − P (A) P (B)
= P (A) (1 − P (B))
= P (A) P (B c ),
o sea, tanto Ac y B como A y B c son independientes.
d) Más generalmente, si A1 , . . . , An son independientes, entonces h1 (A1 ), . . . , hn (An )

son independientes, donde hi (Ai ) = Ai ó hi (Ai ) = Aci .
Ejemplo 1.5.14: Un sistema consiste de dos componentes C1 y C2 , cada una de las

cuales debe permanecer operativa para que el sistema completo funcione. En este caso se
dice que las componentes están conectadas en serie, y se acostumbra a representarlas como
en el diagrama siguiente
C1 C2
Figura 1.5.21
- 103 -
Sea Ti el suceso que la componente Ci trabaja sin fallar por un perı́odo de tiempo, digamos
un dı́a. El suceso que el sistema completo trabaje sin fallar por un perı́odo de un dı́a es el
suceso que ambos operen sin fallar, esto es, el suceso T1 ∩ T2 .
Las probabilidades P (T1 ) y P (T2 ) son llamadas confiabilidades de las componentes C1 y
C2 respectivamente. La probabilidad P (T1 ∩ T2 ) es la confiabilidad del sistema completo.
Supongamos que las confiabilidades P (T1 ) y P (T2 ) son conocidas debido a datos empı́ricos
de comportamientos de componentes similares. Por ejemplo, asumimos que P (T1 ) = 0.9
y P (T2 ) = 0.8. Si las particulares componentes C1 y C2 nunca han sido usadas en
conjunto, P (T1 ∩ T2 ) no podrı́a conocerse empı́ricamente. Pero, puede aún ser razonable
asumir que los sucesos T1 y T2 sean independientes. Entonces, la confiabilidad del sistema
completo deberı́a ser igual a
P (sistema funcione) = P (T1 ∩ T2 )
= P (T1 ) P (T2 )
= 0.9 · 0.8
= 0.72.
Sin embargo, el supuesto de independencia de T1 y T2 podrı́a no ser correcto. Por ejemplo,
si la falla de ambas componentes se debe a una causa común (fluctuación de voltaje de un
generador, corte circuito, etc.). En este caso, para encontrar la confiabilidad del sistema,
deberı́amos usar la regla del producto
P (T1 ∩ T2 ) = P (T2 / T1 ) P (T1 )
y asumir que P (T2 / T1 ) puede ser determinado empı́ricamente.
Un método para hacer crecer la confiabilidad de un sistema es colocar las componentes

C1 y C2 en paralelo. Ası́, para que el sistema completo funcione basta con que alguna
de las dos componentes funcione. Las dos componentes C1 y C2 colocadas en paralelo
pueden ser representadas como lo muestra el diagrama siguiente.
C1
C2
Figura 1.5.22
En este caso, el suceso que el sistema completo trabaje sin fallar por un perı́odo de un dı́a,
es el suceso T1 ∪T2 , esto es, opera la componente C1 o la C2 . Por lo tanto, la confiabilidad
del sistema completo es en este caso
P (sistema funcione) = P (T1 ∪ T2 )
= P (T1 ) + P (T2 ) − P (T1 ∩ T2 ).
Para el ejemplo en que P (T1 ) = 0.9, P (T2 ) = 0.8 y T1 , T2 independientes,

P (sistema funcione) = 0.9 + 0.8 − 0.9 · 0.8
= 0.98.
- 104 -
Recordar que en el caso en que las componentes están conectadas en serie,

P (sistema funcione) = 0.72.
Una forma alternativa de calcular la probabilidad que el sistema funcione, esto es,
calcular P (T1 ∪ T2 ), es la siguiente:
P (T1 ∪ T2 ) = 1 − P ((T1 ∪ T2 )c )
= 1 − P (T1c ∩ T2c ).
Pero, T1 y T2 son independientes, por lo que T1c y T2c también lo son (Observación
anterior, parte c)). En consecuencia
P (T1 ∪ T2 ) = 1 − P (T1c ∩ T2c )

= 1 − P (T1c ) P (T2c )
= 1 − [(1 − P (T1 ))(1 − P (T2 ))]
= 1 − [(1 − 0.9)(1 − 0.8)]
= 1 − 0.1 · 0.2
= 0.98.
Ejemplo 1.5.15: Sea (Ω, P ) modelo de probabilidades y A, B sucesos tales que

P (A) = 0.5 y P (A ∪ B) = 0.8.
a) ¿Para qué valor de P (B), los sucesos A y B serı́an mutuamente excluyentes?
b) ¿Para qué valor de P (B), los sucesos A y B serı́an independientes?

Primeramente, los sucesos A y B son mutuamente excluyentes si A ∩ B = ∅, por lo
que P (A ∩ B) = 0. Pero, de la regla e) en Proposición 1.4.1,
P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Ası́, obtenemos la ecuación

0.8 = 0.5 + P (B) − 0,
de donde P (B) = 0.3.
También, si A y B son independientes, P (A ∩ B) = P (A) P (B), por lo que ahora
obtenemos la ecuación
0.8 = 0.5 + P (B) − 0.5 P (B),
de donde P (B) = 0.6.
Comentario Histórico: Se sabe que Thomas Bayes nació en Londres, Inglaterra, en

1702, pero no se ha encontrado registro de la fecha exacta de su nacimiento. Su padre
fue uno de los primeros seis ministros presbiterianos que fueron ordenados en Inglaterra.
La educación de Thomas fue privada, un hecho que se antoja necesario para el hijo de
un ministro presbiteriano de aquellos tiempos. Parece ser que de Moivre fue su maestro
particular, pues se sabe que por ese entonces ejercı́a como profesor en Londres.
Bayes fue ordenado ministro presbiteriano y asistió a su padre en Holborn. Al final de
la década iniciada en 1720 fue nombrado pastor en Turnbridge Wells (Kent, Inglaterra).
- 105 -
Aunque trató de retirarse de su puesto eclesiástico en 1749, permaneció en él hasta 1752;
una vez retirado siguió viviendo en Turnbridge Wells hasta el dı́a de su muerte.
En reconocimiento al importante trabajo que realizó Thomas Bayes en probabilidad,
su tumba fue restaurada en 1969 con donativos de estadı́sticos de todo el mundo. Teólogo,
matemático y miembro de la Royal Society desde 1742, Bayes fue el primero en utilizar
la probabilidad inductivamente y establecer una base matemática para la inferencia pro-
babilı́stica (la manera de calcular, a partir de la frecuencia con la que un acontecimiento
ocurrió, la probabilidad de que ocurrirá en el futuro).
Los únicos trabajos que se sabe que Thomas Bayes publicó en vida son: Divine Provi-
dence and Government Is the Happiness of His Creatures (1731) y An Introduction to the
Doctrine of Fluxions, and a Defence of The Analyst (1736), que fueron blanco de crı́ticas
por parte del obispo Berkeley, quien sustentaba sus ideas en los fundamentos lógicos del
cálculo de Newton.
En 1763 se publicó póstumamente Essay Towards Solving a Problem in the Doctrine
of Chances, donde el reverendo Bayes abordó el problema de las causas a través de los
efectos observados, y donde se enuncia el teorema que lleva su nombre. Este trabajo fue
entregado a la Royal Society por Richard Price (Phil. Trans. Roy. Soc. 53, 370-418)
y resulta ser la base para la técnica estadı́stica conocida como estadı́stica bayesiana, que
se utiliza para calcular la probabilidad de la validez de una proposición tomando como
bases la estimación de la probabilidad previa y las evidencias relevantes más recientes.
Las desventajas de este método, señaladas por estadı́sticos posteriores a Bayes, incluyen
las diferentes maneras de asignar las distribuciones de parámetros previas y la posible
sensibilidad en las conclusiones según se escojan las distribuciones.
La fórmula de Bayes encuentra aplicaciones importantes, entre otras, en la teorı́a de
artillerı́a de largo alcance como es conocer con más precisión las condiciones de tiro. Las
técnicas de Bayes permiten abordar en forma diferente el área de “toma de decisiones”,
formulándola en términos de pérdidas o ganancias económicas y no en términos de la
probabilidad de tomar la decisión correcta. Ası́, por ejemplo, tomar una o dos decisiones
que pudieran ser incorrectas puede ser benéfico en términos económicos.
Thomas Bayes murió el 17 de abril de 1761. Sus restos descansan en el cementerio
londinense de Bunhill Fields.
- 106 -
PROBLEMAS
Problema 1.5.A: En una urna hay n fichas, de las cuales m son blancas. Se extraen
al azar dos fichas, sin reposición. Sean B1 y B2 , respectivamente, los eventos de que la
primera (la segunda) ficha extraı́da sea blanca. Verifique que P (B2 / B1 ) P (B2 ) tiende a
1 cuando m y n tienden a infinito.
Problema 1.5.B: Una ruleta de casino está formada por 16 números de color rojo, 16
números de color negro y un número de color verde. Indique la probabilidad de que el
color rojo salga 10 veces, 4 veces el negro y 1 vez el verde, en una secuencia de 15 jugadas
(las jugadas sucesivas son independientes).
Problema 1.5.C: Dos personas A y B, juegan un partido de tenis. La probabilidad de

que A gane un set cualquiera es de 0.55 y es independiente del resultado de cualquier otro
set. El primero que gana 3 sets gana el partido. Halle la probabilidad de que A gane el
partido en:
i) un total de 3 sets,
ii) un total de 4 sets,
iii) un total de 5 sets,
iv) los sets que necesite.
Problema 1.5.D: Un sistema electrónico avisa peligro solamente cuando dos de sus tres
componentes fallan. Suponga que las componentes se denotan por 1, 2, 3. Asuma que la
probabilidad de que falle la componente 1 es 0.10, la 2 es 0.15 y la 3 es 0.20. Suponga,
además, que la falla de la componente 3 es independiente de las otras dos componentes,
mientras que la probabilidad de que falle la componente 2 sabiendo que la componente 1
ha fallado es 0.5. Calcule la probabilidad de que el sistema avise peligro.
Problema 1.5.E: Tres ciudades; A, B y C, están unidas por diferentes carreteras (como
en 1.5.23), en cada una de las cuales existe un puente pi . Asuma que la probabilidad de
que un temporal destruya un puente cualquiera es p y que la destrucción de una carretera
no afecta el estado de las otras. ¿Cuál es la probabilidad que después de un temporal:
a) no haya paso de A a B?,
b) no haya paso de A a B, si dos puentes fueron destruidos?
p3 p1
C B
p2
Figura 1.5.23
- 107 -
Problema 1.5.F: Los cinco nodos en el diagrama siguiente, corresponden a interruptores

en un circuito eléctrico. Se dice que el interruptor está cerrado si este deja fluir la corriente
eléctrica. Suponga que los interruptores se comportan de manera independiente y que la
probabilidad de que un interruptor esté cerrado es la misma para todos los interruptores.
Esta probabilidad común se denotará por p.
a) Calcule la probabilidad de que fluya corriente entre B y C.
b) Dado que fluye corriente entre B y C, calcule la probabilidad condicional de que el

interruptor 2 esté abierto
4 5
B 1 C
Figura 1.5.24
Problema 1.5.G: Se dispone de tres urnas, digamos V , W y Z. Suponga que la urna

V contiene 5 fichas blancas y 3 negras, la urna W contiene 4 fichas blancas y 6 negras.
El experimento consiste en extraer, al azar, una ficha de cada urna V , W , y depositarlas
en la urna Z. Se extrae ahora, al azar, una ficha de la urna Z. Calcule la probabilidad de
que la ficha sea negra.
Problema 1.5.H: Para seleccionar sus funcionarios, una empresa ofrece a sus candidatos
un curso de entrenamiento durante una semana. Al final, los candidatos son sometidos a
una prueba, siendo clasificados el 25% como buenos (B), 50% como satisfactorios (S) y el
25% restante como malos (M).
Como medida de economı́a, el departamento de selección pretende sustituir el entre-
namiento por un test. Pero, para esto, la empresa gustarı́a de conocer cuál es la proba-
bilidad de que un individuo aprobado en el test fuese considerado malo en el caso en que
este hubiese hecho el curso. Ası́, ese año, antes del inicio del curso, los candidatos fueron
sometidos al test y, de acuerdo con los resultados, recibieron la calificación aprobado (A) y
reprobado (R). Al final del curso se obtuvieron las siguientes probabilidades condicionales:
P (A/B) = 0.8, P (A/S) = 0.5, P (A/M ) = 0.2.
¿Cuál es la probabilidad de que un individuo aprobado en el test fuese considerado

malo en el caso en que este hubiese hecho el curso?
Problema 1.5.I: Una empresa publica en un periódico del dı́a domingo 3 de diciembre de
2000 un aviso buscando un ingeniero. El aviso indica que los postulantes deben concertar,
telefónicamente, una entrevista con el Sr. Pérez. De las personas que llaman el dı́a lunes
4 de diciembre sólo el 60% logra concertar la entrevista para ese mismo dı́a, del 40%
restante, el 75% concerta la entrevista dentro del resto de la semana y el 25% para la
semana próxima. Dada la alta demanda existente por ingenieros, sólo un 80% de los
- 108 -
postulantes que tienen la entrevista el mismo dı́a lunes 4 de diciembre asisten, mientras
que el 60% y 40% de los postulantes que concertaron la entrevista para el resto de la
semana y la próxima asisten a ella, respectivamente. ¿Cuál es la probabilidad de que un
postulante que asiste a la entrevista, sea uno de los que concertó la entrevista para el resto
de la semana?
Problema 1.5.J: Se sabe que 7 de cada 1000 artı́culos son defectuosos. Un test para
detectar si un artı́culo es defectuoso da un resultado positivo con una probabilidad de 0.98
de que el artı́culo sea defectuoso y un resultado positivo con una probabilidad de 0.09 de
que el artı́culo sea bueno. Es decir, con probabilidad de 0.98 el test avisa que el artı́culo
es defectuoso, cuando este efectivamente lo es, y con probabilidad 0.09, el test avisa que
el artı́culo es defectuoso cuando efectivamente el artı́culo está bueno. Se elige, al azar, un
artı́culo y se le aplica el test.
a) Halle la probabilidad de que:
i) el artı́culo sea defectuoso y el resultado sea positivo,

ii) el artı́culo sea defectuoso y el resultado sea negativo,
iii) el artı́culo sea bueno y el resultado sea positivo,
iv) el artı́culo sea defectuoso sabiendo que el resultado es positivo.
b) Halle la proporción de artı́culos que da un resultado positivo.
c) Se aplica un test más exacto a todos los artı́culos que dan un resultado positivo en
el test anterior. El segundo test da un resultado positivo con una probabilidad de
0.99 de que el artı́culo sea defectuoso y un resultado positivo con una probabilidad
de 0.01 de que el artı́culo sea bueno.
Halle la probabilidad de que un artı́culo sea defectuoso cuando el segundo test entrega
también un resultado positivo.
Problema 1.5.K: Se dispone de una urna que contiene 5 fichas blancas y 10 negras y un
dado equilibrado. El experimento consiste en lanzar el dado y luego escoger de la urna,
sin reposición, tantas fichas como puntos se obtienen en el dado.
a) ¿Cuál es la probabilidad de que exactamente dos de las fichas extraı́das sean de color
blanco blancas?
b) ¿Cuál es la probabilidad de que el dado muestre 3 si todas las fichas extraı́das fueran
blancas?
- 109 -
Problema 1.5.L: Una máquina produce, en serie, cierto tipo de piezas que son ubicadas
al azar en cajas que contienen 1200 unidades. La experiencia ha anotado los siguientes
resultados:
% de piezas defectuosas Proporción de cajas que
en la caja contienen este porcentaje
0 0.78
1 0.17
2 0.034
3 0.009
4 0.005
5 0.002
6 0.000
Se considera aceptable una caja que contiene el 2% o menos de piezas defectuosas. El
objeto de la inspección es rechazar aquellas cajas que tienen un % de defectuosas mayor
que el 2%. La inspección normal consiste en el examen de 50 piezas de cada caja. Una
caja inspeccionada dio 6 piezas defectuosas. Indique la probabilidad de que esta caja sea
rechazable.
Problema 1.5.M: Se dispone de tres dados A, B y C. El dado A es equilibrado, mientras

que B está cargado a favor de los números impares y C lo está a favor de los pares.
Sea p > 12 (respectivamente q < 21 ) la probabilidad de obtener un número impar al
lanzar el dado B (respectivamente el dado C). El experimento consiste en elegir uno de
los dados de acuerdo al mecanismo que se indica a continuación y luego lanzarlo tres veces
(siempre el mismo dado).
El mecanismo de selección consiste en lanzar una moneda no equilibrada D (con probabi-
lidad de cara igual a α ) y seleccionar el dado A si sale cara, de salir sello se elige B o C
con igual probabilidad.
a) Calcule la probabilidad de que en el primer lanzamiento del dado aparezca un número

par.
b) Calcule la probabilidad condicional de que el dado A haya sido seleccionado en la
primera etapa si los dos primeros números obtenidos son impares.
c) Calcule la probabilidad de obtener un número impar en el tercer lanzamiento si se
ha obtenido un número impar en los dos anteriores.
Problema 1.5.N: Alternativamente, se lanza una moneda y un dado, honestos, comen-

zando con la moneda.
a) ¿Cuál es la probabilidad que en el n-ésimo lanzamiento de la moneda resulte “cara”,
sin que antes haya salido cara en los lanzamientos de la moneda, ni que el dado haya
mostrado un 5 ó 6?
b) ¿Cuál es la probabilidad de que la moneda registre una “cara” antes que el dado
muestre un 5 ó 6?
- 110 -
CAPÍTULO 2
VARIABLES ALEATORIAS
2.1 Variables Aleatorias Discretas
En el capı́tulo anterior hemos introducido algunos modelos probabilı́sticos, a través de

espacios muestrales relativamente simples. Esto facilita bastante la comprensión del con-
cepto de probabilidad y la obtención de algunas propiedades. Pero, para afrontar situa-
ciones prácticas más generales, necesitamos ampliar estos conceptos de modo que tengamos
modelos probabilı́sticos que representen todos los tipos de variables que habitualmente
aparecen en situaciones prácticas.
Introduzcamos el concepto de variable aleatoria discreta por medio de algunos ejemplos.
Ejemplo 2.1.1: Un empresario pretende establecer una empresa para el montaje de un

producto compuesto de una esfera y un cilindro. Las partes son adquiridas en fábricas dife-
rentes, y el montaje consistirá en soldar las dos partes y pintarlas. El producto terminado
tiene especificaciones dentro de ciertos lı́mites, respecto del largo, definido por el cilindro,
y el diámetro definido por la esfera. Esto será verificado una vez hecho el montaje.
Para estudiar la viabilidad de la empresa, el empresario quiere tener una idea de la dis-
tribución de la ganancia por cada montaje hecho.
Se sabe que cada componente puede ser clasificada como buena, larga y corta, conforme su
medida esté dentro de las especificaciones, y ésta sea mayor o menor que lo especificado.
Las componentes son adquiridas en dos fábricas diferentes (A y D) y su precio de costo
fue de 5 unidades de dinero (cada componente).
111
Distribución de la producción de las fábricas A y D

de acuerdo con las medidas de las piezas producidas
Fábrica A Fábrica D
Producto Cilindro Esfera
Dentro de las especificaciones . . . . . . . . . Buena (B) 0.8 0.7

Mayor que las especificaciones . . . . . . . . . Larga (L) 0.1 0.2
Menor que las especificaciones . . . . . . . . . Corta (C) 0.1 0.1
Tabla 2.1.1
Si el producto final presenta alguna componente con caracterı́stica C, este será irre-
cuperable, y en conjunto será vendido como oferta a un precio de 5 unidades. Cada
componente Larga puede ser recuperada a un costo adicional de 5 unidades. Si el precio
de venta de cada conjunto es de 25 unidades de dinero, ¿cómo será la distribución de
frecuencias de la variable X: ganancia por el montaje?
La construcción de esta distribución de frecuencias va a depender de ciertos supuestos
que haremos sobre el comportamiento del sistema considerado. En vista de esas suposi-
ciones, estaremos trabajando con un modelo de la realidad, y la distribución que obten-
dremos será una distribución teórica, tanto más próxima de la distribución de frecuencias
real cuanto más fieles a la realidad fueron los supuestos hechos.
Primeramente, veamos la construcción del espacio muestral para el montaje del con-
junto según las caracterı́sticas de cada componente y sus respectivas probabilidades. Como
las componentes provienen de fábricas diferentes, vamos a suponer que la clasificación de
los cilindros según sus caracterı́sticas y la clasificación de las esferas según sus carac-
terı́sticas serán sucesos independientes.
Cilindro Esfera
B 0.56
0.7
B L 0.16
0.2
0.1
C 0.08
0.8
B 0.07
0.7
0.1 0.02
C L
0.2
0.1 0.01
C
0.1
B 0.07
0.7
L L 0.02
0.2
0.1 0.01
C
Figura 2.1.1
- 112 -
Una representación del espacio muestral en cuestión fue obtenido de la figura anterior
y está representado por la tabla siguiente:
Montaje Probabilidad Ganancia por montaje (X)

BB 0.56 15
BL 0.16 10
BC 0.08 -5
LB 0.07 10
LL 0.02 5
LC 0.01 -5
CB 0.07 -5
CL 0.02 -5
CC 0.01 -5
Tabla 2.1.2
La primera columna de la Tabla 2.1.2 representa el espacio muestral Ω y la última

columna de la tabla fue construida en base a la información sobre los precios. Por ejemplo,
obteniendo un montaje LB, esto es, cilindro largo y esfera buena, el precio de venta es 25
unidades y debemos descontar: 10 unidades por el costo de las componentes y 5 unidades
para reparar el cilindro largo. Por lo tanto, la ganancia X de ese conjunto será 10 unidades
(las ganancias de los otros montajes se verifican similarmente). También, con los datos de
la tabla anterior, vemos que X puede asumir uno de los siguientes valores:
15 si ocurre el suceso A1 = {BB},
10 si ocurre el suceso A2 = {BL, LB},
5 si ocurre el suceso A3 = {LL}
-5 si ocurre el suceso A4 = {BC, LC, CB, CL, CC}.
Cada uno de estos sucesos tienen probabilidad:
P (A1 ) = 0.56, P (A2 ) = 0.23, P (A3 ) = 0.02, P (A4 ) = 0.19,
lo que permite escribir la función (x, pX (x)) en la tabla siguiente:
x pX (x)
15 0.56
10 0.23
5 0.02
-5 0.19
Total 1,00
Tabla 2.1.3
- 113 -
lo cual es un modelo teórico para la distribución de la variable X, que el empresario podrá

usar para juzgar la viabilidad económica del proyecto que el pretende realizar. En este
caso, x es un valor que puede asumir X, y pX (x) es la probabilidad de que X asuma el
valor x.
La función (x, pX (x)) de la Tabla 2.1.3 es llamada función de probabilidad (también dis-
tribución de probabilidad o densidad de probabilidad) de la variable X. Esquemáticamente
esta función puede ser representada de la siguiente forma.
Ω
A4 A2
A3 A1
−5 0 5 10 15 R
Figura 2.1.2
Es evidente que, al mismo espacio muestral Ω podemos asociar otras variables, como
veremos en el ejemplo siguiente.
Ejemplo 2.1.2: Consideremos la variable Y que representa el costo de reparación de

cada conjunto producido. Entonces, Y asume los siguientes valores:
0, si ocurre el suceso B1 = {BB, BC, LC, CB, CL, CC}.
5, si ocurre el suceso B2 = {BL, LB}.
10, si ocurre el suceso B3 = {LL}.
La función de probabilidad de la variable Y está representada por la tabla siguiente.
y pY (y)
0 0.75
5 0.23
10 0.02
Total 1.00
Tabla 2.1.4
Esquemáticamente, esta función puede verse en la forma siguiente.
Ω
B1
B2 B3
0 5 10 R
Figura 2.1.3
- 114 -
Entonces, una variable aleatoria discreta, X, estará bien caracterizada si indicamos los
posibles valores x1 , x2 , . . . , xk , . . ., que ésta puede asumir y las respectivas probabilidades
pX (x1 ), pX (x2 ), . . . , pX (xk ), . . ., o sea, conocer la función de distribución de probabilidad
(x, pX (x)). Es usual el uso de la notación pX (x) = P (X = x).
Ejemplo 2.1.3: Supongamos que en el Problema 1.5.A, n = 15 y m = 6, es decir, se

extraen al azar dos fichas, sin reposición, desde una urna que contiene en total 15 fichas,
de las cuales 6 son blancas. Definimos la variable X = número de fichas blancas obtenidas
después de las dos extracciones.
Entonces, se establece el siguiente esquema:
5
14 B2 Resultado Probabilidad X
B1 B1 B2 10
2
6 70
15
9
14
B2
B1 B2 c 18
70 1
6
14 B2
9 B1 c B2 18
1
B1
15 70

B1 c B2 c 24
70 0
8
14
B2
Figura 2.1.4 Tabla 2.1.5
Vemos ası́, que a cada resultado del experimento le está asociado un valor de la variable
X; estos valores son 0, 1 y 2.
Tenemos que al resultado X = 0, se le asocia probabilidad 24/70, pues la variable toma el
valor 0 sólo si ocurre el resultado B1 c B2 c .
Al resultado X = 1 se le asocia probabilidad 18 18 36
70 + 70 = 70 , debido a que la variable asume el
c c
valor 1 sólo si se obtienen los resultados B1 B2 o B1 B2 , que son mutuamente excluyentes.
Finalmente, para X = 2, la probabilidad asociada es 10 70 , pues la variable X, toma el valor
2 sólo cuando el resultado es B1 B2 .
Resumiendo,
24
pX (0) = P (X = 0) = P (B1 c B2 c ) = ,
70
36
pX (1) = P (X = 1) = P (B1 B2 o B1 c B2 ) = ,
2
70
10
pX (2) = P (X = 2) = P (B1 B2 ) = .
70
La tabla siguiente esquematiza la distribución de probabilidades de la variable X.
xi 0 1 2
24 36 10
pX (xi ) 70 70 70
Tabla 2.1.6
- 115 -
De los ejemplos estudiados, vemos que a cada punto del espacio muestral la variable en
consideración asocia un valor numérico, lo que corresponde en Matemática al concepto de
función, más precisamente, una función definida sobre el espacio muestral Ω y con valores
reales.
Definición 2.1.1: Una función X, definida sobre un espacio muestral Ω y con valores
en un conjunto de puntos de la recta real, se dice que es una variable aleatoria real.
Gráficamente, por ejemplo, se tiene que
ω1 ω2 ω3 ω4 Ω
x1 x2 x3 R
Figura 2.1.5
También, usamos la notación (X = xi ) para denotar al subconjunto de Ω, X −1 ({xi }),
es decir, (X = xi ) = {ω ∈ Ω : X(ω) = xi }. Más generalmente, si B ⊂ R, la notación
(X ∈ B) representa al conjunto X −1 (B), esto es, (X ∈ B) = {ω ∈ Ω : X(ω) ∈ B}.
Definición 2.1.2: Una distribución de probabilidad discreta es una función p(x),

definida sobre R, que satisface:
i) Existe C ⊂ R contable (finito o numerable), de modo que p(x) > 0, para todo x ∈ C.
∑
ii) p(x) = 1.
x∈C
Además, una variable aleatoria X se dice que tiene distribución discreta si existe un
conjunto contable C, de modo que para todo x ∈ C,
∑
P (X = x) > 0 y P (X = x) = 1.
x∈C
La función pX : R → [0, 1], definida por

{
P (X = x) si x ∈ C
pX (x) =
0 e.o.c.
se conoce como función de cuantı́a (o función de distribución de probabilidad). También,

el conjunto C se acostumbra a denotar por Rec X y se le llama recorrido de X.
O sea, la variable aleatoria X tiene distribución discreta si pX es una distribución de
probabilidad discreta.
Es común decir que X es variable aleatoria discreta en lugar de que X tiene distribución
discreta.
Además, para B ⊂ R,
∑
P (X ∈ B) = pX (x).
x∈(B∩RecX)
- 116 -
En particular, si B = R,
∑
1= pX (x).
x∈RecX
También, si se considera para cada x real, Bx =] − ∞, x], resulta que
P (X ≤ x) = P (X ∈ Bx )
∑
= pX (u).
u≤x , u∈RecX
Definición 2.1.3: La función de distribución acumulada (o simplemente la función de

distribución) de una variable aleatoria discreta X , es la función FX : R → R, definida
por:
FX (x) = P (X ≤ x)
∑
= pX (u).
u≤x , u∈RecX
Notar que el dominio de FX (x) es el conjunto de todos los reales.
Ejemplo 2.1.4: Volviendo al ejemplo del empresario y usando la función de distribución

de probabilidad de la variable aleatoria X, dada en la Tabla 2.1.3 , obtenemos que FX está
dada por 

 0 si x < −5


 0.19 si −5 ≤ x < 5
FX (x) = 0.21 si 5 ≤ x < 10



 0.44 si 10 ≤ x < 15

1 si x ≥ 15
cuyo gráfico es la función escalonada
FX (x)
1
0.8
0.6
0.4
0.2
-5 5 10 15 20 x
Figura 2.1.6
- 117 -
Observar que P (X = xi ) es igual al “salto” que la función FX da en xi , por ejemplo,

P (X = 10) = 0, 23 = FX (10) − FX (10− ), donde FX (10− ) = lim FX (t). Lo observado en
t→10−
este ejemplo es una propiedad general que veremos más adelante.
Ejemplo 2.1.5: Una variable aleatoria discreta X tiene una función de cuantı́a com-
pletamente definida del siguiente modo:
P (X = −2) = 0.20,
P (X = 0) = 0.35,
P (X = 1) = 2k,
P (X = 2) = k.
a) Calculemos k, F (0) y F (3).
b) Para 0 < α < 1 el cuantil α de una variable aleatoria X, es definido como cualquier
número xα que satisfaga la relación
P (X < xα ) ≤ α y P (X > xα ) ≤ 1 − α.
En el caso en que α = 0.5 el cuantil α recibe el nombre de mediana.

Para la variable aleatoria de este ejemplo encontremos su mediana (si existe).
Desde que ∑
P (X = i) = 1,
i∈{−2,0,1,2}
se obtiene que k = 0.15.

Además,
∑
F (0) = pX (i)
i≤0
= P (X = −2) + P (X = 0)
= 0.55
y
∑
F (3) = pX (i)
i≤3
= 1.
Finalmente, P (X < 0) ≤ 0.5 y P (X > 0) ≤ 1 − 0.5 , por lo que x0.5 = 0.
Veamos ahora las propiedades básicas que satisface la función de distribución acumu-
lada de una variable aleatoria discreta (más aún, estas propiedades también serán válidas
cuando estudiemos el caso de variables continuas).
Proposición 2.1.1: Sea F la función de distribución de la variable aleatoria X. En-

tonces:
- 118 -
a) 0 ≤ F (x) ≤ 1, para todo x real,
b) P (a < X ≤ b) = F (b) − F (a), para a < b,
c) F (a) ≤ F (b), para a < b (es decir, F es no decreciente),
d) lim F (x) = 1; lim F (x) = 0,

x→∞ x→−∞
e) lim F (x) = F (t) (es decir, F es continua por la derecha),

x→t+
f ) P (X = t) = F (t) − F (t− ), donde F (t− ) = lim F (x), es decir, P (X = t) es el

x→t−
tamaño del “salto” de F en t.
Demostración: Por definición de la función F , a) se cumple inmediatamente. También,

si a < b, y consideramos los sucesos A = (X ≤ a); B = (X ≤ b), entonces A ⊂ B, por lo
que la regla b) de la Proposición 1.4.1 implica que
P (B r A) = P (B) − P (A),
es decir,
P (a < X ≤ b) = P (X ≤ b) − P (X ≤ a)
= F (b) − F (a).
En particular, se concluye que
0 ≤ P (a < X ≤ b) = F (b) − F (a),
es decir, F (a) ≤ F (b).

∪∞Además, considerando la sucesión de sucesos An = (X ≤ n), se tiene que A1 ⊆ A2 · · · ,
( n=1 An ) = Ω, por lo que axioma iv) de la Definición 1.4.1 implica que
(∞ )
∪
P An = lim P (An ),
n→∞
n=1
es decir,
P (Ω) = lim F (n).
n→∞
Pero, F es monótona creciente y acotada, 0 ≤ F ≤ 1, en consecuencia limx→∞ F (x)

existe. Ası́, Teorema del enlace implica que, si (an ; n ≥ 1) es sucesión que converge
propiamente a ∞, entonces
lim F (x) = lim F (an ).
x→∞ n→∞
Si ahora se considera la sucesión an = n, para todo n, se concluye que
1 = P (Ω) = lim F (n) = lim F (x).

n→∞ x→∞
∩∞
Por otra parte, la sucesión An = (X < −n) verifica que A1 ⊇ A2 ⊃ · · · y ( n=1 An ) = ∅,
por lo que axioma iv’) implica que lim F (x) = 0.
x→−∞
- 119 -
Finalmente, si t es real y definimos la sucesión de sucesos

( )
1
Bn = X ≤ t + ,
n
∞
∩
entonces B1 ⊇ B2 ⊇ · · · , y Bn = (X ≤ t).
n=1
Aplicando axioma iv’) a la sucesión anterior, se concluye que
(∞ )
∩
P Bn = lim P (Bn ),
n→∞
n=1
es decir, ( )
F (t) = P (X ≤ t) = lim P X ≤ t + n1
n→∞
( )
= lim F t + n1
n→∞
= lim F (x).
x→t+
( )
Razonando de igual forma,
∩ pero con la sucesión B n = t− 1
n <X ≤t+ 1
n , que satis-
face B1 ⊇ B2 ⊇ · · · y [ ∞
n=1 Bn ] = (X = t), se concluye que
P (X = t) = lim P (Bn )
n→∞
( ) ( )
= lim F t + n1 − F t − n1
n→∞
= lim F (x) − lim F (x)

x→t+ x→t−
= F (t) − F (t− ).
Observación 2.1.1: Se dice que las variables aleatorias discretas X e Y tienen la misma
distribución si FX (u) = FY (u), para todo u ∈ R , se acostumbra a denotar este hecho
por D(X) = D(Y ).
Dos variables aleatorias discretas X e Y , definidas en el mismo espacio Ω , pueden tener
la misma distribución, y sin embargo no ser iguales. Por ejemplo: se arroja una vez una
moneda equilibrada; sean X = 1 si sale cara, X = 0 si no; e Y = 1 − X. Entonces,
P (X = 1) = P (Y = 1) = 0.5, o sea que ambas tienen la misma distribución, pero
P (X = Y ) = 0.
2.1.1 Esperanza (o media) de una variable aleatoria discreta

Ejemplo 2.1.6: Una pregunta que se le podrı́a ocurrir al empresario del Ejemplo 2.1.1
es: ¿cuál es la ganancia esperada por conjunto montado? De la Tabla 2.1.3 observamos
que el 56% de los montajes deben producir una ganancia de 15 unidades, 23% una ganancia
- 120 -
de 10 unidades y ası́ sucesivamente. Luego, la ganancia esperada por montaje será dada
por:
ganancia esperada = 0.56 · 15 + 0.23 · 10 + 0.02 · 5 + 0.19 · (−5) = 9, 85 .
Esto es, suponiendo correctas las hipótesis hechas para determinar la distribución de la
variable aleatoria, el empresario espera tener una ganancia de 9,85 unidades por conjunto
montado.
Con la notación introducida en la subsección anterior, obtenemos la siguiente expresión
para la media de la variable aleatoria X.
∑
xi pX (xi ), con RecX = {−5, 5, 10, 15}.
x∈RecX
Definición 2.1.4: Sea X variable aleatoria discreta, se llama valor medio o esperanza
matemática de la variable aleatoria X al valor
∑
E(X) = x pX (x).
x∈RecX
También, llamaremos varianza de la variable aleatoria X al valor
∑
V ar(X) = (x − E(X))2 pX (x),
x∈RecX
y desviación estándar de X a √
SD(X) = V ar(X).
Ejemplo 2.1.7: En el problema del empresario, se puede verificar que:
E(X) = 9.85, V ar(X) = 57.23 y SD(X) = 7.57 .
Ejemplo 2.1.8: Suponga que todos los precios determinados por el empresario estu-
viesen errados. En realidad, todos los valores deberı́an estar duplicados, esto es, costos y
precios de venta. Esto corresponde a la transformación Z = 2X.
La función de distribución de probabilidad de la variable aleatoria Z, pZ (z), está dada por:
z pZ (z) z pZ (z)
30 0.56 16,80
20 0.23 4.60
10 0.02 0.20
-10 0.19 -1.90
Total 1,00 19.70
Tabla 2.1.7
Entonces, la esperanza de la variable aleatoria Z será
∑ ∑
E(Z) = z pZ (z) = (2x) pX (x).
z∈RexZ x∈RecX
Supongamos ahora que queremos la distribución de probabilidad de la variable aleatoria

U = X 2 . Basado en la Tabla 2.1.3 obtenemos la tabla siguiente:
- 121 -
u pU (u) u pU (u)
225 0.56 126
100 0.23 23
25 0.21 5.25
Total 1.00 154.25
Tabla 2.1.8
Observemos que el suceso (U = 25) ocurre cuando (X = 5) ó (X = −5), por tanto,

P (U = 25) = P (X = 5 ó X = −5).
Ası́, la esperanza de la variable U es
∑
E(U ) = u pU (u)
u∈RecU
= 225 · 0.56 + 100 · 0.23 + 25 · 0.21
= 225 · 0.56 + 100 · 0.23 + 25 · 0.02 + 25 · 0.19
∑
= x2 pX (x)
x∈RecX
= 154.25.
Proposición 2.1.2: Dada una variable aleatoria discreta X, y h función real, la espe-
ranza matemática de la variable aleatoria h(X) puede ser calculada por la fórmula
∑
E(h(X)) = h(x) pX (x).
x∈RecX
En particular,
(i) Si h(t) = a t + b, entonces, E(h(X)) = a E(X) + b.
(ii) Si h(t) = (t − E(X))2 , entonces, V ar(X) = E(X 2 ) − (E(X))2 .
Desde (ii) se deduce que, para todo a, b ∈ R,
(iii) V ar(a X) = a2 V ar(X),
(iv) V ar(a X + b) = a2 V ar(X).
Demostración: Usamos las notaciones siguientes:
Y = h(X), Rec(Y ) = {y1 , . . .}, Ai = {x ∈ R : h(x) = yi }.
- 122 -
De esta forma,
∑
E(Y ) = yi pY (yi )
yi ∈RecY
 
∑ ∑
= yi  pX (x)
yi ∈RecY x∈Ai
∑ ∑
= yi pX (x)
yi ∈RecY x∈Ai
∑ ∑
= h(x) pX (x)
yi ∈RecY x∈Ai
∑
= h(x) pX (x).
x∈RecX
Observación 2.1.2: Es costumbre usar los siguientes sı́mbolos para indicar la esperanza
y varianza de una variable aleatoria X:
E(X) = µ(X) y V ar(X) = σ 2 (X)
o, simplemente µ y σ 2 , respectivamente, si no hay peligro de confusión.
Ejemplo 2.1.9: Usando los resultados de los Ejemplos 2.1.7 y 2.1.8, obtenemos que
V ar(X) = 154.25 − (9.85)2

= 57.23.
2.1.2 Algunos modelos probabilı́sticos para variables aleatorias discretas

Algunas variables aleatorias se adaptan muy bien a una serie de problemas prácticos que
aparecen con bastante frecuencia. Por lo tanto, un estudio acucioso de estas variables fa-
cilita bastante la construcción de las correspondientes distribuciones de probabilidad y la
determinación de sus principales parámetros. Además, existen tablas construidas que pre-
sentan las funciones de probabilidad para esos modelos en función de sus parámetros. En
este párrafo estudiaremos algunos modelos discretos, procurando enfatizar las condiciones
en que estos aparecen, sus funciones de probabilidad y sus parámetros.
Distribución uniforme discreta

La distribución uniforme discreta sobre el conjunto G = {a1 , . . . , an }, se define por la
función
1
p(x) = , x ∈ G.
n
- 123 -
La distribución uniforme es, entonces, una constante en cada punto de G, la que es

inversamente proporcional al cardinal del conjunto G.
La función de distribución acumulada, asociada a la distribución uniforme es,
∑
F (x) = p(t)
t≤x
t∈G
# (] − ∞, x] ∩ G)
= .
n
Las figuras siguientes muestran los gráficos de las funciones p(x) y F (x), respectiva-
mente.
p(x)
• •
1 • • ... •
n
a1 a2 a3 a4 an x
Figura 2.1.7
F (x)
1
4 ...
n
3
n
2
n
1
n
a1 a2 a3 a4 an x
Figura 2.1.8
Una variable aleatoria discreta X, se dice que tiene distribución uniforme sobre
G = {a1 , . . . , an }, se anota X ∼ U {a1 , . . . , an }, si su función de distribución de pro-
babilidad pX , es una distribución uniforme discreta sobre G, esto es, si RecX = G y
pX (x) = P (X = x)
{
1
n si x ∈ G
=
0 e.o.c.
Cuando se habla de “escoger un punto al azar del conjunto {a1 , . . . , an }”, significa repre-
sentar por X el punto escogido y asumir que X ∼ U {a1 , . . . , an }.
- 124 -
También, si X ∼ U {a1 , . . . , an }, entonces

∑
E(X) = x pX (x)
x∈RecX
∑
n
1
= ai
n
i=1
a1 + · · · + an
= ,
n
es decir, E(X) es el promedio de los números a1 , · · · , an , y
V ar(X) = E(X 2 ) − E2 (X)
∑ ( ∑n )2
i=1 ai
= x pX (x) −
2
n
x∈RecX
∑
n ( ∑n )2
1 i=1 ai
= a2i −
n n
i=1
∑n 2 ( ∑n )2
i=1 ai i=1 ai
= − .
n n
Nótese que el modelo equiprobable visto en la Sección 1.2 puede ser representado por la
variable aleatoria discreta X, con distribución uniforme sobre Ω = {ω1 , . . . , ωn }.
X : Ω −→ R
ωi ωi
P (X = ωi ) = P ({ωi })
1
= .
n
Distribución binomial
La distribución binomial de parámetros n (natural) y p (0 < p < 1), se define por la

función ( )
n x
p(x) = p (1 − p)n−x , x ∈ {0, 1, . . . , n}.
x
Una variable aleatoria discreta X, se dice que tiene distribución binomial de parámetros
(n, p), se anota X ∼ B(n, p), si su función de distribución de probabilidad pX , es una
- 125 -
distribución binomial de parámetros n y p, esto es, RecX = {0, 1, . . . , n} y
( )

 n x
 x p (1 − p) si x ∈ {0, 1, . . . , n}
n−x

pX (x) =



0 e.o.c.
En el caso particular en que n = 1, la distribución binomial recibe el nombre de distribución

Bernoulli de parámetro p. Además, si X ∼ B(1, p), entonces se usa la notación X ∼ B(p)
y se dice que la variable aleatoria X tiene distribución Bernoulli de parámetro p.
Por otra parte, si X ∼ B(n, p), entonces
∑
E(X) = x pX (x)
x∈RecX
∑
n ( )
n x
= x p (1 − p)n−x
x
x=0
∑
n
n!
= x px (1 − p)n−x
x! (n − x)!
x=1
∑
n
(n − 1)! n
= p px−1 (1 − p)(n−1)−(x−1)
(x − 1)! ((n − 1) − (x − 1))!
x=1
n (
∑ )
n−1
= np px−1 (1 − p)(n−1)−(x−1)
x−1
x=1
∑(
n−1 )
n−1 y
= np p (1 − p)(n−1)−y
y
y=0
= np (p + (1 − p))n−1
= np.
También, después de algún trabajo algebraico, se verifica que
V ar(X) = n p (1 − p).
La tabla siguiente muestra los valores de la función pX (x), para n = 10 y p = 23 .
- 126 -
x pX (x) x pX (x)
0 0.00001694 6 0.22760758
1 0.00033870 7 0.26012295
2 0.00304832 8 0.19509221
3 0.01625768 9 0.08670765
4 0.05690190 10 0.01734153
5 0.13656455
Tabla 2.1.9
La figura siguiente muestra el gráfico de pX , cuando n = 10 y p = 23 .
pX (x)
0.30
•
•
0.20 •
0.10 •
•
• •
•
0.00 • •
0 1 2 3 4 5 6 7 8 9 10 x
Figura 2.1.9
Esquema Bernoulli
Se realiza un cierto “ensayo” cuyos resultados dependen del azar. Un resultado del “en-
sayo” representa una determinada caracterı́stica. Si la realización de un ensayo, da como
resultado la caracterı́stica, se dice que ocurrió un éxito, en caso contrario se dice que ocu-
rrió un fracaso. Se repite n veces el “ensayo”, cada repetición del “ensayo” se llama in-
tento. Además, cada repetición del “ensayo” se hace en iguales condiciones y de forma que
una repetición no “interfiere” en la otra, esto es, el resultado de un “ensayo” no tiene in-
fluencia ninguna en el resultado de otro “ensayo”. Finalmente, la probabilidad de obtener
éxito, en cualquiera de los “ensayos”, es siempre la misma, digamos p.
Un “experimento” que cumple con las condiciones antes mencionadas se dice que sigue
un Esquema Bernoulli de parámetros (n, p).
La variable aleatoria X, con distribución binomial, puede interpretarse como la canti-
dad de éxitos que ocurren en un esquema Bernoulli de parámetros (n, p). En consecuencia,
- 127 -
la probabilidad de obtener k unos y n − k ceros en el modelo binomial de la Sección 1.3,

que se anotaba P (Ak ), corresponde ahora a la probabilidad de que una variable aleatoria
con distribución binomial de parámetros (n, p), sea igual a k, esto es,
P (Ak ) = P (X = k).
Distribución geométrica
La distribución geométrica de parámetro p, 0 < p < 1, se define por la función
p(x) = p (1 − p)x−1 , x ∈ {1, 2, 3, . . .}.
Una variable aleatoria discreta X, se dice que tiene distribución geométrica de parámetro
p, se anota X ∼ G(p), si su función de distribución de probabilidad pX , es una distribución
geométrica de parámetro p, es decir, RecX = {1, 2, . . .} y


p (1 − p)
x−1 si x ∈ {1, 2, . . .}
pX (x) =


0 e.o.c.
Para esta variable aleatoria,

∑
E(X) = x pX (x)
x∈RecX
∞
∑
= x p (1 − p)x−1 .
x=1
Si α ∈] 0, 1 [, el desarrollo en serie de potencias, en torno de cero, de la función f (α) = 1

1−α ,
implica que
∑∞
1
= αn ,
1−α
n=0
de donde, derivando se obtiene que
∑ ∞
1
= n αn−1
(1 − α)2
n=1
y nuevamente derivando resulta

∞
∑
2
= n (n − 1)αn−2
(1 − α)3
n=2
∞
∑ ∞
∑
= n2 αn−2 − n αn−2
n=2 n=2
- 128 -
∞ ∞
1 ∑ 2 n−1 1 ∑
= n α − n αn−1
α α
n=2 n=2
[∞ ] [∞ ]
1 ∑ 2 n−1 1 ∑
= n α −1 − nα n−1
−1
α α
n=1 n=1
∞
1 ∑ 2 n−1 1 1
= n α −
α α (1 − α)2
n=1
o sea,
∞
∑ 2α 1
n2 αn−1 = + .
(1 − α)3 (1 − α)2
n=1
Tomando α = 1 − p, se deduce que
∞
∑
E(X) = x p (1 − p)x−1
x=1
∞
∑
= p x αx−1
x=1
1
= p
(1 − α)2
1
= .
p
Además,
∞
∑
E(X 2 ) = x2 p (1 − p)x−1
x=1
∞
∑
= p x2 (1 − p)x−1
x=1
[ ]
2 (1 − p) 1
= p +
(1 − (1 − p))3 (1 − (1 − p))2
2 (1 − p) 1
= + ,
p2 p
en consecuencia,
V ar(X) = E(X 2 ) − (E(X))2
( )2
2 (1 − p) 1 1
= + −
p2 p p
1−p
= .
p2
- 129 -
Una variable aleatoria X con distribución geométrica de parámetro p, puede interpre-

tarse como el número de ensayos necesarios para que ocurra el primer éxito en un esquema
Bernoulli de parámetro p.
En efecto, si Bi , i ≥ 1, denota el suceso:
Bi = en el i-ésimo ensayo ocurre éxito
entonces, usando la independencia entre los distintos ensayos,
P (X = 1) = P (B1 ) = p
P (X = 2) = P (B1C ∩ B2 ) = P (B1C ) P (B2 ) = (1 − p) p,
y para todo x ∈ {3, 4, . . .},

C ∩B )
P (X = x) = P (B1C ∩ · · · ∩ Bx−1 x
= P (B1C ) · · · P (Bx−1
C ) P (B )
x
= (1 − p) · · · (1 − p) p
= (1 − p)x−1 p.
Nótese además que, para m, n naturales,
P (X > m + n, X > n)
P (X > m + n / X > n) = .
P (X > n)
Pero, el suceso (X > m + n) está contenido en el suceso (X > n), de donde

(X > m + n, X > n) = (X > m + n). O sea,
P (X > m + n)
P (X > m + n/X > n) = .
P (X > n)
También,
∞
∑
P (X > n) = pX (k)
k=n+1
∞
∑
= p (1 − p)k−1
k=n+1
∞
∑
= p (1 − p)k−1
k=n+1
(1 − p)(n+1)−1
= p
1 − (1 − p)
= (1 − p)n .
- 130 -
Análogamente,
P (X > m + n) = (1 − p)m+n .
En consecuencia,
(1 − p)m+n
P (X > m + n/X > n) =
(1 − p)n
= (1 − p)m
= P (X > m).
En este sentido, si X representa el instante en que ocurre el primer éxito en un esquema

Bernoulli de parámetro p, entonces, la relación anterior nos dice que la probabilidad de
que tengamos que esperar más de m ensayos para observar el primer éxito, sabiendo ya
que hemos esperado más de n ensayos, no depende de n.
Distribución binomial negativa
La distribución binomial negativa de parámetros (m, p), con m natural y 0 < p < 1, se
define por la función
( )
x−1
p(x) = pm (1 − p)x−m , x ∈ {m, m + 1, . . .}.
m−1
Una variable aleatoria discreta X, se dice que tiene distribución binomial negativa de
parámetros (m, p), se anota X ∼ BN (m, p), si su función de distribución de probabilidad
pX , es una distribución binomial negativa de parámetros (m, p), esto es,
( )

 x−1
 m − 1 p (1 − p) , x ∈ {m, m + 1, . . .}
m x−m

pX (x) =



0 e.o.c.
En este caso, se puede verificar (después de algún trabajo algebraico) que
m m(1 − p)
E(X) = y V ar(X) = .
p p2
Notar que, en el caso en que m = 1, pX resulta la distribución geométrica de parámetro

p.
Una variable aleatoria con distribución binomial negativa de parámetros (m, p), se
puede interpretar como el número ensayos necesarios para que ocurra el m-ésimo éxito en
un esquema Bernoulli de parámetro p.
Por ejemplo, si X ∼ BN (4, p), entonces el suceso (X = 6) significa que el cuarto éxito
ocurre cuando se realiza el sexto ensayo.
- 131 -
En consecuencia, si Bi representa el suceso que en el i-ésimo ensayo ocurre éxito,

entonces
(X = 6) = (B1 ∩ B2C ∩ B3 ∩ B4C ∩ B5 ∩ B6 ) ∪ (B1 ∩ B2C ∩ B3 ∩ B4 ∩ B5C ∩ B6 )
∪(B1 ∩ B2C ∩ B3C ∩ B4 ∩ B5 ∩ B6 ) ∪ (B1 ∩ B2 ∩ B3C ∩ B4C ∩ B5 ∩ B6 )
∪(B1 ∩ B2 ∩ B3C ∩ B4 ∩ B5C ∩ B6 ) ∪ (B1 ∩ B2 ∩ B3 ∩ B4C ∩ B5C ∩ B6 )
∪(B1C ∩ B2C ∩ B3 ∩ B4 ∩ B5 ∩ B6 ) ∪ (B1C ∩ B2 ∩ B3 ∩ B4 ∩ B5C ∩ B6 )
∪(B1C ∩ B2 ∩ B3 ∩ B4C ∩ B5 ∩ B6 ) ∪ (B1C ∩ B2 ∩ B3C ∩ B4 ∩ B5 ∩ B6 ).
Pero, debido al esquema Bernoulli, B1 , . . . , B6 son sucesos independientes y para cada i,

P (Bi ) = p. En consecuencia,
P (B1 ∩ B2C ∩ B3 ∩ B4C ∩ B5 ∩ B6 ) = p (1 − p) p (1 − p) p p
= p4 (1 − p)6−4 .
Más aún, cada conjunto de esta unión tiene la misma probabilidad p4 (1 − p)2 . Además,
el número de conjuntos cuya reunión forma (X = 6) se puede determinar de la siguiente
forma:
Llenaremos cada uno de los 6 casilleros con un uno si aparece el suceso Bi y
con un cero si aparece BiC . Ası́, el suceso B1 ∩ B2C ∩ B3 ∩ B4C ∩ B5 ∩ B6 queda representado
por 1 0 1 0 1 1 . Por lo tanto, el número de conjuntos cuya reunión es (X = 6),
es igual al número de permutaciones que se pueden obtener con los 5 primeros casilleros,
ubicando tres unos y dos ceros (el último casillero debe siempre
( ) tener el número uno, pues
en este lugar debe haber éxito), que corresponde a 3!5!2! = 6−14−1 = 10.
En conclusión, como los sucesos cuya reunión es ((X = ) 6), son disjuntos, tienen todos
probabilidad igual a p4 (1 − p)6−4 y hay un total de 6−1 4−1 , entonces
( )
6−1 4
P (X = 6) = p (1 − p)6−4 .
4−1
Ejemplo 2.1.10: Se lanza un dado honesto. Calculemos la probabilidad de que el

séptimo as salga en el trigésimo lanzamiento.
Si X (indica
) el número del lanzamiento en que ocurre el séptimo as, entonces
X ∼ BN 7, 61 , y se desea calcular P (X = 30). En consecuencia,
( ) ( )7 ( )
30 − 1 1 1 30−7
P (X = 30) = 1−
7−1 6 6
( ) ( )7 ( )23
29 1 5
=
6 6 6
= 0.025614.
- 132 -
Distribución Poisson
La distribución de Poisson de parámetro α, α > 0, se define por la función
αx −α
p(x) = e , x ∈ {0, 1, 2, . . .}.
x!
Una variable aleatoria discreta X, se dice que tiene distribución Poisson de parámetro
α, se anota X ∼ P(α), si su función de distribución de probabilidad pX , es una distribución
de Poisson de parámetro α. En consecuencia,
 x
 α −α

 x! e si x ∈ {0, 1, 2, . . .}
pX (x) =



0 e.o.c.
En forma análoga al desarrollo efectuado para el caso de la variable aleatoria con dis-
1
tribución geométrica, pero, considerando f (α) = eα , en lugar de f (α) = 1−α , se obtiene
que
E(X) = α y V ar(X) = α .
La variable aleatoria con distribución Poisson es usada cuando se desea contar el número
de “eventos” de un cierto tipo que ocurren en un intervalo de tiempo, superficie o volumen.
Por este motivo esta variable puede modelar, por ejemplo,
a) número de llamadas telefónicas recibidas en una central,
b) número de informes de accidentes enviados a una compañı́a de seguros en un mes

determinado,
c) número de clientes que llegan a una caja.
Ejemplo 2.1.11: Entidades llegan a un determinado sistema, por ejemplo, llamadas

telefónicas que llegan a una central. Calculemos la probabilidad de que lleguen exactamente
k llamadas telefónicas en el intervalo de tiempo [s, s + t[, para s, t ≥ 0 y k = 0, 1, 2, . . ..
Primeramente, para poder resolver este problema asumiremos las siguientes hipótesis:
• Hipótesis I. Incrementos Estacionarios.

La probabilidad de que lleguen exactamente k llamadas telefónicas en el intervalo
]s, s + t] depende sólo de t. Es decir, la probabilidad de que lleguen exactamente k
llamadas en un perı́odo de tiempo de duración t, depende sólo de t y no del instante
en que ocurrió.
• Hipótesis II. Incrementos Independientes.

El número de llamadas telefónicas que llegan durante intervalos de tiempo disjuntos
son independientes.
- 133 -
• Hipótesis III. Propiedad de Orden.

Dos llamadas no llegan simultáneamente. Es decir, las llamadas llegan de a una. En
términos probabilı́sticos esto significa que la probabilidad condicional de que lleguen
dos o más llamadas en el intervalo ]0, t], dado que llegó al menos una llamada en
]0, t], se va a cero cuando t se hace tender a cero.
El gráfico siguiente representa un posible resultado de este experimento, en el cual las

llamadas llegan en los instantes s1 , s2 , s3 , . . .
Número de llamadas
s1 s2 s3 Tiempo t
Figura 2.1.10
En consecuencia, el conjunto de todos los resultados posibles para este problema queda
representado por:
Ω = {ω : [0, ∞[→ N0 / existe sucesión (tn ; n ≥ 1), tal que 0 < t1 < t2 < · · · y
ω(t) = 0 para t ∈ [0, t1 [,
ω(t) = 1 para t ∈ [t1 , t2 [,
..
.
ω(t) = k, para t ∈ [tk , tk+1 [, . . .}.
Sea Xs,t la variable aleatoria que cuenta el número de llamadas que llegan en el in-
tervalo de tiempo ]s, s + t]. Nótese que el suceso (Xs,t = k), es decir, el suceso “llegan
exactamente k llamadas en el intervalo de tiempo ]s, s + t]” puede expresarse como
(Xs,t = k) = {ω ∈ Ω : ω(t) − ω(s) = k}.
Nuestro objetivo es calcular la probabilidad P (Xs,t = k), que denotamos pt (k) ya

que depende de t pero no de s.
Las hipótesis I,II y III se traducen en
• Hipótesis I’. P (Xs,t = k) = P (X0,t = k).
• Hipótesis II’. Si ]s, s + t]∩]u, u + v] = ∅, entonces

P (Xs,t = k, Xu,v = j) = P (Xs,t = k) P (Xu,v = j).
• Hipótesis III’. (1 − p0 (t) − p1 (t))/(1 − p0 (t)) → 0, cuando t → 0.
A continuación, probaremos que p0 (t) es una función exponencial del tiempo, de la forma
e−αt .
- 134 -
Como no llega ninguna llamada en el intervalo ]0, t] si y sólo si no llega ninguna

llamada en los n intervalos
] ] ] ] ] ]
t t 2t (n − 1)t
0, , , ,..., ,t ,
n n n n
entonces
n (
∩ )
(X0,t = 0) = X (k−1)t , t = 0 .
n n
k=1
Por la hipótesis II’ se tiene que, para todo t > 0 y todo n ∈ N,
∏
n ( )
p0 (t) = P X (k−1)t , t = 0 (11.1)
n n
k=1
( )
t
= pn0 ,
n
luego,
p0 (mt) = pm
0 (t). (11.2)
t
En particular, si se reemplaza n en lugar de t,
(m ) ( )
m t
p0 t = p0
n n
( )m
1/n
= p0 (t) (11.3)
m/n
= p0 (t), (11.4)
para todo m, n ∈ N. En otras palabras, si r es un racional positivo, entonces, considerando
t = 1 en esta última ecuación se tiene
p0 (r) = pr0 (1). (11.5)
Además, p0 es función decreciente, ya que, si s ≤ t, entonces (X0,t = 0) está contenido

en (X0,s = 0), lo cual implica que
p0 (s) ≥ p0 (t).
Sean t > 0 fijo y r1 , r2 racionales positivos tales que r1 ≤ t ≤ r2 . Entonces
pr01 (1) = p0 (r1 ) ≥ p0 (t) ≥ p0 (r2 ) = pr02 (1).
Ahora, si r1 crece y converge a t y r2 decrece y converge a t, entonces
pr01 (1) ↓ pt0 (1) y pr02 (1) ↑ pt0 (1),
por lo tanto,
p0 (t) = pt0 (1), (11.6)
para todo t > 0. En el razonamiento anterior hemos asumido que 0 < p0 (1) < 1, para
evitar situaciones extremas. En efecto,
- 135 -
i) Si p0 (1) = 1, se sigue de (11.6) que p0 (t) = 1, para todo t > 0. Es decir, con
probabilidad uno nunca llegarı́a una llamada telefónica, situación que no es de mayor
interés en la práctica.
ii) Si p0 (1) = 0, se sigue de (11.6) que p0 (t) = 0, para todo t > 0. Es decir, para cada
t > 0, se tendrı́a probabilidad uno de que llegase al menos una llamada en el intervalo
]0, t]. Por lo tanto, tendrı́an que llegar al menos dos llamadas, con probabilidad uno,
en el intervalo ]0, t], pues debe llegar al menos una llamada en el intervalo ]0, t/2]
con probabilidad uno y al menos una llamada en el intervalo ]t/2, t] con probabilidad
uno. En resumen, para todo t > 0,
1 − p0 (t) = 1 y 1 − p0 (t) − p1 (t) = 1,
lo cual contradice la hipótesis III’.

Definiendo α = − log p0 (1), la ecuación (11.6) se transforma en
p0 (t) = e−αt , t > 0.
Nótese que también p0 (0) = 1 pues el evento “ninguna llamada llega en un intervalo
vacı́o de tiempo” corresponde al evento seguro, es decir, Ω. En consecuencia,
p0 (t) = e−αt , t ≥ 0. (11.7)
A continuación obtenemos las probabilidades pk (t), para todo k ≥ 1.

Sean k ≥ 1, s ≥ 0 y t ≥ 0. Entonces, que lleguen k llamadas telefónicas en ]0, s + t] es
equivalente a que no llegue ninguna en ]0, s] y k en ]s, s + t] o una en ]0, s] y k − 1 en
]s, s + t] o dos en ]0, s] y k − 2 en ]s, s + t], etc. Es decir,
∪
k
(X0,s+t = k) = (X0,s = i, Xs,t = k − i) .
i=0
En la relación anterior, los conjuntos que conforman la unión son disjuntos y para
todo i, (X0,s = i) y (Xs,t = k − i) son sucesos independientes. Ası́,
∑
k
pk (s + t) = P (X0,s = i) P (Xs,t = k − i)
i=0
∑
k
= pi (s) pk−i (t)
i=0
∑
k−2
= pi (s) pk−i (t) + pk−1 (s) p1 (t) + pk (s) p0 (t),
i=0
de modo que,
∑k−2
pk (s + t) − pk (s) i=0 pi (s) pk−i (t) pk−1 (s) p1 (t) pk (s) (e−αt − 1)
= + + .
t t t t
- 136 -
Pero,
e−αt − 1
lim = −α (11.8)
t→0+ t
entonces, hipótesis III’ implica que:
p1 (t) p1 (t) 1 − p0 (t)
lim = lim = 1α = α (11.9)
t→0+ t t→0 1 − p0 (t)
+ t
y
1 − p0 (t) − p1 (t) 1 − p0 (t) − p1 (t) 1 − p0 (t)
lim = lim = 0 α = 0. (11.10)
t→0+ t t→0 + 1 − p0 (t) t
Además,
1∑ 1∑
k−2 k−2
0≤ pi (s)pk−i (t) ≤ pk−i (t)
t t
i=0 i=0
1∑
k
= pj (t)
t
j=2
 
1 ∑k
= pj (t) − p0 (t) − p1 (t)
t
j=0
 
∑∞
1
≤ pj (t) − p0 (t) − p1 (t)
t
j=0
= (1 − p0 (t) − p1 (t))/t .
Usando ahora ecuaciones (11.8), (11.9), (11.10) y la desigualdad anterior, se obtiene

que la derivada por la derecha de pk en s satisface la relación
p′k (s) = αpk−1 (s) − αpk (s). (11.11)

También es posible demostrar, usando la expresión
∑
k
pk (s) = pi (s − t) pk−i (t) , 0 ≤ t ≤ s,
i=0
que la derivada por la izquierda de pk en s coincide con la derivada por la derecha de pk

en s.
Resta, entonces, resolver la ecuación diferencial (11.11), con condición inicial
pk (0) = P (X0,0 = k) = 0,
para cada k ≥ 1. La solución puede ser obtenida por inducción en k, resultando

(αs)k
pk (s) = e−αs (11.12)
k!
- 137 -
para s ≥ 0 y k = 0, 1, . . ..
Por lo tanto,
(αt)k
P (Xs,t = k) = e−αt .
k!
Es decir, bajo las hipótesis I, II, III, Xs,t ∼ P(αt).

El problema anterior es conocido como modelo de Poisson temporal.
La Aproximación de Poisson
La probabilidad P (X = k), cuando X ∼ B(n, p), es difı́cil de calcular directamente para

valores un poco “grandes” de k y n. Se puede hacer mediante tablas apropiadas, pero,
muchas veces es preferible sustituir la expresión P (X = k) por otra de mejor manejo para el
cálculo y suficientemente aproximada en las aplicaciones. La aproximación es “razonable”
para valores pequeños de p, tales que el producto n p sea relativamente pequeño, aún para
valores grandes de n.
En el caso en que p se “acerca” a cero, al mismo tiempo que n se hace muy “grande”,
de manera que el valor n p permanece “cercano” a una constante α, o sea n p ∼ α, se tiene
que
( )
n k
P (X = k) = p (1 − p)n−k
k
( )( ) (
n α k α )n−k
≃ 1−
k n n
n (n − 1) · · · (n − k − 1) ( α )k ( α )n
= ( )k 1 −
k! 1 − αn n n
( )( ) ( ) (
αk 1 − n1 1 − n2 · · · 1 − k−1
α )n
= ( )k
n
1− .
k! 1 − αn n
Para n muy “grande” (manteniendo k fijo), el numerador de la segunda fracción del

miembro derecho se “acerca” a uno, puesto que es el producto de un número finito de
factores, cada uno de los cuales de “acerca” a uno. El denominador de esta misma fracción
α
también se “aproxima” a uno, ya ( que )el valor n es “cercano” a cero cuando n es muy
α n −α
grande. Finalmente, el término 1 − n se “acerca” a e cuando n es muy “grande”.
Por lo tanto, la expresión P (X = k) es “cercana” a αk! e−α , donde α es el valor n p.
k
El valor α e−α corresponde a la probabilidad P (X

k
e = k), donde X e ∼ P(α).
k!
El siguiente gráfico muestra los valores de las distribuciones binomial, para
n = 10, p = 23 y Poisson para α = 10 23 = 20 3 , evaluadas en k ∈ {0, 1, . . . , 10}. Las ba-
rras negras corresponden a la distribución binomial y las barras blancas a la distribución
Poisson.
- 138 -
0.30
0.20
0.10
0.00
0 1 2 3 4 5 6 7 8 9 10
Figura 2.1.11
Ejemplo 2.1.12: La probabilidad de que una persona gane el premio gordo de la loterı́a,
en una semana particular, es 1/140000. Supongamos que una persona juega a la loterı́a
cada semana, durante 2184 semanas (casi 42 años), calculemos ahora la probabilidad de
que a dicha persona le caiga el premio gordo cuando menos una vez.
Representemos por X al número total de veces que la persona gana el premio gordo en
las 2184 semanas. Entonces, la probabilidad que se desea( calcular es ) P (X ≥ 1) .
Para responder la pregunta asumiremos que X ∼ B 2184, 140000 1
, por lo que
P (X ≥ 1) = 1 − P (X = 0)
( )2184
139999
= 1−
140000
= 0.015479.
¿Cuál serı́a el valor de la probabilidad buscada anteriormente si usáramos la aproximación
de Poisson? ( )
Con la aproximación de Poisson, el valor buscado serı́a P (Xe ≥ 1), con Xe ∼ P 2184 1
140000 .
Pero,
e ≥ 1) = 1 − P (X
P (X e = 0)
( 2184 )
= 1 − exp − 140000
= 0.0154789,
por lo que el valor aproximado de P (X ≥ 1) serı́a 0.0154789 .
Ejemplo 2.1.13: Un artillero dispara a un blanco y sabe que la probabilidad de acertar

1
es p = 100 . ¿Cuántos disparos tendrá que realizar para tener probabilidad 0.9 de dar en el
blanco por lo menos una vez?
Si X es la variable que cuenta el número de éxitos (dar en el blanco) en( n disparos,
)
1
entonces, se puede asumir que X tiene distribución binomial de parámetros n, 100 , por
lo que
- 139 -
P (X ≥ 1) = 1 − P (X = 0)
( )
1 n
= 1− 1−
100
= 1 − (0.99)n .
Las condiciones del problema imponen que
1 − (0.99)n > 0.9,
de donde n > (2 − log 99)−1 = 229.

Como p es pequeño, en vez del cálculo directo, se puede aplicar la aproximación de
Poisson para la distribución binomial. La probabilidad de no dar nunca en el blanco es
e−α , con α = n 100
1
, y la probabilidad de dar por lo menos una vez será 1−e−α . El problema
impone la condición 1 − e−α > 0.9, o sea, 0.1 > e−0.01 n , de donde n > log100
e = 230.
- 140 -
PROBLEMAS
Problema 2.1.A: Suponga que X es variable aleatoria tal que: P (X = 0) = 0.25,
P (X = 1) = 0.125, P (X = 2) = 0.125 y P (X = 3) = 0.5. Grafique la función de
distribución acumulada de X, es decir, FX .
Problema 2.1.B: Se lanzan dos dados comunes. La variable aleatoria X queda definida
como la suma de los valores de los dos dados. Calcule:
a) P (X = 3).
b) P (X es divisible por 3).
Se lanzan los dados dos veces y los valores de X obtenidos son X1 y X2 .
146
c) Demuestre que P (X1 = X2 ) = 1296 .
d) Usando c), determine P (X1 > X2 ).

e) Halle P (X1 = 3/X1 > X2 ).
Problema 2.1.C: Sea X variable aleatoria discreta con función de cuantı́a


|u|

 22 si u ∈ {−2, −1}







 4|u| si u ∈ {1, 2}
22
pX (u) =


 7
 si u = 5

 22




0 e.o.c.
Considere la variable aleatoria Y = X 2 .

a) Encuentre la función de cuantı́a para Y .
b) Calcule P (Y ≤ 3 / Y ≤ 4).
Problema 2.1.D: Sea X variable aleatoria discreta con distribución binomial (n, p), esto
es, X ∼ B(n, p) . Considérese los radios sucesivos R(k), k = 1, . . . , n, definidos por
P (X = k)
R(k) = , 1 ≤ k ≤ n.
P (X = k − 1)
Verifique que
p n−k+1
R(k) = · , 1 ≤ k ≤ n.
1−p k
Además, encuentre el valor de k que maximiza la probabilidad P (X = k) . Este valor es
llamado la moda de la distribución.
Problema 2.1.E: Se sabe que el 2% de las bombillas que salen desde cierta fábrica son
imperfectas. En un supermercado se venden en paquetes de 3 unidades.
- 141 -
a) Determine la probabilidad de que en un paquete haya exactamente dos bombillas

defectuosas.
b) Determine la probabilidad de que en un paquete haya, cuando menos, una bombilla

defectuosa.
La probabilidad de que un cliente encuentre i bombillas defectuosas en un paquete y vaya

i2
a quejarse al supermercado es 10 , i = 0, 1, 2, 3. El supermercado no acepta un nivel de
quejas mayor que el 0.5%.
c) ¿Deberı́a el supermercado seguir vendiendo este producto?
Problema 2.1.F: Un computador está programado para generar una sucesión x1 , x2 , . . .,

de dı́gitos al azar, cada uno de los cuales toma un valor entre 0 y 9, ambos inclusive. Cada
dı́gito tiene la misma probabilidad de ser generado.
a) Si el computador genera una sucesión de 8 dı́gitos, halle:

(i) la probabilidad de no obtener ningún “4” en la sucesión,
(ii) la probabilidad de obtener, exactamente, tres “4” en la sucesión.
b) El computador genera una sucesión de 100 dı́gitos al azar. Halle la media y desviación
estandar del número de “4” en la sucesión.
- 142 -
2.2. VARIABLES ALEATORIAS CONTINUAS
2.2 Variables Aleatorias Continuas
Veamos ahora como construir modelos probabilı́sticos teóricos para variables aleatorias
continuas. Para esto, vamos a recurrir nuevamente al auxilio de ejemplos.
Ejemplo 2.2.1: El puntero de los segundos de un reloj mecánico puede parar en cualquier
instante por algún defecto técnico, indicaremos por X el ángulo que forma este puntero
con el eje imaginario que pasa por el centro del reloj y por el número XII, como se muestra
en el siguiente gráfico
XII
0Æ
270Æ IX III 90Æ
VI
180Æ
Figura 2.2.1
Asumiremos que:
(i) la variable aleatoria X, mide el ángulo en grados,
(ii) el puntero debe dar 60 “saltos” (da un salto cada segundo) para completar una vuelta,
(iii) el puntero tiene igual probabilidad de detenerse en cualquier punto, esto es, la varia-
ble aleatoria X tiene distribución uniforme discreta (sección anterior), cuya función
de cuantı́a está dada en la siguiente tabla:
x 0◦ 6◦ 12◦ 18◦ ... 348◦ 354◦
1 1 1 1 1 1
pX (x) 60 60 60 60 ... 60 60
Tabla 2.2.1
El siguiente, es el gráfico de la función de distribución de probabilidad pX (x).
- 143 -
pX (x)
1 • • • • • •
60
6◦ 12◦ 18◦ ... 348◦ 354◦ x (en grados)
Figura 2.2.2
Transportando el mismo problema a un reloj eléctrico, donde el puntero de los segun-

dos se mueve continuamente, necesitamos de otro modelo para representar a la variable
aleatoria X. Primero observamos que el conjunto de posibles valores de X ya no es un
conjunto contable, pues X (medida en grados) puede tomar cualquier valor del intervalo
[0, 360[= {x ∈ R : 0 ≤ x < 360}. En segundo lugar, como en el caso del reloj mecánico,
continuamos asumiendo que no existe una región de preferencia donde se detiene el pun-
tero. Como existen infinitos puntos en los cuales el puntero puede detenerse, cada uno con
igual probabilidad, si usáramos el mismo método visto para variables aleatorias discretas
uniformes, cada punto tendrı́a probabilidad cero de ocurrir. Ası́, entonces, no tiene mu-
cho sentido hablar de la probabilidad que X sea igual a cierto valor, pues esta probabilidad
siempre será igual a cero. En cambio, podemos determinar la probabilidad de que el ángulo
X esté comprendido entre dos valores cualquiera. Por ejemplo, usando el gráfico del reloj
como referencia, la probabilidad de que el puntero se detenga en el intervalo comprendido
entre los números XII y III es 41 , pues ese intervalo corresponde a 41 del intervalo total.
Entonces, podemos escribir (X medido en grados)
1
P (0 ≤ X ≤ 90) = .
4
Del mismo modo, la probabilidad de que el puntero se detenga entre los números IV y V
1
es igual a 12 . Esto es,
1
P (120 ≤ X ≤ 150) = .
12
Por menor que sea el intervalo, siempre podemos hallar la probabilidad de que el puntero
se detenga en un punto cualquiera de ese intervalo. Es fácil verificar que en este caso,
dados dos números a y b tales que 0 ≤ a ≤ b < 360, la probabilidad que X ∈ [a, b[ es
b−a
P (a ≤ X < b) = .
360
Ahora, si definimos la función


0 si x < 0
f (x) = 1
si 0 ≤ x < 360
 360

0 si x ≥ 360
- 144 -
entonces,
∫
b−a b
1
P (a ≤ X < b) = = dx
360 a 360
∫ b
= f (x)dx .
a
La función f (x) es llamada función de densidad de probabilidad de la variable aleatoria
X.
Podemos construir modelos teóricos para variables aleatorias continuas, escogiendo

adecuadamente las funciones de densidad de probabilidad.
Teóricamente, cualquier función
∫∞ f (·), que sea no negativa y cuya área total bajo la curva
sea igual a uno, es decir, −∞ f (t)dt = 1 , caracterizará una variable aleatoria continua.
Ejemplo 2.2.2: Sea f (x) =∫ 2x, para 0 ≤ x < 1 , y cero fuera se ese intervalo. Luego,
∞
f (x) ≥ 0, para todo x ∈ R y −∞ f (t)dt = 1 , es decir, f puede representar a una función
de densidad de alguna variable aleatoria X.
f (x)
1 1 x
2
Figura 2.2.3
En este caso, P (0 ≤ X < 12 ) , es igual al área del triángulo de base 1

2 y altura 1 (ver
figura anterior). Luego, la probabilidad en cuestión es
( )
1 1
·1 1
P 0≤X< = 2 = .
2 2 4
La comparación de las funciones de densidad de estos dos últimos ejemplos ayuda a

entender cuál es el significado de las mismas. En el primer ejemplo, consideremos dos
intervalos I1 = [a, b[ e I2 = [c, d[, contenidos en el intervalo [0, 360[, y con la misma
amplitud b − a = d − c, entonces
P (X ∈ I1 ) = P (X ∈ I2 ).
En el segundo ejemplo no ocurre lo mismo, ya que dados dos intervalos de la misma

amplitud, aquel más próximo a 1 representará mayor probabilidad. Luego, la probabilidad
- 145 -
de que una variable aleatoria X tome un valor perteneciente a un intervalo de amplitud

fija varı́a, de acuerdo con la posición del intervalo; existen regiones con mayor “chance” de
ocurrir, y lo que determina este hecho es la función de densidad de probabilidad. Por lo
tanto, la función de densidad es un indicador de la “masa” (probabilidad) de los posibles
valores de X. Conviene resaltar, además, que f (x) no representa una probabilidad de
ocurrencia de algún evento. El área bajo la curva entre dos puntos es lo que dará la
probabilidad.
Notar que en estos ejemplos, el rol que jugaba la función de cuantı́a en el caso de
variables aleatorias discretas, lo asume ahora la función de densidad.
Definición 2.2.1: Una distribución de probabilidad continua es una función f (x),

definida sobre R que satisface:
i) f (x) ≥ 0, para todo x real.

∫ ∞
ii) f (x)dx = 1.
−∞
La función f se conoce con el nombre de densidad de probabilidad o simplemente densidad.

También, una variable aleatoria X se dice que tiene distribución continua (más pre-
cisamente absolutamente continua) si existe una función fX : R → R+ , llamada densidad
de X tal que ∫
P (X ∈ B) = fX (x)dx,
B
para todo B ⊂ R, boreliano (véase [7], pág. 8). En este texto asumirá que todo subcon-
junto de R es boreliano, y (X ∈ B) representa el suceso
(X ∈ B) = {w ∈ Ω : X(w) ∈ B}.
Además, al conjunto {x ∈ R : fX (x) > 0}, se le conoce como recorrido de la variable

aleatoria X y se anota Rec X.
Notar que, si B = R, (X ∈ B) = Ω, por lo que
∫ ∞
1= fX (x)dx.
−∞
O sea, fX es una distribución de probabilidad continua. Es común decir que X es variable

aleatoria continua en lugar de que X tiene distribución continua.
Observación 2.2.1: Si B = {c},
P (X ∈ B) = P (X = c)
∫
= fX (x)dx
{c}
= 0.
- 146 -
Por lo tanto,
P (a < X < b) = P (a ≤ X < b)
= P (a < X ≤ b)
= P (a ≤ X ≤ b)
∫ b
= fX (x)dx.
a
Además, si δ es un número positivo y u ∈ R, entonces
( ) ∫ u+ δ
δ δ 2
P u− ≤X ≤u+ = fX (x)dx.
2 2 u− δ 2
Si se asume que δ es “pequeño” y que fX es continua en u, entonces
∫ u+ 2δ
fX (x)dx ≃ δ fX (u).
u− 2δ
Es decir, la probabilidad de que la variable aleatoria continua X pertenezca a un

intervalo “pequeño”, alrededor de u, es proporcional a fX (u). Algunas veces es común
usar la notación diferencial, P (x ≤ X ≤ x + dx) = fX (x)dx.
También, si se considera, para cada t real, Bt =] − ∞, t], entonces
P (X ≤ t) = P (X ∈ Bt )
∫
= fX (s)ds
Bt
∫ t
= fX (s)ds.
−∞
Definición 2.2.2: Si X es variable aleatoria continua, se define la función de dis-

tribución acumulada (o simplemente función de distribución) de la variable aleatoria X,
se anota FX , por
FX (t) = P (X ≤ t)
∫ t
= fX (s) ds, para todo t real.
−∞
- 147 -
Ejemplo 2.2.3: Sea X la variable aleatoria del Ejemplo 2.2.1, es decir,


 1

 360 si 0 ≤ t ≤ 360
fX (t) =



0 e.o.c.
Ası́, si t < 0 , entonces

∫ t ∫ t
fX (s)ds = 0 ds = 0.
−∞ −∞
Por otra parte, si 0 ≤ t < 360 , entonces

∫ t ∫ 0 ∫ t
1 t
fX (s)ds = 0 ds + ds = .
−∞ −∞ 0 360 360
Finalmente, si t ≥ 360 , entonces

∫ t ∫ 0 ∫ 360 ∫ t
1
fX (s)ds = 0 ds + ds + 0 ds = 1.
−∞ −∞ 0 360 360
En consecuencia,
FX (t) = P (X ≤ t)
∫ t
= fX (s)ds
−∞


 0 si t < 0






t
= si 0 ≤ t < 360

 360






1 si t ≥ 360
La figura siguiente muestra el gráfico de la función FX (t).
FX (t)
0 360 t
Figura 2.2.4
- 148 -
Observación 2.2.2: Del teorema fundamental del cálculo, si fX es continua en t,

entonces
d
f (t) = FX (t).
dt
Esto permite concluir que, si FX es la función de distribución de una variable aleatoria
continua X y FX es continua en R y derivable, salvo posiblemente en un conjunto A,
finito, entonces una densidad para X está dada por

 d

 dt FX (t) si t ∈
/A
fX (t) =



0 si t ∈ A
Ejemplo 2.2.4: Sea Y variable aleatoria continua, con densidad

{
0 si y < 0
fY (y) =
3 exp(−3y) si y ≥ 0.
Encontremos una densidad para la variable aleatoria X = exp(Y ).

Primeramente, calcularemos FX (t), para todo t ∈ R .
FX (t) = P (X ≤ t)
= P (exp(Y ) ≤ t).
Si t < 0, entonces (exp(Y ) ≤ t) = ∅, por lo que FX (t) = 0. Si en cambio t > 0,
entonces, por ser creciente la función ln,
(exp(Y ) ≤ t) = (Y ≤ ln t),
de donde
FX (t) = P (Y ≤ ln t)
∫ ln t
= fY (s)ds.
−∞
Ahora, si 0 < t < 1, entonces ln t < 0, por lo que
∫ ln t ∫ ln t
fY (s)ds = 0ds = 0.
−∞ −∞
Por otra parte, si t ≥ 1, entonces ln t ≥ 0, o sea

∫ ln t ∫ 0 ∫ ln t
fY (s)ds = 0 ds + 3 exp(−3s) ds
−∞ −∞ 0
= − exp(−3 ln t) − (− exp(−3 · 0))
1
= − + 1.
t3
- 149 -
Resumiendo, 

 0 si t < 1

FX (t) =


1 − 1 si t ≥ 1
t3
O sea, FX es función continua en R y derivable, salvo posiblemente en el conjunto A = {1}
(que es finito).
En consecuencia, una densidad para la variable aleatoria X está dada por

 d
 FX (t)
 si t ∈
/A
dt
fX (t) =



0 si t ∈ A


0 si t < 1






3
= si t > 1

 t4






0 si t = 0

 3

 t4 si t > 1
=



0 e.o.c.
Proposición 2.2.1: Las propiedades básicas que satisface la función de distribución

acumulada de una variable aleatoria continua, son exactamente las mismas que las enun-
ciadas en la Proposición 2.1.1 para el caso discreto. Esto porque en la demostración de
ésta proposición no interviene el hecho que la variable aleatoria sea discreta.
Ejemplo 2.2.5: Sea X variable aleatoria con función de distribución FX dada por:


 0 si t < 0







 t2



 si 0 ≤ t < 1

 2




3
FX (t) =
 si 1 ≤ t < 2

 4





 1

 (t + 1) si 2 ≤ t < 3




4





1 si t ≥ 3
- 150 -
El gráfico siguiente representa la función FX
FX (t)
1
0.75
0.5
1 2 3 t
Figura 2.2.5
Notar que X no es variable aleatoria continua. Si lo fuese, una densidad serı́a


 d

 dt FX (t) si la densidad existe
fX (t) =



0 e.o.c.


 0 si t < 0









 t si 0 < t < 1









 0 si 1 < t < 2

=

 1

 si 2 < t < 3

4









 0 si t > 3







0 si t ∈ {0, 1, 2, 3}


 t si 0 < t < 1






1
= si 2 < t < 3

 4






0 e.o.c.
- 151 -
Pero,
∫ ∞ ∫ 0 ∫ 1 ∫ 2 ∫ 3 ∫ ∞
1
fX (t)dt = 0 dt + t dt + 0 dt + dt + 0 dt
−∞ −∞ 0 1 2 4 3
12 02 1
= − + (3 − 2)
2 2 4
3
= ,
4
o sea,
∫ ∞
fX (t)dt ̸= 1,
−∞
luego, X no puede ser variable aleatoria continua.

También, observando el gráfico anterior vemos que FX (t) = FX (t− ), para todo t real,
salvo t = 1, y FX (1) − FX (1− ) = 0.25 . Ası́, si X fuese discreta entonces Proposición
2.1.1 implicarı́a que
P (X = t) = FX (t) − FX (t− )
= FX (t) − FX (t)
= 0 , para todo t ∈ R − {1}
y
P (X = 1) = FX (1) − FX (1− )
= 0.75 − 0.5
= 0.25.
Es decir, RecX = {1}, por lo que

∑
P (X = t) = P (X = 1)
t∈RecX
= 0.25,
∑
o sea, t∈RecX P (X = t) ̸= 1, lo que significa que X no puede ser variable aleatoria
discreta.
En general, para que una variable aleatoria sea continua, la función FX debe al menos
ser continua en R y para que una variable aleatoria sea discreta, la función FX debe ser
una función escalonada.
Cabe señalar que si X es variable aleatoria que no es discreta ni continua, entonces
la función de distribución acumulada se define igualmente como FX (t) = P (X ≤ t). Esta
función satisface las mismas propiedades vistas en la Proposición 2.1.1 (por la misma
razón que en el caso continuo, es decir, porque en las demostraciones no interviene el tipo
de variable aleatoria subyacente a la función de distribución acumulada).
Por ejemplo, observando la Figura 2.2.5 y usando las propiedades de la Proposición
2.1.1 obtenemos que:
- 152 -
P (X < 1) = P (X ≤ 1) − P (X = 1)
= FX (1) − 0.25
= 0.75 − 0.25
= 0.5,
P (X ≥ 1) = 1 − P (X < 1)
= 1 − 0.5
= 0.5,
P (X ≥ 2) = 1 − P (X < 2)
= 1 − [P (X ≤ 2) − P (X = 2)]
= 1 − [FX (2) − 0]
= 1 − 0.75
= 0.25,
(1 ) (1 ) ( )
P 2 <X< 5
2 = P 2 <X≤ 5
2 − P X = 25
(5) (1)
= FX 2 − FX 2 −0
( ) ( 1 )2
1 5
= +1 − 2
4 2 2
3
= 4,
P (1 ≤ X < 4) = P (1 < X < 4) + P (X = 1)
= P (1 < X ≤ 4) − P (X = 4) + P (X = 1)
= FX (4) − FX (1) − 0 + 0.25
= 1 − 0.75 + 0.25
= 0.5.
Ejemplo 2.2.6: Sea Y variable aleatoria continua con densidad

 −λy si y ≥ 0
λe
fY (y) =


0 si y < 0
donde λ es una constante positiva.
- 153 -
Consideremos un número real r positivo y la variable aleatoria X = min{r, Y }. Entonces
FX (u) = P (X ≤ u)
= P (min{r, Y } ≤ u)
= 1 − P (min{r, Y } > u)
= 1 − P (r > u, Y > u)


1 − P (∅) si u ≥ r
=


1 − P (Y > u) si u < r


1 si u ≥ r





 (∫ 0 ∫ ∞ )

 −λy
= 1− 0 dy + λe dy si u < 0

 u 0



 ∫ ∞



1 − λ e−λy dy si 0 ≤ u < r
u


1 si u ≥ r





= 0 si u < 0







1 − e−λu si 0 ≤ u < r
La figura siguiente representa el gráfico de la función FX .
FX (u)
1−e−λr ◦
r u
Figura 2.2.6
Del gráfico anterior, podemos observar que la variable aleatoria X no es continua, ya

que FX no es función continua. Si X tuviese densidad, deberı́a verificarse que
- 154 -

 d

 du FX (u) si la derivada existe
fX (u) =



0 e.o.c.

 −λu
λe si 0 < u < r
=


0 e.o.c.
pero,
∫ ∞ ∫ r
fX (u)du = λe−λu du
−∞ 0
= 1 − e−λr
̸= 1.
También del gráfico podemos observar que la variable aleatoria X no es discreta, ya
que FX no es una función escalonada. Si X fuese discreta, su recorrido serı́a RecX = {r},
ya que, para todo x ̸= r,
P (X = x) = FX (x) − lim FX (y)

y→x−
= FX (x) − FX (x)
= 0.
Por lo tanto, ∑
P (X = x) = P (X = r)
x∈RecX
= FX (r) − lim FX (y)

y→r−
( )
= 1 − 1 − e−λr
= e−λr
̸= 1.
Ejemplo 2.2.7: Sea X variable aleatoria continua. Asumamos que la función de dis-
tribución FX es estrictamente creciente en un intervalo I y FX (t) = 0 para valores de t
a la izquierda del intervalo y FX (t) = 1 para valores de t a la derecha del intervalo. Bajo
estos supuestos, la función inversa FX−1 está bien definida.
Sea 0 < p < 1, el cuantil p-ésimo de la variable aleatoria continua X (es costum-
bre también llamarlo cuantil p-ésimo de la distribución FX ) se define de igual forma
- 155 -
que en el caso de variable aleatoria discreta, esto es, xp satisface P (X < xp ) ≤ p y

P (X > xp ) ≤ 1 − p. En este caso, por la continuidad de la función FX , las condiciones
que debe cumplir xp son equivalentes a FX (xp ) = p.
Casos especiales son p = 0.5, el cual corresponde a la mediana de FX , p = 0.25 que
corresponde al primer cuartil de FX y p = 0.75 que corresponde al tercer cuartil. En
otras palabras,
FX−1 (0.25) = primer cuartil ; FX−1 (0.5) = segundo cuartil ; FX

−1
(0.75) = tercer cuartil.
Por ejemplo, sea X variable aleatoria con función FX dada por



 0 si t < −4







 1 1

 si − 4 ≤ t < 2

 24
t+
6
FX (t) =

 1[ ]



 3(t − 2)2 + 1 si 2 ≤ t < 3

4





1 si t ≥ 3
cuyo gráfico se muestra en la figura siguiente.
FX (t)
1
4
−4 2 3 t
Figura 2.2.7
Entonces, el intervalo I =]−4, 3[ cumple las condiciones para la existencia de la inversa
−1
FX . Para encontrar FX−1 , resolvemos la ecuación y = FX (t), es decir,
1 1
y= t+ , −4 < t < 2
24 6
1[ ]
y= 3(t − 2)2 + 1 , 2 < t < 3,
4
obteniendo que
t = 24y − 4, −4 < t < 2

√
1
t= (4y − 1) + 2, 2 < t < 3.
3
- 156 -
En consecuencia,


 24t − 4 si 0 < t ≤
1


 4
−1
FX (t) = √



 1 1
 (4t − 1) + 2 si <t<1
3 4
de esta forma,
( )
−1 1 1
1◦ cuartil = FX = 24 · − 4 = 2,
4 4
( ) √ ( )
◦ −1 1 1 1
2 cuartil = FX = 4 · − 1 + 2 = 2.58,
2 3 2
( ) √ ( )
−1 3 1 3
3◦ cuartil = FX = 4 · − 1 + 2 = 2.82.
4 3 4
2.2.1 Algunas funciones de densidad que aparecen en la práctica

La densidad Uniforme
La función de densidad uniforme sobre el intervalo ]a, b[, se define por

 1

b − a si a<u<b
f (u) =



0 e.o.c.
La densidad uniforme es, entonces, una constante en el intervalo ]a, b[, inversamente
proporcional al largo del intervalo.
La siguiente figura muestra el gráfico de la función f .
f (u)
1
b−a
a b u
Figura 2.2.8: Gráfico de la función de densidad uniforme sobre ]a, b[.
- 157 -
También, la función de distribución acumulada asociada a esta densidad, es definida por

∫ u
F (u) = f (t)dt
−∞
∫ u



 0 dt si u < a

 −∞




∫ a
 ∫ u
1
= 0 dt + dt si a ≤ u < b

 −∞ a b−a





 ∫ a ∫ b ∫ u

 1

 0 dt + dt + 0 dt si u ≥ b
−∞ a b−a b


 0 si u < a
u − a
= si a ≤ u < b

 b−a

1 si u ≥ b
y su gráfico lo muestra la figura siguiente
F (u)
a b u
Figura 2.2.9: Gráfico de la distribución acumulada, asociado a una densidad uniforme

sobre ]a, b[.
Una variable aleatoria continua X, se dice que tiene distribución uniforme sobre ]a, b[,
se anota X ∼ U (a, b), si su función de densidad es uniforme sobre el intervalo ]a, b[.
Obviamente, de la definición, FX es igual a la función de distribución acumulada asociada
la densidad uniforme
Cuando se habla de “escoger un punto al azar en el intervalo ]a, b[”, significa representar
por X el punto escogido y asumir que X ∼ U (a, b).
Una importante aplicación de la distribución uniforme puede verse en el párrafo sobre
transformación de variables aleatorias.
Observación 2.2.3: Si consideramos una variable aleatoria discreta Y con

RecY = {r, r+1, . . .} ⊂ N0 , y una variable aleatoria continua U , de modo que U ∼ U (0, 1),
entonces la variable aleatoria X, definida por
∑
X= mI(FY (m−1)<U ≤FY (m))
m∈Rec Y
- 158 -
es decir,
X=k si FY (k − 1) < U ≤ FY (k),
satisface que FX = FY .
En efecto, sea k ∈ {r, r + 1, . . .},
P (X = k) = P (FY (k − 1) < U ≤ FY (k))

∫ FY (k)
= 1 dt
FY (k−1)
= FY (k) − FY (k − 1)
∑ ∑
= pY (j) − pY (j)
j≤k j≤k−1
j∈RecY j∈RecY
= pY (k)
= P (Y = k).
En consecuencia, FX = FY .
Este resultado permite simular variables aleatorias discretas con recorrido contenido en
los enteros y con una distribución predeterminada. Por ejemplo, permite simular variables
binomiales.
La densidad exponencial
La función de densidad exponencial de parámetro λ > 0, es definida por

{
λe−λu si u ≥ 0
f (u) =
0 e.o.c.
Es común también, definir la densidad exponencial de parámetro λ > 0 por

{
1 −λ
1
λe
u
si u ≥ 0
f (u) =
0 e.o.c.
En general, en este texto se utilizará la primera forma de la densidad exponencial.

Además, la función de distribución acumulada, asociada a esta densidad es
∫ u
F (u) = f (t)dt
−∞
- 159 -
∫ u

 si u ≤ 0


0dt
 −∞
=

 ∫ ∫


u u
 0dt + λe−λt dt si u > 0
−∞ 0
{
0 si u ≤ 0
=
1 − e−λu si u > 0
Las siguientes figuras muestran los gráficos de la densidad exponencial y su respectiva

distribución acumulada para diferentes valores del parámetro λ.
f (u)
2.0
1.5 λ=0.5
1.0
λ=1
0.5
λ=2
0 1 2 3 u
Figura 2.2.10: Gráfico de la función de densidad exponencial de parámetro λ,

con λ = 0.5; λ = 1 y λ = 2.
F (u)
1 λ=0.5
λ=1
λ=2
0.5
0 1 2 3 u
Figura 2.2.11: Gráfico de la distribución acumulada asociada a la densidad exponencial

de parámetro λ, con λ = 0.5; λ = 1 y λ = 2.
Notar que, la mediana de la densidad exponencial, es decir, el valor θ tal que

F (θ) = 0.5, resulta de resolver la ecuación
1 − e−λθ = 0.5,
ln 2
o sea, la mediana resulta igual a θ = λ .
- 160 -
Una variable aleatoria continua X, se dice que tiene distribución exponencial de

parámetro λ, se anota X ∼ exp(λ), si su función de densidad es exponencial de parámetro
λ.
La distribución exponencial es a menudo usada para modelar tiempos de vida o tiempos
de espera.
Nótese que, si X ∼ exp(λ), entonces, para s, t > 0,
P (X > s + t, X > s)
P (X > s + t/X > s) =
P (X > s)
P (X > s + t)
=
P (X > s)
1 − FX (s + t)
=
1 − FX (s)
1 − (1 − e−λ(s+t) )
=
1 − (1 − e−λs )
= e−λt .
En este sentido, se dice que la densidad exponencial no tiene memoria, pues sabiendo que
X es mayor que s, la probabilidad que ahora X sea mayor que t no depende de s, sólo
depende de t.
La densidad Gamma
La función de densidad gamma de parámetros α > 0 y β > 0, se define como
 α

 β α−1 −βu

 Γ(α) u e si u ≥ 0
f (u) =



0 e.o.c.
También, en algunas oportunidades, la densidad gamma de parámetros α y β es definida
por
 1
α−1 − β u
1

 si u ≥ 0
 β α Γ(α) u e
f (u) =



0 e.o.c.
Nosotros usamos, en general, la primera forma de la densidad gamma. ∫∞
Es preciso recordar que la función Γ(α) está definida por Γ(α) = 0 tα−1 e−t dt.
Además, integrando por partes, es simple verificar que Γ(α + 1) = αΓ(α) y como Γ(1) = 1,
entonces, para todo natural n, Γ(n) = (n − 1)!. Es decir, la función Γ(α) es una genera-
lización del factorial de un número natural.
Las siguientes figuras muestran los gráficos de la densidad gamma y su respectiva

distribución acumulada, para diferentes valores del parámetro α y β = 1.
- 161 -
f (u)
1
α = 0.5
0.5 α=1
α=2
α=5
0 2 4 6 8 10 u
Figura 2.2.12: Gráfico de la función de densidad gamma de parámetros α y β

con α = 0.5; α = 1; α = 2; α = 5 y β = 1.
α=1
α=2
α=5
0.5
0 2 4 6 8 10
Figura 2.2.13: Gráfico de la distribución acumulada asociada a la densidad

gamma de parámetros α y β con α = 1; α = 2; α = 5 y β = 1.
La función de densidad exponencial de parámetro λ, corresponde a la función de densidad

gamma con parámetros α = 1 y λ.
Una variable aleatoria continua X, se dice que tiene distribución gamma de parámetros
α y λ, se anota X ∼ Gamma(α, λ), si su función de densidad es gamma de parámetros α
y λ.
- 162 -
La densidad Beta
La función de densidad Beta, de parámetros v > 0 y w > 0, corresponde a

 v−1
 u (1 − u)
w−1
si 0 < u < 1
f (u) = B(v, w)

0 e.o.c.
∫1
donde B(v, w) representa la integral B(v, w) = 0 xv−1 (1 − x)w−1 dx, que resulta ser igual
a
Γ(v)Γ(w)
B(v, w) = .
Γ(v + w)
Las siguientes figuras muestran los gráficos de la densidad Beta y su respectiva dis-
tribución acumulada, para diferentes valores de los parámetros v y w.
f (u)
v=2w=4 v=4w=2
2
0 0.5 1 u
Figura 2.2.14: Gráfico de la función de densidad Beta, de parámetros v y w,

con v = 2; w = 4; v = 4 y w = 2.
f (u)
2 v=1w=2 v=2w=1
v = 0.5
w = 0.5
v=1w=1
1
v = 0.2 w = 1
0 0.5 1 u
Figura 2.2.15: Gráfico de la función de densidad Beta, de parámetros v y w, con

(v, w) = (1, 2); (v, w) = (1, 1); (v, w) = (2, 1); (v, w) = (0.2, 1) y (v, w) = (0.5, 0.5).
- 163 -
F (u)
1
v=2w=4
v = 0.5 w = 0.5
0.5
v=1w=1
0 0.5 1 u
Figura 2.2.16: Gráfico de la función de distribución acumulada, asociada a la densidad

Beta, de parámetros v y w, con (v, w) = (2, 4); (v, w) = (1, 1) y (v, w) = (0.5, 0.5).
Cabe hacer notar que la función de densidad uniforme sobre ]0, 1[, corresponde a la función
de densidad Beta con parámetros v = 1 y w = 1.
Una variable aleatoria continua X, se dice que tiene distribución Beta de parámetros
v y w, se anota X ∼ Beta(v, w), si su función de densidad es Beta de parámetros v y w.
Es preciso resaltar que la distribución Beta resulta un modelo probabilı́stico bastante útil
para variables aleatorias con valores en el intervalo ]0, 1[.
La densidad normal (o gaussiana)

La función de densidad normal de parámetros µ y σ 2 , donde µ puede ser un real positivo
o negativo y σ puede ser un real estrictamente positivo, es definida por
1 { 2
}
f (x) = √ exp − 12 (x−µ)
σ2
, x ∈ R.
2π σ
La siguiente figura muestra el gráfico de la densidad normal de parámetros µ y σ 2 , con

σ = 2 y σ = 3.
..................................... σ=2
............. .........
........ ......
.......... ......
..
.... ................................... ..........
. .
..
..
...
. .. . .. .. ............
.. . ....... σ=3
......... .............
.. . .. ................. ...... ......
.. . .. . . ........ ......... .......
.. . ...........
.. .. .. .. .. .. ..
..
...
....
....
...
...
....
. .............. .................
.. .
. ......................
..
................
...
...
...
...
...
...
...
...
...
. .
.... ...............................
µ
Figura 2.2.17
Comúnmente, el gráfico anterior es conocido como “Campana de Gauss” de parámetros

(µ, σ 2 ) o también, como “Curva Normal (µ, σ 2 )”.
Usaremos indistintamente “Campana de Gauss” de parámetros (µ, σ 2 ) o “Curva Normal
(µ, σ 2 )” para referirnos a la función de densidad normal de parámetros µ y σ 2 o a su
gráfica.
- 164 -
En el caso en que µ = 0 y σ = 1, es común anotar φ(x) en lugar de f (x), es decir,
1 ( )
φ(x) = √ exp − 12 x2 , x ∈ R.
2π
La Campana de Gauss de parámetros (0, 1) es conocida como “Campana de Gauss
estándar”. La siguiente figura muestra el gráfico de ésta “Campana” (la curva se extiende
hacia ambos lados sin llegar a tocar el eje x, pero se acerca tanto al eje, que no se distingue
a simple vista).
φ(x)
0.4 .........................
...... .....
.... ....
.... ....
..
..... ....
....
.
.... ....
.... 0.2 ....
.
...... ....
....
.... ....
.... .....
...
. ..... .....
.......
.....
............ ............
.......................................................... ..........................................................
−3 −2 −1 0 1 2 3 x
Figura 2.2.18
También, la función de distribución acumulada asociada a la densidad normal estándar es

∫ z
1 ( )
F (z) = √ exp − 12 t2 dt
−∞ 2π
y se acostumbra a denotar por Φ(z).

El área sombreada que muestra la figura siguiente, representa el área que está bajo la
campana de Gauss estándar, sobre el eje x y antes de la recta x = z, es decir, el valor de
esta área corresponde a Φ(z).
...
Φ(z) .........................
..... . . . . .....
↘ .... . . . . . . . . . . . .....
..... . . . . . . . . . . . . . ......
.... . . . . . . . . . .... .
..... . . . . . . . . . . . . . . . . . . . .....
..... . . . . . . . . . . . . . . . . . . . . . . . .....
.
........ . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .......
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ........
............. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .....
.....
.
..
...
...
......... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ........
..............
.
....
...
...
...
....
..
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .....................................................
................................................ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Figura 2.2.19
Finalmente, la figura siguiente muestra el gráfico de la función de distribución acumulada

asociada a la densidad normal estándar, es decir el gráfico de Φ(z).
- 165 -
Φ(x)
.........
1 .............
......
...
......
.....
.....
..
.......
0.5 ..
.....
.....
.........
..
........
............
.
...
...
...
...
...
...
...
...
...
...
...
................
....................................................
..
−3 −2 −1 0 1 2 3 x
Figura 2.2.20
Algunas caracterı́sticas de la densidad normal estándar, es decir, de la

función φ
( 1 ) ( 1 )
• Como exp − 2 x2 = exp − 2 (−x)2 , entonces, para todo x, φ(x) = φ(−x), es
decir, la gráfica de φ es simétrica respecto x = 0. O dicho de otra forma, la campana
de Gauss estándar es simétrica respecto de la recta x = 0.
.......................
...... .....
..
..... ....
. ....
.
...... ....
..
.. ....
...
. ....
... ....
.... ....
.
... ....
... ....
.... .....
.... .....
..... ......
..
...
...
.. ...........
..
...
...
...
. ............................
.................................................. ................................
x=0 x
Figura 2.2.21
∫∞
• La función φ es densidad, luego −∞ φ(x)dx = 1, o sea, el área bajo la curva φ y
sobre el eje x es igual a 1.
.............
........ . ........
.... . . . . . . . . . ......
....... . .. . .. . .. . .. . .. . .. . .........
.
.
.... . . . . . . . . . . . . . . . . . . ......
..... . . . . . . . . . . . . . . . . . . . . . .....
.
........ . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ..........
. .
.... . . . . . . . . . . . . .1. . . . . . . . . . . . . . . . .....
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....
..
....... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. ..........
...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......
....... . . . . . . . . . . . . . . . . . . . . . . . ......
............. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .............
....................................................................... .. . .. . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .......................................................................
0 x
Figura 2.2.22
- 166 -
• Sea z un número negativo (en consecuencia −z es positivo). El área que se

encuentra bajo la campana de Gauss estándar, sobre el eje x y antes de la recta
x = z, como lo muestra la figura siguiente, esto es Φ(z)
........................
..... .....
.
...... ....
.. ....
.....
. ....
....
..
. ....
..
..
. ....
Φ(z) .... . . ...
. ....
. .... ....
↘ ..
. ..
. ...
.. . . . . .
.. . . . . . . .
....
.....
.....
...
... . . . . .......
.
...
...
.. . .......... ............
...
...
...
...
...
.
..... . . . . . . . . . . . . . ...................................................
....................................................... . . . . . . . . . . . . . . . . . . . . .......
z 0 x
Figura 2.2.23
resulta ser igual, por la simetrı́a de la campana de Gauss, al área que se encuentra
bajo la campana de Gauss estándar, sobre el eje x y después de la recta x = −z.
.............
....... ...........
.... ....
..
..... ....
....
.
..
..... ....
....
...
. ...
...
..
.... . .........
.. . . ..
.
....
. . .. . .. ..........
.
......
. . . . . . . . .......
. . . . . ...
....... . .. . .. . .. . .. . .. .......................
............
......................................................... . . . . . . . . . . . . . . . . . ............................................................
...................
0 −z x
Figura 2.2.24
Pero, al área que se encuentra bajo la campana de Gauss estándar, sobre el eje x y
antes de la recta x = −z, es igual Φ(−z)
...
.........................
...... . . . . . . . . .....
.
........ .. . .. . .. . .. . .. . .. ..........
. .
..... . . . . . . . . . . . . . . . . . ......
..... . . . . . . . . . . . . . . . . . . . . . .....
.
......... . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .........
Φ(−z) ....... . . . . . . . . . . . . . . . . . . . . . . . . . . ......
... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......
↘ ..
..... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
...... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .
.....
.....
.. .......
..
. ..
...
. ............ .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ..
. ............
..................................................
....................................................................... .. . .. . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . ........
0 −z x
Figura 2.2.25
y como el área total es uno, entonces 1 − Φ(−z) será igual al área que se encuentra
bajo la campana de Gauss estándar, sobre el eje x y después de la recta x = −z.
- 167 -
...............
....... ..........
.... ....
..
..... ....
....
.
..
..... ....
....
...
. ...
..
..
...
. . .........
.. . . ..
.
.....
.. . .. . .. ........1−Φ(−z)
.... . . . . . . ..........
. .. . .. . .. . ..↙
..
.. . . . . . .........
...... . . .......
............ . . . . . . . . . .. . .. . .. .......................................................................
......................................................... ...................
0 −z x
Figura 2.2.26
En consecuencia, Φ(z) = 1 − Φ(−z), para todo z negativo.
.....................
....... .....
.... ....
.
...... ....
....
..
.. ....
...
. ....
.
... ..
. ..
. .
. ..
. .. . .........
Φ(z)............. .. .. .. . . . ...... 1−Φ(−z)
. . . ..
.. . . . . . .. . .. . .. ...........
..↘
......... . .. . .. . .. . . . . . . . . .↙ . ...
.
...
...
. . .
.......... . . . . . . . . . . . . . . . . . .............
...................................................................... .. . .. . . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. .......................................................................
...................
z 0 −z x
Figura 2.2.27
• El área que se encuentra bajo la campana de Gauss estándar sobre el eje x y antes
de recta x = 3.59, esto es
∫ 3.59
φ(t)dt = Φ(3.59),
−∞
es “aproximadamente” igual a uno.
.....................
..... . . . . . . ......
..
...... . .. . .. . .. . .. . .. ...........
. .
.... . . . . . . . . . . . . . . . . . .....
..... . . . . . . . . . . . . . . . . . . . .....
.
....... .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. ........
.
.... . . . . . . . . . . . . . . . . . . . . . . . . . . . ..... Φ(3.59)
.... . . . . . . . . . . . . . . . ....
..... . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .........
.
.... . . . . . . . . . . . . . . . .
...... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ......
.↙. . ..
....... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .......
...
...
...
...
...
.
.............. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .. . .................................
.
...................................................... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ...................................................
0 3.59 x
Figura 2.2.28
- 168 -
En consecuencia, el área bajo la campana de Gauss estándar, sobre el eje x y antes

de la recta x = −3.59, esto es, Φ(−3.59), es aproximadamente igual 1 − Φ(3.59), o
sea, “aproximadamente” igual a cero.
• Si z > 0, entonces
∫ z
Φ(z) = φ(t)dt
−∞
∫ z
1 ( )
= √ exp − 12 t2 dt
−∞ 2π
y esta última integral no es posible de calcularla explı́citamente con los métodos
de integración usuales, por lo que la función Φ(z) no puede ser evaluada en forma
cerrada, esto es, no se puede dar una expresión en función de z. Por esta razón, se
ha construido una tabla (conocida como tabla normal (0,1)) con los valores de Φ(z),
para z un número real positivo entre 0 y 3.59 y con incrementos de 0.01, es decir, z
perteneciente al conjunto
C = {0, 0.01, 0.02, 0.03 , . . . , 0.09, 0.1, 0.101, . . . , 3.58, 3.59},
el cual tiene 360 elementos.
Notar que si z < 0, entonces

∫ −z ∫ ∞
1= φ(t)dt + φ(t)dt
−∞ −z
∫ ∞
1 ( )
= Φ(−z) + √ exp − 12 t2 dt
−z 2π
∫ −∞
1 ( )
= Φ(−z) − √ exp − 12 u2 du
z 2π
∫ z
1 ( )
= Φ(−z) + √ exp − 21 u2 du
−∞ 2π
= Φ(−z) + Φ(z).
Ası́, se verifica formalmente que Φ(z) = 1 − Φ(−z).
- 169 -
Tabla Normal (0,1)

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5783 .5832 .5871 .5910 .5948 .5987 .6026 .6464 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7703 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9761 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998
Tabla 2.2.2
La forma de usar esta tabla es la siguiente:

Por
∫ 1.23 ejemplo,( para) encontrar el valor de Φ(1.23), es decir, para encontrar
√1 exp − 1 t2 dt, obsérvese en la tabla la intersección de la fila 1.2 con la
−∞ 2π 2
columna 0.03 (1.23 = 1.2 + 0.03). El valor que resulta es 0.8907, por lo que
Φ(1.23) = 0.8907.
∫Si−2.38
se deseara (encontrar,
) por ejemplo, el valor de Φ(−2.38), esto es, calcular
√1 exp − 1 t2 dt, no es posible usar la tabla directamente, pues este valor
−∞ 2π 2
no aparece en ella. Para resolver este problema se usa la relación Φ(z) = 1 − Φ(−z),
para todo z < 0.
- 170 -
Ası́,
Φ(−2.38) = 1 − Φ(2.38)
= 1 − 0.9913
= 0.0087.
A partir de la tabla normal (0,1) se verifica, por ejemplo, que:

El área que se encuentra bajo la campana de Gauss estándar, sobre el eje x y entre
las rectas x = −2; x = 2, esto es
∫ 2 ∫ 2 ∫ −2
φ(t)dt = φ(t)dt − φ(t)dt
−2 −∞ −∞
= Φ(2) − Φ(−2)
= Φ(2) − (1 − Φ(2))
= 2Φ(2) − 1 ,
es “aproximadamente” igual a 0.95 (también se dice el 95%).

Por otra parte, el área que se encuentra bajo la campana de Gauss estándar, sobre
el eje x y entre las rectas x = −3 ,x = 3, esto es
∫ 3
φ(t)dt = Φ(3) − Φ(−3)
−3
= 2Φ(3) − 1,
es “aproximadamente” igual a 0.99 (99%).
La tabla normal(0,1) también puede ser usada en sentido inverso, esto es, dado
0 < β < 1 , encontrar z de modo que Φ(z) = β . A este valor de z se le llama cuantil
β y es común denotarlo por zβ . Por ejemplo, z.975 = 1.96 , ya que .975 se encuentra en
la intersección de la fila 1.9 con la columna 0.06 y 1.9 + 0.06 = 1.96.
La siguiente, es otra forma de calcular el valor aproximado de Φ(z), la cual puede

consultarse en [1].
Sea z ≥ 0, entonces
Φ(z) ≃ 1 − φ(z)(bt + ct2 + dt3 ),
1
donde t = 1+az y
a = 0.33267, b = 0.4361836,
c = −0.1201676, d = 0.9372980.
Además, el error que se comete por esta aproximación es menor que 10−4 , es decir,

Φ(z) − (1 − φ(z)(bt + ct2 + dt3 )) < 10−4 .
Por ejemplo, si z = 1.96, entonces t = 0.605315, φ(1.96) = 0.05844094 y
1 − φ(z)(bt + ct2 + dt3 ) = 0.97499.
- 171 -
Notar que la aproximación sólo es válida para z ≥ 0, en el caso z < 0, se debe usar la
relación Φ(z) = 1 − Φ(−z), y ahora aproximar Φ(−z).
En la referencia citada recientemente, también puede consultarse la aproximación para
la inversa, esto es, dado 0 < β < 1, como encontrar el cuantil β, esto es zβ .
Sea 0 < β ≤ 0.5, si

a0 + a1 t
zβ = t −
1 + b1 t + b2 t2
√
con t = −2 ln β y
a0 = 2.30753, b1 = 0.99229,
a1 = 0.27061, b2 = 0.04481,
entonces
Φ(zβ ) ≃ β,
y el error que se comete al aproximar zβ es menor que 3 × 10−3 , esto es,
|Φ(zβ ) − β| < 3 × 10−3 .
Observar que la aproximación anterior es sólo válida para 0 < β ≤ 0.5.

Si 0.5 < β < 1, debe usarse la simetrı́a en torno de 0 de la función φ(z), esto es, si
0.5 < β < 1 y Φ(z) = β, entonces Φ(−z) = 1 − β. Ahora, como 0 < 1 − β < 0.5, se usa
la aproximación descrita anteriormente.
Por ejemplo, si β = 0.975, entonces 1 − β = 0.025. Luego, t = 2.71620 y la aproximación
nos conduce al valor −1.6445. Por lo tanto,
Φ(1.6445) ≃ 0.975.
Finalmente, una variable aleatoria X, se dice que tiene distribución normal de

parámetros µ y σ 2 > 0, se anota X ∼ N (µ, σ 2 ), si su función de densidad es
normal de parámetros µ y σ 2 .
El problema ahora es como calcular probabilidades relacionadas con una variable

aleatoria X ∼ N (µ, σ 2 ). Por ejemplo ¿cómo calcular FX (x), para todo x real?
El siguiente ejemplo, nos entrega, en particular, la respuesta a la interrogante anterior.
Ejemplo 2.2.8: Sea X variable aleatoria, de modo que X ∼ N (µ, σ 2 ). Supongamos que
Z = aX + b, con a y b reales conocidos y a < 0. Entonces, para todo z real,
FZ (z) = P (Z ≤ z)
= P (aX + b ≤ z)
= P (aX ≤ z − b).
Pero, a < 0, de donde ( )

z−b
(aX ≤ z − b) = X ≥ ,
a
- 172 -
es decir ( )
FZ (z) = P X ≥ z−b
a
( )
= 1−P X < z−b
a
( z−b )
= 1 − FX a
∫ z−b { }
a 1 (u−µ)2
= 1− √ exp − 12 σ2
du.
−∞ 2πσ
La función FZ (z) es continua y derivable en todo R, por lo que una densidad para Z
está dada por
d
fZ (z) = FZ (z).
dz
Por teorema fundamental del cálculo integral
∫ h(z) { } { } d
d 1 (u−µ)2 1 (h(z)−µ)2
√ exp − 12 σ2
du = √ exp − 12 σ2
h(z),
dz −∞ 2πσ 2πσ dz
de donde { }
1 ( z−b −µ)2 1
fZ (z) = − √ exp − 12 a
σ2
2πσ a
1 { }
(z−(aµ+b))2
= √ exp − 21 (aσ)2
.
2π(−a)σ
Análogamente, si a > 0,
1 { }
(z−(aµ+b))2
fZ (z) = √ exp − 12 (aσ)2
.
2πaσ
En consecuencia, Z ∼ N (aµ + b, a2 σ 2 ), es decir, si X ∼ (µ, σ 2 ), entonces

(aX + b) ∼ N (aµ + b, a2 σ 2 ).
En particular, si X ∼ N (µ, σ 2 ), entonces la variable aleatoria Z = X−µ = σ1 X + −µ
σ ,
−µ ( )
1 2
σ
1
tiene distribución normal de parámetros σ µ + σ y σ · σ , es decir, Z ∼ N (0, 1).
2
Por esta razón, si X ∼ N (µ, σ ), entonces, para números reales c < d, la probabilidad
2
P (c ≤ X ≤ d), puede calcularse de la siguiente forma:

( )
c−µ X−µ d−µ
P (c ≤ X ≤ d) = P σ ≤ σ ≤ σ
( ) ( c−µ )
d−µ
= Φ σ −Φ σ .
Ası́, probabilidades para variables aleatorias normales generales, pueden ser calculadas
en términos de probabilidades obtenidas de la tabla normal (0,1).
Esta es la razón por la cual no es necesario conocer tablas normales para cualquier µ y
σ. ( )
Por ejemplo, si X ∼ N 20 20
3 , 9 ,
- 173 -
( ) ( )
P (7.5 < X < 10.5) = Φ √
10.5−20/3
−Φ √
7.5−20/3
20/9 20/9
= Φ(2.57) − Φ(0.56)
= 0.2826
La distribución normal juega un rol fundamental en probabilidades y estadı́stica, como

lo veremos a través del resto de este texto. La distribución normal también es llamada dis-
tribución gaussiana después que Carl Friedrich Gauss la propusiera como modelo teórico
para errores de medición. El teorema del lı́mite central, que veremos más adelante, jus-
tifica el uso de la distribución normal en muchas aplicaciones. En pocas palabras, este
teorema dice que si una variable es la suma de un “gran” número de variables aleatorias
independientes, esta tiene distribución aproximadamente normal.
La distribución normal es común verla como modelo para: altura de personas, veloci-
dad de una molécula, puntaje de algún test educacional, coeficientes que determinan el
5% del Aporte Fiscal Directo, etc.
La densidad chi-cuadrado
La función de densidad chi-cuadrado con n grados de libertad (n natural), se define por
 ( )
 n 1( ) u n2 −1 exp − 1 u si u > 0
n 2
f (u) = 2 2 Γ 2

0 e.o.c.
Las siguientes figuras muestran los gráficos de la densidad chi-cuadrado y su respectiva

distribución acumulada, para diferentes grados de libertad,
f (u)
0.20
0.15 n=4
0.10
n=10
0.05 n=20
0 5 10 15 20 25 30 35 u
Figura 2.2.29: Gráfico de la función de densidad chi-cuadrado con n grados de libertad,

con n = 4, n = 10 y n = 20.
- 174 -
Fn (u)
n=4
n = 10
n = 20
0.5
0 5 10 15 20 25 30 35 u
Figura 2.2.30: Gráfico de la función de distribución acumulada asociada a la densidad

chi-cuadrado con n grados de libertad, con n = 4, n = 10 y n = 20.
Al igual que en el caso de la distribución normal, la complejidad de la función de

densidad chi-cuadrado, no permite calcular en forma cerrada su función de distribución
acumulada Fn (u).
Por esta razón, al igual que en el caso normal(0,1), existe una tabla con valores de
Fn (u), que presentamos a continuación. Los valores de u donde se calcula Fn (u) son
aquellos en que Fn (u) = β , con n ∈ {1, 2, 3, . . . , 16, 18, 20, 24, 30, 40, 60, 120}, y
β ∈ {.005, .010, .025, .050, .100, .900, .950, .975, .990, .995}.
Los valores de la tabla se conocen como cuantiles y se anotan χ2n,β .
Por ejemplo, para encontrar u de modo que F14 (u) = 0.90 , que se anota χ214,0.90 , se debe
observar la intersección de la fila n = 14 con la columna β = 0.90. El valor resultante es
21.06, por lo que F14 (21.06) = 0.90, o dicho de otra forma, χ214,0.90 = 21.06.
- 175 -
Tabla Chi-Cuadrado
n\β .005 .01 .025 .05 .10 .90 .95 .975 .99 .995
1 .000039 .00016 .00098 .0039 .0158 2.71 3.84 5.02 6.63 7.88
2 .0100 .0201 .0506 .1026 .2107 4.61 5.99 7.38 9.21 10.60
3 .0717 .115 .216 .352 .584 6.25 7.81 9.35 11.34 12.84
4 .207 .297 .484 .711 1.064 7.78 9.49 11.14 13.28 14.86
5 .412 .554 .831 1.15 1.61 9.24 11.07 12.83 15.09 16.75
6 .676 .872 1.24 1.64 2.20 10.64 12.59 14.45 16.81 18.55
7 .989 1.24 1.69 2.17 2.83 12.02 14.07 16.01 18.48 20.28
8 1.34 1.65 2.18 2.73 3.49 13.36 15.51 17.53 20.09 21.96
9 1.73 2.09 2.70 3.33 4.17 14.68 16.92 19.02 21.67 23.59
10 2.16 2.56 3.25 3.94 4.87 15.99 18.31 20.48 23.21 25.19
11 2.60 3.05 3.82 4.57 5.58 17.28 19.68 21.92 24.73 26.76
12 3.07 3.57 4.40 5.23 6.30 18.55 21.03 23.34 26.22 28.30
13 3.57 4.11 5.01 5.89 7.04 19.81 22.36 24.74 27.69 29.82
14 4.07 4.66 5.63 6.57 7.79 21.06 23.68 26.12 29.14 31.32
15 4.60 5.23 6.26 7.26 8.55 22.31 25.00 27.49 30.58 32.80
16 5.14 5.81 6.91 7.96 9.31 23.54 26.30 28.85 32.00 34.27
18 6.26 7.01 8.23 9.39 10.86 25.99 28.87 31.53 34.81 37.16
20 7.43 8.26 9.59 10.85 12.44 28.41 31.41 34.17 37.57 40.00
24 9.89 10.86 12.40 13.85 15.66 33.20 36.42 39.36 42.98 45.56
30 13.79 14.95 16.79 18.49 20.60 40.26 43.77 46.98 50.89 53.67
40 20.71 22.16 24.43 26.51 29.05 51.81 55.76 59.34 63.69 66.77
60 35.53 37.48 40.48 43.19 46.46 74.40 79.08 83.30 88.38 91.95
120 83.85 86.92 91.58 95.70 100.62 140.23 146.57 152.21 158.95 163.64
Tabla 2.2.3
Notar que la función de densidad chi-cuadrado con n grados de libertad es un caso par-
ticular de la función de densidad gamma. Basta considerar en ésta última los parámetros
α = n2 y λ = 21 .
También, una variable aleatoria continua X, se dice que tiene distribución chi-cuadrado
con n grados de libertad, se anota X ∼ χ2(n) , si su función de densidad es chi-cuadrado
con n grados de libertad. Por ejemplo, si X es variable aleatoria tal que X ∼ χ2(14) ,
entonces P (X ≤ 21.06) = 0.90.
Como veremos más adelante, la distribución chi-cuadrado corresponde a la distribución
del cuadrado de una normal, esto es, si X es variable aleatoria tal que X ∼ N (0, 1),
entonces X 2 tiene distribución chi-cuadrado con un grado de libertad.
Finalmente, mencionamos que la distribución chi-cuadrado es de gran utilidad en Inferen-
cia Estadı́stica, por ejemplo, en la construcción de intervalos de confianza.
La densidad t-student
La función de densidad t-student con n grados de libertad es definida como
( ) ( ) (n+1)
Γ n+1 u 2 − 2
2( )
f (u) = √ 1+ , u ∈ R.
nπ Γ n2 n
- 176 -
Las siguientes figuras muestran los gráficos de la densidad t-student y su respectiva

distribución acumulada, para diferentes grados de libertad,
f (u)
0.5
n = 100
n=5
n=1
-3 -2 -1 0 1 2 3 u
Figura 2.2.31: Gráfico de la función de densidad t-student con n grados de libertad,

con n = 1, n = 5 y n = 100.
Fn (u)
1 n = 100
n=5
n=1
0.5
-3 -2 -1 0 1 2 3 u
Figura 2.2.32: Gráfico de la función de distribución acumulada asociada a la densidad

t-student con n grados de libertad, con n = 1, n = 5 y n = 100.
La función de densidad t-student es simétrica respecto de cero, esto es

f (u) = f (−u). Además, cuando el número de grados de libertad es “grande”, la den-
sidad t-student es “aproximadamente” igual a la densidad normal estándar, de hecho,
para grados de libertad mayores que 30, las dos densidades son bastante “cercanas”.
Al igual que en los casos de las densidades normal y chi-cuadrado, la complejidad de
la densidad t-student no permite calcular en forma cerrada su función de distribución
acumulada Fn (u).
Por esta razón, como en el caso chi-cuadrado, existe una tabla con valores de Fn (u),
que presentamos a continuación. Los valores de u donde se calcula Fn (u) son aquellos
para los que se cumple que Fn (u) = β , con n ∈ {1, 2, 3, . . . , 30, 40, 60, 120, ∞}, y
β ∈ {.60, .70, .80, .90, .95, .975, .990, .995}.
- 177 -
Los valores de la tabla se conocen como cuantiles y se anotan tn,β .

Por ejemplo, para encontrar u de modo que F17 (u) = .975 , que se anota t17,.975 , se debe
observar la intersección de la fila n = 17 con la columna t.975 . El valor resultante es 2.11,
por lo que F17 (2.11) = .975, o dicho de otra forma, t17,.975 = 2.11.
Tabla t-student
n\β .60 .70 .80 .90 .95 .975 .99 .995
1 .325 .727 1.376 3.078 6.314 12.706 31.821 63.657

2 .289 .617 1.061 1.886 2.920 4.303 6.965 9.925
3 .277 .584 .978 1.638 2.353 3.182 4.541 5.841
4 .271 .569 .941 1.533 2.132 2.776 3.747 4.604
5 .267 .559 .920 1.476 2.015 2.571 3.365 4.032
6 .265 .553 .906 1.440 1.943 2.447 3.143 3.707

7 .263 .549 .896 1.415 1.895 2.365 2.998 3.499
8 .262 .546 .889 1.397 1.860 2.306 2.896 3.355
9 .261 .543 .883 1.383 1.833 2.262 2.821 3.250
10 .260 .542 .879 1.372 1.812 2.228 2.764 3.169
11 .260 .540 .876 1.363 1.796 2.201 2.718 3.106

12 .259 .539 .873 1.356 1.782 2.179 2.681 3.055
13 .259 .538 .870 1.350 1.771 2.160 2.650 3.012
14 .258 .537 .868 1.345 1.761 2.145 2.624 2.977
15 .258 .536 .866 1.341 1.753 2.131 2.602 2.947
16 .258 .535 .865 1.337 1.746 2.120 2.583 2.921

17 .257 .534 .863 1.333 1.740 2.110 2.567 2.898
18 .257 .534 .862 1.330 1.734 2.101 2.552 2.878
19 .257 .533 .861 1.328 1.729 2.093 2.539 2.861
20 .257 .533 .860 1.325 1.725 2.086 2.528 2.845
21 .257 .532 .859 1.323 1.721 2.080 2.518 2.831

22 .256 .532 .858 1.321 1.717 2.074 2.508 2.819
23 .256 .532 .858 1.319 1.714 2.069 2.500 2.807
24 .256 .531 .857 1.318 1.711 2.064 2.492 2.797
25 .256 .531 .856 1.316 1.708 2.060 2.485 2.787
26 .256 .531 .856 1.315 1.706 2.056 2.479 2.779

27 .256 .531 .855 1.314 1.703 2.052 2.473 2.771
28 .256 .530 .855 1.313 1.701 2.048 2.467 2.763
29 .256 .530 .854 1.311 1.699 2.045 2.462 2.756
30 .256 .530 .854 1.310 1.697 2.042 2.457 2.750
40 .255 .529 .851 1.303 1.684 2.021 2.423 2.704

60 .254 .527 .848 1.296 1.671 2.00 2.390 2.660
120 .254 .526 .845 1.289 1.658 1.980 2.358 2.617
∞ .253 .524 .842 1.282 1.645 1.960 2.326 2.576
Tabla 2.2.4
Además una variable aleatoria continua X, se dice que tiene distribución t-student con
n grados de libertad, se anota X ∼ tn , si su función de densidad es t-student con n
grados de libertad. Por ejemplo, si X es variable aleatoria tal que X ∼ t17 , entonces
P (X ≤ 2.11) = .975.
- 178 -
Como veremos luego, la distribución t-student corresponde a la distribución del cuo-

ciente entre una variable normal estándar y la raı́z cuadrada de una chi-cuadrado, ambas
independientes. Esto es, si X e Y son variables aleatorias continuas e independientes,
tales que X ∼ N (0, 1), y Y ∼ χ2(m) , entonces √ X tiene distribución t-student con m
Y /m
grados de libertad.
También cabe mencionar que la distribución t-student es de gran utilidad en Inferencia
Estadı́stica, por ejemplo, en la construcción de intervalos de confianza y test de hipótesis.
Ahora, mostramos algunas relaciones que permiten encontrar los cuantiles normal,
chi-cuadrado y t-student, en forma aproximada.
Para 10−7 < α < 0.5 , el cuantil z1−α , de la distribución normal N (0, 1), puede ser
aproximado por
( )1/2
{(4y + 100) y + 205} y 2
z1−α ≈ ,
{(2y + 56) y + 192} y + 131
donde y = − ln(2α).
Para 0 < β < 1 y n natural, el cuantil χ2n,β , puede ser aproximado por
1 ( √ )2
χ2n,β ≈ zβ + 2n − 1
2
o ( √ )3
2 2
χ2n,β ≈ n zβ +1− .
9n 9n
Para 0 < β < 1 y n natural, el cuantil tn,β , puede ser aproximado por
( )
1 + zβ2
tn,β ≈ zβ 1 + .
4n
Finalmente, entre otras funciones de densidad continuas de interés están:

• Weibull con parámetros α > 0 y β > 0. Es usada, por ejemplo, en confiabilidad,
para modelar tiempos de falla.
• Pareto con parámetros a > 0 y b > 0. Es usada, por ejemplo, en teorı́a de seguros,
para modelar tamaños de cobros de primas.
• Gumbel con parámetros µ y σ > 0. Es usada, por ejemplo, en la modelación de
valores extremos (máximos o mı́nimos).
• Rayleigh con parámetro σ > 0. Es usada para modelar, por ejemplo, datos censura-
dos.
• F de Fisher con parámetros m y n. Es usada, por ejemplo, en la construcción de
test estadı́sticos.
Excelentes referencias para ahondar sobre el estudio de distribuciones estadı́sticas
pueden encontrarse en [3] y [6].
- 179 -
2.2.2 Transformación de variables aleatorias

Sean X variable aleatoria continua, g función de R en R y Z la variable aleatoria definida
por Z = g(X). Supongamos que X tiene función de densidad f . ¿Cómo encontrar, a
partir de la densidad f , la función de densidad de Z?
Un ejemplo de la situación planteada recientemente es el siguiente. Se asume que la
velocidad X, de una partı́cula de masa m, sigue una distribución normal (µ, σ 2 ) y se desea
conocer el comportamiento probabilı́stico de la energı́a cinética de la partı́cula, esto es, la
densidad de probabilidad de Y = 21 mX 2 .
(u−µ)2
En este ejemplo, f (u) = √1
2πσ
exp{− 12 σ2
} y g(t) = 12 mt2 .
Otro caso es cuando X ∼ N (µ, σ 2 ) y se desea saber el comportamiento probabilı́stico

de Z = aX + b, con a, b reales conocidos y a ̸= 0. La variable aleatoria Z fue estudiada
anteriormente en el Ejemplo 2.2.8.
Ejemplo 2.2.9: Sea X variable aleatoria tal que X ∼ N (µ, σ 2 ). Encontraremos el

( )2
comportamiento probabilı́stico de Z = X−µσ .
La distribución acumulada de Z es, para todo real z,
FZ (z) = P (Z ≤ z)
(( )2 )
X−µ
= P σ ≤z .
(( )2 )
X−µ
En el caso en que z sea negativo, el suceso σ ≤z es igual al conjunto vacı́o,
y si z ≥ 0, entonces
(( )2 ) ( )
X −µ X − µ √
≤z
σ
= σ ≤ z
( )
√ X −µ √
= − z≤ ≤ z .
σ
De esta forma, si z < 0, FZ (z) = 0, y si z ≥ 0,
( √ √ )
X−µ
FZ (z) = P − z ≤ σ ≤ z
√ √
= Φ( z) − Φ(− z).
En resumen {
0 si z < 0
FZ (z) = √ √
Φ( z) − Φ(− z) si z ≥ 0
La función FZ es continua y derivable (salvo posiblemente en z = 0), luego una den-
sidad para Z está dada por
{
d
FZ (z) si la derivada existe
fZ (z) = dz
0 e.o.c.
- 180 -
Al igual que en el Ejemplo 2.2.8, Teorema fundamental del cálculo implica que
d √ 1 1 √ 2 1
Φ( z) = √ e− 2 ( z) √
dz 2π 2 z
y
d √ 1 √ 2 −1
Φ(− z) = √ e− 2 (− z) √ .
1
dz 2π 2 z
Por lo tanto,
 1
 − 12 − 12 z
 √2π z e
 si z ≥ 0
fZ (z) =



0 e.o.c.
(1) 1 (1) √
Pero, √1 = 2
y Γ = π , por lo que
2 2 2
 ( )1

 1 2


1
−1 − 1 z
 (1) z 2 e 2 si z ≥ 0
2
Γ 2
fZ (z) =




0 e.o.c.
es decir, Z ∼ χ2(1) .
Ejemplo 2.2.10: Sea X variable aleatoria, tal que X ∼ U (0, 1). Supongamos que Z es
la longitud de aquel de los segmentos ]0, X[ , [X, 1[, que contiene al punto 0.5. Entonces
Z = g(X), donde
g(u) = max {u, 1 − u}

0≤u≤1
{
u si 0.5 ≤ u ≤ 1
=
1−u si 0 ≤ u ≤ 0.5
La siguiente figura muestra el gráfico de la función g
g(u)
0.5
0.5 1 u
Figura 2.2.33
Notar que la función g no es creciente (tampoco es decreciente). Además, para todo z real,
P (Z ≤ z) = P (max{X, 1 − X} ≤ z)
= P (X ≤ z, 1 − X ≤ z)
= P (X ≤ z, X ≥ 1 − z).
- 181 -
Pero, (X ≤ z, X ≥ 1−z) = (1−z ≤ X ≤ z) , es no vacı́o sólo en el caso en que 1−z < z,

es decir, si 0.5 < z. Por lo tanto,
FZ (z) = P (Z ≤ z)

0∫ si z ≤ 0.5
z
=
 fX (u)du si z > 0.5
1−z


 0
∫ si z ≤ 0.5

 z

1du si 0.5 < z < 1
=

 ∫1−z ∫ ∫


0 1 z
 0du + 1du + 0du si z ≥ 1
1−z 0 1


0 si z ≤ 0.5
= 2z − 1 si 0.5 < z < 1


1 si z ≥ 1
En consecuencia, FZ (z) es continua y derivable (salvo posiblemente en z = 0.5 y

z = 1) entonces, una densidad para Z está dada por
{
d
fZ (z) = dz FZ (z) si la derivada existe
0 e.o.c.
{
2 si 0.5 < z < 1
=
0 e.o.c.
Es decir, Z ∼ U (0.5, 1).
Ejemplo 2.2.11: Sea X variable aleatoria con densidad dada por
{
2 (1 − u) si 0 < u < 1
fX (u) =
0 e.o.c.
1
Encontremos una densidad para la variable aleatoria Z = X−1 .
Primeramente, como RecX =]0, 1[ , entonces P (0 < X < 1) = 1 . Además,
(0 < X < 1) ⊂ (X < 1) , por lo que P (X − 1 < 0) = 1. Ası́, para todo z real,
- 182 -
FZ (z) = P (Z ≤ z)
( )
= P 1
X−1 ≤z
= P (1 ≥ z (X − 1))
= P (1 + z ≥ z X)
 ( )

P z ≥ X
1+z
si z > 0
= 1 si z = 0

 ( 1+z )
P z ≤X si z < 0
Pero, si z > 0,
( ) (1 )
P 1+zz ≥X = P z +1≥X
∫ 1
+1
z
= fX (u)du
−∞
∫ 0 ∫ 1 ∫ 1
+1
z 1
= 0du + 2(1 − u)du + 0du pues +1>1
−∞ 0 1 z
= 1.
En el caso en que z < 0,
( 1+z ) ( )
P z ≤ X = P z1 + 1 ≤ X
∫ ∞
= fX (u)du.
1
z
+1
Ahora, si −1 ≤ z < 0, entonces z1 + 1 ≤ 0, de donde

∫ ∞ ∫ 0 ∫ 1 ∫ ∞
fX (u)du = 0du + 2(1 − u)du + 0du
1 1
z
+1 z
+1 0 1
= 1.
Si en cambio, z < −1, entonces 0 < 1
z + 1 < 1, de donde
∫ ∞ ∫ 1 ∫ ∞
fX (u)du = 2(1 − u)du + 0du
1 1
z
+1 z
+1 1
[ ( )] [ ( )2 ]
1 1 1
= 2 1− +1 −2· 1− +1
z 2 z
1
= .
z2
- 183 -
En resumen,


 1 si z ≥ −1

FZ (z) =


1 si z < −1
z2
O sea, FZ (z) es continua y derivable (salvo posiblemente en z = −1), entonces una den-
sidad para Z es

 d
 FZ (z)
 si la derivada existe
dz
fZ (z) =



0 e.o.c.

 −2

 z3 si z < −1
=



0 e.o.c.
El siguiente teorema muestra una forma de obtener una densidad para una varia-
ble aleatoria continua de la forma g(X), asumiendo conocida una densidad para X y
suponiendo ciertas condiciones para la función g.
Teorema 2.2.1: Sea X variable aleatoria continua con función de densidad fX y

g : G0 → G función tal que:
• G0 y G son conjuntos abiertos de R.
• P (X ∈ G0 ) = 1.
• g es biyección.
• g −1 es diferenciable, con derivada continua en G.
d −1
• g (y) ̸= 0 , para todo y ∈ G.
dy
Entonces, una densidad para la variable aleatoria Y = g(X), está dada por
 1

 −1 si y ∈ G
fX (g (y)) |g ′ (g −1 (y))|
fY (y) =



0 e.o.c.
Demostración: Realizaremos la demostración en un contexto particular. La de-

mostración general se realizará en la Sección 5, donde se generaliza este teorema al caso
de vectores aleatorios.
- 184 -
Asumiremos que g es estrictamente decreciente y G0 =]a, b[. Los casos en que G0 =]a, ∞[
ó G0 =] − ∞, b[ ó G0 =] − ∞, ∞[ son análogos. El razonamiento también es análogo si
g es estrictamente creciente.
Primeramente, como G0 =]a, b[ ; y g es estrictamente decreciente y continua, entonces
G =]g(b), g(a)[ . Sea ahora y ∈ G, entonces
FY (y) = P (Y ≤ y)
= P (g(X) ≤ y).
Pero, g es estrictamente decreciente, luego
(g(X) ≤ y) = (X ≥ g −1 (y))
o sea,
FY (y) = P (X ≥ g −1 (y))
= 1 − FX (g −1 (y)).
También, si y ∈
/ G, entonces (g(X) ≤ y) = ∅ cuando y ≤ g(b) , y en el caso en que
y ≥ g(a) resulta que (g(X) ≤ y) = Ω .
Por lo tanto, {
1 − FX (g −1 (y)) si y ∈ G
FY (y) =
constante si y ∈
/G
Se puede verificar que esta función es continua y derivable (salvo, posiblemente en un
número finito de valores). La existencia de la derivada está garantizada por el teorema de
la función inversa para funciones reales.
En consecuencia, una densidad para la variable aleatoria Y = g(X) está dada por
{
d
dy FY (y) si la derivada existe
fY (y) =
0 e.o.c.
{
−fX (g −1 (y)) dy
d −1
g (y) si y ∈ G
=
0 e.o.c.
d −1
Pero, dy g (y) = 1
g ′ (g −1 (y))
, y como g es decreciente, g ′ (g −1 (y)) < 0, o sea
d −1 1
− g (y) = ′ −1 .
dy |g (g (y))|
Ası́,
{
fX (g −1 (y)) |g′ (g−1
1
(y))|
si y ∈ G
fY (y) =
0 e.o.c.
Ejemplo 2.2.12: Sea X variable aleatoria uniforme sobre ]0, 1[. Encontremos una den-
sidad para la variable aleatoria Y = X1 .
- 185 -
En este caso Y = g(X), con g : G0 → G, definida por g(y) = y1 . Además,

• G0 =]0, 1[; G =]1, ∞[.
• P (X ∈ G0 ) = 1, ya que X ∼ U (0, 1).
• g es función biyectiva y g −1 (y) = g(y).
d −1 −1
• g (y) = 2 , por lo que g −1 tiene derivada continua en G =]1, ∞[ y para todo
dy y
d −1
y ∈ G, g (y) ̸= 0.
dy
1
Entonces, teorema anterior implica que una densidad para la variable aleatoria Y = X
está dada por  ( )
 1
fX y1 ( ) si y ∈]1, ∞[
g ′ 1

fY (y) = y


0 e.o.c.
( )
pero, g ′ y1 = (−1
1
)2 = −y 2 , de donde
y
{
1· 1
|−y 2 |
si y ∈]1, ∞[
fY (y) =
0 e.o.c.
{
1
y2
si y ∈]1, ∞[
=
0 e.o.c.
Ejemplo 2.2.13: Sea X ∼ U (0, 1). Verifiquemos que la variable aleatoria

Y = − λ1 ln(1 − X), λ > 0, tiene distribución exponencial de parámetro λ.
En este ejemplo Y = g(X), con g : G0 → G , definida por g(y) = − λ1 ln(1 − y), y
• G0 =]0, 1[; G =]0, ∞[.
• P (X ∈ G0 ) = 1, pues X ∼ U (0, 1).
• g es biyección y g −1 (y) = 1 − e−λy .
d −1
• g (y) = λ e−λy , o sea, g −1 tiene derivada continua en G =]0, ∞[ y para todo
dy
d −1
y ∈ G, g (y) ̸= 0.
dy
Entonces, una densidad para la variable aleatoria Y = − λ1 ln(1 − X) es
 1

fX (1 − e−λy ) si y ∈]0, ∞[

fY (y) = 1
λ (1−(1−e−λy ))


0 e.o.c.
{
λe−λy si y ∈]0, ∞[
=
0 e.o.c.
- 186 -
Es decir, Y ∼ exp(λ).
La siguiente proposición generaliza el ejemplo anterior, y como lo veremos más ade-

lante, es de utilidad en la simulación de variables aleatorias.
Proposición 2.2.2: Sea X variable aleatoria continua, con función de distribución acu-
mulada FX , la cual es estrictamente creciente en algún intervalo abierto I. Además,
FX = 0 para valores a la izquierda de I, FX = 1 para valores a la derecha de I y el
intervalo I puede ser acotado o no acotado.
Por ejemplo:
Si X ∼ exp(λ), entonces I =]0, ∞[.
Si X ∼ U (0, 1), entonces I =]0, 1[.
Si X ∼ N (µ, σ 2 ), entonces I =] − ∞, ∞[.
Entonces, la variable aleatoria Y = FX (X) tiene distribución uniforme sobre ]0, 1[.
Demostración: Nótese que Y = g(X) , con g(y) = FX (y) .

Además, si G0 = I y G = ]0, 1[ , entonces definición de I y Proposición 2.2.1 implican
que el recorrido de la función FX es ]0, 1[, esto es, g es epiyectiva.
También, desde que FX = 0 para valores a la izquierda de I, y FX = 1 para valores
a la derecha de I, P (X ∈ I) = 1.
Finalmente, como g es función estrictamente creciente, g es biyección, y como además
′
FX (u) = fX (u) , entonces Teorema 2.2.1 implica que
 1
fX (F −1 (y)) si y ∈ G
fY (y) =
X F ′ (F −1 (y))
X X

0 e.o.c.
 1
fX (F −1 (y)) si y ∈]0, 1[
=
X −1
fX (FX (y))

0 e.o.c.
{
1 si y ∈]0, 1[
=
0 e.o.c.
En consecuencia, Y = FX (X) ∼ U (0, 1).
Comentario sobre simulación

Supongamos que, como parte de un estudio de simulación, se requiere simular en el com-
putador variables aleatorias con una distribución prefijada, por ejemplo, con distribución
exponencial de parámetro λ.
- 187 -
Si bien, el computador es, generalmente, una máquina determinista, se puede hacer que
este genere números pseudoaleatorios (que no son aleatorios, pero lo parecen) que pueden
ser vistos como valores de variables aleatorias con distribución uniforme (0,1). Suponiendo
que se cuenta con un generador de números aleatorios que produce una sucesión de números
que se pueden considerar como provenientes de una distribución uniforme (0,1). ¿Cómo, a
partir de estos valores, generar una sucesión de números que provengan de una distribución
de probabilidad con distribución acumulada F ?
La respuesta a esta interrogante es resuelta, parcialmente, por la proposición anterior. En
efecto, si F satisface las hipótesis de la proposición anterior y X ∼ U (0, 1), entonces
P (F −1 (X) ≤ u) = P (X ≤ F (u))
= F (u),
o sea, la variable aleatoria F −1 (X) tiene función de distribución acumulada igual a F .

Por ejemplo, si x1 , . . . , xn , son números que provienen de una distribución uniforme
(0,1), entonces y1 , . . . , yn , son números que provienen de una distribución exponencial (λ),
donde yi = − λ1 ln(1 − xi ).
En este caso, {
0 si u ≤ 0
F (u) = −λu
1−e si u > 0
que satisface las hipótesis de la proposición anterior. Además, para todo u > 0,
F −1 (u) = − λ1 ln(1 − u).
Si la función F es de tal forma que es poco práctico encontrar F −1 , o si la función
F no satisface las hipótesis de la proposición anterior, o también si F es la distribución
acumulada de una variable aleatoria discreta, entonces en esos casos conviene usar métodos
que tengan directa relación con las propiedades especı́ficas de la F en cuestión.
2.2.3 Esperanza de una variable aleatoria continua

La definición de esperanza para una variable aleatoria continua es análoga a la dada para
variable discreta, reemplazando la sumatoria por integración.
Definición 2.2.3: Sea X variable aleatoria continua con densidad f . El valor esperado
de X, se anota E(X), se define como el número real
∫ ∞
E(X) = xf (x)dx,
−∞
∫∞
siempre que la integral −∞ xf (x)dx converja. Si esta última integral diverge, la esperanza
de X no está definida.
El valor E(X) puede ser visto como el centro de masa de la función de densidad f .
Veamos ahora como, a partir de la definición de esperanza para una variable aleatoria
discreta, podemos obtener el concepto de esperanza matemática para una variable aleatoria
continua. Para ello, consideremos la variable aleatoria X con función de densidad f (x) y
- 188 -
dos puntos, a y b, muy cercanos, es decir, h = b − a es “pequeño”. Supongamos además

que x0 es el punto medio del intervalo [a, b]. Ası́, observando la figura siguiente,
f (x)
A a x0 b B x
h
Figura 2.2.34
podemos concluir que, P (a ≤ X < b) ∼ = hf (x0 ), lo que significa aproximar el área de la
región sombreada, por el área del rectángulo de base h y altura f (x0 ). Es posible verificar
que la aproximación mejora con h tendiendo a cero.
Supongamos ahora que [A, B] = {x : f (x) > 0}. Dividamos este intervalo en n partes
de amplitudes iguales a h = B−A n , y consideremos los puntos medios de cada intervalo,
digamos x1 , x2 , . . . , xn .
f (x)
A x1 x2 x3 x4 h xn−1 xn B x
Figura 2.2.35
Consideremos ahora la variable aleatoria discreta Yn , que toma valores x1 , x2 , . . . , xn , de
modo que, para todo i,
pi = P (Yn = xi ) ∼
= f (xi ) h.
De esta forma, la esperanza de la variable Yn resulta
∑
n ∑
n
E(Yn ) = xi pi ∼
= xi f (xi )h,
i=1 i=1
que será una aproximación del valor esperado E(X). Para determinar E(X) con más
precisión, podemos aumentar el número de intervalos, disminuyendo la amplitud h de los
mismos. En el lı́mite, cuando h tiende a cero, tendremos el valor E(X). Ası́,
∑
n
E(X) = lim E(Yn ) = lim x i pi .
n→∞ n→∞
i=1
Pero, de la definición de integral de Riemann, tenemos que, si el lı́mite existe, entonces,

este define la integral de x f (x) entre A y B, es decir,
∫ B
E(X) = x f (x)dx.
A
- 189 -
Ejemplo 2.2.14: En el caso del reloj eléctrico del Ejemplo 2.2.1, se tiene que
∫ ∞
E(X) = x f (x)dx
−∞
∫ 360
1
= x dx
0 360
1 (360)2
= ·
360 2
= 180.
Ejemplo 2.2.15: Sea X variable aleatoria con distribución Gamma(α, λ), es decir,
una densidad para X es
 α

 λ α−1 −λx

 Γ(α) x e si x > 0
f (x) =



0 e.o.c.
Notar que 

 λα+1 (α+1)−1 −λx

 Γ(α + 1) x e si x > 0
g(x) =



0 e.o.c.
es una función de densidad Gamma(α + 1, λ), por lo cual
∫ ∞
g(x)dx = 1,
−∞
es decir, ∫ ∞
λα+1
xα e−λx dx = 1,
0 Γ(α + 1)
o sea ∫ ∞
Γ(α + 1)
xα e−λx dx = .
0 λα+1
En consecuencia, ∫ ∞
E(X) = x f (x)dx
−∞
∫ ∞
λα α−1 −λx
= x x e dx
0 Γ(α)
∫ ∞
λα
= xα e−λx dx
Γ(α) 0
λα Γ(α + 1)
= .
Γ(α) λα+1
- 190 -
Pero, Γ(α + 1) = α Γ(α), de donde

α
E(X) = .
λ
En particular:
• Si X ∼ exp(λ), entonces X ∼ Gamma(1, λ), por lo que E(X) = λ1 .
( ) n
• Si X ∼ χ2(n) , entonces X ∼ Gamma n2 , 21 , por lo que E(X) = 21 = n.
2
Ejemplo 2.2.16 : Sea X variable aleatoria normal de parámetros (µ, σ 2 ), entonces

∫ ∞
E(X) = x f (x)dx
−∞
∫ ∞ { }
1 (x−µ)2
= √ x exp − 21 σ2
dx.
2πσ −∞
Haciendo el cambio de variable z = x−µ

σ , se obtiene que
∫ ∞
1 { }
E(X) = √ (σz + µ) exp − 12 z 2 σdz
2πσ −∞
∫ ∞ ∫ ∞
σ { 1 2} 1 { }
= √ z exp − 2 z dz + µ √ exp − 21 z 2 dz.
2π −∞ −∞ 2π
Además,
∫ ∞ ∫
( ) b ( )
z exp − 21 z 2 dz = lim z exp − 21 z 2 dz
−∞ a→−∞ a
b→+∞
( ( ) ( ))
= lim − exp − 21 b2 + exp − 12 a2
a→−∞
b→+∞
= −0 + 0
= 0.
( )
También, la función g(z) = √12π exp − 21 z 2 , z real, es la densidad de una dis-
tribución normal (0, 1), luego
∫ ∞
1 ( )
√ exp − 12 z 2 dz = 1.
−∞ 2π
En consecuencia,
σ
E(X) = √ ·0+µ·1
2π
= µ.
- 191 -
Observación 2.2.4: Es posible además verificar que:

• Si X ∼ U (a, b), entonces E(X) = a+b
2 .
• Si X ∼ t(n), entonces E(X) = 0.
• Si X ∼ F (m, n), entonces E(X) = n

n−2 , n > 2.
• Si X ∼ Beta(a, b), entonces E(X) = a

a+b .
( )
• Si X ∼ Log normal (µ, σ 2 ), es decir, eX ∼ N (µ, σ 2 ), entonces E(X) = exp µ + 12 σ 2 .
Para ver la esperanza de otras variables aleatorias de uso común, puede consultarse [6].
Ejemplo 2.2.17: Sea X variable aleatoria con distribución Cauchy (0,1), es decir, su
función de densidad está dada por
1 1
f (x) = , x ∈ R.
π 1 + x2
Luego, ∫ ∫
∞ ∞
1 x
x f (x)dx = dx
−∞ π −∞ 1 + x2
∫ b
1 x
= lim dx
π a→−∞ a 1 + x2
b→+∞
1 1[ ]
= lim ln(1 + b2 ) − ln(1 + a2 )
π a→−∞ 2
b→+∞
1 ( )
1+b2
= lim ln 1+a2
.
2π a→−∞
b→+∞
Si el lı́mite existiese y fuese el número real L, entonces

1 ( 2)
1+b
L= lim ln 1+a 2 .
2π a→−∞
b→+∞
Pero, considerando el “camino” a = −2b,

1 ( ) 1
1+b2
L= lim ln 1+4b 2 = 1
2π · ln ,
2π b→∞ 4
y considerando el “camino” a = −3b,
1 ( ) 1 1
1+b2
L= lim ln 1+9b 2 = · ln ,
2π b→∞ 2π 9
lo cual es una contradicción. Por lo tanto, E(X) no existe.
La razón por la cual la esperanza no existe, se debe a que la densidad decrece lentamente
y que valores grandes de X pueden ocurrir con probabilidad no despreciable.
- 192 -
Ejemplo 2.2.18: Sea Y variable aleatoria con distribución exponencial de parámetros λ

y un número real positivo fijo r. Consideremos la variable aleatoria X = min{r, Y }. Como
vimos en el Ejemplo 2.2.6, la variable aleatoria X no es discreta y tampoco es continua.
¿Cómo calcular en este caso E(X)?
Proposición 2.2.3: Sea X variable aleatoria y F su función de distribución acumulada.

Si E(X) existe, entonces
∫ 0 ∫ ∞
E(X) = − F (u)du + (1 − F (u)) du.
−∞ 0
La demostración de esta proposición escapa los objetivos de este texto, pero puede
consultarse en [7], pág. 109.
Notar que esta proposición implica, en particular, que si X ≥ 0, entonces F (u) = 0, para
todo u < 0, de donde E(X) ≥ 0.
Ejemplo 2.2.19: Si X = min{r, Y }, r constante positiva y además Y ∼ exp(λ).

Entonces, usando la proposición anterior y el Ejemplo 2.2.6,
∫ 0 ∫ ∞
E(X) = − FX (u)du + (1 − FX (u)) du
−∞ 0
∫ 0 ∫ r ( ) ∫ ∞
−λu
= − 0du + 1 − (1 − e ) du + (1 − 1) du
−∞ 0 r
∫ r
= e−λu du
0
1 ( )
= 1 − e−λr .
λ
A menudo, también es necesario calcular E(h(X)), donde X es variable aleatoria, h

es una función real y h(X) es variable aleatoria continua.
La proposición que enunciamos más adelante permite calcular E(h(X)), sin necesa-
riamente conocer la densidad de h(X), lo que se necesitarı́a si se usara la definición de
esperanza.
Por ejemplo, de acuerdo a la teorı́a cinética de los gases, la magnitud de la velocidad
de una molécula de gas X es aleatoria y su densidad de probabilidad está dada por
√
2
π 2
( )
x2
fX (x) = 3 x exp − 2σ 2 , x > 0,
σ
donde σ es un parámetro positivo que depende de la temperatura del gas (se dice que X
tiene distribución de Maxwell de parámetro σ).
Desde esta densidad se puede, por ejemplo, calcular la velocidad promedio de la
molécula. Sin embargo, podrı́a estarse
( interesado
) en calcular la energı́a cinética promedio
de la molécula, esto es, encontrar E 21 m X 2 , donde m es la masa de la molécula.
- 193 -
Teorema 2.2.2: Sea X una variable aleatoria continua con densidad f y h función
real. La esperanza de la variable aleatoria h(X) puede ser calculada por la fórmula
∫ ∞
E(h(X)) = h(u) f (u)du.
−∞
La demostración rigurosa requiere de algunos elementos de teorı́a de integración avan-

zada, por lo que no se muestra en este texto.
Observación 2.2.5: Si A es subconjunto de R y h se define por

{
1 si x ∈ A
h(x) =
0 si x ∈
/A
entonces, E(h(X)) = P (X ∈ A). Más aún, en el caso en que A = ] − ∞, t ],

E(h(X)) = FX (t).
Ejemplo 2.2.20: La energı́a cinética promedio de una molécula de gas es E(h(X)), con
h(u) = 12 m u2 , u real. Por lo tanto,
∫ ∞
(1 )
E 2 m X2 = 1
2 m u2 fX (u)du
−∞
∫ ∞ √ ( )
2/π u2
= 1
2 m u2 σ3
u2 exp − 2σ 2 du
0
√ ∫ ∞ ( )
m 2/π u2
= u4 exp − 2σ 2 du.
2 σ3 0
u2
Haciendo el cambio de variable t = 2σ 2
, resulta
∫ ∞ ( ) ∫ ∞ ( )
u2 2
u4 exp − 2σ 2 du = u3 exp − 2uσ2 udu
0 0
∫ ∞ 3
= (2 σ 2 t) 2 exp(−t) σ 2 dt
0
∫ ∞
3 3
= 2 2 · σ5 t 2 exp(−t)dt
0
∫ ∞
t 2 −1 e−t dt
3 5
= 2 2 · σ5
0
3 (5)
= 2 2 · σ5 · Γ 2 .
- 194 -
(1) √
Ahora, usando la relación Γ(α + 1) = α Γ(α) y el hecho que Γ 2 = π , se tiene que
(5) (3 ) 3 (3)
Γ 2 =Γ 2 +1 = Γ 2
2
3 (1 )
= Γ 2 +1
2
3 1 (1)
= · Γ 2
2 2
3√
= π.
4
En consecuencia, √
2
m π 3 3√
E( 21 m X 2 ) = 3
2 2 σ5 π
2 σ 4
3
= m σ2.
2
Ejemplo 2.2.21: Sea X variable aleatoria continua y h(u) = a u + b, con a y b reales

fijos. Si E(X) existe, entonces
E(a X + b) = E(h(X))
∫ ∞
= h(u) fX (u)du
−∞
∫ ∞
= (a u + b) fX (u)du
−∞
∫ ∞ ∫ ∞
= a u fX (u)du + b fX (u)du
−∞ −∞
= a E(X) + b · 1.
En consecuencia,
E(a X + b) = a E(X) + b.
Al igual que en el caso discreto, se define la varianza de una variable aleatoria continua.
Definición 2.2.4: Sea X variable aleatoria continua. Asumiendo que las esperanzas
involucradas existen, se define la varianza de X, se anota V ar(X), como el número real
no negativo ( )
V ar(X) = E (X − E(X))2 .
√
También, en este caso, la desviación estándar de X es SD(X) = V ar(X).
- 195 -
Observemos que V ar(X) = E(h(X)) , con
h(u) = (u − E(X))2
= u2 − 2 E(X)u + (E(X))2 .
Luego, del Teorema 2.2.2 se obtiene que

∫ ∞
V ar(X) = h(u) fX (u)du
−∞
∫ ∞ ( )
= u2 − 2 E(X) u + E2 (X) fX (u)du
−∞
∫ ∞ ∫ ∞ ∫ ∞
= u fX (u)du − 2 E(X)
2
u fX (u)du + E (X)
2
fX (u)du
−∞ −∞ −∞
= E(X 2 ) − 2 E(X) E(X) + E2 (X) 1
= E(X 2 ) − (E(X))2 .
es decir, al igual que en el caso discreto,
V ar(X) = E(X 2 ) − (E(X))2 .
Desde esta última relación se obtiene también que, para a, b reales y X variable
aleatoria continua,
( )
V ar(a X) = E (a X)2 − (E(a X))2
( )
= E a2 X 2 − (a E(X))2
( )
= a2 E(X 2 ) − E2 (X)
= a2 V ar(X),
( )
V ar(X + b) = E (X + b)2 − (E(X + b))2
( )
= E X 2 + 2 b X + b2 − (E(X) + b)2
( )
= E(X 2 ) + 2 b E(X) + E(b2 ) − (E2 (X) + 2 b E(X) + b2 )
= E(X 2 ) − E2 (X)
= V ar(X).
O sea, la variabilidad de una variable aleatoria continua no se altera si esta es desplazada

en una constante.
- 196 -
Ejemplo 2.2.22: Para 0 < c < 2, sea X variable con densidad definida por
a

 x si 0 ≤ x ≤ c

 c





f (x) = x − 2 a si c < x ≤ 2

 c−2






0 e.o.c.
La figura siguiente muestra el gráfico de la densidad de X.
f (u)
0 c 1 2 u
Figura 2.2.36
Es preciso mencionar que variables aleatorias con este tipo de densidades se dice que tienen
distribución triangular.
Encontremos la varianza de la variable aleatoria X, en función del parámetro c.
Primeramente, como el área del triángulo debe ser igual a 1 (pues f es densidad), entonces
a = 1.
Ası́, ∫ ∞
E(X) = xf (x)dx
−∞
∫ ∫
c
1 2
x−2
= x xdx + x dx
0 c c c−2
∫ c [∫ 2 ∫ 2 ]
1 1
= 2
x dx + x dx − 2
2
xdx
c 0 c−2 c c
( ) [ 3 ( 2 )]
1 c3 03 1 2 c3 2 c2
= − + − −2 −
c 3 3 c−2 3 3 2 2
[ ]
c2 1 1
= + (2 − c)(2 + 2c + c ) − (2 − c)(2 + c)
2 2
3 c−2 3
c+2
= .
3
- 197 -
y ∫ ∞
E(X 2 ) = x2 f (x)dx
−∞
∫ ∫
c
1 2
2
x−2
= x xdx + x2 dx
0 c c c−2
∫ c [∫ 2 ∫ 2 ]
1 1
= 3
x dx + x dx − 2
3 2
x dx
c 0 c−2 c c
1 2
2c +c+2
= .
3
En consecuencia,
1 2
2c + c + 2 (c + 2)2
V ar(X) = −
3 9
c2 − 2c + 4
= .
18
Observación 2.2.6: Sea X variable aleatoria y c un número real representativo de

X. El error (cuadrático medio) que se comete al representar X por c es definido por
E((X − c)2 ) . ¿Cuál será el valor de c que hace que el error cuadrático medio sea mı́nimo?,
¿cuál es este valor mı́nimo?
Consideremos la función h(c), definida por
h(c) = E((X − c)2 )

= E(X 2 − 2cX + c2 )
= E(X 2 ) − 2E(X)c + c2 .
Entonces,
d
h(c) = −2E(X) + 2c,
dc
d2
de donde d
dc h(c) = 0, cuando c = E(X) y dc h(c) = 2.
Como la segunda derivada es positiva
( en todo) c, la función h alcanza un mı́nimo en
c = E(X), y su valor mı́nimo es E (X − E(X))2 = V ar(X). En consecuencia, el valor
E(X) es el representante de X que hace que el error cuadrático medio sea mı́nimo, y el
valor mı́nimo corresponde a la varianza de X.
Ejemplo 2.2.23: Sea X variable aleatoria con distribución normal (µ, σ 2 ). Como vimos
en el Ejemplo 2.2.16 , E(X) = µ, de donde,
V ar(X) = E((X − µ)2 )

∫ (
∞ ( )2 )
= (x − µ)2 √1
2π σ
exp − 12 x−µ
σ dx.
−∞
- 198 -
x−µ
Haciendo el cambio de variable z = σ , resulta
∫ ( ∫ ∞
∞
1 ( x−µ )2 ) σ2 ( )
(x − µ) √ 2
exp − 2 σ
1
dx = √ z 2 exp − 12 z 2 dz.
−∞ 2π σ 2π −∞
( )
Pero, la función h(z) = z 2 exp − 12 z 2 , z real, es par, por lo que
∫ ∞ ∫ ∞
( 1 2) ( )
z exp − 2 z = 2
2
z 2 exp − 12 z 2 dz.
−∞ 0
z2
Ahora, haciendo el cambio de variable u = 2 , cuyo diferencial es du = zdz es decir,
dz = √12u du, se obtiene que
∫ ∞ ∫ ∞
( )
z2 exp − 21 z2 dz = 2u e−u √1
2u
du
0 0
∫ ∞√
2 u 2 −1 e−u du
3
=
0
∫
√ ( ) ∞ 3
u 2 −1 e−u du.
3
= 2 Γ 32 12
Γ( 23 )
0
Además, la función g definida por


 1
( ) 2 −1 e−u
3


Γ 3 u si u > 0
2
g(u) =



0 e.o.c.
( )
es función de densidad (de una distribución Gamma 32 , 1 ), por lo tanto,
∫ ∞
( ) √ ( )
z 2 exp − 12 z 2 dz = 2 Γ 32
0
√
√ π
= 2
2
√
π
= √ .
2
En consecuencia, √
σ2 π
V ar(X) = √ 2√
2π 2
= σ2.
- 199 -
( ( )2 )
Observación 2.2.7: Para f (x) = √1
2π σ
exp − 12 x−µ
σ , resulta
( )
d x−µ 1
f (x) = f (x) − ,
dx σ σ
[ ] ( )
d2 d x−µ 1
f (x) = f (x) − 2 + f (x) − 2
dx2 dx σ σ
( )[ ] ( )
x−µ x−µ 1
= f (x) − 2 − 2 + f (x) − 2
σ σ σ
[ ]
1 (x − µ)2
= f (x) −1 ,
σ2 σ2
d3 d d2
f (x) = f (x)
dx3 dx dx2
[ ]
1 d (x − µ)2 1 2(x − µ)
= f (x) − 1 + 2 f (x) .
σ 2 dx σ2 σ σ2
d2
Resolver la ecuación dx2
f (x) = 0, equivale a resolver
[ ]
1 (x − µ)2
f (x) − 1 = 0.
σ2 σ2
Pero 1
σ2
f (x) ̸= 0, para todo x, entonces la ecuación anterior es equivalente a la ecuación
(x − µ)2 = σ 2 .
Las soluciones de esta última ecuación son x1 = µ − σ y x2 = µ + σ.

Ahora, ( )[ 2 ]
d3 1 1 σ 1 2(−σ)
f (x) = f (x ) − 1 + 2 f (x1 )
dx3 σ 2 1
σ 2 σ 2 σ σ2
x=x1
2
= − f (x1 )
σ3
̸= 0
y ( )[ 2 ]
d3 1 1 σ 1 2(σ)
3
f (x) = 2
f (x2 ) − 2 2
− 1 + 2 f (x2 ) 2
dx x=x2 σ σ σ σ σ
2
= f (x2 )
σ3
̸= 0.
- 200 -
En conclusión, los puntos x1 = µ − σ y x2 = µ + σ son puntos de inflexión (cambio

de concavidad) de la función de densidad de la distribución normal (µ, σ 2 ). Notar que σ
corresponde a la desviación estándar de la distribución y µ a la media.
Ejemplo 2.2.24: Sea X variable aleatoria con distribución Gamma(α, λ), entonces
∫ ∞
E(X ) =
2 x2 f (x)dx
−∞
∫ ∞
λα α−1 −λx
= x2 x e dx
0 Γ(α)
∫ ∞
λα (2+α)−1 −λx
= x e dx
0 Γ(α)
∫ ∞
Γ(2 + α) λ2+α
= x(2+α)−1 e−λx dx.
λ2 Γ(α) 0 Γ(2 + α)
Esta última integral vale 1, pues el integrando es la densidad de una distribución
Gamma(2 + α, λ), y además,
Γ(2 + α) = Γ((α + 1) + 1)
= (α + 1) Γ(α + 1)
= (α + 1) α Γ(α).
En consecuencia,
(α + 1) α
E(X 2 ) = .
λ2
Por lo tanto,
V ar(X) = E(X 2 ) − (E(X))2
(α + 1)α ( α )2
= −
λ2 λ
α
= .
λ2
Observación 2.2.8: Es posible verificar también que

(b−a)2
• Si X ∼ U (a, b), entonces V ar(X) = 12 .
• Si X ∼ exp(λ), entonces V ar(X) = 1

λ2
.
• Si X ∼ χ2 (n), entonces V ar(X) = 2n.
• Si X ∼ t(n), entonces V ar(X) = n

n−2 , n > 2.
• Si X ∼ Beta(a, b), entonces V ar(X) = ab

(a+b)2 (a+b+1)
.
• Si X ∼ lognormal(µ, σ 2 ), entonces V ar(X) = exp(2µ + σ 2 )[exp(σ 2 ) − 1].
- 201 -
Ejemplo 2.2.25: Ajustando un modelo a datos observados (Diagrama de

Cuantiles). En muchos casos, se desea comparar la forma de la distribución de los datos
con la de una distribución particular, por ejemplo, la normal. Un motivo puede ser que
la distribución dada figura en los supuestos de algún modelo que se va a usar, y entonces,
se quiere ver en qué medida los datos parecen estar de acuerdo con los supuestos. Para
ejemplificar el procedimiento desarrollaremos el diagrama de cuantiles en el caso normal,
pero la distribución normal puede ser sustituida por aquella con la que se desea trabajar.
Sea α un número entre 0 y 1, recordemos que el cuantil α asociado a la distribución
normal (µ, σ 2 ), es un valor c, que satisface Φ(c) = α .
Es decir, el cuantil α asociado a la normal (µ, σ 2 ) , es el valor c tal que el área bajo
la curva normal (µ, σ 2 ), sobre el eje x y antes de la recta x = c , es igual a α (como se
muestra en la figura siguiente)
.....
........ ............
.... ....
..
..... ....
. ....
.
...... ....
....
.
... ....
.
.... .....
....
. .....
...
... . .........
.
...
...
... . α . .........................................
........................................... . . . . .....
c x
Figura 2.2.37
Para encontrar el valor c, basta con usar la tabla normal (0, 1). A modo se ejemplo,
veamos cual es el cuantil 0.6 (también se dice percentil al 60% ) de una normal (1, 4).
Debemos encontrar un valor c de modo que el área bajo la curva normal (1, 4), sobre
el eje x y antes de la recta x = c( sea) igual a 0.6. Según la subsección sobre la curva
normal, el valor de esta área es Φ c−1
2 . Por lo tanto, c debe satisfacer la ecuación
( )
c−1
Φ = 0.6.
2
De la tabla normal (0, 1) se verifica que Φ(0.25) = 0.5987 ∼ 0.6 , por lo tanto,
c−1
= 0.25 ,
2
de donde c = 1.5. El valor c lo denotaremos por Φ−1
µ,σ (α).
También, recordemos que si 0 ≤ α ≤ 1 , el cuantil α asociado a los datos x1 , x2 , . . . , xn ,

que se anota x∗α , es definido (existen otras definiciones similares) por
 ( )
 1

 2 x(k) + x(k+1) si u = n α es entero
∗
xα =



x(k+1) si u = n α no es entero
donde k es la parte entera del número u = n α y x(1) , x(2) , . . . , x(n) , son los datos
ordenados de menor a mayor, es decir, x(1) ≤ x(2) , ≤ · · · ≤ x(n) .
Por ejemplo, para los 25 datos siguientes,
4.8 5.2 5.7 4.0 4.1 5.4 6.2 3.7 4.9 5.0 4.1 3.5 6.4
3.3 5.6 4.7 6.2 4.5 4.0 2.3 4.1 3.6 4.8 5.7 5.9
- 202 -
se tiene que
x(1) =2.3 x(2) =3.3 x(3) =3.5 x(4) =3.6 x(5) =3.7
x(6) =4.0 x(7) =4.0 x(8) =4.1 x(9) =4.1 x(10) =4.1
x(11) =4.5 x(12) =4.7 x(13) =4.8 x(14) =4.8 x(15) =4.9
x(16) =5.0 x(17) =5.2 x(18) =5.4 x(19) =5.6 x(20) =5.7
x(21) =5.7 x(22) =5.9 x(23) =6.2 x(24) =6.2 x(25) =6.4
Ası́, si α = 0.25, entonces u = 25 · 0.25 = 6.25 , y la parte entera de 6.25 es 6 . Es

decir,
x∗0.25 = x(6+1) = x(7) = 4.0.
Construyamos ahora el diagrama de cuantiles para los 25 datos del ejemplo ante-
rior. El procedimiento es análogo, si consideramos, en lugar de los datos del ejemplo, un
conjunto de datos cualquiera.
El diagrama de cuantiles normales consiste en graficar los cuantiles de los datos con
los correspondientes de una normal (µ, σ 2 ), con µ igual al promedio de los datos y σ 2
su varianza. Esto es, µ = x̄ y σ 2 = s2 .
Para nuestro ejemplo, x̄ = 4.7 y s2 = 1.04, por lo que la distribución en cuestión es
normal (4.7, 1.04).
El diagrama se hace graficando Φ−1 (µ,σ 2 )
(α) en la abscisa contra x∗α en la ordenada para
α entre 0 y 1. Es decir, se grafica el cuantil α asociado a la normal (µ, σ 2 ) contra el
cuantil α de los datos.
Si los datos provienen, aproximadamente, de la distribución normal (µ, σ 2 ), entonces,
el gráfico debiera aproximarse a la recta y = x.
¿Para qué valores de α se calcularán los cuantiles?
Los valores de α que usaremos son α = 2k−1 2n . El procedimiento para obtener los
valores de k se ejemplifican con n = 25.
n+1 26
• El primero, corresponde a la parte entera de 2 = 2 = 13, la cual es 13.
13+1
• El segundo, corresponde a la parte entera de 2 = 7, la cual es 7.
7+1
• El tercero, corresponde a la parte entera de 2 = 4, la cual es 4.
4+1
• El cuarto, es la parte entera de 2 = 25 , o sea 2.
2+1
• El quinto, corresponde a la parte entera de 2 = 32 , la cual es 1.
• Los otros valores de k, que consideraremos, son los simétricos de los ya obteni-
dos, es decir, 25 + 1 − 13 = 13; 25 + 1 − 7 = 19; 25 + 1 − 4 = 22; 25 + 1 − 2 = 24
y 25 + 1 − 1 = 25 .
Resumiendo, los valores de k que utilizaremos, ordenados de menor a mayor, son:

2, 4, 7, 13, 19, 22, 24 y 25 (excluimos el valor k = 1 , pues para este valor, n α = 12 ,
cuya parte entera es 0). Luego, los valores de α donde calcularemos los cuantiles son:
- 203 -
k 2 4 7 13 19 22 24 25
2k−1 3 7 13 25 37 43 47 49
αk = 2n 50 50 50 50 50 50 50 50
Tabla 2.2.5
La justificación para escoger estos valores de α es que la información más importante

sobre diferencias entre la distribución de los datos y la distribución teórica que se proponga
suele notarse en los extremos. (3)
Ahora debemos calcular x∗3 y Φ−1 (4.7,1.04) 50 .
50
3
Como n α = 25 50 = 1.5, su parte entera es 1, de donde
x∗3 = x(2) = 3.3.

50
De la tabla normal (0, 1) se verifica que Φ(1.55) = 0.9394 ∼ 0.94. La simetrı́a

de la curva( normal
) (0, 1) implica que Φ(−1.55) ∼ 0.06 = 50
3
. Si llamamos c al valor
Φ−1 3
(4.7,1.04) 50 , entonces, c debe satisfacer
( )
c − 4.7 3
Φ √ = ,
1.04 50
de donde
c − 4.7
√ = −1.55,
1.04
o sea,
√
c = (−1.55) 1.04 + 4.7
= 3.12.
(3)
Por lo tanto, Φ−1
(4.7,1.04) 50 = 3.12.
Similarmente, se calculan x∗α y Φ−1
(4.7,1.04) (α) para los valores de α de la tabla anterior,
obteniéndose
3 7 13 25 37 43 47 49
α 50 50 50 50 50 50 50 50
Φ−1
(4.7,1.04) (α) 3.12 3.60 4.05 4.70 5.35 5.80 6.29 6.79
x∗α 3.3 3.6 4.0 4.8 5.4 5.9 6.2 6.4
Tabla 2.2.6
La figura siguiente muestra el gráfico de los pares ordenados (Φ−1 ∗

(4.7,1.04) (α) , xα ) para
los valores de α obtenidos en la Tabla 2.2.5. Es decir, la figura muestra el cuantil α
asociado a la distribución normal (4.7, 1.04) contra el cuantil α de los datos.
- 204 -
x∗α
7
×
×
6 ×
×
4 ×
×
×
2 4 6 7 Φ−1
(4.7,1.04) (α)
Figura 2.2.38
En consecuencia, pareciera ser que los datos de nuestro ejemplo se ajustan razonable-
mente bien a una distribución normal (4.7, 1.04).
¿Qué porcentaje de dato está por debajo de 4.0?
Hay 5 datos que son menores que 4.0, que representan el 20% (en total son 25 datos).
Según el modelo ajustado, los datos provienen de una normal (4.7, 1.04); luego, el por-
centaje de datos menores que 4.0 es
( )
Φ 4.0−4.7
√
1.04
100% = Φ(−0.68) 100%
= [1 − Φ(0.68)] 100%
= (1 − 0.7517) 100%
= 24.83%.
El error que se produce (del orden del 5%) se debe al supuesto de normalidad que hemos
hecho sobre los datos.
¿Qué porcentaje de datos es mayor o igual que 5.0?
Hay 10 datos mayores o iguales a 5.0, que representan el 40%. Según el modelo ajus-
tado, los datos provienen de una normal (4.7, 1.04); luego, el porcentaje mayor o igual a
5.0 es
[ ( )]
1 − Φ 5.0−4.7
√
1.04
100% = [1 − Φ(0.29)] 100%
= (1 − 0.6141) 100%
= 38.59%.
- 205 -
PROBLEMAS
Problema 2.2.A: La densidad de una variable aleatoria X está dada por:
{
c t2 (1 − t) si 0 ≤ t ≤ 1
f (t) =
0 e.o.c.
a) Encuentre c.
b) Calcule el valor de la función de distribución acumulada de X, para todo punto en

R.
c) Calcule P (0.2 ≤ X ≤ 0.8).
d) Si Y = 1
X , calcule P (Y ≤ y), para todo y ∈ R.
e) A partir de d), encuentre la función de densidad de Y .
f) Calcule P (2 ≤ Y ≤ 4 / Y < 3).
Problema 2.2.B: Una partı́cula de masa m tiene velocidad aleatoria V , la cual está
normalmente distribuida con parámetros µ = 0 y σ 2 . Encuentre la densidad de la
energı́a cinética, E = 12 m V 2 .
Problema 2.2.C :
(a) El computador genera una variable aleatoria Z, que toma valores en

{1, 2, 3, 4 . . . , 232 }, con igual probabilidad, es decir, Z ∼ U {1, 2, 3, 4, . . . , 232 }. Cal-
cule la función de distribución acumulada FU , donde U = 2Z32 .
(b) Sea V ∼ U (0, 1), es decir, V es una variable aleatoria continua con densidad dada
por fV (v) = 1 si v ∈]0, 1[ y fV (v) = 0 en otros casos.
Verifique que |FU (u) − FV (u)| ≤ 2132 (esto muestra que la distribución discreta de U
es prácticamente indistinguible de la distribución continua de V .
Problema 2.2.D: Sea X variable aleatoria con función de distribución acumulada F ,

definida por {
a ex si x ≤ 0
F (x) = 1 −x
− 2 e + b si x > 0,
donde a, b son constantes.
(a) Determine el (los) valor(es) de a y b.
(b) ¿Para qué valores de a y b la variable aleatoria X tiene densidad?, en este caso
determı́nela.
- 206 -
Problema 2.2.E: Sea X variable aleatoria con densidad

{ x3
64 si 0≤x≤4
f (x) =
0 e.o.c
√ √
Sea Y = min{ X, 2 − X}. Halle la función de distribución acumulada para la variable
aleatoria Y .
Problema 2.2.F: Si X ∼ N (µ, σ 2 ), encuentre el valor de c > 0, en términos de σ, de

modo que
P (µ − c ≤ X ≤ µ + c) = 0.95.
Problema 2.2.G: Sea X variable aleatoria con distribución normal de parámetros µ y

σ 2 . Determine el valor de a de modo que, la probabilidad P (a ≤ X ≤ a + b) sea máxima
(b es un real estrictamente positivo, fijo).
Problema 2.2.H: Una máquina de empaquetar azúcar llena paquetes que llevan la
etiqueta de “1 kg”, colocando en cada paquete M kg, siendo M una variable aleatoria. Se
sabe que M tiene distribución normal con una desviación estándar de 50g. Diremos que
un paquete está “bajo peso” cuando contenga menos de 1 kg de azúcar.
a) En un lote importante de paquetes producidos por la máquina, el peso medio colo-

cado en los paquetes es de 1, 025 kg. Demuestre que por lo menos un 30% de los
paquetes están “bajo peso”.
b) Se aumenta la cantidad de azúcar que coloca la máquina en cada paquete para

reducir la proporción de paquetes “bajo peso” al 10%. ¿Cuál será ahora la media
colocada en los paquetes?
c) Se cambia la reglamentación de modo que no está permitido más de un 2.5% de

paquetes “bajo peso”. Si se sigue colocando el mismo peso medio que en la parte
(b) en cada paquete, ¿Cuál es la desviación estándar que se requerirá para conseguir
este objetivo?
Problema 2.2.I: En un paı́s muy poblado las edades de sus habitantes se distribuyen
normalmente. Además, se sabe que el 40% de las personas de este paı́s tienen menos de
25 años.
a) Si la media de edad es el doble de la desviación estándar, halle, en años y con un

decimal, la media y la desviación estándar.
b) ¿Qué porcentaje de personas en este paı́s tiene más de 45 años?
c) Según la distribución normal, el 2,28% de los habitantes de este paı́s tienen menos
de x años. Halle x.
- 207 -
d) Si se eligen tres personas al azar de entre esta población, halle la probabilidad de

que
(i) las tres tengan menos de 25 años;
(ii) dos de las tres tengan menos de 25 años;
(iii) al menos una de las personas tenga menos de 25 años.
e) El 40% de las personas que están en un autobús tienen menos de 25 años. Si se

eligen tres de estas personas al azar, ¿qué probabilidad hay de que las tres tengan
menos de 25 años?
f) Explique con detalle por qué las respuestas de las partes (d) y (e) son diferentes.
Problema 2.2.J: Sea X variable aleatoria con densidad

{
(θ + 1) xθ , 0 < x < 1 y θ > −1
f (x) =
0 e.o.c.
Verifique que Y = log(X −1 ) se distribuye exponencial de parámetro θ + 1.
Problema 2.2.K: Sea X variable aleatoria continua con densidad

{ ( δ)
δ δ−1
x exp − xα , x > 0
f (x) = α
0 e.o.c.
donde α, δ > 0.
Verifique que X tiene densidad f si y sólo si X δ tiene distribución exponencial de
parámetro α1 .
Problema 2.2.L: Sea X variable aleatoria con distribución

( π uniforme
) sobre (−1, 1).
Determine una densidad para la variable aleatoria Z = cos 2 X .
Problema 2.2.M: Las calificaciones de un examen de probabilidades siguen una dis-

tribución N (4.2, (0.6)2 ). El profesor sospecha que el examen fue difı́cil. De acuerdo a lo
anterior, ajusta las calificaciones de la forma lineal, esto es, si X representa las califica-
ciones originales, entonces las calificaciones ajustadas serán Y = aX + b, con a > 0.
(a) ¿Qué valores deben asignarse a las constantes a y b de manera que las nuevas califi-
caciones tengan un promedio 5.3 y una desviación estándar de 0.3?
(b) Encuentre c ∈ [0, 7] para que, con probabilidad igual a 0.9, las calificaciones ajustadas
superen al valor c.
Problema 2.2.N: Sea T variable aleatoria con distribución Gamma(α, λ), α > 2. Veri-
fique que ( ) ( ) λ2
E T1 = α−1λ
y V ar T1 = (α−2)(α−1) 2 .
- 208 -
Problema 2.2.O: Suponga que la duración, en horas, llamémosla T , de cierto compo-

nente electrónico es una variable aleatoria con distribución exponencial de parámetro λ.
Una máquina que usa esta componente electrónica cuesta c1 pesos/hora para funcionar.
Mientras la máquina está funcionando se obtiene una utilidad de c2 pesos/hora, además,
debe contratarse un operador para un número prefijado de horas, digamos H, el cual
obtiene un pago de c3 pesos/hora. ¿Para qué valor de H es mayor la utilidad esperada?
Problema 2.2.P: Una persona de edad x, contrata un seguro de vida, el cual estipula
que se deben cancelar U F 2000 (a un beneficiario preestablecido), al final del año en que
él morirá. Por este seguro, la persona debe pagar un monto Px (fijo), al final de cada año,
comenzando al momento que contrata el seguro, y mientras esté vivo. La pérdida en que
incurrirı́a la compañı́a, se define como la diferencia entre lo que cancelará la compañı́a al
beneficiario y el monto que la compañı́a recibirá por concepto de los pagos anuales que
realiza el asegurado.
Calcule el valor Px , de modo que la pérdida esperada para la compañı́a sea cero.
Asuma los siguientes datos:
a) x = 40.
b) El interés anual efectivo es i = 0.01.
c) La función de sobrevivencia, s(t), está dada por s(t) = 1 − 100 t

, para
0 ≤ t ≤ 100. Esto significa que, la variable aleatoria continua X, que representa el
tiempo total que la persona vivirá, satisface la relación


1 −
t
100 si 0 ≤ t ≤ 100
P (X > t) = 1 − FX (t) = 0 si t > 100


1 si t < 0
Problema 2.2.Q: Sea Y ∼ exp(λ), donde λ > 0. Encuentre la función de distribución

de la variable aleatoria Z = max{s, min{Y, r}}, para 0 < s < r.
- 209 -
2.3. DESIGUALDADES PARA LA ESPERANZA MATEMÁTICA
2.3 Desigualdades para la Esperanza Matemática
Primeramente veamos una desigualdad elemental.
Proposición 2.3.1: Sean X e Y variables aleatorias, tal que X ≤ Y. Entonces, asum-

iendo que los valores esperados existen, E(X) ≤ E(Y ).
Demostración: Sea z real cualquiera. Como X ≤ Y, entonces
FY (z) = P (Y ≤ z) ≤ P (X ≤ z) = FX (z).
O sea, −FX (z) ≤ −FY (z), para todo z.

Por lo tanto, según Proposición 2.2.3,
∫ ∞ ∫ 0
E(X) = (1 − FX (z))dz − FX (z)dz
0 −∞
∫ ∞ ∫ 0
≤ (1 − FY (z))dz − FY (z)dz
0 −∞
= E(Y ).
En muchos casos concretos, el interés radica en determinar la probabilidad de cierto
suceso o sucesos, determinados por alguna variable aleatoria. Pero, en la práctica, por la
dificultad del problema, no es posible determinar un modelo para la variable aleatoria, y a
lo más que se puede aspirar es a conocer una estimación de su media. En estas condiciones,
la siguiente desigualdad entrega una forma de estimar (aunque un poco groseramente)
cierto tipo de probabilidades.
Proposición 2.3.2 (Desigualdad de Markov): Sea X variable aleatoria tal que

X ≥ 0 y a > 0 constante. Entonces,
E(X)
P (X ≥ a) ≤ .
a
Demostración: Como X ≥ 0, Proposición 2.2.3 , implica que

∫ ∞
E(X) = (1 − F (u))du.
0
Supongamos que la figura siguiente representa el gráfico de la función F
- 210 -
F (u)
F (a)
F (a− )
a u
Figura 2.3.1
donde F (a−) ∫= limu→a− F (u).

∞
Entonces, 0 (1 − F (u))du (que es igual a E(X)) corresponde al área sombreada de la
figura siguiente.
F (u)
F (a)
F (a− )
a u
Figura 2.3.2
El área sombreada anterior, es mayor que el área del siguiente rectángulo
F (u)
F (a)
F (a− )
a u
Figura 2.3.3
La base de este último rectángulo es a y su altura es
1 − F (a−) = (1 − F (a)) + (F (a) − F (a−))

= P (X > a) + P (X = a)
= P (X ≥ a).
- 211 -
Por lo tanto, el área del rectángulo es a P (X ≥ a). En consecuencia,

∫ ∞
E(X) = (1 − F (u))du ≥ a P (X ≥ a),
0
de donde
E(X)
P (X ≥ a) ≤ .
a
Una demostración más simple, pero menos geométrica, es la siguiente.

Consideremos el suceso A = (X ≥ a). Entonces, la variable aleatoria IA (indicatriz de
A) es discreta y
E(IA ) = 0 P (IA = 0) + 1 P (IA = 1)
= P (IA = 1)
= P (A).
X(ω)
Además, si ω ∈ A, entonces a ≥ 1, por lo que
X X
IA ≤ IA ≤ .
a a
La desigualdad de la Proposición 2.3.1 implica que
( )
E(IA ) ≤ E Xa
es decir,
E(X)
P (X ≥ a) ≤.
a
Si ahora, además de conocer una estimación para la media, también conocemos la
varianza, la desigualdad de Markov puede ser refinada. La siguiente desigualdad muestra
este refinamiento.
Proposición 2.3.3 (Desigualdad de Chebyshev): Sea X variable aleatoria con

media µ = E(X) y varianza σ 2 = V ar(X), ambos se asume que existen. Entonces, para
todo λ > 0,
σ2
P (|X − µ| ≥ λ) ≤ 2 .
λ
En particular, si t > 0 y λ = tσ, entonces
σ2 1
P (|X − µ| ≥ tσ) ≤ 2 2
= 2
t σ t
o en forma equivalente,
1
P (|X − µ| < tσ) ≥ 1 − .
t2
Demostración: Sea Y la variable aleatoria definida por Y = (X − µ)2 y consideremos

2
la constante a = λ . Entonces, Y es variable aleatoria positiva y a es una constante
positiva. La desigualdad de Markov implica que
E(Y )
P (Y > a) ≤ ,
a
- 212 -
es decir,
E((X − µ)2 )
P ((X − µ)2 ≥ λ2 ) ≤ .
λ2
Pero, el suceso ((X − µ)2 ≥ λ2 ) es igual al suceso (|X − µ| ≥ λ) y E((X − µ)2 ) = V ar(X).
Por lo tanto,
σ2
P (|X − µ| ≥ λ) ≤ 2 .
λ
La desigualdad de Chebyshev entrega en forma cuantitativa la forma en que la desviación
estándar “confina” a la variable aleatoria en torno de su media.
Es preciso resaltar que, aún con esta desigualdad, las cotas que se obtienen son todavı́a
bastante grandes y/o las probabilidades muy conservadoras.
A modo de ejemplo, si X ∼ N (µ, σ 2 ), entonces según Chebyshev,
σ2
P (|X − µ| > 2σ) ≤ = 0.25.
22 σ 2
Sin embargo, usando una tabla normal (0,1), obtenemos que
( )
X−µ
P (|X − µ| > 2σ) = P σ > 2
( )

= 1 − P X−µ
σ ≤ 2
= 1 − [Φ(2) − Φ(−2)]
= 1 − [Φ(2) − (1 − Φ(2))]
= 2 − 2Φ(2)
= 2 − 2 · 0.9772
= 0.0456.
Como vemos, la cota que entrega Chebyshev es bastante “lejana” del valor exacto de la
probabilidad.
Corolario 2.3.1: Sea X variable aleatoria tal que µ = E(X) existe y σ 2 = V ar(X) = 0.
Entonces
P (X = µ) = 1,
esto es, X es constante con probabilidad uno.
Demostración: La forma equivalente de la desigualdad de Chebyshev implica que,

para todo t > 0,
1
P (|X − µ| < t · 0) ≥ 1 − ,
t2
es decir,
1
1− ≤ P (|X − µ| = 0), para todo t > 0.
t2
- 213 -
Haciendo tender t a infinito se sigue que
1 ≤ P (|X − µ| = 0).
Pero, el suceso (|X − µ| = 0) es igual al suceso (X = µ) y la probabilidad de cualquier

suceso es siempre menor o igual a uno. Por lo tanto,
P (X = µ) = 1.
Ejemplo 2.3.1: Una compañı́a de seguros tiene aseguradas N pólizas de automóviles.

Se asume que cada siniestro se produce independientemente uno de otro y la probabilidad
de siniestro es constante, cualquiera sea la póliza (este supuesto no es tan real, pues en la
práctica, hay conductores que son más riesgosos que otros).
¿Cuántas pólizas, es decir, qué valor debe tener N , para tener una seguridad de al
menos el 95% de que el número de siniestros que van a ocurrir, difiera del número de
siniestros que la compañı́a espera que ocurran, en no más de un 5%?
Llamemos X a la variable aleatoria que cuenta el número de siniestros que ocu-
rrirán. Bajo los supuestos del problema, X ∼ B(N, p), y lo que se pide es encontrar
N bajo la condición
P (|X − E(X)| < 0.05N ) ≥ 0.95. (2.1)
Como E(X) = N p y V ar(X) = N p (1 − p), entonces la desigualdad de Chebyshev
implica que
N p (1 − p)
P (|X − E(X)| < 0.05N ) ≥ 1 − .
(0.05 N )2
Pero, como lo muestra la figura siguiente, la función h(p) = p (1 − p), 0 < p < 1, alcanza
un máximo en p = 12 .
h(p)
1
4
0 1 1 p
2
Figura 2.3.4
Ası́, para todo 0 < p < 1, se tiene que p (1 − p) ≤ 14 , de donde
N 14
P (|X − E(X)| < 0.05N ) ≥ 1 −
(0.05N )2
100
= 1− .
N
De esta forma, la condición (2.1) se satisface si 1 − 100
N ≥ 0.95, de donde N ≥ 2000.
En consecuencia, la compañı́a deberá tener aseguradas por lo menos 2000 pólizas.
- 214 -
Ejemplo 2.3.2: Sea X variable aleatoria discreta, con RecX = {−1, 0, 1} y

P (X = −1) = p, P (X = 0) = 1 − 2p, P (X = 1) = p,
donde p satisface, 0 0,

( ) ( √ )
√ 1
P X−0
2p < t = P |X − 0| < 2p t ≥ 1 − 2.
t
Por otra parte, para todo x real,

P (|X − 0| < x) = P (|X| < x)
{
P (X = 0) si 0 ≤ x < 1
=
P (X = −1) + P (X = 0) + P (X = 1) si x ≥ 1
{
1 − 2p si 0 ≤ x < 1
=
1 si x ≥ 1
( √ )
También, para todo t > 0, definamos Q(t) = P |X − 0| < 2p t . Ası́,
( √ )
Q(t) = P |X| < 2p t
{ √
1 − 2p si 0 ≤ 2p t < 1
= √
1 si 2p t ≥ 1
{
1 − 2p si 0 ≤ t < √1
2p
=
1 si t ≥ √1
2p
O sea,
lim Q(t) = lim 1 − 2p
− −
t→ √12p t→ √12p
= 1 − 2p
1
= 1− .
( 1 )2
√1
2p
- 215 -
Es decir, a medida que t se “acerca” (por la izquierda) a √1 , Q(t) se “acerca” a la cota

2p
que entrega la desigualdad de Chebyshev.
Ejemplo 2.3.3: Sea X variable aleatoria con µ = E(X) y σ 2 = V ar(X), ambos se

asume que existen. Sea X ∗ = X−µ ∗
σ , es decir, X es variable aleatoria con
E(X) − µ µ−µ
E(X) = = =0
σ σ
y
V ar(X − µ) V ar(X) σ2
V ar(X) = = = = 1.
σ2 σ2 σ2
Se dice que X ∗ es la estandarización de la variable aleatoria X.
Para cada t > 0, se define Q(t) = P (|X ∗ | < t). Entonces, la desigualdad de Chebyshev
implica que
Q(t) = P (|X ∗ | < t)

( )

= P X−µ
σ < t
= P (|X − µ| < σt)
1
≥ 1− .
t2
Si tomamos, en particular, X ∼ N (µ, σ 2 ), entonces
( )

Q(t) = P X−µ
σ < t
= Φ(t) − Φ(−t)
= 2Φ(t) − 1.
Si en cambio, X ∼ U (a, b), entonces
X −µ X − a+b
X∗ = = b−a
2
.
σ √
12
√ √
Teorema 2.2.1 implica que X ∗ ∼ U (− 3, 3), de donde
Q(t) = P (|X ∗ | < t)

∫
 t
1 √

 √ du si 0 < t < 3
 2 3
−t
=



1 √
si t ≥ 3
- 216 -
 1 √

 √3 t
 si 0 < t < 3
=

 √

1 si t ≥ 3
1
X− λ
Por otra parte, si X ∼ exp(λ), entonces X ∗ = X−µ
σ = 1 = λX − 1, de donde
λ
Q(t) = P (|X ∗ | < t)
= P (|λX − 1| < t)
= P (−t < λX − 1 < t)

( 1−t 1+t
)
= P λ <X< λ
∫ 1+t


 λ λe−λu du
 si 1 − t > 0


 1−t
λ
=

 ∫


1+t


λ
 λe−λu du si 1 − t ≤ 0
0
 ( )
 −1 et − e−t
e si 0 < t < 1
=


1 − e−(1+t) si t ≥ 1
La figura siguiente muestra el gráfico de Q(t) para las distribuciones recién vistas y
también el gráfico de la cota que entrega Chebyshev.
Q(t)
1.0
exp
1 − 1/t2
0.5 norm
unif
0 1 2 3 t
Figura 2.3.5
En forma similar, se puede obtener la función Q(t), para las variables aleatorias discretas
Bernoulli (p), Poisson (λ).
La figura siguiente muestra el gráfico de Q(t) para las distribuciones Bernoulli ( 12 ),
Poisson (9), la distribución del Ejemplo 2.3.2 con p = 14 y también el gráfico de la cota
que entrega Chebyshev.
- 217 -
Q(t)
1.0
Bernoulli
1 − 1/t2
0.5
Poisson
0 1 2 3 t
Figura 2.3.6
Veamos ahora una generalización de la desigualdad de Markov.
Corolario 2.3.2: Sea X variable aleatoria. Entonces, para todo t > 0, y todo λ > 0,
( )
E |X|t
P (|X| ≥ λ) ≤ .
λt
( )
Demostración: Para t > 0, el suceso (|X| > λ) es igual al suceso |X|t > λt . Usando
Proposición 2.3.2 con |X|t , en lugar de X y λt en lugar de a, se obtiene
( )
P (|X| > λ) = P |X|t > λt
E(|X|t )
≤ .
λt
Finalmente veamos una importante desigualdad, conocida como desigualdad de Jensen.

Primeramente, recordemos acerca de las funciones convexas.
Una función h : I → R, donde I es un intervalo abierto de R (los extremos pueden ser
finitos o no) se dice convexa en I si, para todo x, y ∈ I y 0 ≤ p ≤ 1,
h(px + (1 − p) y) ≤ p h(x) + (1 − p) h(y).
O sea,
ph(x) + (1 − p)h(y)
h(px + (1 − p)y)
x y
Figura 2.3.7
- 218 -
Si la segunda derivada de h existe en I, y se cumple que h′′ ≥ 0, entonces h es convexa.

Importantes funciones convexas son: |x|; x2 ; eθx (con θ ∈ R), etc.
Proposición 2.3.4 (Desigualdad de Jensen): Sea h : I → R función convexa sobre

el intervalo abierto I ⊂ R, y X variable aleatoria tal que P (X ∈ I) = 1. Asumiendo que
todas las cantidades involucradas existen, se tiene que
E(h(X)) ≥ h(E(X)).
Bajo las mismas condiciones de la proposición anterior, pero asumiendo que h es

cóncava (esto significa que −h es convexa), la desigualdad de Jensen implica que
E(−h(X)) ≥ −h(E(X)),
o sea, si h es cóncava,
h(E(X)) ≥ E(h(X)).
Demostración: De la convexidad de la función h, se puede verificar (vea R. Ash pág.

287) que existen sucesiones de reales (an ; n ≥ 1) y (bn ; n ≥ 1) tal que
h(x) = sup(an x + bn ), x ∈ I.
n≥1
Pero,
E(an X + bn ) = an E(X) + bn
de donde,
sup E(an X + bn ) = sup(an E(X) + bn )
n≥1 n≥1
= h(E(X)).
Finalmente, usando Proposición 2.3.1,
am X + bm ≤ sup(an X + bn ), para todo m,

n≥1
o sea, ( )
E(am X + bm ) ≤ E sup(an X + bn ) , para todo m,
n≥1
por lo que ( )
sup E(am X + bm ) ≤ E sup(an X + bn )
m≥1 n≥1
= E(h(X)).
En consecuencia,
E(h(X)) ≥ sup E(am X + bm ) = h(E(X)).
m≥1
- 219 -
Ejemplo 2.3.4: Si h(x) = |x|, x real, entonces, para 0 ≤ p ≤ 1,
h(px + (1 − p)y) = |px + (1 − p)y|
≤ |px| + |(1 − p)y|
= p |x| + (1 − p) |y|
= ph(x) + (1 − p)h(y).
Es decir, h es convexa en I =] − ∞, ∞[.

La desigualdad de Jensen implica que, si X es variable aleatoria y las cantidades in-
volucradas existen,
E(|X|) ≥ |E(X)|.
Ejemplo 2.3.5: Si h(x) = x2 , x real, entonces
d2
h(x) = 2 > 0, para todo x.
dx2
Es decir, h es convexa en I =] − ∞, ∞[.
La desigualdad de Jensen implica que
E(X 2 ) ≥ (E(X))2 ,
para X variable aleatoria en que las cantidades involucradas en la desigualdad existen.
Ejemplo 2.3.6: Sea h(x) = − ln x, x > 0. Entonces
d2 1
2
h(x) = 2 , para todo x > 0 .
dx x
Es decir, h es convexa en I =]0, ∞[.
La desigualdad de Jensen implica que, si X es variable aleatoria y las cantidades in-
volucradas existen,
E(− ln(X)) ≥ − ln(E(X)),
es decir,
ln(E(X)) ≥ E(ln X).
- 220 -
PROBLEMAS
Problema 2.3.A: Sea X variable aleatoria tal que E(X) = 3 y E(X 2 ) = 13 . Determine
α > 0 de modo que α < P (−2 ≤ X ≤ 8).
Problema 2.3.B: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid B(p), con
0.33 ≤ p ≤ 0.45. Determinar n0 ∈ N de modo que, con probabilidad superior a 0.95,
la distancia entre X̄n0 y p sea menor que 0.005.
Problema 2.3.C: Sea f : [0, 1] → R+ , función continua, tal que

∫ 1
supx∈[0.1] |f (x)| = m < 1 y p = f (t)dt.
0
Suponga que, para todo n ≥ 1 , los vectores bidimensionales Z1 , . . . , Zn , satisfacen:
a) Z1 , . . . , Zn son independientes,
b) Zi ∼ U (G) , 1 ≤ i ≤ n , con G = [0, 1] × [0, 1].
Finalmente, para cada 1 ≤ i ≤ n , considere las variables aleatorias Xi = I(Zi ∈D) , con
D = {(x, y) ∈ [0, 1]2 : 0 < y ≤ f (x)}.
i) Calcule E(X̄n ); V (X̄n ).
ii) Determine n0 ∈ N (mı́nimo) de modo que con probabilidad inferior a 0.005, la

distancia entre X̄n y p sea mayor que 0.01.
Problema 2.3.D: Sean a1 , . . . , an , números reales positivos, y α1 , . . . , αn , números reales

no negativos, tales que α1 + · · · + αn = 1. Verifique que
∏
n ∑
n
aαi i ≤ αi ai .
i=1 i=1
Problema 2.3.E: Sean a, b, c números reales positivos. Verifique que

1 1 1 9
+ + ≥ .
a b c a+b+c
Problema 2.3.F: Sea X una variable aleatoria y 0 < s < t, suponiendo que las cantidades
que aparecen abajo están bien definidas, pruebe que
1 [ ]1
[E(|X|s )] s ≤ E(|X|t ) t .
Problema 2.3.G: Suponga que en cierta región de Chile hay n familias, y cada familia
tiene un ingreso promedio mensual de $A pesos.
- 221 -
a) Encuentre una cota superior para la probabilidad de que el ingreso promedio mensual
de la región sea superior a $5A.
b) Encuentre una cota superior, menor que la encontrada en a), sabiendo ahora que la
desviación estándar del ingreso familiar mensual es $0.8A.
- 222 -
2.4. VECTORES ALEATORIOS
2.4 Vectores Aleatorios
En esta sección estudiaremos el concepto de distribución de probabilidad conjunta de

dos o más variables aleatorias definidas sobre un espacio muestral. La distribución de
probabilidad conjunta se usa como modelo matemático en muchas aplicaciones, de las
cuales las siguientes son algunas ilustraciones:
• En estudios de ecologı́a, los conteos (modelados como variables aleatorias) de varias

especies son realizados en algunas oportunidades. Una especie puede ser el depredador
de otra y es natural que el número de depredadores esté relacionado con el número
de presas.
• La distribución de probabilidad conjunta de u, v y w, que representan las compo-

nentes de la velocidad del viento, pueden ser medidas experimentalmente en estudios
de turbulencia atmosférica.
• La distribución conjunta de los valores de varias variables sicológicas, que se miden

en poblaciones de pacientes, es a menudo de interés en estudios médicos.
• Un modelo para la distribución conjunta de la edad y tamaño de una población de

peces puede ser usado para estimar la distribución de la edad desde la distribución
del tamaño. La distribución de la edad es relevante en el contexto de polı́ticas de
vedas.
Si X1 , . . . , Xn , son n variables aleatorias definidas en el mismo espacio muestral Ω,

estas pueden considerarse como un vector de variables (X1 , . . . , Xn ) o como una función
que a cada w ∈ Ω le asigna el punto de Rn de coordenadas (X1 (w), . . . , Xn (w)), o sea,
serı́a una variable aleatoria con valores en Rn .
Definición 2.4.1: Un vector X = (X1 , . . . , Xn ) se dice vector aleatorio n-variado (o

simplemente vector aleatorio) si para cada i = 1, . . . , n, la componente Xi , es una variable
aleatoria, estando todas definidas sobre un mismo espacio muestral Ω.
Dicho de otra forma, si Xi : Ω → R , es una variable aleatoria, para cada
i = 1, . . . , n , entonces X = (X1 , . . . , Xn ) es un vector aleatorio n-variado. La restricción
de que todas las variables aleatorias estén definidas sobre el mismo espacio muestral es
solo por razones técnicas, y en la práctica se puede asumir dicha condición sin pérdida de
generalidad.
El comportamiento conjunto de dos variables aleatorias X e Y es determinado por la
siguiente función:
Definición 2.4.2: La función de distribución conjunta del vector aleatorio (X, Y ), es

una función de R → [0, 1], definida por FX,Y (x, y) = P (X ≤ x, Y ≤ y).
2
Es decir, FX,Y (u, v) = P ((X, Y ) ∈ A) , donde A es el “rectángulo semi-infinito”

] − ∞, u]×] − ∞, v], que muestra la figura siguiente:
- 223 -
y
v
u x
Figura 2.4.1
El número real FX,Y (u, v), representa la probabilidad de que el par (X, Y ) pertenezca
al “rectángulo” sombreado de la Figura 2.4.1.
Recordemos que en el caso de una variable aleatoria (caso unidimensional), si se conoce
la función de distribución acumulada, entonces se puede calcular inmediatamente la pro-
babilidad de que la variable pertenezca a un intervalo (véase Proposición 2.2.1).
La siguiente proposición es la versión bidimensional del resultado antes mencionado, es
decir, indica como calcular la probabilidad de que un par de variables aleatorias pertenez-
can a un rectángulo, a partir de FX,Y .
Proposición 2.4.1: Sean a, b, c y d números reales tales que a < b ; c < d y (X, Y )
vector aleatorio. La probabilidad de que (X, Y ) pertenezca al rectángulo ]a, b]×]c, d], como
el que se muestra en la figura siguiente, está dado por
P (a < X ≤ b, c < Y ≤ d) = FX,Y (b, d) − FX,Y (a, d) − FX,Y (b, c) + FX,Y (a, c).
a b x
Figura 2.4.2
Demostración: Es suficiente descomponer el rectángulo ]a, b]×]c, d] en “rectángulos

semi-infinitos” como los que aparecen en la definición de FX,Y .
En efecto, como
P (a < X ≤ b, c < Y ≤ d) = P (X ≤ b, c < Y ≤ d) − P (X ≤ a, c < Y ≤ d)
- 224 -
P (X ≤ b, c < Y ≤ d) = P (X ≤ b, Y ≤ d) − P (X ≤ b, Y ≤ c),
P (X ≤ a, c < Y ≤ d) = P (X ≤ a, Y ≤ d) − P (X ≤ a, Y ≤ c),
entonces se concluye el resultado.
Observación 2.4.1: La función de distribución conjunta FX,Y posee las siguientes

propiedades (verificables a partir de su definición)
a) FX,Y es no decreciente en cada coordenada, es decir,
FX,Y (u, v) ≤ FX,Y (u, z) si v ≤ z,
FX,Y (u, v) ≤ FX,Y (x, v) si u ≤ x.
b) lim FX,Y (u, v) = FY (v); lim FX,Y (u, v) = FX (u).

u→∞ v→∞
c) u→∞
lim FX,Y (u, v) = 1.
v→∞
d) lim FX,Y (u, v) = 0; lim FX,Y (u, v) = 0.

u→−∞ v→−∞
La definición de función de distribución conjunta para un vector aleatorio n-dimensional

(n > 2), es análoga al caso bidimensional, al igual que la observación anterior.
En general, mostraremos las definiciones y propiedades en el caso bidimensional, pues
la complejidad del caso n-dimensional es más bién de tipo notacional.
Como en el caso unidimensional, es posible clasificar un vector aleatorio en discreto y
continuo.
Definición 2.4.3: La distribución de (X, Y ) se dice que es

i) discreta, si (X, Y ) toma valores sobre un conjunto finito o numerable de R2 , es decir,
si existe un conjunto C, contenido en R2 , finito o numerable, tal que
P ((X, Y ) ∈ C) = 1.
Se acostumbra a llamar recorrido de (X, Y ), se anota Rec(X, Y ), al más “pequeño”
de estos conjuntos C.
En este caso, también se define la función pX,Y : R2 → [0, 1], por
pX,Y (u, v) = P (X = u, Y = v).
La función pX,Y se conoce con el nombre de función de cuantı́a conjunta (también

llamada distribución de probabilidad conjunta) para el vector aleatorio (X, Y ).
ii) continua, si existe una función fX,Y de R2 → [0, ∞[ tal que, “para todo” A ⊂ R2 ,
∫∫
P ((X, Y ) ∈ A) = fX,Y (s, t)dsdt.
A
La función fX,Y recibe el nombre de función de densidad de probabilidad conjunta

(o más simplemente densidad conjunta) del vector aleatorio (X, Y ). Al conjunto
- 225 -
{(u, v) : fX,Y (u, v) > 0} se le llama recorrido de (X, Y ) y se anota Rec(X, Y ). El

subı́ndice “X, Y ” de las funciones FX,Y , pX,Y y fX,Y se omitirá cuando no exista
peligro de confusión.
De la definición anterior se desprenden las propiedades siguientes.
Proposición 2.4.2: Si (X, Y ) es vector aleatorio, entonces, para todo A ⊂ R2 ,

∑ ∑
P ((X, Y ) ∈ A) = p(u, v), si (X, Y ) es discreto,
(u,v)∈(A∩ Rec(X,Y ))
∫∫
P ((X, Y ) ∈ A) = f (u, v)dudv, si (X, Y ) es continuo
A∩Rec(X,Y )
y en particular, si A = R2 ,
∑ ∑ ∫∫
1= p(u, v); 1= f (u, v)dudv.
(u,v)∈ Rec(X,Y ) Rec(X,Y )
Más aún, si se considera A =] − ∞, u]×] − ∞, v], se tendrá que:

∑ ∑
F (u, v) = p(x, y), si (X, Y ) es discreto,
x≤u y≤v
(x,y)∈ Rec(X,Y )
∫ u ∫ v
F (u, v) = f (x, y)dxdy, si (X, Y ) es continuo.
−∞ −∞
Luego, en el caso en que (X, Y ) sea continuo, se desprende desde el teorema funda-
mental del cálculo que, para todo (u, v) ∈ R2 donde f sea continua,
∂ 2 F (u, v)
f (u, v) = .
∂u∂v
Observación 2.4.2: La función de densidad conjunta f , de un vector aleatorio (X, Y )

continuo, es no negativa, pero, puede ser mayor que uno, en si, f (u, v) no representa una
probabilidad (lo que si ocurre con p(u, v) en el caso en que (X, Y ) sea discreto). Esta
observación también es válida en el caso unidimensional.
Para “pequeños” δu y δv , si f es continua en (u, v),
∫ u+δu ∫ v+δv
P (u ≤ X ≤ u + δu , v ≤ Y ≤ v + δv ) = f (x, y)dxdy
u v
≃ f (u, v)δu δv .
Luego, la probabilidad que (X, Y ) pertenezca a una pequeña vecindad de (u, v) es propor-
cional a f (u, v).
- 226 -
Ejemplo 2.4.1: Una moneda honesta es lanzada tres veces. Supongamos que X denota
el número de caras que ocurren en el primer lanzamiento e Y representa el número total
de caras en los tres lanzamientos.
Entonces, Rec X = {0, 1} Rec Y = {0, 1, 2, 3} y el espacio muestral del experimento es
Ω = {ccc, ccs, csc, scc, ssc, scs, css, sss}.
Además, la función de cuantı́a conjunta de (X, Y ) está dada por la tabla siguiente:
XY 0 1 2 3
1 2 1
0 8 8 8 0
1 2 1
1 0 8 8 8
Tabla 2.4.1
Ası́ por ejemplo, p(0, 2) = P (X = 0, Y = 2) = 18 y P (Y ≥ 2X) es igual a la expresión

P ((X, Y ) ∈ A), donde A = {(u, v) ∈ R2 : v ≥ 2u}, representado en la Figura 2.4.3.
v=2u
3
0 1 2 3 u
Figura 2.4.3
Además, Rec(X, Y ) = {(0, 0), (0, 1), (0, 2), (1, 1), (1, 2), (1, 3)}, de donde se obtiene que
A ∩ Rec(X, Y ) = {(0, 0), (0, 1), (0, 2), (1, 2), (1, 3)}.
En consecuencia,
P (Y ≥ 2X) = P ((X, Y ) ∈ A)
∑ ∑
= p(u, v)
(u,v)∈A ∩Rec(X,Y )
= p (0, 0) + p (0, 1) + p (0, 2) + p (1, 2) + p (1, 3)
- 227 -
1 2 1 2 1
= + + + +
8 8 8 8 8
7
= .
8
Ejemplo 2.4.2: Sea (X, Y ) vector aleatorio con función de cuantı́a conjunta dada por
la siguiente tabla:
XY −1 0 1
0 0.10 0.03 0.25
1 0.20 0.30 0.12
Tabla 2.4.2
Encontraremos la función de cuantı́a de la variable aleatoria Z = X + Y.

El recorrido de Z es Rec(Z) = {−1, 0, 1, 2}, por lo que
pZ (−1) = P (Z = −1) = P (X + Y = −1)

= P ((X, Y ) ∈ {(0, −1)})
= PX,Y (0, −1)
= 0.10,
pZ (0) = P (Z = 0) = P (X + Y = 0)
= P ((X, Y ) ∈ {(0, 0), (1, −1)})
= pX,Y (0, 0) + pX,Y (1, −1)
= 0.03 + 0.20
= 0.23,
pZ (1) = P (Z = 1) = P (X + Y = 1)
= P ((X, Y ) ∈ {(0, 1), (1, 0)})
= pX,Y (0, 1) + pX,Y (1, 0)
= 0.25 + 0.30
= 0.55,
pZ (2) = P (Z = 2) = P (X + Y = 2)
= P ((X, Y ) ∈ {(1, 1)})
= pX,Y (1, 1)
= 0.12.
- 228 -
Ejemplo 2.4.3: Sea (X, Y ) vector aleatorio continuo, con densidad conjunta definida
por {
ks(s − t), si 0 < s < 2, −s < t < s
f (s, t) =
0 e.o.c.
con k constante positiva.
Por el hecho de que f es densidad conjunta, se tiene que
∫ ∞∫ ∞
f (s, t)dsdt = 1,
−∞ −∞
pero, la región donde f es no nula (o sea el recorrido de (X, Y )) es el conjunto

{(s, t) : 0 < s < 2, −s < t < s}, que corresponde a la región sombreada de la figura
siguiente
t=s
2
−2 0 1 2 s
−2
t=−s
Figura 2.4.4
Por lo tanto,
∫ ∞ ∫ ∞ ∫ 2 (∫ s )
f (s, t)ds dt =k s(s − t)dt ds
−∞ −∞ 0 −s
∫ 2 (∫ s ∫ s )
=k s dt −
2
st dt ds
0 −s −s
∫ 2
=k (2s3 − 0)ds
0
=8k,
de donde k = 81 .
Veamos ahora como calcular, por ejemplo, P (X 2 > Y ). Notemos que P (X 2 > Y ) es igual
a P ((X, Y ) ∈ A), con A = {(s, t) ∈ R2 : s2 > t}. La región sombreada de la figura
siguiente muestra al conjunto A ∩ Rec(X, Y ).
- 229 -
t
4
t=s2
t=s
2
−2 0 1 2 s
−2
t=−s
Figura 2.4.5
Luego,
P (X 2 > Y ) = P ((X, Y ) ∈ A)
∫∫
= f (s, t)ds dt
A∩Rec(X,Y )
∫ (∫ ) ∫ 2 (∫ s )
1 s2
1 1
= s (s − t)dt ds + s (s − t)dt ds
0 −s 8 1 −s 8
∫ 1( ) ∫
1 1 4 1 2 3
= s (s + s) − s (s − s ) ds +
2 2 2
(2s − 0) ds
8 0 2 8 1
1 37 1 15
= · + ·
8 60 8 12
479
= .
480
Ejemplo 2.4.4: Sea (X, Y ) vector aleatorio continuo con densidad conjunta dada por
{
αβe−(αu+βv) si u > 0, v > 0
fX,Y (u, v) =
0 e.o.c.
con α, β constantes positivas, α ̸= β.

Calculemos la densidad de la variable aleatoria Z = X + Y.
Primeramente encontraremos FZ (ξ), para todo ξ real.
- 230 -
FZ (ξ) = P (Z ≤ ξ)
= P (X + Y ≤ ξ)
= P ((X, Y ) ∈ Aξ ), donde Aξ = {(u, v) : u + v ≤ ξ}

∫∫
= fX,Y (u, v)dudv.
Aξ ∩Rec(X,Y )
Notar que fX,Y (u, v) es no nulo cuando u > 0 y v > 0, es decir, Rec(X, Y ) = R2+ .
Además, las Figuras 2.4.6 y 2.4.7 muestran la posición de la recta u + v = ξ, dependiendo
del signo de ξ.
0 ξ u
u+v=ξ
Figura 2.4.6: Caso ξ ≥ 0
ξ 0 u
u+v=ξ
Figura 2.4.7: Caso ξ < 0
Por lo tanto, si ξ < 0, Aξ ∩ Rec(X, Y ) = ∅, y en el caso en que ξ ≥ 0, la región sombreada

de la Figura 2.4.8 muestra al conjunto Aξ ∩ Rec(X, Y ).
- 231 -
0 ξ u
u+v=ξ
Figura 2.4.8
Ası́,
∫∫
FZ (ξ) = fX,Y (u, v)dudv
Aξ ∩Rec(X,Y )


0 si ξ < 0
∫ ξ (∫ ξ−u )
=

 αβe−(αu+βv) dv du si ξ ≥ 0
0 0

0 si ξ < 0
∫ ξ
=
α e−αu (1 − e−β(ξ−u) )du si ξ ≥ 0
0

0 si ξ < 0
= α
1 − e−αξ − e−βξ (1 − e−(α−β)ξ ) si ξ ≥ 0
α−β
O sea, FZ (ξ) es continua y derivable (salvo posiblemente en ξ = 0), en consecuencia,
fZ (ξ) existe y está dada por
{
d
dξ FZ (ξ) si la derivada existe
fZ (ξ) =
0 e.o.c.
{
αβ −βξ − e−αξ )
α−β (e si ξ > 0
=
0 e.o.c.
Ejemplo 2.4.5: Una población se divide en m estratos. Asumamos que la probabilidad

de escoger un individuo cualquiera del estrato i es siempre la misma, digamos pi . Se esco-
gen al azar n individuos de esta población. Sea Xi , la cantidad de individuos muestreados
- 232 -
del estrato i. La distribución conjunta del vector aleatorio discreto (X1 , . . . , Xm ) , está
dada por
n! ∑
m
P (X1 = r1 , . . . , Xm = rm ) = pr1 · · · prmm , 0 ≤ ri ≤ n, ri = n.
r1 ! · · · rm ! 1
i=1
Un vector aleatorio que tiene función de cuantı́a conjunta como la anterior se dice que
tiene distribución multinomial.
En el caso en que m = 2, es decir, dos estratos, se tendrá que p2 = 1 − p1 (pues
p1 + p2 = 1); r2 = n − r1 y (X1 = r1 , X2 = r2 ) = (X1 = r1 ), pues r1 + r2 = n. Por lo
tanto,
P (X1 = r1 ) = P (X1 = r1 , X2 = r2 )
n!
= pr1 pr2
r1 ! r2 ! 1 2
n!
= pr1 (1 − p1 )n−r1
r1 ! (n − r1 )! 1
( )
n
= pr1 (1 − p1 )n−r1 .
r1 1
Es decir, en el caso de dos estratos, la distribución multinomial se reduce a la distribución

binomial estudiada en la Sección 2.1 de este capı́tulo.
Para comprender como se concluye la forma de la distribución multinomial, veamos

un ejemplo concreto.
En una urna se tienen 100 fichas: 50 negras, 30 blancas y 20 rojas. Se eligen al azar 9
fichas, con reposición. Encontremos la probabilidad de que obtengamos 4 negras, 2 blancas
y 3 rojas.
En este ejemplo tenemos tres estratos (m = 3), que son: las fichas negras, las blancas
y las fichas rojas.
50
Como la probabilidad de escoger una ficha negra, en cualquier extracción, es 100 (casos
50
favorables son 50 y casos totales son 100), la probabilidad de este estrato es igual a 100 ,o
30 20
sea p1 = 0.5. Análogamente, p2 = 100 = 0.3 y p3 = 100 = 0.2.
También, desde que se eligen 9 fichas (con reposición), entonces n = 9 y
X1 =cantidad de fichas que resultan ser negras.
X2 =cantidad de fichas que resultan ser blancas.
X3 =cantidad de fichas que resultan ser rojas.
Queremos obtener P (X1 = 4, X2 = 2, X3 = 3), por lo que, r1 = 4; r2 = 2 y r3 = 3.

Notar que el suceso A, definido por A = 1ra ficha escogida es blanca, 2da es negra, 3ra y 4ta
rojas, 5ta blanca, 6ta y 7a negras, 8a roja y 9a negra, está contenido en
- 233 -
(X1 = 4, X2 = 2, X3 = 3) y por independencia (la elección es con reposición) tiene

probabilidad 0.3 · 0.5 · 0.2 · 0.2 · 0.3 · 0.5 · 0.5 · 0.2 · 0.5 = (0.5)4 · (0.3)2 · (0.2)3 .
Similarmente, el suceso B, definido por B = 1ra ficha escogida es roja, 2da es roja, 3ra
blanca, 4ta , 5ta y 6ta negras, 7a roja, 8a negra y 9a blanca, está contenido en
(X1 = 4, X2 = 2, X3 = 3) y por independencia (la elección es con reposición) tiene
probabilidad 0.2 · 0.2 · 0.3 · 0.5 · 0.5 · 0.5 · 0.2 · 0.5 · 0.3 = (0.5)4 · (0.3)2 · (0.2)3 .
Más aún, el suceso (X1 = 4, X2 = 2, X3 = 3) es la unión (disjunta) de conjuntos
similares a A o B, todos con probabilidad igual a (0.5)4 · (0.3)2 · (0.2)3 .
Pero, ¿Cuántos de estos conjuntos hay?
La cantidad de conjuntos que forman esta unión es igual a la cantidad de permutaciones
que podemos realizar con 9 objetos, de los cuales hay 4 de un mismo tipo, dos de otro y 3
de un tercer tipo. Recordando las permutaciones con repetición, este número corresponde
9!
a 4!2!3! .
En conclusión,
9!
P (X1 = 4, X2 = 2, X3 = 3) = (0.5)4 (0.3)2 (0.2)3 .
4! 2! 3!
Ejemplo 2.4.6: Sea G una región del plano, es decir, B ⊂ R2 , de modo que el área de
G sea finita.
Un vector aleatorio continuo (X, Y ) se dice que tiene distribución uniforme en G, se
anota (X, Y ) ∼ U (G), si la densidad conjunta de (X, Y ) está definida por

 1
si (u, v) ∈ G
f (u, v) = área(G)

0 e.o.c.
Notar que en este caso, si A ⊂ R2 , P ((X, Y ) ∈ A) corresponde al área de A ∩ G, dividida

por el área de G. En efecto,
∫∫
P ((X, Y ) ∈ A) = f (u, v)dudv
A
∫∫
1
= IG (u, v)dudv
A área(G)
∫∫
1
= IG (u, v)dudv
área(G) A
∫∫
1
= dudv
área(G) A∩G
área(A ∩ G)
= .
área(G)
- 234 -
( )
Ejemplo 2.4.7: Sea µ = (µ1 , µ2 ) vector de R2 y Σ = ab cb matriz simétrica y definida
positiva, con a > 0 y c > 0.
Un vector aleatorio continuo (X, Y ) se dice que tiene distribución normal bivariada de
parámetros µ y Σ, se anota (X, Y ) ∼ N (µ, Σ), si su función de densidad conjunta está
definida por
1 { }
f (u, v) = √ √ exp − 12 ((u, v) − (µ1 , µ2 ))Σ−1 ((u, v) − (µ1 , µ2 ))t .
( 2π)2 det Σ
Anotando x = u − µ1 ; y = v − µ2 y ρ = √ b√
a c
se tiene que
( )
1 c −b
((u, v) − (µ1 , µ2 ))Σ−1 ((u, v) − (µ1 , µ2 ))t = (x, y) (x, y)t
ac − b2 −b a
1
= (cx − by, −bx + ay)(x, y)t
ac(1 − ρ2 )
1
= (cx2 − 2bxy + ay 2 )
ac(1 − ρ2 )
( )
1 x2 b y2
= − 2 xy +
1 − ρ2 a ac c
( )
1 x2 x y y2
= − 2ρ · √ · √ +
1 − ρ2 a a b c
[
1 (u − µ1 )2 u − µ1 v − µ2
= − 2ρ · √ · √
1−ρ 2 a a c
]
(v − µ2 )2
+ .
c
En consecuencia,
1 [ { }]
(u−µ1 )2 (v−µ2 )2
f (u, v) = √ √ √ exp − 1
2(1−ρ2) a − 2ρ · u−µ
√ 1
a
· v−µ
√ 2
c
+ c .
2π a c 1 − ρ2
Ası́ por ejemplo, si (X, Y ) ∼ N ((0, 0), ( 10 01 )), entonces

1 [ ]
f (u, v) = exp − 21 {u2 + v 2 } .
2π
- 235 -
2.4.1 Distribuciones marginales

Si se conoce la función de cuantı́a conjunta de un vector aleatorio discreto (X, Y ), ¿será
posible conocer las funciones de cuantı́a de X y de Y ? Es decir, si se conoce pX,Y (u, v),
¿será posible conocer pX (u); pY (v)?
Análogamente, si se conoce fX,Y (s, t) ¿será posible conocer fX (s); fY (t)?
Proposición 2.4.3: Si (X, Y ) es un vector aleatorio, entonces:

a) En el caso discreto,
∑ ∑
pX (u) = pX,Y (u, v); pY (v) = pX,Y (u, v)
v∈RecY u∈RecX
b) En el caso continuo,
∫ ∞ ∫ ∞
fX (s) = fX,Y (s, t)dt; fY (t) = fX,Y (s, t)ds.
−∞ −∞
Demostración: Veamos primeramente el caso discreto.

Como Ω puede expresarse como unión disjunta de sucesos de la forma (Y = v), v ∈ RecY,
entonces
(X = u) = (X = u) ∩ Ω
[ ]
∪
= (X = u) ∩ (Y = v)
v∈RecY
∪
= (X = u, Y = v),
v∈RecY
luego
( )
∪
P (X = u) = P (X = u, Y = v)
v∈RecY
∑
= P (X = u, Y = v),
v∈RecY
es decir ∑
pX (u) = pX,Y (u, v).
v∈RecY
∑
Análogamente se obtiene que pY (v) = pX,Y (u, v).
u∈RecX
En el caso continuo,
FX (u) = lim FX,Y (u, v)
v→∞
∫ u ∫ v
= lim fX,Y (s, t)dsdt
v→∞ −∞ −∞
- 236 -
∫ u (∫ ∞ )
= fX,Y (s, t)dt ds,
−∞ −∞
luego, el teorema fundamental del cálculo implica que
d
fX (u) = FX (u)
du
∫ u (∫ ∞ )
d
= fX,Y (s, t)dt ds
du −∞ −∞
∫ ∞
= fX,Y (u, t)dt.
−∞
∫ ∞
Análogamente, fY (v) = fX,Y (s, v)ds.
−∞
Ejemplo 2.4.8: Sea (X,Y) vector aleatorio discreto con función de cuantı́a conjunta
dada por la tabla siguiente:
XY −1 1
0.7 0.112 0.238
1.2 0.160 0.340
3.5 0.032 0.068
6.8 0.016 0.034
Tabla 2.4.3
Entonces,
pX (0.7) = pX,Y (0.7, −1) + pX,Y (0.7, 1) = 0.112 + 0.238 = 0.35,

pX (1.2) = pX,Y (1.2, −1) + pX,Y (1.2, 1) = 0.160 + 0.340 = 0.50,
pX (3.5) = pX,Y (3.5, −1) + pX,Y (3.5, 1) = 0.032 + 0.068 = 0.10,
pX (6.8) = pX,Y (6.8, −1) + pX,Y (6.8, 1) = 0.016 + 0.034 = 0.05.
También,
pY (−1) = pX,Y (0.7, −1) + pX,Y (1.2, −1) + pX,Y (3.5, −1) + pX,Y (6.8, −1)
= 0.112 + 0.160 + 0.032 + 0.016
= 0.32,
pY (1) = pX,Y (0.7, 1) + pX,Y (1.2, 1) + pX,Y (3.5, 1) + pX,Y (6.8, 1)

= 0.238 + 0.340 + 0.068 + 0.034
= 0.68.
- 237 -
Ejemplo 2.4.9: Sea (X,Y) vector aleatorio continuo con densidad conjunta dada por
{
λ2 e−λv si 0 ≤ u ≤ v
fX,Y (u, v) =
0 e.o.c.
donde λ es una constante positiva.

La región sombreada de la Figura 2.4.9 muestra el conjunto donde fX,Y es no nula.
v=u
Figura 2.4.9
Si u < 0, entonces, para todo t real, fX,Y (u, t) = 0. En consecuencia, para u < 0,
∫ ∞ ∫ ∞
fX (u) = fX,Y (u, t)dt = 0dt = 0.
−∞ −∞
Si u ≥ 0, entonces, para todo t < u, fX,Y (u, t) = 0. Por lo tanto,

∫ ∞
fX (u) = fX,Y (u, t)dt
−∞
∫ u ∫ ∞
= 0dt + λ2 e−λt dt
−∞ u
= λe−λu .
En resumen,
{
0 si u < 0
fX (u) =
λe−λu si u ≥ 0
o sea, X ∼ exp(λ).
También, si v < 0, entonces, para todo s real, f (s, v) = 0. Por lo tanto, para v < 0,
∫ ∞ ∫ ∞
fY (v) = fX,Y (s, v)ds = 0ds = 0.
−∞ −∞
- 238 -
Si v ≥ 0, entonces, para todo s < 0, f (s, v) = 0 y para todo s > v, f (s, v) = 0. O sea,
∫ 0 ∫ v ∫ ∞
2 −λv
fY (v) = 0ds + λ e ds + 0ds
−∞ 0 v
∫ v
= λ2 e−λv ds
0
= λ2 ve−λv .
En resumen, {
0 si v < 0
fY (v) =
λ2 ve−λv si v ≥ 0
o sea, Y ∼ Gamma(2, λ).
Ejemplo 2.4.10: Sea (X,Y) vector aleatorio discreto, con función de cuantı́a conjunta
dada por ( )
n 1 n
pX,Y (m, n) = ,
m 2n 15
donde n ∈ {1, 2, 3, 4, 5} y m ∈ {0, 1, . . . , n}. Calculemos P (Y ≤ X 2 ) y encontremos las
distribuciones marginales de X e Y.
(n) n!
Primeramente, usando que m = m! (n−m)! , la función de cuantı́a conjunta puede
resumirse en la siguiente tabla
Y \X 0 1 2 3 4 5
1 1
1 30 30 0 0 0 0
1 2 1
2 30 30 30 0 0 0
1 3 3 1
3 40 40 40 40 0 0
1 4 6 4 1
4 60 60 60 60 60 0
1 5 10 10 5 1
5 96 96 96 96 96 96
Tabla 2.4.4
2
Ası́, por ejemplo, pX,Y (1, 2) = 30 . Luego,
∑
P (Y ≤ X 2 ) = pX,Y (m, n),
(m,n)∈(A∩Rec(X,Y ))
con A el conjunto definido por A = {(m, n) : n ≤ m2 }.

En consecuencia,
A ∩ Rec(X, Y ) = {(1, 1), (2, 2), (2, 3), (3, 3), (2, 4), (3, 4), (4, 4), (3, 5), (4, 5), (5, 5)},
- 239 -
de donde,
1 1 3 1 6 4 1 10 5 1
P (Y ≤ X 2 ) = + + + + + + + + +
30 30 40 40 60 60 60 96 96 96
31
= .
60
Ahora, sumando los valores pX,Y (m, n) ubicados en la columna 0 de la tabla anterior,
obtenemos pX (0), es decir,
1 1 1 1 1
pX (0) = + + + +
30 30 40 60 96
57
= .
480
Análogamente, se obtienen
141 94 5
pX (1) = , pX (3) = , pX (5) = ,
480 480 480
150 33
pX (2) = , pX (4) = .
480 480
Si ahora se suman los valores pX,Y (m, n) ubicados en la fila 1 de la tabla anterior,
obtenemos pY (1), es decir,
1 1 2
pY (1) = + = .
30 30 30
Análogamente, se obtienen
4 8 16 32
pY (2) = , pY (3) = , pY (4) = , pY (5) = .
30 40 60 96
Ejemplo 2.4.11: Sea (X,Y) el resultado de escoger un punto al azar de la región de R2

acotada por las rectas x = −1, x = 1, y = x + 1 e y = x − 1. Calculemos:
(a) las densidades marginales de X e Y,
(b) P (XY > 0),
(c) P (X < 0/ Y > 0.5).
El área sombreada de la figura siguiente muestra la región donde se escoge el punto al

azar.
- 240 -
y=x+1
2
1
y=x−1
−1 1 x
−1
−2
Figura 2.4.10
O sea, (X, Y ) ∼ U (G), con G la región sombreada de la figura anterior, por lo que

 1

 área G si (x, y) ∈ G
fX,Y (x, y) =



0 e.o.c.
Por lo tanto,
∫ ∞
fX (x) = fX,Y (x, y)dy
−∞
∫ x+1

 1

 dy si − 1 ≤ x ≤ 1
x−1 4
=




0 e.o.c

 1

2 si − 1 ≤ x ≤ 1
=



0 e.o.c
- 241 -
y
∫ ∞
fY (y) = fX,Y (x, y) dx
−∞
∫ 1

 1

 dx si 0 ≤ y ≤ 2

 y−1 4




∫
y+1
= 1

 dx si − 2 ≤ y ≤ 0

 −1 4






0 e.o.c.

 1

 4 (2 − y) si 0 ≤ y ≤ 2






= 1 (2 + y) si − 2 ≤ y < 0




4




0 e.o.c.
También, desde que la región sombreada de la figura siguiente representa a A ∩ G,
y=x+1
2
1
y=x−1
−1 1 x
−1
−2
Figura 2.4.11
se concluye que
∫∫
P (XY > 0) = fX,Y (x, y)dxdy , con A = {(x, y) ∈ R2 : xy > 0}
A
∫∫
1
= dxdy
A∩G 4
- 242 -
1
= área(A ∩ G)
4
( )
1 1
=2· 2−
4 2
3
= .
4
Finalmente veamos (c).
Si B = {(x, y) ∈ R2 : x < 0, y > 0.5}, entonces
P (X < 0, Y > 0.5) = P ((X, Y ) ∈ B)
∫∫
= fX,Y (x, y) dxdy
B
∫∫
1
= dxdy
B∩G 4
área(B ∩ G)
= .
4
Además, la región sombreada de la figura siguiente representa al conjunto B ∩ G
y=x+1
2
1
0.5 y=x−1
−1−0.5 1 x
−1
−2
Figura 2.4.12
por lo tanto, área(B ∩ G) = 81 , de donde

1
8 1
P (X < 0, Y > 0.5) = = .
4 32
- 243 -
Por otra parte,

∫ ∞
P (Y > 0.5) = fY (y)dy
0.5
∫ 2 ∫ ∞
1
= (2 − y)dy + 0dy
0.5 4 2
∫ 2 ∫ 2
1 1
= 2dy − ydy
4 0.5 4 0.5
3 15
= −
4 32
9
= .
32
En consecuencia,
P (X < 0 , Y > 0.5) 1

P (X < 0 / Y > 0.5) = = .
P (Y > 0.5) 9
Ejemplo 2.4.12: Sea (X,Y)( vector) aleatorio con distribución normal bivariada de pará-
metros µ = (µ1 , µ2 ) y Σ = ab cb . Verifiquemos que las distribuciones marginales son
normales.
En efecto, si ρ = √ b√ ,
a c
[ { }]
1 (u−µ1 )2 (v−µ2 )2
fX,Y (u, v) = √ √ √ exp − 1
2(1−ρ2 ) a − 2ρ · u−µ
√ 1
a
· v−µ
√ 2
c
+ c .
2π a c 1 − ρ2
u−µ
√ 1, v−µ
√ 2
Además, si α = a
λ= c
se obtiene la identidad
α2 − 2ραλ + λ2 = (λ − ρα)2 + α2 (1 − ρ2 ),
por lo que
1 [ ]
√ √ √ exp − 2(1−ρ2 ) (α − 2ραλ + λ )
1 2 2
fX,Y (u, v) =
2π a c 1 − ρ2
1 [ ]
√ √ √ exp − 2(1−ρ2 ) ((λ − ρα) + α (1 − ρ )) .
1 2 2 2
=
2π a c 1 − ρ2
- 244 -
Entonces, para todo u real,

∫ ∞
fX (u) = fX,Y (u, v)dv
−∞
∫ ∞
1 ( ) 1
= √ √ √ exp − 12 α2 √ √ √
2π a 1 − ρ2 −∞ 2π c 1 − ρ2
[ ]
· exp − 2(1−ρ 2 √c dλ
2 ) (λ − ρα)
1
[ ]
1 [ ( 2
)] ∫ ∞ 1 ( 2
)
= √ √ exp − 12 (u−µ
a
1)
√ √ exp − 12 (λ−ρα)
1−ρ2
dλ .
2π a −∞ 2π 1 − ρ2
Esta última integral vale uno pues el integrando corresponde a la densidad de una
distribución normal de parámetros (ρα, 1 − ρ2 ).
En conclusión, ( )
1 2
fX (u) = √ √ exp − 21 (u−µ a
1)
,
2π a
es decir, X ∼ N (µ1 , a).
Análogamente, Y ∼ N (µ2 , c).
Nota. El tratamiento para las distribuciones marginales en el caso de vectores aleatorios

m-dimensionales (X1 , . . . , Xm ), m ≥ 3, es análogo. Por ejemplo, en el caso continuo con
densidad conjunta f , la densidad marginal de X1 es
∫ ∞ ∫ ∞
fX1 (u) = ··· f (u, x2 , . . . , xm )dx2 · · · dxm ,
−∞ −∞
o la densidad conjunta de (X1 , Xm ) es

∫ ∞ ∫ ∞
fX1 ,Xm (u, v) = ··· f (u, x2 , . . . , xm−1 , v)dx2 · · · dxm−1 .
−∞ −∞
2.4.2 Independencia de variables aleatorias

Vimos en el párrafo anterior que si conocemos la distribución conjunta de un vector aleato-
rio, podemos obtener las distribuciones (marginales) de cada componente del vector.
¿Si conocemos las distribuciones de cada componente del vector, podremos conocer la
distribución conjunta?
La respuesta en general es negativa y la ilustramos en el siguiente ejemplo.
Ejemplo 2.4.13: Se lanzan dos monedas, las cuales son distinguibles, y se definen las
variables aleatorias {
1 si la 1ra moneda sale cara
X=
0 si la 1ra moneda sale sello
- 245 -
{
1 si la 2da moneda sale cara
Y =
0 si la 2da moneda sale sello
Consideremos los siguientes tres casos
(a) los cantos de las monedas están soldados, con las dos “caras” hacia el mismo lado,
(b) los cantos de las monedas están soldados, y las “caras” están opuestas,
(c) se arroja cada moneda separadamente.
En el caso (a) la distribución conjunta de (X, Y ) está dada por la tabla siguiente
X\Y 0 1
0 0.5 0
1 0 0.5
Tabla 2.4.5
En el caso (b) la distribución conjunta de (X, Y ) es
X\Y 0 1
0 0 0.5
1 0.5 0
Tabla 2.4.6
Finalmente, en el caso (c) la distribución conjunta de (X, Y ) resulta
X\Y 0 1
0 0.25 0.25
1 0.25 0.25
Tabla 2.4.7
Además, en los tres casos las distribuciones marginales resultan iguales, con
pX (0) = 0.5, pX (1) = 0.5, pY (0) = 0.5, pY (1) = 0.5.
O sea, este ejemplo muestra que la distribución conjunta contiene más información
que las marginales, pues contiene información sobre la “dependencia” entre las variables.
¿En que casos será posible que el conocimiento de las distribuciones marginales im-
plique el conocimiento de la distribución conjunta? La respuesta es que, cuando las varia-
bles sean “independientes” esto será posible.
Definición 2.4.4: Las variables aleatorias X1 , . . . , Xm , se dice que son independientes,

si su distribución acumulada conjunta se factoriza como producto de sus distribuciones
conjuntas marginales, esto es,
FX1 ,...,Xm (x1 , . . . , xm ) = FX1 (x1 ) · · · FXm (xm ),
- 246 -
para todo x1 , x2 , . . . , xm .
La definición anterior se cumple para ambos casos, discreto y continuo. En el caso de
variables aleatorias discretas (con m = 2), decir que X, Y son independientes equivale a
que
pX,Y (u, v) = pX (u) pY (v), para todo u, v reales.
En el caso en que las variables sean continuas, la independencia de X, Y equivale a
fX,Y (u, v) = fX (u) fY (v), para todo u, v reales.
Por ejemplo, en el caso continuo,

FX,Y (u, v) = P (X ≤ u, Y ≤ v)
∫ u ∫ v
= fX,Y (s, t)dsdt
−∞ −∞
∫ u ∫ v
= fX (s)fY (t)dsdt
−∞ −∞
∫ u (∫ v )
= fX (s) fY (t)dt ds
−∞ −∞
(∫ u ) (∫ v )
= fX (s)ds fY (t)dt
−∞ −∞
= P (X ≤ u) P (Y ≤ v)
= FX (u) FY (v),
es decir, X e Y son independientes.
Los dos resultados siguientes no tienen una demostración elemental, pero pueden con-
sultarse en [7].
Proposición 2.4.4: Las variables aleatorias X1 , . . . , Xm son independientes si y sólo

si, para todo A1 , . . . , Am subconjuntos de R, los sucesos (X1 ∈ A1 ), . . . , (Xm ∈ Am ) son
independientes.
√
Por ejemplo, si √ X1 , X2 , X3 son independientes, entonces, los sucesos (X1 > 2),
(X2 ∈ {−1, 0.5, 3, 3 7}), (π ≤ X3 < 8) son independientes.
Proposición 2.4.5: Sean X1 , X2 , variables aleatorias independientes, g1 , g2 dos fun-

ciones reales e Y1 , Y2 las variables aleatorias definidas por Y1 = g1 (X1 ); Y2 = g2 (X2 ).
Entonces Y1 e Y2 son independientes.
Por ejemplo, si X1 y X2 son independientes, entonces, X13 y exp(X2 ) son indepen-

dientes.
- 247 -
Más generalmente, si X1 , . . . , Xm son independientes, entonces funciones de “bloques”

disjuntos de las Xi también son independientes.
Por ejemplo, si X1 , X2 , . . . , X12 son independientes, las variables aleatorias

(X1 + X5 + 2X9 )3 , X3 |X8 |, max{X2 , X4 , X7 , X10 }, ln |X12 | son independientes. En este
caso los bloques disjuntos resultan ser (X1 , X5 , X9 ); (X3 , X8 ); (X2 , X4 , X7 , X10 ), X12 y
las funciones gi son:
g1 : R3 → R, g(a, b, c) = (a + b + 2c)3 .
g2 : R2 → R, g(a, b) = a|b|.
g3 : R4 → R, g(a, b, c, d) = max{a, b, c, d}.
g4 : R → R, g(a) = ln |a|.
Ejemplo 2.4.14: Sean X,Y variables aleatorias. Asumamos que la función de cuantı́a
conjunta de (X,Y) está dada por la tabla siguiente.
X\Y 0 1 2
−1 0.05 0.01 0.24
1 0.15 0.35 0.20
Tabla 2.4.8
Entonces
pX (−1) = 0.05 + 0.01 + 0.24 = 0.30,

pX (1) = 0.15 + 0.35 + 0.20 = 0.70
pY (0) = 0.05 + 0.15 = 0.20,

pY (1) = 0.01 + 0.35 = 0.36,
pY (2) = 0.24 + 0.20 = 0.44.
Como pX,Y (−1, 0) = 0.05 y pX (−1) pY (0) = 0.30 · 0.20 = 0.06, entonces X e Y no son
independientes.
Ejemplo 2.4.15: En el esquema Bernoulli de parámetro p, sea X el número del intento

en que se produce el primer éxito, e Y la cantidad de intentos entre el primer y segundo
éxito, es decir, Z = X + Y es el número del intento en que se da el segundo éxito. Veamos
que X e Y son variables aleatorias independientes.
Calculemos pX,Y (m, n), para todo m, n naturales, tales que 1 ≤ m < n.
Notemos que el suceso (X = m, Y = n) es igual al suceso (X = m, Z = m + n), o sea,

este suceso representa el hecho que ocurran éxitos en los intentos m y m + n y fracasos
- 248 -
en los restantes. Ası́,
pX,Y (m, n) = P (X = m, Y = n)
= P (X = m, Z = m + n)
= p2 (1 − p)m+n−2
= [p(1 − p)m−1 ][p(1 − p)n−1 ].
Por lo tanto,
pX,Y (m, n) = pX (m) pY (n),
o sea, X e Y son independientes. Además, se deduce que X tiene la misma distribución
que Y (esta es geométrica de parámetro p). En consecuencia, los tiempos de espera entre
éxitos sucesivos tienen la misma distribución que el tiempo entre el comienzo y el primer
éxito, lo que corresponde a la idea intuitiva de que el proceso no tiene memoria.
Ejemplo 2.4.16: Sea (X,Y) vector aleatorio continuo tal que (X, Y ) ∼ U (G), con
G =]a, b[×]c, d[, es decir,
{
1
área(G) si (u, v) ∈ G
fX,Y (u, v) =
0 e.o.c.
{
1
(b−a)(d−c) si a < u < b, c < v < d
=
0 e.o.c.
Veamos que X e Y son variables aleatorias independientes. Para esto, primeramente,

calculemos las marginales fX ; fY .
∫ ∞ ∫ ∞
fX (u) = fX,Y (u, v)dv, fY (v) = fX,Y (u, v)du.
−∞ −∞
Caso 1: Si u ∈]a,
/ b[, entonces fX,Y (u, v) = 0, para todo v, de donde fX (u) = 0 para
u ∈]a,
/ b[.
Caso 2: Si u ∈]a, b[, entonces fX,Y (u, v) = 0, para todo v ∈] − ∞, c[ ∪ [d, ∞[, de donde
∫ c ∫ d ∫ ∞
1
fX (u) = 0dv + dv + 0dv
−∞ c (b − a)(d − c) d
1
= .
b−a
Por lo tanto, {
1
b−a si a < u < b
fX (u) =
0 e.o.c.
- 249 -
Análogamente, {
1
c−d si c < v < d
fY (v) =
0 e.o.c.
En consecuencia, si (u, v) ∈]a, b[×]c, d[, es decir, a < u < b; c < v < d, se satisface
que ( )( )
1 1 1
fX,Y (u, v) = y fX (u) fY (v) = .
(b − a)(c − d) b−a d−c
También, si (u, v) ∈]a,
/ b[×]c, d[, es decir, si u ∈]a, / b[ ó v ∈]c,/ d[, entonces
fX,Y (u, v) = 0 y, fX (u) = 0 ó fY (v) = 0, por lo que fX (u) fY (v) = 0.
En conclusión, para todo (u, v) ∈ R2 ,
fX,Y (u, v) = fX (u) fY (v),
por lo que X e Y son independientes.
Ejemplo
( ) 2.4.17: Sea (X,Y) vector normal bivariado de parámetros µ = (µ1 , µ2 ) y
Σ = ab cb , con b = 0. Según el Ejemplo 2.4.7, y como ρ = 0, se tiene que, para todo
(u, v) ∈ R2 ,
1 [ { 2
}]
(v−µ2 )2
fX,Y (u, v) = √ √ exp − 12 (u−µ a
1)
+ c
2π a c
[ { }] [ { }]
1 (u−µ1 )2 1 (v−µ2 )2
= √ √ exp − 12 a
√ √ exp − 12 c
2π a 2π c
=fX (u) fY (v),

o sea X e Y son independientes y además X ∼ N (µ1 , a); Y ∼ N (µ2 , c).
Ejemplo 2.4.18: Sean X e Y variables aleatorias independientes, tales que X ∼ P(λ);

Y ∼ P(µ). Encontremos la distribución de Z = X + Y .
Sea m ≥ 0 natural, entonces
pZ (m) = P (Z = m)
= P (X + Y = m).
Como Ω se puede expresar como unión disjunta de sucesos de la forma (Y = r), con
r ∈ N0 , entonces
(∞ )
∪
(X + Y = m) = (X + Y = m) ∩ (Y = r)
r=0
∞
∪
= (X + Y = m, Y = r)
r=0
∪∞
= (X = m − r, Y = r),
r=0
- 250 -
por lo que
(∞ )
∪
pZ (m) = P (X = m − r, Y = r)
r=0
∞
∑
= P (X = m − r, Y = r).
r=0
Por la independencia de X e Y se tiene que los sucesos (X = m − r) y (Y = r) son

independientes, de donde
P (X = m − r, Y = r) = P (X = m − r)P (Y = r)
= pX (m − r)pY (r).
Pero, RecX = N0 , luego pX (m − r) = 0, cuando m − r < 0, es decir, cuando r > m. Por

lo tanto,
∑
m ∞
∑
pZ (m) = pX (m − r)pY (r) + 0
r=0 r=m+1
∑m
λm−r −λ µr −µ
= e e
(m − r)! r!
r=0
1 ∑
m
−(λ+µ) m!
=e µr λm−r
m! (m − r)! r!
r=0
e−(λ+µ)
= (µ + λ)m (por teorema del binomio).
m!
En consecuencia, X + Y tiene distribución Poisson de parámetro λ + µ.
Ejemplo 2.4.19: Sean X e Y variables aleatorias independientes, tales que

X ∼ exp(α); Y ∼ exp(β). Encontremos la distribución de la variable aleatoria
Z = min{X, Y }.
Sea z real, entonces
FZ (z) = P (Z ≤ z)
= P (min{X, Y } ≤ z)
= 1 − P (min{X, Y } > z)
= 1 − P (X > z, Y > z)
(∫ ∞ ) (∫ ∞ )
=1− fX (u)du fY (v)dv , por la independencia de X e Y.
z z
- 251 -
Caso 1: Si z < 0, entonces fX (z) = fY (z) = 0 (pues RecX = RecY = R+ ), por lo que
(∫ 0 ∫ ∞ ) (∫ 0 ∫ ∞ )
FZ (z) = 1 − 0du + αe−αu du 0dv + βe−βv dv
z 0 z 0
= 1 − (0 + 1)(0 + 1)
= 0.
Caso 2: Si z ≥ 0, entonces
(∫ ∞ ) (∫ ∞ )
−αu −βv
FZ (z) = 1 − αe du βe dv
z z
−αz −βz
=1−e e .
En resumen, {
0 si z < 0
FZ (z) =
1 − e−(α+β)z si z ≥ 0
Como FZ es una función continua y derivable, salvo posiblemente en z = 0, entonces

 d
 dz FZ (z) cuando la derivada existe
fZ (z) =


0 e.o.c.
{
(α + β)e−(α+β)z si z ≥ 0
=
0 e.o.c.
En consecuencia, min{X, Y } ∼ exp(α + β).
- 252 -
PROBLEMAS
Problema 2.4.A: La fabricación de un artı́culo tiene 2 etapas independientes. Sea Xj
el número de defectos en la etapa j (j = 1, 2). Suponga que, para i ∈ {0, 1, 2},
pX1 (i) = αi ; pX2 (i) = βi
con α0 + α1 + α2 = 1 = β0 + β1 + β2 .
a) Encuentre la función de distribución conjunta del vector aleatorio (X1 , X2 ).
b) Calcule la probabilidad de tener más defectos en la etapa 2 que en la etapa 1.
c) Sea Z = X2 − X1 . Encuentre la función de distribución de Z.
Problema 2.4.B: Juan y Pedro proyectan encontrarse en un cierto lugar entre las 17:00 y
18:00 horas, comprometiéndose cada uno de ellos a esperar a lo más diez minutos. Suponga
que las llegadas son independientes y tienen distribución uniforme sobre [17, 18].
a) Calcule la probabilidad de que ambos se encuentren.
b) Si Juan fija su hora de llegada en el instante x. ¿Cuál es la probabilidad de que

Pedro lo encuentre?
Problema 2.4.C: Sean X, Y variables aleatorias iid U (0, 1). Halle la distribución de la
variable aleatoria Z = X
Y .
Problema 2.4.D: Sea (X, Y ) vector aleatorio bidimensional con densidad dada por
{
λ2 e−λ(x+y) si (x, y) ∈ R2+
f(X,Y ) (x, y) =
0 e.o.c.
es decir, X e Y son variables aleatorias iid exp(λ).
a) Para α > 0, calcule P (Y ≥ αX).

( )
b) Para t ∈ R, calcule P X+YX
≤t .
X
c) Obtenga una densidad para la variable aleatoria Z = X+Y .
X
Problema 2.4.E: Sean X, Y variables aleatorias iid exp(1). Pruebe que X + Y y Y son
variables aleatorias independientes, además, halle sus distribuciones.
Problema 2.4.F: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias independientes tales que

Xk ∼ exp(αk ), k = 1, . . . , n.
Sean Y = min{Xi ; 1 ≤ i ≤ n}, Yk = min{Xi ; 1 ≤ i ≤ n, i ̸= k}.
- 253 -
( )
∑
n
a) Pruebe que Y ∼ exp αi , en particular obtenga que Yk ∼ exp(λk ), con
i=1
∑
n
λk = αi .
i=1
i̸=k
αk
b) Pruebe que P (Xk = Y ) = , 1 ≤ k ≤ n.
∑
n
αi
i=1
Problema 2.4.G: Los nodos 1, 2, 3 que muestra la figura, corresponden a componentes

en un circuito eléctrico. Se dice que la componente está fallada si ésta no deja fluir la
corriente eléctrica. Suponga que las componentes se comportan de manera independiente
y que el tiempo que demora en fallar la i–ésima componente se distribuye exponencial con
parámetro αi , i = 1, 2, 3.
Considere la variable aleatoria T = tiempo que transcurre hasta que no fluye corriente
entre A y B.
(a) Encuentre la distribución de probabilidad de T .
(b) Calcule la probabilidad de que en al menos 20 unidades de tiempo fluya corriente

entre A y B.
A 3 B
Problema 2.4.H: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias iid con densidad común

f y distribución acumulada común F . Si U = min{X1 , . . . , Xn } y V = max{X1 , . . . , Xn },
entonces halle una densidad conjunta para el vector aleatorio (U, V ).
Problema 2.4.I: En el aeropuerto de Chicago se anuncia: El vuelo 032 de aerolı́neas A

con destino a Luxemburgo despegará a las 21:00 hrs. (hora local).
En el aeropuerto de Luxemburgo se anuncia: El vuelo 032 de aerolı́neas A, procedente de
Chicago, llegará a las 14:30 hrs. (hora local).
Asuma que la diferencia horaria entre Chicago y Luxemburgo es de +6 horas y que
por razones técnicas, el avión debe hacer una escala en la ciudad de Reykjavik. Si la
duración del trayecto total se descompone en tres tiempos, asociados a un vector aleatorio
(X, Y, Z), con
X = duración trayecto Chicago - Reykjavik
Y = duración de la escala en Reykjavik
Z = duración trayecto Reykjavik - Luxemburgo
- 254 -
y se acepta que las variables aleatorias X, Y y Z, medidas en minutos, son independientes

y se distribuyen N (240, 252 ), N (45, 102 ) y N (420, 402 ) respectivamente, calcule la proba-
bilidad que la hora de llegada a Luxemburgo difiera de la hora anunciada en menos de 15
minutos.
Nota: Es posible verificar que X + Y + Z ∼ N (240 + 45 + 420, 252 + 102 + 402 ).
Problema 2.4.J: Sobre un segmento OA de R, de largo a, se eligen independientemente

y uniformemente dos puntos P1 y P2 . Se designa por X1 y X2 los largos de los segmentos
OP 1 y OP 2 , respectivamente (o sea, X1 , X2 son iid U (0, a)). También, se denota por
Y1 el punto más cercano a O y por Y2 el punto más cercano a A. Finalmente, designamos
por M1 y M2 los largos de los segmentos OY 1 y OY 2 , respectivamente.
a) Determine la función de distribución acumulada para la variable aleatoria

M = distancia entre los puntos P1 y P2 .
b) Determine una densidad para la variable aleatoria M .
c) Calcule la probabilidad que con los tres segmentos OY 1 , Y1 Y2 y Y2 A se pueda

construir un triángulo.
- 255 -
2.5. DISTRIBUCIÓN DE VECTORES ALEATORIOS
2.5 Distribución de Vectores Aleatorios
En esta sección, primeramente, veremos como calcular la distribución de variables aleato-

rias del tipo Z = g(X1 , . . . , Xn ), donde g es una función de Rn en R y además se conoce
la distribución conjunta de (X1 , . . . , Xn ).
2.5.1 Suma de variables (caso discreto)

Supongamos que X e Y son variables aleatorias discretas con recorridos sobre los enteros y
con función de cuantı́a conjunta p(m, n). Encontremos la función de cuantı́a de la variable
Z = g(X, Y ), donde g : R2 → R está definida por g(u, v) = u + v, es decir, Z = X + Y .
Si r es entero y como Ω es unión disjunta de sucesos del tipo (Y = n), con n ∈ RecY ,
entonces
(Z = r) = (Z = r) ∩ Ω
( )
∪
= (X + Y = r) ∩ (Y = n)
n∈RecY
∪
= (X + Y = r, Y = n)
n∈RecY
∪
= (X = r − n, Y = n).
n∈RecY
Ası́,
pX+Y (r) = P (X + Y = r)
= P (Z = r)
( )
∪
=P (X = r − n, Y = n)
n∈RecY
∑
= P (X = r − n, Y = n)
n∈RecY
∑
= p(r − n, n).
n∈RecY
En el caso en que X e Y sean no negativas, p(r − n, n) = 0, para n > r. Luego

∑
r
pX+Y (r) = p(r − n, n).
n=0
En el caso en que X e Y sean independientes,

∑
pX+Y (r) = pX (r − n)pY (n).
n∈RecY
En el caso en que X e Y sean no negativas e independientes,

∑
r
pX+Y (r) = pX (r − n)pY (n).
n=0
- 256 -
Ejemplo 2.5.1: Sean X e Y variables aleatorias independientes tales que:
m pX (m) n pY (n)
0 0.1 0 0.2
1 0.3 1 0.3
2 0.4 2 0.3
3 0.2 3 0.2
Tabla 2.5.1 Tabla 2.5.2
Entonces, Rec(X + Y ) = {0, 1, 2, 3, 4, 5, 6} y
pX+Y (0) = pX (0 − 0)pY (0) = 0.1 · 0.2 = 0.02,
pX+Y (1) = pX (1 − 0)pY (0) + pX (1 − 1)pY (1)

= 0.3 · 0.2 + 0.1 · 0.3
= 0.09,
pX+Y (2) = pX (2 − 0)pY (0) + pX (2 − 1)pY (1) + pX (2 − 2)pY (2)

= 0.4 · 0.2 + 0.3 · 0.3 + 0.1 · 0.3
= 0.2,
pX+Y (3) = pX (3 − 0)pY (0) + pX (3 − 1)pY (1) + pX (3 − 2)pY (2) + pX (3 − 3)pY (3)
= 0.2 · 0.2 + 0.4 · 0.3 + 0.3 · 0.3 + 0.1 · 0.2
= 0.27,
+ pX (4 − 4)pY (4)
= 0 · 0.2 + 0.2 · 0.3 + 0.4 · 0.3 + 0.3 · 0.2 + 0.1 · 0
= 0.24,
+ pX (5 − 4)pY (4) + pX (5 − 5)pY (5)
= 0 · 0.2 + 0 · 0.3 + 0.2 · 0.3 + 0.4 · 0.2 + 0.3 · 0 + 0.1 · 0
= 0.14.
Análogamente, se obtiene que
pX+Y (6) = 0 + 0 + 0 + 0.2 · 0.2 + 0 + 0 + 0

= 0.04.
- 257 -
2.5.2 Suma de variables (caso continuo)
Sean X e Y variables aleatorias continuas con función de densidad conjunta f . Encon-

tremos la densidad de la variable aleatoria Z = X + Y .
Primeramente, calculemos la función de distribución acumulada de Z, FZ .
Sea ξ ∈ R,
FZ (ξ) = P (X + Y ≤ ξ)
= P ((X, Y ) ∈ Aξ ) con Aξ = {(u, v) ∈ R2 : u + v ≤ ξ}
∫∫
= f (u, v)dudv.
Aξ
La región sombreada en la figura siguiente muestra al conjunto Aξ .
0 ξ u
u+v=ξ
Figura 2.5.1
Haciendo el cambio de variables s = u; t = u + v, cuyo jacobiano es 1, se tiene que

∫∫ ∫ ∞ (∫ ξ−u )
f (u, v)dudv = f (u, v)dv du
Aξ −∞ −∞
∫ ∞ (∫ ξ )
= f (s, t − s)dt ds
−∞ −∞
∫ ξ (∫ ∞ )
= f (s, t − s)ds dt.
−∞ −∞
∫∞
Derivando respecto de ξ (la derivada existe si −∞ f (s, t − s)ds es continua en ξ) se tiene
que
d
fX+Y (ξ) = fZ (ξ) = FZ (ξ)
dξ
∫ ∞
= f (s, ξ − s)ds.
−∞
Este resultado es análogo al obtenido en el caso discreto.
- 258 -
Si X e Y son independientes, entonces

∫ ∞
fX+Y (ξ) = f (s, ξ − s)ds
∫−∞
∞
= fX (s) fY (ξ − s)ds.
−∞
Esta última integral es conocida como la convolución de las funciones fX y fY , y se anota

fX ∗ fY .
Si X e Y son no negativas, entonces
∫ ∞
fX+Y (ξ) = f (s, ξ − s)ds
−∞
∫ ξ
= f (s, ξ − s)ds.
0
Si X e Y son no negativas e independientes, entonces

∫ ξ
fX+Y (ξ) = fX (s)fY (ξ − s)ds.
0
Ejemplo 2.5.2: Sean X e Y variables aleatorias independientes, tales que X ∼ exp(α);

Y ∼ exp(β) y α ̸= β. Entonces, para z > 0,
∫ z
fX+Y (z) = fX (s)fY (z − s)ds
∫ z
0
= αe−αs βe−β(z−s) ds
0
∫ z
= αβe−βz e−(α−β)s ds
0
−βz 1
= αβe (1 − e−(α−β)z ), si α ̸= β
α−β
αβ
= (e−βz − e−αz ) .
α−β
Es decir, cuando α ̸= β

 αβ (e−βz − e−αz ), si z > 0
fX+Y (z) = α − β

0 e.o.c.
que es el mismo resultado obtenido en el Ejemplo 2.4.4

En el caso en que α = β resulta que
∫ z
−βz
αβe e−(α−β)s ds = β 2 e−βz z,
0
- 259 -
de donde  2
 β z 2−1 e−βz , si z > 0
fX+Y (z) = Γ(2)

0 e.o.c.
En consecuencia, si X ∼ exp(β); Y ∼ exp(β) y X e Y son independientes, entonces

X + Y ∼ Gamma(2, β).
Más aún, como veremos más adelante, si X ∼ Gamma(β, α) e Y ∼ Gamma(λ, α) y X
e Y son independientes, entonces X + Y ∼ Gamma(β + λ, α).
Ejemplo 2.5.3: Sean X e Y variables aleatorias normales e independientes. Verifique-

mos que la suma X + Y también es normal.
En efecto, supongamos que X ∼ N (0, σ12 ); Y ∼ N (0, σ22 ). Entonces, para todo z real,
∫ ∞
fX+Y (z) = fX (s)fY (z − s)ds
∫−∞
∞ ( ) ( )
1 2 1 (z−s)2
= √ exp − 12 σs 2 √ exp − 12 σ22
ds
−∞ 2π σ1 1 2π σ2
∫ ∞ [ ( )]
1 2 2
= exp − 21 σs 2 + (z−s)
σ22
ds.
2π σ1 σ2 −∞ 1
Pero,
s2 (z − s)2 s2 z2 s2 2zs
2 + 2 = 2 + 2 + 2 − 2
σ1 σ2 σ1 σ2 σ2 σ2
s2 (σ12 + σ22 ) z 2 2zs

= 2 2 + 2− 2
σ1 σ2 σ2 σ2
s2 (σ12 + σ22 ) σ12 z 2 σ12 z 2 z2 2zs

= 2 2 + 2 2 2 − 2 2 2 + 2 − 2
σ1 σ2 σ2 (σ1 + σ2 ) σ2 (σ1 + σ2 ) σ2 σ2
( )
1 s2 (σ12 + σ22 ) σ12 z 2 1
= 2 2 + 2 2 − 2zs + 2 z2
σ2 σ1 σ1 + σ2 σ1 + σ22
( √ )2
1 s σ12 + σ22 σ1 z 1
= 2 −√ 2 + 2 z2,
σ2 σ1 2
σ1 + σ2 σ1 + σ22
de donde,
[ ( )] [ ( √ )2 ]
s2 [ ]
(z−s)2 s σ12 +σ22
exp − 12 + = exp − 12 σ12 − √ σ21 z 2 exp − 12 1
z2 .
σ12 σ22 2
σ1 σ1 +σ2 σ12 +σ22
- 260 -
Por lo tanto,
[ ( √ )2 ]
1 [ ]∫ ∞
s σ12 +σ22
fX+Y (z) = exp − 21 1
σ12 +σ22
z2 exp − 21 1
σ22 σ1 − √ σ21 z ds.
2πσ1 σ2 −∞ σ1 +σ22
√
s σ12 +σ22
Haciendo el cambio de variables t = σ1 − √ σ21 z 2 , cuyo diferencial es
σ1 +σ2
√ 2 2
σ1 +σ2
dt = σ1 ds, la última integral resulta ser igual a
∫ ∞ [ ] √ ∫ ∞ [ ]
σ1 σ1 1
√ exp − 21 1 2
σ22
t dt = √ 2πσ2 √ exp − 12 1 2
σ22
t dt
−∞ σ1 + σ22 σ12 + σ22 −∞ 2πσ2
σ1 √
=√ 2π σ2 1,
σ12 + σ22
1
ya que √2πσ exp[− 12 1 2
σ22
t ] es la densidad de una normal (0, σ22 ).
2
En consecuencia,
1 [ ] σ1 √
fX+Y (z) = exp − 12 1
σ12 +σ22
z2 √ 2 2πσ2
2πσ1 σ2 σ1 + σ22
1 [ ]
=√ √ 2 2
exp − 21 1
σ12 +σ22
z2 ,
2π σ1 + σ2
o sea X + Y ∼ N (0, σ12 + σ22 ).
El resultado anterior también es válido si las medias no son nulas, es decir, si
X ∼ N (µ1 , σ12 ); Y ∼ N (µ2 , σ22 ) y X e Y son independientes, entonces
X + Y ∼ N (µ1 + µ2 , σ12 + σ22 ).
Para verificarlo basta usar un cambio de variable del tipo u = s − µ1 y repetir el procedi-
miento anterior.
Más aún, inductivamente se verifica que, si X1 , . . . , Xn son independientes y
Xi ∼ N (µi , σi2 ), i = 1, . . . , n, entonces X1 + · · · + Xn ∼ N (µ1 + · · · + µn , σ12 + · · · + σn2 ).
2.5.3 Distribución del cuociente

Sean X e Y variables aleatorias continuas con función de densidad conjunta f y Z la
Y
variable aleatoria cuociente entre X e Y , es decir, Z = X . Similar al caso de la suma de
variables aleatorias continuas, encontremos la función de distribución acumulada de Z y
Y
luego la derivamos para obtener la densidad de X .
Sea ξ real,
FZ (ξ) = P (Z ≤ ξ)
Y
= P(X ≤ ξ)
= P ((X, Y ) ∈ Bξ ),
- 261 -
{ }
donde Bξ = (u, v) ∈ R2 : uv ≤ ξ .
Nótese que, en el caso en que u < 0, uv ≤ ξ equivale a v ≥ ξu, y en el caso en que
u > 0, uv ≤ ξ equivale a que v ≤ ξu. Luego, Bξ se puede escribir como la unión disjunta,
Bξ = Bξ1 ∪ Bξ2 , donde
Bξ1 = {(u, v) ∈ R2 : u < 0 y v ≥ ξu},

Bξ2 = {(u, v) ∈ R2 : u > 0 y v ≤ ξu}.
Las regiones sombreadas de las Figuras 2.5.2 y 2.5.3 muestran al conjunto Bξ1 , según
sea ξ > 0 ó ξ < 0.
v=ξu
Figura 2.5.2: Caso ξ > 0
v=ξu
y las regiones sombreadas de las Figuras 2.5.4 y 2.5.5 muestran al conjunto Bξ2 según sea
ξ > 0 ó ξ < 0.
- 262 -
v=ξu
0 v
Figura 2.5.4: Caso ξ > 0
0 u
v=ξu

Ası́,
FZ (ξ) = P ((X, Y ) ∈ Bξ )
= P ((X, Y ) ∈ Bξ1 ) + P ((X, Y ) ∈ Bξ2 )
∫∫ ∫∫
= f (u, v)dudv + f (u, v)dudv.
Bξ1 Bξ2
Si en las integrales anteriores hacemos el cambio de variables s = u; t = uv , cuyo jacobiano

es
1 0
−1 ( )−1
1
v 1 = = u = s,
− 2 u
u u
se obtiene que
∫∫ ∫ 0 (∫ ∞ )
Bξ1 −∞ ξu
∫ 0 (∫ −∞ )
= sf (s, st)dt ds
−∞ ξ
∫0 (∫ ξ )
= (−s)f (s, st)dt ds
−∞ −∞
- 263 -
y
∫∫ ∫ ∞ (∫ ξu )
Bξ2 0 −∞
∫ ∞ (∫ ξ )
= sf (s, st)dt ds.
0 −∞
Por lo tanto,
∫ 0 (∫ ξ ) ∫ ∞ (∫ ξ )
FZ (ξ) = (−s)f (s, st)dt ds + sf (s, st)dt ds
−∞ −∞ 0 −∞
∫ ξ (∫ 0 ∫ ∞ )
= (−s)f (s, st)ds + sf (s, st)ds dt
−∞ −∞ 0
∫ ξ (∫ ∞ )
= |s|f (s, st)ds dt.
−∞ −∞
Finalmente, derivando (bajo el supuesto de continuidad de f ) respecto de ξ obtenemos

∫ ∞
d
FZ (ξ) = |s|f (s, ξs)ds,
dξ −∞
o sea, ∫ ∞
f X (ξ) = |s|f (s, ξs)ds.
Y
−∞
En particular, si X e Y son independientes,
∫ ∞
f X (ξ) = |s|fX (s)fY (ξs)ds.
Y
−∞
Ejemplo 2.5.4: Sean X e Y variables aleatorias independientes y normales estándar,

es decir, X ∼ N (0, 1); Y ∼ N (0, 1). Entonces,
∫ ∞
1 ( ) 1 ( )
f X (ξ) = |s| √ exp − 12 s2 √ exp − 12 (ξs)2 ds.
Y
−∞ 2π 2π
Como el integrando es una función par,
∫ ∞
1 [ ]
f X (ξ) = 2 · s exp − 21 (1 + ξ 2 )s2 ds.
Y 2π 0
Haciendo el cambio de variable w = s2 , cuyo diferencial es dw = 2sds, se obtiene que
∫ ∞
1 ( )
f X (ξ) = exp − 12 (1 + ξ 2 )w dw
Y 2π 0
∫ ∞
1 1 1 ( 1 )
= · 1 (1 + ξ 2
) exp − 2 (1 + ξ 2
)w dw
2π 2 (1 + ξ 2 ) 0 2
1
= · 1,
π(1 + ξ 2 )
- 264 -
pues el integrando corresponde a la densidad de una distribución exponencial de parámetro

λ = 21 (1 + ξ 2 ).
En consecuencia, X Y tiene distribución Cauchy (0, 1).
Ejemplo 2.5.5: Sean X e Y variables aleatorias independientes, cada una con dis-
tribución exponencial de parámetro 1. Entonces, como X e Y son no negativas,
∫ ∞
f X (ξ) = |s|fX (s)fY (ξs)ds
∫−∞
Y
∞
= sfX (s)fY (ξs)ds.
0
Ahora, si ξ ≤ 0, fY (ξs) = 0, para todo s > 0, o sea,
f X (ξ) = 0, para todo ξ < 0.

Y
En el caso en que ξ > 0,

∫ ∞ ∫ ∞
sfX (s)fY (ξs)ds = s exp(−s) exp(−ξs)ds
0
∫0 ∞
= s exp[−(1 + ξ)s]ds
0
∫ ∞
1 (1 + ξ)2 2−1
= 2
s exp[−(1 + ξ)s]ds
(1 + ξ) 0 Γ(2)
1
= 1,
(1 + ξ)2
pues el integrando corresponde a la densidad de una distribución Gamma (2, 1 + ξ).

En conclusión, 
0, si ξ ≤ 0
f X (ξ) = 1
Y  si ξ > 0
(1 + ξ)2
Ahora queremos ver como calcular la distribución conjunta de un vec-

tor aleatorio continuo del tipo (Z1 , . . . , Zn ), donde Zi = gi (X1 , . . . , Xn ), con
gi : Rn → R, y además se conoce la distribución conjunta de (X1 , . . . , Xn ).
Por ejemplo,
a) Si X1 , X2 son independientes y normales (0, 1), encontrar la distribución del vector

(2X1 + X2 , −3X1 + 5X2 ). En este caso, la distribución conjunta de (X1 , X2 ) es
fX1 ,X2 (u, v) = fX1 (u)fX2 (v)

1 { }
= exp − 12 (u2 + v 2 ) , para todo u, v reales,
2π
- 265 -
las funciones gi , i = 1, 2, son

g1 (u, v) = 2u + v, g2 (u, v) = −3u + 5v,
y
(Z1 , Z2 ) = (2X1 + X2 , −3X1 + 5X2 ).
√
O también, encontrar la densidad del vector (R, θ), con R = X2 + Y 2 y
 (Y )

arctan X si X >0

arctan ( Y ) + π

si X <0
θ= π X

 signo (Y ) si X = 0, Y ̸= 0

 2
0 si X = 0, Y = 0
b) Si X1 , X2 son independientes
( y exponenciales
) de parámetro 1, encontrar la dis-
X1
tribución del vector X1 + X2 , X2 .
En este caso, la densidad conjunta de (X1 , X2 ) es
fX1 ,X2 (u, v) = fX1 (u)fX2 (v)
{
e−(u+v) si u > 0, v > 0
=
0 e.o.c.
las funciones gi , i = 1, 2 son
u
g1 (u, v) = u + v, g2 (u, v) = ,
v
y ( )
X1
(Z1 , Z2 ) = X1 + X2 , .
X2
c) Si X1 , X2 son independientes
√y uniformes (0, 1), encontrar la distribución del vector
( )
(R cos Θ, R sin Θ), con R = 2 ln 1−X 1
1
; Θ = π(2X2 − 1).
En este caso, la densidad conjunta de (X1 , X2 ) está dado por

{
1 si 0 < u < 1, 0 < v < 1
fX1 ,X2 (u, v) =
0 e.o.c.
las funciones gi , i = 1, 2 son definidas por
√ ( )
g1 (u, v) = 2 ln 1−u cos π(2v − 1),
1
√ ( )
g2 (u, v) = 2 ln 1
1−u sin π(2v − 1),
y
(√ √ )
( ) ( )
(Z1 , Z2 ) = 2 ln 1
1−X1 cos π(2X2 − 1), 2 ln 1
1−X1 sin π(2X2 − 1) .
- 266 -
d) Si X1 , X2 son independientes y X1 ∼ Gamma(a, λ), X2 ∼ Gamma(b, λ), encontrar

bX1
la distribución de la variable aleatoria F = aX 2
.
En este caso, la densidad conjunta de (X1 , X2 ) es
fX1 ,X2 (u, v) = fX1 (u)fX2 (v)

{ a
λ
ua−1 e−λu λb
v b−1 e−λv si u > 0, v > 0
= Γ(a) Γ(b)
0 e.o.c.
las funciones gi , i = 1, 2, que se pueden considerar son

bu
g1 (u, v) = , g2 (u, v) = v,
av
y ( )
bX1
(Z1 , Z2 ) = , X2 .
aX2
bX1
Para encontrar la distribución de la variable aleatoria F = aX2 , se calcula la primera
distribución marginal de (Z1 , Z2 ).
El siguiente teorema lo enunciamos en el caso bidimensional, pero al igual que la mayo-

rı́a de los conceptos tratados en esta sección, puede ser extendido al caso n-dimensional,
n > 2, sin más dificultad que las de tipo notacional.
Teorema 2.5.1: (de transformación de variables) Sea (X1 , X2 ) vector aleatorio y

supongamos que:
• (X1 , X2 ) es continuo con densidad conjunta f y G0 es conjunto abierto de R2 tal
que P ((X1 , X2 ) ∈ G0 ) = 1.
• g1 y g2 son funciones de R2 en R y G es un conjunto abierto de R2 , de modo que la
función g : G0 → G definida por g(u, v) = (g1 (u, v), g2 (u, v)) es biyección.
• La inversa (h1 , h2 ) = h = g −1 satisface que el jacobiano es no nulo en todo punto de
G, es decir, para todo (x, y) ∈ G,
∂h1 ∂h1
(x, y) (x, y)
∂x ∂y
J(h(x, y)) = ̸= 0.
∂h2 ∂h2
(x, y) (x, y)
∂x ∂y
Recordar que el jacobiano de g −1 en (x, y) es igual al inverso multiplicativo del

jacobiano de g en (u, v) = h−1 (x, y). Esto es,
−1
∂g1 ∂g1
(u, v) (u, v)
∂u ∂v
J(h(x, y)) = .
∂g2 ∂g2
(u, v) (u, v)
∂u ∂v
- 267 -
Entonces, una densidad para el vector aleatorio (Z1 , Z2 ) = (g1 (X1 , X2 ), g2 (X1 , X2 )) está
dada por {
f (h(x, y))|J(h(x, y))| si (x, y) ∈ G
fZ1 ,Z2 (x, y) =
0 e.o.c.
Demostración: Sea A ⊂ R2 ,
P ((Z1 , Z2 ) ∈ A) = P (g(X1 , X2 ) ∈ A)
= P ((X1 , X2 ) ∈ g −1 (A))
= P ((X1 , X2 ) ∈ h(A))
∫∫
= f (u, v)dudv.
h(A)∩G0
Realizando (en la última integral) el cambio de variables x = g1 (u, v); y = g2 (u, v), cuyo
jacobiano es J(h(x, y)), se obtiene
∫∫ ∫∫
f (u, v)dudv = f (u, v)dudv,
h(A)∩G0 h(A∩G)
∫∫
= f (h(x, y))|J(h(x, y))|dxdy
∫∫ A∩G
= f (h(x, y))|J(h(x, y))|IG (x, y)dxdy,

A
pues h(G) = G0 y g −1 (A) ∩ g −1 (G) = g −1 (A ∩ G).

En consecuencia, “para todo” A ⊂ R2 ,
∫∫
P ((Z1 , Z2 ) ∈ A) = f (h(x, y))|J(h(x, y))|IG (x, y)dxdy,
A
o sea, {
f (h(x, y))|J(h(x, y))| si (x, y) ∈ G
fZ1 Z2 (x, y) =
0 e.o.c.
es una densidad para el vector aleatorio (Z1 , Z2 ).
Ejemplo 2.5.6: Sean X1 , X2 iid N (0, 1), esta notación significa que X1 y X2 son inde-
pendientes (i) y con igual distribución (id) normal (0, 1).
Encontremos una densidad para el vector aleatorio (Z1 , Z2 ) definido por
(2X1 + X2 , −3X1 + 5X2 ).
Por ser X1 , X2 iid N (0, 1), se tiene que, para todo (u, v) ∈ R2 ,
fX1 ,X2 (u, v) = fX1 (u)fX2 (v)

1 { }
= exp − 12 (u2 + v 2 ) ,
2π
de donde
G0 = {(u, v) ∈ R2 : fX1 ,X2 (u, v) > 0} = R2 .
- 268 -
Además, g : G0 → R2 , definida por g(u, v) = (2u + v, −3u + 5v) es función inyectiva y

su recorrido es G = R2 .
( 5+ v; 1 y =3 −3u + x − 13
5 1 3 2
Ası́, si x = 2u 5v,
) entonces u = 13 y y v = 13 x + 13 y, es
decir, h(x, y) = 13 x − 13 y, 13 x + 13 y . Finalmente,
2
5
1
− 13
13
J(h(x, y)) =

3 2
13 13
1
=
13
̸= 0.
Entonces, el teorema de transformación de variables implica que, para todo

(x, y) ∈ G = R2 ,

1
f(2X1 +X2 ,−3X1 +5X2 ) (x, y) = fX1 ,X2 (h(x, y))
13
( )
1 5 1 3 2
= fX ,X x− y, x+ y
13 1 2 13 13 13 13
1 1 { [( )2 ( )2 ]}
= exp − 12 135
x− 1
13 y + 3
13 x+ 2
13 y .
13 2π
( )
2 −3
Nótese que, si A = , entonces
1 5
( )( )( )
t t 2 1 1 0 2 −3
A I2 A = A A =
−3 5 0 1 1 5
( )
5 −1
= ,
−1 34
y det(At A) = 132 .
Además,
 34 1 
 132 132 
(At A)−1 =



1 5
132 132
y
 34 1 
( )2 ( )2
 132 132  5 1 3 2
(x y) 

 (x
 y) =t
x− y + x+ y .
1 5 13 13 13 13
132 132
- 269 -
En consecuencia, para todo (x, y) ∈ R2 ,
1 1 { }
f(2X1 +X2 ,−3X1 +5X2 ) (x, y) = √ √ exp − 12 (x y)Σ−1 (x y)t
( 2π)2 detΣ
( )
5 −1
con Σ = At I2 A = , o sea,
−1 34
(2X1 + X2 , −3X1 + 5X2 ) ∼ N ((0, 0), Σ).
En general, si (X1 , X2 ) ∼ N ((µ1 , µ2 ), Σ) y (Z1 , Z2 ) = (X1 X2 )A, con A matriz de 2 × 2

con determinate no nulo, entonces
(Z1 , Z2 ) ∼ N ((µ1 , µ2 )A, At ΣA).
Ejemplo(2.5.7: Sean) X1 , X2 iid exp(1). Encontremos una densidad para el vector

aleatorio X1 + X2 , X
X2 .
1
Por ser X1 , X2 iid exp(1),
fX1 ,X2 (u, v) = fX1 (u)fX2 (v)
{
exp[−(u + v)] si u > 0, v > 0
=
0 e.o.c.
y
G0 = {(u, v) ∈ R2 : fX1 ,X2 (u, v) > 0} = R2+ .
( )
Además, g : G0 → R2 , definida por g(u, v) = u + v, uv es función inyectiva.
xy
De esta forma, si x = u + v; y = uv , entonces u = y+1 y v = y+1x
, de donde el
( )
xy
recorrido de g es G = R2+ y h(x, y) = y+1 , y+1 .
x
Finalmente, para todo (x, y) ∈ G = R2+ ,
y x
y+1 (y + 1)2
J(h(x, y)) =
1 −x
y+1 (y + 1)2
−xy x
= 3
−
(y + 1) (y + 1)3
x
=−
(y + 1)2
̸= 0.
- 270 -
Observar que
∂ ∂
(u + v) (u + v) 1 1
∂u ∂v
=
∂ (u) ∂ (u) 1
−
u
∂u v ∂v v v v2
u 1
=− −
v2 v
−(u + v)
=
v2
1
= −x .
(y+1)2
Por lo tanto, teorema de transformación de variables implica que


f −x

X1 ,X2 (h(x, y))
si (x, y) ∈ G = R2+
f( )
X1 (x, y) = (y + 1)2
X1 +X2 , X 
2 0 e.o.c.
 ( ) x
fX xy x
1 ,X2 y+1 , y+1 (y + 1)2
si x > 0, y > 0
=
0 e.o.c.
[ ( )] x
 exp − xy
− x
si x > 0, y > 0
y+1 y+1 (y + 1)2
=
0 e.o.c.
x
 exp(−x) si x > 0, y > 0
2
= (y + 1)
0 e.o.c.
Nótese que
f( X
) (x, y) = fX1 +X2 (x)f X1 (y)
X1 +X2 , X1 X2
2
con
{
x exp(−x) si x > 0
fX1 +X2 (x) =
0 e.o.c.
y 
1
si y > 0
f X1 (y) = (1 + y)2
X2 
0 e.o.c.
X1
O sea, X1 + X2 y X2 son independientes.
- 271 -
Ejemplo 2.5.8: Sea (X1 , X2 ) vector aleatorio con densidad conjunta dada por
{
120 u (v − u) (1 − v) si 0 < u < v < 1
fX1 ,X2 (u, v) =
0 e.o.c.
Verifiquemos que las variables aleatorias X

X2 y X2 son independientes.
1
X1
Para verificar la independencia encontremos la densidad conjunta del vector ( X 2
, X2 ).
En este caso G0 = {(u, v) ∈ R2 : fX1 ,X2 (u, v) > 0} = {(u, v) ∈ R2 : 0 < u < v < 1} y la
función g : G0 → R2 definida por g(u, v) = ( uv , v) es inyectiva. Además, si x = uv ; y = v,
entonces u = xy; v = y, de donde el recorrido de g es G = {(x, y) : 0 < xy < y < 1} =
]0, 1[×]0, 1[ y h(x, y) = (xy, y).
Finalmente, para todo (x, y) ∈ G,
y x
J(h(x, y)) =
0 1
=y
̸= 0.
En consecuencia, el teorema de transformación de variables implica que

{
fX1 ,X2 (h(x, y)) |y| si (x, y) ∈ G
f( X1 ,X ) (x, y) =
X2 2 0 e.o.c.
{
y fX1 ,X2 (xy, y) si 0 < x < 1 , 0 < y < 1
=
0 e.o.c.
{
y 120 x y (y − xy) (1 − y) si 0 < x < 1 , 0 < y < 1
=
0 e.o.c.
{
6 x (1 − x) 20 y 3 (1 − y) si 0 < x < 1 , 0 < y < 1
=
0 e.o.c.
= f X1 (x) fX2 (y),

X2
con {
6 x (1 − x) si 0 < x < 1
f X1 (x) =
X2 0 e.o.c.
y {
20 y 3 (1 − y) si 0 < y < 1
fX2 (y) =
0 e.o.c.
X1
Por lo tanto, X2 y X2 son independientes.
- 272 -
Ejemplo
√ 2.5.9: Sean X, Y variables aleatorias iid U (0, 1). Supongamos que definimos
( )
1
R = 2 ln 1−X y Θ = π(2Y − 1).
(a) Verifiquemos que Θ tiene distribución uniforme sobre ] − π, π[ y R distribución

Rayleigh, es decir, la densidad de R es:
{ r2
re− 2 si r > 0
fR (r)
0 e.o.c.
(b) Mostremos que Z y W son iid N (0, 1), donde Z = R cos Θ y W = R sin Θ.
Observación 2.5.1: Este resultado es de interés en la simulación de variables aleatorias

independientes y normales, pues indica como transformar números “pseudo aleatorios”
(simulación de variables aleatorias independientes U (0, 1) generadas por el computador).
En efecto,
(a) Sea r > 0. Desde que P (1 − X > 0) = 1, resulta que
(√ )
( )
FR (r) = P (R ≤ r) = P 2 ln 1
1−X ≤r
( ( ) r2 )
= P ln 1−X ≤
1
2
( 2
)
− r2
=P e ≤1−X
( 2
)
− r2
=P X ≤1−e .
2
( 2
)
− r2 − r2
= 1 − e−r , o sea,
2
Pero, 0 < 1 − e < 1, por lo que P X ≤ 1 − e
{
0 si r ≤ 0
FR (r) = 2
− r2
1−e si r > 0
Como FR es continua y derivable (salvo posiblemente en r = 0), entonces

{
0 si r ≤ 0
fR (r) = r2
re− 2 si r > 0.
θ
π+1
También, para θ ∈] − π, π[, 0 < ≤ 1, por lo que
2
- 273 -
( )
FΘ (θ) = P (Θ ≤ θ) = P 2Y − 1 ≤ πθ
( )
θ
+1
=P Y ≤ 2 π
θ 1
= + .
2π 2
Además, FΘ (θ) = 0 si θ ≤ −π y FΘ (θ) = 1 si θ > π (pues en el primer caso

θ θ
+1 +1
π
2 ≤ 0 y en el segundo π
2 > 1). En resumen,


 si θ ≤ −π
0 θ
+1
FΘ (θ) =

π
si − π < θ < π

1
2
si θ ≥ π
Como FΘ es continua y derivable (salvo posiblemente en θ = −π y θ = π), entonces

{
1
si − π < θ ≤ π
fΘ (θ) = 2π
0 e.o.c.
√ ( )
1
(b) Las variables aleatorias X, Y son independientes, luego 2 ln 1−X y
π(2Y − 1) son independientes. Por lo tanto,
{ 2
r − r2
2π e si r > 0, −π < θ ≤ π
fR,Θ (r, θ) = fR (r) fΘ (θ) =
0 e.o.c.
Sean G0 = {(r, θ) ∈ R2 : r > 0, −π < θ < π} y G = R2 . Entonces, la función

g : G0 → G definida por g(r, θ) = (r cos(θ), r sin(θ)) es una biyección (para pro-
bar la epiyectividad
√ de g puede usarse el teorema de la función implı́cita), además
−1 2 2
g (a, b) = ( a + b , h(a, b)) con:
( )
h(a, b) = arctan ab si a > 0 , b ≥ 0,
(b) π
h(a, b) = arctan a + 2 si a < 0 , b > 0,
(b)
h(a, b) = − arctan a si a > 0 , b < 0,
(b) π
h(a, b) = − arctan a − 2 si a < 0 , b < 0,
h(a, b) = π2 signo(b) si a = 0 , b ̸= 0,
h(0, 0) =0.
Además, el jacobiano de g −1 en todo punto (a, b) ∈ G es igual a √ 1

a2 +b2
, lo cual es
diferente de cero.
Por último, (Z, W ) = g(R, Θ), por lo que teorema de transformación de variables
aleatorias implica
- 274 -
 √
√ 1 fR,Θ ( a2 + b2 , h(a, b)) si a ∈ R, a ̸= 0, b ∈ R
fZ,W (a, b) = a2 + b2

0 si a = 0
 √

√ 1 a2 + b2 − 1 (a2 +b2 )
e 2 si a ∈ R, a ̸= 0, b ∈ R
= a 2 + b2 2π

0 si a = 0

 √1 e− 12 a2 √1 e− 12 b2 si a ∈ R, a ̸= 0, b ∈ R
= 2π 2π

0 si a = 0
O sea, las variables aleatorias Z, W son iid N (0, 1). Notar que la densidad de Z
difiere de la densidad normal(0,1) sólo en el punto 0, por este motivo la distribución
de Z no cambia.
Nota: El Teorema 2.5.1 puede extenderse al caso en que la función g no es inyectiva.

Véase, por ejemplo, [7].
- 275 -
PROBLEMAS
Problema 2.5.A: Sea (X, Y ) vector aleatorio bidimensional con función de densidad
conjunta dada por {
c xy si (x, y) ∈ A
f(X,Y ) (x, y) =
0 e.o.c.
donde A es como en la figura siguiente
2
y=x
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
1
0
111111111111
000000000000
A 1
0
111111111111
000000000000
1
0
111111111111
000000000000
1 x
Figura 2.5.6
a) Encuentre el valor de la constante c.

Y
b) Encuentre la densidad conjunta f(U,V ) , donde U = X 2 , V = X.
Problema 2.5.B: La verdadera duración de un cierto artı́culo (en horas) es una variable
aleatoria T con distribución exponencial de parámetro 0.4. Al medir T se comete un error
X, que puede suponerse distribuido uniformemente en el intervalo ] − 0.01 hr, 0.01 hr[ e
independiente de T . Encuentre la distribución de la duración observada del artı́culo.
Problema 2.5.C: Suponga que n máquinas (n ≥ 2), idénticas y que funcionan indepen-
dientemente, se ponen en marcha al mismo tiempo. Asuma que el tiempo que transcurre
hasta que la máquina i, 1 ≤ i ≤ n , falle es una variable aleatoria Xi con distribución
exponencial de parámetro λ (si la máquina falla, queda fuera de servicio).
Sea Yi , 1 ≤ i ≤ n , el instante en que se produce la i-ésima falla. Por ejemplo,
Y1 = min{X1 , . . . , Xn } e Yn = max{X1 , . . . , Xn }.
Se puede probar que
{
n! λn e−λ(y1 +···+yn ) si 0 < y1 < · · · < yn
f(Y1 ,...,Yn ) (y1 , . . . , yn ) =
0 e.o.c.
a) Encuentre una densidad conjunta para los tiempos que transcurren entre cada falla.
b) ¿Estos tiempos son independientes?
c) ¿Cuál es la distribución de estos tiempos?
d) Encuentre la distribución del tiempo transcurrido entre la primera y la última falla.
- 276 -
Problema 2.5.D: Sean Z, W variables aleatorias independientes, con distribución expo-

nencial de parámetro λ. Pruebe que la variable aleatoria que representa la distancia entre
Z y W , esto es, max{Z, W } − min{Z, W }, tiene distribución exponencial.
Problema 2.5.E: Tres personas A, B y C llegan al mismo instante a una caseta de

teléfono (con dos teléfonos). Los dos teléfonos son ocupados inmediatamente por A y B.
La persona C reemplazará a la primera que termine de hablar.
Sean X1 , X2 y X3 las variables aleatorias correspondientes a los tiempos que hablan por
teléfono A, B y C, respectivamente (se supone que las personas se retiran de la caseta una
vez que terminaron de hablar). Asuma que estas variables aleatorias son independientes
con distribución exponencial de parámetro α.
a) Calcule P (max{X1 , X2 } − min{X1 , X2 } < X3 ).
b) Encuentre una densidad para la variable aleatoria T = min{X1 , X2 } + X3 .
c) ¿Qué representa la probabilidad calculada en a) ?, ¿qué representa la variable aleato-

ria T ?
Problema 2.5.F: Sean X, Y variables aleatorias iid con densidad común

{ 1
x2
si x ≥ 1
f (x) =
0 e.o.c.
X
a) Halle la densidad conjunta del vector aleatorio (U, V ), donde U = XY , V = Y .
b) ¿U y V son independientes?
Problema 2.5.G: Sea (X, Y ) vector aleatorio bidimensional con densidad conjunta dada
por
{
120 x (y − x) (1 − y) si 0 < x < y < 1
f(X,Y ) (x, y) =
0 e.o.c.
Recuerde que una variable aleatoria Z tiene distribución Beta con parámetros α, β, se
anota Z ∼ Beta(α, β), si la función de densidad de Z es
{
Γ(α+β) α−1
Γ(α) Γ(β) z (1 − z)β−1 si 0 < z < 1
fZ (z) =
0 e.o.c.
a) Verifique que Y tiene densidad Beta(α1 , β1 ), indicando los valores de los parámetros
α1 y β1 .
b) Demuestre que P (X ≤ zY ) = 3z 2 − 2z 3 , siendo z un número fijo con valor entre 0

y 1.
X
c) Pruebe, usando b), que Y tiene distribución Beta(α3 , β3 ), indicando los valores de
los parámetros α3 y β3 .
- 277 -
X
d) Demuestre que Y e Y son independientes.
Problema ( 2.5.H:( )) Sea (X, Y ) vector aleatorio normal bivariado tal que
1ρ
(X, Y ) ∼ N (0, 0), ρ 1 , con −1 < ρ < 1. Calcule P (X ≥ 0 , Y ≥ 0).
Problema 2.5.I: Sea (X, Y ) vector aleatorio con distribución normal bivariada y forma
cuadrática asociada
Q(x, y) = x2 + 2y 2 − xy − 3x − 2y + 4.
a) Escriba la densidad conjunta f(X,Y ) .
b) Determine fX .
Problema 2.5.J: Sea (X, Y, Z) vector aleatorio con distribución normal trivariada, tal
que (X, Y, Z) ∼ N (µ, Σ), con
 
∑ 3.5 0.5 −1
µ = (0, 0, 0) y = 0.5 0.5 0 .
−1 0 0.5
a) Encuentre una densidad conjunta para el vector aleatorio (U, V, W ), donde
U = Y + Z, V = X + Z, W = X + Y.
b) Encuentre la distribución de U y de (V, W ). ¿Son independientes U y (V, W )?
Problema 2.5.K: Sean X1 , . . . , Xn (n ≥ 2), variables aleatorias iid N (0, 1),

µ = (µ1 , . . . , µn ) vector n-dimensional y A matriz real de orden n × n.
 
a11 a12 ... a1n
 a21 a22 ... a2n 
 
A= . .. .. .. 
 .. . . . 
an1 an2 ... ann
Considere las variables aleatorias Yj , j = 1, . . . , n, definidas por
Yj = a1j X1 + a2j X2 + · · · + anj Xn + µj .
En notación matricial podemos escribir,
(Y1 Y2 . . . Yn )1×n = (X1 X2 . . . Xn )1×n A + (µ1 µ2 . . . µn )1×n .
- 278 -
Verifique que:
a) Si la matriz A es invertible y Σ = At A ( es decir, Σ es invertible y
Σ−1 = A−1 (A−1 )t ), entonces una densidad para el vector aleatorio (Y1 , . . . , Yn ) está
dada por
( )n
1 1
f(Y1 ,...,Yn ) (y1 , . . . , yn ) = √ √ exp{(y − µ)Σ−1 (y − µ)t }, y ∈ Rn ,
2π detΣ
donde y = (y1 , . . . , yn ) y µ = (µ1 , . . . , µ).
b) Si A es matriz ortogonal, es decir, At A es una matriz diagonal, con elementos dia-

gonales estrictamente positivos, digamos σ12 , σ22 , . . . , σn2 , es decir,
 2 
σ1 0 0 ... 0
 0 σ2 0 . . . 0 
 2 
 
At A =  0 0 
 .. .. 
 . . 
0 0 ... σn2
entonces Y1 , . . . , Yn son independientes y Yj ∼ N (µj , σj2 ).

En el caso en que A es matriz ortonormal, es decir Σ = At A = In (caso particular de
matriz ortogonal), entonces las variables aleatorias Y1 , . . . , Yn son independientes y
Yj ∼ N (µj , 1). En este caso, también se cumple que
∑
n
∥(ai1 , ai2 , . . . , ain )∥2 = a2ij = σi2 = 1.
j=1
Problema 2.5.L: Sean X, Y variables aleatorias independientes, tales que X ∼ N (0, 1),
Y ∼ χ2 (n), n ≥ 1 . Pruebe que la variable aleatoria Z = √XY tiene distribución t−student
n
con n grados de libertad.
Problema 2.5.M: Sean X, Y variables aleatorias independientes tal que X ∼ G(a, λ),
Y ∼ G(b, λ).
bX
a) Halle una densidad para la variable aleatoria F = aY .
b) Suponga ahora que X ∼ χ2 (n) y Y ∼ χ2 (m). Encuentre la distribución de la

X
variable aleatoria n
Y . Esta distribución es conocida como Fisher y denotada F (n, m).
m
Problema 2.5.N: Sean Z1 , . . . , Zn (n ≥ 2), variables aleatorias iid N (µ, σ 2 ). Verifique

que
(n − 1)S 2
∼ χ2(n−1) ,
σ2
1 ∑
n
donde S 2 = n−1 (Zi − Z̄)2 , es decir, S 2 la varianza muestral asociada a Z1 , . . . , Zn .
i=1
- 279 -
Problema 2.5.O: Sean X1 , . . . , Xr , r ≥ 2, variables aleatorias iid N (µ, σ 2 ). Pruebe que
X̄ − µ
S
∼ t(r−1) ,
√
r
1∑ 1 ∑
r r
con X̄ = Xi y S 2 = (Xi − X̄)2 .
r r−1
i=1 i=1
2 ) e Y ,...,Y
Problema 2.5.P: Sean X1 , . . . , Xn variables aleatorias iid N (µX , σX 1 m va-
2 2 2
riables aleatorias iid N (µY , σY ). Asuma que Xi e Yj son independientes y σX = σY .
Encuentre la distribución de la variable aleatoria

2
SX
Q= ,
SY2
∑n ∑m
2 =
donde SX 1
n−1 i=1 (Xi − X̄)2 y SY2 = 1
m−1 i=1 (Yi − Ȳ )2 .
Problema 2.5.Q: Sea (X1 , X2 ) vector aleatorio continuo tal que (X1 , X2 ) ∼ N (µ, Σ),
con ( 2 )
σ1 ρσ1 σ2
µ = (µ1 , µ2 ) , Σ=
ρσ1 σ2 σ22
y σ1 > 0, σ2 > 0, |ρ| < 1.
Asuma que (Y1 , Y2 ) es otro vector aleatorio que satisface las relaciones
√
X1 = µ1 + σ1 Y1 , X2 = µ2 + σ2 ρY1 + σ2 1 − ρ2 Y2 .
Encuentre la distribución de (Y1 , Y2 ).
Problema 2.5.R: Dos mediciones independientes de la masa de un objeto, son realizadas

con una balanza. Las mediciones se representan por:
Z i = m0 + ε i , i = 1, 2,
donde m0 es la masa que se desea medir y los errores de medición ε1 y ε2 son variables
aleatorias normales e independientes, de media cero y desviación estándar σ.
a) Verificar que si T = 12 (Z1 − Z2 )2 entonces E(T ) = σ 2 .
b) Si la precisión nominal de la balanza es σ = 0.01 gr, calcular P (T > 0.012 ).
- 280 -
2.6. ESPERANZA DE FUNCIONES DE VECTORES ALEATORIOS
2.6 Esperanza de Funciones de Vectores Aleatorios
A menudo es necesario calcular la esperanza de la variable aleatoria

Y = g(X1 , . . . , Xn ), donde (X1 , . . . , Xn ) es un vector aleatorio n-dimensional y g es una
función fija, de Rn en R. Por ejemplo, si n = 2 y g(u, v) = u + v, lo que se quiere calcular
es E(X1 + X2 ), y si g(u, v) = u v, lo que se quiere calcular es E(X1 X2 ). En general, para
encontrar E(Y ) como en los casos anteriores, no es necesario conocer la función de cuantı́a
(o función de densidad) de Y , lo que se refleja en el siguiente teorema.
Teorema 2.6.1: Sea (X1 , . . . , Xn ) vector aleatorio, g : Rn → R función e Y la variable

aleatoria definida por Y = g(X1 , . . . , Xn ), que se asume con esperanza finita.
a) Si las Xi son discretas y la función de cuantı́a conjunta de (X1 , . . . , Xn ) es p, en-

tonces
∑ ∑
E(g(X1 , . . . , Xn )) = ··· g(u1 , . . . , un )p(u1 , . . . , un ),
u1 ∈RecX1 un ∈RecXn
Para el caso n = 2 resulta que

∑ ∑
E(g(X1 , X2 )) = g(u, v)p(u, v).
u∈RecX1 v∈RecX2
b) Si las Xi son continuas y la función de densidad conjunta de (X1 , . . . , Xn ) es f ,

entonces
∫ +∞ ∫ +∞
E(g(X1 , . . . , Xn )) = ··· g(u1 , . . . , un )f (u1 , . . . , un )du1 · · · dun ,
−∞ −∞
Para el caso n = 2 resulta que

∫ +∞ ∫ +∞
E(g(X1 , X2 )) = g(u, v)f (u, v)dudv.
−∞ −∞
La demostración de este teorema es similar a la del caso unidimensional (véase Proposición

2.1.2) y escapa a los objetivos de este texto.
Ejemplo 2.6.1: Sea (X, Y ) vector aleatorio discreto con función de cuantı́a conjunta
dada por la tabla siguiente.
XY −2 −1 1 2
−1 1/36 2/36 3/36 4/36
1 5/36 6/36 7/36 8/36
Tabla 2.6.1
- 281 -
Entonces,
( ) ∑ ∑
Y2 v2
E = p(u, v)
X u
u∈{−1,1} v∈{−2,−1,1,2}
(−2)2 1 (−1)2 2 12 3 22 4
= · + · + · + ·
−1 36 −1 36 −1 36 −1 36
(−2)2 5 (−1)2 6 12 7 22 8
+ · + · + · + ·
1 36 1 36 1 36 1 36
30
=
36
5
= .
6
Ejemplo 2.6.2: Sea (X, Y ) vector aleatorio continuo con densidad conjunta f dada
por
{
10 u v si 0 < u < 1, 0 < v < u2
f (u, v) =
0 e.o.c.
Entonces,
∫ +∞ ∫ +∞
E((X + Y )2 ) = (u + v)2 f (u, v)dudv
−∞ −∞
∫ 1 [∫ u2
]
= (u + v)2 10uvdv du
0 0
∫ [ ∫ ∫ ∫ ]
1 u2 u2 u2
3 2 2 3
= 10 u vdv + 2u v dv + u v dv du
0 0 0 0
∫ 1( 7 )
u 2 u9
= 10 + u8 + du
0 2 3 4
= 1.62.
Ejemplo 2.6.3: Sean X e Y variables aleatorias independientes, con X ∼ exp(α) e

Y ∼ exp(β). Entonces,
∫ +∞ ∫ +∞
E(min{X, Y }) = min{u, v}fX,Y (u, v)dudv.
−∞ −∞
- 282 -
Además,
fX,Y (u, v) = fX (u) fY (v)
{
αβ exp(−αu − βv) si u > 0, v > 0
=
0 e.o.c
y como
{
v si v ≤ u
min{u, v} =
u si v > u
entonces,
∫ ∞∫ ∞
E(min{X, Y }) = min{u, v} αβe−αu−βv dvdu
0 0
∫ ∞ [∫ u ] ∫ ∞ [∫ ∞ ]
−αu−βv −αu−βv
= vαβe dv du + uαβe dv du.
0 0 0 u
También, usando integración por partes, resulta que

∫ ∞ ( )
−λx 1 1
xe dx = + a e−λa
a λ λ
y
∫ b ( ) ( )
−λx 1 1 −λa 1 1
xe dx = +a e − + b e−λb ,
a λ λ λ λ
de donde
∫ u ∫ u
−αu−βv
vαβe dv = αβe−αu ve−βv dv
0 0
[ ( ) ( ) ]
1 1 1 1
= αβe−αu + 0 e−β·0 − + u e−βu
β β β β
α −αu α −(α+β)u
= e − e − αue−(α+β)u .
β β
Por lo tanto,
∫ ∞ [∫ u ] ∫ ∞ ∫ ∞ ∫ ∞
−αu−βv α −αu α −(α+β)u
vαβe dv du = e − e du − α ue−(α+β)u du
0 0 β 0 β 0 0
[ ( ) ]
1 α 1 1 −(α+β)·0
= − −α +0 e
β β(α + β) α+β α+β
1 α α
= − − .
β β(α + β) (α + β)2
- 283 -
Por otra parte,

∫ ∞ [∫ ∞ ] ∫ ∞ (∫ ∞ )
−αu−βv −αu −βv
uαβe dv du = αβue e dv du
0 u 0 u
∫ ∞
1
= αβue−αu e−βu du
0 β
( )
1 1
= α + 0 e−(α+β)·0
α+β α+β
α
= ,
(α + β)2
por lo que
1 α α α
E(min{X, Y }) = − − 2
+
β β(α + β) (α + β) (α + β)2
1
= .
α+β
Observemos que este mismo resultado se obtiene a partir del Ejemplo 2.2.15, ya que
min{X, Y } ∼ exp(α + β).
Ejemplo 2.6.4: Sean X e Y variables aleatorias iid U (0, 1). Entonces,
fX,Y (u, v) = fX (u)fY (v)

{
1 si 0 u
se deduce que,
∫ ∞ ∫ ∞
E(max{X, Y }) = max{u, v}fX,Y (u, v)dvdu
−∞ −∞
∫ 1∫ 1
= max{u, v}dvdu
0 0
∫ 1 (∫ u ) ∫ 1 (∫ 1 )
= udv du + vdv du
0 0 0 u
∫ 1 ∫ 1
1
= 2
u du + (1 − u2 )du
0 2 0
2
= .
3
- 284 -
En forma análoga, se obtiene que E(min{X, Y }) = 13 .
Ejemplo 2.6.5: Sean X e Y variables aleatorias independientes, ambas uniformes

sobre (1, 2). Entonces,
∫ ∞
E(X) = ufX (u)du
−∞
∫ 2
= u · 1 du
1
3
= .
2
E(X)
También, por tener Y igual distribución que X, resulta que E(Y ) = 32 , de donde E(Y ) = 1.
Por otra parte,
∫ ∞∫ ∞
(X ) u
E Y = fX,Y (u, v)dv
−∞ −∞ v
∫ ∞ ∫ ∞
u
= fX (u)fY (v)dudv
−∞ −∞ v
∫ 2∫ 2
u
= · 1 · 1 dudv
1 1 v
∫ 2( ∫ 2 )
1
= u dv du
1 1 v
∫ 2
= u(ln(2) − ln(1))du
1
1
= (ln 2)[22 − 12 ]
2
3
= ln 2.
2
(X ) E(X)
En consecuencia, E Y ̸= E(Y ) , aunque X e Y sean independientes.
Ejemplo 2.6.6: Un alambre de largo unitario se corta aleatoriamente en dos lugares.

¿Cuál es el largo promedio del trozo de alambre que queda al medio?
Si U1 , U2 son los largos del primer y último trozo, respectivamente, entonces (por las
condiciones del problema), podemos suponer que U1 y U2 son variables aleatorias indepen-
dientes y uniformes (0, 1).
El largo del trozo de alambre que queda al medio resulta ser igual a
max{U1 , U2 } − min{U1 , U2 } = |U1 − U2 | (por ser aleatorios los cortes, no se sabe si el
largo del primer trozo será mayor o menor que el largo del último).
- 285 -
Luego, ∫ ∫
∞ ∞
E(|U1 − U2 |) = |u − v| fU1 ,U2 (u, v)dvdu
−∞ −∞
∫ 1∫ 1
= |u − v| dvdu.
0 0
Pero, {
u−v si v≤u
|u − v| =
v−u si v≥u
de donde
∫ 1∫ 1 ∫ 1 (∫ u ) ∫ 1 (∫ 1 )
|u − v| dvdu = (u − v)dv du + (v − u)dv du
0 0 0 0 0 u
∫ 1( )
1
= u −u+ 2
du
0 2
1
= .
3
Notar que, del Ejemplo 2.6.4,
2 1
E( max{U1 , U2 } ) − E( min{U1 , U2 } ) = −
3 3
1
=
3
= E( |U1 − U2 | ).
Ejemplo 2.6.7: En algunos casos, para calcular E(g(X1 , . . . , Xn )), resulta más conve-
niente encontrar la distribución de probabilidad de la variable aleatoria
g(X1 , . . . , Xn ), en lugar de usar el Teorema 2.6.1. Por ejemplo, sean X1 , . . . , Xn , va-
riables aleatorias iid U (0, θ). Calculemos E(Y ), donde Y = max{X1 , . . . , Xn }, es decir,
Y = g(X1 , . . . , Xn ) con g(u1 , . . . , un ) = max{u1 , . . . , un }.
Primeramente encontremos FY (y), para todo y real.
FY (y) = P (Y ≤ y)
= P (max{X1 , . . . , Xn } ≤ y)
= P (X1 ≤ y, . . . , Xn ≤ y).
Pero, X1 , . . . , Xn son iid U (0, θ), entonces
P (X1 ≤ y, . . . , Xn ≤ y) = (P (X1 ≤ y))n

(∫ y )n
= fX1 (u)du
−∞
- 286 -
(∫ y )n

 1

 du si 0 < y < θ

 0 θ
= 0n si y ≤ 0

( ∫ 0 ∫ ∫ )n


θ
1 y

 0du + du + 0du si y ≥ θ
−∞ 0 θ θ

 1 n

 θn y si 0 < y < θ
= 0 si y ≤ 0



1 si y ≥ θ
Como FY es función continua y derivable (salvo posiblemente en y = 0; y = θ), entonces
una densidad para Y está dada por

 d F (y) si la derivada existe
Y
fY (y) = dy

0 e.o.c
{n
n
y n−1 si 0 < y < θ
= θ
0 e.o.c
Ası́,
E(max{X1 , . . . , Xn }) = E(Y )
∫ ∞
= yfY (y)dy
−∞
∫ θ
n n−1
= y y dθ
0 θn
n
= θ.
n+1
Una de las propiedades más usadas de la esperanza, es que es una operación lineal, lo
que se describe en el siguiente teorema.
Teorema 2.6.2: Sean X1 , . . . , Xn , variables aleatorias con densidad conjunta f (en el

caso continuo), o función de cuantı́a conjunta p (en el caso discreto) y de modo que E(Xi )
existe, para todo i.
Entonces, para todo a, a1 , . . . , an , reales,
( )
∑
n ∑
n
E a+ ai Xi =a+ ai E(Xi ).
i=1 i=1
Demostración: Verificamos el caso continuo con n = 2.
- 287 -
∑
2
Como a + ai Xi = g(X1 , X2 ), con g : R2 → R, definida por
i=1
g(u, v) = a + a1 u + a2 v, entonces
( ) ∫ ∫
∑
2 ∞ ∞
E a+ ai Xi = g(u, v)f (u, v)dudv
i=1 −∞ −∞
∫ ∞ ∫ ∞
= (a + a1 u + a2 v)f (u, v)dudv
−∞ −∞
∫ ∞ ∫ ∞ ∫ ∞ ∫ ∞
= a f (u, v)dudv + a1 uf (u, v)dudv
−∞ −∞ −∞ −∞
∫ ∞ ∫ ∞
+a2 vf (u, v)dudv.
−∞ −∞
La primera integral doble de esta última expresión vale 1, pues es la integral doble de
una densidad bidimensional. La segunda integral doble puede ser evaluada de la siguiente
forma:
∫ ∞∫ ∞ ∫ ∞( ∫ ∞ )
uf (u, v)dudv = u f (u, v)dv du
−∞ −∞ −∞ −∞
∫ ∞
= ufX1 (u)du
−∞
= E(X1 ).
De manera similar, la tercera integral doble toma el valor E(X2 ). Ası́,

( )
∑2
E a+ ai Xi = a · 1 + a1 E(X1 ) + a2 E(X2 )
i=1
= a + a1 E(X1 ) + a2 E(X2 ).
( )
∑
2
La existencia de E a + a i Xi está garantizada debido a que
i=1
|a + a1 u + a2 v| ≤ |a| + |a1 | |u| + |a2 | |v| ,
y al supuesto que, para cada i, E(Xi ) existe.
Ejemplo 2.6.8: Supongamos que un número “grande” n, de muestras de cierto tipo

de material que es usado en la construcción, debe ser testeado. El test determina si el
material da negativo o positivo en relación a cierta caracterı́stica en estudio. Asumamos
que las n muestras son agrupadas en m grupos de k muestras cada uno, esto es, n = mk
(los m grupos podrı́an corresponder a m plantas distintas donde se produce el material que
se estudia). Cada uno de los m grupos se analizará de la siguiente forma:
- 288 -
Cada una de las k muestras del grupo, se parte por la mitad y una de las mitades
se coloca en una bandeja, ahora la bandeja con las k mitades es sometida a un test.
Asumamos que el test es suficientemente sensitivo a la caracterı́stica en estudio, esto
significa que si el test arroja un resultado negativo para alguna de las k mitades, entonces
suponemos que si a cada una de las k muestras en la bandeja se les realizara el test
individualmente, darı́a también negativo. Por lo cual, en este caso, sólo un test serı́a
necesario hacer.
En caso contrario, es decir, si el test realizado a la bandeja arroja resultado positivo,
entonces se realiza el test a cada una de las k mitades que no fueron puestas en la bandeja,
por lo cual, en este caso, es necesario hacer k + 1 test (uno a la bandeja y k por cada una
de las mitades no incluidas en la bandeja).
Se asume que en cualquier test que se realize, la probabilidad de obtener resultado
negativo es p.
Además, si Xi , i = 1, . . . , m, representa el número de test ∑ efectuados en el
i-ésimo grupo, entonces el número total de test efectuados es N = m i=1 Xi , y el número
total de test que se espera realizar es
∑
m
E(N ) = E(Xi ).
i=1
Pero, para cada i ∈ {1, . . . , m}, RecXi = {1, k + 1} y
pXi (1) = pk , pXi (k + 1) = 1 − pk ,
de donde
E(Xi ) = 1 pk + (k + 1)(1 − pk ).
En consecuencia,
∑
m
E(N ) = E(Xi )
i=1
∑
m
= pk + (k + 1) (1 − pk )
i=1
= m (pk + (k + 1) (1 − pk ))
= m (−k pk + k + 1)
= −m k pk + m k + m
= −n pk + n + n
k ( pues n = m k)
( )
= n 1+ 1
k − pk .
Por ejemplo, si cada grupo contiene k = 10 muestras y la probabilidad de obtener resultado

negativo en cualquier test es p = 0.95, entonces el número esperado de test que se deberı́an
- 289 -
1
realizar es de n (1 + 10 − (0.95)10 ) ≈ n 0.5. Es decir, con este método se espera realizar la
mitad del total de tests que en un principio deberı́an hacerse.
2.6.1 Covarianza y correlación

La varianza de una variable aleatoria es la medida de su variabilidad, y la covarianza de dos
variables aleatorias es la medida de su variabilidad conjunta, o su grado de asociación. En
este punto, después de definir la covarianza, desarrollaremos algunas de sus propiedades y
discutiremos otra medida de asociación llamada correlación, la cual es definida en términos
de la covarianza.
Definición 2.6.1: Sean X e Y variables aleatorias. Supongamos que la distribución

conjunta de (X, Y ) existe y que V ar(X); V ar(Y ) también existen. Entonces, la covarianza
entre X e Y se define como el número real
Cov(X, Y ) = E((X − E(X))(Y − E(Y ))).
Es claro que Cov(X, Y ) = Cov(Y, X) y además, usando la linealidad de la esperanza se
obtiene la siguiente expresión alternativa para la covarianza entre X e Y :
Cov(X, Y ) = E(X Y − E(Y ) X − E(X) Y + E(X) E(Y ))
= E(XY ) − E(Y ) E(X) − E(X) E(Y ) + E(X) E(Y )
= E(XY ) − E(X) E(Y ).

En particular, si X e Y son independientes, entonces E(XY ) = E(X) E(Y ), de donde
Cov(X, Y ) = 0. El recı́proco, en general, no es cierto, es decir, si se tiene que
Cov(X, Y ) = 0, no se puede concluir que X e Y sean independientes.
Ejemplo 2.6.9: Sea (X, Y ) vector aleatorio continuo con distribución uniforme sobre
el disco unitario, es decir,
{ 1
π si u2 + v 2 ≤ 1
fX,Y (u, v) =
0 e.o.c
Entonces, ∫ ∞
fX (u) = fX,Y (u, v)dv
−∞
 ∫ √
1−u2

 1
 √ dv si − 1 < u < 1
= − 1−u2 π



0 e.o.c
 2√

 1 − u2 si − 1 < u < 1
= π


0 e.o.c
- 290 -
Análogamente,  2√

 1 − u2 si − 1 < v < 1
fY (v) = π


0 e.o.c
Ası́,
∫ ∞
E(X) = ufX (u)du
−∞
∫ 1
2 √
= u 1 − u2 du
−1 π
= 0 (pués el integrando es función impar)

y ∫ ∞
E(Y ) = v fY (v)dv
−∞
= 0.
También, ∫ ∫
∞ ∞
E(X Y ) = u v fX,Y (u, v)dudv
−∞ −∞
∫ (∫ √ )
1 1−u2
1
= √ uv dv du
−1 − 1−u2 π
∫ 1 (√ √ )
1
= u ( 1 − u2 )2 − (− 1 − u2 )2 du
2π −1
= 0.
Por lo tanto,
Cov(X, Y ) = 0 − 0 · 0
= 0.
Por otra parte,
 4 √ √

 2 1 − u2 1 − v 2 si − 1 < u < 1, −1<v <1
fX (u) fY (v) = π


0 e.o.c
ası́,
3 1
fX (0.5) fY (0.5) = 2
̸= = fX,Y (0.5, 0.5),
π π
es decir, X e Y no son independientes.
Ahora desarrollamos algunas expresiones para la covarianza de combinaciones lineales

de variables aleatorias.
- 291 -
• Cov(a + X, Y ) = E((a + X) Y ) − E(a + X) E(Y )
= a E(Y ) + E(XY ) − (a + E(X)) E(Y )
= E(X Y ) − E(X) E(Y )
= Cov(X, Y ).
• Cov(a X, b Y ) = E(a X b Y ) − E(a X) E(b Y )
= a b E(X Y ) − a E(X) b E(Y )
= a b (E(X Y ) − E(X) E(Y ))
= a b Cov(X, Y ).
• Cov(X, Y + Z) = E(X (Y + Z)) − E(X) E(Y + Z)
= E(X Y + X Z) − E(X) (E(Y ) + E(Z))
= E(X Y ) + E(X Z) − E(X) E(Y ) − E(X) E(Z)
= (E(X Y ) − E(X) E(Y )) + (E(X Z) − E(X) E(Z))
= Cov(X, Y ) + Cov(X, Z).
• Cov(a X + b Y, c Z + d W ) = Cov(a X + b Y, c Z) + Cov(a X + b Y, d W )
= Cov(c Z, a X + b Y ) + Cov(d W, a X + b Y )
= Cov(c Z, a X) + Cov(c Z, b Y ) + Cov(d W, a X)
+Cov(d W, b Y )
= c a Cov(Z, X) + c b Cov(Z, Y ) + d a Cov(W, X)
+d b Cov(W, Y )
= a c Cov(X, Z) + b c Cov(Y, Z) + a d Cov(X, W )
+b d Cov(Y, W ).
En general, el mismo tipo de argumento visto en estas expresiones entrega la siguiente

propiedad de la covarianza:
- 292 -
Teorema 2.6.3: Sean U , V las variables aleatorias definidas por
∑
n ∑
m
U =a+ bi Xi , V =c+ dj Yj .
i=1 j=1
Entonces,
∑
n ∑
m
Cov(U, V ) = bi dj Cov(Xi , Yj ).
i=1 j=1
Este teorema tiene muchas aplicaciones, en particular:
Corolario 2.6.1:
V ar(X + Y ) = V ar(X) + V ar(Y ) + 2 Cov(X, Y ).
En el caso en que Cov(X, Y ) = 0 (lo que ocurre, en particular, cuando X e Y son

independientes),
V ar(X + Y ) = V ar(X) + V ar(Y ) .
Esta propiedad es inmediata desde que
V ar(Z) = E((Z − E(Z))2 )

= E((Z − E(Z)) (Z − E(Z)))
= Cov(Z, Z),
por lo que, según Teorema 2.6.3,
V ar(X + Y ) = Cov(X + Y, X + Y )
= Cov(X, X) + Cov(X, Y ) + Cov(Y, X) + Cov(Y, Y )
= V ar(X) + V ar(Y ) + 2 Cov(X, Y ).
Es preciso resaltar que
V ar(X − Y ) = V ar(X + (−Y ))

= V ar(X) + V ar(−Y ) + 2 Cov(X, −Y )
= V ar(X) + (−1)2 V ar(Y ) + 2(−1) Cov(X, Y ),
es decir,
V ar(X − Y ) = V ar(X) + V ar(Y ) − 2 Cov(X, Y ).
Corolario 2.6.2:
( )
∑
n ∑
n ∑
n
V ar a + bi Xi = bi bj Cov(Xi , Xj ).
i=1 i=1 j=1
- 293 -
Demostración: Basta usar Teorema 2.6.3 con

∑
n ∑
n
U =a+ b i Xi , V =a+ bj Xj .
i=1 j=1
Corolario 2.6.3: Si X1 , . . . , Xn son variables aleatorias independientes, entonces,

( n )
∑ ∑n
V ar Xi = V ar(Xi ).
i=1 i=1
Demostración: Basta usar Corolario 2.6.2, con a = 0; bi = 1, i = 1, . . . , n, y el hecho

que: X1 , . . . , Xn independientes, entonces para todo i ̸= j, Cov(Xi , Xj ) = 0.
Ejemplo 2.6.10: Sean X1 , . . . , Xn , variables aleatorias iid con media común igual a µ
y varianza común igual a σ 2 . Se define la media muestral de las Xi como
1∑
n
X̄ = Xi .
n
i=1
Entonces,
( )
1∑
n
E(X̄) =E Xi
n
i=1
1∑
n
= E(Xi )
n
i=1
1∑
n
= µ
n
i=1
1
= nµ
n
=µ
y
()
1∑
n
V ar(X̄) =V ar Xi
n
i=1
( n )
1 ∑
= 2 V ar Xi
n
i=1
1 ∑
n
= 2 V ar(Xi )
n
i=1
1 ∑n
= σ2
n2
i=1
- 294 -
1
= n σ2
n2
σ2
= .
n
Ejemplo 2.6.11: (Método de Monte Carlo) Supongamos que se desea calcular

∫b
la integral de una función, digamos H = a h(x)dx, con h una función “complicada”,
de modo que los métodos analı́ticos o numéricos usuales no resultan convenientes. El
siguiente método, llamado método de Monte Carlo, brinda una aproximación de H basada
en la generación de números pseudoaleatorios. Asumiremos a = 0 y b = 1, el caso general
siempre puede reducirse a éste.
Sean X1 , . . . , Xn , variables aleatorias iid U (0, 1), es decir, las variables aleatorias son
independientes y todas uniformes (0, 1). La aproximación de H que construiremos es la
siguiente.
Para cada n ≥ 1, definimos
1∑
n
Yn = h(Xi ).
n
i=1
Ası́, por ser las Xi uniformes (0, 1),
1 ∑
n
E(Yn ) = E(h(Xi ))
n
i=1
∑n ∫ ∞
1
= h(u) fXi (u)du
n
i=1 −∞
n ∫
1 ∑ 1
= h(u) 1du
n
i=1 0
∫ 1
1
= n h(u)du
n 0
=H,
y como h(X1 ), . . . , h(Xn ) son independientes (pues las Xi lo son),
1 ∑
n
V ar(Yn ) = V ar(h(Xi ))
n2
i=1
1 ∑
n
= 2 (E(h2 (Xi )) − H 2 )
n
i=1
(∫ 1 )
1
= 2n h (u) 1du − H .
2 2
n 0
- 295 -
Además,
∫ 1 ∫ 1 ∫ 1 ∫ 1
(h(u) − H)2 du = h2 (u)du − 2 H 2 du
H h(u)du +
0 0 0 0
∫ 1 ∫ 1 ∫ 1
= h (u)du − 2H
2
h(u)du + H 2
1du
0 0 0
∫ 1
= h2 (u)du − 2H H + H 2
0
∫ 1
= h2 (u)du − H 2
0
por lo que,
∫ 1
1
V ar(Yn ) = (h(u) − H)2 du.
n 0
¿Cómo escoger el valor de n?
Dada una cota para el error, digamos ε, la desigualdad de Chebyshev implica que
V ar(Yn )
P (|Yn − H| > ε) ≤
ε2
∫1
0 (h(u) − H) du
2
= .
n ε2
Ası́, tomando n “suficientemente grande”, se puede hacer que P (|Yn − H| > ε) sea tan
pequeña como se quiera.
Ejemplo
( a b )2.6.12: Sea (X, Y ) vector normal bivariado de parámetros µ = (µ1 , µ2 ) y
Σ = b c . Según Ejemplo 2.4.12, X ∼ N (µ1 , a) e Y ∼ N (µ2 , c). En este ejemplo
mostraremos que Cov(X, Y ) = b. En efecto,
Cov(X, Y ) = E((X − E(X)) (Y − E(Y )))
= E((X − µ1 ) (Y − µ2 ))
∫ ∞ ∫ ∞
= (u − µ1 ) (v − µ2 ) fX,Y (u, v)dudv.
−∞ −∞
Ahora, usando la expresión obtenida en el Ejemplo 2.4.7 para fX,Y (u, v), se obtiene
que
∫ ∞ ∫ ∞
1
Cov(X, Y ) = √ √ √ (u − µ1 )(v − µ2 )
2π a c 1 − ρ2 −∞ −∞
[ { }]
−1 (u−µ1 )2 (v−µ2 )2
· exp 2(1−ρ2 ) a − 2ρ u−µ
√ 1
a
v−µ
√ 2
c
+ c dudv,
donde ρ = √ b√ .
a c
u−µ
√ 1; v−µ
√ 2,
Realizando, en la última integral doble, el cambio de variables x = y= cuyo
√ √ a c
jacobiano es a c, esta integral resulta igual a
- 296 -
∫ ∞ ∫ ∞ [ ]
√ √ √ √ −1
2 ) {x − 2ρ x y + y } dxdy.
2 2
( a x)( c y) a c exp 2(1−ρ
−∞ −∞
Además,
[ ] [ ]
−1 −1
2 ) {x − 2ρ x y + y } = 2 ) {(x − ρy) + (1 − ρ ) y }
exp 2(1−ρ 2 2 exp 2(1−ρ 2 2 2
( 2) ( )
−1
= exp − y2 exp 2(1−ρ 2 ) (x − ρy)
2
ası́, √ √ √ √ ∫ ∞∫ ∞ ( 2)
a c a c
Cov(X, Y ) = √ √ √ √ x y exp − y2
2π a c c 1 − ρ2 −∞ −∞
( )
−1
· exp 2(1−ρ2 )
(x − ρy)2 dxdy
√ √ ∫ ∞ [
a c ( 2) ∫ ∞ 1
−y
= √ y exp 2 x√ √
2π −∞ −∞ 2π 1 − ρ2
( ) ]
−1 (x−ρy)2
· exp 2 1−ρ2
dx dy.
La integral que está dentro del paréntesis cuadrado corresponde a la esperanza de una
normal de parámetros (ρ y, 1 − ρ2 ). Luego, esta integral es igual a ρ y.
De esta forma,
∫ ∞ ( 2)
√ √ 1
Cov(X, Y ) = a c ρ √ y 2 exp − y2 dy.
−∞ 2π
Pero, la última integral corresponde a E(Z 2 ), con Z ∼ N (0, 1), es decir su valor es 1.
En consecuencia,
√ √
Cov(X, Y ) = a cρ
√ √ b
= a c√ √
a c
= b.
Observación: A partir del ejemplo anterior podemos concluir que, si

(X, Y ) ∼ N ((µ1 , µ2 ), Σ) y Cov(X, Y ) = 0, entonces X e Y son independientes. Este
resultado también es válido en el caso en que (X1 , . . . , Xn ) es normal multivariada, con
n ≥ 3.
Ahora definimos un coeficiente que sirve para medir la dependencia lineal entre dos
variables aleatorias. Este coeficiente es conocido como correlación o coeficiente de corre-
lación.
- 297 -
Definición 2.6.2: Si X e Y son variables aleatorias, de modo que la distribución

conjunta existe, ası́ como V ar(X); V ar(Y ) y ambas son no nulas, entonces el coeficiente
de correlación entre X e Y , denotado por ρ(X, Y ), se define como
Cov(X, Y )
ρ(X, Y ) = √ √ .
V ar(X) V ar(Y )
Notar que
( )
X − E(X) Y − E(Y ) 1
Cov √ ,√ =√ Cov(X − E(X), Y − E(Y ))
V ar(X) V ar(Y ) V ar(X)V ar(Y )
Cov(X, Y )
=√ √
V ar(X) V ar(Y )
=ρ(X, Y ).
Además, por la forma como se forma el cuociente de ρ(X, Y ), la correlación es una

cantidad que no tiene unidades de medida, pues las unidades del numerador y del denom-
inador se cancelan. Esta es una razón por la cual, en muchos casos, se usa como medida
de asociación (entre dos variables aleatorias) la correlación en lugar de la covarianza.
Ejemplo 2.6.13: Una urna contiene n fichas numeradas de 1 a n. Se extraen dos

fichas al azar, sin reposición. Sean respectivamente X1 y X2 los números resultantes de
la primera y segunda ficha. Encontremos la correlación entre X1 y X2 .
Para comenzar, calculemos la función de cuantı́a conjunta de (X1 , X2 ).
Sea j ∈ {1, . . . , n} y k ∈ {1, . . . , n}, entonces
P (X1 = j, X2 = k) = P (X2 = k/X1 = j) P (X1 = j).
Además, en la primera extracción todas las fichas son igualmente probables, y existen n
de éstas, por lo que P (X1 = j) = n1 , para todo j.
Ahora, suponiendo que X1 = j, es decir, la primera ficha escogida es la
j-ésima, la probabilidad de que la segunda ficha escogida sea la j-ésima es cero (pues
la extracción es sin reposición) y la probabilidad de que la segunda ficha sea la k-ésima,
k ̸= j, es n−1
1
(pues se escoge al azar desde la urna con n − 1 fichas).
En resumen,
{
0 si k = j
P (X2 = k/X1 = j) = 1
n−1 si k ̸= j
y por lo tanto,
{
1
n(n−1) si k ̸= j
P (X1 = j, X2 = k) =
0 si k = j
- 298 -
Ası́, la distribución marginal de X2 resulta
∑
n
P (X2 = k) = P (X1 = j, X2 = k)
j=1
∑
n
1
= +0
n(n − 1)
j=1
j̸=k
1
= .
n
De lo anterior, se puede observar que X1 y X2 no son independientes, pues para

i, k ∈ {1, . . . , n}, i ̸= k,
1
P (X1 = i, X2 = k) =
n(n − 1)
y
1
P (X1 = i) · P (X2 = k) = .
n2
También,
∑
n
E(X1 ) = j P (X1 = j)
j=1
1 ∑
n
= j
n
j=1
1 n(n + 1)
=
n 2
n+1
=
2
y
∑
n
E(X12 ) = j 2 P (X1 = j)
j=1
1 ∑ 2
n
= j
n
j=1
1 n (n + 1) (2n + 1)
=
n 6
(n + 1) (2n + 1)
= .
6
(n+1)(2n+1)
Análogamente, E(X2 ) = n+1
2 y E(X22 ) = 6 .
- 299 -
Por lo tanto,
( )2
(n + 1)(2n + 1) n+1
V ar(X1 ) = −
6 2
(n − 1)(n + 1)
=
12
y
(n − 1)(n + 1)
V ar(X2 ) = .
12
Finalmente,
∑
n ∑
n
E(X1 X2 ) = j k P (X1 = j, X2 = k)
j=1 k=1
∑
n ∑
n
1
= jk
(n − 1)n
j=1 k=1
k̸=j
 
1 ∑
n
∑n

= j
 k 

(n − 1)n
j=1 k=1
k̸=j
( )
1 ∑
n ∑
n
= j k−j
(n − 1)n
j=1 k=1
∑
n ( )
1 n(n + 1)
= j −j
(n − 1)n 2
j=1
n(n + 1) ∑ ∑
n n
1 1
= j− j2
(n − 1)n 2 (n − 1)n
j=1 j=1
(n + 1) n(n + 1) 1 n(n + 1)(2n + 1)

= −
2(n − 1) 2 (n − 1)n 6
(n + 1)(3n + 2)
= .
12
En consecuencia,
(n+1)(3n+2)
− n+1 n+1
ρ(X1 , X2 ) = √ 12 √ 2 2
(n−1)(n+1) (n−1)(n+1)
12 12
1
= − .
n−1
- 300 -
Ejemplo
( ) 2.6.14: Sea (X, Y ) vector normal bivariado de parámetros µ = (µ1 , µ2 ) y
Σ = ab cb . Entonces, Ejemplo 2.4.12 y 2.6.12 implican que
b
ρ(X, Y ) = √ √ ,
a c
que se acostumbra a denotar por ρ.
Ejemplo 2.6.15: Sean X e Y variables aleatorias tales que Y = aX + b con a, b reales,

a ̸= 0. Entonces,
Cov(X, Y ) = Cov(X, a X + b)
= Cov(X, a X) + Cov(X, b)
= a V ar(X) + 0.
Ası́,
a V ar(X)
ρ(X, Y ) = √ √
V ar(X) V ar(a X + b)
a V ar(X)
= √ √
V ar(X) a2 V ar(X)
a
=
|a|
{
1 si a>0
=
−1 si a<0
Es decir, si Y se obtiene a partir de una transformación lineal de X, entonces el

coeficiente de correlación entre X e Y es 1 ó −1, dependiendo del signo de a. Como
veremos en el próximo Teorema, 1 es el máximo valor (en valor absoluto) que puede
alcanzar ρ(X, Y ). Esto muestra que el coeficiente de correlación ρ(X, Y ), mide el grado de
dependencia lineal que existe entre X e Y . Cuando hay una dependencia lineal “perfecta”,
es decir, Y = aX + b, entonces |ρ(X, Y )| = 1.
Teorema 2.6.4: Sean X e Y variables aleatorias, entonces
−1 ≤ ρ(X, Y ) ≤ 1.
En particular, se obtiene la desigualdad de Cauchy-Schwartz

√ √
|Cov(X, Y )| ≤ V ar(X) V ar(Y ) .
Lo anterior es válido asumiendo que todas las cantidades involucradas existen.
Demostración: Usemos las siguientes notaciones:

2
V ar(X) = σX , V ar(Y ) = σY2 y ρ(X, Y ) = ρ.
- 301 -
Como la varianza de cualquier variable aleatoria es no negativa,

( )
X Y
0 ≤ V ar +
σX σY
( ) ( ) ( )
X Y X Y
= V ar + V ar + 2 Cov ,
σX σY σX σY
V ar(X) V ar(Y ) Cov(X, Y )

= 2 + 2 +2
σX σY σX σY
= 1 + 1 + 2ρ
= 2(1 + ρ).
De esta desigualdad se obtiene que ρ ≥ −1.
Similarmente, ( )
X Y
0 ≤ V ar − = 2(1 − ρ),
σX σY
lo que implica la desigualdad ρ ≤ 1.
Finalmente, como ρ(X, Y ) = √ √
Cov(X,Y )
y −1 ≤ ρ(X, Y ) ≤ 1, es decir,
V ar(X) V ar(Y )
Cov(X, Y )
−1 ≤ √ √ ≤ 1,
V ar(X) V ar(Y )
se deduce que
√ √ √ √
− V ar(X) V ar(Y ) ≤ Cov(X, Y ) ≤ V ar(X) V ar(Y ),
de donde √ √
|Cov(X, Y )| ≤ V ar(X) V ar(Y ).
2.6.2 Función generadora de momentos

En este punto desarrollaremos y aplicaremos algunas de las propiedades de la función
generadora de momentos. Esta función es una herramienta que a menudo se usa para
simplificar una enormidad ciertos cálculos probabilı́sticos.
Definición 2.6.3: La función generadora de momentos (f.g.m.) de una variable aleato-

ria X, denotada por MX , es definida por MX (t) = E(etX ), para todo t donde esta espe-
ranza exista. En el caso discreto,
∑
MX (t) = etu pX (u)
u
y en el caso continuo, ∫ ∞
MX (t) = etu fX (u)du.
−∞
- 302 -
La esperanza, y luego la función generadora de momentos, puede no existir en algún

valor particular de t.
Teorema 2.6.5: Si la función generadora de momentos existe, para t en un conjunto

abierto C ⊂ R que contiene a cero, esta determina únicamente la distribución de probabili-
dad de la variable aleatoria. En otras palabras, si dos variables aleatorias tienen la misma
función generadora de momentos en un intervalo abierto que contiene al cero, ellas tienen
la misma distribución de probabilidad.
La demostración de esta importante propiedad depende de la transformada de Laplace

y escapa a los objetivos de este texto.
Observación: El r-ésimo momento de la variable aleatoria X es E(X r ), si la esperanza

existe. En secciones anteriores hemos calculado el primer y segundo momento, esto es,
E(X) y E(X 2 ). Sin embargo, el r-ésimo momento central, definido por E((X − E(X))r ),
es a menudo usado en lugar del r-ésimo momento. La varianza corresponde al segundo
momento central y esta mide la dispersion en torno a la media. El tercer momento central
es usado para medir la asimetrı́a de la función de cuantı́a (o densidad) respecto de su media.
Si la densidad es simétrica respecto de su media, el coeficiente que mide la asimetrı́a,
definido por γ(X) = E((X−E(X))
3)
E(X 3 )
, es cero.
Como su nombre lo indica, la función generadora de momentos tiene algo que ver con
los momentos de la variable aleatoria. Para ver esto, consideremos el caso continuo:
∫ ∞
MX (t) = etu fX (u)du.
−∞
La derivada de MX (t) es ∫
′ d ∞ tu
MX (t)
= e fX (u)du.
dt −∞
Se puede verificar, que en este caso, la diferenciación con la integración pueden ser
intercambiados, esto es, ∫ ∞
′
MX (t) = u etu fX (u)du,
−∞
por lo que ∫ ∞
′ (0)
MX = u e0 u fX (u)du
−∞
= E(X).
Diferenciando r veces, vemos que
(r)
MX (0) = E(X r ).
Teorema 2.6.6: Si la función generadora de momentos existe en un intervalo abierto

que contenga al cero, entonces, para todo r ≥ 1, E(X r ) existe y
(r)
E(X r ) = MX (0).
- 303 -
La utilidad de esta propiedad es que, si la f.g.m. puede ser encontrada, el proceso de

integración o sumación involucrados en el cálculo de E(X r ), puede ser reemplazado por el
proceso de diferenciación, que es bastante más mecánico.
Ejemplo 2.6.16: (La f.g.m. de una variable aleatoria Poisson con parámetro λ). Sea
X ∼ P(λ), entonces
MX (t) = E(etX )
∞
∑
= et j P (X = j)
j=0
∞
∑ λj −λ
= et j e
j!
j=0
∞
∑ (λ et )j
= e−λ .
j!
j=0
t
Esta última serie converge, para todo t real, y su valor es eλe , ası́, para todo t real
MX (t) = e−λ eλe
t
= eλ (e −1) .
t
Derivando, se tiene que

′ t −1)
MX (t) = λ et eλ (e ,
y
′′ t −1) t −1)
MX (t) = λ et eλ (e + λ2 e2t (e .
Evaluando estas dos derivadas en t = 0, obtenemos
E(X) = λ, E(X 2 ) = λ2 + λ
de donde
V ar(X) = λ2 + λ − λ2
= λ.
Ejemplo 2.6.17: (La f.g.m. de una variable aleatoria Gamma de parámetros (α, λ)).
Sea X ∼ Gamma(α, λ), entonces
MX (t) = E(etX )
∫ ∞
= etu fX (u)du
−∞
∫ ∞
λα
= etu uα−1 e−λu du
0 Γ(α)
∫ ∞
λα
= uα−1 e−(λ−t)u du.
Γ(α) 0
- 304 -
Esta última integral converge si λ − t > 0, es decir, si t < λ, y puede ser evaluada de la
siguiente forma. Con el cambio de variable z = (λ − t)u, se obtiene que
∫ ∞ ∫ ∞
α−1 −(λ−t)u 1 1
u e du = · z α−1 e−z dz
0 (λ − t)α−1 λ − t 0
∫ ∞
1 1α
= Γ(λ) z α−1 e−z dz.
(λ − t)α 0 Γ(α)
Como el integrando de esta última integral corresponde a la densidad de una dis-
tribución Gamma de parámetro (α, 1), la integral vale 1. En consecuencia, para todo
t < λ,
λα 1
MX (t) = Γ(α)
Γ(α) (λ − t)α
( )α
λ
=
λ−t
( )
1 −α
= 1− t .
λ
En este caso, el abierto que contiene al cero, donde está definida MX , es

D =] − ∞, λ[. Además, derivando y luego evaluando en t = 0 se obtiene que
′ (0) = α ′′ α(α + 1)
MX ; MX (0) = .
λ λ2
En consecuencia,
α α(α + 1) ( α )2 α
E(X) = y V ar(X) = 2
− = 2.
λ λ λ λ
Ejemplo 2.6.18: (La f.g.m. de una variable aleatoria normal (0, 1)). Sea X ∼ N (0, 1),
entonces
MX (t) = E(etX )
∫ ∞
1
e− 2 u du
1 2
= etu √
−∞ 2π
∫ ∞
1
e− 2 (u −2tu) du.
1 2
= √
−∞ 2π
Pero,
u2 − 2tu = (u − t)2 − t2 ,
- 305 -
de donde la última integral es igual a

∫ ∞
t2 1
e− 2 (u−t) du.
1 2
e2 √
−∞ 2π
Finalmente, el integrando de esta integral corresponde a la densidad de una normal

(t, 1), luego su valor es 1. En consecuencia,
1 2
MX (t) = e 2 t , para todo t real.
Desde este resultado es fácil ver que E(X) = 0 y V ar(X) = 1.

En el caso en que X ∼ N (µ, σ 2 ), la variable aleatoria Y = σ1 (X − µ) tiene distribución
normal (0, 1), y como X = σY + µ, entonces
MX (t) =E(etX )
=E(et(σY +µ) )
=etµ E(etσY )
=etµ MY (tσ)
1 2
=etµ e 2 (tσ)
1 2 t2
=eµt+ 2 σ , para todo t real.
Con este resultado se obtiene que

1
′ (t) = (µ + σ 2 t)eµt+ 2 σ
MX
2 t2
y
1 1
′′ (t) = σ 2 eµt+ 2 σ
MX
2 t2
+ (µ + σ 2 t)2 eµt+ 2 σ
2 t2
,
de donde
′ (0) = µ
E(X) = MX y ′′ (0) − µ2 = σ 2 .
V ar(X) = MX
Teorema 2.6.7: Si E(X r ) existe, para todo natural r, y si existe a > 0 de modo que
la serie
∞
∑ tr
E(X r )
r!
r=0
converge absolutamente para t ∈] − a, a[, entonces MX (t) existe, para todo t ∈] − a, a[.
Además se verifica la relación
d(r)
E(X r ) = MX (0). (∗)
dtr
Teorema 2.6.8: Si MX (t) existe para t en un intervalo de la forma ]−h, h[, con h > 0,
y si MX (t) puede desarrollarse en serie de potencias infinita en torno a t = 0, entonces
E(X r ) existe, para todo r natural, y estos momentos pueden obtenerse de la ecuación (∗).
- 306 -
La demostración de estos dos teoremas se basan en el desarrollo en serie de Taylor de

la función MX (t) y escapan a los objetivos de este texto. Cabe señalar que (∗) dice que
E(X r ) no es más que el coeficiente del término tr en el desarrollo en serie de Taylor de
MX (t) en torno de t = 0.
Ejemplo 2.6.19: Sea X variable aleatoria normal estándar, es decir, de parámetros

(0, 1). Entonces, según Ejemplo 2.6.18,
1 2
MX (t) = e 2 t , para todo t real.
Sabemos de cálculo integral, que la función g(x) = ex se puede desarrollar en serie de

Taylor en torno de x = 0, y su radio de convergencia es R = ∞. Además, su desarrollo
resulta
∞
∑ xr
ex = , para todo x real,
r!
r=0
de donde,
∞ (1 )r
∑ t2
2
MX (t) =
r!
r=0
∞ ( )r 2r
∑ 1 t
=
2 r!
r=0
∞
∑ 1 (2r)! t2r
=
2r r! (2r)!
r=0
1 (2 · 0)! t0 1 (2 · 1)! t2 1 (2 · 2)! t4

= + + + ···
20 0! 0! 21 1! 2! 22 2! 4!
∞
∑ tk
= ak
k!
k=0
con 


1 k!
 k si k es par
ak = 2 2 (k/2)!



0 si k es impar
Notar que, si k es impar, entonces el término tk no aparece en el desarrollo, por esta
razón ak = 0 cuando k es impar.
En consecuencia, MX (t) existe para t en el intervalo ] − ∞, ∞[ y MX (t) se puede
desarrollar en serie de potencias en torno de t = 0. Luego, Teorema 2.6.8 implica que,
para una variable aleatoria normal (0, 1),
E(X k ) = ak ,
- 307 -
es decir, 


1
·
k!
 si k es par
2k/2 (k/2)!
E(X ) =
k



0 si k es impar
Ası́,
E(X) = 0, E(X 3 ) = 0, E(X 2001 ) = 0, etc.
y
E(X 2 ) = 1, E(X 4 ) = 3, E(X 6 ) = 15, etc.
Proposición 2.6.1: Si la variable aleatoria X tiene f.g.m. MX (t), entonces la variable

aleatoria Y = aX + b, con a, b reales, tiene f.g.m. igual a
MY (t) = ebt MX (at).
Demostración:
MY (t) =E(etY )
=E(et(aX+b) )
=E(e(at)X ebt )
=ebt MX (at).
Proposición 2.6.2: Si X e Y son variables aleatorias independientes, con funciones

generadoras de momentos MX (t); MY (t), entonces la variable aleatoria Z = X + Y , tiene
f.g.m. igual a
MX+Y (t) = MX (t) MY (t).
Demostración:
MZ (t) = E(etZ )
= E(et(X+Y ) )
= E(etX etY ).
Desde el supuesto de independencia,
MZ (t) = E(etX ) E(etY )

= MX (t) MY (t).
Inductivamente, Proposición 2.6.2 puede ser extendida a la suma de n, n ≥ 3, variables

aleatorias independientes. Es decir, si X1 , . . . , Xn son variables aleatorias independientes
y Z = X1 + · · · + Xn , entonces
MZ (t) = MX1 (t) · · · MXn (t).
- 308 -
En particular, si X1 , . . . , Xn son iid, entonces
MZ (t) = (MX1 (t))n.
Una de las propiedades más usadas de la f.g.m. es la enunciada en la Proposición

2.6.2. Los ejemplos siguientes muestran como esta propiedad puede usarse para derivar
resultados que tomarı́an mucho tiempo y trabajo sin la f.g.m.
Ejemplo 2.6.20: La suma de dos variables aleatorias independientes Poisson también

es Poisson.
Sean X e Y variables aleatorias independientes tales que X ∼ P(λ) e Y ∼ P(α). Entonces
X + Y ∼ P(λ + α). En efecto, por la independencia de X e Y ,
MX+Y (t) = MX (t) MY (t),
y del Ejemplo 2.6.16, se deduce que
MX+Y (t) = eλ(e −1) eα(e −1)

t t
= e(λ+α)(e −1) , para todo t real .

t
Ahora Teorema 2.6.5 implica que X + Y ∼ P(λ + α).
Ejemplo 2.6.21: Sean X1 , . . . , Xn variables aleatorias independientes y tales que, para

cada i, Xi tiene distribución Gamma de parámetros (αi , λ). Entonces la variable aleatoria
Z = X1 + · · · + Xn , tiene distribución Gamma de parámetros (α1 + · · · + αn , λ).
En particular, si αi = 1, para todo i, es decir, todas las Xi tienen distribución exponen-
cial de parámetro λ (y son independientes), entonces la suma es Gamma de parámetros
(n, λ). En otras palabras, suma de n variables aleatorias independientes y exp(λ) es
Gamma (n, λ).
En efecto, la independencia de las Xi y el Ejemplo 2.6.17 implican que, para t < λ,
MZ (t) = MX1 (t) · · · MXn (t)

( ) ( )
1 −α1 1 −αn
= 1− t ··· 1 − t
λ λ
( )
1 −(α1 +···+αn )
= 1− t .
λ
Finalmente, Teorema 2.6.5 nos lleva a concluir que
X1 + · · · + Xn ∼ Gamma(α1 + · · · + αn , λ).
Este resultado fue anunciado en el Ejemplo 2.5.2 y el caso exponencial fue obtenido
con bastante más trabajo.
- 309 -
Otro resultado interesante que se desprende de este ejemplo es que la suma de variables
aleatorias independientes, cada una de ellas con distribución chi-cuadrado, también es chi-
cuadrado. En efecto, como la distribución chi-cuadrado
( m 1 ) con m grados de libertad es lo
mismo que la distribución Gamma de parámetros 2 , 2 , entonces, decir que X1 , . . . , Xn
son independientes y para cada i, Xi ∼ χ2(mi ) , es lo mismo que decir que X1 , . . . , Xn son
( )
independientes y para cada i, Xi ∼ Gamma m2i , 12 .
Ahora, usando el ejemplo anterior con αi = m2i y λ = 12 , se obtiene que
( )
m1 + · · · + mn 1
X1 + · · · + Xn ∼ Gamma , ,
2 2
o sea
X1 + · · · + Xn ∼ χ2(m1 +···+mn ) .
( )2
En particular, usando el hecho que si Y ∼ N (µ, σ 2 ), entonces Z = Y σ−µ ∼ χ2(1)
(lo que se verifica, por ejemplo, encontrando FZ y luego derivándola), se deduce que: si
X1 , . . . , Xn son independientes y para cada i, Xi ∼ N (µi , σi2 ), entonces
n (
∑ )
Xi − µ 2
∼ χ2(n) .
σ
i=1
2.6.3 Función generadora de momentos multivariada

Como en casos anteriores, nos reducimos al caso bivariado.
Definición 2.6.4: Si X e Y son variables aleatorias, se define la función generadora

de momentos conjunta, se anota MX,Y (u, v), como función de dos variables
( )
MX,Y (u, v) =E e(u,v) (X,Y )
( )
=E euX+vY
cuando esta esperanza existe.

Si la función generadora de momentos conjunta está definida sobre un conjunto C ⊂ R2
abierto, que contenga a (0, 0), entonces ésta determina únicamente la densidad (o función
de cuantı́a) conjunta del vector aleatorio (X, Y ).
También, la f.g.m. de la marginal X es obtenida como
( )
MX (t) =E etX
( )
=E etX+0Y
=MX,Y (t, 0)
y similarmente,
MY (t) = MX,Y (0, t).
- 310 -
Además, si X e Y son independientes,

( )
MX,Y (u, v) =E euX+vY
( )
=E euX evY
( )
=E euX ) E(evY
=MX (u) MY (v).
La f.g.m. conjunta puede ser usada para calcular momentos conjuntos de la forma
E(X r Y q ), en particular E(XY ). Similar al caso unidimensional, vale la relación
∂ n+m

MX,Y (u, v) = E(X n Y m ).
∂un ∂v m (u,v)=(0,0)
Ejemplo 2.6.22: Sea (X1 , X2 , X3 ) vector aleatorio con distribución trinomial. Es

decir, su función de cuantı́a conjunta está dada por
k!
pX1 ,X2 ,X3 (a1 , a2 , a3 ) = pa11 pa22 pa33 ,
a1 ! a2 ! a3 !
para i ∈ {1, 2, 3}, 0 < pi < 1, p1 + p2 + p3 = 1 y a1 , a2 , a3 son enteros no negativos
cuya suma es k.
Para (u1 , u2 , u3 ) ∈ R3 ,
( )
MX1 ,X2 ,X3 (u1 , u2 , u3 ) = E e(u1 ,u2 ,u3 ) (X1 ,X2 ,X3 )
( )
= E eu1 X1 +u2 X2 +u3 X3
∑∑∑
= eu1 a1 +u2 a2 +u3 a3 pX1 ,X2 ,X3 (a1 , a2 , a3 )
a1 a2 a3
∑∑∑ k!
= (p1 eu1 )a1 (p2 eu2 )a2 (p3 eu3 )a3
a1 a2 a3
a1 ! a2 ! a3 !
= (p1 eu1 + p2 eu2 + p3 eu3 )k .

De modo que,
MX1 (t) = MX1 ,X2 ,X3 (t, 0, 0)
= (p1 et + p2 + p3 )k .
Pero, p1 + p2 + p3 = 1, de donde p2 + p3 = 1 − p1 , o sea,
MX1 (t) = (1 − p1 + p1 et )k , para todo t ∈ R,
que corresponde exactamente a la f.g.m. de una variable aleatoria binomial de parámetros

(k, p1 ). En consecuencia, X1 ∼ B(k, p1 ).
Análogamente, X2 ∼ B(k, p2 ) y X3 ∼ B(k, p3 ), de donde E(X2 ) = k p2 ; E(X3 ) = k p3

y V ar(X2 ) = k p2 (1 − p2 ); V ar(X3 ) = k p3 (1 − p3 ).
- 311 -
∂2
Por otra parte, E(X2 X3 ) es la función ∂u12 ∂u13
MX1 ,X2 ,X3 (u1 , u2 , u3 ) evaluada en
(u1 , u2 , u3 ) = (0, 0, 0). Pero,
∂2 ∂ ( )
MX1 ,X2 ,X3 (u1 , u2 , u3 ) = k (p1 eu1 + p2 eu2 + p3 eu3 )k−1 p3 eu3
∂u2 ∂u3 ∂u2
= k(k − 1) p2 p3 eu2 eu3 (p1 eu1 + p2 eu2 + p3 eu3 )k−2 ,
de donde
( )k−2
E(X2 X3 ) = k(k − 1) p2 p3 e0 e0 p1 e0 + p2 e0 + p3 e0
= k(k − 1) p2 p3 (p1 + p2 + p3 )k−2
= k(k − 1) p2 p3 1k−2 .
Ası́, por ejemplo, ρ(X2 , X3 ) resulta:
Cov(X2 , X3 )
ρ(X2 , X3 ) = √ √
V ar(X2 ) V ar(X3 )
E(X2 X3 ) − E(X2 )E(X3 )

= √ √
V ar(X2 ) V ar(X3 )
k(k − 1)p2 p3 − kp2 kp3

= √ √
kp2 (1 − p2 ) kp3 (1 − p3 )
−kp2 p3
= √ √ √
k p2 p3 (1 − p2 )(1 − p3 )
√
p2 p3
= − .
(1 − p2 )(1 − p3 )
Comentario Final
La función generadora de momentos pese a ser, como hemos visto, de gran utilidad en
teorı́a de probabilidades, tiene una importante limitación, y es el hecho que ella puede
no existir. De esta forma, cuando se quiere, por ejemplo, hacer una demostración que
involucre variables aleatorias generales, la f.g.m. no puede ser utilizada. Por el contrario,
la función que definimos a continuación, conocida como función caracterı́stica de una
variable aleatoria, siempre existe, pero usar esta función requiere alguna familiaridad con
las técnicas de variable compleja.
Definición 2.6.5: La función caracterı́stica de una variable aleatoria X, denotada por

ΦX , es definida por ( )
ΦX (t) = E eitX , para todo t real,
- 312 -
√
donde i = −1.
Recordemos que por la fórmula de Euler, eitu = cos(t u) + i sin(t u), u ∈ R, luego
la variable aleatoria compleja eitX = cos tX + i sin tX, siempre tiene esperanza finita,
cualquiera sea la variable
√ aleatoria X. En efecto, como el módulo de un número complejo,
z = a + ib, es |z| = a + b2 , entonces
2

|ΦX (t)| = E(eitX )
= |E(cos tX) + iE(sin tX)|

√
= E2 (cos tX) + E2 (sin tX).
Usando ahora la desigualdad de Jensen, se obtiene que
√ √
E2 (cos tX) + E2 (sin tX) ≤ E(cos2 tX) + E(sin2 tX)
√
= E(cos2 tX + sin2 tX)
√
= E(1)
= 1.
Por lo tanto, para todo t real, |ΦX (t)| ≤ 1.

La función caracterı́stica ΦX (t) resulta, en el caso discreto
∑ ∑
ΦX (t) = cos(tu) pX (u) + i sin(tu) pX (u)
u∈RecX u∈RecX
y en el caso continuo
ΦX (t) = E(cos tX) + i E(sin tX)
∫ ∞ ∫ ∞
= cos(tu) fX (u)du + i sin(tu) fX (u)du.
−∞ −∞
Cabe hacer notar que, en el caso en que la f.g.m. exista, se tiene que ΦX (t) = MX (it).
Por ejemplo, si X ∼ N (µ, σ 2 ), entonces
ΦX (t) = MX (it)
1 2 (it)2
= eµ(it)+ 2 σ
1 2 t2
= eµti− 2 σ .
Las propiedades de la función caracterı́stica son similares a las de la f.g.m., por ejemplo,
los momentos de una variable aleatoria pueden ser obtenidos derivando la función carac-
terı́stica, y la función caracterı́stica de una suma de variables aleatorias independientes es
el producto de sus funciones caracterı́sticas.
Para ahondar acerca de la función caracterı́stica puede consultarse en [7], capı́tulo VI.
- 313 -
PROBLEMAS
Problema 2.6.A: Sean X, Y variables aleatorias independientes con varianza finita.

Pruebe que
V (XY ) = V (X)V (Y ) + (E(X))2 V (Y ) + (E(Y ))2 V (X).
Problema 2.6.B: Sea X1 , . . . , Xn , n ≥ 2, variables aleatorias iid con esperanza común

µ y varianza común σ 2 .
∑
n
1
a) Calcule la esperanza y varianza de X̄n = n Xi .
i=1
∑
n
b) Calcule la esperanza de Sn2 = 1
n−1 (Xi − X̄n )2 .
i=1
Problema 2.6.C: Sean X1 , X2 , . . . , Xn , n ≥ 2, variables aleatorias iid U (0, a). Considere

las variables aleatorias
1∑
n
Y1 = max{X1 , . . . , Xn }, Y2 = Xi .
n
i=1
a) Calcule E(Y1 ) y E(Y2 ).
b) Encuentre λ1 y λ2 reales de modo que
E(λ1 Y1 ) = E(λ2 Y2 ) = a.
c) Compare las varianzas de λ1 Y1 y λ2 Y2 .
Problema 2.6.D: La tabla siguiente, resume los tamaños de 100 cobros realizados en
una compañı́a de seguros a raı́z de 100 siniestros para los que la compañı́a mantenı́a un
seguro.
tamaño cobro número de cobros

(en unidades monetarias)
0 − 400 2
400 − 800 24
800 − 1200 32
1200 − 1600 21
1600 − 2000 10
2000 − 2400 6
2400 − 2800 3
2800 − 3200 1
3200 − 3600 1
3600 − 4000 0
Total 100
- 314 -
Suponiendo que la distribución log-normal es un modelo para el tamaño de los cobros,

estime la probabilidad de que un cobro particular sea mayor que 1600.
Problema 2.6.E: Sean (X1 , Y1 ), . . . , (X100 , Y100 ) vectores aleatorios independientes y

con igual distribución. Suponga que, para i = 1, . . . , 100,
E(Xi ) = 0.5, Var(Xi ) = 0.05,
E(Yi ) = 0.4, Var(Yi ) = 0.05,
Cov(Xi , Yi ) = 0.03.
Sea T la variable aleatoria definida por
1 ∑
100
T = (Xi + Yi ).
100
i=1
Calcule E(T ) y Var(T ).
Problema 2.6.F: Sean X, Y variables aleatorias. Verifique que, para todo (x, y) ∈ R2 ,
√
F(X,Y ) (x, y) ≤ FX (x) FY (y).
Problema 2.6.G: Suponga que n objetos, n ≥ 2, están ordenados consecutivamente

ocupando las posiciones 1, . . . , n. Sea Xi la posición que ocupa el i-ésimo objeto después
de permutar, al azar, estos objetos (o sea, se elige al azar una de las n! permutaciones
posibles y luego se le aplica a los objetos). Sea Yi = 1 si el i-ésimo objeto queda en su
posición original y sea Yi = 0 en caso contrario, donde i ∈ {1, . . . , n}.
a) Calcule E(Y1 ) y E(Y1 Y2 ).

∑
n
b) Sea T = Yi . Calcule la media y varianza de T .
i=1
Problema 2.6.H: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
dada por la siguiente tabla
Y \X 0 1 2 3 4 5
α
0 32 0 0 0 0 0
β 4 3 2 1
1 0 32 32 32 32 32
6 6 3
2 0 0 32 32 32 0
1
3 0 0 0 32 0 0
- 315 -
a) Suponga que E(X) = 52 , hallar α y β.
b) Calcule ρ(X, Y ).
Problema 2.6.I: Sea X variable aleatoria discreta. Suponga que la función de cuantı́a
conjunta para (X, Y ) está dada por la tabla siguiente:
X\Y 0 π/4 π/2

0 0.1 0.2 0.6
1/2 0.1 0 0
Encuentre:
a) E(4X cos2 Y ).
b) Var(4X cos2 Y ).
c) Función de cuantı́a conjunta para (U, V ) = (4X , cos2 Y ).
d) Cov(U, V ).
Problema 2.6.J: Sean X1 , X2 , variables aleatorias iid N (0, 1). Considere el vector
aleatorio (Y1 , Y2 ), definido por
Y1 = a11 X1 + b1 , a11 > 0,
Y2 = a21 X1 + a22 X2 + b2 , a22 > 0.
a) Determine las constantes a11 , a21 , a22 , b1 , b2 , para que (Y1 , Y2 ) satisfaga las condi-
ciones siguientes:
E(Y1 ) = 4, E(Y2 ) = 5, V (Y1 ) = 4, V (Y2 ) = 34, Cov(Y1 , Y2 ) = 10.
b) Calcule E(etY2 ).
Problema 2.6.K: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias iid N (0, 1),

µ = (µ1 , . . . , µn ) vector n-dimensional y A matriz real de orden n × n.
 
a11 a12 . . . a1n
 a21 a22 . . . a2n 
 
A= . .. .. .. 
 .. . . . 
an1 an2 . . . ann
Considere las variables aleatorias Yj , j = 1, . . . , n, definidas por
Yj = a1j X1 + a2j X2 + · · · + anj Xn + µj .
- 316 -
En notación matricial se puede escribir
(Y1 Y2 . . . Yn )1×n = (X1 X2 . . . Xn )1×n An×n + (µ1 µ2 . . . µn )1×n .
Verifique que:
( ∑ )
a) Yj ∼ N µj , nk=1 a2kj ,
b) Cov(Yi , Yj ) = cij , donde cij es el elemento ubicado en la fila i columna j de la matriz

At A. Esta matriz es simétrica y es común denotarla por Σ, y al elemento cij se le
denota por Σij .
Problema 2.6.L: Sean Y1 , Y2 , Y3 variables aleatorias independientes de media cero y

varianza uno. Se definen las variables aleatorias X1 , X2 , X3 por:
Y1
X1 = √ , X2 = αX1 + Y2 , X3 = αX2 + Y3 (|α| < 1).
1 − α2
a) Halle Cov(Xi , Xj ), i, j ∈ {1, 2, 3}.
b) Calcule E(Xi ), i ∈ {1, 2, 3}.
Problema 2.6.M: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid N (µ, σ 2 ). Para
cada natural n y real x, se define la variable aleatoria Zn,x ,
1∑
n
Zn,x = I]−∞,x[ (Xi ),
n
i=1
es decir, Zn,x representa el número promedio de variables Xi (i ≤ n) que son menores que
x.
Para cada x, y ∈ R, x < y, calcule:
a) E(Zn,x ),
b) V (Zn,x ),
c) Cov(Zn,x , Zn,y ),
(( ( ))2 )
d) lim E Zn,x − Φ x−µ σ .
n→∞
Problema 2.6.N: Sean X1 , . . . , Xn variables aleatorias iid N (0, 1) y
1∑ 1∑
n n
X̄ = Xi , σ = 2
(Xi − X̄)2 , n ≥ 2.
n n
i=1 i=1
Pruebe que X̄ y σ 2 son independientes.
- 317 -
Problema 2.6.O: Sean Y1 , . . . , Yn (n ≥ 2), variables aleatorias definidas por
Yi = U + Yi−1 + Zi−1 , i = 1, . . . , n.
Asuma que Z0 = 0, Y0 = 0 y U, Z1 , . . . , Zn−1 son variables aleatorias independientes, de

media nula, V (U ) = a, y para todo i ∈ {1, . . . , n − 1}, V (Zi ) = b.
Encuentre Cov(Yi , Yj ), para todo i, j ∈ {1, . . . , n}.
Problema 2.6.P: Sea X variable aleatoria tal que, para todo n ≥ 1,

2n
E(X n ) = .
n+1
Encuentre alguna (de hecho es la única) distribución de probabilidad para X que satisfaga
la condición anterior.
Problema 2.6.Q: Una persona realiza el siguiente juego: lanza una moneda honesta en
forma sucesiva e independiente, hasta obtener ya sea 2 caras o 2 sellos. Sea N el número
de lanzamientos requeridos para terminar el juego.
a) Calcule la función generadora de momentos de N.
b) Calcule el valor esperado y varianza de N.
Problema 2.6.R: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
X\Y 0 1 2 3
1 0.05 0 0.20 0
2 0.05 0.10 0 0.20
3 0 0.10 0.10 0.20
a) Encuentre la función generadora de momentos para la variable aleatoria

Z = 2X − 3Y.
b) ¿M2X−3Y (t) = M2X (t) M−3Y (t)?
Problema 2.6.S: Sea Xi ∼ N (µi , σi2 ), 1 ≤ i ≤ n. Suponga que X1 , . . . , Xn son inde-

pendientes.
Pruebe que ( n )
∑n ∑ ∑
n
αi Xi ∼ N αi µi , αi2 σi2 .
i=1 i=1 i=1
Problema 2.6.T: Sean X1 , . . . , Xr variables aleatorias independientes,

∑ tal que
Xi ∼Gamma(ni , λ), i∑= 1, . . . , r. Verificar que la variable aleatoria Z = ri=1 Xi tiene
distribución Gamma( ri=1 ni , λ).
- 318 -
Problema 2.6.U: Sean X1 , . . . , Xn (n ≥ 2), variables aleatorias iid U (0, 1). Asuma que
( n )1/n
∏
Y = Xi y Z = −2n ln(Y ).
i=1
Halle la distribución de la variable aleatoria Z.
Problema 2.6.V: Sea X1 , . . . , Xn , . . . sucesión de variables aleatorias iid exp(λ). Para

t > 0 fijo, se definen
∑
n
N = max{n ≥ 0 : Sn ≤ t}, con S0 = 0 y Sn = Xi .
i=1
O sea, N indica el ı́ndice de la última suma parcial menor o igual a t. Pruebe que N tiene
distribución Poisson con parámetro λt.
Problema 2.6.W: Sea (X, Y ) vector aleatorio con función generadora de momentos
definida por
M(X,Y ) (s, t) = exp{2s + 3t + s2 + ast + 2t2 }, a constante y s, t reales.
i) Determine a de modo que X +2Y y 2X −Y sean variables aleatorias independientes.
ii) Calcule P (X + 2Y < 2X − Y ), con el valor de a encontrado en i).
Problema 2.6.X: Sean X, Y variables aleatorias discretas con recorridos {0, 1} y {0, 1, 2},
respectivamente. Suponga que la función de cuantı́a conjunta para (X, Y ) está dada por
la tabla siguiente.
X\Y 0 1 2
1 1 1
0 6 9 18
1 1
1 3 0 3
a) Halle M(X,Y ) .
b) Calcule E(XY 2 + X 2 ).
Problema 2.6.Y: Sean X1 , . . . , Xn variables aleatorias iid con densidad de probabilidad

f (x; α) = αxe−αx I( x>0 ) , con α > 0, constante.
2
a) Pruebe que si X sigue la distribucin descrita, entonces X 2 se distribuye exponencial

de parámetro α.
∑n 2
b) Muestre que i=1 Xi tiene distribución Gamma.
n
c) Sea Y = . Determine E(Y ), y encuentre el valor de c, tal que E(cY ) = α.
T
- 319 -
Recuerde que, si Y ∼ Gamma(a, b), a, b > 0, entonces
- E(Y ) = ab , V ar(Y ) = a
b2
.
- MY (t) = (1 − bt )−a , t < b.

( ) ( )
1 b 1 b2
- Para a ̸= 1 y a ̸= 2, E = y V ar = .
Y a−1 Y (a − 1)2 (a − 2)
Problema 2.6.Z: Sean X1 , . . . , Xn variables aleatorias iid exp(θ). Encuentre la dis-

∑
n
tribución de la variable aleatoria Y = 2θ Xi .
i=1
Problema 2.6.AA: Asuma que (X1 , X2 , X3 ) ∼ N (µ, Σ) y además X1 , X2 , X3 satisfacen
i) X1 y X2 + X3 son independientes.
ii) X2 y X1 + X3 son independientes.
iii) X3 y X1 + X2 son independientes.
Pruebe que X1 , X2 , X3 son independientes.
- 320 -
2.7. APROXIMACIÓN
2.7 Aproximación
El teorema que enunciaremos en esta sección permite calcular probabilidades (aproxima-

das) en las que está involucrada una suma de n variables aleatorias independientes y
con igual distribución, sin necesariamente conocer la distribución de la suma. Más pre-
cisamente, estudia el comportamiento asintótico de una suma estandarizada de variables
aleatorias iid.
Este teorema es conocido como Teorema del Lı́mite Central Clásico, y es uno de los
principales resultados de la Teorı́a de Probabilidades.
Teorema 2.7.1: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias independientes y con

igual distribución (iid), con media común µ y varianza común σ 2 , 0 < σ 2 < ∞.
Para cada n ≥ 1, se definen las variables aleatorias
∑
n
Sn − E(Sn )
Sn = Xi , Yn = √ .
i=1
V ar(Sn )
Entonces, para todo t real,
lim FYn (t) = FZ (t),

n→∞
con Z ∼ N (0, 1). Es decir,
lim P (Yn ≤ t) = P (Z ≤ t) := Φ(t).

n→∞
Notar que, por el hecho de que X1 , X2 , . . . tienen igual distribución,
Sn − nµ
Yn = √
nσ 2
√ ( )
n X1 + · · · + Xn
= −µ .
σ n
El teorema anterior puede leerse como: para “n grande”, la variable aleatoria Yn es
próxima a una variable aleatoria Normal (0, 1).
La demostración de este teorema escapa los objetivos de este texto, pero, puede consul-
tarse, por ejemplo, en [10]. A continuación presentamos un bosquejo de la demostración.
Nota:
( Esta propiedad
) es la que permite decir que, para n “suficientemente grande”,
Sn −E(Sn )
P √ ≤ an es aproximadamente igual a Φ(an ), (el número Φ(an ) se calcula desde
V (Sn )
una tabla N(0,1)).
Demostración: Para demostrar el Teorema 2.7.1 es suficiente probar que (Ver sección
2.9)
t2
lim ΦYn (t) = e− 2 ,
n→∞
- 321 -
2.7 Aproximación
donde ΦYn (·) representa la función caracterı́stica asociada a la variable aleatoria Yn .

Calculemos la función ΦYn (t).
  
 it ∑ [ ( { })]n
Xj − µ 
n
it (X1 − µ)
ΦYn (t) = E(eitYn ) = E exp √ = E exp √
 n σ  n σ
j=1
donde usamos que las variables aleatorias X1 , X2 , ..., Xn son iid.

( ( ))n
X1 −µ it
Denotemos por W = σ , luego ΦYn (t) = E exp √ W .
n
Consideremos la serie de Taylor de la función exponencial en torno de cero hasta orden 3.
it
√ W it i 2 t2 2 i3 t3 √itξ
e n = 1+ √ W + W + 3/2 e n W 3 .
n 2n 6n
Note que E(W ) = 0 y V ar(W ) = 1.
Luego tomando esperanza en la última expresión tenemos
2
( 3 3 )
√it
W t 1 i t itξ
√
E(e n ) = 1 − + E √ e nW .3
2n n 6 n
( )
itξ
i3√t3 √n
Sea Rn = E 6 n e W . Se puede probar que Rn converge a cero conforme n tiende a
3
infinito.
Por lo tanto,
[ ]n
t2 Rn t2
lim ΦYn (t) = lim 1 − + = e− 2 .
n→∞ n→∞ 2n n
lo concluye la demostración.
Ejemplo 2.7.1: Considere el promedio X̄n = n1 (X1 + · · · + Xn ), de n variables aleato-

rias independientes, cada una de ellas con distribución uniforme sobre ]0, 1[, esto es,
X1 , . . . , Xn son iid U (0, 1).
Encontremos el valor de n, de modo que, P (X̄n ≤ 0.51), sea aproximadamente igual a 0.9.
En este caso, para todo i ≥ 1,
1−0 (1 − 0)2 1
E(Xi ) = = 0.5 y V ar(Xi ) = = .
2 12 12
En consecuencia,
P (X̄n ≤ 0.51) = P (X1 + · · · + Xn ≤ 0.51 n)

( )
= P √ n −n 0.5
X1 +···+X
≤ 0.51
√n−n 0.5 .
1 1
n 12
n 12
- 322 -
2.7 Aproximación
Por lo tanto, Teorema 2.7.1 implica que, para n “grande”,

( )
P (X̄n ≤ 0.51) ≃ Φ 0.51
√n−n 0.5
1
n 12
(√ √ )
= Φ n 12 0.01 .
Por las condiciones del problema, n debe satisfacer la ecuación
(√ √ )
Φ n 12 0.01 = 0.9.
Usando la tabla normal (0, 1), se deduce que

√ √
n 12 0.01 = 1.29,
de donde
1292
n= ,
12
o sea n = 1387.
Ejemplo 2.7.2: La inspección de un cierto tipo de piezas metálicas es destructiva.

Se sabe que el costo, en pesos, por inspeccionar una pieza es 100 veces su longitud, en
milı́metros. Si la longitud de una pieza es una variable aleatoria con media 12mm y
desviación estándar 0.2mm. ¿Cuál es el número de piezas que se deben inspeccionar en
un dı́a, para que, con probabilidad “cercana” a 0.8413, la pérdida diaria por inspección no
supere los $43.320? Asumiremos que la longitud de una pieza cualquiera no influye en la
longitud de cualquier otra.
Para cada i ≥ 1, definamos las siguientes variables aleatorias:
Li = longitud, en milı́metros, de la i-ésima pieza inspeccionada,
Pi = costo, en pesos, por inspeccionar la i-ésima pieza.
Supongamos que el número de piezas que deben ser inspeccionadas es n. Entonces,

de los datos del problema, podemos asumir que L1 , L2 , . . . , Ln son iid. con media común
12mm y varianza común (0.2)2 mm2 .
También, para cada i ≥ 1, definamos Pi = 100Li . Ası́, si denotamos por Sn a la
variable aleatoria que representa la pérdida diaria por inspección, entonces
∑
n
Sn = Pi .
i=1
Por ser L1 , . . . , Ln iid. con media común 12mm y desviación estándar 0.2mm, se
deduce que P1 , . . . , Pn son iid. con media común $1200 y desviación estándar común $20.
Ahora, por las condiciones del problema, n debe satisfacer la relación
P (Sn < 43.320) ≃ 0.8413.
- 323 -
2.7 Aproximación
Pero, ( )
Sn − n 1200 43.320 − n 1200
P (Sn < 43.320) = P √ < √ ,
n 202 n 202
por lo que Teorema 2.7.1 implica
( )
43.320 − n 1200
P (Sn < 43.320) ≃ Φ √ ,
n 202
y de la tabla normal (0, 1) concluimos que
43.320 − n 1200
√ = 1,
n 202
de donde n = 36.
Es decir, se deben inspeccionar 36 piezas en el dı́a para que la pérdida no supere los
$43.320, esto con un 84% de certeza.
Ejemplo 2.7.3: Se arroja n veces un dado equilibrado. Sea Z la variable aleatoria que
representa la suma de todos los puntos obtenidos.
a) Calculemos, para n = 200, el valor aproximado de P (680 ≤ Z ≤ 720).
( )
b) ¿Cuál serı́a el menor valor de n tal que P Zn − 3.5 ≤ 0.1 ≥ 0.9?
Para cada i ≥ 1, denotemos por Zi a la variable aleatoria que representa el número
que aparece al lanzar el dado en la i-ésima oportunidad.
Por las condiciones del problema, podemos asumir que las variables aleatorias Z1 , . . . , Zn
son iid uniformes sobre {1, 2, 3, 4, 5, 6}, o sea, Z1 , . . . , Zn son iid con media común
1 1 1 1 1 1
µ= 1· +2· +3· +4· +5· +6·
6 6 6 6 6 6
= 3.5
y varianza común
1 1 1 1 1 1
σ 2 = 12 · + 22 · + 32 · + 42 · + 52 · + 62 · − 3.52
6 6 6 6 6 6
35
= .
12
∑n
Ası́, si Z = i=1 Zi , y n = 200,
 
680 − 200 · 3.5 Z − 200 · 3.5 720 − 200 · 3.5 
P (680 ≤ Z ≤ 720) = P  √ ≤ √ ≤ √
200 · 35
12 200 · 35
12 200 · 12
35
 
Z − 200 · 3.5 720 − 200 · 3.5 
= P √ ≤ √
200 · 35
12 200 · 12
35
 
Z − 200 · 3.5 680 − 200 · 3.5 
−P  √ ≤ √ .
200 · 12
35
200 · 35
12
- 324 -
2.7 Aproximación
Teorema 2.7.1 implica que

   
720 − 200 · 3.5  680 − 200 · 3.5 
P (680 ≤ Z ≤ 720) ≃ Φ  √ − Φ √
200 · 35
12 200 · 35
12
= Φ(0.83) − Φ(−0.83)
= Φ(0.83) − (1 − Φ(0.83))
= 2 Φ(0.83) − 1
= 0.5934.
También, para cada n ≥ 1,

( ) ( )
Z Z
P − 3.5 ≤ 0.1 = P −0.1 ≤ − 3.5 ≤ 0.1
n n
= P (−0.1 n ≤ Z − 3.5 n ≤ 0.1 n)

 
−0.1 n Z − 3.5 n 0.1 · n 
= P √ ≤ √ ≤√ .
n · 35
12 n · 35
12 n · 35
12
Nuevamente, Teorema 2.7.1 implica que

   
( )
Z 0.1 n  −0.1 n 
P − 3.5 ≤ 0.1 ≃ Φ  √ − Φ √
n n · 35 n · 35
12 12
    
0.1 n 0.1 n
= Φ √  − 1 − Φ  √ 
n · 35
12 n · 35
12
 
0.1 n 
= 2Φ  √ − 1.
n · 35
12
( )
Por lo tanto, el menor natural n que debe cumplir P Zn − 3.5 ≤ 0.1 ≥ 0.9, satisface
la relación  
0.1 n 
2Φ  √ − 1 ≥ 0.9,
n · 35
12
es decir, satisface que ( )

√
√ 12
Φ n √ ≥ 0.95.
10 35
- 325 -
2.7 Aproximación
Desde la tabla normal (0, 1) se concluye que

√
√ 12
n √ ≥ 1.65,
10 35
o sea,
n ≥ 794.0625.
En consecuencia, el número mı́nimo
( Z de lanzamientos
) del dado que se deben realizar,

para que se cumpla la relación P n − 3.5 ≤ 0.1 ≥ 0.9, es n = 795.
Ejemplo 2.7.4: En una ciudad, la proporción de consumidores que prefieren la marca

(A) de bebida gaseosa es p. Se toma una muestra al azar de tamaño n (la ciudad es lo
bastante grande como para que se puedan considerar equivalentes al muestreo con o sin
reemplazo). Sea R la proporción de consumidores en la muestra que prefieren la marca A.
Calculemos:
a) aproximadamente P (|R − p| ≤ 0.01), si p = 0.2 y n = 200,
b) el menor δ > 0 tal que P (|R − p| ≤ δ) ≥ 0.9, si p = 0.2 y n = 200,
c) el menor natural n tal que P (|R − p| ≤ 0.01) ≥ 0.9, si p = 0.2,
d) el menor natural n tal que P (|R − p| ≤ 0.01) ≥ 0.9, si 0.1 < p < 0.3.
Denotemos por Xi la variable aleatoria que indica 1 si el consumidor muestreado pre-

fiere la marca A, y 0 si no.
Como se consideran equivalentes el muestreo con o sin reemplazo, podemos asumir
que X1 , . . . , Xn son iid binomiales de parámetros (1, p), es decir, tienen media común p
y varianza común p (1 − p). Además, como R es la proporción de consumidores en la
muestra que prefieren la marca A, entonces
X1 + · · · + Xn
R= .
n
Ası́, para δ > 0,
P (|R − p| ≤ δ) = P (−δ < R − p < δ)

( √ √ √ )
n n n
= P −δ √ <√ (R − p) < δ √ ,
p(1 − p) p(1 − p) p(1 − p)
por lo que Teorema 2.7.1 implica que

( √ ) ( √ )
δ n δ n
P (|R − p| ≤ δ) ≃ Φ √ − Φ −√
p(1 − p) p(1 − p)
( √ )
δ n
= 2Φ √ − 1.
p(1 − p)
- 326 -
2.7 Aproximación
Para a), p = 0.2; n = 200 y δ = 0.01, de donde

( √ )
δ n
2Φ √ − 1 = 2Φ(0.35) − 1
p(1 − p)
= 0.2736.
En el caso b), p = 0.2; n = 200 y δ cumple que P (|R − p| ≤ δ) ≥ 0.9. Por esta razón,
( √ )
δ 200
2Φ √ − 1 ≥ 0.9,
0.2 · 0.8
de donde
Φ(35.6 δ) ≥ 0.95,
o sea, el menor δ > 0 satisface que, 35.6 δ ≥ 1.65, por lo que δ = 0.047.
En el punto c), se debe cumplir la relación

( √ )
0.01 n
2Φ √ − 1 ≥ 0.9,
0.2 · 0.8
de donde √
0.01 n
≥ 1.65.
0.4
Entonces, el menor n que satisface la relación pedida es n = 4356.
Finalmente, en el caso d), se debe cumplir que

( √ )
0.01 n
Φ √ ≥ 0.95,
p(1 − p)
es decir, √
0.01 n
√ ≥ 1.65,
p(1 − p)
por lo que
n ≥ 27225 p (1 − p).
La función g(p) = p(1 − p), 0 < p < 1, se muestra en la figura siguiente
g(p)
0.25
0.5 1 p
Figura 2.7.1
- 327 -
2.7 Aproximación
En consecuencia, la función g(p) es creciente para 0 < p < 0.5, por lo que se tiene
g(0.1) < g(p) < g(0.3), de donde,
0.1 · 0.9 < p(1 − p) < 0.3 · 0.7,
o sea,
0.09 < p(1 − p) < 0.21,
concluyéndose que
2450.25 < 27225 p (1 − p) < 5717.25.
Por lo tanto, el menor valor de n es 5718.
Ejemplo 2.7.5: Sean f : [0, 1] → R+ función continua, tal que

∫ 1
sup |f (x)| = m < 1 y p= f (t)dt .
x∈[0,1] 0
Sean Z1 , . . . , Zn , vectores bidimensionales tales que:
a) Z1 , . . . , Zn independientes,
b) Zi ∼ U (G), con G = [0, 1] × [0, 1].
Para cada i ≥ 1, se define la variable aleatoria Xi por, Xi = I(Zi ∈D) , donde

D = {(x, y) ∈ [0, 1]2 : 0 < y ≤ f (x)}, es decir, Xi es uno si el punto escogido al azar está
en la región D y 0 si no.
La área sombreada de la figura siguiente muestra la región D.
f (x)
1 x
Figura 2.7.2
Calculemos
i) E(X̄n ) y V (X̄n ),
ii) el mı́nimo natural n, de modo que con probabilidad inferior a 0.005, la distancia
entre X̄n y p sea mayor que 0.01.
- 328 -
2.7 Aproximación
Desde que los vectores Z1 , . . . , Zn son iid U ([0, 1] × [0, 1]), se tiene que las variables
aleatorias X1 , . . . , Xn son iid, por lo que,
1
E(X̄n ) = n E(X1 )
n
= P (Z1 ∈ D)
∫ ∫
= fZ1 (u, v)dudv
D
área D
=
área G
= área D
= p,
y
1
V (X̄n ) = n V (X1 )
n2
1
=p(1 − p).
n
Para el caso ii), n debe satisfacer la relación
( )
P X̄n − p > 0.01 < 0.005.
Nótese que, la desigualdad de Chebyshev implica que
( ) V (X̄n ) p (1 − p)
P X̄n − E(X̄n ) > 0.01 ≤ = ,
(0.01)2 n (0.01)2
p(1−p)
luego, n debe satisfacer la desigualdad n(0.01)2
≤ 0.005, lo cual equivale a que
p (1−p) p (1−p)
n≥ (0.01)2 ·0.005
= 5·10−7
.
Si se asume que f (x) = 34 x2 , entonces p = 41 , y luego basta tomar n ≥ 375.000.

También, usando Teorema 2.7.1, se deduce que
( ) ( )
P X̄n − p > 0.01 = 1 − P X̄n − p ≤ 0.01
( √ √ )

n n
= 1 − P √ (X̄ − p) ≤ √ 0.01
p(1 − p) p(1 − p)
[ ( √ ) ]
n
≃ 1 − 2Φ √ · 0.01 −1 .
p(1 − p)
Por lo tanto, n debe satisfacer la desigualdad
( √ )
n
1 − 2Φ √ 0.01 + 1 < 0.005,
p(1 − p)
- 329 -
2.7 Aproximación
o sea √
n
√ 0.01 > 2.81,
p(1 − p)
por lo que n ≥ 7896 p(1 − p).
Para el caso en que p = 41 , el número n debe ser n = 14805.
Notar, que el número de puntos que se deben generar para calcular X̄n , en el caso
p = 41 , se reduce drásticamente si se usa el Teorema del Lı́mite Central en lugar de la
desigualdad de Chebyshev. ∫1
Este ejemplo muestra como aproximar la integral 0 f (x)dx por medio de X̄n , el cual
puede ser generado computacionalmente.
Ejemplo 2.7.6: (Aproximación normal a la binomial) Sean A1 , . . . , An , sucesos

independientes y tales que, para todo i ∈ {1, . . . , n}, P (Ai ) = p, 0 < p < 1.
Consideremos ahora las variables aleatorias Xi = IAi , 1 ≤ i ≤ n, esto es, Xi vale uno
si el suceso Ai ocurre y 0 si no. Entonces, X1 , . . . , Xn son iid con media común
E(Xi ) =E (IAi )
=1 P (IAi = 1) + 0 P (IAi = 0)
=P (Ai )
=p,
y varianza común,
V ar(Xi ) =V ar (IAi )
( 2 )
=E IA i
− [E (IAi )]2
=12 P (IAi = 1) + 02 P (IAi = 0) − p2
=P (Ai ) − p2
=p − p2
=p(1 − p).
Teorema 2.7.1 implica que, para “n grande”,

( )
X1 + · · · + Xn − np x − np
P (X1 + · · · + Xn ≤ x) = P √ ≤√
np(1 − p) np(1 − p)
( )
x − np
≃ Φ √ .
np(1 − p)
Cabe hacer notar que, X1 + · · · + Xn ∼ Bi(n, p), por esta razón, la aproximación
anterior se acostumbra a leer de la siguiente forma:
Si X ∼ B(n, p), entonces √X−np tiene distribución aproximadamente N (0, 1), o dicho
np(1−p)
de otra forma, X tiene distribución aproximadamente N (np, np(1 − p)).
- 330 -
2.7 Aproximación
La aproximación anterior puede mejorarse utilizando

( la llamada
) “corrección
( por con-)
tinuidad” (véase [8]) que consiste en aproximar con Φ √x+0.5−np
en lugar de Φ √ x−np ,
np(1−p) np(1−p)
esto es, si X ∼ B(n, p), entonces
( )
x + 0.5 − np
P (X ≤ x) ≃ Φ √ .
np(1 − p)
En particular, para los naturales m, r tal que 0 ≤ m < r ≤ n,

P (m ≤ X ≤ r) = P (X ≤ r) − P (X < m)
= P (X ≤ r) − P (X ≤ m − 1)
( ) ( )
r + 0.5 − np m − 1 + 0.5 − np
= Φ √ −Φ √
np(1 − p) np(1 − p)
( ) ( )
r + 0.5 − np m − 0.5 − np
= Φ √ −Φ √ .
np(1 − p) np(1 − p)
( )
Por ejemplo, si X ∼ B 50, 13 , entonces
13 ( ) ( )k ( )50−k
∑ 50 1 2
P (10 ≤ X ≤ 13) = ,
k 3 3
k=10
y después de algunos cálculos resulta que P (10 ≤ X ≤ 13) = 0.15875746502.

Usando la aproximación normal, obtenemos que
   
13.5 − 350
9.5 − 350
P (10 ≤ X ≤ 13) ≃ Φ  √  − Φ√ 
3 · 3 3 · 3
50 2 50 2
= Φ(−0.95) − Φ(−2.15)
= Φ(2.15) − Φ(0.95)
= 0.1553 .
Más aún, existe otra aproximación de la distribución binomial que resulta ser todavı́a
más precisa.
Si X ∼ B(n, p), entonces
( )
x + 0.5 − np 1 1 − 2p
P (X ≤ x) ≃ Φ √ − √
np(1 − p) 6 np(1 − p)
{[ ] ( )}
(x + 0.5 − np)2 x + 0.5 − np
· −1 Φ √ .
np(1 − p) np(1 − p)
- 331 -
2.7 Aproximación
Usando esta aproximación puede verificarse como mejora la aproximación de la probabi-

lidad P (10 ≤ X ≤ 13).
Ejemplo 2.7.7: (Aproximación normal a la Poisson) Sean X1 , . . . , Xn , variables

aleatorias iid con distribución Poisson de parámetro 1, esto es, X1 , . . . , Xn iid con media
común 1 y varianza común 1. Entonces, usando la función generadora de momentos, se
verifica que (X1 + · · · + Xn ) ∼ P(1 + 1 + · · · + 1), o sea, (X1 + · · · + Xn ) ∼ P(n).
Luego, Teorema 2.7.1 implica que
( )
X1 + · · · + Xn − n · 1 x−n·1
P (X1 + · · · + Xn ≤ x) = P √ ≤ √
n·1 n·1
( )
x−n
≃ Φ √ .
n
En este sentido, si X ∼ P(n), n natural, entonces, para todo x real,

( )
x−n
P (X ≤ x) ≃ Φ √ .
n
Más aún si X ∼ P(λ), λ > 0, se puede verificar (usando, por ejemplo, que la dis-
tribución de Poisson es infinitamente divisible) que, para λ “grande”,
( )
P (X ≤ x) ≃ Φ x−λ√
λ
, x real.
Esta es la razón por la cual se dice que si X ∼ P(λ), entonces, para λ “grande”, X−λ
√
λ
tiene distribución aproximadamente N (0, 1).
Por ejemplo, si X ∼ P(900),
P (X > 950) = 1 − P (X ≤ 950)

( )
≃ 1−Φ 950−900
√
900
(5)
= 1−Φ 3
= 0.04779.
Es posible verificar que el valor exacto de P (X > 950) es 0.04712.
- 332 -
2.8. DEPENDENCIA
2.8 Dependencia
Sean X e Y dos variables aleatorias definidas sobre un mismo espacio muestral Ω.

Si conociéramos un modelo probabilı́stico para el comportamiento conjunto de X con Y,
¿qué información aporta X respecto de Y ? Es decir, si la variable aleatoria X toma el
valor x (ocurrió el suceso (X = x)) ¿cuál es ahora el comportamiento probabilı́stico de la
variable aleatoria Y ?
La herramienta que permite responder, en particular, la pregunta anterior es el con-
cepto de distribución condicional.
2.8.1 Caso discreto

Sea (X, Y ) vector aleatorio discreto, en particular, se deduce que X e Y son variables
aleatorias discretas. La probabilidad de Y = y, dado que X = x es, para P (X = x) > 0,
P (X = x, Y = y)
P (Y = y/X = x) =
P (X = x)
pX,Y (x, y)
= .
pX (x)
Es común definir P (Y = y/X = x) = 0, cuando P (X = x) = 0.

La probabilidad condicional, P (Y = y/X = x), se acostumbra a denotar por pY /X=x (y) o
también por pY /X (y/x).
Nótese que pY /X=x (y) ≥ 0 y si x ∈ RecX = {u : pX (u) > 0},
∑ ∑ pX,Y (x, y)
pY /X=x (y) =
pX (x)
y∈RecY y∈RecY
1 ∑
= pX,Y (x, y)
pX (x)
y∈RecY
1
= pX (x)
pX (x)
= 1.
En consecuencia si, x ∈ RecX, entonces pY /X=x es una función de distribución de

probabilidad, conocida como distribución condicional.
Por ejemplo, si pY /X=x resulta la distribución de probabilidad binomial de pará-
metros (x, p), entonces se usa la notación
Y /X = x ∼ B(x, p).
Es evidente, desde la definición de pY /X=x , que en el caso en que X e Y sean indepen-

dientes,
pY /X=x (y) = pY (y).
- 333 -
2.8 Dependencia
Ejemplo 2.8.1: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
X\Y 0 1 2 3
1 2 3
0 28 28 28 0
4 5 6 7
1 28 28 28 28
Tabla 2.8.1
Entonces,
pX,Y (0, y)
pY /X=0 (y) =
pX (0)
pX,Y (0, y)
= 6 .
28
Ası́,
1 3
28 1 28 3
pY /X=0 (0) = 6 = , pY /X=0 (2) = 6 = ,
28
6 28
6
2
28 2 0
pY /X=0 (1) = 6 = , pY /X=0 (3) = 6 = 0.
28
6 28
También,
pX,Y (1, y)
pY /X=1 (y) =
pX (1)
pX,Y (1, y)
= 22 .
28
Por lo tanto,
4 6
28 4 28 6
pY /X=1 (0) = 22 = , pY /X=1 (2) = 22 = ,
28
22 28
22
5 7
28 5 28 7
pY /X=1 (1) = 22 = , pY /X=1 (3) = 22 = .
28
22 28
22
Análogamente, cambiando el rol de X por el de Y ,
pX,Y (x, y)
pX/Y =y (x) = ,
pY (y)
- 334 -
2.8 Dependencia
por lo que
pX,Y (x, 0) pX,Y (x, 0)

pX/Y =0 (x) = = 5 ,
pY (0) 28
o sea,
1 4
28 1 28 4
pX/Y =0 (0) = 5 = , pX/Y =0 (1) = 5 = .
28
5 28
5
De similar forma,
2 3
28 2 28 3 0
pX/Y =1 (0) = 7 = , pX/Y =2 (0) = 9 = , pX/Y =3 (0) = 7 = 0,
28
7 28
9 28
5 6 7
28 5 28 6 28
pX/Y =1 (1) = 7 = , pX/Y =2 (1) = 9 = , pX/Y =3 (1) = 7 = 1.
28
7 28
9 28
Ejemplo 2.8.2: Sean X e Y los números de los intentos correspondientes al primer y

segundo éxito en un esquema Bernoulli con parámetro p. Calculemos la distribución de
probabilidad pX/Y =y .
Notemos que Rec(X, Y ) = {(x, y) ∈ N × N : x < y}, ya que el segundo éxito no puede
ocurrir antes del primero. Además,
{
(1 − p)x−1 p (1 − p)y−x−1 p si x < y
P (X = x, Y = y) =
0 e.o.c.
Por ejemplo, si x = 3 e y = 8,
1 2 3 4 5 6 7 8
F F E F F F F E
1−p 1−p p 1−p 1−p 1−p 1−p p
También, como vimos en la Sección 2.1, Y ∼ BN (2, p). Ası́,
{
(y − 1)p2 (1 − p)y−2 si y ∈ {2, 3, . . .}
P (Y = y) =
0 e.o.c.
En consecuencia, si y ∈ {2, 3, . . .},
pX,Y (x, y)
pX/Y =y (x) =
pY (y)

 (1 − p)
x−1 p (1 − p)y−x−1 p
si x ∈ {1, . . . , y − 1}
= (y − 1) p2 (1 − p)y−2

0 e.o.c.

 1 si x ∈ {1, . . . , y − 1}
= y−1
0 e.o.c.
- 335 -
2.8 Dependencia
Es decir, X/Y = y ∼ U {1, . . . , y − 1}.

Intuitivamente, saber que el segundo éxito ocurrió en el y-ésimo intento, no da ninguna
información sobre cuando ocurrió el primero.
Observación 2.8.1: De la definición de distribución condicional se obtiene que
pX,Y (x, y) = pY /X=x (y) pX (x),
de donde ∑ ∑
pX,Y (x, y) = pY /X=x (y) pX (x),
x∈RecX x∈RecX
es decir, ∑
pY (y) = pY /X=x (y) pX (x).
x∈RecX
Por analogı́a,
pX,Y (x, y) = pX/Y =y (x) pY (y),
y ∑
pX (x) = pX/Y =y (x) pY (y).
y∈RecY
Por otra parte,

pX,Y (x, y)
pY /X=x (y) =
pX (x)
pX/Y =y (x) pY (y)

= ,
pX (x)
o sea,
pX/Y =y (x) pY (y)
pY /X=x (y) = ,
pX (x)
o también
pX/Y =y (x) pY (y)
pY /X=x (y) = ∑ .
pX/Y =v (x) pY (v)
v∈RecY
Intercambiando el rol de X por el de Y obtenemos
pY /X=x (y) pX (x)

pX/Y =y (x) = ∑ .
pY /X=u (y) pX (u)
u∈RecX
Notar que cada una de las relaciones obtenidas en esta observación tiene un análogo en la
Sección 1.5.
Ejemplo 2.8.3: Supongamos que en una Compañı́a de Seguros, el número de pólizas

de seguros de automóviles, que se cobrarán durante el año 2004, es una variable aleatoria
X que sigue una distribución Poisson (α). Asumamos que la proporción de pólizas que
cobran más de UF100 es p, y que el cobro de una póliza cualquiera no tiene relación con
el cobro de otra.
- 336 -
2.8 Dependencia
Encontremos la distribución de probabilidad para el número de pólizas que cobrarán

más de UF100 en el año 2004.
Si llamamos Y a la variable aleatoria que cuenta el número de pólizas que cobrarán
más de UF100 en el año 2004, entonces, por los supuestos del problema, podemos asumir
que
Y /X = x ∼ B(x, p).
Por ejemplo si X = 250, entonces en el año 2004 se cobrarán 250 pólizas, y cada una
de estas cobrará más de UF100 (éxito) o cobrará menos de UF100 (fracaso).
Sea y natural, entonces,
∑
P (Y = y) = pY (y) = pY /X=x (y) pX (x)
x∈RecX
∑∞ ( )
x y αx
= p (1 − p)x−y e−α .
x=y
y x!
Nótese que, para x < y, pY /X=x (y) = 0, ya que el número de pólizas que cobran más de
UF100 no puede exceder al total de pólizas.
En consecuencia,
∞
∑ x! αx
P (Y = y) = py (1 − p)x−y e−α
x=y
(x − y)! y! x!
∞
py e−α ∑ 1
= (1 − p)x−y αx−y αy
y! x=y (x − y)!
∞
py e−α αy ∑ 1
= [(1 − p)α]x−y .
y! x=y
(x − y)!
Realizando, en la sumatoria, el cambio de variable k = x − y, obtenemos
∞
py e−α αy ∑ 1
P (Y = y) = [(1 − p) α]k
y! k!
k=0
py e−α αy (1−p) α
= e
y!
(α p)y −α p
= e .
y!
Por lo tanto,
Y ∼ P(α p) .
- 337 -
2.8 Dependencia
Además, si x, y ∈ N0 , con x ≥ y,
pY /X=x (y) pX (x)
pX/Y =y =
pY (y)
(x )
y py (1 − p)x−y e−α αx
x!
= (αp)y
y! e−αp
( )
x y!
= (1 − p)x−y e−α(1−p) αx−y
y x!
1
= [α(1 − p)]x−y e−α(1−p) .
(x − y)!
2.8.2 Caso continuo

Sea (X, Y ) vector aleatorio continuo (en particular X e Y son variables aleatorias con-
tinuas). Por analogı́a con el caso discreto, se define la densidad condicional de Y dado
X = x por
fX,Y (x, y)
fY /X=x (y) = , si fX (x) ̸= 0.
fX (x)
También acá es común definir fY /X=x (y) = 0 cuando fX (x) = 0.
Notar que, para todo x ∈ R, P (X = x) = 0, por lo que la interpretación de fY /X=x (y)

es un poco diferente al caso discreto.
En efecto, si dx; dy son diferenciales, entonces, como vimos en la Sección 2.3,
P (x ≤ X ≤ x + dx, y ≤ Y ≤ y + dy)
P (y < Y ≤ y + dy / x ≤ X ≤ x + dx) =
P (x ≤ X ≤ x + dx)
fX,Y (x, y)dxdy

≃
fX (x)dx
fX,Y (x, y)
= dy,
fX (x)
lo que motiva la definición de fY /X=x (y).
También, fY /X=x (y) ≥ 0 y si x ∈ RecX = {u : fX (u) > 0},
∫ ∞ ∫ ∞
fX,Y (x, y)
fY /X=x (y)dy = dy
−∞ −∞ fX (x)
∫ ∞
1
= fX,Y (x, y)dy
fX (x) −∞
1
= fX (x)
fX (x)
= 1.
- 338 -
2.8 Dependencia
En consecuencia, si x ∈ RecX, entonces fY /X=x es una función de densidad de probabili-

dad, conocida como densidad condicional.
Por ejemplo, si fY /X=x resulta la función de densidad normal de parámetros (0, x2 +1),
entonces se usa la notación Y /X = x ∼ N (0, x2 + 1).
En el caso continuo, también es evidente que, si X e Y son independientes, entonces
fY /X=x (y) = fY (y).
Ejemplo 2.8.4: Sea (X, Y ) vector aleatorio continuo con densidad conjunta dada por
{
λ2 e−λy si 0 ≤ x ≤ y
f(X,Y ) (x, y) =
0 e.o.c.
Encontremos fY /X=x y fX/Y =y .

Primeramente, encontremos las distribuciones marginales fX y fY .
∫ ∞
fX (x) = fX,Y (x, y)dy
−∞
∫ x ∫ ∞



 0dy + λ2 e−λy dy si x ≥ 0
0 x
=



0 e.o.c.
{
λ e−λx si x ≥ 0
=
0 e.o.c.
y
∫ ∞
fY (y) = fX,Y (x, y)dx
−∞
∫ y ∫ ∞

 2 −λy
si y ≥ 0

 0 λ e dx + 0dx
y
=



0 e.o.c.
{
λ2 y e−λy si y ≥ 0
=
0 e.o.c.
- 339 -
2.8 Dependencia
Ası́, para x ≥ 0,
fX,Y (x, y)
fY /X=x (y) =
fX (x)
{
λ2 e−λy
λ e−λx
si y ≥ x
=
0 e.o.c.
{
λ e−λ(y−x) si y ≥ x
=
0 e.o.c.
Es decir, la densidad condicional de Y dado X = x resulta exponencial sobre [x, ∞[.

También, para y > 0,
fX,Y (x, y)
fX/Y =y (x) =
fY (y)
{
λ2 e−λy
λ2 y e−λy
si 0 < x ≤ y
=
0 e.o.c.
{
1
y si 0 < x ≤ y
=
0 e.o.c.
Es decir, X/Y = y ∼ U (0, y).
Observación 2.8.2: Al igual que en el caso discreto, a partir de la densidad condicional

se obtiene que
fX,Y (x, y) = fY /X=x (y) fX (x),
de donde
∫ ∞ ∫ ∞
fX,Y (x, y)dx = fY /X=x (y) fX (x)dx,
−∞ −∞
o sea
∫ ∞
fY (y) = fY /X=x (y) fX (x)dx.
−∞
Por analogı́a,
fX,Y (x, y) = fX/Y =y (x) fY (y)
y
∫ ∞
fX (x) = fX/Y =y (x) fY (y)dy.
−∞
- 340 -
2.8 Dependencia
Además, la relación entre las densidades condicionales está dada por
fX,Y (x, y)
fY /X=x (y) =
fX (x)
fX/Y =y (x) fY (y)

= ,
fX (x)
o dicho de otra forma,
fX/Y =y (x) fY (y)

fY /X=x (y) = ∫ ∞ .
−∞ fX/Y =v (x) fY (v)dv
Análogamente,
fY /X=x (y) fX (x)
fX/Y =y (x) = ∫ ∞ .
−∞ fY /X=u (y) fX (u)du
Ejemplo 2.8.5: Sean X e Y variables aleatorias continuas y supongamos que x es real

tal que x ∈]0, 1[. Si X ∼ U (0, 1) y Y /X = x ∼ U (x, x + 1), calculemos fX/Y =y .
Desde que X ∼ U (0, 1) y Y /X = x ∼ U (x, x + 1), se deduce que
{
1 si 0 < u < 1
fX (u) =
0 e.o.c.
y {
1 si x < y < x + 1
fY /X=x (y) =
0 e.o.c.
Además,
fY /X=x (y) fX (x)
fX/Y =y (x) = ∫ ∞ .
−∞ fY /X=u (y) fX (u)du
La región sombreada de la figura siguiente muestra al subconjunto del plano

{(x, y) ∈ R2 : 0 < x < 1 , x < y < x + 1}.
y=x+1
2
1 x
y=x
Figura 2.8.1
- 341 -
2.8 Dependencia
Ası́,
∫ y

 1 · 1du si 0 < y < 1
∫ 

∞  0
fY /X=u (y) fX (u)du =
−∞ ∫



1
 1 · 1du si 1 ≤ y < 2
y−1
{
y si 0 < y < 1
=
2−y si 1 ≤ y < 2.
Además, si 0 < y < 1,
1 · 1

 si 0 < x < y
 y
fX/Y =y (x) =



0 e.o.c.
1

 si 0 < x < y
y
=



0 e.o.c.
y para 1 ≤ y < 2,
 1·1

 si y − 1 < x < 1
2 − y
fX/Y =y (x) =



0 e.o.c.
 1

 si y − 1 < x < 1
2 − y
=



0 e.o.c.
Por lo tanto, si 0 < y < 1, entonces X/Y = y ∼ U (0, y) y si 1 ≤ y < 2, entonces

X/Y = y ∼ U (y − 1, 1).
Ejemplo 2.8.6: Sea (X, Y ) vector aleatorio con densidad conjunta f , dada por
[
1 −1
f (x, y) = √ exp
2πσ1 σ2 1 − ρ2 2(1 − ρ2 )
(( )2 ( )( ) ( )2 )]
x − µ1 x − µ1 y − µ2 y − µ2
· − 2p + ,
σ1 σ1 σ2 σ2
(x, y) ∈ R2 y µ1 , µ2 , σ1 , σ2 , ρ constantes tales que, σ1 > 0, σ2 > 0, |ρ| < 1.

Encontremos las distribuciones condicionales X/Y = y; Y /X = x.
- 342 -
2.8 Dependencia
Recordemos que, de lo visto en la Sección 2.4,

( )
σ12 ρσ1 σ2
(X, Y ) ∼ N (µ, Σ) con µ = (µ1 , µ2 ) y Σ= ,
ρσ1 σ2 σ22
por lo que ρ(X, Y ) = ρ y también Y ∼ N (µ2 , σ22 ).
En consecuencia,
f (x, y)
fX/Y =y (x) =
fY (y)
= C(σ12 , σ22 , ρ, y)
[ (( )2 ( ) ( ))]
−1 x − µ1 x − µ1 y − µ2
· exp − 2ρ · ,
2(1 − ρ2 ) σ1 σ1 σ2
donde C(σ12 , σ22 , ρ, y) se determina de la ecuación

∫ ∞
fX/Y =y (x)dx = 1.
−∞
Luego, completando cuadrados en el argumento de la exponencial se tiene que

[ (( ) ( ))2 ]
x−µ1 y−µ2
fX/Y =y (x) = C1 (σ12 , σ22 , ρ, y) exp − 2(1−ρ
1
2) σ1 − ρ σ2
[ ( )2 ]
σ
x−(µ1 +ρ σ1 (y−µ2 ))
= C1 (σ12 , σ22 , ρ, y) exp − 21 √2 ,
σ1 1−ρ2
donde [ ( )2 ]
(y−µ2 )
C1 (σ12 , σ22 , ρ, y) = C(σ12 , σ22 , ρ, y) exp 1
2(1−ρ2 )
ρ σ2 .
Por lo tanto,
( )
X/Y = y ∼ N µ1 + ρ σσ12 (y − µ2 ) , σ12 (1 − ρ2 ) .
Por analogı́a,
( )
Y /X = x ∼ N µ2 + ρ σσ21 (x − µ1 ) , σ22 (1 − ρ2 ) .
Observación 2.8.3: Sean X e Y variables aleatorias discretas y C ⊂ R. Entonces,

para x ∈ RecX,
P (Y ∈ C, X = x)
P (Y ∈ C/X = x) = .
P (X = x)
- 343 -
2.8 Dependencia
Pero, Y es variable aleatoria discreta, luego el conjunto RecY es contable, digamos

RecY = {y1 , y2 , . . .}. En consecuencia,
( )
∪
P (Y = y, X = x)
y∈(C∩RecY )
P (Y ∈ C, X = x) =
P (X = x)
∑
P (Y = y, X = x)
y∈(C∩RecY )
=
P (X = x)
∑ P (X = x, Y = y)
=
P (X = x)
y∈(C∩RecY )
∑
= pY /X=x (y).
y∈(C∩RecY )
O sea, se tiene la regla de cálculo

∑
P (Y ∈ C/X = x) = pY /X=x (y).
y∈(C∩RecY )
¿Existirá una regla de cálculo similar en el caso continuo? La respuesta es positiva y

se expresa de la siguiente forma:
Sean X e Y variables aleatorias continuas y C ⊂ R. Entonces, para x ∈ RecX,
∫
P (Y ∈ C/X = x) = fY /X=x (y)dy.
C
De un modo más general, si A es suceso, entonces P (A/X = x) se expresa como


 lim P (A/X ∈ Ih ) si el lı́mite existe
P (A/X = x) = h→0+
0 e.o.c.
con el] conjunto Ih [un intervalo abierto que contiene a x y de largo h, como por ejemplo,
Ih = x − h2 , x + h2 .
Observación 2.8.4: Recordemos que, si X es variable aleatoria discreta (es decir,

RecX es un conjunto finito y numerable, digamos RecX = {x1 , x2 , . . .}) y A es un suceso,
el Teorema de Probabilidades Totales visto en la Sección 1.5 implica que
∑
P (A) = P (A/Bj ) P (Bj ),
j∈J
con J = {1, 2, . . .} y Bj = (X = xj ).
- 344 -
2.8 Dependencia
La siguiente Proposición extiende este resultado al caso en que X es variable aleatoria

continua.
Proposición 2.8.1: Sea X variable aleatoria continua y A suceso. Entonces,

∫ ∞
P (A) = P (A/X = x)fX (x)dx.
−∞
La demostración de esta propiedad escapa los objetivos de este texto.
Ejemplo 2.8.7: Sea Y variable aleatoria con distribución Poisson de parámetro X,

aleatorio, es decir, si x > 0, Y /X = x ∼ P(x). Asumiendo que X tiene distribución
Gamma(α, β), encontremos la distribución de la variable aleatoria Y.
Sea y ∈ {0, 1, . . .}. Aplicando la Proposición anterior con A = (Y = y), obtenemos,
∫ ∞
P (Y = y) = P (Y = y/X = x) fX (x)dx
−∞
∫ ∞
xy β α xα−1 e−βx
= e−x · dx
0 y! Γ(α)
∫ ∞
βα
= e−(1+β)x xy+α−1 dx.
Γ(α)y! 0
Realizando el cambio de variable u = (1 + β)x, la última integral se transforma en

∫ ∞ ( )y+α−1 ∫ ∞
−u u du 1
e = uy+α−1 e−u du
0 1+β 1+β (1 + β)y+α 0
Γ(y + α)
= .
(1 + β)y+α
En consecuencia, si y ∈ {0, 1, . . .},
βα Γ(y + α)
P (Y = y) =
Γ(α) y! (1 + β)y+α
( )α ( )y
β 1 Γ(y + α)
= .
1+β 1+β Γ(α) y!
Ejemplo 2.8.8: Sea T variable aleatoria con distribución exponencial de parámetro µ y

Ti , i = 1, 2, . . ., variables aleatorias iid, de modo que su distribución común es exponencial
de parámetro λ. Asumiremos que T es independiente de las variables aleatorias Ti .
La variable T puede interpretarse como el tiempo que demora un cajero en atender a
un cliente (se supone que hay una única caja y que los clientes llegan de a uno, formando
una fila).
La variable Ti , i = 1, 2, . . ., se interpreta como el intervalo de tiempo que transcurre
entre la llegada del (i−1)-ésimo e i-ésimo cliente a la fila, después de iniciado el servicio.
- 345 -
2.8 Dependencia
Ası́, T1 representa el tiempo que demora en llegar el primer cliente a la fila, después de
iniciado el servicio.
Si M es la variable aleatoria que cuenta el número de clientes que han llegado a la fila
durante el intervalo de tiempo que toma en atender a un cliente, calculemos:
a) P (M > n), b) P (M = n).
Por ejemplo, si n = 3, entonces (M > 3) = (T > T1 + T2 + T3 + T4 ), ya que, en el
caso que hayan llegado más de tres clientes durante el tiempo que toma en atender a uno
(que corresponde a T ), significará que el tiempo que ha transcurrido desde que comenzó la
atención y hasta la llegada del cuarto cliente (que corresponde a T1 + T2 + T3 + T4 ) deberı́a
ser menor que éste.
En general, (M > n) = (T > T1 + · · · + Tn+1 ), para todo n ∈ {1, 2, . . .}.
Definamos Sm = T1 +· · ·+Tm . Entonces, Ejemplo 2.6.21 implica que Sm ∼ Gamma(m, λ).
Ası́, usando la Proposición anterior con A = (T > Sn+1 ) y X = Sn+1 , se obtiene que
P (M > n) = P (T > T1 + · · · + Tn+1 )
= P (T > Sn+1 )
∫ ∞
= P (T > Sn+1 /Sn+1 = x) fSn+1 (x)dx
−∞
∫ ∞
λn+1 xn e−λx
= P (T > x/Sn+1 = x) dx.
0 Γ(n + 1)
Pero, T es independiente de las Ti , i = 1, . . . , n + 1, entonces T es independiente de

T1 + · · · + Tn+1 = Sn+1 . Luego,
∫ ∞
P (T > x/Sn+1 = x) = fT /Sn+1 =x (t)dt
x
∫ ∞
= fT (t)dt
x
= P (T > x).
Esta última probabilidad es igual a e−µx pues T ∼ exp(µ).
Por lo tanto,
P (M > n) = P (T > Sn+1 )

∫ ∞
λn+1 xn e−λx
= P (T > x/Sn+1 = x) dx
0 n!
∫ ∞
λn+1 xn e−λx
= e−µx dx
0 n!
∫ ∞
λn+1
= xn e−(λ+µ)x dx .
n! 0
- 346 -
2.8 Dependencia
Haciendo el cambio de variable u = (λ + µ)x, y usando que Γ(n + 1) = n!, se obtiene que
∫ ∞ ∫ ∞( )n
n −(λ+µ)x u 1
x e dx = e−u du
0 0 λ+µ λ+µ
∫ ∞
1
= un e−u du
(λ + µ)n+1 0
1
= Γ(n + 1)
(λ + µ)n+1
1
= n!.
(λ + µ)n+1
En consecuencia,
λn+1 1
P (M > n) = · n!
n! (λ + µ)n+1
( )n+1
λ
= .
λ+µ
Finalmente, si n ∈ {1, 2, 3, . . .},
P (M = n) = P (M > n − 1) − P (M > n)
( )(n−1)+1 ( )n+1
λ λ
= −
λ+µ λ+µ
( )n [ ]
λ λ
= 1−
λ+µ λ+µ
( )n
λ µ
= .
λ+µ λ+µ
2.8.3 Esperanza condicional

Sean X e Y variables aleatorias discretas y sea x ∈ RecX. Recordemos que la esperanza
de Y se calcula como ∑
E(Y ) = y pY (y).
y∈RecY
Si en lugar de multiplicar por la distribución de probabilidad pY (y), lo hacemos por

la distribución de probabilidad pY /X=x (y), obtendremos la llamada esperanza condicional
de Y dado X = x, que se anota E(Y /X = x). Esto es,
∑
E(Y /X = x) = y pY /X=x (y).
y∈RecY
- 347 -
2.8 Dependencia
En el caso en que X e Y sean independientes, resulta de inmediato que
E(Y /X = x) = E(Y ).
Por analogı́a, en el caso continuo se obtiene que, para x ∈ RecX,

∫ ∞
E(Y /X = x) = y fY /X=x (y)dy.
−∞
También, en este caso, cuando X e Y son independientes.
E(Y /X = x) = E(Y ).
Del mismo modo, la varianza condicional de Y dado X = x, que se anota V ar(Y /X = x),
se define por
∑
V ar(Y /X = x) = (y − E(Y /X = x))2 pY /X=x (y),
y∈RecY
en el caso discreto y
∫ ∞
V ar(Y /X = x) = (y − E(Y /X = x))2 fY /X=x (y)dy
−∞
en el caso continuo.
También, en este caso, si X e Y son independientes, se deduce que
V ar(Y /X = x) = V ar(Y ).
Ejemplo 2.8.9: Sea (X, Y ) vector aleatorio discreto como el del Ejemplo 2.8.1. En-
tonces,
∑
3
E(Y /X = 0) = y pY /X=0 (y)
y=0
= 0 · pY /X=0 (0) + 1 · pY /X=0 (1) + 2 · pY /X=0 (2) + 3 · pY /X=0 (3)
1 2 3
= 0· +1· +2· +3·0
6 6 6
4
= .
3
Análogamente,
4 5 6 7
E(Y /X = 1) = 0 · +1· +2· +3·
22 22 22 22
19
= .
11
- 348 -
2.8 Dependencia
En forma similar
1 4 4
E(X/Y = 0) = 0 · +1· = ,
5 5 5
2 5 5
E(X/Y = 1) = 0 · +1· = ,
7 7 7
3 6 6
E(X/Y = 2) = 0 · +1· = ,
9 9 9
E(X/Y = 3) = 0 · 0 + 1 · 1 = 1.
Por otra parte, si x = 1,
V ar(Y /X = 1) = (0 − E(Y /X = 1))2 pY /X=1 (0) + (1 − E(Y /X = 1))2 pY /X=1 (1)
+ (2 − E(Y /X = 1))2 pY /X=1 (2) + (3 − E(Y /X = 1))2 pY /X=1 (3)

( )2 ( ) ( ) ( )
19 4 19 2 5 19 2 6 19 2 7
= 0− + 1− + 2− + 3−
11 22 11 22 11 22 11 22
145
= .
121
Ejemplo 2.8.10: Sean X e Y las variables aleatorias del Ejemplo 2.8.3. Entonces
Y /X = x ∼ B(x, p). En consecuencia, de la Sección 2.1 se obtiene que
E(Y /X = x) = x p y V ar(Y /X = x) = x p (1 − p).
Ejemplo 2.8.11: Sea (X, Y ) vector aleatorio continuo como el del Ejemplo 2.8.4. En-
tonces, para x ≥ 0,
∫ ∞
E(Y /X = x) = yfY /X=x (y)dy
−∞
∫ x ∫ ∞
= y · 0dy + y λ e−λ(y−x) dy
−∞ x
∫ ∞
= eλx λ y e−λy dy.
x
- 349 -
2.8 Dependencia
Integrando por partes esta última integral resulta que

∫ ∞ ( )
−λy −λy 1 −λy ∞
λye dy = −ye − e
x λ x
[ ( )] [ ]
−λy 1 −λy −λx 1 −λx
= lim −ye − e − −xe − e
y→∞ λ λ
[ ( )] [ ]
y 1 1
= − lim λy
+ lim e−λy + xe−λx + e−λx
y→∞ e λ y→∞ λ
[ ( ) ] [ ]
1 1 −λx 1 −λx
= − lim + · 0 + xe + e
y→∞ λeλy λ λ
[ ] [ ]
1 −λx 1 −λx
= − 0 + · 0 + xe + e
λ λ
1 −λx
= xe−λx + e .
λ
En consecuencia, [ ]
1
E(Y /X = x) = eλx xe−λx + e−λx
λ
1
= x+ .
λ
Ejemplo 2.8.12: Sea (X, Y ) vector

( aleatorio normal bivariado ) como el del Ejemplo
2.8.6. Entonces, Y /X = x ∼ N µ2 + ρ σ1 (x − µ1 ) , σ2 (1 − ρ ) , de donde, para todo x
σ2 2 2
real,
σ2
E(Y /X = x) = µ2 + ρ (x − µ1 )
σ1
√
Cov(X, Y ) V ar(Y )
= E(Y ) + √ √ ·√ (x − E(X))
V ar(X) V ar(Y ) V ar(X)
Cov(X, Y )
= E(Y ) + (x − E(X)) .
V ar(X)
Análogamente, para todo y real,
Cov(X, Y )
E(X/Y = y) = E(X) + (y − E(Y )).
V ar(Y )
- 350 -
2.8 Dependencia
También, en este caso,
V ar(Y /X = x) = σ22 (1 − ρ2 )
( )
Cov 2 (X, Y )
= V ar(Y ) 1 −
V ar(X)V ar(Y )
Cov 2 (X, Y )
= V ar(Y ) − ,
V ar(X)
es decir, no depende del real x escogido.
Proposición 2.8.2: Sea (X, Y ) vector aleatorio y h : R → R función. La esperanza

condicional de h(Y ) dado X = x, puede ser calculada de la siguiente forma:
 ∑

 h(v) pY /X=x (v) caso discreto


v∈RecY
E(h(Y )/X = x) =

 ∫ ∞


 h(v) fY /X=x (v)dv caso continuo
−∞
En particular:
i) Si h(t) = at + b, entonces,
E(aY + b/X = x) = a E(Y /X = x) + b.
ii) Si h(t) = (t − E(Y /X = x))2 , entonces,
V ar(Y /X = x) = E(Y 2 /X = x) − (E(Y /X = x))2 .
Desde ii) se deduce que, para todo a, b reales,
iii) V ar(aY /X = x) = a2 V ar(Y /X = x),
iv) V ar(aY + b/X = x) = a2 V ar(Y /X = x).
La demostración de esta Proposición es idéntica a la demostración de la Proposición

2.1.2, cambiando la distribución de X, por la distribución de Y /X = x.
Asumiendo que la esperanza condicional de Y dado X = x existe, para todo x ∈ RecX,
entonces podemos definir la función g(x) = E(Y /X = x).
En el caso del Ejemplo 2.8.10, g(x) = xp, x ∈ {1, 2, . . .}. También, en el Ejemplo 2.8.11,
g(x) = x+ λ1 , x > 0 y en el Ejemplo 2.8.12, g(x) es la función E(Y )+ Cov(X,Y )
V ar(X) (x−E(X)),
x real.
Similarmente, si todas las cantidades involucradas existen, se puede definir la función
k(x) = V ar(Y /X = x). Ası́, en el Ejemplo 2.8.10, k(x) = xp(1 − p), x ∈ {1, 2, . . .}.
En consecuencia, g(X) y k(X) son variables aleatorias. En el caso en que
1 1
g(x) = x + λ , la variable aleatoria g(X) resulta ser X + λ , si g(x) = xp, la variable
- 351 -
2.8 Dependencia
aleatoria resultante es pX, y en el caso en que k(x) = xp(1 − p), la variable aleatoria k(X)
será p(1 − p)X.
La variable aleatoria g(X) se acostumbra a denotar por E(Y/X) y la variable aleatoria
k(X) por Var(Y/X).
Ejemplo 2.8.13: Calculemos E(g(X)) en los recién mencionados, esto es, calculemos
E(E(Y /X)) cuando g(x) = x + λ1 ; g(x) = xp.
En el primer caso, ( )
1
E(E(Y /X)) = E X +
λ
1
= E(X) + .
λ
Pero, según Ejemplo 2.8.4,
{
λe−λx si x ≥ 0
fX (x) =
0 e.o.c.
es decir, X ∼ exp(λ). Luego, Ejemplo 2.2.15 implica que E(X) = λ1 , por lo que
1 1 2
E(E(Y /X)) = + = .
λ λ λ
También, del Ejemplo 2.8.4, se deduce que Y ∼ Gamma(2, λ), y nuevamente Ejemplo
2.2.15 implica que E(Y ) = λ2 . En consecuencia,
E(E(Y /X)) = E(Y ).
En el segundo caso,
E(E(Y /X)) =E(pX)
=p E(X).
Pero, del Ejemplo 2.8.10, X ∼ P(α), por lo que E(X) = α (véase Sección 2.1). Ası́,
E(E(Y /X)) = p α.
También, en este caso, Y ∼ P(αp), de donde E(Y ) = αp, es decir,
E(E(Y /X)) = E(Y ).
Ejemplo 2.8.14: Calculemos E(k(X)) en el Ejemplo 2.8.10. En este caso

Y /X = x ∼ B(x, p), por lo que k(x) = x p (1 − p), es decir, V ar(Y /X) = X p (1 − p). Por
lo tanto,
E(V ar(Y /X)) =E(X p (1 − p))
=p (1 − p)E(X)
=p (1 − p)α.
- 352 -
2.8 Dependencia
Por otra parte, E(Y /X) = p X, de donde
V ar(E(Y /X)) =V ar(pX)

=p2 V ar(X)
=p2 α.
Finalmente, como V ar(Y ) = αp (pues Y ∼ P(αp)), entonces
V ar(Y ) = p(1 − p)α + p2 α,
o sea,
V ar(Y ) = E(V ar(Y /X)) + V ar(E(Y /X)).
La siguiente proposición generaliza los Ejemplos 2.8.13 y 2.8.14.
Proposición 2.8.3: Sea (X, Y ) vector aleatorio. Suponiendo que todas las cantidades
involucradas existen,
(a) E(Y ) = E(E(Y /X)).
(b) V ar(Y ) = E(V ar(Y /X)) + V ar(E(Y /X)).
Demostración: Verificaremos (a) en el caso discreto. El caso continuo se prueba en

forma similar. La parte (b) es un poco más compleja, por lo que no la incluimos en este
texto, pero puede consultarse en [8].
Como E(Y /X) = g(X), con g(x) = E(Y /X = x), entonces Proposición 2.1.2 implica
que
E(E(Y /X)) = E(g(X))
∑
= g(x) pX (x)
x∈RecX
∑
= E(Y /X = x) pX (x) .
x∈RecX
Pero, ∑
E(Y /X = x) = y pY /X=x (y)
y∈RecY
∑ pX,Y (x, y)
= y
pX (x)
y∈RecY
1 ∑
= y pX,Y (x, y),
pX (x)
y∈RecY
- 353 -
2.8 Dependencia
de donde
∑
E(E(Y /X)) = E(Y /X = x) pX (x)
x∈RecX
 
∑ 1 ∑
=  y pX,Y (x, y) pX (x)
pX (x)
x∈RecX y∈RecY
 
∑ ∑
=  y pX,Y (x, y)
x∈RecX y∈RecY
( )
∑ ∑
= y pX,Y (x, y) .
y∈RecY x∈RecX
Si RecX y RecY son conjuntos finitos, el intercambio de sumatorias es obvio. Si

RecX es numerable y/o RecY es numerable, es posible verificar que el intercambio de
sumatorias aún es válido.
También, Proposición 2.4.3 implica que
∑
pX,Y (x, y) = pY (y),
x∈RecX
por lo que, ∑ ∑
y pX,Y (x, y) = y pX,Y (x, y)
x∈RecX x∈RecX
= y pY (y).
En consecuencia, ∑
E(E(Y /X)) = y pY (y)
y∈RecY
= E(Y ).
La siguiente Proposición es de gran ayuda en el cálculo de esperanzas condicionales,

como lo veremos en algunos ejemplos posteriores. Por la complejidad de su demostración,
esta no se incluye en este texto, pero puede ser consultada en [7].
Proposición 2.8.4: (Principio de Sustitución) Sea (X, Y ) un vector aleatorio y

u : R → R función. Asumiendo que todas las cantidades involucradas existen, se tiene
2
que
E(u(X, Y )/X = x) = E(u(x, Y )/X = x).
- 354 -
2.8 Dependencia
Por ejemplo, si u(x, y) = x2 y 3 , entonces
E(X 2 Y 3 /X = x) =E(x2 Y 3 /X = x)
=x2 E(Y 3 /X = x),
por lo que
E(X 2 Y 3 /X) = X 2 E(Y 3 /X).
Más aún, si u(x, y) = h1 (x) h2 (y), con h1 y h2 funciones reales, entonces
E(h1 (X) h2 (Y )/X = x) =E(h1 (x) h2 (Y )/X = x)

=h1 (x) E(h2 (Y )/X = x),
o sea,
E(h1 (X) h2 (Y )/X) = h1 (X) E(h2 (Y )/X).
De esta forma, Proposición 2.8.2 implica que
E(h1 (X) h2 (Y )) =E [ E(h1 (X) h2 (Y )/X) ]

=E [ h1 (X) E(h2 (Y )/X) ].
En particular, si h1 y h2 son iguales a la función identidad, se obtiene que
E(XY ) = E [ X E(Y /X)] .
En algunos casos, esta relación es de utilidad cuando se desea calcular Cov(X, Y ).
Ejemplo 2.8.15: Sea X1 , . . . , Xn , . . ., sucesión de variables aleatorias iid, con media

común µ y varianza común σ 2 . Supongamos que N es variable aleatoria discreta con
RecN = {0, 1, . . .}, media α y varianza θ2 , independiente de las Xi . Calculemos E(T ) y
V ar(T ), donde T es la variable aleatoria definida por
∑
N
T = Xi .
i=1
Por ejemplo, en un cajero automático, N puede representar el número de clientes que

ingresan al cajero en un determinado perı́odo de tiempo y las Xi , el monto de dinero que
retira el i-ésimo cliente que ingresa. De este modo, T representa la cantidad de dinero que
se ha retirado del cajero automático en el perı́odo de tiempo observado.
También, N puede representar el número de pólizas de seguros que una compañı́a debe
pagar en un año determinado y Xi , el monto de dinero que se le paga a la i-ésima póliza.
En este caso, T representa el monto de dinero que la compañı́a pagará en el año.
Ahora bien, de Proposición 2.8.3,
E(T ) = E(E(T /N )),
ası́
E(T /N ) = g(N ),
- 355 -
2.8 Dependencia
con
g(n) = E(T /N = n).
Además, Principio de Sustitución implica que
(( N ) )
∑
E(T /N = n) =E Xi / N = n
i=1
(( n ) )
∑
=E Xi /N = n
i=1
∑
n
= E(Xi / N = n).
i=1
Pero, las Xi son independientes de N , por lo que, para todo i ≥ 1,
E(Xi /N = n) = E(Xi )
= µ,
o sea,
∑
n
E(T /N = n) = µ
i=1
=n µ.
En consecuencia,
E(T /N ) = N µ,
por lo que
E(T ) =E(N µ)
=µ E(N )
=µ α.
También, usando nuevamente Principio de Sustitución y la independencia de las Xi con
N, resulta
( )2 
∑N
E(T 2 /N = n) =E  Xi / N = n
i=1
( )2 
∑
n
=E  Xi / N = n
i=1
( )2 
∑
n
=E  Xi 
i=1
( ) ( ( ))2
∑
n ∑
n
=V ar Xi + E Xi
i=1 i=1
( n )
∑
=V ar Xi + (nµ)2 .
i=1
- 356 -
2.8 Dependencia
Finalmente, la independencia entre las Xi , implica que

( n )
∑ ∑n
V ar Xi = V ar(Xi )
i=1 i=1
2
=n σ ,
por lo que
V ar(T /N = n) =E(T 2 /N = n) − (E(T /N = n))2
=n σ 2 + (n µ)2 − (n µ)2 .
Ası́,
V ar(T /N ) = N σ 2 ,
por lo cual, Proposición 2.8.3 (b) implica que
V ar(T ) =E(N σ 2 ) + V ar(N µ)
=σ 2 E(N ) + µ2 V ar(N )
=σ 2 α + µ2 θ2 .
Ejemplo 2.8.16: Sea (X, Y ) vector aleatorio continuo. Supongamos que la distribución
condicional de Y dado X = x es normal (x2 , 1), esto es, Y /X = x ∼ N (x2 , 1). Asumamos
también que una densidad para la variable aleatoria X está dada por
{
4
5 si x ≥ 1
fX (x) = x
0 e.o.c.
Calculemos
a) E(X r ), para r < 4,
b) E(Y ),
c) Cov(X, Y ).
Primeramente, ∫ ∞
E(X r ) = xr fX (x)dx
−∞
∫ ∞
4
= xr dx
1 x5
∫ ∞
= 4 xr−5 dx
1
∞
xr−5+1
= 4
r − 5 + 1 1
4 [( ) ]
= lim xr−4 − 1r−4 .
r − 4 x→∞
- 357 -
2.8 Dependencia
Pero r < 4, de donde lim xr−4 = 0. Por lo tanto,

x→∞
4
E(X r ) = .
4−r
También, desde que Y /X = x ∼ N (x2 , 1),
E(Y /X = x) = x2 ,
por lo que
E(Y /X) = X 2 .
Ası́
E(Y ) =E( E(Y /X) )

=E(X 2 )
4
=
4−2
=2.
Finalmente,
E(X Y ) =E( E(XY /X) )

=E(X E(Y /X))
=E(X X 2 )
=E(X 3 )
4
=
4−3
=4,
de donde
Cov(X, Y ) =E(X Y ) − E(X) E(Y )

4
=4 − ·2
4−1
4
= .
3
Ejemplo 2.8.17: Sean X e Y variables aleatorias, de modo que Y = −X (en conse-

cuencia X e Y no son independientes) y E(Y ) = 0. Entonces,
E(X + Y /X = 1) =E(0/X = 1)
=0.
- 358 -
2.8 Dependencia
Por otra parte, Principio de Sustitución implica que
E(X + Y /X = 1) =E(1 + Y /X = 1)
=1 + E(Y /X = 1).
Un error común es usar el Principio de Sustitución en la siguiente forma:
E(X + Y /X = 1) =E(1 + Y )
=1 + E(Y )
=1.
Lo anterior serı́a válido sólo si X e Y fuesen independientes.
En general, si u : R2 → R es función y las variables aleatorias X e Y son independientes,

entonces, por Principio de Sustitución,
E(u(X, Y )/X = x) = E(u(x, Y )/X = x).
Las variables aleatorias X y u(x, Y ) son independientes, pues X e Y lo son. Por lo tanto,
E(u(x, Y )/X = x) = E(u(x, Y )).
En consecuencia,
E(u(X, Y )/X = x) = E(u(x, Y )).
Por ejemplo, si X e Y son independientes, entonces

( ) ( )
E X 2Y 5 + X
Y
/ X = x =E x2 Y 5 + 1
Y
x
1
=x2 E(Y 5 ) + E(Y ),
x
en particular, ( )
E X 2Y 5 + Y
X / X = 2 = 4E(Y 5 ) + 12 E(Y ).
Observación 2.8.5: El método de rechazo es comúnmente usado para generar varia-

bles aleatorias continuas desde una densidad dada, especialmente cuando la inversa de la
función distribución acumulada no puede ser encontrada explı́citamente.
Suponga que f es una función de densidad que es no nula en un intervalo [a, b] y cero
fuera de él (a y/o b pueden ser infinito). Sea M (x) una función tal que f (x) ≤ M (x)
sobre [a, b] y definamos
M (x)
m(x) = ∫ b ,
a M (x)dx
la cual es una función densidad.
La idea de este método es elegir M de modo que sea fácil generar variables aleatorias
que tengan densidad m. Si [a, b] es limitado, m puede ser elegido de modo que sea la
densidad de una distribución uniforme en [a, b]. El algoritmo es el siguiente:
- 359 -
2.8 Dependencia
Paso 1: Genere T con densidad m.

Paso 2: Genere U , uniforme en [0, 1] e independiente de T . Si M (T )U ≤ f (T ), entonces
elija X = T (acepte T ). En caso contrario, regrese al paso 1 (rechaza T ).
y
.....
..... .............. .
..... ...... ....M ....... .........
.....
....... ... ..... .... ..
........... ..
......................................... ...
..
... ................. rechaza ..
..
.... ...... ..
.
... .......... f ..
.... ........... ..
...
.. ............
. ............... .
.......... acepta .................. ...
..........
..
x
a T b
Figura 2.8.2
Verifiquemos que la variable aleatoria X, obtenida por este método, tiene densidad f .
P (x < X ≤ x + dx) = P (x < T ≤ x + dx/aceptar)
P (aceptar/x < T ≤ x + dx) P (x < T ≤ x + dx)

= (∗)
P (aceptar)
Además, la independencia de U con T y el hecho que U ∼ U (0, 1), implican que
P (aceptar/x < T ≤ x + dx) =P (M (T )U ≤ f (T ) / x < T ≤ x + dx)

( )
f (T )
=P U ≤ M (T ) / x < T ≤ x + dx
( )
f (x)
=P U ≤ M (x) / x < T ≤ x + dx
( )
f (x)
=P U ≤ M (x) U, T
f (x)
= ,
M (x)
luego, el numerador de (∗) resulta
f (x)
P (aceptar/x < T ≤ x + dx)P (x < T ≤ x + dx) = · P (x < T ≤ x + dx)
M (x)
f (x) P (x < T ≤ x + dx)
= · dx
M (x) dx
f (x)
= m(x)dx
M (x)
m(x)
=f (x)dx
M (x)
1
=f (x)dx ∫ b .
a M (x)dx
- 360 -
2.8 Dependencia
Ahora, usando Proposición 2.8.1 resulta que
P (aceptar) =P (M (T )U ≤ f (T ))
( )
f (T )
=P U ≤ M (T )
∫ ∞ ( )
f (T )
= P U≤M (T ) /T = t fT (t)dt.
0
Pero, la densidad de T es m y U, T son independientes, ası́,

∫ b ( )
f (t)
P (aceptar) = P U≤M (t) /T = t m(t)dt
a
∫ b ( )
f (t)
= P U≤M (t) m(t)dt.
a
Finalmente como U ∼ U (0, 1), entonces

∫ b
f (t)
P (acertar) = m(t)dt
a M (t)
∫ b
1
= f (t) ∫ b dt
a a M (x)dx
∫ b
1
=∫ b f (t)dt
a M (x)dx a
1
=∫ b .
a M (x)dx
Ası́,
P (aceptar/x < T ≤ x + dx)P (x < T ≤ x + dx)
P (x < X ≤ x + dx) =
P (aceptar)
1
f (x)dx ∫ b
a M (u)du
=
1
∫b
a M (u)du
=f (x)dx,
o sea,
P (x < X ≤ x + dx)
= f (x),
dx
por lo que se concluye que f es densidad para X.
Observación 2.8.6: Todas las definiciones y resultados de esta sección, también son
válidos cuando la variable aleatoria X se reemplaza por un vector aleatorio m-variado
X = (X1 , . . . , Xm ), y la variable aleatoria Y por un vector aleatorio n-variado
- 361 -
2.8 Dependencia
Y = (Y1 , . . . , Yn ). Por ejemplo, la definición de distribución condicional en el caso discreto

serı́a
pX1 ,...,Xm ,Y1 ,...,Yn (x1 , . . . , xm , y1 , . . . , yn )
pY1 ,...,Yn /X1 =x1 ,...,Xm =xm (y1 , . . . , yn ) = .
pX1 ,...,Xm (x1 , . . . , xm )
2.8.4 Predicción
En este párrafo trataremos el problema de predecir una variable aleatoria a partir de otra.
Por ejemplo, en problemas forestales, el volumen de un árbol es, a veces, estimado a
partir de su diámetro, el cual es más simple de medir. Para un bosque completo, es
razonable modelar el diámetro (X) y el volumen (Y ) como un vector aleatorio con alguna
distribución conjunta, y entonces tratar de predecir Y (el volumen) a partir de X (el
diámetro). Formalmente, se busca aproximar a Y con una función de X. O sea, se busca
una función, h : RecX → R, tal que Y sea “parecido” a h(X). En otras palabras, se
desea encontrar una función h de modo que la “distancia d” entre Y y h(X) sea “lo más
pequeña posible”.
Una distancia posible serı́a d(Y, h(X)) = E|Y − h(X)|. Sin embargo, la distancia que
usaremos es d(Y, h(X)) = E((Y − h(X))2 ), conocida como error cuadrático medio, y la
razón de usarla radica en que permite realizar cálculos explı́citos en muchos casos.
En resumen, el problema de predicción general consiste en encontrar una función
h : RecX → R, de modo que el valor E((Y − h(X))2 ), sea mı́nimo.
Un caso elemental, serı́a suponer que deseamos predecir Y por medio de una constante,
esto es, escoger h de entre todas las funciones constantes. En este caso, si h(x) = c,
entonces
[ ] [ ]
E (Y − h(X))2 =E (Y − c)2
[ ]
=E (Y − E(Y ) + E(Y ) − c)2
[ ]
=E [(Y − E(Y )) + (E(Y ) − c)]2
[ ]
=E (Y − E(Y ))2 + (E(Y ) − c)2 + 2(Y − E(Y ))(E(Y ) − c)
=V ar(Y ) + (E(Y ) − c)2 + 0.
El primer término de la última expresión no depende de c, y el segundo término es

minimizado cuando c = E(Y ), el cual es la óptima elección de c.
O sea, si se dispone solamente de constantes para predecir la variable aleatoria Y , el
óptimo es el valor esperado de Y (parece bastante obvio).
Veamos ahora el caso general

Primeramente, desde la Proposición 2.8.3, vemos que
( )
E((Y − h(X))2 ) =E E((Y − h(X))2 /X)
=E(g(X)),
con g la función
g(x) = E((Y − h(x))2 /X = x).
- 362 -
2.8 Dependencia
Ası́, por analogı́a con el caso de h constante, pero ahora usando αx = E(Y /X = x) en
lugar de E(Y ), resulta
( )
g(x) =E (Y − h(x))2 / X = x
( )
=E ((Y − αx ) + (αx − h(x)))2 / X = x
( ) ( )
=E (Y − αx )2 / X = x + E (αx − h(x))2 / X = x
+ 2E ((Y − αx )(αx − h(x)) / X = x).
Además,
E ((Y − αx )(αx − h(x)) / X = x) =(αx − h(x))E (Y − αx / X = x)
=(αx − h(x)) [E(Y / X = x) − E(αx / X = x)]
=(αx − h(x)) [αx − αx E(1 / X = x)]
=(αx − h(x)) · 0
=0.
También, V ar(Y /X = x) no depende de h y E((E(Y /X = x) − h(x))2 /X = x) es
minimizado cuando (E(Y /X = x) − h(x))2 es mı́nimo, es decir, es minimizado cuando
E(Y /X = x) − h(x) = 0.
En consecuencia, g(x) es mı́nimo cuando h(x) = E(Y /X = x), por lo que E((Y − h(x))2 )
es mı́nimo si h(x) = E(Y /X = x). O sea, el “mejor” predictor de la variable aleatoria Y ,
a partir de la variable aleatoria X es E(Y /X).
Una limitación práctica en cuanto al mejor predictor, es que su implementación de-
pende del conocimiento de la distribución conjunta del vector (X, Y ) para poder calcular
E(Y /X), y a menudo esta información no está disponible, ni siquiera aproximadamente.
Por esta razón, podrı́amos no ser tan ambiciosos y en lugar de encontrar el mejor predictor
de Y , tratar de encontrar el mejor predictor lineal de Y . Esto es, en lugar de buscar de
entre todas las4 funciones, h : RecX → R, aquella que minimize E((Y − h(x))2 ), buscar
sólo entre las funciones h que son lineales, es decir, funciones h de la forma h(t) = a + b t.
Por lo tanto, el problema de predicción lineal consiste en encontrar reales a y b de
modo de minimizar la expresión
E((Y − (a + b X))2 ).
Si ã y b̃ son los valores que hacen mı́nima esta expresión, la variable aleatoria ã + b̃ X
recibe el nombre de mejor predictor lineal de Y , basado en la variable aleatoria X, y se
acostumbra a denotar por Ŷ .
La siguiente Proposición entrega la forma de como calcular ã y b̃.
Proposición 2.8.5: Sean X e Y variables aleatorias, de modo que todas las cantidades
involucradas posteriormente existen. Entonces,
( )
min E (Y − (a + bX))2
a,b
es alcanzado en los valores ã y b̃, con

Cov(X, Y ) Cov(X, Y )
ã = E(Y ) − E(X), b̃ = .
V ar(X) V ar(X)
- 363 -
2.8 Dependencia
Demostración: Sea u : R2 → R, función definida por

( )
u(a, b) = E (Y − (a + b X))2 .
Es decir,
( )
u(a, b) =E (Y − (a + b X))2
( )
=E Y 2 + (a + b X)2 − 2Y (a + b X)
=E(Y 2 ) + a2 + 2 a b E(X) + b2 E(X 2 ) − 2a E(Y ) − 2b E(XY ).
Además,
∂u(a, b)
= 2a + 2b E(X) − 2 E(Y )
∂a
∂u(a, b)
= 2a E(X) + 2b E(X 2 ) − 2 E(X Y )
∂b
y
∂ 2 u(a, b) ∂ 2 u(a, b)
= 2; = 2E(X 2 )
∂a2 ∂b2
∂ 2 u(a, b) ∂ 2 u(a, b)
= 2E(X); = 2E(X)
∂a∂b ∂b∂a
Si ahora resolvemos el sistema
∂u(a, b)
= 0
∂a
∂u(a, b)
= 0
∂b
se obtiene que la única solución es (ã, b̃), con

E(Y ) E(X)

E(XY ) E(X 2 )
ã =
1
E(X)
E(X) E(X 2 )
E(X 2 ) E(Y ) − E(X) E(XY )

=
E(X 2 ) − (E(X))2
E(X 2 ) E(Y ) − E(X) [E(XY ) − E(X) E(Y )] − (E(X))2 E(Y )
=
V ar(X)
[ ]
E(Y ) E(X ) − (E(X)) − E(X) Cov(X, Y )
2 2
=
V ar(X)
E(Y ) V ar(X) − E(X) Cov(X, Y )
=
V ar(X)
Cov(X, Y )
=E(Y ) − E(X)
V ar(X)
- 364 -
2.8 Dependencia
y

1
E(Y )
E(X) E(XY )

b̃ =
1
E(X)
E(X) E(X 2 )

E(XY ) − E(X) E(Y )

=
V ar(X)
Cov(X, Y )
= .
V ar(X)
Finalmente, la matriz hessiana de la función u(a, b), evaluada en (ã, b̃) es

 
2 2E(X)
 
2
2E(X) 2E(X )
y su determinante resulta igual a 4 V ar(X) > 0, por lo que en el punto (ã, b̃) se alcanza
un mı́nimo.
Observación 2.8.7: Como Ŷ denota el mejor predictor lineal de Y basado en X,

entonces la Proposición anterior nos dice que
Ŷ = E(Y ) − E(X) + X.
V ar(X) V ar(X)
Además,
E(Ŷ ) = E(Y ) − E(X) + E(X)
V ar(X) V ar(X)
= E(Y ).
Si llamamos error de predicción al valor E((Y − Ŷ )2 ), entonces, Proposición 2.1.2 y

Corolario 2.6.1 implican que
( )2
E((Y − Ŷ )2 ) =V ar(Y − Ŷ ) + E(Y − Ŷ )
[ ]2
=V ar(Y − ã − b̃X) + E(Y ) − E(Ŷ )
=V ar(Y − b̃X)
=V ar(Y ) + b̃2 V ar(X) − 2b̃ Cov(X, Y )
Cov 2 (X, Y ) Cov(X, Y )
=V ar(Y ) + 2
V ar(X) − 2 Cov(X, Y )
V ar (X) V ar(X)
- 365 -
2.8 Dependencia
Cov 2 (X, Y )
=V ar(Y ) −
V ar(X)
( )2
Cov(X, Y )
=V ar(Y ) − √ V ar(Y )
V ar(X)V ar(Y )
( )
=V ar(Y ) 1 − ρ2 (X, Y ) .
En consecuencia, el error de predicción sólo depende de la varianza de Y y de la correlación

entre X e Y , y este se hace más “pequeño” a medida que ρ se “acerca” al valor 1 o al
valor −1. Esto muestra que el coeficiente de correlación es una medida de la dependencia
lineal entre X e Y .
Notemos que el mejor predictor lineal depende de la distribución conjunta de (X, Y )
solamente a través de las medias, varianzas y covarianzas. Ası́, en la práctica, es más
fácil construir el mejor predictor lineal o una aproximación de este que construir el mejor
predictor E(Y /X).
Ejemplo 2.8.18: Sean Z e Y variables aleatorias independientes, de modo que

Z ∼ P(α) ; Y ∼ P(β). Suponiendo que X = Y + Z, calculemos:
a) ρ(X, Y ),
b) el mejor predictor lineal de Y dado (es decir, basado en) X,
c) el mejor predictor de Y dado X.
Primeramente,
Cov(X, Y )
ρ(X, Y ) = √
V ar(X) V ar(Y )
Cov(Y + Z, Y )
= √ .
V ar(Y + Z) V ar(Y )
Pero, Z ∼ P(α); Y ∼ P(β) y también Z e Y son independientes, por lo que
Cov(Y + Z, Y ) =Cov(Y, Y ) + Cov(Z, Y )

=V ar(Y ) + 0
=β
V ar(Y + Z) =V ar(Y ) + V ar(Z)

=β + α.
En consecuencia,
β
ρ(X, Y ) = √ .
(β + α)β
- 366 -
2.8 Dependencia
También,
Ŷ =E(Y ) − E(X) + X
V ar(X) V ar(X)
β β
=β − (β + α) + X,
β+α β+α
o sea,
β
Ŷ = 0 + X.
β+α
Por otra parte, como Z e Y son independientes, entonces Ejemplo 2.6.20 implica que
X ∼ P(α + β), por lo que, para y ≤ x,
pX/Y =y (x) =P (X = x/Y = y)

=P (Z = x − y / Y = y)
=P (Z = x − y)
αx−y
=e−α ,
(x − y)!
de donde
pX/Y =y (x) pY (y)

pY /X=x (y) =
pX (x)
e−α αx−y e−β β y

(x−y)! y!
=
e−(α+β) (α+β)x
x!
( )( )y ( )x−y
x β β
= 1− ,
y α+β α+β
( )
β
o sea, Y /X = x ∼ B x, α+β .
β β
En consecuencia, E(Y /X = x) = x · α+β y por tanto E(Y /X) = α+β X.
Nótese que en este caso, el mejor predictor coincide con el mejor predictor lineal.
Ejemplo 2.8.19: Para X e Y del ejemplo 2.8.1, encontramos el mejor predictor lineal
de Y dado X y el mejor predictor de Y dado X.
Observando éste ejemplo, obtenemos:
6 22
pX (0) = ; pX (1) =
28 28
y
5 7 9 7
pY (0) = , pY (1) = , pY (2) = , pY (3) = .
28 28 28 28
- 367 -
2.8 Dependencia
Ası́,
6 22 22
E(X) =0· +1· = ,
28 28 28
6 22 22
E(X 2 ) = 02 ·
+ 12 · = ,
28 28 28
( )2
22 22 132
V ar(X) = − = ,
28 28 784
5 7 9 7 46
E(Y ) =0· +1· +2· +3· = ,
28 28 28 28 28
5 7 9 7 106
E(Y 2 ) = 02 · + 12 · + 22 · + 32 · = ,
28 28 28 28 28
( )2
106 46 852
V ar(Y ) = − = .
28 28 784
También,
1 2 3 4
E(X Y ) = 0 · 0 · +0·1· +0·2· +0·3·0+1·0·
28 28 28 28
5 6 7
+1 · 1 · +1·2· +1·3·
28 28 28
38
= ,
28
de donde
38 22 46
Cov(X, Y ) = −
28 28 28
52
= .
784
En consecuencia,
52 52
46 22
Ŷ = − 784
132 + 784
132 X
28 784
28 784
4928 52
= + X
3696 132
4 13
= + X.
3 33
Finalmente, para x ∈ {0, 1},
− 23 x3 + 2 x2 − 13 x + 1
E(Y /X = x) = ,
6
- 368 -
2.8 Dependencia
por lo que
1 1 1 1
E(Y /X) = − X 3 + X 2 − X+ .
9 3 18 6
Claramente, el mejor predictor lineal no coincide con el mejor predictor.
¿Bajo qué condiciones podremos asegurar que el mejor predictor lineal y el mejor
predictor coinciden? La Proposición siguiente nos responde esta interrogante.
Proposición 2.8.6: Sean X e Y variables aleatorias. Si el vector aleatorio (X, Y )

tiene distribución normal bivariada, entonces el mejor predictor lineal y el mejor predictor
coinciden.
Demostración: Si (X, Y ) tiene distribución normal bivariada, entonces, Ejemplo 2.8.6

implica que
( √ )
V ar(Y )
Y /X = x ∼ N E(Y ) + ρ(X, Y ) √ (x − E(X)), V ar(Y ) (1 − ρ2 (X, Y )) .
V ar(X)
Por lo tanto,
√
V ar(Y )
E(Y /X = x) = E(Y ) + ρ(X, Y ) √ (x − E(X))
V ar(X)
√
Cov(X, Y ) V ar(Y )
= E(Y ) + √ √ (x − E(X))
V ar(X) V ar(Y ) V ar(X)
= E(Y ) − E(X) + x,
V ar(X) V ar(X)
es decir,
E(Y /X) = E(Y ) − E(X) + X.
V ar(X) V ar(X)
Pero, Observación 2.8.7 implica que
Ŷ = E(Y ) − E(X) + X,
V ar(X) V ar(X)
por lo que, E(Y /X) = Ŷ .
Ejemplo 2.8.20: Sea (Z, Y ) vector normal bivariado y A la matriz de 2 × 2 con deter-
minante no nulo, [ ]
1 0
A=
1 1
Como vimos en el Ejemplo 2.5.6, el vector (Z, Y )A es normal bivariado, es decir,
[ ]
1 0
(Z, Y )A = (Z, Y ) = (Z + Y, Y ) es normal bivariado.
1 1
- 369 -
2.8 Dependencia
Si X = Z + Y , Proposición anterior implica que
E(Z + Y ) Cov(Z + Y, Y ) Cov(Z + Y, Y )

E(Y /X) = E(Y ) − + X
V ar(Z + Y ) V ar(Z + Y )
(E(Z) + E(Y )) (Cov(Z, Y ) + V ar(Y ))

= E(Y ) −
V ar(Z) + V ar(Y ) + 2 Cov(Z, Y )
(Cov(Z, Y ) + V ar(Y ))
+ (Z + Y ).
V ar(Z) + V ar(Y ) + 2 Cov(Z, Y )
En el caso particular en que (Z, Y ) ∼ N ((0, 0), ( 10 01 )), el mejor predictor resulta
E(Y /X) = 12 (Z + Y ).
Observación 2.8.8: Sea Y variable aleatoria y X= (X1 , . . . , Xm ) vector aleatorio

m-dimensional. El problema de predicción general multidimensional, consiste en encontrar
una función h : RecX ⊂ Rm → R, de modo que
( )
E (Y − h(X))2 ,
sea mı́nimo.
Notese que h(X) = h(X1 , . . . , Xm ) es una variable aletoria real.
También, el mejor predictor lineal de Y dado X= (X1 , . . . , Xm ), consiste en encontrar
reales a0 , a1 , . . . , am , de modo que
( )2 
∑
m
E  Y − a0 − ai Xi ,
i=1
sea mı́nimo.
Es posible verificar, al igual que en el caso unidimensional, que:
a) el mejor predictor de Y dado X= (X1 , . . . , Xm ) es la variable aleatoria

E(Y /(X1 , . . . , Xm )).
Por ejemplo, si X1 , . . . Xm , Y son variables aleatorias discretas, entonces
h(x1 , . . . , xm ) = E(Y / (X1 , . . . , Xm ) = (x1 , . . . , xm ))

∑
= y pY /X1 =x1 ,...,Xm =xm (y)
y∈RecY
y
E(Y /(X1 , . . . , Xm )) = h(X1 , . . . , Xm ).
- 370 -
2.8 Dependencia
b) el mejor predictor lineal de Y dado X= (X1 , . . . , Xm ) es la variable aleatoria
∑
m
Ŷ = ã0 + ãi Xi ,
i=1
donde el vector (ã1 , . . . , ãm ) se calcula desde la relación
(ã1 , . . . , ãm ) = (Cov(Y, X1 ), . . . , Cov(Y, Xm )) Γ−1

X ,
con ΓX matriz de orden m × m, cuyo elemento (i, j) es Cov(Xi , Xj ), y el valor ã0

se determina de la ecuación
∑
m
ã0 = E(Y ) − ãi E(Xi ).
i=1
Por ejemplo, si m = 2,
Ŷ = ã0 + ã1 X1 + ã2 X2 ,
con
 −1
Cov(X1 , X1 ) Cov(X1 , X2 )
(ã1 , ã2 ) = (Cov(Y, X1 ), Cov(Y, X2 ))1×2  
Cov(X2 , X1 ) Cov(X2 , X2 ) 2×2
y
ã0 = E(Y ) − (ã1 E(X1 ) + ã2 E(X2 )).
Ejemplo 2.8.21: Sean Z1 , Z2 y Z3 variables aleatorias independientes, todas de va-

rianza uno y de modo que E(Zi ) = i, para i = 1, 2, 3.
Asumamos que, 0 < α < 1, y
1 α
X1 = √ Z1 , X2 = √ Z1 + Z2 ,
1 − α2 1 − α2
α2
Y = √ Z1 + α Z 2 + Z3 .
1 − α2
Encontremos el mejor predictor lineal de Y dado (X1 , X2 ).
Notemos primeramente que, por las condiciones de las Zi ,
( )
α2 1
Cov(Y, X1 ) =Cov √ Z1 + α Z2 + Z3 , √ Z1
1 − α2 1 − α2
α2 α 1
= Cov(Z1 , Z1 ) + √ Cov(Z2 , Z1 ) + √ Cov(Z3 , Z1 )
1 − α2 1−α 2 1 − α2
α2
= ,
1 − α2
- 371 -
2.8 Dependencia
Cov(Y, X2 ) =Cov(Y, α X1 + Z2 )
=α Cov(Y, X1 ) + Cov(Y, Z2 )
( )
α2 α2
=α + Cov √ Z1 + αZ2 + Z3 , Z2
1 − α2 1 − α2
α3 α2
= + √ Cov(Z1 , Z2 ) + α Cov(Z2 , Z2 ) + Cov(Z3 , Z2 )
1 − α2 1 − α2
α
= .
1 − α2
También,
Cov(X1 , X1 ) =V ar(X1 )
1
= V ar(Z1 )
1 − α2
1
= ,
1 − α2
Cov(X1 , X2 ) =Cov(X2 , X1 )
( )
α 1
=Cov √ Z1 + Z2 , √ Z1
1 − α2 1 − α2
α 1
= Cov(Z1 , Z1 ) + √ Cov(Z2 , Z1 )
1−α 2
1 − α2
α
= ,
1 − α2
Cov(X2 , X2 ) =V ar(X2 )
( )
α
=V ar √ Z1 + Z2
1 − α2
α 2
= V ar(Z1 ) + V ar(Z2 )
1 − α2
α2
= +1
1 − α2
1
=
1 − α2
y
1
E(X1 ) = √ ,
1 − α2
α
E(X2 ) = √ + 2,
1 − α2
α2
E(Y ) = √ + 2 α + 3.
1 − α2
- 372 -
2.8 Dependencia
Por lo tanto, ( )
α2 α
(Cov(Y, X1 ), Cov(Y, X2 )) = ,
1 − α2 1 − α2
y
 −1
 −1 1 α  
V ar(X1 ) Cov(X1 , X2 )  1 − α2 1 − α2  1 −α
  =

 = .
 α 
Cov(X2 , X1 ) V ar(X2 ) 1 −α 1
1 − α2 1 − α2
O sea,  
( ) 1 −α
α2 α  
(ã1 , ã2 ) = , = (0, α)
1− α2 1 − α2 1×2 −α 1 2×2
ã0 =E(Y ) − (ã1 E(X1 ) + ã2 E(X2 ))

[ ( )]
α2 1 α
=√ + 2α + 3 − 0 · √ +α· √ +2
1 − α2 1 − α2 1 − α2
=3.
En consecuencia, el mejor predictor lineal de Y dado X= (X1 , X2 ) es la variable

aleatoria
Ŷ = 3 − 0 X1 + α X2 .
Ejemplo 2.8.22: Sea µ= (µ1 , . . . , µp ) vector de Rp y Σ = [σij ] matriz de orden

p × p, simétrica y definida positiva. Recordemos que el vector aleatorio p-dimensional
(Z1 , . . . , Zp ), se dice que tiene distribución p-variada de parámetros (µ,Σ), se anota
(Z1 , . . . , Zp ) ∼ N (µ, Σ), si su densidad conjunta está dada por
1 1 ( )
fZ1 ,...,Zp (v1 , . . . , vp ) = √ √ exp − 12 Q(v1 , . . . , vp ) ,
( 2π)p detΣ
con v= (v1 , . . . , vp ) ∈ Rp , y
Q(v1 , . . . , vp ) = ( µ - v )Σ−1 ( µ - v)t .
La “t” representa la transpuesta y la función Q se llama forma cuadrática asociada

al vector (Z1 , . . . , Zp ). El caso p = 2, fue visto en el Ejemplo 2.4.7.
Es posible verificar que se cumplen las siguientes propiedades:
i) Para todo j ∈ {1, . . . , p}, Zj ∼ N (µj , σjj ).
ii) Para todo i, j ∈ {1, . . . , p}, Cov(Zi , Zj ) = σij .
- 373 -
2.8 Dependencia
iii) Si {j1 , . . . , jr } ⊂ {1, . . . , p}, entonces (Zj1 , . . . , Zjr ) ∼ N (ξ,η), con ξ= (µj1 , . . . , µjr )
y η matriz de tamaño r × r, con elemento qjm jn en el lugar (m, n) de esta matriz.
Asumiendo que (X1 , X2 , Y ) es un vector aleatorio normal tri-variado, con

 
2 0 0.2
µ = (1, 3, −2) y Σ= 0 3 −0.5,
0.2 −0.5 4
encontremos el mejor predictor lineal de Y dado (X1 , X2 ).

De las observaciones i), ii) y iii),
• E(X1 ) = 1; E(X2 ) = 3; E(Y ) = −2.
• Cov(Y, X1 ) = 0.2; Cov(Y, X2 ) = −0.5.
• V ar(X1 ) = 2; Cov(X1 , X2 ) = 0; V ar(X2 ) = 3.
Por lo tanto,
 −1  
2 0 0.5 0
  = ,
1
0 3 0 3
por lo que  
( ) 0.5 0 ( )
1 −1  = 1 −1
(ã1 , ã2 ) = , ,
5 2 1 10 6
0 3
y ( )
1 −1 8
ã0 = −2 − ·1+ ·3 =− .
10 6 5
En consecuencia,
8 1 1
Ŷ = − + X1 − X2 .
5 10 6
Observación 2.8.9: Es posible verificar que en el caso en que (X1 , . . . , Xn , Y ) sea un

vector normal n + 1-variado, el mejor predictor de Y dado (X1 , . . . , Xn ), coincide con el
mejor predictor lineal. Esto corresponde a la generalización de la Proposición 2.8.6.
- 374 -
2.8 Dependencia
PROBLEMAS
Problema 2.8.A: Sean U, V variables aleatorias tales que:

{ 3
v2
si v ≥ 3
fV (v) =
0 e.o.c.
y
U/V = v ∼ U (0, 3v).
a) Encuentre f(U,V ) .
b) Encuentre fV /U =u .
Problema 2.8.B: Sea (X, N ) vector aleatorio tal que
X/N = n ∼ B(n, p), N ∼ P(λ).
Halle la distribución de X.
Problema 2.8.C: Sea (X, Y ) vector aleatorio con densidad conjunta dada por
f(X,Y ) (x, y) = c exp{−(1 + x2 ) (1 + y 2 )}, (x, y) ∈ R2 ,
donde c es constante con la que se satisface

∫ ∞∫ ∞
f(X,Y ) (x, y)dxdy = 1.
−∞ −∞
Muestre que tanto Y /X = x como X/Y = y tienen distribución normal.
Problema 2.8.D: Sea (X, Y ) vector normal bivariado, con
(X, Y ) ∼ N ((1, 1), ( 31 12 )).
Halle la distribución condicional de X + Y dado X − Y = 0.
Problema 2.8.E: Se observa a dos lámparas durante sus vidas útiles. Suponga que
las vidas útiles son independientes y siguen una distribución exponencial de parámetro λ.
Sea X el tiempo que transcurre hasta que la primera lámpara se queme, Y el tiempo que
transcurre hasta que la otra lámpara se queme.
a) ¿Cuál es la distribución condicional de X dado Y = y?
b) ¿Cuál es la distribución de Y dado X = x?
c) Halle la distribución condicional de Y − X dado X = x.
- 375 -
2.8 Dependencia
Problema 2.8.F: Recordemos que una variable aleatoria X tiene distribución Beta de
parámetros a, b > 0, se anota X ∼ Beta(a, b), si su densidad está dada por
{ Γ(a+b)
xa−1 (1 − x)b−1 si 0 ≤ x ≤ 1
f (x, a, b) = Γ(a)Γ(b)
0 e.o.c.
Sea X variable aleatoria tal que X ∼ B(n, P ), n conocido y P aleatorio, con distribución
Beta(a, b) (a esta distribución se le conoce como distribución a priori para P ).
Encuentre la distribución de P/X = x (esta distribución es conocida como a posteriori
2
de P ). Además, calcule lim µposteriori y lim σposteriori .
n→∞ n→∞
Problema 2.8.G: Sea X = (X1 , . . . , Xn ) vector aleatorio, donde las variables aleatorias
Xi son independientes y N (M, σ 2 ), σ 2 conocido y M aleatorio, con distribución a priori
N (µ0 , σ 2 ). Encuentre la distribución a posteriori de M .
Problema 2.8.H: Si la distribución a priori pertenece a una familia G, los datos tienen
distribución perteneciente a una familia H, y la distribución a posteriori también pertenece
a G, entonces se dice que G es una familia de prioris conjugadas para H. Ası́, desde
el problema anterior, se tiene que la distribución Beta es una priori conjugada para la
distribución Binomial.
Suponga que M ∼ N (µ0 , σ02 ) y X/M = µ ∼ N (µ, σ 2 ). Muestre que la distribución a
posteriori de M es normal con media
σ02 σ 2 µ0 + σ02 x
µ1 = µ0 + (x − µ0 ) =
σ 2 + σ02 σ 2 + σ02
y varianza
σ02 σ 2 1
σ12 = = .
σ02 + σ 2 1
σ2
+ 1
σ02
Es decir, la distribución normal es conjugada de si misma.
Problema 2.8.I: Sea X variable aleatoria discreta con RecX = {0, 1, . . .} y Z variable
aleatoria continua, Z ∼Gamma(α, β). Asuma que X/Z = λ tiene distribución Poisson(λ),
λ > 0. Encuentre la distribución de la variable aleatoria X.
Problema 2.8.J: La tabla siguiente, resume la distribución del número de cobros, en un

año, para 100000 pólizas de vehı́culos motorizados.
Número de cobros Número de pólizas observadas
0 88585
1 10577
2 779
3 54
4 4
5 1
6 0
Total 100000
- 376 -
2.8 Dependencia
Por ejemplo, 10577 pólizas hicieron uso de su seguro sólo una vez en el año.
Suponiendo que la distribución de Poisson(λ), con λ tasa aleatoria y
λ ∼ Gamma(α, β), es un modelo para el número de cobros, estime el número de pólizas
con 0 cobros, 1 cobro, etc.
Problema 2.8.K: Sean (Xn ; n ≥ 1) sucesión de variables aleatorias discretas con

Rec Xn = {0, 1, . . . , n} y P variable aleatoria continua. Asuma que, para cada n,
Xn / P = p ∼ B(n, p), P ∼ U (0, 1).
a) Halle la distribución de Xn .
b) Obtenga la distribución condicional de P dado que Xn = k, k = 0, 1, . . . , n.
Problema 2.8.L: Sea X variable aleatoria con densidad dada por

{ 1
Γ(α) xα−1 e−x si x > 0 (α > 0)
fX (x) =
0 e.o.c.
Suponga que dado X = x (x > 0), Y tiene distribución Poisson con parámetro x, es decir,
xk e−x
P (Y = k/X = x) = , k ∈ {0, 1, 2, . . .}.
k!
a) Pruebe que
Γ(α + k)
P (Y = k) = , k ∈ {0, 1, 2, . . .}.
k! Γ(α) 2α+k
b) Obtenga la distribución condicional de X dado que Y = k, con k = 0, 1, 2, . . .
c) Calcule E(Y ) de dos formas distintas, y use esto para concluir que
∞ (
∑ )
k+n−1 1
= 2n , para n = 1, 2, 3, . . .
n 2k
k=1
d) Asuma α = 1, es decir, X es variable aleatoria exp(1). Verifique ahora que

X/Y = k ∼ Gamma(k + 1, 2), k = 0, 1, . . .
Problema 2.8.M: Para cada t ∈ R+ , sea Nt variable aleatoria tal que Nt ∼ P(λ t). Sea
T una variable aleatoria exponencial de parámetro µ.
Suponga que, para todo t ∈ R+ , las variables aleatorias Nt y T son independientes.
Halle la distribución de la variable aleatoria NT .
Problema 2.8.N: Clientes llegan a un supermercado según un proceso de Poisson con

parámetro λ, es decir, el número de clientes que llegan en el intervalo [0, t] es la variable
aleatoria Nt , la cual tiene distribución Poisson con parámetro λt.
- 377 -
2.8 Dependencia
Un fusible es instalado en el supermercado en el instante t = 0, y su vida útil T , tiene

distribución exponencial de parámetro µ.
¿Cuál es el número esperado de clientes que entran al supermercado hasta que el fusible
falla? Suponga que T es independiente del proceso de Poisson.
Problema 2.8.O: Sea (X, Y ) vector aleatorio discreto, con función de cuantı́a conjunta
dada por la tabla del Problema 2.6.H. Calcule:
a) E(X/Y = j), j ∈ {0, 1, 2, 3},
b) E(E(X/Y )),
c) E(V (X/Y )),
d) V (X − E(X/Y )).
Problema 2.8.P: Sea (X, Y ) vector aleatorio bidimensional. Suponga que la distribución
condicional de X dado Y = y es N (y 2 , y), siendo la densidad de Y dada por
{ 4
y5
si y ≥ 1
fY (y) =
0 si y < 1
Calcule:
a) E(Y r ), para r < 4,
b) E(X),
c) Cov(X, Y ).
Problema 2.8.Q: En un proceso productivo la probabilidad de que un ı́tem sea defec-

tuoso es p. Se examinan al azar n ı́tems (n ≥ 2) y se determina el número x de defectuosos.
Los x ı́tems defectuosos son sometidos a un examen más cuidadoso, determinándose que y
de estos son reparables. En base a la experiencia histórica, se sabe que un item defectuoso
es reparable con probabilidad α.
a) Obtenga p(X,Y ) (x, y), donde X es la variable aleatoria número de items defectuosos
al examinar n e Y el número de items reparables.
b) Pruebe que X − Y tiene distribución Binomial.
c) Calcule E(Y ).
Problema 2.8.R: Sean X1 , X2 variables aleatorias iid con densidad común

{
θ e−θx si x > 0, θ > 0
f (x, θ) =
0 e.o.c.
- 378 -
2.8 Dependencia
a) Encuentre fX1 /X1 +X2 =t (s).
b) Calcule E(Z/X1 + X2 = t), con Z = I(X1 >x0 ) y x0 real positivo fijo.
Problema 2.8.S: Sea (Xn ; n ≥ 0) sucesión de variables aleatorias discretas con valores
en {0, 1, . . . , d}, d ≥ 2. Suponga que, para todo n ≥ 0,
 1

 2 si |i − j| = 1 con 0 < i < d



P (Xn+1 = j / Xn = i) = 1 si (i, j) = (0, 0) ó (i, j) = (d, d)





0 e.o.c.
a) Encuentre E(Xn+1 /Xn = x), para x ∈ {0, 1, . . . , d} y n ≥ 0.
b) Asuma que E(X0 ) = 15 . Calcule E(Xn ), para todo n ≥ 1.
Problema 2.8.T: Sean X, Y variables aleatorias con esperanza y varianza finita. Veri-
fique la relación
V (Y ) = E(V (Y /X)) + V (E(Y /X)).
Problema 2.8.U: Sea (X, Y ) vector aleatorio normal bivariado con forma cuadrática
asociada
Q(x, y) = x2 + 2y 2 − xy − 3x − 2y + 4.
a) Halle la distribución de X/Y = y.
b) Calcule E(X/Y ).
Problema 2.8.V: Sea (X, Y ) vector aleatorio con densidad conjunta dada por
{ 1
π si x + y ≤ 1
2 2
f (x, y) =
0 e.o.c.
a) Halle fY /X=x y calcule E(Y /X).
b) ¿Son X e Y independientes?
c) Pruebe que X e Y son no correlacionadas.
Problema 2.8.W: El número de accidentes que ocurren a la semana en una cierta

fábrica, es una variable aleatoria con media µ y varianza σ 2 . El número de individuos
heridos, en los diferentes, accidentes son variables aleatorias iid con media ε y varianza τ 2
e independiente del número de accidentes.
Sea Y la variable aleatoria: número de individuos heridos en una semana.
a) Calcule E(Y ).
- 379 -
2.8 Dependencia
b) Calcule V (Y ).
Problema ∑2.8.X: Sean X1 , . . . , Xn , n ≥ 2, variables aleatorias iid B(p).

Sea Sn = ni=1 Xi , es decir, Sn es el número de éxitos que ocurren en n-ensayos indepen-
dientes, con probabilidad p de éxito en cada ensayo. En consecuencia, Sn ∼ B(n, p).
Para m ≤ n, calcule E(Sm /Sn ).
Problema 2.8.Y: Sean X1 , X2 variables aleatorias iid con densidad común dada por:
{ 2
3t si 0 < t < 1
f (t) =
0 e.o.c.
Sean Y1 = X1
X2 ; Y2 = X1 X2 . Calcule E(Y1 /Y2 ).
Problema 2.8.Z: Sea {Zij , i = 1, 2, . . . ; j = 0, 1, 2, . . .} un conjunto de variables aleato-

rias iid tal que
P (Zij = k) = pk , k = 0, 1, 2, . . . ,
E(Zij ) = µ,
Var(Zij ) = σ 2 .
Nótese que el conjunto de variables aleatorias consideradas es el siguiente:
Z10 Z11 Z12 · · ·

Z20 Z21 Z22 · · ·
.. .. .. ..
. . . .
Considere la sucesión (Xn ; n ≥ 0) definida por
∑
Xn
X0 = 1, Xn+1 = Zkn , n = 0, 1, 2, ...
k=1
Por ejemplo, si n = 0,
∑
X0
X1 = Zk0 = Z10 , pues X0 = 1.
k=1
∑Xn
En el caso en que Xn = 0, k=1 se interpreta como 0.
La sucesión (Xn ; n ≥ 0) es una cadena de Markov y es conocida como proceso de
ramificación de Galton-Watson.
La variable aleatoria Zij representa el número de descendientes del i-ésimo individuo
en la j-ésima generación. Ası́, Xn representa el total de la población después de n − 1
generaciones. Para todo n ≥ 0, calcule
a) E(Xn+1 ).
b) Var(Xn+1 ).
- 380 -
2.8 Dependencia
c) Si 0 < µ < 1, calcule lim E(Xn+1 ).

n→∞
Problema 2.8.AA: Sea X1 , . . . , Xn variables aleatorias iid N(0,1).Muestre que:

( )
i) X̄ ∼ N 0, n1 ,
ii) X̄ (media muestral) y S 2 (varianza muestral) son independientes.
Problema 2.8.AB: Sean X1 , X2 variables aleatorias iid N (θ, 1). Considere las siguientes
variables aleatorias,
X1 + X2
Y = , T = X1 , S = E(Y /T ).
2
a) Calcule E(Y ) y V (Y ).
b) Verifique que S depende de θ.
c) Calcule E(S) y compruebe que V (S) ≤ V (Y ).
d) Muestre que la distribución de (X1 , X2 )/T = t depende de θ.
Problema 2.8.AC: Sea X1 , . . . , Xn variables aleatorias idd B(θ)
a) Sea Y = I(Xn =1) . Calcule E(Y ) y V (Y ).

T
b) Sea T = X1 + . . . + Xn . Muestre que E(Y /T ) = .
n
Problema 2.8.AD: Sean X e Y variables aleatorias. Asuma que Y tiene distribución

Gamma(α, β) y X tiene distribución Poisson de parámetro Y , es decir, X/Y = λ ∼ P (λ).
a) Verifique que la variable aleatoria X tiene distribución Binomial Negativa de parámetros

β
(α, p), con p = .
1+β
α(1 − p)
b) Encuentre E(X/Y ) y verifique que E(X) = .
p
α(1 − p)
c) Calcule V (X/Y ) y verifique que V (X) = .
p2
Problema 2.8.AE: Sea (X, Y ) vector aleatorio normal bivariado de modo que se cumple
(X, Y ) ∼ N ((0, 0), ( 10 01 )).
Encuentre la función M (t) = E(exp(tXY )), con su correspondiente dominio para t.
- 381 -
2.9. CONVERGENCIA
2.9 Convergencia
En esta sección mostraremos, principalmente, el comportamiento asintótico de una sucesión

de variables aleatorias. En particular, el comportamiento lı́mite de sumas de variables
aleatorias independientes. Los resultados que se mostrarán son de gran importancia para
el estudio de propiedades de ciertas “cantidades estadı́sticas” que aparecen en la Teorı́a
de Inferencia.
En general, las propiedades que enunciaremos no serán demostradas debido al grado
de complejidad de estas, pero, una excelente referencia donde podrı́an consultarse es [7].
2.9.1 Tipos de convergencia

Comúnmente se cree (y se puede verificar experimentalmente o a través de simulaciones
computacionales) que al lanzar muchas veces una moneda honesta, la proporción de ve-
ces que sale cara es cercana a 0.5. La ley de los grandes números es una formulación
matemática de esta creencia. Los sucesivos lanzamientos de la moneda son modelados
como ensayos aleatorios independientes. La variable aleatoria Xn toma el valor 0 ó 1 de
acuerdo a si en el n-ésimo ensayo resulta un sello o una cara. Entonces, la proporción de
resultados en que la moneda sale cara, cuando se realizan n lanzamientos de esta, puede
ser expresado como
1∑
n
X̄n = Xi .
n
i=1
La ley de los grandes números expresa que X̄n es “cercano” a 0.5 en algún sentido.
También, en algunas aplicaciones, como las vistas, por ejemplo, en la Sección 2.7, es
común querer aproximar P (a < X ≤ b) = FX (b) − FX (a), cuando no se conoce la función
de distribución acumulada FX .
El sentido de la “cercanı́a” de X̄n con 0.5 y el tipo de aproximación de FX , son algunas
de las diferentes formas de convergencia que veremos a continuación.
Definición 2.9.1: Sean (Xn ; n ≥ 1) sucesión de variables aleatorias y X otra variable

aleatoria
(a) La sucesión (Xn ; n ≥ 1) se dice que converge en probabilidad a X, se anota

P
Xn −→ X, si, para todo ε > 0,
n
lim P (|Xn − X| > ε) = 0.

n→∞
Notar que, de la definición de convergencia en probabilidad,

P P
Xn −→ X ⇔ (Xn − X) −→ 0.
n n
(b) La sucesión (Xn ; n ≥ 1) se dice que converge casi seguramente a X, se anota

c.s.
Xn −→ X, si
n ( )
P {ω ∈ Ω : lim Xn (ω) = X(ω)} = 1.
n→∞
- 382 -
2.9 Convergencia
También, en este caso, de la definición de convergencia casi segura,

c.s. c.s.
Xn −→ X ⇔ (Xn − X) −→ 0.
n n
D
(c) La sucesión (Xn ; n ≥ 1) se dice que converge en distribución a X, se anota Xn −→ X,
n
si, para todo x donde FX es continua,
lim FXn (x) = FX (x).

n→∞
Es común denotar a FXn por Fn y a FX por F .

D D
En este tipo de convergencia, Xn −→ X no es equivalente a (Xn − X) −→ 0, salvo
n n
cuando X es constante.
Lp
(d) La sucesión (Xn ; n ≥ 1) se dice que converge en Lp a X, se anota Xn −→ X, si,
n
lim E (|Xn − X|p ) = 0.

n→∞
En el caso en que p = 2, la convergencia en L2 se conoce como convergencia en

media cuadrática, y desde que
( ) ( )
E |Xn − X|2 = E (Xn − X)2
= V ar(Xn − X) + [E(Xn − X)]2
= V ar(Xn − X) + [E(Xn ) − E(X)]2 ,
la convergencia en media cuadrática equivale a que se verifiquen las relaciones
lim V ar(Xn − X) = 0 y lim E(Xn ) = E(X).

n→∞ n→∞
Proposición 2.9.1: Las relaciones entre los distintos tipos de convergencia se expresan
en el siguiente diagrama:
Lq
Xn −→ X
n
⇓ si q ≥ p ≥ 1
Lp
Xn −→ X
n
c.s. P D
Xn −−→ X ⇒ Xn −
→ X ⇒ Xn −
→X
n n n
⇐ si X es constante
- 383 -
2.9 Convergencia
Ejemplo 2.9.1: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias de modo que, para todo
n ≥ 1, ( ) ( )
P Xn = 1 − n1 = 12 , P Xn = 1 + n1 = 1
2
y X variable aleatoria constante igual a 1.

D
a) Verifiquemos que Xn −
→ X.
n
L2 c.s.
b) Mostremos que Xn −→ 1 y también Xn −−→ 1.
n n
Primeramente,


0 si x < 1 − n1
Fn (x) = P (Xn ≤ x) = 1
si 1 − n1 ≤ x < 1 + 1


2 n
1 si x ≥ 1 + n1
y también, {
0 si x < 1
F (x) = P (X ≤ x) =
1 si x ≥ 1
Caso 1: Si x < 1, entonces existe n(0 ∈ N, de modo ) que, para todo n ≥ n0 , x < 1 − n1 .
Lo anterior debido a que la sucesión 1 − n1 ; n ≥ 1 converge a 1. Ası́,
lim Fn (x) = lim 0 = 0 = F (x).

n→∞ n→∞
Caso 2: Si x > 1, entonces existe n(1 ∈ N, de modo ) que, para todo n ≥ n1 , x > 1 + n .
1
Lo anterior debido a que la sucesión 1 + n ; n ≥ 1 converge a uno. Ası́,

1
lim Fn (x) = lim 1 = 1 = F (x).

n→∞ n→∞
En consecuencia, para todo x donde F es continua, se cumple
lim Fn (x) = F (x),

n→∞
D
es decir, Xn −→ X.
n
También,
( ) ( )
1 ( ) 1 ( )
E(Xn ) = 1− P Xn = 1 − n + 1 +
1
P Xn = 1 + n1
n n
( ) ( )
1 1 1 1
= 1− + 1+
n 2 n 2
= 1
- 384 -
2.9 Convergencia
y
( ) ( )
1 2 1 1 2 1 1
E(Xn2 ) = 1− + 1+ = 1 + 2.
n 2 n 2 n
Ası́,
V ar(Xn − X) = V ar(Xn − 1)
= V ar(Xn )
( )
1
= 1 + 2 − 12
n
1
= ,
n2
por lo que
lim V ar(Xn − X) = 0
n→∞
y
lim E(Xn ) = lim 1 = 1 = E(X).
n→∞ n→∞
L2
Por lo tanto, Xn −→ X.
n
c.s.
Finalmente, verificar que Xn −−→ X, significa probar que P (A) = 1, con
n
A = {ω ∈ Ω : lim Xn (ω) = 1}.
n→∞
Para ello, definamos la sucesión (Bn ; n ≥ 1), con Bn = {ω ∈ Ω∩: |Xn (ω) − 1| = n1 }.
Notar que, para todo n ≥ 1, P (Bn ) = 1. Si ahora definimos B = ∞ n=1 Bn , concluimos
que (∞ )
∪ ∞
∑ ∞
∑
c
P (B ) = P Bn ≤
c c
P (Bn ) = 0 = 0,
n=1 n=1 n=1
es decir, P (B c ) = 0, por lo que P (B) = 1.

Ahora, si ω ∈ B, entonces ω ∈ Bn , para todo n ≥ 1, es decir, |Xn (ω) − 1| = 1
n, para
todo n ≥ 1, de donde
lim Xn (ω) = 1,
n→∞
o sea, ω ∈ A.
Concluimos entonces que, B ⊂ A, por lo que
1 = P (B) ≤ P (A) ≤ 1,
es decir, P (A) = 1.
Ejemplo 2.9.2: Sea (Yn ; n ≥ 1), sucesión de variables aleatorias iid U (0, 1). Para cada
n ≥ 1, se define Xn = n · min{Y1 , . . . , Yn }. Verifiquemos que
D
Xn −
→ X,
n
- 385 -
2.9 Convergencia
D
donde X ∼ exp(1). Es común escribir lo anterior en la forma Xn −
→ exp(1).
n
Notemos que
F (x) = P (X ≤ x)
{
0 si x < 0
=
1 − e−x si x ≥ 0
y
Fn (x) =P (Xn ≤ x)
=P (n · min{Y1 , . . . , Yn } ≤ x)
( x)
=P min{Y1 , . . . , Yn } ≤
( n
x)
=1 − P min{Y1 , . . . , Yn } >
( n
x x)
=1 − P Y1 > , . . . , Yn >
[ ( n )] n
x n
=1 − P Y1 >
[ (nx )]n
=1 − 1 − FY1
n


0 [ si x < 0
]n
= 1− 1− n x
si 0 ≤ nx < 1


1 si nx ≥ 1
Por lo tanto, si x < 0, entonces
lim Fn (x) = lim 0 = 0 = F (x).
n→∞ n→∞
Si ahora x > 0, entonces existe n0 ∈ N, de modo que, para todo n ≥ n0 , se verifica la

desigualdad, 0 ≤ nx < 1, y por tanto
[ x ]n
Fn (x) = 1 − 1 − , para todo n ≥ n0 .
n
Es decir,
( [ x ]n )
lim Fn (x) = lim 1 − 1 −
n→∞ n→∞
( n
x )n
=1 − lim 1 −
n→∞ n
−x
=1 − e
=F (x).
En consecuencia, para todo x real,
lim Fn (x) = F (x),
n→∞
es decir,
D
Xn −
→ X.
n
- 386 -
2.9 Convergencia
Ejemplo 2.9.3: Sea (Zn ; n ≥ 1) sucesión de variables aleatorias iid U (0, 1). Para cada
P
n ≥ 1, se define Xn = max{Z1 , . . . , Zn }. Verifiquemos que Xn −
→ 1.
n
Como para cada i ≥ 1, Zi ∼ U (0, 1), entonces P (0 < Zi < 1) = 1, por lo que, para
todo n ≥ 1, P (0 < Xn < 1) = 1. Ası́, si ε > 0,
P (|Xn − 1| > ε) =P (Xn − 1 > ε ∨ Xn − 1 < −ε)

=P (Xn > 1 + ε) + P (Xn < 1 − ε)
=0 + P (Xn < 1 − ε)
=P (max{Z1 , . . . , Zn } < 1 − ε)
=P (Z1 < 1 − ε, . . . , Zn < 1 − ε)
= [P (Z1 < 1 − ε)]n
{
0 si 1 − ε ≤ 0
=
(1 − ε)n si 0 < 1 − ε < 1
es decir, para ε > 0,

{
0 si 1 ≤ ε
P (|Xn − 1| > ε) =
(1 − ε)n si 0 < ε < 1.
En consecuencia, para todo ε > 0,
lim P (|Xn − 1| < ε) > 0,

n→∞
P
o sea, Xn −
→ 1.
n
Proposición 2.9.2: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias de modo que
i) lim E(Xn ) = α, ii) lim V ar(Xn ) = 0.

n→∞ n→∞
P
Entonces, Xn −
→ α.
n
Demostración: Primeramente, usando Corolario 2.3.2, se tiene que, para ε > 0,
E(|Xn − α|2 )
P (|Xn − α| > ε) ≤ .
ε2
Pero,
( )
E(|Xn − α|2 ) =E (Xn − α)2
=E(Xn2 ) − 2 α E(Xn ) + α2
=V ar(Xn ) + (E(Xn ))2 − 2 α E(Xn ) + α2 .
Usando ahora las condiciones i) y ii), se obtiene que

( )
lim E |Xn − α|2 = 0 + α2 − 2α α + α2 = 0.
n→∞
- 387 -
2.9 Convergencia
O sea, para todo ε > 0,

1 ( )
2
lim P (|Xn − α| > ε) ≤ lim E |X n − α| = 0.
n→∞ ε2 n→∞
P
En consecuencia, Xn −
→ α.
n
Proposición 2.9.3: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid con media
común µ ∈ R, y varianza común σ 2 , con 0 < σ 2 < ∞. Para cada n ≥ 1, se define
Sn − E(Sn ) ∑
n
Zn = √ , con Sn = Xi .
V ar(Sn ) i=1
Entonces, la sucesión (Zn ; n ≥ 1) converge en distribución a Z, donde Z ∼ N (0, 1). En

otras palabras,
Sn − E(Sn ) D
√ −−→ N (0, 1).
V ar(Sn ) n
Cabe resaltar que, por el hecho de que X1 , . . . , Xn , . . . son iid,

Sn − E(Sn ) Sn − nµ
√ = √
V ar(Sn ) nσ 2
n(X̄n − µ)
= √
nσ
√
n
= (X̄n − µ).
σ
Por lo tanto, la convergencia que se tiene es
√
n D
(X̄n − µ) −−→ N (0, 1).
σ n
Este resultado es conocido como Teorema del Lı́mite Central (clásico), y fue
enunciado en la Sección 2.7.
2.9.2 Ley de los grandes números

Ahora enunciaremos la ley de los grandes números y entregaremos algunos criterios para
su verificación.
Definición 2.9.2: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias, de modo que, para
todo n ≥ 1, E(Xn ) < ∞.
Se dice que la sucesión (Xn ; n ≥ 1) satisface la ley débil de los grandes números,
anotaremos LDGN , si
- 388 -
2.9 Convergencia
Sn − E(Sn ) P
a) −→ 0.
n n
Se dice que la sucesión (Xn ; n ≥ 1) satisface la ley fuerte de los grandes números,
anotaremos LF GN , si
Sn − E(Sn ) c.s.
b) −−→ 0.
n n
∑n
En ambos casos, la variable aleatoria Sn está definida por Sn = Xi .
i=1
En términos intuitivos, el concepto “ley de los grandes números” puede ser expresado
como: Una sucesión de variables aleatorias satisface la ley de los grande números si, cuando
n es “grande”, la media aritmética de las primeras n observaciones es aproximadamente
igual a la media aritmética de sus esperanzas, es decir, Snn es aproximadamente igual a
E(Sn )
n .
Observación 2.9.1: En el caso en que las variables aleatorias Xn tengan todas igual
media, digamos µ, las condiciones a) y b) se traducen en:
P c.s.
a’) X̄n −→ µ y b’) X̄n −−→ µ.
n n
También, por las relaciones entre los distintos tipos de convergencia vistos en la
Proposición 2.9.1, se concluye que:
Si la sucesión (Xn ; n ≥ 1) satisface la LF GN , entonces satisface la LDGN .
Proposición 2.9.4: (Ley débil de Chebyshev) Sea (Xn ; n ≥ 1) sucesión de varia-

bles aleatorias que verifican:
a) Las variables aleatorias Xi y Xj son independientes cuando i ̸= j.
b) Existe c ∈ R , de modo que, para todo n ≥ 1, V ar(Xn ) ≤ c.
Entonces, la sucesión (Xn ; n ≥ 1) satisface la LDGN , es decir,
Sn − E(Sn ) P
−−→ 0.
n n
Notar que este criterio no necesita de que las variables aleatorias Xn tengan todas
igual distribución.
Ejemplo 2.9.4: Sea (An ; n ≥ 1) sucesión de sucesos independientes. Para cada n ≥ 1,

definamos Xn = IAn . Entonces,
( 2 )
V ar(Xn ) = E(Xn2 ) − (E(Xn ))2 =E IA n
− (E (IAn ))2
=E (IAn ) − (E (IAn ))2
=P (An ) − (P (An ))2
=P (An )(1 − P (An ))
1
≤ .
4
- 389 -
2.9 Convergencia
Además, para i ̸= j, Xi es independiente de Xj pues el suceso Ai es independiente

del Aj . En consecuencia, la sucesión (Xn ; n ≥ 1) satisface la LDGN.
Proposición 2.9.5: (Primera ley fuerte). Sea (Xn ; n ≥ 1) sucesión de variables

aleatorias que verifican:
a) X1 , . . . , Xn , . . . son independientes.
∑
∞
V ar(Xn )
b) La serie numérica n2
converge.
n=1
Entonces, la sucesión (Xn ; n ≥ 1) satisface la LF GN, es decir,
Sn − E(Sn ) c.s.
−−→ 0.
n n
También en este caso, las variables aleatorias Xn no necesitan tener todas igual dis-
tribución.
Ejemplo 2.9.5: Sea (Xn ; n ≥ 1)] sucesión

[ de variables aleatorias independientes, de
modo que, para todo n ≥ 1, y θ ∈ 0, 2 ,
1
( ) 1 ( ) 1
P Xn = nθ = y P Xn = −nθ = .
2 2
Entonces,
( ) ( ) ( )
E(Xn ) =nθ · P Xn = nθ + −nθ · P Xn = −nθ
1 ( ) 1
=nθ · + −nθ ·
2 2
=0
y
( ) ( )2 ( ) ( )2 ( )
E Xn2 = nθ · P Xn = nθ + −nθ · P Xn = −nθ
1 1
=n2θ · + n2θ ·
2 2
=n2θ .
Ası́, para todo n ≥ 1, V ar(Xn ) = n2θ , por lo cual,

∞
∑ ∞
∑ ∞
∑
V ar(Xn ) n2θ 1
= =
n2 n2 np
n=1 n=1 n=1
con p = 2 − 2θ. Además, 0 < θ < 1

2, por lo que p > 1 y por tanto la serie numérica
∑∞
V ar(Xn )
n2
, converge.
n=1
- 390 -
2.9 Convergencia
En consecuencia, la sucesión (Xn ; n ≥ 1) satisface la LF GN, es decir,
Sn − E(Sn ) c.s. c.s.

−−→ 0, o equivalentemente, X̄n −−→ 0.
n n n
Proposición 2.9.6: (Ley fuerte de Kolmogorov). Sea (Xn ; n ≥ 1) sucesión de

variables aleatorias de modo que X1 , . . . , Xn , . . . son iid, con media común µ ∈ R.
Entonces, la sucesión (Xn ; n ≥ 1) satisface la LF GN, es decir,
Sn − E(Sn ) c.s. c.s.

−−→ 0, o equivalentemente, X̄n −−→ µ.
n n n
Notar
∑∞que esta Proposición es consecuencia inmediata de la primera ley fuerte, pues
la serie n=1 nc2 , es convergente, cualquiera sea la constante c.
Ahora entregaremos algunas técnicas que permiten estudiar la convergencia en dis-

tribución de distintos tipos de sucesiones.
2.9.3 Criterios para estudiar convergencia en distribución

Proposición 2.9.7: (Criterio de Paul Lévy). Sea (Xn ; n ≥ 1) sucesión de variables
aleatorias. Para cada n ≥ 1, Φn denotará la función caracterı́stica de Xn . Supongamos
que las Φn satisfacen:
a) lim Φn (t) = Φ(t), para todo t real.

n→∞
b) La función Φ(t) es continua en cero.

D
Entonces, existe X variable aleatoria de modo que ΦX = Φ y Xn −
→ X.
n
t2 D
Por ejemplo, si lim Φn (t) = e− 2 , para todo t real, entonces Xn −
→ N (0, 1), ya que
n→∞ n
2
− t2
Φ(t) = e es continua en 0 y corresponde a la función caracterı́stica de una variable
aleatoria normal (0, 1).
D
El recı́proco de esta Proposición es válido, es decir, si Xn −
→ X, entonces para todo t
n
real,
lim Φn (t) = ΦX (t).
n→∞
Ejemplo 2.9.6: Sean (Yn ; n ≥ 1) y (Zn ; n ≥ 1) dos sucesiones de variables aleatorias,

de modo que:
D D
a) Yn −
→ N (0, 1) y Zn −
→ N (0, 1).
n n
b) Para cada n ≥ 1, Yn y Zn son independientes.
- 391 -
2.9 Convergencia
Entonces, podemos concluir que si a y b son constantes no nulas,

D
aYn + bZn −
→ N (0, a2 + b2 ).
n
En efecto, por la independencia de Yn con Zn ,
ΦaYn +bZn (t) = ΦaYn (t) ΦbZn (t)

= ΦYn (a t) ΦZn (b t).
Criterio de Lévy implica que

( )( )
lim ΦaYn +bZn (t) = lim ΦYn (at) lim ΦZn (bt)
n→∞ n→∞ n→∞
− 21 (at)2 − 12 (bt)2
=e e
− 21 (a2 +b2 )t2
=e .
Además, la función Φ(t) = e− 2 (a +b )t corresponde a la función caracterı́stica de una

1 2 2 2
variable aleatoria N (0, a2 + b2 ). En consecuencia,

D
aYn + bZn −
→ N (0, a2 + b2 ).
n
Proposición 2.9.8: (Criterio para caso discreto). Sea (Xn ; n ≥ 1) sucesión de

variables aleatorias discretas, al igual que X. Asumamos que el recorrido de cada una de
ellas está incluido en el conjunto {x0 , x1 , . . .} y que además,
lim pXn (xk ) = pX (xk ), para todo k.

n→∞
D
Entonces, Xn −
→ X.
n
D
El recı́proco es verdadero cuando xk = k, es decir, si Xn −
→ X, entonces
n
lim pXn (k) = pX (k), para todo k ∈ {0, 1, . . .}.

n→∞
Ejemplo 2.9.7: Sea (XN ; N ≥ 1) sucesión de variables aleatorias hipergeométricas, con

función de cuantı́a
 ( )( )
 D N −D

 k n−k

 (N ) si k ∈ {0, 1, . . . , n}
pN (k) = P (XN = k) = n




 0 e.o.c.
(D )
donde D, N son enteros no negativos, D ≤ N y n ≤ N (por convención k = 0 si
k > D).
- 392 -
2.9 Convergencia
Recordemos que esta distribución sirve de modelo, por ejemplo, para el número de
artı́culos defectuosos en una muestra de tamaño n, extraı́da sin reposición de un lote de
N artı́culos, que contiene D defectuosos.
Cuando D y N −D (número de artı́culos no defectuosos) son “grandes”
( D ) y n “pequeño”,
la variable aleatoria XN tiene, “aproximadamente”, distribución B n, N , ya que en estas
condiciones, las extracciones son “casi” independientes (lote “grande”).
Asumamos n fijo y D dependiendo de N , de modo que N D
→ p cuando N tiende a
infinito (0 < p < 1).
En estas condiciones, verifiquemos que
D
XN −→ B(n, p).
N
En efecto, para k ∈ RecXN = {0, 1, . . . , n},
(D)(N −D)
k
pN (k) = P (XN = k) = (Nn−k
)
n
D! (N −D)! n!(N −n)!

= k!(D−k)! (n−k)!(N −D−n+k)! N!
(n) D(D−1)···(D−(k−1))(N −D)(N −D−1)···(N −D−(n−k−1))

= k N (N −1)···(N −(n−1))
(n) N ( N − N1 )···( N
D D D
− k−1
N )(
D
1− N )(1− D+1 ··· 1− D+n−k−1
N ) ( N )
= k 1 (1− N )···(1− N )
1 n−1 ,
N →
D
y como p, entonces
N
( )
n p p · · · p(1 − p) · · · (1 − p)
lim pN (k) =
N →∞ k 1 (1 − 0) · · · (1 − 0)
( )
n k
= p (1 − p)n−k ,
k
es decir,
D
XN −→ B(n, p).
N
Proposición 2.9.9: (Criterio de Scheffé). Sea (Xn ; n ≥ 1) sucesión de variables

aleatorias continuas al igual que X. Para cada n ≥ 1, denotemos por fn la densidad de
Xn y por f la densidad de X. Si se satisface la condición
lim fn (x) = f (x),

n→∞
para todo x real, salvo un conjunto contable, entonces

D
Xn −
→ X.
n
- 393 -
2.9 Convergencia
D
El recı́proco de esta Proposición es falso, es decir, si Xn −
→ X, no implica que
n
lim fn (x) = f (x).
n→∞
Ejemplo 2.9.8: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias de modo que, para
D
cada n ≥ 1, Xn ∼ U (0, an ) y an → a, (0 < a < ∞). Verifiquemos que Xn −
→ U (0, a).
n n
Primeramente observamos que
{
1
si 0 < x < an
fn (x) = an
0 e.o.c.
y {
1
a si 0 < x < a
f (x) =
0 e.o.c.
Ahora estudiemos lim fn (x), para x ∈] − ∞, 0]; x ∈]a, ∞[ y x ∈]0, a[.
n→∞
Caso 1: x ≤ 0
lim fn (x) = lim 0 = 0 = f (x).
n→∞ n→∞
Caso 2: x > a. Como an → a, entonces, para ε = x − a, existe n0 ∈ N, tal que, para

n
todo n ≥ n0 , an − a < ε y an − a > −ε.
En particular, an < x, para todo n ≥ n0 , por lo tanto,
lim fn (x) = lim 0 = f (x).
n→∞ n→∞
Caso 3: 0 < x < a. Por el mismo argumento anterior, existe n1 ∈ N tal que, para todo
n ≥ n1 , x < an . Por lo tanto,
1 1
lim fn (x) = lim = = f (x).
n→∞ n→∞ an a
En consecuencia, para todo x real, salvo el conjunto finito {a},
lim fn (x) = f (x),
n→∞
por lo que
D
Xn −
→ U (0, a).
n
Finalmente, mostraremos algunas propiedades que permiten estudiar la forma en que

se preserva la convergencia.
Proposición 2.9.10: Sea g : R → R función continua, (Xn ; n ≥ 1) sucesión de variables

aleatorias y X otra variable aleatoria. Esta proposición asegura que:
- 394 -
2.9 Convergencia
c.s. c.s.
(i) Si Xn −−→ X, entonces g(Xn ) −−→ g(X).
n n
P P
(ii) Si Xn −
→ X, entonces g(Xn ) −
→ g(X).
n n
D D
(iii) Si Xn −
→ X, entonces g(Xn ) −
→ g(X).
n n
La Proposición 2.9.10 aún es válida si g : A → R es función continua, A es conjunto

abierto de R y P (X ∈ A) = 1.
Ejemplo 2.9.9: Sea (Yn ; n ≥ 1) sucesión de variables aleatorias iid U (0, 1). Para cada
∏ 1
n ≥ 1, definimos la media geométrica Wn = ( ni=1 Yi ) n . Estudiemos la convergencia casi
segura de la sucesión (Wn ; n ≥ 1).
Para cada k ≥ 1, definimos Zk = ln(Yk ). Ası́,
E(Zk ) =E(ln(Yk ))
∫ 1
= ln(u)fYk (u)du
0
∫ 1
= ln(u)du
0
∫ 1
= lim ln(u)du
ε→0+ ε

= lim [u ln(u) − u] 1ε
ε→0+
=1 ln(1) − 1 − lim (ε ln(ε) − ε)
ε→0+
= − 1 − lim ε ln ε
ε→0+
=−1−0 (usando L’Hopital)
= − 1.
Además, Z1 , . . . , Zn , . . . son independientes (pues las Yi lo son). La ley fuerte de Kol-
mogorov aplicada a la sucesión (Zn ; n ≥ 1) implica que
Z1 + · · · + Zn c.s.
−−→ −1.
n n
Pero,
Z1 + · · · + Zn ln(Y1 ) + · · · + ln(Yn )
=
n n
1
= ln(Y1 · · · Yn )
n
[ ]1 
∏n n
= ln  Yi 
i=1
= ln(Wn ),
- 395 -
2.9 Convergencia
es decir,
c.s.
ln(Wn ) −−→ −1.
n
Si ahora consideramos la función g(x) = ex , para x real, obtenemos que
c.s.
g(ln(Wn )) −−→ g(−1),
n
en otras palabras,
Wn −−→ e−1 .
c.s.
n
Ejemplo 2.9.10: Sea (Yn ; n ≥ 1) sucesión de variables aleatorias iid con media común
0 y varianza común 2. Verifiquemos que
1 (Y1 + · · · + Yn )2 D
· → Y,
−
2 n n
con Y ∼ χ2 (1).
Para cada n ≥ 1, definamos
√
n Y1 + · · · + Yn
Xn = √ · .
2 n
Desde que Y1 , . . . , Yn , . . . son iid con media común 0 y varianza común 2,
(Y1 + · · · + Yn ) − E(Y1 + · · · + Yn ) (Y1 + · · · + Yn ) − 0

√ = √
V ar(Y1 + · · · + Yn ) n·2
√
n Y + · · · + Yn
= √ · 1 .
2 n
Por lo tanto, Teorema del Lı́mite Central (Proposición 2.9.3) implica que
√
n Y + · · · + Yn D
√ · 1 −
→ X,
2 n n
D
es decir, Xn −
→ X, con X ∼ N (0, 1).
n
D
Si ahora definimos g(x) = x2 , para x real, entonces g(Xn ) −
→ g(X).
n
En consecuencia,
D
Xn2 −
→ X 2,
n
o sea,
1 (Y1 + · · · + Yn )2 D
· −
→ Y
2 n n
con Y = X 2 .
Finalmente, Ejemplo 2.2.9 implica que Y ∼ χ2 (1).
- 396 -
2.9 Convergencia
Proposición 2.9.11: (Teorema de Slutsky). Sean (Xn ; n ≥ 1), (Yn ; n ≥ 1) dos

sucesiones de variables aleatorias, c constante real y X otra variable aleatoria. Asumamos
que las sucesiones satisfacen
D P
Xn −
→X y Yn −
→ c.
n n
Entonces, se verifica que:

D
a) Xn + Yn −
→ X + c.
n
D
b) Xn − Yn −
→ X − c.
n
D
c) Yn Xn −
→ c X.
n
Xn D 1
d) Si c ̸= 0 y P (Yn ̸= 0) = 1, −
→ X.
Yn n c
Notar que, en particular, si
D P
Xn −
→ N (µ, σ 2 ) y Yn −
→ c,
n n
entonces
D D
Xn + Yn −
→ N (µ + c, σ 2 ) y Yn Xn −
→ N (µc, σ 2 c2 ).
n n
Ejemplo 2.9.11: Sean (Xn ; n ≥ 1) sucesión de variables aleatorias iid con media común
0 y varianza común σ 2 e (Yn ; n ≥ 1) sucesión de variables aleatorias iid con media común
µ. Entonces,
√ D
n X̄n + Ȳn −→ N (µ, σ 2 ).
n
En efecto, por la ley fuerte de Kolmogorov aplicada a la sucesión (Yn ; n ≥ 1), se deduce
c.s. P
que Ȳn −−→ µ, y por Proposición 2.9.1 se concluye que Ȳn −
→ µ.
n n
También
√
el Teorema del Lı́mite Central aplicado a la sucesión (Xn ; n ≥ 1) indica
n D
que σ (X̄ − 0) −
→ Z, con Z ∼ N (0, 1). Considerando ahora la función g(x) = σ x en
n
Proposición 2.9.10 (iii), obtenemos
√ D
n (X̄ − 0) −
→ σZ.
n
√
Finalmente, Teorema de Slutsky aplicado a las sucesiones ( n X̄n ; n ≥ 1) y (Ȳn ; n ≥ 1)
implica que
√ D
nX̄ + Ȳn −
→ σZ + µ.
n
Ahora, desde Ejemplo 2.2.8, se concluye que σ Z + µ ∼ N (µ, σ 2 ).
- 397 -
2.9 Convergencia
Ejemplo 2.9.12: Sea (Wn ; n ≥ 1) sucesión de variables aleatorias iid con media común
0 y varianza común 2. Para cada n ≥ 1, se define
√
n (W1 + · · · + Wn )
Zn = .
W12 + · · · + Wn2
Estudiemos la convergencia en distribución de la sucesión (Zn ; n ≥ 1).

Primeramente, observemos que
√
√n W1 +···+Wn
2
Zn = · n
√1 W12 +···+Wn2
2 n
√
√n (W̄n − 0)
2
= W12 +···+Wn2
.
√1
2
· n
Como W1 , . . . , Wn , . . . son iid con media común 0 y varianza común 2, el Teorema del
Lı́mite Central implica que √
n D
√ (W̄n − 0) −→ W,
2 n
con W ∼ N (0, 1).

También, si definimos Yn = Wn2 , n ≥ 1, entonces, desde que (Wn ; n ≥ 1) es sucesión
iid con media común 0 y varianza común 2, se obtiene que (Yn ; n ≥ 1) es sucesión iid con
media común 2. La ley fuerte de Kolmogorov aplicada a esta última sucesión implica que
Y1 + · · · + Yn c.s.
−−→ 2,
n n
o sea
W12 + · · · + Wn2 c.s.
−−→ 2.
n n
Usando Proposición 2.9.10, con g(x) = √1 x, obtenemos que

2
1 W 2 + · · · + Wn2 P √
√ · 1 −
→ 2.
2 n n
(√ )
Finalmente, aplicando Teorema de Slutsky a las sucesiones √n · W̄n ; n ≥ 1 y
( ) 2
W 2 +···+Wn2
√1 · 1 ; n ≥ 1 , se concluye que
2 n
√
√n (W̄n − 0)
2 D 1
Zn = W 2 +···+Wn2
→ √ W
−
√ · 1
1 n 2
2 n
( )
con √1
2
W ∼ N 0, 12 (puesto que W ∼ N (0, 1)).
- 398 -
2.9 Convergencia
PROBLEMAS
Problema 2.9.A: Sea (Xn ; n ≥ 1), sucesión de variables aleatorias discretas, tal que
{ } ( )
Rec Xn = 0, n1 , n2 , . . . , n−1
n ,1 y P Xn = nk = 1
n+1 , k = 0, 1, . . . , n.
D
Pruebe que Xn −
→ X, con X ∼ U (0, 1).
n
Problema 2.9.B: Sean X1 , X2 variables aleatorias independientes con distribución

Poisson de parámetro λi (i = 1, 2), y Z = X1 + X2 . Pruebe que el lı́mite en distribución
Z
de λ1 +λ2
, cuando λ1 + λ2 tiende a infinito, es una constante.
Problema 2.9.C: Sea (Xn ; n ≥ 1), sucesión de variables aleatorias independientes, tales
que X1 = 0 y, para cada j ≥ 2, la variable aleatoria Xj es discreta con función de cuantı́a
dada por:



1
j3
si k ∈ {−j, −j + 1, . . . , −1, 1, . . . , j − 1, j}
P (Xj = k) = 1− 2
si k = 0

 0
j2
e.o.c.
∑n
j=1 Xj P
Pruebe que, para α > 12 , nα → 0, cuando n → ∞.
−
n
Problema 2.9.D: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias, tal que, para n ≥ 1,
Rec Xn = {0, n}. Suponga que, para todo n ≥ 1, P (Xn = 0) = 1− n1 y P (Xn = n) = n1 .
P
Verifique que Xn −
→ 0, pero (Xn ; n ≥ 1) no converge en L1 .
n
Problema 2.9.E: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid U (0, a), a > 0 y,
para n ≥ 1, Yn = X̄n . Estudie la convergencia de la sucesión (Yn ; n ≥ 1).
Problema 2.9.F: Sea X variable aleatoria. Se dice que X es infinitamente divisible si,
para todo n ∈ N,
∑
n
X= Xn,i , con Xn,1 , . . . , Xn,n variables aleatorias iid.
i=1
Asuma que toda variable aleatoria Poisson es infinitamente divisible.
a) Si X ∼ P(λ), ¿cuál es la distribución de cada Xn,i ?
b) Sea (Nn ; n ≥ 1) sucesión de variables aleatorias, con Nn ∼ P(nθ), θ > 0.

Pruebe que
√ ( )
Nn D θ Nn D
−
→θ y √ −n −→ N (0, 1).
n n n θ n
- 399 -
2.9 Convergencia
c) Para x > 0 y θ > 0, se considera la sucesión de números reales

 
∑
[nx]
(nθ) k
e−nθ ; n ≥ 0.
k!
k=0
Probar que esta sucesión converge hacia 0 ó 1 según la posición de x respecto de θ.
Problema 2.9.G: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias tal que

D
Xn −→ N (0, 1) y (an ; n ≥ 1) sucesión de números reales tal que an −→ a, a ∈ R.
n n
Pruebe que
D
Xn + a n −→ N (a, 1).
n
Problema 2.9.H: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid, tales que, para
todo n ≥ 1,
1
P (Xn = 1) = = P (Xn = −1).
2
Suponga que, para n ≥ 1,
∑n
1
Yn = Xk .
2k
k=1
Pruebe que
D
Yn −
→ U (−1, 1).
n
Problema 2.9.I: Sean X1 , X2 , . . . variables aleatorias independientes tales que

2i
P (Xn = i) = , i = 1, . . . , n .
n(n + 1)
Xn
a) Encuentre el lı́mite en distribución de .
n
{
2w
Xn D si w > 0
b) Pruebe que −
→ W, donde fW (w) = (1+w)3
n − Xn n 0 e.o.c.
Problema 2.9.J: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid N (0, 1). ¿Cuál es
el lı́mite casi seguro de la sucesión (Yn ; n ≥ 1), donde
X12 + · · · + Xn2
Yn = ?
(X1 − 1)2 + · · · + (Xn − 1)2
Problema 2.9.K: Sean (Un ; n ≥ 1) y (Vn ; n ≥ 1) sucesiones de variables aleatorias tales

que:
D D
i) Un −
→ N (0, 1), Vn −
→ N (0, 1).
n n
- 400 -
2.9 Convergencia
ii) Para cada n ≥ 1, Un y Vn son independientes.

Pruebe que,
D
aUn + bVn −
→ N (0, a2 + b2 ), a, b constantes no nulas.
n
Problema 2.9.L : Sean (Xn ; n ≥ 1), (Yn ; n ≥ 1) sucesiones de variables aleatorias tales
que
i) X1 , . . . , Xn , variables aleatorias iid con E(X1 ) = µ ̸= 0 y V (X1 ) = σ 2 < ∞.
ii) Y1 , . . . , Yn , variables aleatorias iid con E(Y1 ) = τ y V (Y1 ) = β 2 < ∞.
iii) Para todo j, k ≥ 1, Xj y Yk son independientes.

Halle el lı́mite en distribución de la sucesión (Zn ; n ≥ 1), donde
( )
√ Ȳn τ
Zn = n − .
X̄n µ
Problema 2.9.M: Sean (εn ; n ≥ 1) sucesión de variables aleatorias iid N (0, σ 2 ) y θ

parámetro real. Considere la sucesión (Xn ; n ≥ 1) definida por:
X1 = ε1 , Xn = θ Xn−1 + εn , n ≥ 2.
a) Calcule V (Xn ).
b) Calcule Cov(Xn , Xn−k ), 0 ≤ k ≤ n.
c) ¿Cuál es la distribución de Xn ?
d) ¿Para qué valores de θ, la sucesión (Xn ; n ≥ 1) converge en distribución?
e) ¿Cuál es la distribución del vector aleatorio (X1 , . . . , Xn )? Calcule su densidad

conjunta.
Problema 2.9.N: ∑Sea (X1 , . . . , Xn ) vector aleatorio ∑ normal n-variado, tal que
(X1 , . . . , Xn ) ∼ N (µ, ) con µ = (m, m, . . . , m) y = [cij ]n×n ,

 ρ si |i − j| = 1
cij = σ ρ si |i − j| = 0
2

0 si |i − j| > 1
Sean X̄n y Sn2 la media y varianza muestral, respectivamente, es decir,
1∑
n
X̄n = Xi ,
n
i=1
1 ∑
n
Sn2 = (Xi − X̄)2 .
n−1
i=1
- 401 -
2.9 Convergencia
√
Estudie
( √
el comportamiento
) asintótico de las sucesiones ( n(X̄n −m); n ≥ 1), (Sn2 ; n ≥ 1) y
n (X̄n −m)
Sn ;n ≥ 1 .
Problema 2.9.O: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid con E(X) = µ,
V (X) = σ 2 y Sn2 como en el problema anterior. Pruebe que
P
Sn2 −
→ σ2.
n
Problema 2.9.P: Sea X1 , . . . , Xn , variables aleatorias iid, cuya distribución está dada
por la función de densidad
{
−(x−θ) e−(x−θ) x > θ
f (x, θ) = e I(x>θ) = θ ∈]0, ∞[ constante.
0 e.o.c.
a) Sea T = min{X1 , . . . , Xn } Calcule la densidad fT .
b) Defina la variable aleatoria S = αT +β. Encuentre α, β ∈ R, de modo que IE(S) = θ.
c) Calcule V (S).
d) Determine γ ∈ R, tal que P (S ≤ γ) = p, con p ∈]0, 1[.
e) Encuentre limn→∞ P (|T − θ| > ε), ε > 0. Interprete este resultado.
Problema 2.9.Q: Sean X1 , . . . , Xn , variables aleatorias i.i.d, con función de densidad


 1

 −θ ≤ x ≤ θ
1 2θ
f (x) = I = θ ∈ R constante
2θ (−θ≤x≤θ)  

0 e.o.c.
a) Encuentre una densidad para la variable aleatoria M = max{|Xi | ; 1 ≤ i ≤ n}.
b) Calcule E(M ), V (M ) y E((M − θ)2 ).
c) Encuentre limn→∞ P (|M − θ| > ε), ε ∈]0, θ[. Interprete.
d) Encuentre b ∈ R de modo que P (M < θ < b) = 0.95.
- 402 -
2.9 Convergencia
Problema 2.9.R: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias iid B(p). Pruebe que
p̂ − p D
√n → N (0, 1),
−
p̂n (1−p̂n ) n
n
1∑
n
con p̂n = Xi .
n
i=1
Problema 2.9.S: Sea (Xn ; n ≥ 1) sucesión de variables aleatorias idd, con media común
µ y varianza común σ 2 .
∑n
Pruebe que Sn2 = 1
n−1 i=1 (Xi − X̄)2 converge casi seguramente a σ 2 .
Problema 2.9.T: Sean X1 , X2 , ... variables aleatorias iid W eibull(α, δ) , es decir, la

función de densidad de probabilidad está dada por
f (x, α, δ) = α−1 δxδ−1 exp(−α−1 xδ )I(x>0) , con α, δ > 0.
a) Muestre que X ∼ W eibull(α, δ) si y sólo si X δ ∼ exp(α−1 ).
X1δ +X2δ +...+Xnδ

b) Sea Yn = n . Muestre que E(Y ) = α y determine V (Y ).
P
c) Muestre que Yn −
→ α.
n
Problema 2.9.U: Sea

( X1), . . . , Xn , variables aleatorias iid, proveniente de una población
X, con X ∼ Gamma α, λ1 , es decir, una densidad para X está dada por
1
xα−1 · e− λ I(x>0) .
x
f (x; α, λ) =
Γ(α) · λα
X1 + . . . + Xn X
i) Defina la variable aleatoria Yn = = .
nα α
Calcule E(Yn ) y V ar(Yn ).
P
ii) Muestre que Yn −
→ λ.
n
∑n
iii) Determine la distribucin de T = i=1 Xi .
iv) Si α = 2, verifique que 2

λ · T ∼ χ24n .
- 403 -
2.9 Convergencia
Problema 2.9.V: Sea X1 , . . . , Xn , variables aleatorias iid, proveniente de una población

X, con X ∼ Pareto(α, β), es decir, una densidad para X está dada por
f (x; α, β) = αβ α x−(α+1) I(x≥β) , α, β > 0.

Pruebe que Yn = min{X1 , X2 , ..., Xn } converge a β en probabilidad.
Problema 2.9.W: Sean X1 , X2 , ... variables aleatorias iid con distribución U (0, 1).
Pruebe que n−Xn converge a cero en probabilidad.
- 404 -
SOLUCIONES A PROBLEMAS PROPUESTOS
SECCIÓN 1.2
Problema 1.2.A :
persona persona persona persona

1 2 3 4
Figura 1.2.A. Una repartición posible.
Las 52 cartas pueden distribuirse entre las 4 personas de 13! 13!52!13! 13! maneras distintas,
pues equivale a ordenar 52 objetos, de los cuales hay 13 del tipo 1, 13 del tipo 2, 13 del
tipo 3 y 13 del tipo 4 (dentro de cada grupo los objetos no se distinguen). O sea, los casos
totales de este experimento son
52!
.
13! 13! 13! 13!
Los 4 ases pueden repartirse entre las 4 personas de 4! maneras. Las 48 cartas restantes
pueden distribuirse entre las 4 personas de 12! 12!48!12! 12! (mismo argumento que en párrafo
anterior). Luego, los casos favorables de este experimento son
4! 48!
.
12! 12! 12! 12!
Por lo tanto, según esquema equiprobable, la probabilidad de que cada persona reciba un
as es
4! 48!
12! 12! 12! 12! 4! 134
= = 0.10549.
52!
13! 13! 13! 13!
49 · 50 · 51 · 52
405
Soluciones a Problemas Propuestos
Problema 1.2.B: Supongamos que compramos n cartones. Denotemos por A al suceso

“de los n cartones comprados, al menos uno está premiado”. Entonces, Ac =“los n cartones
comprados no tienen premio”. Calculemos ahora la probabilidad de Ac .
El número total de resultados de este experimento corresponde al número de maneras
diferentes
( ) en que se pueden combinar los n cartones comprados en un total de 100, esto
es, 100
n .
El número de resultados favorables corresponde al número de maneras diferentes en que
se puede
(98)combinar los n cartones comprados en un total de 98 que no tiene premio, es
decir, n .
De esta forma,
(98)
P (Ac ) = (100
n
)
n
98!
(98−n)! n!
= 100!
(100−n)! n!
98! (100 − n)!

=
100! (98 − n)!
1
= (99 − n) (100 − n),
9900
o sea,
P (A) = 1 − P (Ac )
199 n − n2
= .
9900
La condición del problema impone que P (A) ≥ 45 , es decir, n debe satisfacer la desigualdad
199 n − n2 4
≥ ,
9900 5
de donde
0 ≥ n2 − 199 n + 7920 = (n − 55)(n − 144).
Luego, n ≥ 55 y n ≤ 144 ó n ≤ 55 y n ≥ 144, por lo que el menor número de cartones
que es necesario comprar es 55.
Problema 1.2.C: Veamos primero un caso particular, asumiendo que n = 6, a = 4 y

b = 3. Anotemos por Pi a la i-ésima persona. Ası́, un posible resultado es
Persona P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 P11 P12

Sabor A A B B B A B B A A A B
La indistinguibilidad de helados del mismo sabor, se refleja en que si se cambiara, por

ejemplo, el helado que le tocó a la persona 1 con el que le tocó a la persona 2, para
nosotros serı́a el mismo resultado. ¿Cuántos resultados posibles hay?
- 406 -
Hay tantos resultados posibles como permutaciones se puedan realizar con las seis A y las
seis B. Entonces, la cantidad de resultados posibles es
( )
12! 12
= .
6! 6! 6
Supongamos que las 4 personas que prefieren el sabor A son P2 , P6 , P7 y P11 y las 3
personas que prefieren el sabor B son P4 , P9 y P12 . Entonces, un resultado favorable serı́a

Sabor B A B B A A A B B A A B
¿Cuántos resultados favorables hay?

Fijemos las preferencias de las personas.

Sabor A B A A B A B
Ahora, los 5 = 12 − (4 + 3) casilleros en blanco se pueden llenar con A ó B. Se dispone

de 6 − 4 = 2 letras A (se ocuparon 4 en las preferencias por el sabor A), y de 6 − 3 = 3
letras B (se ocuparon 3 en la preferencias por el sabor B).
Entonces, el número de resultados favorables será igual al número de permutaciones que
se pueden obtener con 5 objetos, 2 de los cuales son A y 3 B. Ası́, el número de resultados
favorables es ( )
5! (12 − (4 + 3))! 12 − (4 + 3)
= = .
2! 3! (6 − 4)! (6 − 3)! 6−4
La probabilidad buscada será entonces
(12−(4+3))
(6−4
12
) .
6
En el caso general la probabilidad buscada es
(2n−(a+b))
(n−a
2n
) .
n
Problema 1.2.D: En este problema no interesa el orden de las cartas, y por lo tanto los
elementos
( )de Ω son los subconjuntos de 3 cartas desde un conjunto de 40, lo que implica
#Ω = 40 3 . Cada elemento de A está caracterizado por : (a) los números de las 3 cartas,
y (b) de qué pinta son. ( )
Usando el principio multiplicativo resulta que #A = 10
3 · 4, y por lo tanto P (A) ≃ 0.049.
Problema
(N ) 1.2.E: Control de calidad. Primeramente, el número de casos posibles
es n . Además, cada caso favorable se caracteriza por: un subconjunto de m artı́culos
de entre los M defectuosos, y uno de n − m de entre los N − M no defectuosos. En
consecuencia, ( )( )
M N −M
m
p= (Nn−m
) .
n
- 407 -
Problema 1.2.F: Asumamos que hay n animales de la población en estudio, de los

cuales t están marcados.( Si
) los m animales capturados más tarde son tomados de manera
n
que todos los posibles m grupos sean igualmente probables (este supuesto es bastante
fuerte), entonces, la probabilidad de que r de ellos estén marcados es
( t ) ( n−t )
r
( nm−r
) .
m
Claramente, n no puede ser precisado de la información disponible hasta el momento,

pero, puede ser estimado.
Un método de estimación, llamado máxima verosimilitud, permite elegir el valor de n que
hace del resultado observado el más probable. Es decir, el valor estimado para n, será
aquel que maximiza la expresión
( t ) ( n−t )
Ln = r
( nm−r
) .
m
Para encontrar el valor de n que maximiza Ln , considérese los radios sucesivos

(rt ) (m−r
n−t
)
n
Ln (m)
=
Ln−1 (rt ) (n−1−t
m−r )
(n−1
m )
(n − t) (n − m)
= .
n (n − t − m + r)
Nótese que Ln
Ln−1 ≥ 1 , es decir, Ln es función creciente de n, si y sólo si
(n − t) (n − m) ≥ n (n − t − m + r).
Por lo tanto, Ln es creciente si n ≤ mr t y decreciente si n > mr t . Luego, el valor de n que

maximiza a Ln es el entero “más grande” que no excede a mr t .
Problema 1.2.G: Repartos. Es más conveniente estudiar la probabilidad que al

festejado no le toque ningún caramelo. Ası́, los casos posibles serı́an nc , pues cada niño
puede recibir cualquiera de los c dulces. Además, los casos favorables son todas las maneras
de distribuir los caramelos entre los n − 1 niños restantes (sacando al festejado), o sea
(n − 1)c .
Por lo tanto, la probabilidad que el festejado no toque ningún caramelo es (1 − 1/n)c , de
donde la probabilidad de que al festejado le toque al menos un caramelo es 1 − (1 − 1/n)c .
Si c = n, dicha probabilidad es prácticamente independiente de n, siendo aproximada-
mente igual a 1 − e−1 = 0.63.
Problema 1.2.H: La probabilidad de ganar del jugador que juega n boletos en un sorteo
n
es N (hay n resultados favorables, cualquiera de los n boletos comprados, en un total de
N resultados posibles, el total de boletos que tiene la loterı́a).
Para calcular la probabilidad de ganar del otro jugador, procedemos de la siguiente manera.
Calculamos primeramente la probabilidad de no ganar.
- 408 -
El número de resultados posibles es N n (pues en cada semana hay N resultados posibles).

Los casos favorables son (N −1)n (cada semana hay N −1 boletos que no tienen el premio
gordo).
Luego, la probabilidad de no ganar es
( ) ( )
(N − 1)n N −1 n 1 n
= = 1− ,
Nn N N
y la de ganar es ( )
1 n
1− 1− .
N
Nótese que
( ) ( ) ( )
1 n 1 n−1 1
1− = 1− 1−
N N N
( ) ( )
1 n−1 1 1 n−1
= 1− − 1−
N N N
( )
1 n−1 1
≥ 1− − .
N N
Análogamente,
( ) ( ) ( )
1 n−1 1 n−2 1
1− = 1− 1−
N N N
( )n−2 ( )
1 1 1 n−2
= 1− − 1−
N N N
( )n−2
1 1
≥ 1− − ,
N N
de donde
( ) ( )
1 n 1 n−1 1
1− ≥ 1− −
N N N
(( ) )
1 n−2 1 1
≥ 1− − −
N N N
( )
1 n−2 2
= 1− − .
N N
Inductivamente, ( ) ( )
1 n 1 n−n n
1− ≥ 1− − ,
N N N
por lo que ( )
n 1 n
≥1− 1− .
N N
- 409 -
En consecuencia, el jugador que compra los n boletos en una sola semana, tiene mayor
posibilidad de ganar que aquel que compra un boleto durante n semanas. Aunque los dos
jugadores gastarı́an la misma cantidad de dinero (suponiendo que el valor del boleto no
cambia en las n semanas y que el interés del dinero es despreciable). Cabe señalar que,
en general, pareciera que el comprar los n boletos en una sola semana, provoca menos
“satisfacción” que comprar uno semanalmente.
Problema 1.2.I: Cumpleaños. Asumiremos que no hay años bisiestos, es decir, todos
los años tienen N = 365 dı́as. También, supondremos que la probabilidad de nacer
en cualquiera de los dı́as del año es la misma y que no hay relación entre las personas
(eliminando, por ejemplo, el caso de mellizos).
Sea A el suceso “al menos dos personas están de cumpleaños el mismo dı́a”, entonces el
suceso que representa el hecho que las n personas estén de cumpleaños en dı́as diferentes
es Ac .
El número total de resultados posibles de este experimento es 365n (cada una de las n
personas tiene 365 dı́as posibles para nacer).
Contemos ahora el número de resultados favorables del suceso Ac . Los (N )casos favorables
quedan caracterizados por: el conjunto de fechas, de los cuales hay n y la forma de
asignarlas a las n personas, que son n!. Por lo tanto, el número de resultados favorables
del suceso Ac es ( )
365
n! = 365 · 364 · · · (365 − n + 1).
n
La probabilidad buscada, usando el esquema equiprobable, resulta ser
365 · 364 · · · (365 − n + 1)

P (A) = 1 − P (Ac ) = 1 − .
365n
La tabla siguiente muestra, para algunos valores de n, esta probabilidad.
n P (A)
4 0.016
16 0.284
23 0.507
32 0.753
40 0.891
56 0.988
SECCIÓN 1.3
Problema 1.3.A: Primeramente calculemos la probabilidad correspondiente al Caso I.

Para hacer este cálculo usaremos el modelo binomial con:
- 410 -
• ensayo : lanzar un dado

• éxito : sale 6
• n◦ de intentos : n=4
• probabilidad de éxito : p = 16
Al lanzar un dado normal, los 6 resultados posibles son equiprobables. Luego el Modelo
de Laplace asigna probabilidad 61 al suceso que salga 6, pues hay sólo un caso favorable y
6 posibles.
El suceso que representa el hecho que nunca se obtiene el 6 al tirar el dado 4 veces es
B = {(0, 0, 0, 0)} (recordar que cero simboliza fracaso). Luego, según el modelo binomial,
( )
1 4
P (B) = 1 −
6
( )4
5
=
6
=0.4823.
Además, el suceso B c representa el hecho de que cuando menos 1 vez se obtiene el 6

al tirar el dado 4 veces. En consecuencia, la probabilidad de ocurrencia del Caso I es
P (B c ) = 1 − P (B) = 0.5177.
Para calcular la probabilidad correspondiente al Caso II también usamos el modelo bino-
mial, pero en este caso,
• ensayo : lanzar dos dados simultáneamente
• éxito : en cada dado sale un 6
• n◦ de intentos : n = 24
1
Al lanzar dos dados simultáneamente, los 36 resultados posibles son igualmente probables.
1
Luego, el modelo de Laplace asigna probabilidad 36 al suceso que ocurra 6 en cada dado,
pues hay sólo un caso favorable y 36 posibles.
El suceso que representa el hecho que nunca la suma de las caras es 12, cuando se lanzan
dos dados en 24 ocasiones, es
B = {(0, 0, . . . , 0)} (vector de 24 componentes).
Recordar que 0 simboliza fracaso, es decir, en este caso simboliza que la suma de las caras
de los dos dados( no es )12. ( )
1 24 24
Como P (B) = 1 − 36 = 3536 y B c representa el suceso que al menos una vez la
suma de las caras de( los
)24 dos dados es 12, entonces la probabilidad de ocurrencia del Caso
II es P (B c ) = 1 − 35
36 = 0.4914.
En consecuencia, Chevalier de Meré no tenı́a razón.
- 411 -
Problema 1.3.B: Para calcular esta probabilidad usamos el modelo binomial con:
• ensayo : responder una pregunta de la prueba

• éxito : responder correctamente la pregunta
• n◦ de intentos : n = 50
Según la forma de responder a cada pregunta, cada alternativa tiene igual probabilidad.
Primeramente, recordemos que el conjunto Ak denota el suceso que exactamente k-
éxitos ocurran.
Ası́ por ejemplo, A10 denota el suceso que ocurran exactamente 10 éxitos (en este caso
representa el hecho que se respondan exactamente 10 respuestas correctas).
Por lo tanto, si A es el suceso obtener entre 10 y 16 respuestas correctas, entonces A es la
union disjunta de A10 , A11 , A12 , A13 , A14 , A15 , A16 , es decir,
A = A10 ∪ A11 ∪ A12 ∪ A13 ∪ A14 ∪ A15 ∪ A16 .
En consecuencia, de Observación 1.3.5,
P (A) = P (A10 ) + P (A11 ) + P (A12 ) + P (A13 ) + P (A14 ) + P (A15 ) + P (A16 )

( ) ( )10 ( )40 ( ) ( )11 ( )39 ( ) ( )12 ( )38
50 1 2 50 1 2 50 1 2
= + +
10 3 3 11 3 3 12 3 3
( ) ( )13 ( )37 ( ) ( )14 ( )36 ( ) ( )15 ( )35
50 1 2 50 1 2 50 1 2
+ + +
13 3 3 14 3 3 15 3 3
( ) ( )16 ( )34
50 1 2
+
16 3 3
= 0.4741.
Lo anterior se puede expresar, en forma más “sintética”, como
∪
16
A= Ak ,
k=10
∑
16 16 ( ) ( )k ( )50−k
∑ 50 1 2
P (A) = P (Ak ) =
k 3 3
k=10 k=10
= 0.4741.
Problema 1.3.C: Veamos el caso a).

Para responder este caso usamos el modelo binomial con:
- 412 -
• ensayo : revisar funcionamiento de la componente

cuando se enciende el calefactor
• éxito : la componente falla
• probabilidad de éxito : p=θ
El suceso que representa que el calefactor no funcione es A = {(1, 1)} (en este caso, que
fallen más de la mitad de las componentes, que son dos, significa que deben fallar ambas.
Además, uno simboliza éxito, esto es, que la componente falle). Luego, según el modelo
binomial,
P (A) = θ2 .
Pero, el conjunto Ac representa el suceso que el calefactor funcione, por lo tanto su pro-
babilidad es
P (Ac ) = 1 − P (A) = 1 − θ2 .
Veamos el ahora el caso b). Nuevamente usamos el modelo binomial, pero ahora con:
• ensayo : revisar funcionamiento de la componente

cuando se enciende el calefactor
• éxito : la componente falla
• probabilidad de éxito : p=θ
Ahora, el suceso que representa que el calefactor no funcione es
A = {(1, 1, 1, 0), (0, 1, 1, 1), (1, 0, 1, 1), (1, 1, 0, 1), (1, 1, 1, 1)}.
En este caso, que fallen más de la mitad de las componentes, que son 4, significa que fallan
3 de las 4 componentes o que fallan las 4.
Según el modelo binomial,
P (A) =P ({(1, 1, 1, 0)}) + P ({(0, 1, 1, 1)}) + P ({(1, 0, 1, 1)})

+ P ({(1, 1, 0, 1)}) + P ({(1, 1, 1, 1)})
=θ (1 − θ)1 + θ3 (1 − θ)1 + θ3 (1 − θ)1 + θ3 (1 − θ)1 + θ4 (1 − θ)0
3
=4θ3 (1 − θ) + θ4 .
Por lo tanto, la probabilidad de que un calefactor de 4 componentes funcione es
P (Ac ) =1 − P (A)
=1 − ( 4θ3 (1 − θ) + θ4 )
=3θ4 − 4θ3 + 1.
En consecuencia, el valor de θ que hace igualmente fiable los dos tipos de calefactores,
debe satisfacer la ecuación
1 − θ2 = 3θ4 − 4θ3 + 1,
- 413 -
que equivale a la ecuación ( )

1
0 = θ (θ − 1) θ −
2
.
3
Por lo tanto, como 0 < θ < 1, entonces el valor de θ que resuelve la ecuación anterior es
θ = 31 .
SECCIÓN 1.4
Problema 1.4.A:
a)
P (A ∪ B ∪ C) =P ((A ∪ B) ∪ C)
=P (A ∪ B) + P (C) − P ((A ∪ B) ∩ C)
= [P (A) + P (B) − P (A ∩ B)] + P (C)
− [P (A ∩ C) + P (B ∩ C) − P (A ∩ B ∩ C)]
[ ] [ ]
1 1 1 1 1
= + − + − + 0 − P (A ∩ B ∩ C) .
2 3 5 4 6
Pero (A ∩ B ∩ C) ⊂ B ∩ C, entonces P (A ∩ B ∩ C) ≤ P (B ∩ C) = 0, por lo que

P (A ∩ B ∩ C) = 0. Ası́,
43
P (A ∪ B ∪ C) = .
60
b) Como A − (B ∪ C) = A ∩ (B ∪ C)c , entonces por regla d) de Proposición 1.4.1,
P (A − (B ∪ C)) = P (A) − P (A ∩ (B ∪ C)).
Ası́,
P (A − (B ∪ C)) =P (A) − [P (A ∩ B) + P (A ∩ C) − P (A ∩ B ∩ C)]
( )
1 1 1
= − + −0
2 5 6
2
= .
15
∪
Problema 1.4.B: Para cada m ≥ 1, se define Bm = m n=1 An . Entonces (Bm ; m ≥ 1) es
sucesión creciente de sucesos, por lo que axioma iv) de Definición 1.4.1 implica que
( ∞ )
∪
P Bm = lim P (Bm ).
m→∞
m=1
∪ ∪∞
Pero, ∞ m=1 Bm = n=1 An y de Definición 1.4.1 iii) (generalizado inductivamente a m
sucesos), (m )
∪ ∑ m
P (Bm ) = P An = P (An ).
n=1 n=1
- 414 -
Por lo tanto,
( ∞
) ( ∞
)
∪ ∪
P An =P Bm
n=1 m=1
= lim P (Bm )
m→∞
∑
m
= lim P (An )
m→∞
n=1
∞
∑
= P (An ).
n=1
Problema 1.4.C:
a) Para r = 2 se desprende de Proposición 1.4.1 e). Para r > 2 basta usar inducción.
∪m
b) Sea
∪∞Cm = ∪A
n=1 n , m ≥ 1. Entonces (Cm ; m ≥ 1) es sucesión creciente de sucesos
∞
y m=1 Cm = n=1 An . Ası́, Definición 1.4.1 iv) y parte a) implican
(∞ ) ( ∞ )
∪ ∪
P An = P Cm = lim P (Cm )
m→∞
n=1 m=1
( )
∪
m
= lim P An
m→∞
n=1
∑
m
≤ lim P (An )
m→∞
n=1
∞
∑
= P (An ).
n=1
c) Usando Proposición 1.4.1 a) y parte a) de este problema, se obtiene que

( r ) (( r )c ) ( r )
∩ ∪ ∪ ∑r
P An = P c
An =1−P An ≥ 1 −
c
P (Acn ).
n=1 n=1 n=1 n=1
d) Usando b), se deduce que

(∞ ) (( ∞ )c ) (∞ ) ∞
∩ ∪ ∪ ∑
P An = P c
An =1−P An ≥ 1 −
c
P (Acn ).
n=1 n=1 n=1 n=1
e) Si P (An ) ≥ 1 − ε, entonces P (Acn ) < ε, de donde

∑
r ∑
r
P (Acn ) ≤ ε = r ε.
n=1 n=1
Ahora basta usar parte c).
- 415 -
Problema 1.4.D: Para todo n ≥ 1, Bn puede expresarse como unión disjunta de la

forma
Bn = (An ∩ Bn ) ∪ (Acn ∩ Bn ).
Ası́, por Definición 1.4.1 iii),
P (Bn ) = P (An ∩ Bn ) + P (Acn ∩ Bn ) , para todo n ≥ 1.
Por lo tanto,
lim P (Bn ) = lim P (An ∩ Bn ) + lim P (Acn ∩ Bn ).
n→∞ n→∞ n→∞
Pero, para todo n ≥ 1, Acn ∩ Bn ⊂ Acn , de donde P (Acn ∩ Bn ) ≤ P (Acn ). O sea,
lim P (Acn ∩ Bn ) ≤ lim P (Acn )

n→∞ n→∞
=1 − lim P (An )
n→∞
=0.
En consecuencia,
p = lim P (An ∩ Bn ).
n→∞
Problema 1.4.E: Basta con descomponer B como la siguiente unión disjunta B =

(B ∩ A) ∪ (B ∩ Ac ) y usar que B ∩ Ac ⊂ Ac .
SECCIÓN 1.5
Problema 1.5.A: El árbol de probabilidades para este problema es

m−1
n−1 B2
B1
m
n
n−m
n−1 B2c
m
n−1 B2
n−m
n
B1c
n−m−1
n−1 B2c
Figura 1.5.A
de donde,
m (m − 1) m
P (B1 ∩ B2 ) = y P (B1 ) = P (B2 ) = .
n (n − 1) n
Notar que, si n > m ≥ 2, entonces m−1 m
n−1 < n . Esto es comprensible intuitivamente, pues
si la primera ficha extraı́da es blanca, quedan menos blancas para la segunda extracción.
Además,
P (B1 ∩ B2 ) n (m − 1)
= ,
P (B1 ) P (B2 ) m (n − 1)
- 416 -
que tiende a 1 cuando m y n → ∞. O sea, para m y n “grandes”, B1 y B2 son “aproxi-

madamente independientes”, es decir, para m y n “grandes” el muestreo sin reemplazo se
comporta aproximadamente como el muestreo con reemplazo.
Problema 1.5.B: Consideremos los sucesos:
Ri = sale el color rojo en la i-ésima jugada,
Ni = sale el color negro en la i-ésima jugada,
Vi = sale el color verde en la i-ésima jugada.
De las condiciones del problema, los sucesos Ri , Nj y Vk son independientes y, para todo
i,
16 16 1
P (Ri ) = , P (Ni ) = , P (Vi ) = . (∗)
33 33 33
Además, el suceso A definido por:
A = en una secuencia de 15 jugadas, sale 10 veces rojo, 4 negro y 1 vez verde,
puede expresarse como:
A = ∪((L1 ,L2 ,L3 )∈C) [ (∩k∈L1 Rk ) ∩ (∩j∈L2 Nj ) ∩ (∩r∈L3 Vr ) ],
donde C es la familia de todos los trı́os (L1 , L2 , L3 ), con cada conjunto L1 , L2 , L3 contenido
en {1, . . . , 15}, disjuntos y #L1 = 10 , #L2 = 4 , #L3 = 1.
Cada uno de los sucesos dentro del paréntesis cuadrado tiene, por la independencia y (∗),
probabilidad igual a
)#L1 ( )#L2 ( )#L3
(
16 16 1
[ Πk∈L1 P (Rk ) ] [ Πj∈L2 P (Nj ) ] [ Πr∈L3 P (Vr ) ] = · ·
33 33 33
( )10 ( )4
16 16 1
= · · .
33 33 33
Además, estos sucesos son disjuntos y el número de ellos es igual al número de permuta-
ciones que pueden realizarse con 15 objetos, de los cuales hay 10 de un primer tipo, 4 de
un segundo tipo y 1 de un tercer tipo. O sea, la cantidad de estos sucesos es
15!
,
10! 4! 1!
de donde ( )10 ( )4
15! 16 16 1
P (A) = · · · = 0.018.
10! 4! 1! 33 33 33
Problema 1.5.C: Consideremos los siguientes sucesos:
Ai = A gana el i-ésimo set, i = 1, 2, 3, 4, 5.
- 417 -
Gj = A gana el partido en j-sets, j = 3, 4, 5
G3 = A1 ∩ A2 ∩ A3
G4 = (A1 ∩ A2 ∩ Ac3 ∩ A4 ) ∪ (A1 ∩ Ac2 ∩ A3 ∩ A4 ) ∪ (Ac1 ∩ A2 ∩ A3 ∩ A4 )
G5 = (A1 ∩ A2 ∩ Ac3 ∩ Ac4 ∩ A5 ) ∪ (A1 ∩ Ac2 ∩ A3 ∩ Ac4 ∩ A5 )

∪ (Ac1 ∩ Ac2 ∩ A3 ∩ A4 ∩ A5 ) ∪ (Ac1 ∩ A2 ∩ A3 ∩ Ac4 ∩ A5 )
∪ (A1 ∩ Ac2 ∩ Ac3 ∩ A4 ∩ A5 ) ∪ (Ac1 ∩ A2 ∩ Ac3 ∩ A4 ∩ A5 )
Las hipótesis del problema implican que los sucesos A1 , ..., A5 , son independientes y
además, P (Ai ) = 0.55, P (Aci ) = 0.45, i = 1, ..., 5. En consecuencia,
i) P (G3 ) = (0.55)3 = 0.166,
ii) P (G4 ) = 3 (0.55)3 0.45 = 0.225,
iii) P (G5 ) = 6 (0.55)3 (0.45)2 = 0.202,
iv) P (G3 ∪ G4 ∪ G5 ) = 0.166 + 0.225 + 0.202 = 0.593.
Problema 1.5.D: Consideremos los sucesos Ei = componente i falla , i = 1, 2, 3 . Ası́,

lo que se desea calcular es
α = P (E1 ∩ E2 ∩ E3c ) + P (E1 ∩ E2c ∩ E3 ) + P (E1c ∩ E2 ∩ E3 ).
Las condiciones del problema implican que E3 es independiente de E1 y E2 , y además,
P (E1 ) = 0.10, P (E2 ) = 0.15, P (E3 ) = 0.20, P (E2 /E1 ) = 0.5.
Entonces,
P (E1 ∩ E2 ∩ E3c ) = P (E1 ∩ E2 ) P (E3c ),

P (E1 ∩ E2c ∩ E3 ) = P (E1 ∩ E2c ) P (E3 ),
P (E1 ∩ E2 ) = P (E2 /E1 ) P (E1 ),
P (E1 ∩ E2c ) = (1 − P (E2 /E1 )) P (E1 ),
P (E1c ∩ E2 ) = P (E2 ) − P (E1 ∩ E2 ) ,
por lo que,
α = (0.5 · 0.10) 0.80 + ([1 − 0.5] · 0.10) 0.20 + (0.15 − [0.5 · 0.10]) 0.20 = 0.07.
Problema 1.5.E: Consideremos los sucesos:

Di = i-ésimo puente queda destruido, i = 1, 2, 3,
H = no hay paso entre A y B,
J = dos puentes están destruidos.
- 418 -
Con estas notaciones, el suceso que representa el hecho no haya paso de A a B es
H = D1 ∩ (D2 ∪ D3 ) = (D1 ∩ D2 ) ∪ (D1 ∩ D3 ),
y el que dos puentes estén destruidos es
J = (D1 ∩ D2 ∩ D3c ) ∪ (D1 ∩ D2c ∩ D3 ) ∪ (D1c ∩ D2 ∩ D3 ).
Por tanto, el suceso que representa que no haya paso de A a B y que dos puentes estén
destruidos es
H ∩ J = (D1 ∩ D2 ∩ D3c ) ∪ (D1 ∩ D2c ∩ D3 ),
Además, como P (Di ) = p , i = 1, 2, 3, entonces
P (H) = P (D1 ∩ D2 ) + P (D1 ∩ D3 ) − P (D1 ∩ D2 ∩ D3 )

= P (D1 ) P (D2 ) + P (D1 ) P (D3 ) − P (D1 ) P (D2 ) P (D3 )
= pp + pp − ppp
= p2 (2 − p),
ya que la destrucción de un puente no depende de la destrucción de otro (supuesto).

Por otra parte,
P (J) = P (D1 ∩ D2 ∩ D3c ) + P (D1 ∩ D2c ∩ D3 ) + P (D1c ∩ D2 ∩ D3 )

= P (D1 ) P (D2 ) P (D3c ) + P (D1 ) P (D2c ) P (D3 ) + P (D1c ) P (D2 ) P (D3 )
= p p (1 − p) + p (1 − p) p + (1 − p) p p
= 3p2 (1 − p),
de donde
P (H ∩ J) = P (D1 ∩ D2 ∩ D3c ) + P (D1 ∩ D2c ∩ D3 ) = 2p2 (1 − p),
por lo cual
P (H ∩ J) 2p2 (1 − p) 2
P (H/J) = = 2 = .
P (J) 3p (1 − p) 3
Problema 1.5.F: Consideremos los siguientes sucesos:
Ai = i-ésimo nodo está cerrado, 1 ≤ i ≤ 5.
Por las condiciones del problema, los sucesos A1 , . . . , A5 , son sucesos independientes.
Además, P (Ai ) = p, 1 ≤ i ≤ 5.
Si α denota la probabilidad de que fluya corriente entre los nodos B y C, entonces
α = P ( A1 ∩ [(A4 ∩ A5 ) ∪ (A2 ∪ A3 )] ).
El suceso A4 ∩ A5 significa que fluye corriente por el subcircuito {4, 5} y el suceso A2 ∪ A3

significa que fluye corriente por el subcircuito {2, 3}. Ası́, el suceso (A4 ∩ A5 ) ∪ (A2 ∪ A3 )
- 419 -
significa que fluye corriente por el subcircuito {2, 3, 4, 5}. En consecuencia,
α = P (A1 ) [ P (A4 ∩ A5 ) + P (A2 ∪ A3 ) − P ((A4 ∩ A5 ) ∩ (A2 ∪ A3 )) ]

= P (A1 ) [ P (A4 ∩ A5 ) + P (A2 ) + P (A3 ) − P (A2 ∩ A3 ) − P (A4 ∩ A5 ∩ A2 )
− P (A4 ∩ A5 ∩ A3 ) + P (A4 ∩ A5 ∩ A2 ∩ A3 ) ]
= P (A1 ) [ P (A4 ) P (A5 ) + P (A2 ) + P (A3 ) − P (A2 ) P (A3 ) − P (A4 ) P (A5 ) P (A2 )
− P (A4 ) P (A5 ) P (A3 ) + P (A4 ) P (A5 ) P (A2 ) P (A3 ) ]
= p [p p + p + p − p p − p p p − p p p + p p p p]
= p [2p − 2p3 + p4 ].
Si ahora β es la probabilidad a calcular en el caso b), entonces,
β = P ( Ac2 / A1 ∩ [ (A4 ∩ A5 ) ∪ (A2 ∪ A3 ) ] ).
Nótese que
Ac2 ∩ (A1 ∩ [ (A4 ∩ A5 ) ∪ (A2 ∪ A3 )] ) = ( Ac2 ∩ A1 ∩ A4 ∩ A5 ) ∪ ( Ac2 ∩ A1 ∩ A3 ),

por lo que
P ( (Ac2 ∩ A1 ∩ A4 ∩ A5 ) ∪ (Ac2 ∩ A1 ∩ A3 ) )
β =
P (A1 ∩ [ (A4 ∩ A5 ) ∪ (A2 ∪ A3 )) ] )
P (Ac2 ∩ A1 ∩ A4 ∩ A5 ) + P (Ac2 ∩ A1 ∩ A3 ) − P (Ac2 ∩ A1 ∩ A4 ∩ A5 ∩ A3 )
=
p (2p − 2p3 + p4 )
P (Ac2 ) P (A1 ) P (A4 ) P (A5 ) + P (Ac2 )P (A1 )P (A3 ) − P (Ac2 )P (A1 )P (A4 )P (A5 )P (A3 )
=
p (2p − 2p3 + p4 )
(1 − p) p p p + (1 − p) p p − (1 − p) p p p p
=
p (2p − 2p3 + p4 )
(1 − p) (1 + p − p2 )
= .
2 − 2p2 + p3
Problema 1.5.G: Consideremos los siguientes sucesos:

BV = la ficha extraı́da de la urna V es blanca,
BW = la ficha extraı́da de la urna W es blanca,
NZ = la ficha extraı́da de la urna Z es negra.
Entonces, NZ puede escribirse como la siguiente unión disjunta:
NZ = (NZ ∩ BV ∩ BW
c
) ∪ (NZ ∩ BVc ∩ BW ) ∪ (NZ ∩ BVc ∩ BW
c
) ∪ (NZ ∩ BV ∩ BW ),
Observe que NZ ∩ BV ∩ BW = ϕ. Luego,
P (NZ ) = P (NZ ∩ BV ∩ BW
c
) + P (NZ ∩ BVc ∩ BW ) + P (NZ ∩ BVc ∩ BW
c
)
= P (NZ /(BV ∩ BW
c
)) P (BV ∩ BW
c
) + P (NZ /(BVc ∩ BW )) P (BVc ∩ BW )
+ P (NZ /(BVc ∩ BW
c
)) P (BVc ∩ BW
c
).
- 420 -
c ; Bc y B ; Bc y
Pero, los sucesos BV y BW son independientes (de donde BV y BW V W V
c
BW también lo son), luego
P (NZ ) = P (NZ /(BV ∩ BW

c c
)) P (BV ) P (BW ) + P (NZ /(BVc ∩ BW )) P (BVc ) P (BW )
+ P (NZ /(BVc ∩ BW
c
)) P (BVc ) P (BW
c
),
de donde
1 5 3 1 3 2 3 3 39
P (NZ ) = · · + · · +1· · = .
2 8 5 2 8 5 8 5 80
Problema 1.5.H: El problema consiste en calcular la probabilidad P (M/A) , la cual,

por el Teorema de Bayes y de Probabilidades Totales está dado por:
P (A/M ) P (M )
P (M/A) =
P (A)
P (A/M ) P (M )
=
P (A/B) P (B) + P (A/S) P (S) + P (A/M ) P (M )
0.2 · 0.25
=
0.8 · 0.25 + 0.5 · 0.5 + 0.2 · 0.25
= 0.1.
Entonces, el 10% de los individuos aprobados en el test, serı́an clasificados, al final del
curso, como malos.
Problema 1.5.I: Consideremos los siguientes sucesos.

A1 = postulante concerta la entrevista para el lunes 4 de diciembre,
A2 = postulante concerta la entrevista para el resto de la semana,
A3 = postulante concerta la entrevista para la próxima semana,
A = postulante asiste.
Según las notaciones recién introducidas, el problema consiste en calcular P (A2 /A) .
Usando Teorema de Bayes y de Probabilidades Totales, expresamos P (A2 /A) como
P (A/A2 ) P (A2 )
P (A2 /A) =
P (A)
P (A/A2 ) P (A2 )
= .
P (A/A1 ) P (A1 ) + P (A/A2 ) P (A2 ) + P (A/A3 ) P (A3 )
Además, de los datos del problema se deduce que:
P (A1 ) = 0.6, P (A/A1 ) = 0.8,

P (A2 ) = 0.3, P (A/A2 ) = 0.6,
P (A3 ) = 0.1, P (A/A3 ) = 0.4.
9
En consecuencia, P (A2 /A) = 35 .
- 421 -
Problema 1.5.J: Usaremos las notaciones siguientes:

D = artı́culo es defectuoso + = el test avisa que el artı́culo es defectuoso
B = artı́culo es bueno − = el test avisa que el artı́culo es bueno
Con estas notaciones, las hipótesis del problema se traducen en:
P (D) = 0.007, P (+/D) = 0.98, P (+/B) = 0.09.
De esta forma, en i) se pide calcular la probabilidad P (D ∩ +) , en ii) P (D ∩ −) , en iii)

P (B ∩ +) y en iv) P (D/+) . Ası́,
P (D ∩ +) = P (+/D) P (D)
= 0.00686,
P (D ∩ −) = P (−/D) P (D)
= [1 − P (+/D)] P (D)
= 0.00014,
P (B ∩ +) = P (+/B) P (B)
= 0.09 (1 − P (D))
= 0.08937,
P (+/D) P (D)
P (D/+) =
P (+)
P (+/D) P (D)
=
P (+/D) P (D) + P (+/B) P (B)
= 0.07129.
Como en b) se pide calcular P (+) , y de i) y iii)
P (+) = P (D ∩ +) + P (B ∩ +)
= 0.00686 + 0.08937
= 0.09623,
entonces, la proporción de artı́culos que da resultado positivo en el test es 96 en 1000.

Finalmente, la probabilidad pedida en c) es P (D/ segundo test +).
- 422 -
A partir de la definición de probabilidad condicional y del siguiente diagrama de árbol
0.99 ...... +
....
. + ............
.... ......
... ......
0.98........
..
−
.......
...D .......
.. ..
0.007.... 0.02 ........
... ....
..
. −
...
.
...
.
.....
...
...
...
... 0.01 ....... +
... ....
... . + ............
... .... ......
... .. .....
0.993 .... 0.09........
... ..
.
−
...
B ..........
..
0.91.........
....
−
Figura 1.5.B. Diagrama de árbol para el test.

se obtiene que
P (D ∩ (segundo test +) )
P (D/ segundo test +) =
P ( segundo test +)
0.007 · 0.98 · 0.99

=
0.007 · 0.98 · 0.99 + 0.993 · 0.09 · 0.01
= 0.88371.
Problema 1.5.K: Consideremos los sucesos siguientes:

Ai = el dado muestra el número i , i = 1, 2, . . . , 6 ,
A = exactamente 2 fichas extraı́das son blancas,
B = todas las fichas extraı́das son blancas.
Con las notaciones anteriores, lo que se pide calcular en a) es P (A) y en b) P (A3 /B) .
Primeramente, usando Probabilidades Totales se tiene que
∑
6
P (A) = P (A/Ai ) P (Ai )
i=1
1∑
6
= P (A/Ai )
6
i=1
[ (5 ) (5)(10) (5)(10) (5)(10) (5)(10) ]
1
= 0 + (15) + 2(15)1 + 2(15)2 + 2(15)3 + 2(15)4
2
6 2 3 4 5 6
= 0.06477.
- 423 -
Por otra parte,

∑
6
P (B) = P (B/Ai ) P (Ai )
i=1
1∑
6
= P (B/Ai )
6
i=1
[() (5) (5 ) (5 ) (5) ]
5
1
= ( ) + (15) + (15) + (15) + (15) + 0
1 2 3 4 5
6 15 1 2 3 4 5
= 0.13015,
de donde obtenemos finalmente

(53) 1
P (B/A3 ) P (A3 ) (15
3)
6
P (A3 /B) = = = 0.00366 .
P (B) 0.13015
Problema 1.5.L: Consideremos los siguientes sucesos:

Ai = caja contiene exactamente i% de piezas defectuosas, 0 ≤ i ≤ 6,
A = al inspeccionar 50 piezas de la caja, resultan 6 defectuosas.
( )
Con estas notaciones, el problema se reduce a calcular P ∪6i=3 Ai /A . Pero,
( 6 )
∪ ∑6
P Ai /A = P (Ai /A),
i=3 i=3
por lo que basta calcular P (Ai /A) , 3 ≤ i ≤ 6.

Ahora, Teorema de Bayes implica que
P (A/Ai ) P (Ai )
P (Ai /A) = ,
P (A)
y por Teorema de probabilidades totales
∑
6
P (A) = P (A/Aj ) P (Aj ).
j=0
Por lo tanto, ( )
∪
6 ∑
6
P (A/Ai ) P (Ai )
P Ai /A = ∑6 .
i=3 i=3 j=0 P (A/Aj ) P (Aj )
Además, de los datos del problema

P (A0 ) = 0.78, P (A1 ) = 0.17, P (A2 ) = 0.034, P (A6 ) = 0.000,
P (A3 ) = 0.009, P (A4 ) = 0.005, P (A5 ) = 0.002.
- 424 -
y (12j )(1200−12j )
P (A/A0 ) = 0, P (A/Aj ) = 6
(120044
) , 1 ≤ j ≤ 6.
50
En consecuencia,
( )( ) ( )( ) ( )( )
36 1164 48 1152 60 1140
6 44 6 44 6 44
( ) 0.009 + ( ) 0.005 + ( ) 0.002
1200 1200 1200
6 50 50 50
P ( ∪ Ai /A) = (
12
)( )
1188
( )(
24 1176
) ( )(
36 1164
) (
48
)(
1152
) ( )(
60
)
1140
.
i=3
6 44 6 44 6 44 6 44 6 44
( ) 0.17 + ( ) 0.034 + ( ) 0.009 + ( ) 0.005 + ( ) 0.002
1200 1200 1200 1200 1200
50 50 50 50 50
Problema 1.5.M: Para i = 1, 2, 3, consideremos los siguientes sucesos:

Ii = el dado muestra un número impar en el i-ésimo lanzamiento,
Pi = el dado muestra un número par en el i-ésimo lanzamiento.
Con estas notaciones, la probabilidad que se desea calcular en el item a) es P (P1 ), en el
b) es P (A/I1 ∩ I2 ) y en el item c) P (I3 /I1 ∩ I2 ).
El siguiente es el diagrama de árbol asociado a este problema.
1
2
I3
1
I2
2
1
P3
I 1
2
1 1 1 2 I3
2 2
P2
1 P3
A 1
2
1 2 I3
1
2 I2
2 1
P3
P1 2
1
1
2
I3
2 P2
1
P3
α 2
P I 3
P I2
1-P P3
I1 P
P 1-P
I 3
P2
1-P P3
B
1−α P I3
2 1-P P
I2
1-P P3
P1
1-P
P I 3
P2
1-P P3
1−α q
2 I
I 3
q 2
1-q P3
I1 q
q 1-q
I 3
P2
1-q P3
C
q
I 3
1-q q I2
1-q P3
P1 q
1-q
I 3
P2
1-q P3
Figura 1.5.D Diagrama de árbol para este experimento.
- 425 -
Ası́,
1 1−α 1−α
P (P1 ) = α + (1 − p) + (1 − q).
2 2 2
Además,
2 · 2α
1 1
P (I1 ∩ I2 /A) P (A)
P (A/I1 ∩ I2 ) = = 1 .
P (I1 ∩ I2 ) α2· 1
2 + 1−α
2 pp + 1−α
2 qq
Finalmente,
P (I3 ∩ I1 ∩ I2 ) α1·1· 1
+ 1−α
p p p + 1−α
2 qqq
P (I3 /I1 ∩ I2 ) = = 2 12 2 2
.
P (I1 ∩ I2 ) α2· 1
2 + 1−α
2
1−α
pp + 2 qq
Problema 1.5.N: Para cada n ≥ 1 , definimos los siguientes sucesos:

An = sale cara en el n-ésimo lanzamiento de la moneda,
Bn = sale un 5 o 6 en el n-ésimo lanzamiento del dado.
Por las condiciones del problema y las definiciones recién introducidas, resulta que los
sucesos Ai con los sucesos Bj son independientes y, para todo k ≥ 1,
1 1
P (Ak ) = , P (Bk ) = .
2 3
Por lo tanto,
([n−1 ] ) [n−1 ]
∩ ∏
P (Aci ∩ Bic ) ∩ An = P (Aci ) P (Bic ) P (An )
i=1 i=1
( )n−1 ( )n−1
1 2 1
= · ·
2 3 2
( )n ( )n−1
1 2
= · .
2 3
Nótese además que el suceso C, definido por
[ ∞ ( i−1 ) ]
∪ ∩
C = A1 ∪ (Ack ∩ Bkc ) ∩ Ai
i=2 k=1
representa el hecho que la moneda registra una cara antes que el dado muestre un 5 ó un
6. De esta forma
∞
( i−1 )
∑ ∏
P (C) = P (A1 ) + P (Ack ∩ Bkc ) P (Ai )
i=2 k=1
∞
( i−1 )
1 ∑ ∏ 1
= + P (Ack ) P (Bkc )
2 2
i=2 k=1
∞ (
∑ )i−1 ( )i−1
1 1 2 1
= + · ·
2 2 3 2
i=2
- 426 -
∞ ( )i
3∑ 1 2
= ·
2 2 3
i=1
1
3
= · 3
2 1− 1
3
3
= .
4
SECCIÓN 2.1
Problema 2.1.A:
∑
FX (x) = pX (y)
y≤x
y∈Rec X


 0 si x < 0


 0.25 si 0 ≤ x < 1
= 0.375 si 1 ≤ x < 2



 0.5 si 2 ≤ x < 3

1 si x ≥ 3
FX (x)
0.5
0.375
0.25
1 2 3 x
Figura 2.1.A Gráfico de la función de distribución acumulada de X.
Problema 2.1.B: Si Ω = {(a, b) : a, b ∈ {1, 2, ..., 6}}, entonces:
(X = 3) = {(1, 2), (2, 1)}

(X = 6) = {(5, 1), (1, 5), (4, 2), (2, 4), (3, 3)}
(X = 9) = {(6, 3), (3, 6), (5, 4), (4, 5)}
(X = 12) = {(6, 6)}
y
(X es divisible por 3) = (X = 3) ∪ (X = 6) ∪ (X = 9) ∪ (X = 12).
En consecuencia,
- 427 -
a)
#(X = 3) 2
P (X = 3) = = .
#Ω 36
b)
P (X es divisible por 3) = P (X = 3) + P (X = 6) + P (X = 9) + P (X = 12)
2 5 4 1
= + + +
36 36 36 36
12
=
36
1
= .
3
Por lo tanto,
1
P (X es divisible por 3) = .
3
c) La suma de ambos lanzamientos es 2 cuando en el primer lanzamiento sale (1, 1)
y en el segundo sale (1, 1). Como los sucesos son independientes y cada uno tiene
1
probabilidad 36 , entonces la probabilidad en este caso es 3612 .
la suma, en ambos lanzamientos, es 3 cuando

1er lanzamiento 2o lanzamiento
(1, 2), (2, 1) (1, 2), (2, 1)
Las combinaciones entre el primer y segundo lanzamiento son:
primer lanzamiento (1, 2) segundo lanzamiento (1, 2)
En total, existen 4 combinaciones, cada una con probabilidad 1

36 · 1
36 = 1
362
. Luego,
la probabilidad para este caso es 3642 .
Análogamente, se verifica que:
La suma en ambos lanzamientos es 2 (1 combinación)
La suma en ambos lanzamientos es 4 (9 combinaciones)

La suma en ambos lanzamientos es 12 (1 combinación)
- 428 -
Luego,
1 + 4 + 9 + 16 + 25 + 36 + 25 + 16 + 9 + 4 + 1 146
P (X1 = X2 ) = 2
= .
36 1296
d) Por simetrı́a, P (X1 > X2 ) = P (X2 > X1 ) y como
1 = P (X1 = X2 ) + P (X1 > X2 ) + P (X1 < X2 ),
entonces,
146
1− = 2 P (X1 > X2 ),
362
de donde,
P (X1 > X2 ) = 0.4437.
e)
P (X1 = 3, X1 > X2 )
P (X1 = 3/X1 > X2 ) =
P (X1 > X2 )
P (X1 = 3, X1 > X2 )
=
0.4437
2 · 3612
=
0.4437
= 0.003478.
Problema 2.1.C:
a) Rec Y = {1, 4, 25} y
pY (1) = P (Y = 1) =P (X 2 = 1)
=P ((X = 1) ∪ (X = −1))
=P (X = 1) + P (X = −1)
=pX (1) + pX (−1)
4 |1| | − 1|
= +
22 22
5
= ,
22
pY (4) = P (Y = 4) =P (X 2 = 4)
=P ((X = 2) ∪ (X = −2))
=P (X = 2) + P (X = −2)
=pX (2) + pX (−2)
- 429 -
4 |2| | − 2|
= +
22 22
10
= ,
22
pY (25) = P (Y = 25) = P (X 2 = 25)

= P ((X = 5) ∪ (X = −5))
= P (X = 5) + P (X = −5)
= pX (5) + pX (−5)
7
= +0
22
7
= .
22
b)
P ((Y ≤ 3) ∩ (Y ≤ 4))
P (Y ≤ 3 / Y ≤ 4) =
P (Y ≤ 4)
P (Y ≤ 3)
=
P (Y ≤ 4)
P (Y = 1)
=
P (Y = 1) + P (Y = 4)
5
22
= 5 10
22 + 22
1
= .
3
Problema 2.1.D:
P (X = k)
R(k) =
P (X = k − 1)
(n ) k
p (1 − p)n−k
= ( n )k
k−1 (1 − p)n−(k−1)
k−1 p
n!
k! (n−k)! p
= ·
n!
(k−1)! (n−(k−1))!
1−p
n−k+1 p
= · .
k 1−p
Notar que R(k) ≥ 1 , si y sólo si (n − k + 1) p ≥ (1 − p) k , es decir, P (X = k) es creciente,

si k ≤ p (n + 1) y decreciente si k > p (n + 1) . Luego, el valor de k que maximiza
P (X = k) es la parte entera de p (n + 1).
- 430 -
Cabe destacar que los radios R(k) permiten calcular P (X = k), en forma recursiva,
evitando calcular coeficientes binomiales
( ) que en algunos casos no son simples de obtener.
p
A modo de ejemplo, si X ∼ B 6, 34 , entonces 1−p = 3, y
( )6
3
P (X = 0) = 1 − = 0.00024414,
4
6−1+1
P (X = 1) = 3 · P (X = 0) = 18 P (X = 0) = 0.00439452,
1
6−2+1 15
P (X = 2) = 3 · P (X = 1) = P (X = 1) = 0.0329589,
2 2
6−3+1
P (X = 3) = 3 · P (X = 2) = 4 P (X = 2) = 0.1318356,
3
6−4+1 9
P (X = 4) = 3 · P (X = 3) = P (X = 3) = 0.2966301,
4 4
6−5+1 6
P (X = 5) = 3 · P (X = 4) = P (X = 4) = 0.35595612,
5 5
6−6+1 3
P (X = 6) = 3 · P (X = 5) = P (X = 5) = 0.17797806.
6 6
También, como 34 · 7 = 5.25, entonces su parte entera es 5, por lo que P (X = k) alcanza

su valor máximo en k = 5.
Problema 2.1.E: Supongamos que X denota el número de bombillas defectuosas en un

paquete. Por las condiciones del problema podemos asumir que X ∼ B(3, 0.02). Ası́,
a) ( )
3
P (X = 2) = (0.02)2 (1 − 0.02) = 0.001176.
2
b) ( )
3
P (X ≥ 1) = 1 − P (X = 0) = 1 − (0.02)0 (1 − 0.02)3 = 0.058808.
0
c) Sea A el suceso “ir a quejarse al supermercado”. Entonces,
i2
P (A/X = i) = , i = 0, 1, 2, 3,
10
- 431 -
por lo tanto,
∑
3
P (A) = P (A/X = i) P (X = i)
i=0
1 4 9
= P (X = 1) + P (X = 2) + P (X = 3)
10 10 10
= 0.0062408.
Como 0.0062408 es mayor que 0.005 ( que corresponde al 0.5% ), entonces, el supermercado
no deberı́a seguir vendiendo este producto.
Problema 2.1.F: Sea Zn la variable aleatoria discreta que cuenta el número de “4”
que se obtienen cuando se engendra una sucesión de n dı́gitos. Por las condiciones del
problema asumiremos que
( 1)
Zn ∼ B n, 10 .
Ası́,
( ) ( )0 ( )8
8 1 9
P (Z8 = 0) = = (0.9)8 = 0.4305
0 10 10
y
( ) ( )3 ( )5
8 1 9 95
P (Z8 = 3) = = 56· 8 = 0.0331.
3 10 10 10
Finalmente,
1
E(Z100 ) = 100 · = 10
10
y
1 9
V ar(Z100 ) = 100 · · = 9,
10 10
o sea, la desviación estándar es 3.
SECCIÓN 2.2
Problema 2.2.A:
∫∞
a) Para que f sea densidad, se debe satisfacer la ecuación −∞ f (t)dt = 1.
Pero,
∫ ∞ ∫ 1 ( )
1 1
c t (1 − t)dt = c
2
(t − t )dt = c
2 3
− ,
−∞ 0 3 4
por lo tanto, c · 1
12 = 1 , es decir c = 12.
- 432 -
b) Nótese que {
0 si x < 0
FX (x) =
1 si x > 1
Ası́, para x ∈ [0, 1],
∫ x ( )
x3 x4
FX (x) = 12 (t − t )dt = 12
2 3
− ,
0 3 4
o sea 
 0 si x < 0
FX (x) = 4x − 3x si 0 ≤ x ≤ 1
3 4

1 si x > 1
c)
P (0.2 ≤ X ≤ 0.8) = FX (0.8) − FX (0.2)

= 4 (0.8)3 − 3 (0.8)4 − (4 (0.2)3 − 3 (0.2)4 )
= 0.792.
d) Si y < 1,
∫
{ }
P (Y ≤ y) = fX (t)dt , donde Ay = x ∈ R : 1
x <y
Ay
∫
= 12 t2 (1 − t)dt
Ay ∩[0,1]
∫
= 12 t2 (1 − t)dt
∅
= 0.
En cambio, si y ≥ 1,
(1 )
P (Y ≤ y) = P ≤y
(X )
= P 1
y ≤X
( )
= 1 − FX y1
( ( ) ( )4 )
1 3 1 1
= 1− 4 −3 , pues ∈ ]0, 1].
y y y
Por lo tanto, 
 0 si y < 1
FY (y) = 4 3
 1− 3 + 4 si y ≥ 1
y y
- 433 -
e) Como FY es continua y derivable, salvo posiblemente en y = 1, entonces una densi-

dad para la variable aleatoria Y es
{ ′
F (y) si F es derivable en y
fY (y) =
0 e.o.c.


 12 12
 4 − 5 si y > 1
y y
=


 0 si y ≤ 1
P ((2 ≤ Y ≤ 4) ∩ (Y < 3))

f) P (2 ≤ Y ≤ 4 / Y < 3) =
P (Y < 3)
P (2 ≤ Y < 3)
=
P (Y < 3)
∫3
fY (y)dy
= ∫ 32
−∞ fY (y)dy
∫3 12
2 ( y4 − 12
y5
)dy
= ∫ 3 12
1 ( y4 − 12
y5
)dy
29
= .
128
Problema 2.2.B: Para z ∈ R,
FE (z) = P (E ≤ z)
( )
= P 12 m V 2 ≤ z
{
0 √ ) si z < 0
= (
P |V | ≤ 2z m si z ≥ 0,
Además, ( √ ) ( √ √ )
P |V | ≤ 2z
m = P − 2z
m ≤ V ≤ 2z
m
√
∫
{ }
2z
m 1
= √ √ exp − 12 ( σt )2 dt,
− 2z
m
2π σ
es decir,



0 si z < 0


√
FE (z) = ∫
{ −1 2 }
2z

 m 1

 √ √ exp 2σ 2t dt si z ≥ 0
− 2z
m
2πσ
- 434 -
Entonces, FE es continua y derivable, salvo posiblemente en z = 0, por lo que, una

densidad para la energı́a cinética E, está dada por:


 0 si z ≤ 0


fZ (z) = [ ]

 −1 2z −1 2z (−1) 2
 √2πσ (exp{ 2σ2 m }) √ 2z m − (exp{ 2σ2 m }) √ 2z m
 1 1 2
si z > 0
2 m
2 m


 0 si z ≤ 0

= { z }

 1 1
 √ √ exp − mσ 2 si z > 0
mπσ z
Problema 2.2.C:
(a) Nótese, primeramente, que Rec U = { 2132 , 2232 , 2332 , . . . , 1}.

Ası́, para k ∈ {1, 2, . . . , 232 − 1},
∑
FU (u) = pU (z)
z≤u
z∈Rec U
∑
= P (Z = 232 z)
z≤u
z∈Rec U
 1

 0 si u < 232



= k
si k
≤u< k+1


232 232 232



1 si u ≥ 1
b)
∫ u
FV (u) = fV (t)dt
−∞



0 si u < 0



 ∫ ∫

 0 u

0dt +
1dt si 0 ≤ u < 1
= −∞


0



 ∫ 0 ∫ 1 ∫


u
 0dt + 1dt + 0dt si u ≥ 1
−∞ 0 1

 0 si u < 0
= u si 0 ≤ u < 1

1 si u ≥ 1
- 435 -
Por lo tanto, si u ∈] − ∞, 0] ó u ∈ [1, ∞[, entonces
|FU (u) − FV (u)| = 0.
Ahora, si 0 < u < 1, entonces existe k0 ∈ {1, 2, 3, . . . , 232 } tal que k0

232
≤u< k0 +1
232
, o
sea,
k0
FU (u) = 32 y FV (u) = u,
2
de donde
k0 1
|FU (u) − FV (u)| = 32 − u ≤ 32 ,

2 2
[ [
pues u ∈ k0 k0 +1
,
232 232
.
Problema 2.2.D:
a) Como lim F (x) = 1, entonces b = 1. Además, por ser la función F creciente, se

x→∞
tiene que, para todo x > 0,
1
a = F (0) ≤ F (x) = − e−x + b,
2
de donde, tomando lı́mite cuando x tiende a cero por la derecha, se obtiene que
a ≤ 12 .
También a > 0, ya que 0 ≤ F (x) ≤ 1, para todo x ∈ R. Por lo tanto, 0 ≤ a ≤ 12 .
b) Para que la variable aleatoria X tenga densidad, es necesario (pero no suficiente)

que F sea continua en R.
La función F es continua en R si y sólo si F es continua en cero, es decir, si se
satisface
lim F (x) = lim F (x) = F (0),
x→0+ x→0−
o sea, si a = 21 .
En este caso, como F es continua y derivable salvo posiblemente en x = 0, una
densidad para la variable aleatoria X es



1 x

 e si x < 0

 2


fX (x) = 1 −x


e si x > 0

 2



 0 si x = 0
(el valor de fX en x = 0 es arbitrario, sólo debe ser no negativo).
- 436 -
Problema 2.2.E: Para y ∈ R,

( {√ √ } )
FY (y) = P min X, 2 − X ≤ y
( {√ √ } )
= 1 − P min X, 2 − X ≥ y
(√ √ )
= 1−P X > y, 2 − X ≥ y
(√ √ )
= 1−P X > y, X < 2 − y .
Ası́, si y ≤ 0,
(√ ) (√ )
FY (y) = 1 − P X <2−y (pues P X > y = 1)
( )
= 1 − P X < (2 − y)2
[∫ ∫ (2−y)2 ]
4
= 1− f (t)dt + f (t)dt (ya que 2 − y > 2)
0 4
= 1 − [1 + 0]
= 0.
En cambio, si y > 1,
(√ √ )
FY (y) = 1 − P X > y, X < 2 − y
= 1 − P (∅), pues en este caso 2−y <y
= 1.
Por último, si 0 < y ≤ 1,
(√ √ )
FY (y) = 1 − P X > y, X <2−y
( )
= 1 − P y 2 < X < (2 − y)2
∫ (2−y)2 3
t
= 1− dt
y2 64
1 [ ]
= 1− (2 − y)8 − y 8 .
256
En consecuencia,

 0 si y ≤ 0





1
FY (y) = 1− [(2 − y)8 − y 8 ] si 0 < y ≤ 1

 256




1 si y > 1
Problema 2.2.F:
( )
µ−c−µ X−µ
P (µ − c ≤ X ≤ µ + c) = P σ ≤ σ ≤ µ+c−µ
σ
( )
= P − σc ≤ X−µ
σ ≤
c
σ
(c) ( c)
= Φ σ − Φ −σ ,
- 437 -
donde Φ es la distribución acumulada de una normal (0, 1).

Pero, Φ es simétrica en torno de cero, por lo que
( ) ( )
Φ − σc = 1 − Φ σc .
Ası́, la condición del problema se traduce en que

( )
2Φ σc − 1 = 0.95,
o sea, (c)
Φ σ = 0.975.
c
En consecuencia, σ = 1.96, es decir, c = 1.96 σ.
Problema 2.2.G: Consideremos la función h, definida por h(a) = P (a ≤ X ≤ a + b).

Se pide determinar el valor de a donde h alcanza su máximo.
Nótese que
h(a) = P (a ≤ X ≤ a + b)
( )
= P a−µσ ≤ X−µ
σ ≤ a+b−µ
σ
( ) ( a−µ )
a+b−µ
= Φ σ −Φ σ ,
luego,
d 1 ( ) 1 (
a−µ ) 1 x2
h(a) = f a+b−µ
σ − f σ , con f (x) = √ e− 2 .
da σ σ 2π
d
Por lo tanto, h(a) = 0, si y sólo si
da
{ ( )2 } 1 1 {
1 1 ( ) }
1 a−µ 2
√ exp − 2 1 a+b−µ
σ − √ exp − 2 σ = 0.
σ 2π σ 2π
De esta última se obtiene la ecuación
(a + b − µ)2 = (a − µ)2 ,
por lo que a = µ − 2b .
d2
Finalmente, como da2
h(a)|a=µ− b < 0, entonces h alcanza el máximo en a = µ − 2b .
2
Problema 2.2.H: Si M ∼ N (1.025, 0.052 ), entonces,

( )
P (M < 1) = P M −1.025 0.05 ) <
1−1.025
( 0.025 0.05
= Φ − 0.05
= Φ(−0.5)
= 1 − Φ(0.5)
= 1 − 0.6915
= 0.3085.
- 438 -
O sea, el 30.85% de los paquetes está bajo peso.

Por otra parte, si M ∼ N (µ, 0.052 ), y se verifica que P (M < 1) = 0.1, entonces,
( )
Φ 1−µ
0.05 = 0.1,
es decir,
1−µ
= −1.29,
0.05
concluyéndose que µ = 1.0645.
Finalmente, si M ∼ N (1.0645, σ 2 ) y se verifica que P (M < 1) = 0.025, entonces,
( )
Φ 1−1.0645
σ = 0.025,
de donde,
1 − 1.0645
= −1.96,
σ
es decir, σ = 0.033.
Problema 2.2.I: Si X es la variable que representa la edad, entonces X ∼ N (µ, σ 2 ) y

por las condiciones del problema P (X < 25) = 0.4 y µ = 2 σ.
Ası́,
0.4 =P (X < 25)

( )
=P X−2σ < 25−2σ
( σ ) σ
=Φ 25−2σ
σ( )
=1 − Φ − 25−2σ
σ ,
o sea, ( )
Φ − 25−2σ
σ = 0.6,
de donde,
2σ − 25
= 0.26.
σ
Resolviendo esta última ecuación resulta σ = 14.4, y por lo tanto, µ = 28.8.
También,
P (X > 45) = 1 − P (X ≤ 45)

( )
14.4 )≤
= 1 − P X−28.8 45−28.8
( 45−28.8 14.4
= 1 − Φ 14.4
= 0.1314,
es decir, el 13.14% de la población tiene más de 45 años.

Por otra parte, si x satisface la relación P (X ≤ x) = 0.0228, entonces,
( )
Φ x−28.8
14.4 = 0.0228
= 1 − 0.9772,
- 439 -
de donde
x − 28.8
= −2, es decir, x = 0.
14.4
Si ahora se eligen al azar tres personas de entre esta población y representamos por Y a
la variable aleatoria que cuenta el número de personas con menos de 25 años, entonces
Y ∼ B(3, 0.4).
En ese caso, se puede pensar que la elección es con reposición, ya que el paı́s es “muy
poblado”. Luego,
( )
3
P (Y = 3) = (0.4)3 (0.6)0 = 0.064,
3
( )
3
P (Y = 2) = (0.4)2 (0.6)1 = 0.288,
2
P (Y ≥ 1) = P (Y = 1) + P (Y = 2) + P (Y = 3)
( )
3
= (0.4)1 (0.6)2 + 0.352
1
= 0.784.
Finalmente, si las personas se escogen del bus, el hecho de efectuar la elección sin reposición
afecta la probabilidad y no puede asumirse distribución binomial para Y .
En el caso en que el bus tuviese 40 personas, la probabilidad serı́a
(16)(24)
(40)0
3
= 0.057.
3
Para un bus con 50 personas la probabilidad serı́a

(20)(30)
(50)0
3
= 0.058,
3
y para un bus de 100 personas serı́a

(40)(60)
(3 100)0 = 0.061.
3
Problema 2.2.J: Sean G0 = {x ∈ R : 0 < x < 1}, G = {x ∈ R : x > 0} y g : G0 → G

función definida por g(x) = log(x−1 ). Entonces, g es una biyección, g −1 (t) = e−t y
d −1 −t
dt g (t) = −e .
- 440 -
Como Y = g(X), entonces Teorema de transformación de variables aleatorias implica que

{
fX (g −1 (t))| − e−t | si t ∈ G
fY (t) =
0 e.o.c.
{
fX (e−t ) e−t si t > 0
=
0 e.o.c.
{
(θ + 1) (e−t )θ e−t si t > 0
=
0 e.o.c.
{
(θ + 1) e−(θ+1)t si t > 0
=
0 e.o.c.
Por lo tanto,
Y ∼ exp(θ + 1).
Problema 2.2.K: Sea G0 = {x ∈ R : x > 0} y G = {x ∈ R : x > 0}. Entonces la

1
función g : G0 → G definida por g(x) = xδ , es una biyección, su inversa es g −1 (x) = x δ y
d −1 1 δ −1
1
dx g (x) = δ x .
δ
Como X = g(X), entonces Teorema de transformación de variables implica que

 1 1 −1
fX (g (x)) x δ si x ∈ G
−1
fX δ (x) = δ

0 e.o.c.
{ ( 1) 1 1
fX x δ x δ −1 si x > 0
= δ
0 e.o.c.
 ( 1 )δ−1 ( )
 δ
1
δ δ 1 1 −1
xδ exp − (xα ) xδ si x > 0
= α δ

0 e.o.c.
{ 1 ( )
exp − αx si x > 0
= α
0 e.o.c.
1
El recı́proco se obtiene de forma análoga, considerando g(x) = x δ .
Cabe señalar que si X tiene densidad como la planteada
( )en este problema , entonces
( se
)
dice que X tiene distribución Weibull de parámetro α, 1δ , se anota X ∼ Weibull α, 1δ .
Problema 2.2.L:
Método 1: Usando teorema de transformación de variables.
Sean G0 =] − 1, 1[, G =]0, 1] y h : G0 → G definida por h(t) = cos( π2 t), es decir,
Z = h(X).
La función h es epiyectiva, pero no inyectiva (como se observa en la figura siguiente).
- 441 -
h(t)
−1 0 1 t
Figura 2.2.A Gráfico de la función h(t), para −1 ≤ t ≤ 1.
Sean G0,1 =] − 1, 0], G0,2 =]0, 1[ y h1 : G0,1 → G, h2 : G0,2 → G definidas por

h1 (t) = h2 (t) = h(t). Entonces h1 , h2 son biyectivas y, para todo y ∈ G,
2 2
h−1
1 (y) = Arccos(y), h−1
2 (y) = Arccos(y),
π π
y
−2/π −2/π
J(h−1
1 )(y) = √ , J(h−1
2 )(y) = √ .
1 − y2 1 − y2
Teorema de transformación de variables aleatorias (versión generalizada) implica que una
densidad para la variable aleatoria Z = h(X) está dada por
 −1 −1 −1 −1
 fX (h1 (z))|J(h1 (z))| + fX (h2 (z))|J(h2 )(z)| si z ∈ G
fZ (z) =

0 e.o.c.
Pero,
 1

 si − 1 < x < 1
fX (x) = 2


0 e.o.c.
por lo tanto


 1 2/π 1 2/π
 √ + √ si 0 < z < 1
2 1 − z2 2 1 − z2
fZ (z) =



0 e.o.c.



2
 √ si 0 < z < 1
= π 1 − z 2


 0 e.o.c.
- 442 -
Método 2: Usando la función de distribución acumulada.

Como Rec Z =]0, 1[, entonces FZ (z) = 0 si z ≤ 0 y FZ (z) = 1 si z > 1.
Para z ∈]0, 1[,
FZ (z) = P (Z ≤ z)
( ( ) )
= P cos π2 X ≤ z
( ( ) )
= 1 − P cos π2 X > z
( )
= 1 − P − Arccos(z) < π2 X < Arccos(z)
( )
= 1 − P − π2 Arccos(z) < X < 2
π Arccos(z)
∫ 2
b
π 1
= 1− dt , con b = arccos(z)
− π2 b 2
2
= 1− b
π
2
= 1− Arccos(z).
π
La figura siguiente muestra el gráfico de la función cos(t), con −1 ≤ t ≤ 1.
−1 −b 0 Arccos(z)= b 1 t
Figura 2.2.B
Luego,

 0 si z ≤ 0
FZ (z) = 1− 2
Arccos(z) si 0 < z ≤ 1
 π
1 si z > 1
En consecuencia, FZ es continua y derivable, salvo probablemente en z = 0 y z = 1,

entonces una densidad para Z está dada por
- 443 -

 d
 FZ (z) si Fz es derivable en z
fZ (z) = dz


0 e.o.c.



2
 √ si 0 < z < 1
= π 1 − z 2


 0 e.o.c.
Problema 2.2.M:
a) Por las condiciones del problema, se tiene que
E(Y ) = 5.3 y Var(Y ) = (0.3)2 .
Pero,
E(Y ) = a E(X) + b = a 4.2 + b
y
Var(Y ) = a2 Var(X) = a2 (0.6)2 ,
por lo tanto,
4.2 a + b = 5.3 y a2 (0.6)2 = (0.3)2 ,
de donde
a = 0.5 y b = 3.2.
b) Se pide encontrar c ∈ [0, 7], de modo que P (Y > c) = 0.9.

Pero,
P (Y > c) = P (0.5 X + 3.2 > c)
( c−3.2
)
= P X> 0.5
( )
X−4.2 2(c−3.2)−4.2
= P 0.6 > 0.6
( )
2(c−3.2)−4.2
= 1−Φ 0.6 ,
o sea ( )
2(c−3.2)−4.2
Φ 0.6 = 0.1,
de donde, usando una tabla normal (0,1), se obtiene que

2(c − 3.2) − 4.2
= −1.28,
0.6
con lo cual se concluye que c = 4.916.
- 444 -
Problema 2.2.N:
∫ ∞
(1) 1
E T = fT (t)dt
0 t
∫ ∞
1 λα α−1 −λt
= t e dt
0 t Γ(α)
∫ ∞
λ λα−1
= t(α−1)−1 e−λt dt.
α − 1 0 Γ(α − 1)
Esta última integral vale uno, pues el integrando es la densidad de una distribución
Gamma(α − 1, λ). Ası́,
( ) λ
E T1 = .
α−1
También,
(( ) ) ∫ ∞
1 2 1
E T = fT (t)dt
0 t2
∫ ∞ α
λ
= t(α−2)−1 e−λt dt
0 Γ(α)
∫ ∞
λ2 λα−2
= t(α−2)−1 e−λt dt
(α − 1)(α − 2) 0 Γ(α − 2)
λ2
= ,
(α − 1)(α − 2)
o sea,
( )2
(1) λ2 λ
V ar = −
T (α − 1)(α − 2) α−1
λ2
= .
(α − 1)2 (α − 2)
Cabe recordar que

∫ ∞
Γ(α) = xα−1 e−x dx = (α − 1) Γ(α − 1).
0
En efecto, si usa integración por partes con u = xα−1 , v = e−x , α > 1, resulta
∫ ∞
−x α−1 ∞

Γ(α) = −e x 0
+ (α − 1) xα−2 e−x dx = 0 + (α − 1) Γ(α − 1).
0
Análogamente, si α > 2,
Γ(α) = (α − 1)(α − 2) Γ(α − 2).
- 445 -
Problema 2.2.O: Por las condiciones del problema, la utilidad U puede ser expresada
como {
c2 H − c1 H − c3 H si T > H
U=
c2 T − c1 T − c3 H si T ≤ H
o sea,
U = (c2 H − c1 H − c3 H) I(T >H) + (c2 T − c1 T − c3 H) I(T ≤H)
(nótese que U es variable aleatoria puesto que es una función en T ).
Por lo tanto,
E(U ) = E((c2 H − c1 H − c3 H) I(T >H) ) + E((c2 T − c1 T − c3 H) I(T ≤H) )

= H (c2 − c1 − c3 ) E(I(T >H) ) + (c2 − c1 ) E(T I(T ≤H) ) − c3 H E(I(T ≤H) )
= H (c2 − c1 − c3 ) P (T > H) + (c2 − c1 ) E(T I(T ≤H) ) − c3 H P (T ≤ H)
= H (c2 − c1 − c3 ) e−λH + (c2 − c1 ) E(g(T )) − c3 H (1 − e−λH ),
donde g es la función definida por

{
t si t ≤ H
g(t) = t I(t≤H) =
0 e.o.c.
Pero,
∫ ∞
E(g(T )) = g(t)fT (t)dt
−∞
∫ 0 ∫ H ∫ ∞
−λt
= t 0dt + t λe dt + 0 λe−λt dt
−∞ 0 H
( )
1 1
= − e−λH +H ,
λ λ
entonces
( ( )) ( )
−λH 1 1
E(U ) = H(c2 − c1 − c3 ) e + (c2 − c1 ) − e−λH +H − c3 H 1 − e−λH .
λ λ
Para obtener el valor máximo de E(U ), resolvemos la ecuación
dE(U )
= 0,
dH
de donde resulta ( )
1
H = − log c2c−c 3
.
λ 1
c3
Nótese que 0 < c2 −c1 < 1, pues de lo contrario no es rentable hacer funcionar la máquina.
También,
d2 E(U )
= −λ(c2 − c1 )e−λH < 0, para todo H > 0,
dH 2
pues λ > 0 y c2 − c1 > 0.
- 446 -
( )
Por lo tanto, en H = − λ1 log c3
c2 −c1 , efectivamente E(U ) alcanza el máximo.
d
Problema 2.2.P: Como dt FX (t) existe, salvo posiblemente en t = 0 y t = 100, entonces
una densidad para la variable aleatoria X es

 d
 FX (t) si la derivada existe
fX (t) = dt


0 e.o.c.
 1

 si 0 < t < 100
= 100


0 e.o.c.
O sea, X tiene distribución uniforme sobre ]0, 100[ (claramente el supuesto sobre esta
variable aleatoria es poco razonable si se desea modelar el tiempo de sobrevivencia de una
persona).
Si T40 es el tiempo que sobrevivirá la persona a partir de los 40 años, entonces, para s > 0,
P (T40 > s) = P (X > 40 + s/X ≥ 40)
P (X > 40 + s, X ≥ 40)
=
P (X ≥ 40)
P (X > 40 + s)
=
P (X ≥ 40)

 1 − 40+s

 100
si 0 < s < 60
= 1 − 40
100



0 e.o.c.

 1 − 60 s
si 0 < s < 60
=

0 e.o.c.
Por lo tanto, T40 ∼ U (0, 60).

Sea K = [T40 ] (parte entera de T40 ). La variable aleatoria K, representa el número de
años (enteros) que sobrevivirá la persona de edad 40 años. La función de cuantı́a de K
está dada por
P (K = j) = P (j ≤ T40 < j + 1) (j ∈ {0, 1, . . .})
∫ j+1
= fT (s)ds
j
- 447 -
 ∫ j+1

 1
 ds si j ∈ {0, 1, . . . , 59}
j 60
=



0 si j ≥ 60
 1

 si j ∈ {0, 1, . . . , 59}
= 60


0 si j ≥ 60
El valor presente (al instante en que se contrata el seguro) de las 2000 (UF) que pagará
la compañı́a al final del año de muerte del asegurado, es decir, al instante K + 1, son
1
2000v K+1 , donde v = 1+0.01 .
La persona realizará los siguientes pagos a la compañı́a
Px Px Px Px
x x+1 x+2 x+K x+T x+K+1
Donde x es la edad de la persona al instante de contratar el seguro.

El valor presente de estos pagos es
1 − v K+1
Px + Px v + Px v 2 + · · · + Px v K−1 + Px v K = Px (1 + v + · · · + v K ) = Px ·
1−v
(se usó que 1 + v + · · · + v K es una suma geométrica, de primer término 1, razón v y
número de términos K).
Si denotamos por L la posible pérdida en que incurrirı́a la compañı́a (L en moneda del
instante en que se contrata el seguro), resulta
1 − v K+1
L = 2000 v K+1 − P40 · .
1−v
De las condiciones del problema, E(L) = 0, de donde
2000 E(v K+1 )
P40 = (1 − v).
1 − E(v K+1 )
Pero,
∞
∑
E(v K+1
) = v j+1 P (K = j)
j=0
∑
59
1
= v j+1
60
j=0
1 v (1 − v 60 )
= ·
60 1−v
1 1
= · (1 − 0.5504496),
60 0.01
= 0.749.
- 448 -
en consecuencia
P40 = 59.09037.
Problema 2.2.Q: Considere X = min{r, Y } donde r > 0. Luego desde el Ejemplo 2.2.6
tenemos


 0 si u < 0





FX (u) = 1 − e−λu si 0 ≤ u < r







1 si u ≥ r
Note además que Z = max{s, min{Y, r}} = max{s, X}.

Luego,
FZ (z) = P (Z ≤ z) = P (max{s, X} ≤ z) = P (s ≤ z, X ≤ z)
Debemos considerar 2 casos. Si z < s entonces FZ (z) = 0 pues (s ≤ z, X ≤ z) = ϕ. Por

otro lado, si z ≥ s, FZ (z) = P (X ≤ z) = FX (z).
Por lo tanto,


 0 si z < s





FZ (z) = 1 − e−λz si s ≤ z < r







1 si z ≥ r
Observe que al igual que en el Ejemplo 2.2.6 la variable aleatoria Z no es continua ni

discreta.
SECCIÓN 2.3
Problema 2.3.A:
P (−2 ≤ X ≤ 8) = P (−5 ≤ X − 3 ≤ 5)
= P (|X − 3| ≤ 5)
= 1 − P (|X − 3| > 5)
V (X)
≥ 1− (desigualdad de Chebyshev)
25
4
= 1−
25
21
= .
25
- 449 -
Problema 2.3.B: Por las condiciones del problema, se debe determinar n0 de modo
que:
P (|X̄n0 − p| < 0.005) ≥ 0.95.
Como, para todo n ≥ 1 , E(X̄n ) = p y V (X̄n ) = 1
n p (1 − p) , entonces desigualdad de
Chebyshev implica que
P (|X̄n − p| < 0.005) = 1 − P (|X̄n − E(X̄n )| ≥ 0.005)
V (X̄n )
≥ 1−
(0.005)2
p(1 − p)
= 1− .
n(0.005)2
Además, la función
h : [0, 1] → R
t t(1 − t)
es creciente en el intervalo [0, 1/2] (como lo muestra la Figura 2.3.4 ), luego
p(1 − p) ≤ 0.45(1 − 0.45).
Ası́ entonces, por la condición del problema, n0 debe satisfacer la relación
0.45(1 − 0.45)
< 0.05,
n0 (0.005)2
por lo cual basta considerar n0 > 10.421, 05.
Problema 2.3.C:
i)
1
E(X̄n ) = n E(X1 )
n
= P (Z1 ∈ D)
∫∫
= fZ1 (u, v) du dv
D
áreaD
=
áreaG
= áreaD
= p,
1
V (X̄n ) = n V (X1 )
n2
1
= p (1 − p).
n
- 450 -
ii) Se debe determinar n0 de modo que
P (|X̄n0 − p| > 0.01) < 0.005.
Nótese que, de la desigualdad Chebyshev,
V (X̄n ) p(1 − p)
P (|X̄n − E(X̄n )| > 0.01) ≤ = ,
(0.01)2 n(0.01)2
luego, n0 debe satisfacer la relación
p(1 − p)
≤ 0.005,
n0 (0.01)2
de donde
p(1 − p) p(1 − p)
n0 ≥ = .
2
(0.01) 0.005 5 · 10−7
Si se asumiera que f (x) = 3

4 x2 , entonces p = 1
4 , y bastarı́a considerar n0 ≥ 375.000.
Problema 2.3.D: Consideremos una variable aleatoria X, cuyo recorrido sea

RecX = {a1 , . . . , an } y con función de distribución,
P (X = ai ) = αi , i = 1, . . . , n.
De esta forma,
∑
n
E(X) = αi a i .
i=1
Si ahora tomamos h(x) = − ln x, x > 0, entonces Ejemplo 2.3.6 implica que

( n )
∑ ∑ n
ln αi ai ≥ E(ln X) = (ln(ai )) αi .
i=1 i=1
Tomando función exponencial en base e, a ambos lados de la desigualdad, resulta
∑
n ∏
n ∏
n
αi a i ≥ e (ln(ai ))αi
= aαi i .
i=1 i=1 i=1
Notar que, si se considera αi = n1 , i = 1, . . . , n, en la desigualdad anterior, se obtiene la

desigualdad que relaciona la media geométrica y aritmética, esta es,
( )1 ∑n
∏
n n
i=1 ai
ai ≤ .
n
i=1
- 451 -
Problema 2.3.E: Considere:
• Ω = {a, b, c}
#A #A
• P (A) = = ,A⊂Ω
#Ω 3
• X variable aleatoria discreta de modo que X ∼ U {a, b, c}
1
• f :]0, ∞[→ R, f (x) =
x
Con estas consideraciones se tiene que:
a+b+c
E(X) = ,
3
1 1 1 1 1 1
E(f (X)) = · + · + · ,
a 3 b 3 c 3
3
f (E(X)) = .
a+b+c
Desigualdad de Jensen (f es función convexa) implica que
3 1 1 1 1 1 1
≤ · + · + · ,
a+b+c a 3 b 3 c 3
de donde
9 1 1 1
≤ + + .
a+b+c a b c
Problema 2.3.F: Note que si 0 < s < t entonces la función ϕ(y) = |y|t/s es convexa,
pues es la composición de 2 funciones convexas.
Ahora usando la desigualdad de Jensen con una variable aleatoria Y , tenemos
( ) t
E |Y |t/s ≥ |E(Y )| s
Considerando la variable aleatoria Y = |X|s , se obtiene que

( ) t
E |X|t ≥ |E(|X|s )| s .
Finalmente tomando la raiz t-ésima en esta última ecuación se concluye la demostración.
Problema 2.3.G: Sea Xi = ingreso de la i-ésima familia en un mes cualquiera, i =

1, . . . , n.
Se pide encontrar una cota superior para la probabilidad

(X )
1 +···+Xn
P n > 5A .
- 452 -
a) Por la desigualdad de Markov,

( X1 +···+Xn )
( X1 +···+Xn ) E
P n > 5A ≤ n
.
5A
Pero, para todo i, E(Xi ) = A, de donde
( ) 1
P X1 +···+X
n
n
> 5A ≤ .
5
b) Notar que
(X ) ( )
P 1 +···+Xn
> 5A = P X1 +···+X n
− A > 4A
n
( n
)
≤ P X1 +···+Xn − A > 4A .
n
Además, la desigualdad de Chebyshev implica que

( X1 +···+Xn )
( ) V
P X1 +···+X
n
n
− A > 4A ≤ n
.
(4A)2
√
Pero, para todo i, V (Xi ) = 45 A, por lo que
(X 1 )
V 1 +···+Xn
n (V (X1 + · · · + V (Xn )))
=
n2
1 16 2
= · A ,
n 25
se asume que los ingresos de familias diferentes son independientes.
En consecuencia,
( X1 +···+Xn ) 1
P n > 5A ≤ .
25 n
SECCIÓN 2.4
Problema 2.4.A:
a) Rec(X1 , X2 ) = {(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)}. Además,
X1 , X2 son independientes, luego
{
αi βj si (i, j) ∈ Rec(X1 , X2 )
p(X1 ,X2 ) (i, j) =
0 e.o.c.
b)
P (X2 > X1 ) = P ((X1 , X2 ) ∈ B), donde B = {(a, b) : b > a}
∑
= p(X1 ,X2 ) (i, j)
(i,j)∈Rec(X1 ,X2 )∩B
= p(X1 ,X2 ) (0, 1) + p(X1 ,X2 ) (0, 2) + p(X1 ,X2 ) (1, 2)
= α0 β1 + α0 β2 + α1 β2
= α0 β1 + (α0 + α1 ) β2 .
- 453 -
c) Sea i ∈ Rec Z = {−2, −1, 0, 1, 2, },
pZ (i) = P (X2 − X1 = i)
∑2
= P (X2 − X1 = i, X1 = j)
j=0
∑
2
= P (X2 = i + j, X1 = j)
j=0
∑
2
= pX1 (j) pX2 (i + j)
j=0
= pX1 (0) pX2 (i) + pX1 (1) pX2 (i + 1) + pX1 (2) pX2 (i + 2),
o sea,
pZ (−2) = pX1 (2) pX2 (0) = α2 β0

pZ (−1) = pX1 (1) pX2 (0) + pX1 (2) pX2 (1) = α1 β0 + α2 β1
pZ (0) = pX1 (0) pX2 (0) + pX1 (1) pX2 (1) + pX1 (2) pX2 (2) = α0 β0 + α1 β1 + α2 β2
pZ (1) = pX1 (0) pX2 (1) + pX1 (1) pX2 (2) = α0 β1 + α1 β2
pZ (2) = pX1 (0) pX2 (2) = α0 β2 .
Problema 2.4.B: Sean X, Y las variables aleatorias:
X = hora de llegada de Juan, Y = hora de llegada de Pedro.
Según las hipótesis del problema X e Y son variables aleatorias iid U (17, 18).
a) El suceso A = “Juan y Pedro se encuentran” se escribe como:

( )
1 ( )
A = |X − Y | ≤ nótese que 10 min = 1
6 hr. ,
6
luego,
∫∫
P (A) = I(|X−Y |≤ 1 ) (u, v) f(X,Y ) (u, v)dudv
6
R2
∫∫
{ }
= f(X,Y ) (u, v)dudv, donde H = (u, v) ∈ R2 : |u − v| < 16
H∩[17,18]2
∫∫
= 1 dudv
H∩[17,18]2
= área(H ∩ [17, 18]2 ).
- 454 -
En la figura siguiente, la región sombreada corresponde al conjunto H ∩ [17, 18]2 .
v
1
v =u+ 6
1
18 v =u− 6
5
17 + 6
1
17 + 6
17
1 5
17 17 + 6 17 + 6 18 u
Figura 2.4.A: Región sombreada representa H ∩ [17, 18]2 .
Ası́, ( ( ) ( ))
1 1 5 1 5 1 11
P (A) = 1 − 1− + · 1− = .
2 6 6 2 6 6 36
b) En este caso, el suceso( “Juan y Pedro

) se encuentran” lo denotamos por Ax , y se
expresa
{ como A x = |x}− Y | ≤ 1
6 , o dicho de otra forma, Ax = (Y ∈ G) , con
G = v ∈ R : |x − v| < 16 .
O sea,
∫
P (Ax ) = IG (v) fY (v)dv
[17,18]
∫
= fY (v)dv
[17,18]∩G
∫
= 1 dv
[17,18]∩G
= longitud([17, 18] ∩ G)


 x − 17 + 1
si x ∈ [17, 17 + 16 ]


6

= 1
si x ∈]17 + 16 , 17 + 56 ]


3



18 + 1
6 − x si x ∈]17 + 56 , 18]
Por lo tanto, si Juan fija su hora de llegada al instante x, con x entre las 17:00 hrs. y
las 17 hrs. con 10 minutos, entonces la probabilidad que Juan y Pedro se encuentren es
x − 17 + 16 . En cambio, si Juan fija su hora de llegada al instante x, con x entre las 17 hrs.
con 50 minutos y las 18:00 hrs., entonces la probabilidad que Juan y Pedro se encuentren
- 455 -
es 18 + 16 − x . Finalmente, si Juan fija su hora de llegada entre las 17:10 y las 17:50,
entonces la probabilidad que Juan y Pedro se encuentren es 13 .
Problema 2.4.C:
FZ (z) = P (Z ≤ z)
( )
= P X Y <z
{ }
= P ((X, Y ) ∈ Az ) con Az = (x, y) ∈ R2 : x
y ≤z
∫∫
= f(X,Y ) (x, y)dxdy
Az
∫∫
= 1 dxdy
Az ∩[0,1]2
{
0 si z ≤ 0
=
área(Az ∩ [0, 1]2 ) si z > 0
Si 0 < z < 1, entonces la región sombreada siguiente representa al conjunto Az ∩ [0, 1]2 .
y
1
z y=(1/z)x
1
z 1 x
Figura 2.4.B
En cambio, si z ≥ 1 la región que representa al conjunto Az ∩ [0, 1]2 es
y=(1/z)x
1
z
1 z x
Figura 2.4.C
- 456 -
En consecuencia,
 z
 2 si 0 < z < 1
área (Az ∩ [0, 1]2 ) =

1− 1
2z si z ≥ 1
por lo que, 

 0 si z ≤ 0



z
FZ (z) = si 0 < z < 1


2



1− 1
2z si z ≥ 1
O sea, FZ es continua y derivable, salvo posiblemente en z = 0, z = 1, entonces
 1

 2z 2
si z > 1



fZ (z) = 1
si 0 < z ≤ 1


2



0 e.o.c.
Problema 2.4.D:
a)
P (Y ≥ αX) =P ((X, Y ) ∈ A) donde A = {(x, y) ∈ R2 : y ≥ αx}

∫∫
= f(X,Y ) (x, y)dxdy
∫A∫
= λ2 e−λ (x+y) dxdy.
A∩R2+
La región sombreada de la figura siguiente representa al conjunto A ∩ R2+ .
y
y= αx
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000
11111111111111111111
00000000000000000000 x
Figura 2.4.D
- 457 -
Ası́,
∫ ∞ (∫ ∞ )
2 −λ (x+y)
P (Y ≥ αX) = λ e dy dx
∫
0
∞
αx
= λ e−λx (e−λ α x − 0)dx

0
∫ ∞
=λ e−(λ+λ α) x dx
0
λ
=
λ + λα
1
= .
1+α
{ }
b) Para cada t real, consideremos el conjunto B = (x, y) ∈ R2 : x
x+y ≤ t . Ası́, si
t ≤ 0 , entonces B ∩ R2+ = ∅ o B ∩ R2+ = {1} × R+ . Por lo tanto, en este caso
( ) ∫∫
P X+YX
≤t = λ2 e−λ(x+y) dxdy = 0.
B∩R2+
En cambio, si t ∈]0, 1[ , se tiene que

( )
P X+Y X
≤t = P (X ≤ tX + tY )
( ( ) )
= P Y ≥ 1−tt X
= P (Y ≥ αX) , con α= 1−t
t
1
=
1 + 1−t
t
= t.
Ahora, si t ≥ 1, resulta que B ∩ R2+ = R2+ , de donde

( )
P X+YX
≤ t = 1.
c) Nótese que la parte b) implica que


 0 si z ≤ 0
FZ (z) = z si 0 < z < 1

1 si z ≥ 1
Luego, FZ es función continua y derivable, salvo posiblemente en z = 0 , z = 1, por

lo tanto una densidad para la variable aleatoria Z está dada por
{
1 si 0 < z < 1
fZ (z) =
0 e.o.c.
es decir, Z ∼ U (0, 1).
- 458 -
Problema 2.4.E: Sean Z = X + Y , W = X

Y y (z, w) ∈ R2 . Entonces,
F(Z,W ) (z.w) = P (Z ≤ z , W ≤ w)
( )
= P X +Y ≤z , X
Y ≤w
{ }
= P ((X, Y ) ∈ A(z,w) ) con A(z,w) = (x, y) ∈ R2 : x + y ≤ z, x
y ≤w
∫∫
= f(X,Y ) (x, y) dxdy
A(z,w)
∫∫
= e−x e−y dxdy pues f(X,Y ) (x, y) = fX (x) fY (y).
A(z,w) ∩R2+
Si (z, w) ∈ R2+ entonces la región sombreada siguiente representa al conjunto A(z,w) ∩ R2+ ,
11111111111
00000000000
z
11111111111
00000000000
11111111111
00000000000 y = (1/w) x
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
___ zw z x
1+w
x+y = z
Figura 2.4.E
en cambio, si (z, w) ̸∈ R2+ , resulta que A(z,w) ∩ R2+ = ∅ . En consecuencia,
 ∫ (∫ )

zw
z−x
 1+w
−(x+y)
e dy dx si z > 0, w > 0
F(Z,W ) (z, w) = 1


0 w
x
0 e.o.c.
 ( )
 w
(1 − e−z − ze−z ) si z > 0, w>0
= 1+w

0 e.o.c.
Ahora, si definimos
{ 
1 − e−z − ze−z si z > 0  w si w > 0
F1 (z) = y F2 (w) = 1 + w
0 e.o.c. 0 e.o.c.
- 459 -
entonces,
lim F1 (z) = 1, lim F2 (w) = 1
z→∞ w→∞
y además,
F(Z,W ) (z, w) = F1 (z) F2 (w), para todo (z, w) ∈ R2 .
En consecuencia, Z y W son variables aleatorias independientes y
FZ (z) = F1 (z), FW (w) = F2 (w).
Problema 2.4.F:
a) Como RecY = R+ , entonces para y ≤ 0, FY (y) = P (Y ≤ y) = 0. En cambio, si

y > 0,
( ) ( )
FY (y) = P min Xi ≤ y =1 − P min Xi > y
i≤i≤n i≤i≤n
=1 − P (X1 > y, . . . , Xn > y)

( n )
∏
=1 − P (Xi > y)
i=1
∏
n
=1 − e−αi y
i=1
{ ( ) }
∑
n
=1 − exp − αi y ,
i=1
o sea 
 1 − exp{−(α1 + · · · + αn )y} si y > 0
FY (y) =

0 e.o.c.
Por lo tanto, FY es continua y derivable, salvo posiblemente en y = 0, por lo que
una densidad para la variable aleatoria Y es
 (n ) { (n ) }
 ∑ ∑

 αi exp − αi y si y > 0
i=1 i=1
fY (y) =



0 e.o.c,
( )
∑
n
es decir, Y ∼ exp αi .
i=1
b) Nótese que el suceso (Xk = Y ) es igual al suceso (Xk ≤ Yk ). Además,

∫∫
P (Xk ≤ Yk ) = f(Xk ,Yk ) (u, v)dudv, donde A = {(u, v) ∈ R2 : u < v}.
A
- 460 -
Por otra parte, como Xk es independiente de Yk (Yk es función de las variables

aleatorias X1 , . . . , Xk−1 , Xk+1 , . . . , Xn , entonces

 αk e−αk u λk e−λk v si u > 0, v > 0
f(Xk ,Yk ) (u, v) = fXk (u)fYk (v) =

0 e.o.c.
En consecuencia,
∫ ∞ (∫ ∞ )
−αk u −λk v
P (Xk < Yk ) = αk e λk e dv du
0 u
∫ ∞
= αk e−αk u e−λk u du
0
∫ ∞
= αk e−(αk +λk )u du
0
αk
=
αk + λ k
αk
= .
∑
n
αi
i=1
Problema 2.4.G: Llamaremos Xi a la variable aleatoria que mide el tiempo que demora
en fallar la i-ésima componente, i = 1, 2, 3. Además, de los datos del problema, se tiene
que Xi ∼ exp(αi ), i = 1, 2, 3 y X1 , X2 , X3 son independientes. Ası́, la variable aleatoria
T puede ser expresada en función de X1 , X2 y X3 como
T = max{min{X1 , X3 }, min{X2 , X3 }}.
También, como Rec Xi = R+ , i = 1, 2, 3, entonces Rec T = R+ , de donde FT (t) = 0, si

t ≤ 0. Ahora, para t > 0,
FT (t) = P (T ≤ t)
= P (max{min{X1 , X3 }, min{X2 , X3 }} ≤ t)
= 1 − P (max{min{X1 , X3 }, min{X2 , X3 }} > t)
= 1 − P (min{X1 , X3 } > t ∨ min{X2 , X3 } > t)
= 1 − [P (min{X1 , X3 } > t) + P (min{X2 , X3 } > t)
−P (min{X1 , X3 } > t, min{X2 , X3 } > t)]
= 1 − [P (X1 > t, X3 > t) + P (X2 > t, X3 > t)
−P (X1 > t, X3 > t, X2 > t, X3 > t)]
= 1 − P (X1 > t)P (X3 > t) − P (X2 > t)P (X3 > t)
+P (X1 > t)P (X2 > t)P (X3 > t)
= 1 − e−α1 t e−α3 t − e−α2 t e−α3 t + e−α1 t e−α2 t e−α3 t ,
- 461 -
o sea, 
 1 − e−(α1 +α3 )t − e−(α2 +α3 )t + e−(α1 +α2 +α3 )t si t > 0
FT (t) =

0 e.o.c.
Por lo tanto, FT es continua y derivable, salvo posiblemente en t = 0, ası́ una densidad

para T está dada por
fT (t) = (α1 + α3 )e−(α1 +α3 )t + (α2 + α3 )e−(α2 +α3 )t − (α1 + α2 + α3 )e−(α1 +α2 +α3 )t · I(t>0) .
Finalmente,
∫ ∞
P (T ≥ 20) = fT (t)dt
20
= 1 − FT (20)
= e−(α1 +α3 )20 + e−(α2 +α3 )20 − e−(α1 +α2 +α3 )20 .
Problema 2.4.H: Sea (u, v) ∈ R2 , entonces
FV (v) = P (V ≤ v) = P (U ≤ u, V ≤ v) + P (U > u, V ≤ v),
o sea
F(U,V ) (u, v) = FV (v) − P (U > u, V ≤ v).
Pero, {
0 si u ≥ v
P (U > u, V ≤ v) =
(F (v) − F (u))n si u < v
ya que
P (min{X1 , . . . , Xn } > u, max{X1 , . . . , Xn } ≤ v) = P (u < X1 ≤ v, . . . , u < Xn ≤ v)

∏n
= P (u < Xi ≤ v)
i=1
∏n
= (F (v) − F (u))
i=1
= (F (v) − F (u))n .
Por lo tanto, {
FV (v) si u ≥ v
F(U,V ) (u, v) =
FV (v) − (F (v) − F (u))n si u < v
de donde
{
∂2 ∂ 2
f(U,V ) (u, v) = ∂u∂v F(U,V ) (u, v) si ∂u∂v F(U,V ) (u, v) existe

0 e.o.c.
{
n(n − 1)(F (v) − F (u))n−2 f (u)f (v) si u < v
=
0 si u ≥ v
- 462 -
En el caso en que n = 2 y X1 , X2 son variables aleatorias iid exp(λ),

{
2λ2 e−λ(u+v) si 0 < u < v
f(U,V ) (u, v) =
0 e.o.c.
Problema 2.4.I: Sean
T =X +Y +Z (duración del vuelo).
d = 14.5−((21+6)−24) = 11.5 horas = 690 minutos (duración del vuelo anunciado).
p = probabilidad buscada.
Entonces,
p = P (|T − d| ≤ 15)
= P (−15 + 690 ≤ T ≤ 15 + 690)
( )
= P −15+690−705
√
2.325
≤ T −705
√
2.325
≤ 15+690−705
√
2.325
( )
T −705
= P −0.62 ≤ √ 2.325
≤0
= Φ(0) − Φ(−0.62)
= 0.5 − 0.2676
= 0.2324,
con Φ función de distribución acumulada de una normal (0, 1)).
Problema 2.4.J:
a)
M = max{X1 , X2 } − min{X1 , X2 } = |X1 − X2 |,
luego, para todo y ∈ R,
FM (y) = P (M ≤ y)
= P (|X1 − X2 | ≤ y)
= P ((X1 , X2 ) ∈ Ay ) con Ay = {(u, v) ∈ R2 : |u − v| ≤ y}
∫∫
= f(X1 ,X2 ) (u, v)dudv
Ay
∫∫
1
= dudv donde G = Rec(X1 , X2 ) = [0, a]2
área G
Ay ∩G
área(Ay ∩ G)
= .
área G
- 463 -
En el caso en que y < 0, Ay = ∅, por lo que Ay ∩G = ∅. Ahora, si y > a, Ay ∩G = G,

como se aprecia en la figura siguiente
v
v = u+y
a
1111111111
0000000000
1111111111
0000000000
1111111111
0000000000
1111111111
0000000000
v = u-y
1111111111
0000000000
1111111111
0000000000
1111111111
0000000000
1111111111
0000000000a y u
Figura 2.4.F. Región sombreada representa a Ay ∩ G.
Por lo tanto, {
0 si y < 0
FM (y) =
1 si y > a
Finalmente, si 0 ≤ y ≤ a, entonces el área sombreada que muestra la figura siguiente
representa a Ay ∩ G.
v
v = u+y
111111111111111111
000000000000000000
a v = u-y
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
y
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
111111111111111111
000000000000000000
y a u
Figura 2.4.G.
Ası́, en este caso,

a2 − 12 [(a − y)2 + (a − y)2 ] a2 − (a − y)2 2ay − y 2
FM (y) = = = .
a2 a2 a2
En consecuencia, 


2
ay − 1 2
a2
y si 0 < y ≤ a



FM (y) = 1 si y>a





0 si y≤0
- 464 -
b) Como la función FM es continua en R y derivable, salvo posiblemente en y = 0,

y = a, entonces una densidad para M es

 2
a − 2
a2
y si 0 < y < a
fM (y) =

0 e.o.c.
c) Formar un triángulo como el de la figura siguiente
M1 a - M
2
M = M - M
2 1
Figura 2.4.H.
es equivalente a pedir que se satisfagan las desigualdades triangulares:
M1 ≤ M + a − M2 , M ≤ M1 + a − M2 , a − M2 ≤ M1 + M.
Entonces, lo que debemos calcular es P (M1 ≤ a

2 , M2 − M 1 ≤ a
2 , M2 ≥ a2 ).
Pero, M1 = min{X1 , X2 }, M2 = max{X1 , X2 } y M2 − M1 = |X1 − X2 |, por lo que
el suceso (M1 ≤ a2 , M2 − M1 ≤ a2 , M2 ≥ a2 ), es igual al suceso ((X1 , X2 ) ∈ B), con
{ a a a}
B = (u, v) ∈ R2 : min{u, v} ≤ , |u − v| ≤ , max{u, v} ≥ .
2 2 2
Por lo tanto,
( )
P M1 ≤ a
2 , M2 − M 1 ≤ a
2 , M2 ≥ a
2 = P ((X1 , X2 ) ∈ B)
área(B ∩ G)
=
área(G)
2 · 21 · a2 · a2
=
a2
1
= .
4
Observando la figura siguiente, concluimos que el área sombreada, que representa a B ∩ G,

es igual a 2 · 12 · a2 · a2 .
- 465 -
a
2
a
2 a u
Figura 2.4.I.
En conclusión,
( ) 2· 1
· a2 · a
1
P M1 ≤ a
2 , M2 − M 1 ≤ a
2 , M2 > a
2 = 2 2
= .
a2 4
SECCIÓN 2.5
Problema 2.5.A:
a) Como f(X,Y ) es un densidad conjunta, entonces se debe cumplir que

∫∫
f(X,Y ) (x, y)dxdy = 1,
R2
o sea ∫∫
cxy dxdy = 1,
A
de donde se obtiene que c = 12.

√
b) Sean G0 = A, G = {(x, y) ∈ R2+ : 0 < y ≤ x , 0 < x ≤ 1} y
g : G0 → G
y
(x, y) (x2 , x)
√ √
La función g es biyección, g −1 (x, y) = ( x, y x) y el jacobiano de g −1 en cualquier
punto de G es
1 1
= .
2x 0 2
−y 1
2
x x
- 466 -
Como (U, V ) = g(X, Y ), entonces Teorema de transformación de variables aleatorias

implica que
{ √ √ √
f(X,Y ) ( u, uv) 12 si 0≤v≤ u, 0<u≤1
f(U,V ) (u, v) =
0 e.o.c.
{ √
12u v 1
2 si 0 < v ≤ u, 0<u≤1
=
0 e.o.c.
{ √
6u v si 0 < v ≤ u, 0<u≤1
=
0 e.o.c.
Problema 2.5.B: Sea Y la variable aleatoria “tiempo observado”, o sea, Y = T + X.

Se pide encontrar fY . Para ello encontraremos la distribución conjunta del vector
aleatorio (U, V ) = (T + X, X) y luego la marginal de la primera componente.
Las condiciones del problema implican que T y X son independientes y

{
0.4 e−0.4t si t > 0
fT (t) =
0 e.o.c.
{ 1
0.02 si − 0.01 < u < 0.01
fX (u) =
0 e.o.c.
Sean G0 = R+ ×] − 0.01, 0.01[, G = {(x, y) ∈ R2 : y < x}×] − 0.01, 0.01[ y
g : G0 → G
(x, y) → (x + y, y)
La función g es biyectiva, g −1 (x, y) = (x − y, y), y para todo (x, y) ∈ G,

|J(g −1 )(x, y)| = 1. Teorema de transformación de variables aleatorias implica que
f(U,V ) (u, v) = fg(T,X) (u, v)

{
f(T,X) (g −1 (u, v))|J(g −1 )(u, v)| si (u, v) ∈ G
=
0 e.o.c.
{
f(T,X) (u − v, v) si v < u, −0.01 < v < 0.01
=
0 e.o.c.
Ahora, de la independencia entre X y T se concluye que

{
0.4 e−0.4(u−v) 1
0.02 si v < u , −0.01 < v < 0.01
f(T +X,X) (u, v) =
0 e.o.c.
- 467 -
Por lo tanto,
∫ ∞
fT +X (u) = f(T +X,X) (u, v)dv
−∞
 ∫ u

 0.4 e−0.4(u−v) 50dv si − 0.01 < u < 0.01



 −0.01


 ∫
0.01
=

 0.4 e−0.4(u−v) 50dv si u ≥ 0.01

 −0.01





0 e.o.c.


 50 e−0.4u (e0.4u − e−0.004 ) si − 0.01 < u < 0.01



= 50 e−0.4u (e0.004 − e−0.004 ) si u ≥ 0.01





0 e.o.c.
Problema 2.5.C: Sean Z1 = Y1 , Zi = Yi −Yi−1 , 2 ≤ i ≤ n. Ası́, las variables aleatorias

Zi representan los tiempos que transcurren entre cada falla.
a) Se pide encontrar la densidad conjunta de (Z1 , . . . , Zn ).

Sean G0 = {(x1 , . . . , xn ) : 0 < x1 < x2 < · · · < xn }, G = Rn+ y
g: G0 → G
(x1 , . . . , xn ) → (x1 , x2 − x1 , . . . , xn − xn−1 )
La función g es biyección, g −1 (z1 , . . . , zn ) = (z1 , z1 + z2 , . . . , z1 + z2 + · · · + zn ) y el
jacobiano de g −1 en cualquier punto de G es

1 0 ··· ··· ··· ··· 0

1 1 0 ··· ··· ··· 0

1 1 1 0 · · · · · · 0

1 1 1 1 0 0 0 = 1.

. . .. .. .. .. ..
.. .. . . . . .

1 1 1 ··· ··· 1 1
Como (Z1 , . . . , Zn ) = g(Y1 , . . . , Yn ), entonces Teorema de transformación de varia-

bles aleatorias implica que
{
f(Y1 ,...,Yn ) (z1 , z1 + z2 , . . . , z1 + · · · + zn ) · 1 si zi > 0
f(Z1 ,...,Zn ) (z1 , . . . , zn ) =
0 e.o.c.
{
n! λn e−λnz1 e−λ(n−1)z2 · · · e−λzn si zi > 0
=
0 e.o.c.
= f1 (z1 ) · · · fn (zn ),
- 468 -
donde {
(n − i + 1)λ e−λ(n−i+1)t si t > 0
fi (t) =
0 e.o.c.
En consecuencia, Z1 , . . . , Zn son independientes y Zi ∼ exp((n − i + 1)λ), 1 ≤ i ≤ n.
d) Si definimos R = Yn − Y1 , entonces debemos encontrar una densidad para R.

Primeramente, notemos que del Problema 2.4.H, se deduce que una densidad con-
junta para el vector (Y1 , Yn ) está dada por
{
n(n − 1)(e−λu − e−λv )n−2 λ2 e−λu e−λv |1| si 0 0} y
h: G0 → G
(u, v) (v − u, v)
La función h es biyección, h−1 (u, v) = (−u + v, v) y el jacobiano de h−1 en cualquier

punto de G es −1.
Además, (R, Yn ) = h(Y1 , Yn ), entonces Teorema de transformación de variables
aleatorias implica que
{ }
n(n − 1)(e−λ(b−a) − e−λb )n−2 λ2 e−λ(b−a) e−λb si 0 < a 0
fYn −Yn (a) =
 0 a
e.o.c.
 ∫ ∞
 2
λ n(n − 1)eλa (eλa − 1)n−2 e−λnb db si a > 0
=
 0 a
e.o.c.
{
λ(n − 1) eλa (eλa − 1)n−2 e−λna si a > 0
=
0 e.o.c.
Problema 2.5.D: Denotemos U = min{Z, W } y V = max{Z, W }. Luego, Problema

2.4.H implica que
{
2λ2 e−λ(u+v) si 0 < u < v
f(U,V ) (u, v) =
0 e.o.c.
Sean G0 = {(u, v) ∈ R2 : 0 < u < v}, G = R2+ y
g: G0 → G
(u, v) (u, v − u)
- 469 -
La función g es biyección, g −1 (a, b) = (a, a + b) y el jacobiano de g −1 en cualquier punto

de G es 1.
Como (U, V − U ) = g(U, V ), entonces Teorema de transformación de variables aleatorias
implica que
{
f(U,V ) (a, a + b) |1| si (a, b) ∈ R2+
f(U,V −U ) (a, b) =
0 e.o.c.
{
2λ2 e−λ(2a+b) si (a, b) ∈ R2+
=
0 e.o.c.
Por lo tanto,
∫ ∞
fV −U (b) = f(U,V −U ) (a, b)da
−∞
{
λe−λb si b > 0
=
0 e.o.c.
Nótese que además, U y V − U son independientes.
Problema 2.5.E:
a) Sea W = max{X1 , X2 } − min{X1 , X2 }.

Por problema anterior, W ∼ exp(α) y por hipótesis del problema, X3 ∼ exp(α) y
además W , X3 son independientes.
Luego,
∫∫
P (W < X3 ) = fW (x)fX3 (y)dxdy con B = {(x, y) ∈ R2 : x < y}
∫B∫
= α2 e−αx e−αy dxdy
B∩R2+
∫ ∞ ∫ ∞
= (αe−αx αe−αy dy)dx
∫0 ∞ x
−αx −αx
= αe e dx
0
∫ ∞
1
= 2αe−2αx dx
2 0
1
= .
2
b) De Problema 2.4.F, min{X1 , X2 } ∼ exp(2α) y por hipótesis min{X1 , X2 } y X3

son variables aleatorias independientes. Ası́, Ejemplo 2.5.2 implica que la variable
- 470 -
aleatoria T = min{X1 , X2 } + X3 tiene densidad

{ 2α2 −αt
α (e − e−2αt ) si t > 0
fT (t) =
0 e.o.c.
{
2α(e−αt − e−2αt ) si t > 0
=
0 e.o.c.
c) La probabilidad calculada en a) representa la probabilidad que la persona C quede

sola en la caseta. Además, la variable aleatoria T representa el tiempo total que la
persona C permanece en la caseta.
Problema 2.5.F:
a) Por las condiciones del problema,

{ 1
x2 y 2
si x ≥ 1, y ≥ 1
f(X,Y ) (x, y) =
0 e.o.c.
Si G0 = {(x, y) ∈ R2 : x ≥ 1, y ≥ 1}, G = {(u, v) ∈ R2 : u > v > 0, uv > 1}

y T : G0 → G, es definida por T (x, y) = (xy, xy ), entonces T es una biyección,
√ √u −1 en (u, v) ∈ G es −1 .
T −1 (u, v) = ( uv, v ) y el jacobiano de T 2v
Como (U, V ) = T (X, Y ) entonces, Teorema de transformación de variables aleatorias
implica que:
{ (√ √u) 1
f(X,Y ) u v, v 2v si u > v > 0, uv > 1
f(U,V ) (u, v) =
0 e.o.c.
{ 1
2u2 v
si u > v > 0, uv > 1
=
0 e.o.c.
b) La región sombreada del gráfico siguiente representa al conjunto G.
u=v
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11
00 11111111111111
00000000000000
11111111111111
00000000000000
1
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000
11111111111111
00000000000000 uv = 1
11
0 u
Figura 2.5.A
- 471 -
Luego,  ∫ u
 1

 1 2u2 v dv si u > 1
fU (u) = u



0 e.o.c.
 1

 2 ln(u) si u > 1
= u


0 e.o.c.
y  ∫ ∞
 1

 du si 0 < v ≤ 1

 2u2 v

1


v
 ∫
∞
fV (v) = 1

 du si v > 1

 2u 2v


v



0 e.o.c.



1
si 0 < v ≤ 1



 2


= 1

 si u > 1

 2v 2



 0 e.o.c.
En consecuencia, f(U,V ) (u, v) ̸= fU (u)fV (v), por lo que U y V no son independientes.
Problema 2.5.G:
a)
 ∫ y
∫ 

∞  120 x(y − x)(1 − y)dx si 0 < y < 1
fY (y) = f(X,Y ) (x, y)dx = 0
−∞ 


0 e.o.c.

 20 y 3 (1 − y) si 0<y<1
=

0 e.o.c.
o sea, Y ∼ Beta(4, 2).
b) Si Az = {(x, y) ∈ R2 : x ≤ zy}, entonces

∫∫ ∫∫
P (X ≤ zY ) = f(X,Y ) (x, y) dx dy = 120 x(y − x)(1 − y) dx dy.
Az Az ∩Rec(X,Y )
- 472 -
Pero, Rec(X, Y ) = {(x, y) ∈ R2 : 0 < x < y < 1} y 0 < z < 1, por lo que la región
sombreada de la figura siguiente representa al conjunto Az ∩ Rec(X, Y ).
y = (1/z)x y=x
11111111111
00000000000
11111111111
00000000000
1
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
11111111111
00000000000
1111111111111111111111111
0000000000000000000000000
11111111111
00000000000 z 1 x
Figura 2.5.B.
En consecuencia,
∫ 1( ∫ zy )
P (X ≤ zY ) = 120 (1 − y) x(y − x)dx dy
0 0
∫ 1 [( 2 ) ( )]
z z3 z2 4 z3 4
= 120 y − y3
3
− y − y dy
0 2 3 2 3
= 3z 2 − 2z 3 .
c) Sea z real, entonces observando el gráfico de la figura anterior vemos que

( )
F X (z) = P X
Y Y ≤z
∫∫
= f(X,Y ) (x, y)dx dy
Az ∩Rec(X,Y )
 ∫∫

 f(X,Y ) (x, y)dx dy si z > 1





Rec(X,Y )


 ∫∫
=

 f(X,Y ) (x, y)dx dy si z < 0



 ∅





3z 2 − 2z 3 si 0 ≤ z ≤ 1
luego, 
 1 si z > 1
F X (y) = 0 si z < 0
Y  2
3z − 2z 3 si 0 ≤ z ≤ 1
- 473 -
Además, F X es continua y derivable salvo posiblemente en los puntos z = 0 y z = 1,

Y
X
entonces una densidad para la variable aleatoria Y es
{
6z(1 − z) si 0 < z < 1
f X (z) =
Y 0 e.o.c.
o sea, X
Y ∼ Beta(2, 2).
d) Si G0 = {(x, y) ∈ R2 : 0 < x < y < 1}, G = {(a, b) ∈ R2 : 0 < ab < b < 1} =

]0, 1[×]0, 1[ , entonces la función g : G0 → G definida por g(x, y) = ( xy , y) es una
biyección, g −1 (a, b) = (ab, b) y el jacobiano de g −1 en (a, b) ∈ G es b.
Como ( X Y , Y ) = g(X, Y ), entonces Teorema de transformación de variables aleato-
rias implica que
{
bf(X,Y ) (a b, b) si 0 < a b < b < 1
f( X ,Y ) (a, b) =
Y 0 e.o.c.
{
120 b a b (b − a b)(1 − b) si 0 < a b < b < 1
=
0 e.o.c.
{
6 a (1 − a) 20 b3 (1 − b) si 0 < a < 1, 0 < b < 1
=
0 e.o.c
= f X (a) fY (b).
Y
X
Por lo tanto, Y e Y son independientes.
Problema 2.5.H: Como (X, Y ) es normal bivariado, entonces existen Z1 , Z2 variables

aleatorias iid N (0, 1) tales que
(X, Y ) = (Z1 , Z2 )A + (µ1 , µ2 ), con A ∈ M2 (R).
Pero, µ1 = µ2 = 0 y
 
( ) 1 ρ
1 ρ
At A = , de donde A= √

ρ 1
0 1 − ρ2
( ( ))
para encontrar la matriz A puede diagonalizar la matriz ρ1 ρ1 .
Luego, √
X = Z1 y Y = ρZ1 + 1 − ρ2 Z2 ,
o sea
√
P (X ≥ 0, Y ≥ 0) =P (Z1 ≥ 0, ρZ1 + 1 − ρ2 Z2 ≥ 0)
- 474 -
( )
=P Z1 ≥ 0, Z2 ≥ − √ ρ
Z1
1−ρ2
∫∫
1 − 1 (x2 +y2 )
= e 2 dxdy,
2π
B
con { }
B= (x, y) ∈ R : x ≥ 0,
2
y≥ −√ ρ 2 x .
1−ρ
El conjunto B se expresa en coordenadas polares en la siguiente forma:

{ }
B = (r cos(θ), r sen(θ)); r > 0, −Arcsen(ρ) < θ < π2 .
La región sombreada de la figura siguiente representa al conjunto B en coordenadas carte-

sianas.
y
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
- ρ
y = ________ x
0000000000000
1111111111111
0000000000000
1- ρ 2
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
11111111111111111111111111
00000000000000000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000 x
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
1111111111111
0000000000000
Figura 2.5.C. Región sombreada representa B, cuando 0 < ρ < 1.
También, las regiones indicadas en las Figuras 2.5.D y 2.5.E representan al conjunto B
pero, en coordenadas polares.
θ = π /2
θ = -Arcsen ( ρ )
Figura 2.5.D. Región que representa a B en coordenadas polares, cuando −1 < ρ < 0.
- 475 -
θ = π /2
θ = -Arcsen( ρ )
Figura 2.5.E. Región que representa a B en coordenadas polares, cuando 0 < ρ < 1.
Nótese que la relación r sen(θ) = − √ ρ r cos(θ), implica que

1−ρ2
ρ2
sen2 θ = cos2 (θ) (sen(θ) y cos(θ) deben tener signos opuestos)
1 − ρ2
ρ2
= (1 − sen2 (θ)),
1 − ρ2
o sea sen2 θ = ρ2 , de donde θ = −Arcsen(ρ).
Por lo tanto,
∫∫ ∫ ∞ (∫ π )
1 − 1 (x2 +y2 ) 1 2
e− 2 r rdθ dr
1 2
e 2 dxdy =
2π 2π 0 −Arcsen(ρ)
B
1 (π )∫ ∞ 1 2
= + Arcsen(ρ) e− 2 r rdr
2π 2 0
1 1
= + Arcsen(ρ),
4 2π
o sea
1 1
P (X ≥ 0, Y ≥ 0) =
+ Arcsen (ρ).
4 2π
( )
Observación: Si X, Y fuesen independientes, entonces ρ1 ρ1 serı́a matriz diagonal, es
decir, ρ = 0, de donde
1 1 1
P (X ≥ 0 , Y ≥ 0) = + Arcsen (0) = ,
4 2π 4
lo cual coincide con
1 1
P (X ≥ 0 , Y ≥ 0) = P (X ≥ 0)P (Y ≥ 0) = · = 0.25.
2 2
- 476 -
Problema 2.5.I:
( )( )
a11 a12 x − µ1
Q(x, y) = (x − µ1 y − µ2 ) .
a21 a22 y − µ2
Como Q(x, y) = ϕ((x, y), (x, y)) donde ϕ es forma bilineal simétrica, entonces (µ1 , µ2 )
minimiza a Q. Pero,
∂Q ∂Q
= 2x − y − 3 y = 4y − x − 2,
∂x ∂y
luego el sistema
∂Q
∂x = 0
∂Q
∂y = 0
tiene única solución en el punto (2, 1), que resulta ser un mı́nimo. Es decir, µ1 = 2 y
µ2 = 1.
( )−1
∑ a11 a12
Ahora encontremos la matriz = .
a21 a22
Sean u = x − 2, v = y − 1 o sea, x = u + 2, y = v + 1. Entonces,
Q(x, y) = u2 + 2v 2 − uv
( )( )
1 −1/2 u
= (u v)
−1/2 2 v
( )( )
1 −1/2 x−2
= (x − 2 y − 1) ,
−1/2 2 y−1
por tanto
∑ ( )−1 ( ) ( )
1 − 21 1 2 1
2
8
7
2
7
= = = .
− 12 2 7
4
1
2 1 2
7
4
7
En consecuencia,
[ ( )( )]
1 1 1 − 21 x−2
f(X,Y ) (x, y) = √ exp − 12 (x − 2 y − 1) .
2π 4 − 12 2 y−1
7
b)
∫ ∞
fX (x) = f(X,Y ) (x, y)dy
−∞
∫ ∞
1 1
· √ e− 2 x + 2 x−2 e−y
1 2 3 2 + x y+y
= 2 dy
2π 4 −∞
7
- 477 -
∫ ∞
1 1
· √ e− 2 x + 2 x−2 e 4 ( 2 +1) e−(y− 2 ( 2 +1)) dy
1 2 3 1 x 2 1 x 2
=
2π 7 −∞
4
∫ ∞
1 1 ( (x ))
· √ e− 16 x + 4 x− 4 e−a da
7 2 7 7 2
= a=y− 1
2 2 +1
2π 7 −∞
4
{ ( )2 }
1
√ √ 8 exp − 2 √8/7
1 x−2
= .
2π 7
( )
Por lo tanto, X ∼ N 2, 78 .
Problema 2.5.J:
a) Como (X, Y, Z) ∼ N (µ, Σ), entonces, para todo (x, y, z) ∈ R3 ,
1 1 { }
f(X,Y,Z) (x, y, z) = √ √ exp − 12 (x y z)Σ−1 (x y z)t .
( 2π)3 det Σ
Sea g : R3 → R3 definida por

 
0 1 1
g(a, b, c) = ( a b c ) 1 0 1
1 1 0
= (b + c, a + c, a + b).
(0 1 1)
Entonces, g es transformación lineal biyectiva, pues la matriz A = 101 tiene
110
determinante no nulo. Además, para todo (a, b, c) ∈ R3 ,
g −1 (a, b, c) = ( a b c )A−1
 
−0.5 0.5 0.5
= ( a b c )  0.5 −0.5 0.5 
0.5 0.5 −0.5
y el jacobiano de g −1 en (a, b, c) es 0.5 (corresponde al determinante de la matriz

A−1 ).
También, (U, V, W ) = g(X, Y, Z), por lo que Teorema de transformación de variables
aleatorias implica que, para todo (a, b, c) ∈ R3 ,
1 1 1 { }
f(U,V,W ) (a, b, c) = √ √ exp − 21 g −1 (a, b, c) Σ−1 g −1 (a, b, c)t
( 2π)3 1 2
4
1 { }
= √ exp − 21 (a, b, c) A−1 Σ−1 ((a b c) A−1 )t
( 2π)3
- 478 -
1
= √ exp{− 12 (a b c) A−1 Σ−1 (A−1 )t (a b c)t }
( 2π)3
1 { (1 0 0 ) }
= √ exp − 12 (a b c) 0 5 −3 (a b c)t
( 2π)3 0 −3 2
{ ( 1 0 0 )−1 }
1 1
= √ √ exp − 2 (a b c) 0 2 3
1 t
(a b c) .
( 2π)3 1 035
Por lo tanto, ( ( 1 0 0 ))
(U, V, W ) ∼ N (0, 0, 0), 0 2 3 .
035
b) Nótese que
1 { }
f(U,V,W ) (a, b, c) = √ exp − 12 (a2 + 5b2 − 6bc + 2c2 )
( 2π) 3
( )( )
1 { 1 2} 1 { 1 }
= √ exp − 2 a √ 2 exp − 2 (5b − 6bc + 2c )
2 2
2π 2π
( )( { }
)
1 { 1 2} 1 −1
= √ exp − 2 a √ 2 exp − 2 (b c) ( 3 5 ) (b c)
1 2 3 t
.
2π 2π
Es decir,
U ∼ N (0, 1) y (V, W ) ∼ N ((0, 0), ( 23 35 ))
y también U con (V, W ) son independientes.
Problema 2.5.K:
a) Sean G0 = Rn y G = Rn . Entonces, la función T : G0 −→ G definida por

T (x1 , x2 , . . . , xn ) = (x1 x2 . . . xn )A + (µ1 µ2 . . . µn ) es una transformación biyec-
tiva (pues A es invertible), T −1 (y1 , . . . , yn ) = ((y1 y2 . . . yn ) − (µ1 µ2 . . . µn ))A−1 y
el jacobiano de T −1 en todo punto (y1 , . . . , yn ) es det A−1 .
Además, como (Y1 , . . . , Yn ) = T (X1 , . . . , Xn ), entonces Teorema de transformación
de variables aleatorias implica que
f(Y1 ,...,Yn ) (y1 , . . . , yn ) = f(X1 ,...,Xn ) (T −1 (y1 , . . . , yn ))|detA−1 |, (y1 , . . . , yn ) ∈ Rn .
Por otra parte,
f(X1 ,...,Xn ) (x1 , . . . , xn ) = fX1 (x1 )fX2 (x2 ) · · · fXn (xn )
1 { } 1 { } 1 { }
= √ exp − 21 x21 √ exp − 21 x22 · · · √ exp − 21 x2n
2π 2π 2π
( )n { }
1 ∑n
= √ exp − 12 x2i ,
2π i=1
- 479 -
∑
n
x2i = (x1 . . . xn )(x1 . . . xn )t
i=1
= ((y1 . . . yn ) − (µ1 . . . µn ))A−1 (A−1 )t ((y1 . . . yn ) − (µ1 . . . µn ))t
= (y1 . . . yn ) − (µ1 . . . µn )(At A)−1 ((y1 . . . yn ) − (µ1 . . . µn ))t
= (y − µ)Σ−1 (y − µ)t
y
1
|det A−1 | =
|det A|
1
= √
(det A)2
1
= √
det (At A)
1
= √ .
det Σ
Por lo tanto,
( )n
1 1 { }
f(Y1 ,...,Yn ) (y1 , . . . , yn ) = √ √ exp − 12 (y − µ)Σ−1 (y − µ)t , y ∈ Rn .
2π det Σ
b) En este caso, como

 
σ12 0 0 ... 0
 0 σ22 0 ... 0 
 
 0 0 σ32 ... 0 
Σ = At A =  
 .. .. .. .. .. 
 . . . . . 
0 0 0 . . . σn2
entonces, det Σ = σ12 σ22 · · · σn2 y también

 
1
0 0 ... 0
 σ12 
 
 1 
 0 0 ... 0 
 σ22 
 
Σ−1 = (At A)−1 =
 0 0
1
... 0 

 σ32 
 . .. .. .. 
 .. .. 
 . . . . 
 1 
0 0 0 ...
σn2
- 480 -
Además,
∑
n
1
(y − µ)Σ−1 (y − µ)t = (yi − µi )2
i=1
σi2
n (
∑ )
yi − µ i 2
= ,
σi
i=1
luego
{ n (
}
1 ∑ )2
yi −µi
f(Y1 ,...,Yn ) (y1 , . . . , yn ) = √ exp − 2
1
σi
2π σ1 σ2 · · · σn i=1
{ ( )2 }
1
= √ exp − 12 y1σ−µ
1
1
2πσ1
{ ( )2 }
1
··· √ exp − 21 ynσ−µn
n
.
2πσn
Por tanto, Y1 , . . . , Yn son independientes y además, Yj ∼ N (µj , σj2 ).
Problema 2.5.L: Como Y ∼ χ2 (n), entonces


 1
y 2 −1 e− 2 y
n 1
n si y > 0
fY (y) = Γ( n2 )2 2

0 e.o.c.
y como X, Y son independientes,


 √1 e− 12 x2 1 n
n y2
−1 − 21 y
e si y > 0, x ∈ R
n
f(X,Y ) (x, y) = fX (x)fY (y) = 2π Γ( 2 ) 2 2

0 e.o.c.
Sean G0 = {(x, y) ∈ R2 √: y > 0} y G = R × R+ . Entonces la √

función T : G0 → G,
nx −1 a b
definida por T (x, y) = ( √y , y), es una biyección, T (a, b) = ( √n , b) y el jacobiano de
√
T −1 en (a, b) ∈ G es √nb .
Además, (Z, Y ) = T (X, Y ), de donde Teorema de transformación de variables implica que

 ( √ ) √b
f(X,Y ) a √nb , b √ si b > 0, a ∈ R
f(Z,Y ) (a, b) = n

0 e.o.c.

 ( 1 ) √b
 √1 e− 12 an2 b 1 n
−1
e− 2 b √ si b > 0, a ∈ R
(n) n b 2
= 2π Γ 2 2 n

 0 2
e.o.c.
- 481 -
luego,
∫ ∞
fZ (a) = f(Z,Y ) (a, b)db
−∞
∫ ∞ ( 2 ) ( )
1 1 1 − 2n
a
+ 12 b
b 2 − 2 db
n 1
= √ ·√ · n e
nπ Γ( n2 ) 2 22 0
∫ ∞ [ ( 2 ) ]
1 1 1
e−u u 2 − 2 du
n 1
= √ ( )· n 1 ·( )n+1
a
u = 2n + 21 b
nπ Γ n2 +
22 2 a2 1 2 2 0
2n + 2
n 1 ( )
1 1 2 2 +2 n 1
= √ (n) · n 1 · ( )n+1 Γ +
nπ Γ 2 2 2 +2 a2 2 2 2 2
+1 n
( n+1 )
Γ 2
= ) n+1 .
√ ( n ) ( a2 2
nπ Γ 2 n +1
O sea, Z ∼ t(n).
Problema 2.5.M:
a) Como X, Y son independientes,
{
λa a−1 −λx λb
Γ(a) x e Γ(b) y b−1 e−λy si x > 0, y > 0
f(X,Y ) (x, y) = fX (x)fY (y) =
0 e.o.c.
Consideremos G0 = R+ × R+ y G = R+ × R+ . Entonces la función T : G0 → G,

bx
definida por T (x, y) = ( ay , y), es una biyección, T −1 (u, v) = ( ab u v, v) y el jacobiano
de T −1 en (u, v) ∈ G es ab v.
Pero, (F, Y ) = T (X, Y ), entonces Teorema de transformación de variables aleatorias

implica que
{
f(X,Y ) ( ab u v, v) ab v si u > 0, v > 0
f(F,Y ) (u, v) =
0 e.o.c.
{
λa λb a a−1 e−λ ab uv v b−1 e−λv ( ab v)
Γ(a) Γ(b) ( b uv) si u > 0, v > 0
=
0 e.o.c.
- 482 -
luego,

 ∫
0 si u ≤ 0
∞
fF (u) =
 f(F,Y ) (u, v)dv si u > 0
−∞

 0 ∫ si u ≤ 0
∞
= λa λb −(λ ab u+λ)v
 a a a−1
Γ(a) Γ(b) ( b ) u e v a+b−1 dv si u > 0
0
{
0 si u ≤ 0
= λa λb a a a−1 1
Γ(a) Γ(b) ( b ) u (λ ( ab u+1))a+b
Γ(a + b) si u > 0
{
0 si u ≤ 0
= Γ(a+b) ua−1
Γ(a) Γ(b) ( ab )a ( a u+1)a+b si u > 0
b
b) Como X ∼ G( n2 , 12 ) e Y ∼ G( m 1
2 , 2 ), entonces, reemplazando el valor a por
n
2 yb
por m
2 , se tiene que
m X
2X n
F = n = Y
,
2Y m
o sea, la densidad de F en este caso es

 0 si u ≤ 0
n
fF (u) = Γ( n+m ) n n u 2 −1
 Γ( n2 ) Γ(
2
m (
) m)
2
n
n+m si u > 0
2 (m u+1) 2
X/n
Por lo tanto, la variable aleatoria Y /m tiene distribución F (Fisher-Snedecor) de
parámetros (n, m), se anota
X
n
Y
∼ F (n, m).
m
Nota: En el caso en que U ∼ N (0, 1) e Y ∼ χ2 (m), Problema 2.5.M implica que

Z = √UY tiene distribución t-student con m grados de libertad.
m
X
Ahora, si consideramos X = U 2 , entonces X ∼ χ2 (1) y luego parte b) implica que Z 2 = 1
Y
m
tiene distribución F (1, m), es decir, el cuadrado de una variable aleatoria con distribución
t-student y m grados de libertad tiene distribución F de parámetros (1, m).
Problema 2.5.N: Sean Xi = Ziσ−µ , i = 1, . . . , n. Entonces X1 , . . . , Xn son variables

aleatorias iid N (0, 1).
Sea A la matriz real de orden n × n definida por
 1 
√ a12 . . . a1n
n
 √1 a 
 n 22 . . . a2n 
A= .. .. .. .. 
,
 . . . . 
√1 an2 . . . ann
n
- 483 -
donde los valores aij se obtienen mediante el método de ortonormalización de Gran-

Schmidt. Es decir, A es una matriz ortogonal, esto es, At A = In . Consideremos el
vector aleatorio
(Y1 Y2 . . . Yn )1×n = (X1 X2 . . . Xn )1×n An×n .
Problema 2.5.K implica que las variables aleatorias Y1 , . . . , Yn son independientes y N (0, 1),
por lo que Ejemplo 2.2.9 implica que Y12 , . . . , Yn2 son iid χ2(1) .
Por otra parte,
∑
n
Xi2 = (X1 X2 . . . Xn )(X1 X2 . . . Xn )t
i=1
= (Y1 Y2 . . . Yn )A−1 ((Y1 Y2 . . . Yn )A−1 )t
= (Y1 Y2 . . . Yn )A−1 (A−1 )t (Y1 Y2 . . . Yn )t
= (Y1 Y2 . . . Yn )(At A)−1 (Y1 Y2 . . . Yn )t
= (Y1 Y2 . . . Yn )In−1 (Y1 Y2 . . . Yn )t

∑n
= Yi2
i=1
y  
√1
n
  √1
 
= (X1 X2 . . . Xn )  . 
 n
Y1 
.
 . 
√1
n
1 1 1
= √ X1 + √ X2 + · · · + √ Xn
n n n
1
= √ (X1 + · · · + Xn )
n
1
= √ n X̄,
n
de donde
Y12 = n X̄ 2 .
Ası́, ( )
∑
n ∑
n ∑
n
(Xi − X̄)2 = Xi2 − 2X̄ Xi + nX̄ 2
i=1 i=1 i=1
( )
∑
n
= Xi2 − nX̄ 2
i=1
( )
∑
n
= Yi2 − nX̄ 2
i=1
- 484 -
( )
∑
n
= Yi2 − Y12
i=1
( )
∑
n
= Yi2 ,
i=2
y por tanto
(n − 1) 1 ∑
n
(n − 1)S 2
= (Zi − Z̄)2
σ2 σ2 n − 1
i=1
 2
1 ∑
n ∑
n
= σXi + µ − 1 (σXj + µ)
σ2 n
i=1 j=1
 2
1 ∑
n ∑
n
= σXi + µ − σ 1 1
Xj − nµ
σ 2 n n
i=1 j=1
∑
n
= (Xi − X̄)2
i=1
∑
n
= Yi2 .
i=2
Finalmente, como Y2 , Y3 , . . . , Yn son iid χ2(1) , entonces (ver próxima sección),

∑
n
Yi2 ∼ χ2(n−1) .
i=2
( 2
)
Problema 2.5.O: Como Xi ∼ N (µ, σ 2 ), i = 1, . . . , r, entonces X̄ ∼ N µ, σr . Ası́,
X̄ − µ
U= σ ∼ N (0, 1).
√
r
2
Además Problema 2.5.N implica que V = (r−1)S σ2
∼ χ2(r−1) . También, de la indepen-
dencia entre la media y varianza muestral (ver problema 2.6.N), se deduce que U y V son
independientes.
Aplicando Problema 2.5.L a U y V se concluye que

U
√ ∼ t(r−1) .
V
r−1
Pero,
X̄−µ
U σ
√ X̄ − µ
√ =√
r
= S
,
V S2 √
r−1 σ2 r
- 485 -
Problema 2.5.P: De Problema 2.5.N,
(n − 1)SX
2 (m − 1)SY2
2 ∼ χ2(n−1) y ∼ χ2(m−1) .
σX σY2
Entonces, usando el Problema 2.5.M se concluye que
(n − 1)SX
2
σX2
n−1 ∼ F (n, m).

(m − 1)SY2
σY2
m−1
2
SX
2 = σ 2 , entonces
Ası́, si σX Y ∼ F (n, m).
SY2
Problema 2.5.Q: Notar que (X1 , X2 ) = (Y1 , Y2 )B + (µ1 , µ2 ), con

( )
σ1 √ ρσ2
B= .
0 1 − ρ2 σ 2
Ası́,
(Y1 , Y2 ) = (X1 , X2 )B −1 − (µ1 , µ2 )B −1 .
Pero, (X1 , X2 ) ∼ N (µ, Σ), por lo cual
( )
(Y1 , Y2 ) ∼ N µB −1 − µB −1 , (B −1 )t ΣB −1 .
Como
( )(  
1 ) 1 √ −ρ
0 σ12 ρσ1 σ2  σ1 1−ρ2 σ1 
(B −1 )t ΣB −1 =
σ1
√ −ρ √ 1
ρσ1 σ2 σ22 0 √ 1
1−ρ2 σ1 1−ρ2 σ2 1−ρ2 σ2
( )
1 0
= ,
0 1
entonces
(Y1 , Y2 ) ∼ N ((0, 0), ( 10 01 )).
Problema 2.5.R: Primeramente,
E(Z2 − Z1 ) = E(Z2 ) − E(Z1 ) = m0 − m0 = 0

y
- 486 -
V ar(Z2 − Z1 ) = V ar(Z1 ) + V ar(Z2 ) = 2σ 2 .
Por lo tanto, ( )
1 1
E (Z2 − Z1 )2 = · 2σ 2 = σ 2 .
2 2
Además, para σ = 0.01, la variable aleatoria Z2 −Z1 , tiene distribución N (0, 2(0.01)2 ),
o sea
Z2 − Z1
√ ∼ N (0, 1),
0.01 · 2
de donde
( )
1
2
P (T > (0.01) ) = P (Z2 − Z1 ) > (0.01)
2 2
2
(( )2 )
Z2 − Z1
=P √ >1
0.01 2
( )
Z2 − Z1
= P √ >1
0.01 2
= 2(1 − ϕ(1))
= 0.3174.
SECCIÓN 2.6
Problema 2.6.A:
V (X)V (Y ) = (E(X 2 ) − (E(X))2 )(E(Y 2 ) − (E(Y )2 ))

= E(X 2 )E(Y 2 ) − E(X 2 )(E(Y ))2 − (E(X))2 E(Y 2 ) + (E(X)E(Y ))2 ,
además,
(E(X))2 V (Y ) = (E(X))2 (E(Y 2 ) − (E(Y ))2 )

= (E(X))2 E(Y 2 ) − (E(X)E(Y ))2 ,
(E(Y ))2 V (X) = (E(Y ))2 (E(X 2 ) − (E(X))2 )

= (E(Y ))2 E(X 2 ) − (E(X)E(Y ))2 .
- 487 -
En consecuencia,
V (X)V (Y ) + (E(X))2 V (Y ) + (E(Y ))2 V (X) = E(X 2 )E(Y 2 ) − (E(X)E(Y ))2

= E((XY )2 ) − (E(XY ))2
= V (XY ).
Problema 2.6.B:
1∑
n
1
a) E(X̄n ) = E(Xi ) = n µ = µ,
n n
i=1
además, como X1 , . . . , Xn son independientes
1 ∑
n
1 2 σ2
V (X̄n ) = V (Xi ) = n σ = .
n2 n2 n
i=1
b) Para cada 1 ≤ i ≤ n, considérese la variable aleatoria Yi = (Xi − X̄n )2 . Como

Yi = Xi2 + X̄n2 − 2Xi X̄n , entonces
( n )
∑n ∑ ∑
n
(n − 1)Sn2 = Yi = X12 + n X̄n2 − 2X̄n Xi
i=1 i=1 i=1
( )
∑n
= Xi2 + n X̄n2 − 2n X̄n2
i=1
( )
∑
n
= Xi2 − n X̄n2 .
i=1
Pero, para todo 1 ≤ i ≤ n,
E(Xi2 ) = V (Xi ) + (E(Xi ))2 = σ 2 + µ2 ,
de donde ( )
∑
n
E Xi2 = n(σ 2 + µ2 ).
i=1
También,
σ2
E(X̄n2 ) = V (X̄n ) + (E(X̄n ))2 = + µ2 ,
n
por lo tanto,
( )
σ2
E((n − 1)Sn2 ) = n(σ + µ ) − n
2 2
+ µ2 = (n − 1)σ 2 ,
n
o sea,
E(Sn2 ) = σ 2 .
- 488 -
Problema 2.6.C:
( n )
1∑
n
1∑
a) E(Y2 ) = E n Xi = E(Xi ).
i=1 n
i=1
Además, Xi ∼ U (0, a), por lo que, para todo i ∈ {1, . . . , n}, E(Xi ) = a2 .
Por lo tanto,
1∑a
n
a
E(Y2 ) = = .
n 2 2
i=1
Para encontrar E(Y1 ), primeramente encontremos la distribución de Y1 .
Como Rec Y1 = [0, a], entonces
{
0 si y ≤ 0
FY1 (y) =
1 si y ≥ a
Ahora, si 0 < y < a,
FY1 (y) = P (max{X1 , . . . , Xn } ≤ y) = P (X1 ≤ y, . . . , Xn ≤ y).
Pero, X1 , . . . , Xn son iid, por lo que
∏
n
P (X1 ≤ y, . . . , Xn ≤ y) = P (Xi ≤ y)
i=1
= (P (X1 ≤ y))n
(∫ y )n
1
= du
a
( y 0)n
= ,
a
es decir, 
 0( ) si y ≤ 0
y n
FY1 (y) = si 0 < y < a
 a
1 si y ≥ a
Podemos observar que FY1 es continua y derivable, salvo posiblemente en y = 0;
y = a, por lo que una densidad para Y1 es
{ d
fY1 (y) = dy FY1 (y) si la derivada existe
0 e.o.c.
{ n n−1
= an y si 0 < y < a
0 e.o.c.
En consecuencia,
∫ ∞
E(Y1 ) = yfY1 (y)dy
−∞
∫ a
n n−1
= y y dy
0 an
n
= a.
n+1
- 489 -
b) E(λ1 Y1 ) = E(λ2 Y2 ) = a si λ1 = n+1

n , λ2 = 2.
( n )
2∑
c) Var(λ2 Y2 ) = Var n Xi
i=1
4 ∑
n
= Var(Xi ), ya que X1 , . . . , Xn son independientes.
n2
i=1
a2
Pero para todo i ∈ {1, . . . , n}Xi ∼ U (0, a), luego Var(Xi ) = 12 .
O sea,
4 a2
Var(λ2 Y2 ) = 2
·n·
n 12
1 2
= a .
3n
También,
∫ ∞
E(Y12 ) = y 2 fY1 (y)dy
−∞
∫ a
n n−1
= y2 y dy
0 an
n
= a2 ,
n+2
de donde,
( n+1 )
Var(λ1 Y1 ) = Var n Y1
(n + 1)2
= Var(Y1 )
n2
(n + 1)2
= (E(Y12 ) − (E(Y1 ))2 )
n2 ( ( )2 )
(n + 1)2 n n
= a −
2
a
n2 n+2 n+1
( )
(n + 1)2 n n2
= − a2
n2 n + 2 (n + 1)2
1
= a2 .
n(n + 2)
Finalmente, debido a que n2 − n = n (n − 1) > 0, resulta n (n + 2) > 3n, por lo que

1 1 2
a2 < a ,
n(n + 2) 3n
es decir,
Var(λ1 Y1 ) < Var(λ2 Y2 ).
- 490 -
Problema 2.6.D: El tamaño promedio de los cobros observados (se obtiene realizando el
producto entre el punto medio del intervalo con su respectiva frecuencia relativa, y luego
sumando sobre todos los intervalos o unidades) es
tamaño medio de los cobros observados = 200 · 2

100 + 600 · 24
100 + 1000 · 32
100 + 1400 · 21
100
+1800 · 10
100 · +2200 · 6
200 + 2600 · 3
100
+3000 · 1
100 + 3400 · 1
100
= 1216,
y la varianza de la distribución del tamaño de los cobros observados es
varianza de los cobros observados = 2002 · 2

100 + 6002 · 24
100 + 10002 · 32
100 + 14002 · 21
100
+18002 · 10
100 + 22002 · 6
200 + 26002 · 3
100 + 30002 · 1
100
+34002 · 1
100 − (1216)2
= 362944.
Por otra parte, si X es variable aleatoria con distribución log-normal de parámetros (µ, σ 2 ),
entonces ln X ∼ N (µ, σ 2 ) y después de calcular algunas integrales, se obtiene que
( 2
)
E(X) = exp µ + σ2 , Var(X) = exp(2µ + σ 2 ) [exp(σ 2 ) − 1].
Si X representa el tamaño de un cobro particular, entonces por las hipótesis del problema,
X ∼ LN (µ, σ 2 ). ¿Cómo estimar µ y σ 2 ?
Una forma de estimar µ y σ, es resolver el sistema
( 2
)
1216 = exp µ + σ2 ,
362944 = exp(2µ + σ 2 )[exp(σ 2 ) − 1].
Esta forma de estimar es conocida como estimación por momentos.

Elevando al cuadrado la primera de estas ecuaciones y dividiendo la segunda por este
cuadrado obtenemos
exp(σ 2 ) − 1 = 0.2455,
de donde
σ = 0.469,
y luego
µ = 6.993.
- 491 -
Ası́, la probabilidad de que un cobro en particular sea mayor que 1600 es igual a
P (X > 1600) = P (ln X > ln 1600)

= P (ln X > 7.3778)
( )
= P ln X−6.993
0.469 > 7.3778−6.993
0.469
= 1 − Φ(0.82)
= 0.2061.
Entonces, según el modelo propuesto, el número de cobros (de los 100 observados) con
tamaño mayor que 1600 es 100 · 0.2061 = 20, 61. Mientras, según lo observado, el número
de cobros con tamaño mayor que 1600 son 10 + 6 + 3 + 1 + 1 = 21.
Problema 2.6.E:
( )
1 ∑
100
E(T ) =E (Xi + Yi )
100
i=1
1 ∑
100
= E(Xi + Yi )
100
i=1
1 ∑
100
= E(Xi ) + E(Yi )
100
i=1
1
= 100 (0.5 + 0.4)
100
=0.9,
y por la independencia de X1 + Y1 , . . . , Xn + Yn (lo cual resulta de la independencia de

(X1 , Y1 ), . . . , (Xn , Yn )),
( )
∑
100
1
Var(T ) = Var 100 (Xi + Yi )
i=1
1 ∑
100
= Var(Xi + Yi )
1002
i=1
1
= 100 Var(Xi + Yi )
1002
1
= Var(Xi + Yi ).
100
Pero,
Var(Xi + Yi ) = Var(Xi ) + Var(Yi ) + 2 Cov(Xi , Yi )

=0.05 + 0.05 + 2 · 0.03
=0.16,
- 492 -
entonces
0.16
Var(T ) = .
100
Problema 2.6.F: Para (x, y) ∈ R2 se definen las variables aleatorias U = IX≤x y

V = IY ≤y , es decir,
{ {
1 si X ≤ x 1 si Y ≤ y
U= V =
0 si X > x 0 si Y > y
Entonces,
E(U ) = 0 P (U = 0) + 1 P (U = 1)
= P (U = 1)
= P (X ≤ x)
= FX (x).
Análogamente,
E(V ) = FY (y).
E(U 2 ) = E(U ) = FX (x)
y
E(V 2 ) = E(V ) = FY (y).
Entonces, la desigualdad de Cauchy aplicada al producto interno ⟨U, V ⟩ = E(U V ),

implica que
⟨U, V ⟩ ≤ ∥U ∥ ∥V ∥.
Pero, √ √
∥U ∥ = E(U 2 ) = FX (x)
y √ √
∥V ∥ = E(V 2 ) = FY (y),
en consecuencia
E(U V ) = ⟨U, V ⟩
= E(I(X≤x) I(Y ≤y) )
= E(I(X≤x,Y ≤y) )
= P (X ≤ x, Y ≤ y)
= F(X,Y ) (x, y),
- 493 -
Problema 2.6.G:
a) Como Yi = IAi , con Ai = (Xi = i), entonces

1
E(Yi ) = P (Xi = i) =
n
y
E(Y1 Y2 ) = E(IA1 IA2 )

= E(IA1 ∩A2 )
= P (A1 ∩ A2 )
1
= .
n(n − 1)
b)
1
E(T ) = n · =1
n
y
∑
n ∑
n
V (T ) = V (Yi ) + 2 Cov(Yi , Yj ).
i=1 i<j
Además,
V (Yi ) = E(Yi2 ) − (E(Yi ))2

( )2
1
= E(Yi ) −
n
( )2
1 1
= −
n n
( )
1 1
= 1−
n n
n−1
= ,
n2
luego
∑
n
(n − 1) n−1
V (Yi ) = n · 2
= .
n n
i=1
También, si i ̸= j,
Cov(Yi , Yj ) = E(Yi Yj ) − E(Yi ) E(Yj )

1 1
= P (Ai ∩ Aj ) − ·
n n
1 1
= −
n(n − 1) n2
1
= .
n2 (n − 1)
- 494 -
En consecuencia,
n−1 n(n − 1) 1
V (T ) = +2· · 2 = 1.
n 2 n (n − 1)
Problema 2.6.H: Sumando sobre cada columna de la tabla, obtenemos que:

α β 10
pX (0) = 32 , pX (1) = 32 , pX (2) = 32 ,
10 5 1
pX (3) = 32 , pX (4) = 32 , pX (5) = 32 .
Sumando en la tabla anterior, sobre cada fila, obtenemos
α β + 10 15 1
pY (0) = , pY (1) = , pY (2) = , pY (3) = .
32 32 32 32
Luego,
α β 10 10 5 1 β + 75
E(X) = 0 · +1· +2· +3· +4· +5· = .
32 32 32 32 32 32 32
a) Por condición del problema, se tiene que E(X) = 52 , de donde β = 5.
∑
Además, 5i=1 pX (i) = 1, por lo que α = 1. Ası́,
1 15 15 1 3
E(Y ) = 0 · +1· +2· +3· = ,
32 32 32 32 2
1 5 10 10 5 1 15
E(X 2 ) = 02 · + 12 · + 22 · + 32 · + 42 · + 52 · =
32 32 32 32 32 32 2
y
1 15 15 1 21
E(Y 2 ) = 02 · + 12 · + 22 · + 32 · = .
32 32 32 32 8
O sea,
( )
15 5 + 75 2 5
V (X) = − = ,
2 32 4
( )2
21 3 3
V (Y ) = − = .
8 2 8
Además,
5 4 6 3 6
E(XY ) = (1 · 1) + (2 · 1) + (2 · 2) + (3 · 1) + (3 · 2)
32 32 32 32 32
1 2 3 1
+(3 · 3) + (4 · 1) + (4 · 2) + (5 · 1)
32 32 32 32
= 4,
por lo que
5 3 1
Cov(X, Y ) = E(XY ) − E(X)E(Y ) = 4 − · = .
2 2 4
- 495 -
En conclusión,
1
√
Cov(X, Y ) 2
ρ(X, Y ) = √ √ = √ 4√ = √ .
V (X) V (Y ) 5 3 15
4 8
Problema 2.6.I:
a) E(4X cos2 Y ) = 40 (cos2 0)p(X,Y ) (0, 0) + 40 (cos2 π4 )p(X,Y ) (0, π4 )

1
+ 40 (cos2 π2 )p(X,Y ) (0, π2 ) + 4 2 (cos2 0)p(X,Y ) ( 12 , 0)
1 1
+ 4 2 (cos2 π4 )p(X,Y ) ( 12 , π4 ) + 4 2 (cos2 π2 )p(X,Y ) ( 21 , π2 )
= p(X,Y ) (0, 0) + 12 p(X,Y ) (0, π4 ) + 0p(X,Y ) (0, π2 )
+ 2p(X,Y ) ( 12 , 0) + 1p(X,Y ) ( 21 , π4 ) + 0p(X,Y ) ( 21 , π2 )
= 0.1 + 1
2 · 0.2 + 2 · 0.1
= 0.4.
b) Var(4X cos2 Y ) = E((4X cos2 Y )2 ) − E2 (4X cos2 Y )

y
E((4X cos2 Y )2 ) = 1 P (X = 0, Y = 0) + 14 P (X = 0, Y = π4 )
+0 P (X = 0, Y = π2 ) + 4 P (X = 21 , Y = 0)
( ) ( )
+1 P X = 12 , Y = π/4 + 0 P X = 12 , Y = π2
= 0.1 + 1
4 · 0.2 + 4 · 0.1
= 0.1 + 0.05 + 0.4
= 0.55.
Por lo tanto,
Var(4x cos2 y) = 0.55 − (0.4)2

= 0.39.
c) Debemos encontrar P (U = u, V = v), para (u, v) ∈ Rec(U, V ).

Nótese que, Rec(U, V ) = {(1, 1), (1, 21 ), (1, 0), (2, 1), (2, 12 ), (2, 0)}, y
P (U = 1, V = 1) = P (X = 0, Y = 0) = 0.1,
P (U = 1, V = 12 ) = P (X = 0, Y = π4 ) = 0.2,
P (U = 1, V = 0) = P (X = 0, Y = π2 ) = 0.6,
P (U = 2, V = 1) = P (X = 21 , Y = 0) = 0.1,
P (U = 2, V = 12 ) = P (X = 12 , Y = π4 ) = 0,
P (U = 2, V = 0) = P (X = 21 , Y = π2 ) = 0.
- 496 -
La siguiente tabla resume la cuantia conjunta del vector (U, V ).
U \V 0 1 1/2
1 0.6 0.1 0.2
2 0 0.1 0
d)
Cov(U, V ) = E(U V ) − E(U ) E(V )

= E(4X cos2 Y ) − E(4X ) E(cos2 Y ).
Como Rec X = {0 , 1/2}, entonces

∑
E(4X ) = 4X P (X = x)
x∈Rec X
= 1 P (X = 0) + 2 P (X = 12 ).
Pero,
∑
P (X = 0) = P (X = 0, Y = y)
y∈Rec Y
= P (X = 0, Y = 0) + P (X = 0, Y = π4 ) + P (X = 0, Y = π2 )
= 0.1 + 0.2 + 0.6
= 0.9
y
( ) ∑ ( )
P X = 21 = P X = 12 , Y = y
y∈Rec Y
( ) ( ) ( )
= P X = 12 , Y = 0 + P X = 12 , Y = π4 + P X = 12 , Y = π2
= 0.1 + 0 + 0
= 0.1.
Luego,
E(4X ) = 0.9 + 2 · 0.1

= 1.1.
También,
∑
E(cos2 Y ) = (cos2 Y )P (Y = y)
y∈Rec Y
= 1 P (Y = 0) + 21 P (Y = π4 ) + 0 P (Y = π2 )
- 497 -
y
∑
P (Y = 0) = P (X = x, Y = 0)
x∈Rec X
= P (X = 0, Y = 0) + P (X = 12 , Y = 0)
= 0.1 + 0.1
= 0.2,
∑
P (Y = π4 ) = P (X = x, Y = π4 )
x∈Rec X
= P (X = 0, Y = π4 ) + P (X = 12 , Y = π4 )
= 0.2 + 0
= 0.2,
o sea
E(cos2 Y ) = 1 · 0.2 + 1
2 · 0.2 + 0
= 0.2 + 0.1
= 0.3.
Finalmente,
Cov(U, V ) = 0.4 − 1.1 · 0.3
= 0.4 − 0.33
= 0.07.
Problema 2.6.J:
a) Como E(Y1 ) = b1 y E(Y2 ) = b2 , entonces
E((Y1 − b1 )2 )) = E(a211 X12 ) = a211 ,
E((Y2 − b2 )2 )) = E(a221 X12 + a222 X22 + 2a21 a22 X1 X2 ) = a221 + a222

y
Cov(Y1 , Y2 ) = Cov(a11 X1 , a21 X1 ) = a11 a21 .
Por las condiciones del problema, resultan las relaciones

b1 = 4, b2 = 5, a211 = 4, a221 + a222 = 34, a11 a21 = 10,
de donde a21 = 5 y a22 = 3.
Por lo tanto, ( )
2 5
(Y1 , Y2 ) = (X1 , X2 ) + (4 , 5)
0 3
es decir,
(Y1 , Y2 ) ∼ N ((4, 5), ( 10
4 10 ) ).
34
- 498 -
Observación: Otra forma de obtener el resultado anterior es descomponer Σ en la forma

At A, es decir, encontrar A ∈ M2 (R) de modo que
( )
t 4 10
AA= .
10 34
La matriz A = ( 20 53 ), satisface la relación anterior.
b) ( ) ( )
E etY2 = E et(5X1 +3X2 +5)
( ) ( )
= e5t E e5tX1 E e3tX2 (X1 , X2 son independientes)
1 2 1 2
= e5t e 2 (5t) e 2 (3t)
1 2 +5t
= e 2 (34)t .
Observación: Por teorema de transformación de variables aleatorias se verifica también

que, para todo (y1 , y2 ) ∈ R2 ,
( )2 { }
4 10 )−1 (y − 4
f(Y1 ,Y2 ) (y1 , y2 ) = √12π √136 exp − 21 [(y1 − 4 y2 − 5) ( 10 y − 5) ′
] .
34 1 2
Problema 2.6.K:
a) Véase Problema 2.6.S.

b) De la definición de Yi y Yj , se tiene que
(Yi − µi )(Yj − µj ) = (a1i X1 + a2i X2 + · · · + ani Xn )(a1j X1 + a2j X2 + · · · + anj Xn )

∑n ∑ n
= aki arj Xk Xr ,
k=1 r=1
luego
Cov(Yi , Yj ) = E((Yi − E(Yi ))(Yj − E(Yj )))

= E((Yi − µi )(Yj − µj ))
∑n ∑n
= aki arj E(Xk Xr ).
k=1 r=1
Pero, X1 , . . . , Xn son iid N (0, 1), de donde

{
1 si r = k
E(Xk Xr ) =
0 si r ̸= k
o sea,
∑
n
Cov(Yi , Yj ) = aki akj = (At A)ij = Σij .
k=1
- 499 -
Problema 2.6.L: Nótese que

α α2
X2 = √ Y1 + Y2 y X3 = √ Y1 + αY2 + Y3 ,
1 − α2 1 − α2
o sea
Xi = a1i Y1 + a2i Y2 + a3i Y3 , i ∈ {1, 2, 3},
donde
1
a11 = √ , a21 = 0, a31 = 0,
1 − α2
α
a12 = √ , a22 = 1, a32 = 0,
1 − α2
α2
a13 = √ , a23 = α, a33 = 1.
1 − α2
Luego
Cov(Xi , Xj ) = Cov(a1i Y1 + a2i Y2 + a3i Y3 , a1j Y1 + a2j Y2 + a3j Y3 )

= a1i a1j V (Y1 ) + a2i a2j V (Y2 ) + a3i a3j V (Y3 ) + a1i a2j Cov(Y1 , Y2 )
+ a1i a3j Cov(Y1 , Y3 ) + a2i a1j Cov(Y2 , Y1 ) + a2i a3j Cov(Y2 , Y3 )
+ a3i a1j Cov(Y3 , Y1 ) + a3i a2j Cov(Y3 , Y2 )
= a1i a1j + a2i a2j + a3i a3j + 0,
o sea
1 α2
Cov(X1 , X1 ) = , Cov(X2 , X2 ) = + 1,
1 − α2 1 − α2
α α3
Cov(X1 , X2 ) = , Cov(X2 , X3 ) = + α,
1 − α2 1 − α2
α2 α4
Cov(X1 , X3 ) = , Cov(X3 , X3 ) = + α2 + 1.
1 − α2 1 − α2
Problema 2.6.M:
a) ( )
1∑ 1∑
n n
E(Zn,x ) = E I]−∞,x[ (Xi ) = E(I]−∞,x[ (Xi )).
n n
i=1 i=1
Pero, para todo 1 ≤ i ≤ n,
( )
E I]−∞,x[ (Xi ) = 0 P (I]−∞,x[ (Xi ) = 0) + 1 P (I]−∞,x[ (Xi ) = 1)
= P (Xi ≤ x)
( )
= Φ x−µ
σ .
De esta forma,
1 ∑ ( x−µ ) 1 ( )
n
E(Zn,x ) = Φ σ = n Φ x−µσ .
n n
i=1
- 500 -
b) Como X1 , . . . , Xn son independientes,

( )
1∑
n
V (Zn,x ) = V I]−∞,x[ (Xi )
n
i=1
1 ∑
n
= V (I]−∞,x[ (Xi )).
n2
i=1
Además, para cada 1 ≤ i ≤ n,
V (I]−∞,x[ (Xi )) = E(I]−∞,x[

2
(Xi )) − (E(I]−∞,x[ (Xi )))2
( ( ))2
= E(I]−∞,x[ (Xi )) − Φ x−µ σ
( ) ( ( x−µ ))2
= Φ x−µ σ − Φ σ
( x−µ ) [ ( )]
= Φ σ 1 − Φ x−µσ .
Ası́,
1 ∑ ( x−µ ) [ ( x−µ )]
n
V (Zn,x ) = Φ σ 1 − Φ σ
n2
i=1
1 ( x−µ ) [ ( )]
= Φ σ 1 − Φ x−µ
σ .
n
c)
 
1 ∑
n
1 ∑
n
Cov(Zn,x , Zn,y ) = Cov  I]−∞,x[ (Xi ), I]−∞,y[ (Xj )
n n
i=1 j=1
1 ∑∑
n n
= Cov(I]−∞,x[ (Xi ), I]−∞,y[ (Xj )).
n2
i=1 j=1
Pero, si i ̸= j, Cov(I]−∞,x[ (Xi ), I]−∞,y[ (Xj )) = 0, pues Xi y Xj son independientes.

En el caso en que i = j, y como x < y
Cov(I]−∞,x[ (Xi ), I]−∞,y[ (Xi )) = E((I]−∞,x[ (Xi ) I]−∞,y[ (Xi )))

−E(I]−∞,x[ (Xi )) E(I]−∞,y[ (Xj ))
( ) ( y−µ )
= E(I]−∞,x[ (Xi )) − Φ x−µ Φ
( x−µ ) ( x−µ ) ( y−µ ) σ
σ
= Φ σ −Φ σ Φ σ
( )[ ( )]
= Φ x−µσ 1 − Φ y−µσ .
O sea
1 ∑ ( x−µ ) [ ( y−µ )]
n
Cov(Zn,x , Zn,y ) = Φ σ 1 − Φ σ
n2
i=1
1 ( x−µ ) [ ( )]
= Φ σ 1 − Φ y−µ
σ .
n
- 501 -
d) Por la parte a) y b),

(( ( x−µ ))2 )
E Zn,x − Φ σ = V (Zn,x )
1 ( x−µ ) [ ( )]
= Φ σ 1 − Φ x−µ
σ ,
n
de donde
(( ( x−µ ))2 )
lim E Zn,x − Φ σ = 0.
n→∞
Nota: Si en lugar de considerar una sucesión (Xn , n ≥ 1), que sea iid N (µ, σ 2 ), se
considera una sucesión iid con distribución acumulada( común F , entonces se obtienen
x−µ )
los mismos resultados anteriores, intercambiando Φ σ por F (x).
Problema 2.6.N: Sea Yi = X̄ − Xi−1 , 2 ≤ i ≤ n + 1.

Basta probar que X̄ es independiente de (Y2 , . . . , Yn+1 ), pues si esto ocurre, X̄ es inde-
∑ 2
n+1
pendiente de g(Y2 , . . . , Yn+1 ) = n1 Yi .
i=2
Para probar lo anterior, es suficiente que X̄ sea independiente de cada Yi . Pero, X̄ e Yi son
normales, (combinación lineal de variables aleatorias normales e independientes), entonces
para probar que X̄ e Yi son independientes es suficiente verificar que Cov(X̄, Yi ) = 0.
Cov(X̄, Yi ) = Cov(X̄, X̄) − Cov(X̄, Xi−1 )

1
= V (X̄) − V (Xi−1 )
n
1 1
= 2
· n · V (X1 ) − V (Xi−1 )
n n
= 0.
Problema 2.6.O:
Y1 = U + Y0 + Z0 = U ,
Y2 = U + U + Z1 = 2U + Z1 ,
Y3 = U + 2U + Z1 + Z2 = 3U + Z1 + Z2 ,
inductivamente
∑
i−1 ∑
0
Yi = iU + Zk , 1 ≤ i ≤ n, con Zk = 0..
k=1 k=1
- 502 -
Luego
( )
∑
i−1 ∑
j−1
Cov(Yi , Yj ) =Cov i U + Zk , j U + Zk
k=1 k=1
( ) ( i−1 ) ( i−1 )
∑
j−1 ∑ ∑ ∑
j−1
=i j a + i Cov U , Zk + j Cov Zk , U + Cov Zk , Zk
k=1 k=1 k=1 k=1
=i j a + i 0 + j 0 + b min{i − 1, j − 1}
=i j a + b min{i − 1, j − 1}.
Problema 2.6.P: Para t ̸= 0,
MX (t) =E(etX )
(∞ )
∑ (tX)n
=E
n!
n=1
∞
∑ tn
= E(X n ) (suponiendo que la esperanza se puede intercambiar con la serie)
n!
n=0
∑∞
2n tn
= ·
n + 1 n!
n=0
∑∞
(2 t)n
=
(n + 1)!
n=0
∑∞
(2 t)n+1 1
= ·
(n + 1)! 2 t
n=0
 
∞
∑ j
1 (2 t)
=  − 1
2t j!
j=0
1 2t
= (e − 1).
2t
Pero, MX (0) = 1, luego
 e2t −1
 2t si t ̸= 0
MX (t) =

1 si t = 0
Además, toda variable aleatoria con distribución uniforme sobre ]0, 2[ tiene función gene-
radora de momentos como la anterior, por lo tanto, X ∼ U (0, 2).
Problema 2.6.Q: Rec N = {2, 3} y

1 1 1 1 1
P (N = 2) = P ({(c, c), (s, s)}) = · + · = ,
2 2 2 2 2
- 503 -
1 1
P (N = 3) = P ({(c, s, c), (c, s, s), (s, c, s), (s, c, c)}) = 4 · = .
8 2
Ası́, para todo t ∈ R,
( )
MN (t) = E etN
1 2t 1 3t
= e + e ,
2 2
de donde
( )
3 3t
′
MN (t)t=0 = 2t
e + e
2 t=0
5
=
2
y
( )
′′ 2t 9 3t
MN (0) = 2e + e
2 t=0
13
= .
2
Por lo tanto,
5 13
E(N ) = y E(N 2 ) = ,
2 2
de donde
13 25 1
V (N ) = − = .
2 4 4
Problema 2.6.R: Para todo t ∈ R:
a)
MZ (t) = E(etZ )
= E(et(2X−3Y ) )
= 0.05 e2t−0 + 0 e2t−3t + 0.20 e2t−6t + 0 e2t−9t + 0.05 e4t−0
+0.10 e4t−3t + 0 e4t−6t + 0.2 e4t−9t + 0 e6t−0 + 0.10 e6t−3t
+0.10 e6t−6t + 0.20 e6t−9t
= 0.20 e−5t + 0.20 e−4t + 0.20 e−3t + 0.10 e0 + 0.10 et + 0.05 e2t
+0.10 e3t + 0.05 e4t .
b)
M2X (t) = E(et2X )

= pX (1) e2t + pX (2) e4t + pX (3) e6t
= 0.25 e2t + 0.35 e4t + 0.40 e6t ,
- 504 -
y
M−3Y (t) = E(et(−3Y ) )
= pY (0) e0 + pY (1) e−3t + pY (2) e−6t + pY (3) e−9t
= 0.10 e0 + 0.20 e−3t + 0.30 e−6t + 0.40 e−9t .
Claramente,
M2X−3Y (t) ̸= M2X (t)M−3Y (t),
en particular, se concluye que X e Y no son independientes.
∑
n
Problema 2.6.S: Si Z= αi Xi , entonces, para todo t ∈ R,
i=1
∏n
MZ (t) = MXi (αi t)
i=1
∏
n
{1 }
= exp 2 t2 αi2 σi2 + t αi µi
i=1
{ ( ) ( )}
∑
n ∑
n
1 2
= exp 2t αi2 σi2 +t αi µi .
i=1 i=1
Pero, una variable aleatoria X es normal (µ, σ 2 ) si y sólo si para todo t ∈ R,

MX (t) = exp{ 21 t2 σ 2 + tµ}, por lo que,
( n )
∑ ∑
n
Z∼N αi µi , αi2 σi2 .
i=1 i=1
∑r
Problema 2.6.T: Si definimos n = i=1 ni ,
basta verificar que, para t < λ,
( )
t −n
MZ (t) = 1 − .
λ
Como Xi ∼ Gamma (ni , λ), entonces, para i = 1, . . . , r y t < λ,
( )
t −ni
MXi (t) = 1 − .
λ
Ahora, por la independencia de las Xi se tiene que, para t < λ,
∏r
MZ (t) = MXi (t)
i=1
∏r ( )
t −ni
= 1−
λ
i=1
( )−(n1 +···+nr )
t
= 1−
λ
( )
t −n
= 1− .
λ
- 505 -
Nota: Si Xi ∼ Gamma (m, λ), entonces la variable aleatoria T = 2λX tiene distribución
chi-cuadrado con 2m grados de libertad. En efecto,
MT (t) = MX (2λt)
( )
2λt −m
= 1− (si 2λt < λ)
λ
1
= (1 − 2t)−
2m
2 (t < ),
2
o sea T ∼ χ2 (2m).
∑n
Problema 2.6.U: Como Z = −2 i=1 ln(Xi ), entonces
MZ (t) = (Mln(X1 ) (−2t))n .
Pero, si s > −1,
Mln(X1 ) (s) = E(es ln(X1 )
) = E(X1s )
∫ 1
= xs dx
0
1
xs+1
=
s + 1 0
1
= ,
s+1
por lo tanto si t < 12 ,
( )n
1
MZ (t) =
−2t + 1
( )−n
t
= 1− 1 ,
2
( )
o sea, Y ∼ Gamma n, 1
2 .
Problema 2.6.V: Para k ∈ N,

P (N = k) = P (Sk ≤ t, Sk+1 > t)
= P (Sk ≤ t, Sk + Xk+1 > t)
= P ((Sk , Xk+1 ) ∈ At ) con At = {(x, y) ∈ R2 : x ≤ t, x + y > t}

∫∫
= f(Sk ,Xk+1 ) (x, y)dxdy
At
∫∫
= fSk (x) fXk+1 (y)dxdy (pues Sk y Xk+1 son independientes).
At
- 506 -
Además, si s < λ,
∏
k
MSk (s) = E(es Sk ) = E(es Xi )
i=1
= (MX1 (s))k pues X1 , . . . , Xk son iid
( )k
λ
=
λ−s
( s )−k
= 1− ,
λ
luego
Sk ∼ Gamma(k, λ),
o sea 
 λ
(λx)k−1 e−λx si x > 0
fSk (x) = Γ(k)

0 e.o.c.
Por lo tanto,
∫∫ ∫∫
λ
fSk (x)fXk+1 (y) dx dy = λk−1 xk−1 e−λx λe−λy dx dy.
(k − 1)!
At At ∩R2+
La región sombreada de la figura siguiente representa al conjunto At ∩ R2+ .
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
x+y = t
00000000
11111111
00000000
11111111
00000000
t 11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111
00000000
11111111111111111111111111
00000000000000000000000000
t x
Figura 2.6.A.
- 507 -
O sea,
∫∫ ∫ t( ∫ ∞ )
λ λk
λk−1 xk−1 e−λx λe−λy dx dy = k−1 −λx
x e −λy
λe dy dx
(k − 1)! (k − 1)! 0 t−x
At ∩R2+
∫ t
λk −λt
= e xk−1 dx
(k − 1)! 0
λk tk
= e−λt
(k − 1)! k
k
(λt) −λt
= e .
k!
Finalmente, si k = 0,
P (N = 0) = P (S0 ≤ t, S1 > t)
= P (Ω, S1 > t)
= P (S1 > t)
= P (X1 > t)
= e−λt
(λt)0 −λt
= e ,
0!
en consecuencia N ∼ P(λt).
Problema 2.6.W:
i)
MX+2Y (z) = E(ez(X+2Y ) )
= E(ezX+2zY )
= M(X,Y ) (z, 2z)
= exp{2z + 6z + z 2 + 2az 2 + 8z 2 }
= exp{8z + (9 + 2a)z 2 },
M2X−Y (z) = E(ez(2X−Y ) )

= E(e2zX+(−z)Y )
= M(X,Y ) (2z, −z)
= exp{4z − 3z + 4z 2 − 2az 2 + 2z 2 }
= exp{z + (6 − 2a)z 2 },
MX+2Y +2X−Y (z) = M3X+Y (z)

= E(ez(3X+Y ) )
= E(e3zX+zY )
= M(X,Y ) (3z, z)
- 508 -
= exp{6z + 3z + 9z 2 + 3az 2 + 2z 2 }
= exp{9z + (11 + 3a)z 2 ).
Para que las variables aleatorias X +2Y y 2X −Y sean independientes, es suficiente

que, para todo z real,
MX+2Y +2X−Y (z) = MX+2Y (z)M2X−Y (z).
Es decir, basta que
exp{9z + (11 + 3a)z 2 } = exp{8z + (9 + 2a)z 2 } exp{z + (6 − 2a)z 2 }.
Resolviendo la ecuación anterior resulta que exp{(4 − 3a)z 2 } = 1, por lo que a = 43 .
ii) Si a = 43 , entonces, para todo z ∈ R,

{ } { }
MX+2Y (z) = exp 8z + 35 2
3 z = exp 8z + 1
2 · 70 2
3 z ,
o sea ( )
X + 2Y ∼ N 8, 70
3 .
También, para todo z ∈ R,
{ } { }
M2X−Y (z) = exp z + 10 2
3 z = exp z + 1
2 · 20 2
3 z ,
o sea ( )
2X − Y ∼ N 1, 20
3 .
Pero, X + 2Y y 2X − Y son independientes, luego

( )
X + 2Y − (2X − Y ) ∼ N 8 − 1, 70
3 +
20
3 .
Por lo tanto,
P (X + 2Y < 2X − Y ) = P (X + 2Y − (2X − Y ) < 0)
( )
= Φ √−730
= 1 − 0.8997
= 0.1003.
Problema 2.6.X:
a) Sea (s, t) ∈ R2 , entonces

M(X,Y ) (s, t) = E(e(s,t) (X,Y ) )
= E(esX+tY )
= e(s·0+t·0) p(X,Y ) (0, 0) + e(s·0+t·1) p(X,Y ) (0, 1) + e(s·0+t·2) p(X,Y ) (0, 2)
+es·1+t·0 p(X,Y ) (1, 0) + es·1+t·1 p(X,Y ) (1, 1) + es·1+t·2 p(X,Y ) (1, 2)
1 1 t 1 2t 1 s 1
= + e + e + e + 0 · es+t + es+2t .
6 9 18 3 3
- 509 -
b) Nótese que
∂3 4
E(XY 2 ) = 2
M(X,Y ) (s, t) (s,t)=(0,0) = ,
∂s∂t 3
∂2
E(X 2 ) = M(X,Y ) (s, t) (s,t)=(0,0) = 2 .
∂s2 3
Por lo tanto, E(XY 2 + X 2 ) = 2.
Problema 2.6.Y:
a) Usando teorema de cambio de variables para la función h(u) = u2 , u > 0, (cuya

√
inversa es h−1 (u) = u, u > 0) se tiene que una densidad para X 2 = h(X) es

−1 d −1

fX (h (ξ))| dξ h (ξ)| si ξ > 0
fX 2 (ξ) =


0 e.o.c.
o sea,
 √ −α(√ξ)2 1

2α ξe | 2√ξ | si ξ > 0
fX (ξ) =


0 e. o. c.

 −αξ
αe si ξ > 0
=


0 e. o. c.
Es decir,
X 2 ∼ exp(α).
- 510 -
∑
n
b) Para ver la distribución de T = Xi2 , calculemos su función generadora de mo-
i=1
mentos, MT (t).
MT (t) = MX12 +...+Xn2 (t)
∏
n
= MX 2 (t) (pues los Xi son independientes)
i
i=1
= (MX 2 (t))n (pues los Xi tienen igual distribución que X)
[( ) ]n
t −1
= 1− (t < α ya que X 2 ∼ exp(α))
α
( )
t −n
= 1− (t < α).
α
En consecuencia, T ∼ Gamma(n, α) .
c)
(n)
E(Y ) = E
T
( )
1
= nE
T
α
=n· ,
n−1
n−1
luego, haciendo c = , se tiene que
n
( )
n−1 n−1
E(cY ) = E ·Y = E(Y ) = α.
n n
( )
Problema 2.6.Z: En general, si Z ∼ Gamma(α, λ) y c > 0, entonces cZ ∼ Gamma α, λc .
∑n
En este
∑caso, como X1 , . . .(, Xn )son iid exp(θ), entonces i=1 Xi ∼ Gamma(n, θ), por
n
lo que 2θ i=1 Xi ∼ Gamma n, 2θ θ
.
∑n ( 2n ) ∑
En otras palabras, 2θ i=1 Xi ∼ Gamma 2 , 12 , esto es, 2θ ni=1 Xi ∼ χ2(2n) .
- 511 -
Problema 2.6.AA: Por ser (X1 , X2 , X3 ) vector normal trivariado, para probar que
X1 , X2 , X3 son independientes, basta probar que Cov(Xi , Xj ) = 0, i ̸= j, i, j ∈ {1, 2, 3}.
Esta condición se desprende de i), ii) y iii) y del hecho que independencia de dos
variables aleatorias implica que su covarianza es cero.
SECCIÓN 2.8
Problema 2.8.A:
a)
{
fU/V =v (u) fV (v) si v ≥ 3
f(U,V ) (u, v) =
0 e.o.c.
{ 1 3
3v v 2 si v ≥ 3, 0 < u < 3v
=
0 e.o.c.
{ 1
v3
si (u, v) ∈ A
=
0 e.o.c.
donde A = {(u, v) ∈ R2 : v ≥ 3, 0 < u < 3v}.
v 11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000v = 1/3 u
11111111111111111111111
00000000000000000000000
11111111111111111111111
00000000000000000000000
3 00000000000000000000000
11111111111111111111111
9 u
Figura 2.8.A. Región sombreada representa A.
b)
{
f(U,V ) (u,v)
fU (u) si fU (u) ̸= 0
fV /U =u (v) =
0 e.o.c.
- 512 -
Pero,
 ∫ ∞
 1

 dv si 0 < u < 9

 v 3


3
∫ ∞ 
 ∫ ∞
fU (u) = f(U,V ) (u, v)dv = 1
 dv si u ≥ 9
−∞ 
 u v
3

1


3



0 e.o.c.



1

 si 0 13 u

 9v 3




0 e.o.c.
Problema 2.8.B: Sea k ∈ {0, 1, 2, . . .}, teorema de probabilidades totales implica que
∞
∑
P (X = k) = P (X = k / N = n) P (N = n)
n=0
∞ ( )
∑ n λn
= pk (1 − p)n−k e−λ
k n!
n=k
∞
pk −λ ∑ λn
= e (1 − p)n−k
k! (n − k)!
n=k
∞
(λp)k −λ ∑ (λ (1 − p))n−k
= e
k! (n − k)!
n=k
∞
(λp)k −λ ∑ (λ (1 − p))j
= e
k! j!
j=0
(λp)k −λ λ (1−p)
= e e
k!
(λp)k −λ p
= e ,
k!
- 513 -
o sea, X ∼ P(λp).
Problema 2.8.C:
∫ ∞
fX (x) = c exp{−(1 + x2 )(1 + y 2 )}dy
−∞
∫ ∞
2
= c exp{−(1 + x )} exp{−(1 + x2 )y 2 }dy.
−∞
Nótese que, si a > 0, entonces
∫ √ ∫ { }
∞ √ 1 1 ∞
y2
exp{−a y 2 }dy = 2π √ √ exp − 12 1 dy
−∞ 2a 2π 1 −∞ 2a
2a
√
√ 1
= 2π 1
2a
√
π
= √ .
a
Considerando a = 1 + x2 , se tiene que

√
π
fX (x) = c exp{−(1 + x )} √ 2
,
1 + x2
por lo tanto
f(X,Y ) (x, y)
fY /X=x (y) =
fX (x)
c exp{−(1 + x2 )(1 + y 2 )}
= √
π
c exp{−(1 + x2 )} √1+x 2
exp{−(1 + x2 )y 2 }
= √
√ π
1+x2
{ }
1 y2
= √ √ exp − 12 1 ,
1 2(1+x2 )
2π 2(1+x2 )
de donde ( )
Y /X = x ∼ N 0, 2(1+x
1
2) .
Simétricamente, ( )
X/Y = y ∼ N 0, 2(1+y
1
2) .
Observación: Claramente el vector (X, Y ) no puede tener distribución normal bivariada,

ya que la forma cuadrática asociada contiene términos de la forma x2 y 2 . Es decir, este
- 514 -
ejercicio muestra un vector bivariado en que sus distribuciones condicionales son normales,
pero el vector no es normal bivariado.
Problema 2.8.D: Si (U, V ) = (X + Y, X − Y ), entonces

( )
1 1
(U, V ) = (X, Y )A, con A = ,
1 −1
de donde se sigue que (U, V ) ∼ N (µA, AΣAt ), esto es,
(U, V ) ∼ N ((2 0), ( 71 13 )),
o sea { ( )}
1 2
7v 2
f(U,V ) (u, v) = √ exp − 12 3(u−2)
20 − (u−2)v
10 + 20 .
2π 20
Además, V ∼ N (0, 3), luego,
1 { }
v2
fV (v) = √ √ exp − 12 · 3 ,
2π 3
por lo tanto
f(U,V ) (u, 0)
fU/V =0 (u) =
fV (0)
{ }
3(u−2)2
√1
2π 20
exp − 12 ·
20
=
√ 1 √ exp{− 1 · 0}
2π 3 2
1 { }
(u−2)2
= √ √ exp − 12 · 20 .
20 3
2π 3
En conclusión,
( )
U/V = 0 ∼ N 2, 20
3 .
Problema 2.8.E: Sean T1 , T2 los tiempos de vida útil de las lámparas. Luego T1 ,
T2 son variables aleatorias independientes y con igual distribución exp(λ). Además,
X = min{T1 , T2 }, Y = max{T1 , T2 }.
a) 
 f(X,Y ) (x, y)
si fY (y) ̸= 0
fX/Y =y (x) = fY (y)

0 e.o.c.
Por ejemplo, se sabe que
{
2 λ2 e−λx e−λy si 0 < x < y
f(X,Y ) (x, y) =
0 e.o.c.
- 515 -
y
{
2 λ e−λy (1 − e−λy ) si y > 0
fY (y) =
0 e.o.c.
o sea, 
 λ e−λx
−λy
si 0 < x < y
 1−e
fX/Y =y (x) =
0 e.o.c.
b)
{
λ eλx e−λy si 0 < x < y
fY /X=x (y) =
0 e.o.c.
c) Sea x > 0,
F(Y −X)/X=x (z) = P (Y − X ≤ z/X = x) = P (Y ≤ z + x/X = x)

∫ z+x
= fY /X=x (y)dy,
−∞
pero
 ∫ z+x


∫ 
 λeλx e−λy dy si z > 0
z+x  x
fY /X=x (y)dy = ∫
−∞ 
 x


 − 0dy si z ≤ 0
z+x
{
1 − e−λz si z > 0
=
0 si z ≤ 0
por lo tanto, (Y − X)/X = x ∼ exp(λ).
Problema 2.8.F:
fX/P =p (x) g(p)

fP/X=x (p) = ∫∞
−∞ fX/P =p (x) g(p)dp
(n ) x n−x Γ(a+b) pa−1 (1 − p)b−1
p p (1 − p) Γ(a) Γ(b)
= ∫∞
−∞ fX/P =p (x) g(p) dp
(n )
p Γ(a + b) Γ(a + x) Γ(b + n − x)
= ∫∞ · ·
f
−∞ X/P =p (x) g(p)dp Γ(a) Γ(b) Γ(a + b + n)
Γ(a + b + n)
· pa+x−1 (1 − p)n+b−x−1 .
Γ(a + x) Γ(b + n − x)
- 516 -
∫1
Como fP/X=x es una densidad (sobre ]0, 1[), 0 fP/X=x (p)dp = 1 y también,
∫ 1
Γ(a + b + n)
pa+x−1 (1 − p)n+b−x−1 dp = 1,
0 Γ(a + x) Γ(b + n − x)
(pues el integrando es la densidad de una distribución Beta(a + x, n + b − x)).

Por lo tanto,
1 Γ(a + b) Γ(a + b + n)
∫∞ · = ( ).
f
−∞ X/P =p (x)g(p)dp Γ(a) Γ(b) Γ(a + x) Γ(n + n − x) np
En consecuencia,
P/X = x ∼ Beta(a + x, n + b − x).
Nótese que la media de la distribución a priori es
a
µpriori = ,
a+b
y la media de la distribución a posteriori es
a+x a+b a n x
µposteriori = = · + · .
a+b+n a+b+n a+b a+b+n n
Si p0 es el verdadero valor de p, entonces lim nx = p0 , de donde lim µposteriori = p0 .
n→∞ n→∞
También, la varianza de la distribución a posteriori es
2 (a + x) (n + b − x)
σposteriori =
(a + b + n)2 (a + b + n + 1)
a+x n+b−x
= ·
a + b + n (a + b + n) (a + b + n + 1)
( )
n+b 1 n x
= µposteriori − · · ,
(a + b + n) (a + b + n + 1) (a + b + n) (a + b + n + 1) n
de donde
2
lim σposteriori = p0 (0 − 0 · 1 p0 ) = 0.
n→∞
Ası́, la distribución a posteriori es cada vez más concentrada alrededor de p0 .
Problema 2.8.G:
fX/M =m (x) fM (m)

fM/X=x (m) = ∫ ∞ ∝ fX/M =m (x) fM (m).
−∞ fX/M =m (x) fM (m)dm
Como las Xi son independientes y normales,

( )
1 ∑n
fX/M =m (x) = n exp − 2σ2
1
(xi − m) .
2
σ n (2π) 2 i=1
- 517 -
Usando la identidad
∑
n ∑
n
(xi − m) =
2
(xi − x̄)2 + n(x̄ − m)2 ,
i=1 i=1
se obtiene
( ) ( )
1 ∑n
fX/M =m (x) = n exp − 2σ2
1
(xi − x̄) 2
exp − σ2 (x̄ − m) .
1 2
σ n (2π) 2 i=1
2 n
Como solamente el último término depende de m, entonces

( )
fX/M =m (x) ∝ exp − σ2 (x̄ − m) fM (m).
1 2
2 n
( )
Usando que fM (m) = √2πσ1
exp − 2σ1 2 (m − µ0 )2 , y un argumento similar al del problema
0 0
anterior para el manejo de las constantes, se concluye que
M/X = x ∼ N (µ1 , σ12 ),
con
µ0 nx
σ02
+ σ2
µ1 = n 1
σ2
+ σ02
y
σ 2 σ02 1
σ12 = = .
nσ02 + σ 2 n
σ2
+ 1
σ2
Es decir, la precisión en este caso es
n 1
α1 = 2
+ 2.
σ σ0
Para valores de n “grande”, µ1 ≃ x y α1 ≃ σn2 . Entonces, la información sobre el tamaño

de la muestra determina la distribución a posteriori.
Por ejemplo, si la distribución a priori de M es N (2, 4), las Xi son N (4, 1) y x1 = 3.59 y
x2 = 5.52, entonces x̄ = 4.55, y la media a posteriori es
µ1 = 0.89 x̄ + 0.11µ0 = 4.27.
Si observamos además x3 = 3.93 y x4 = 4.71, entonces x̄ = 4.4 y la media a posteriori es
µ1 = 0.94 x̄ + 0.06µ0 = 4.30.
Si finalmente observamos x5 = 4.40, x6 = 5.06, x7 = 3.68 y x8 = 3.14, entonces x̄ = 4.25

y la media a posteriori resulta
µ1 = 0.97 x̄ + 0.03µ0 = 4.18.
Nótese que x̄ es ponderado cada vez con más peso a medida que el tamaño de la muestra
crece.
- 518 -
Problema 2.8.H: Véase Problema 2.8.G.
Observación: Los valores α0 = σ12 ; α = 1

σ2
y α1 = 1
σ12
son llamados “precisiones” de las
0
distribuciones correspondientes. Ası́,
α0 µ0 + αx α0 α
µ1 = = µ0 + x
α + α0 α + α0 α + α0
y
α1 = α + α0 .
Nótese, también, que la media a posteriori es un promedio ponderado de la media a priori
y el dato, con ponderaciones proporcionales a las respectivas precisiones. Si se asume
que el experimento (la observación de X) es mucho más informativa que la distribución a
priori, en el sentido que σ 2 ≪ σ02 (σ 2 mucho más “pequeño” que σ02 ), entonces α ≫ α0 y
α1 ≃ α,
µ1 ≃ x.
Ası́, la distribución a posteriori de M es cercana a una normal con media x y precisión α.

Esta observación ilustra dos cosas:
a) La distribución a priori tiene poca influencia sobre la distribución a posteriori.
b) la distribución a posteriori es, aproximadamente, proporcional a la función de vero-

similitud.
Desde un punto de vista heurı́stico, el primer punto es bastante obvio. Si uno no tiene
una fuerte opinión a priori, una opinión a posteriori es principalmente determinada por
el dato que uno observa. Tal distribución, a priori, es a menudo llamada vaga o priori no
informativa.
d
Problema 2.8.I: Como FZ (λ) = dλ fZ (λ), entonces
P (λ < Z ≤ λ + dλ) FZ (λ + dλ) − FZ (λ)

= ≃ fZ (λ),
dλ dλ
o sea
P (λ < Z ≤ λ + dλ) ≃ fZ (λ)dλ
β −βλ
= e (βλ)α−1 dλ.
Γ(α)
Como X/Z = λ ∼ P (λ), entonces P (X = x/λ < Z ≤ λ + dλ) ≃ e−λ λx! , x = 0, 1, . . .

x
Por lo tanto,
P (X = x, λ < Z ≤ λ + dλ) = P (X = x/λ < Z < λ + dλ) P (λ < Z < λ + dλ)
e−λ λx β
= · e−β λ (β λ)α−1 dλ,
x! Γ(α)
de donde (Teorema de probabilidades totales, versión continua)
- 519 -
∫ ∞
P (X = x) = P (X = x, λ < Z ≤ λ + dλ)dλ
0
∫ ∞
e−λ λx β
= · e−βλ (βλ)α−1 dλ
0 x! Γ(α)
∫ ∞
βα
= e−(1+β)λ λx+α−1 dλ
Γ(α)x! 0
∫ ∞ ( )x+α−1
βα −u u du
= e (u = (1 + β)λ)
Γ(α)x! 0 1+β 1+β
( )x+α ∫ ∞
βα 1
= e−u ux+α−1 du
Γ(α)x! 1 + β 0
βα
= Γ(x + α)
Γ(α) x! (1 + β)x+α
( )α ( )x
β 1 Γ(x + α)
=
1+β 1+β Γ(α) x!
( )α ( )x ( )
β 1 x+α−1
= , x = 0, 1, . . .
1+β 1+β x
( )
Nota: La definición general del coeficiente binomial ab , con 0 < a < b, está dada por
( )
b Γ(b + 1)
= .
a Γ(a + 1) Γ(b − a + 1)
En el caso en que a y b son enteros, Γ(a) = (a − 1)!; Γ(b) = (b − 1)!, por lo que se tiene
( )
b b!
= ,
a a!(b − a)!
que coincide con la definición de coeficiente binomial habitual.
Problema 2.8.J: Primeramente, el número medio de cobros observados es

0 · 88585 + 1 · 10577 + 2 · 779 + 3 · 54 + 4 · 4 + 5 · 1
no medio de cobros =
100000
= 0.12318,
y la varianza del número de cobros observados es
02 ·88585+12 ·10577+22 ·779+32 ·54+42 ·4+52 ·1

varianza del no medio de cobros = 100000 − (0.12318)2
= 0.127507.
Sea X la variable aleatoria que representa el número de cobros, en un año, de una

póliza cualquiera. Entonces, por las hipótesis del problema,
- 520 -
∫ ∞
P (X = x) = P (X = x/λ = s)fλ (s)ds
∫
0
∞
sx β
= e−s · e−βs (βs)α−1 ds, x = 0, 1, 2, . . .
0 x! Γ(α)
Según Problema 2.8.I, se obtiene que

( )( )α ( )x
α+x−1 β 1
P (X = x) = , x = 0, 1, . . .
x 1+β 1+β

( )( )α
α−1 β
P (X = 0) =
0 1+β
( )α
Γ(α) β
=
Γ(1) Γ(α) 1 + β
( )α
β
= ,
1+β
( )( )α ( )
α+1−1 β 1
P (X = 1) =
1 1+β 1+β
( )α ( )
Γ(α + 1) β 1
=
Γ(2) Γ(α) 1 + β 1+β
( )α ( )
αΓ(α) β 1
=
(2 − 1)! Γ(α) 1 + β 1+β
( )α ( )
β 1
= α
1+β 1+β
( )
1
= α P (X = 0),
1+β
( )( )α ( )2
α+2−1 β 1
P (X = 2) =
2 1+β 1+β
( )α ( )2
Γ(α + 2) β 1
=
Γ(3) Γ(α) 1 + β 1+β
( )α ( )2
(α + 1)Γ(α + 1) β 1
=
(3 − 1)! Γ(α) 1+β 1+β
( )α ( )2
(α + 1)α β 1
=
2! 1+β 1+β
- 521 -
[ ( )α ]
α+1 1 1 β
= · α
2 1+β 1+β 1+β
α+1 1
= · P (X = 1).
2 1+β
También,
( )
α+3−1 (α + 2)(α + 1)α
= ,
3 3!
por lo que
( )α ( )3
(α + 2)(α + 1)α β 1
P (X = 3) =
3! 1+β 1+β
[ ( )α ]
α+2 1 α+1 1 1 β
= · · ·α·
3 1+β 2 1+β 1+β 1+β
α+2 1
= · P (X = 2).
3 1+β
En general,
α+x−1 1
P (X = x) = · P (X = x − 1).
x 1+β
Además, se puede verificar que
∞ (
∑ )( )α ( )x
α+x−1 β 1 α
E(X) = x =
x 1+β 1+β β
x=0
y
α(1 + β)
Var(X) = .
β2
¿Cómo estimar α y β?
Al igual que en el Problema 2.6.D, α y β pueden ser estimados igualando la media y

varianza según el modelo teórico, con la media y varianza observadas. Por esta razón,
resolvemos el sistema
α
= 0.12318,
β
α(1 + β)
= 0.127507.
β2
Dividiendo la primera de las dos ecuaciones por la segunda, obtenemos β = 28.4678, de

donde α = 3.507.
- 522 -
En consecuencia,
P (X = 0) = (0.966065)3.507 = 0.88597,
P (X = 1) = 3.507 · 0.033935 · 0.88597 = 0.10544,
P (X = 2) = 4.507
2 · 0.033935 · 0.10544 = 0.00806,
P (X = 3) = 5.507
3 · 0.033935 · 0.00806 = 0.00050,
P (X = 4) = 6.507
4 · 0.033935 · 0.00050 = 0.00003,
P (X = 5) ≃ 0.
Luego, el número de pólizas con 0 cobros es 100000 · P (X = 0) = 88597. Análogamente

se calcula la estimación para 1 cobro, 2 cobros, etc.
no de cobros no de pólizas no de pólizas según modelo

observadas Poisson(λ), con λ ∼Gamma(α, β)
0 88585 88597
1 10577 10544
2 779 806
3 54 50
4 4 3
5 1 0
6 0 0
Total 100000 100000
Problema 2.8.K: Para a, b números positivos, se puede verificar que

∫ 1
Γ(a)Γ(b)
xa−1 (1 − x)b−1 dx = .
0 Γ(a + b)
a) Sea k ∈ {0, 1, . . . , n}. Usando teorema de probabilidades totales, versión continua,

se tiene que
∫ ∞
P (Xn = k) = P (Xn = k / P = p)fp (p)dp
−∞
∫) 1(
n k
= p (1 − p)n−k 1dp
0 k
( )∫ 1
n
= p(k+1)−1 (1 − p)(n+1−k)−1 dp
k 0
( )
n Γ(k + 1)Γ(n + 1 − k)
= .
k Γ(k + 1 + n + 1 − k)
- 523 -
Pero, Γ(r) = (r − 1)!, para todo r ∈ N, luego
n! k!(n − k)!
P (Xn = k) = ·
k!(n − k)! (n + 1)!
1
= .
n+1
O sea, la variable aleatoria Xn tiene distribución uniforme sobre {0, 1, . . . , n}, lo cual
se anota Xn ∼ U {0, 1, . . . , n}.
b) Para x ∈ R,
FP/Xn=k (x) = P (P ≤ x / Xn = k)
P (P ≤ x, Xn = k)
=
P (Xn = k)
P (P ≤ x, Xn = k)
= 1 , por parte a).
n+1
Calculemos ahora la probabilidad del suceso A = (P ≤ x, Xn = k). Usando, nueva-

mente, teorema de probabilidades totales (versión continua), se tiene que
∫ ∞
P (A) = P (A / P = p)fP (p)dp
−∞
∫ 1
= P (P ≤ x, Xn = k / P = p)1dp
0
∫ 1
= P (p ≤ x, Xn = k / P = p)dp
0


 0 si x < 0



 ∫

 x

P (Xn = k / P = p)dp si 0 ≤ x < 1
=


0

 ∫ 1




 P (Xn = k / P = p)dp si x ≥ 1
0


 0 si x < 0






∫ x( )
 n k
p (1 − p)n−k dp si 0 ≤ x < 1
= k


0

 ∫ 1( )



 n k
 p (1 − p)n−k dp si x ≥ 1
0 k
- 524 -


 0 si x < 0



 ( )∫ x


 n
pk (1 − p)n−k dp si 0 ≤ x < 1
= k


0

 ( )



 n Γ(k + 1)Γ(n + 1 − k)
 si x ≥ 1
k Γ(k + 1 + n + 1 − k)
O sea,
P (A)
FP/Xn =k (x) = 1
n+1


 0 si x < 0



 ( )∫ x


 n
(n + 1) pk (1 − p)n−k dp si 0 ≤ x < 1
= k


0

 ( )



 n k!(n − k)!
 (n + 1) si x ≥ 1
k (n + 1)!
Como FP/Xn =k es función continua y derivable, salvo posiblemente en x = 0 y
x = 1, entonces, una densidad para P , condicional a Xn = k, está dada por
{ d
fP/Xn =k (x) = dx FP/Xn =k (x) si la derivada existe
0 e.o.c.
{ (n ) k
(n + 1) k x (1 − x)n−k si 0 < x < 1
=
0 e.o.c.
{
Γ(n+2)
Γ(k+1)Γ(n+1−k) x (1 − x)
k n−k si 0 < x < 1
=
0 e.o.c.
Por lo tanto, P / Xn = k ∼ Beta (k + 1, n + 1 − k).
Problema 2.8.L:
∫ ∞
a) Para k ∈ {0, 1, 2, . . .}, P (Y = k) = P (Y = k/X = x)fX (x)dx
−∞
∫ ∞
xk −x 1 α−1 −x
= e x e dx
0 k! Γ(α)
∫ ∞
1
= x(k+α)−1 e−2x dx
0 k! Γ(α)
∫ ∞
1 1
= · (k+α) u(k+α)−1 e−u du (u = 2x)
0 k! Γ(α) 2
∫ ∞
Γ(k + α) 1
= u(k+α)−1 e−u du
Γ(α) k! 2k+α 0 Γ(k + α)
- 525 -
Γ(k + α)
= · 1.
k! Γ(α) 2k+α
b) f(X,Y ) (x, y) = fY /X=x (y) fX (x)

 y


x −x 1
xα−1 e−x si x > 0, y ∈ {0, 1, 2, . . .}
 e
y! Γ(α)
=



0 e.o.c.
 (y+α)−1

 x
 e−2x si x > 0, y ∈ {0, 1, 2, . . .}
= y! Γ(α)



0 e.o.c.
de donde,


 fX,Y (x, k)
 si k ∈ {0, 1, . . .}
pY (k)
fX/Y =k (x) =



0 e.o.c.
 (k+α)−1 −2x

 x e k!Γ(α)2k+α
 · si x > 0, k ∈ {0, 1, 2, . . .}
= k! Γ(α) Γ(k + α)



0 e.o.c.
c)
E(Y ) = E(E(Y /X)) = E(E(Y /X = x) ◦ X).
Pero,
∞
∑ ∞
∑ xk
E(Y /X = x) = kpY /X=x (k) = k e−x = x.
k!
k=0 k=0
por lo tanto,
E(Y ) = E(X) = α.
También,
∞
∑
E(Y ) = k pY (k)
k=0
∑∞
Γ(k + α) 1
= k · k+α .
k!Γ(α) 2
k=0
Ahora considerando α = n, para n = 1, 2, 3, . . . , se tiene por una parte que E(Y ) = n
- 526 -
y también
∞
∑ k Γ(k + n) 1
E(Y ) = ·
k!Γ(n) 2k+n
k=0
∞
∑ 1 (k + n − 1)! 1
= · · k+n
(k − 1)! (n − 1)! 2
k=1
∞ (
∑ )
k+n−1 1
= n
n 2k+n
k=1
∞ ( )
1 ∑ k+n−1 1
= n n ,
2 n 2k
k=1
o sea
∞ (
∑ )
n k+n−1 1
2 = .
n 2k
k=1
d) Para x ∈ R,
FX/Y =k (x) = P (X ≤ x/Y = k)
P (X ≤ x, Y = k)
=
P (Y = k)
P (X ≤ x, Y = k)
= Γ(1+k)
(por parte a)
k!Γ(1)21+k
= 2k+1 P (X ≤ x, Y = k).
Calculemos ahora la probabilidad del suceso A = (X ≤ x, Y = k).
Usando teorema de probabilidades totales (versión continua), se tiene que
∫ ∞
P (A) = P (A/X = z)fX (z)dz
−∞
∫ ∞
= P (X ≤ x, Y = k/X = z)e−z dz
∫ ∞
0
= P (z ≤ x, Y = k/X = z)e−z dz
0

 0 si x < 0

= ∫ x


 P (Y = k/X = z)e−z dz si x ≥ 0
0


 0 si x < 0

= ∫


x
z k −z −z
 e e dz si x ≥ 0
0 k!
- 527 -
O sea, 
 0 ∫
si x < 0
x
FX/Y =k (x) = z k −2z
 2k+1 e dz si x ≥ 0
0 k!
Como FX/Y =k es función continua y derivable, salvo posiblemente en x = 0, entonces
una densidad para X, condicional a Y = k, está dada por

 d
 FX/Y =k (x) si la derivada existe
fX/Y =k (x) = dx


0 e.o.c.


 xk
 2k+1 e−2x si x > 0
= k!


 0 e.o.c.


 2k+1
 x(k+1)−1 e−2x si x > 0
Γ(k + 1)
=



0 e.o.c.
es decir, X/Y = k ∼ Gamma(k + 1, 2).
Problema 2.8.M: Primeramente, nótese que Rec NT = N0 . Sea k ∈ N0 y A el

suceso definido por A = (NT = k). Entonces,
∫ ∞
P (A) = P (A/T = t)fT (t)dt
−∞
∫ ∞
= P (A/T = t)µe−µt dt
∫0 ∞
= P (Nt = k/T = t)µe−µt dt
∫ ∞
0
= P (Nt = k)µe−µt dt (Nt y T independientes)

0
∫ ∞
(λt)k −µt
= e−λt µe dt
0 k!
∫ ∞
λk 1
= µ xk e−x dx (x = (λ + µ)t)
k! (λ + µ)k+1 0
λk 1
= µ k!
k! (λ + µ)k+1
( )k
µ λ
=
λ+µ λ+µ
λ
= pk (1 − p), con p = .
λ+µ
- 528 -
Por lo tanto,
P (NT = k) = (1 − p)pk , para todo k ∈ {0, 1, 2, . . .},
o sea
NT ∼ G(1 − p).
Problema 2.8.N: Se pide calcular E(NT ). Según problema anterior, NT ∼ G(1 − p) con
λ
parámetro p = λ+µ , luego,
1 λ+µ
E(NT ) = = .
1−p µ
Problema 2.8.O: Como

p(X,Y ) (i, j)
PX/Y =j (i) = ,
pY (j)
entonces, Problema 2.6.H implica que
1
32 0
pX/Y =0 (0) = 1 = 1, pX/Y =0 (1) = 1 = 0,
32 32
0 0
pX/Y =0 (2) = 1 = 0, pX/Y =0 (3) = 1 = 0,
32 32
0 0
pX/Y =0 (4) = 1 = 0, pX/Y =0 (5) = 1 = 0.
32 32
También,
5
0
pX/Y =1 (0) = 15 = 0, pX/Y =1 (1) = 32
15 = 13 ,
32 32
4 3
4
pX/Y =1 (2) = 32
15 = 15 , pX/Y =1 (3) = 32
15 = 15 ,
32 32
2 1
32 2 32 1
pX/Y =1 (4) = 15 = 15 , pX/Y =1 (5) = 15 = 15 .
32 32
Análogamente,
pX/Y =2 (0) = 0, pX/Y =2 (1) = 0, pX/Y =2 (2) = 25 ,
pX/Y =2 (3) = 25 , pX/Y =2 (4) = 51 , pX/Y =2 (5) = 0,
pX/Y =3 (0) = 0, pX/Y =3 (1) = 0, pX/Y =3 (2) = 0,
pX/Y =3 (3) = 1, pX/Y =3 (4) = 0, pX/Y =3 (5) = 0.

Pero,
∑
5
E(X/Y = j) = ipX/Y =j (i), j ∈ {0, 1, 2, 3},
i=0
- 529 -
luego
a)
7
E(X/Y = 0) = 0, E(X/Y = 1) = ,
3
14
E(X/Y = 2) = , E(X/Y = 3) = 3.
5
b)
∑
3
E(E(X/Y )) = E(X/Y = j)pY (j)
j=0
7 15 14 15 1
= · + · +3·
3 32 5 32 32
5
= .
2
Nótese que E(E(X/Y )) = E(X), lo cual se verifica siempre.
c) También, para j ∈ {0, 1, 2, 3},
V (X/Y = j) = E(X 2 /Y = j) − (E(X/Y = j))2
y
∑
5
E(X 2 /Y = j) = i2 pX/Y =j (i),
i=0
por lo que, usando a) nuevamente, se concluye que
E(X 2 /Y = 0) = 0 E(X 2 /Y = 1) = 7,
E(X 2 /Y = 2) = 42
5 E(X 2 /Y = 3) = 9.
De esta forma
V (X/Y = 0) = 0 − 02 = 0,
( )2
7 14
V (X/Y = 1) = 7 − = ,
3 9
( )2
42 14 14
V (X/Y = 2) = − = ,
5 5 25
V (X/Y = 3) = 9 − 32 = 0.
- 530 -
En consecuencia,
∑
3
E(V (X/Y )) = V (X/Y = j)pY (j)
j=0
14 15 14 15
= · + ·
9 32 25 32
119
= .
120
d) Sea Z = X − E(X/Y ). Como V (Z) = E(Z 2 ) − (E(Z))2 y

E(Z) = E(X − E(X/Y ))
= E(X) − E(E(X/Y ))
= E(X) − E(X)
= 0,
entonces
V (Z) = E(Z 2 )
= E(X − (E(X/Y ))2 )
∑∑
= (i − E(X/Y = j))2 p(X,Y ) (i, j)
i j
( ) ( ) ( )
7 2 5 7 2 4 7 2 3
= 1− + 2− + 3−
3 32 3 32 3 32
( ) ( ) ( )
7 2 2 7 2 1 14 2 6
+ 4− + 5− + 2−
3 32 3 32 5 32
( ) ( )
14 2 6 14 2 3
+ 3− + 4−
5 32 5 32
119
= .
120
Problema 2.8.P:
a) Si r < 4,
∫ ∞
4
E(Y ) =
r
yr dy
1 y5
∫ ∞
= 4 y r−5 dy
1
- 531 -
∞
y r−5+1
= 4
r − 5 + 1 1

4 1 ∞
=
r − 4 y 4−r 1
4
= (0 − 1)
r−4
4
= .
4−r
b) Sea h(y) = E(X/Y = y). Como X/Y = y ∼ N (y 2 , y), entonces h(y) = y 2 . Luego
E(X) = E(E(X/Y ))
= E(hoY )
= E(Y 2 )
4
=
4−2
= 2.
c) Nótese que
E(XY /Y = y) = E(Xy/Y = y)
= yE(X/Y = y)
= yy 2
= y3,
de donde
E(XY /Y ) = Y 3 .
De esta forma,
E(XY ) = E(E(XY /Y ))
= E(Y 3 )
4
=
4−3
= 4,
por lo que
Cov(X, Y ) = E(XY ) − E(X)E(Y )

4
= 4−2·
3
4
= .
3
- 532 -
Problema 2.8.Q:
a) Nótese que X ∼ B(n, p), Y /X = x ∼ B(x, α) y
p(X,Y ) (x, y) = pY /X=x (y) pX (x).
Sea x ∈ {0, 1, . . . , n}, entonces,

 ( )

 x
 αy (1 − α)x−y si y ∈ {0, 1, . . . , x}
y
pY /X=x (y) =



0 e.o.c.
y
 ( )

 n x
 p (1 − p)n−x si x ∈ {0, 1, . . . , n}
x
pX (x) =



0 e.o.c.
luego,
 ( ) ( )

 x y x−y n x ∈ {0, 1, . . . , n}
 α (1 − α) px (1 − p)n−x si
y x y ∈ {0, 1, . . . , x}
p(X,Y ) (x, y) =



0 e.o.c.
b) Sea Z = X − Y (el número final de artı́culos defectuosos después de la segunda

inspección), entonces Rec Z = {0, 1, 2, . . . , n} y
pZ (k) = P (X − Y = k)
∑n
= P (X − Y = k/X = x)P (X = x)
x=0
∑n
= P (Y = x − k/X = x)P (X = x)
x=0
∑n
= P (Y = x − k/X = x)P (X = x)
x=k
∑n
= p(X,Y ) (x, x − k)
x=k
∑n (
)( )
n x
= px (1 − p)n−x αx−k (1 − α)k
x x−k
x=k
∑ ( n )( k + j )
n−k
= pk+j (1 − p)n−(k+j) αk+j−k (1 − α)k
k+j k+j−k
j=0
- 533 -
∑(
n−k
n
)( )
k+j j
= (1 − α) p
k k
p (1 − p)n−j−k αj
k+j j
j=0
n−k ( )
n! (1 − α)k pk ∑ n − k
= · (pα)j (1 − p)(n−k)−j
(n − k)! k! j
j=0
( )
n
= (1 − α)k pk (pα + (1 − p))n−k
k
( )
n
= ((1 − α)p)k (1 − (1 − α)p)n−k ,
k
o sea X − Y ∼ B(n, (1 − α)p).
c)
E(Y ) = E(E(Y /X))
y
E(Y /X = x) = αx,
por lo que
E(Y /X) = αX.
Por lo tanto
E(Y ) = E(αX) = αE(X) = α n p.
Problema 2.8.R:
a) Según Ejemplo 2.6.21, X1 + X2 ∼ Gamma(2, θ), es decir,
θ2 2−1 −θt
fX1 +X2 (t) = t e , t > 0.
Γ(2)
Encontremos ahora la distribución conjunta de (X1 , X1 + X2 ).

Sea G0 = {(x, y) ∈ R2 : x > 0, y > 0} y G = {(x, y) ∈ R2 : 0 < x < y}.
Entonces, la función g : G0 → G, definida por g(x, y) = (x, x + y), es una biyección,
g −1 (x, y) = (x, y − x) y el jacobiano de g −1 en cualquier punto (a, b) ∈ G es 1.
Como (X1 , X1 + X2 ) = g(X1 , X2 ), entonces Teorema de transformación de variables
implica que
{
f(X1 ,X2 ) (u, v − u) si 0 0,

f(X1 ,X1 +X2 ) (s, t)
fX1 /X1 +X2 =t (s) =
fX1 +X2 (t)
θ2 e−θt I(0<s<t)
= θ2 2−1 −θt
Γ(2) t e
1
= I .
t (0<s<t)
b)
E(Z/X1 + X2 = t) = 1 P (Z = 1/X1 + X2 = t) + 0 P (Z = 0/X1 + X2 = t)
= P (X1 > x0 /X1 + X2 = t)

∫ ∞
= fX1 /X1 +X2 =t (s)ds
x0
∫ t
1
= ds
x0 t
x0
=1− (si x0 < t).
t
Problema 2.8.S:
∑
d
a) E(Xn+1 /Xn = x) = y P (Xn+1 = y/Xn = x),
y=0
luego

 0 si x = 0
E(Xn+1 /Xn = x) = d si x = d

(x − 1) 12 + (x + 1) 21 si 0 < x < d
Por lo tanto E(Xn+1 /Xn = x) = x, para todo x ∈ {0, 1, . . . , d}.
b) Por a) se tiene que, para todo n ≥ 0,
E(Xn+1 /Xn ) = Xn (P (Xn ∈ {0, 1, . . . , d}) = 1).
Pero,
E(E(Xn+1 /Xn )) = E(Xn+1 ),
o sea
E(Xn+1 ) = E(Xn ), para todo n ≥ 0,
- 535 -
de donde
1
E(Xn ) = , para todo n ≥ 0.
5
Problema 2.8.T:
V (Y /X) = E(Y 2 /X) − (E(Y /X))2 ,

o sea
E(V (Y /X)) = E(E(Y 2 /X)) − E((E(Y /X))2 )

= E(Y 2 ) − E((E(Y /X))2 )
= E(Y 2 ) − [E((E(Y /X))2 ) − (E(Y ))2 + (E(Y ))2 ]
= E(Y 2 ) − (E(Y ))2 − [E((E(Y /X))2 ) − (E(E(Y /X)))2 ]
= V (Y ) − V (E(Y /X)).
Por lo tanto,
V (Y ) = E(V (Y /X)) + V (E(Y /X)).
∑
Problema 2.8.U: Según Problema 2.5.I (X, Y ) ∼ N (µ, ), con µ = (2, 1) y
∑ ( )−1 [ ]
1 − 21 8
7
2
7
= = .
− 21 2 2
7
4
7
Luego, µ1 = 2, µ2 = 1, σ12 = 87 , σ22 = 4

7 y Cov(X, Y ) = 27 Ṗor lo tanto,
( )
a) X/Y = y ∼ N 32 + 12 y , 1 ,
b) E(X/Y ) = 3
2 + 12 Y .
Problema 2.8.V:
a)
 ∫ √
∫ ∞  1−x2
1
fX (x) = f (x, y)dy = √ dy si −1 < x < 1
 − 1−x2 π
−∞
0 e.o.c.
{ √
2 1−x2
si −1 < x < 1
= π
0 e.o.c.
Luego, para −1 < x < 1,
{ √ √
fX,Y (x, y) √1
2 1−x2
si − 1 − x2 < y < 1 − x2
fY /X=x (y) = =
fX (x) 0 e.o.c.
- 536 -
Además, para −1 < x < 1,

∫ ∞
E(Y /X = x) = yfY /X=x (y)dy
−∞
∫ √1−x2
1
= √ y √ dy
− 1−x2 2 1 − x2
1
= √ 0
2 1 − x2
= 0,
o sea
E(Y /X) = 0.
b)
∫ ∞
fY (y) = f (x, y)dx
−∞
{ √
2 1−y 2
= π si −1 < y < 1
0 e.o.c.
o sea,
fY /X=x (y) ̸= fY (y),
por lo tanto, X e Y no son independientes.
c) Nótese que Cov(X, Y ) = Cov(X, E(Y /X)),
ya que
E(XE(Y /X)) = E(E(XY /X))
= E(XY )
y
E(E(Y /X)) = E(Y ).
Por lo tanto,
Cov(X, Y ) = Cov(X, 0)
= 0.
Problema 2.8.W: Sean

Yi = número de heridos en el i-ésimo accidente (i ≥ 1),
X = número de accidentes en la semana.
Luego, ( )
∑
X ∑
0
Y = Yi =0 .
i=1 i=1
- 537 -
a)
∑
E(Y /X = r) = E( Xi=1 Yi /X = r) (r ≥ 0)
∑
= E( ri=1 Yi /X = r)
∑
= E( ri=1 Yi )
= ε r,
o sea
E(Y /X) = εX,
de donde
E(Y ) = E(E(Y /X))

= E(εX)
= εE(X)
= ε µ.
b)
V (Y ) = E(Y 2 ) − (εµ)2
y
E(Y 2 ) = E(E(Y 2 /X)).
Pero
∑r
E(Y 2 /X = r) = E(( 2
i=1 Yi ) )
∑r ∑r 2
= V( i=1 Yi ) + (E( i=1 Yi ))
∑
r ∑
r
= V (Yi ) + ( E(Yi ))2
i=1 i=1
= τ 2 r + ε2 r 2 ,
o sea
E(Y 2 /X) = τ 2 X + ε2 X 2 .
Por lo tanto,
E(Y 2 ) = E(τ 2 X + ε2 X 2 )
= τ 2 E(X) + ε2 E(X 2 )
= τ 2 µ + ε2 (σ 2 + µ2 ),
de donde
V (Y ) = τ 2 µ + ε2 σ 2 .
- 538 -
Problema 2.8.X: Nótese que

∑
m
E(Sm /Sn = k) = E( Xi /Sn = k)
i=1
∑
m
= E(Xi /Sn = k).
i=1
Además, para 1 ≤ i ≤ m,
E(Xi /Sn = k) = 0 · pXi /Sn =k (0) + 1 · pXi /Sn =k (1)
P (Xi = 1, Sn = k)
=
P (Sn = k)
y
P (Xi = 1, Sn = k) = P (i − ésimo ensayo tiene éxito y k − 1 de los otros
n − 1 ensayos restantes tiene éxito)
= P (i − ésimo ensayo tiene éxito)

·P (k − 1 de los otros n − 1 ensayos restantes tiene éxito),
por lo tanto
(n−1) k−1 (1 − p)n−k
p k−1 p
E(Xi /Sn = k) = (n )
k p (1 − p)
k n−k
(n − 1)! k!(n − k)!

= ·
(k − 1)!(n − k)! n!
k
= .
n
Luego,
∑
m ∑
m
k
E(Xi /Sn = k) =
n
i=1 i=1
m
= · k,
n
o sea
m
E(Sm /Sn ) = · Sn .
n
Otra solución:
Sn = E(Sn /Sn )
∑
n
= E(Xi /Sn )
i=1
= n E(X1 /Sn ) (pues X1 , . . . , Xn son iid),
- 539 -
o sea
Sn
= E(X1 /Sn ),
n
luego
∑
m
E(Sm /Sn ) = E(Xi /Sn )
i=1
= m E(X1 /Sn )
Sn
= m·
n
m
= · Sn .
n
Problema 2.8.Y:
{
9x2 y 2 si (x, y) ∈]0, 1[×]0, 1[
f(X1 ,X2 ) (x, y) = fX1 (x) fX2 (y) =
0 e.o.c.
Sea g la función definida por g(a, b) = ( ab , ab). Entonces g, definida sobre
G0 =]0, 1[×]0, 1[ y con valores = {(u, v) ∈ R : 0 < v < u, 0 < uv < 1}, es
√ en G √
2
una biyección y g −1 (u, v) = ( uv u, v

u ). Además, el jacobiano de g
−1 en todo punto
(u, v) ∈ G es igual a 2u .
1
u=v
1111111111111111
0000000000000000
1
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
0000000000000000
1111111111111111
uv = 1
0000000000000000
1111111111111111
0000000000000000
1 u
Figura 2.8.B: Región sombreada representa G.

Por Teorema de transformación de variables aleatorias, se tiene que
{ √ √
f(X1 ,X2 ) ( uv u, uv ) 2u
1
si 0 < v < u, 0 < uv < 1
f(Y1 ,Y2 ) (u, v) =
0 e.o.c.
{
9· v
u · u2 · v
u · 1
2u si 0 < v < u, 0 < uv < 1
=
0 e.o.c.
{ v2
9
2 · u si 0 < v < u, 0 < uv < 1
=
0 e.o.c.
- 540 -
luego,
 ∫
∫ ∞ 
1
v 9 v2
fY2 (v) = f(Y1 ,Y2 ) (u, v)du = · du si 0 < v < 1
 v 2 u
−∞
0 e.o.c.
{
−9v 2 ln(v) si 0 < v < 1
=
0 e.o.c.
por lo tanto,
∫ ∞
E(Y1 /Y2 = v) = ufY1 /Y2 =v (u)du
−∞
 ∫ 1 2
 v · vu 9
u· 2
du si 0 < v < 1
=
 v −9 · v 2 ln(v)
0 e.o.c.
{
1−v 2
− 21 · 1
ln(v) · v si 0 < v < 1
=
0 e.o.c.
o sea,
{
−1 1−Y22
· si 0 < Y2 < 1
E(Y1 /Y2 ) = 2 ln(Y2 ) Y2
0 e.o.c.
−1 1 − Y22
= · I(0<Y2 <1)
2 ln(Y2 ) Y2
Problema 2.8.Z:
a) Si n = 0,
E(X0+1 ) =E(X1 ) = E(Z10 ) = µ,
(X ) ( (X ))
∑ n ∑ n
E(Xn+1 ) =E Zkn =E E Zkn /Xn .

k=1 k=1
Pero,
(X ) ( )
∑n ∑
r
E Zkn /Xn = r =E Zkn /Xn = r
k=1 k=1
= r E(Zrn /Xn = r) (igual distribución)
= r E(Zrn ) ((Xn = r) es independiente de Zrn )
= r µ,
- 541 -
o sea (X )
∑ n
E Zkn /Xn = Xn µ,
k=1
por lo tanto ( (X ))
∑n
E(Xn+1 ) = E E Zkn /Xn

k=1
= E(Xn µ)
= µ E(Xn ).
Pero,
E(X1 ) = µ,
de donde
E(X2 ) = µ E(X1 ) = µ2 ,
por lo que
E(X3 ) = µ E(X2 ) = µ3 .
Inductivamente, E(Xn+1 ) = µn+1 , para todo n ≥ 0.
b) E(Xn+1
2 ) = E(E(X 2 /X )) y
n+1 n
E(Xn+1
2
/Xn = r) = Var(Xn+1 /Xn = r) + (E(Xn+1 /Xn = r))2
(X )
∑n
= V ar Zkn /Xn = r + (rµ)2

k=1
( )
∑r
= V ar Zkn /Xn = r + (rµ)2
k=1
= r V ar (Zrn /Xn = r) + (rµ)2
= r V ar (Zrn ) + (rµ)2
= rσ 2 + r2 µ2 .
Luego,
E(Xn+1
2
/Xn ) = Xn σ 2 + Xn2 µ2 ,
por lo tanto
E(Xn+1
2
) = E (E(Xn+1
2
/Xn ))
= E(Xn σ 2 + Xn2 µ2 )
= σ 2 E(Xn ) + µ2 E(Xn2 )
= σ 2 µn + µ2 E(Xn2 ).
- 542 -
En consecuencia,
Var(Xn+1 ) = σ 2 µn + µ2 E(Xn2 ) − (µn+1 )2

= σ 2 µn + µ2 (E(Xn2 ) − (µn )2 )
= σ 2 µn + µ2 (E(Xn2 ) − (E(Xn ))2 )
= σ 2 µn + µ2 V ar(Xn ).
Pero,
V ar(X1 ) = V ar(Z10 )
= σ2 ,
de donde
V ar(X2 ) = σ 2 µ + µ2 σ 2
= σ 2 (µ2 + µ)
= σ 2 µ (µ + 1).
También
V ar(X3 ) = σ 2 µ2 + µ2 (σ 2 µ + µ2 σ 2 )
= σ 2 (µ4 + µ3 + µ2 )
= σ 2 µ2 (µ2 + µ + 1).
Inductivamente,
V ar(Xn ) = σ 2 µn−1 (µn−1 + µn−2 + · · · + µ + 1)

 2 n−1 µn −1
 σ µ µ−1 si µ ̸= 1
=

σ2 n si µ = 1
c)
lim E(Xn+1 ) = lim µn+1

n→∞ n→∞
= 0, pues 0 < µ < 1,

o sea, se espera que en el largo plazo se extinga la población (si cada individuo tiene
un número esperado de hijos igual a µ, en cada generación).
- 543 -
Problema 2.8.AA:
a) Usando Problema 2.6.S, con αi = n1 , i = 1, . . . , n, se concluye que
( )
X̄ ∼ N 0, n1 .
b) Para mostrar que X̄ es independiente de S 2 , es suficiente mostrar que X̄ es inde-

pendiente del vector (X1 − X̄, . . . , Xn − X̄), ya que S 2 = g(X1 − X̄, . . . , Xn − X̄),
con
1 ∑ 2
n
g(a1 , . . . , an ) = ai .
n−1
i=1
Por otra parte, el vector (X̄, X1 − X̄, . . . , Xn − X̄) es normal multivariado (ya que
cada componente del vector es combinación lineal de variables aleatorias normales
(0, 1) e independientes).
Luego, para demostrar la independencia de X̄ con S 2 , es suficiente demostrar que
X̄ y Xi − X̄ son independientes, para todo i ∈ {1, . . . , n}.
Pero, la variables aleatorias X̄ y Xi −X̄ son normales (para todo i ∈ {1, . . . , n}), por
lo que demostrar su independencia equivale a demostrar que Cov(X̄, Xi − X̄) = 0.
Finalmente,
Cov(X̄, Xi − X̄) = Cov(X̄, Xi ) − Cov(X̄, X̄)

= Cov(X̄, Xi ) − V (X̄)
( n ) ( n )
1∑ 1∑
= Cov Xk , X i − V Xk
n n
k=1 k=1
( n )
1∑ ∑
n
1
= Cov (Xk , Xi ) − 2 V Xk
n n
k=1 k=1
1 1 ∑
n
= Cov(Xi , Xi ) − 2 V (Xk ) (las Xk son independientes)
n n
k=1
1 ∑
n
1
= − 2 1 (X1 , . . . , Xn son normales (0,1))
n n
k=1
= 0.
Problema 2.8.AB:
a)
( )
X1 + X2 θ+θ
E(Y ) = E = = θ,
2 2
1 1
V (Y ) = (V (X1 ) + V (X2 )) = .
4 2
- 544 -
b)
S = E(Y /T )
( )
X1 + X2
= E /X1
2
1 1
= E(X1 /X1 ) + E(X2 /X1 )
2 2
1 1
= X1 + E(X2 /X1 ) (principio de sustitución)
2 2
1 1
= X1 + E(X2 ) (X1 , X2 son independientes)
2 2
1 1
= X1 + θ.
2 2
c)
1 1 1 1
E(S) = E(X1 ) + θ = θ + θ = θ,
2( 2) 2 ( 2 )
1 θ 1 1
V (S) = V X1 + =V X1 = .
2 2 2 4
Ası́, V (S) ≤ V (Y ).
d)
f(X1 ,X2 )/T =t (x1 , x2 ) = f(X1 ,X2 )/T =t (x1 , x2 )

= fX2 (x2 ), si x1 = t
{ }
1 1
= √ exp − (x2 − θ) . 2
2π 2
Problema 2.8.AC:
a)
E(Y ) =E(I(Xn =1) )

=1 · P (I(Xn =1) = 1) + 0 · P (I(Xn =1) = 0)
=P (Xn = 1)
=θ.
Por otra parte,
2
V (Y ) =E(I(Xn =1)
) − θ2
=θ − θ2 .
- 545 -
b) E(Y /T ) = k ◦ T , donde k(t) es la función

k(t) = E(Y /T = t)
= E(I(Xn =1) /X1 + · · · + Xn = t)
= 1 · P (Xn = 1/X1 + · · · + Xn = t) + 0 · P (Xn = 0/X1 + · · · + Xn = t)
P (Xn = 1, X1 + · · · + Xn = t)
=
P (X1 + · · · + Xn = t)
P (Xn = 1, X2 + · · · + Xn−1 = t − 1)
= .
P (X1 + · · · + Xn = t)
Como X1 + · · · + Xn ∼ B(n, θ) y Xn es independiente de X1 , . . . , Xn−1 , entonces


0 ( ) si t = 0
k(t) = θ n−1 θ t−1 (1 − θ)n−1−(t−1)


t−1
(n) si t ∈ {0, 1, . . . , n}
t θ (1 − θ)
t n−t
t
= , t ∈ {0, 1, . . . , n}.
n
Por lo tanto, E(Y /T ) = k ◦ T = T
n.
Problema 2.8.AD:
a) Sea k entero no negativo. Entonces Teorema de Probabilidades Totales (versión

“continua”) implica que
∫ ∞
P (X = k) = P (X = k/Y = λ)fY (λ)dλ
0
∫ ∞
λk β α
= e−λ
· · λα−1 e−βλ dλ
0 k! Γ(α)
∫
βα 1 ∞ α+k−1 −(1+β)λ
= · λ e dλ
Γ(α) k! 0
βα 1 Γ(α + k)
= · ·
Γ(α) k! (1 + β)α+k
( )α ( )k
Γ(α + k) β β
= 1− .
Γ(α)k! 1+β 1+β
Por lo tanto, la variable aleatoria X tiene distribución Binomial Negativa de parámetros

β
(α, p), con p = .
1+β
α+k
Notar que P (X = k + 1) = (1 − p)P (X = k), k ≥ 1 y P (X = 0) = pα .
k+1
- 546 -
b) Como X/Y = λ ∼ P(λ), entonces E(X/Y = λ) = λ, de donde E(X/Y ) = Y.

α
Pero, E(E(X/Y )) = E(X), por lo que E(X) = E(Y ) = (ya que Y ∼ Gamma(α, β)).
β
Finalmente,
1
α α 1+β α(1 − p)
= β = .
β p
1+β
c) Como X/Y = λ ∼ P(λ), entonces V (X/Y = λ) = λ, de donde V (X/Y ) = Y .

Además,
V (X) = E(V (X/Y )) + V (E(X/Y )),
de donde
V (X) = E(Y ) + V (Y )
α α
= + 2
β β
( )
α 1
= 1+ .
β β
1 1 α(1 − p)
Por último, 1 + = , por lo cual V (X) = .
β p p2
Problema 2.8.AE: M (t) = E (E(exp(tXY )/Y )).
E(exp(tXY )/Y ) = E(exp(tXY )/Y = y) ◦ Y,

E(exp(tXY )/Y = y) = E(exp(tXy)/Y = y),
E(exp(tyX)/Y = y) = E(exp(tyX)) (X e Y independientes),
( )
E(exp(tyX)) = exp 12 t2 y 2 .
Para la última igualdad se usa la función generadora de momentos de una variable N (0, 1).
Ası́, (1 ) ( 1 2 2)
E(exp(tXY )/Y ) = exp 2 t 2 2
y ◦ Y = exp 2t Y .
Pero Y ∼ N (0, 1), de donde Y 2 ∼ χ2(1) . Por lo tanto,
( )1
( (1 )) 1 2
1 2 1
E exp 2
2t Y
2
= , t <
1 − 2 12 t2 2 2
(función generadora de momentos de una variable chi-cuadrado con un grado de libertad).
- 547 -
En consecuencia,
( )1
1 2
M (t) = , |t| < 1.
1 − t2
SECCIÓN 2.9
Problema 2.9.A:


0 si x < 0
F (x) = FX (x) = x si 0 ≤ x < 1


1 si x ≥ 1


0 si x < 0
n ≤ x < n, k ∈ {1, . . . , n}
k
Fn (x) = FXn (x) = si k−1 k
 n+1

1 si x ≥ 1
Luego, para x ∈ [0, 1[c y n ≥ 1, Fn (x) = F (x), o sea, lim Fn (x) = F (x).
n→∞
Sea x ∈ [0, 1[, entonces existe k ∈ {1, . . . , n}, tal que x ∈ [ k−1
n ,
k
n [, de donde
k
Fn (x) = , para todo n ≥ 1.
n+1
[ k−1 [
Pero, F (x) = x, entonces F (x) ∈ n , k
n , por lo tanto
−1 k−n−1 k−1 k k k k 1
< = − < F (x) − Fn (x) < − = < ,
n+1 n(n + 1) n n+1 n n+1 n(n + 1) n+1
o sea, para todo n ≥ 1,

−1 1
< F (x) − Fn (x) < ,
n+1 n+1
(esta desigualdad no depende de k) por lo tanto
lim F (x) − Fn (x) = 0,

n→∞
es decir
lim Fn (x) = F (x).
n→∞
- 548 -
Problema 2.9.B: Para ε > 0,

( )
Z
P | − 1| > ε = P (|Z − (λ1 + λ2 )| > ε(λ1 + λ2 ))
λ1 + λ2
= P (|Z − E(Z)| > ε(λ1 + λ2 ))
V (Z)
≤ (Desigualdad de Chebyshev)
ε2 (λ1 + λ2 )2
λ1 + λ2
=
ε (λ1 + λ2 )2
2
1 1
= 2
.
ε λ1 + λ2
Ası́ entonces
Z P
→ 1,
− cuando λ1 + λ2 → ∞,
λ1 + λ2 n
en particular
Z D
−
→ 1, cuando λ1 + λ2 → ∞.
λ1 + λ2 n
Problema 2.9.C: Para j ≥ 2,
∑
j ( ) ∑
j
1 2 1
E(Xj ) = (−k) 3 + 0 1− 2 + k 3 =0
j j j
k=1 k=1
∑
j ∑
j
2
E(Xj2 ) = 2
k P (Xj = k) = k2
j3
k=1 k=1
2 ∑ 2
j
= k
j3
k=1
2 j (j + 1) (2j + 1)
= 3· ,
j 6
por lo tanto
V (Xj ) = E(Xj2 ) − (E(Xj ))2

( )
1 3 1
= 2+ + 2 .
3 j j
- 549 -
Para ε > 0,
( ∑n )  
∑ ∑
X
j=1 j n n

P − 0 > ε = P  Xj − E( Xj ) > εnα 
nα j=1
j=1
∑
V ar( nj=1 Xj )
≤ (Desigualdad de Chebyshev)
ε2 n2α
∑n
j=1 V ar(Xj )
= (independencia)
ε2 n2α
1 ∑n 3 1
3 j=1 (2 + j + j 2 )
=
ε2 n2α
1 ∑n
3 j=1 (2 + 3 + 1)
≤
ε2 n2α
3 · 6n
1
=
ε2 n2α
2 1
= 2
· 2α−1 ,
ε n
pero, α > 12 , por lo tanto
1
lim = 0.
n→∞ n2α−1
Luego, para todo ε > 0,
( ∑n )
i=1 Xi

lim P
− 0 > ε = 0,
n→∞ nα
es decir ∑n
i=1 Xi P
→
− 0.
nα n
Problema 2.9.D: Sea ε > 0 y n ∈ N, entonces

1
P (|Xn − 0| > ε) = P (Xn = n) = ,
n
o sea, para todo ε > 0,
lim P (|Xn − 0| > ε) = 0.
n→∞
Además, para todo n ≥ 1,
E(|Xn − 0|) = E(|Xn |) = 0 · P (Xn = 0) + n · P (Xn = x) = 1,
o sea
lim E(|Xn − 0|) = 1,
n→∞
- 550 -
por lo tanto (Xn ) no converge en L1 .
Problema 2.9.E: Para todo n ≥ 1,
a a2
E(Xn ) = , V ar(Xn ) = .
2 12
c.s. P
Ley fuerte de Kolmogorov implica que Yn −−→ a
2, en particular, Yn −
→ a
2 (y también
n n
D
Yn −
→ a2 ).
n
Además,
n · a2 a
lim E(Yn ) = lim =
n→∞ n→∞ n 2
y
( a)
lim V ar Yn − = lim V ar(Yn )
n→∞ 2 n→∞
2
n · a12
= lim
n→∞ n2
= 0.
Por lo tanto
L2 a
Yn −→ .
n 2
Problema 2.9.F:
a) Como X tiene distribución Poisson de parámetro λ, entonces, ΦX (t) = eλ(e −1) ,

it
para todo t ∈ R. También, para todo t ∈ R, ΦX (t) = (ΦXn,1 (t))n , pues X es suma
de variables aleatorias independientes con igual distribución.
O sea,
it −1) 1
(eλ(e ) n = ΦXn,1 (t),
de donde
λ it −1)
ΦXn,i (t) = ΦXn,1 (t) = e n (e , i = 2, . . . , n.
Por lo tanto (λ)
Xn,i ∼ P n .
∑
b) Como Nnn = n1 ni=1 Nn,i , con Nn,i variables aleatorias iid P(θ), entonces Ley fuerte
de Kolmogorov implica que
Nn c.s.
−−→ E(N1,1 ) = θ,
n n
en particular
Nn D
−
→ θ.
n n
- 551 -
También (∑ )
n
V ar Nn,i = n θ = V ar(Nn ),
i=1
luego, Teorema del Lı́mite Central implica que

∑n ∑
Nn,i − E( ni=1 Nn,i ) Nn − n θ
√
i=1
∑n = √
V ar( i=1 Nn,i ) nθ
√ ( )
θ Nn D
= √ −n −→ N (0, 1).
n θ n
c) Como Nn ∼ P(nθ), entonces para x > 0,

( Nn )
F Nn (x) = P n ≤x
n
= P (Nn ≤ nx)
∑
[nx]
(nθ)k
= e−nθ .
k!
k=0
( Nn )
Pero, n ; n ≥ 1 converge en distribución a θ, luego
{
1 si x > θ
lim F Nn (x) =
n→∞ n 0 si x < θ
 
∑
[nx]
(nθ)k
O sea, la sucesión e−nθ ; n ≥ 0 converge a 0 si 0 < x < θ y a 1 si
k!
k=0
x > θ.
Problema 2.9.G: Como ΦXn +an (t) = ei tan ΦXn (t) y an → a, entonces ei tan → ei ta .
2
− t2 D
También ΦXn (t) → e , pues Xn −
→ N (0, 1).
n
Por lo tanto
t2 t2
ΦXn +an (t) −→ ei ta e− 2 = e− 2 +i ta .
D
Teorema de Levy implica que Xn + an −
→ N (a, 1).
n
Problema 2.9.H:
∏
n ( )
1
ΦYn (t) = ΦXk t (independencia)
2k
k=1
∏n ( )
1
= ΦX1 t (igual distribución)
2k
k=1
- 552 -
Pero,
ΦX1 (u) = E(eiuX1 ) = E(cos(uX1 )) + iE(sen(uX1 ))

( )
1 1 1 1
= cos(u) + cos(−u) + i sen(u) + sen(−u)
2 2 2 2
= cos(u),
luego
∏
n
( )
1
ΦYn (t) = cos 2k
t
k=1
∏
n 1
sen( 2k−1 t) sen(2θ)
= 1 (identidad cos(θ) = 2 sen(θ) ,
k=1
2 sen( 2k t )
siempre que θ ̸= π + 2mπ, m ∈ Z)
( )n
1 sen( 210 t)
= (propiedad telescópica de la productoria)
2 sen( 21n t)
( )n
1 sen(t)
=
2 sen( 21n t)
sen(t)
= ,
sen( 21n t)
t· 1
t
2n
o sea
sen(t) sen(t) 1
lim ΦYn (t) = lim = lim
n→∞ n→∞ sen( 21n t) t n→∞ sen( 21n t)
t 1
t 1
t
2n 2n
sen(t) 1 ( )
= · pues 1
2n t →0
t 1 n
sen(t)
= ,
t
para t ̸= 0 y t ̸= (π + 2mπ)2r , con m ∈ Z y r = 1, 2, . . ..
Si t = 0,
lim ΦYn (t) = lim 1 = 1.
n→∞ n→∞
Si t = (π + 2mπ)2r , con m∈Z y r = 1, 2, . . . ,
lim ΦYn (t) = lim 0 = 0.

n→∞ n→∞
Por lo tanto { sen(t)

t si t ̸= 0
lim ΦYn (t) =
n→∞ 1 si t = 0
- 553 -
También, si Y ∼ U (−1, 1), entonces

{ sen(t)
t si t ̸= 0
ΦY (t) =
1 si t = 0
Teorema de Levy implica que

D
Yn −
→ U (−1, 1) .
n
Problema 2.9.I:
a)
F Xn (x) = P (Xn ≤ nx)

n



0 si nx < 1

 ∑
[nx]
2i
= si 1 ≤ nx < n

 n(n + 1)

 i=1
1 si nx ≥ n


 0 si x < n1
[nx]([nx]+1)
= si n1 ≤ x < 1

 1
n(n+1)
si x ≥ 1
Caso 1: x ≤ 0
lim F Xn (x) = lim 0 = 0.
n→∞ n n→∞
Caso 2: x ≥ 1
lim F Xn (x) = lim 1 = 1.
n→∞ n n→∞
Caso 3: 0 < x < 1

[nx]([nx] + 1)
lim F Xn (x) = lim ,
n→∞ n n→∞ n(n + 1)
ya que existe n0 ∈ N tal que, para todo n ≥ n0 , 1

n < x.
Pero,
x(x − n1 ) (nx − 1)(nx − 1 + 1) [nx]([nx] + 1)

n+1 = ≤
n
n(n + 1) n(n + 1)
nx(nx + 1) x(x + n1 )
≤ = n+1
n(n + 1) n
- 554 -
y
x(x + n1 ) x(x − n1 )
lim n+1 = x2 = lim n+1 ,
n→∞ n→∞
n n
o sea
lim F Xn (x) = x2 ,
n→∞ n
de donde 
 0 si x ≤ 0
lim F Xn (x) = x2 si 0 < x < 1
n→∞ n 
1 si x ≥ 1
Por otra parte, si X ∼ Beta(2, 1), entonces


 Γ(2 + 1) 2−1
x (1 − x)1−1 si 0 < x < 1
fX (x) = Γ(2)Γ(1)

0 e.o.c.
{
2x si 0 < x < 1
=
0 e.o.c.
de donde 
 0 si x ≤ 0
FX (x) = x2 si 0 < x < 1

1 si x ≥ 1
Por lo tanto
Xn D
−
→ Beta(2, 1).
n n
b) Sea T :]0, 1[→ R función, definida por
t
T (t) = .
1−t
∫1 D
Como ]0, 1[ es abierto, P (X ∈ A) = 0 fX (x)dx = 1 y Xn
n −
→ X, entonces
n
( )
Xn D
T −
→ T (X),
n n
es decir
Xn D
−
→ T (X).
n − Xn n
Sea G0 = {x ∈ R : 0 < x < 1} y G = R+ . Entonces, la función H : G0 → G es
una biyección, H −1 (y) = 1+y
y
y el jacobiano de H −1 en y es (1+y)
1
2 . Por Teorema
- 555 -
de transformación de variables aleatorias se tiene que, una densidad para la variable

aleatoria H(X) está dada por
 ( )
 f 1
X 1+w ·
w
si w > 0
fH(X) (w) = (1 + w)2
 0 e.o.c.

 2· w · 1
si w > 0
= 1 + w (1 + w)2
 0 e.o.c.

 2w
si w > 0
= (1 + w)3
 0 e.o.c.
Problema 2.9.J: Para cada k ≥ 1,

E(Xk2 ) = V ar(Xk ) + (E(Xk ))2 = 1 + 02 = 1,
E((Xk − 1)2 ) = V ar(Xk − 1) + (E(Xk − 1))2 = V ar(Xk ) − (E(Xk ) − 1)2

= 1 + (0 − 1)2
= 2.
Además,
X12 +···+Xn2
n
Yn = (X −1)2 +···+(X 2 .
1 n −1)
n
X12 +···+Xn2 c.s.
Por la ley Fuerte de Kolmogorov n −−→ 1 (las variables aleatorias X12 , . . . , Xn2 , . . .
n
son iid pues las Xi lo son, además E(X1 ) = 1).
2
Análogamente,
(X1 − 1)2 + · · · + (Xn − 1)2 c.s.
−−→ 2,
n n
luego
c.s. 1
Yn −−→ .
n 2
Problema 2.9.K: Como

ΦaUn +bVn (t) = ΦaUn (t) ΦbVn (t)
= ΦUn (at) ΦVn (bt),
entonces por Teorema de Levy se tiene que
lim ΦaUn +bVn (t) = lim ΦUn (at) lim ΦVn (bt)
n→∞ n→∞ n→∞
= e− 2 (at) e− 2 (bt)
1 2 1 2
= e− 2 (a
1 2 +b2 )t2
,
- 556 -
(esta es la función caracterı́stica de una variable aleatoria N (0, a2 + b2 )), lo cual implica
que
D
aUn + bVn −
→ N (0, a2 + b2 ).
n
Problema 2.9.L: Por Teorema del Lı́mite Central
√
n D
(X̄n − µ) −
→ N (0, 1)
σ n
y
√
n D
(Ȳn − τ ) −
→ N (0, 1).
β n
√ √
n n
Sean Un = σ (X̄n − µ), Vn = β (Ȳn − τ ), (n ≥ 1). Problema 2.9.K implica que
D
(−στ ) Un + (βµ) Vn −
→ N (0, σ 2 τ 2 + β 2 µ2 ).
n
Por otra parte,
√ √
n (µ Ȳn − τ X̄n ) n [β µ β1 (Ȳn − τ ) + (−σ τ ) σ1 (X̄n − µ)]
Zn = =
µ X̄n µ X̄n
β µ Vn + (−σ τ ) Un
=
µ X̄n
c.s. P
y la Ley Fuerte de Kolmogorov implica que X̄n −−→ µ, en particular µX̄n −
→ µ2 .
n n
En consecuencia, Teorema de Slutsky implica que
( )
D 2 2 2 µ2
→ N 0, σ τ µ+β
Zn − 4 .
n
Problema 2.9.M: Nótese que, para todo n ≥ 1,
∑
n
Xn = θn−i εi .
i=1
- 557 -
a)
 
∑
n
V ar(Xn ) = V ar  θn−j εj 
j=1
∑
n
= V ar(θn−j εj )
j=1
∑
n
= (θn−j )2 σ 2
j=1
∑
n
= σ 2 θ2n (θ−2 )j
j=1
(1 − (θ−2 )n )θ−2
= σ 2 θ2n .
b) 1 − θ−2
 
∑
n ∑
n−k
Cov (Xn , Xn−k ) = Cov  θn−j εj , θn−k−j εj 
j=1 j=1
∑
n−k
= Cov(θn−j εj , θn−k−j εj )
j=1
∑
n−k
= θn−j+n−k−j σ 2
j=1
c) = θ−k V ar(Xn−k ).
∏
n
MXn (t) = Mεj (θn−j t)
j=1
∏
n
= Mε1 (θn−j t) (los εi tienen todos igual distribución N (0, σ 2 ))
j=1
∏
n
[1 ]
= exp 2 σ 2 (θn−j t)2
j=1
   
∑n
= exp  12 σ 2  θ2n−2j  t2 .
j=1
Luego  
∑
n
Xn ∼ N 0, σ 2 θ2n−2j .
j=1
- 558 -
∑
n
σ2
d) Como σ 2 θ2n−2i −→ 1−θ2
, cuando |θ| < 1, entonces, por criterio de Scheffé se
i=1 n
tiene que ( )
D σ2
Xn −
→ N 0, 1−θ 2 .
n
∑ A ∈ Mn (R). Luego, (X∑

e) (X1 , . . . , Xn ) = (ε1 , . . . , εn )A, con 1 , . . . , Xn ) es normal
n-variado y (X1 , . . . , Xn ) ∼ N (µ, ), con µ = (0, . . . , 0) y = [cij ]n×n , cij =
θ|i−j| V (Xmin{i,j} ).
Problema 2.9.N: Como

√ √
E( n (X̄n − m)) = n (E(X̄n ) − m)
√
= n (m − m)
= 0
y
√
V ar( n (X̄n − m)) = n V ar(X̄n )
 
1 ∑n ∑
= V ar(Xi ) + 2 Cov(Xi , Xj )
n
i=1 i<j
1
= [n σ 2 ρ + 2 ρ (n − 1)],
n
entonces
√ √
E( n (X̄n − m)) −→ 0 y V ar( n (X̄n − m)) −→ (σ 2 + 2) ρ.
n n
√
Pero, n (X̄n − m) es variable aleatoria normal (pues es combinación lineal de normales,
ya que (X1 , . . . , Xn ) es normal n-variado), luego Teorema de Scheffé implica que
√ D
n (X̄n − m) −→ N (0, (σ 2 + 2)ρ).
n
También
[ n ]
1 ∑ ∑ n
E(Sn2 ) = E(Xi2 ) − E(X̄n2 )
n−1
i=1 i=1
[ n ]
1 ∑ ∑ n
= (V (Xi ) + m2 ) − (V (X̄n ) + m2 )
n−1
i=1 i=1
[ ]
1 n σ 2 ρ + 2 ρ (n − 1)
= nσ ρ −
2
n
n−1 n2
y
V ar(Sn2 − σ 2 ρ) = V ar(Sn2 )
3σ 4 ρ2 (n − 3) 2 2
= − (σ ρ) ,
n (n − 1)n
- 559 -
luego
E(Sn2 ) −→ σ 2 ρ y V ar(Sn2 − σ 2 ρ) −→ 0,
L2
de donde Sn2 −→ σ 2 ρ.
n
P P √
En particular, Sn −
2 →σ 2 ρ y también Sn −
→ σ ρ.
n n
Finalmente, Slutsky implica que
√ ( )
n (X̄n − m) D 2
→ N 0, (σ σ+2)ρ
− 2ρ .
Sn n
Problema 2.9.O: Como E(X12 ) = V (X1 ) + (E(X1 ))2 = σ 2 + µ2 , entonces la ley fuerte
de Kolmogorov implica que
X12 + · · · + Xn2 c.s. 2
−−→ σ + µ2 ,
n n
en particular
X12 + · · · + Xn2 P 2
→ σ + µ2 .
−
n n
X1 +···+Xn c.s.
También la ley fuerte de Kolmogorov implica que n −−→ µ, en particular
n
(X1 + · · · + Xn )2 P 2
→µ .
−
n2 n
Pero, ( )
n X12 + · · · + Xn2 n (X1 + · · · + Xn )2
Sn2 = − · ,
n−1 n n−1 n2
luego teorema de Slutsky implica que
P
Sn2 −
→ 1 (σ 2 + µ2 ) − 1µ2 = σ 2
n
n
(ya que n−1 converge a uno).
Problema 2.9.P:
a)
FT (u) = P (T ≤ u)
= P (min{X1 , . . . , Xn } ≤ u)
(∫ ∞ )n
= 1− f (x, θ)dx
u

0 ( si u ≤ θ
∫ ∞ )n
= −(x−θ)
1 − e dx si u > θ
u
{
0 si u ≤ θ
= −n(u−θ)
1−e si u > θ
- 560 -
Como FT (u) es continua y derivable, salvo posiblemente en u = θ, entonces una

densidad para T es
fT (u) = ne−n(u−θ) I(u>θ) ,
para todo el u ∈ R.
b)
∫ ∞
E(T ) = xfT (x)dx
−∞
∫ ∞
= nenθ xe−nx dx
θ
∫ ∞
nθ 1
= ne ye−y dy, y = nx
n2 nθ
enθ [ −nθ ]
= e · 1!(nθ + 1)
n
1
= θ+ .
n
Nota: Para a > 0, m natural,

∫ ∞ ∑
m
m −v −a am−k
v e dv = e m! .
a (m − k)!
k=0
De esta forma,
E(S) = θ, si solo si
E (αT + β) = θ, si y solo si
αE(T ) + β = θ, si y solo si
1
αθ + + β = θ.
n
1
Ası́, para α = 1, β = − se obtiene que IE(S) = θ.
n
c)
( )
1
V (S) = V T −
n
= V (T )
( )
= IE T 2 − (IE(T ))2
( )
1 2
= E(T 2 ) − θ + .
n
- 561 -
Además,
∫ ∞
E(T ) = ne
2
x2 e−nx dx
nθ
θ
[ ( )]
enθ −nθ (nθ)2 nθ 1
= e · 2! + +
n2 2! 1! 0!
2θ 2
= θ2 + + 2.
n n
1
En consecuencia, V (S) = 2 .
n
d)
P (S ≤ γ) =p, si y solo si
( )
1
P T − ≤ γ =p, si y solo si
n
( )
1
P T ≤γ+ =p, si y solo si
n
( )
1
FT γ+ =p.
n
Como T es una variable aleatoria continua, su función de distribución es continua y
estrictamente creciente. y por ende admite inversa continua y estrictamente creciente
1
,γ + =FT−1 (p)
n
1
γ = − + FT−1 (p)
n
Como p ∈]0, 1[,
1
γ =θ − (1 + ln(1 − p)).
n
e)
P (|T − θ| > ε) = 1 − P (|T − θ| ≤ ε)
= 1 − P (−ε + θ ≤ T ≤ ε + θ)
= 1 − (FT (ε + θ) − FT (−ε + θ)).
Desde la parte a), obtenemos que FT (ε + θ) = 1 − e−n(ε+θ−θ) y FT (−ε + θ) = 0
(ε + θ > θ y −ε + θ < θ).
Por lo tanto,
lim P (|T − θ| > ε) = lim e−nε = 0.
n→∞ n→∞
Esto quiere decir que T converge en probabilidad a θ.
- 562 -
Problema 2.9.Q:
a)
( )
FM (u) = P max {|Xi |} ≤ u
i=1,...,n
{
0, si u ≤ 0
=
(P (|X1 | ≤ u))n si u > 0
{
u
si 0 < u < θ
P (|X1 | ≤ u) = θ
1 si u ≥ θ
Ası́, 

0, si u ≤ 0
( u )n
FM (u) = si 0 < u < θ
 θ

1 si u ≥ θ
Como FM (u) es continua y derivable, salvo posiblemente en u = 0, u = θ, entonces
una densidad para M es
n
fM (u) = n un−1 I(0<u<θ) .
θ
b)
∫ ∞
E(M ) = ufM (u)du
−∞
∫
n θ n
= u du
θn 0
n
= θ,
n+1
∫ ∞
E(M ) =
2
u2 fM (u)du
−∞
∫
n θ n+1
= u du
θn 0
n
= θ2 .
n+2
Luego,
( )2
n n n
V (M ) = θ2 − θ = θ2
n+2 n+1 (n + 1)2 (n + 2)
y
E((M − θ)2 ) = V (M − θ) + (E(M − θ))2
= V (M ) + (E(M ) − θ)2
( )2
n n
= 2
θ + θ−θ
(n + 1)2 (n + 2) n+1
2
= θ2 .
(n + 1)(n + 2)
- 563 -
c)
P (|M − θ| > ε) = 1 − P (|M − θ| ≤ ε)

= 1 − P (−ε + θ ≤ M ≤ ε + θ)
= 1 − (FM (ε + θ) − FM (−ε + θ)).
Por a), FM (ε + θ) = 1 y 0 < −ε + θ < θ (pues ε ∈]0, θ[).
Luego, ( )n
−ε + θ
lim P (|M − θ| > ε) = lim = 0.
n→∞ n→∞ θ
Nota: Si ε ≥ θ, entonces FM (ε + θ) = 1 y FM (−ε + θ) = 0 (pues −ε + θ ≤ 0). O

sea, en este caso también se cumple que limn→∞ P (|M − θ| > ε) = 0.
( )n √
d) Si P (M < b) = 0, 05, entonces de a), θb = 0.05, es decir, b = θ n 0.05.
√
Luego, P (M < θ n0.05) = 0.05, de donde
( )
M
P θ<√ = 0.95.
n0.05
Pero, P (M < θ) = FM (θ) = 1, por lo que

( )
M
P M <θ< √ = 0.95.
n0.05
c.s.
Problema 2.9.R: Por la Ley Fuerte de los Grandes Números se tiene que p̂n −−→ p.
n
c.s.
Luego, g(p̂n ) −−→ g(p), con g(x) = √ 1
, x ∈]0, 1[.
n x(1−x)
P
En particular, g(p̂n ) −
→ g(p), es decir,
n
1 P 1
√ →√
− .
p̂n (1 − p̂n ) n p(1 − p)
También, el Teorema del Lı́mite Central aplicado a la sucesión (Xn ; n ≥ 1) implica que
p̂ − p D
√n −
→ Z, con Z ∼ N (0, 1),
p(1−p) n
n
de donde √ D √
n(p̂n − p) −
→ p(1 − p)Z.
n
- 564 -
Por lo tanto, Teorema de Stlusky implica que

1 √ D 1 √
√ →√
n(p̂n − p) − p(1 − p)Z.
p̂n (1 − p̂n ) n p(1 − p)
Pero,
1 √ p̂n − p
√ n(p̂n − p) = √ ,
p̂n (1 − p̂n ) p̂n (1−p̂n )
n
Problema 2.9.S: Notar que, para cada i, E(Xi2 ) = V (Xi )+(E(Xi ))2 = σ 2 +µ2 . Además,
1∑
n
n
Sn2 = · (Xi − X̄)2
n−1 n
i=1
y
∑n ( ∑n )2
1∑
n 2
i=1 Xi i=1 Xi
(Xi − X̄)2 = − .
n n n
i=1
Entonces, Ley Fuerte de los Grandes Números implica que:

∑n
Xi c.s
i) i=1
n −→ µ,
n
∑n
Xi2 c.s
ii) −→ σ 2 + µ2 .
i=1
n
n
( ∑n )2
i=1 Xi c.s
De i) se deduce que n −→ µ2 . Además,
n
n
iii) limn→∞ n−1 = 1.
c.s
Ası́, i), ii), y iii) implican que Sn2 −→ σ 2 .
n
Problema 2.9.T:
a) Si se considera la función h(t) = tδ , para t > 0, entonces h :]0, ∞[→]0, ∞[ es
h (t) = 1δ t δ −1 . Entonces, teorema de transformación
1 1
biyección, h−1 (t) = t δ y dtd −1
de variables implica que



fX (h−1 (t)) d h−1 (t) si t > 0
fX δ (t) = dt

0 e. o. c.
 ( 1
)
 δ
 (t δ )δ−1 exp −
1 (t δ )δ 1 1 −1
tδ si t > 0
= α α δ


0 e. o. c.
 ( )
 1
 exp − t
si t > 0
= α α

0 e. o. c.
- 565 -
En consecuencia, X δ ∼ exp(α−1 ).
El recı́proco se obtiene de forma análoga, considerando la transformación h(t) = t1/δ .
b)
E(X1δ ) + E(X2δ ) + . . . + E(Xnδ )

E(Yn ) =
n
nE(X1δ )
=
n
= E(X1δ )
=α (pues X1δ ∼ exp(α−1 )).
También,
V ar(X1δ + . . . + Xnδ )
V ar(Yn ) =
n2
δ
nV ar(X1 )
=
n2
α 2
= .
n
c) En virtud de los ı́tem anteriores, para todo ε > 0,
α 2
V ar(Yn ) ε2
P (|Yn − α| > ε) ≤ = −−−→ 0,
ε2 n n→∞
P
es decir, Yn −
→ α.
n
Problema 2.9.U:
i)
1 1 nαλ
E(Yn ) = · E(X̄) = · =λ
α α n
1 1 nλ2 α λ2
V ar(Yn ) = · V ar(X̄) = · = ,
α2 α2 n2 αn
- 566 -
ii) De i) y la desigualdad de Chebyshev se tiene que, para ε > 0,
P (|Yn − λ| > ε) = P (|Yn − E(Yn )| > ε)
V ar(Yn )
≤
ε2
λ2 1
= · .
αε2 n
En consecuencia, para todo ε > 0,
lim P (|Yn − λ| > ε) = 0.

n→∞
( )
iii) Como las variables aleatorias X1 , . . . , Xn son iid Gamma α, λ1 , entonces la función
generadora de momentos de X1 + . . . + Xn está dada por
∏
n
MX1 +...+Xn (s) = MXi (s)
i=1
= (MX (s))n
= [(1 − λs)−α ]n
= (1 − λs)−αn (s < λ−1 ).
Por lo tanto,
∑
n ( )
1
T = Xi ∼ Gamma nα, .
λ
i=1
( )
iv) Si α = 2, entonces T ∼ Gamma 2n, λ1 , de donde, para 2
λs < λ1 ,
( ) ( )
2 2 −2n
MZ (s) = MT ·s = 1−λ· s
λ λ
= (1 − 2s)−2n ,
( ) ( )
o sea, Z = 2
λ · T ∼ Gamma 2n, 12 = Gamma 4n 1
2 2 .
,
En conclusión, Z ∼ χ24n .
- 567 -
Problema 2.9.V:
FYn (t) = P (Yn ≤ t) = 1 − P (Yn > t)
= 1 − P (min{X1 , . . . , Xn } > t)
= 1 − P (X1 > t, . . . , Xn > t)
∏
n
=1− P (Xi > t)
i=1
(∫ ∞ )n
=1− fXi (s)ds
t
 (∫ ∞ )n

1 − α −(α+1)
αβ s ds si t ≥ β
= t

0 e. o. c.

 nα −nα
1 − β t si t ≥ β
=


0 e. o. c.
Como FYn es continua y derivable (salvo posiblemente en t = β) entonces, una densi-

dad para Yn está dada por


 d FYn (t) si t > β
fYn (t) = dt

0 e. o. c.
{
nαβ nα t−(nα+1) si t > β
=
0 e. o. c.
En consecuencia, Yn ∼ P areto(nα, β).
- 568 -
β
Además, si ε > 0, entonces 0 < ε+β < 1, y
P (|Yn − β| > ε) = 1 − P (|Yn − β| ≤ ε)
= 1 − P (−ε + β ≤ Yn ≤ ε + β)
= 1 − [FYn (ε + β) − FYn (−ε + β)]
= 1 − FYn (ε + β) + 0
( )nα
β
= ,
ε+β
luego
( )nα
β
lim P (|Yn − β| > ε) = lim
n→∞ n→∞ ε+β
= 0.
Problema 2.9.W:
Para 0 < ε ≤ 1,
P (|n−Xn − 0| > ε) = P (n−Xn > ε)
( )
log(ε)
= P −Xn >
log(n)
( )
log(ε)
= P Xn ≤ −
log(n)
log(ε)
=− −→ 0,
log(n)
log(ε)
usando que 0 < − log(n) < 1, para n suficientemente grande y que Xn tiene distribución
U (0, 1).
- 569 -
Además, si ε > 1, tenemos P (|n−Xn − 0| > ε) = 0.

Por lo tanto,
n−Xn −
P
→ 0.
n
- 570 -
BIBLIOGRAFÍA
[1] Abramowitz, M. and Stegun, I. Eds. (1964): Handboox of Mathematical Functions

with Formulas, Graphs and Mathematical Tables. U.S. Department of Comerce, Na-
tional Bureau of Standards Applied Mathematics Series 55.
[2] Bussab, W. y Morettin, P. (1991): Estadı́stica Básica, Atual Editora, 4a Edición, Sao
Paulo.
[3] Bury, K. (1999): Statistical Distributions in Engineering, Cambridge University
Press, Cambridge, U.K.
[4] Casella, G., Berger, R. (1991): Statistical Inference, Pacific Growe, Wadsworth and
Brooks/Cole, California, U.S.A.
[5] Evans, D. (1992): Probability and its Applications for Engineers, Marcel Dekker, Inc.
New York, U.S.A.
[6] Evans, M., Hastings, N., Peacock, B. (1993): Statistical Distributions, Second Edi-
tion, John Wiley, New York, U.S.A.
[7] James, B. (1981): Probabilidade: um curso de nı́vel intermediário, Projeto Euclides,
CNPq, Rio de Janeiro, Brasil.
[8] Maronna, R. (1995): Probabilidad y Estadı́stica Elementales, Editorial Exac-
ta, La Plata, Argentina.
[9] Pitman, J. (1993): Probability, Springer-Verlag, New York, U.S.A.
[10] Rice, J. (1995): Mathematical Statistics and Data Analysis, Second Edition, Duxbury
Press, California, U.S.A.
[11] Saavedra, E. (2001): Problemas Resueltos en Probabilidades y Estadı́stica. Central
de Publicaciones, Facultad de Ciencia, Universidad de Santiago de Chile.
571
ÍNDICE DE MATERIAS
Aproximación, 321 Cuantiles, 155, 202

a los cuantiles normales, 172, 179 Cuociente de variables aleatorias, 261, 264
con cuantiles normales Curva Normal, 164
al cuantil t-student, 179
al cuantil chi-cuadrado, 179 Densidad
de poisson a la binomial, 138 t-student, 176
normal a la binomial, 330 beta, 163
normal a la poisson, 332 chi-cuadrado, 174
Azar, 1 conjunta, 225
de probabilidad, 146, 149
Bayes, 105
exponencial, 159
Bernoulli, 53
gamma, 161
Campana de Gauss, 164 normal, 164
Convergencia otras, 179
casi segura, 382, 389 uniforme, 157
en Lp , 383 Desigualdad
en distribución, 383, 388 de Cauchy, 301
en probabilidad, 382, 387 de Chebyshev, 212
Convolución, 259 de Jensen, 219
Coordenadas polares, 273 de Markov, 210
Correlación, 298 Desviación estándar, 121, 195
Covarianza, 290 Diagrama
de combinaciones lineales, 293 de cuantiles, 202
matriz, 296 de Venn, 58
Criterio Distribución
de convergencia en distribución, 391 p-variada, 373
caso discreto, 392 t-student, 178
de Lévy, 391 bernoulli, 126
de Scheffé, 393 beta, 164
de Slutsky, 397 binomial, 125
573
Índice de Materias
binomial negativa, 131 gamma, 161

Cauchy, 192 generadora de momentos, 302
chi-cuadrado, 176 generadora de momentos multivari-
condicional ada, 310
caso continuo, 338 inversa, 155
caso discreto, 333
caso normal bivariado, 342 iid, 268
conjunta, 223 Independencia
continua, 146 de sucesos, 101, 102
discreta, 116 de variables aleatorias, 246, 247
exponencial, 161 Jacobiano, 267
geométrica, 128
marginal, 236 Kolmogorov, 69
multinomial, 233
normal, 172 Laplace, 17
normal bivariada, 235, 270 Ley
poisson, 133 débil de Chebyshev, 389
uniforme bivariada, 234 de los grandes números, 388
uniforme discreta, 123 fuerte de Kolmogorov, 390
uniforme sobre ]a, b[, 158
Método
Error cuadrático medio, 362 captura-recaptura, 19
de Monte Carlo, 295
Espacio muestral, 2
de rechazo, 359
Esperanza
Mediana, 156
condicional, 347, 351
Mejor predictor, 363
de una transformación de un vector
Mejor predictor lineal, 363, 369, 370
aleatorio, 281
Modelo
de variable aleatoria continua, 188,
de Poisson temporal, 138
194
de probabilidades
de variable aleatoria discreta, 121, 122
Binomial, 46
en general, 193
de Laplace, 13
Esquema Bernoulli, 127
Kolmogorov, 57
Evento, 2
Muestreo con y sin reemplazo, 17
Experimento aleatorio, 4, 7, 11, 20, 23,
32 Predicción, 362
Principio de sustitución, 354
Función Probabilidad, 13, 46, 56, 77
caracterı́stica, 312 condicional, 73, 344
convexa, 218
de cuantı́a, 116 Recorrido
de cuantı́a conjunta, 225 de variable aleatoria continua, 146
de densidad conjunta, 225, 226 de variable aleatoria discreta, 116
de distribución acumulada, 117, 118, de vector aleatorio, 225
147, 150 Regla
de distribución conjunta, 223, 225, de inclusión-exclusión, 63
226 de la aditividad, 61
- 574 -
Índice de Materias
de la diferencia, 61
de la diferencia generalizada, 62
del complemento, 60
del producto, 78
del producto generalizado, 84
Simulación, 187, 273

Suma de variables
chi-cuadrado, 310
continuas, 230, 258, 259
discretas, 256
exponenciales, 259
gamma, 309
normales, 260
poisson, 250
Tabla
t-student, 178
chi-cuadrado, 176
normal, 170
Teorema
de Bayes, 95
de probabilidades totales, 92, 344
de transformación de variables caso
bidimensional, 267
de transformación de variables caso
unidimensional, 184
del lı́mite central, 321
Transformación
de un vector aleatorio, 265
de una variable aleatoria, 180
Variable aleatoria
continua, 146
discreta, 116
Varianza
condicional, 348, 351
de una suma, 293
de variable aleatoria continua, 195
de variable aleatoria discreta, 121
Vector aleatorio, 223
- 575 -

Cálculo de Probabilidades - Saavedra PDF

Încărcat de

Informații document

Titlu original

Drepturi de autor

Formate disponibile

Partajați acest document

Partajați sau inserați document

Opțiuni de partajare

Vi se pare util acest document?

Este necorespunzător acest conținut?

Drepturi de autor:

Formate disponibile

Cálculo de Probabilidades - Saavedra PDF

Încărcat de

Drepturi de autor:

Formate disponibile

EUGENIO SAAVEDRA GALLARDO

© Eugenio Saavedra Gallardo

Inscripción Nº: 136.819

Portada y diseño: Patricio Andrade

Versión actualizada, octubre de 2012

Impreso en Ril Editores

Proyecto financiado por el Fondo Nacional de Fomento del Libro y la Lectura.

Santiago de Chile, Septiembre de 2003

Prólogo a la Segunda Edición

Esta edición diﬁere de la primera sólo en la corrección de algunos errores tipográﬁcos y de

Santiago de Chile, Enero de 2012

2 VARIABLES ALEATORIAS 111

SOLUCIONES A PROBLEMAS PROPUESTOS 405

Índice de Materias 573

La conceptualización matemática del azar comienza por la noción de experiencia aleato-

Consideremos, a tı́tulo de ejemplo, algunas experiencias aleatorias simples:

(1) Lanzamiento de dos dados;

(2) Observación del genotipo del descendiente de dos padres de genotipos Aa y aA

(4) Precio del cobre en la Bolsa de Metales de Londres al cierre de hoy;

(5) Número de habitantes que tendrá Chile en el año 2090.

A modo de ejemplo, en el caso (1), los resultados posibles de la experiencia considerada

(los tiros de la moneda han sido “simulados” en un computador haciendo innecesario el

1.2 Modelo de Laplace

En esta sección estudiaremos una serie de experimentos aleatorios relativamente simples,

Entonces, en las 15 tiradas, salieron 6 sellos y 9 caras.

o sea, en este caso salieron 10 sellos y 5 caras.

N◦ de veces N◦ de veces N◦ de veces Frecuencia Relativa Frecuencia Relativa

N◦ de veces N◦ de veces N◦ de veces Frecuencia relativa Frecuencia relativa

Figura 1.2.2: Frecuencia relativa de los sellos según la Tabla 1.2.2

Como, por ejemplo, A = {0}, es subconjunto de Ω, entonces A es un suceso. En este caso,

Experimento 2: Se lanza un dado “común” y se observa su cara superior. Al igual

en 5 ocasiones salió uno,

en 1 ocasión salió dos,

en 2 ocasiones salió tres,

en 3 ocasiones salió cuatro,

en 4 ocasiones salió cinco,

en 5 ocasiones salió seis.

Realizamos nuevamente, 20 tiradas del dado, obteniéndose que

en 3 ocasiones salió uno,

en 2 ocasión salió dos,

en 6 ocasiones salió tres,

en 5 ocasiones salió cuatro,

en 4 ocasiones salió cinco,

en 0 ocasiones salió seis.

Realiza 20 tiradas de un dado común, ¿en cuántas ocasiones te salió 1, 2, 3, 4, 5 ó

La Tabla 1.2.3a, muestra los resultados obtenidos en diferentes simulaciones.

Columna uno: Indica el número de veces que se tira el dado.

N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces N◦ de veces

La primera columna de la Tabla siguiente, Tabla 1.2.3b, es la columna dos de la Tabla

Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia Frecuencia

..... ........ ..............................................................................................................................

0 25 50 75 100 125 150 175 200 225 250 N◦ de tiradas

En este experimento, el espacio muestral resultante es

Si Ai = {i}, para i ∈ {1, 2, 3, 4, 5, 6}, entonces Ai representa el suceso salió el número i al

P (A) = P ({2}) + P ({4}) + P ({6})

Experimento 3: Se lanzan tres monedas normales y se observa si salió cara o sello en

Moneda 1 Moneda 2 Moneda 3

Por ejemplo, en cinco oportunidades las tres monedas resultaron sello.

¿Cuál es la probabilidad de que en dos monedas salga cara y en una sello?

¿Qué consideraciones se han tenido en cuenta en las deﬁniciones de probabili-

Los tres experimentos aleatorios tienen las siguientes caracterı́sticas en común:

1. Existe número ﬁnito (digamos n) de resultados posibles del experimento. Cada